DE102021111096A1 - Per visuellem verhalten geführte objekterkennung - Google Patents

Per visuellem verhalten geführte objekterkennung Download PDF

Info

Publication number
DE102021111096A1
DE102021111096A1 DE102021111096.3A DE102021111096A DE102021111096A1 DE 102021111096 A1 DE102021111096 A1 DE 102021111096A1 DE 102021111096 A DE102021111096 A DE 102021111096A DE 102021111096 A1 DE102021111096 A1 DE 102021111096A1
Authority
DE
Germany
Prior art keywords
eye
neural network
deep neural
feature map
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021111096.3A
Other languages
English (en)
Inventor
Apurbaa MALLIK
Vijay Nagasamy
Aniruddh RAVINDRAN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102021111096A1 publication Critical patent/DE102021111096A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0088Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/225Direction of gaze
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Diese Offenbarung stellt eine per visuellem Verhalten geführte Objekterkennung bereit. Es werden ein Trainingssystem für ein tiefes neuronales Netzwerk und ein Trainingsverfahren offenbart. Das System und/oder das Verfahren kann/können Folgendes beinhalten: Empfangen, von einem Eye-Tracking-System, das einem Sensor zugeordnet ist, eines Bildrahmens, der aufgenommen wird, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen von Augenbewegungsdaten, die dem Bildrahmen entsprechen, von dem Eye-Tracking-System; und iteratives Trainieren des tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist. Das tiefe neuronale Netzwerk erzeugt mindestens eine Merkmalskarte und bestimmt basierend auf den Augenbewegungsdaten eine vorgeschlagene Region, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.

Description

  • GEBIET DER TECHNIK
  • Diese Offenbarung betrifft im Allgemeinen tiefe neuronale Netzwerke.
  • ALLGEMEINER STAND DER TECHNIK
  • Autonome Fahrzeuge können eine computergesteuerte Lenkung und Geschwindigkeitssteuerung basierend auf Sensoreingaben ausführen. In einigen Fällen können autonome Fahrzeuge tiefe neuronale Netzwerke (deep neural networks - DNNs) verwenden, um viele Aufgaben zum Verstehen von Bildern durchzuführen, einschließlich Klassifizierung, Segmentierung und Untertitelung. Zum Beispiel können tiefe neuronale Netzwerke ein Bild als Eingabe verwenden, verschiedenen Aspekten/Objekten, die in dem Bild abgebildet sind, einen Wichtigkeitsgrad zuweisen und die Aspekte/Objekte voneinander abgrenzen.
  • KURZDARSTELLUNG
  • Ein Verfahren zum Trainieren eines tiefen neuronalen Netzwerkes kann Folgendes beinhalten: Empfangen, von einem Eye-Tracking-System, das einem Sensor zugeordnet ist, eines Bildrahmens, der aufgenommen wird, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen von Augenbewegungsdaten, die dem Bildrahmen entsprechen, von dem Eye-Tracking-System; und iteratives Trainieren des tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist. Das tiefe neuronale Netzwerk erzeugt mindestens eine Merkmalskarte und bestimmt basierend auf den Augenbewegungsdaten eine vorgeschlagene Region, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
  • In anderen Merkmalen handelt es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System und es wird durch den Fahrzeugführer getragen, während der Bildrahmen durch den Sensor aufgenommen wird.
  • In anderen Merkmalen umfasst das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (convolutional neural network - CNN), wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
  • In anderen Merkmalen umfasst das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
  • In anderen Merkmalen umfasst das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
  • In anderen Merkmalen umfasst das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
  • In anderen Merkmalen ist der Bildrahmen einer von einer Vielzahl von Videorahmen, die von dem Sensor empfangen wird.
  • In anderen Merkmalen umfasst das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
  • In anderen Merkmalen beinhaltet das Verfahren das Installieren des trainierten tiefen neuronalen Netzwerkes in einem Fahrzeug; und das Verwenden des trainierten tiefen neuronalen Netzwerkes, um das Fahrzeug in einem autonomen Modus zu navigieren.
  • In anderen Merkmalen umfassen die Augenbewegungsdaten eine oder mehrere der folgenden Informationen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.
  • Gemäß mindestens einem zusätzlichen veranschaulichenden Beispiel ist ein System beschrieben, das Folgendes umfasst: ein Eye-Tracking-System einschließlich eines Sensors; einen Computer, der kommunikativ an den Sensor und das Eye-Tracking-System gekoppelt ist und einen oder mehrere Prozessoren und einen Speicher umfasst, auf dem Anweisungen gespeichert sind, die durch den einen oder die mehreren Prozessoren ausgeführt werden können, wobei die Anweisungen bei Auführung durch den Prozessor den Prozessor zu Folgendem veranlassen: Empfangen eines Bildrahmens von dem Eye-Tracking-System, der aufgenommen wurde, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen, von dem Eye-Tracking-System, von Augenbewegungsdaten, die dem Bildrahmen entsprechen; und iteratives Trainieren eines tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist. Das tiefe neuronale Netzwerk erzeugt mindestens eine Merkmalskarte und bestimmt basierend auf den Augenbewegungsdaten eine vorgeschlagene Region, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
  • Gemäß dem mindestens einen vorstehend dargelegten Beispiel umfasst das tiefe neuronale Netzwerk einen Fußgängererkennungsalgorithmus, ein erstes tiefes neuronales Netzwerk (erstes DNN), ein zweites tiefes neuronales Netzwerk (zweites DNN) und ein drittes tiefes neuronales Netzwerk (drittes DNN), wobei der Bildrahmen eine Eingabe in jedes von dem Fußgängererkennungsalgorithmus und dem zweiten DNN darstellt, wobei eine Ausgabe des ersten und des zweiten DNN Eingaben in das dritte DNN darstellt, wobei eine Ausgabe des dritten DNN eine Angabe des einen Zielfußgängers oder der mehreren Zielfußgänger darstellt.
  • Gemäß dem mindestens einen vorstehend dargelegten Beispiel ist eine Rechenvorrichtung offenbart, die mindestens einen Prozessor und mindestens einen Speicher umfasst und dazu programmiert ist, eine beliebige Kombination aus den Beispielen für das/die vorstehend dargelegte(n) Verfahren auszuführen.
  • Gemäß dem mindestens einen Beispiel ist ein Computerprogrammprodukt offenbart, das ein computerlesbares Medium beinhaltet, auf dem Anweisungen gespeichert sind, die durch einen Computerprozessor ausgeführt werden können, wobei die Anweisungen des Computerprogrammprodukts eine beliebige Kombination aus den Beispielen für das/die vorstehend dargelegte(n) Verfahren und/oder eine beliebige Kombination der Anweisungen, die durch den einen oder die mehreren Prozessoren ausgeführt werden können, beinhalten, wie vorstehend und in dieser Schrift dargelegt.
  • In anderen Merkmalen handelt es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System und es wird durch den Fahrzeugführer getragen, während der Bildrahmen durch den Sensor aufgenommen wird.
  • In anderen Merkmalen umfasst das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (CNN), wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
  • In anderen Merkmalen umfasst das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
  • In anderen Merkmalen umfasst das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
  • In anderen Merkmalen umfasst das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
  • In anderen Merkmalen ist der Bildrahmen einer von einer Vielzahl von Videorahmen, die von dem Sensor empfangen wird.
  • In anderen Merkmalen umfasst das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
  • In anderen Merkmalen veranlassen die Anweisungen bei Ausführung durch den Prozessor den Prozessor zu Folgendem: Navigieren des Fahrzeugs in einem autonomen Modus basierend auf dem Objekt von Interesse.
  • In anderen Merkmalen umfassen die Augenbewegungsdaten eine oder mehrere der folgenden Informationen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.
  • Figurenliste
    • 1 ist ein schematisches Diagramm eines Systems für ein tiefes neuronales Netzwerk, das ein Fahrzeug (von dem nur ein Abschnitt gezeigt ist), ein beispielhaftes Eye-Tracking-System und einen Computer beinhaltet.
    • 2 ist ein beispielhaftes schematisches Diagramm des Eye-Tracking-Systems.
    • 3 ist ein beispielhaftes schematisches Diagramm des Computers.
    • 4 ist ein schematisches Diagramm, das ein Beispiel für ein tiefes neuronalen Netzwerk veranschaulicht.
    • 5 ist ein schematisches Diagramm, das ein Beispiel für ein tiefes neuronales Netzwerk (DNN) des tiefen neuronalen Netzwerkes veranschaulicht.
    • 6 ist ein Diagramm einer beispielhaften Merkmalskarte, die durch das tiefe neuronale Netzwerk erzeugt wird.
    • 7 ist ein schematisches Diagramm, das ein Beispiel für einen Bildrahmen veranschaulicht, der ein oder mehrere Objekte enthält, die für einen Fahrzeugführer eines Fahrzeugs von Interesse sind.
    • 8 ist ein Ablaufdiagramm, das einen Prozess zum Trainieren des tiefen neuronalen Netzwerkes zum Bestimmen eines oder mehrerer Zielobjekte veranschaulicht.
    • 9 ist ein Ablaufdiagramm, das einen Prozess zum Verwenden des trainierten tiefen neuronalen Netzwerkes veranschaulicht.
  • DETAILLIERTE BESCHREIBUNG
  • Die vorliegende Offenbarung offenbart ein System, das eine auf einer Fahrerpriorität basierende Objekterkennung und -klassifizierung bereitstellt. In einem oder mehreren Beispielen kann das System ein tiefes neuronales Netzwerk beinhalten. Das tiefe neuronale Netzwerk kann ein schnelleres R-CNN (neuronales Faltungsnetzwerk) beinhalten. Das tiefe neuronale Netzwerk kann eine Bildsequenz empfangen, die durch ein Eye-Tracking-System aufgenommen wurde. Das Eye-Tracking-System kann die Bildsequenz aufnehmen und die Augenbewegungsdaten eines Benutzers bestimmen. Unter Verwendung der Augenbewegungsdaten und der Bildsequenz erzeugt das tiefe neuronale Netzwerk Regionsvorschläge, die den Augenbewegungsdaten entsprechen. Infolgedessen kann das tiefe neuronale Netzwerk die Anzahl von Regionsvorschlägen reduzieren, die durch typische schnellere R-CNN-Systeme erzeugt werden.
  • Unter jetziger Bezugnahme auf die Figuren, in denen gleiche Bezugszeichen gleiche oder ähnliche Merkmale und/oder Funktionen angeben, ist ein Trainingssystem 10, das ein tiefes neuronales Netzwerk beinhaltet, und eine Technik zum Verwenden des Trainingssystems 10 offenbart. Sobald es trainiert ist, kann das tiefe neuronale Netzwerk in einem Fahrzeug 12 installiert werden, was es dem Fahrzeug 12 ermöglicht, in einem autonomen Modus zu navigieren. Insbesondere kann das tiefe neuronale Netzwerk darauf trainiert werden, Objekte von Interesse zu erkennen und zu klassifizieren. Zum Beispiel kann das tiefe neuronale Netzwerk das visuelle Verhalten des Menschen nachahmen, um einen Schwerpunkt auf Objekte zu legen, die mit größerer Wahrscheinlichkeit die Aufmerksamkeit eines menschlichen Fahrers erhalten würden. Diese Objekte können unter anderem Verkehrszeichen, Fußgänger und/oder Fahrräder, welche die Straße überqueren, Autos in einer bestimmten Umgebung und/oder Schilder innerhalb eines bestimmten Abstands beinhalten. Das trainierte tiefe neuronale Netzwerk verwendet nur Bilddaten, sodass das tiefe neuronale Netzwerk in Bezug auf Systeme, die Bilddaten in Verbindung mit einer Anordnung von Sensoren, z. B. LIDAR, Radar usw., verwenden, relativ wenig rechenintensiv ist.
  • Neuronale Netzwerke können dadurch trainiert werden, indem bestimmte Merkmale ausgewählt werden, um das neuronale Netzwerk zu lehren, sich in einer gewünschten Weise zu verhalten. Wie in dieser Schrift erörtert, wird jedoch das Trainieren des tiefen neuronalen Netzwerkes des Systems 10 (durch überwachtes Lernen) verbessert, indem Daten verwendet werden, die von einem erfahrenen menschlichen Fahrer/Fahrzeugführer abgeleitet sind. Das Trainieren des tiefen neuronalen Netzwerkes beinhaltet das Verwenden eines Eye-Tracking-Systems 14, das die Augenbewegungsdaten des Fahrzeugführers bestimmt, während der Fahrzeugführer das Fahrzeug 12 steuert. Insbesondere beinhaltet die Ausgabe des Eye-Tracking-Systems 14 die Augenbewegungen und -position des Fahrzeugführers, die mit einer Anzahl von Merkmalen in einem aufgenommenen Bild korrelieren; und einige dieser Merkmale beinhalten gegebenenfalls Objekte innerhalb des Sichtfeldes des Fahrzeugführers. Somit wird beim Trainieren des tiefen neuronalen Netzwerkes davon ausgegangen, dass die Augenbewegungsdaten eine bessere Identifizierung relevanter Merkmale darstellen, als wenn ein Programmierer Merkmale auswählt - da das, was der Fahrzeugführer sieht oder was die Aufmerksamkeit des Fahrzeugführers während des Fahrens durch den Fahrzeugführer erregt, tendenziell einen größeren Einfluss auf das Verhalten des Fahrzeugführers und die Entscheidungsfindung des Fahrzeugführers hat. Des Weiteren wird durch die Verwendung dieser Trainingstechnik die Recheneffizienz beim Trainieren des tiefen neuronalen Netzwerkes verbessert.
  • Sobald es trainiert ist, kann das tiefe neuronale Netzwerk auf zahlreichen Fahrzeugcomputern installiert und dazu verwendet werden, die jeweiligen Fahrzeuge in Szenarien mit Fußgängern zu navigieren. Ferner erhöht das trainierte tiefe neuronale Netzwerk, sobald es auf einem bordeigenen Computer installiert ist, die Recheneffizienz hinsichtlich der Navigation. Zum Beispiel macht ein Betreiben in einem autonomen Modus üblicherweise eine Fußgängernachverfolgung - d. h. ein Vorhersagen der Bewegungsbahnen aller Fußgänger in einer Szene - erforderlich. Dies kann jedoch rechenintensiv sein. Unter Verwendung des in dieser Schrift beschriebenen trainierten tiefen neuronalen Netzwerkes können ein Teilsatz von Fußgängern (in dieser Schrift als Zielfußgänger bezeichnet) und/oder Zielobjekten sowie Bewegungsbahnen nur für diesen Teilsatz von Fußgängern bestimmt werden. Somit wird durch die Verwendung des trainierten tiefen neuronalen Netzwerkes die Effizienz derartiger bordeigener Berechnungen optimiert.
  • 1-3 veranschaulichen das Trainingssystem 10, welches das Fahrzeug 12, das Eye-Tracking-System 14 (das z. B. von dem menschlichen Fahrzeugführer auf einem Fahrersitz 16 des Fahrzeugs 12 getragen werden kann) und einen Computer 18 umfassen kann, der ein tiefes neuronales Netzwerk nutzt.
  • In 1 ist das veranschaulichte Fahrzeug 12 ein Personenkraftwagen; dies ist jedoch nur ein Beispiel. Das Fahrzeug 12 könnte stattdessen ein Truck, ein Geländewagen (sport utility vehicle - SUV), ein Wohnmobil, ein Bus, ein Wasserfahrzeug, ein Luftfahrzeug oder ein beliebiges anderes geeignetes Fahrzeug sein, das eine Fahrersteuerschnittstelle 20 umfasst (wie z. B. ein Lenkrad, einen Beschleunigungsregler, eine Bremssteuerung usw.). Das Fahrzeug 12 kann dazu konfiguriert sein, in einem beliebigen geeigneten teilautonomen oder vollautonomen Modus betrieben zu werden (z. B. einschließlich Navigation ohne menschliche Interaktion).
  • Wie in 1-2 gezeigt, kann das Eye-Tracking-System 14 eine beliebige Vorrichtung umfassen, die Augenbewegungsdaten des Fahrzeugführers überwacht und wiederholt einen Blickpunkt bestimmt (z. B., wohin der Fahrzeugführer schaut), der einem aufgenommenen Bild entspricht. In einigen Beispielen umfasst das Eye-Tracking-System 14 einen nach vorne gerichteten Sensor 22 (z. B. eine Rot-Grün-Blau(RGB)-Kamera), der gleichzeitig ein Video aufnimmt, das für das Sichtfeld (field of view - FOV) des Fahrzeugführers repräsentativ ist, mehrere Augen überwachende Kameras 24, mehrere Beleuchtungseinrichtungen 26, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer 28, der dazu konfiguriert ist, wiederholt Augenbewegungsdaten des Fahrzeugführers für eine Vielzahl von Bildrahmen von Videodaten von dem Sensor 22 zu bestimmen. Bei dem Eye-Tracking-System 14 kann es sich um ein sogenanntes am Körper getragenes Eye-Tracking-System handeln oder es kann sich um ein in dem Fahrzeug 12 montiertes System handeln. Eine nicht einschränkende kommerzielle Umsetzung des Eye-Tracking-Systems 14 ist die „Pro Glasses 2“ von Tobii AB, die ein Brillengestell, Linsen und die vorstehend erörterte Hardware umfasst. In weiteren Beispielen sind/ist der Sensor 22 und/oder der Computer 28 unter Umständen nicht Teil einer gemeinsamen Baugruppe mit der/den Kamera(s) 24 und der/den Beleuchtungseinrichtung(en) 26 - z.B. könnte der Sensor 22 an anderer Stelle in dem Fahrzeug 12 montiert sein oder dergleichen.
  • Nicht einschränkende Beispiele für Augenbewegungsdaten beinhalten Sätze von Informationen für jeden Rahmen (i) des Videos; wobei z. B. i ein ganzzahliger Wert ist (z. B. i = 0 bis N), wobei N die Gesamtmenge von Rahmen des Videos ist. Jeder Satz von Informationen kann eines oder mehrere der folgenden veranschaulichten Augenbewegungsdatenkriterien beinhalten: einen Zeitstempel (des Rahmens), einen Blickpunkt des linkes Auges (z. B. einen (x, y)-Wert innerhalb des Rahmens (i)), einen Blickpunkt des rechten Auges (z. B. einen (x, y)-Wert innerhalb des Rahmens (i)), eine dreidimensionale (3D-)Blickposition des linken Auges (z. B. einen (x, y, z)-Wert in Bezug auf das Sichtfeld des Fahrzeugführers), eine 3D-Blickposition des rechten Auges (z. B. einen (x, y, z)-Wert in Bezug auf das Sichtfeld des Fahrzeugführers), eine kombinierte 3D-Blickposition der Augen (z. B. sowohl des linken als auch des rechten Auges), eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges (der z. B. eine Genauigkeitswahrscheinlichkeit bezogen auf die vorangehend genannten Kriterien angibt), einen Konfidenzparameter des rechten Auges (der z. B. eine Genauigkeitswahrscheinlichkeit bezogen auf die vorangehend genannten Kriterien angibt), einen Parameter einer galvanischen Hautreaktion (galvanic skin response - GSR), einen dreiachsigen Beschleunigungswert (der z. B. Verschiebungskräfte gemäß einem dreiräumigen Referenzrahmens angibt), einen dreiachsigen Gyroskopwert (der z. B. eine Neigungs-, Roll- und Gierkraft gemäß demselben Referenzrahmen angibt) und einen zugeordneten Blickpunkt (und zwar eine Korrelation des Blickpunktwertes des rechten und des linken Auges und der 3D-Blickposition des linken und rechten Auges sowie der kombinierten 3D-Blickposition der Augen mit dem Rahmen (i)). Zusätzliche Beispiele für Kriterien können mit den vorstehenden Beispielkriterien teilweise oder vollständig kombiniert werden. Somit versteht es sich, dass die Kamera(s) 24 und die Beleuchtungseinrichtung(en) 26 auf das rechte und linke Auge des Fahrzeugführers gerichtet sein können und der Computer 28 diese Informationen (zusammen mit Sensordaten von dem Sensor 22) verwendet, um die vorstehenden Kriterien zu berechnen.
  • Der Computer 18 (1 und 3) kann einen oder mehrere Prozessoren 40 (zu Veranschaulichungszwecken ist nur einer in dem Diagramm gezeigt), einen Speicher 42 und eine Vielzahl von Anweisungen 44 (nur als Beispiel, Softwarecode) umfassen, die in dem Speicher 42 gespeichert sind und durch den/die Prozessor(en) 40 ausgeführt werden können. Der/die Prozessor(en) 40 kann/können dazu programmiert sein, digitale Anweisungen zu verarbeiten und/oder auszuführen, um mindestens einige der in dieser Schrift beschriebenen Aufgaben auszuführen. Nicht einschränkende Beispiele für den/die Prozessor(en) 40 beinhalten eines oder mehrere von einem Mikroprozessor, einem Mikrocontroller oder einer Steuerung, einer anwendungsspezifischen integrierten Schaltung (application specific integrated circuit - ASIC), einem feldprogrammierbaren Gate-Array (field-programmable gate array - FPGA), einer oder mehreren elektrischen Schaltungen, die diskrete digitale und/oder analoge elektronische Komponenten umfassen, die angeordnet sind, um vorbestimmte Aufgaben oder Anweisungen durchzuführen, usw. - um nur einige zu nennen. In mindestens einem Beispiel liest/lesen der/die Prozessor(en) 40 aus dem Speicher 42 aus und führt/führen mehrere Sätze von Anweisungen (z. B. einschließlich der Anweisungen 44) aus, die als ein Computerprogrammprodukt ausgebildet sein können, das auf einem nichttransitorischen computerlesbaren Speichermedium (wie z. B. dem Speicher 42) gespeichert ist. Nicht einschränkende Beispiele für die Anweisungen 44 werden nachfolgend in den unter Verwendung von Ablaufdiagrammen veranschaulichten Prozessen und an anderer Stelle in dieser Schrift beschrieben, wobei diese und andere Anweisungen in einer beliebigen geeigneten Sequenz ausgeführt werden können, sofern nicht anders angegeben. Die Anweisungen und die nachfolgend beschriebenen beispielhaften Prozesse sind lediglich Ausführungsformen und sollen nicht einschränkend sein.
  • Der Speicher 42 kann ein beliebiges nichttransitorisches computernutzbares oder -lesbares Medium beinhalten, das eine(n) oder mehrere Speichervorrichtungen oder Speicherartikel einschließen kann. Zu beispielhaften nichttransitorischen computernutzbaren Speichervorrichtungen gehören eine herkömmliche Festplatte, ein Festkörperspeicher, ein Direktzugriffsspeicher (random access memory - RAM), ein Festwertspeicher (read-only memory - ROM), ein löschbarer programmierbarer Festwertspeicher (erasable programmable read-only memory - EPROM), ein elektrisch löschbarer programmierbarer Festwertspeicher (electrically erasable programmable read-only memory - EEPROM) und beliebige andere flüchtige oder nichtflüchtige Medien. Nichtflüchtige Medien schließen zum Beispiel optische Platten oder Magnetplatten und anderen dauerhaften Speicher ein und flüchtige Medien können zum Beispiel auch einen dynamischen Direktzugriffsspeicher (dynamic random-access memory - DRAM) einschließen. Diese Speichervorrichtungen sind nicht einschränkende Beispiele; z. B. gibt es andere Formen computerlesbarer Medien, die magnetische Medien, Compact-Disc-ROM (CD-ROMs), Digital Video Disc (DVDs), andere optische Medien, einen beliebigen geeigneten Speicherchip oder eine beliebige geeignete Speicherkassette oder ein beliebiges anderes Medium, das ein Computer auslesen kann, einschließen. Wie vorstehend erörtert, können in dem Speicher 42 ein oder mehrere Sätze von Anweisungen (wie z. B. die Anweisungen 44) gespeichert sein, die als Software, Firmware oder andere Programmieranweisungen ausgebildet sein können, welche durch den/die Prozessor(en) 40 ausgeführt werden können - einschließlich unter anderem der in dieser Schrift dargelegten Anweisungsbeispiele. Im Betrieb kann der/können die Prozessor(en) 40 Daten aus dem Speicher 42 auslesen und/oder Daten in diesen schreiben.
  • Die Anweisungen 44 (die in dem Speicher 42 gespeichert sind und durch den/die Prozessor(en) 40 ausgeführt werden können) können einen beliebigen geeigneten Satz von Anweisungen zum Ausführen der in dieser Schrift beschriebenen Verfahren umfassen. Wie nachstehend ausführlicher beschrieben, können die Anweisungen 44 ein tiefes neuronales Netzwerk 80 umfassen. Wie vorstehend gezeigt, beinhaltet das tiefe neuronale Netzwerk 80 eine Eingabeschicht 82, eine oder mehrere verdeckte Schichten 84, 86 (zwei sind beispielhaft gezeigt; es kann jedoch eine beliebige geeignete Menge von Schichten verwendet werden) und eine Ausgabeschicht 88, wobei jede Schicht eine Vielzahl von Neuronen (j) umfasst (auch als „Knoten“ bezeichnet; wobei jedes Neuron einen eindeutigen Index) aufweist. In einem vollständig verbundenen neuronalen Netzwerk ist jedes Neuron einer gegebenen Schicht mit jedem der Neuronen in einer nachfolgenden Schicht verbunden (wie gezeigt). Dreißig Neuronen sind in 4 gezeigt; dies ist jedoch lediglich eine beispielhafte Menge; die Schichten 82-88 können jeweils beliebige geeignete Mengen von Neuronen aufweisen.
  • Sätze von Eingaben in die Eingabeschicht 82 können ein Eingabebild umfassen, das durch einem vorwärts gerichteten Sensor 22 erzeugt wird. In Bezug auf andere Schichten (z. B. die Schichten 84-88) können die Sätze von Eingaben für jedes Neuron durch die Verbindungen von einer vorangehenden Schicht dargestellt werden. Zum Beispiel stellt in dem Diagramm jedes der Neuronen j1-j8 (der Schicht 82) eine Eingabe für j9 (der Schicht 84) bereit und es kann jede dieser Eingaben mit einer entsprechenden Gewichtung multipliziert werden. In einigen Beispielen können die gewichteten Eingaben gemäß einer Eingabefunktion summiert werden, um eine Nettoeingabe zu ergeben (die gemäß einem entsprechenden Bias-Wert eingestellt werden kann oder nicht). In einigen Beispielen kann die entsprechende Nettoeingabe an eine vorbestimmte neuronale Netzwerkfunktion (wie z. B. eine Aktivierungsfunktion oder dergleichen) bereitgestellt werden, die wiederum eine Ausgabe bereitstellt. Dies kann auf ähnliche Weise für jedes Neuron der entsprechenden Schicht wiederholt werden. Wie veranschaulicht, kann die Ausgabe eines entsprechenden Neurons eine Eingabe in eine Vielzahl von Neuronen in einer nachfolgenden Schicht darstellen oder die Ausgabeschicht 88 umfassen.
  • 5 veranschaulicht eine beispielhafte Umsetzung des tiefen neuronalen Netzwerkes 80. Das tiefe neuronale Netzwerk 80 kann ein neuronales Faltungsnetzwerk (CNN) beinhalten, das dazu ausgelegt ist, Merkmalskarten (i) basierend auf jedem Bildrahmen (i) zu extrahieren. Gemäß einem nicht einschränkenden Beispiel kann das tiefe neuronale Netzwerk 80 ein neuronales Faltungsnetzwerk 90, ein Regionsvorschlagsnetzwerk (region proposal network - RPN) 92, eine Pooling-Schicht 94 der Region von Interesse (region-of-interest - ROI), eine erste vollständig verbundene Schicht 96 und eine zweite vollständig verbundene Schicht 98 beinhalten. Die Faltungsschicht 90 kann den Bildrahmen (i) von dem Eye-Tracking-System 14 empfangen und den Bildrahmen (i) unter Verwendung eines Kernels oder Filters falten - was z. B. eine Vielzahl von gefalteten Merkmalen, z. B. Merkmalskarten, ergibt. Die Merkmalskarten können einen oder mehrere Anker in der gesamten Merkmalskarte zur Vorschlagerzeugung beinhalten. Die Anker können feste Begrenzungsrahmen sein, die in der gesamten Merkmalskarte für einen oder mehrere Punkte innerhalb der Merkmalskarte angeordnet sind, und können anfänglich jedem Pixel entsprechen. Typischerweise (wenngleich nicht erforderlich) können mehrere Iterationen von Faltung vorhanden sein. Andere Aspekte und Faltungstechniken können ebenfalls eingesetzt werden.
  • Die Merkmalskarten werden dem RPN 92 zur Erzeugung von Regionsvorschlägen bereitgestellt. Wie gezeigt, empfängt das RPN 92 auch projizierte Augenkoordinaten 91. Die projizierten Augenkoordinaten 91 können Augenblickpositionsdaten umfassen, die durch das Eye-Tracking-System 14 erzeugt werden. Zum Beispiel können die projizierten Augenkoordinaten 91 Koordinaten entsprechen, z. B. x- und y-Werten, basierend auf dem Bildrahmen (i). In einer oder mehreren Umsetzungen werden die projizierten Augenkoordinaten 91 unter Verwendung einer geeigneten Abbildungsfunktion von visuellen Koordinaten auf Merkmalskartenkoordinaten abgebildet. Das RPN 92 erzeugt Regionsvorschläge basierend auf den Ankern und den projizierten Augenkoordinaten. Zum Beispiel erzeugt das RPN 92 Regionsvorschläge bei oder in der Nähe der projizierten Augenkoordinaten 91, anstatt ein Gleitfenster über die gesamte Merkmalskarte zu übertragen. Das RPN 92 erzeugt Regionsvorschläge, wie etwa Begrenzungsrahmen, um anzugeben, dass ein Teilsatz von Pixeln ein Objekt von Interesse für Klassifizierungszwecke beinhalten kann.
  • Die vorgeschlagenen Regionen und die Merkmalskarten werden der ROI-Pooling-Schicht 94 bereitgestellt. In verschiedenen Umsetzungen können die vorgeschlagenen Regionen unterschiedliche Größen aufweisen, was zu Merkmalskarten unterschiedlicher Größe führen kann. Die ROI-Pooling-Schicht 94 ist dazu konfiguriert, die Merkmalskarte auf dieselbe Größe zu modifizieren. Die ROI-Pooling-Schicht 94 kann auch die vorgeschlagenen Regionen basierend auf den Merkmalskartenmodifikationen modifizieren. Die modifizierten Merkmalskarten können der ersten vollständig verbundenen Schicht 96 zur Klassifizierung und der zweiten vollständig verbundenen Schicht 98 zur Begrenzungsrahmenregression bereitgestellt werden. Zum Beispiel kann die erste vollständig verbundene Schicht 96 eine Vorhersage erzeugen, welche die Art des Objektes innerhalb der vorgeschlagenen Region(en) angibt, und die zweite vollständig verbundene Schicht 98 kann einen Regressor umfassen, um den vorgeschlagenen Regionen zugeordnete Fehler zu minimieren. Zum Beispiel kann die zweite vollständig verbundene Schicht 98 versuchen, den Verlust zwischen der vorgeschlagenen Region und den Ground-Truth-Rahmen zu minimieren.
  • Während des Trainings können dem tiefen neuronalen Netzwerk 80 Ground-Truth-Rahmen bereitgestellt werden, um ein oder mehrere Gewichtungen innerhalb des tiefen neuronalen Netzwerkes 80 zu aktualisieren. Zum Beispiel können während des Trainings die vorgeschlagenen Regionen mit den Ground-Truth-Rahmen verglichen werden, um eine Verlustfunktion zu bestimmen. Unter Verwendung der Verlustfunktion kann das tiefe neuronale Netzwerk 80 eine oder mehrere Gewichtungen durch Rückpropagierung aktualisieren.
  • 6 veranschaulicht eine beispielhafte Merkmalskarte 100, die durch das tiefe neuronale Netzwerk 80 erzeugt wird. Wie gezeigt ist die Größe der Merkmalskarte 100 m × m, wobei m eine ganze Zahl größer oder gleich 1 ist. Das RPN 92 empfängt die Merkmalskarte 100 von dem tiefen neuronalen Netzwerk 80 und die projizierten Augenkoordinaten 91 und positioniert ein Gleitfenster 102 um die projizierten Augenkoordinaten 104. In einer beispielhaften Umsetzung ist die Größe des Gleitfensters 102 p × p, wobei p eine ganze Zahl größer oder gleich 1 und kleiner als m ist. In diesem Beispiel kann das Gleitfenster 102 um die projizierten Augenkoordinaten zentriert sein, um Regionsvorschläge innerhalb der Merkmalskarte 100 zu erzeugen.
  • Unter Bezugnahme auf 7 ist ein Beispiel für einen Bildrahmen (i) gezeigt, der durch das Eye-Tracking-System 14 aufgenommen wurde. 7 veranschaulicht eine Fahrbahn 200, einen Bürgersteig 202 auf einer Seite der Fahrbahn 200, einen Bürgersteig 204 auf einer gegenüberliegenden Seite der Fahrbahn 200 und eine Vielzahl von Fußgängern P1 und P2, die sich alle innerhalb eines Sichtfeldes des Sensors 22 befinden. Wie gezeigt, kann der Bildrahmen (i) auch ein Zeichen S1 beinhalten. In dem beispielhaften Bildrahmen (i) geht der Fußgänger P1 innerhalb der Fahrbahn 100 (und über diese hinweg), und der Fußgänger P2 beginnt vom Bürgersteig 102 aus, auf die Fahrbahn 100 zu gehen.
  • Unter Verwendung des in 7 veranschaulichten beispielhaften Bildrahmens (i), verfolgt das Eye-Tracking-System 14 die Augenbewegungen des Benutzers. Das Eye-Tracking-System 14 stellt den Bildrahmen (i) und die entsprechenden Augenbewegungsdaten an das tiefe neuronale Netzwerk 80 bereit. Wie vorstehend erörtert, erzeugt das tiefe neuronale Netzwerk 80 Regionsvorschläge für Klassifizierungs- und Regressionszwecke basierend auf den Augenbewegungsdaten. Wenn zum Beispiel der Blick des Benutzers auf P1 gerichtet ist, kann das tiefe neuronale Netzwerk 80 einen Regionsvorschlag bezüglich P1 zu Klassifizierungs- und Regressionszwecken erzeugen.
  • 8 veranschaulicht ein beispielhaftes Ablaufdiagramm, das einen beispielhaften Prozess 800 zur auf einer Fahrerpriorität basierten Objekterkennung veranschaulicht. Der Prozess 800 umfasst Softwareanweisungen, die durch den Computer 18 ausgeführt werden können (z. B. durch den einen oder die mehreren Prozessoren 40 ausgeführt werden können und in dem Speicher 42 gespeichert sind). Nicht einschränkende Beispiele für Softwareanweisungen sind als Anweisungsblöcke in dem Diagramm veranschaulicht. Es versteht sich, dass, wenngleich dies nicht unbedingt explizit in dem Prozess 800 erläutert wird, auch andere Softwareanweisungen ausgeführt werden können.
  • Der Prozess 800 kann bei Block 805 beginnen, bei dem der Computer 18 (von dem Sensor 22) mindestens einen durch den Sensor 22 aufgenommenen Bildrahmen (i) empfängt, während ein Fahrzeugführer, z. B. ein Benutzer, das Fahrzeug 12 steuert. In mindestens einem Beispiel trägt der Fahrzeugführer das Eye-Tracking-System 14 am Körper und umfasst der Sensor 22 einen Teil des Systems 14 (der z. B. von Brillengestellen oder dergleichen getragen wird). Insbesondere empfängt der Computer 28 (des Eye-Tracking-Systems 14) gemäß einem Beispiel zuerst den Bildrahmen (i) und stellt der Computer 28 - zusätzlich zum Verwenden des Bildrahmens (i) beim Nachverfolgen der Augenbewegung des Fahrzeugführers - den Bildrahmen (i) dem Computer 18 bereit. Ohne einschränkend sein zu sollen, sondern, um stattdessen den Prozess 800 zu veranschaulichen, soll der aktuelle Bildrahmen (i) aus Block 805 als ähnlich dem in 7 gezeigten angegesehen werden. Während der Sensor Bildrahmen (i) aufnimmt, steuert der Fahrzeugführer somit das Fahrzeug 12 durch Lenken, Bremsen und/oder Beschleunigen des Fahrzeugs 12, während er die Fahrbahn 100 entlangfährt.
  • Bei dem folgenden Block 810 überwacht das Eye-Tracking-System 14 die Augen des Fahrzeugführers und bestimmt Augenbewegungsdaten, die dem Bildrahmen (i) entsprechen. Wie vorstehend beschrieben, kann das Bestimmen von Augenbewegungsdaten beinhalten, dass das Eye-Tracking-System 14 mehrere Kriterien sammelt, indem die Augen des Fahrzeugführers unter Verwendung der Kamera(s) 24 und Beleuchtungseinrichtung(en) 26 überwacht werden, während der Sensor 22 Bilder der Szene aus der Perspektive des Fahrzeugführers nach vorne aufnimmt. Ferner können die Augenbewegungsdaten eine Korrelation, z. B. Zeitstempel, der Augenkriterien des Fahrzeugführers mit dem entsprechenden Bildrahmen (i) beinhalten. Die Augenbewegungsdaten können mindestens einige der Kriterien umfassen, die in der nicht erschöpfenden Liste von Beispielen, die vorstehend dargelegt sind, aufgeführt sind.
  • In Block 815 empfängt der Computer 18 den Bildrahmen (i) und die Augenbewegungsdaten von dem Eye-Tracking-System 14. Der Computer 18 kann geeignete Abbildungstechniken verwenden, um die Augenbewegungsdaten auf Merkmalskartenkoordinaten, d. h. die projizierten Augenkoordinaten, abzubilden. In Block 820 erzeugt das neuronale Faltungsnetzwerk 90 eine oder mehrere Merkmalskarten, die dem Bildrahmen (i) entspricht/entsprechen. Bei Block 825 erzeugt das Regionsvorschlagsnetzwerk 92 vorgeschlagene Regionen basierend auf den Merkmalskarten, die durch das neuronale Faltungsnetzwerk 90 und die projizierten Augenkoordinaten 91 erzeugt wurden. Wie vorstehend erörtert, können die vorgeschlagenen Regionen Objekten von Interesse entsprechen. Bei Block 830 modifiziert die ROI-Pooling-Schicht 94 die Merkmalskarten derart, dass jede der Merkmalskarten dieselbe Größe aufweist, z. B. eine vorbestimmte Größe. Bei Block 835 klassifizieren die vollständig verbundenen Schichten 96, 98 Objekte innerhalb der vorgeschlagenen Regionen und minimieren Verlustfunktionen basierend auf Regressionstechniken. Zum Beispiel kann der Computer 18 die vorgeschlagenen Regionen und/oder Klassifizierungen mit Ground-Truth-Daten vergleichen. Die Ground-Truth-Daten können (teilweise) dadurch, dass der Fahrzeugführer einen 3D-Blickpunkt für eine Schwellenzeitdauer (THRZeit1) betrachtet (wobei der 3D-Blickpunkt einem Objekt von Interesse in dem Bildrahmen (i) entspricht), dadurch, dass eine Pupillengröße größer als ein Schwellenwert (THRPupille) ist, während der Fahrzeugführer einen 3D-Blickpunkt für eine zweite Schwellenzeitdauer (THRZeit2) betrachtet) oder dergleichen definiert sein. Zusätzlich oder alternativ dazu können die Ground-Truth-Daten definierte Regionen um das Objekt von Interesse beinhalten. Der Computer 18 kann auch die definierten Regionen der Ground-Truth-Daten mit den vorgeschlagenen Regionen vergleichen.
  • Bei Block 840 werden eine oder mehrere Gewichtungen des tiefen neuronalen Netzwerkes basierend auf den Vergleichen mit den Ground-Truth-Daten aktualisiert. Zum Beispiel aktualisiert der Computer 18 die Gewichtungen des tiefen neuronalen Netzwerkes 80 basierend auf den Vergleichen.
  • Bei Block 845 wird eine Bestimmung dahingehend vorgenommen, ob ein Zähler i über einem vorbestimmten Schwellenwert liegt oder diesem gleich ist. Der vorbestimmte Schwellenwert kann als eine Anzahl von Zeiträumen definiert werden, um das tiefe neuronale Netzwerk 80 zu trainieren. Wenn der Zähler i nicht über dem vorbestimmten Schwellenwert liegt oder diesem gleich ist, wird der Zähler i bei Block 850 erhöht (z. B. i=i+1) und man geht dann zu Block 805 zurück. Anderenfalls endet der Prozess 800.
  • 9 ist ein Ablaufdiagramm/sind Ablaufdiagramme, das/die einen Prozess 900 zum Verwenden des tiefen neuronalen Netzwerkes 80 veranschaulicht/veranschaulichen, das bei Prozess 800 trainiert wurde. Der Prozess 900 umfasst Softwareanweisungen, die durch einen bordeigenen Fahrzeugcomputer 18 ausgeführt werden können. Nicht einschränkende Beispiele für Softwareanweisungen sind als Anweisungsblöcke in dem Diagramm veranschaulicht. Es versteht sich, dass, wenngleich dies nicht unbedingt explizit in dem Prozess 900 erläutert wird, auch andere Softwareanweisungen ausgeführt werden können.
  • Der Prozess 900 kann mit Block 905 beginnen, bei dem das trainierte tiefe neuronale Netzwerk 80 in dem bordeigenen Computer 18 des Fahrzeugs 12 installiert wird. Der Computer 18 kann in einem dem Fahrzeug 12 ähnlichen Fahrzeug eingebettet sein und bei dem Fahrzeug kann es sich um eine verkäufliche Einheit handeln (die z. B. von einem Fahrzeughersteller an einen Endnutzer/Kunden verkauft wird).
  • In Block 910 können Bilddaten über einen in dem Fahrzeug montierten Sensor 22 an dem Computer 18 empfangen werden. Der Sensor kann dem Sensor 22 ähnlich sein, außer dass er nicht Teil des Eye-Tracking-Systems 14 ist (z. B. ist kein Eye-Tracking-System 14 in dem Fahrzeug mit dem trainierten tiefen neuronalen Netzwerk erforderlich). Stattdessen wird der Sensor durch das Fahrzeug für Navigations- und/oder andere autonome Fahraufgaben verwendet.
  • In dem folgenden Block 915 können Zielobjekte unter Verwendung der Bilddaten und des trainierten tiefen neuronalen Netzwerkes 80 identifiziert, z. B. klassifiziert, werden. In Block 920 kann der Computer 18 eine Fahrzeugaktion basierend auf dem klassifizierten Objekt bestimmen. Zum Beispiel kann der Computer 18 die Bewegungsbahnen der Zielobjekte berechnen. In mindestens einem Beispiel werden Bewegungsbahnen nur für Objekte berechnet, die durch die Ausgabe des tiefen neuronalen Netzwerkes 80 klassifiziert wurden. Da unter Umständen weniger Bewegungsbahnen berechnet werden, wird die Rechenlast, die dem Computer 18 auferlegt wird, minimiert. In Block 925 wird das Fahrzeug 12 basierend auf den Objekten in einem teilweise oder vollständig autonomen Modus navigiert.
  • Somit wurden ein Trainingssystem und eine Technik zum Verwenden des Trainingssystems zum Trainieren eines tiefen neuronalen Netzwerkes beschrieben, um Zielobjekte zu bestimmen, während ein Fahrzeugführer ein Fahrzeug steuert. Das Trainingssystem kann ein Eye-Tracking-System und ein oder mehrere tiefe neuronale Netzwerke umfassen. Darüber hinaus werden Daten von dem Augennachverfolgungssystem verwendet, um das Trainieren auszuführen.
  • Im Allgemeinen können die beschriebenen Rechensysteme und/oder -vorrichtungen ein beliebiges einer Reihe von Computerbetriebssystemen einsetzen, einschließlich unter anderem Versionen und/oder Varianten von AppLink/Smart Device Link Middleware, Microsoft Windows®, Unix (z. B. das Betriebssystem Solaris®, vertrieben durch die Oracle Corporation in Redwood Shores, Kalifornien), AIX UNIX, vertrieben durch International Business Machines in Armonk, New York, Linux, Mac OSX und iOS, vertrieben durch die Apple Inc. in Cupertino, Kalifornien, BlackBerry OS, vertrieben durch Blackberry, Ltd. in Waterloo, Kanada, und Android, entwickelt von Google, Inc.
  • Rechenvorrichtungen beinhalten im Allgemeinen computerausführbare Anweisungen, wobei die Anweisungen durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorangehend aufgeführten, ausführbar sein können. Computerausführbare Anweisungen können von Computerprogrammen kompiliert oder interpretiert werden, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder -techniken erstellt wurden, einschließlich unter anderem und entweder für sich oder in Kombination Java™, C, C++, Visual Basic, Java Script, Perl, Python usw. Einige dieser Anwendungen können auf einer Rechenmaschine, wie etwa der sogenannten Java Virtual Machine, der sogenannten Dalvik Virtual Machine oder dergleichen, kompiliert und ausgeführt werden. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Anweisungen, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt diese Anweisungen aus, wodurch er einen oder mehrere Prozesse durchführt, darunter einen oder mehrere der in dieser Schrift beschriebenen Prozesse. Derartige Anweisungen und andere Daten können unter Verwendung einer Reihe von computerlesbaren Medien gespeichert und übertragen werden.
  • Ein computerlesbares Medium (auch als prozessorlesbares Medium bezeichnet) beinhaltet ein beliebiges nicht transitorisches (z. B. greifbares) Medium, das am Bereitstellen von Daten (z. B. Anweisungen) beteiligt ist, die durch einen Computer (z. B. durch einen Prozessor eines Computers) ausgelesen werden können. Ein derartiges Medium kann viele Formen annehmen, die unter anderem nicht flüchtige Medien und flüchtige Medien einschließen. Zu nicht flüchtigen Medien können zum Beispiel Bild- und Magnetplatten und sonstige dauerhafte Speicher gehören. Flüchtige Medien können zum Beispiel dynamischen Direktzugriffsspeicher (dynamic random-access memory - DRAM) beinhalten, der üblicherweise einen Hauptspeicher darstellt. Derartige Anweisungen können durch ein Übertragungsmedium oder mehrere Übertragungsmedien übertragen werden, die Koaxialkabel, Kupferdraht und Glasfasern beinhalten, welche die Drähte einschließen, die einen an einen Prozessor eines Computers gekoppelten Systembus umfassen. Gängige Formen computerlesbarer Medien schließen zum Beispiel Folgendes ein: eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH-EEPROM, einen beliebigen anderen Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das von einem Computer ausgelesen werden kann.
  • Wenn Datenbanken, Datendepots oder andere Datenspeicher hierin beschrieben sind, können diese verschiedene Arten von Mechanismen zum Speichern von, Zugreifen auf und Abrufen von verschiedenen Arten von Daten einschließen, darunter eine hierarchische Datenbank, einen Satzes von Dateien in einem Dateisystem, eine Anwendungsdatenbank in einem anwendereigenen Format, ein Datenbankverwaltungssystem (database management system - DBMS) usw. Jeder derartige Datenspeicher ist im Allgemeinen in einer Rechenvorrichtung eingeschlossen, die ein Computerbetriebssystem einsetzt, wie etwa eines der vorangehend erwähnten, und es wird auf eine oder mehrere von einer Vielfalt von Weisen über ein Netzwerk darauf zugegriffen. Auf ein Dateisystem kann von einem Computerbetriebssystem zugegriffen werden und es kann in verschiedenen Formaten gespeicherte Dateien beinhalten. Ein DBMS setzt im Allgemeinen die Structured Query Language (SQL) zusätzlich zu einer Sprache zum Erzeugen, Speichern, Bearbeiten und Ausführen gespeicherter Prozeduren ein, wie etwa die vorangehend erwähnte PL/SQL-Sprache.
  • In einigen Beispielen können Systemelemente als computerlesbare Anweisungen (z. B. Software) auf einer oder mehreren Rechenvorrichtungen (z. B. tragbaren Vorrichtungen, Servern, PCs usw.) umgesetzt sein, die auf zugeordneten computerlesbaren Medien (z. B. Platten, Speichern usw.) gespeichert sind. Ein Computerprogrammprodukt kann derartige auf computerlesbaren Medien gespeicherte Anweisungen zum Ausführen der in dieser Schrift beschriebenen Funktionen umfassen.
  • Der Prozessor ist über Schaltungen, Chips oder eine andere elektronische Komponente umgesetzt und kann einen oder mehrere Mikrocontroller, einen oder mehrere feldprogrammierbare Gate-Arrays (field programmable gate arrays - FPGAs), eine oder mehrere anwendungsspezifische Schaltungen (application specific circuits - ASICs), einen oder mehrere digitale Signalprozessoren (digital signal processors - DSPs), eine oder mehrere kundenspezifisch integrierte Schaltungen usw. beinhalten. Der Prozessor kann programmiert sein, um die Sensordaten zu verarbeiten.
  • Der Speicher (oder die Datenspeichervorrichtung) wird über Schaltungen, Chips oder andere elektronische Komponenten umgesetzt und kann eine(n) oder mehrere von einem Festwertespeicher (read only memory - ROM), Direktzugriffsspeicher (random access memory - RAM), Flash-Speicher, elektrisch programmierbaren Festspeicher (electrically programmable memory - EPROM), elektrisch programmierbaren und löschbaren Festspeicher (electrically programmable and erasable ROM - EEPROM), einer eingebetteten Multimediakarte (embedded MultiMediaCard - eMMC), einer Festplatte oder beliebigen flüchtigen oder nichtflüchtigen Medien usw. einschließen. Der Speicher kann von Sensoren gesammelte Daten speichern.
  • Die Offenbarung ist auf veranschaulichende Weise beschrieben worden und es versteht sich, dass die Terminologie, die verwendet worden ist, beschreibenden und nicht einschränkenden Charakters sein soll. In Anbetracht der vorstehenden Lehren sind viele Modifikationen und Variationen der vorliegenden Offenbarung möglich und die Offenbarung kann anders als konkret beschrieben umgesetzt werden.
  • Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren zum Trainieren eines tiefen neuronalen Netzwerkes Folgendes: Empfangen, von einem Eye-Tracking-System, das einem Sensor zugeordnet ist, eines Bildrahmens, der aufgenommen wird, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen von Augenbewegungsdaten, die dem Bildrahmen entsprechen, von dem Eye-Tracking-System; und iteratives Trainieren des tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist, wobei das tiefe neuronale Netzwerk mindestens eine Merkmalskarte erzeugt und basierend auf den Augenbewegungsdaten eine vorgeschlagene Region bestimmt, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
  • In einem Aspekt der Erfindung handelt es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System und es wird durch den Fahrzeugführer getragen, während der Bildrahmen durch den Sensor aufgenommen wird.
  • In einem anderen Aspekt der Erfindung umfasst das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (CNN), wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
  • In einem Aspekt der Erfindung umfasst das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
  • In einem Aspekt der Erfindung umfasst das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
  • In einem Aspekt der Erfindung umfasst das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
  • In einem Aspekt der Erfindung ist der Bildrahmen einer von einer Vielzahl von Videorahmen, die von dem Sensor empfangen wird.
  • In einem Aspekt der Erfindung umfasst das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
  • In einem Aspekt der Erfindung beinhaltet das Verfahren Folgendes: Installieren des trainierten tiefen neuronalen Netzwerkes in einem Fahrzeug; und Verwenden des trainierten tiefen neuronalen Netzwerkes, um das Fahrzeug in einem autonomen Modus zu navigieren.
  • In einem Aspekt der Erfindung umfassen die Augenbewegungsdaten eine oder mehrere der folgenden Informationen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.
  • Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das Folgendes aufweist: ein Eye-Tracking-System einschließlich eines Sensors; einen Computer, der kommunikativ an den Sensor und das Eye-Tracking-System gekoppelt ist, wobei der Computer einen oder mehrere Prozessoren und einen Speicher umfasst, auf dem Anweisungen gespeichert sind, die durch den einen oder die mehreren Prozessoren ausgeführt werden können, wobei die Anweisungen bei Auführung durch den Prozessor den Prozessor zu Folgendem veranlassen: Empfangen eines Bildrahmens von dem Eye-Tracking-System, der aufgenommen wurde, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen, von dem Eye-Tracking-System, von Augenbewegungsdaten, die dem Bildrahmen entsprechen; und iteratives Trainieren eines tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist, wobei das tiefe neuronale Netzwerk mindestens eine Merkmalskarte erzeugt und basierend auf den Augenbewegungsdaten eine vorgeschlagene Region bestimmt, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
  • Gemäß einer Ausführungsform handelt es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System und es wird durch den Fahrzeugführer getragen, während der Bildrahmen durch den Sensor aufgenommen wird.
  • Gemäß einer Ausführungsform umfasst das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (CNN), wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
  • Gemäß einer Ausführungsform umfasst das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
  • Gemäß einer Ausführungsform umfasst das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
  • Gemäß einer Ausführungsform umfasst das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
  • Gemäß einer Ausführungsform ist der Bildrahmen einer von einer Vielzahl von Videorahmen, die von dem Eye-Tracking-System empfangen wird.
  • Gemäß einer Ausführungsform beinhaltet das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
  • Gemäß einer Ausführungsform veranlassen die Anweisungen bei Ausführung durch den Prozessor den Prozessor zu Folgendem: Navigieren des Fahrzeugs in einem autonomen Modus basierend auf dem Objekt von Interesse.
  • Gemäß einer Ausführungsform umfassen die Augenbewegungsdaten eine oder mehrere der folgenden Informationen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.

Claims (10)

  1. Verfahren zum Trainieren eines tiefen neuronalen Netzwerkes, umfassend: Empfangen, von einem Eye-Tracking-System, das einem Sensor zugeordnet ist, eines Bildrahmens, der aufgenommen wurde, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen von Augenbewegungsdaten, die dem Bildrahmen entsprechen, von dem Eye-Tracking-System; und iteratives Trainieren des tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist, wobei das tiefe neuronale Netzwerk mindestens eine Merkmalskarte erzeugt und basierend auf den Augenbewegungsdaten eine vorgeschlagene Region erzeugt, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
  2. Verfahren nach Anspruch 1, wobei es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System handelt und es durch den Fahrzeugführer getragen wird, während der Bildrahmen durch den Sensor aufgenommen wird.
  3. Verfahren nach Anspruch 1, wobei das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (CNN) umfasst, wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
  4. Verfahren nach Anspruch 3, wobei das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk umfasst, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
  5. Verfahren nach Anspruch 4, wobei das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse umfasst, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
  6. Verfahren nach Anspruch 5, wobei das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht umfasst, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
  7. Verfahren nach Anspruch 1, wobei der Bildrahmen einer von einer Vielzahl von Videorahmen ist, die von dem Sensor empfangen wird.
  8. Verfahren nach Anspruch 1, wobei das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer umfasst, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
  9. Verfahren nach Anspruch 1, ferner umfassend: Installieren des trainierten tiefen neuronalen Netzwerkes in einem Fahrzeug; und Verwenden des trainierten tiefen neuronalen Netzwerkes, um das Fahrzeug in einem autonomen Modus zu navigieren.
  10. Verfahren nach Anspruch 1, wobei die Augenbewegungsdaten eine oder mehrere der folgenden Informationen umfassen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.
DE102021111096.3A 2020-05-06 2021-04-29 Per visuellem verhalten geführte objekterkennung Pending DE102021111096A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/867,690 2020-05-06
US16/867,690 US11604946B2 (en) 2020-05-06 2020-05-06 Visual behavior guided object detection

Publications (1)

Publication Number Publication Date
DE102021111096A1 true DE102021111096A1 (de) 2021-11-11

Family

ID=78232041

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021111096.3A Pending DE102021111096A1 (de) 2020-05-06 2021-04-29 Per visuellem verhalten geführte objekterkennung

Country Status (3)

Country Link
US (1) US11604946B2 (de)
CN (1) CN113627608A (de)
DE (1) DE102021111096A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230109171A1 (en) * 2021-09-28 2023-04-06 Honda Motor Co., Ltd. Operator take-over prediction
CN115661913A (zh) * 2022-08-19 2023-01-31 北京津发科技股份有限公司 一种眼动分析方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7924146B2 (en) 2009-04-02 2011-04-12 GM Global Technology Operations LLC Daytime pedestrian detection on full-windscreen head-up display
DE102011084367A1 (de) 2011-10-12 2013-04-18 Bayerische Motoren Werke Aktiengesellschaft Feststellen der fahrerseitigen Wahrnehmung eines in der Umgebung eines Kraftfahrzeugs befindlichen Objektes
CN103455795B (zh) 2013-08-27 2017-03-29 西北工业大学 一种基于交通视频数据图像的确定交通目标所在区域的方法
KR101655818B1 (ko) * 2014-12-11 2016-09-08 현대자동차주식회사 웨어러블 글래스, 그 제어 방법 및 차량 제어 시스템
US9594378B2 (en) 2015-07-31 2017-03-14 Delphi Technologies, Inc. Variable object detection field-of-focus for automated vehicle control
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US10621747B2 (en) * 2016-11-15 2020-04-14 Magic Leap, Inc. Deep learning system for cuboid detection
US20180225554A1 (en) 2017-02-06 2018-08-09 Honda Motor Co., Ltd. Systems and methods of a computational framework for a driver's visual attention using a fully convolutional architecture
US20190246036A1 (en) * 2018-02-02 2019-08-08 Futurewei Technologies, Inc. Gesture- and gaze-based visual data acquisition system
EP3749172B1 (de) * 2018-02-09 2022-03-30 Pupil Labs GmbH Vorrichtungen, systeme und verfahren zur vorhersage von blickbezogenen parametern
WO2019169031A1 (en) * 2018-02-27 2019-09-06 Nauto, Inc. Method for determining driving policy
US11042156B2 (en) 2018-05-14 2021-06-22 Honda Motor Co., Ltd. System and method for learning and executing naturalistic driving behavior
US10849543B2 (en) 2018-06-08 2020-12-01 Ford Global Technologies, Llc Focus-based tagging of sensor data
US20200125093A1 (en) 2018-10-17 2020-04-23 Wellen Sham Machine learning for driverless driving
EP3912013A1 (de) * 2019-01-16 2021-11-24 Pupil Labs GmbH Verfahren zur erzeugung von kalibrierdaten für am kopf tragbare vorrichtungen und augenverfolgungssystem
US11144754B2 (en) 2019-08-19 2021-10-12 Nvidia Corporation Gaze detection using one or more neural networks
US11506888B2 (en) * 2019-09-20 2022-11-22 Nvidia Corp. Driver gaze tracking system for use in vehicles
US11574494B2 (en) * 2020-01-27 2023-02-07 Ford Global Technologies, Llc Training a neural network to determine pedestrians

Also Published As

Publication number Publication date
US20210350184A1 (en) 2021-11-11
CN113627608A (zh) 2021-11-09
US11604946B2 (en) 2023-03-14

Similar Documents

Publication Publication Date Title
DE102014220302B4 (de) Verfahren zur Durchführung einer Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug sowie entsprechendes Nichtflüchtiges, Computer-lesbares Speichermedium und Verfahren zum Lernen eines Random Forest Modells zur Aktionserkennung
DE112019006484T5 (de) Detektion von abständen zu hindernissen in autonomen maschinenanwendungen
DE112018000335T5 (de) Systeme und verfahren für einen berechnungsrahmen zur visuellen warnung des fahrers unter verwendung einer "fully convolutional"-architektur
DE102019115455A1 (de) Fokus-basiertes markieren von sensordaten
DE102017115393A1 (de) Virtuelles sensordatenerzeugungssystem und verfahren zum unterstützen der entwicklung von sichtbasierten regendetektionsalgorithmen
DE102014207802B3 (de) Verfahren und System zum proaktiven Erkennen einer Aktion eines Verkehrsteilnehmers
DE102021101424A1 (de) Trainieren eines neuronalen netzes zum bestimmen von fussgängern
DE102021111096A1 (de) Per visuellem verhalten geführte objekterkennung
DE102018104270A1 (de) Verfahren zum Vorhersagen des Verhaltens mindestens eines Fußgängers
DE102018116036A1 (de) Training eines tiefen konvolutionellen neuronalen Netzwerks für individuelle Routen
DE102018205879A1 (de) Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zur Verarbeitung von Sensordaten
DE102019209560A1 (de) Vorrichtung und Verfahren zum Trainieren eines neuronalen Netzwerks
DE102020102823A1 (de) Fahrzeugkapselnetzwerke
DE102020128978A1 (de) Trainieren von tiefen neuronalen netzwerken mit synthetischen bildern
DE102021104044A1 (de) Neuronales netzwerk zur positionsbestimmung und objektdetektion
DE102021112616A1 (de) Selbstüberwachte schätzung einer beobachteten fahrzeugpose
DE102017108248A1 (de) Strassenmerkmalserkennung mit einem fahrzeugkamerasystem
DE102020131657A1 (de) Diagnostizieren eines Wahrnehmungssystems auf der Grundlage der Szenenkontinuität
DE102021131991A1 (de) Fahrzeugsensorreinigung und -kühlung
DE102018128563A1 (de) Verfahren und vorrichtung für eine autonome systemleistung und einen vergleich
DE102020107868A1 (de) Objektdetektionssystem für die detektion eines objekts mit hilfe einer hierarchie-pyramide und objektdetektionsverfahren
DE102022200743A1 (de) Systeme und Verfahren zur Bestimmung eines befahrbaren Raums
DE102013210771A1 (de) Detektion eines komplexen objekts unter verwendung einer kaskade von klassifizierungseinrichtungen
DE102021104178A1 (de) Dynamisch gerouteter felddiskriminator
DE102022111322A1 (de) Engine für adaptive maschinelle lernmodelle zur augenverfolgung

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BONSMANN - BONSMANN - FRANK PATENTANWAELTE, DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009620000

Ipc: G06V0030190000