DE202018006796U1 - System for predicting gaze-related parameters - Google Patents

System for predicting gaze-related parameters Download PDF

Info

Publication number
DE202018006796U1
DE202018006796U1 DE202018006796.2U DE202018006796U DE202018006796U1 DE 202018006796 U1 DE202018006796 U1 DE 202018006796U1 DE 202018006796 U DE202018006796 U DE 202018006796U DE 202018006796 U1 DE202018006796 U1 DE 202018006796U1
Authority
DE
Germany
Prior art keywords
user
camera
eye
gaze
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202018006796.2U
Other languages
German (de)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pupil Labs GmbH
Original Assignee
Pupil Labs GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pupil Labs GmbH filed Critical Pupil Labs GmbH
Priority to DE202018006796.2U priority Critical patent/DE202018006796U1/en
Publication of DE202018006796U1 publication Critical patent/DE202018006796U1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

System aufweisend:
- eine am Kopf tragbare Vorrichtung, die eine linke Kamera zur Aufnahme eines linken Bildes von mindestens einem Teil eines linken Auges eines Benutzers, der die am Kopf tragbare Vorrichtung trägt, und eine rechte Kamera zur Aufnahme eines rechten Bildes von mindestens einem Teil eines rechten Auges des Benutzers, der die am Kopf tragbare Vorrichtung trägt, umfasst; und
- eine Verarbeitungseinheit, die konfiguriert ist zum:
◯ Erhalten des linken Bildes;
◯ Erhalten des rechten Bildes;
◯ gemeinsames Eingeben des linken und des rechten Bildes in ein neuronales Faltungsnetzwerk; und
◯ Erhalten eines oder mehrerer blickbezogener Parameter von dem neuronalen Faltungsnetzwerk als Ergebnis des gemeinsamen Eingebens des linken und rechten Bildes.

Figure DE202018006796U1_0000
System having:
- a headwear device comprising a left camera for capturing a left image of at least part of a left eye of a user wearing the headwear device and a right camera for capturing a right image of at least part of a right eye of the user wearing the head-worn device; and
- a processing unit configured to:
◯ Obtaining the left image;
◯ Obtaining the right image;
◯ inputting the left and the right image together into a convolutional neural network; and
◯ Obtain one or more gaze-related parameters from the convolutional neural network as a result of inputting the left and right images together.
Figure DE202018006796U1_0000

Description

TECHNISCHES GEBIETTECHNICAL AREA

Ausführungsformen der vorliegenden Erfindung betreffen ein System zur Vorhersage von blickbezogenen Parametern und eine am Kopf tragbare (Brillen-) Vorrichtung.Embodiments of the present invention relate to a system for predicting gaze-related parameters and a head-wearable (eyeglass) device.

ALLGEMEINER STAND DER TECHNIKBACKGROUND ART

Derzeitige am Kopf befestigte Augenverfolgungseinrichtungen (eye trackers) greifen häufig auf die explizite Extraktion von Merkmalen wie etwa einer Pupillenmitte, Infrarot(IR)-Lichtpunktposition oder Pupillenkonturen zurück. Die Merkmalsextraktion wird durch klassische Algorithmen der Computervision und Bildverarbeitung durchgeführt. Dann wird die Blickrichtung z. B. durch eine Regressionsfunktion mit den extrahierten Merkmalen als Eingaben geschätzt.Current head-mounted eye trackers often rely on the explicit extraction of features such as pupil center, infrared (IR) spot position, or pupil contours. Feature extraction is performed by classical computer vision and image processing algorithms. Then the line of sight z. B. estimated by a regression function with the extracted features as inputs.

Die Merkmalsextraktion erfordert normalerweise hochauflösende Kameras, die relativ voluminös sind und sich kaum oder gar nicht auf vollständige und unsichtbare Weise in einen Brillenrahmen integrieren lassen. Die mangelnde Integration und Verdeckung des Sichtfelds (field-of-view - FOV) des Benutzers schränken die Akzeptanz und damit die Nutzbarkeit des Systems ein und können auch das Blickverhalten der Benutzer negativ beeinflussen, d. h. dieses Verhalten unnatürlich machen. Darüber hinaus erfordern derzeitige Systeme die Infrarotbeleuchtung des Auges, um die Aufgabe des Erfassens der Pupille zu erleichtern. Daher müssen IR-LEDs in der Nähe von Auge und Kamera angebracht sein, was die Sperrigkeit des Systems weiter erhöht. Ferner ist die Verarbeitung hochauflösender Bilder rechnerisch aufwändig. Diese Systeme erfordern daher einen Laptop oder zumindest einen kleinen tragbaren Computer, der zur Bildverarbeitung und Echtzeitschätzung des Blicks durch den Benutzer getragen wird. Auch wird eine beachtliche Bandbreite für die Datenübertragung benötigt. Kombiniert mit dem Gewicht der Kameras und der übrigen Teile der Vorrichtung (z. B. Kabel, Kamera-/USB-Adapter, Übertragungs-/Speichermodule usw.), die alle schwer auf dem Kopf des Benutzers lasten, sind längere Aufzeichnungen im Alltagsleben recht unbequem oder gar schmerzhaft. Hochauflösende Sensoren und anspruchsvolle Berechnungen bewirken wiederum eine hohe Leistungsaufnahme, die entweder aufgrund der Batteriekapazität der Aufzeichnungsdauer eine feste Grenze setzt oder die Bewegungsfreiheit des Benutzers einschränkt, da das System eine zusätzliche oder gar kabelgebundene Stromversorgung benötigt.Feature extraction typically requires high-resolution cameras that are relatively bulky and difficult or impossible to integrate fully and invisibly into an eyeglass frame. The lack of integration and obscuration of the user's field-of-view (FOV) limit the acceptance and thus the usability of the system and can also negatively affect the user's gaze behavior, i. H. make this behavior unnatural. In addition, current systems require infrared illumination of the eye to facilitate the task of detecting the pupil. Therefore, IR LEDs must be placed close to the eye and camera, further adding to the bulkiness of the system. Furthermore, processing high-resolution images is computationally expensive. These systems therefore require a laptop or at least a small portable computer to be carried by the user for image processing and real time estimation of the gaze. Considerable bandwidth is also required for data transmission. Combined with the weight of the cameras and the rest of the parts of the device (e.g. cables, camera/USB adapters, transmission/storage modules, etc.), all of which weigh heavily on the user's head, longer recordings in everyday life are justified uncomfortable or even painful. High-resolution sensors and sophisticated calculations, in turn, result in high power consumption, which either sets a fixed limit to the recording time due to battery capacity or restricts the user's freedom of movement, since the system requires an additional or even wired power supply.

Darüber hinaus muss die Kamera bzw. müssen die Kameras sorgfältig an jede individuelle Gesichtsgeometrie angepasst werden, um z. B. eine zuverlässige Pupillenmerkmalserkennung zu ermöglichen, was zusätzliche Flexibilität auf Hardwareebene und Möglichkeiten zur manuellen Kameraeinstellung erfordert. Aus demselben Grund können Verlagerungen des Augenverfolgungs-Headsets derzeit die Blickschätzgenauigkeit negativ beeinflussen oder eine häufige (und mühsame) Nachkalibrierung durch den Benutzer erfordern.In addition, the camera or cameras must be carefully adapted to each individual facial geometry, e.g. B. to enable reliable pupil feature detection, which requires additional flexibility at the hardware level and possibilities for manual camera adjustment. For the same reason, eye-tracking headset displacements can currently negatively impact gaze estimation accuracy or require frequent (and tedious) recalibration by the user.

Auch leiden bekannte am Kopf getragene Augenverfolgungseinrichtungen unter dem Nachteil, dass Streulicht aus der Umgebung, das durch die Augen des Testbenutzers reflektiert wird, die Augenverfolgungsfunktion negativ beeinflussen kann. Bei formbasierten Augenverfolgungsansätzen sind Kameras, die die Augen des Testbenutzers überwachen, möglicherweise nicht in der Lage, zwischen Merkmalen des Auges, die tatsächlich zur Verfolgung der Augenbewegung genutzt werden, und Merkmalen wie etwa Reflexionen zu unterscheiden, die sich aus den Lichtverhältnissen der Umgebung ergeben. Im Allgemeinen ist die Beleuchtungssituation nicht sehr gut definiert. Zuverlässige Augenverfolgung wird häufig durch Umgebungsbedingungen und unerwünschtes Streulicht beeinträchtigt, das den Verfolgungsmechanismus stört. Bekannte am Kopf getragene Augenverfolgungsvorrichtungen leiden in der Regel unter eingeschränkter Genauigkeit und Zuverlässigkeit.Also, known head-worn eye trackers suffer from the disadvantage that stray light from the environment reflected by the test user's eyes can adversely affect eye tracking performance. In shape-based eye-tracking approaches, cameras that monitor the test user's eyes may not be able to distinguish between features of the eye that are actually used to track eye movement and features such as reflections that result from ambient lighting conditions. In general, the lighting situation is not very well defined. Reliable eye tracking is often hampered by environmental conditions and unwanted stray light interfering with the tracking mechanism. Known head-worn eye tracking devices typically suffer from limited accuracy and reliability.

Die existierenden Blickmesssysteme (eye gaze sensing systems) werden zudem aus zwei Hauptgründen alles andere als häufig in Verbraucher-Heimanwendungen benutzt. Ihre Kosten sind nach wie vor hoch und die meisten Systeme erfordern einen mühsamen und zeitaufwändigen Kalibrierungsprozess. Derzeitige Kalibrierungsprozesse können immer dann erforderlich sein, wenn sich der Kopf des Benutzers um mehr als eine Schwellenentfernung in Bezug auf das Eye-Tracking-Gerät von einer ursprünglichen Position wegbewegt, bei der das System kalibriert wurde. Aufgrund der Notwendigkeit, den Kopf still zu halten bzw. ein starres räumliches Verhältnis zwischen dem Eye-Tracking-Gerät und dem Kopf aufrechtzuerhalten oder häufig nachzukalibrieren, sind derzeitige am Kopf getragene Augenverfolgungssysteme mit merkmals- und/oder formbasierten Ansätzen im Verbraucherumfeld schwer zu verwenden.Existing eye gaze sensing systems are also less than commonly used in consumer home applications for two main reasons. Their costs remain high and most systems require a tedious and time-consuming calibration process. Current calibration processes may be required whenever the user's head moves more than a threshold distance relative to the eye-tracking device from an original position at which the system was calibrated. Current head-worn eye-tracking systems with feature- and/or shape-based approaches are difficult to use in the consumer environment due to the need to keep the head still, or to maintain a rigid spatial relationship between the eye-tracking device and the head, or to frequently recalibrate.

Entsprechend besteht Bedarf an einer weiteren Verbesserung der Erkennung der Blickrichtung und anderer blickbezogener Parameter.Accordingly, there is a need for further improvement in the detection of gaze direction and other gaze-related parameters.

KURZDARSTELLUNGEXECUTIVE SUMMARY

Gemäß einer Ausführungsform weist ein System (zur Vorhersage eines oder mehrerer blickbezogener Parameter) eine am Kopf tragbare Vorrichtung auf, die eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Teil eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Teil eines rechten Auges des Benutzers aufweist, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt. Außerdem weist das System eine Verarbeitungseinheit auf, die mit der ersten und zweiten Kamera verbindbar ist und im verbundenen Zustand eingerichtet ist zum

  • ◯ Erhalten des linken und des rechten Bildes (von der jeweiligen Kamera);
  • ◯ typischerweise gemeinsames Eingeben (Einspeisen) des linken und des rechten Bildes in ein neuronales Faltungsnetzwerk; und
  • ◯ Erhalten eines oder mehrerer blickbezogener Parameter von dem neuronalen Faltungsnetzwerk als Ergebnis des Eingebens des linken und rechten Bildes.
According to one embodiment, a system (for predicting one or more gaze-related parameters) comprises a wearable head-mounted device A device comprising a first camera for generating a left image of at least a portion of a user's left eye and a second camera for generating a right image of at least a portion of a user's right eye when the user wears the head-mounted device . In addition, the system has a processing unit which can be connected to the first and second cameras and which, in the connected state, is set up for
  • ◯ Obtaining the left and right image (from the respective camera);
  • ◯ typically joint inputting (feeding) of the left and the right image into a neural convolution network; and
  • ◯ Obtain one or more gaze-related parameters from the convolutional neural network as a result of inputting the left and right images.

Gemäß einer Ausführungsform weist ein System zum Verbessern der Vorhersage von blickbezogenen Parametern eine am Kopf tragbare Vorrichtung auf, die eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Teil eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Teil eines rechten Auges des Benutzers aufweist, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt. Außerdem weist das System eine Verarbeitungseinheit auf, die mit der ersten Kamera und der zweiten Kamera verbunden werden kann und eingerichtet ist, einen vorhergesagten Wert eines blickbezogenen Parameters des Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe eines trainierten neuronalen Netzes zu bestimmen. Zudem weist das System ein Rechensystem auf, das mit der Verarbeitungseinheit verbunden werden kann und eingerichtet ist, eine Datenbank zu hosten und ein neuronales Netz unter Verwendung der Datenbank zu trainieren, um das trainierte neuronale Netz zu erhalten und/oder zu verbessern. Das System ist eingerichtet zum:

  • ◯ Präsentieren eines ersten Stimulus für den Benutzer, der die am Kopf tragbare Vorrichtung trägt, wobei der erste Stimulus den Benutzer dazu anleitet, auf ein Objekt zu blicken, das eine Blickrichtung relativ zu einem mit der am Kopf tragbaren Vorrichtung fixierten Koordinatensystem und/oder einem Blickpunkt in dem Koordinatensystem definiert;
  • ◯ Verwenden der ersten Kamera der am Kopf tragbaren Vorrichtung, um, wenn erwartet wird, dass der Benutzer auf den ersten Stimulus reagiert oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, ein erstes linkes Bild von mindestens einem Teil des linken Auges des Benutzers zu erzeugen, und Verwenden der zweiten Kamera der am Kopf tragbaren Vorrichtung, wenn erwartet wird, dass der Benutzer auf den ersten Stimulus reagiert oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, um ein erstes rechtes Bild von mindestens einem Teil des rechten Auges des Benutzers zu erzeugen;
  • ◯ Erzeugen eines ersten Datensatzes, der das erste linke Bild, das erste rechte Bild und eine erste Repräsentation eines blickbezogenen Parameters des Benutzers umfasst, wobei die erste Repräsentation mit dem durch das Objekt definierten Blickpunkt und/oder der durch das Objekt definierten Blickrichtung korreliert ist; und/oder
  • ◯ Hinzufügen des ersten Datensatzes zur Datenbank, um eine aktualisierte Datenbank zu erstellen.
According to one embodiment, a system for improving the prediction of gaze-related parameters comprises a head-mounted device having a first camera for generating a left image of at least a portion of a user's left eye and a second camera for generating a right image of at least one Part of a right eye of the user when the user wears the head-worn device. The system also includes a processing unit connectable to the first camera and the second camera and configured to determine a predicted value of a gaze-related parameter of the user using the left image and the right image as input to a trained neural network. In addition, the system has a computing system that can be connected to the processing unit and is configured to host a database and to train a neural network using the database in order to maintain and/or improve the trained neural network. The system is set up for:
  • ◯ Presenting a first stimulus to the user wearing the headwearable device, the first stimulus directing the user to gaze at an object having a gaze direction relative to a coordinate system fixed with the headwearable device and/or a viewpoint defined in the coordinate system;
  • ◯ Using the first camera of the head-worn device, when the user is expected to respond or is expected to have responded to the first stimulus, to acquire a first left image of at least a portion of the user's left eye user, and using the second camera of the head-worn device when the user is expected to respond or is expected to have responded to the first stimulus to generate a first right image of at least a portion of the generate the user's right eye;
  • ◯ generating a first data set comprising the first left image, the first right image and a first representation of a gaze-related parameter of the user, wherein the first representation is correlated with the gaze point defined by the object and/or the gaze direction defined by the object; and or
  • ◯ Adding the first record to the database to create an updated database.

Gemäß einer Ausführungsform einer am Kopf tragbaren Brillenvorrichtung zum Bestimmen von einem oder mehreren blickbezogenen Parametern eines Benutzers weist die am Kopf tragbare Brillenvorrichtung eine linke Kamera zum Aufnehmen eines linken Bildes von mindestens einem Abschnitt eines linken Auges, eine rechte Kamera zum Aufnehmen eines rechten Bildes von mindestens eines Abschnitts eines rechten Auge des Benutzers und einen Brillenkörper auf, der eine mittlere Ebene aufweist und dazu konfiguriert ist, am Kopf eines Benutzers tragbar zu sein, und mindestens eine linke und eine rechte Okularöffnung (Augenöffnung) aufweist. Beide Okularöffnungen definieren einen Begrenzungsquader, der eine obere Fläche, eine untere Fläche, eine linke Seitenfläche und eine rechte Seitenfläche aufweist. Die obere Fläche des Begrenzungsquaders ist senkrecht zur mittleren Ebene des Brillenkörper ausgerichtet. Die Kameras sind am Brillenkörper in inneren Augenkameraanordnungszonen und/oder in äußeren Augenkameraanordnungszonen angeordnet. Die linke und die rechte innere Augenkameraanordnungszone sind in einem Nasenbrückenabschnitt des Brillenkörpers angeordnet und erstrecken sich zwischen 2 und 14 mm, insbesondere zwischen 3 und 12 mm, in eine jeweilige Richtung senkrecht zur mittleren Ebene. Die linke äußere Augenkameraanordnungszone befindet sich in einem linken seitlichen Abschnitt des Brillenkörpers und erstreckt sich um 6 mm, insbesondere 5 mm, genauer 4 mm, von der linken Seitenfläche des Begrenzungsquaders in Richtung der mittleren Ebene und erstreckt sich um 7 mm, insbesondere 6 mm, noch besonderer 5 mm, ausgehend von der linken Seitenfläche weg von der mittleren Ebene. Die rechte äußere Augenkameraanordnungszone befindet sich in einem rechten seitlichen Abschnitt des Brillenkörpers und erstreckt sich um 6 mm, insbesondere 5 mm, noch besonderer 4 mm, von der rechten Seitenfläche des Begrenzungsquaders in Richtung der mittleren Ebene und erstreckt sich um 7 mm, insbesondere 6 mm, noch besonderer 5 mm, ausgehend von der rechten Seitenfläche weg von der mittleren Ebene.According to one embodiment of a head-wearable eyewear device for determining one or more gaze-related parameters of a user, the head-wearable eyewear device has a left camera for capturing a left image of at least a portion of a left eye, a right camera for capturing a right image of at least a portion of a user's right eye, and a goggle body having a middle plane and configured to be wearable on a user's head and having at least left and right eyepiece openings (eye openings). Both eyepiece openings define a bounding box having a top surface, a bottom surface, a left side surface and a right side surface. The top surface of the bounding box is oriented perpendicular to the median plane of the goggle body. The cameras are arranged on the goggle body in inner eye camera arrangement zones and/or in outer eye camera arrangement zones. The left and right inner eye camera assembly zones are located in a nose bridge portion of the eyeglass body and extend between 2 and 14 mm, particularly between 3 and 12 mm, in a respective direction perpendicular to the median plane. The left outer eye camera arrangement zone is located in a left lateral portion of the glasses body and extends by 6 mm, specifically 5 mm, more precisely 4 mm from the left side surface of the bounding box towards the middle plane and extends by 7 mm, specifically 6 mm, even more particularly 5 mm, starting from the left side surface away from the middle plane. The right outer eye camera assembly zone is located in a right lateral portion of the goggle body and extends 6 mm, particularly 5 mm, particularly 4 mm from the right lateral surface of the bounding box Ders in the direction of the middle plane and extends by 7 mm, in particular 6 mm, more especially 5 mm, starting from the right side surface away from the middle plane.

Gemäß einer Ausführungsform einer am Kopf tragbaren Brillenvorrichtung zum Bestimmen von einem oder mehreren blickbezogenen Parametern eines Benutzers weist die am Kopf tragbare Brillenvorrichtung einen Brillenkörper auf, der eine mittlere Ebene, einen Nasenbrückenabschnitt, einen linken seitlichen Abschnitt, einen rechten seitlichen Abschnitt, eine linke Okularöffnung und eine rechte Okularöffnung aufweist. Die Brillenvorrichtung ist dazu konfiguriert, am Kopf eines Benutzers tragbar zu sein. Die mittlere Ebene schneidet den Nasenbrückenabschnitt, und die jeweilige Okularöffnung befindet sich zwischen dem Nasenbrückenabschnitt und dem jeweiligen seitlichen Abschnitt. Die Brillenvorrichtung weist ferner mindestens eines von einer linken Kamera zum Aufnehmen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers, wobei die linke Kamera im Nasenbrückenabschnitt angeordnet ist, und wobei eine optische Achse der linken Kamera in Bezug auf die mittlere Ebene in einem Winkel von 150° bis 142° (oder -30° bis -38°), insbesondere von 144° (oder -36°), geneigt ist, einer rechten Kamera zum Aufnehmen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges eines Benutzers, wobei die rechte Kamera im Nasenbrückenabschnitt angeordnet ist, und wobei eine optische Achse der rechten Kamera in Bezug auf die mittlere Ebene in einem Winkel von 30° bis 38°, insbesondere von 36°, geneigt ist, einer linken Kamera zum Aufnehmen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers, wobei die linke Kamera im linken seitlichen Abschnitt angeordnet ist, und wobei eine optische Achse der linken Kamera in Bezug auf die mittlere Ebene in einem Winkel von 55° bis 70°, insbesondere von 62°, geneigt ist, und/oder einer rechten Kamera zum Aufnehmen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges eines Benutzers ein, wobei die rechte Kamera im rechten seitlichen Abschnitt angeordnet ist, und wobei eine optische Achse der rechten Kamera in Bezug auf die mittlere Ebene in einem Winkel von 125° bis 110° (oder -55° bis -70°), insbesondere von 118° (oder -62°), geneigt ist, auf.According to an embodiment of a head-wearable eyeglass device for determining one or more vision-related parameters of a user, the head-wearable eyewear device has a goggle body which has a median plane, a nose bridge portion, a left lateral portion, a right lateral portion, a left eyepiece opening and has a right eyepiece opening. The eyeglass device is configured to be wearable on a user's head. The median plane intersects the nose bridge section and the respective eyepiece opening is located between the nose bridge section and the respective lateral section. The eyeglass device further includes at least one of a left camera for capturing a left image of at least a portion of a user's left eye, wherein the left camera is disposed in the nose bridge portion, and wherein an optical axis of the left camera with respect to the median plane is in one angle of 150° to 142° (or -30° to -38°), in particular 144° (or -36°), a right camera for capturing a right image of at least a portion of a user's right eye, wherein the right camera is arranged in the nose bridge portion, and wherein an optical axis of the right camera is inclined with respect to the median plane at an angle of 30° to 38°, particularly 36°, a left camera for taking a left image of at least a portion of a user's left eye, wherein the left camera is disposed in the left lateral portion, and wherein an optical axis of the left camera ra is inclined with respect to the median plane at an angle of 55° to 70°, in particular 62°, and/or a right camera for capturing a right image of at least a portion of a user's right eye, the right camera is arranged in the right lateral section, and wherein an optical axis of the right camera with respect to the median plane is at an angle of 125° to 110° (or -55° to -70°), in particular from 118° (or -62 °), inclined on.

Gemäß einer Ausführungsform eines Verfahrens zum Erstellen und Aktualisieren einer Datenbank zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes (convolutional neural network), umfasst das Verfahren Präsentieren eines ersten Stimulus an einen ersten Benutzer, der eine am Kopf tragbare Vorrichtung trägt. Die am Kopf tragbare Vorrichtung weist eine erste Kamera und eine zweite Kamera auf. Die erste Kamera ist neben einem linken Auge des ersten Benutzers angeordnet und die zweite Kamera ist neben einem rechten Auge des ersten Benutzers angeordnet, wenn der erste Benutzer die am Kopf tragbare Vorrichtung trägt. Wenn erwartet wird, dass der erste Benutzers auf den ersten Stimulus reagiert, oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, wird die erste Kamera der am Kopf tragbaren Vorrichtung verwendet, um ein erstes linkes Bild von mindestens einem Abschnitt des linken Auges des ersten Benutzers zu erzeugen, und eine zweite Kamera der am Kopf tragbaren Vorrichtung wird verwendet, um ein erstes rechtes Bild von mindestens einem Abschnitt des rechten Auges des ersten Benutzers zu erzeugen. Es wird eine Datenverbindung zwischen der am Kopf tragbaren Vorrichtung und der Datenbank hergestellt. Es wird ein erster Datensatz erzeugt, der das erste linke Bild, das erste rechte Bild und eine erste Repräsentation eines blickbezogenen Parameters einschließt. Die erste Repräsentation ist mit dem ersten Stimulus korreliert. Der erste Datensatz wird zu der Datenbank hinzugefügt.According to an embodiment of a method for creating and updating a database for training a neural network, in particular a convolutional neural network, the method comprises presenting a first stimulus to a first user wearing a head-worn device. The head-worn device has a first camera and a second camera. The first camera is located near a left eye of the first user and the second camera is located near a right eye of the first user when the first user wears the headwear device. When the first user is expected to respond to the first stimulus, or is expected to have responded to the first stimulus, the first camera of the head-worn device is used to capture a first left image of at least a portion of the left eye of the first user, and a second camera of the head-worn device is used to generate a first right image of at least a portion of the first user's right eye. A data connection is established between the head-worn device and the database. A first data set is created that includes the first left image, the first right image, and a first representation of a gaze-related parameter. The first representation is correlated with the first stimulus. The first record is added to the database.

Gemäß einer Ausführungsform eines Verfahrens zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes, umfasst das Verfahren Bereitstellen einer Datenbank, die eine Vielzahl von Datensätzen einschließt, wobei die Datensätze ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige entsprechende Repräsentation eines blickbezogenen Parameters, insbesondere einen jeweiligen entsprechenden Wert des blickbezogenen Parameters, aufweisen. Es wird ein neuronales Netz mit einer gegebenen Architektur bereitgestellt. Parameter des neuronalen Netzes werden unter Verwendung der jeweiligen linken Bilder und der jeweiligen rechten Bilder eines Teilsatzes oder aller Datensätze als Eingabe und der jeweiligen entsprechenden Repräsentationen der blickbezogenen Parameter des Teilsatzes oder aller Datensätze als gewünschte Ausgabe des neuronalen Netzes bestimmt.According to one embodiment of a method for training a neural network, in particular a neural convolutional network, the method comprises providing a database which includes a plurality of data sets, the data sets being a respective left image, a respective right image and a respective corresponding representation of a gaze-related parameter , in particular a respective corresponding value of the gaze-related parameter. A neural network with a given architecture is provided. Neural network parameters are determined using the respective left images and respective right images of a subset or all datasets as input and the respective corresponding representations of the gaze-related parameters of the subset or all datasets as the desired neural network output.

Gemäß einer Ausführungsform eines Verfahrens zum Kalibrieren einer am Kopf tragbaren Vorrichtung umfasst das Verfahren Präsentieren eines Stimulus an einen Benutzer ein, der die am Kopf tragbare Vorrichtung trägt. Der Stimulus ist mit einem gewünschten Wert eines blickbezogenen Parameters korreliert. Die am Kopf tragbare Vorrichtung umfasst eine erste Kamera und eine zweite Kamera ein. Die erste Kamera ist neben einem linken Auge des Benutzers angeordnet und die zweite Kamera ist neben einem rechten Auge des Benutzers angeordnet, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt. Die erste Kamera wird verwendet, um ein linkes Bild von mindestens einem Abschnitt des linken Auges des Benutzers zu erzeugen, und die zweite Kamera wird verwendet, um ein rechtes Bild von mindestens einem Abschnitt des rechten Auges des Benutzers zu erzeugen, der die am Kopf tragbare Vorrichtung trägt und von dem erwartet wird, dass er auf den Stimulus reagiert, oder von dem erwartet wird, dass er auf den Stimulus reagiert hat. Ein trainiertes neuronales Netz, insbesondere ein trainiertes neuronales Faltungsnetz, wird verwendet, um einen vorhergesagten Wert des blickbezogenen Parameters unter Verwendung des rechten Bildes und des linken Bildes als eine Eingabe für das trainierte neuronale Netz zu bestimmen. Der gewünschte Wert des blickbezogenen Parameters und der vorhergesagte Wert des blickbezogenen Parameters werden verwendet, um eine Korrekturfunktion für den Benutzer zu bestimmen. Wahlweise wird die Korrekturfunktion für den Benutzer gespeichert.According to one embodiment of a method for calibrating a headwear device, the method includes presenting a stimulus to a user wearing the headwear device. The stimulus is correlated to a desired value of a gaze-related parameter. The head-worn device includes a first camera and a second camera. The first camera is placed near a user's left eye and the second camera is placed near a user's right eye when the user wears the head-mounted device. The first camera is used to generate a left image of at least a portion of the user's left eye and the second camera is used to generate a right image of at least a portion of the right eye of the user wearing the headworn device and who is expected to respond to the stimulus or who is expected to have responded to the stimulus. A trained neural network, specifically a trained convolution neural network, is used to determine a predicted value of the gaze-related parameter using the right image and the left image as an input to the trained neural network. The desired value of the gaze-related parameter and the predicted value of the gaze-related parameter are used to determine a correction function for the user. Optionally, the correction function is saved for the user.

Gemäß einer Ausführungsform eines Systems zum Verbessern der Vorhersage von blickbezogenen Parametern weist das System mindestens eine am Kopf anbringbare Vorrichtung, eine Verarbeitungseinheit und ein Rechensystem auf, das mit der Verarbeitungseinheit verbindbar und dazu konfiguriert ist, eine erste Datenbank zu hosten und ein neuronales Netz, insbesondere ein neuronales Faltungsnetz, unter Verwendung der ersten Datenbank zu trainieren. Die mindestens eine am Kopf anbringbare Vorrichtung weist eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers auf, wenn der Benutzer die am Kopf anbringbare Vorrichtung trägt. Die Verarbeitungseinheit ist mit der ersten Kamera und der zweiten Kamera verbindbar und dazu konfiguriert, einen vorhergesagten Wert eines blickbezogenen Parameters des Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe des neuronalen Netzes zu bestimmen. Das System ist dazu konfiguriert, Datensätze zu der ersten Datenbank hinzuzufügen und Parameter des neuronalen Netzes von dem Rechensystem an die Verarbeitungseinheit zu übertragen. Die Datensätze weisen ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation des blickbezogenen Parameters des Benutzers auf.According to one embodiment of a system for improving the prediction of gaze-related parameters, the system comprises at least one head-mountable device, a processing unit and a computing system connectable to the processing unit and configured to host a first database and a neural network, in particular train a convolutional neural network using the first database. The at least one head-mountable device includes a first camera for generating a left image of at least a portion of a user's left eye and a second camera for generating a right image of at least a portion of a user's right eye when the user uses the am carries head attachable device. The processing unit is connectable to the first camera and the second camera and configured to determine a predicted value of a gaze-related parameter of the user using the left image and the right image as input to the neural network. The system is configured to add records to the first database and transmit neural network parameters from the computing system to the processing unit. The data sets include a respective left image, a respective right image, and a respective representation of the user's gaze-related parameter.

Gemäß einer Ausführungsform eines Verfahren zum Erfassen von einem oder mehreren blickbezogenen Parametern eines Benutzers umfasst das Verfahren Erstellen eines linken Bildes von mindestens einem Abschnitt eines linken Auges des Benutzers unter Verwendung einer ersten Kamera einer am Kopf tragbaren Vorrichtung, die durch den Benutzer getragen wird, Erstellen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers unter Verwendung einer zweiten Kamera der am Kopf tragbaren Vorrichtung, gemeinsames Einspeisen des linken und rechten Bildes als eine Eingabe in ein neuronales Faltungsnetz und Erhalten des einen oder der mehreren blickbezogenen Parameter von dem neuronalen Faltungsnetz als ein Ergebnis der Eingabe des linken und rechten Bildes.According to an embodiment of a method for detecting one or more gaze-related parameters of a user, the method comprises creating a left image of at least a portion of a left eye of the user using a first camera of a head-mounted device worn by the user a right image of at least a portion of a user's right eye using a second camera of the head-worn device, feeding the left and right images together as an input to a convolution neural network, and obtaining the one or more gaze-related parameters from the convolution neural network as a result of inputting the left and right images.

Weitere Ausführungsformen schließen entsprechende Computersysteme, computerlesbare Speichermedien oder Vorrichtungen sowie Computerprogramme ein, die auf einem/einer oder mehreren computerlesbaren Speichermedien oder Computerspeichervorrichtungen aufgezeichnet sind und jeweils dazu konfiguriert sind, die Prozesse der hier beschriebenen Verfahren durchzuführen.Other embodiments include appropriate computer systems, computer-readable storage media or devices, and computer programs recorded on one or more computer-readable storage media or computer storage devices, each configured to perform the processes of the methods described herein.

Ein System von und/oder mit einem oder mehreren Computern kann dazu konfiguriert sein, bestimmte Vorgänge oder Prozesse mittels Software, Firmware, Hardware oder einer beliebigen Kombination davon durchzuführen, die auf einem oder mehreren Computern installiert ist und das System im Betrieb veranlassen kann, die Prozesse durchzuführen. Ein oder mehrere Computerprogramme können dazu konfiguriert sein, bestimmte Vorgänge oder Prozesse durchzuführen, indem sie Anweisungen einschließen, die bei Ausführung durch einen einzelnen oder mehrere Prozessoren des Systems das System veranlassen, die Prozesse durchzuführen.A system of and/or including one or more computers may be configured to perform certain operations or processes by means of software, firmware, hardware, or any combination thereof installed on one or more computers and capable of causing the system, when in operation, to do so carry out processes. One or more computer programs may be configured to perform particular operations or processes by including instructions that, when executed by a single or multiple processors of the system, cause the system to perform the processes.

Der Fachmann wird bei der Lektüre der nachfolgenden detaillierten Beschreibung und Betrachtung der begleitenden Zeichnungen weitere Merkmale und Vorteile erkennen.Other features and advantages will become apparent to those skilled in the art upon reading the following detailed description and considering the accompanying drawings.

Figurenlistecharacter list

Die Komponenten in den Figuren sind nicht zwingend maßstabsgetreu; stattdessen wird die Veranschaulichung der Grundgedanken der Erfindung betont. Darüber hinaus bezeichnen in den Figuren gleiche Bezugszeichen entsprechende Teile. Es zeigen:

  • 1A eine Draufsicht auf eine verallgemeinerte Ausführungsform einer am Kopf tragbaren Brillenvorrichtung zum Bestimmen von einem oder mehreren blickbezogenen Parametern gemäß mindestens einer Ausführungsform;
  • 1B eine Vorderansicht der Brillenvorrichtung gemäß 1A;
  • 1C eine Seitenansicht der Brillenvorrichtung gemäß 1A
  • 2A ein Ablaufdiagramm eines Verfahrens zum Erstellen und Aktualisieren einer Datenbank zum Trainieren eines neuronalen Netzes gemäß Ausführungsformen;
  • 2B ein Ablaufdiagramm eines Verfahrens zum Erstellen und Aktualisieren einer Datenbank zum Trainieren eines neuronalen Netzes gemäß Ausführungsformen;
  • 2C ein Ablaufdiagramm eines Teils des Verfahrens aus 2A und 2B, jeweils gemäß Ausführungsformen;
  • 3A ein Ablaufdiagramm eines Verfahrens zum Trainieren eines neuronalen Netzes gemäß Ausführungsformen;
  • 3B ein Ablaufdiagramm eines Verfahrens zum Kalibrieren einer am Kopf tragbaren Vorrichtung;
  • 3C ein Ablaufdiagramm eines Verfahrens zum Erfassen von einem oder mehreren blickbezogenen Parametern gemäß Ausführungsformen;
  • 3D ein System zum Verbessern der Vorhersage von blickbezogenen Parametern gemäß einer Ausführungsform;
  • 4 ein System zum Verbessern der Vorhersage von blickbezogenen Parametern gemäß einer Ausführungsform;
  • 5 ein System zum Verbessern der Vorhersage von blickbezogenen Parametern gemäß einer Ausführungsform; und
  • 6 ein System zum Verbessern der Vorhersage von blickbezogenen Parametern gemäß einer Ausführungsform.
The components in the figures are not necessarily to scale; instead, emphasis is placed on illustrating the principles of the invention. Moreover, in the figures, like reference characters indicate corresponding parts. Show it:
  • 1A 14 is a plan view of a generalized embodiment of a head-wearable eyeglass device for determining one or more vision-related parameters, in accordance with at least one embodiment;
  • 1B a front view of the spectacle device according to FIG 1A ;
  • 1C a side view of the spectacle device according to FIG 1A
  • 2A 12 is a flow chart of a method for creating and updating a database for training a neural network according to embodiments;
  • 2 B a flowchart of a method for creating and updating a data bank for training a neural network according to embodiments;
  • 2C a flowchart of part of the process 2A and 2 B , each according to embodiments;
  • 3A FIG. 12 shows a flow diagram of a method for training a neural network according to embodiments; FIG.
  • 3B FIG. 12 is a flowchart of a method for calibrating a head-worn device; FIG.
  • 3C a flowchart of a method for detecting one or more gaze-related parameters according to embodiments;
  • 3D a system for improving prediction of gaze-related parameters according to an embodiment;
  • 4 a system for improving prediction of gaze-related parameters according to an embodiment;
  • 5 a system for improving prediction of gaze-related parameters according to an embodiment; and
  • 6 a system for improving prediction of gaze-related parameters according to an embodiment.

AUSFÜHRLICHE BESCHREIBUNGDETAILED DESCRIPTION

In der nachfolgenden detaillierten Beschreibung wird auf die begleitenden Zeichnungen Bezug genommen, die einen Teil dieser Ausführungen bilden und in denen zur Veranschaulichung spezifische Ausführungsformen gezeigt werden, in denen die Erfindung umgesetzt werden kann. In dieser Hinsicht wird richtungsbezogene Terminologie wie etwa „oben“, „unten“, „vorne“, „hinten“, „führend.“, „nachlaufend“ usw. unter Bezugnahme auf die Ausrichtung der beschriebenen Figur(en) verwendet. Da Komponenten von Ausführungsformen in einer Reihe unterschiedlicher Ausrichtungen angeordnet sein können, dient die richtungsbezogene Terminologie der Veranschaulichung und ist in keiner Weise einschränkend. Es versteht sich, dass andere Ausführungsformen benutzt werden können und dass strukturelle oder logische Änderungen daran vorgenommen werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen. Die nachfolgende ausführliche Beschreibung ist daher nicht im einschränkenden Sinne zu verstehen, und der Umfang der vorliegenden Erfindung ist in den beigefügten Ansprüchen definiert.In the following detailed description, reference is made to the accompanying drawings which form a part hereof, and in which is shown by way of illustration specific embodiments in which the invention may be practiced. In this regard, directional terminology such as "top," "bottom," "front," "back," "leading," "trailing," etc. is used with reference to the orientation of the character(s) being described. Because components of embodiments can be arranged in a number of different orientations, the directional terminology is used for purposes of illustration and is in no way limiting. It is understood that other embodiments may be utilized and that structural or logical changes may be made therein without departing from the scope of the present invention. The following detailed description is, therefore, not to be taken in a limiting sense, and the scope of the present invention is defined in the appended claims.

Es ist eine Aufgabe der Erfindung, Verfahren, Systeme und Vorrichtungen bereitzustellen, die das Bestimmen von einem oder mehreren blickbezogenen Parametern eines Benutzers mit verbesserter Leistung und/oder verbesserten funktionalen und/oder ergonomischen Eigenschaften ermöglichen.It is an object of the invention to provide methods, systems and devices that enable the determination of one or more gaze-related parameters of a user with improved performance and/or improved functional and/or ergonomic properties.

Diese Aufgaben werden durch den Gegenstand der vorgesehenen Ansprüche erfüllt.These objects are met by the subject matter of the intended claims.

Insbesondere umfasst eine Brillenvorrichtung einen Brillenkörper, der derart konfiguriert ist, dass er am Kopf eines Benutzers getragen werden kann, beispielsweise in einer Weise, in der eine gewöhnliche Brille getragen wird. Wenn die Brillenvorrichtung durch einen Benutzer getragen wird, kann sie daher insbesondere mindestens teilweise durch einen Nasenbereich des Gesichts des Benutzers getragen werden.In particular, an eyeglass device includes an eyeglass body configured to be worn on a user's head, for example in a manner in which ordinary eyeglasses are worn. In particular, therefore, when the spectacle device is worn by a user, it can be worn at least partially through a nasal area of the user's face.

Dieser Benutzungszustand der im Gesicht des Benutzers angeordneten Brillenvorrichtung wird im Weiteren als die „vorgesehene Verwendung“ der Brillenvorrichtung definiert, wobei die Bezugnahme auf Richtung und Position, beispielsweise horizontal und vertikal, parallel und senkrecht, links und rechts, vorne und hinten, oben und unten usw., eine Bezugnahme auf diese vorgesehene Verwendung ist. Mithin sind seitliche Positionen wie links und rechts, eine obere und untere Position und eine vordere/vorwärtige und hintere/rückwärtige Position von der Perspektive des Benutzers aus zu verstehen. Dies gilt gleichermaßen für eine horizontal und vertikale Ausrichtung, wobei der Kopf des Benutzers sich während der vorgesehenen Verwendung in einer normalen und somit aufrechten, nicht geneigten und nicht nickenden Position befindet.This state of use of the eyeglass device placed on the user's face is further defined as the "intended use" of the eyeglass device, with reference to direction and position, for example horizontal and vertical, parallel and perpendicular, left and right, front and rear, up and down etc., is a reference to that intended use. Thus, lateral positions such as left and right, up and down, and front/forward and back/back positions are to be understood from the user's perspective. This applies equally to horizontal and vertical orientation, with the user's head being in a normal and thus upright, non-tilting and non-nodding position during intended use.

Gemäß einer Ausführungsform umfasst der Brillenkörper eine linke Okularöffnung und eine rechte Okularöffnung, die hauptsächlich dazu dienen, dem Benutzer den Blick durch diese Okularöffnungen zu erlauben. Die Okularöffnungen können ohne Beschränkung als Sonnenabschirmung, optische Linsen oder nichtoptische transparente Brillengläser oder als ein nichtmaterieller, optischer Pfad verkörpert sein, der das Hindurchtreten von Lichtstrahlen zulässt.According to one embodiment, the eyeglass body includes a left ocular opening and a right ocular opening, which primarily serve to allow the user to see through these ocular openings. The ocular openings may be embodied, without limitation, as a sun shield, optical lenses, or non-optical transparent eyeglass lenses, or an intangible, optical path that allows light rays to pass therethrough.

Gemäß einem weiteren Aspekt der Erfindung bildet der Brillenkörper die Okularöffnungen mindestens teilweise oder ganz, indem er sie gegenüber der Umgebung begrenzt. In diesem Fall dient der Brillenkörper als ein Rahmen für die optischen Öffnungen. Dieser Rahmen muss nicht zwingend eine vollständige und geschlossene Umgebung der Okularöffnungen bilden. Ferner ist es möglich, dass die optischen Öffnungen selbst eine rahmenartige Konfiguration aufweisen, beispielsweise indem sie mithilfe von transparentem Brillenglas eine Trägerstruktur bereitstellen. Im letzteren Fall weist die Brillenvorrichtung eine Form ähnlich der einer randlosen Brille auf, wobei nur ein Nasenträger-/Brückenabschnitt und Ohrbügel an den Glasscheiben angebracht sind, die daher zugleich als integrierter Rahmen und optische Öffnungen dienen.According to a further aspect of the invention, the spectacle body forms the eyepiece openings at least partially or entirely by delimiting them with respect to the environment. In this case, the eyeglass body serves as a frame for the optical openings. This frame does not necessarily have to form a complete and closed environment around the eyepiece openings. Furthermore, it is possible for the optical openings themselves to have a frame-like configuration, for example by providing a support structure with the aid of transparent spectacle lenses. In the latter case, the spectacle device has a shape similar to that of rimless spectacles, with only a nose bridge section and ear loops attached to the glass panels, which therefore double as an integrated frame and optical openings.

Außerdem kann eine mittlere Ebene des Brillenkörpers identifiziert werden. Insbesondere beschreibt die mittlere Ebene eine strukturelle Mittelebene des Brillenkörpers, wobei jeweilige Strukturkomponenten oder -abschnitte, die miteinander vergleichbar oder ähnlich zueinander sind, auf gleichartige Weise auf jeder Seite der mittleren Ebene angeordnet sind. Wenn die Brillenvorrichtung bei der vorgesehenen Verwendung korrekt getragen wird, fällt die mittlere Ebene mit einer Mittellinienebene des Benutzers zusammen.In addition, a middle plane of the glasses body can be identified. In particular, the median plane describes a structural median plane of the eyeglass body, with respective structural components or portions that are comparable or similar to one another being arranged in a similar manner on either side of the median plane. When the eyeglass device is worn correctly in the intended use, the median plane coincides with a median plane of the user.

Gemäß einer bestimmten Ausführungsform der Erfindung umfasst der Brillenkörper einen Nasenbrückenabschnitt (von engl. „nose bridge portion“, auch als Nasenstegabschnitt bzw. Nasenrückenabschnitt bezeichnet), einen linken seitlichen Abschnitt und einen rechten seitlichen Abschnitt, wobei die mittlere Ebene den Nasenbrückenabschnitt schneidet und die jeweilige Okularöffnung sich zwischen dem Nasenbrückenabschnitt und dem jeweiligen seitlichen Abschnitt befindet.According to a particular embodiment of the invention, the eyeglass body comprises a nose bridge portion (also referred to as a nose bridge portion), a left lateral portion and a right lateral portion, wherein the median plane intersects the nose bridge portion and the respective Eyepiece opening is located between the nose bridge section and the respective lateral section.

Zu Orientierungszwecken sei eine Ebene senkrecht zur Mittelachse mittleren Ebene definiert, die insbesondere vertikal ausgerichtet ist, wobei diese vertikale Ebene nicht zwingend fest an einer definierten vorderen oder hinteren Position der Brillenvorrichtung angeordnet ist.For orientation purposes, a plane perpendicular to the central axis is defined as the middle plane, which is in particular vertically oriented, with this vertical plane not necessarily being arranged fixedly at a defined front or rear position of the spectacles device.

Mithilfe der beiden Okularöffnungen wird ein Begrenzungsquader (begrenzender Quader / als Hüllkörper) definiert, der im Folgenden als künstliches Bezugssystem für geometrische Auslegungsdaten dienen soll; somit ist der Begrenzungsquader eine virtuelle, nicht verkörperte Struktur, die per Definition eine obere Fläche, eine untere Fläche, eine linke Seitenfläche und eine rechte Seitenfläche aufweist; folglich lässt sich der Quader nicht in Form eines realen Quaderkörpers an der Brillenvorrichtung erkennen. Der Begrenzungsquader ist in Bezug auf die mittlere Ebene des Brillenkörper derart ausgerichtet, dass mindestens die obere Fläche senkrecht zur mittleren Ebene ist.With the help of the two eyepiece openings, a limiting cuboid (limiting cuboid / as an enveloping body) is defined, which is to serve as an artificial reference system for geometric design data in the following; thus, the bounding box is a virtual, non-embodied structure defined as having a top surface, a bottom surface, a left side surface, and a right side surface; Consequently, the cuboid cannot be recognized in the form of a real cuboid body on the spectacle device. The bounding box is oriented with respect to the median plane of the eyeglass body such that at least the top surface is perpendicular to the median plane.

Gemäß einer Ausführungsform ist der Begrenzungsquader ein rechteckiger Quader; folglich sind die obere und die untere Fläche beide senkrecht zur mittleren Ebene, und die linke und rechte Seitenfläche sind beide in Bezug auf die mittlere Ebene parallel ausgerichtet.According to one embodiment, the bounding box is a rectangular box; consequently, the top and bottom faces are both perpendicular to the median plane, and the left and right side faces are both oriented parallel with respect to the median plane.

In den nachfolgenden ergänzenden Verdeutlichungen und Erläuterungen zu dem künstlichen Bezugssystem wird der „Begrenzungsquader“ für den Fachmann insbesondere in einer nicht einschränkenden Weise bereitgestellt: Die Definition des Begrenzungsquaders durch die Okularöffnungen erfolgt durch virtuelles Abdecken des Volumens beider Okularöffnungen mit einem Quader, wobei insbesondere die linke Seitenfläche des Begrenzungsquaders die linke Okularöffnung von der linken Seite aus berührt, die rechte Seitenfläche des Quaders die rechte Okularöffnung von der rechten Seite aus berührt, die obere Fläche des Quaders mindestens eine der Okularöffnungen von oben berührt und wobei die untere Fläche des Quaders mindestens eine der Okularöffnungen von unten berührt. Infolgedessen springen die Okularöffnungen nicht von den Grenzflächen des Begrenzungsquaders vor, und die Größe des Begrenzungsquaders erstreckt sich nicht über die maximale Erstreckung der Okularöffnungen hinaus.In the following supplementary clarifications and explanations of the artificial reference system, the "limiting cuboid" is provided for the person skilled in the art in a non-restrictive manner: The definition of the limiting cuboid through the eyepiece openings is carried out by virtually covering the volume of both eyepiece openings with a cuboid, with the left side surface of the bounding box touches the left eyepiece opening from the left side, the right side surface of the box touches the right eyepiece opening from the right side, the top surface of the box touches at least one of the eyepiece openings from above and the bottom surface of the box touches at least one of the eyepiece openings touched from below. As a result, the ocular openings do not protrude from the boundary surfaces of the bounding box and the size of the bounding box does not extend beyond the maximum extent of the ocular openings.

Gemäß der Erfindung umfasst die Brillenvorrichtung eine linke und eine rechte Kamera, wobei die linke Kamera zum Aufnehmen eines linken Bildes oder einer Folge von Bildern von mindestens einem Abschnitt des linken Auges des Benutzers dient und wobei die rechte Kamera ein Bild oder eine Folge von Bildern von mindestens einem Abschnitt eines rechten Auges des Benutzers aufnimmt. Die aufgezeichneten Bilder müssen nicht zwingend ein durch das menschliche Auge sichtbares Bild sein, sondern können auch eine geeignete Darstellung des gefilmten Auges in einem nicht für Menschen sichtbaren Lichtbereich sein.According to the invention, the eyewear device comprises a left and a right camera, the left camera for taking a left image or a sequence of images of at least a portion of the user's left eye and the right camera for taking an image or a sequence of images of at least a portion of a user's right eye. The recorded images do not necessarily have to be an image visible to the human eye, but can also be a suitable representation of the filmed eye in a light range that is not visible to humans.

Die Kameras können am Brillenkörper in inneren Augenkameraanordnungszonen und/oder in äußeren Augenkameraanordnungszonen angeordnet sein, wobei diese Zonen insbesondere derart bestimmt sind, dass ein geeignetes Bild von mindestens einem Abschnitt des jeweiligen Auges zum Zweck des Bestimmens von einem oder mehreren eines blickbezogenen Parameters aufgenommen werden kann; insbesondere sind die Kameras in einem Nasenbrückenabschnitt und/oder in einem seitlichen Randabschnitt des Brillenrahmens angeordnet, derart, dass ein optisches Feld eines jeweiligen Auges nicht durch die jeweilige Kamera verdeckt ist. Das optische Feld ist als verdeckt definiert, wenn die Kamera einen ausdrücklich sichtbaren Bereich/Abschnitt innerhalb des optischen Feldes bildet, beispielsweise wenn die Kamera von den Grenzen des sichtbaren Feldes in das Feld hinausragt, oder indem sie von den Grenzen in das Feld vorspringt. Beispielsweise können die Kameras in einen Rahmen des Brillenkörpers integriert und somit nicht verdeckend sein. Im Zusammenhang der vorliegenden Erfindung gilt eine Einschränkung des sichtbaren Feldes, die von der Brillenvorrichtung selbst verursacht wird, insbesondere vom Brillenkörper oder Rahmen, nicht als Verdeckung des optischen Feldes.The cameras can be arranged on the spectacle body in inner eye camera arrangement zones and/or in outer eye camera arrangement zones, these zones being determined in particular in such a way that a suitable image of at least a portion of the respective eye can be recorded for the purpose of determining one or more of a gaze-related parameter ; In particular, the cameras are arranged in a nose bridge section and/or in a lateral edge section of the spectacle frame in such a way that an optical field of a respective eye is not covered by the respective camera. The optical field is defined as occluded when the camera forms an explicitly visible area/section within the optical field, for example when the camera protrudes into the field from the boundaries of the visible field, or by protruding from the boundaries into the field. For example, the cameras can be integrated into a frame of the eyeglass body and thus cannot be concealed. In the context of the present invention, a restriction of the visible field caused by the eyeglass device itself, in particular the eyeglass body or frame, is not considered to be an occlusion of the optical field.

Gemäß einer Ausführungsform der Brillenvorrichtung sind die Kameras nur in den inneren Augenkameraanordnungszonen angeordnet, wobei insbesondere nicht mehr als eine einzige Kamera in jeder inneren Augenkameraanordnungszone bereitgestellt ist; infolgedessen ist nur eine linke Kamera der linken Okularöffnung fest zugeordnet und nur eine rechte Kamera der rechten Okularöffnung fest zugeordnet.According to an embodiment of the eyeglass device, the cameras are only arranged in the inner eye camera arrangement zones, in particular no more than a single camera is provided in each inner eye camera arrangement zone; as a result, only one left camera is dedicated to the left eyepiece opening and only one right camera is dedicated to the right eyepiece opening.

Die inneren Augenkameraanordnungszonen können in einem Nasenbrückenabschnitt des Brillenkörpers verteilt sein. Im Detail wurde durch umfangreiche Versuche und Benutzertests festgestellt, dass die jeweilige innere Augenkameraanordnungszone sich zwischen 2 mm und 14 mm, insbesondere zwischen 3 mm und 12 mm, in einer horizontalen Richtung senkrecht zur mittleren Ebene erstrecken muss, um optimale Bilder zum Bestimmen des einen oder der mehreren blickbezogenen Parameter zu erlangen. Insbesondere können die inneren Augenkameraanordnungszonen in der senkrechten Ebene liegen und sich in dieser erstrecken, wobei - ausgehend von der mittleren Ebene in der linken und rechten horizontalen Richtung - die jeweilige innere Augenkameraanordnungszone in einer horizontalen Richtung in einer Entfernung von 2 mm, insbesondere 3 mm, von der mittleren Ebene beginnt und in horizontaler Richtung bis zu einer Entfernung von 14 mm, insbesondere 12 mm, von der mittleren Ebene reicht.The inner eye camera assembly zones may be distributed in a nose bridge portion of the goggle body. In detail, it has been determined through extensive experimentation and user testing that the respective inner eye camera array zone must extend between 2mm and 14mm, particularly between 3mm and 12mm, in a horizontal direction perpendicular to the median plane in order to obtain optimal images for determining one or of the several gaze-related parameters. In particular, the inner eye camera array zones can lie in and extend in the vertical plane, wherein - starting from the median plane in the left and right horizontal directions - the respective inner eye camera array zone in a horizontal direction at a distance of 2 mm, in particular 3 mm, starts from the middle plane and extends in the horizontal direction to a distance of 14 mm, in particular 12 mm, from the middle plane.

Gemäß einer Alternative oder Ergänzung können die mindestens eine Kamera oder beide Kameras in einer äußeren Augenkameraanordnungszone bzw. äußeren Augenkameraanordnungszonen angeordnet sein. Insbesondere umfasst die Brillenvorrichtung nicht mehr als zwei Kameras, wobei die rechte Kamera in der rechten äußeren Augenkameraanordnungszone angeordnet ist und wobei die linke Kamera in der linken äußeren Augenkameraanordnungszone angeordnet ist.According to an alternative or supplement, the at least one camera or both cameras can be arranged in an outer eye camera arrangement zone or outer eye camera arrangement zones. In particular, the eyeglass device comprises no more than two cameras, the right camera being arranged in the right outer eye camera arrangement zone and the left camera being arranged in the left outer eye camera arrangement zone.

Gemäß einer Ausführungsform ist die linke Kamera in der linken äußeren Augenkameraanordnungszone angeordnet und die rechte Kamera in der rechten äußeren Augenkameraanordnungszone angeordnet, oder die linke Kamera ist in der linken inneren Augenkameraanordnungszone angeordnet und die rechte Kamera ist in der rechten inneren Augenkameraanordnungszone angeordnet. Diese symmetrische Kameraanordnungsstrategie bewirkt eine verbesserte Fähigkeit des Bestimmens eines blickbezogenen Parameters des Benutzers, insbesondere wenn die Lichtverhältnisse einer Umgebung der Brillenvorrichtung nicht optimal sind. Ferner kann die symmetrische Anwendung von Kameras auch Vorteile in Bezug auf die Anwendung neuronaler Netze, insbesondere neuronaler Faltungsnetze, zum Bestimmen eines blickbezogenen Parameters mit sich bringen. Gemäß einer weiteren Ausführungsform können mehr als eine linke und/oder mehr als eine rechte Kamera verwendet werden.According to one embodiment, the left camera is placed in the left outer eye camera placement zone and the right camera is placed in the right outer eye camera placement zone, or the left camera is placed in the left inner eye camera placement zone and the right camera is placed in the right inner eye camera placement zone. This symmetrical camera placement strategy results in an improved ability to determine a user's gaze-related parameter, particularly when the lighting conditions of an environment surrounding the eyewear device are not optimal. Furthermore, the symmetrical use of cameras can also entail advantages with regard to the use of neural networks, in particular neural convolution networks, for determining a gaze-related parameter. According to a further embodiment, more than one left and/or more than one right camera can be used.

Die linke äußere Augenkameraanordnungszone befindet sich in Projektion auf die senkrechte Ebene in einem linken seitlichen Abschnitt des Brillenkörpers und erstreckt sich um 6 mm, insbesondere 5 mm, typischer 4 mm, von der linken Seitenfläche des Begrenzungsquaders in Richtung der mittleren Ebene und erstreckt sich um 7 mm, insbesondere 6 mm, typischer 5 mm, gemessen von der linken Seitenfläche in einer Richtung weg von der mittleren Ebene, von der mittleren Ebene weg.The left outer eye camera arrangement zone is located in a left lateral portion of the spectacle body in projection on the vertical plane and extends by 6 mm, in particular 5 mm, more typically 4 mm, from the left lateral surface of the bounding box towards the median plane and extends by 7 mm, in particular 6 mm, more typically 5 mm, measured from the left side face in a direction away from the median plane, away from the median plane.

Auch befindet sich die rechte äußere Augenkameraanordnungszone sich in Projektion auf die senkrechte Ebene in einem rechten seitlichen Abschnitt des Brillenkörpers und erstreckt sich um 6 mm, insbesondere 5 mm, typischer 4 mm, von der linken Seitenfläche des Begrenzungsquaders in Richtung der mittleren Ebene und erstreckt sich um 7 mm, insbesondere 6 mm, genauer 5 mm, gemessen von der rechten Seitenfläche in einer Richtung weg von der mittleren Ebene, von der mittleren Ebene weg.Also, the right outer eye camera arrangement zone is in projection on the vertical plane in a right lateral portion of the glasses body and extends by 6 mm, particularly 5 mm, more typically 4 mm, from the left lateral surface of the bounding box towards the median plane and extends by 7 mm, in particular 6 mm, more precisely 5 mm, measured from the right side surface in a direction away from the middle plane, away from the middle plane.

Gemäß einer weiteren Ausführungsform erstreckt sich die innere Augenkameraanordnungszone in Projektion auf die senkrechte Ebene in vertikaler Richtung zwischen 9 und 31 mm, insbesondere 12 und 28 mm, von der oberen Fläche zur unteren Fläche des Begrenzungsquaders hin.According to a further embodiment, the inner eye camera arrangement zone extends in the vertical direction between 9 and 31 mm, in particular 12 and 28 mm, from the upper surface to the lower surface of the bounding box in projection onto the vertical plane.

Zusätzlich oder alternativ weist die äußere Augenkameraanordnungszone bei Projektion auf die senkrechte Ebene eine Größe von 25 bis 33 mm, besonders von 28 bis 30 mm, in einer senkrechten Richtung in Bezug auf die obere Fläche, und, bei vorgesehener Verwendung der Brillenvorrichtung, in vertikaler Richtung auf.Additionally or alternatively, the outer eye camera arrangement zone, when projected onto the vertical plane, has a size of 25 to 33 mm, especially 28 to 30 mm, in a perpendicular direction with respect to the upper surface, and, when the spectacle device is intended to be used, in a vertical direction on.

Es wurde festgestellt, dass die obere Aufgabe unabhängig auf alternative oder zusätzliche Weise durch eine Brillenvorrichtung gemäß Anspruch 6 erfüllt wird.It has been found that the above object is achieved independently, alternatively or additionally, by a spectacle device according to claim 6.

Definitionen, Richtungen und grundlegende Informationen der Brillenvorrichtung, die oben beschrieben wurden, gelten auch im Folgenden. Insbesondere umfasst diese Brillenvorrichtung gemäß Anspruch 6 einen Brillenkörper, der derart konfiguriert ist, dass er am Kopf eines Benutzers getragen werden kann, beispielsweise in einer Weise, in der eine gewöhnliche Brille getragen wird.Definitions, directions and basic information of the eyeglass device described above also apply in the following. In particular, this spectacle device according to claim 6 comprises a spectacle body configured to be worn on a user's head, for example in a manner in which ordinary spectacles are worn.

Gemäß einer Ausführungsform der Brillenvorrichtung umfasst diese einen Brillenkörper, der eine mittlere Ebene (siehe oben), einen Nasenbrückenabschnitt, einen linken seitlichen Abschnitt, einen rechten seitlichen Abschnitt, eine linke Okularöffnung und eine rechte Okularöffnung aufweist.According to an embodiment of the eyeglass device, the latter comprises an eyeglass body having a middle plane (see above), a nose bridge portion, a left lateral portion, a right side portion, a left eyepiece opening and a right eyepiece opening.

Wie oben erörtert, ist der Nasenbrückenabschnitt ein Bereich der Brillenvorrichtung, der als Träger für die Vorrichtung an der Nasenregion des Benutzers dient und dabei zwischen der linken und der rechten Okularöffnung angeordnet ist. Der linke/rechte seitliche Abschnitt stellt einen Strukturbereich der Vorrichtung dar, der sich zur Linken/Rechten der linken/rechten Okularöffnung befindet. Somit liegt die jeweilige linke/rechte Okularöffnung zwischen dem Nasenbrückenabschnitt und dem jeweiligen linken/rechten seitlichen Abschnitt.As discussed above, the nose bridge portion is a portion of the eyeglass device that serves as a support for the device on the user's nasal region, being located between the left and right eyepiece openings. The left/right lateral section represents a structural area of the device located to the left/right of the left/right eyepiece opening. Thus, the respective left/right eyepiece opening lies between the nose bridge section and the respective left/right side section.

Darüber hinaus weist die Brillenvorrichtung mindestens eine linke Kamera zum Aufnehmen eines linken Bildes von mindestens einem Abschnitt eines linken Auges des Benutzers und mindestens eine rechte Kamera zum Aufnehmen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers auf.In addition, the eyeglass device includes at least one left camera for capturing a left image of at least a portion of a user's left eye and at least one right camera for capturing a right image of at least a portion of a user's right eye.

Gemäß einer ersten Auslegung ist die linke Kamera im Nasenbrückenabschnitt angeordnet, wobei eine optische Achse der linken Kamera in Bezug auf die mittlere Ebene in einem Winkel von 150° bis 142° (oder -30° bis -38°), insbesondere von 144° (oder -36°), geneigt ist. Allgemein werden Neigungswinkel positiv entgegen dem Uhrzeigersinn bereitgestellt und sind so zu messen.According to a first embodiment, the left camera is arranged in the nose bridge portion, with an optical axis of the left camera with respect to the median plane at an angle of 150° to 142° (or -30° to -38°), in particular 144° ( or -36°), is inclined. Generally, tilt angles are provided positive counter-clockwise and are to be measured as such.

Gemäß einer zweiten Auslegung ist die rechte Kamera im Nasenbrückenabschnitt angeordnet, wobei eine optische Achse der rechten Kamera in Bezug auf die mittlere Ebene in einem Winkel von 30° bis 38°, insbesondere von 36°, geneigt ist.According to a second configuration, the right camera is disposed in the nose bridge portion, with an optical axis of the right camera being inclined at an angle of 30° to 38°, particularly 36°, with respect to the median plane.

Beide Auslegungen bringen den Vorteil mit sich, dass eine optimale Sicht der Kameras auf einen Augapfel des Benutzers ermöglicht wird, wobei eine Verdeckung des Sichtfelds des Benutzers durch den Benutzer im Wesentlichen nicht wahrnehmbar ist und daher nicht vorliegt; erstens ignoriert das menschliche Gehirn Verdeckungen im Nasenbereich größtenteils, da die Nase selbst eine dauerhafte Verdeckung des optischen Feldes bildet; zweitens dient der Nasenbrückenabschnitt normalerweise als Träger für die Brillenvorrichtung an der Nase eines Benutzers, wobei eine Mikrokamera in Trägerelemente des Nasenabschnitts integriert sein kann.Both configurations have the advantage of allowing the cameras to have an optimal view of an eyeball of the user, with the user essentially not being able to see the user's field of vision being obscured and therefore not present; first, the human brain largely ignores occlusions in the nasal area, since the nose itself forms a permanent occlusion of the optical field; secondly, the nose bridge portion normally serves as a mount for the eyeglass device on a user's nose, and a microcamera may be integrated into support members of the nose portion.

Gemäß einer dritten Auslegung ist die linke Kamera im linken seitlichen Abschnitt angeordnet, wobei eine optische Achse der linken Kamera in Bezug auf die mittlere Ebene in einem Winkel von 55° bis 70°, insbesondere von 62°, geneigt ist.According to a third configuration, the left camera is disposed in the left lateral portion, with an optical axis of the left camera being inclined at an angle of 55° to 70°, particularly 62°, with respect to the median plane.

Gemäß einer vierten Auslegung ist die rechte Kamera im rechten seitlichen Abschnitt angeordnet, wobei eine optische Achse der rechten Kamera in Bezug auf die mittlere Ebene in einem Winkel von 125° bis 110° (oder -55° bis -70°), insbesondere von 118° (oder -62°), geneigt ist.According to a fourth embodiment, the right camera is placed in the right lateral section, with an optical axis of the right camera being oriented at an angle of 125° to 110° (or -55° to -70°), in particular 118°, with respect to the median plane ° (or -62°).

Gemäß einer ersten bevorzugten Ausführungsform umfasst die Brillenvorrichtung nicht mehr als zwei Kameras, wobei eine Kamera - die linke Kamera - gemäß der ersten Auslegung angeordnet ist und wobei die andere Kamera - die rechte Kamera - gemäß der zweiten Auslegung angeordnet ist.According to a first preferred embodiment, the eyeglass device comprises no more than two cameras, one camera - the left camera - being arranged according to the first layout and the other camera - the right camera - being arranged according to the second layout.

Im Zusammenhang einer zweiten bevorzugten Ausführungsform umfasst die Brillenvorrichtung nicht mehr als zwei Kameras, wobei eine Kamera - die linke Kamera - gemäß der dritten Auslegung angeordnet ist und wobei die andere Kamera - die rechte Kamera - gemäß der vierten Auslegung angeordnet ist.In the context of a second preferred embodiment, the eyeglass device comprises no more than two cameras, one camera - the left camera - being arranged according to the third interpretation and the other camera - the right camera - being arranged according to the fourth interpretation.

Allerdings ist auch eine Kombination der ersten und der dritten Auslegung oder der zweiten und der vierten Auslegung möglich.However, a combination of the first and the third design or the second and the fourth design is also possible.

Ferner, aber ohne Beschränkung darauf, ist eine Kombination von mindestens drei der Auslegungen oder sogar aller Auslegungen im Zusammenhang der Erfindung offenbart, womit die Einschränkung auf nicht mehr als zwei Kameras in diesem bestimmten Fall wegfällt.Furthermore, but not limited thereto, a combination of at least three of the configurations or even all configurations is disclosed in the context of the invention, thus removing the limitation of no more than two cameras in this particular case.

Alle erwähnten Auslegungen, insbesondere Kombinationen derselben, stellen eine Brillenvorrichtung zum Erlangen geeigneter Bilddaten zum Bestimmen von einem oder mehreren blickbezogenen Parametern des Benutzers bereit, insbesondere bei Anwendung eines neuronalen Faltungsnetzes für diese Bestimmung.All mentioned configurations, in particular combinations thereof, provide an eyeglass device for obtaining suitable image data for determining one or more gaze-related parameters of the user, in particular when using a convolutional neural network for this determination.

Im Folgenden werden bevorzugte Ausführungsformen der Erfindung beschrieben, wobei sich diese Ausführungsformen auf alle vorstehend erörterten Ausführungsformen der Brillenvorrichtung, insbesondere auf die Brillenvorrichtung gemäß Anspruch 1 und/oder gemäß Anspruch 6 beziehen.Preferred embodiments of the invention are described below, these embodiments relating to all the embodiments of the spectacles device discussed above, in particular to the spectacles device according to claim 1 and/or according to claim 6 .

Auch wird ausdrücklich eingeschlossen, dass eine Brillenvorrichtung gemäß Anspruch 6 auch eine oder eine Vielzahl von Merkmalen einer Brillenvorrichtung gemäß Anspruch 1 bis 5 einschließen kann. Beispielsweise kann die Brillenvorrichtung gemäß Anspruch 6 - unter Einbeziehung der Winkel der optischen Achse der Kameras - eine Beschreibung der linken/rechten, äußeren/inneren Kameraanordnungszone und zugehöriger Entfernungen vollständig oder teilweise aufweisen. Umgekehrt kann die Brillenvorrichtung gemäß Anspruch 1, die hauptsächlich durch die Kameraposition in Kameraanordnungszonen definiert ist, ein oder mehrere spezifische Merkmale der Neigung der optischen Achse von einer oder mehreren Kameras aufweisen.It is also expressly included that an eyeglass device according to claim 6 may also include one or a plurality of features of an eyeglass device according to claims 1 to 5. For example, the spectacle device according to claim 6 - including the angles of the optical axis of the cameras - can have a description of the left/right, outer/inner camera arrangement zone and associated distances in full or in part. Conversely, the glasses device according to claim 1, which is mainly determined by the camera position in Kameraanord tion zones is defined, have one or more specific features of the inclination of the optical axis of one or more cameras.

Gemäß einer nicht einschränkenden Ausführungsform weist der Brillenkörper der Brillenvorrichtung gemäß einer oder mehrerer Ausführungsformen wie oben beschrieben mindestens teilweise eine symmetrische Struktur in Bezug auf die mittlere Ebene auf. Insbesondere ist mindestens ein funktional-struktureller Bereich eines Nasenabschnitts und/oder eines linken und rechten seitlichen Abschnitts des Brillenkörpers symmetrisch; als ein Beispiel kann der funktional-strukturelle Bereich ein Trägerelement des Nasenabschnitts oder eine Vielzahl derselben, welche die Brillenvorrichtung an einer Nasenregion des Benutzers tragen, ein jeweiliger innerer, seitlicher, oberer und/oder unterer Teil des Brillenkörpers oder ein Halter oder ein Gelenkelement in dem linken und rechten seitlichen Abschnitt zum Tragen des Brillenkörper am Ohr des Benutzers sein.According to a non-limiting embodiment, the spectacle body of the spectacle device according to one or more embodiments as described above has at least partially a symmetrical structure with respect to the median plane. In particular, at least one functional-structural area of a nose section and/or a left and right side section of the spectacle body is symmetrical; as an example, the functional-structural area can be a support element of the nose section or a plurality of the same, which support the eyeglass device on a nose region of the user, a respective inner, lateral, upper and/or lower part of the eyeglass body or a holder or a joint element in the left and right side portions for wearing the glasses body on the user's ear.

Ferner ist gemäß einer bestimmten Ausführungsform ein Rahmen des Brillenkörpers im Wesentlichen symmetrisch zur mittleren Ebene, wobei nur kleinere Bereiche, Abschnitte oder Elemente des Rahmens nicht symmetrisch sind.Furthermore, according to a particular embodiment, a frame of the eyeglass body is substantially symmetrical about the median plane, with only minor areas, portions or elements of the frame being non-symmetrical.

Gemäß der spezifischen Ausführungsform sind die Kameras in den unteren 75 %, insbesondere in den unteren 50 %, bevorzugt in den unteren 25 %, des Volumens des Begrenzungsquaders angeordnet.According to the specific embodiment, the cameras are arranged in the lower 75%, in particular in the lower 50%, preferably in the lower 25%, of the volume of the bounding box.

Darüber hinaus ist gemäß einer Ausführungsform, bei der mindestens eine Kamera in einem seitlichen Abschnitt des Körpers und/oder in einer der äußeren Augenkameraanordnungszonen angeordnet ist, die Kamera in einem Rahmen des Brillenkörpers, in einem jeweiligen linken oder rechten Halter, der als ein Träger für die Brillenvorrichtung an einem Ohr des Benutzers dient, oder in/an einem Gelenkelement, das den Halter mit dem Rahmen des Brillenkörpers verbindet, angeordnet. Durch Anwenden dieser Lehren kann die Kamera bzw. können die Kameras sehr diskret und unauffällig im Brillenkörper angeordnet sein, während eine vorteilhafte Sicht auf den Augapfel des Benutzers erlangt wird.Furthermore, according to an embodiment in which at least one camera is arranged in a lateral portion of the body and/or in one of the outer eye camera arrangement zones, the camera is in a frame of the eyeglass body, in a respective left or right holder, which acts as a carrier for the eyeglass device serves on an ear of the user, or arranged in/on a hinge element connecting the holder to the frame of the eyeglass body. By applying these teachings, the camera(s) can be placed very discreetly and unobtrusively within the goggle body while gaining a beneficial view of the user's eyeball.

Gemäß den Ausführungsformen kann die Brillenvorrichtung Beleuchtungseinrichtungen zum Beleuchten des linken und/oder rechten Auges des Benutzers aufweisen, insbesondere wenn die Lichtverhältnisse in einer Umgebung der Brillenvorrichtung nicht optimal sind.According to the embodiments, the spectacles device can have lighting devices for illuminating the left and/or right eye of the user, in particular when the lighting conditions in an area surrounding the spectacles device are not optimal.

Gemäß einer Ausführungsform umfasst die Brillenvorrichtung eine Szenenkamera zum Aufnehmen von Bildern eines Sichtfelds des Benutzers, der die Brillenvorrichtung trägt. Die Szenenkamera ist daher nicht als eine Kamera zum Aufnehmen eines Bildes eines Auges des Benutzers zu verstehen. Auf diese Weise kann ein vorteilhafter Kalibrierungsprozess der Bestimmung des blickbezogenen Parameters ermöglicht werden. Der Kalibrierungsprozess wird unten unter Bezugnahme auf 3C beschrieben.According to one embodiment, the eyewear device includes a scene camera for capturing images of a field of view of the user wearing the eyewear device. The scene camera is therefore not to be understood as a camera for capturing an image of a user's eye. In this way, an advantageous calibration process for determining the gaze-related parameter can be made possible. The calibration process is described below with reference to 3C described.

Zum zuverlässigen und effizienten Analysieren der Bilder der linken und rechten Kamera hinsichtlich der blickbezogenen Parameter ist das Trainieren der verwendeten neuronalen Netzarchitektur mit einer großen Anzahl von Lehrbeispielen (Trainingsbeispielen) wünschenswert. Zu diesem Zweck hat sich eine jeweilige Datenbank zum Speichern der Lehrbeispiele, die mithilfe der Brillenvorrichtung und/oder einer anderen am Kopf tragbaren Vorrichtung wie hierin beschrieben erlangt werden, als vorteilhaft erwiesen.In order to reliably and efficiently analyze the images from the left and right cameras with regard to the gaze-related parameters, it is desirable to train the neural network architecture used with a large number of training examples (training examples). To this end, a respective database for storing the teaching examples obtained by means of the eyeglass device and/or other head-worn device as described herein has proven advantageous.

Gemäß einer Ausführungsform wird ein Verfahren zum Erstellen und Aktualisieren einer Datenbank zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes, bereitgestellt. Das Verfahren umfasst Präsentieren eines ersten Stimulus an einen ersten Benutzer bereit, der eine am Kopf tragbare Vorrichtung trägt. Die am Kopf tragbare Vorrichtung weist eine erste Kamera und eine zweite Kamera auf. Die erste Kamera ist neben einem linken Auge des ersten Benutzers angeordnet und die zweite Kamera ist neben einem rechten Auge des ersten Benutzers angeordnet, wenn der erste Benutzer die am Kopf tragbare Vorrichtung trägt. Wenn erwartet wird, dass der erste Benutzers auf den ersten Stimulus reagiert, oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, wird die erste Kamera der am Kopf tragbaren Vorrichtung verwendet, um ein erstes linkes Bild von mindestens einem Abschnitt des linken Auges des ersten Benutzers zu erzeugen, und eine zweite Kamera der am Kopf tragbaren Vorrichtung wird verwendet, um ein erstes rechtes Bild von mindestens einem Abschnitt des rechten Auges des ersten Benutzers zu erzeugen. Es wird eine Datenverbindung zwischen der am Kopf tragbaren Vorrichtung und der Datenbank hergestellt. Es wird ein erster Datensatz erzeugt, der das erste linke Bild, das erste rechte Bild und eine erste Repräsentation eines blickbezogenen Parameters einschließt. Die erste Repräsentation ist mit dem ersten Stimulus korreliert. Der erste Datensatz wird zu der Datenbank hinzugefügt.According to one embodiment, a method for creating and updating a database for training a neural network, in particular a convolutional neural network, is provided. The method includes presenting a first stimulus to a first user wearing a headwear device. The head-worn device has a first camera and a second camera. The first camera is located near a left eye of the first user and the second camera is located near a right eye of the first user when the first user wears the headwear device. When the first user is expected to respond to the first stimulus, or is expected to have responded to the first stimulus, the first camera of the head-worn device is used to capture a first left image of at least a portion of the left eye of the first user, and a second camera of the head-worn device is used to generate a first right image of at least a portion of the first user's right eye. A data connection is established between the head-worn device and the database. A first data set is created that includes the first left image, the first right image, and a first representation of a gaze-related parameter. The first representation is correlated with the first stimulus. The first record is added to the database.

Das Verfahren ermöglicht das Pflegen und Verbessern der Datenbank mithilfe der Benutzer. Da die Datenbank zum Verbessern der Leistung einer Instanz des neuronalen Netzes verwendbar ist, das am Standort des Benutzers verwendet wird (z. B. auf der am Kopf tragbaren Vorrichtung ausgeführt wird), sind die Benutzer daran interessiert, einen Datenaustausch zwischen der typischerweise dem Benutzer gehörenden am Kopf tragbaren Vorrichtung und einem Rechensystem zum Hosten der Datenbank und Trainieren oder Nachtrainieren des neuronalen Netzes unter Verwendung der Datenbank zuzulassen.The method enables maintenance and improvement of the database with the help of the users. Because the database can be used to improve the performance of an instance of the neural network used at the user's site (e.g., on the head-worn device designed leads), users are interested in allowing data exchange between the user's head-worn device, typically owned, and a computing system for hosting the database and training or post-training the neural network using the database.

Im Folgenden wird die Datenbank auch als erste Datenbank und Bilddatenbank bezeichnet.In the following, the database is also referred to as first database and image database.

In dieser Beschreibung werden die Begriffe „erste Kamera“ und „linke Kamera“ synonym verwendet. Ebenso werden die Begriffe „zweite Kamera“ und „rechte Kamera“ in dieser Schrift synonym verwendet.In this description, the terms “first camera” and “left camera” are used interchangeably. Likewise, the terms “second camera” and “right camera” are used synonymously in this document.

Der Begriff „neuronales Netz“ (NN) soll bei Verwendung in dieser Beschreibung ein künstliches neuronales Netz (artificial neural network - ANN) oder konnektionistisches System (connectionist system) beschreiben, das eine Vielzahl von verbundenen Einheiten oder Knoten einschließt, die als künstliche Neuronen bezeichnet werden. Das Ausgangssignal eines künstlichen Neurons wird durch eine (nichtlineare) Aktivierungsfunktion der Summe seines Eingangssignals bzw. seiner Eingangssignale berechnet. Die Verbindungen zwischen den künstlichen Neuronen weisen typischerweise jeweilige Gewichtungen (Verstärkungsfaktoren für das bzw. die übertragenen Ausgangssignale auf, die in einer oder mehreren Einlernphasen angepasst werden. Andere Parameter des NN, die während des Einlernens modifiziert werden können oder nicht, können Parameter der Aktivierungsfunktion der künstlichen Neuronen wie etwa einen Schwellenwert einschließen. Häufig sind die künstlichen Neuronen in Schichten geordnet, die auch als Module bezeichnet werden. Die einfachste NN-Architektur, die als „Mehrschicht-Perzeptron“ bezeichnet wird, ist eine Folge von so genannten vollständig verbundenen Schichten. Eine Schicht besteht aus mehreren separaten Einheiten (Neuronen), die jeweils eine lineare Kombination der Eingabe gefolgt von einer nichtlinearen Aktivierungsfunktion berechnen. Unterschiedliche Schichten (von Neuronen) können unterschiedliche Arten von Transformationen an ihren jeweiligen Eingaben durchführen. Neuronale Netze können in Software, Firmware, Hardware oder einer beliebigen Kombination daraus implementiert sein. In der Lernphase bzw. den Lernphasen kann ein maschinelles Lernverfahren, insbesondere ein überwachtes, nicht überwachtes oder halb überwachtes (tiefes) Lernverfahren verwendet werden. Beispielsweise kann eine tiefe Lerntechnik (deep learning - Technik), insbesondere eine Gradientenabstiegstechnik wie etwa Rückpropagation zum Trainieren (Vorwärtskoppeln) von NNs mit einer Schichtarchitektur verwendet werden. Moderne Computerhardware, z. B. GPUs, machen die Rückpropagation für vielschichtige neuronale Netze effizient. Ein neuronales Faltungsnetz (convolutional neural network - CNN) ist ein künstliches neuronales Vorwärtskopplungsnetz, das eine Eingabeschicht (des neuronalen Netzes), eine Ausgabeschicht (des neuronalen Netzes) und eine oder mehrere verborgene Schichten (des neuronalen Netzes) einschließt, die zwischen der Eingabeschicht und der Ausgabeschicht angeordnet sind. Die Besonderheit von CNNs ist die Verwendung von Faltungsschichten, die die mathematische Operation einer Faltung der Eingabe mit einem Kern durchführen. Die verborgenen Schichten eines CNN können Faltungsschichten sowie optionale Pooling-Schichten (zum Downsampling der Ausgabe einer vorherigen Schicht vor ihrer Eingabe in die nächste Schicht), vollständig verbundene Schichten und Normierungsschichten einschließen. Mindestens eine der verborgenen Schichten eines CNN ist eine neuronale Faltungsnetzschicht, die im Folgenden auch als Faltungsschicht bezeichnet wird. Typische Faltungskerngrößen sind beispielsweise 3x3, 5x5 oder 7x7. Die Verwendung einer Faltungsschicht bzw. von Faltungsschichten kann dazu beitragen, wiederkehrende Merkmale in der Eingabe effizienter zu berechnen als vollständig verbundene Schichten. Entsprechend kann der Speicherabdruck reduziert und die Leistung verbessert werden. Aufgrund der Architektur mit gemeinsamen Gewichtungen und Translationsinvarianzeigenschaften werden CNNs auch als verschiebungsinvariante oder räumlich invariante künstliche neuronale Netze (shift bzw. space invariant artificial neural networks - SIANNs) bezeichnet. Im Folgenden soll der Begriff „Modell eines neuronalen Netzes“ einen Satz Daten beschreiben, die zum Definieren eines neuronalen Netzes erforderlich sind, das in Software und/oder Hardware betreibbar ist. Das Modell schließt typischerweise Daten ein, die sich auf die Architektur des NN beziehen, insbesondere die Netzstruktur, darunter die Anordnung der Schichten des neuronalen Netzes, die Abfolge der Informationsverarbeitung im NN sowie Daten, die Parameter des NN darstellen oder daraus bestehen, insbesondere die Verbindungsgewichtungen innerhalb der vollständig verbundenen Schichten und Kerngewichtungen innerhalb der Faltungsschichten.The term "neural network" (NN) when used in this specification is intended to describe an artificial neural network (ANN) or connectionist system (connectionist system) that includes a plurality of connected entities or nodes referred to as artificial neurons become. The output signal of an artificial neuron is calculated by a (non-linear) activation function of the sum of its input signal or signals. The connections between the artificial neurons typically have respective weightings (gain factors for the transmitted output signal(s) that are adjusted in one or more learning phases. Other parameters of the NN that may or may not be modified during learning can be parameters of the activation function of the artificial neurons such as a threshold. Often, the artificial neurons are organized into layers, also known as modules. The simplest NN architecture, called a "multilayer perceptron", is a sequence of so-called fully connected layers. A layer consists of several separate units (neurons), each of which computes a linear combination of the input followed by a non-linear activation function.Different layers (of neurons) can perform different types of transformations on their respective inputs.Neural N Networks can be implemented in software, firmware, hardware, or any combination thereof. A machine learning method, in particular a monitored, non-monitored or semi-monitored (deep) learning method, can be used in the learning phase or phases. For example, a deep learning technique, particularly a gradient descent technique such as back propagation, can be used to train (forward coupling) NNs with a layered architecture. Modern computer hardware, e.g. B. GPUs, make back propagation efficient for multi-layered neural networks. A convolutional neural network (CNN) is an artificial feed-forward neural network that includes an input (neural network) layer, an output (neural network) layer, and one or more hidden (neural network) layers located between the input layer and the output layer are arranged. The peculiarity of CNNs is the use of convolution layers that perform the mathematical operation of convolving the input with a kernel. The hidden layers of a CNN can include convolution layers, as well as optional pooling layers (for downsampling the output of a previous layer before its input to the next layer), fully connected layers, and normalization layers. At least one of the hidden layers of a CNN is a convolutional neural network layer, hereinafter also referred to as the convolutional layer. Typical convolution kernel sizes are, for example, 3x3, 5x5 or 7x7. Using a convolutional layer or layers can help compute repetitive features in the input more efficiently than fully connected layers. Accordingly, the memory footprint can be reduced and the performance can be improved. Because of the architecture with shared weights and translation invariance properties, CNNs are also referred to as shift or space invariant artificial neural networks (SIANNs). In the following, the term “neural network model” is intended to describe a set of data required to define a neural network operable in software and/or hardware. The model typically includes data relating to the architecture of the NN, in particular the network structure, including the arrangement of the layers of the neural network, the sequence of information processing in the NN, and data representing or consisting of parameters of the NN, in particular the connection weights within the fully connected layers and core weights within the convolution layers.

Traditionelle Augenverfolgungsalgorithmen extrahieren handgefertigte Merkmale aus den Augenbildern, wie beispielsweise die Pupillenkontur. Die beobachteten Merkmale werden dann verwendet, um entweder ein Augenmodell an die Beobachtungen anzupassen oder eine direkte Regression der Ausgabe durchzuführen.Traditional eye-tracking algorithms extract handcrafted features from the eye images, such as the pupil contour. The observed features are then used to either fit an eye model to the observations or to perform direct regression on the output.

Im Gegensatz dazu führen die in dieser Schrift beschriebenen Systeme eine Blickschätzung durch, die auf Endpunkt-zu-Endpunkt-Lernen beruht, wobei das eingegebene Bild direkt an einen Lernalgorithmus übergeben wird, ohne dass zuvor handgefertigte Merkmale extrahiert werden.In contrast, the systems described in this paper perform gaze estimation based on end-to-end learning, with the input image directly connected to a learning algorithm is passed without previously extracting handcrafted features.

In einer Trainingsphase lernt das Netz, das Eingabebild bzw. die Eingabebilder automatisch zu interpretieren, um das korrekte Ergebnis auszugeben. Überwachte Lernalgorithmen, etwa solche, die neuronale Netze (NN) verwenden, nutzen die Existenz so genannter gelabelter Daten, d. h. eine Art von Eingabedaten in Kombination mit Ground Truth, die mit diesen Eingabedaten verbunden ist. Zum Beispiel stellt ein durch eine Kamera aufgezeichnetes Bild die Eingabedaten dar. Der Ground-Truth-Wert oder die Ground-Truth-Werte können eine beliebige untergeordnete oder übergeordnete Information sein, die in beliebiger Form in den Eingabedaten codiert ist und zum Zeitpunkt der Erzeugung der Eingabedaten bekannt ist.In a training phase, the network learns to automatically interpret the input image or images in order to output the correct result. Supervised learning algorithms, such as those using neural networks (NN), take advantage of the existence of so-called labeled data, i. H. a type of input data combined with ground truth associated with that input data. For example, an image captured by a camera represents the input data. The ground truth value or values can be any ancillary or superordinate information, encoded in any form in the input data and available at the time the data is generated input data is known.

Beispielsweise kann ein Benutzer, der eine am Kopf tragbare Vorrichtung trägt, wie in 1A bis 1C gezeigt, aufgefordert werden, auf einen bestimmten Markierungspunkt oder ein Objekt im Raum zu blicken, dessen Koordinaten in den von einer mit der Vorrichtung verbundenen Szenenkamera aufgezeichneten Videobildern präzise bestimmt werden können. Das Bild bzw. die Bilder, die durch einen oder mehrere optische Sensoren (Kameras) aufgezeichnet werden, die dem Auge bzw. den Augen der Person zugewandt sind, stellen dann die Eingabedaten dar, die die Informationen zur Blickrichtung der Person codieren, während die Koordinaten die Ground Truth darstellen. Indem die Person aufgefordert wird, auf Markierungen in vielen verschiedenen Richtungen und Entfernungen zu schauen, wird somit die Ground Truth für alle möglichen Blickrichtungen erzeugt. Das Sammeln großer Mengen gelabelter Daten, die auch als Trainingsdaten bezeichnet werden, bildet somit die Grundlage zum Trainieren eines Lernalgorithmus.For example, a user wearing a head-worn device, as described in 1A until 1C shown, are asked to look at a specific landmark or object in space, the coordinates of which can be precisely determined in the video images recorded by a scene camera connected to the device. The image or images recorded by one or more optical sensors (cameras) facing the person's eye or eyes then represent the input data encoding the person's gaze direction information, while the coordinates representing ground truth. Thus, by asking the person to look at markers in many different directions and distances, the ground truth is generated for all possible viewing directions. Collecting large amounts of labeled data, also referred to as training data, thus forms the basis for training a learning algorithm.

Ein NN implementiert typischerweise ein mathematisches Modell mit einer großen Anzahl von Parametern, die so eingerichtet sind, dass eine Einheit von Eingabedaten (beispielsweise die Pixelwerte eines Bildes, die sich in einen 1-dimensionen Vektor ausdehnen) empfangen wird, und berechnet eine Vorhersageausgabe in einem Format entsprechend der Ground Truth (beispielsweise ein Paar (x/y) Koordinaten). Die Parameter (Gewichtungen) des Netzes werden normalerweise zufällig initialisiert. Das Ziel des Trainingsvorgangs ist es dann, die Parameter so zu optimieren, dass bei Eingabe eines Trainingbeispiels sein Ground-Truth-Wert korrekt ausgegeben wird. Wenn das Trainieren beendet ist, sollte zudem eine neue Einheit gelabelter Eingabedaten, auch bezeichnet als Testdaten, die nicht zum Trainieren verwendet wurden, bei Eingabe in das Netz eine korrekte Vorhersage ergeben. Der Trainingsvorgang erfolgt, indem Trainingsbeispiele in das Netz eingegeben und beispielsweise die absoluten Abweichungen der ausgegebenen Vorhersagen von den Ground Truths summiert werden, was einen Kostenwert oder eine Kostenfunktion ergibt. Es werden numerische Verfahren zum iterativen Minimieren dieser Kosten verwendet, wobei die Parameter des Netzmodells aktualisiert werden (Rückpropagation, Gradientenabstieg). Ein Lernratenparameter ist Teil solcher Verfahren, um die Parameter zu aktualisieren. Während des Trainings eines neuronalen Netzes wird die Lernrate, d. h. die Schrittgröße des Gradientenabstiegsalgorithmus, typischerweise nach und nach reduziert (Learning Rate Decay). Das Reduzieren der Lernrate nach einer Cosinuskurve hat sich als vorteilhaft zum wesentlichen Verkürzen der Trainingsdauer ohne Beeinträchtigung der Genauigkeit erwiesen.A NN typically implements a mathematical model with a large number of parameters arranged to take a unit of input data (e.g. the pixel values of an image extending into a 1-dimensional vector) and calculates a predicted output in one Format according to Ground Truth (e.g. a pair of (x/y) coordinates). The parameters (weights) of the network are usually initialized randomly. The goal of the training process is then to optimize the parameters so that when a training sample is entered, its ground truth value is correctly reported. In addition, when training is complete, a new unit of labeled input data, also referred to as test data, that was not used for training should produce a correct prediction when fed into the network. The training process is carried out by entering training examples into the network and, for example, summing the absolute deviations of the output predictions from the ground truths, which results in a cost value or a cost function. Numerical methods are used to iteratively minimize these costs, updating the parameters of the network model (back propagation, gradient descent). A learning rate parameter is part of such methods to update the parameters. During the training of a neural network, the learning rate, i. H. the step size of the gradient descent algorithm, typically gradually reduced (learning rate decay). Reducing the learning rate after a cosine curve has been found to be beneficial in significantly reducing training time without sacrificing accuracy.

Der Trainingsvorgang kann beispielsweise angehalten werden, sobald eine gewünschte Vorhersagegenauigkeit auf Grundlage eines Satzes Testdatenbeispiele erreicht wird oder sobald die Kosten nicht mehr wesentlich abnehmen. Die abschließenden Werte der Parameter können dann digital als ein „Modell“ gespeichert und auf ein neues Eingabedatenbeispiel angewandt werden, um eine Vorhersage zu erzeugen. Je nach Menge der Trainingsdaten und Komplexität des Modells kann das Trainieren ein Vorgang sein, der mehrere Stunden oder Tage an Rechenzeit erfordert, selbst bei Parallelisierung auf vielen GPUs, während das Anwenden des Modells in einem Forward-Pass an einem einzelnen Eingabedatenelement quasi sofort erfolgen sollte.For example, the training process can be stopped when a desired prediction accuracy is achieved based on a set of test data samples or when costs no longer decrease significantly. The final values of the parameters can then be stored digitally as a "model" and applied to a new input data sample to produce a prediction. Depending on the amount of training data and the complexity of the model, training can be a process that requires several hours or days of computation time, even with parallelization on many GPUs, while applying the model in a forward pass on a single input data item should be almost instantaneous .

Bei einer Regressionsaufgabe, d. h. einer Aufgabe mit kontinuierlichem Ausgaberaum wie beispielsweise das Vorhersagen eines Paares (x/y) Koordinaten, werden neuronale Netze typischerweise wie folgt ausgelegt:In a regression task, i. H. a task with continuous output space such as predicting a pair of (x/y) coordinates, neural networks are typically laid out as follows:

Eingabe -> einige Schichten des neuronalen Netzes -> Intermediäre Merkmalsrepräsentation -> Lineare Kombination -> Ausgabe in R2 (jeweils eine kleine Teilmenge von R2).Input -> some layers of the neural network -> Intermediate feature representation -> Linear combination -> Output in R2 (each a small subset of R2).

Ein anderer Ansatz, der gezeigt hat, dass sich mit ihm die Genauigkeit erhöhen lässt, funktioniert wie folgt: Diskretisieren des Ausgaberaums, d. h. eine kleine Teilmenge von R2, in k verschiedene Werte. Anstelle einer direkten Regression der Ausgabe (beispielsweise Vorhersagen eines Paars (x/y) Koordinaten) wird eine Wahrscheinlichkeitsverteilung über die möglichen Ausgabewerte k hinweg berechnet. Als eine abschließende Ausgabe wird der gewichtete Mittelwert aller Werte mit Gewichtung nach seiner jeweiligen Wahrscheinlichkeit berechnet. Der Informationsfluss ist somit:Another approach that has been shown to increase accuracy works as follows: Discretize the output space, i.e. H. a small subset of R2, in k different values. Instead of directly regressing the output (e.g., predicting a pair of (x/y) coordinates), a probability distribution over the possible output values k is computed. As a final output, the weighted mean of all values weighted by their respective probability is calculated. The flow of information is thus:

Eingabe -> einige Schichten des neuronalen Netzes -> Intermediäre Merkmalsrepräsentation -> Lineare Kombination -> Ausgabe in {1,...,k} -> Softmax -> Wahrscheinlichkeitsverteilung P über {1,...,k} -> gewichteter Mittelwert von {1,...,k} mit P -> Ausgabe in kleiner Teilmenge von R2.Input -> some layers of the neural network -> Intermediate feature representation -> Linear combination -> output in {1,...,k} -> softmax -> probability distribution P over {1,...,k} -> weighted mean of {1,...,k} with P -> Output in small subset of R2.

Das Erzwingen der Repräsentation als eine Wahrscheinlichkeitsverteilung als intermediäres Ergebnis scheint sich regulierend auszuwirken und reduziert auf diese Weise den Vorhersagefehler des Netzes.Enforcing the representation as a probability distribution as an intermediate result seems to have a regulatory effect and in this way reduces the prediction error of the network.

Das Herstellen der Datenverbindung schließt typischerweise das Verbinden der am Kopf tragbaren Vorrichtung mit einem Rechensystem ein, das als ein Server arbeitet, der die Datenbank hostet. Die am Kopf tragbare Vorrichtung kann direkt, beispielsweise über WLAN und/oder eine Internetverbindung, oder indirekt, beispielsweise über einen Desktop-Computer, ein Tablet, einen Laptop oder ein Smartphone (Mobiltelefon), das mit der am Kopf tragbaren Vorrichtung und dem Rechensystem verbindbar ist, mit dem Rechensystem (Server) verbunden sein.Establishing the data connection typically involves connecting the headworn device to a computing system that operates as a server that hosts the database. The headwear device can be connectable directly, for example via WiFi and/or an internet connection, or indirectly, for example via a desktop computer, a tablet, a laptop or a smartphone (mobile phone) that can be connected to the headwear device and the computing system is to be connected to the computing system (server).

Typischerweise wird eine Vielzahl von Datensätzen, die sich auf den ersten Benutzer beziehen und ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation des blickbezogenen Parameters einschließen, erzeugt und zu der Datenbank hinzugefügt (darin gespeichert).Typically, a plurality of data sets relating to the first user and including a respective left image, a respective right image, and a respective representation of the gaze-related parameter are created and added to (stored in) the database.

Entsprechend schließt die Datenbank Datensätze des Benutzers ein, die eine ausreichend gute Merkmalsverallgemeinerung des neuronalen Netzes in einer oder mehreren Trainingsphasen sowie eine hohe Genauigkeit des Vorhersagens blickbezogener Parameter unter Verwendung des trainierten neuronalen Netzes zulässt.Correspondingly, the database includes data sets of the user, which allow a sufficiently good feature generalization of the neural network in one or more training phases as well as a high accuracy of the prediction of gaze-related parameters using the trained neural network.

Beispielsweise können mindestens 10 Datensätze, typischer mindestens 50 Datensätzen und noch typischer mindestens hundert Datensätzen des ersten Benutzers in der Datenbank gespeichert sein.For example, at least 10 records, more typically at least 50 records, and more typically at least 100 records of the first user may be stored in the database.

Zu diesem Zweck kann dem ersten Benutzer, der die am Kopf tragbare Vorrichtung trägt, ein zweiter Stimulus präsentiert werden, und die erste Kamera der am Kopf tragbaren Vorrichtung kann verwendet werden, um, wenn erwartet wird, dass der erste Benutzer auf den zweiten Stimulus reagiert, oder erwartet wird, dass er auf den zweiten Stimulus reagiert hat, ein zweites linkes Bild von mindestens einem Abschnitt des linken Auges des ersten Benutzers zu erzeugen, und, wenn erwartet wird, dass der erste Benutzer auf den zweiten Stimulus reagiert, oder erwartet wird, dass er auf den zweiten Stimulus reagiert hat, wird die zweite Kamera der am Kopf tragbaren Vorrichtung verwendet, um ein zweites rechtes Bild von mindestens einem Abschnitt des rechten Auges des ersten Benutzers zu erzeugen. Ein zweiter Datensatz, der das zweite linke Bild, das zweite rechte Bild und eine zweite Repräsentation des blickbezogenen Parameters einschließt, wobei die zweite Repräsentation mit dem zweiten Stimulus korreliert, kann erzeugt und zu der Datenbank hinzugefügt werden.To this end, a second stimulus may be presented to the first user wearing the head-worn device and the first camera of the head-worn device may be used to detect when the first user is expected to respond to the second stimulus , or is expected to have responded to the second stimulus, generate a second left image of at least a portion of the first user's left eye, and if the first user is expected, or expected, to respond to the second stimulus that he has responded to the second stimulus, the second camera of the head-worn device is used to generate a second right image of at least a portion of the first user's right eye. A second data set including the second left image, the second right image, and a second representation of the gaze-related parameter, where the second representation correlates to the second stimulus, can be created and added to the database.

Darüber hinaus können die Bilder der Datensätze des ersten Benutzers unter anderen Bedingungen erzeugt werden, beispielsweise für einen ausgeruhten und einen müden Benutzer, oder zu unterschiedlichen Uhrzeiten und/oder bei unterschiedlichen Lichtverhältnissen. Weiterhin können die Bilder der Datensätze des ersten Benutzers für unterschiedliche Entfernungen zwischen einem präsentierten Stimulus und dem Benutzer erzeugte werden (was zu unterschiedlichen Brechwerten der Augen führt).In addition, the images of the first user's data sets may be generated under different conditions, for example for a rested user and a tired user, or at different times and/or under different lighting conditions. Furthermore, the images of the first user's data sets may be generated for different distances between a presented stimulus and the user (resulting in different refractive powers of the eyes).

Somit können dem ersten Benutzer eine oder mehrere Folgen von Stimuli präsentiert und jeweilige Datensätzen erzeugt und zu der Datenbank hinzugefügt werden.Thus, one or more sequences of stimuli can be presented to the first user and respective datasets created and added to the database.

Aus statistischen Gründen können einige der Stimuli gleich sein.For statistical reasons, some of the stimuli may be the same.

Beispielsweise können der erste und/oder der zweite Stimulus zweimal oder häufiger dem ersten Benutzer präsentiert werden.For example, the first and/or second stimulus may be presented to the first user twice or more.

Je nach Stimulus kann eine bestimmte zeitliche Verzögerung zwischen dem Stimulus und der gewünschten Reaktion des Benutzers auftreten. Die zeitliche Verzögerung kann in einem Bereich von 100 ms oder 200 ms bis etwa einer halben Sekunde oder sogar einer Sekunde liegen.Depending on the stimulus, there may be a certain time delay between the stimulus and the user's desired response. The time delay can range from 100 ms or 200 ms to about half a second or even a second.

Wenn ein Benutzer beispielsweise aufgefordert wird, auf ein sich nicht bewegendes Objekt oder eine Markierung in seinem Sichtfeld zu schauen, kann erwartet werden, dass der Benutzer nach der zeitlichen Verzögerung reagiert hat und anschließend für einen Zeitraum von etwa einer halben Sekunde auf das Objekt oder die Markierung schaut.For example, if a user is asked to look at a non-moving object or mark in their field of view, the user can be expected to have responded after the time delay and then looked at the object or mark for a period of about half a second mark looks.

Wenn ein Benutzer als Reaktion auf einen jeweiligen Stimulus auf eine seiner sich bewegenden Fingerspitzen schaut, kann die zeitliche Verzögerung während der Bewegung auch unwesentlich sein. Entsprechend kann erwartet werden, dass der Benutzer während der Bewegung der Fingerspitze auf den Stimulus reagiert.Also, when a user looks at one of their moving fingertips in response to a particular stimulus, the time delay during the movement may be insignificant. Accordingly, the user can be expected to respond to the stimulus during fingertip movement.

Darüber hinaus schließt das Erzeugen des jeweiligen Datensatzes typischerweise Auswählen eines Paars aus einem linken und rechten Bild aus jeweiligen Video-Streams oder Bildfolgen ein, die unter Verwendung der jeweiligen ersten und zweiten Kamera erhalten wurden.Additionally, generating the respective data set typically includes selecting a left and right image pair from respective video streams or image sequences obtained using the respective first and second cameras.

Wenn ein Benutzer beispielsweise aufgefordert wird, auf ein sich nicht bewegendes Objekt oder eine Markierung in seinem Sichtfeld zu schauen, kann das Auswählen des Bildpaars unter jeweiliger Sicherstellung seiner Gültigkeit automatisches Bestimmen, dass der Blick des Benutzers sich stabilisiert hat, oder Analysieren der Trajektorie des vorhergesagten Blicks oder Nutzen eines separaten Mechanismus, beispielsweise eines separat trainierten neuronalen Netzes, zur Erkennung von Sakkaden oder Fixierung einschließen.For example, if a user is asked to look at a non-moving object or a marker in his field of view, selecting the image pair, each ensuring its validity, can automatically determine that the user's gaze has stabilized, or analyze the trajectory of the predicted one Include gaze or use of a separate mechanism, such as a separately trained neural network, to detect saccades or fixation.

Darüber hinaus kann ein Video-Stream oder eine Bildfolge verwendet werden, um eine Vielzahl von Datensätzen zu erzeugen. Beispielsweise können Datensätze, die sich auf unterschiedliche Blickpunkte/Blickrichtungen beziehen, unter Verwendung eines Video-Streams oder einer Bildfolge, der bzw. die mit der ersten Kamera erlangt (z. B. aufgezeichnet) wurde, unter Verwendung eines Video-Streams oder einer Bildfolge, der bzw. die mit der zweiten Kamera erlangt wurde, und eines Video-Streams oder einer Bildfolge, der bzw. die mit einer Szenenkamera einer jeweiligen am Kopf tragbaren Vorrichtung erlangt wurde, erzeugt werden.In addition, a video stream or image sequence can be used to generate multiple datasets. For example, datasets relating to different viewpoints/viewpoints may be captured using a video stream or image sequence acquired (e.g., recorded) with the first camera using a video stream or image sequence obtained with the second camera and a video stream or image sequence obtained with a scene camera of a respective head-mounted device are generated.

Typischerweise werden jeweilige Datensätzen, die sich auf mehrere Benutzer beziehen, erzeugt und zu der Datenbank hinzugefügt (darin gespeichert).Typically, respective records relating to multiple users are created and added to (stored in) the database.

Entsprechend können die Merkmalsverallgemeinerung des neuronalen Netzes in der Trainingsphase sowie die Genauigkeit des Vorhersagens blickbezogener Parameter unter Verwendung des trainierten neuronalen Netzes weiter verbessert werden, wenn mehr und mehr Datensätze von einer wachsenden Anzahl von Benutzern und aufgezeichnet unter variierenden Bedingungen hinzugefügt werden.Accordingly, the feature generalization of the neural network in the training phase as well as the accuracy of predicting gaze-related parameters using the trained neural network can be further improved as more and more datasets are added from an increasing number of users and recorded under varying conditions.

Typischerweise können Datensätze, die sich auf mindestens 10 Benutzer beziehen, typischer auf mindestens 100 Benutzer und noch typischer auf mindestens mehrere hundert, mehrere tausend oder gar mehrere 10.000 Benutzer oder mehr beziehen, in der Datenbank gespeichert werden.Typically, records pertaining to at least 10 users, more typically at least 100 users, and more typically at least several hundred, several thousand, or even several tens of thousands or more users may be stored in the database.

Beispielsweise kann einem zweiten Benutzer, der die am Kopf tragbare Vorrichtung trägt, ein dritter Stimulus präsentiert werden. Die ersten Kamera der am Kopf tragbaren Vorrichtung kann, wenn erwartet wird, dass der zweite Benutzer auf den dritten Stimulus reagiert oder erwartet wird, dass er auf den dritten Stimulus reagiert hat, verwendet werden, um ein drittes linkes Bild von mindestens einem Abschnitt eines linken Auges des zweiten Benutzers zu erzeugen, und die zweite Kamera der am Kopf tragbaren Vorrichtung kann, wenn erwartet wird, dass der zweite Benutzer auf den dritten Stimulus reagiert oder erwartet wird, dass er auf den dritten Stimulus reagiert hat, verwendet werden, um ein drittes rechtes Bild von mindestens einem Abschnitt eines rechten Auges des zweiten Benutzers zu erzeugen. Anschließend kann ein dritter Datensatz, der das dritte linke Bild, das dritte rechte Bild und eine dritte Repräsentation des blickbezogenen Parameters einschließt, wobei die dritte Repräsentation mit dem dritten Stimulus korreliert, erzeugt und zu der Datenbank hinzugefügt werden.For example, a third stimulus may be presented to a second user wearing the headworn device. The first camera of the head-worn device can be used when the second user is expected to respond to the third stimulus or is expected to have responded to the third stimulus, to capture a third left image of at least a portion of a left To generate the eye of the second user, and the second camera of the head-worn device can be used when the second user is expected to respond to the third stimulus or is expected to have responded to the third stimulus to generate a third generate a right image of at least a portion of a right eye of the second user. A third data set including the third left image, the third right image, and a third representation of the gaze-related parameter, the third representation correlating to the third stimulus, may then be created and added to the database.

Ebenso kann dem ersten Benutzer, dem zweiten Benutzer oder einem dritten Benutzer, der eine weitere am Kopf tragbare Vorrichtung trägt, ein vierter Stimulus präsentiert werden. Die weitere am Kopf tragbare Vorrichtung schließt eine erste Kamera, die neben dem linken Auge des jeweiligen Benutzers angeordnet ist, und eine zweite Kamera ein, die neben dem rechten Auge des jeweiligen Benutzers angeordnet ist, wenn der jeweilige Benutzer die weitere am Kopf tragbare Vorrichtung trägt. Die erste Kamera der am Kopf tragbaren Vorrichtung kann, wenn erwartet wird, dass der jeweilige Benutzer auf den vierten Stimulus reagiert oder erwartet wird, dass er auf den vierten Stimulus reagiert hat, verwendet werden, um ein viertes linkes Bild von mindestens einem Abschnitt eines linken Auges des jeweiligen Benutzers zu erzeugen, und die zweite Kamera der am Kopf tragbaren Vorrichtung kann verwendet werden, um ein viertes rechtes Bild von mindestens einem Abschnitt eines rechten Auges des jeweiligen Benutzers zu erzeugen. Es kann eine Datenverbindung zwischen der weiteren am Kopf tragbaren Vorrichtung und der Datenbank hergestellt werden. Ein vierter Datensatz, der das vierte linke Bild, das vierte rechte Bild und eine vierte Repräsentation des blickbezogenen Parameters einschließt, wobei die vierte Repräsentation mit dem vierten Stimulus korreliert, kann erzeugt und zu der Datenbank hinzugefügt werden.Likewise, a fourth stimulus may be presented to the first user, the second user, or a third user wearing another headwear device. The other head-worn device includes a first camera positioned adjacent the left eye of the respective user and a second camera positioned adjacent the right eye of the respective user when the respective user wears the additional head-worn device . The first camera of the head-worn device can be used when the respective user is expected to respond or is expected to have responded to the fourth stimulus, to capture a fourth left image of at least a portion of a left eye of the respective user, and the second camera of the head-worn device can be used to generate a fourth right image of at least a portion of a right eye of the respective user. A data connection can be established between the further head-worn device and the database. A fourth data set including the fourth left image, the fourth right image, and a fourth representation of the gaze-related parameter, where the fourth representation correlates to the fourth stimulus, can be created and added to the database.

Der oder die Datensätze können seitens des Benutzers erzeugt werden, beispielsweise unter Verwendung einer Verarbeitungseinheit der jeweiligen am Kopf tragbaren Vorrichtung und/oder eines verbundenen Desktop-Computers, Tablets, Laptops oder Smartphones.The data set(s) can be generated by the user, for example using a processing unit of the respective head-worn device and/or a connected desktop computer, tablet, laptop or smartphone.

Der oder die Datensätze können ferner lokal gespeichert werden, bis eine Verbindung mit dem Rechensystem (Server) verfügbar ist.The data set or data sets can also be stored locally until a connection to the computing system (server) is available.

Darüber hinaus können die erste Kamera der am Kopf tragbaren Vorrichtung oder der weiteren am Kopf tragbaren Vorrichtung verwendet werden, um ein weiteres linkes Bild von mindestens einem Abschnitt des linken Auge des ersten oder des zweiten Benutzers zu erzeugen, und die zweite Kamera der jeweiligen am Kopf tragbaren Vorrichtung kann verwendet werden, um ein weiteres rechtes Bild von mindestens einem Abschnitt des rechten Auges des jeweiligen Benutzers zu erzeugen, wenn erwartet wird, dass der jeweilige Benutzer auf den weiteren Stimulus reagiert, oder erwartet wird, dass er auf den weiteren Stimulus reagiert hat. Ein weiterer Datensatz, der das weitere linke Bild und das weitere rechte Bild einschließt, kann erzeugt und zu der Datenbank hinzugefügt werden.In addition, the first camera of the head-mounted device or the other head-worn device can be used to generate another left image of at least a portion of the left eye of the first or second user and the second camera of the respective head portable device can be used to take another right image of at least a portion of the respective user's right eye if the respective user is expected to respond to the further stimulus or is expected to have responded to the further stimulus. Another data set including the other left image and the other right image can be created and added to the database.

Die Autoren haben festgestellt, dass ein bestimmter Anteil schwach gelabelter Datensätze, d. h. Datensätze mit weniger genau bekannten blickbezogenen Parametern, oder gar nicht gelabelte Datensätze, d. h. Datensätze, für die keine gültigen Repräsentationen, z. B. Werte des bzw. der blickbezogenen Parameter bekannt sind, trotzdem die Leistung des mit der Datenbank trainierten NN verbessern kann. Der Grund dafür ist, dass selbst nicht gelabelte Datensätze Informationen zu der enthaltenen Bilddiversität einschließen.The authors found that a certain proportion of weakly labeled datasets, i. H. Datasets with less precisely known gaze-related parameters, or datasets not labeled at all, i. H. Records for which no valid representations, e.g. B. values of the gaze-related parameter(s) are known, can nevertheless improve the performance of the NN trained with the database. The reason for this is that even unlabeled datasets include information about the contained image diversity.

Beispielsweise kann die Datenbank bis zu 70 %, typischer bis zu 80 % und noch typischer bis zu 90 % oder mehr an schwach und/oder nicht gelabelten Datensätzen einschließen.For example, the database may include up to 70%, more typically up to 80%, and even more typically up to 90% or more of weakly and/or unlabeled records.

In einer Ausführungsform wird mehr als ein blickbezogener Parameter, beispielsweise zwei oder drei blickbezogene Parameter, mit mindestens einem der Datensätzen zu der Datenbank hinzugefügt.In one embodiment, more than one gaze-related parameter, for example two or three gaze-related parameters, is added to the database with at least one of the data sets.

Der Begriff „blickbezogenen Parameter“ bei Verwendung in dieser Beschreibung soll eine Blickrichtung, eine zyklopische Blickrichtung, einen 3D-Blickpunkt, einen 2D-Blickpunkt, eine Augenstellung als 3D-Position und Ausrichtung, ein Paar 3D-Blickrichtungen (linkes und rechtes Auge), eine Ausrichtung einer Sehachse, eine Ausrichtung einer optischen Achse, eine Ausrichtung einer Pupillenachse, eine Ausrichtung einer Sichtlinie, eine Ausrichtung und/oder eine Position und/oder ein Schließen eines Augenlids, eine Pupillenfläche, eine Pupillengröße, einen Pupillendurchmesser, eine Lederhauteigenschaft, einen Irisdurchmesser, eine Eigenschaft eines Blutgefäßes, eine Hornhauteigenschaft mindestens eines Auges, einen Hornhautradius, einen Augapfelradius, einen Abstand Pupillenmitte bis Hornhautmitte, einen Abstand Hornhautmitte bis Augapfelmitte, einen Abstand Pupillenmitte bis Limbusmitte, einen keratometrischen Hornhautbrechungsindex, einen Hornhautbrechungsindex, ein Glaskörperflüssigkeitsbrechungsindex, einen Abstand Kristalllinse bis Augapfelmitte, bis Hornhautmitte und/oder bis Hornhautscheitelpunkt, einen Kristalllinsenbrechungsindex, einen Grad an Astigmatismus, einen Ausrichtungswinkel einer flachen und/oder einer steilen Achse, eine Ausrichtung der Haupt- und/oder Nebenachse des Limbus, eine Augenzyklotorsion, einen Abstand zwischen den Augen, eine Augenvergenz, Statistiken zur Augadduktion und/oder Augabduktion, Statistiken zur Augenerhöhung und/oder Augenvertiefung, Daten zur kognitiven Beanspruchung, Blinzelereignisse, Schläfrigkeit und/oder Aufmerksamkeit des Benutzers und einen Parameter zur Überprüfung und/oder Erkennung der Iris des Benutzers einschließen. Punkte und Richtungen können beispielsweise in einem Szenenkamerabild, einem Augenkamerakoordinatensystem, einem Szenenkamerakoordinatensystem, einem Vorrichtungskoordinatensystem, Kopfkoordinatensystem, Weltkoordinatensystem oder einem beliebigen anderen geeigneten Koordinatensystem angegeben werden.The term "gaze-related parameter" as used in this specification shall mean a gaze direction, a cyclopean gaze direction, a 3D viewpoint, a 2D viewpoint, an eye pose as a 3D position and orientation, a pair of 3D gaze directions (left and right eye), an orientation of a visual axis, an orientation of an optical axis, an orientation of a pupil axis, an orientation of a line of sight, an orientation and/or a position and/or a closure of an eyelid, a pupil area, a pupil size, a pupil diameter, a sclera property, an iris diameter , a property of a blood vessel, a corneal property of at least one eye, a corneal radius, an eyeball radius, a distance from the center of the pupil to the center of the cornea, a distance from the center of the cornea to the center of the eyeball, a distance from the center of the pupil to the center of the limbus, a keratometric corneal refractive index, a corneal refractive index, a vitreous fluid br refractive index, a distance from the crystal lens to the center of the eyeball, to the center of the cornea and/or to the corneal apex, a crystal lens refractive index, a degree of astigmatism, an orientation angle of a flat and/or a steep axis, an orientation of the major and/or minor axis of the limbus, an ocular cyclotorsion, a distance between the eyes, eye vergence, eye adduction and/or eye abduction statistics, eye elevation and/or eye deepening statistics, cognitive load data, blink events, user drowsiness and/or alertness, and an iris assessment and/or detection parameter include the user. For example, points and directions may be specified in a scene camera image, an eye camera coordinate system, a scene camera coordinate system, a device coordinate system, head coordinate system, world coordinate system, or any other suitable coordinate system.

Gemäß einer Ausführungsform wird ein jeweiliger gegebener oder resultierender Wert des bzw. der blickbezogenen Parameter für den jeweilige Benutzer bestimmt, von dem erwartet wird, dass er auf den jeweiligen Stimulus reagiert oder reagiert hat.According to one embodiment, a given or resulting value of the gaze-related parameter(s) is determined for the given user who is expected to respond or has responded to the given stimulus.

Der bestimmte gegebene oder resultierende Wert des blickbezogenen Parameters bzw. der blickbezogenen Parameter kann als jeweilige Repräsentation des blickbezogenen Parameters bzw. der blickbezogenen Parameter des Datensatzes bzw. der Datensätze verwendet werden.The specific given or resulting value of the gaze-related parameter or parameters can be used as the respective representation of the gaze-related parameter or parameters of the data set or data sets.

Der bestimmte gegebene oder resultierende Wert kann als der tatsächliche oder Ground-Truth-Wert des blickbezogenen Parameters betrachtet werden.The particular given or resulting value may be considered the actual or ground truth value of the gaze-related parameter.

Im Folgenden wird ein Datensatz, der ein linkes Bild von mindestens einem Abschnitt des linken Auges, ein rechtes Bild von mindestens einem Abschnitt des rechten Auges und einen entsprechenden tatsächlichen oder Ground-Truth-Wert von einem oder mehreren blickbezogenen Parametern aufweist, wie etwa dem Blickpunkt oder Blickrichtung, auch als gelabelter Datensatz bezeichnet. Typischerweise werden die zwei Bilder eines Datensatzes im Wesentlichen zur selben Zeit aufgenommen, d. h. innerhalb eines Zeitraums von höchstens 50 ms oder sogar höchstens 10 ms.The following is a data set that includes a left image of at least a portion of the left eye, a right image of at least a portion of the right eye, and a corresponding actual or ground truth value of one or more gaze-related parameters, such as gaze point or line of sight, also referred to as a labeled data set. Typically, the two images of a data set are taken at substantially the same time, i. H. within a period of at most 50 ms or even at most 10 ms.

Gelabelte Datensätzen sind für das Trainieren von NNs besonders wertvoll.Labeled datasets are particularly valuable for training NNs.

Gemäß Ausführungsformen wird eine Bestimmungseinheit für blickbezogene Parameter, insbesondere eine jeweilige Einheit der jeweiligen am Kopf tragbaren Vorrichtung, verwendet, um den jeweiligen gegebenen oder resultierenden Wert des blickbezogenen Parameters zu bestimmen, insbesondere die jeweilige gegebene oder resultierende Blickrichtung und/oder den jeweiligen gegebenen oder resultierenden Blickpunkt für den jeweiligen Benutzer.According to embodiments, a gaze-related parameter determining unit, in particular a respective unit of the respective head-worn device, is used to determine the respective given or resulting value of the gaze-related parameter, in particular the respective given or resulting gaze direction and/or the respective given or resulting point of view for the respective user.

In einer Ausführungsform wird eine Szenenkamera, die zum Aufnehmen eines gegebenen Objekts im Sichtfeld des jeweiligen Benutzers angeordnet ist, der die jeweilige am Kopf tragbare Vorrichtung trägt, zum Aufnehmen von Bildern verwendet, die als eine Grundlage zum Bestimmen eines jeweiligen resultierenden Werts des blickbezogenen Parameters verwendet werden können.In one embodiment, a scene camera arranged to capture a given object in the field of view of the respective user wearing the respective head-worn device is used to capture images that are used as a basis for determining a respective resulting value of the gaze-related parameter can become.

Beispielsweise schaut der jeweilige Benutzer als Reaktion auf einen jeweiligen Stimulus, z. B. einen visuellen Stimulus und/oder einen akustischen Stimulus, auf ein gegebenes jeweiliges Objekt, das eine jeweilige gegebene Blickrichtung relativ zu einem Koordinatensystem, das für die jeweilige am Kopf tragbare Vorrichtung festgelegt ist, und/oder einen jeweiligen gegebenen Blickpunkt im Koordinatensystem definiert, oder er wird dazu veranlasst.For example, in response to a particular stimulus, e.g. a visual stimulus and/or an acoustic stimulus, upon a given respective object defining a respective given gaze direction relative to a coordinate system specified for the respective head-worn device and/or a respective given gaze point in the coordinate system, or he is made to do so.

Gemäß einem Ausführungsbeispiel wird der jeweilige Benutzer durch einen visuellen Stimulus oder einen akustischen Stimulus aufgefordert, auf eine Markierung oder ein Objekt zu schauen, beispielsweise die Spitze eines seiner Finger.According to one embodiment, the respective user is prompted by a visual stimulus or an acoustic stimulus to look at a mark or an object, for example the tip of one of his fingers.

Wie bereits vorstehend erläutert, kann der jeweilige Benutzer aufgefordert werden, in unterschiedlichen Positionen auf seine Fingerspitze zu schauen oder seiner sich bewegenden Fingerspitze mit den Augen zu folgen. Selbst ein einzelner Stimulus kann daher verwendet werden, um eine Folge von Datensätzen zu erzeugen, die jeder ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und einen anderen resultierenden Wert des oder der jeweiligen blickbezogenen Parameter als Repräsentation des oder der blickbezogenen Parameter einschließen.As already explained above, the respective user can be asked to look at his fingertip in different positions or to follow his moving fingertip with his eyes. Even a single stimulus can therefore be used to generate a sequence of data sets each including a respective left image, a respective right image and another resulting value of the respective gaze-related parameter(s) as a representation of the gaze-related parameter(s).

Es können ein jeweiliges linkes Bild und ein jeweiliges rechtes Bild erzeugt werden, wenn erwartet wird, dass der jeweilige Benutzer auf das jeweilige gegebene Objekt, in die jeweilige gegebene Richtung und/oder auf den jeweiligen gegebenen Blickpunkt schaut.A respective left image and a respective right image may be generated when the respective user is expected to be looking at the respective given object, direction and/or viewpoint.

Anschließend werden der resultierende Wert bzw. die resultierenden Werte der gegebenen Blickrichtung und/oder des gegebenen Blickpunkts im Koordinatensystem, das für die jeweilige am Kopf tragbare Vorrichtung festgelegt ist, unter Verwendung eines Szenenbilds des Sichtfelds des Benutzers bestimmt, wenn erwartet wird, dass der jeweilige Benutzer auf das jeweilige gegebene Objekt, in die jeweilige gegebene Richtung und/oder auf den jeweiligen gegebenen Blickpunkt schaut. Das Szenenbild kann unter Verwendung der Szenenkamera erlangt werden.Then the resulting value(s) of the given gaze direction and/or viewpoint in the coordinate system specified for the respective head-worn device are determined using a scene image of the user's field of view when the respective User is looking at the given object, direction, and/or viewpoint. The scene image can be obtained using the scene camera.

Darüber hinaus ermöglichen das Bestimmen und Speichern des bzw. der resultierenden Werte im Koordinatensystem, das für die jeweilige am Kopf tragbare Vorrichtung festgelegt ist, ihre spätere Verwendung.Furthermore, determining and storing the resulting value(s) in the coordinate system specified for the particular head-worn device allows for their later use.

Das Bestimmen des resultierenden Werts bzw. der resultierenden Werte kann unter Verwendung von Techniken für maschinelles Lernen, Computervision oder Bilderkennung des Stands der Technik erreicht werden.Determining the resulting value(s) may be accomplished using state-of-the-art machine learning, computer vision, or image recognition techniques.

Natürlich wird davon ausgegangen, dass sich der oder die Benutzer kooperativ verhalten. Von einem solchen Verhalten ist auszugehen, da jeder Benutzer ein Interesse daran hat, die Genauigkeit und Zuverlässigkeit der Vorhersagen des NN zu verbessern, das unter Verwendung der Datenbank trainiert/nachtrainierte wird, und das daher von der Qualität der von dem Benutzer bzw. den Benutzern bereitgestellten Datensätze abhängig ist.Of course, it is assumed that the user or users behave cooperatively. Such behavior is to be expected since each user has an interest in improving the accuracy and reliability of the predictions of the NN being trained/post-trained using the database, and therefore of the quality of the data provided by the user(s). data sets provided.

Dies gilt auch für eine weitere Ausführungsform, in der ein gewünschten Wert des blickbezogenen Parameters verwendet wird, um die Position und/oder das Erscheinungsbild eines Objekts zu bestimmen, das im Sichtfeld des Benutzers angezeigt werden soll. Im Folgenden wird der gewünschte Wert des blickbezogenen Parameters auch als der gegebene Wert des blickbezogenen Parameters bezeichnet.This also applies to another embodiment in which a desired value of the gaze-related parameter is used to determine the position and/or appearance of an object to be displayed in the user's field of view. In the following, the desired value of the gaze-related parameter is also referred to as the given value of the gaze-related parameter.

Beispielsweise kann der Benutzer aufgefordert werden, auf eine gegebene Markierung oder ein Objekt zu schauen, die bzw. das an einer gegebenen (gewünschten) Position auf einem Bildschirm, der zu der am Kopf tragbaren Vorrichtung gehört oder an ihr anbringbar ist, angezeigt wird.For example, the user may be prompted to look at a given marker or object displayed at a given (desired) location on a screen associated with or attachable to the head-worn device.

Aus Gründen der Genauigkeit kann die Szenenkamera eine Auflösung von mindestens 640 x 480 Pixeln oder mindestens 800 x 600 Pixeln, typischer von mindestens 1024 x 768 Pixeln, und noch typischer von mindestens 1280 x 1024 Pixeln oder mindestens 1920 x 1080 Pixeln (mindestens VGA oder sogar SVGA) aufweisen.For the sake of accuracy, the scene camera can have a resolution of at least 640 x 480 pixels, or at least 800 x 600 pixels, more typically at least 1024 x 768 pixels, and more typically at least 1280 x 1024 pixels, or at least 1920 x 1080 pixels (at least VGA or even SVGA).

Anders als das Szenenbild bzw. die Szenenbilder ist die Auflösung der linken und rechten Bilder typischerweise vergleichsweise gering. Die Pixelanzahl der linken Bilder und der typischerweise ebenso großen rechten Bilder kann höchstens 40000, insbesondere höchstens 10000, insbesondere höchstens 5000 und genauer höchstens 2500 oder sogar 1000 betragen.Unlike the scene image or images, the resolution of the left and right images is typically comparatively low. The number of pixels of the left images and the typically equally large right images can be at most 40000, in particular at most 10000, in particular at most 5000 and more precisely at most 2500 or even 1000.

Auch bei linken und rechten Graustufenbildern mit geringer Auflösung von 64 mal 64 Pixeln, 50 mal 50 Pixeln oder sogar nur 32 mal 32 Pixeln kann unter Verwendung trainierter NNs eine überraschend hohe Zuverlässigkeit der Blickrichtungs-/Blickpunktvorhersage erzielt werden.Even with left and right grayscale images with low resolution of 64 by 64 pixels, 50 by 50 pixels or even only 32 by 32 pixels, a surprisingly high reliability of the gaze direction/viewpoint prediction can be achieved using trained NNs.

Tatsächlich kann die Blickrichtung/der Blickpunkt in vielen Fällen auch dann genau erkannt werden, wenn das linke Bild oder das rechte Bild oder sogar beide Bilder keine Pupille oder nur einen Abschnitt der jeweiligen Pupille enthalten.In fact, in many cases the gaze direction/point of view can be accurately recognized even if the left image or the right image or even both images contain no pupil or only a portion of each pupil.

In Ausführungsformen, die sich auf IR-Kameras für das linke und das rechte Auge beziehen, kann eine rechte IR-Lichtquelle der jeweiligen am Kopf tragbaren Vorrichtung zum Beleuchten des rechten Auge des jeweilige Benutzers verwendet werden und eine linke IR-Lichtquelle der jeweiligen am Kopf tragbaren Vorrichtung zum Beleuchten des linken Auges des jeweiligen Benutzers verwendet werden. IR-Beleuchtung kann nur dann verwendet/aufgerufen werden, wenn die Bildqualität zu niedrig ist oder zu erwarten ist, dass sie niedrig ist, beispielsweise in einer dunklen Umgebung. IR-Beleuchtung kann auch dauerhaft eingeschaltet sein oder immer eingeschaltet sein und nur ausgeschaltet werden, um Strom zu sparen, und/oder wenn die Bildqualität ohne Beleuchtung ausreichend ist.In embodiments relating to left and right eye IR cameras, a right IR light source of each head wearable device may be used to illuminate the right eye of each user and a left IR light source of each head mounted device portable device can be used to illuminate the left eye of the respective user. IR Illumination can only be used/invoked when the image quality is too low or expected to be low, for example in a dark environment. IR illumination can also be on permanently or always on and only off to save power and/or when image quality is acceptable without illumination.

Das Erzeugen oder Hinzufügen eines Datensatzes kann das Verketten des jeweiligen linken Bildes und des jeweiligen rechten Bildes einschließen. Es sei angemerkt, dass verkettete Bilder direkt einer 2-dimensionale Eingabeschicht des NN präsentiert werden können.Creating or adding a data set may include concatenating the respective left image and the respective right image. It should be noted that concatenated images can be presented directly to a 2-dimensional input layer of the NN.

Darüber hinaus kann das Erzeugen oder Hinzufügen des jeweiligen Datensatzes das Speichern einer jeweiligen Repräsentation eines weiteren blickbezogenen Parameters, der sich von dem blickbezogenen Parameter unterscheidet, einer jeweiligen Benutzerkennung, einer jeweiligen Benutzergruppenkennung und/oder einer Vorrichtungskennung der jeweilige am Kopf tragbaren Vorrichtung einschließen. Die jeweilige Benutzergruppenkennung kann auch Teil der Benutzerkennung sein.In addition, creating or adding the respective data set may include storing a respective representation of another gaze-related parameter different from the gaze-related parameter, a respective user identifier, a respective user group identifier, and/or a device identifier of the respective headwearable device. The respective user group ID can also be part of the user ID.

Das Speichern der jeweiligen Benutzerkennung, der jeweiligen Benutzergruppenkennung und/oder der Vorrichtungskennung der jeweilige am Kopf tragbaren Vorrichtung in den Datensätzen der Datenbank kann das Trainieren des neuronalen Netzes in einer Vorrichtung auf spezifische, benutzerspezifische und/oder benutzergruppenspezifische Weise ermöglichen.Storing the respective user identifier, the respective user group identifier and/or the device identifier of the respective headworn device in the records of the database can enable the training of the neural network in a device in a specific, user-specific and/or user-group-specific manner.

Beispielsweise kann das neuronale Netz speziell für Kinder, Erwachsene, ältere Menschen, Menschen gemeinsamer ethnischer Abstammung, Frauen, Männer, eine Gruppe von Menschen mit gemeinsamem Hintergrund, eine Gruppe von Menschen, die Arzneimittel oder einen Wirkstoff wie etwa Alkohol erhalten, oder sehbehinderte oder in anderer Weise behinderte Menschen, eine bestimmte Vorrichtung, eine Vorrichtungsklasse, eine Benutzerkennung, eine Benutzergruppe und dergleichen trainiert werden.For example, the neural network may be specific to children, adults, the elderly, people of the same ethnicity, women, men, a group of people from a common background, a group of people receiving drugs or an active substance such as alcohol, or the visually impaired or in otherwise disabled people, a particular device, a device class, a user identifier, a user group, and the like.

Typischerweise enthält die Datenbank jeweilige Datensätze verschiedener Benutzer, Zustände der Benutzer, Lichtverhältnisse (Innen- und/oder Außenlichtverhältnisse), Verrutschungszustände der getragenen am Kopf tragbaren Vorrichtung und/oder unterschiedliche Entfernungen zwischen dem Benutzer und einem präsentierten Objekt, auf das der Benutzer blickt.Typically, the database contains respective records of different users, conditions of the users, lighting conditions (indoor and/or outdoor lighting conditions), slip conditions of the worn head-worn device, and/or different distances between the user and a presented object at which the user is looking.

Gemäß einer Ausführungsform eines Verfahrens zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes, umfasst das Verfahren Bereitstellen einer Datenbank ein, die eine Vielzahl von Datensätzen aufweist, die jeweils ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige entsprechende Repräsentation eines blickbezogenen Parameters, insbesondere einen jeweiligen entsprechenden Wert des blickbezogenen Parameters, aufweisen. Es wird ein neuronales Netz mit einer gegebenen Architektur bereitgestellt. Parameter des neuronalen Netzes werden unter Verwendung der jeweiligen linken Bilder und der jeweiligen rechten Bilder eines Teilsatzes oder aller Datensätze als Eingabe und der jeweiligen entsprechenden Repräsentationen der blickbezogenen Parameter des Teilsatzes oder aller Datensätze als gewünschte Ausgabe des neuronalen Netzes bestimmt.According to one embodiment of a method for training a neural network, in particular a neural convolutional network, the method includes providing a database which has a plurality of data sets, each of which has a respective left image, a respective right image and a respective corresponding representation of a gaze-related parameter , in particular a respective corresponding value of the gaze-related parameter. A neural network with a given architecture is provided. Neural network parameters are determined using the respective left images and respective right images of a subset or all datasets as input and the respective corresponding representations of the gaze-related parameters of the subset or all datasets as the desired neural network output.

Der Deutlichkeit halber wird das Verfahren zum Trainieren des neuronalen Netzes auch als Trainingsverfahren bezeichnet.For the sake of clarity, the method for training the neural network is also referred to as a training method.

Gemäß einer Ausführungsform wird ein trainiertes neuronales Netz, d. h. ein neuronales Netz, das mit allen oder ausgewählten Datensätzen der Datenbank trainiert wurde, verwendet, um aus einem linken Bild, das durch die erste Kamera erzeugt wird, und einem rechten Bild, das durch die zweite Kamera der jeweiligen am Kopf tragbaren Vorrichtung erzeugt wird, einen blickbezogenen Parameter eines Benutzers vorherzusagen, typischerweise in Echtzeit, insbesondere eine Augenblickrichtung eines Benutzers und/oder einen Augenblickpunkt eines Benutzers, wenn der Benutzer eine jeweilige am Kopf tragbare Vorrichtung trägt.According to one embodiment, a trained neural network, i. H. uses a neural network, which has been trained with all or selected data sets of the database, to generate, from a left image generated by the first camera and a right image generated by the second camera of the respective head-mounted device, predict a user's gaze-related parameter, typically in real time, particularly a user's eye-gaze direction and/or a user's eye-eye point when the user is wearing a respective head-worn device.

Wie bereits oben erwähnt, kann das Trainingsverfahren benutzer- oder benutzergruppenspezifisch sein.As already mentioned above, the training method can be user or user group specific.

Entsprechend können Vorhersagen des neuronalen Netzes von besonders hoher Zuverlässigkeit und/der Genauigkeit für den Benutzer oder die Benutzergruppe erzielt werden.Correspondingly, predictions of the neural network of particularly high reliability and/or accuracy can be achieved for the user or the user group.

Darüber hinaus kann das trainierte neuronale Netz dazu verwendet werden, einen weiteren blickbezogenen Parameter, einen Augenparameter und/oder einen physiologischen Parameter des Benutzers zu bestimmen.In addition, the trained neural network can be used to determine another gaze-related parameter, an eye parameter and/or a physiological parameter of the user.

Beispielsweise kann das trainierte neuronale Netz dazu trainiert worden sein, auf Grundlage des linken und rechten Bildes zu erkennen, ob der Benutzer müde ist (oder wird), geistig abgelenkt, und betrunken oder dergleichen ist.For example, the trained neural network may have been trained to recognize whether the user is (or is becoming) tired, mentally distracted, drunk, or the like based on the left and right images.

Anstelle des Verwendens eines benutzerspezifischen trainierten neuronalen Netzes oder zusätzlich dazu kann ein Kalibrierungsverfahren am Standort des Benutzers verwendet werden.Instead of or in addition to using a user-specific trained neural network, a calibration method at the user's location can be used.

Gemäß einer Ausführungsform umfasst ein Verfahren zum Kalibrieren einer am Kopf tragbaren Vorrichtung Präsentieren eines Stimulus an einen Benutzer, der die am Kopf tragbare Vorrichtung trägt, wie in dieser Schrift erläutert. Die ersten Kamera der am Kopf tragbaren Vorrichtung wird verwendet, um ein linkes Bild von mindestens einem Abschnitt des linken Auges des Benutzers zu erzeugen, und die zweite Kamera der am Kopf tragbaren Vorrichtung wird verwendet, um ein rechtes Bild von mindestens einem Abschnitt des rechten Auges des Benutzers zu erzeugen, der die am Kopf tragbare Vorrichtung trägt und von dem erwartet wird, dass er auf den Stimulus reagiert, oder von dem erwartet wird, dass er auf den Stimulus reagiert hat. Ein trainiertes neuronales Netz, insbesondere ein trainiertes neuronales Faltungsnetz, wird, wie in dieser Schrift erläutert, verwendet, um einen vorhergesagten Wert des blickbezogenen Parameters unter Verwendung des rechten Bildes und des linken Bildes als eine Eingabe für das trainierte neuronale Netz zu bestimmen. Der gewünschte Wert des blickbezogenen Parameters und der vorhergesagte Wert des blickbezogenen Parameters werden verwendet, um eine Korrekturfunktion für den Benutzer zu bestimmen.According to one embodiment, a method for calibrating a headwear device includes presenting a stimulus to a user wearing the headwear device, as discussed herein. The first camera of the head-worn device is used to generate a left image of at least a portion of the user's left eye and the second camera of the head-worn device is used to generate a right image of at least a portion of the right eye of the user wearing the headworn device and who is expected to respond to the stimulus or who is expected to have responded to the stimulus. A trained neural network, specifically a trained convolution neural network, is used as discussed herein to determine a predicted value of the gaze-related parameter using the right image and the left image as an input to the trained neural network. The desired value of the gaze-related parameter and the predicted value of the gaze-related parameter are used to determine a correction function for the user.

Die Korrekturfunktion für den Benutzer kann lokal gespeichert werden, beispielsweise in einem Speicher der am Kopf tragbaren Vorrichtung und/oder in der Datenbank.The correction function for the user can be stored locally, for example in a memory of the headwear device and/or in the database.

Differenzen zwischen entsprechenden gewünschten und vorhergesagten Werten des blickbezogenen Parameters können z. B. auf eine Besonderheit eines neuen Benutzers, die noch nicht ausreichend in der Datenbank reflektiert wird, einen Lernfehler oder eine Veränderung des Benutzers im Laufe der Zeit zurückgehen.Differences between corresponding desired and predicted values of the gaze-related parameter can e.g. B. due to a peculiarity of a new user that is not yet sufficiently reflected in the database, a learning error or a change in the user over time.

In jedem Fall kann die Korrekturfunktion verwendet werden, um die Netzvorhersagen für den jeweilige Benutzer sofort zu verbessern.In any case, the correction function can be used to immediately improve the network predictions for the specific user.

Andererseits können das entsprechende linke und rechte Bild und die gewünschten (Ground-Truth-) Werte des blickbezogenen Parameters als neue Datensätzen zu der Datenbank hinzugefügt werden.On the other hand, the corresponding left and right images and the desired (ground truth) values of the gaze-related parameter can be added as new datasets to the database.

Mit anderen Worten, es können ein oder mehrere neue Datensätze, die ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild, einen jeweiligen gewünschten blickbezogenen Parameter oder eine andere Repräsentation des blickbezogenen Parameters aufweisen, erzeugt und zu der Datenbank hinzugefügt werden, um eine aktualisierte Datenbank zu erzeugen.In other words, one or more new datasets containing a respective left image, a respective right image, a respective desired gaze-related parameter, or other representation of the gaze-related parameter may be created and added to the database to provide an updated database generate.

Entsprechend deckt die aktualisierte Datenbank ein größeres Spektrum an Datensätzen ab und/oder die Leistung des nachtrainierten Netzes kann verbessert werden.Accordingly, the updated database covers a larger range of data sets and/or the performance of the post-trained network can be improved.

Darüber hinaus kann die aktualisierte Datenbank zum Nachtrainieren des neuronalen Netzes verwendet werden. Entsprechend kann die Leistung des nachtrainierten Netzes noch weiter verbessert werden.In addition, the updated database can be used to retrain the neural network. Accordingly, the performance of the post-trained network can be further improved.

Die bestimmte Korrekturfunktion kann zum Korrigieren von Vorhersagen des trainierten oder nachtrainierten NN für den Benutzer verwendet werden.The determined correction function can be used to correct predictions of the trained or post-trained NN for the user.

Gemäß einer Ausführungsform wird die erste Kamera verwendet, um ein linkes Bild von mindestens einem Abschnitt des linken Auges des Benutzers zu erzeugen, und die zweite Kamera wird verwendet, um ein rechtes Bild von mindestens einem Abschnitt des rechten Auges des Benutzers zu erzeugen, der die am Kopf tragbare Vorrichtung trägt. Das trainierte oder nachtrainierte neuronale Netz wird verwendet, um einen weiteren vorhergesagten Wert des blickbezogenen Parameters unter Verwendung des weiteren rechten Bildes und des weiteren linken Bildes als eine Eingabe für das trainierte neuronale Netz zu bestimmen. Der weitere vorhergesagte Wert wird durch Anwenden der Korrekturfunktion auf den weiteren vorhergesagten Wert korrigiert, um einen korrigierten Wert des blickbezogenen Parameters zu erhalten.According to one embodiment, the first camera is used to generate a left image of at least a portion of the user's left eye and the second camera is used to generate a right image of at least a portion of the user's right eye showing the wears a wearable device on the head. The trained or post-trained neural network is used to determine another predicted value of the gaze-related parameter using the other right image and the other left image as an input to the trained neural network. The further predicted value is corrected by applying the correction function to the further predicted value to obtain a corrected value of the gaze-related parameter.

Gemäß einer weiteren Ausführungsform wird das trainierte oder nachtrainierte neuronale Netz verwendet, um einen vorhergesagten Wert eines weiteren blickbezogenen Parameters, der sich von dem blickbezogenen Parameter unterscheidet, unter Verwendung des rechten Bildes und des linken Bildes als eine Eingabe für das jeweilige neuronale Netz zu bestimmen, und der vorhergesagte Wert des weiteren blickbezogenen Parameters und ein gewünschter Wert des weiteren blickbezogenen Parameters, der mit dem Stimulus oder einem weiteren Stimulus korreliert, wird zum Bestimmen einer weiteren Korrekturfunktion für den Benutzer verwendet.According to a further embodiment, the trained or post-trained neural network is used to determine a predicted value of another gaze-related parameter, different from the gaze-related parameter, using the right image and the left image as an input for the respective neural network, and the predicted value of the other gaze-related parameter and a desired value of the other gaze-related parameter associated with the stimulus or a far corresponding to the stimulus is used to determine a further correction function for the user.

Die Korrekturfunktion bzw. Korrekturfunktionen können als polynomische Funktion implementiert sein. Beispielsweise kann ein Polynom von zwei Eingabevariablen als eine jeweilige Korrekturfunktion für eine 2D-Blickrichtung bzw. einen 2D-Blickpunkt verwendet werden.The correction function or correction functions can be implemented as a polynomial function. For example, a polynomial of two input variables can be used as a respective correction function for a 2D gaze direction or a 2D viewpoint.

Typischerweise wird die Korrekturfunktion bzw. werden die Korrekturfunktionen unter Verwendung unterschiedlicher Paare gewünschter und vorhergesagter Werte des blickbezogenen Parameters bzw. der blickbezogenen Parameter bestimmt.Typically, the correction function or functions are determined using different pairs of desired and predicted values of the gaze-related parameter or parameters.

Der gewünschte Wert kann einem gegebenen Wert (im Voraus festgelegten Wert) oder einem resultierenden Wert entsprechen, und/oder kann in gleichartiger Weise wie oben in Bezug auf das Verfahren zum Erstellen und Aktualisieren der Datenbank bestimmt werden.The desired value can correspond to a given value (predetermined value) or a resulting value, and/or can be determined in a similar manner as above in relation to the method for creating and updating the database.

Beispielsweise kann die oben beschriebene Einheit zur Bestimmung blickbezogener Parameter verwendet werden, um den resultierenden Wert als gegebenen Wert (Ground-Truth-Wert) des jeweiligen blickbezogenen Parameters zu bestimmen, insbesondere wenn der Benutzer auf seine Fingerspitze oder ein anderes Objekt in seinem Sichtfeld, das wie beschrieben durch eine Szenenkamera überwacht wird, schaut und/oder ihr bzw. ihm folgt. Darüber hinaus ist die Einheit zur Bestimmung blickbezogener Parameter typischerweise dazu konfiguriert, einen jeweiligen gegebenen Wert oder resultierenden Wert als eine jeweilige Repräsentation des blickbezogenen Parameters zu bestimmen, um diese in einem jeweiligen Datensatz zu speichern.For example, the unit for determining gaze-related parameters described above can be used to determine the resulting value as a given value (ground truth value) of the respective gaze-related parameter, in particular when the user points to his fingertip or another object in his field of view that is being monitored by a scene camera as described, is watching and/or following her. Furthermore, the unit for determining gaze-related parameters is typically configured to determine a respective given value or resulting value as a respective representation of the gaze-related parameter in order to store them in a respective data set.

In Ausführungsformen, in denen der Benutzer aufgefordert wird, auf ein gegebenes Objekt auf einem Bildschirm zu blicken, kann die Einheit zur Bestimmung blickbezogener Parameter vor dem Anzeigen des Objekts die Position des Objekts auf dem Bildschirm gemäß einem gegebenen Wert (im Voraus festgelegten Wert) des blickbezogenen Parameters bestimmen. Alternativ kann die Einheit zur Bestimmung blickbezogener Parameter den blickbezogenen Parameter gemäß einer zufällig gewählten Position des Objekts auf dem Bildschirm bestimmen.In embodiments where the user is asked to look at a given object on a screen, before displaying the object, the unit for determining gaze-related parameters may determine the position of the object on the screen according to a given value (predetermined value) of the determine a gaze-related parameter. Alternatively, the gaze-related parameter determination unit may determine the gaze-related parameter according to a randomly chosen position of the object on the screen.

Das beschriebene Kalibrierungsverfahren kann mindestens teilweise durch einen oder mehrere Prozessoren der jeweilige am Kopf tragbaren Vorrichtung, wie etwa eine Brillenvorrichtung wie in dieser Schrift beschrieben, eine Korbbrille, ein am Kopf tragbares AR-Display und ein am Kopf tragbares VR-Display, oder durch einen oder mehrere Prozessoren eines lokalen Computers, der mit der am Kopf tragbaren Vorrichtung verbunden ist, durchgeführt und/oder gesteuert werden.The calibration method described may be performed at least in part by one or more processors of the respective head-worn device, such as an eyewear device as described herein, goggles, a head-wearable AR display and a head-wearable VR display, or by a or multiple processors of a local computer connected to the headworn device are performed and/or controlled.

Das beschriebene Kalibrierungsverfahren kann aufgerufen werden, wenn ein neuer Benutzer die am Kopf tragbare Vorrichtung zum ersten Mal trägt, von Zeit zu Zeit, wenn ein Verrutschen der am Kopf tragbaren Vorrichtung wahrscheinlich ist, erwartet oder erkannt wird, oder auf Anfrage des Benutzers.The calibration method described may be invoked when a new user wears the headwear device for the first time, from time to time when headwear device slippage is likely, expected or detected, or at the request of the user.

Gemäß einer Ausführungsform umfasst ein Verfahren zum Erfassen von einem oder mehreren blickbezogenen Parametern eines Benutzers Erstellen eines ersten Bildes eines linken Auges des Benutzers unter Verwendung einer ersten Kamera einer am Kopf tragbaren Vorrichtung, die durch den Benutzer getragen wird, Erstellen eines rechten Bildes eines rechten Auges des Benutzers unter Verwendung einer zweiten Kamera der am Kopf tragbaren Vorrichtung, gemeinsames Einspeisen des linken und rechten Bildes als eine Eingabe in ein (trainiertes) neuronales Faltungsnetz und Erhalten des einen oder der mehreren blickbezogenen Parameter von dem neuronalen Faltungsnetz als ein Ergebnis der Eingabe des linken und rechten Bildes.According to one embodiment, a method for detecting one or more gaze-related parameters of a user includes creating a first image of a left eye of the user using a first camera of a head-worn device worn by the user, creating a right image of a right eye of the user using a second camera of the head-worn device, feeding the left and right images together as an input to a (trained) convolutional neural network, and obtaining the one or more gaze-related parameters from the convolutional neural network as a result of inputting the left one and right picture.

Im Folgenden wird das Verfahren zum Erfassen von einem oder mehreren blickbezogenen Parametern des Benutzers auch als Erkennungsverfahren bezeichnet.In the following, the method for detecting one or more gaze-related parameters of the user is also referred to as a recognition method.

Das neuronale Faltungsnetz ist typischerweise ein trainiertes neuronales Netz, wie in dieser Schrift erläutert. Das Verwenden eines solchen trainierten neuronalen Faltungsnetzes zum Erlangen (Bestimmen) jeweiliger vorhergesagter Werte des blickbezogenen Parameters bzw. der blickbezogenen Parameter unter Verwendung des rechten Bildes und des linken Bildes als Eingabe ermöglicht eine besonders hohe Genauigkeit und Zuverlässigkeit der Vorhersage in Echtzeit mit vergleichsweise geringen Rechenressourcen.The convolutional neural network is typically a trained neural network as discussed in this paper. Using such a trained convolutional neural network to obtain (determine) respective predicted values of the gaze-related parameter or parameters using the right image and the left image as input enables a particularly high accuracy and reliability of the prediction in real time with comparatively little computing resources.

Daher können die Prozesse des Erkennungsverfahrens teilweise oder sogar ganz durch eine Verarbeitungseinheit oder einen Computer ausgeführt werden, die bzw. der in eine tragbare Vorrichtung integriert ist, beispielsweise in einen (standardmäßigen) Brillenrahmen der am Kopf tragbaren Vorrichtung.Therefore, the processes of the recognition method can be partially or even fully executed by a processing unit or computer integrated in a wearable device, for example in a (standard) eyeglass frame of the headwear device.

Alternativ kann die Verarbeitungseinheit oder der Computer teilweise oder ganz in einen Desktopcomputer, einen lokalen Server, ein Smartphone, ein Tablet oder einen Laptop integriert sein, der bzw. das mit der am Kopf tragbaren Vorrichtung verbunden ist.Alternatively, the processing unit or computer may be partially or fully integrated into a desktop computer, local server, smartphone, tablet, or laptop connected to the head-worn device.

Die linken und rechten Bilder können vor dem Eingeben in das neuronale Faltungsnetz verkettet werden. Typischerweise werden die verketteten Bilder in eine zweidimensionale Eingabeschicht des neuronalen Faltungsnetzes eingegeben.The left and right images can be concatenated before being input into the convolutional neural network become. Typically, the concatenated images are input to a two-dimensional input layer of the convolutional neural network.

In Ausführungsformen, die sich auf gleich große, quadratisch geformte linke und rechte Bilder beziehen, die jeweils NxN Pixel aufweisen, ist die Eingabeschicht typischerweise eine Nx2N-Matrix.In embodiments relating to equal-sized, square-shaped left and right images each having NxN pixels, the input layer is typically an Nx2N matrix.

N ist typischerweise kleiner oder gleich 50, vorzugsweise kleiner oder gleich 30, insbesondere kleiner oder gleich 20.N is typically less than or equal to 50, preferably less than or equal to 30, in particular less than or equal to 20.

In anderen Ausführungsformen sind die linken und rechten Bilder nicht quadratische Rechtecke, aber typischerweise ebenfalls von gleicher Größe und Form.In other embodiments, the left and right images are not square rectangles, but are typically the same size and shape as well.

Darüber hinaus können die ersten und zweiten Bilder vor dem Eingeben in das neuronale Faltungsnetz nicht vorverarbeitet werden, um räumliche und/oder zeitliche Muster oder Anordnungen zu erlangen. Dies kann die Rechenkosten weiter reduzieren.Furthermore, the first and second images may not be pre-processed to obtain spatial and/or temporal patterns or configurations prior to being input to the convolutional neural network. This can further reduce the computation cost.

Die linken und rechten Bilder können beispielsweise vor dem Eingeben in das neuronale Faltungsnetz keiner Merkmalsextraktion unterzogen werden.For example, the left and right images may not undergo feature extraction before being input to the convolution neural network.

Außerdem wird die Ausgabe des neuronalen Faltungsnetzes typischerweise nicht zum Erhalten (der vorhergesagten Werte des) einen oder der mehreren blickbezogenen Parameter nachverarbeitet.Also, the output of the convolutional neural network is typically not post-processed to obtain (the predicted values of) the one or more gaze-related parameters.

Der bzw. die vorhergesagten Werte des bzw. der blickbezogenen Parameter können als Eingabe eines weiteren Moduls verwendet werden, z. B. ein mit Verbraucherhaushalten zusammenhängendes (Software-) Modul, ein geschäftliches (Software-) Modul und/oder ein medizinisches (Software-) Modul.The predicted value(s) of the gaze related parameter(s) can be used as input to another module, e.g. B. a consumer household related (software) module, a business (software) module and/or a medical (software) module.

Alternativ werden der bzw. die vorhergesagten Werte unter Verwendung einer benutzerspezifischen Korrekturfunktion korrigiert, wie in dieser Schrift erläutert, bevor sie als Eingabe für ein weiteres Modul verwendet werden.Alternatively, the predicted value(s) are corrected using a custom correction function, as discussed herein, before being used as input to another module.

Beispielsweise können der vorhergesagte oder korrigierte Wert bzw. die vorhergesagten oder korrigierten Werte von weiteren Modulen verwendet werden, um zu bestimmen, auf welches Objekt auf einem Bildschirm der Benutzer blickt, wie lang der Benutzer auf das Objekt blickt, ob der Benutzer blinzelt, während er auf das Objekt blickt, usw. Diese Informationen können verwendet werden, um die Interaktion des Benutzers mit einer Steuervorrichtung oder einem Computer zu verbessern, die bzw. der mit dem Bildschirm und/oder der am Kopf tragbaren Vorrichtung verbunden ist, oder für Werbung.For example, the predicted or corrected value(s) may be used by other modules to determine which object on a screen the user is looking at, how long the user is looking at the object, whether the user is blinking while looking at the object, etc. This information can be used to enhance the user's interaction with a control device or computer connected to the display and/or head-worn device, or for advertising.

In Ausführungsformen, die sich auf eine am Kopf tragbare Vorrichtung mit einem Display beziehen, kann das Display der am Kopf tragbaren Vorrichtung als der Bildschirm dienen.In embodiments relating to a headwear device with a display, the display of the headwear device may serve as the screen.

Das neuronale Faltungsnetz weist typischerweise mindestens 6 Schichten und vorzugsweise mehr als 10 Schichten auf.The convolutional neural network typically has at least 6 layers and preferably more than 10 layers.

Das neuronale Faltungsnetz kann zwischen 12 und 30 Schichten, vorzugsweise zwischen 16 und 20 Schichten aufweisen.The convolutional neural network can have between 12 and 30 layers, preferably between 16 and 20 layers.

Das neuronale Faltungsnetz verwendet typischerweise einen Filterkern oder Filterkerne der Größe M, wobei M im Bereich von 1 bis 7, vorzugsweise 3 bis 5.The convolutional neural network typically uses a filter kernel or kernels of size M, where M ranges from 1 to 7, preferably 3 to 5.

Es sei angemerkt, dass Filterkerngrößen häufig als einzelne Ganzzahl M angegeben werden. Dies bedeutet, dass die Matrix des Filters tatsächlich die Größe MxMxNc aufweist, wobei Nc die Anzahl Kanäle in der entsprechenden Schicht des Netzes ist.It should be noted that filter kernel sizes are often specified as a single integer M. This means that the matrix of the filter is actually of size MxMxNc, where Nc is the number of channels in the corresponding layer of the network.

Wenn beispielsweise linke und rechte RGB-Farbbilder (3 Kanäle) als Eingabe verwendet werden, kann die erste Faltungsschicht für M=5 beispielhafte 16 Filtermatrizen oder Kerne der Größe 5x5x3 aufweisen, was zu der nächsten Schicht Daten mit 16 Kanälen führt, nämlich einem aus jeder Faltung mit einem der sechzehn 5x5x3-Filter der vorhergehenden Schicht. Wenn linke und rechte Graustufenbilder (1 Kanal) als Eingabe verwendet werden, weisen die jeweiligen Filtermatrizen oder Kerne für M=5 gleichermaßen eine Größe von 5x5(x1) auf.For example, if left and right RGB color images (3 channels) are used as input, the first convolution layer for M=5 can have exemplary 16 filter matrices or kernels of size 5x5x3, resulting in the next layer data with 16 channels, one from each Convolution with one of the sixteen 5x5x3 filters of the previous layer. Similarly, when left and right grayscale (1 channel) images are used as input, the respective filter matrices or kernels for M=5 are 5x5(x1) in size.

Es kann eine beliebige der in dieser Schrift beschriebenen am Kopf tragbaren Vorrichtungen zum Erfassen von einem oder mehreren blickbezogenen Parametern verwendet werden.Any of the head-worn devices described herein for sensing one or more gaze-related parameters may be used.

In einer Ausführungsform können sich die erste und zweite Kamera innerhalb eines Bereichs von 32 bis 40, vorzugsweise 34 bis 38, insbesondere 36 Grad in Bezug auf die Mittellinienebene der am Kopf tragbaren Vorrichtung befinden.In one embodiment, the first and second cameras may be located within a range of 32 to 40, preferably 34 to 38, more preferably 36 degrees with respect to the centerline plane of the head-worn device.

In einer anderen Ausführungsform können sich die erste und zweite Kamera innerhalb eines Bereichs von 114 bis 122, vorzugsweise 116 bis 120, vorzugsweise 118 Grad in Bezug auf die Mittellinienebene der am Kopf tragbaren Vorrichtung befinden.In another embodiment, the first and second cameras may be located within a range of 114 to 122, preferably 116 to 120, preferably 118 degrees with respect to the centerline plane of the head-worn device.

In beiden Ausführungsformen werden die typischerweise winzigen Kameras von dem Benutzer beim Tragen der Vorrichtung überhaupt nicht bemerkt.In both embodiments, the typically tiny cameras are used by the user not noticed at all when wearing the device.

Beispielsweise können die erste und zweite Kamera ein jeweiliges Volumen von weniger als etwa 40 mm3 oder gar 10 mm3 aufweisen.For example, the first and second cameras can each have a volume of less than approximately 40 mm 3 or even 10 mm 3 .

Die am Kopf tragbare Vorrichtung kann Teil eines Systems sein, das fähig ist, die Parametervorhersage von Benutzern im Laufe der Zeit zu verbessern.The head-worn device may be part of a system capable of improving users' parameter prediction over time.

Gemäß einer Ausführungsform weist ein System zum Verbessern der Vorhersage von blickbezogenen Parametern mindestens eine am Kopf anbringbare Vorrichtung, eine Verarbeitungseinheit und ein Rechensystem auf. Das Rechensystem ist mit der Verarbeitungseinheit verbindbar und dazu konfiguriert, eine erste Datenbank zu hosten und das neuronale Netz, insbesondere ein neuronales Faltungsnetz, unter Verwendung der ersten Datenbank zu trainieren. Die mindestens eine am Kopf anbringbare Vorrichtung schließt eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers ein, wenn der Benutzer die am Kopf anbringbare Vorrichtung trägt. Die Verarbeitungseinheit ist mit der ersten Kamera und der zweiten Kamera verbindbar und dazu konfiguriert, einen vorhergesagten Wert eines blickbezogenen Parameters des Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe des neuronalen Netzes zu bestimmen. Das System ist dazu konfiguriert, Datensätze zu der ersten Datenbank hinzuzufügen und Parameter des neuronalen Netzes (oder sogar ein vollständiges Modell des NN) von dem Rechensystem an die Verarbeitungseinheit zu übertragen. Die hinzugefügt Datensätze schließen ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation des blickbezogenen Parameters des Benutzers ein.According to one embodiment, a system for improving the prediction of gaze-related parameters comprises at least one head-mountable device, a processing unit, and a computing system. The computing system is connectable to the processing unit and is configured to host a first database and to train the neural network, in particular a convolutional neural network, using the first database. The at least one head-mountable device includes a first camera for generating a left image of at least a portion of a user's left eye and a second camera for generating a right image of at least a portion of a user's right eye when the user carries head attachable device. The processing unit is connectable to the first camera and the second camera and configured to determine a predicted value of a gaze-related parameter of the user using the left image and the right image as input to the neural network. The system is configured to add records to the first database and transfer neural network parameters (or even a complete model of the NN) from the computing system to the processing unit. The added data sets include a respective left image, a respective right image, and a respective representation of the user's gaze-related parameter.

Typischerweise schließt das System eine Vielzahl von am Kopf anbringbaren Vorrichtungen ein, wie in dieser Schrift erläutert.Typically, the system includes a variety of head mountable devices as discussed herein.

Entsprechend können Datensätzen von vielen Benutzern zum Aktualisieren der Datenbank und somit zum Verbessern (durch Trainieren oder Nachtrainieren unter Verwendung der Datenbank) des neuronalen Netzes beitragen, das an den Standort des Benutzers übertragene und zum Vorhersagen des bzw. der blickbezogenen Parameter verwendet wird.Accordingly, data sets from many users can contribute to updating the database and thus improving (by training or post-training using the database) the neural network transmitted to the user's location and used to predict the gaze-related parameter(s).

In einem Ausführungsbeispiel wird eine Einheit zur Bestimmung blickbezogener Parameter der jeweiligen am Kopf tragbaren Vorrichtung verwendet, um eine gegebene oder resultierende Blickrichtung des Benutzers und/oder einen gegebenen oder resultierenden Blickpunkt als den gewünschten Wert des jeweiligen blickbezogenen Parameters zu bestimmen.In one embodiment, a gaze-related parameter determination unit of the respective head-worn device is used to determine a given or resulting user gaze direction and/or viewpoint as the desired value of the respective gaze-related parameter.

Die Einheit zur Bestimmung blickbezogener Parameter kann eine Szenenkamera einschließen, die dazu angeordnet ist, ein Sichtfeld des Benutzers aufzunehmen, der die jeweilige am Kopf tragbare Vorrichtung trägt.The unit for determining gaze-related parameters may include a scene camera arranged to capture a field of view of the user wearing the respective head-mounted device.

Es sei angemerkt, dass nicht nur die Instanz, sondern die Implementierung des NN in der Trainingsphase (im Rechensystem) und der Ausführungsphase (am Standort des Benutzers) unterschiedlich sein kann.It should be noted that not only the instance, but the implementation of the NN in the training phase (in the computing system) and the execution phase (at the user's site) can be different.

Es wird nun detailliert auf verschiedene Ausführungsformen Bezug genommen, von denen ein oder mehrere Beispiele in den Figuren veranschaulicht sind. Jedes Beispiel dient der Erläuterung und soll keine Einschränkung der Erfindung darstellen. Beispielsweise können Merkmale, die als Teil einer Ausführungsform veranschaulicht oder beschrieben werden, an oder in Verbindung mit anderen Ausführungsformen verwendet werden können, um noch eine weitere Ausführungsform zu ergeben. Es ist vorgesehen, dass die vorliegende Erfindung diese Abwandlungen und Variationen einschließt. Die Beispiele sind unter Verwendung spezifischer Ausdrücke beschrieben, die nicht als den Umfang der beigefügten Ansprüche einschränkend auszulegen sind. Die Zeichnungen sind nicht maßstabsgetreu und dienen nur der Veranschaulichung. Der Deutlichkeit halber wurden, sofern nicht anders angegeben, in den verschiedenen Zeichnungen gleiche Elemente oder Herstellungsschritte mit gleichen Bezugszeichen versehen.Reference will now be made in detail to various embodiments, one or more examples of which are illustrated in the figures. Each example is provided for illustrative purposes and is not intended to limit the invention. For example, features illustrated or described as part of one embodiment can be used on or in conjunction with other embodiments to yield a still further embodiment. It is intended that the present invention includes these modifications and variations. The examples are described using specific terms that should not be construed as limiting the scope of the appended claims. The drawings are not to scale and are for illustrative purposes only. For the sake of clarity, like elements or manufacturing steps have been given like reference numerals in the different drawings, unless otherwise indicated.

Bezugnehmend auf 1A bis 1C wird eine verallgemeinerte Ausführungsform einer am Kopf tragbaren Brillenvorrichtung zum Bestimmen von einem oder mehreren blickbezogenen Parametern eines Benutzers gezeigt. Tatsächlich soll durch 1A und 1C eine Vielzahl von Ausführungsformen dargestellt werden, wobei diese Ausführungsformen sich hinsichtlich der Position der Kameras 14, 24 voneinander unterscheiden. Daher ist die Brillenvorrichtung 1 in 1A ausschließlich zum Zweck der Repräsentation der einzelnen Ausführungsformen mit mehr als einer Kamera 14, 24 pro Okularöffnung 11, 21 gezeigt. In dieser Ausführungsform jedoch umfasst die Brillenvorrichtung nicht mehr als eine jeder Okularöffnung 11, 21 zugeordnete Kamera 14, 24.Referring to 1A until 1C A generalized embodiment of a headwear eyewear device for determining one or more gaze-related parameters of a user is shown. Actually through 1A and 1C a variety of embodiments are shown, these embodiments differing from each other with respect to the position of the cameras 14,24. Therefore, the eyeglass device is 1 in 1A shown with more than one camera 14, 24 per eyepiece opening 11, 21 solely for the purpose of representing the individual embodiments. In this embodiment, however, the spectacle device comprises no more than one camera 14, 24 associated with each eyepiece opening 11, 21.

1A ist eine Draufsicht auf die Brillenvorrichtung 1, wobei die linke Seite 10 der Brillenvorrichtung 1 auf der rechten Seite des Zeichnungsblatts von 1A gezeigt ist und die rechte Seite 20 der Brillenvorrichtung 1 auf der linken Seite Zeichnungsblatts von 1A gezeigt ist. Die Brillenvorrichtung 1 weist eine mittlere Ebene 100 auf, die mit einer Mittellinienebene des Benutzers der Brillenvorrichtung 1 zusammenfällt, wenn diese gemäß der vorgesehenen Verwendung der Brillenvorrichtung 1 getragen wird. In Bezug auf die vorgesehene Verwendung der Brillenvorrichtung 1 durch den Benutzer sind eine horizontale Richtung 101, ein vertikale Richtung 102, 100, eine Richtung „aufwärts“ 104, eine Richtung „abwärts“ 103, eine Richtung zur Vorderseite 105 und eine Richtung zur Rückseite 106 definiert. 1A Fig. 12 is a plan view of the eyeglass device 1 with the left side 10 of the eyeglass device 1 on the right side of the drawing sheet from 1A is shown and the right side 20 of the eyeglass device 1 on the left side of the drawing sheet of FIG 1A is shown. The eyeglass device 1 has a median plane 100 which coincides with a median plane of the user of the eyeglass device 1 when worn according to the intended use of the eyeglass device 1 . In relation to the intended use of the eyeglass device 1 by the user are a horizontal direction 101, a vertical direction 102, 100, an “up” direction 104, a “down” direction 103, a front direction 105 and a back direction 106 Are defined.

Die Brillenvorrichtung 1 wie in 1A, 1B, und 1C dargestellt umfasst einen Brillenkörper 2, der einen Rahmen 4, einen linken Halter 13 und einen rechten Halter 23 aufweist. Darüber hinaus begrenzt der Brillenkörper 2 eine linke Okularöffnung 11 und eine rechte Okularöffnung 21, die dazu dienen, ein optisches Fenster für den Benutzer zum Hindurchschauen bereitzustellen, ähnlich wie ein Rahmen oder ein Körper einer normalen Brille. Ein Nasenbrückenabschnitt 3 des Brillenkörpers 2 ist zwischen den Okularöffnungen 11, 21 angeordnet. Mithilfe des linken und des rechten Halters 13, 23 und von Trägerelementen des Nasenbrückenabschnitts 3 kann die Brillenvorrichtung 1 durch die Ohren und die Nase des Benutzers getragen werden.The eyeglass device 1 as in 1A , 1B , and 1C shown comprises a spectacle body 2 which has a frame 4 , a left holder 13 and a right holder 23 . In addition, the eyeglass body 2 defines a left eyepiece opening 11 and a right eyepiece opening 21 which serve to provide an optical window for the user to look through, similar to a frame or body of ordinary eyeglasses. A nose bridge portion 3 of the eyeglass body 2 is located between the eyepiece openings 11,21. With the help of the left and right holders 13, 23 and support members of the nose bridge portion 3, the eyeglass device 1 can be worn through the ears and nose of the user.

Gemäß den durch 1A dargestellten Ausführungsformen können eine linke Kamera 14 und eine rechte Kamera 24 im Brillenkörper 2 angeordnet sein. Im Allgemeinen ist der Nasenbrückenabschnitt 3 oder ein seitlicher Abschnitt 12 und/oder 22 des Brillenkörpers 2 ein bevorzugter Ort zum Anordnen/Integrieren einer Kamera 14, 24, insbesondere einer Mikrokamera.According to the through 1A In the embodiments shown, a left camera 14 and a right camera 24 can be arranged in the spectacle body 2 . In general, the nose bridge portion 3 or a lateral portion 12 and/or 22 of the goggle body 2 is a preferred location for arranging/integrating a camera 14, 24, particularly a micro camera.

Die spezifische Position der jeweiligen Kamera 14, 24 kann durch Definieren eines Winkels einer optischen Achse 15, 25 der jeweiligen Kamera 14, 24 in Bezug auf die mittlere Ebene 100 bereitgestellt werden.The specific position of the respective camera 14, 24 can be provided by defining an angle of an optical axis 15, 25 of the respective camera 14, 24 with respect to the median plane 100.

Wenn eine Kamera 14 oder 24 im Nasenbrückenabschnitt 3 des Brillenkörpers 2 angeordnet ist, ist die optische Achse 15 der linken Kamera 14 mit einem Winkel a von 142° bis 150°, bevorzugt 144°, gemessen entgegen dem Uhrzeigersinn, (oder -30° bis -38°, bevorzugt -36°) in Bezug auf die mittlere Ebene 100 geneigt. Entsprechend weist die optische Achse 25 der rechten Kamera 24 einen Neigungswinkel β von 30° bis 38°, bevorzugt 36°, in Bezug auf die mittlere Ebene 100 auf.If a camera 14 or 24 is arranged in the nose bridge section 3 of the spectacle body 2, the optical axis 15 of the left camera 14 is at an angle a of 142° to 150°, preferably 144°, measured counterclockwise (or -30° to -38°, preferably -36°) with respect to the median plane 100. Correspondingly, the optical axis 25 of the right camera 24 has an angle of inclination β of 30° to 38°, preferably 36°, in relation to the middle plane 100 .

Wenn eine Position einer Kamera 14, 24 in einem der seitlichen Abschnitte 12, 22 des Brillenkörpers 2 befindet, weist die optische Achse 15 der linken Kamera 14 einen Winkel γ von 55° bis 70°, bevorzugt 62°, in Bezug auf die mittlere Ebene auf, und/oder die optische Achse 25 der rechten Kamera 24 ist um einen Winkel δ von 125° bis 110° (oder -55° bis -70°), bevorzugt 118° (oder -62°), geneigt.When a position of a camera 14, 24 is in one of the side portions 12, 22 of the eyeglass body 2, the optical axis 15 of the left camera 14 has an angle γ of 55° to 70°, preferably 62°, with respect to the median plane and/or the optical axis 25 of the right camera 24 is inclined by an angle δ of 125° to 110° (or -55° to -70°), preferably 118° (or -62°).

Die Brillenvorrichtung 1 aus 1A steht für verschiedene Ausführungsformen, die unterschiedliche Positionen der Kameras 12, 24 aufweisen, beispielsweise dass beide Kameras 14, 24 sich im Nasenbrückenabschnitt 3 befinden, die linke Kamera 14 im linken seitlichen Abschnitt 12 und die rechte Kamera 24 im rechten seitlichen Abschnitt 22 angeordnet ist, oder dass die linke/rechte Kamera 14/24 im Nasenbrückenabschnitt 3 angeordnet ist und die rechte/linke Kamera 24/14 im rechten/linken seitlichen Abschnitt 22/12 angeordnet ist.The glasses device 1 off 1A represents various embodiments that have different positions of the cameras 12, 24, for example that both cameras 14, 24 are located in the nose bridge section 3, the left camera 14 is located in the left lateral section 12 and the right camera 24 is arranged in the right lateral section 22, or that the left/right cameras 14/24 are arranged in the nose bridge section 3 and the right/left cameras 24/14 are arranged in the right/left side sections 22/12.

Zum Bereitstellen einer zusätzlichen oder alternativen Vorgabe für eine Position einer Kamera 14, 24 im Brillenkörper 2 sind spezifische Kameraanordnungszonen 17, 18, 27, 28 definiert, wobei eine verwandte technische Lehre damit übereinstimmt, dass die obere Vorgabe die Winkel a, β, γ, δ der optischen Achse 15, 25 verwendet. Diese Kameraanordnungszonen 17, 27, 18, 28 sind virtuelle Bereiche, die in einer vertikalen Ebene senkrecht zur mittleren Ebene 100 projiziert werden.In order to provide an additional or alternative specification for a position of a camera 14, 24 in the eyeglass body 2, specific camera arrangement zones 17, 18, 27, 28 are defined, a related technical teaching agreeing that the upper specification is the angles α, β, γ, δ of the optical axis 15, 25 is used. These camera array zones 17, 27, 18, 28 are virtual areas projected in a vertical plane perpendicular to the median plane 100. FIG.

Darüber hinaus kann ein Begrenzungsquader 30 - insbesondere ein rechteckiger Quader - durch die optischen Öffnungen 11, 21 definiert sein, die als vier Vorgabepositionen der Kameraanordnungszonen 17, 27, 18, 28 dienen. Wie in 1A, 1B, und 1C gezeigt, schließt der Begrenzungsquader 30, dargestellt durch eine gestrichelte Linie, ein Volume beider Okularöffnungen 11, 21 ein und berührt die linke Okularöffnung 11 mit einer linken Seitenfläche 31 von der linken Seite 10, die rechte Okularöffnung 21 mit einer rechten Seitenfläche 32 von der rechten Seite 20, mindestens eine der Okularöffnungen 11, 21 mit einer oberen Fläche 33 von oben und von unten mit einer unteren Fläche 34.In addition, a boundary cuboid 30 - in particular a rectangular cuboid - be defined by the optical openings 11, 21, which serve as four default positions of the camera arrangement zones 17, 27, 18, 28. As in 1A , 1B , and 1C shown, the bounding cuboid 30, represented by a dashed line, encloses a volume of both eyepiece openings 11, 21 and touches the left eyepiece opening 11 with a left side surface 31 from the left side 10, the right eyepiece opening 21 with a right side surface 32 from the right Side 20, at least one of the eyepiece openings 11, 21 with an upper surface 33 from above and a lower surface 34 from below.

Für den Fall, dass eine linke/rechte Kamera 14, 24 im Nasenbrückenabschnitt 3 angeordnet ist, ist eine projizierte Position der linken Kamera 14 in einer linken inneren Augenkameraanordnungszone 17 festgelegt und die rechte Kamera 24 ist in der rechten inneren Augenkameraanordnungszone 27 (wird in diese projiziert).In case a left/right camera 14, 24 is arranged in the nose bridge portion 3, a projected position of the left camera 14 is fixed in a left inner eye camera arrangement zone 17 and the right camera 24 is in the right inner eye camera arrangement zone 27 (will be translated into this projected).

Wenn sie sich im linken/rechten seitlichen Abschnitt 12, 22 befindet, ist die linke Kamera 14 bei Projektion in die Ebene der Kameraanordnungszonen in der linken äußeren Augenkameraanordnungszone 18 angeordnet, und die rechte Kamera 24 ist in der rechten äußeren Augenkameraanordnungszone 28 angeordnet.When located in the left/right lateral section 12, 22, the left camera 14 is located in the left outer eye camera array zone 18 and the right camera 24 is located in the right outer eye camera array zone 28 when projected in the plane of the camera array zones.

Mithilfe der Vorderansicht an der Brillenvorrichtung 1, die in 1B gezeigt ist, werden die Positionen der Augenkameraanordnungszonen 17, 18, 27, 28 erläutert. In 1B stellen rechteckige Quadrate die Augenkameraanordnungszonen 17, 18, 27, 28 in einer vertikalen Ebene senkrecht zur mittleren Ebene 100 dar. Die beiden inneren Augenkameraanordnungszonen 17, 27 beginnen in einer Entfernung von 2 mm von der mittleren Ebene 100 bis zu einer Entfernung von 14 mm in horizontaler Richtung 101 in die linke/rechte Richtung.Using the front view on the eyeglass device 1 shown in 1B 1, the positions of the eye camera array zones 17, 18, 27, 28 will be explained. In 1B rectangular squares represent the eye camera assembly zones 17, 18, 27, 28 in a vertical plane perpendicular to the median plane 100. The two inner eye camera assembly zones 17, 27 start at a distance of 2 mm from the median plane 100 to a distance of 14 mm in horizontal direction 101 in the left/right direction.

In einer vertikalen Richtung 102 dehnen sich die inneren Augenkameraanordnungszonen 17, 27 über 22 mm aus, beginnend in einer Entfernung von 9 mm von der oberen Fläche 33 bis herab auf eine Entfernung von 31 mm. Somit weisen die inneren Augenkameraanordnungszonen 17, 27 eine Größe von 12 mm in horizontaler Richtung 101 und von 22 mm in vertikaler Richtung 102 auf.In a vertical direction 102, the inner eye camera assembly zones 17, 27 extend over 22 mm, starting at a distance of 9 mm from the upper surface 33 and down to a distance of 31 mm. Thus, the inner eye camera array zones 17, 27 have a size of 12 mm in the horizontal direction 101 and 22 mm in the vertical direction 102.

Die linke und rechte äußere Augenkameraanordnungszone 18, 28 referenzieren die jeweilige linke und rechte Seitenfläche 31, 32 des Begrenzungsquaders 30. Auf diese Weise beginnt die jeweilige äußere Augenkameraanordnungszone 18, 28 aus einer Entfernung von 5 mm von der jeweiligen Seitenfläche 31, 32 in Richtung der mittleren Ebene 100 und erstreckt sich bis zu einer Entfernung von 6 mm von der jeweiligen Seitenfläche 31, 32 in die entgegengesetzte Richtung weg von der mittleren Ebene 100. Daher schneidet die jeweilige Seitenfläche 31, 32 die jeweilige äußere Augenkameraanordnungszone 18, 28.The left and right outer eye camera arrangement zones 18, 28 reference the respective left and right side surfaces 31, 32 of the bounding box 30. In this way, the respective outer eye camera arrangement zones 18, 28 start from a distance of 5 mm from the respective side surface 31, 32 in the direction of the middle plane 100 and extends to a distance of 6 mm from the respective side surface 31, 32 in the opposite direction away from the middle plane 100. Therefore, the respective side surface 31, 32 intersects the respective outer eye camera assembly zone 18, 28.

Die Größe der äußere Augenkameraanordnungszonen 18, 28 in vertikaler Richtung beträgt vorzugsweise 28 mm bis 30 mm.The size of the outer eye camera array zones 18, 28 in the vertical direction is preferably 28mm to 30mm.

Als eine bevorzugte Option haben alle Ausführungsformen der Brillenvorrichtung 1 wie in 1A bis 1C dargestellt die Gemeinsamkeit auf, dass nicht mehr als eine Kamera 14/24 einer der optischen Öffnungen 11, 21 zugeordnet ist; somit umfasst die Brillenvorrichtung 1 nur zwei Kameras 14, 24 zum Aufnehmen eines Bildes eines linken und eines rechten Augapfels 19, 29.As a preferred option, all embodiments of the spectacle device 1 as in 1A until 1C shown the commonality that no more than one camera 14/24 is assigned to one of the optical openings 11, 21; thus the spectacle device 1 comprises only two cameras 14, 24 for recording an image of a left and a right eyeball 19, 29.

Die Brillenvorrichtung 100 wie in 1A umfasst eine Verarbeitungseinheit 7, die zum Verarbeiten des linken und des rechten Bildes von der jeweiligen Kamera 14, 24 konfiguriert ist, um den blickbezogenen Parameter unter Verwendung mindestens eines neuronalen Faltungsnetzes zu bestimmen. Gemäß den vorliegenden Ausführungsformen ist die Verarbeitungseinheit 7 auf nicht sichtbare Weise im Halter integriert, beispielsweise innerhalb des rechten Halters 23 oder des linken Halters 13 der Brillenvorrichtung 1. Gemäß einer nicht gezeigten Ausführungsform kann eine Verarbeitungseinheit im linken Halter angeordnet sein.The spectacle device 100 as in FIG 1A comprises a processing unit 7 configured to process the left and right images from the respective camera 14, 24 to determine the gaze-related parameter using at least one convolutional neural network. According to the present embodiments, the processing unit 7 is integrated in the holder in a non-visible way, for example inside the right holder 23 or the left holder 13 of the spectacle device 1. According to an embodiment not shown, a processing unit can be arranged in the left holder.

Bezugnehmend auf 2A werden Ausführungsformen eines Verfahrens 1000 zum Erstellen und Aktualisieren einer Datenbank erläutert. Die Datenbank wird typischerweise zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes, verwendet. Dies wird im Folgenden bezüglich 3A ausführlicher erläutert.Referring to 2A embodiments of a method 1000 for creating and updating a database are explained. The database is typically used to train a neural network, in particular a convolutional neural network. This will be referred to below 3A explained in more detail.

In einem ersten Block 1100 wird einem Benutzer, der eine am Kopf tragbare Vorrichtung trägt, ein erster Stimulus S präsentiert. Die am Kopf tragbare Vorrichtung kann eine beliebige der in dieser Schrift beschriebenen am Kopf tragbaren Vorrichtungen sein. Sie kann als eine Brillenvorrichtung umgesetzt sein, z. B. eine Brille, eine Korbbrille, ein am Kopf tragbares AR-Display und ein am Kopf tragbares VR-Display. Die am Kopf tragbare Vorrichtung weist eine erste Kamera, die neben einem linken Auge des Benutzers angeordnet ist, und eine zweite Kamera auf, die neben einem rechten Auge des Benutzers angeordnet ist, wenn der erste Benutzer die am Kopf tragbare Vorrichtung trägt.In a first block 1100, a first stimulus S is presented to a user wearing a head-worn device. The headwear device may be any of the headwear devices described herein. It can be implemented as an eyeglass device, e.g. B. goggles, goggles, a head wearable AR display and a head wearable VR display. The headwear device has a first camera that is placed near a left eye of the user and a second camera that is placed near a right eye of the user when the first user wears the headwear device.

Die Datenbank kann verwendet werden, um das neuronale Netz zu trainieren, um aus einem Paar aus einem linken Bild, das durch die erste Kamera erzeugt wird, und einem rechten Bild, das durch die zweite Kamera erzeugt wird, als Eingabe des neuronalen Netzes einen blickbezogenen Parameter des Benutzers vorherzusagen, insbesondere eine Augenblickrichtung des Benutzers und/oder einen Augenblickpunkt des Benutzers, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt.The database can be used to train the neural network to generate a gaze-related image from a pair of a left image generated by the first camera and a right image generated by the second camera as input to the neural network predict parameters of the user, in particular an instantaneous direction of the user and/or an instantaneous point of the user when the user wears the head-worn device.

Entsprechend kann die Datenbank eine Vielzahl von Datensätzen einschließen, die Paare aus linken und rechten Bildern und einen oder mehrere entsprechende Werte von blickbezogenen Parametern einschließen, die als jeweilige tatsächliche Werte oder Ground-Truth-Werte gelten.Accordingly, the database may include a plurality of data sets that include pairs of left and right images and one or more corresponding values of gaze-related parameters that are considered respective actual values or ground truth values.

Die Datenbank kann benutzerspezifisch sein.The database can be user specific.

Typischer schließt die Datenbank Datensätzen einer Vielzahl von Benutzern ein, d. h. eines ersten Benutzers, eines zweiten Benutzers, eines dritten Benutzers, eines vierten Benutzers und so weiter und so fort. Der Deutlichkeit halber erfolgt die nachfolgende Beschreibung hauptsächlich anhand eines beispielhaften Benutzers oder ersten Benutzers.More typically, the database includes records from a variety of users, i. H. a first user, a second user, a third user, a fourth user, and so on and so forth. For the sake of clarity, the following description is primarily based on an example user or first user.

Das Verwenden von Datensätzen einer Vielzahl von Benutzern zum Trainieren der neuronalen Netze kann das Einlernen (Verallgemeinern) unterstützen und somit die Genauigkeit und/oder Zuverlässigkeit der Vorhersagen des NN verbessern.Using datasets from a variety of users to train the neural networks can aid in training (generalizing) and thus improve the accuracy and/or reliability of the NN's predictions.

Ebenso schließt die Datenbank typischerweise Datensätze ein, die unter Verwendung mehrerer am Kopf tragbarer Vorrichtungen erlangt werden, die typischerweise von derselben Art sind. Mindestens die Positionen und Ausrichtungen der linken und rechten Kamera der am Kopf tragbaren Vorrichtungen sind typischerweise mindestens im Wesentlichen gleich. Alternativ sind die Positionen und Ausrichtungen der linken und rechten Kamera der am Kopf tragbaren Vorrichtungen auch in den Datensätzen gespeichert (codiert) und werden als Eingaben zum Trainieren des neuronalen Netzes verwendet.Also, the database typically includes records obtained using multiple head-worn devices, typically of the same type. At least the positions and orientations of the left and right cameras of the head-worn devices are typically at least substantially the same. Alternatively, the positions and orientations of the left and right cameras of the head-worn devices are also stored (encoded) in the datasets and used as inputs to train the neural network.

In einem nachfolgenden Block 1200 zeichnen die erste und zweite Kamera der am Kopf tragbaren Vorrichtung ein jeweiliges Bild Pl, Pr, typischerweise ein jeweiliges Foto, des linken und rechten Auges des Benutzers auf, wenn erwartet wird, dass der Benutzer auf den ersten Stimulus reagiert, oder erwartet wird, dass er auf den ersten Stimulus reagiert hat. Das Bild Pi, Pr kann auch aus einem jeweiligen Video-Stream oder einer Bildfolge ausgewählt werden, der bzw. die unter Verwendung der ersten und zweiten Kamera aufgezeichnet wurde.In a subsequent block 1200, the first and second cameras of the head-worn device record a respective image P l , P r , typically a respective photograph, of the user's left and right eyes when the user is expected to respond to the first stimulus responds or is expected to have responded to the first stimulus. The image Pi, P r can also be selected from a respective video stream or sequence of images recorded using the first and second cameras.

In einem nachfolgenden Block 1500 wird ein Datensatz, der aus dem linken Bild Pi, dem rechten Bild Pr und einer Repräsentation eines (gewünschten) blickbezogenen Parameters besteht oder diese einschließt, in der Datenbank abgelegt (gespeichert). Die Repräsentation des blickbezogenen Parameters kann ein gegebener oder bestimmter jeweiliger (Ground-Truth-) Wert des blickbezogenen Parameters sein, aber auch eine beliebige andere Repräsentation wie etwa ein entsprechendes Bild einer Szenenkamera, das mit dem ersten Stimulus korreliert und zum Bestimmen des (Ground-Truth-) Werts des blickbezogenen Parameters geeignet ist.In a subsequent block 1500, a data set consisting of or including the left image Pi, the right image P r and a representation of a (desired) gaze-related parameter is filed (stored) in the database. The representation of the gaze-related parameter can be a given or specified respective (ground truth) value of the gaze-related parameter, but also any other representation such as a corresponding scene camera image that correlates with the first stimulus and is used to determine the (ground-truth) truth) value of the gaze related parameter is appropriate.

In einer Ausführungsform wird der Benutzer, der die am Kopf tragbare Vorrichtung trägt, in Block 1100 durch einen akustischen Stimulus, einen visuellen Stimulus oder eine Kombination oder Folge von akustischen und visuellen Stimuli aufgefordert, auf ein gegebenes Objekt in seinem Sichtfeld zu schauen (zu blicken). Das gegebene Objekt kann ein reales Objekt im Sichtfeld des Benutzers wie etwa eine Fingerspitze des Benutzers, ein Objekt im Raum oder ein Objekt sein, das auf einem Bildschirm der am Kopf tragbaren Vorrichtung angezeigt wird.In one embodiment, the user wearing the head-worn device is prompted at block 1100 by an auditory stimulus, a visual stimulus, or a combination or sequence of auditory and visual stimuli to look (gaze) at a given object in their field of view ). The given object may be a real object in the user's field of view, such as a user's fingertip, an object in space, or an object displayed on a screen of the head-worn device.

Die Größe des gegebenen Objekts sollte ausreichend klein und gut definiert sein, um ein eindeutiges Blickziel bereitzustellen.The size of the given object should be sufficiently small and well defined to provide an unambiguous gaze target.

Entsprechend sind die Koordinaten und die Richtung des gegebenen Objekts in einem Koordinatensystem, das in Bezug auf die am Kopf tragbare Vorrichtung und damit den Kopf des Benutzers festgelegt ist, ausreichend gut definiert, um als tatsächliche (oder Ground-Truth-) Werte jeweils des Blickpunkts und der Blickrichtung des Benutzers gelten zu können, der die am Kopf tragbare Vorrichtung trägt.Accordingly, the coordinates and direction of the given object are sufficiently well-defined in a coordinate system established with respect to the head-worn device, and hence the user's head, to represent actual (or ground-truth) values of each viewpoint and the line of sight of the user wearing the head-worn device.

Kooperatives Verhalten des Benutzers kann vorausgesetzt werden, da der Benutzer ein Interesse daran hat, die Genauigkeit und Zuverlässigkeit der Vorhersagen des trainierten NN zu verbessern, d. h. eines NN, das unter Verwendung der Datensätze in der Datenbank trainiert wurde und daher von ihrer Qualität abhängig ist.Cooperative behavior of the user can be assumed, since the user has an interest in improving the accuracy and reliability of the predictions of the trained NN, i. H. a NN that was trained using the records in the database and is therefore dependent on their quality.

In einer Ausführungsform wird in Block 1500 mehr als ein blickbezogener Parameter, beispielsweise zwei oder drei blickbezogene Parameter, mit dem Datensatz zu der Datenbank hinzugefügt.In one embodiment, in block 1500, more than one gaze-related parameter, such as two or three gaze-related parameters, is added with the dataset to the database.

Anstelle von tatsächlichen Werten oder anderen Repräsentationen einer zyklopischen Blickrichtung oder zusätzlich dazu können in Block 1500 beispielsweise Werte oder andere Repräsentationen jeweiliger Blickrichtungen von einem oder beiden Augen, der Ausrichtung der Pupillenachse von einem oder beiden Augen, eines 3D-Blickpunkts oder eines 2D-Blickpunkts mit dem Datensatz zu der Datenbank hinzugefügt werden.Instead of or in addition to actual values or other representations of a cyclopean gaze direction, in block 1500, for example, values or other representations of respective gaze directions from one or both eyes, the orientation of the pupil axis of one or both eyes, a 3D viewpoint or a 2D viewpoint with added to the record in the database.

Wie durch den linken und rechten gestrichelten Pfeil in 2A angegeben, kann das Verfahren 1000 dann zu Block 1100 zurückkehren, um einen weiteren Stimulus oder auch erneut denselben Stimulus zu präsentieren. Es sei angemerkt, dass in Block 1500 mehrere Datensätze hinzugefügt werden können.As indicated by the left and right dashed arrows in 2A indicated, the method 1000 may then return to block 1100 to present another stimulus or the same stimulus again. It should be noted that in block 1500 multiple records may be added.

Das Präsentieren desselben Stimulus kann aus statistischen Gründen nützlich sein, um Datensätzen unter unterschiedlichen Bedingungen zu erlangen, beispielsweise für einen ausgeruhten und einen müden Benutzer, oder zu unterschiedlichen Uhrzeiten und/oder bei unterschiedlichen Lichtverhältnissen.Presenting the same stimulus may be useful for statistical reasons, to obtain datasets under different conditions, for example for a rested and a tired user, or at different times and/or in different lighting conditions.

Darüber hinaus muss der Stimulus mit dem resultierenden Wert des bzw. der blickbezogenen Parameter nicht eins zu eins in Beziehung stehen.In addition, the stimulus need not correlate one-to-one with the resulting value of the gaze-related parameter(s).

Beispielsweise kann der Benutzer den Finger in Bezug auf das vorrichtungsdefinierte Koordinatensystem in unterschiedlichen Positionen halten, wenn er aufgefordert wird, auf eine Spitze eines seiner in sein Sichtfeld gehaltenen Finger zu blicken. Obwohl die Fingerspitze unter anderem eine jeweilige resultierende Blickrichtung relativ zu dem Koordinatensystem definiert, das in Bezug auf die am Kopf tragbare Vorrichtung festgelegt ist, kann der tatsächliche Wert der resultierenden Blickrichtung zum Speichern in der Datenbank noch bestimmt werden müssen. In diesen Ausführungsformen kann eine Einheit zur Bestimmung blickbezogener Parameter, beispielsweise eine Einheit zur Bestimmung blickbezogener Parameter, die eine Szenenkamera einschließt, die dazu angeordnet ist, das gegebene Objekt im Sichtfeld des Benutzers aufzunehmen, typischerweise eine Szenenkamera der am Kopf tragbaren Vorrichtung, verwendet werden, um einen tatsächlichen Wert des blickbezogenen Parameters, beispielsweise eine resultierende Blickrichtung und/oder den jeweiligen resultierenden Blickpunkt des Benutzers, zu bestimmen.For example, the user may hold the finger in different positions with respect to the device-defined coordinate system when prompted to look at a tip of one of their fingers held in their field of view. Although the fingertip, among other things, defines a respective resultant gaze direction relative to the coordinate system established with respect to the headwear device, the actual value of the resultant gaze direction may have yet to be determined for storage in the database. In these embodiments, a unit for Gaze related parameter determination, for example a gaze related parameter determination unit including a scene camera arranged to capture the given object in the user's field of view, typically a scene camera of the head wearable device, are used to determine an actual value of the gaze related parameter , for example to determine a resulting line of sight and/or the respective resulting point of view of the user.

Auf Grundlage des bzw. der Bilder der Szenenkamera können der bzw. die tatsächlichen Werte des blickbezogenen Parameters unter Verwendung bekannter Techniken für maschinelles Lernen, Computervision oder Bilderkennung bestimmt werden. Dies kann lokal erfolgen, d. h. unter Verwendung von einem oder mehreren Prozessoren einer Verarbeitungseinheit der am Kopf tragbaren Vorrichtung oder eines typischerweise leistungsstärkeren lokalen Computers, der mit der am Kopf tragbaren Vorrichtung verbunden ist, oder unter Verwendung von einem oder mehreren Prozessoren eines typischerweise noch leistungsstärkeren Rechensystems, das auch die Datenbank hostet. Im letzteren Fall können der bzw. die Datensätze das bzw. die Bilder der Szenenkamera als Repräsentationen des bzw. der blickbezogenen Parameter einschließen.Based on the scene camera image(s), the actual value(s) of the gaze-related parameter(s) may be determined using known machine learning, computer vision, or image recognition techniques. This can be done locally, i. H. using one or more processors of a processing unit of the head-worn device or a typically more powerful local computer connected to the head-worn device, or using one or more processors of a typically even more powerful computing system that also hosts the database . In the latter case, the dataset(s) may include the scene camera image(s) as representations of the gaze-related parameter(s).

Der Deutlichkeit halber konzentriert sich die nachfolgende Beschreibung auf die (2D- oder 3D-) Blickrichtung und den (2D- oder 3D-) Blickpunkt (bestimmt in dem Koordinatensystem, das in Bezug auf die am Kopf tragbare Vorrichtung festgelegt ist) als die blickbezogenen Parameter. Dies ist jedoch nicht als einschränkend aufzufassen. Der Fachmann versteht, dass andere blickbezogene Parameter ebenso behandelt werden können. Beispielsweise kann das System verwendet werden, um eine kognitive Beanspruchung zu beurteilen. Relative Veränderungen des Pupillendurchmessers, die sich in den aufgezeichneten Bildern widerspiegeln, können mit einer Art von Maß für kognitive Beanspruchung in Verbindung gebracht werden. Die kognitive Beanspruchung selbst kann mittels einer zusätzlichen Vorrichtung, wie etwa einem EEG, bestimmt werden, das als das Label (Ground Truth) dient. Der Datensatz besteht dann aus den jeweiligen Bildern und dem Maß für kognitive Beanspruchung.For the sake of clarity, the following description focuses on the (2D or 3D) gaze direction and the (2D or 3D) gaze point (determined in the coordinate system fixed with respect to the head-worn device) as the gaze-related parameters . However, this is not to be construed as limiting. Those skilled in the art will understand that other gaze related parameters can be treated as well. For example, the system can be used to assess cognitive load. Relative changes in pupil diameter reflected in the recorded images may be associated with some sort of measure of cognitive stress. The cognitive load itself can be determined by means of an additional device, such as an EEG, which serves as the label (ground truth). The dataset then consists of the respective images and the measure of cognitive load.

Das Verwenden einer Erkennungs- oder Bestimmungseinheit für blickbezogene Parameter der am Kopf tragbaren Vorrichtung zum Bestimmen des tatsächlichen Werts g des blickbezogenen Parameters wird durch einen Block 1300 in 2B dargestellt, die ein Verfahren 1001 veranschaulicht, das mit Ausnahme von Block 1300 typischerweise gleichartig wie das Verfahren 1000 ist.Using a gaze-related parameter recognition or determination unit of the head-worn device to determine the actual value g of the gaze-related parameter is indicated by a block 1300 in FIG 2 B 10 is shown illustrating a method 1001 that is typically similar to method 1000 except for block 1300. FIG.

In Ausführungsformen, in denen ein Bildschirm der am Kopf tragbaren Vorrichtung zum Anzeigen von Objekten als Stimuli für den Benutzer verwendet wird, sind der bzw. die tatsächlichen Werte g des blickbezogenen Parameters typischerweise bekannt oder gegebenen.In embodiments where a screen of the wearable device is used to display objects as stimuli to the user, the actual value(s) g of the gaze-related parameter is typically known or given.

Beispielsweise kann der Blickpunkt und/oder die Blickrichtung des Objekts für eine gegebene am Kopf tragbare Vorrichtung aus den Koordinaten des Objekts auf dem Bildschirm berechnet werden. Alternativ kann der Blickpunkt und/oder die Blickrichtung in den Koordinaten des Koordinatensystems, das jeweils in Bezug auf die am Kopf tragbare Vorrichtung und den Bildschirm festgelegt ist, gegeben sein, und die gewünschten (2D-) Koordinaten des angezeigten Objekt auf dem Bildschirm können berechnet werden, bevor das Objekt auf dem Bildschirm angezeigt wird.For example, for a given head-worn device, the object's viewpoint and/or line of sight can be calculated from the on-screen coordinates of the object. Alternatively, the viewpoint and/or line of sight can be given in the coordinates of the coordinate system established with respect to the head-worn device and the screen, respectively, and the desired (2D) coordinates of the displayed object on the screen can be calculated before the object appears on the screen.

In Bezug auf 2C wird eine Ausführungsform von Block 1500, der in den Verfahren 1000 und 1001 verwendet wird, ausführlicher erläutert.In relation to 2C An embodiment of block 1500 used in methods 1000 and 1001 is discussed in more detail.

In einem ersten Unterblock 1510 wird eine Datenverbindung zwischen der am Kopf tragbaren Vorrichtung und der Datenbank hergestellt.In a first sub-block 1510, a data connection is established between the head-worn device and the database.

Anschließend oder vor Block 1510 werden in einem Unterblock 1520 ein oder mehrere Datensätze {Pl, Pr, {g}} erzeugt. Jeder Datensatz kann ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation von einem oder mehreren blickbezogenen Parametern {g} aufweisen und mit einem jeweiligen Stimulus S korreliert sein.Subsequent to or prior to block 1510, in a sub-block 1520, one or more data sets {P l , P r , {g}} are created. Each data set can have a respective left image, a respective right image and a respective representation of one or more gaze-related parameters {g} and be correlated with a respective stimulus S .

Im nachfolgenden Unterblock 1550 werden der eine oder die mehreren Datensätze {Pl, Pr, {g} } zu der Datenbank hinzugefügt.In subsequent sub-block 1550, the one or more records {P l , P r , {g} } are added to the database.

Die Datensätze können die Paare aus linken und rechten Bildern als ein jeweiliges verkettetes Bild einschließen. Verkettete Bilder können an eine 2-dimensionale Eingabeschicht des NN präsentiert werden. Entsprechend können die Paare aus linken und rechten Bildern typischerweise in Block 1520 verkettet werden.The data sets may include the left and right image pairs as a respective concatenated image. Concatenated images can be presented to a 2-dimensional input layer of the NN. Accordingly, typically in block 1520, the pairs of left and right images may be concatenated.

Anders als das Szenenbild bzw. die Szenenbilder kann die Auflösung der linken und rechten Bilder typischerweise vergleichsweise gering sein. Die Pixelanzahl der linken Bilder und der typischerweise ebenso großen rechten Bilder kann höchstens 10000, insbesondere höchstens 5000 und genauer höchstens 2500 betragen.Unlike the scene image or images, the resolution of the left and right images can typically be comparatively low. The number of pixels of the left images and the typically equally large right images can be at most 10000, in particular at most 5000 and more precisely at most 2500.

Auch bei linken und rechten Graustufenbildern mit geringer Auflösung von 64 mal 64 Pixeln, 50 mal 50 Pixeln oder gar nur 32 mal 32 Pixeln oder nur 24 mal 24 Pixeln kann unter Verwendung trainierter NNs eine überraschend hohe Genauigkeit (beispielsweise mit einem mittleren Winkelvorhersagefehler von weniger als 2°) und Zuverlässigkeit der Blickrichtungs-/Blickpunktvorhersage erzielt werden.Even with left and right grayscale images with a low resolution of 64 by 64 pixels, 50 by 50 pixels or even only 32 by 32 pixels or only 24 by 24 pixels, training can be performed using ter NNs a surprisingly high accuracy (e.g. with a mean angle prediction error of less than 2°) and reliability of the gaze direction/viewpoint prediction can be achieved.

In Bezug auf 3A wird ein Verfahren 2000 zum Trainieren eines neuronalen Netzes erläutert.In relation to 3A a method 2000 for training a neural network is explained.

In Block 2100 wird eine Datenbank DB bereitgestellt, die wie oben in Bezug auf 2A bis 2C erstellt und/oder aktualisiert wird. Die Datenbank DB weist eine Vielzahl von Datensätzen auf, die jeweils ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige entsprechende Repräsentation eines blickbezogenen Parameters, z. B. einen jeweiligen entsprechenden Wert des blickbezogenen Parameters, aufweisen.In block 2100, a database DB is provided, which is as above in relation to 2A until 2C created and/or updated. The database DB has a large number of data sets, each of which contains a respective left image, a respective right image and a respective corresponding representation of a gaze-related parameter, e.g. B. a respective corresponding value of the gaze-related parameter.

Ferner wird in einem Block 220 ein neuronales Netz NNW mit einer gegebenen Netzarchitektur bereitgestellt. Das bereitgestellte neuronale Netz NNW ist typischerweise ein neuronales Faltungsnetzwerk (CNN).Furthermore, in a block 220, a neural network NNW is provided with a given network architecture. The neural network NNW provided is typically a convolutional neural network (CNN).

Das bereitgestellte neuronale Netz NNW kann ein zuvor trainiertes NN sein.The provided neural network NNW can be a previously trained NN.

Alternativ können die Parameter (Gewichtungen) des bereitgestellten neuronalen Netzes NNW mit zufälligen Werten initialisiert worden sein.Alternatively, the parameters (weights) of the provided neural network NNW may have been initialized with random values.

In Block 2300 werden Parameter des neuronalen Netzes unter Verwendung des jeweiligen linken Bildes und des jeweiligen rechten Bildes eines Teilsatzes oder aller Datensätze als Eingabe und der jeweiligen entsprechenden Repräsentationen der blickbezogenen Parameter des Teilsatzes oder aller Datensätze als gewünschte Ausgabe des neuronalen Netzes geändert.In block 2300, neural network parameters are modified using the respective left image and right image of a subset or all data sets as input and the respective corresponding gaze-related parameter representations of the subset or all data sets as the desired neural network output.

Block 2300 kann viele Lernzyklen einschließen, die jeweils einen oder mehreren Datensätzen der Datenbank DB verwenden.Block 2300 may include multiple learning cycles, each using one or more records of the database DB.

Typischerweise wird in Block 2300 eine tiefe Lerntechnik, insbesondere eine Gradientenabstiegstechnik wie etwa Rückpropagation zum Trainieren des neuronalen Netzes NNW verwendet werden.Typically, in block 2300, a deep learning technique, particularly a gradient descent technique such as back propagation, will be used to train the neural network NNW.

Zum Schluss kann ein trainiertes oder nachtrainiertes neuronales Netz tNNW ausgegeben und/oder gespeichert werden.Finally, a trained or post-trained neural network tNNW can be output and/or stored.

Insbesondere die bestimmten Gewichtungen des tNNW können gespeichert und typischerweise später an eine Verarbeitungseinheit übertragen werden, die zu einer am Kopf tragbaren Vorrichtung zugehörig oder damit verbindbar ist.In particular, the determined weights of the tNNW may be stored and typically later transmitted to a processing unit associated with or connectable to a head-worn device.

Typischer werden die bestimmten Gewichtungen des tNNW (später) an eine Vielzahl von jeweiligen Verarbeitungseinheiten und/oder am Kopf tragbaren Vorrichtungen übertragen.More typically, the determined weights of the tNNW are (later) transmitted to a plurality of respective processing units and/or head-worn devices.

Anschließend können eine oder mehrere lokale Instanzen des trainierten neuronalen Netzes tNNW verwendet werden, um aus dem linken und dem rechten Bild, die durch die jeweiligen Kameras der am Kopf tragbaren Vorrichtung typischerweise in Echtzeit erzeugt werden, einen oder mehrere blickbezogene Parameter eines jeweiligen Benutzers vorherzusagen, wenn der Benutzer eine am Kopf tragbare Vorrichtung trägt.Subsequently, one or more local instances of the trained neural network tNNW can be used to predict one or more gaze-related parameters of a respective user from the left and right images that are generated by the respective cameras of the head-worn device, typically in real time. when the user is wearing a head-worn device.

Wie in 3B gezeigt, die eine Erkennungsverfahren 3000 veranschaulicht, kann in den Blöcken 3010, 3020 ein linkes Bild Pl von mindestens einem Abschnitt eines linken Auges des Benutzers durch eine erste Kamera einer am Kopf tragbaren Vorrichtung, die durch den Benutzer getragen wird, aufgenommen werden, und ein rechtes Bild Pr von mindestens einem Abschnitt eines rechten Auges des Benutzers kann durch eine zweite Kamera der am Kopf tragbaren Vorrichtung aufgenommen werden.As in 3B 11 illustrating a detection method 3000, in blocks 3010, 3020, a left image P l of at least a portion of a user's left eye may be captured by a first camera of a head-worn device worn by the user, and a right image P r of at least a portion of a user's right eye may be captured by a second camera of the head-mounted device.

Das linke Bild Pl und das linke Bild Pl werden typischerweise im Wesentlichen gleichzeitig aufgenommen.The left image P 1 and the left image P 1 are typically recorded substantially simultaneously.

In einem nachfolgenden Block 3030 können das linke Bild Pl und das rechte Bild Pr gemeinsam als Eingabe in ein trainiertes neuronales Faltungsnetz tNNW eingegeben werden, typischerweise als ein verkettetes Bild in eine Eingabeschicht des trainierten neuronalen Faltungsnetzes tNNW.In a subsequent block 3030, the left image P l and the right image P r can be input together as input to a trained convolutional neural network tNNW, typically as a concatenated image in an input layer of the trained convolutional neural network tNNW.

In einem nachfolgenden Block 3040 kann ein vorhergesagter Wert gpr von einem oder mehreren blickbezogenen Parametern von dem trainierten neuronalen Faltungsnetz tNNW als ein Ergebnis des eingegebenen linken und rechten Bildes erlangt werden, typischerweise als eine Ausgabe einer Ausgabeschicht des trainierten neuronalen Faltungsnetzes tNNW.In a subsequent block 3040, a predicted value g pr of one or more gaze-related parameters can be obtained from the trained convolutional neural network tNNW as a result of the input left and right images, typically as an output of an output layer of the trained convolutional neural network tNNW.

Der bzw. die vorhergesagten Werte gpr können in einem optionalen Block 3050 unter Verwendung einer benutzerspezifischen Korrekturfunktion Fcorr korrigiert werden.The predicted value(s) g pr can be corrected in an optional block 3050 using a user specific correction function F corr .

Der vorhergesagte Wert bzw. die vorhergesagten Werte oder der korrigierte vorhergesagte Wert bzw. die korrigierten vorhergesagten Werte gcpr können ausgegeben und/oder als Eingabe für ein Beurteilungsmodul verwendet werden, z. B. ein Benutzerschnittstellenmodul, das blickbezogene Benutzerparameter verwendet.The predicted value(s) or the corrected predicted value(s) g cpr can be output and/or used as input to an assessment module, e.g. B. a user interface module using gaze related user parameters.

Nach Verlassen von Block 3040 oder Block 3050 kann das Verfahren 3000 zu den Blöcken 3010, 3020 zurückkehren, wie durch die gestrichelten Pfeile angegeben.Upon exiting block 3040 or block 3050, method 3000 may return to blocks 3010, 3020 as indicated by the dashed arrows.

In Bezug auf 3C wird eine Ausführungsform eines Verfahrens 4000 zum Kalibrieren einer am Kopf tragbaren Vorrichtung erläutert.In relation to 3C An embodiment of a method 4000 for calibrating a head-worn device is illustrated.

In einem Block 4010 wird einem Benutzer, der die am Kopf tragbare Vorrichtung trägt, ein Stimulus S präsentiert. Der Stimulus S ist mit einem gewünschten (erwarteten) Wert ge eines blickbezogenen Parameters korreliert.In a block 4010, a stimulus S is presented to a user wearing the headworn device. The stimulus S is correlated with a desired (expected) value ge of a gaze-related parameter.

In einem nachfolgenden Block 4020 werden die erste Kamera und zweite Kamera der am Kopf tragbaren Vorrichtung verwendet, um ein linkes Bild Pl von mindestens einem Abschnitt des linken Auges des Benutzers und ein rechtes Bild Pr von mindestens einem Abschnitt des rechten Auges des Benutzers aufzunehmen, von dem erwartet wird, dass er auf den Stimulus S reagiert (reagiert hat).In a subsequent block 4020, the first camera and second camera of the head-worn device are used to capture a left image P l of at least a portion of the user's left eye and a right image P r of at least a portion of the user's right eye , which is expected to respond (has responded) to the stimulus S.

Anschließend, in einem Block 4030, wird ein trainiertes neuronales Netz tNNW, insbesondere ein trainiertes neuronales Faltungsnetz, verwendet, um einen vorhergesagten Wert des blickbezogenen Parameters unter Verwendung des rechten und des linken Bildes Pl, Pr als eine Eingabe für das trainierte neuronale Netz tNNW zu bestimmen.Subsequently, in a block 4030, a trained neural network tNNW, in particular a trained convolutional neural network, is used to calculate a predicted value of the gaze-related parameter using the right and left images P l , P r as an input to the trained neural network to determine tNNW.

In einem nachfolgenden Block 4040 kann eine Differenz zwischen dem gewünschten Wert ge und dem vorhergesagten Wert gpr berechnet und verwendet werden, um eine Korrekturfunktion Fcorr für den Benutzer zu bestimmen.In a subsequent block 4040, a difference between the desired value g e and the predicted value g pr can be calculated and used to determine a correction function F corr for the user.

Wie durch den gestrichelten Pfeil in 3C angegeben, wird die Korrekturfunktion Fcorr typischerweise nach mehreren Zyklen bestimmt.As indicated by the dashed arrow in 3C specified, the correction function F corr is typically determined after several cycles.

In Bezug auf 3D wird eine Ausführungsform eines Systems 500 zum Verbessern der Vorhersage von blickbezogenen Parametern erläutert.In relation to 3D an embodiment of a system 500 for improving the prediction of gaze-related parameters is discussed.

Das System 500 weist ein Rechensystem 510 auf, das eine Datenbank hostet, wie in dieser Schrift erläutert. Das Rechensystem 510 kann als ein Server zum Hosten der Datenbank implementiert sein/arbeiten oder diesen einschließen. Das Rechensystem 510 kann aus einem einzelnen oder einer Vielzahl von verbundenen Computern bestehen.The system 500 includes a computing system 510 that hosts a database as discussed herein. The computing system 510 may be implemented/operate as or include a server for hosting the database. Computing system 510 may consist of a single computer or a plurality of interconnected computers.

Das Rechensystem 510 ist dazu konfiguriert, ein neuronales Netz unter Verwendung der Datenbank zu trainieren. Zu diesem Zweck kann das Rechensystem 510 eine oder mehrere Hardwarekomponenten aufweisen, die besonders zum Erzielen und Trainieren von NNs, insbesondere CNNs, geeignet sind, wie etwa GPUs.The computing system 510 is configured to train a neural network using the database. To this end, the computing system 510 may include one or more hardware components particularly suited for obtaining and training NNs, particularly CNNs, such as GPUs.

In dem Ausführungsbeispiel ist das Rechensystem 510 mit einer Verarbeitungseinheit 525 verbunden, die mit einem Teil einer am Kopf anbringbaren Vorrichtung 520, die eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers einschließt, wenn der Benutzer die am Kopf anbringbare Vorrichtung trägt, verbindbar ist oder gar einen Teil derselben bildet.In the exemplary embodiment, the computing system 510 is coupled to a processing unit 525, which is a portion of a head-mountable device 520 that includes a first camera for generating a left image of at least a portion of a user's left eye and a second camera for generating a right image of at least a portion of a right eye of the user when the user wears, is connectable or even forms part of the head-mountable device.

Bei Verbindung mit der linken und rechten Kamera ist die Verarbeitungseinheit 525 dazu konfiguriert, das linke und rechte Bild zu empfangen.When connected to the left and right cameras, the processing unit 525 is configured to receive the left and right images.

Außerdem ist die Verarbeitungseinheit 525 dazu konfiguriert, einen vorhergesagten Wert eines blickbezogenen Parameters des Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe einer Instanz eines neuronalen Netzes zu bestimmen, insbesondere einer Instanz eines neuronalen Faltungsnetzes, wenn diese in der Verarbeitungseinheit ausgeführt wird.In addition, the processing unit 525 is configured to determine a predicted value of a gaze-related parameter of the user using the left image and the right image as input to a neural network instance, particularly a convolutional neural network instance when executed in the processing unit.

Die Verarbeitungseinheit 525 weist typischerweise auch eine oder mehrere Hardwarekomponenten auf, die besonders zum Ausführen von NNs, insbesondere CNNs geeignet sind, wie etwa eine GPU.The processing unit 525 also typically includes one or more hardware components particularly suited to executing NNs, particularly CNNs, such as a GPU.

Die Verarbeitungseinheit 525 ist typischerweise dazu konfiguriert, das in Bezug auf 3B erläuterte Verfahren 3000 zu steuern und/oder auszuführen.The processing unit 525 is typically configured to: 3B control and/or execute explained method 3000 .

Darüber hinaus ist die Verarbeitungseinheit 525 typischerweise dazu konfiguriert, das in Bezug auf 3C erläuterte Verfahren 4000 zu steuern und/oder auszuführen.In addition, the processing unit 525 is typically configured to: 3C to control and/or execute the method 4000 explained.

In dem veranschaulichten verbundenen Zustand sind die Verarbeitungseinheit 525 und das Rechensystem 510 dazu konfiguriert, Datensätzen von der Verarbeitungseinheit 525 an das Rechensystem 510 zu übertragen, Datensätze zu der Datenbank hinzuzufügen und Parameter des neuronalen Netzes vom Rechensystem 510 an die Verarbeitungseinheit 525 zu übertragen.In the illustrated connected state, processing unit 525 and computing system 510 are configured to transmit data sets from processing unit 525 to computing system 510, add data sets to the database, and transmit neural network parameters from computing system 510 to processing unit 525.

Das Rechensystem 510 ist typischerweise mit einer oder mehreren weiteren Verarbeitungseinheiten 535 verbunden, die mit einer jeweiligen weiteren am Kopf anbringbaren Vorrichtung 530, die jeweils eine jeweilige erste Kamera und jeweilige zweite Kamera aufweist, verbunden sind oder gar einen Teil davon bilden.The computing system 510 is typically connected to one or more further processing units 535, which are connected to or even form part of a respective further head-mountable device 530, each having a respective first camera and respective second camera.

Die Verarbeitungseinheit 525 kann als ein Client arbeiten, wenn sie mit dem Rechensystem 510 verbunden ist, das als ein Server arbeitet.Processing unit 525 may operate as a client when connected to computing system 510 operating as a server.

Client(s) und Server sind typischerweise voneinander entfernt und interagieren typischerweise durch ein Kommunikationsnetz wie etwa ein TCP/IP-Datennetz. Die Client-Server-Beziehung ergibt sich durch Software, die auf den jeweiligen Vorrichtungen ausgeführt wird.Client(s) and server(s) are typically remote from each other and typically interact through a communications network such as a TCP/IP data network. The client-server relationship results from software running on the respective devices.

Typischerweise verwendet die Kommunikation zwischen der Verarbeitungseinheit 525 und dem Rechensystem 510 Verschlüsselung.Typically, communication between processing unit 525 and computing system 510 uses encryption.

Das System 500 ist mindestens in einem verbundenen Zustand fähig, ein beliebiges der in dieser Schrift erläuterten Verfahren auszuführen, insbesondere die Verfahren 1000 bis 4000.System 500, at least in a connected state, is capable of performing any of the methods discussed herein, particularly methods 1000 through 4000.

Darüber hinaus ist das System 500 typischerweise auch dazu konfiguriert, beliebige der im Folgenden erläuterten Prozesse auszuführen.In addition, the system 500 is also typically configured to perform any of the processes discussed below.

In Bezug auf 4 wird eine Ausführungsform eines Systems 600 zum Verbessern der Vorhersage von blickbezogenen Parametern erläutert. Das System 600 gleicht dem System 500, das oben in Bezug auf 3D erläutert wurde, und schließt ebenfalls ein Rechensystem 610 ein. Der Deutlichkeit halber ist nur eine am Kopf tragbare Vorrichtung 620 in 4 gezeigt.In relation to 4 An embodiment of a system 600 for improving the prediction of gaze-related parameters is discussed. The system 600 is similar to the system 500 referred to above 3D and also includes a computing system 610 . For clarity, only one head-worn device 620 in 4 shown.

In dem Ausführungsbeispiel kann sich die am Kopf tragbare Vorrichtung 620 zur Steuerung, Stromversorgung und (Zwischen-)Speicherung erzeugter Datensätze mit einer beispielhaften Begleitvorrichtung wie etwa einem Tablet oder Smartphone 627 verbinden. Das Begleitsmartphone 627 kann auch verwendet werden, um gesammelte gelabelte Datensätze auf das Rechensystem 610, das die Datenbank hostet, hochzuladen, wenn gewünscht ein neuronales (Faltungs-) Netz herunterzuladen (zu aktualisieren), wie ausführlicher unter Bezugnahme auf die 5 und 6 beschrieben wird, und mit dem Benutzer zu interagieren. Die Kommunikationsverbindung zwischen dem Smartphone 627 und der am Kopf tragbaren Vorrichtung 620 kann ein magnetisch angebrachtes USB-2.0-Kabel (oder höher) sein, das aus dem Rahmen hinter dem linken oder rechten Ohr des Trägers austritt und mit dem USB-C-Port des Telefons verbunden wird.In the exemplary embodiment, the head-worn device 620 can connect to an exemplary companion device such as a tablet or smartphone 627 for control, power supply and (temporary) storage of generated data sets. The companion smartphone 627 can also be used to upload collected labeled datasets to the computing system 610 hosting the database, downloading (updating) a neural (convolutional) network if desired, as more fully described with reference to FIG 5 and 6 is described and to interact with the user. The communication link between the smartphone 627 and the head-worn device 620 can be a magnetically attached USB 2.0 (or higher) cable that exits the frame behind the wearer's left or right ear and connects to the USB-C port of the wearer phone is connected.

Eine Begleit-App, d. h. ein Computerprogramm, das dazu ausgelegt ist, auf einer mobilen Vorrichtung wie etwa einem Telefon/Tablet oder einer Uhr ausgeführt zu werden (mobile App), und das auf dem Begleitsmartphone 627 ausgeführt wird, kann der primäre Interaktionspunkt mit dem Benutzer sein. Der Benutzer kann auch Aufzeichnungen, Benutzerprofile, Kalibrierungen und Validierungen mittels der Begleit-App steuern. Der Benutzer kann auch persönliche Profile, Netzmodelle und Kalibrierungen mit der App aktualisieren und verwalten. Diese Interaktionen können gering oder minimal sein. Das Smartphone 627 kann typischerweise autonom auf vollständig automatische Weise arbeiten. Die Begleit-App kann die Vorrichtung steuern und Firmware- und Modell-Updates senden.A companion app, i. H. a computer program designed to run on a mobile device such as a phone/tablet or watch (mobile app) running on the companion smartphone 627 may be the primary point of interaction with the user. The user can also control recordings, user profiles, calibrations and validations using the companion app. The user can also update and manage personal profiles, mesh models and calibrations with the app. These interactions can be small or minimal. The smartphone 627 can typically operate autonomously in a fully automated manner. The companion app can control the device and send firmware and model updates.

Die am Kopf tragbare Vorrichtung 620 kann auch Komponenten, die das Bestimmen der Ausrichtung der Vorrichtung im 3D-Raum ermöglichen, Beschleunigungsmesser, GPS-Funktionen und dergleichen einschließen.The head-worn device 620 may also include components that enable the orientation of the device in 3D space to be determined, accelerometers, GPS functions, and the like.

Die am Kopf tragbare Vorrichtung 620 kann ferner eine beliebige Art von Energiequelle einschließen, wie etwa eine auswechselbare oder wiederaufladbare Batterie oder eine Solarzelle.The headwear device 620 may further include any type of power source, such as a removable or rechargeable battery or a solar cell.

Gemäß einer Ausführungsform erfolgt die Berechnung des Blickpunkts des Benutzers durch eine Verarbeitungseinheit oder Steuereinrichtung 625, die vollständig und unsichtbar in einen standardmäßigen Brillenrahmen der Vorrichtung 620 integriert ist, wofür ein Beispiel die Intel/Movidius Myriad2 VPU mit CNN-Inferenzfähigkeiten ist. In diesem Fall kann ein trainiertes CNN-Modell über den Begleiter 627 geladen und auf der integrierten Steuereinrichtung 625 ausgeführt werden.According to one embodiment, the calculation of the user's viewpoint is performed by a processing unit or controller 625 that is fully and invisibly integrated into a standard eyeglass frame of the device 620, an example of which is the Intel/Movidius Myriad2 VPU with CNN inference capabilities. In this case, a trained CNN model can be loaded via companion 627 and executed on integrated controller 625 .

Die Steuereinrichtung 625 kann jeweilige Bilder von den Kameras des linken und rechten Auges der Vorrichtung 620 empfangen, Inferenzen unter Verwendung des trainierten CNN ausführen, und sendet die vorhergesagten Blickpositionsdaten (oder vorhergesagten Werte anderer blickbezogener Parameter) zum Anzeigen und Speichern an das verbundene Begleitsmartphone 627.The controller 625 can receive respective images from the left and right eye cameras of the device 620, perform inferences using the trained CNN, and sends the predicted gaze position data (or predicted values of other gaze-related parameters) to the connected companion smartphone 627 for display and storage.

Die Steuereinrichtung 625 kann auf Anforderung auch die eingegebene Bilddaten von den Augenkameras weiterleiten, beispielsweise zur Datensammlung und/oder zur Verwendung in einer „Verfeinerung“, wie nachstehend unter Bezugnahme auf die 5 und 6 beschrieben wird.The controller 625 may also forward the input image data from the eye cameras upon request, for example for data collection and/or use in a "refinement" as described below with reference to FIG 5 and 6 is described.

Die Steuereinrichtung 625 kann auch die Bilder einer Szenenkamera der Vorrichtung 620 zum Anzeigen und Speichern an das Begleitsmartphone senden. Letztere Funktion kann durch eine separate spezielle Steuereinrichtung erzielt werden, die dieselbe USB-Verbindung verwendet.The controller 625 may also send the scene camera images of the device 620 to the companion smartphone for display and storage. The latter function can be achieved by a separate dedicated controller using the same USB connection.

Alternativ steuert eine vorrichtungseigene Steuereinrichtung der Vorrichtung 620 nur die Kameras und leitet die Bilddaten an die Begleitvorrichtung 627 weiter, oder noch weiter etwa an das Rechensystem 610, beispielsweise einen entfernten Server und/oder eine cloudbasierte Struktur oder dergleichen, ohne eine Inferenz des bzw. der Augenparameter am Standort des Benutzers vorzunehmen.Alternatively, a device-specific control device of the device 620 only controls the cameras and forwards the image data to the accompanying device 627, or even further to the computing system 610, for example a remote server and/or a cloud-based structure or the like without inferring the eye parameter(s) at the user's location.

In dem Begleitsmartphone 620 können ein oder mehrere DSPs, ein oder mehrere Spezialchips und/oder eine oder mehrere GPUs zur Blickschätzung unter Verwendung von CNN-basierter Inferenz verwendet werden.In the companion smartphone 620, one or more DSPs, one or more special purpose chips, and/or one or more GPUs can be used for gaze estimation using CNN-based inference.

Ungeachtet dessen, welche Vorrichtung die Aufgabe des Bestimmens des bzw. der Augenparameter durchführt, kann der Benutzer Echtzeitzugriff auf Blickdaten und Szenenvideos für seine Anwendungsfälle haben. Das Begleittelefon 627 oder eine andere mobile Vorrichtung kann auch als eine Zwischenstation dienen und es dem Benutzer ermöglichen, seine aufgezeichneten Daten an einen gewünschten Ort hochzuladen sowie die gelabelten Trainingsdaten auf einen Server oder auf mehrere Server hochzuladen, wie im Folgenden beschrieben wird.Regardless of which device performs the task of determining the eye parameter(s), the user can have real-time access to gaze data and scene video for their use cases. The companion phone 627 or other mobile device can also serve as an intermediary station, allowing the user to upload their recorded data to a desired location as well as upload the labeled training data to one or more servers, as described below.

In Bezug auf die 5 und 6 werden Ausführungsformen eines Systems 700 zum Verbessern der Vorhersage von blickbezogenen Parametern erläutert. Das System 700 gleicht typischerweise dem System 500 und 600, die oben in Bezug auf 3D bzw. 4 erläutert wurden, und schließt ebenfalls ein Rechensystem 710 ein.Regarding the 5 and 6 Embodiments of a system 700 for improving the prediction of gaze-related parameters are discussed. The system 700 is typically similar to the systems 500 and 600 referred to above 3D or. 4 , and also includes a computing system 710 .

Der Deutlichkeit halber sind in den beiden 5 und 6 das System 700 und sein Betrieb gezeigt. 5 bezieht sich auf das Rechensystem 710. 6 bezieht sich auf eine am Kopf tragbare Vorrichtung 720 des Systems 700, die mit dem Rechensystem 710 verbindbar ist (siehe auch die Pfeile a bis d, die einen Informationsfluss darstellen).For the sake of clarity are included in the two 5 and 6 system 700 and its operation are shown. 5 refers to the computing system 710. 6 refers to a head-worn device 720 of the system 700 connectable to the computing system 710 (see also arrows a through d depicting an information flow).

Eine Aufgabe der vorliegenden Offenbarung ist es, ein so genanntes „universelles neuronales Netz“ (auch bezeichnet als universelles NN-Modell und „benutzerübergreifendes NN-Modell“) zum Bestimmen von Augenparametern, insbesondere Blickrichtungsinformationen von Benutzern zu erzeugen, bereitzustellen, anzuwenden und zu verbessern. Ein solches universelles NN ist in seiner grundlegenden Ausführungsform im unveränderten Zustand für die Anwendung geeignet, ohne weitere Kalibrierungs- oder Einrichtungsschritte durch einen „neuen“ Benutzer, also einen Benutzer, dessen Datensätzen nicht zum Trainieren des NN verwendet wurden.An object of the present disclosure is to create, provide, apply and improve a so-called "universal neural network" (also referred to as universal NN model and "universal NN model") for determining eye parameters, in particular gaze direction information of users . Such a universal NN is suitable for the application in its basic embodiment in the unmodified state, without further calibration or setup steps by a "new" user, ie a user whose data sets were not used to train the NN.

Daher wird davon ausgegangen, dass ein so genannter Kerndatenkorpus gelabelter Datensätze gesammelt und in einer Datenbank DB gespeichert wurde und ein Lehralgorithmus auf Grundlage von NNs auf Grundlage dieser Daten trainiert wurde.Therefore, it is assumed that a so-called core data corpus of labeled datasets was collected and stored in a database DB, and a training algorithm based on NNs was trained based on this data.

Der Kerndatenkorpus kann beispielsweise aus Datensätzen von Bildpaaren, die das linke und rechte Auge (bzw. jeweilige Abschnitte davon) zeigen, und entsprechenden Ground-Truth-Blickpunkten in Szenenkamerabildkoordinaten bestehen.The core data corpus can consist, for example, of data sets of image pairs showing the left and right eyes (or respective portions thereof) and corresponding ground truth viewpoints in scene camera image coordinates.

Der Kerndatenkorpus deckt typischerweise eine große Zahl natürlich vorkommender Erscheinungsweisen der Augen ab. Daher kann während des Aufzeichnens von Trainingsdaten sorgfältig darauf geachtet werden, die Gesamtheit der möglichen Erscheinungsweisen der Augenbilder abzudecken. Auf diese Weise wird gewährleistet, dass das universelle NN in der Praxis zuverlässig an allen Bildern arbeitet.The core data corpus typically covers a large number of naturally occurring appearances of the eyes. Therefore, while recording training data, care can be taken to cover the entirety of the possible appearances of the eye images. This ensures that the universal NN works reliably on all images in practice.

Faktoren, die beispielsweise abgedeckt werden können, sind unterschiedliche Lichtverhältnisse (insbesondere auch Lichtverhältnisse im Freien), unterschiedliche Stellungen des Headsets (der am Kopf anbringbaren Vorrichtung) am Kopf des Benutzers (um ein Verrutschen des Headsets widerzuspiegeln), Unterschiede im physiologischen Erscheinungsbild des Benutzers beispielsweise aufgrund von Geschlecht oder Zugehörigkeit zu einer ethnischen Gruppe, kurzfristige physiologische Veränderungen (z. B. sind die Augen eines Benutzers an einem Tag stärker geschwollen oder weiter geöffnet als an anderen) und Abstand zwischen Blickziel und Benutzer, wie im Folgenden beschrieben wird (unterschiedliche Blickentfernungen führen zu unterschiedlichen Brechwerten der Augen). Darüber hinaus sollten die Ground-Truth-Blickpunkte Objekten in unterschiedlichen Entfernungen vom Benutzer entsprechen, um sicherzustellen, dass eine große Anzahl unterschiedlicher Zustände von zweiäugigen Brechwerten im Datenkorpus vorhanden ist.Examples of factors that can be covered are differences in lighting conditions (including but not limited to outdoor lighting conditions), different positions of the headset (the head-mountable device) on the user's head (to reflect headset movement), differences in the user's physiological appearance, for example due to gender or ethnicity, short-term physiological changes (e.g., a user's eyes are more swollen or more open on one day than on others), and distance between the gaze target and the user, as described below (different gaze distances lead to different refractive powers of the eyes). In addition, the ground truth viewpoints should correspond to objects at different distances from the user to ensure that a large number of different states of binocular powers are present in the data corpus.

Außerdem können Datenvermehrungsverfahren verwendet werden, um den Kerndatenkorpus weiter zu diversifizieren und die Menge verfügbarer Daten zu erhöhen.In addition, data augmentation techniques can be used to further diversify the core data corpus and increase the amount of data available.

Um den Umfang der Schlupfkonfigurationen des Headsets für einen bestimmten Benutzer weiter zu verbessern, hat sich die Schlupfsimulation als vorteilhaft erwiesen.. Anhand eines Paares Augenbilder des linken und rechten Auges zusammen mit dem Ground-Truth-Blick-Label für das Paar werden Sample zufälliger Bewegungen erzeugt, die das Headset aufgrund von Verrutschen/Schlupf erfahren könnte. Anhand dieser Bewegungen und der festen geometrischen Beziehungen zwischen allen Kameras im Headset können projektive Transformationen berechnet werden, die die von den Bewegungen implizierte Wirkung erzeugen. Auf diese Weise können weitere gültige Sample von gelabelten Datensätzen berechnet werden, ohne dass sie tatsächlich aufgezeichnet werden müssen.To further improve the scope of the headset's slip configurations for a given user, slip simulation has proven beneficial. Using a pair of left and right eye images along with the pair's ground-truth gaze label, samples of random movements are generated generated that the headset might experience due to slipping/slipping. Given these movements and the fixed geometric relationships between all the cameras in the headset, projective transformations that produce the effect implied by the movements can be calculated. This allows further valid samples to be computed from labeled datasets without actually recording them.

Gleichermaßen kann durch zufälliges Löschen, bei dem zufällig gewählte Bereiche in einem Bild gelöscht und die entsprechenden Pixel mit Zufallswerten ersetzt werden, oder ein mittlerer Bildpixelwert Bilder mit unterschiedlichem Maß an simulierter Verdeckung erzeugt, zusätzliche „künstliche“ Trainingsdatensätze erzeugt werden, was zusätzliche Kosten mit sich bringt, aber die Diversität des Kerndatenkorpus fördert.Likewise, random erasure, in which randomly chosen areas in an image are erased and the corresponding pixels are replaced with random values, or an average image pixel value produces images with different levels of simulated occlusion, can generate additional "artificial" training datasets, which incurs additional costs brings, but promotes the diversity of the core data corpus.

Ein universelles NN, das an einem solchen Kerndatenkorpus trainiert wurde, hat dann gelernt, eine Ausgabe zu erzeugen oder vorherzusagen, die einen Augenparameter wie etwa die Blickrichtung eines beliebigen Benutzers codiert. In einem möglichen Beispiel wird die Ausgabe als 2D-Pixelkoordinaten des Blickpunkts im Szenenkamerabild gegeben. Andere Codierungen wie beispielsweise die 3D-Position des Blickpunkts in einem 3D-Koordinatensystem; oder der 3D-Blickstrahl in Augenkamerakoordinaten können ebenfalls implementiert werden.A universal NN trained on such a core data corpus has then learned to generate or predict an output encoding an eye parameter such as the gaze direction of any user. In one possible example, the output is given as 2D pixel coordinates of the viewpoint in the scene camera image. Other encodings such as the 3D position of the viewpoint in a 3D coordinate system; or the 3D gaze ray in eye camera coordinates can also be implemented.

In einer bevorzugten Ausführungsform ist das System 700 zweiäugig (binokular), d. h. seine Kameras erfassen beide Augen (bzw. deren Zustand). Eine zweiäugige Erfassung ist wichtig (in den meisten Fällen nötig), um die genaue Position des Blickpunkts zu bestimmen, die nur aus den zweiäugigen Brechwerten der Augen abgeleitet werden kann. Mit einem einäugigen System lässt sich nur die 3D-Blickrichtung des Benutzers ableiten, während sich die genaue Tiefe des Blickpunkts nicht ableiten lässt. Anhand der 3D-Blickrichtung kann auch die genaue Blickposition berechnet werden, indem ein Schneiden der realen Geometrie durch den Blickstrahl bewirkt wird, vorausgesetzt, diese Geometrie ist bekannt.In a preferred embodiment, the system 700 is binocular, i. H. his cameras capture both eyes (or their condition). Binocular acquisition is important (necessary in most cases) to determine the exact position of the viewpoint, which can only be deduced from the binocular powers of the eyes. With a one-eyed system, only the user's 3D gaze direction can be inferred, while the precise depth of viewpoint cannot be inferred. The 3D gaze direction can also be used to calculate the exact gaze position by causing the gaze ray to intersect the real geometry, provided that geometry is known.

Bezüglich des NN-Modells, das zum Verwenden in dem System und den Verfahren der vorliegenden Offenbarung trainiert werden soll, wurde überraschend festgestellt, dass neuronale Faltungsnetze (CNNs) trotz der inhärent herausfordernden mobilen bzw. tragbaren Einrichtung der Vorrichtung, die zu einer geringen Auflösung der Eingabebilder führt, und des schwierigen Aspekts des bzw. der unauffällig angeordneten optischen Sensoren fähig sind, ausreichende Genauigkeit zu erzielen.Regarding the NN model to be trained for use in the system and methods of the present disclosure, it was surprisingly found that convolutional neural networks (CNNs) despite the inherently challenging mobile or handheld setup of the device resulting in low resolution of the input images, and the difficult aspect of the optical sensor(s) placed inconspicuously are able to achieve sufficient accuracy.

Zwar wurden CNNs für Aufgaben wie Objekterkennung verwendet, wo dies vorteilhaft sein kann, doch wurde bislang nicht versucht, sie für eine komplette Blickvorhersage in einer mobilen Umgebung zu verwenden. Angesichts der starken Erscheinungsvarianz der Bilder in einer solchen Umgebung, die zu Bildern führen, die bisweilen nicht einmal die Pupille zeigen oder nur einen kleinen Anteil der Pupille zeigen, mit starken Schwankungen der Lichtverhältnisse und des Hauttons, ist es unerwartet, dass CNNs trainierbar sind, um ausreichend sinnvolle Faltungskerne zu erlernen, um ein universelles benutzerübergreifendes Modell zur genaue Blickvorhersage lediglich auf Grundlage von zwei Eingabebildern geringer Auflösung bereitzustellen.While CNNs have been used for tasks such as object recognition where this can be beneficial, no attempt has been made to use them for full gaze prediction in a mobile environment. Given the wide variability in appearance of images in such an environment, resulting in images sometimes not even showing the pupil or showing only a small portion of the pupil, with large variations in lighting conditions and skin tone, it is unexpected that CNNs are trainable, to learn enough meaningful convolution kernels to provide a universal cross-user model for accurate gaze prediction based only on two low-resolution input images.

Durch die Ausnutzung von CNNs in einer mobilen bzw. tragbaren Einrichtung zur Augenverfolgung wird somit gemäß einem wichtigen Aspekt der vorliegenden Offenbarung eine unauffälligere Vorrichtungsauslegung und eine zuverlässigere benutzerübergreifende Blickerkennung ermöglicht (beispielsweise ein mittlerer Winkelvorhersagefehler von unter 2°).Thus, in accordance with an important aspect of the present disclosure, exploiting CNNs in a mobile eye tracking device enables a more stealthy device design and more reliable cross-user gaze detection (e.g., a mean angle prediction error of less than 2°).

Es wurde festgestellt, dass die genaue interne Architektur des Netzes, d. h. die genaue Anzahl, Abmessungen und Abfolge von Faltungs- und anderen Schichten nicht für einen ausreichend guten Betrieb der Systeme entscheidend ist.It was found that the exact internal architecture of the network, i. H. the precise number, dimensions, and sequence of convolution and other layers is not critical to sufficiently good operation of the systems.

Allerdings sollte das Netz vorzugsweise hocheffizient sein, um Echtzeitinteraktion und eingebettete Berechnung zu ermöglichen. Gleichermaßen beeinflussen die präzisen individuellen Werte der Parameter, die sich aus dem Trainingsprozess ergeben, die abschließende Genauigkeit des trainierten Netzes nur geringfügig.However, the network should preferably be highly efficient to allow for real-time interaction and embedded computation. Likewise, the precise individual values of the parameters resulting from the training process affect the final accuracy of the trained network only slightly.

Insbesondere Netzarchitekturen, die für kleine Größen oder die Ausführung auf mobilen oder eingebetteten Plattformen optimiert sind, haben sich als geeignet erwiesen. Kandidaten, die CNNs verwenden, schließen somit ohne Beschränkung LeNet, SqueezeNet, MobileNet, Darknet, Resnet18 und beliebige Adaptationen derselben ein. Diese Netzarchitekturen sind hinreichend bekannt und müssen daher an dieser Stelle nicht ausführlich beschrieben werden.In particular, network architectures optimized for small sizes or running on mobile or embedded platforms have proven to be suitable. Thus, candidates using CNNs include, without limitation, LeNet, SqueezeNet, MobileNet, Darknet, Resnet18, and any adaptations thereof. These network architectures are well known and therefore do not need to be described in detail here.

In einer bevorzugten Ausführungsform verwendet das neuronale Netz außerdem einen oder mehrere so genannte „Squeeze-und-Excitation“(Zusammenpressen und Erregung - SE-)-Blöcke (Schichten). Diese Blöcke führen eine Merkmalsneukalibrierung durch. Eingegebene Daten oder Merkmale U (WxHxC, was Bildbreite x Bildhöhe x Anzahl der Kanäle entspricht) werden zunächst durch eine Squeeze-Operation geleitet, die die Merkmalsabbildungen über die räumlichen Dimensionen WxH hinweg aggregiert, um einen Kanaldeskriptor (1x1xC) zu erzeugen. Der Deskriptor bettet die globale Verteilung von Merkmalsantworten pro Kanal ein und ermöglicht es, dass Informationen vom globalen rezeptiven Feld des Netzes durch seine unteren Schichten genutzt werden können. Darauf folgt eine Excitation-Operation, in der Sample-spezifische Aktivierungen, die für jeden Kanal durch einen Self-Gating-Mechanismus auf Grundlage von Kanalabhängigkeit erlernt werden, die Erregung jedes Kanals regeln. Die Merkmalsabbildungen U werden dann pro Kanal durch diese zusätzlichen eingelernten Parameter neu gewichtet, um die Ausgabe des SE-Blocks zu erzeugen, die direkt in nachfolgende Schichten eingegeben werden kann.In a preferred embodiment, the neural network also uses one or more so-called "squeeze and excitation" (SE) blocks (layers). These blocks perform feature recalibration. Input data or features U (WxHxC, which corresponds to image width x image height x number of channels) are first passed through a squeeze operation that aggregates the feature maps across spatial dimensions WxH to produce a channel descriptor (1x1xC). The descriptor embeds the global distribution of feature responses per channel and allows information from the network's global receptive field to be utilized by its lower layers. This is followed by an excitation operation in which sample-specific activations, learned for each channel through a self-gating mechanism based on channel dependency, govern the excitation of each channel. The feature mappings U are then re-weighted per channel by these additional learned parameters to produce the output of the SE block that can be input directly into subsequent layers.

Sobald ein Kerndatenkorpus erstellt und ein CNN unter Verwendung der Datenbank DB (und der in dieser Schrift beschriebenen Verfahren) trainiert wurde, können die Parameter {tCNN} des trainierten neuronalen Faltungsnetzes tCNN in den Speicher der am Kopf tragbaren Vorrichtung 720 hochgeladen werden.Once a core data corpus has been created and a CNN has been trained using the database DB (and the methods described herein), the parameters {tCNN} of the trained convolutional neural network tCNN can be uploaded to the memory of the head-worn device 720 .

6 zeigt einen beispielhaften Ablauf der Blickrichtungsvorhersage. Die Kameras der Vorrichtung 720 zeichnen einen Live-Video-Stream von Augenbilder auf, der als Eingabedaten-Stream in die (integrierte) Verarbeitungseinheit 725 eingegeben wird, die ein CNN-Modul 7251 verwendet, um das trainierte Netz tCNN auf die Bilder anzuwenden (die Bilder durch das Netz tCNN vorwärts zu leiten), und berechnet so die vorhergesagte Blickrichtung gpr. Die optionale Szenenkamera kann gleichzeitig einen Video-Stream von Bildern aufzeichnen, der einem Teil des Sichtfelds des Benutzers entspricht, der die Vorrichtung 720 trägt. Dieser Video-Stream kann durch die Vorrichtung 720 zusammen mit der vorhergesagten Blickrichtung gpr ausgegeben werden, oder die Blickrichtung gpr kann allein über eine beliebige der Datenschnittstellen der Vorrichtung ausgegeben oder im Vorrichtungsspeicher gespeichert werden. Somit ergibt sich eine kompakte, tragbare und vollständig eingebettete Vorrichtung 720 für die Ende-zu-Ende-Blickschätzung (Ende-zu-Ende-Blickrichtungsbestimmung), die eine genaue Echtzeitinferenz der Blickrichtung direkt an der Vorrichtung ermöglicht, indem ein vortrainiertes und optimiertes neuronales Netzmodell verwendet wird. 6 shows an example of a viewing direction prediction process. The cameras of the device 720 record a live video stream of eye images, which is fed as an input data stream to the (integrated) processing unit 725, which uses a CNN module 7251 to apply the trained network tCNN to the images (the to forward images through the network tCNN) and thus calculates the predicted gaze direction g pr . The optional scene camera can simultaneously record a video stream of images corresponding to a portion of the user's field of view wearing the device 720 . This video stream can be output by the device 720 along with the predicted gaze direction g pr , or the gaze direction g pr alone can be output via any of the device's data interfaces or stored in device memory. This results in a compact, portable, and fully embedded device 720 for end-to-end gaze estimation (end-to-end gaze direction determination) that enables accurate, real-time inference of gaze direction directly at the device by using a pre-trained and optimized neural network model is used.

Das denkbar einfachste Verwendungsszenario besteht darin, dass ein Benutzer die Vorrichtung 720 in Empfang nimmt, sie anlegt und ohne weitere Einrichtungsschritte mit der Verfolgung beginnen kann. Die Ergebnisse können beispielsweise in Echtzeit an eine lokale oder entfernte Vorrichtung wie etwa ein Mobiltelefon, ein Tablet, einen Laptop oder eine beliebige Art von Visualisierungsvorrichtung weitergeleitet und visualisiert werden. Die Visualisierung besteht im einfachsten Fall aus dem Anzeigen des Video-Streams der Szenenkamera mit dem angegebenen vorhergesagten Blickpunkt.The simplest usage scenario imaginable is that a user picks up the device 720, puts it on, and can start tracking without any further setup steps. For example, the results can be relayed and visualized in real-time to a local or remote device such as a cell phone, tablet, laptop, or any type of visualization device. At its simplest, the visualization consists of displaying the scene camera's video stream with the specified predicted viewpoint.

In einer weiteren Ausführungsform können eine Kalibrierung (links in 6, siehe auch 3B) und ein Korrekturverfahren (Block 7252) wie in dieser Schrift beschrieben für den Benutzer durchgeführt werden. Es versteht sich, dass ein Kalibrierungsschritt optional ist, da die Verwendung eines trainierten CNN es der tragbaren Vorrichtung 720 ermöglicht, in einem kalibrierungsfreien Modus mit ausreichender Genauigkeit zu arbeiten. Das Durchführen eines optionalen Kalibrierungsverfahrens kann jedoch weitere vorteilhafte Wirkungen erzeugen.In another embodiment, a calibration (left in 6 , see also 3B) and performing a correction procedure (block 7252) as described herein for the user. It should be understood that a calibration step is optional since using a trained CNN allows the handheld device 720 to operate in a calibration-free mode with sufficient accuracy. However, performing an optional calibration procedure can produce other beneficial effects.

Erstens kann ein solcher Vorgang eine einfache benutzerspezifische Korrekturfunktion Fcorr bereitstellen, die während des Betriebs auf den vorhergesagten Blick gpr angewandt werden kann, der durch das Netz tCNN ausgegeben wird, um die für diesen spezifischen Benutzer erzielte Genauigkeit weiter und unverzüglich zu verbessern. Ein mögliches Beispiel von Korrekturfunktionen sind einfache bivariate Polynome mit einstellbarem Grad. Diese Korrektur kann beispielsweise entweder nur während der derzeitigen Nutzungssitzung angewandt oder gespeichert und auch während einer anschließenden Nutzungssitzung dieses Benutzers angewandt werden. Das Motiv hinter einem solchen Vorgang liegt darin, dass ein universelles Netz aufgrund der Physiologie des menschlichen Auges kaum 100 % Genauigkeit erreichen kann. Beispielsweise existiert ein personenspezifischer Winkel zwischen der optischen Achse jedes Auges und der tatsächlichen Sehachse oder Sichtlinie dieses Auges. Dieser Winkel ist normalerweise im linken und rechten Auge einer Person unterschiedlich, variiert in der Bevölkerung und ist per se unbekannt. Mit anderen Worten, ein trainiertes NN führt eine Mittelung dieser Variation durch. Entsprechend kann eine personenspezifische Kalibrierung die Genauigkeit in Bezug auf Vorhersagen weiter erhöhen.First, such a process can provide a simple user-specific correction function F corr that can be applied on-the-fly to the predicted gaze g pr output by the network tCNN to further and immediately improve the accuracy achieved for that specific user. A possible example of correction functions are simple bivariate polynomials with an adjustable degree. This correction can, for example, either only be applied during the current usage session or saved and also applied during a subsequent usage session by that user. The motive behind such an operation is that a universal mesh can hardly achieve 100% accuracy due to the physiology of the human eye. For example, a person-specific angle exists between the optical axis of each eye and that eye's actual visual axis or line of sight. This angle is usually different in a person's left and right eyes, varies across populations, and is unknown per se. In other words, a trained NN performs an averaging of this variation. Accordingly, a person-specific calibration can further increase the accuracy with regard to predictions.

Zweitens können Datensätzen von einem oder mehreren Kalibrierungsverfahren, die durch individuelle Benutzer durchgeführt werden, auf unterschiedliche Weise in Verbindung mit dem existierenden Kerndatenkorpus verwendet werden, um die Genauigkeit der Vorhersagen zu verbessern.Second, datasets from one or more calibration procedures performed by individual users can be used in different ways in conjunction with the existing core data corpus to improve the accuracy of the predictions.

Beispielsweise können gelabelte Kalibrierungsdaten von einem spezifischen Benutzer zum Feinabstimmen des universellen Netzes zu einem persönlichen Netz verwendet werden, das dann genauere Vorhersagen für diesen spezifischen Benutzer durchführt. Dies kann beispielsweise durch Nachtrainieren oder Nachoptimieren von Teilen des neuronalen Netzes, d. h. nur einer Teilmenge aller Parameter des universellen Netzes, erfolgen, um die Ground Truth dieses spezifischen Benutzers besser zu reproduzieren.For example, labeled calibration data from a specific user can be used to fine-tune the universal network into a personal network, which then makes more accurate predictions for that specific user. This can be done, for example, by retraining or reoptimizing parts of the neural network, i. H. only a subset of all parameters of the universal web, to better reproduce the ground truth of that specific user.

Drittens können gelabelte Kalibrierungsdatensätze von einer Vielzahl unterschiedlicher Benutzer im Laufe der Zeit zum Kerndatenkorpus selbst hinzugefügt werden (siehe strichpunktierter Pfeil in 5), wenn mehr Benutzer die Vorrichtungen 720 verwenden und Kalibrierungsverfahren durchführen. Das Volumen des Kerndatenkorpus kann auf diese Weise dynamisch anwachsen, und das universelle Netz kann in Intervallen verfeinert bzw. nachtrainiert werden, um ein noch genaueres universelles neuronales Netz bereitzustellen. Dies kann von Anfang an unter Verwendung des gestiegenen Trainingsdatenvolumens geschehen, wobei jedoch alle Modellparameter neu initialisiert werden, oder ein Nachtrainieren des universellen NN kann die vorherige Version der Parameter oder einen Teil davon als Initialisierung verwenden.Third, labeled calibration datasets can be added to the core data corpus itself over time by a variety of different users (see dashed-dotted arrow in 5 ) as more users use the devices 720 and perform calibration procedures. The volume of the core data corpus can grow dynamically in this way, and the universal Network can be refined or retrained at intervals to provide an even more accurate universal neural network. This can be done from the start using the increased training data volume but reinitializing all model parameters, or retraining the universal NN can use the previous version of the parameters or part of them as initialization.

Somit ergibt sich ein dreifacher Zusatzvorteil: Das Kalibrierungsverfahren kann die Genauigkeit für einen spezifischen Benutzer durch Erzeugen einer Korrekturfunktion Fcorr zum Anwenden auf die Vorhersage des universellen NN sofort verbessern, einer oder mehrere dieser Vorgängen können auch das universelle NN in ein genaueres persönliches Modell verwandeln, und durch einen oder viele Benutzer durchgeführte Kalibrierungsverfahren können sogar zum Verbessern der Datenbank DB und damit des universellen NN dienen, wovon alle Benutzer global sofort profitieren.Thus, there is a triple additional benefit: the calibration procedure can immediately improve the accuracy for a specific user by generating a correction function F corr to apply to the prediction of the universal NN, one or more of these operations can also turn the universal NN into a more accurate personal model, and calibration procedures performed by one or many users can even serve to improve the database DB and thus the universal NN, from which all users globally benefit immediately.

In einem Ausführungsbeispiel schließt das Kalibrierungsverfahren Anweisen eines Benutzers, der die Vorrichtung 720 trägt, auf einen bestimmten bekannten Markierungspunkt, ein Muster oder ein Objekt im Raum zu schauen, dessen Koordinaten in den durch eine Szenenkamera, die mit der Vorrichtung 720 verbunden ist oder durch diese bereitgestellt wird, aufgezeichneten Videobildern durch Techniken für maschinelles Lernen, Computervision oder Bilderkennung des Stands der Technik präzise automatisch bestimmt werden können (Block 7253 in 6). Das Bild oder die Bilder, die durch die Kameras aufgezeichnet werden, die dem bzw. den Augen des Benutzers zugewandt sind, werden in Block 7251 verwendet, um die Blickrichtung (den Blickpunkt) des Benutzers vorherzusagen. Der Versatz der vorhergesagten Blickrichtung (Blickpunkt) gpr und der erwarteten Blickrichtung (Blickpunkt) ge, die durch die Markierungsposition definiert ist, kann dann in einem Block 7254 berechnet und verwendet werden, um eine Korrekturabbildung oder -funktion Fcorr zum nunmehrigen Anwenden (Block 7252) auf die Vorhersage des universellen NN zu erzeugen, um einen kalibrierten Blickwert gcpr zu ermitteln.In one embodiment, the calibration method includes instructing a user wearing device 720 to look at a particular known landmark, pattern, or object in space whose coordinates are determined by a scene camera associated with or through device 720 is provided, recorded video images can be precisely determined automatically using state-of-the-art machine learning, computer vision, or image recognition techniques (block 7253 in 6 ). The image or images recorded by the cameras facing the user's eye(s) are used in block 7251 to predict the user's gaze direction (point of view). The offset of the predicted gaze direction (gaze point) g pr and the expected gaze direction (gaze point) g e defined by the marker position can then be calculated in a block 7254 and used to generate a correction map or function F corr for now applying ( block 7252) upon the prediction of the universal NN to determine a calibrated gaze value gcpr .

Alternativ zu einem solchen expliziten Kalibrierungsverfahren kann ein implizites Kalibrierungsverfahren, wie beispielsweise auf Grundlage von vorherigen Betrachtungspunkten (z. B. Mauszeiger auf einem Computerbildschirm) oder Salienzkarten, angewandt werden.As an alternative to such an explicit calibration method, an implicit calibration method, such as based on previous viewpoints (e.g., mouse cursors on a computer screen) or salience maps, can be applied.

Mögliche Anwendungsszenarien, die Kalibrierung einschließen, sind daher wie folgt.Possible application scenarios involving calibration are therefore as follows.

Wenn ein neuer Benutzer die Vorrichtung 720 zum ersten Mal verwendet, kann dem Benutzer die Möglichkeit gegeben werden, eine Kalibrierung durchzuführen, deren Ergebnis in allen nachfolgenden Nutzungssitzungen verwendet wird (einmalige Kalibrierung). Alternativ kann dem Benutzer die Möglichkeit gegeben werden, zu Beginn jeder neuen Nutzungssitzung oder in bestimmte Zeitintervallen, z. B. täglich, eine Kalibrierung durchzuführen.When a new user uses the device 720 for the first time, the user can be given the opportunity to perform a calibration, the result of which will be used in all subsequent usage sessions (one-time calibration). Alternatively, the user can be given the opportunity at the beginning of each new usage session or at specific time intervals, e.g. B. daily to perform a calibration.

Alternativ können die Benutzer die Kalibrierung nach eigenem Willen aufrufen. Darüber hinaus können jedes Mal, wenn ein Benutzer eine Kalibrierung durchführt, die entsprechenden Kalibrierungsdatensätze automatisch an das Rechensystem 710 gesendet werden (wenn das nächste Mal eine Verbindung erfolgt). Entsprechend kann das Rechensystem 710 eines der Verfeinerungsverfahren (Aktualisieren der Datenbank DB, Nachtrainieren des Netzes tCNN) wie in dieser Schrift beschrieben durchführen. Dies kann auf anonymisierte Weise erfolgen, da nur Augenbilder und Ground-Truth-Koordinaten übertragen werden müssen.Alternatively, users can invoke the calibration at their own will. In addition, each time a user performs a calibration, the corresponding calibration records can be automatically sent to the computing system 710 (next time a connection is made). Correspondingly, the computing system 710 can perform one of the refinement methods (updating the database DB, retraining the network tCNN) as described in this document. This can be done in an anonymous way since only eye images and ground truth coordinates need to be transmitted.

Die beschriebenen Kalibrierungsverfahren ergeben Paare von Bildern, die mit der Ground-Truth-Blickposition gelabelt sind und verwendet werden können, um das universelle NN zu verbessern, wie oben beschrieben.The calibration methods described yield pairs of images labeled with the ground truth gaze position that can be used to improve the universal NN as described above.

Neben diesen gelabelten Bildern ist es jedoch wahlweise möglich, auch Bilder in Datensätzen zu sammeln und zu speichern, die im alltäglichen Gebrauch erlangt werden. Diese Datensätzen können nicht mit der Ground-Truth-Blickposition gelabelt werden, da diese Information außerhalb des Kalibrierungsmodus nicht verfügbar ist. Ein großer Korpus ungelabelter Daten ergibt jedoch trotzdem Informationen zu der enthaltenen Bilddiversität. Techniken aus den Gebieten des unüberwachten oder halbüberwachten Einlernens können benutzt werden, um diese Informationen zu beziehen, um das universelle Modell oder ein personenspezifisches in ähnlicher Weise wie oben beschrieben Modell zu verbessern.In addition to these labeled images, however, it is optionally possible to also collect and store images in data sets that are obtained in everyday use. These datasets cannot be labeled with the ground truth gaze position as this information is not available outside of calibration mode. However, a large corpus of unlabeled data still provides information on the image diversity it contains. Techniques from the fields of unsupervised or semi-supervised learning can be used to obtain this information to enhance the universal model or an individual-specific model in a manner similar to that described above.

Um es einem neuen Benutzer der Vorrichtung 720 zu erleichtern, sein personenspezifisches Modell zur Blickschätzung zusammen mit anderen Hyperparametern zu verwenden, die in seinem Profil eingestellt sein können, ist es möglich, eine automatische Benutzeridentifikation zu nutzen und das Profil des Benutzers zu laden, ohne dass dieser es aktiv auswählen muss.In order to make it easier for a new user of the device 720 to use his person-specific model for gaze estimation together with other hyperparameters that may be set in his profile, it is possible to use automatic user identification and load the user's profile without the who must actively select it.

Die Benutzeridentifikation kann auf einem separaten lernbasierten Algorithmus beruhen. Als Trainingsdaten für diesen Algorithmus können die Trainingsdaten von allen bekannten Benutzern einer bestimmten Instanz einer tragbaren Vorrichtung verwendet werden, die entweder durch Kalibrierungen oder im alltäglichen Gebrauch gesammelt werden.The user identification can be based on a separate learning-based algorithm. As training data for this algorithm, the training data from all known users of a particular instance of a handheld device, either by calibr ments or collected in everyday use.

Da die Anzahl regulärer Benutzer einer spezifischen Instanz einer tragbaren Vorrichtung 720 klein ist, beispielsweise unter 50, reicht ein einfacher gebrauchsfertiger Lernalgorithmus wie etwa eine Support-Vektor-Maschine oder ein Random Forest aus, um den Benutzeridentifikator zu trainieren.Since the number of regular users of a specific instance of a handheld device 720 is small, for example under 50, a simple off-the-shelf learning algorithm such as a support vector machine or random forest suffices to train the user identifier.

Ferner ermöglicht das Identifizieren des Benutzers auch Erfassen a) von neuen Benutzern, die noch nicht kalibriert wurden, und b) wann der aktuelle Benutzer zuletzt kalibriert hat. In beiden Fällen kann der Benutzer sich dann entscheiden, eine Kalibrierung durchzuführen, bzw. die Vorrichtung kann dem identifizierten Benutzer eine Kalibrierung vorschlagen.Furthermore, identifying the user also allows detecting a) new users who have not yet been calibrated and b) when the current user last calibrated. In both cases, the user can then decide to perform a calibration, or the device can suggest a calibration to the identified user.

Die Vorrichtung kann auch in anderen Konfigurationen als in Form einer Brille verkörpert sein, wie beispielsweise als integriert in das Nasenstück oder die Rahmenbaugruppe eines am Kopf getragenen AR- oder VR-Displays (head mounted display - HMD) oder einer Korbbrille oder ähnlichen Vorrichtung, oder als eine separate Nasenklemmenergänzung oder ein separates Modul zur Verwendung mit solchen Vorrichtungen. In diesem Fall kann die Einspeisung des optischen Sensors in einen Mehrzweck-Computervisionsverarbeitungschip erfolgen, der die CNN-Berechnung zur Blickschätzung neben anderen Aufgaben im Zusammenhang mit dem AR-/VR-Erlebnis übernimmt. Dies könnten auch ein dedizierter Chip sein, der ausschließlich (CNN-basierte) Blickschätzung durchführt, wobei der Chip jedoch auf einer PCB vorhanden ist (oder von dieser angesteuert wird), die auch andere HMD-Komponenten hostet. Das System kann somit auch eine Anzeigevorrichtung oder einen Bildschirm zum Präsentieren von Informationen an den Benutzer einschließen. Die in dieser Schrift beschriebenen Verfahren gelten ohne Anpassung an eine solche alternative Vorrichtung und/oder ein solches alternatives SystemThe device may also be embodied in configurations other than eyeglasses, such as integrated into the nosepiece or frame assembly of a head-mounted AR or VR display (HMD) or goggles or similar device, or as a separate nose clip supplement or module for use with such devices. In this case, the optical sensor feed can be fed into a general-purpose computer vision processing chip that handles the CNN calculation for gaze estimation among other tasks related to the AR/VR experience. This could also be a dedicated chip that only performs (CNN-based) gaze estimation, but with the chip residing on (or driven by) a PCB that also hosts other HMD components. The system can thus also include a display device or screen for presenting information to the user. The methods described herein apply without adaptation to such alternative apparatus and/or system

Gemäß einer Ausführungsform weist ein System zum Verbessern der Vorhersage von blickbezogenen Parametern mindestens eine am Kopf anbringbare Vorrichtung und ein Rechensystem auf, das mit der mindestens einen am Kopf anbringbaren Vorrichtung verbindbar und dazu konfiguriert ist, eine Datenbank zu hosten. Die mindestens eine am Kopf anbringbare Vorrichtung weist eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers auf, wenn der Benutzer die am Kopf anbringbare Vorrichtung trägt. Das Rechensystem und die mindestens eine am Kopf anbringbare Vorrichtung sind dazu konfiguriert, Datensätze von der mindestens einen am Kopf anbringbaren Vorrichtung auf die erste Datenbank hochzuladen und die Parameter eines neuronalen Netzes, insbesondere Parameter eines neuronalen Faltungsnetzes, von dem Rechensystem auf die mindestens eine am Kopf anbringbare Vorrichtung herunterzuladen. Die Datensätze schließen ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation eines blickbezogenen Parameters ein. Das Rechensystem ist typischerweise ferner dazu konfiguriert, die Datenbank zum Trainieren des neuronalen Netzes und/oder Bestimmen der Parameter des neuronalen Netzes zu verwenden.According to one embodiment, a system for improving the prediction of gaze-related parameters comprises at least one head-mountable device and a computing system connectable to the at least one head-mountable device and configured to host a database. The at least one head-mountable device includes a first camera for generating a left image of at least a portion of a user's left eye and a second camera for generating a right image of at least a portion of a user's right eye when the user uses the am carries head attachable device. The computing system and the at least one head-mountable device are configured to upload data sets from the at least one head-mountable device to the first database and the neural network parameters, in particular parameters of a convolutional neural network, from the computing system to the at least one head-mountable device download attachable device. The data sets include a respective left image, a respective right image, and a respective representation of a gaze-related parameter. The computing system is typically further configured to use the database to train the neural network and/or determine the parameters of the neural network.

Obwohl verschiedene Ausführungsbeispiele der Erfindung offenbart wurden, wird es für den Fachmann auf der Hand liegen, dass verschiedene Änderungen und Abwandlungen vorgenommen werden können, die einige der Vorteile der Erfindung erzielen, ohne von Geist und Umfang der Erfindung abzuweichen. Der Durchschnittsfachmann wird erkennen, dass andere Komponenten, die die gleichen Funktionen erfüllen in geeigneter Weise ersetzt werden können. Es sei erwähnt, dass Merkmale, die unter Bezugnahme auf eine spezifische Figur erläutert wurden, mit Merkmalen anderer Figuren kombiniert werden können, und zwar selbst dann, wenn dies nicht ausdrücklich erwähnt wurde. Derartige Abwandlungen am erfinderischen Gedanken sollen durch die beigefügten Ansprüche abgedeckt sein.While various embodiments of the invention have been disclosed, it will be apparent to those skilled in the art that various changes and modifications can be made that will achieve some of the advantages of the invention without departing from the spirit and scope of the invention. Those of ordinary skill in the art will recognize that other components that perform the same functions may be appropriately substituted. It should be mentioned that features explained with reference to a specific figure can be combined with features of other figures, even if this is not explicitly mentioned. Such modifications to the inventive idea are intended to be covered by the appended claims.

Obwohl in den Figuren Prozesse möglicherweise in einer bestimmten Reihenfolge dargestellt wurden, ist dies, soweit nicht anders angegeben, nicht so auszulegen, dass diese Vorgänge in der bestimmten gezeigten Reihenfolge oder aufeinanderfolgend durchgeführt werden müssen, um die wünschenswerten Ergebnisse zu erzielen. Unter bestimmten Umständen können Multitasking und/oder parallele Verarbeitung vorteilhaft sein.Although processes may have been presented in the figures in a particular order, unless otherwise noted, it is not to be construed that these operations must be performed in the particular order shown or sequentially in order to obtain desirable results. In certain circumstances, multitasking and/or parallel processing may be beneficial.

Relative räumliche Begriffe wie „unter“ „unterhalb“, „niedriger“, „über“, „oberhalb“ und dergleichen werden zur vereinfachten Beschreibung verwendet, um die Positionierung eines Elements im Verhältnis zu einem zweiten Element zu erläutern. Diese Begriffe sollen unterschiedliche Ausrichtungen der Vorrichtung sowie andere Ausrichtungen als die in den Figuren dargestellten einschließen. Ferner werden auch Begriffe wie „erste“, „zweite“ und dergleichen zum Beschreiben verschiedener Elemente, Bereiche, Abschnitte usw. verwendet und sollen ebenfalls nicht einschränkend sein. In der Beschreibung werden durchgängig gleiche Begriffe für gleiche Elemente verwendet.Relative spatial terms such as "below," "beneath," "lower," "above," "above," and the like are used for ease of description to explain the positioning of one element relative to a second element. These terms are intended to encompass different orientations of the device, as well as different orientations than those depicted in the figures. Further, terms such as "first," "second," and the like are also used to describe various elements, regions, sections, etc., and are also not intended to be limiting. Throughout the description, the same terms are used for the same elements.

Im hier verwendeten Sinne sind die Begriffe „aufweisend“, „enthaltend“, „einschließend“, „umfassend“ und dergleichen offene Begriffe, die das Vorhandensein der genannten Elemente oder Merkmale angeben, aber keine weiteren Elemente oder Merkmale ausschließen. Die Artikel „ein“, „eine“, „der“, „die“, „das“ sollen sowohl den Plural als auch den Singular einschließen, soweit der Kontext nicht eindeutig etwas anderes vorgibt.As used herein, the terms “comprising,” “including,” “including,” “comprising.” send" and similar open-ended terms that indicate the presence of the named elements or features but do not exclude any other elements or features. The articles "a", "an", "the", "the", "the" are intended to include both the plural and the singular, unless the context clearly dictates otherwise.

In Anbetracht der verschiedenen Variationen und Anwendungen versteht es sich, dass die vorliegende Erfindung nicht auf die vorstehende Beschreibung beschränkt ist und auch nicht durch die begleitenden Zeichnungen eingeschränkt wird. Stattdessen wird die vorliegende Erfindung nur durch die nachfolgenden Ansprüche und ihre zulässigen Äquivalente eingeschränkt.With the various variations and applications in mind, it should be understood that the present invention is not limited to the foregoing description, nor is it limited by the accompanying drawings. Instead, the present invention is to be limited only by the following claims and their legal equivalents.

BezugszeichenlisteReference List

11
Brillenvorrichtungglasses device
22
Brillenkörperglasses body
33
Nasenbrückenabschnittnose bridge section
44
RahmenFrame
55
Beleuchtungseinrichtunglighting device
66
Szenenkamerascene camera
77
Verarbeitungseinheit processing unit
1010
linke Seiteleft side
1111
linke Okularöffnungleft eyepiece opening
1212
linker seitlicher Abschnittleft lateral section
1313
linker Halterleft holder
1414
linke Kameraleft camera
1515
optische Achse (linke Kamera)optical axis (left camera)
1616
1717
linke innere Augenkameraanordnungszoneleft inner eye camera placement zone
1818
linke äußere Augenkameraanordnungszoneleft outer eye camera placement zone
1919
linkes Auge left eye
2020
rechte Seiteright side
2121
rechte Okularöffnungright eyepiece opening
2222
rechter seitlicher Abschnittright lateral section
2323
rechter Halterright holder
2424
rechte Kameraright camera
2525
optische Achse (rechte Kamera)optical axis (right camera)
2626
2727
rechte innere Augenkameraanordnungszoneright inner eye camera placement zone
2828
linke äußere Augenkameraanordnungszoneleft outer eye camera placement zone
2929
rechtes Auge right eye
3030
Begrenzungsquaderbounding box
3131
linke Seitenflächeleft side face
3232
rechte Seitenflächeright side face
3333
obere Flächeupper surface
3434
untere Fläche lower surface
100100
mittlere Ebenemiddle level
101101
horizontale Richtunghorizontal direction
102102
vertikale Richtungvertical direction
103103
abwärtsdown
104104
aufwärtsupwards
105105
vornein front
106106
hinten rear
aa
Winkel der inneren linken Kamera 14Inner left camera angle 14
ββ
Winkel der inneren rechten Kamera 24 Inner right camera angle 24
γg
Winkel der äußeren linken Kamera 24Left outer camera angle 24
δδ
Winkel der äußeren rechten Kamera 24 Right outer camera angle 24
500-502500-502
Systemsystem
510510
Rechensystem/Servercomputing system/server
520, 530520, 530
am Kopf tragbare Brillenvorrichtunghead wearable eyewear device
525, 535525, 535
Verarbeitungseinheitprocessing unit
>= 1000>= 1000
Verfahren, VerfahrensschritteProcess, process steps

Claims (19)

System aufweisend: - eine am Kopf tragbare Vorrichtung, die eine linke Kamera zur Aufnahme eines linken Bildes von mindestens einem Teil eines linken Auges eines Benutzers, der die am Kopf tragbare Vorrichtung trägt, und eine rechte Kamera zur Aufnahme eines rechten Bildes von mindestens einem Teil eines rechten Auges des Benutzers, der die am Kopf tragbare Vorrichtung trägt, umfasst; und - eine Verarbeitungseinheit, die konfiguriert ist zum: ◯ Erhalten des linken Bildes; ◯ Erhalten des rechten Bildes; ◯ gemeinsames Eingeben des linken und des rechten Bildes in ein neuronales Faltungsnetzwerk; und ◯ Erhalten eines oder mehrerer blickbezogener Parameter von dem neuronalen Faltungsnetzwerk als Ergebnis des gemeinsamen Eingebens des linken und rechten Bildes.A system comprising: - a head-mounted device having a left camera for capturing a left image of at least a portion of a left eye of a user wearing the head-worn device and a right camera for capturing a right image of at least a portion a right eye of the user wearing the head-mounted device; and - a processing unit configured to: ◯ obtain the left image; ◯ Obtaining the right image; ◯ inputting the left and the right image together into a convolutional neural network; and ◯ obtaining one or more gaze-related parameters from the convolutional neural network as a result of inputting the left and right images together. System nach Anspruch 1, wobei der jeweilige blickbezogene Parameter mit mindestens einem Element einer Liste in Beziehung steht und/oder aus der Liste ausgewählt ist, wobei die Liste besteht aus: einer Blickrichtung, einer zyklopischen Blickrichtung, einem 3D-Blickpunkt, einem 2D-Blickpunkt, einer Sichtachsenorientierung, einer optischen Achsenorientierung, einer Pupillenachsenorientierung, einer Sichtlinienorientierung, einer Orientierung und/oder einer Position und/oder einem Lidschluss, einer Pupillenfläche, einer Pupillengröße, einem Pupillendurchmesser, einem Skleramerkmal, einem Irisdurchmesser, einem Merkmal eines Blutgefäßes, einem Hornhautmerkmal mindestens eines Auges, einem Hornhautradius, einem Augapfelradius, einem Abstand Pupillenmitte zu Hornhautmitte, einem Abstand Hornhautmitte zu Augapfelmitte, einem Abstand Pupillenmitte zu Limbusmitte, einem keratometrischen Brechungsindex der Hornhaut, einem Brechungsindex der Hornhaut, einem Brechungsindex des Glaskörpers, einem Abstand der kristallinen Linse zur Augapfelmitte, zur Hornhautmitte und/oder zum Hornhautapex, einem Brechungsindex der kristallinen Linse, einem Grad von Astigmatismus, einem Orientierungswinkel einer horizontalen und/oder einer vertikalen Achse, einer Haupt- und/oder Nebenachsenorientierung des Limbus, einer Cyclotorsion des Auges, eines intraokularen Abstand des Auges, einer Augenvergenz, einer Statistik über die Augenadduktion und/oder Augenabduktion und einer Statistik über die Augenerhebung und/oder Augensenkung, Daten über Blinzelereignisse, Benommenheit und/oder Bewusstsein des Benutzers, und einem Parameter für die Überprüfung und/oder Identifizierung der Iris des Benutzers.system after claim 1 , wherein the respective gaze-related parameter is related to at least one element of a list and/or is selected from the list, the list consisting of: a gaze direction, a cyclopean gaze direction, a 3D viewpoint, a 2D viewpoint, a viewing axis orientation, an optical axis orientation, a pupil axis orientation, a line of sight orientation, an orientation and/or a position and/or a lid closure, a pupil area, a pupil size, a pupil diameter, a sclera feature, an iris diameter, a feature of a blood vessel, a corneal feature of at least one eye, a corneal radius, an eyeball radius, a distance from the center of the pupil to the center of the cornea, a distance from the center of the cornea to the center of the eyeball, a distance from the center of the pupil to the center of the limbus, a keratometric refractive index of the cornea, a refractive index of the cornea, a refractive index of the vitreous humor, a distance of the crystalline n lens to the center of the eyeball, to the center of the cornea and/or to the corneal apex, a refractive index of the crystalline lens, a degree of astigmatism, an orientation angle of a horizontal and/or a vertical axis, a major and/or minor axis orientation of the limbus, a cyclotorsion of the eye, an eye intraocular distance, eye vergence, eye adduction and/or eye abduction statistics, and eye elevation and/or eye depression statistics, data on blink events, drowsiness and/or awareness of the user, and a parameter for verification and/or Identification of the user's iris. System nach Anspruch 1 oder 2, wobei die erste und die zweite Kamera in einem Bereich von 32 bis 40 Grad, vorzugsweise 34 bis 38 Grad, insbesondere 36 Grad in Bezug auf eine Mittelebene der am Kopf tragbaren Vorrichtung ausgerichtet sind.system after claim 1 or 2 wherein the first and second cameras are oriented in a range of 32 to 40 degrees, preferably 34 to 38 degrees, more preferably 36 degrees with respect to a median plane of the head-worn device. System nach Anspruch 1 oder 2, wobei die erste und die zweite Kamera in einem Bereich von 114 bis 122, vorzugsweise 116 bis 120, vorzugsweise 118 Grad in Bezug auf eine Mittelebene der am Kopf tragbaren Vorrichtung ausgerichtet sind.system after claim 1 or 2 wherein the first and second cameras are oriented in a range of 114 to 122, preferably 116 to 120, preferably 118 degrees with respect to a median plane of the head-worn device. System nach einem der vorhergehenden Ansprüche, wobei die Verarbeitungseinheit so konfiguriert ist, dass sie das linke und das rechte Bild vor dem Eingeben in das neuronale Faltungsnetzwerk verkettet.A system as claimed in any preceding claim, wherein the processing unit is configured to concatenate the left and right images before inputting them to the convolution neural network. System nach einem der vorhergehenden Ansprüche, wobei die Verarbeitungseinheit so konfiguriert ist, dass sie das linke und das rechte Bild dem neuronale Faltungsnetzwerk als gemeinsame Eingabe zuführt, insbesondere ohne das linke und das rechte Bild vorzuverarbeiten, um räumliche und/oder zeitliche Muster oder Anordnungen zu erhalten.System according to any one of the preceding claims, wherein the processing unit is configured to feed the left and right images to the convolutional neural network as common input, in particular without preprocessing the left and right images to spatial and/or temporal patterns or arrangements receive. System nach Anspruch 6, wobei die Verarbeitungseinheit so konfiguriert ist, dass sie die linken und rechten Bilder ohne vorherige Merkmalsextraktion dem neuronale Faltungsnetzwerk als Eingabe zuführt.system after claim 6 , wherein the processing unit is configured to supply the left and right images as input to the convolutional neural network without prior feature extraction. System nach einem der vorhergehenden Ansprüche, wobei die Verarbeitungseinheit so konfiguriert ist, dass sie das Ergebnis als Ausgabe des neuronalen Faltungsnetzes ohne Nachbearbeitung und/oder als Ausgabe einer Ausgangsschicht des neuronalen Faltungsnetzes erhält.System according to any one of the preceding claims, wherein the processing unit is configured to receive the result as an output of the convolutional neural network without post-processing and/or as an output of an output layer of the convolutional neural network. Das System nach einem der vorhergehenden Ansprüche, wobei das neuronale Faltungsnetzwerk mindestens 6 Schichten und vorzugsweise mehr als 10 Schichten umfasst.The system according to any one of the preceding claims, wherein the convolutional neural network comprises at least 6 layers and preferably more than 10 layers. System nach Anspruch 9, wobei das neuronale Faltungsnetzwerk zwischen 12 und 30 Schichten, vorzugsweise zwischen 16 und 20 Schichten, umfasst.system after claim 9 , wherein the convolutional neural network comprises between 12 and 30 layers, preferably between 16 and 20 layers. System nach einem der vorhergehenden Ansprüche, wobei das neuronale Faltungsnetzwerk eine zweidimensionale Eingabeschicht umfasst.A system according to any one of the preceding claims, wherein the convolutional neural network comprises a two-dimensional input layer. System nach Anspruch 11, wobei die Eingabeschicht eine Nx2N-Matrix ist.system after claim 11 , where the input layer is an Nx2N matrix. System nach Anspruch 12, wobei N kleiner oder gleich 50, vorzugsweise kleiner oder gleich 30, insbesondere kleiner oder gleich 20 ist.system after claim 12 , where N is less than or equal to 50, preferably less than or equal to 30, in particular less than or equal to 20. Das System nach einem der vorhergehenden Ansprüche, wobei das neuronale Faltungsnetzwerk einen Filterkern der Größe M hat, wobei M im Bereich von 2 bis 6, vorzugsweise 3 bis 5, liegt.The system of any preceding claim, wherein the convolutional neural network has a filter kernel of size M, where M is in the range 2-6, preferably 3-5. Das System nach einem der vorhergehenden Ansprüche, wobei die Verarbeitungseinheit konfiguriert ist, das faltbare neuronale Netz zu implementieren, und/oder wobei die Verarbeitungseinheit eine oder mehrere Hardwarekomponenten umfasst, die besonders für den Betrieb von faltbaren neuronalen Netzen geeignet sind, wie beispielsweise eine GPU.The system of any preceding claim, wherein the processing unit is configured to implement the foldable neural network, and/or wherein the processing unit comprises one or more hardware components particularly suited for the operation of foldable neural networks, such as a GPU. Das System nach einem der vorhergehenden Ansprüche, wobei die Verarbeitungseinheit in das am Kopf tragbare Gerät integriert ist.The system of any preceding claim, wherein the processing unit is integrated into the head-worn device. System nach Anspruch 16, wobei es sich bei der am Kopf tragbaren Vorrichtung um eine entsprechende Brillenvorrichtung handelt und/oder wobei die Verarbeitungseinheit in ein Standard-Brillengestell integriert ist.system after Claim 16 , wherein the head-worn device is a corresponding eyeglass device and/or wherein the processing unit is integrated into a standard eyeglass frame. Das System nach einem der Ansprüche 1 bis 15, wobei die Verarbeitungseinheit in einen Desktop-Computer, einen Server, ein Smartphone, ein Tablet oder einen Laptop integriert ist.The system according to one of the Claims 1 until 15 , wherein the processing unit is integrated into a desktop computer, a server, a smartphone, a tablet or a laptop. Computerprogrammprodukt oder ein computerlesbares Speichermedium, das Anweisungen umfasst, die, wenn sie von einem oder mehreren Prozessoren einer Verarbeitungseinheit eines Systems ausgeführt werden, das eine am Kopf tragbare Vorrichtung umfasst, die mit der Verarbeitungseinheit verbunden ist und/oder die Verarbeitungseinheit bereitstellt, wobei die am Kopf tragbare Vorrichtung eine erste Kamera und eine zweite Kamera zum Erzeugen von Augenbildern eines Benutzers umfasst, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt, das System veranlassen zum: ◯ Erzeugen eines linken Bildes von mindestens einem Teil eines linken Auges des Benutzers unter Verwendung der ersten Kamera; ◯ Erzeugen eines rechten Bildes von zumindest einem Teil eines rechten Auges des Benutzers unter Verwendung der zweiten Kamera; ◯ gemeinsamen Eingeben des linken und des rechten Bildes in ein neuronales Faltungsnetzwerk, insbesondere in eine zweidimensionale Eingabeschicht des neuronalen Faltungsnetzwerks; und ◯ Erhalten eines oder mehrerer blickbezogener Parameter vom dem neuronalen Faltungsnetzwerk als Ergebnis des gemeinsamen Eingebens des linken und rechten Bildes.A computer program product or a computer-readable storage medium comprising instructions which, when executed by one or more processors of a processing unit of a system comprising a head-worn device connected to the processing unit and/or providing the processing unit, wherein the am A headwear device comprises a first camera and a second camera for generating eye images of a user when the user is wearing the headwear device, causing the system to: ◯ generating a left image of at least a portion of a left eye of the user using the first camera; ◯ generating a right image of at least part of a right eye of the user using the second camera; ◯ inputting the left and the right image together into a neural convolution network, in particular into a two-dimensional input layer of the neural convolution network; and ◯ Obtain one or more gaze-related parameters from the convolutional neural network as a result of inputting the left and right images together.
DE202018006796.2U 2018-02-09 2018-02-09 System for predicting gaze-related parameters Active DE202018006796U1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE202018006796.2U DE202018006796U1 (en) 2018-02-09 2018-02-09 System for predicting gaze-related parameters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE202018006796.2U DE202018006796U1 (en) 2018-02-09 2018-02-09 System for predicting gaze-related parameters

Publications (1)

Publication Number Publication Date
DE202018006796U1 true DE202018006796U1 (en) 2022-12-22

Family

ID=84890234

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202018006796.2U Active DE202018006796U1 (en) 2018-02-09 2018-02-09 System for predicting gaze-related parameters

Country Status (1)

Country Link
DE (1) DE202018006796U1 (en)

Similar Documents

Publication Publication Date Title
US11556741B2 (en) Devices, systems and methods for predicting gaze-related parameters using a neural network
EP3750028B1 (en) Devices, systems and methods for predicting gaze-related parameters
EP3749172B1 (en) Devices, systems and methods for predicting gaze-related parameters
EP3956721B1 (en) Determination of at least one optical parameter of a spectacle lens
DE102018102194A1 (en) Electronic equipment, information processing and program
DE202014011502U1 (en) Computer-controlled refraction and astigmatism determination
EP3332284A1 (en) Method and apparatus for data capture and evaluation of ambient data
EP3924710B1 (en) Method and device for measuring the local refractive power and/or refractive power distribution of a spectacle lens
Nair et al. RIT-Eyes: Rendering of near-eye images for eye-tracking applications
Schenck et al. Grasping of extrafoveal targets: A robotic model
US9760772B2 (en) Eye image stimuli for eyegaze calibration procedures
DE202018006796U1 (en) System for predicting gaze-related parameters
DE202018006799U1 (en) System for improving the predictions of gaze-related parameters
DE102022113648A1 (en) TRANSPARENT MISSION IDENTIFICATION
US20220198789A1 (en) Systems and methods for determining one or more parameters of a user's eye
US11776315B2 (en) Appearance based dominant eye selector systems and methods for gaze estimation from passive imagery
Lindén Calibration in deep-learning eye tracking
DE112018006367T5 (en) Information processing device, information processing method and program.
US20240119594A1 (en) Determining Digital Markers Indicative of a Neurological Condition Using Eye Movement Parameters
US20230089522A1 (en) Intelligent extended reality eyewear
Zhang Computer Vision Overview
DE102022208561A1 (en) ACCESSORIES DETECTION AND DETERMINATION FOR AVATAR REGISTRATION
KR20230085614A (en) Virtual reality apparatus for setting up virtual display and operation method thereof
CN117373075A (en) Emotion recognition data set based on eye feature points and eye region segmentation results
CA3219089A1 (en) Obtaining high-resolution oculometric parameters

Legal Events

Date Code Title Description
R150 Utility model maintained after payment of first maintenance fee after three years
R207 Utility model specification
R151 Utility model maintained after payment of second maintenance fee after six years