DE202018006799U1 - System zum Verbessern der Vorhersagen blickbezogener Parameter - Google Patents

System zum Verbessern der Vorhersagen blickbezogener Parameter Download PDF

Info

Publication number
DE202018006799U1
DE202018006799U1 DE202018006799.7U DE202018006799U DE202018006799U1 DE 202018006799 U1 DE202018006799 U1 DE 202018006799U1 DE 202018006799 U DE202018006799 U DE 202018006799U DE 202018006799 U1 DE202018006799 U1 DE 202018006799U1
Authority
DE
Germany
Prior art keywords
user
gaze
camera
head
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202018006799.7U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pupil Labs GmbH
Original Assignee
Pupil Labs GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pupil Labs GmbH filed Critical Pupil Labs GmbH
Priority to DE202018006799.7U priority Critical patent/DE202018006799U1/de
Publication of DE202018006799U1 publication Critical patent/DE202018006799U1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features

Abstract

System zum Verbessern der Vorhersage von blickbezogenen Parametern, wobei das System umfasst:
- eine am Kopf tragbare Vorrichtung, die eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Teil eines linken Auges eines ersten Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Teil eines rechten Auges des ersten Benutzers umfasst, wenn der erste Benutzer die am Kopf tragbare Vorrichtung trägt;
- eine Verarbeitungseinheit, die mit der ersten Kamera und der zweiten Kamera verbunden werden kann und so konfiguriert ist, dass sie einen vorhergesagten Wert eines blickbezogenen Parameters des ersten Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe eines trainierten neuronalen Netzes bestimmt; und
- ein Rechensystem, das mit der Verarbeitungseinheit verbunden werden kann und so konfiguriert ist, dass es eine Datenbank hosten kann und ein neuronales Netz unter Verwendung der Datenbank trainieren kann, um das trainierte neuronale Netz zu erhalten und/oder zu verbessern;
- wobei das System konfiguriert ist zum:
◯ Präsentieren eines ersten Stimulus für den ersten Benutzer, der die am Kopf tragbare Vorrichtung trägt, wobei der erste Stimulus den ersten Benutzer dazu anleitet, auf ein Objekt zu blicken, das eine Blickrichtung relativ zu einem mit der am Kopf tragbaren Vorrichtung fixierten Koordinatensystem und/oder einem Blickpunkt in dem Koordinatensystem definiert;
◯ Verwenden der ersten Kamera der am Kopf tragbaren Vorrichtung, um, wenn erwartet wird, dass der erste Benutzer auf den ersten Stimulus reagiert oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, ein erstes linkes Bild von mindestens einem Teil des linken Auges des ersten Benutzers zu erzeugen, und Verwenden der zweiten Kamera der am Kopf tragbaren Vorrichtung, wenn erwartet wird, dass der erste Benutzer auf den ersten Stimulus reagiert oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, um ein erstes rechtes Bild von mindestens einem Teil des rechten Auges des ersten Benutzers zu erzeugen;
◯ Erzeugen eines ersten Datensatzes, der das erste linke Bild, das erste rechte Bild und eine erste Repräsentation eines blickbezogenen Parameters des ersten Benutzers umfasst, wobei die erste Repräsentation mit dem durch das Objekt definierten Blickpunkt und/oder der durch das Objekt definierten Blickrichtung korreliert ist; und
◯ Hinzufügen des ersten Datensatzes zur Datenbank, um eine aktualisierte Datenbank zu erstellen.

Description

  • TECHNISCHES GEBIET
  • Ausführungsformen der vorliegenden Erfindung betreffen ein System zum Verbessern der Vorhersage von blickbezogenen Parametern.
  • ALLGEMEINER STAND DER TECHNIK
  • Derzeitige am Kopf befestigte Augenverfolgungseinrichtungen (eye trackers) greifen häufig auf die explizite Extraktion von Merkmalen wie etwa einer Pupillenmitte, Infrarot(IR)-Lichtpunktposition oder Pupillenkonturen zurück. Die Merkmalsextraktion wird durch klassische Algorithmen der Computervision und Bildverarbeitung durchgeführt. Dann wird die Blickrichtung z. B. durch eine Regressionsfunktion mit den extrahierten Merkmalen als Eingaben geschätzt.
  • Die Merkmalsextraktion erfordert normalerweise hochauflösende Kameras, die relativ voluminös sind und sich kaum oder gar nicht auf vollständige und unsichtbare Weise in einen Brillenrahmen integrieren lassen. Die mangelnde Integration und Verdeckung des Sichtfelds (field-of-view - FOV) des Benutzers schränken die Akzeptanz und damit die Nutzbarkeit des Systems ein und können auch das Blickverhalten der Benutzer negativ beeinflussen, d. h. dieses Verhalten unnatürlich machen. Darüber hinaus erfordern derzeitige Systeme die Infrarotbeleuchtung des Auges, um die Aufgabe des Erfassens der Pupille zu erleichtern. Daher müssen IR-LEDs in der Nähe von Auge und Kamera angebracht sein, was die Sperrigkeit des Systems weiter erhöht. Ferner ist die Verarbeitung hochauflösender Bilder rechnerisch aufwändig. Diese Systeme erfordern daher einen Laptop oder zumindest einen kleinen tragbaren Computer, der zur Bildverarbeitung und Echtzeitschätzung des Blicks durch den Benutzer getragen wird. Auch wird eine beachtliche Bandbreite für die Datenübertragung benötigt. Kombiniert mit dem Gewicht der Kameras und der übrigen Teile der Vorrichtung (z. B. Kabel, Kamera-/USB-Adapter, Übertragungs-/Speichermodule usw.), die alle schwer auf dem Kopf des Benutzers lasten, sind längere Aufzeichnungen im Alltagsleben recht unbequem oder gar schmerzhaft. Hochauflösende Sensoren und anspruchsvolle Berechnungen bewirken wiederum eine hohe Leistungsaufnahme, die entweder aufgrund der Batteriekapazität der Aufzeichnungsdauer eine feste Grenze setzt oder die Bewegungsfreiheit des Benutzers einschränkt, da das System eine zusätzliche oder gar kabelgebundene Stromversorgung benötigt.
  • Darüber hinaus muss die Kamera bzw. müssen die Kameras sorgfältig an jede individuelle Gesichtsgeometrie angepasst werden, um z. B. eine zuverlässige Pupillenmerkmalserkennung zu ermöglichen, was zusätzliche Flexibilität auf Hardwareebene und Möglichkeiten zur manuellen Kameraeinstellung erfordert. Aus demselben Grund können Verlagerungen des Augenverfolgungs-Headsets derzeit die Blickschätzgenauigkeit negativ beeinflussen oder eine häufige (und mühsame) Nachkalibrierung durch den Benutzer erfordern.
  • Auch leiden bekannte am Kopf getragene Augenverfolgungseinrichtungen unter dem Nachteil, dass Streulicht aus der Umgebung, das durch die Augen des Testbenutzers reflektiert wird, die Augenverfolgungsfunktion negativ beeinflussen kann. Bei formbasierten Augenverfolgungsansätzen sind Kameras, die die Augen des Testbenutzers überwachen, möglicherweise nicht in der Lage, zwischen Merkmalen des Auges, die tatsächlich zur Verfolgung der Augenbewegung genutzt werden, und Merkmalen wie etwa Reflexionen zu unterscheiden, die sich aus den Lichtverhältnissen der Umgebung ergeben. Im Allgemeinen ist die Beleuchtungssituation nicht sehr gut definiert. Zuverlässige Augenverfolgung wird häufig durch Umgebungsbedingungen und unerwünschtes Streulicht beeinträchtigt, das den Verfolgungsmechanismus stört. Bekannte am Kopf getragene Augenverfolgungsvorrichtungen leiden in der Regel unter eingeschränkter Genauigkeit und Zuverlässigkeit.
  • Die existierenden Blickmesssysteme (eye gaze sensing systems) werden zudem aus zwei Hauptgründen alles andere als häufig in Verbraucher-Heimanwendungen benutzt. Ihre Kosten sind nach wie vor hoch und die meisten Systeme erfordern einen mühsamen und zeitaufwändigen Kalibrierungsprozess. Derzeitige Kalibrierungsprozesse können immer dann erforderlich sein, wenn sich der Kopf des Benutzers um mehr als eine Schwellenentfernung in Bezug auf das Eye-Tracking-Gerät von einer ursprünglichen Position wegbewegt, bei der das System kalibriert wurde. Aufgrund der Notwendigkeit, den Kopf still zu halten bzw. ein starres räumliches Verhältnis zwischen dem Eye-Tracking-Gerät und dem Kopf aufrechtzuerhalten oder häufig nachzukalibrieren, sind derzeitige am Kopf getragene Augenverfolgungssysteme mit merkmals- und/oder formbasierten Ansätzen im Verbraucherumfeld schwer zu verwenden.
  • Entsprechend besteht Bedarf an einer weiteren Verbesserung der Erkennung der Blickrichtung und anderer blickbezogener Parameter.
  • KURZDARSTELLUNG
  • Gemäß einer Ausführungsform weist ein System zum Verbessern der Vorhersage von blickbezogenen Parametern eine am Kopf tragbare Vorrichtung auf, die eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Teil eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Teil eines rechten Auges des Benutzers aufweist, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt. Außerdem weist das System eine Verarbeitungseinheit auf, die mit der ersten Kamera und der zweiten Kamera verbunden werden kann und eingerichtet ist, einen vorhergesagten Wert eines blickbezogenen Parameters des Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe eines trainierten neuronalen Netzes zu bestimmen. Zudem weist das System ein Rechensystem auf, das mit der Verarbeitungseinheit verbunden werden kann und eingerichtet ist, eine Datenbank zu hosten und ein neuronales Netz unter Verwendung der Datenbank zu trainieren, um das trainierte neuronale Netz zu erhalten und/oder zu verbessern. Das System ist eingerichtet zum:
    • ◯ Präsentieren eines ersten Stimulus für den Benutzer, der die am Kopf tragbare Vorrichtung trägt, wobei der erste Stimulus den Benutzer dazu anleitet, auf ein Objekt zu blicken, das eine Blickrichtung relativ zu einem mit der am Kopf tragbaren Vorrichtung fixierten Koordinatensystem und/oder einem Blickpunkt in dem Koordinatensystem definiert,
    • ◯ Verwenden der ersten Kamera der am Kopf tragbaren Vorrichtung, um, wenn erwartet wird, dass der Benutzer auf den ersten Stimulus reagiert oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, ein erstes linkes Bild von mindestens einem Teil des linken Auges des Benutzers zu erzeugen, und Verwenden der zweiten Kamera der am Kopf tragbaren Vorrichtung, wenn erwartet wird, dass der Benutzer auf den ersten Stimulus reagiert oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, um ein erstes rechtes Bild von mindestens einem Teil des rechten Auges des Benutzers zu erzeugen;
    • ◯ Erzeugen eines ersten Datensatzes, der das erste linke Bild, das erste rechte Bild und eine erste Repräsentation eines blickbezogenen Parameters des Benutzers umfasst, wobei die erste Repräsentation mit dem durch das Objekt definierten Blickpunkt und/oder der durch das Objekt definierten Blickrichtung korreliert ist; und/oder
    • ◯ Hinzufügen des ersten Datensatzes zur Datenbank, um eine aktualisierte Datenbank zu erstellen.
  • Gemäß einer Ausführungsform weist ein System (zur Vorhersage eines oder mehrerer blickbezogener Parameter) eine am Kopf tragbare Vorrichtung auf, die eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Teil eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Teil eines rechten Auges des Benutzers aufweist, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt. Außerdem weist das System eine Verarbeitungseinheit auf, die mit der ersten und zweiten Kamera verbindbar ist und im verbundenen Zustand eingerichtet ist zum
    • ◯ Erhalten des linken und des rechten Bildes (von der jeweiligen Kamera);
    • ◯ typischerweise gemeinsames Eingeben (Einspeisen) des linken und des rechten Bildes in ein neuronales Faltungsnetzwerk; und
    • ◯ Erhalten eines oder mehrerer blickbezogener Parameter von dem neuronalen Faltungsnetzwerk als Ergebnis des Eingebens des linken und rechten Bildes.
  • Gemäß einer Ausführungsform einer am Kopf tragbaren Brillenvorrichtung zum Bestimmen von einem oder mehreren blickbezogenen Parametern eines Benutzers weist die am Kopf tragbare Brillenvorrichtung eine linke Kamera zum Aufnehmen eines linken Bildes von mindestens einem Abschnitt eines linken Auges, eine rechte Kamera zum Aufnehmen eines rechten Bildes von mindestens eines Abschnitts eines rechten Auge des Benutzers und einen Brillenkörper auf, der eine mittlere Ebene aufweist und dazu konfiguriert ist, am Kopf eines Benutzers tragbar zu sein, und mindestens eine linke und eine rechte Okularöffnung (Augenöffnung) aufweist. Beide Okularöffnungen definieren einen Begrenzungsquader, der eine obere Fläche, eine untere Fläche, eine linke Seitenfläche und eine rechte Seitenfläche aufweist. Die obere Fläche des Begrenzungsquaders ist senkrecht zur mittleren Ebene des Brillenkörper ausgerichtet. Die Kameras sind am Brillenkörper in inneren Augenkameraanordnungszonen und/oder in äußeren Augenkameraanordnungszonen angeordnet. Die linke und die rechte innere Augenkameraanordnungszone sind in einem Nasenbrückenabschnitt des Brillenkörpers angeordnet und erstrecken sich zwischen 2 und 14 mm, insbesondere zwischen 3 und 12 mm, in eine jeweilige Richtung senkrecht zur mittleren Ebene. Die linke äußere Augenkameraanordnungszone befindet sich in einem linken seitlichen Abschnitt des Brillenkörpers und erstreckt sich um 6 mm, insbesondere 5 mm, genauer 4 mm, von der linken Seitenfläche des Begrenzungsquaders in Richtung der mittleren Ebene und erstreckt sich um 7 mm, insbesondere 6 mm, noch besonderer 5 mm, ausgehend von der linken Seitenfläche weg von der mittleren Ebene. Die rechte äußere Augenkameraanordnungszone befindet sich in einem rechten seitlichen Abschnitt des Brillenkörpers und erstreckt sich um 6 mm, insbesondere 5 mm, noch besonderer 4 mm, von der rechten Seitenfläche des Begrenzungsquaders in Richtung der mittleren Ebene und erstreckt sich um 7 mm, insbesondere 6 mm, noch besonderer 5 mm, ausgehend von der rechten Seitenfläche weg von der mittleren Ebene.
  • Gemäß einer Ausführungsform einer am Kopf tragbaren Brillenvorrichtung zum Bestimmen von einem oder mehreren blickbezogenen Parametern eines Benutzers weist die am Kopf tragbare Brillenvorrichtung einen Brillenkörper auf, der eine mittlere Ebene, einen Nasenbrückenabschnitt, einen linken seitlichen Abschnitt, einen rechten seitlichen Abschnitt, eine linke Okularöffnung und eine rechte Okularöffnung aufweist. Die Brillenvorrichtung ist dazu konfiguriert, am Kopf eines Benutzers tragbar zu sein. Die mittlere Ebene schneidet den Nasenbrückenabschnitt, und die jeweilige Okularöffnung befindet sich zwischen dem Nasenbrückenabschnitt und dem jeweiligen seitlichen Abschnitt. Die Brillenvorrichtung weist ferner mindestens eines von einer linken Kamera zum Aufnehmen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers, wobei die linke Kamera im Nasenbrückenabschnitt angeordnet ist, und wobei eine optische Achse der linken Kamera in Bezug auf die mittlere Ebene in einem Winkel von 150° bis 142° (oder -30° bis -38°), insbesondere von 144° (oder -36°), geneigt ist, einer rechten Kamera zum Aufnehmen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges eines Benutzers, wobei die rechte Kamera im Nasenbrückenabschnitt angeordnet ist, und wobei eine optische Achse der rechten Kamera in Bezug auf die mittlere Ebene in einem Winkel von 30° bis 38°, insbesondere von 36°, geneigt ist, einer linken Kamera zum Aufnehmen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers, wobei die linke Kamera im linken seitlichen Abschnitt angeordnet ist, und wobei eine optische Achse der linken Kamera in Bezug auf die mittlere Ebene in einem Winkel von 55° bis 70°, insbesondere von 62°, geneigt ist, und/oder einer rechten Kamera zum Aufnehmen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges eines Benutzers ein, wobei die rechte Kamera im rechten seitlichen Abschnitt angeordnet ist, und wobei eine optische Achse der rechten Kamera in Bezug auf die mittlere Ebene in einem Winkel von 125° bis 110° (oder -55° bis -70°), insbesondere von 118° (oder -62°), geneigt ist, auf.
  • Gemäß einer Ausführungsform eines Verfahrens zum Erstellen und Aktualisieren einer Datenbank zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes (convolutional neural network), umfasst das Verfahren Präsentieren eines ersten Stimulus an einen ersten Benutzer, der eine am Kopf tragbare Vorrichtung trägt. Die am Kopf tragbare Vorrichtung weist eine erste Kamera und eine zweite Kamera auf. Die erste Kamera ist neben einem linken Auge des ersten Benutzers angeordnet und die zweite Kamera ist neben einem rechten Auge des ersten Benutzers angeordnet, wenn der erste Benutzer die am Kopf tragbare Vorrichtung trägt. Wenn erwartet wird, dass der erste Benutzers auf den ersten Stimulus reagiert, oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, wird die erste Kamera der am Kopf tragbaren Vorrichtung verwendet, um ein erstes linkes Bild von mindestens einem Abschnitt des linken Auges des ersten Benutzers zu erzeugen, und eine zweite Kamera der am Kopf tragbaren Vorrichtung wird verwendet, um ein erstes rechtes Bild von mindestens einem Abschnitt des rechten Auges des ersten Benutzers zu erzeugen. Es wird eine Datenverbindung zwischen der am Kopf tragbaren Vorrichtung und der Datenbank hergestellt. Es wird ein erster Datensatz erzeugt, der das erste linke Bild, das erste rechte Bild und eine erste Repräsentation eines blickbezogenen Parameters einschließt. Die erste Repräsentation ist mit dem ersten Stimulus korreliert. Der erste Datensatz wird zu der Datenbank hinzugefügt.
  • Gemäß einer Ausführungsform eines Verfahrens zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes, umfasst das Verfahren Bereitstellen einer Datenbank, die eine Vielzahl von Datensätzen einschließt, wobei die Datensätze ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige entsprechende Repräsentation eines blickbezogenen Parameters, insbesondere einen jeweiligen entsprechenden Wert des blickbezogenen Parameters, aufweisen. Es wird ein neuronales Netz mit einer gegebenen Architektur bereitgestellt. Parameter des neuronalen Netzes werden unter Verwendung der jeweiligen linken Bilder und der jeweiligen rechten Bilder eines Teilsatzes oder aller Datensätze als Eingabe und der jeweiligen entsprechenden Repräsentationen der blickbezogenen Parameter des Teilsatzes oder aller Datensätze als gewünschte Ausgabe des neuronalen Netzes bestimmt.
  • Gemäß einer Ausführungsform eines Verfahrens zum Kalibrieren einer am Kopf tragbaren Vorrichtung umfasst das Verfahren Präsentieren eines Stimulus an einen Benutzer ein, der die am Kopf tragbare Vorrichtung trägt. Der Stimulus ist mit einem gewünschten Wert eines blickbezogenen Parameters korreliert. Die am Kopf tragbare Vorrichtung umfasst eine erste Kamera und eine zweite Kamera ein. Die erste Kamera ist neben einem linken Auge des Benutzers angeordnet und die zweite Kamera ist neben einem rechten Auge des Benutzers angeordnet, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt. Die erste Kamera wird verwendet, um ein linkes Bild von mindestens einem Abschnitt des linken Auges des Benutzers zu erzeugen, und die zweite Kamera wird verwendet, um ein rechtes Bild von mindestens einem Abschnitt des rechten Auges des Benutzers zu erzeugen, der die am Kopf tragbare Vorrichtung trägt und von dem erwartet wird, dass er auf den Stimulus reagiert, oder von dem erwartet wird, dass er auf den Stimulus reagiert hat. Ein trainiertes neuronales Netz, insbesondere ein trainiertes neuronales Faltungsnetz, wird verwendet, um einen vorhergesagten Wert des blickbezogenen Parameters unter Verwendung des rechten Bildes und des linken Bildes als eine Eingabe für das trainierte neuronale Netz zu bestimmen. Der gewünschte Wert des blickbezogenen Parameters und der vorhergesagte Wert des blickbezogenen Parameters werden verwendet, um eine Korrekturfunktion für den Benutzer zu bestimmen. Wahlweise wird die Korrekturfunktion für den Benutzer gespeichert.
  • Gemäß einer Ausführungsform eines Systems zum Verbessern der Vorhersage von blickbezogenen Parametern weist das System mindestens eine am Kopf anbringbare Vorrichtung, eine Verarbeitungseinheit und ein Rechensystem auf, das mit der Verarbeitungseinheit verbindbar und dazu konfiguriert ist, eine erste Datenbank zu hosten und ein neuronales Netz, insbesondere ein neuronales Faltungsnetz, unter Verwendung der ersten Datenbank zu trainieren. Die mindestens eine am Kopf anbringbare Vorrichtung weist eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers auf, wenn der Benutzer die am Kopf anbringbare Vorrichtung trägt. Die Verarbeitungseinheit ist mit der ersten Kamera und der zweiten Kamera verbindbar und dazu konfiguriert, einen vorhergesagten Wert eines blickbezogenen Parameters des Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe des neuronalen Netzes zu bestimmen. Das System ist dazu konfiguriert, Datensätze zu der ersten Datenbank hinzuzufügen und Parameter des neuronalen Netzes von dem Rechensystem an die Verarbeitungseinheit zu übertragen. Die Datensätze weisen ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation des blickbezogenen Parameters des Benutzers auf.
  • Gemäß einer Ausführungsform eines Verfahren zum Erfassen von einem oder mehreren blickbezogenen Parametern eines Benutzers umfasst das Verfahren Erstellen eines linken Bildes von mindestens einem Abschnitt eines linken Auges des Benutzers unter Verwendung einer ersten Kamera einer am Kopf tragbaren Vorrichtung, die durch den Benutzer getragen wird, Erstellen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers unter Verwendung einer zweiten Kamera der am Kopf tragbaren Vorrichtung, gemeinsames Einspeisen des linken und rechten Bildes als eine Eingabe in ein neuronales Faltungsnetz und Erhalten des einen oder der mehreren blickbezogenen Parameter von dem neuronalen Faltungsnetz als ein Ergebnis der Eingabe des linken und rechten Bildes.
  • Weitere Ausführungsformen schließen entsprechende Computersysteme, computerlesbare Speichermedien oder Vorrichtungen sowie Computerprogramme ein, die auf einem/einer oder mehreren computerlesbaren Speichermedien oder Computerspeichervorrichtungen aufgezeichnet sind und jeweils dazu konfiguriert sind, die Prozesse der hier beschriebenen Verfahren durchzuführen.
  • Ein System von und/oder mit einem oder mehreren Computern kann dazu konfiguriert sein, bestimmte Vorgänge oder Prozesse mittels Software, Firmware, Hardware oder einer beliebigen Kombination davon durchzuführen, die auf einem oder mehreren Computern installiert ist und das System im Betrieb veranlassen kann, die Prozesse durchzuführen. Ein oder mehrere Computerprogramme können dazu konfiguriert sein, bestimmte Vorgänge oder Prozesse durchzuführen, indem sie Anweisungen einschließen, die bei Ausführung durch einen einzelnen oder mehrere Prozessoren des Systems das System veranlassen, die Prozesse durchzuführen.
  • Der Fachmann wird bei der Lektüre der nachfolgenden detaillierten Beschreibung und Betrachtung der begleitenden Zeichnungen weitere Merkmale und Vorteile erkennen.
  • Figurenliste
  • Die Komponenten in den Figuren sind nicht zwingend maßstabsgetreu; stattdessen wird die Veranschaulichung der Grundgedanken der Erfindung betont. Darüber hinaus bezeichnen in den Figuren gleiche Bezugszeichen entsprechende Teile. Es zeigen:
    • 1A eine Draufsicht auf eine verallgemeinerte Ausführungsform einer am Kopf tragbaren Brillenvorrichtung zum Bestimmen von einem oder mehreren blickbezogenen Parametern gemäß mindestens einer Ausführungsform;
    • 1B eine Vorderansicht der Brillenvorrichtung gemäß 1A;
    • 1C eine Seitenansicht der Brillenvorrichtung gemäß 1A
    • 2A ein Ablaufdiagramm eines Verfahrens zum Erstellen und Aktualisieren einer Datenbank zum Trainieren eines neuronalen Netzes gemäß Ausführungsformen;
    • 2B ein Ablaufdiagramm eines Verfahrens zum Erstellen und Aktualisieren einer Datenbank zum Trainieren eines neuronalen Netzes gemäß Ausführungsformen;
    • 2C ein Ablaufdiagramm eines Teils des Verfahrens aus 2A und 2B, jeweils gemäß Ausführungsformen;
    • 3A ein Ablaufdiagramm eines Verfahrens zum Trainieren eines neuronalen Netzes gemäß Ausführungsformen,
    • 3B ein Ablaufdiagramm eines Verfahrens zum Kalibrieren einer am Kopf tragbaren Vorrichtung;
    • 3C ein Ablaufdiagramm eines Verfahrens zum Erfassen von einem oder mehreren blickbezogenen Parametern gemäß Ausführungsformen;
    • 3D ein System zum Verbessern der Vorhersage von blickbezogenen Parametern gemäß einer Ausführungsform;
    • 4 ein System zum Verbessern der Vorhersage von blickbezogenen Parametern gemäß einer Ausführungsform;
    • 5 ein System zum Verbessern der Vorhersage von blickbezogenen Parametern gemäß einer Ausführungsform, und
    • 6 ein System zum Verbessern der Vorhersage von blickbezogenen Parametern gemäß einer Ausführungsform.
  • AUSFÜHRLICHE BESCHREIBUNG
  • In der nachfolgenden detaillierten Beschreibung wird auf die begleitenden Zeichnungen Bezug genommen, die einen Teil dieser Ausführungen bilden und in denen zur Veranschaulichung spezifische Ausführungsformen gezeigt werden, in denen die Erfindung umgesetzt werden kann. In dieser Hinsicht wird richtungsbezogene Terminologie wie etwa „oben“, „unten“, „vorne“, „hinten“, „führend.“, „nachlaufend“ usw. unter Bezugnahme auf die Ausrichtung der beschriebenen Figur(en) verwendet. Da Komponenten von Ausführungsformen in einer Reihe unterschiedlicher Ausrichtungen angeordnet sein können, dient die richtungsbezogene Terminologie der Veranschaulichung und ist in keiner Weise einschränkend. Es versteht sich, dass andere Ausführungsformen benutzt werden können und dass strukturelle oder logische Änderungen daran vorgenommen werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen. Die nachfolgende ausführliche Beschreibung ist daher nicht im einschränkenden Sinne zu verstehen, und der Umfang der vorliegenden Erfindung ist in den beigefügten Ansprüchen definiert.
  • Es ist eine Aufgabe der Erfindung, Verfahren, Systeme und Vorrichtungen bereitzustellen, die das Bestimmen von einem oder mehreren blickbezogenen Parametern eines Benutzers mit verbesserter Leistung und/oder verbesserten funktionalen und/oder ergonomischen Eigenschaften ermöglichen.
  • Diese Aufgaben werden durch den Gegenstand der vorgesehenen Ansprüche erfüllt.
  • Insbesondere umfasst eine Brillenvorrichtung einen Brillenkörper, der derart konfiguriert ist, dass er am Kopf eines Benutzers getragen werden kann, beispielsweise in einer Weise, in der eine gewöhnliche Brille getragen wird. Wenn die Brillenvorrichtung durch einen Benutzer getragen wird, kann sie daher insbesondere mindestens teilweise durch einen Nasenbereich des Gesichts des Benutzers getragen werden.
  • Dieser Benutzungszustand der im Gesicht des Benutzers angeordneten Brillenvorrichtung wird im Weiteren als die „vorgesehene Verwendung“ der Brillenvorrichtung definiert, wobei die Bezugnahme auf Richtung und Position, beispielsweise horizontal und vertikal, parallel und senkrecht, links und rechts, vorne und hinten, oben und unten usw., eine Bezugnahme auf diese vorgesehene Verwendung ist. Mithin sind seitliche Positionen wie links und rechts, eine obere und untere Position und eine vordere/vorwärtige und hintere/rückwärtige Position von der Perspektive des Benutzers aus zu verstehen. Dies gilt gleichermaßen für eine horizontal und vertikale Ausrichtung, wobei der Kopf des Benutzers sich während der vorgesehenen Verwendung in einer normalen und somit aufrechten, nicht geneigten und nicht nickenden Position befindet.
  • Gemäß einer Ausführungsform umfasst der Brillenkörper eine linke Okularöffnung und eine rechte Okularöffnung, die hauptsächlich dazu dienen, dem Benutzer den Blick durch diese Okularöffnungen zu erlauben. Die Okularöffnungen können ohne Beschränkung als Sonnenabschirmung, optische Linsen oder nichtoptische transparente Brillengläser oder als ein nichtmaterieller, optischer Pfad verkörpert sein, der das Hindurchtreten von Lichtstrahlen zulässt.
  • Gemäß einem weiteren Aspekt der Erfindung bildet der Brillenkörper die Okularöffnungen mindestens teilweise oder ganz, indem er sie gegenüber der Umgebung begrenzt. In diesem Fall dient der Brillenkörper als ein Rahmen für die optischen Öffnungen. Dieser Rahmen muss nicht zwingend eine vollständige und geschlossene Umgebung der Okularöffnungen bilden. Ferner ist es möglich, dass die optischen Öffnungen selbst eine rahmenartige Konfiguration aufweisen, beispielsweise indem sie mithilfe von transparentem Brillenglas eine Trägerstruktur bereitstellen. Im letzteren Fall weist die Brillenvorrichtung eine Form ähnlich der einer randlosen Brille auf, wobei nur ein Nasenträger-Brückenabschnitt und Ohrbügel an den Glasscheiben angebracht sind, die daher zugleich als integrierter Rahmen und optische Öffnungen dienen.
  • Außerdem kann eine mittlere Ebene des Brillenkörpers identifiziert werden. Insbesondere beschreibt die mittlere Ebene eine strukturelle Mittelebene des Brillenkörpers, wobei jeweilige Strukturkomponenten oder -abschnitte, die miteinander vergleichbar oder ähnlich zueinander sind, auf gleichartige Weise auf jeder Seite der mittleren Ebene angeordnet sind. Wenn die Brillenvorrichtung bei der vorgesehenen Verwendung korrekt getragen wird, fällt die mittlere Ebene mit einer Mittellinienebene des Benutzers zusammen.
  • Gemäß einer bestimmten Ausführungsform der Erfindung umfasst der Brillenkörper einen Nasenbrückenabschnitt (von engl. „nose bridge portion“, auch als Nasenstegabschnitt bzw. Nasenrückenabschnitt bezeichnet), einen linken seitlichen Abschnitt und einen rechten seitlichen Abschnitt, wobei die mittlere Ebene den Nasenbrückenabschnitt schneidet und die jeweilige Okularöffnung sich zwischen dem Nasenbrückenabschnitt und dem jeweiligen seitlichen Abschnitt befindet.
  • Zu Orientierungszwecken sei eine Ebene senkrecht zur Mittelachse mittleren Ebene definiert, die insbesondere vertikal ausgerichtet ist, wobei diese vertikale Ebene nicht zwingend fest an einer definierten vorderen oder hinteren Position der Brillenvorrichtung angeordnet ist.
  • Mithilfe der beiden Okularöffnungen wird ein Begrenzungsquader (begrenzender Quader / als Hüllkörper) definiert, der im Folgenden als künstliches Bezugssystem für geometrische Auslegungsdaten dienen soll; somit ist der Begrenzungsquader eine virtuelle, nicht verkörperte Struktur, die per Definition eine obere Fläche, eine untere Fläche, eine linke Seitenfläche und eine rechte Seitenfläche aufweist; folglich lässt sich der Quader nicht in Form eines realen Quaderkörpers an der Brillenvorrichtung erkennen. Der Begrenzungsquader ist in Bezug auf die mittlere Ebene des Brillenkörper derart ausgerichtet, dass mindestens die obere Fläche senkrecht zur mittleren Ebene ist.
  • Gemäß einer Ausführungsform ist der Begrenzungsquader ein rechteckiger Quader; folglich sind die obere und die untere Fläche beide senkrecht zur mittleren Ebene, und die linke und rechte Seitenfläche sind beide in Bezug auf die mittlere Ebene parallel ausgerichtet.
  • In den nachfolgenden ergänzenden Verdeutlichungen und Erläuterungen zu dem künstlichen Bezugssystem wird der „Begrenzungsquader“ für den Fachmann insbesondere in einer nicht einschränkenden Weise bereitgestellt: Die Definition des Begrenzungsquaders durch die Okularöffnungen erfolgt durch virtuelles Abdecken des Volumens beider Okularöffnungen mit einem Quader, wobei insbesondere die linke Seitenfläche des Begrenzungsquaders die linke Okularöffnung von der linken Seite aus berührt, die rechte Seitenfläche des Quaders die rechte Okularöffnung von der rechten Seite aus berührt, die obere Fläche des Quaders mindestens eine der Okularöffnungen von oben berührt und wobei die untere Fläche des Quaders mindestens eine der Okularöffnungen von unten berührt. Infolgedessen springen die Okularöffnungen nicht von den Grenzflächen des Begrenzungsquaders vor, und die Größe des Begrenzungsquaders erstreckt sich nicht über die maximale Erstreckung der Okularöffnungen hinaus.
  • Gemäß der Erfindung umfasst die Brillenvorrichtung eine linke und eine rechte Kamera, wobei die linke Kamera zum Aufnehmen eines linken Bildes oder einer Folge von Bildern von mindestens einem Abschnitt des linken Auges des Benutzers dient und wobei die rechte Kamera ein Bild oder eine Folge von Bildern von mindestens einem Abschnitt eines rechten Auges des Benutzers aufnimmt. Die aufgezeichneten Bilder müssen nicht zwingend ein durch das menschliche Auge sichtbares Bild sein, sondern können auch eine geeignete Darstellung des gefilmten Auges in einem nicht für Menschen sichtbaren Lichtbereich sein.
  • Die Kameras können am Brillenkörper in inneren Augenkameraanordnungszonen und/oder in äußeren Augenkameraanordnungszonen angeordnet sein, wobei diese Zonen insbesondere derart bestimmt sind, dass ein geeignetes Bild von mindestens einem Abschnitt des jeweiligen Auges zum Zweck des Bestimmens von einem oder mehreren eines blickbezogenen Parameters aufgenommen werden kann; insbesondere sind die Kameras in einem Nasenbrückenabschnitt und/oder in einem seitlichen Randabschnitt des Brillenrahmens angeordnet, derart, dass ein optisches Feld eines jeweiligen Auges nicht durch die jeweilige Kamera verdeckt ist. Das optische Feld ist als verdeckt definiert, wenn die Kamera einen ausdrücklich sichtbaren Bereich/Abschnitt innerhalb des optischen Feldes bildet, beispielsweise wenn die Kamera von den Grenzen des sichtbaren Feldes in das Feld hinausragt, oder indem sie von den Grenzen in das Feld vorspringt. Beispielsweise können die Kameras in einen Rahmen des Brillenkörpers integriert und somit nicht verdeckend sein. Im Zusammenhang der vorliegenden Erfindung gilt eine Einschränkung des sichtbaren Feldes, die von der Brillenvorrichtung selbst verursacht wird, insbesondere vom Brillenkörper oder Rahmen, nicht als Verdeckung des optischen Feldes.
  • Gemäß einer Ausführungsform der Brillenvorrichtung sind die Kameras nur in den inneren Augenkameraanordnungszonen angeordnet, wobei insbesondere nicht mehr als eine einzige Kamera in jeder inneren Augenkameraanordnungszone bereitgestellt ist; infolgedessen ist nur eine linke Kamera der linken Okularöffnung fest zugeordnet und nur eine rechte Kamera der rechten Okularöffnung fest zugeordnet.
  • Die inneren Augenkameraanordnungszonen können in einem Nasenbrückenabschnitt des Brillenkörpers verteilt sein. Im Detail wurde durch umfangreiche Versuche und Benutzertests festgestellt, dass die jeweilige innere Augenkameraanordnungszone sich zwischen 2 mm und 14 mm, insbesondere zwischen 3 mm und 12 mm, in einer horizontalen Richtung senkrecht zur mittleren Ebene erstrecken muss, um optimale Bilder zum Bestimmen des einen oder der mehreren blickbezogenen Parameter zu erlangen. Insbesondere können die inneren Augenkameraanordnungszonen in der senkrechten Ebene liegen und sich in dieser erstrecken, wobei - ausgehend von der mittleren Ebene in der linken und rechten horizontalen Richtung - die jeweilige innere Augenkameraanordnungszone in einer horizontalen Richtung in einer Entfernung von 2 mm, insbesondere 3 mm, von der mittleren Ebene beginnt und in horizontaler Richtung bis zu einer Entfernung von 14 mm, insbesondere 12 mm, von der mittleren Ebene reicht.
  • Gemäß einer Alternative oder Ergänzung können die mindestens eine Kamera oder beide Kameras in einer äußeren Augenkameraanordnungszone bzw. äußeren Augenkameraanordnungszonen angeordnet sein. Insbesondere umfasst die Brillenvorrichtung nicht mehr als zwei Kameras, wobei die rechte Kamera in der rechten äußeren Augenkameraanordnungszone angeordnet ist und wobei die linke Kamera in der linken äußeren Augenkameraanordnungszone angeordnet ist.
  • Gemäß einer Ausführungsform ist die linke Kamera in der linken äußeren Augenkameraanordnungszone angeordnet und die rechte Kamera in der rechten äußeren Augenkameraanordnungszone angeordnet, oder die linke Kamera ist in der linken inneren Augenkameraanordnungszone angeordnet und die rechte Kamera ist in der rechten inneren Augenkameraanordnungszone angeordnet. Diese symmetrische Kameraanordnungsstrategie bewirkt eine verbesserte Fähigkeit des Bestimmens eines blickbezogenen Parameters des Benutzers, insbesondere wenn die Lichtverhältnisse einer Umgebung der Brillenvorrichtung nicht optimal sind. Ferner kann die symmetrische Anwendung von Kameras auch Vorteile in Bezug auf die Anwendung neuronaler Netze, insbesondere neuronaler Faltungsnetze, zum Bestimmen eines blickbezogenen Parameters mit sich bringen. Gemäß einer weiteren Ausführungsform können mehr als eine linke und/oder mehr als eine rechte Kamera verwendet werden.
  • Die linke äußere Augenkameraanordnungszone befindet sich in Projektion auf die senkrechte Ebene in einem linken seitlichen Abschnitt des Brillenkörpers und erstreckt sich um 6 mm, insbesondere 5 mm, typischer 4 mm, von der linken Seitenfläche des Begrenzungsquaders in Richtung der mittleren Ebene und erstreckt sich um 7 mm, insbesondere 6 mm, typischer 5 mm, gemessen von der linken Seitenfläche in einer Richtung weg von der mittleren Ebene, von der mittleren Ebene weg.
  • Auch befindet sich die rechte äußere Augenkameraanordnungszone sich in Projektion auf die senkrechte Ebene in einem rechten seitlichen Abschnitt des Brillenkörpers und erstreckt sich um 6 mm, insbesondere 5 mm, typischer 4 mm, von der linken Seitenfläche des Begrenzungsquaders in Richtung der mittleren Ebene und erstreckt sich um 7 mm, insbesondere 6 mm, genauer 5 mm, gemessen von der rechten Seitenfläche in einer Richtung weg von der mittleren Ebene, von der mittleren Ebene weg.
  • Gemäß einer weiteren Ausführungsform erstreckt sich die innere Augenkameraanordnungszone in Projektion auf die senkrechte Ebene in vertikaler Richtung zwischen 9 und 31 mm, insbesondere 12 und 28 mm, von der oberen Fläche zur unteren Fläche des Begrenzungsquaders hin.
  • Zusätzlich oder alternativ weist die äußere Augenkameraanordnungszone bei Projektion auf die senkrechte Ebene eine Größe von 25 bis 33 mm, besonders von 28 bis 30 mm, in einer senkrechten Richtung in Bezug auf die obere Fläche, und, bei vorgesehener Verwendung der Brillenvorrichtung, in vertikaler Richtung auf.
  • Es wurde festgestellt, dass die obere Aufgabe unabhängig auf alternative oder zusätzliche Weise durch eine Brillenvorrichtung gemäß Anspruch 6 erfüllt wird.
  • Definitionen, Richtungen und grundlegende Informationen der Brillenvorrichtung, die oben beschrieben wurden, gelten auch im Folgenden. Insbesondere umfasst diese Brillenvorrichtung gemäß Anspruch 6 einen Brillenkörper, der derart konfiguriert ist, dass er am Kopf eines Benutzers getragen werden kann, beispielsweise in einer Weise, in der eine gewöhnliche Brille getragen wird.
  • Gemäß einer Ausführungsform der Brillenvorrichtung umfasst diese einen Brillenkörper, der eine mittlere Ebene (siehe oben), einen Nasenbrückenabschnitt, einen linken seitlichen Abschnitt, einen rechten seitlichen Abschnitt, eine linke Okularöffnung und eine rechte Okularöffnung aufweist.
  • Wie oben erörtert, ist der Nasenbrückenabschnitt ein Bereich der Brillenvorrichtung, der als Träger für die Vorrichtung an der Nasenregion des Benutzers dient und dabei zwischen der linken und der rechten Okularöffnung angeordnet ist. Der linke/rechte seitliche Abschnitt stellt einen Strukturbereich der Vorrichtung dar, der sich zur Linken/Rechten der linken/rechten Okularöffnung befindet. Somit liegt die jeweilige linke/rechte Okularöffnung zwischen dem Nasenbrückenabschnitt und dem jeweiligen linken/rechten seitlichen Abschnitt.
  • Darüber hinaus weist die Brillenvorrichtung mindestens eine linke Kamera zum Aufnehmen eines linken Bildes von mindestens einem Abschnitt eines linken Auges des Benutzers und mindestens eine rechte Kamera zum Aufnehmen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers auf.
  • Gemäß einer ersten Auslegung ist die linke Kamera im Nasenbrückenabschnitt angeordnet, wobei eine optische Achse der linken Kamera in Bezug auf die mittlere Ebene in einem Winkel von 150° bis 142° (oder -30° bis -38°), insbesondere von 144° (oder -36°), geneigt ist. Allgemein werden Neigungswinkel positiv entgegen dem Uhrzeigersinn bereitgestellt und sind so zu messen.
  • Gemäß einer zweiten Auslegung ist die rechte Kamera im Nasenbrückenabschnitt angeordnet, wobei eine optische Achse der rechten Kamera in Bezug auf die mittlere Ebene in einem Winkel von 30° bis 38°, insbesondere von 36°, geneigt ist.
  • Beide Auslegungen bringen den Vorteil mit sich, dass eine optimale Sicht der Kameras auf einen Augapfel des Benutzers ermöglicht wird, wobei eine Verdeckung des Sichtfelds des Benutzers durch den Benutzer im Wesentlichen nicht wahrnehmbar ist und daher nicht vorliegt; erstens ignoriert das menschliche Gehirn Verdeckungen im Nasenbereich größtenteils, da die Nase selbst eine dauerhafte Verdeckung des optischen Feldes bildet; zweitens dient der Nasenbrückenabschnitt normalerweise als Träger für die Brillenvorrichtung an der Nase eines Benutzers, wobei eine Mikrokamera in Trägerelemente des Nasenabschnitts integriert sein kann.
  • Gemäß einer dritten Auslegung ist die linke Kamera im linken seitlichen Abschnitt angeordnet, wobei eine optische Achse der linken Kamera in Bezug auf die mittlere Ebene in einem Winkel von 55° bis 70°, insbesondere von 62°, geneigt ist.
  • Gemäß einer vierten Auslegung ist die rechte Kamera im rechten seitlichen Abschnitt angeordnet, wobei eine optische Achse der rechten Kamera in Bezug auf die mittlere Ebene in einem Winkel von 125° bis 110° (oder -55° bis -70°), insbesondere von 118° (oder -62°), geneigt ist.
  • Gemäß einer ersten bevorzugten Ausführungsform umfasst die Brillenvorrichtung nicht mehr als zwei Kameras, wobei eine Kamera - die linke Kamera - gemäß der ersten Auslegung angeordnet ist und wobei die andere Kamera - die rechte Kamera - gemäß der zweiten Auslegung angeordnet ist.
  • Im Zusammenhang einer zweiten bevorzugten Ausführungsform umfasst die Brillenvorrichtung nicht mehr als zwei Kameras, wobei eine Kamera - die linke Kamera - gemäß der dritten Auslegung angeordnet ist und wobei die andere Kamera - die rechte Kamera - gemäß der vierten Auslegung angeordnet ist.
  • Allerdings ist auch eine Kombination der ersten und der dritten Auslegung oder der zweiten und der vierten Auslegung möglich.
  • Ferner, aber ohne Beschränkung darauf, ist eine Kombination von mindestens drei der Auslegungen oder sogar aller Auslegungen im Zusammenhang der Erfindung offenbart, womit die Einschränkung auf nicht mehr als zwei Kameras in diesem bestimmten Fall wegfällt.
  • Alle erwähnten Auslegungen, insbesondere Kombinationen derselben, stellen eine Brillenvorrichtung zum Erlangen geeigneter Bilddaten zum Bestimmen von einem oder mehreren blickbezogenen Parametern des Benutzers bereit, insbesondere bei Anwendung eines neuronalen Faltungsnetzes für diese Bestimmung.
  • Im Folgenden werden bevorzugte Ausführungsformen der Erfindung beschrieben, wobei sich diese Ausführungsformen auf alle vorstehend erörterten Ausführungsformen der Brillenvorrichtung, insbesondere auf die Brillenvorrichtung gemäß Anspruch 1 und/oder gemäß Anspruch 6 beziehen.
  • Auch wird ausdrücklich eingeschlossen, dass eine Brillenvorrichtung gemäß Anspruch 6 auch eine oder eine Vielzahl von Merkmalen einer Brillenvorrichtung gemäß Anspruch 1 bis 5 einschließen kann. Beispielsweise kann die Brillenvorrichtung gemäß Anspruch 6 - unter Einbeziehung der Winkel der optischen Achse der Kameras - eine Beschreibung der linken/rechten, äußeren/inneren Kameraanordnungszone und zugehöriger Entfernungen vollständig oder teilweise aufweisen. Umgekehrt kann die Brillenvorrichtung gemäß Anspruch 1, die hauptsächlich durch die Kameraposition in Kameraanordnungszonen definiert ist, ein oder mehrere spezifische Merkmale der Neigung der optischen Achse von einer oder mehreren Kameras aufweisen.
  • Gemäß einer nicht einschränkenden Ausführungsform weist der Brillenkörper der Brillenvorrichtung gemäß einer oder mehrerer Ausführungsformen wie oben beschrieben mindestens teilweise eine symmetrische Struktur in Bezug auf die mittlere Ebene auf. Insbesondere ist mindestens ein funktional-struktureller Bereich eines Nasenabschnitts und/oder eines linken und rechten seitlichen Abschnitts des Brillenkörpers symmetrisch; als ein Beispiel kann der funktional-strukturelle Bereich ein Trägerelement des Nasenabschnitts oder eine Vielzahl derselben, welche die Brillenvorrichtung an einer Nasenregion des Benutzers tragen, ein jeweiliger innerer, seitlicher, oberer und/oder unterer Teil des Brillenkörpers oder ein Halter oder ein Gelenkelement in dem linken und rechten seitlichen Abschnitt zum Tragen des Brillenkörper am Ohr des Benutzers sein.
  • Ferner ist gemäß einer bestimmten Ausführungsform ein Rahmen des Brillenkörpers im Wesentlichen symmetrisch zur mittleren Ebene, wobei nur kleinere Bereiche, Abschnitte oder Elemente des Rahmens nicht symmetrisch sind.
  • Gemäß der spezifischen Ausführungsform sind die Kameras in den unteren 75 %, insbesondere in den unteren 50 %, bevorzugt in den unteren 25 %, des Volumens des Begrenzungsquaders angeordnet.
  • Darüber hinaus ist gemäß einer Ausführungsform, bei der mindestens eine Kamera in einem seitlichen Abschnitt des Körpers und/oder in einer der äußeren Augenkameraanordnungszonen angeordnet ist, die Kamera in einem Rahmen des Brillenkörpers, in einem jeweiligen linken oder rechten Halter, der als ein Träger für die Brillenvorrichtung an einem Ohr des Benutzers dient, oder in/an einem Gelenkelement, das den Halter mit dem Rahmen des Brillenkörpers verbindet, angeordnet. Durch Anwenden dieser Lehren kann die Kamera bzw. können die Kameras sehr diskret und unauffällig im Brillenkörper angeordnet sein, während eine vorteilhafte Sicht auf den Augapfel des Benutzers erlangt wird.
  • Gemäß den Ausführungsformen kann die Brillenvorrichtung Beleuchtungseinrichtungen zum Beleuchten des linken und/oder rechten Auges des Benutzers aufweisen, insbesondere wenn die Lichtverhältnisse in einer Umgebung der Brillenvorrichtung nicht optimal sind.
  • Gemäß einer Ausführungsform umfasst die Brillenvorrichtung eine Szenenkamera zum Aufnehmen von Bildern eines Sichtfelds des Benutzers, der die Brillenvorrichtung trägt. Die Szenenkamera ist daher nicht als eine Kamera zum Aufnehmen eines Bildes eines Auges des Benutzers zu verstehen. Auf diese Weise kann ein vorteilhafter Kalibrierungsprozess der Bestimmung des blickbezogenen Parameters ermöglicht werden. Der Kalibrierungsprozess wird unten unter Bezugnahme auf 3C beschrieben.
  • Zum zuverlässigen und effizienten Analysieren der Bilder der linken und rechten Kamera hinsichtlich der blickbezogenen Parameter ist das Trainieren der verwendeten neuronalen Netzarchitektur mit einer großen Anzahl von Lehrbeispielen (Trainingsbeispielen) wünschenswert. Zu diesem Zweck hat sich eine jeweilige Datenbank zum Speichern der Lehrbeispiele, die mithilfe der Brillenvorrichtung und/oder einer anderen am Kopf tragbaren Vorrichtung wie hierin beschrieben erlangt werden, als vorteilhaft erwiesen.
  • Gemäß einer Ausführungsform wird ein Verfahren zum Erstellen und Aktualisieren einer Datenbank zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes, bereitgestellt. Das Verfahren umfasst Präsentieren eines ersten Stimulus an einen ersten Benutzer bereit, der eine am Kopf tragbare Vorrichtung trägt. Die am Kopf tragbare Vorrichtung weist eine erste Kamera und eine zweite Kamera auf. Die erste Kamera ist neben einem linken Auge des ersten Benutzers angeordnet und die zweite Kamera ist neben einem rechten Auge des ersten Benutzers angeordnet, wenn der erste Benutzer die am Kopf tragbare Vorrichtung trägt. Wenn erwartet wird, dass der erste Benutzers auf den ersten Stimulus reagiert, oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, wird die erste Kamera der am Kopf tragbaren Vorrichtung verwendet, um ein erstes linkes Bild von mindestens einem Abschnitt des linken Auges des ersten Benutzers zu erzeugen, und eine zweite Kamera der am Kopf tragbaren Vorrichtung wird verwendet, um ein erstes rechtes Bild von mindestens einem Abschnitt des rechten Auges des ersten Benutzers zu erzeugen. Es wird eine Datenverbindung zwischen der am Kopf tragbaren Vorrichtung und der Datenbank hergestellt. Es wird ein erster Datensatz erzeugt, der das erste linke Bild, das erste rechte Bild und eine erste Repräsentation eines blickbezogenen Parameters einschließt. Die erste Repräsentation ist mit dem ersten Stimulus korreliert. Der erste Datensatz wird zu der Datenbank hinzugefügt.
  • Das Verfahren ermöglicht das Pflegen und Verbessern der Datenbank mithilfe der Benutzer. Da die Datenbank zum Verbessern der Leistung einer Instanz des neuronalen Netzes verwendbar ist, das am Standort des Benutzers verwendet wird (z. B. auf der am Kopf tragbaren Vorrichtung ausgeführt wird), sind die Benutzer daran interessiert, einen Datenaustausch zwischen der typischerweise dem Benutzer gehörenden am Kopf tragbaren Vorrichtung und einem Rechensystem zum Hosten der Datenbank und Trainieren oder Nachtrainieren des neuronalen Netzes unter Verwendung der Datenbank zuzulassen.
  • Im Folgenden wird die Datenbank auch als erste Datenbank und Bilddatenbank bezeichnet.
  • In dieser Beschreibung werden die Begriffe „erste Kamera“ und „linke Kamera“ synonym verwendet. Ebenso werden die Begriffe „zweite Kamera“ und „rechte Kamera“ in dieser Schrift synonym verwendet.
  • Der Begriff „neuronales Netz“ (NN) soll bei Verwendung in dieser Beschreibung ein künstliches neuronales Netz (artificial neural network - ANN) oder konnektionistisches System (connectionist system) beschreiben, das eine Vielzahl von verbundenen Einheiten oder Knoten einschließt, die als künstliche Neuronen bezeichnet werden. Das Ausgangssignal eines künstlichen Neurons wird durch eine (nichtlineare) Aktivierungsfunktion der Summe seines Eingangssignals bzw. seiner Eingangssignale berechnet. Die Verbindungen zwischen den künstlichen Neuronen weisen typischerweise jeweilige Gewichtungen (Verstärkungsfaktoren für das bzw. die übertragenen Ausgangssignale auf, die in einer oder mehreren Einlernphasen angepasst werden. Andere Parameter des NN, die während des Einlernens modifiziert werden können oder nicht, können Parameter der Aktivierungsfunktion der künstlichen Neuronen wie etwa einen Schwellenwert einschließen. Häufig sind die künstlichen Neuronen in Schichten geordnet, die auch als Module bezeichnet werden. Die einfachste NN-Architektur, die als „Mehrschicht-Perzeptron“ bezeichnet wird, ist eine Folge von so genannten vollständig verbundenen Schichten. Eine Schicht besteht aus mehreren separaten Einheiten (Neuronen), die jeweils eine lineare Kombination der Eingabe gefolgt von einer nichtlinearen Aktivierungsfunktion berechnen. Unterschiedliche Schichten (von Neuronen) können unterschiedliche Arten von Transformationen an ihren jeweiligen Eingaben durchführen. Neuronale Netze können in Software, Firmware, Hardware oder einer beliebigen Kombination daraus implementiert sein. In der Lernphase bzw. den Lernphasen kann ein maschinelles Lernverfahren, insbesondere ein überwachtes, nicht überwachtes oder halb überwachtes (tiefes) Lernverfahren verwendet werden. Beispielsweise kann eine tiefe Lerntechnik (deep learning - Technik), insbesondere eine Gradientenabstiegstechnik wie etwa Rückpropagation zum Trainieren (Vorwärtskoppeln) von NNs mit einer Schichtarchitektur verwendet werden. Moderne Computerhardware, z. B. GPUs, machen die Rückpropagation für vielschichtige neuronale Netze effizient. Ein neuronales Faltungsnetz (convolutional neural network - CNN) ist ein künstliches neuronales Vorwärtskopplungsnetz, das eine Eingabeschicht (des neuronalen Netzes), eine Ausgabeschicht (des neuronalen Netzes) und eine oder mehrere verborgene Schichten (des neuronalen Netzes) einschließt, die zwischen der Eingabeschicht und der Ausgabeschicht angeordnet sind. Die Besonderheit von CNNs ist die Verwendung von Faltungsschichten, die die mathematische Operation einer Faltung der Eingabe mit einem Kern durchführen. Die verborgenen Schichten eines CNN können Faltungsschichten sowie optionale Pooling-Schichten (zum Downsampling der Ausgabe einer vorherigen Schicht vor ihrer Eingabe in die nächste Schicht), vollständig verbundene Schichten und Normierungsschichten einschließen. Mindestens eine der verborgenen Schichten eines CNN ist eine neuronale Faltungsnetzschicht, die im Folgenden auch als Faltungsschicht bezeichnet wird. Typische Faltungskerngrößen sind beispielsweise 3x3, 5x5 oder 7x7. Die Verwendung einer Faltungsschicht bzw. von Faltungsschichten kann dazu beitragen, wiederkehrende Merkmale in der Eingabe effizienter zu berechnen als vollständig verbundene Schichten. Entsprechend kann der Speicherabdruck reduziert und die Leistung verbessert werden. Aufgrund der Architektur mit gemeinsamen Gewichtungen und Translationsinvarianzeigenschaften werden CNNs auch als verschiebungsinvariante oder räumlich invariante künstliche neuronale Netze (shift bzw. space invariant artificial neural networks - SIANNs) bezeichnet. Im Folgenden soll der Begriff „Modell eines neuronalen Netzes“ einen Satz Daten beschreiben, die zum Definieren eines neuronalen Netzes erforderlich sind, das in Software und/oder Hardware betreibbar ist. Das Modell schließt typischerweise Daten ein, die sich auf die Architektur des NN beziehen, insbesondere die Netzstruktur, darunter die Anordnung der Schichten des neuronalen Netzes, die Abfolge der Informationsverarbeitung im NN sowie Daten, die Parameter des NN darstellen oder daraus bestehen, insbesondere die Verbindungsgewichtungen innerhalb der vollständig verbundenen Schichten und Kerngewichtungen innerhalb der Faltungsschichten.
  • Traditionelle Augenverfolgungsalgorithmen extrahieren handgefertigte Merkmale aus den Augenbildern, wie beispielsweise die Pupillenkontur. Die beobachteten Merkmale werden dann verwendet, um entweder ein Augenmodell an die Beobachtungen anzupassen oder eine direkte Regression der Ausgabe durchzuführen.
  • Im Gegensatz dazu führen die in dieser Schrift beschriebenen Systeme eine Blickschätzung durch, die auf Endpunkt-zu-Endpunkt-Lernen beruht, wobei das eingegebene Bild direkt an einen Lernalgorithmus übergeben wird, ohne dass zuvor handgefertigte Merkmale extrahiert werden.
  • In einer Trainingsphase lernt das Netz, das Eingabebild bzw. die Eingabebilder automatisch zu interpretieren, um das korrekte Ergebnis auszugeben. Überwachte Lernalgorithmen, etwa solche, die neuronale Netze (NN) verwenden, nutzen die Existenz so genannter gelabelter Daten, d. h. eine Art von Eingabedaten in Kombination mit Ground Truth, die mit diesen Eingabedaten verbunden ist. Zum Beispiel stellt ein durch eine Kamera aufgezeichnetes Bild die Eingabedaten dar. Der Ground-Truth-Wert oder die Ground-Truth-Werte können eine beliebige untergeordnete oder übergeordnete Information sein, die in beliebiger Form in den Eingabedaten codiert ist und zum Zeitpunkt der Erzeugung der Eingabedaten bekannt ist.
  • Beispielsweise kann ein Benutzer, der eine am Kopf tragbare Vorrichtung trägt, wie in 1A bis 1C gezeigt, aufgefordert werden, auf einen bestimmten Markierungspunkt oder ein Objekt im Raum zu blicken, dessen Koordinaten in den von einer mit der Vorrichtung verbundenen Szenenkamera aufgezeichneten Videobildern präzise bestimmt werden können. Das Bild bzw. die Bilder, die durch einen oder mehrere optische Sensoren (Kameras) aufgezeichnet werden, die dem Auge bzw. den Augen der Person zugewandt sind, stellen dann die Eingabedaten dar, die die Informationen zur Blickrichtung der Person codieren, während die Koordinaten die Ground Truth darstellen. Indem die Person aufgefordert wird, auf Markierungen in vielen verschiedenen Richtungen und Entfernungen zu schauen, wird somit die Ground Truth für alle möglichen Blickrichtungen erzeugt. Das Sammeln großer Mengen gelabelter Daten, die auch als Trainingsdaten bezeichnet werden, bildet somit die Grundlage zum Trainieren eines Lernalgorithmus.
  • Ein NN implementiert typischerweise ein mathematisches Modell mit einer großen Anzahl von Parametern, die so eingerichtet sind, dass eine Einheit von Eingabedaten (beispielsweise die Pixelwerte eines Bildes, die sich in einen 1-dimensionen Vektor ausdehnen) empfangen wird, und berechnet eine Vorhersageausgabe in einem Format entsprechend der Ground Truth (beispielsweise ein Paar (x/y) Koordinaten). Die Parameter (Gewichtungen) des Netzes werden normalerweise zufällig initialisiert. Das Ziel des Trainingsvorgangs ist es dann, die Parameter so zu optimieren, dass bei Eingabe eines Trainingbeispiels sein Ground-Truth-Wert korrekt ausgegeben wird. Wenn das Trainieren beendet ist, sollte zudem eine neue Einheit gelabelter Eingabedaten, auch bezeichnet als Testdaten, die nicht zum Trainieren verwendet wurden, bei Eingabe in das Netz eine korrekte Vorhersage ergeben. Der Trainingsvorgang erfolgt, indem Trainingsbeispiele in das Netz eingegeben und beispielsweise die absoluten Abweichungen der ausgegebenen Vorhersagen von den Ground Truths summiert werden, was einen Kostenwert oder eine Kostenfunktion ergibt. Es werden numerische Verfahren zum iterativen Minimieren dieser Kosten verwendet, wobei die Parameter des Netzmodells aktualisiert werden (Rückpropagation, Gradientenabstieg). Ein Lernratenparameter ist Teil solcher Verfahren, um die Parameter zu aktualisieren. Während des Trainings eines neuronalen Netzes wird die Lernrate, d. h. die Schrittgröße des Gradientenabstiegsalgorithmus, typischerweise nach und nach reduziert (Learning Rate Decay). Das Reduzieren der Lernrate nach einer Cosinuskurve hat sich als vorteilhaft zum wesentlichen Verkürzen der Trainingsdauer ohne Beeinträchtigung der Genauigkeit erwiesen.
  • Der Trainingsvorgang kann beispielsweise angehalten werden, sobald eine gewünschte Vorhersagegenauigkeit auf Grundlage eines Satzes Testdatenbeispiele erreicht wird oder sobald die Kosten nicht mehr wesentlich abnehmen. Die abschließenden Werte der Parameter können dann digital als ein „Modell“ gespeichert und auf ein neues Eingabedatenbeispiel angewandt werden, um eine Vorhersage zu erzeugen. Je nach Menge der Trainingsdaten und Komplexität des Modells kann das Trainieren ein Vorgang sein, der mehrere Stunden oder Tage an Rechenzeit erfordert, selbst bei Parallelisierung auf vielen GPUs, während das Anwenden des Modells in einem Forward-Pass an einem einzelnen Eingabedatenelement quasi sofort erfolgen sollte.
  • Bei einer Regressionsaufgabe, d. h. einer Aufgabe mit kontinuierlichem Ausgaberaum wie beispielsweise das Vorhersagen eines Paares (x/y) Koordinaten, werden neuronale Netze typischerweise wie folgt ausgelegt:
  • Eingabe -> einige Schichten des neuronalen Netzes -> Intermediäre Merkmalsrepräsentation -> Lineare Kombination -> Ausgabe in R2 (jeweils eine kleine Teilmenge von R2).
  • Ein anderer Ansatz, der gezeigt hat, dass sich mit ihm die Genauigkeit erhöhen lässt, funktioniert wie folgt: Diskretisieren des Ausgaberaums, d. h. eine kleine Teilmenge von R2, in k verschiedene Werte. Anstelle einer direkten Regression der Ausgabe (beispielsweise Vorhersagen eines Paars (x/y) Koordinaten) wird eine Wahrscheinlichkeitsverteilung über die möglichen Ausgabewerte k hinweg berechnet. Als eine abschließende Ausgabe wird der gewichtete Mittelwert aller Werte mit Gewichtung nach seiner jeweiligen Wahrscheinlichkeit berechnet. Der Informationsfluss ist somit:
  • Eingabe -> einige Schichten des neuronalen Netzes -> Intermediäre Merkmalsrepräsentation -> Lineare Kombination -> Ausgabe in {1,...,k} -> Softmax -> Wahrscheinlichkeitsverteilung P über {1,...,k} -> gewichteter Mittelwert von {1,...,k} mit P -> Ausgabe in kleiner Teilmenge von R2.
  • Das Erzwingen der Repräsentation als eine Wahrscheinlichkeitsverteilung als intermediäres Ergebnis scheint sich regulierend auszuwirken und reduziert auf diese Weise den Vorhersagefehler des Netzes.
  • Das Herstellen der Datenverbindung schließt typischerweise das Verbinden der am Kopf tragbaren Vorrichtung mit einem Rechensystem ein, das als ein Server arbeitet, der die Datenbank hostet. Die am Kopf tragbare Vorrichtung kann direkt, beispielsweise über WLAN und/oder eine Internetverbindung, oder indirekt, beispielsweise über einen Desktop-Computer, ein Tablet, einen Laptop oder ein Smartphone (Mobiltelefon), das mit der am Kopf tragbaren Vorrichtung und dem Rechensystem verbindbar ist, mit dem Rechensystem (Server) verbunden sein.
  • Typischerweise wird eine Vielzahl von Datensätzen, die sich auf den ersten Benutzer beziehen und ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation des blickbezogenen Parameters einschließen, erzeugt und zu der Datenbank hinzugefügt (darin gespeichert).
  • Entsprechend schließt die Datenbank Datensätze des Benutzers ein, die eine ausreichend gute Merkmalsverallgemeinerung des neuronalen Netzes in einer oder mehreren Trainingsphasen sowie eine hohe Genauigkeit des Vorhersagens blickbezogener Parameter unter Verwendung des trainierten neuronalen Netzes zulässt.
  • Beispielsweise können mindestens 10 Datensätze, typischer mindestens 50 Datensätzen und noch typischer mindestens hundert Datensätzen des ersten Benutzers in der Datenbank gespeichert sein.
  • Zu diesem Zweck kann dem ersten Benutzer, der die am Kopf tragbare Vorrichtung trägt, ein zweiter Stimulus präsentiert werden, und die erste Kamera der am Kopf tragbaren Vorrichtung kann verwendet werden, um, wenn erwartet wird, dass der erste Benutzer auf den zweiten Stimulus reagiert, oder erwartet wird, dass er auf den zweiten Stimulus reagiert hat, ein zweites linkes Bild von mindestens einem Abschnitt des linken Auges des ersten Benutzers zu erzeugen, und, wenn erwartet wird, dass der erste Benutzer auf den zweiten Stimulus reagiert, oder erwartet wird, dass er auf den zweiten Stimulus reagiert hat, wird die zweite Kamera der am Kopf tragbaren Vorrichtung verwendet, um ein zweites rechtes Bild von mindestens einem Abschnitt des rechten Auges des ersten Benutzers zu erzeugen. Ein zweiter Datensatz, der das zweite linke Bild, das zweite rechte Bild und eine zweite Repräsentation des blickbezogenen Parameters einschließt, wobei die zweite Repräsentation mit dem zweiten Stimulus korreliert, kann erzeugt und zu der Datenbank hinzugefügt werden.
  • Darüber hinaus können die Bilder der Datensätze des ersten Benutzers unter anderen Bedingungen erzeugt werden, beispielsweise für einen ausgeruhten und einen müden Benutzer, oder zu unterschiedlichen Uhrzeiten und/oder bei unterschiedlichen Lichtverhältnissen. Weiterhin können die Bilder der Datensätze des ersten Benutzers für unterschiedliche Entfernungen zwischen einem präsentierten Stimulus und dem Benutzer erzeugte werden (was zu unterschiedlichen Brechwerten der Augen führt).
  • Somit können dem ersten Benutzer eine oder mehrere Folgen von Stimuli präsentiert und jeweilige Datensätzen erzeugt und zu der Datenbank hinzugefügt werden.
  • Aus statistischen Gründen können einige der Stimuli gleich sein.
  • Beispielsweise können der erste und/oder der zweite Stimulus zweimal oder häufiger dem ersten Benutzer präsentiert werden.
  • Je nach Stimulus kann eine bestimmte zeitliche Verzögerung zwischen dem Stimulus und der gewünschten Reaktion des Benutzers auftreten. Die zeitliche Verzögerung kann in einem Bereich von 100 ms oder 200 ms bis etwa einer halben Sekunde oder sogar einer Sekunde liegen.
  • Wenn ein Benutzer beispielsweise aufgefordert wird, auf ein sich nicht bewegendes Objekt oder eine Markierung in seinem Sichtfeld zu schauen, kann erwartet werden, dass der Benutzer nach der zeitlichen Verzögerung reagiert hat und anschließend für einen Zeitraum von etwa einer halben Sekunde auf das Objekt oder die Markierung schaut.
  • Wenn ein Benutzer als Reaktion auf einen jeweiligen Stimulus auf eine seiner sich bewegenden Fingerspitzen schaut, kann die zeitliche Verzögerung während der Bewegung auch unwesentlich sein. Entsprechend kann erwartet werden, dass der Benutzer während der Bewegung der Fingerspitze auf den Stimulus reagiert.
  • Darüber hinaus schließt das Erzeugen des jeweiligen Datensatzes typischerweise Auswählen eines Paars aus einem linken und rechten Bild aus jeweiligen Video-Streams oder Bildfolgen ein, die unter Verwendung der jeweiligen ersten und zweiten Kamera erhalten wurden.
  • Wenn ein Benutzer beispielsweise aufgefordert wird, auf ein sich nicht bewegendes Objekt oder eine Markierung in seinem Sichtfeld zu schauen, kann das Auswählen des Bildpaars unter jeweiliger Sicherstellung seiner Gültigkeit automatisches Bestimmen, dass der Blick des Benutzers sich stabilisiert hat, oder Analysieren der Trajektorie des vorhergesagten Blicks oder Nutzen eines separaten Mechanismus, beispielsweise eines separat trainierten neuronalen Netzes, zur Erkennung von Sakkaden oder Fixierung einschließen.
  • Darüber hinaus kann ein Video-Stream oder eine Bildfolge verwendet werden, um eine Vielzahl von Datensätzen zu erzeugen. Beispielsweise können Datensätze, die sich auf unterschiedliche Blickpunkte/Blickrichtungen beziehen, unter Verwendung eines Video-Streams oder einer Bildfolge, der bzw. die mit der ersten Kamera erlangt (z. B. aufgezeichnet) wurde, unter Verwendung eines Video-Streams oder einer Bildfolge, der bzw. die mit der zweiten Kamera erlangt wurde, und eines Video-Streams oder einer Bildfolge, der bzw. die mit einer Szenenkamera einer jeweiligen am Kopf tragbaren Vorrichtung erlangt wurde, erzeugt werden.
  • Typischerweise werden jeweilige Datensätzen, die sich auf mehrere Benutzer beziehen, erzeugt und zu der Datenbank hinzugefügt (darin gespeichert).
  • Entsprechend können die Merkmalsverallgemeinerung des neuronalen Netzes in der Trainingsphase sowie die Genauigkeit des Vorhersagens blickbezogener Parameter unter Verwendung des trainierten neuronalen Netzes weiter verbessert werden, wenn mehr und mehr Datensätze von einer wachsenden Anzahl von Benutzern und aufgezeichnet unter variierenden Bedingungen hinzugefügt werden.
  • Typischerweise können Datensätze, die sich auf mindestens 10 Benutzer beziehen, typischer auf mindestens 100 Benutzer und noch typischer auf mindestens mehrere hundert, mehrere tausend oder gar mehrere 10.000 Benutzer oder mehr beziehen, in der Datenbank gespeichert werden.
  • Beispielsweise kann einem zweiten Benutzer, der die am Kopf tragbare Vorrichtung trägt, ein dritter Stimulus präsentiert werden. Die ersten Kamera der am Kopf tragbaren Vorrichtung kann, wenn erwartet wird, dass der zweite Benutzer auf den dritten Stimulus reagiert oder erwartet wird, dass er auf den dritten Stimulus reagiert hat, verwendet werden, um ein drittes linkes Bild von mindestens einem Abschnitt eines linken Auges des zweiten Benutzers zu erzeugen, und die zweite Kamera der am Kopf tragbaren Vorrichtung kann, wenn erwartet wird, dass der zweite Benutzer auf den dritten Stimulus reagiert oder erwartet wird, dass er auf den dritten Stimulus reagiert hat, verwendet werden, um ein drittes rechtes Bild von mindestens einem Abschnitt eines rechten Auges des zweiten Benutzers zu erzeugen. Anschließend kann ein dritter Datensatz, der das dritte linke Bild, das dritte rechte Bild und eine dritte Repräsentation des blickbezogenen Parameters einschließt, wobei die dritte Repräsentation mit dem dritten Stimulus korreliert, erzeugt und zu der Datenbank hinzugefügt werden.
  • Ebenso kann dem ersten Benutzer, dem zweiten Benutzer oder einem dritten Benutzer, der eine weitere am Kopf tragbare Vorrichtung trägt, ein vierter Stimulus präsentiert werden. Die weitere am Kopf tragbare Vorrichtung schließt eine erste Kamera, die neben dem linken Auge des jeweiligen Benutzers angeordnet ist, und eine zweite Kamera ein, die neben dem rechten Auge des jeweiligen Benutzers angeordnet ist, wenn der jeweilige Benutzer die weitere am Kopf tragbare Vorrichtung trägt. Die erste Kamera der am Kopf tragbaren Vorrichtung kann, wenn erwartet wird, dass der jeweilige Benutzer auf den vierten Stimulus reagiert oder erwartet wird, dass er auf den vierten Stimulus reagiert hat, verwendet werden, um ein viertes linkes Bild von mindestens einem Abschnitt eines linken Auges des jeweiligen Benutzers zu erzeugen, und die zweite Kamera der am Kopf tragbaren Vorrichtung kann verwendet werden, um ein viertes rechtes Bild von mindestens einem Abschnitt eines rechten Auges des jeweiligen Benutzers zu erzeugen. Es kann eine Datenverbindung zwischen der weiteren am Kopf tragbaren Vorrichtung und der Datenbank hergestellt werden. Ein vierter Datensatz, der das vierte linke Bild, das vierte rechte Bild und eine vierte Repräsentation des blickbezogenen Parameters einschließt, wobei die vierte Repräsentation mit dem vierten Stimulus korreliert, kann erzeugt und zu der Datenbank hinzugefügt werden.
  • Der oder die Datensätze können seitens des Benutzers erzeugt werden, beispielsweise unter Verwendung einer Verarbeitungseinheit der jeweiligen am Kopf tragbaren Vorrichtung und/oder eines verbundenen Desktop-Computers, Tablets, Laptops oder Smartphones.
  • Der oder die Datensätze können ferner lokal gespeichert werden, bis eine Verbindung mit dem Rechensystem (Server) verfügbar ist.
  • Darüber hinaus können die erste Kamera der am Kopf tragbaren Vorrichtung oder der weiteren am Kopf tragbaren Vorrichtung verwendet werden, um ein weiteres linkes Bild von mindestens einem Abschnitt des linken Auge des ersten oder des zweiten Benutzers zu erzeugen, und die zweite Kamera der jeweiligen am Kopf tragbaren Vorrichtung kann verwendet werden, um ein weiteres rechtes Bild von mindestens einem Abschnitt des rechten Auges des jeweiligen Benutzers zu erzeugen, wenn erwartet wird, dass der jeweilige Benutzer auf den weiteren Stimulus reagiert, oder erwartet wird, dass er auf den weiteren Stimulus reagiert hat. Ein weiterer Datensatz, der das weitere linke Bild und das weitere rechte Bild einschließt, kann erzeugt und zu der Datenbank hinzugefügt werden.
  • Die Autoren haben festgestellt, dass ein bestimmter Anteil schwach gelabelter Datensätze, d. h. Datensätze mit weniger genau bekannten blickbezogenen Parametern, oder gar nicht gelabelte Datensätze, d. h. Datensätze, für die keine gültigen Repräsentationen, z. B. Werte des bzw. der blickbezogenen Parameter bekannt sind, trotzdem die Leistung des mit der Datenbank trainierten NN verbessern kann. Der Grund dafür ist, dass selbst nicht gelabelte Datensätze Informationen zu der enthaltenen Bilddiversität einschließen.
  • Beispielsweise kann die Datenbank bis zu 70 %, typischer bis zu 80 % und noch typischer bis zu 90 % oder mehr an schwach und/oder nicht gelabelten Datensätzen einschließen.
  • In einer Ausführungsform wird mehr als ein blickbezogener Parameter, beispielsweise zwei oder drei blickbezogene Parameter, mit mindestens einem der Datensätzen zu der Datenbank hinzugefügt.
  • Der Begriff „blickbezogenen Parameter“ bei Verwendung in dieser Beschreibung soll eine Blickrichtung, eine zyklopische Blickrichtung, einen 3D-Blickpunkt, einen 2D-Blickpunkt, eine Augenstellung als 3D-Position und Ausrichtung, ein Paar 3D-Blickrichtungen (linkes und rechtes Auge), eine Ausrichtung einer Sehachse, eine Ausrichtung einer optischen Achse, eine Ausrichtung einer Pupillenachse, eine Ausrichtung einer Sichtlinie, eine Ausrichtung und/oder eine Position und/oder ein Schließen eines Augenlids, eine Pupillenfläche, eine Pupillengröße, einen Pupillendurchmesser, eine Lederhauteigenschaft, einen Irisdurchmesser, eine Eigenschaft eines Blutgefäßes, eine Hornhauteigenschaft mindestens eines Auges, einen Hornhautradius, einen Augapfelradius, einen Abstand Pupillenmitte bis Hornhautmitte, einen Abstand Hornhautmitte bis Augapfelmitte, einen Abstand Pupillenmitte bis Limbusmitte, einen keratometrischen Hornhautbrechungsindex, einen Hornhautbrechungsindex, ein Glaskörperflüssigkeitsbrechungsindex, einen Abstand Kristalllinse bis Augapfelmitte, bis Hornhautmitte und/oder bis Hornhautscheitelpunkt, einen Kristalllinsenbrechungsindex, einen Grad an Astigmatismus, einen Ausrichtungswinkel einer flachen und/oder einer steilen Achse, eine Ausrichtung der Haupt- und/oder Nebenachse des Limbus, eine Augenzyklotorsion, einen Abstand zwischen den Augen, eine Augenvergenz, Statistiken zur Augadduktion und/oder Augabduktion, Statistiken zur Augenerhöhung und/oder Augenvertiefung, Daten zur kognitiven Beanspruchung, Blinzelereignisse, Schläfrigkeit und/oder Aufmerksamkeit des Benutzers und einen Parameter zur Überprüfung und/oder Erkennung der Iris des Benutzers einschließen. Punkte und Richtungen können beispielsweise in einem Szenenkamerabild, einem Augenkamerakoordinatensystem, einem Szenenkamerakoordinatensystem, einem Vorrichtungskoordinatensystem, Kopfkoordinatensystem, Weltkoordinatensystem oder einem beliebigen anderen geeigneten Koordinatensystem angegeben werden.
  • Gemäß einer Ausführungsform wird ein jeweiliger gegebener oder resultierender Wert des bzw. der blickbezogenen Parameter für den jeweilige Benutzer bestimmt, von dem erwartet wird, dass er auf den jeweiligen Stimulus reagiert oder reagiert hat.
  • Der bestimmte gegebene oder resultierende Wert des blickbezogenen Parameters bzw. der blickbezogenen Parameter kann als jeweilige Repräsentation des blickbezogenen Parameters bzw. der blickbezogenen Parameter des Datensatzes bzw. der Datensätze verwendet werden.
  • Der bestimmte gegebene oder resultierende Wert kann als der tatsächliche oder Ground-Truth-Wert des blickbezogenen Parameters betrachtet werden.
  • Im Folgenden wird ein Datensatz, der ein linkes Bild von mindestens einem Abschnitt des linken Auges, ein rechtes Bild von mindestens einem Abschnitt des rechten Auges und einen entsprechenden tatsächlichen oder Ground-Truth-Wert von einem oder mehreren blickbezogenen Parametern aufweist, wie etwa dem Blickpunkt oder Blickrichtung, auch als gelabelter Datensatz bezeichnet. Typischerweise werden die zwei Bilder eines Datensatzes im Wesentlichen zur selben Zeit aufgenommen, d. h. innerhalb eines Zeitraums von höchstens 50 ms oder sogar höchstens 10 ms.
  • Gelabelte Datensätzen sind für das Trainieren von NNs besonders wertvoll.
  • Gemäß Ausführungsformen wird eine Bestimmungseinheit für blickbezogene Parameter, insbesondere eine jeweilige Einheit der jeweiligen am Kopf tragbaren Vorrichtung, verwendet, um den jeweiligen gegebenen oder resultierenden Wert des blickbezogenen Parameters zu bestimmen, insbesondere die jeweilige gegebene oder resultierende Blickrichtung und/oder den jeweiligen gegebenen oder resultierenden Blickpunkt für den jeweiligen Benutzer.
  • In einer Ausführungsform wird eine Szenenkamera, die zum Aufnehmen eines gegebenen Objekts im Sichtfeld des jeweiligen Benutzers angeordnet ist, der die jeweilige am Kopf tragbare Vorrichtung trägt, zum Aufnehmen von Bildern verwendet, die als eine Grundlage zum Bestimmen eines jeweiligen resultierenden Werts des blickbezogenen Parameters verwendet werden können.
  • Beispielsweise schaut der jeweilige Benutzer als Reaktion auf einen jeweiligen Stimulus, z. B. einen visuellen Stimulus und/oder einen akustischen Stimulus, auf ein gegebenes jeweiliges Objekt, das eine jeweilige gegebene Blickrichtung relativ zu einem Koordinatensystem, das für die jeweilige am Kopf tragbare Vorrichtung festgelegt ist, und/oder einen jeweiligen gegebenen Blickpunkt im Koordinatensystem definiert, oder er wird dazu veranlasst.
  • Gemäß einem Ausführungsbeispiel wird der jeweilige Benutzer durch einen visuellen Stimulus oder einen akustischen Stimulus aufgefordert, auf eine Markierung oder ein Objekt zu schauen, beispielsweise die Spitze eines seiner Finger.
  • Wie bereits vorstehend erläutert, kann der jeweilige Benutzer aufgefordert werden, in unterschiedlichen Positionen auf seine Fingerspitze zu schauen oder seiner sich bewegenden Fingerspitze mit den Augen zu folgen. Selbst ein einzelner Stimulus kann daher verwendet werden, um eine Folge von Datensätzen zu erzeugen, die jeder ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und einen anderen resultierenden Wert des oder der jeweiligen blickbezogenen Parameter als Repräsentation des oder der blickbezogenen Parameter einschließen.
  • Es können ein jeweiliges linkes Bild und ein jeweiliges rechtes Bild erzeugt werden, wenn erwartet wird, dass der jeweilige Benutzer auf das jeweilige gegebene Objekt, in die jeweilige gegebene Richtung und/oder auf den jeweiligen gegebenen Blickpunkt schaut.
  • Anschließend werden der resultierende Wert bzw. die resultierenden Werte der gegebenen Blickrichtung und/oder des gegebenen Blickpunkts im Koordinatensystem, das für die jeweilige am Kopf tragbare Vorrichtung festgelegt ist, unter Verwendung eines Szenenbilds des Sichtfelds des Benutzers bestimmt, wenn erwartet wird, dass der jeweilige Benutzer auf das jeweilige gegebene Objekt, in die jeweilige gegebene Richtung und/oder auf den jeweiligen gegebenen Blickpunkt schaut. Das Szenenbild kann unter Verwendung der Szenenkamera erlangt werden.
  • Darüber hinaus ermöglichen das Bestimmen und Speichern des bzw. der resultierenden Werte im Koordinatensystem, das für die jeweilige am Kopf tragbare Vorrichtung festgelegt ist, ihre spätere Verwendung.
  • Das Bestimmen des resultierenden Werts bzw. der resultierenden Werte kann unter Verwendung von Techniken für maschinelles Lernen, Computervision oder Bilderkennung des Stands der Technik erreicht werden.
  • Natürlich wird davon ausgegangen, dass sich der oder die Benutzer kooperativ verhalten. Von einem solchen Verhalten ist auszugehen, da jeder Benutzer ein Interesse daran hat, die Genauigkeit und Zuverlässigkeit der Vorhersagen des NN zu verbessern, das unter Verwendung der Datenbank trainiert/nachtrainierte wird, und das daher von der Qualität der von dem Benutzer bzw. den Benutzern bereitgestellten Datensätze abhängig ist.
  • Dies gilt auch für eine weitere Ausführungsform, in der ein gewünschten Wert des blickbezogenen Parameters verwendet wird, um die Position und/oder das Erscheinungsbild eines Objekts zu bestimmen, das im Sichtfeld des Benutzers angezeigt werden soll. Im Folgenden wird der gewünschte Wert des blickbezogenen Parameters auch als der gegebene Wert des blickbezogenen Parameters bezeichnet.
  • Beispielsweise kann der Benutzer aufgefordert werden, auf eine gegebene Markierung oder ein Objekt zu schauen, die bzw. das an einer gegebenen (gewünschten) Position auf einem Bildschirm, der zu der am Kopf tragbaren Vorrichtung gehört oder an ihr anbringbar ist, angezeigt wird.
  • Aus Gründen der Genauigkeit kann die Szenenkamera eine Auflösung von mindestens 640 x 480 Pixeln oder mindestens 800 x 600 Pixeln, typischer von mindestens 1024 x 768 Pixeln, und noch typischer von mindestens 1280 x 1024 Pixeln oder mindestens 1920 x 1080 Pixeln (mindestens VGA oder sogar SVGA) aufweisen.
  • Anders als das Szenenbild bzw. die Szenenbilder ist die Auflösung der linken und rechten Bilder typischerweise vergleichsweise gering. Die Pixelanzahl der linken Bilder und der typischerweise ebenso großen rechten Bilder kann höchstens 40000, insbesondere höchstens 10000, insbesondere höchstens 5000 und genauer höchstens 2500 oder sogar 1000 betragen.
  • Auch bei linken und rechten Graustufenbildern mit geringer Auflösung von 64 mal 64 Pixeln, 50 mal 50 Pixeln oder sogar nur 32 mal 32 Pixeln kann unter Verwendung trainierter NNs eine überraschend hohe Zuverlässigkeit der Blickrichtungs-/Blickpunktvorhersage erzielt werden.
  • Tatsächlich kann die Blickrichtung/der Blickpunkt in vielen Fällen auch dann genau erkannt werden, wenn das linke Bild oder das rechte Bild oder sogar beide Bilder keine Pupille oder nur einen Abschnitt der jeweiligen Pupille enthalten.
  • In Ausführungsformen, die sich auf IR-Kameras für das linke und das rechte Auge beziehen, kann eine rechte IR-Lichtquelle der jeweiligen am Kopf tragbaren Vorrichtung zum Beleuchten des rechten Auge des jeweilige Benutzers verwendet werden und eine linke IR-Lichtquelle der jeweiligen am Kopf tragbaren Vorrichtung zum Beleuchten des linken Auges des jeweiligen Benutzers verwendet werden. IR-Beleuchtung kann nur dann verwendet/aufgerufen werden, wenn die Bildqualität zu niedrig ist oder zu erwarten ist, dass sie niedrig ist, beispielsweise in einer dunklen Umgebung. IR-Beleuchtung kann auch dauerhaft eingeschaltet sein oder immer eingeschaltet sein und nur ausgeschaltet werden, um Strom zu sparen, und/oder wenn die Bildqualität ohne Beleuchtung ausreichend ist.
  • Das Erzeugen oder Hinzufügen eines Datensatzes kann das Verketten des jeweiligen linken Bildes und des jeweiligen rechten Bildes einschließen. Es sei angemerkt, dass verkettete Bilder direkt einer 2-dimensionale Eingabeschicht des NN präsentiert werden können.
  • Darüber hinaus kann das Erzeugen oder Hinzufügen des jeweiligen Datensatzes das Speichern einer jeweiligen Repräsentation eines weiteren blickbezogenen Parameters, der sich von dem blickbezogenen Parameter unterscheidet, einer jeweiligen Benutzerkennung, einer jeweiligen Benutzergruppenkennung und/oder einer Vorrichtungskennung der jeweilige am Kopf tragbaren Vorrichtung einschließen. Die jeweilige Benutzergruppenkennung kann auch Teil der Benutzerkennung sein.
  • Das Speichern der jeweiligen Benutzerkennung, der jeweiligen Benutzergruppenkennung und/oder der Vorrichtungskennung der jeweilige am Kopf tragbaren Vorrichtung in den Datensätzen der Datenbank kann das Trainieren des neuronalen Netzes in einer Vorrichtung auf spezifische, benutzerspezifische und/oder benutzergruppenspezifische Weise ermöglichen.
  • Beispielsweise kann das neuronale Netz speziell für Kinder, Erwachsene, ältere Menschen, Menschen gemeinsamer ethnischer Abstammung, Frauen, Männer, eine Gruppe von Menschen mit gemeinsamem Hintergrund, eine Gruppe von Menschen, die Arzneimittel oder einen Wirkstoff wie etwa Alkohol erhalten, oder sehbehinderte oder in anderer Weise behinderte Menschen, eine bestimmte Vorrichtung, eine Vorrichtungsklasse, eine Benutzerkennung, eine Benutzergruppe und dergleichen trainiert werden.
  • Typischerweise enthält die Datenbank jeweilige Datensätze verschiedener Benutzer, Zustände der Benutzer, Lichtverhältnisse (Innen- und/oder Außenlichtverhältnisse), Verrutschungszustände der getragenen am Kopf tragbaren Vorrichtung und/oder unterschiedliche Entfernungen zwischen dem Benutzer und einem präsentierten Objekt, auf das der Benutzer blickt.
  • Gemäß einer Ausführungsform eines Verfahrens zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes, umfasst das Verfahren Bereitstellen einer Datenbank ein, die eine Vielzahl von Datensätzen aufweist, die jeweils ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige entsprechende Repräsentation eines blickbezogenen Parameters, insbesondere einen jeweiligen entsprechenden Wert des blickbezogenen Parameters, aufweisen. Es wird ein neuronales Netz mit einer gegebenen Architektur bereitgestellt. Parameter des neuronalen Netzes werden unter Verwendung der jeweiligen linken Bilder und der jeweiligen rechten Bilder eines Teilsatzes oder aller Datensätze als Eingabe und der jeweiligen entsprechenden Repräsentationen der blickbezogenen Parameter des Teilsatzes oder aller Datensätze als gewünschte Ausgabe des neuronalen Netzes bestimmt.
  • Der Deutlichkeit halber wird das Verfahren zum Trainieren des neuronalen Netzes auch als Trainingsverfahren bezeichnet.
  • Gemäß einer Ausführungsform wird ein trainiertes neuronales Netz, d. h. ein neuronales Netz, das mit allen oder ausgewählten Datensätzen der Datenbank trainiert wurde, verwendet, um aus einem linken Bild, das durch die erste Kamera erzeugt wird, und einem rechten Bild, das durch die zweite Kamera der jeweiligen am Kopf tragbaren Vorrichtung erzeugt wird, einen blickbezogenen Parameter eines Benutzers vorherzusagen, typischerweise in Echtzeit, insbesondere eine Augenblickrichtung eines Benutzers und/oder einen Augenblickpunkt eines Benutzers, wenn der Benutzer eine jeweilige am Kopf tragbare Vorrichtung trägt.
  • Wie bereits oben erwähnt, kann das Trainingsverfahren benutzer- oder benutzergruppenspezifisch sein.
  • Entsprechend können Vorhersagen des neuronalen Netzes von besonders hoher Zuverlässigkeit und/der Genauigkeit für den Benutzer oder die Benutzergruppe erzielt werden.
  • Darüber hinaus kann das trainierte neuronale Netz dazu verwendet werden, einen weiteren blickbezogenen Parameter, einen Augenparameter und/oder einen physiologischen Parameter des Benutzers zu bestimmen.
  • Beispielsweise kann das trainierte neuronale Netz dazu trainiert worden sein, auf Grundlage des linken und rechten Bildes zu erkennen, ob der Benutzer müde ist (oder wird), geistig abgelenkt, und betrunken oder dergleichen ist.
  • Anstelle des Verwendens eines benutzerspezifischen trainierten neuronalen Netzes oder zusätzlich dazu kann ein Kalibrierungsverfahren am Standort des Benutzers verwendet werden.
  • Gemäß einer Ausführungsform umfasst ein Verfahren zum Kalibrieren einer am Kopf tragbaren Vorrichtung Präsentieren eines Stimulus an einen Benutzer, der die am Kopf tragbare Vorrichtung trägt, wie in dieser Schrift erläutert. Die ersten Kamera der am Kopf tragbaren Vorrichtung wird verwendet, um ein linkes Bild von mindestens einem Abschnitt des linken Auges des Benutzers zu erzeugen, und die zweite Kamera der am Kopf tragbaren Vorrichtung wird verwendet, um ein rechtes Bild von mindestens einem Abschnitt des rechten Auges des Benutzers zu erzeugen, der die am Kopf tragbare Vorrichtung trägt und von dem erwartet wird, dass er auf den Stimulus reagiert, oder von dem erwartet wird, dass er auf den Stimulus reagiert hat. Ein trainiertes neuronales Netz, insbesondere ein trainiertes neuronales Faltungsnetz, wird, wie in dieser Schrift erläutert, verwendet, um einen vorhergesagten Wert des blickbezogenen Parameters unter Verwendung des rechten Bildes und des linken Bildes als eine Eingabe für das trainierte neuronale Netz zu bestimmen. Der gewünschte Wert des blickbezogenen Parameters und der vorhergesagte Wert des blickbezogenen Parameters werden verwendet, um eine Korrekturfunktion für den Benutzer zu bestimmen.
  • Die Korrekturfunktion für den Benutzer kann lokal gespeichert werden, beispielsweise in einem Speicher der am Kopf tragbaren Vorrichtung und/oder in der Datenbank.
  • Differenzen zwischen entsprechenden gewünschten und vorhergesagten Werten des blickbezogenen Parameters können z. B. auf eine Besonderheit eines neuen Benutzers, die noch nicht ausreichend in der Datenbank reflektiert wird, einen Lernfehler oder eine Veränderung des Benutzers im Laufe der Zeit zurückgehen.
  • In jedem Fall kann die Korrekturfunktion verwendet werden, um die Netzvorhersagen für den jeweilige Benutzer sofort zu verbessern.
  • Andererseits können das entsprechende linke und rechte Bild und die gewünschten (Ground-Truth-) Werte des blickbezogenen Parameters als neue Datensätzen zu der Datenbank hinzugefügt werden.
  • Mit anderen Worten, es können ein oder mehrere neue Datensätze, die ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild, einen jeweiligen gewünschten blickbezogenen Parameter oder eine andere Repräsentation des blickbezogenen Parameters aufweisen, erzeugt und zu der Datenbank hinzugefügt werden, um eine aktualisierte Datenbank zu erzeugen.
  • Entsprechend deckt die aktualisierte Datenbank ein größeres Spektrum an Datensätzen ab und/oder die Leistung des nachtrainierten Netzes kann verbessert werden.
  • Darüber hinaus kann die aktualisierte Datenbank zum Nachtrainieren des neuronalen Netzes verwendet werden. Entsprechend kann die Leistung des nachtrainierten Netzes noch weiter verbessert werden.
  • Die bestimmte Korrekturfunktion kann zum Korrigieren von Vorhersagen des trainierten oder nachtrainierten NN für den Benutzer verwendet werden.
  • Gemäß einer Ausführungsform wird die erste Kamera verwendet, um ein linkes Bild von mindestens einem Abschnitt des linken Auges des Benutzers zu erzeugen, und die zweite Kamera wird verwendet, um ein rechtes Bild von mindestens einem Abschnitt des rechten Auges des Benutzers zu erzeugen, der die am Kopf tragbare Vorrichtung trägt. Das trainierte oder nachtrainierte neuronale Netz wird verwendet, um einen weiteren vorhergesagten Wert des blickbezogenen Parameters unter Verwendung des weiteren rechten Bildes und des weiteren linken Bildes als eine Eingabe für das trainierte neuronale Netz zu bestimmen. Der weitere vorhergesagte Wert wird durch Anwenden der Korrekturfunktion auf den weiteren vorhergesagten Wert korrigiert, um einen korrigierten Wert des blickbezogenen Parameters zu erhalten.
  • Gemäß einer weiteren Ausführungsform wird das trainierte oder nachtrainierte neuronale Netz verwendet, um einen vorhergesagten Wert eines weiteren blickbezogenen Parameters, der sich von dem blickbezogenen Parameter unterscheidet, unter Verwendung des rechten Bildes und des linken Bildes als eine Eingabe für das jeweilige neuronale Netz zu bestimmen, und der vorhergesagte Wert des weiteren blickbezogenen Parameters und ein gewünschter Wert des weiteren blickbezogenen Parameters, der mit dem Stimulus oder einem weiteren Stimulus korreliert, wird zum Bestimmen einer weiteren Korrekturfunktion für den Benutzer verwendet.
  • Die Korrekturfunktion bzw. Korrekturfunktionen können als polynomische Funktion implementiert sein. Beispielsweise kann ein Polynom von zwei Eingabevariablen als eine jeweilige Korrekturfunktion für eine 2D-Blickrichtung bzw. einen 2D-Blickpunkt verwendet werden.
  • Typischerweise wird die Korrekturfunktion bzw. werden die Korrekturfunktionen unter Verwendung unterschiedlicher Paare gewünschter und vorhergesagter Werte des blickbezogenen Parameters bzw. der blickbezogenen Parameter bestimmt.
  • Der gewünschte Wert kann einem gegebenen Wert (im Voraus festgelegten Wert) oder einem resultierenden Wert entsprechen, und/oder kann in gleichartiger Weise wie oben in Bezug auf das Verfahren zum Erstellen und Aktualisieren der Datenbank bestimmt werden.
  • Beispielsweise kann die oben beschriebene Einheit zur Bestimmung blickbezogener Parameter verwendet werden, um den resultierenden Wert als gegebenen Wert (Ground-Truth-Wert) des jeweiligen blickbezogenen Parameters zu bestimmen, insbesondere wenn der Benutzer auf seine Fingerspitze oder ein anderes Objekt in seinem Sichtfeld, das wie beschrieben durch eine Szenenkamera überwacht wird, schaut und/oder ihr bzw. ihm folgt. Darüber hinaus ist die Einheit zur Bestimmung blickbezogener Parameter typischerweise dazu konfiguriert, einen jeweiligen gegebenen Wert oder resultierenden Wert als eine jeweilige Repräsentation des blickbezogenen Parameters zu bestimmen, um diese in einem jeweiligen Datensatz zu speichern.
  • In Ausführungsformen, in denen der Benutzer aufgefordert wird, auf ein gegebenes Objekt auf einem Bildschirm zu blicken, kann die Einheit zur Bestimmung blickbezogener Parameter vor dem Anzeigen des Objekts die Position des Objekts auf dem Bildschirm gemäß einem gegebenen Wert (im Voraus festgelegten Wert) des blickbezogenen Parameters bestimmen. Alternativ kann die Einheit zur Bestimmung blickbezogener Parameter den blickbezogenen Parameter gemäß einer zufällig gewählten Position des Objekts auf dem Bildschirm bestimmen.
  • Das beschriebene Kalibrierungsverfahren kann mindestens teilweise durch einen oder mehrere Prozessoren der jeweilige am Kopf tragbaren Vorrichtung, wie etwa eine Brillenvorrichtung wie in dieser Schrift beschrieben, eine Korbbrille, ein am Kopf tragbares AR-Display und ein am Kopf tragbares VR-Display, oder durch einen oder mehrere Prozessoren eines lokalen Computers, der mit der am Kopf tragbaren Vorrichtung verbunden ist, durchgeführt und/oder gesteuert werden.
  • Das beschriebene Kalibrierungsverfahren kann aufgerufen werden, wenn ein neuer Benutzer die am Kopf tragbare Vorrichtung zum ersten Mal trägt, von Zeit zu Zeit, wenn ein Verrutschen der am Kopf tragbaren Vorrichtung wahrscheinlich ist, erwartet oder erkannt wird, oder auf Anfrage des Benutzers.
  • Gemäß einer Ausführungsform umfasst ein Verfahren zum Erfassen von einem oder mehreren blickbezogenen Parametern eines Benutzers Erstellen eines ersten Bildes eines linken Auges des Benutzers unter Verwendung einer ersten Kamera einer am Kopf tragbaren Vorrichtung, die durch den Benutzer getragen wird, Erstellen eines rechten Bildes eines rechten Auges des Benutzers unter Verwendung einer zweiten Kamera der am Kopf tragbaren Vorrichtung, gemeinsames Einspeisen des linken und rechten Bildes als eine Eingabe in ein (trainiertes) neuronales Faltungsnetz und Erhalten des einen oder der mehreren blickbezogenen Parameter von dem neuronalen Faltungsnetz als ein Ergebnis der Eingabe des linken und rechten Bildes.
  • Im Folgenden wird das Verfahren zum Erfassen von einem oder mehreren blickbezogenen Parametern des Benutzers auch als Erkennungsverfahren bezeichnet.
  • Das neuronale Faltungsnetz ist typischerweise ein trainiertes neuronales Netz, wie in dieser Schrift erläutert. Das Verwenden eines solchen trainierten neuronalen Faltungsnetzes zum Erlangen (Bestimmen) jeweiliger vorhergesagter Werte des blickbezogenen Parameters bzw. der blickbezogenen Parameter unter Verwendung des rechten Bildes und des linken Bildes als Eingabe ermöglicht eine besonders hohe Genauigkeit und Zuverlässigkeit der Vorhersage in Echtzeit mit vergleichsweise geringen Rechenressourcen.
  • Daher können die Prozesse des Erkennungsverfahrens teilweise oder sogar ganz durch eine Verarbeitungseinheit oder einen Computer ausgeführt werden, die bzw. der in eine tragbare Vorrichtung integriert ist, beispielsweise in einen (standardmäßigen) Brillenrahmen der am Kopf tragbaren Vorrichtung.
  • Alternativ kann die Verarbeitungseinheit oder der Computer teilweise oder ganz in einen Desktopcomputer, einen lokalen Server, ein Smartphone, ein Tablet oder einen Laptop integriert sein, der bzw. das mit der am Kopf tragbaren Vorrichtung verbunden ist.
  • Die linken und rechten Bilder können vor dem Eingeben in das neuronale Faltungsnetz verkettet werden. Typischerweise werden die verketteten Bilder in eine zweidimensionale Eingabeschicht des neuronalen Faltungsnetzes eingegeben.
  • In Ausführungsformen, die sich auf gleich große, quadratisch geformte linke und rechte Bilder beziehen, die jeweils NxN Pixel aufweisen, ist die Eingabeschicht typischerweise eine Nx2N-Matrix.
  • N ist typischerweise kleiner oder gleich 50, vorzugsweise kleiner oder gleich 30, insbesondere kleiner oder gleich 20.
  • In anderen Ausführungsformen sind die linken und rechten Bilder nicht quadratische Rechtecke, aber typischerweise ebenfalls von gleicher Größe und Form.
  • Darüber hinaus können die ersten und zweiten Bilder vor dem Eingeben in das neuronale Faltungsnetz nicht vorverarbeitet werden, um räumliche und/oder zeitliche Muster oder Anordnungen zu erlangen. Dies kann die Rechenkosten weiter reduzieren.
  • Die linken und rechten Bilder können beispielsweise vor dem Eingeben in das neuronale Faltungsnetz keiner Merkmalsextraktion unterzogen werden.
  • Außerdem wird die Ausgabe des neuronalen Faltungsnetzes typischerweise nicht zum Erhalten (der vorhergesagten Werte des) einen oder der mehreren blickbezogenen Parameter nachverarbeitet.
  • Der bzw. die vorhergesagten Werte des bzw. der blickbezogenen Parameter können als Eingabe eines weiteren Moduls verwendet werden, z. B. ein mit Verbraucherhaushalten zusammenhängendes (Software-) Modul, ein geschäftliches (Software-) Modul und/oder ein medizinisches (Software-) Modul.
  • Alternativ werden der bzw. die vorhergesagten Werte unter Verwendung einer benutzerspezifischen Korrekturfunktion korrigiert, wie in dieser Schrift erläutert, bevor sie als Eingabe für ein weiteres Modul verwendet werden.
  • Beispielsweise können der vorhergesagte oder korrigierte Wert bzw. die vorhergesagten oder korrigierten Werte von weiteren Modulen verwendet werden, um zu bestimmen, auf welches Objekt auf einem Bildschirm der Benutzer blickt, wie lang der Benutzer auf das Objekt blickt, ob der Benutzer blinzelt, während er auf das Objekt blickt, usw. Diese Informationen können verwendet werden, um die Interaktion des Benutzers mit einer Steuervorrichtung oder einem Computer zu verbessern, die bzw. der mit dem Bildschirm und/oder der am Kopf tragbaren Vorrichtung verbunden ist, oder für Werbung.
  • In Ausführungsformen, die sich auf eine am Kopf tragbare Vorrichtung mit einem Display beziehen, kann das Display der am Kopf tragbaren Vorrichtung als der Bildschirm dienen.
  • Das neuronale Faltungsnetz weist typischerweise mindestens 6 Schichten und vorzugsweise mehr als 10 Schichten auf.
  • Das neuronale Faltungsnetz kann zwischen 12 und 30 Schichten, vorzugsweise zwischen 16 und 20 Schichten aufweisen.
  • Das neuronale Faltungsnetz verwendet typischerweise einen Filterkern oder Filterkerne der Größe M, wobei M im Bereich von 1 bis 7, vorzugsweise 3 bis 5.
  • Es sei angemerkt, dass Filterkerngrößen häufig als einzelne Ganzzahl M angegeben werden. Dies bedeutet, dass die Matrix des Filters tatsächlich die Größe MxMxNc aufweist, wobei Nc die Anzahl Kanäle in der entsprechenden Schicht des Netzes ist.
  • Wenn beispielsweise linke und rechte RGB-Farbbilder (3 Kanäle) als Eingabe verwendet werden, kann die erste Faltungsschicht für M=5 beispielhafte 16 Filtermatrizen oder Kerne der Größe 5x5x3 aufweisen, was zu der nächsten Schicht Daten mit 16 Kanälen führt, nämlich einem aus jeder Faltung mit einem der sechzehn 5x5x3-Filter der vorhergehenden Schicht. Wenn linke und rechte Graustufenbilder (1 Kanal) als Eingabe verwendet werden, weisen die jeweiligen Filtermatrizen oder Kerne für M=5 gleichermaßen eine Größe von 5x5(x1) auf.
  • Es kann eine beliebige der in dieser Schrift beschriebenen am Kopf tragbaren Vorrichtungen zum Erfassen von einem oder mehreren blickbezogenen Parametern verwendet werden.
  • In einer Ausführungsform können sich die erste und zweite Kamera innerhalb eines Bereichs von 32 bis 40, vorzugsweise 34 bis 38, insbesondere 36 Grad in Bezug auf die Mittellinienebene der am Kopf tragbaren Vorrichtung befinden.
  • In einer anderen Ausführungsform können sich die erste und zweite Kamera innerhalb eines Bereichs von 114 bis 122, vorzugsweise 116 bis 120, vorzugsweise 118 Grad in Bezug auf die Mittellinienebene der am Kopf tragbaren Vorrichtung befinden.
  • In beiden Ausführungsformen werden die typischerweise winzigen Kameras von dem Benutzer beim Tragen der Vorrichtung überhaupt nicht bemerkt.
  • Beispielsweise können die erste und zweite Kamera ein jeweiliges Volumen von weniger als etwa 40 mm3 oder gar 10 mm3 aufweisen.
  • Die am Kopf tragbare Vorrichtung kann Teil eines Systems sein, das fähig ist, die Parametervorhersage von Benutzern im Laufe der Zeit zu verbessern.
  • Gemäß einer Ausführungsform weist ein System zum Verbessern der Vorhersage von blickbezogenen Parametern mindestens eine am Kopf anbringbare Vorrichtung, eine Verarbeitungseinheit und ein Rechensystem auf. Das Rechensystem ist mit der Verarbeitungseinheit verbindbar und dazu konfiguriert, eine erste Datenbank zu hosten und das neuronale Netz, insbesondere ein neuronales Faltungsnetz, unter Verwendung der ersten Datenbank zu trainieren. Die mindestens eine am Kopf anbringbare Vorrichtung schließt eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers ein, wenn der Benutzer die am Kopf anbringbare Vorrichtung trägt. Die Verarbeitungseinheit ist mit der ersten Kamera und der zweiten Kamera verbindbar und dazu konfiguriert, einen vorhergesagten Wert eines blickbezogenen Parameters des Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe des neuronalen Netzes zu bestimmen. Das System ist dazu konfiguriert, Datensätze zu der ersten Datenbank hinzuzufügen und Parameter des neuronalen Netzes (oder sogar ein vollständiges Modell des NN) von dem Rechensystem an die Verarbeitungseinheit zu übertragen. Die hinzugefügt Datensätze schließen ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation des blickbezogenen Parameters des Benutzers ein.
  • Typischerweise schließt das System eine Vielzahl von am Kopf anbringbaren Vorrichtungen ein, wie in dieser Schrift erläutert.
  • Entsprechend können Datensätzen von vielen Benutzern zum Aktualisieren der Datenbank und somit zum Verbessern (durch Trainieren oder Nachtrainieren unter Verwendung der Datenbank) des neuronalen Netzes beitragen, das an den Standort des Benutzers übertragene und zum Vorhersagen des bzw. der blickbezogenen Parameter verwendet wird.
  • In einem Ausführungsbeispiel wird eine Einheit zur Bestimmung blickbezogener Parameter der jeweiligen am Kopf tragbaren Vorrichtung verwendet, um eine gegebene oder resultierende Blickrichtung des Benutzers und/oder einen gegebenen oder resultierenden Blickpunkt als den gewünschten Wert des jeweiligen blickbezogenen Parameters zu bestimmen.
  • Die Einheit zur Bestimmung blickbezogener Parameter kann eine Szenenkamera einschließen, die dazu angeordnet ist, ein Sichtfeld des Benutzers aufzunehmen, der die jeweilige am Kopf tragbare Vorrichtung trägt.
  • Es sei angemerkt, dass nicht nur die Instanz, sondern die Implementierung des NN in der Trainingsphase (im Rechensystem) und der Ausführungsphase (am Standort des Benutzers) unterschiedlich sein kann.
  • Es wird nun detailliert auf verschiedene Ausführungsformen Bezug genommen, von denen ein oder mehrere Beispiele in den Figuren veranschaulicht sind. Jedes Beispiel dient der Erläuterung und soll keine Einschränkung der Erfindung darstellen. Beispielsweise können Merkmale, die als Teil einer Ausführungsform veranschaulicht oder beschrieben werden, an oder in Verbindung mit anderen Ausführungsformen verwendet werden können, um noch eine weitere Ausführungsform zu ergeben. Es ist vorgesehen, dass die vorliegende Erfindung diese Abwandlungen und Variationen einschließt. Die Beispiele sind unter Verwendung spezifischer Ausdrücke beschrieben, die nicht als den Umfang der beigefügten Ansprüche einschränkend auszulegen sind. Die Zeichnungen sind nicht maßstabsgetreu und dienen nur der Veranschaulichung. Der Deutlichkeit halber wurden, sofern nicht anders angegeben, in den verschiedenen Zeichnungen gleiche Elemente oder Herstellungsschritte mit gleichen Bezugszeichen versehen.
  • Bezugnehmend auf 1A bis 1C wird eine verallgemeinerte Ausführungsform einer am Kopf tragbaren Brillenvorrichtung zum Bestimmen von einem oder mehreren blickbezogenen Parametern eines Benutzers gezeigt. Tatsächlich soll durch 1A und 1C eine Vielzahl von Ausführungsformen dargestellt werden, wobei diese Ausführungsformen sich hinsichtlich der Position der Kameras 14, 24 voneinander unterscheiden. Daher ist die Brillenvorrichtung 1 in 1A ausschließlich zum Zweck der Repräsentation der einzelnen Ausführungsformen mit mehr als einer Kamera 14, 24 pro Okularöffnung 11, 21 gezeigt. In dieser Ausführungsform jedoch umfasst die Brillenvorrichtung nicht mehr als eine jeder Okularöffnung 11, 21 zugeordnete Kamera 14, 24.
  • 1A ist eine Draufsicht auf die Brillenvorrichtung 1, wobei die linke Seite 10 der Brillenvorrichtung 1 auf der rechten Seite des Zeichnungsblatts von 1A gezeigt ist und die rechte Seite 20 der Brillenvorrichtung 1 auf der linken Seite Zeichnungsblatts von 1A gezeigt ist. Die Brillenvorrichtung 1 weist eine mittlere Ebene 100 auf, die mit einer Mittellinienebene des Benutzers der Brillenvorrichtung 1 zusammenfällt, wenn diese gemäß der vorgesehenen Verwendung der Brillenvorrichtung 1 getragen wird. In Bezug auf die vorgesehene Verwendung der Brillenvorrichtung 1 durch den Benutzer sind eine horizontale Richtung 101, ein vertikale Richtung 102, 100, eine Richtung „aufwärts“ 104, eine Richtung „abwärts“ 103, eine Richtung zur Vorderseite 105 und eine Richtung zur Rückseite 106 definiert.
  • Die Brillenvorrichtung 1 wie in 1A, 1B, und 1C dargestellt umfasst einen Brillenkörper 2, der einen Rahmen 4, einen linken Halter 13 und einen rechten Halter 23 aufweist. Darüber hinaus begrenzt der Brillenkörper 2 eine linke Okularöffnung 11 und eine rechte Okularöffnung 21, die dazu dienen, ein optisches Fenster für den Benutzer zum Hindurchschauen bereitzustellen, ähnlich wie ein Rahmen oder ein Körper einer normalen Brille. Ein Nasenbrückenabschnitt 3 des Brillenkörpers 2 ist zwischen den Okularöffnungen 11, 21 angeordnet. Mithilfe des linken und des rechten Halters 13, 23 und von Trägerelementen des Nasenbrückenabschnitts 3 kann die Brillenvorrichtung 1 durch die Ohren und die Nase des Benutzers getragen werden.
  • Gemäß den durch 1A dargestellten Ausführungsformen können eine linke Kamera 14 und eine rechte Kamera 24 im Brillenkörper 2 angeordnet sein. Im Allgemeinen ist der Nasenbrückenabschnitt 3 oder ein seitlicher Abschnitt 12 und/oder 22 des Brillenkörpers 2 ein bevorzugter Ort zum Anordnen/Integrieren einer Kamera 14, 24, insbesondere einer Mikrokamera.
  • Die spezifische Position der jeweiligen Kamera 14, 24 kann durch Definieren eines Winkels einer optischen Achse 15, 25 der jeweiligen Kamera 14, 24 in Bezug auf die mittlere Ebene 100 bereitgestellt werden.
  • Wenn eine Kamera 14 oder 24 im Nasenbrückenabschnitt 3 des Brillenkörpers 2 angeordnet ist, ist die optische Achse 15 der linken Kamera 14 mit einem Winkel a von 142° bis 150°, bevorzugt 144°, gemessen entgegen dem Uhrzeigersinn, (oder -30° bis -38°, bevorzugt -36°) in Bezug auf die mittlere Ebene 100 geneigt. Entsprechend weist die optische Achse 25 der rechten Kamera 24 einen Neigungswinkel β von 30° bis 38°, bevorzugt 36°, in Bezug auf die mittlere Ebene 100 auf.
  • Wenn eine Position einer Kamera 14, 24 in einem der seitlichen Abschnitte 12, 22 des Brillenkörpers 2 befindet, weist die optische Achse 15 der linken Kamera 14 einen Winkel γ von 55° bis 70°, bevorzugt 62°, in Bezug auf die mittlere Ebene auf, und/oder die optische Achse 25 der rechten Kamera 24 ist um einen Winkel δ von 125° bis 110° (oder -55° bis -70°), bevorzugt 118° (oder -62°), geneigt.
  • Die Brillenvorrichtung 1 aus 1A steht für verschiedene Ausführungsformen, die unterschiedliche Positionen der Kameras 12, 24 aufweisen, beispielsweise dass beide Kameras 14, 24 sich im Nasenbrückenabschnitt 3 befinden, die linke Kamera 14 im linken seitlichen Abschnitt 12 und die rechte Kamera 24 im rechten seitlichen Abschnitt 22 angeordnet ist, oder dass die linke/rechte Kamera 14/24 im Nasenbrückenabschnitt 3 angeordnet ist und die rechte/linke Kamera 24/14 im rechten/linken seitlichen Abschnitt 22/12 angeordnet ist.
  • Zum Bereitstellen einer zusätzlichen oder alternativen Vorgabe für eine Position einer Kamera 14, 24 im Brillenkörper 2 sind spezifische Kameraanordnungszonen 17, 18, 27, 28 definiert, wobei eine verwandte technische Lehre damit übereinstimmt, dass die obere Vorgabe die Winkel a, β, γ, δ der optischen Achse 15, 25 verwendet. Diese Kameraanordnungszonen 17, 27, 18, 28 sind virtuelle Bereiche, die in einer vertikalen Ebene senkrecht zur mittleren Ebene 100 projiziert werden.
  • Darüber hinaus kann ein Begrenzungsquader 30 - insbesondere ein rechteckiger Quader - durch die optischen Öffnungen 11, 21 definiert sein, die als vier Vorgabepositionen der Kameraanordnungszonen 17, 27, 18, 28 dienen. Wie in 1A, 1B, und 1C gezeigt, schließt der Begrenzungsquader 30, dargestellt durch eine gestrichelte Linie, ein Volume beider Okularöffnungen 11, 21 ein und berührt die linke Okularöffnung 11 mit einer linken Seitenfläche 31 von der linken Seite 10, die rechte Okularöffnung 21 mit einer rechten Seitenfläche 32 von der rechten Seite 20, mindestens eine der Okularöffnungen 11, 21 mit einer oberen Fläche 33 von oben und von unten mit einer unteren Fläche 34.
  • Für den Fall, dass eine linke/rechte Kamera 14, 24 im Nasenbrückenabschnitt 3 angeordnet ist, ist eine projizierte Position der linken Kamera 14 in einer linken inneren Augenkameraanordnungszone 17 festgelegt und die rechte Kamera 24 ist in der rechten inneren Augenkameraanordnungszone 27 (wird in diese projiziert).
  • Wenn sie sich im linken/rechten seitlichen Abschnitt 12, 22 befindet, ist die linke Kamera 14 bei Projektion in die Ebene der Kameraanordnungszonen in der linken äußeren Augenkameraanordnungszone 18 angeordnet, und die rechte Kamera 24 ist in der rechten äußeren Augenkameraanordnungszone 28 angeordnet.
  • Mithilfe der Vorderansicht an der Brillenvorrichtung 1, die in 1B gezeigt ist, werden die Positionen der Augenkameraanordnungszonen 17, 18, 27, 28 erläutert. In 1B stellen rechteckige Quadrate die Augenkameraanordnungszonen 17, 18, 27, 28 in einer vertikalen Ebene senkrecht zur mittleren Ebene 100 dar. Die beiden inneren Augenkameraanordnungszonen 17, 27 beginnen in einer Entfernung von 2 mm von der mittleren Ebene 100 bis zu einer Entfernung von 14 mm in horizontaler Richtung 101 in die linke/rechte Richtung.
  • In einer vertikalen Richtung 102 dehnen sich die inneren Augenkameraanordnungszonen 17, 27 über 22 mm aus, beginnend in einer Entfernung von 9 mm von der oberen Fläche 33 bis herab auf eine Entfernung von 31 mm. Somit weisen die inneren Augenkameraanordnungszonen 17, 27 eine Größe von 12 mm in horizontaler Richtung 101 und von 22 mm in vertikaler Richtung 102 auf.
  • Die linke und rechte äußere Augenkameraanordnungszone 18, 28 referenzieren die jeweilige linke und rechte Seitenfläche 31, 32 des Begrenzungsquaders 30. Auf diese Weise beginnt die jeweilige äußere Augenkameraanordnungszone 18, 28 aus einer Entfernung von 5 mm von der jeweiligen Seitenfläche 31, 32 in Richtung der mittleren Ebene 100 und erstreckt sich bis zu einer Entfernung von 6 mm von der jeweiligen Seitenfläche 31, 32 in die entgegengesetzte Richtung weg von der mittleren Ebene 100. Daher schneidet die jeweilige Seitenfläche 31, 32 die jeweilige äußere Augenkameraanordnungszone 18, 28.
  • Die Größe der äußere Augenkameraanordnungszonen 18, 28 in vertikaler Richtung beträgt vorzugsweise 28 mm bis 30 mm.
  • Als eine bevorzugte Option haben alle Ausführungsformen der Brillenvorrichtung 1 wie in 1A bis 1C dargestellt die Gemeinsamkeit auf, dass nicht mehr als eine Kamera 14/24 einer der optischen Öffnungen 11, 21 zugeordnet ist; somit umfasst die Brillenvorrichtung 1 nur zwei Kameras 14, 24 zum Aufnehmen eines Bildes eines linken und eines rechten Augapfels 19, 29.
  • Die Brillenvorrichtung 100 wie in 1A umfasst eine Verarbeitungseinheit 7, die zum Verarbeiten des linken und des rechten Bildes von der jeweiligen Kamera 14, 24 konfiguriert ist, um den blickbezogenen Parameter unter Verwendung mindestens eines neuronalen Faltungsnetzes zu bestimmen. Gemäß den vorliegenden Ausführungsformen ist die Verarbeitungseinheit 7 auf nicht sichtbare Weise im Halter integriert, beispielsweise innerhalb des rechten Halters 23 oder des linken Halters 13 der Brillenvorrichtung 1. Gemäß einer nicht gezeigten Ausführungsform kann eine Verarbeitungseinheit im linken Halter angeordnet sein.
  • Bezugnehmend auf 2A werden Ausführungsformen eines Verfahrens 1000 zum Erstellen und Aktualisieren einer Datenbank erläutert. Die Datenbank wird typischerweise zum Trainieren eines neuronalen Netzes, insbesondere eines neuronalen Faltungsnetzes, verwendet. Dies wird im Folgenden bezüglich 3A ausführlicher erläutert.
  • In einem ersten Block 1100 wird einem Benutzer, der eine am Kopf tragbare Vorrichtung trägt, ein erster Stimulus S präsentiert. Die am Kopf tragbare Vorrichtung kann eine beliebige der in dieser Schrift beschriebenen am Kopf tragbaren Vorrichtungen sein. Sie kann als eine Brillenvorrichtung umgesetzt sein, z. B. eine Brille, eine Korbbrille, ein am Kopf tragbares AR-Display und ein am Kopf tragbares VR-Display. Die am Kopf tragbare Vorrichtung weist eine erste Kamera, die neben einem linken Auge des Benutzers angeordnet ist, und eine zweite Kamera auf, die neben einem rechten Auge des Benutzers angeordnet ist, wenn der erste Benutzer die am Kopf tragbare Vorrichtung trägt.
  • Die Datenbank kann verwendet werden, um das neuronale Netz zu trainieren, um aus einem Paar aus einem linken Bild, das durch die erste Kamera erzeugt wird, und einem rechten Bild, das durch die zweite Kamera erzeugt wird, als Eingabe des neuronalen Netzes einen blickbezogenen Parameter des Benutzers vorherzusagen, insbesondere eine Augenblickrichtung des Benutzers und/oder einen Augenblickpunkt des Benutzers, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt.
  • Entsprechend kann die Datenbank eine Vielzahl von Datensätzen einschließen, die Paare aus linken und rechten Bildern und einen oder mehrere entsprechende Werte von blickbezogenen Parametern einschließen, die als jeweilige tatsächliche Werte oder Ground-Truth-Werte gelten.
  • Die Datenbank kann benutzerspezifisch sein.
  • Typischer schließt die Datenbank Datensätzen einer Vielzahl von Benutzern ein, d. h. eines ersten Benutzers, eines zweiten Benutzers, eines dritten Benutzers, eines vierten Benutzers und so weiter und so fort. Der Deutlichkeit halber erfolgt die nachfolgende Beschreibung hauptsächlich anhand eines beispielhaften Benutzers oder ersten Benutzers.
  • Das Verwenden von Datensätzen einer Vielzahl von Benutzern zum Trainieren der neuronalen Netze kann das Einlernen (Verallgemeinern) unterstützen und somit die Genauigkeit und/oder Zuverlässigkeit der Vorhersagen des NN verbessern.
  • Ebenso schließt die Datenbank typischerweise Datensätze ein, die unter Verwendung mehrerer am Kopf tragbarer Vorrichtungen erlangt werden, die typischerweise von derselben Art sind. Mindestens die Positionen und Ausrichtungen der linken und rechten Kamera der am Kopf tragbaren Vorrichtungen sind typischerweise mindestens im Wesentlichen gleich. Alternativ sind die Positionen und Ausrichtungen der linken und rechten Kamera der am Kopf tragbaren Vorrichtungen auch in den Datensätzen gespeichert (codiert) und werden als Eingaben zum Trainieren des neuronalen Netzes verwendet.
  • In einem nachfolgenden Block 1200 zeichnen die erste und zweite Kamera der am Kopf tragbaren Vorrichtung ein jeweiliges Bild Pi, Pr, typischerweise ein jeweiliges Foto, des linken und rechten Auges des Benutzers auf, wenn erwartet wird, dass der Benutzer auf den ersten Stimulus reagiert, oder erwartet wird, dass er auf den ersten Stimulus reagiert hat. Das Bild Pi, Pr kann auch aus einem jeweiligen Video-Stream oder einer Bildfolge ausgewählt werden, der bzw. die unter Verwendung der ersten und zweiten Kamera aufgezeichnet wurde.
  • In einem nachfolgenden Block 1500 wird ein Datensatz, der aus dem linken Bild Pi, dem rechten Bild Pr und einer Repräsentation eines (gewünschten) blickbezogenen Parameters besteht oder diese einschließt, in der Datenbank abgelegt (gespeichert). Die Repräsentation des blickbezogenen Parameters kann ein gegebener oder bestimmter jeweiliger (Ground-Truth-) Wert des blickbezogenen Parameters sein, aber auch eine beliebige andere Repräsentation wie etwa ein entsprechendes Bild einer Szenenkamera, das mit dem ersten Stimulus korreliert und zum Bestimmen des (Ground-Truth-) Werts des blickbezogenen Parameters geeignet ist.
  • In einer Ausführungsform wird der Benutzer, der die am Kopf tragbare Vorrichtung trägt, in Block 1100 durch einen akustischen Stimulus, einen visuellen Stimulus oder eine Kombination oder Folge von akustischen und visuellen Stimuli aufgefordert, auf ein gegebenes Objekt in seinem Sichtfeld zu schauen (zu blicken). Das gegebene Objekt kann ein reales Objekt im Sichtfeld des Benutzers wie etwa eine Fingerspitze des Benutzers, ein Objekt im Raum oder ein Objekt sein, das auf einem Bildschirm der am Kopf tragbaren Vorrichtung angezeigt wird.
  • Die Größe des gegebenen Objekts sollte ausreichend klein und gut definiert sein, um ein eindeutiges Blickziel bereitzustellen.
  • Entsprechend sind die Koordinaten und die Richtung des gegebenen Objekts in einem Koordinatensystem, das in Bezug auf die am Kopf tragbare Vorrichtung und damit den Kopf des Benutzers festgelegt ist, ausreichend gut definiert, um als tatsächliche (oder Ground-Truth-) Werte jeweils des Blickpunkts und der Blickrichtung des Benutzers gelten zu können, der die am Kopf tragbare Vorrichtung trägt.
  • Kooperatives Verhalten des Benutzers kann vorausgesetzt werden, da der Benutzer ein Interesse daran hat, die Genauigkeit und Zuverlässigkeit der Vorhersagen des trainierten NN zu verbessern, d. h. eines NN, das unter Verwendung der Datensätze in der Datenbank trainiert wurde und daher von ihrer Qualität abhängig ist.
  • In einer Ausführungsform wird in Block 1500 mehr als ein blickbezogener Parameter, beispielsweise zwei oder drei blickbezogene Parameter, mit dem Datensatz zu der Datenbank hinzugefügt.
  • Anstelle von tatsächlichen Werten oder anderen Repräsentationen einer zyklopischen Blickrichtung oder zusätzlich dazu können in Block 1500 beispielsweise Werte oder andere Repräsentationen jeweiliger Blickrichtungen von einem oder beiden Augen, der Ausrichtung der Pupillenachse von einem oder beiden Augen, eines 3D-Blickpunkts oder eines 2D-Blickpunkts mit dem Datensatz zu der Datenbank hinzugefügt werden.
  • Wie durch den linken und rechten gestrichelten Pfeil in 2A angegeben, kann das Verfahren 1000 dann zu Block 1100 zurückkehren, um einen weiteren Stimulus oder auch erneut denselben Stimulus zu präsentieren. Es sei angemerkt, dass in Block 1500 mehrere Datensätze hinzugefügt werden können.
  • Das Präsentieren desselben Stimulus kann aus statistischen Gründen nützlich sein, um Datensätzen unter unterschiedlichen Bedingungen zu erlangen, beispielsweise für einen ausgeruhten und einen müden Benutzer, oder zu unterschiedlichen Uhrzeiten und/oder bei unterschiedlichen Lichtverhältnissen.
  • Darüber hinaus muss der Stimulus mit dem resultierenden Wert des bzw. der blickbezogenen Parameter nicht eins zu eins in Beziehung stehen.
  • Beispielsweise kann der Benutzer den Finger in Bezug auf das vorrichtungsdefinierte Koordinatensystem in unterschiedlichen Positionen halten, wenn er aufgefordert wird, auf eine Spitze eines seiner in sein Sichtfeld gehaltenen Finger zu blicken. Obwohl die Fingerspitze unter anderem eine jeweilige resultierende Blickrichtung relativ zu dem Koordinatensystem definiert, das in Bezug auf die am Kopf tragbare Vorrichtung festgelegt ist, kann der tatsächliche Wert der resultierenden Blickrichtung zum Speichern in der Datenbank noch bestimmt werden müssen. In diesen Ausführungsformen kann eine Einheit zur Bestimmung blickbezogener Parameter, beispielsweise eine Einheit zur Bestimmung blickbezogener Parameter, die eine Szenenkamera einschließt, die dazu angeordnet ist, das gegebene Objekt im Sichtfeld des Benutzers aufzunehmen, typischerweise eine Szenenkamera der am Kopf tragbaren Vorrichtung, verwendet werden, um einen tatsächlichen Wert des blickbezogenen Parameters, beispielsweise eine resultierende Blickrichtung und/oder den jeweiligen resultierenden Blickpunkt des Benutzers, zu bestimmen.
  • Auf Grundlage des bzw. der Bilder der Szenenkamera können der bzw. die tatsächlichen Werte des blickbezogenen Parameters unter Verwendung bekannter Techniken für maschinelles Lernen, Computervision oder Bilderkennung bestimmt werden. Dies kann lokal erfolgen, d. h. unter Verwendung von einem oder mehreren Prozessoren einer Verarbeitungseinheit der am Kopf tragbaren Vorrichtung oder eines typischerweise leistungsstärkeren lokalen Computers, der mit der am Kopf tragbaren Vorrichtung verbunden ist, oder unter Verwendung von einem oder mehreren Prozessoren eines typischerweise noch leistungsstärkeren Rechensystems, das auch die Datenbank hostet. Im letzteren Fall können der bzw. die Datensätze das bzw. die Bilder der Szenenkamera als Repräsentationen des bzw. der blickbezogenen Parameter einschließen.
  • Der Deutlichkeit halber konzentriert sich die nachfolgende Beschreibung auf die (2D- oder 3D-) Blickrichtung und den (2D- oder 3D-) Blickpunkt (bestimmt in dem Koordinatensystem, das in Bezug auf die am Kopf tragbare Vorrichtung festgelegt ist) als die blickbezogenen Parameter. Dies ist jedoch nicht als einschränkend aufzufassen. Der Fachmann versteht, dass andere blickbezogene Parameter ebenso behandelt werden können. Beispielsweise kann das System verwendet werden, um eine kognitive Beanspruchung zu beurteilen. Relative Veränderungen des Pupillendurchmessers, die sich in den aufgezeichneten Bildern widerspiegeln, können mit einer Art von Maß für kognitive Beanspruchung in Verbindung gebracht werden. Die kognitive Beanspruchung selbst kann mittels einer zusätzlichen Vorrichtung, wie etwa einem EEG, bestimmt werden, das als das Label (Ground Truth) dient. Der Datensatz besteht dann aus den jeweiligen Bildern und dem Maß für kognitive Beanspruchung.
  • Das Verwenden einer Erkennungs- oder Bestimmungseinheit für blickbezogene Parameter der am Kopf tragbaren Vorrichtung zum Bestimmen des tatsächlichen Werts g des blickbezogenen Parameters wird durch einen Block 1300 in 2B dargestellt, die ein Verfahren 1001 veranschaulicht, das mit Ausnahme von Block 1300 typischerweise gleichartig wie das Verfahren 1000 ist.
  • In Ausführungsformen, in denen ein Bildschirm der am Kopf tragbaren Vorrichtung zum Anzeigen von Objekten als Stimuli für den Benutzer verwendet wird, sind der bzw. die tatsächlichen Werte g des blickbezogenen Parameters typischerweise bekannt oder gegebenen.
  • Beispielsweise kann der Blickpunkt und/oder die Blickrichtung des Objekts für eine gegebene am Kopf tragbare Vorrichtung aus den Koordinaten des Objekts auf dem Bildschirm berechnet werden. Alternativ kann der Blickpunkt und/oder die Blickrichtung in den Koordinaten des Koordinatensystems, das jeweils in Bezug auf die am Kopf tragbare Vorrichtung und den Bildschirm festgelegt ist, gegeben sein, und die gewünschten (2D-) Koordinaten des angezeigten Objekt auf dem Bildschirm können berechnet werden, bevor das Objekt auf dem Bildschirm angezeigt wird.
  • In Bezug auf 2C wird eine Ausführungsform von Block 1500, der in den Verfahren 1000 und 1001 verwendet wird, ausführlicher erläutert.
  • In einem ersten Unterblock 1510 wird eine Datenverbindung zwischen der am Kopf tragbaren Vorrichtung und der Datenbank hergestellt.
  • Anschließend oder vor Block 1510 werden in einem Unterblock 1520 ein oder mehrere Datensätze {Pi, Pr, {g}} erzeugt. Jeder Datensatz kann ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation von einem oder mehreren blickbezogenen Parametern {g} aufweisen und mit einem jeweiligen Stimulus S korreliert sein.
  • Im nachfolgenden Unterblock 1550 werden der eine oder die mehreren Datensätze {Pl, Pr, {g}} zu der Datenbank hinzugefügt.
  • Die Datensätze können die Paare aus linken und rechten Bildern als ein jeweiliges verkettetes Bild einschließen. Verkettete Bilder können an eine 2-dimensionale Eingabeschicht des NN präsentiert werden. Entsprechend können die Paare aus linken und rechten Bildern typischerweise in Block 1520 verkettet werden.
  • Anders als das Szenenbild bzw. die Szenenbilder kann die Auflösung der linken und rechten Bilder typischerweise vergleichsweise gering sein. Die Pixelanzahl der linken Bilder und der typischerweise ebenso großen rechten Bilder kann höchstens 10000, insbesondere höchstens 5000 und genauer höchstens 2500 betragen.
  • Auch bei linken und rechten Graustufenbildern mit geringer Auflösung von 64 mal 64 Pixeln, 50 mal 50 Pixeln oder gar nur 32 mal 32 Pixeln oder nur 24 mal 24 Pixeln kann unter Verwendung trainierter NNs eine überraschend hohe Genauigkeit (beispielsweise mit einem mittleren Winkelvorhersagefehler von weniger als 2°) und Zuverlässigkeit der Blickrichtungs-/Blickpunktvorhersage erzielt werden.
  • In Bezug auf 3A wird ein Verfahren 2000 zum Trainieren eines neuronalen Netzes erläutert.
  • In Block 2100 wird eine Datenbank DB bereitgestellt, die wie oben in Bezug auf 2A bis 2C erstellt und/oder aktualisiert wird. Die Datenbank DB weist eine Vielzahl von Datensätzen auf, die jeweils ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige entsprechende Repräsentation eines blickbezogenen Parameters, z. B. einen jeweiligen entsprechenden Wert des blickbezogenen Parameters, aufweisen.
  • Ferner wird in einem Block 220 ein neuronales Netz NNW mit einer gegebenen Netzarchitektur bereitgestellt. Das bereitgestellte neuronale Netz NNW ist typischerweise ein neuronales Faltungsnetzwerk (CNN).
  • Das bereitgestellte neuronale Netz NNW kann ein zuvor trainiertes NN sein.
  • Alternativ können die Parameter (Gewichtungen) des bereitgestellten neuronalen Netzes NNW mit zufälligen Werten initialisiert worden sein.
  • In Block 2300 werden Parameter des neuronalen Netzes unter Verwendung des jeweiligen linken Bildes und des jeweiligen rechten Bildes eines Teilsatzes oder aller Datensätze als Eingabe und der jeweiligen entsprechenden Repräsentationen der blickbezogenen Parameter des Teilsatzes oder aller Datensätze als gewünschte Ausgabe des neuronalen Netzes geändert.
  • Block 2300 kann viele Lernzyklen einschließen, die jeweils einen oder mehreren Datensätzen der Datenbank DB verwenden.
  • Typischerweise wird in Block 2300 eine tiefe Lerntechnik, insbesondere eine Gradientenabstiegstechnik wie etwa Rückpropagation zum Trainieren des neuronalen Netzes NNW verwendet werden.
  • Zum Schluss kann ein trainiertes oder nachtrainiertes neuronales Netz tNNW ausgegeben und/oder gespeichert werden.
  • Insbesondere die bestimmten Gewichtungen des tNNW können gespeichert und typischerweise später an eine Verarbeitungseinheit übertragen werden, die zu einer am Kopf tragbaren Vorrichtung zugehörig oder damit verbindbar ist.
  • Typischer werden die bestimmten Gewichtungen des tNNW (später) an eine Vielzahl von jeweiligen Verarbeitungseinheiten und/oder am Kopf tragbaren Vorrichtungen übertragen.
  • Anschließend können eine oder mehrere lokale Instanzen des trainierten neuronalen Netzes tNNW verwendet werden, um aus dem linken und dem rechten Bild, die durch die jeweiligen Kameras der am Kopf tragbaren Vorrichtung typischerweise in Echtzeit erzeugt werden, einen oder mehrere blickbezogene Parameter eines jeweiligen Benutzers vorherzusagen, wenn der Benutzer eine am Kopf tragbare Vorrichtung trägt.
  • Wie in 3B gezeigt, die eine Erkennungsverfahren 3000 veranschaulicht, kann in den Blöcken 3010, 3020 ein linkes Bild Pl von mindestens einem Abschnitt eines linken Auges des Benutzers durch eine erste Kamera einer am Kopf tragbaren Vorrichtung, die durch den Benutzer getragen wird, aufgenommen werden, und ein rechtes Bild Pr von mindestens einem Abschnitt eines rechten Auges des Benutzers kann durch eine zweite Kamera der am Kopf tragbaren Vorrichtung aufgenommen werden.
  • Das linke Bild Pi und das linke Bild Pi werden typischerweise im Wesentlichen gleichzeitig aufgenommen.
  • In einem nachfolgenden Block 3030 können das linke Bild Pl und das rechte Bild Pr gemeinsam als Eingabe in ein trainiertes neuronales Faltungsnetz tNNW eingegeben werden, typischerweise als ein verkettetes Bild in eine Eingabeschicht des trainierten neuronalen Faltungsnetzes tNNW.
  • In einem nachfolgenden Block 3040 kann ein vorhergesagter Wert gpr von einem oder mehreren blickbezogenen Parametern von dem trainierten neuronalen Faltungsnetz tNNW als ein Ergebnis des eingegebenen linken und rechten Bildes erlangt werden, typischerweise als eine Ausgabe einer Ausgabeschicht des trainierten neuronalen Faltungsnetzes tNNW.
  • Der bzw. die vorhergesagten Werte gpr können in einem optionalen Block 3050 unter Verwendung einer benutzerspezifischen Korrekturfunktion Fcorr korrigiert werden.
  • Der vorhergesagte Wert bzw. die vorhergesagten Werte oder der korrigierte vorhergesagte Wert bzw. die korrigierten vorhergesagten Werte gcpr können ausgegeben und/oder als Eingabe für ein Beurteilungsmodul verwendet werden, z. B. ein Benutzerschnittstellenmodul, das blickbezogene Benutzerparameter verwendet.
  • Nach Verlassen von Block 3040 oder Block 3050 kann das Verfahren 3000 zu den Blöcken 3010, 3020 zurückkehren, wie durch die gestrichelten Pfeile angegeben.
  • In Bezug auf 3C wird eine Ausführungsform eines Verfahrens 4000 zum Kalibrieren einer am Kopf tragbaren Vorrichtung erläutert.
  • In einem Block 4010 wird einem Benutzer, der die am Kopf tragbare Vorrichtung trägt, ein Stimulus S präsentiert. Der Stimulus S ist mit einem gewünschten (erwarteten) Wert ge eines blickbezogenen Parameters korreliert.
  • In einem nachfolgenden Block 4020 werden die erste Kamera und zweite Kamera der am Kopf tragbaren Vorrichtung verwendet, um ein linkes Bild Pi von mindestens einem Abschnitt des linken Auges des Benutzers und ein rechtes Bild Pr von mindestens einem Abschnitt des rechten Auges des Benutzers aufzunehmen, von dem erwartet wird, dass er auf den Stimulus S reagiert (reagiert hat).
  • Anschließend, in einem Block 4030, wird ein trainiertes neuronales Netz tNNW, insbesondere ein trainiertes neuronales Faltungsnetz, verwendet, um einen vorhergesagten Wert des blickbezogenen Parameters unter Verwendung des rechten und des linken Bildes Pi, Pr als eine Eingabe für das trainierte neuronale Netz tNNW zu bestimmen.
  • In einem nachfolgenden Block 4040 kann eine Differenz zwischen dem gewünschten Wert ge und dem vorhergesagten Wert gpr berechnet und verwendet werden, um eine Korrekturfunktion Fcorr für den Benutzer zu bestimmen.
  • Wie durch den gestrichelten Pfeil in 3C angegeben, wird die Korrekturfunktion Fcorr typischerweise nach mehreren Zyklen bestimmt.
  • In Bezug auf 3D wird eine Ausführungsform eines Systems 500 zum Verbessern der Vorhersage von blickbezogenen Parametern erläutert.
  • Das System 500 weist ein Rechensystem 510 auf, das eine Datenbank hostet, wie in dieser Schrift erläutert. Das Rechensystem 510 kann als ein Server zum Hosten der Datenbank implementiert sein/arbeiten oder diesen einschließen. Das Rechensystem 510 kann aus einem einzelnen oder einer Vielzahl von verbundenen Computern bestehen.
  • Das Rechensystem 510 ist dazu konfiguriert, ein neuronales Netz unter Verwendung der Datenbank zu trainieren. Zu diesem Zweck kann das Rechensystem 510 eine oder mehrere Hardwarekomponenten aufweisen, die besonders zum Erzielen und Trainieren von NNs, insbesondere CNNs, geeignet sind, wie etwa GPUs.
  • In dem Ausführungsbeispiel ist das Rechensystem 510 mit einer Verarbeitungseinheit 525 verbunden, die mit einem Teil einer am Kopf anbringbaren Vorrichtung 520, die eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers einschließt, wenn der Benutzer die am Kopf anbringbare Vorrichtung trägt, verbindbar ist oder gar einen Teil derselben bildet.
  • Bei Verbindung mit der linken und rechten Kamera ist die Verarbeitungseinheit 525 dazu konfiguriert, das linke und rechte Bild zu empfangen.
  • Außerdem ist die Verarbeitungseinheit 525 dazu konfiguriert, einen vorhergesagten Wert eines blickbezogenen Parameters des Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe einer Instanz eines neuronalen Netzes zu bestimmen, insbesondere einer Instanz eines neuronalen Faltungsnetzes, wenn diese in der Verarbeitungseinheit ausgeführt wird.
  • Die Verarbeitungseinheit 525 weist typischerweise auch eine oder mehrere Hardwarekomponenten auf, die besonders zum Ausführen von NNs, insbesondere CNNs geeignet sind, wie etwa eine GPU.
  • Die Verarbeitungseinheit 525 ist typischerweise dazu konfiguriert, das in Bezug auf 3B erläuterte Verfahren 3000 zu steuern und/oder auszuführen.
  • Darüber hinaus ist die Verarbeitungseinheit 525 typischerweise dazu konfiguriert, das in Bezug auf 3C erläuterte Verfahren 4000 zu steuern und/oder auszuführen.
  • In dem veranschaulichten verbundenen Zustand sind die Verarbeitungseinheit 525 und das Rechensystem 510 dazu konfiguriert, Datensätzen von der Verarbeitungseinheit 525 an das Rechensystem 510 zu übertragen, Datensätze zu der Datenbank hinzuzufügen und Parameter des neuronalen Netzes vom Rechensystem 510 an die Verarbeitungseinheit 525 zu übertragen.
  • Das Rechensystem 510 ist typischerweise mit einer oder mehreren weiteren Verarbeitungseinheiten 535 verbunden, die mit einer jeweiligen weiteren am Kopf anbringbaren Vorrichtung 530, die jeweils eine jeweilige erste Kamera und jeweilige zweite Kamera aufweist, verbunden sind oder gar einen Teil davon bilden.
  • Die Verarbeitungseinheit 525 kann als ein Client arbeiten, wenn sie mit dem Rechensystem 510 verbunden ist, das als ein Server arbeitet.
  • Client(s) und Server sind typischerweise voneinander entfernt und interagieren typischerweise durch ein Kommunikationsnetz wie etwa ein TCP/IP-Datennetz. Die Client-Server-Beziehung ergibt sich durch Software, die auf den jeweiligen Vorrichtungen ausgeführt wird.
  • Typischerweise verwendet die Kommunikation zwischen der Verarbeitungseinheit 525 und dem Rechensystem 510 Verschlüsselung.
  • Das System 500 ist mindestens in einem verbundenen Zustand fähig, ein beliebiges der in dieser Schrift erläuterten Verfahren auszuführen, insbesondere die Verfahren 1000 bis 4000.
  • Darüber hinaus ist das System 500 typischerweise auch dazu konfiguriert, beliebige der im Folgenden erläuterten Prozesse auszuführen.
  • In Bezug auf 4 wird eine Ausführungsform eines Systems 600 zum Verbessern der Vorhersage von blickbezogenen Parametern erläutert. Das System 600 gleicht dem System 500, das oben in Bezug auf 3D erläutert wurde, und schließt ebenfalls ein Rechensystem 610 ein. Der Deutlichkeit halber ist nur eine am Kopf tragbare Vorrichtung 620 in 4 gezeigt.
  • In dem Ausführungsbeispiel kann sich die am Kopf tragbare Vorrichtung 620 zur Steuerung, Stromversorgung und (Zwischen-)Speicherung erzeugter Datensätze mit einer beispielhaften Begleitvorrichtung wie etwa einem Tablet oder Smartphone 627 verbinden. Das Begleitsmartphone 627 kann auch verwendet werden, um gesammelte gelabelte Datensätze auf das Rechensystem 610, das die Datenbank hostet, hochzuladen, wenn gewünscht ein neuronales (Faltungs-) Netz herunterzuladen (zu aktualisieren), wie ausführlicher unter Bezugnahme auf die 5 und 6 beschrieben wird, und mit dem Benutzer zu interagieren. Die Kommunikationsverbindung zwischen dem Smartphone 627 und der am Kopf tragbaren Vorrichtung 620 kann ein magnetisch angebrachtes USB-2.0-Kabel (oder höher) sein, das aus dem Rahmen hinter dem linken oder rechten Ohr des Trägers austritt und mit dem USB-C-Port des Telefons verbunden wird.
  • Eine Begleit-App, d. h. ein Computerprogramm, das dazu ausgelegt ist, auf einer mobilen Vorrichtung wie etwa einem Telefon/Tablet oder einer Uhr ausgeführt zu werden (mobile App), und das auf dem Begleitsmartphone 627 ausgeführt wird, kann der primäre Interaktionspunkt mit dem Benutzer sein. Der Benutzer kann auch Aufzeichnungen, Benutzerprofile, Kalibrierungen und Validierungen mittels der Begleit-App steuern. Der Benutzer kann auch persönliche Profile, Netzmodelle und Kalibrierungen mit der App aktualisieren und verwalten. Diese Interaktionen können gering oder minimal sein. Das Smartphone 627 kann typischerweise autonom auf vollständig automatische Weise arbeiten. Die Begleit-App kann die Vorrichtung steuern und Firmware- und Modell-Updates senden.
  • Die am Kopf tragbare Vorrichtung 620 kann auch Komponenten, die das Bestimmen der Ausrichtung der Vorrichtung im 3D-Raum ermöglichen, Beschleunigungsmesser, GPS-Funktionen und dergleichen einschließen.
  • Die am Kopf tragbare Vorrichtung 620 kann ferner eine beliebige Art von Energiequelle einschließen, wie etwa eine auswechselbare oder wiederaufladbare Batterie oder eine Solarzelle.
  • Gemäß einer Ausführungsform erfolgt die Berechnung des Blickpunkts des Benutzers durch eine Verarbeitungseinheit oder Steuereinrichtung 625, die vollständig und unsichtbar in einen standardmäßigen Brillenrahmen der Vorrichtung 620 integriert ist, wofür ein Beispiel die Intel/Movidius Myriad2 VPU mit CNN-Inferenzfähigkeiten ist. In diesem Fall kann ein trainiertes CNN-Modell über den Begleiter 627 geladen und auf der integrierten Steuereinrichtung 625 ausgeführt werden.
  • Die Steuereinrichtung 625 kann jeweilige Bilder von den Kameras des linken und rechten Auges der Vorrichtung 620 empfangen, Inferenzen unter Verwendung des trainierten CNN ausführen, und sendet die vorhergesagten Blickpositionsdaten (oder vorhergesagten Werte anderer blickbezogener Parameter) zum Anzeigen und Speichern an das verbundene Begleitsmartphone 627.
  • Die Steuereinrichtung 625 kann auf Anforderung auch die eingegebene Bilddaten von den Augenkameras weiterleiten, beispielsweise zur Datensammlung und/oder zur Verwendung in einer „Verfeinerung“, wie nachstehend unter Bezugnahme auf die 5 und 6 beschrieben wird.
  • Die Steuereinrichtung 625 kann auch die Bilder einer Szenenkamera der Vorrichtung 620 zum Anzeigen und Speichern an das Begleitsmartphone senden. Letztere Funktion kann durch eine separate spezielle Steuereinrichtung erzielt werden, die dieselbe USB-Verbindung verwendet.
  • Alternativ steuert eine vorrichtungseigene Steuereinrichtung der Vorrichtung 620 nur die Kameras und leitet die Bilddaten an die Begleitvorrichtung 627 weiter, oder noch weiter etwa an das Rechensystem 610, beispielsweise einen entfernten Server und/oder eine cloudbasierte Struktur oder dergleichen, ohne eine Inferenz des bzw. der Augenparameter am Standort des Benutzers vorzunehmen.
  • In dem Begleitsmartphone 620 können ein oder mehrere DSPs, ein oder mehrere Spezialchips und/oder eine oder mehrere GPUs zur Blickschätzung unter Verwendung von CNN-basierter Inferenz verwendet werden.
  • Ungeachtet dessen, welche Vorrichtung die Aufgabe des Bestimmens des bzw. der Augenparameter durchführt, kann der Benutzer Echtzeitzugriff auf Blickdaten und Szenenvideos für seine Anwendungsfälle haben. Das Begleittelefon 627 oder eine andere mobile Vorrichtung kann auch als eine Zwischenstation dienen und es dem Benutzer ermöglichen, seine aufgezeichneten Daten an einen gewünschten Ort hochzuladen sowie die gelabelten Trainingsdaten auf einen Server oder auf mehrere Server hochzuladen, wie im Folgenden beschrieben wird.
  • In Bezug auf die 5 und 6 werden Ausführungsformen eines Systems 700 zum Verbessern der Vorhersage von blickbezogenen Parametern erläutert. Das System 700 gleicht typischerweise dem System 500 und 600, die oben in Bezug auf 3D bzw. 4 erläutert wurden, und schließt ebenfalls ein Rechensystem 710 ein.
  • Der Deutlichkeit halber sind in den beiden 5 und 6 das System 700 und sein Betrieb gezeigt. 5 bezieht sich auf das Rechensystem 710. 6 bezieht sich auf eine am Kopf tragbare Vorrichtung 720 des Systems 700, die mit dem Rechensystem 710 verbindbar ist (siehe auch die Pfeile a bis d, die einen Informationsfluss darstellen).
  • Eine Aufgabe der vorliegenden Offenbarung ist es, ein so genanntes „universelles neuronales Netz“ (auch bezeichnet als universelles NN-Modell und „benutzerübergreifendes NN-Modell“) zum Bestimmen von Augenparametern, insbesondere Blickrichtungsinformationen von Benutzern zu erzeugen, bereitzustellen, anzuwenden und zu verbessern. Ein solches universelles NN ist in seiner grundlegenden Ausführungsform im unveränderten Zustand für die Anwendung geeignet, ohne weitere Kalibrierungs- oder Einrichtungsschritte durch einen „neuen“ Benutzer, also einen Benutzer, dessen Datensätzen nicht zum Trainieren des NN verwendet wurden.
  • Daher wird davon ausgegangen, dass ein so genannter Kerndatenkorpus gelabelter Datensätze gesammelt und in einer Datenbank DB gespeichert wurde und ein Lehralgorithmus auf Grundlage von NNs auf Grundlage dieser Daten trainiert wurde.
  • Der Kerndatenkorpus kann beispielsweise aus Datensätzen von Bildpaaren, die das linke und rechte Auge (bzw. jeweilige Abschnitte davon) zeigen, und entsprechenden Ground-Truth-Blickpunkten in Szenenkamerabildkoordinaten bestehen.
  • Der Kerndatenkorpus deckt typischerweise eine große Zahl natürlich vorkommender Erscheinungsweisen der Augen ab. Daher kann während des Aufzeichnens von Trainingsdaten sorgfältig darauf geachtet werden, die Gesamtheit der möglichen Erscheinungsweisen der Augenbilder abzudecken. Auf diese Weise wird gewährleistet, dass das universelle NN in der Praxis zuverlässig an allen Bildern arbeitet.
  • Faktoren, die beispielsweise abgedeckt werden können, sind unterschiedliche Lichtverhältnisse (insbesondere auch Lichtverhältnisse im Freien), unterschiedliche Stellungen des Headsets (der am Kopf anbringbaren Vorrichtung) am Kopf des Benutzers (um ein Verrutschen des Headsets widerzuspiegeln), Unterschiede im physiologischen Erscheinungsbild des Benutzers beispielsweise aufgrund von Geschlecht oder Zugehörigkeit zu einer ethnischen Gruppe, kurzfristige physiologische Veränderungen (z. B. sind die Augen eines Benutzers an einem Tag stärker geschwollen oder weiter geöffnet als an anderen) und Abstand zwischen Blickziel und Benutzer, wie im Folgenden beschrieben wird (unterschiedliche Blickentfernungen führen zu unterschiedlichen Brechwerten der Augen). Darüber hinaus sollten die Ground-Truth-Blickpunkte Objekten in unterschiedlichen Entfernungen vom Benutzer entsprechen, um sicherzustellen, dass eine große Anzahl unterschiedlicher Zustände von zweiäugigen Brechwerten im Datenkorpus vorhanden ist.
  • Außerdem können Datenvermehrungsverfahren verwendet werden, um den Kerndatenkorpus weiter zu diversifizieren und die Menge verfügbarer Daten zu erhöhen.
  • Um den Umfang der Schlupfkonfigurationen des Headsets für einen bestimmten Benutzer weiter zu verbessern, hat sich die Schlupfsimulation als vorteilhaft erwiesen.. Anhand eines Paares Augenbilder des linken und rechten Auges zusammen mit dem Ground-Truth-Blick-Label für das Paar werden Sample zufälliger Bewegungen erzeugt, die das Headset aufgrund von Verrutschen/Schlupf erfahren könnte. Anhand dieser Bewegungen und der festen geometrischen Beziehungen zwischen allen Kameras im Headset können projektive Transformationen berechnet werden, die die von den Bewegungen implizierte Wirkung erzeugen. Auf diese Weise können weitere gültige Sample von gelabelten Datensätzen berechnet werden, ohne dass sie tatsächlich aufgezeichnet werden müssen.
  • Gleichermaßen kann durch zufälliges Löschen, bei dem zufällig gewählte Bereiche in einem Bild gelöscht und die entsprechenden Pixel mit Zufallswerten ersetzt werden, oder ein mittlerer Bildpixelwert Bilder mit unterschiedlichem Maß an simulierter Verdeckung erzeugt, zusätzliche „künstliche“ Trainingsdatensätze erzeugt werden, was zusätzliche Kosten mit sich bringt, aber die Diversität des Kerndatenkorpus fördert.
  • Ein universelles NN, das an einem solchen Kerndatenkorpus trainiert wurde, hat dann gelernt, eine Ausgabe zu erzeugen oder vorherzusagen, die einen Augenparameter wie etwa die Blickrichtung eines beliebigen Benutzers codiert. In einem möglichen Beispiel wird die Ausgabe als 2D-Pixelkoordinaten des Blickpunkts im Szenenkamerabild gegeben. Andere Codierungen wie beispielsweise die 3D-Position des Blickpunkts in einem 3D-Koordinatensystem; oder der 3D-Blickstrahl in Augenkamerakoordinaten können ebenfalls implementiert werden.
  • In einer bevorzugten Ausführungsform ist das System 700 zweiäugig (binokular), d. h. seine Kameras erfassen beide Augen (bzw. deren Zustand). Eine zweiäugige Erfassung ist wichtig (in den meisten Fällen nötig), um die genaue Position des Blickpunkts zu bestimmen, die nur aus den zweiäugigen Brechwerten der Augen abgeleitet werden kann. Mit einem einäugigen System lässt sich nur die 3D-Blickrichtung des Benutzers ableiten, während sich die genaue Tiefe des Blickpunkts nicht ableiten lässt. Anhand der 3D-Blickrichtung kann auch die genaue Blickposition berechnet werden, indem ein Schneiden der realen Geometrie durch den Blickstrahl bewirkt wird, vorausgesetzt, diese Geometrie ist bekannt.
  • Bezüglich des NN-Modells, das zum Verwenden in dem System und den Verfahren der vorliegenden Offenbarung trainiert werden soll, wurde überraschend festgestellt, dass neuronale Faltungsnetze (CNNs) trotz der inhärent herausfordernden mobilen bzw. tragbaren Einrichtung der Vorrichtung, die zu einer geringen Auflösung der Eingabebilder führt, und des schwierigen Aspekts des bzw. der unauffällig angeordneten optischen Sensoren fähig sind, ausreichende Genauigkeit zu erzielen.
  • Zwar wurden CNNs für Aufgaben wie Objekterkennung verwendet, wo dies vorteilhaft sein kann, doch wurde bislang nicht versucht, sie für eine komplette Blickvorhersage in einer mobilen Umgebung zu verwenden. Angesichts der starken Erscheinungsvarianz der Bilder in einer solchen Umgebung, die zu Bildern führen, die bisweilen nicht einmal die Pupille zeigen oder nur einen kleinen Anteil der Pupille zeigen, mit starken Schwankungen der Lichtverhältnisse und des Hauttons, ist es unerwartet, dass CNNs trainierbar sind, um ausreichend sinnvolle Faltungskerne zu erlernen, um ein universelles benutzerübergreifendes Modell zur genaue Blickvorhersage lediglich auf Grundlage von zwei Eingabebildern geringer Auflösung bereitzustellen.
  • Durch die Ausnutzung von CNNs in einer mobilen bzw. tragbaren Einrichtung zur Augenverfolgung wird somit gemäß einem wichtigen Aspekt der vorliegenden Offenbarung eine unauffälligere Vorrichtungsauslegung und eine zuverlässigere benutzerübergreifende Blickerkennung ermöglicht (beispielsweise ein mittlerer Winkelvorhersagefehler von unter 2°).
  • Es wurde festgestellt, dass die genaue interne Architektur des Netzes, d. h. die genaue Anzahl, Abmessungen und Abfolge von Faltungs- und anderen Schichten nicht für einen ausreichend guten Betrieb der Systeme entscheidend ist.
  • Allerdings sollte das Netz vorzugsweise hocheffizient sein, um Echtzeitinteraktion und eingebettete Berechnung zu ermöglichen. Gleichermaßen beeinflussen die präzisen individuellen Werte der Parameter, die sich aus dem Trainingsprozess ergeben, die abschließende Genauigkeit des trainierten Netzes nur geringfügig.
  • Insbesondere Netzarchitekturen, die für kleine Größen oder die Ausführung auf mobilen oder eingebetteten Plattformen optimiert sind, haben sich als geeignet erwiesen. Kandidaten, die CNNs verwenden, schließen somit ohne Beschränkung LeNet, SqueezeNet, MobileNet, Darknet, Resnet18 und beliebige Adaptationen derselben ein. Diese Netzarchitekturen sind hinreichend bekannt und müssen daher an dieser Stelle nicht ausführlich beschrieben werden.
  • In einer bevorzugten Ausführungsform verwendet das neuronale Netz außerdem einen oder mehrere so genannte „Squeeze-und-Excitation“(Zusammenpressen und Erregung - SE-)-Blöcke (Schichten). Diese Blöcke führen eine Merkmalsneukalibrierung durch. Eingegebene Daten oder Merkmale U (WxHxC, was Bildbreite x Bildhöhe x Anzahl der Kanäle entspricht) werden zunächst durch eine Squeeze-Operation geleitet, die die Merkmalsabbildungen über die räumlichen Dimensionen WxH hinweg aggregiert, um einen Kanaldeskriptor (1x1xC) zu erzeugen. Der Deskriptor bettet die globale Verteilung von Merkmalsantworten pro Kanal ein und ermöglicht es, dass Informationen vom globalen rezeptiven Feld des Netzes durch seine unteren Schichten genutzt werden können. Darauf folgt eine Excitation-Operation, in der Sample-spezifische Aktivierungen, die für jeden Kanal durch einen Self-Gating-Mechanismus auf Grundlage von Kanalabhängigkeit erlernt werden, die Erregung jedes Kanals regeln. Die Merkmalsabbildungen U werden dann pro Kanal durch diese zusätzlichen eingelernten Parameter neu gewichtet, um die Ausgabe des SE-Blocks zu erzeugen, die direkt in nachfolgende Schichten eingegeben werden kann.
  • Sobald ein Kerndatenkorpus erstellt und ein CNN unter Verwendung der Datenbank DB (und der in dieser Schrift beschriebenen Verfahren) trainiert wurde, können die Parameter {tCNN} des trainierten neuronalen Faltungsnetzes tCNN in den Speicher der am Kopf tragbaren Vorrichtung 720 hochgeladen werden.
  • 6 zeigt einen beispielhaften Ablauf der Blickrichtungsvorhersage. Die Kameras der Vorrichtung 720 zeichnen einen Live-Video-Stream von Augenbilder auf, der als Eingabedaten-Stream in die (integrierte) Verarbeitungseinheit 725 eingegeben wird, die ein CNN-Modul 7251 verwendet, um das trainierte Netz tCNN auf die Bilder anzuwenden (die Bilder durch das Netz tCNN vorwärts zu leiten), und berechnet so die vorhergesagte Blickrichtung gpr. Die optionale Szenenkamera kann gleichzeitig einen Video-Stream von Bildern aufzeichnen, der einem Teil des Sichtfelds des Benutzers entspricht, der die Vorrichtung 720 trägt. Dieser Video-Stream kann durch die Vorrichtung 720 zusammen mit der vorhergesagten Blickrichtung gpr ausgegeben werden, oder die Blickrichtung gpr kann allein über eine beliebige der Datenschnittstellen der Vorrichtung ausgegeben oder im Vorrichtungsspeicher gespeichert werden. Somit ergibt sich eine kompakte, tragbare und vollständig eingebettete Vorrichtung 720 für die Ende-zu-Ende-Blickschätzung (Ende-zu-Ende-Blickrichtungsbestimmung), die eine genaue Echtzeitinferenz der Blickrichtung direkt an der Vorrichtung ermöglicht, indem ein vortrainiertes und optimiertes neuronales Netzmodell verwendet wird.
  • Das denkbar einfachste Verwendungsszenario besteht darin, dass ein Benutzer die Vorrichtung 720 in Empfang nimmt, sie anlegt und ohne weitere Einrichtungsschritte mit der Verfolgung beginnen kann. Die Ergebnisse können beispielsweise in Echtzeit an eine lokale oder entfernte Vorrichtung wie etwa ein Mobiltelefon, ein Tablet, einen Laptop oder eine beliebige Art von Visualisierungsvorrichtung weitergeleitet und visualisiert werden. Die Visualisierung besteht im einfachsten Fall aus dem Anzeigen des Video-Streams der Szenenkamera mit dem angegebenen vorhergesagten Blickpunkt.
  • In einer weiteren Ausführungsform können eine Kalibrierung (links in 6, siehe auch 3B) und ein Korrekturverfahren (Block 7252) wie in dieser Schrift beschrieben für den Benutzer durchgeführt werden. Es versteht sich, dass ein Kalibrierungsschritt optional ist, da die Verwendung eines trainierten CNN es der tragbaren Vorrichtung 720 ermöglicht, in einem kalibrierungsfreien Modus mit ausreichender Genauigkeit zu arbeiten. Das Durchführen eines optionalen Kalibrierungsverfahrens kann jedoch weitere vorteilhafte Wirkungen erzeugen.
  • Erstens kann ein solcher Vorgang eine einfache benutzerspezifische Korrekturfunktion Fcorr bereitstellen, die während des Betriebs auf den vorhergesagten Blick gpr angewandt werden kann, der durch das Netz tCNN ausgegeben wird, um die für diesen spezifischen Benutzer erzielte Genauigkeit weiter und unverzüglich zu verbessern. Ein mögliches Beispiel von Korrekturfunktionen sind einfache bivariate Polynome mit einstellbarem Grad. Diese Korrektur kann beispielsweise entweder nur während der derzeitigen Nutzungssitzung angewandt oder gespeichert und auch während einer anschließenden Nutzungssitzung dieses Benutzers angewandt werden. Das Motiv hinter einem solchen Vorgang liegt darin, dass ein universelles Netz aufgrund der Physiologie des menschlichen Auges kaum 100 % Genauigkeit erreichen kann. Beispielsweise existiert ein personenspezifischer Winkel zwischen der optischen Achse jedes Auges und der tatsächlichen Sehachse oder Sichtlinie dieses Auges. Dieser Winkel ist normalerweise im linken und rechten Auge einer Person unterschiedlich, variiert in der Bevölkerung und ist per se unbekannt. Mit anderen Worten, ein trainiertes NN führt eine Mittelung dieser Variation durch. Entsprechend kann eine personenspezifische Kalibrierung die Genauigkeit in Bezug auf Vorhersagen weiter erhöhen.
  • Zweitens können Datensätzen von einem oder mehreren Kalibrierungsverfahren, die durch individuelle Benutzer durchgeführt werden, auf unterschiedliche Weise in Verbindung mit dem existierenden Kerndatenkorpus verwendet werden, um die Genauigkeit der Vorhersagen zu verbessern.
  • Beispielsweise können gelabelte Kalibrierungsdaten von einem spezifischen Benutzer zum Feinabstimmen des universellen Netzes zu einem persönlichen Netz verwendet werden, das dann genauere Vorhersagen für diesen spezifischen Benutzer durchführt. Dies kann beispielsweise durch Nachtrainieren oder Nachoptimieren von Teilen des neuronalen Netzes, d. h. nur einer Teilmenge aller Parameter des universellen Netzes, erfolgen, um die Ground Truth dieses spezifischen Benutzers besser zu reproduzieren.
  • Drittens können gelabelte Kalibrierungsdatensätze von einer Vielzahl unterschiedlicher Benutzer im Laufe der Zeit zum Kerndatenkorpus selbst hinzugefügt werden (siehe strichpunktierter Pfeil in 5), wenn mehr Benutzer die Vorrichtungen 720 verwenden und Kalibrierungsverfahren durchführen. Das Volumen des Kerndatenkorpus kann auf diese Weise dynamisch anwachsen, und das universelle Netz kann in Intervallen verfeinert bzw. nachtrainiert werden, um ein noch genaueres universelles neuronales Netz bereitzustellen. Dies kann von Anfang an unter Verwendung des gestiegenen Trainingsdatenvolumens geschehen, wobei jedoch alle Modellparameter neu initialisiert werden, oder ein Nachtrainieren des universellen NN kann die vorherige Version der Parameter oder einen Teil davon als Initialisierung verwenden.
  • Somit ergibt sich ein dreifacher Zusatzvorteil: Das Kalibrierungsverfahren kann die Genauigkeit für einen spezifischen Benutzer durch Erzeugen einer Korrekturfunktion Fcorr zum Anwenden auf die Vorhersage des universellen NN sofort verbessern, einer oder mehrere dieser Vorgängen können auch das universelle NN in ein genaueres persönliches Modell verwandeln, und durch einen oder viele Benutzer durchgeführte Kalibrierungsverfahren können sogar zum Verbessern der Datenbank DB und damit des universellen NN dienen, wovon alle Benutzer global sofort profitieren.
  • In einem Ausführungsbeispiel schließt das Kalibrierungsverfahren Anweisen eines Benutzers, der die Vorrichtung 720 trägt, auf einen bestimmten bekannten Markierungspunkt, ein Muster oder ein Objekt im Raum zu schauen, dessen Koordinaten in den durch eine Szenenkamera, die mit der Vorrichtung 720 verbunden ist oder durch diese bereitgestellt wird, aufgezeichneten Videobildern durch Techniken für maschinelles Lernen, Computervision oder Bilderkennung des Stands der Technik präzise automatisch bestimmt werden können (Block 7253 in 6). Das Bild oder die Bilder, die durch die Kameras aufgezeichnet werden, die dem bzw. den Augen des Benutzers zugewandt sind, werden in Block 7251 verwendet, um die Blickrichtung (den Blickpunkt) des Benutzers vorherzusagen. Der Versatz der vorhergesagten Blickrichtung (Blickpunkt) gpr und der erwarteten Blickrichtung (Blickpunkt) ge, die durch die Markierungsposition definiert ist, kann dann in einem Block 7254 berechnet und verwendet werden, um eine Korrekturabbildung oder -funktion Fcorr zum nunmehrigen Anwenden (Block 7252) auf die Vorhersage des universellen NN zu erzeugen, um einen kalibrierten Blickwert gcpr zu ermitteln.
  • Alternativ zu einem solchen expliziten Kalibrierungsverfahren kann ein implizites Kalibrierungsverfahren, wie beispielsweise auf Grundlage von vorherigen Betrachtungspunkten (z. B. Mauszeiger auf einem Computerbildschirm) oder Salienzkarten, angewandt werden.
  • Mögliche Anwendungsszenarien, die Kalibrierung einschließen, sind daher wie folgt.
  • Wenn ein neuer Benutzer die Vorrichtung 720 zum ersten Mal verwendet, kann dem Benutzer die Möglichkeit gegeben werden, eine Kalibrierung durchzuführen, deren Ergebnis in allen nachfolgenden Nutzungssitzungen verwendet wird (einmalige Kalibrierung). Alternativ kann dem Benutzer die Möglichkeit gegeben werden, zu Beginn jeder neuen Nutzungssitzung oder in bestimmte Zeitintervallen, z. B. täglich, eine Kalibrierung durchzuführen.
  • Alternativ können die Benutzer die Kalibrierung nach eigenem Willen aufrufen. Darüber hinaus können jedes Mal, wenn ein Benutzer eine Kalibrierung durchführt, die entsprechenden Kalibrierungsdatensätze automatisch an das Rechensystem 710 gesendet werden (wenn das nächste Mal eine Verbindung erfolgt). Entsprechend kann das Rechensystem 710 eines der Verfeinerungsverfahren (Aktualisieren der Datenbank DB, Nachtrainieren des Netzes tCNN) wie in dieser Schrift beschrieben durchführen. Dies kann auf anonymisierte Weise erfolgen, da nur Augenbilder und Ground-Truth-Koordinaten übertragen werden müssen.
  • Die beschriebenen Kalibrierungsverfahren ergeben Paare von Bildern, die mit der Ground-Truth-Blickposition gelabelt sind und verwendet werden können, um das universelle NN zu verbessern, wie oben beschrieben.
  • Neben diesen gelabelten Bildern ist es jedoch wahlweise möglich, auch Bilder in Datensätzen zu sammeln und zu speichern, die im alltäglichen Gebrauch erlangt werden. Diese Datensätzen können nicht mit der Ground-Truth-Blickposition gelabelt werden, da diese Information außerhalb des Kalibrierungsmodus nicht verfügbar ist. Ein großer Korpus ungelabelter Daten ergibt jedoch trotzdem Informationen zu der enthaltenen Bilddiversität. Techniken aus den Gebieten des unüberwachten oder halbüberwachten Einlernens können benutzt werden, um diese Informationen zu beziehen, um das universelle Modell oder ein personenspezifisches in ähnlicher Weise wie oben beschrieben Modell zu verbessern.
  • Um es einem neuen Benutzer der Vorrichtung 720 zu erleichtern, sein personenspezifisches Modell zur Blickschätzung zusammen mit anderen Hyperparametern zu verwenden, die in seinem Profil eingestellt sein können, ist es möglich, eine automatische Benutzeridentifikation zu nutzen und das Profil des Benutzers zu laden, ohne dass dieser es aktiv auswählen muss.
  • Die Benutzeridentifikation kann auf einem separaten lernbasierten Algorithmus beruhen. Als Trainingsdaten für diesen Algorithmus können die Trainingsdaten von allen bekannten Benutzern einer bestimmten Instanz einer tragbaren Vorrichtung verwendet werden, die entweder durch Kalibrierungen oder im alltäglichen Gebrauch gesammelt werden.
  • Da die Anzahl regulärer Benutzer einer spezifischen Instanz einer tragbaren Vorrichtung 720 klein ist, beispielsweise unter 50, reicht ein einfacher gebrauchsfertiger Lernalgorithmus wie etwa eine Support-Vektor-Maschine oder ein Random Forest aus, um den Benutzeridentifikator zu trainieren.
  • Ferner ermöglicht das Identifizieren des Benutzers auch Erfassen a) von neuen Benutzern, die noch nicht kalibriert wurden, und b) wann der aktuelle Benutzer zuletzt kalibriert hat. In beiden Fällen kann der Benutzer sich dann entscheiden, eine Kalibrierung durchzuführen, bzw. die Vorrichtung kann dem identifizierten Benutzer eine Kalibrierung vorschlagen.
  • Die Vorrichtung kann auch in anderen Konfigurationen als in Form einer Brille verkörpert sein, wie beispielsweise als integriert in das Nasenstück oder die Rahmenbaugruppe eines am Kopf getragenen AR- oder VR-Displays (head mounted display - HMD) oder einer Korbbrille oder ähnlichen Vorrichtung, oder als eine separate Nasenklemmenergänzung oder ein separates Modul zur Verwendung mit solchen Vorrichtungen. In diesem Fall kann die Einspeisung des optischen Sensors in einen Mehrzweck-Computervisionsverarbeitungschip erfolgen, der die CNN-Berechnung zur Blickschätzung neben anderen Aufgaben im Zusammenhang mit dem AR-/VR-Erlebnis übernimmt. Dies könnten auch ein dedizierter Chip sein, der ausschließlich (CNN-basierte) Blickschätzung durchführt, wobei der Chip jedoch auf einer PCB vorhanden ist (oder von dieser angesteuert wird), die auch andere HMD-Komponenten hostet. Das System kann somit auch eine Anzeigevorrichtung oder einen Bildschirm zum Präsentieren von Informationen an den Benutzer einschließen. Die in dieser Schrift beschriebenen Verfahren gelten ohne Anpassung an eine solche alternative Vorrichtung und/oder ein solches alternatives System
  • Gemäß einer Ausführungsform weist ein System zum Verbessern der Vorhersage von blickbezogenen Parametern mindestens eine am Kopf anbringbare Vorrichtung und ein Rechensystem auf, das mit der mindestens einen am Kopf anbringbaren Vorrichtung verbindbar und dazu konfiguriert ist, eine Datenbank zu hosten. Die mindestens eine am Kopf anbringbare Vorrichtung weist eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Abschnitt eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Abschnitt eines rechten Auges des Benutzers auf, wenn der Benutzer die am Kopf anbringbare Vorrichtung trägt. Das Rechensystem und die mindestens eine am Kopf anbringbare Vorrichtung sind dazu konfiguriert, Datensätze von der mindestens einen am Kopf anbringbaren Vorrichtung auf die erste Datenbank hochzuladen und die Parameter eines neuronalen Netzes, insbesondere Parameter eines neuronalen Faltungsnetzes, von dem Rechensystem auf die mindestens eine am Kopf anbringbare Vorrichtung herunterzuladen. Die Datensätze schließen ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige Repräsentation eines blickbezogenen Parameters ein. Das Rechensystem ist typischerweise ferner dazu konfiguriert, die Datenbank zum Trainieren des neuronalen Netzes und/oder Bestimmen der Parameter des neuronalen Netzes zu verwenden.
  • Obwohl verschiedene Ausführungsbeispiele der Erfindung offenbart wurden, wird es für den Fachmann auf der Hand liegen, dass verschiedene Änderungen und Abwandlungen vorgenommen werden können, die einige der Vorteile der Erfindung erzielen, ohne von Geist und Umfang der Erfindung abzuweichen. Der Durchschnittsfachmann wird erkennen, dass andere Komponenten, die die gleichen Funktionen erfüllen in geeigneter Weise ersetzt werden können. Es sei erwähnt, dass Merkmale, die unter Bezugnahme auf eine spezifische Figur erläutert wurden, mit Merkmalen anderer Figuren kombiniert werden können, und zwar selbst dann, wenn dies nicht ausdrücklich erwähnt wurde. Derartige Abwandlungen am erfinderischen Gedanken sollen durch die beigefügten Ansprüche abgedeckt sein.
  • Obwohl in den Figuren Prozesse möglicherweise in einer bestimmten Reihenfolge dargestellt wurden, ist dies, soweit nicht anders angegeben, nicht so auszulegen, dass diese Vorgänge in der bestimmten gezeigten Reihenfolge oder aufeinanderfolgend durchgeführt werden müssen, um die wünschenswerten Ergebnisse zu erzielen. Unter bestimmten Umständen können Multitasking und/oder parallele Verarbeitung vorteilhaft sein.
  • Relative räumliche Begriffe wie „unter“ „unterhalb“, „niedriger“, „über“, „oberhalb“ und dergleichen werden zur vereinfachten Beschreibung verwendet, um die Positionierung eines Elements im Verhältnis zu einem zweiten Element zu erläutern. Diese Begriffe sollen unterschiedliche Ausrichtungen der Vorrichtung sowie andere Ausrichtungen als die in den Figuren dargestellten einschließen. Ferner werden auch Begriffe wie „erste“, „zweite“ und dergleichen zum Beschreiben verschiedener Elemente, Bereiche, Abschnitte usw. verwendet und sollen ebenfalls nicht einschränkend sein. In der Beschreibung werden durchgängig gleiche Begriffe für gleiche Elemente verwendet.
  • Im hier verwendeten Sinne sind die Begriffe „aufweisend“, „enthaltend“, „einschließend“, „umfassend“ und dergleichen offene Begriffe, die das Vorhandensein der genannten Elemente oder Merkmale angeben, aber keine weiteren Elemente oder Merkmale ausschließen. Die Artikel „ein“, „eine“, „der“, „die“, „das“ sollen sowohl den Plural als auch den Singular einschließen, soweit der Kontext nicht eindeutig etwas anderes vorgibt.
  • In Anbetracht der verschiedenen Variationen und Anwendungen versteht es sich, dass die vorliegende Erfindung nicht auf die vorstehende Beschreibung beschränkt ist und auch nicht durch die begleitenden Zeichnungen eingeschränkt wird. Stattdessen wird die vorliegende Erfindung nur durch die nachfolgenden Ansprüche und ihre zulässigen Äquivalente eingeschränkt.
  • Bezugszeichenliste
  • 1
    Brillenvorrichtung
    2
    Brillenkörper
    3
    Nasenbrückenabschnitt
    4
    Rahmen
    5
    Beleuchtungseinrichtung
    6
    Szenenkamera
    7
    Verarbeitungseinheit
    10
    linke Seite
    11
    linke Okularöffnung
    12
    linker seitlicher Abschnitt
    13
    linker Halter
    14
    linke Kamera
    15
    optische Achse (linke Kamera)
    16 17
    linke innere Augenkameraanordnungszone
    18
    linke äußere Augenkameraanordnungszone
    19
    linkes Auge
    20
    rechte Seite
    21
    rechte Okularöffnung
    22
    rechter seitlicher Abschnitt
    23
    rechter Halter
    24
    rechte Kamera
    25
    optische Achse (rechte Kamera)
    26 27
    rechte innere Augenkameraanordnungszone
    28
    linke äußere Augenkameraanordnungszone
    29
    rechtes Auge
    30
    Begrenzungsquader
    31
    linke Seitenfläche
    32
    rechte Seitenfläche
    33
    obere Fläche
    34
    untere Fläche
    100
    mittlere Ebene
    101
    horizontale Richtung
    102
    vertikale Richtung
    103
    abwärts
    104
    aufwärts
    105
    vorne
    106
    hinten
    a
    Winkel der inneren linken Kamera 14
    β
    Winkel der inneren rechten Kamera 24
    γ
    Winkel der äußeren linken Kamera 24
    δ
    Winkel der äußeren rechten Kamera 24
    500-502
    System
    510
    Rechensystem/Server
    520, 530
    am Kopf tragbare Brillenvorrichtung
    525, 535
    Verarbeitungseinheit
    >= 1000
    Verfahren, Verfahrensschritte

Claims (25)

  1. System zum Verbessern der Vorhersage von blickbezogenen Parametern, wobei das System umfasst: - eine am Kopf tragbare Vorrichtung, die eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Teil eines linken Auges eines ersten Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Teil eines rechten Auges des ersten Benutzers umfasst, wenn der erste Benutzer die am Kopf tragbare Vorrichtung trägt; - eine Verarbeitungseinheit, die mit der ersten Kamera und der zweiten Kamera verbunden werden kann und so konfiguriert ist, dass sie einen vorhergesagten Wert eines blickbezogenen Parameters des ersten Benutzers unter Verwendung des linken Bildes und des rechten Bildes als Eingabe eines trainierten neuronalen Netzes bestimmt; und - ein Rechensystem, das mit der Verarbeitungseinheit verbunden werden kann und so konfiguriert ist, dass es eine Datenbank hosten kann und ein neuronales Netz unter Verwendung der Datenbank trainieren kann, um das trainierte neuronale Netz zu erhalten und/oder zu verbessern; - wobei das System konfiguriert ist zum: ◯ Präsentieren eines ersten Stimulus für den ersten Benutzer, der die am Kopf tragbare Vorrichtung trägt, wobei der erste Stimulus den ersten Benutzer dazu anleitet, auf ein Objekt zu blicken, das eine Blickrichtung relativ zu einem mit der am Kopf tragbaren Vorrichtung fixierten Koordinatensystem und/oder einem Blickpunkt in dem Koordinatensystem definiert; ◯ Verwenden der ersten Kamera der am Kopf tragbaren Vorrichtung, um, wenn erwartet wird, dass der erste Benutzer auf den ersten Stimulus reagiert oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, ein erstes linkes Bild von mindestens einem Teil des linken Auges des ersten Benutzers zu erzeugen, und Verwenden der zweiten Kamera der am Kopf tragbaren Vorrichtung, wenn erwartet wird, dass der erste Benutzer auf den ersten Stimulus reagiert oder erwartet wird, dass er auf den ersten Stimulus reagiert hat, um ein erstes rechtes Bild von mindestens einem Teil des rechten Auges des ersten Benutzers zu erzeugen; ◯ Erzeugen eines ersten Datensatzes, der das erste linke Bild, das erste rechte Bild und eine erste Repräsentation eines blickbezogenen Parameters des ersten Benutzers umfasst, wobei die erste Repräsentation mit dem durch das Objekt definierten Blickpunkt und/oder der durch das Objekt definierten Blickrichtung korreliert ist; und ◯ Hinzufügen des ersten Datensatzes zur Datenbank, um eine aktualisierte Datenbank zu erstellen.
  2. System nach Anspruch 1, wobei das System konfiguriert ist zum ◯ Verwenden der aktualisierten Datenbank zum erneuten Training des trainierten neuronalen Netzes, um ein benutzerspezifisches neuronales Netz zu erhalten oder zu verbessern.
  3. System nach Anspruch 2, wobei das System konfiguriert ist zum ◯ Hochladen des benutzerspezifischen neuronalen Netzes auf die erste am Kopf tragbare Vorrichtung und/oder die Verarbeitungseinheit.
  4. System nach Anspruch 2 oder 3, wobei das System so konfiguriert ist, dass es nur eine Teilmenge der Parameter des trainierten neuronalen Netzes neu trainieren kann.
  5. System nach einem der vorhergehenden Ansprüche, wobei das neuronale Netz ein neuronales Faltungsnetz ist.
  6. System nach einem der vorhergehenden Ansprüche, wobei das System konfiguriert ist zum: ◯ Präsentieren eines zweiten Stimulus für den ersten Benutzer, der die am Kopf tragbare Vorrichtung trägt; ◯ Verwenden der ersten Kamera der am Kopf tragbaren Vorrichtung, um, wenn erwartet wird, dass der erste Benutzer auf den zweiten Stimulus reagiert oder erwartet wird, dass er auf den zweiten Stimulus reagiert hat, ein zweites linkes Bild von mindestens einem Teil des linken Auges des ersten Benutzers zu erzeugen, und Verwenden der zweiten Kamera der am Kopf tragbaren Vorrichtung, wenn erwartet wird, dass der erste Benutzer auf den zweiten Stimulus reagiert oder erwartet wird, dass er auf den zweiten Stimulus reagiert hat, um ein zweites rechtes Bild von mindestens einem Teil des rechten Auges des ersten Benutzers zu erzeugen; ◯ Erzeugen eines zweiten Datensatzes, der das zweite linke Bild, das zweite rechte Bild und eine zweite Repräsentation des blickbezogenen Parameters umfasst; und ◯ Hinzufügen des zweiten Datensatzes zu der Datenbank oder der aktualisierten Datenbank; und/oder ◯ Präsentieren eines dritten Stimulus für einem zweiten Benutzer, der die am Kopf tragbare Vorrichtung trägt; ◯ Verwenden der ersten Kamera der am Kopf tragbaren Vorrichtung, um, wenn erwartet wird, dass der zweite Benutzer auf den dritten Stimulus reagiert oder erwartet wird, dass er auf den dritten Stimulus reagiert hat, ein drittes linkes Bild von mindestens einem Teil eines linken Auges des zweiten Benutzers zu erzeugen, und Verwenden der zweiten Kamera der am Kopf tragbaren Vorrichtung, wenn erwartet wird, dass der zweite Benutzer auf den dritten Stimulus reagiert oder erwartet wird, dass er auf den dritten Stimulus reagiert hat, um ein drittes rechtes Bild von mindestens einem Teil eines rechten Auges des zweiten Benutzers zu erzeugen; ◯ Erzeugen eines dritten Datensatzes, der das dritte linke Bild, das dritte rechte Bild und eine dritte Repräsentation des blickbezogenen Parameters umfasst; ◯ Hinzufügen des dritten Datensatzes zur Datenbank oder zur aktualisierten Datenbank; und/oder ◯ Präsentieren eines vierten Stimulus für den ersten Benutzer oder den zweiten Benutzer, der eine weitere am Kopf tragbare Vorrichtung trägt, wobei die weitere am Kopf tragbare Vorrichtung eine erste Kamera umfasst, die neben dem linken Auge des jeweiligen Benutzers angeordnet ist, und eine zweite Kamera, die neben dem rechten Auge des jeweiligen Benutzers angeordnet ist, wenn der jeweilige Benutzer die weitere am Kopf tragbare Vorrichtung trägt; ◯ Verwenden der ersten Kamera der weiteren am Kopf tragbaren Vorrichtung, um, wenn erwartet wird, dass der erste Benutzer oder der zweite Benutzer auf den vierten Stimulus reagiert oder erwartet wird, dass er auf den vierten Stimulus reagiert hat, ein viertes linkes Bild von mindestens einem Teil des linken Auges des jeweiligen Benutzers zu erzeugen, und Verwenden der zweiten Kamera der weiteren am Kopf tragbaren Vorrichtung, wenn erwartet wird, dass der erste Benutzer oder der zweite Benutzer auf den vierten Stimulus reagiert oder erwartet wird, dass er auf den vierten Stimulus reagiert hat, um ein viertes rechtes Bild von mindestens einem Teil des rechten Auges des jeweiligen Benutzers zu erzeugen; ◯ Erzeugen eines vierten Datensatzes, der das vierte linke Bild, das vierte rechte Bild und eine vierte Repräsentation des blickbezogenen Parameters umfasst; und ◯ Aufnehmen des vierten Datensatzes in die Datenbank oder die aktualisierte Datenbank, wobei der jeweilige Benutzer durch den jeweiligen Stimulus dazu angeleitet wird, ein jeweiliges Objekt anzublicken, das eine jeweilige Blickrichtung relativ zu einem Koordinatensystem, das mit der jeweiligen am Kopf tragbaren Vorrichtung fixiert ist, und/oder einen jeweiligen Blickpunkt in dem Koordinatensystem definiert, und wobei die jeweilige Repräsentation mit dem jeweiligen Blickpunkt, der durch das jeweilige Objekt definiert ist, und/oder der jeweiligen Blickrichtung, die durch das jeweilige Objekt definiert ist, korreliert ist.
  7. System nach einem der vorhergehenden Ansprüche, wobei die Datenbank und/oder die aktualisierte Datenbank mindestens eines der folgenden Elemente umfasst: Datensätze von einer Vielzahl verschiedener Benutzer, Datensätze, die sich auf eine bestimmte Vorrichtung beziehen, Datensätze, die sich auf eine Vorrichtungsklasse und/oder eine Geräteklasse beziehen, Datensätze, die sich auf eine Benutzer-ID beziehen, und Datensätze, die sich auf eine Benutzergruppe beziehen, und/oder wobei die Parameter des trainierten neuronalen Netzes und/oder des benutzerspezifischen neuronalen Netzes spezifisch für eines der folgenden Elemente bestimmt werden: die bestimmte Vorrichtung, die Vorrichtungsklasse, die Benutzer-ID und die Benutzergruppe.
  8. System nach einem der vorhergehenden Ansprüche, wobei mindestens einer der jeweiligen Datensätze außerdem eine Repräsentation eines weiteren blickbezogenen Parameters, der sich von dem blickbezogenen Parameter unterscheidet, eine Benutzer-ID, eine Benutzergruppen-ID und/oder eine Vorrichtungs-ID der jeweiligen am Kopf tragbaren Vorrichtung umfasst.
  9. System nach einem der vorhergehenden Ansprüche, wobei der jeweilige Datensatz das linke Bild und das rechte Bild als verkettetes Bild umfasst.
  10. System nach einem der vorhergehenden Ansprüche, wobei das linke und das rechte Bild jeweils IR-Bilder sind und/oder wobei die Pixelzahl des linken und/oder des rechten Bildes höchstens 40000 beträgt.
  11. System nach einem der vorhergehenden Ansprüche, wobei die jeweilige am Kopf tragbare Vorrichtung eine Brillenvorrichtung, eine Brille, ein am Kopf tragbares AR-Display oder ein am Kopf tragbares VR-Display ist.
  12. System nach einem der vorhergehenden Ansprüche, wobei die jeweilige am Kopf tragbare Vorrichtung die Verarbeitungseinheit umfasst, oder wobei das System einen Desktop-Computer, ein Tablet, einen Laptop oder ein Smartphone umfasst, der die Verarbeitungseinheit bereitstellt und mit der jeweiligen am Kopf tragbaren Vorrichtung und/oder dem Rechensystem verbunden werden kann.
  13. System nach einem der vorhergehenden Ansprüche, wobei das Rechensystem einen typischerweise entfernten Server und/oder eine cloudbasierte Struktur umfasst.
  14. System nach einem der vorhergehenden Ansprüche, wobei der jeweilige blickbezogene Parameter mit mindestens einem Element einer Liste in Beziehung steht und/oder aus der Liste ausgewählt ist, wobei die Liste besteht aus: einer Blickrichtung, einer zyklopischen Blickrichtung, einem 3D-Blickpunkt, einem 2D-Blickpunkt, einer Sichtachsenorientierung, einer optischen Achsenorientierung, einer Pupillenachsenorientierung, einer Sichtlinienorientierung, einer Orientierung und/oder einer Position und/oder einem Lidschluss, einer Pupillenfläche, einer Pupillengröße, einem Pupillendurchmesser, einem Skleramerkmal, einem Irisdurchmesser, einem Merkmal eines Blutgefäßes, einem Hornhautmerkmal mindestens eines Auges, einem Hornhautradius, einem Augapfelradius, einem Abstand Pupillenmitte zu Hornhautmitte, einem Abstand Hornhautmitte zu Augapfelmitte, einem Abstand Pupillenmitte zu Limbusmitte, einem keratometrischen Brechungsindex der Hornhaut, einem Brechungsindex der Hornhaut, einem Brechungsindex des Glaskörpers, einem Abstand der kristallinen Linse zur Augapfelmitte, zur Hornhautmitte und/oder zum Hornhautapex, einem Brechungsindex der kristallinen Linse, einem Grad von Astigmatismus, einem Orientierungswinkel einer horizontalen und/oder einer vertikalen Achse, einer Haupt- und/oder Nebenachsenorientierung des Limbus, einer Cyclotorsion des Auges, eines intraokularen Abstand des Auges, einer Augenvergenz, einer Statistik über die Augenadduktion und/oder Augenabduktion und einer Statistik über die Augenerhebung und/oder Augensenkung, Daten über Blinzelereignisse, Benommenheit und/oder Bewusstsein des Benutzers, und einem Parameter für die Überprüfung und/oder Identifizierung der Iris des Benutzers.
  15. System nach einem der vorhergehenden Ansprüche, wobei die jeweilige Repräsentation des blickbezogenen Parameters entweder ein Bild ist, das das jeweilige Objekt zeigt, oder ein jeweiliger gegebener oder resultierender Wert des blickbezogenen Parameters.
  16. System nach Anspruch 15, wobei das jeweilige Objekt ein reales Objekt im Sichtfeld des jeweiligen Benutzers ist, der die jeweilige am Kopf tragbare Vorrichtung trägt, beispielsweise die Spitze eines seiner Finger.
  17. System nach Anspruch 16, wobei das System so konfiguriert ist, dass es das jeweilige reale Objekt innerhalb des Sichtfelds des jeweiligen Benutzers, der die jeweilige am Kopf tragbare Vorrichtung trägt, unter Verwendung einer Szenenkamera der jeweiligen am Kopf tragbaren Vorrichtung erfasst und das erfasste Bild des jeweiligen realen Objekts als Grundlage für die Bestimmung des jeweiligen gegebenen oder resultierenden Werts des blickbezogenen Parameters verwendet.
  18. System nach Anspruch 15, wobei das System so konfiguriert ist, dass es das jeweilige Objekt auf einem Display der jeweiligen am Kopf tragbaren Vorrichtung im Sichtfeld des Benutzers anzeigt.
  19. System nach einem der vorhergehenden Ansprüche, wobei das System konfiguriert ist zum: ◯ Präsentieren eines weiteren Stimulus für den ersten oder zweiten Benutzer, der die jeweilige am Kopf tragbare Vorrichtung trägt, wobei der weitere Stimulus den jeweiligen Benutzer dazu anleitet, auf ein Objekt zu blicken, das eine weitere Blickrichtung relativ zu dem mit der jeweiligen am Kopf tragbaren Vorrichtung fixierten Koordinatensystem und/oder einen weiteren Blickpunkt in dem Koordinatensystem definiert, wobei die weitere Blickrichtung und der weitere Blickpunkt einen jeweiligen gewünschten Wert eines blickbezogenen Parameters des jeweiligen Benutzers darstellen; ◯ Verwenden der ersten Kamera der jeweiligen am Kopf tragbaren Vorrichtung, um ein weiteres linkes Bild von mindestens einem Teil des linken Auges des jeweiligen Benutzers zu erzeugen, und Verwenden der zweiten Kamera der jeweiligen am Kopf tragbaren Vorrichtung, um ein rechtes Bild von mindestens einem Teil des rechten Auges des jeweiligen Benutzers zu erzeugen, der die jeweilige am Kopf tragbare Vorrichtung trägt und von dem erwartet wird, dass er auf den Stimulus reagiert oder von dem erwartet wird, dass er auf den Stimulus reagiert hat; ◯ Verwenden des trainierten neuronalen Netzes und/oder des benutzerspezifischen neuronalen Netzes zur Bestimmung eines jeweiligen vorhergesagten Wertes des blickbezogenen Parameters unter Verwendung des rechten Bildes und des linken Bildes als Eingabe für das jeweilige neuronale Netz.
  20. System nach Anspruch 19, wobei das System so konfiguriert ist, dass es: ◯ den jeweiligen gewünschten Wert des blickbezogenen Parameters und den jeweiligen vorhergesagten Wert des blickbezogenen Parameters verwenden kann, um eine Korrekturfunktion zur Korrektur von Werten des blickbezogenen Parameters des jeweiligen Benutzers zu bestimmen, die von dem trainierten neuronalen Netz und/oder dem benutzerspezifischen neuronalen Netz vorhergesagt wurden.
  21. Rechensystem zum Kalibrieren einer am Kopf tragbaren Vorrichtung, die mit dem Rechensystem verbunden werden kann, wobei die am Kopf tragbare Vorrichtung eine erste Kamera zum Erzeugen eines linken Bildes von mindestens einem Teil eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von mindestens einem Teil eines rechten Auges des Benutzers umfasst, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt, wobei das Rechensystem konfiguriert ist zum Steuern von: ◯ Präsentieren eines Stimulus für den Benutzer, der die am Kopf tragbare Vorrichtung trägt, wobei der Stimulus mit einem gewünschten Wert eines blickbezogenen Parameters korreliert ist; und ◯ Verwenden der ersten Kamera, um ein linkes Bild von mindestens einem Teil des linken Auges des Benutzers zu erzeugen, und Verwenden der zweiten Kamera, um ein rechtes Bild von mindestens einem Teil des rechten Auges des Benutzers zu erzeugen, der die am Kopf tragbare Vorrichtung trägt und von dem erwartet wird, dass er auf den Stimulus reagiert oder von dem erwartet wird, dass er auf den Stimulus reagiert hat, und das Rechensystem konfiguriert ist zum: ◯ Erzeugen eines neuen Datensatzes, der das linke Bild, das rechte Bild, den gewünschten Wert des blickbezogenen Parameters oder eine andere Repräsentation des blickbezogenen Parameters enthält; ◯ Hinzufügen des neuen Datensatzes zu einer Datenbank, die eine Vielzahl von Datensätzen umfasst, um eine aktualisierte Datenbank zu erzeugen, wobei jeder Datensatz der Datenbank ein jeweiliges linkes Bild, ein jeweiliges rechtes Bild und eine jeweilige entsprechende Repräsentation eines blickbezogenen Parameters umfasst; ◯ Verwenden der aktualisierten Datenbank zum erneuten Trainieren eines trainierten neuronalen Netzes, um ein benutzerspezifisches neuronales Netz zu erhalten oder zu verbessern; und ◯ Hochladen des benutzerspezifischen neuronalen Netzes auf die am Kopf tragbare Vorrichtung und/oder eine mit dem am Kopf tragbaren Vorrichtung verbindbare Recheneinheit.
  22. Rechensystem nach Anspruch 21, wobei das Rechensystem so konfiguriert ist, dass es ein neuronales Netz unter Verwendung der Datenbank trainieren kann, um das trainierte neuronale Netz zu erhalten und/oder zu verbessern, und/oder dass es nur eine Teilmenge der Parameter des trainierten neuronalen Netzes neu trainieren kann.
  23. Rechensystem nach einem der Ansprüche 21 bis 22, wobei das neuronale Netzwerk ein neuronales Faltungsnetzwerk ist.
  24. Rechensystem nach einem der Ansprüche 21 bis 23, wobei der Stimulus den Benutzer anleitet, auf ein Objekt zu blicken, das eine Blickrichtung relativ zu einem mit der am Kopf tragbaren Vorrichtung fixierten Koordinatensystem und/oder einem Blickpunkt in dem Koordinatensystem definiert.
  25. Ein Computerprogrammprodukt oder ein computerlesbares Speichermedium, das Anweisungen umfasst, die, wenn sie von einem oder mehreren Prozessoren eines Systems ausgeführt werden, das ein Rechensystem oder ein Computersystem und eine mit dem Rechensystem oder dem Computersystem verbundene, am Kopf tragbare Vorrichtung umfasst, wobei die am Kopf tragbare Vorrichtung eine erste Kamera zum Erzeugen eines linken Bildes von zumindest einem Teil eines linken Auges eines Benutzers und eine zweite Kamera zum Erzeugen eines rechten Bildes von zumindest einem Teil eines rechten Auges des Benutzers umfasst, wenn der Benutzer die am Kopf tragbare Vorrichtung trägt, das System dazu veranlassen: ◯ dem Benutzer, der eine am Kopf tragbare Vorrichtung trägt, einen Stimulus zu präsentieren, wobei der Stimulus den Benutzer dazu anleitet, auf ein Objekt zu blicken, das eine Blickrichtung relativ zu einem mit der am Kopf tragbaren Vorrichtung fixierten Koordinatensystem und/oder einem Blickpunkt in dem Koordinatensystem definiert, ◯ die erste Kamera zu verwenden, um ein linkes Bild von mindestens einem Teil des linken Auges des Benutzers zu erzeugen, und die zweite Kamera zu verwenden, um ein rechtes Bild von mindestens einem Teil des rechten Auges des Benutzers zu erzeugen, der die am Kopf tragbare Vorrichtung trägt und von dem erwartet wird, dass er auf den Stimulus reagiert oder von dem erwartet wird, dass er auf den Stimulus reagiert hat; ◯ einen Datensatz zu erzeugen, der das erste linke Bild, das erste rechte Bild und eine erste Repräsentation eines blickbezogenen Parameters des ersten Benutzers umfasst, wobei die erste Repräsentation mit dem durch das Objekt definierten Blickpunkt und/oder der durch das Objekt definierten Blickrichtung korreliert ist; und ◯ des ersten Datensatzes zur Datenbank hinzuzufügen, um eine aktualisierte Datenbank zu erstellen, wobei das Rechensystem oder das Computersystem, wenn die Anweisungen von dem einen oder den mehreren Prozessoren des Systems ausgeführt werden, typischerweise weiterhin dazu veranlasst wird: ◯ ein neuronales Netz unter Verwendung der Datenbank zu trainieren, um das trainierte neuronale Netz zu erhalten; ◯ das trainierten neuronalen Netzes auf die am Kopf tragbare Vorrichtung und/oder eine mit der am Kopf tragbaren Vorrichtung verbindbare Recheneinheit hochzuladen; ◯ die aktualisierte Datenbank zum erneuten Trainieren des trainierten neuronalen Netzes zu verwenden, um ein benutzerspezifisches neuronales Netz zu erhalten oder zu verbessern; und/oder ◯ das benutzerspezifische neuronale Netz auf die am Kopf tragbare Vorrichtung und/oder die Recheneinheit hochzuladen.
DE202018006799.7U 2018-02-09 2018-02-09 System zum Verbessern der Vorhersagen blickbezogener Parameter Active DE202018006799U1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE202018006799.7U DE202018006799U1 (de) 2018-02-09 2018-02-09 System zum Verbessern der Vorhersagen blickbezogener Parameter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE202018006799.7U DE202018006799U1 (de) 2018-02-09 2018-02-09 System zum Verbessern der Vorhersagen blickbezogener Parameter

Publications (1)

Publication Number Publication Date
DE202018006799U1 true DE202018006799U1 (de) 2022-12-22

Family

ID=84890237

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202018006799.7U Active DE202018006799U1 (de) 2018-02-09 2018-02-09 System zum Verbessern der Vorhersagen blickbezogener Parameter

Country Status (1)

Country Link
DE (1) DE202018006799U1 (de)

Similar Documents

Publication Publication Date Title
US11556741B2 (en) Devices, systems and methods for predicting gaze-related parameters using a neural network
EP3750028B1 (de) Vorrichtungen, systeme und verfahren zur vorhersage von blickbezogenen parametern
EP3749172B1 (de) Vorrichtungen, systeme und verfahren zur vorhersage von blickbezogenen parametern
EP3956721B1 (de) Bestimmung mindestens eines optischen parameters eines brillenglases
DE102018102194A1 (de) Elektronische Einrichtung, Informationsverarbeitungsverfahren und Programm
DE202014011502U1 (de) Computergesteuerte Refraktions- und Astigmatismusbestimmung
CN107307981A (zh) 基于眼动的视觉训练方法
Schenck et al. Grasping of extrafoveal targets: A robotic model
US9760772B2 (en) Eye image stimuli for eyegaze calibration procedures
DE202018006799U1 (de) System zum Verbessern der Vorhersagen blickbezogener Parameter
DE202018006796U1 (de) System zur Vorhersage blickbezogener Parameter
DE102022113648A1 (de) Transparente einsatzidentifikation
US20220198789A1 (en) Systems and methods for determining one or more parameters of a user's eye
US11776315B2 (en) Appearance based dominant eye selector systems and methods for gaze estimation from passive imagery
Lindén Calibration in deep-learning eye tracking
DE112018006367T5 (de) Informationsverarbeitungseinrichtung, Informationsverarbeitungsverfahren und Programm.
US20240119594A1 (en) Determining Digital Markers Indicative of a Neurological Condition Using Eye Movement Parameters
US20230089522A1 (en) Intelligent extended reality eyewear
US20220354363A1 (en) Obtaining high-resolution eye movement parameters
KR20230085614A (ko) 가상 디스플레이를 설정하는 가상현실장치 및 장치의 동작 방법
DE102022208561A1 (de) Accessoire-erkennung und bestimmung für avatar-registrierung
CN117373075A (zh) 基于眼部特征点和眼部区域分割结果的情感识别数据集
Cotrina et al. The Novel Stimulation Setup
Janssen et al. Real time eye blink detection using a configurable processor

Legal Events

Date Code Title Description
R150 Utility model maintained after payment of first maintenance fee after three years
R207 Utility model specification
R151 Utility model maintained after payment of second maintenance fee after six years