DE102020123307A1

DE102020123307A1 - Verfahren zur Interaktion in einer virtuellen Realität

Info

Publication number: DE102020123307A1
Application number: DE102020123307.8A
Authority: DE
Inventors: André Gröschel
Original assignee: Triple A Code GmbH
Current assignee: Triple A Code GmbH
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-03-10

Abstract

Die Erfindung betrifft ein Verfahren zur Interaktion in einer virtuellen Realität (VR), mit den Schritten:(S100) Erfassen eines Eingabe-Datensatzes (EDS) indikativ für eine Bewegungs-Geste (G1, G2, G3) eines Nutzers (4),(S200) Beaufschlagen eines trainierten neuronalen Netzes (22) mit dem erfassten Eingabe-Datensatz (EDS),(S300) Bestimmen einer vorbestimmten Geste (G1, G2, G3) mit dem trainierten neuronalen Netz (22), und(S400) Zuordnen eines vorbestimmten Bedienbefehls (BB1, BB2, BB3) zu der bestimmten Geste (G1, G2, G3).

Description

Die Erfindung betrifft ein Verfahren zur Interaktion in einer virtuellen Realität.
Als virtuelle Realität, kurz VR, wird die Darstellung und gleichzeitige Wahrnehmung der Wirklichkeit und ihrer physikalischen Eigenschaften in einer in Echtzeit computergenerierten, interaktiven virtuellen Realität bezeichnet.
Um ein Gefühl der Immersion zu erzeugen werden zur Darstellung der virtuellen Realität spezielle Ausgabegeräte, wie z.B. Virtual-Reality-Headsets oder Head-Mounted Displays (HMD), verwendet. Um einen räumlichen Eindruck zu vermitteln, werden zwei Bilder aus unterschiedlichen Perspektiven erzeugt und dargestellt (Stereoprojektion).
Zum Durchführen von Interaktionen in der virtuellen Realität werden spezielle Eingabegeräte, wie z.B. Controller genutzt.
Für die Erzeugung einer virtuellen Realität ist ferner eine speziell für diesen Zweck entwickelte Software erforderlich. Die Software muss komplexe dreidimensionale Welten in Echtzeit, d.h. mit mindestens 60 Bildern pro Sekunde, in Stereo getrennt für linkes und rechtes Auge des Nutzers berechnen können. Dieser Wert variiert je nach Anwendung - eine dynamische Simulation, wie z.B. Fahrsimulation, erfordern mindestens 60 Bilder pro Sekunde, um Übelkeit (Simulatorkrankheit) zu vermeiden.
Eine Rechnereinheit, auf der diese Software läuft, kann als separater VR-Server ausgebildet sein oder in das Ausgabegerät integriert sein.
Bei z.B. grafischen Benutzeroberflächen können eine Eingabe und ein Ausführen eines Bedienbefehls durch Steuern eines Mauszeigers auf eine vorbestimmte Schaltfläche und Anklicken der aktivierten Schaltfläche erfolgen. Eine Übertragung in den Bereich der virtuellen Realität führt aber zu Problemen. Zum einen muss rechnerintern ein Berühren und Anklicken der Schaltfläche erfasst werden, z.B. mittels Kollisionserfassungsalgorithmen, was Rechnerressourcen bindet. Zum anderen fehlt in der virtuellen Realität eine physikalische Fläche, die eine Gegenkraft für ein haptisches Feedback bereitstellt.
Es besteht Bedarf daran, Wege aufzuzeigen, wie hier auf einfache Art und Weise Abhilfe geschaffen werden kann.
Die Aufgabe der Erfindung wird gelöst durch ein Verfahren zur Interaktion in einer virtuellen Realität, mit den Schritten:

Erfassen eines Eingabe-Datensatzes indikativ für eine Bewegungs-Geste eines Nutzers,
Beaufschlagen eines trainierten neuronalen Netzes mit dem erfassten Eingabe-Datensatz,
Bestimmen einer vorbestimmten Geste mit dem trainierten neuronalen Netz, und
Zuordnen eines vorbestimmten Bedienbefehls zu der bestimmten Geste.

Dabei wird unter einer Bewegungs-Geste eine Geste mit einer Bewegung verstanden im Gegensatz zu statischen Gesten, wie z.B. eine statische Handhaltung. Unter einer Bewegungs-Geste kann auch eine kontinuierliche Geste verstanden werden im Gegensatz zu einer diskreten Geste, wie Gesten der Gebärdensprache. Erfasst wird also mit dem Eingabe-Datensatz eine Bewegungsabfolge, so dass der Eingabe-Datensatz auch als 4D-Datensatz aufgefasst werden kann.
Künstliche neuronale Netze, auch künstliche neuronale Netzwerke, kurz: KNN (englisch: ANN - artificial neural network), sind Netze aus künstlichen Neuronen. Diese Neuronen (auch Knotenpunkte) eines künstlichen neuronalen Netzes sind in Schichten angeordnet und in der Regel in einer festen Hierarchie miteinander verbunden. Die Neuronen sind dabei zumeist zwischen zwei Schichten verbunden, in selteneren Fällen aber auch innerhalb einer Schicht. Ein derartiges künstliches neuronales Netz wird vor seiner Inbetriebnahme während einer Trainingsphase trainiert. Während der Trainingsphase wird das künstliche neuronale Netz modifiziert, so dass es für bestimmte Eingangsmuster zugehörige Ausgabemuster erzeugt. Dies kann mittels überwachtem Lernen, unüberwachtem Lernen, bestärkendem Lernen oder stochastischem Lernen erfolgen. Dabei besitzt ein trainiertes künstliches neuronales Netz den Vorteil, dass es von seiner Lernfähigkeit, seiner Parallelität, seiner Fehlertoleranz und seiner Robustheit gegenüber Störungen profitiert.
Das Bestimmen einer vorbestimmten Geste mit dem trainierten neuronalen Netz und Zuordnen eines vorbestimmten Bedienbefehls zu der bestimmten Geste bietet dabei den Vorteil, dass ein Bewegungsmuster erfasst, bestimmt und einem Bedienbefehl zugeordnet werden muss, jedoch so eine schaltflächenfreie Interaktion in einer virtuellen Realität möglich wird. So kann z.B. auf Kollisionserfassungsalgorithmen verzichtet werden und ein Nutzer vermisst kein haptisches Feedback einer realen physikalischen Fläche in der virtuellen Realität
Gemäß einer Ausführungsform ist die Geste ein Wechseln von Flexion zu Extension oder umgekehrt einer Hand des Nutzers. Unter Flexion (von lateinisch flectere ,biegen', ,beugen', sich winden') wird die Beugung eines Gelenks verstanden. Die gegenläufige Bewegung wird als Extension (Streckung) bezeichnet. Beim Handgelenk wird die Flexion (Bewegung Richtung Hohlhand) auch als Palmarflexion bezeichnet, während die Extension auch als Dorsalextension bezeichnet wird. Anschaulich kann der Wechsel von Flexion zu Extension oder umgekehrt auch als eine Art Winken oder auch Wischbewegung aufgefasst werden, wie sie von grafischen Benutzeroberflächen bekannt sind. Somit kann eine bereits weit verbreitete Geste für eine Interaktion in einer virtuellen Realität verwendet werden.
Gemäß einer weiteren Ausführungsform steuert die Geste eine Karussell-Darstellung in der virtuellen Realität an. Eine Karussell-Darstellung enthält eine Liste von Elementen, wie z.B. Bilder, Icons oder andere Symbole, die sowohl horizontal als auch vertikal dargestellt werden können. Die Navigation erfolgt jeweils in beide Richtungen (links-rechts oder oben-unten) und kann zudem mit und ohne einer Animation z.B. einem Blendeneffekt und/oder als 3D-Darstellung ausgebildet sein. Ein Navigieren durch eine derartige Karussell-Darstellung kann auch als ein Umblättern im Uhrzeigersinn und/oder entgegen dem Uhrzeigersinn aufgefasst werden. Mit anderen Worten, ein Wechseln von Flexion zu Extension z.B. einer linken Hand kann z.B. ein Umblättern im Uhrzeigersinn und ein Wechseln von Extension zu Flexion einer rechten Hand kann ein Umblättern entgegen dem Uhrzeigersinn bewirken. Somit kann mit einer bereits weit verbreiteten Geste für eine Interaktion in einer virtuellen Realität eine derartige Karussell-Darstellung gesteuert werden.
Gemäß einer weiteren Ausführungsform ist die Geste ein Wechseln von Supination zu Pronation oder umgekehrt der Hand des Nutzers. Unter Supination (lateinisch supinitas zurückgebogene Stellung') wird Auswärtsdrehung der Hand durch Rotation des Unterarmes verstanden, so dass Elle und Speiche nach der Drehung parallel nebeneinander liegen. Beim einen hängenden Arm würde die Handfläche nun nach vorne zeigen. Die gegenläufige Bewegung wird als Pronation bezeichnet. Bei dieser Drehung des Unterarms überkreuzen sich Elle und Speiche. Bei einem hängenden Arm würde die Handfläche nun nach hinten zeigen. Anschaulich kann der Wechsel von Supination zu Pronation auch als Drehung um die Haupterstreckungsrichtung der Unterarmknochen aufgefasst werden, die ausgeführt wird, um z.B. eine am Armgelenk befindliche Armbanduhr oder Smartwatch ins Blickfeld des Nutzers zu bringen. Somit kann ebenfalls eine bereits weit verbreitete Geste für eine Interaktion in einer virtuellen Realität verwendet werden.
Gemäß einer weiteren Ausführungsform aktiviert die Geste eine virtuelle Armbanduhr oder Smartwatch am Handgelenk des Nutzers. Auf das Aktivieren hin kann z.B. eine aktuelle Uhrzeit angezeigt werden. Alternativ oder zusätzlich können Funktionen einer Smartwatch aktiviert werden, wie z.B. eine Darstellung einer eingehenden SMS oder des Namens eines aktuellen Anrufers. Ferner kann vorgesehen sein, dass Daten einer realen Smartwatch von einem VR-Server eingelesen werden und zum Erzeugen einer virtuellen Smartwatch in der virtuellen Realität verwendet werden. So kann ein Nutzer seine Smartwatch nutzen ohne die virtuelle Realität verlassen zu müssen, d.h. er muss ein z.B. als Virtual-Reality-Headset oder Head-Mounted Display ausgebildetes Ausgabegerät nicht abnehmen um die mit der Smartwatch visualisierten Informationen wahrnehmen zu können.
Gemäß einer weiteren Ausführungsform werden ferner die folgenden Schritte ausgeführt:

Erfassen eines Spracheingabe-Datensatzes des Nutzers,
Beaufschlagen des trainierten neuronalen Netzes mit dem erfassten Spracheingabe-Datensatz,
Bestimmen einer vorbestimmten Spracheingabe mit dem trainierten neuronalen Netz, und
Zuordnen eines vorbestimmten Bedienbefehls zu der bestimmten Spracheingabe.

Mit anderen Worten, zusätzlich oder auch alternativ kann ein Nutzer auch per Sprachbefehl eine Interaktion in der virtuellen Realität ausführen. Dabei kann zum Bestimmen der vorbestimmten Spracheingabe das gleiche oder ein weiteres trainiertes neuronale Netz verwendet werden. Mit den Spracheingaben kann eine Verifikation der Bewegungs-Gesten erfolgen, z.B. wenn sie nicht eindeutig bestimmt werden können, oder eine Eingabe weiterer Bedienbefehle, wie z.B. eine Auswahl eines Bildes, Icons oder eines anderen Symbols einer Karussell-Darstellung. So können weitere Eingabemöglichkeiten für eine schaltflächenfreie Interaktion bereitgestellt werden, die ohne Kollisionserfassungsalgorithmen auskommen, wobei ein Nutzer kein haptisches Feedback einer realen physikalischen Fläche in der virtuellen Realität vermisst.
Ferner gehören zur Erfindung ein Computerprogrammprodukt, ein System zur Interaktion in einer virtuellen Realität und ein VR-Server für ein derartiges System.
Es wird nun die Erfindung anhand einer Zeichnung erläutert. Es zeigen:

1 in schematischer Darstellung ausgewählte Komponenten eines Systems zur Interaktion in einer virtuellen Realität.
2 in schematischer Darstellung weitere Details des in 1 gezeigten Systems.
3 in schematischer Darstellung weitere Details des in den 1 und 2 gezeigten Systems.
4 in schematischer Darstellung einen Verfahrensablauf zum Betrieb des in den 1 und 2 sowie 3 gezeigten Systems.

Es wird zunächst auf 1 Bezug genommen.
Dargestellt ist ein Szenario, bei dem ein Nutzer 4 sich in einer virtuellen Realität VR befindet, z.B. um im Rahmen von Freizeitaktivitäten ein Computerspiel zu spielen oder um z.B. Ingenieurdienstleistungen im Rahmen von Entwicklungsprojekten oder Testzyklen durchzuführen.
Hierzu trägt der Nutzer 4 im vorliegenden Ausführungsbeispiel auf seinem Kopf ein Ausgabegerät 6, wie z.B. ein HMD. Das Ausgabegerät 6 ist im vorliegenden Ausführungsbeispiel dazu ausgebildet, einen VR-Bild-Datensatz VDS wiederzugeben, der repräsentativ für die virtuelle Realität VR ist. Um einen räumlichen Eindruck zu vermitteln, werden im vorliegenden Ausführungsbeispiel zwei Bilder aus unterschiedlichen Perspektiven erzeugt und dargestellt (Stereoprojektion).
Der VR-Bild-Datensatz VDS wird von einem VR-Server 16 bereitgestellt, auf dem eine Software zur Erzeugung der virtuellen Realität VR ausgeführt wird. Abweichend vom vorliegenden Ausführungsbeispiel kann ein Rechner, auf dem die Software ausgeführt wird, auch in das Ausgabegerät 6 integriert sein.
Der Nutzer 4 kann im vorliegenden Ausführungsbeispiel mit Hilfe zweier Eingabegerätes14a, 14b, die er in seiner rechten Hand 8a bzw. seiner linken Hand 8b hält, Nutzerinteraktion in der virtuellen Realität VR durchführen. Dabei sind die beiden Eingabegeräte 14a, 14b im vorliegenden Ausführungsbeispiel jeweils als Controller ausgebildet.
In dem in 1 gezeigten Szenario ist der VR-Bild-Datensatz VDS repräsentativ für eine Karussell-Darstellung 12. Im vorliegenden Ausführungsbeispiel umfasst die Karussell-Darstellung 12 eine Liste von Elementen, wie z.B. Bilder, Icons oder andere Symbole, die horizontal zwei Kreise bildend um der Nutzer 4 angeordnet sind, wobei sich der Nutzer 4 in der Mitte der beiden Kreise befindet.
Ein Navigieren durch die Karussell-Darstellung 12 kann durch ein Umblättern im Uhrzeigersinn und/oder entgegen dem Uhrzeigersinn in Richtung des Pfeiles I erreicht werden.
Um den Nutzer 4 eine schaltflächenfreie Interaktion in der virtuellen Realität VR zu ermöglichen ist ein System 2 zur Interaktion in der virtuellen Realität VR vorgesehen, dessen Komponenten und Funktionen im folgenden erläutert werden.
Dabei können das System 2 sowie die nachfolgend beschriebenen Komponenten für ihrer jeweiligen Aufgaben und/oder Funktionen jeweils Hard- und/oder Software-Komponenten aufweisen.
Das System 2 ist dazu ausgebildet einen Eingabe-Datensatz EDS indikativ für Bewegungs-Gesten G1, G2 des Nutzers 4 zu erfassen. Bei der Bewegungs-Geste G1 handelt es sich im vorliegenden Ausführungsbeispiel um einen Wechsel von Flexion zu Extension oder umgekehrt in Richtung des Pfeils II mit der rechten Hand 8a und bei der Geste G2 handelt es sich im vorliegenden Ausführungsbeispiel um einen Wechsel von Flexion zu Extension oder umgekehrt in Richtung des Pfeils III mit der linken Hand 8b des Nutzers 4. Der Eingabe-Datensatz EDS ist im vorliegenden Ausführungsbeispiel ein 4D-Datensatz repräsentativ für einen Bewegungsablauf, den der Nutzer 4 insbesondere im vorliegenden Ausführungsbeispiel mit seiner rechten Hand 8a vollführt und der mit z.B. Bewegungssensoren des Eingabegerätes 14a in seiner rechten Hand 8a erfasst wird. Analog werden Bewegungsabläufe der linken Hand 8b mit dem zweiten Eingabegerät 14b erfasst.
Um zu bestimmen, ob der erfasste Bewegungsablauf repräsentativ für die vorbestimmte Geste G1 oder G2 ist weist der VR-Rechner 16 im vorliegenden Ausführungsbeispiel ein Gestenerfassungs-Modul 18 und ein VR-Bild-Datensatz-Modul 20 auf.
Das Gestenerfassungs-Modul 18 ist dazu ausgebildet den Eingabe-Datensatz EDS auszuwerten und die vorbestimmte Geste G1 oder G2 zu bestimmen und einen vorbestimmten Bedienbefehl, im vorliegenden Ausführungsbeispiel den Bedienbefehl BB1 oder BB2 zu der bestimmten Geste G1 oder G2 zuzuordnen. Hierzu kann das Gestenerfassungs-Modul 18 ein künstliches neuronales Netz 22 aufweisen, das später detailliert erläutert wird. Im vorliegenden Ausführungsbeispiel wird mit dem Bedienbefehl BB1 eine Rotation der Karussell-Darstellung 12 entgegen dem Uhrzeigersinn bewirkt. Mit der Geste G2 in Richtung des Pfeils III hingegen wird der Bedienbefehl BB2 ausgewählt, der eine Rotation der Karussell-Darstellung 12 im Uhrzeigersinn bewirkt.
Das VR-Bild-Datensatz-Modul 20 ist dazu ausgebildet, den VR-Bild-Datensatz VDS entsprechend anzupassen und an das Ausgabegerät 6 zu übertragen, wo er dann dem Nutzer 4 visualisiert wird.
Es wird nun zusätzlich auf 2 Bezug genommen.
Das in 2 gezeigte System 2 ist zusätzlich oder alternativ dazu ausgebildet dem Nutzer 4 eine weitere Möglichkeit einer schaltflächenfreien Interaktion in der virtuellen Realität VR zu ermöglichen.
Hierzu ist das System 2 dazu ausgebildet einen Eingabe-Datensatz EDS indikativ für eine weitere Bewegungs-Geste G3 des Nutzers 4 zu erfassen. Bei der Bewegungs-Geste G3 handelt es sich im vorliegenden Ausführungsbeispiel um einen Wechsel von Supination zu Pronation oder umgekehrt der linken Hand 8b des Nutzers 4.
Die Auswertung des Eingabe-Datensatzes EDS und Bestimmung des zugeordneten Bedienbefehls, im vorliegenden Ausführungsbeispiel den Bedienbefehl BB3 zu der bestimmten Geste G3, kann analog zu dem anhand der 1 beschriebenen Ausführungsbeispiel erfolgen.
Mit der Geste G3 in Richtung des Pfeils IV wird der Bedienbefehl BB3 ausgewählt, der eine virtuelle Armbanduhr oder Smartwatch am Handgelenk 10 der linken Hand 8b des Nutzers 4 aktiviert.
Auf das Aktivieren hin kann z.B. eine aktuelle Uhrzeit angezeigt werden. Alternativ oder zusätzlich können Funktionen einer Smartwatch aktiviert werden, wie z.B. eine Darstellung einer eingehenden SMS oder des Namens eines aktuellen Anrufers. Ferner kann vorgesehen sein, die Daten einer realen Smartwatch von dem VR-Server 16 eingelesen werden und dem VR-Bild-Datensatz-Modul 20 zum Erzeugen einer virtuellen Smartwatch in der virtuellen Realität VR in den VR-Bild-Datensatz VDS eingebettet werden.
So kann ein Nutzer seine Smartwatch nutzen ohne die virtuelle Realität VR zu verlassen zu müssen, d.h. er muss ein z.B. als Virtual-Reality-Headset oder Head-Mounted Display ausgebildetes Ausgabegerät 6 nicht abnehmen um die mit der Smartwatch visualisierten Informationen wahrnehmen zu können.
Des Weiteren kann das in den 1 und 2 gezeigte System 2 zusätzlich oder alternativ dazu ausgebildet sein dem Nutzer 14 eine weitere Möglichkeit einer schaltflächenfreien Interaktion in der virtuellen Realität VR zu ermöglichen.
Hierzu ist das System 2 dazu ausgebildet einen Spracheingabe-Datensatz SED des Nutzers 4, z.B. mit einem Mikrofon, das dem als Virtual-Reality-Headset oder Head-Mounted Display ausgebildeten Ausgabegerät 6 zugeorndet ist, zu erfassen und das trainierte neuronalen Netz 22 mit dem erfassten Spracheingabe-Datensatz SED zu beaufschlagen. Während es sich bisher bei dem Eingabe-Datensatz EDS um einen 4D-Datensatz handelt, handelt es sich hier um einen Audio-Datensatz.
Es wird dann mit dem System 2 eine vorbestimmte Spracheingabe SE mit dem trainierten neuronalen Netz 22 bestimmt und einem weiteren vorbestimmten Bedienbefehl, im vorliegenden Ausführungsbeispiel den Bedienbefehl BB4, zu der bestimmten Spracheingabe SE zugeordnet.
Mit den Spracheingaben SE kann eine Verifikation der Bewegungs-Gesten G1, G2, G3 erfolgen, z.B. wenn sie nicht eindeutig bestimmt werden können, oder eine Eingabe des Bedienbefehls BB4, der z.B. eine Auswahl eines Bildes, Icons oder eines anderen Symbols der Karussell-Darstellung 12 bewirkt.
Es wird nun unter zusätzlicher Bezugnahme auf die 3 das künstliche neuronale Netz 22 des Gestenerfassungs-Moduls 18 erläutert.
Im trainierten Zustand wird das künstliche neuronale Netz 18 eingangsseitig mit dem Eingabe-Datensatz EDS und/oder dem Spracheingabe-Datensatz SED beaufschlagt und stellt ausgangsseitig die Bedienbefehle BB1, BB2, BB3, BB4 bereit.
Das künstliche neuronale Netz 22 kann eingangsseitig ein faltendes neuronales Netz 24 (englisch: CNN - convolutional neuronal network) zur Klassifizierung mit einem oder mehreren convolutional layer 26 und von einem pooling layer 28 aufweisen. Auf das faltende neuronale Netz 24 kann ein weiteres, künstliches, mehrschichtiges bzw. tiefes neuronales Netz 30 folgen, mit einer Eingangsschicht 32, mehreren Zwischenschichten 34 und einer Ausgangsschicht 36. Das mehrschichtige neuronale Netz 30 kann ein rekurriertes neuronales Netz (englisch: RNN - recurrent neural network) sein.
Als rekurrente neuronale Netze (RNN - recurrent neural network) werden künstliche neuronale Netze bezeichnet, die sich im Gegensatz zu Vorwärts-Netzen (englisch: feedforward neuronal network) durch Verbindungen von Neuronen einer Schicht zu Neuronen derselben oder einer vorangegangenen Schicht auszeichnen.
Das künstliche neuronale Netz 22 wird vor seiner Inbetriebnahme während einer Trainingsphase mit Trainings-Datensätzen beaufschlagt. Z.B. mittels dem Verfahren der Fehlerrückführung (englisch: backpropagation oder auch backpropagation of error) erfolgt ein Einlernen des künstlichen neu-ronalen Netzes 22 durch Änderung von Gewichtsfaktoren der künstlichen Neuronen des künstlichen neuronalen Netzes 22 um eine möglichst zuverlässige Abbildung von gegebenen Eingabevektoren auf gegebene Ausgabevektoren zu erreichen. Ferner kann das künstliche neuronale Netz 22, insbesondere das mehrschichtige neuronale Netz 30, ein langes Kurzzeitgedächtnis (englisch: LSTM - long short-term memory) aufweisen, um die Trainingsergebnisse zu verbessern.
Abweichend vom vorliegenden Ausführungsbeispiel kann das künstliche neuronale Netz 22 auch als bidirektionales rekurrentes neuronales Netz (BRNN - bidirectional recurrent neural networks) ausgebildet sein.
Bidirektionale rekurrierende neuronale Netze verbinden zwei verborgene Schichten in entgegengesetzter Richtung mit demselben Ausgang. Mit dieser Form des Trainings kann die Ausgabeschicht gleichzeitig Informationen aus vergangenen (rückwärts) und zukünftigen (vorwärts) Zuständen erhalten. So kann die Menge der dem künstlichen neuronalen Netz zur Verfügung stehenden Eingangsinformationen erhöht werden. Bidirektionale rekurrierende neuronale Netze erlauben eine Berücksichtigung eines Kontextes der Eingabedaten. Bei bidirektionalen rekurrenten neuronalen Netzen sind die Neuronen eines regulären rekurrenten neuronalen Netzes in zwei Richtungen aufgespaltet, eine für die positive Zeitrichtung (Vorwärtszustände) und eine für die negative Zeitrichtung (Rückwärtszustände). Der Ausgang dieser beiden Zustände ist nicht mit Eingängen der Zustände in entgegengesetzter Richtung verbunden. Durch die Verwendung von zwei Zeitrichtungen können Eingangsinformationen aus der Vergangenheit und der Zukunft des aktuellen Zeitrahmens verwendet werden, im Gegensatz zum normalen rekurrenten neuronalen Netzen. Bidirektionale rekurrente neuronale Netze können mit ähnlichen Algorithmen wie rekurrente neuronale Netze trainiert werden, da die beiden Richtungsneuronen keine Interaktionen haben. Wenn jedoch Back-Propagation angewendet wird, sind zusätzliche Prozesse erforderlich, da die Aktualisierung der Input- und Output-Schichten nicht gleichzeitig erfolgen kann. Allgemeine Verfahren für das Training sind wie folgt: Beim Vorwärtsdurchgang werden zuerst Vorwärtszustände und Rückwärtszustände durchlaufen, dann werden die Ausgangsneuronen durchlaufen. Beim Rückwärtsdurchlauf werden zuerst die Ausgangsneuronen, dann die Vorwärts- und Rückwärtszustände durchlaufen. Nachdem Vorwärts- und Rückwärtsdurchläufe durchgeführt wurden, werden die Gewichte aktualisiert.
Es wird nun unter zusätzlicher Bezugnahme auf 4 ein Verfahren zum Betrieb des in den 1 und 2 sowie 3 gezeigten Systems 2 erläutert.
In einem ersten Schritt S100 wird der Eingabe-Datensatz EDS indikativ für eine Bewegungs-Geste G1, G2, G3 des Nutzers 4 erfasst.
Bei der Bewegungs-Geste G1, G2, G3 kann es sich um einen Wechsel von Flexion zu Extension oder umgekehrt einer Hand 8a, 8b des Nutzers 4 und/oder um ein Wechseln von Supination zu Pronation oder umgekehrt der Hand 8a, 8b des Nutzers 4 handeln.
In einem weiteren Schritt S200 wird das trainierte neuronale Netz 22 mit dem erfassten Eingabe-Datensatz EDS beaufschlagt.
In einem weiteren Schritt S300 wird die vorbestimmten Geste G1, G2, G3 mit dem trainierten neuronalen Netz 22 bestimmt.
In einem weiteren Schritt S400 wird der vorbestimmten Bedienbefehls BB1, BB2, BB3der bestimmten Geste G1, D2, G3 zugeordnet.
So kann mit der Geste G1, G2, G3 die Karussell-Darstellung 12 in der virtuellen Realität VR ansteuert werden und/oder es kann eine virtuelle Armbanduhr oder Smartwatch am Handgelenk 10 des Nutzers 4 aktiviert werden.
In einem weiteren Schritt S500 wird eine Spracheingabe-Datensatz SED des Nutzers 4 erfasst.
In einem weiteren Schritt S600 wird das trainierte neuronale Netz 22 mit dem erfassten Spracheingabe-Datensatz SED beaufschlagt.
In einem weiteren Schritt S700 wird eine vorbestimmte Spracheingabe SE mit dem trainierten neuronalen Netz 22 bestimmt.
In einem weiteren Schritt S800 wird ein vorbestimmter Bedienbefehl BB4 der bestimmten Spracheingabe SE zugeordnet.
Mit den Spracheingaben SE kann eine Verifikation der Bewegungs-Gesten G1, G2, G3 erfolgen, z.B. wenn sie nicht eindeutig bestimmt werden können, oder eine Eingabe des Bedienbefehls BB4, der z.B. eine Auswahl eines Bildes, Icons oder eines anderen Symbols der Karussell-Darstellung 12 bewirkt.
Abweichend vom vorliegenden Ausführungsbeispiel kann die Reihenfolge der Schritte auch eine andere sein. Ferner können mehrere Schritte auch zeitgleich bzw. simultan ausgeführt werden. Des Weiteren können auch abweichend vom vorliegenden Ausführungsbeispiel einzelne Schritte übersprungen oder ausgelassen werden.
So kann eine schaltflächenfreie Interaktion in einer virtuellen Realität VR ermöglicht werden, wobei ein Nutzer 4 kein haptisches Feedback einer realen physikalischen Fläche in der virtuellen Realität VR vermisst.

Claims

Verfahren zur Interaktion in einer virtuellen Realität (VR), mit den Schritten: (S100) Erfassen eines Eingabe-Datensatzes (EDS) indikativ für eine Bewegungs-Geste (G1, G2, G3) eines Nutzers (4), (S200) Beaufschlagen eines trainierten neuronalen Netzes (22) mit dem erfassten Eingabe-Datensatz (EDS), (S300) Bestimmen einer vorbestimmten Geste (G1, G2, G3) mit dem trainierten neuronalen Netz (22), und (S400) Zuordnen eines vorbestimmten Bedienbefehls (BB1, BB2, BB3) zu der bestimmten Geste (G1, G2, G3).
Verfahren nach Anspruch 1, wobei die Geste (G1, G2) ein Wechseln von Flexion zu Extension oder umgekehrt einer Hand ((8a, 8b) des Nutzers (4) ist.
Verfahren nach Anspruch 2, wobei die Geste (G1, G2) eine Karussell-Darstellung (12) in der virtuellen Realität (VR) ansteuert.
Verfahren nach Anspruch 1, 2 oder 3, wobei die Geste (G3) ein Wechseln von Supination zu Pronation oder umgekehrt der Hand (8a, 8b) des Nutzers (4) ist.
Verfahren nach Anspruch 4, wobei die Geste (G3) eine virtuelle Armbanduhr oder Smartwatch am Handgelenk (10) des Nutzers (4) aktiviert.
Verfahren nach einem der Ansprüche 1 bis 5, mit den weiteren Schritten: (S500) Erfassen eines Spracheingabe-Datensatzes (SED) des Nutzers (4), (S600) Beaufschlagen des trainierten neuronalen Netzes (22) mit dem erfassten Spracheingabe-Datensatz (SED), (S700) Bestimmen einer vorbestimmten Spracheingabe (SE) mit dem trainierten neuronalen Netz (22), und (S800) Zuordnen eines vorbestimmten Bedienbefehls (BB4) zu der bestimmten Spracheingabe (SE).
Computerprogrammprodukt zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 6.
System (2) zur Interaktion in einer virtuellen Realität (VR), wobei das System (2) dazu ausgebildet ist einen Eingabe-Datensatz (EDS) indikativ für eine Bewegungs-Geste (G1, G2, G3) eines Nutzers (4) zu erfassen, ein trainiertes neuronales Netz (22) mit dem erfassten Eingabe-Datensatz (EDS) zu beaufschlagen, eine vorbestimmte Geste (G1, G2, G3) mit dem trainierten neuronalen Netz (22) zu bestimmen und einen vorbestimmten Bedienbefehl (BB1, BB2, BB3) zu der bestimmten Geste (G1, G2, G3) zuzuordnen.
System (2) nach Anspruch 8, wobei die Geste (G1, G2) ein Wechseln von Flexion zu Extension oder umgekehrt einer Hand ((8a, 8b) des Nutzers (4) ist.
System (2) nach Anspruch 9 , wobei das System (2) dazu ausgebildet ist auf die Geste (G1, G2) hin eine Karussell-Darstellung (12) in der virtuellen Realität (VR) anzusteuern.
System (2) nach Anspruch 8, 9 oder 10, wobei die Geste (G3) ein Wechseln von Supination zu Pronation oder umgekehrt der Hand ((8a, 8b) des Nutzers (4) ist.
System (2) nach Anspruch 11, wobei das System (2) dazu ausgebildet ist auf die Geste (G3) hin eine virtuelle Armbanduhr oder Smartwatch am Handgelenk (10) des Nutzers (4) zu aktivieren.
System (2) nach einem der Ansprüche 9 bis 12, wobei das System (2) dazu ausgebildet ist einen Spracheingabe-Datensatz (SED) des Nutzers (4) zu erfassen, das trainierte neuronale Netz (22) mit dem erfassten Spracheingabe-Datensatz (SED) zu beaufschlagen, eine vorbestimmte Spracheingabe (SE) mit dem trainierten neuronalen Netz (22) zu bestimmen und einen vorbestimmten Bedienbefehl (BB4) zu der bestimmten Spracheingabe (SE) zuzuordnen.
VR-Server (16) für ein System (2) nach einem der Ansprüche 8 bis 13.