DE102009031158A1

DE102009031158A1 - Vorrichtung und Verfahren zur Erkennung einer Zeigegeste eines Nutzers zur Interaktion mit einer Eingabefläche

Info

Publication number: DE102009031158A1
Application number: DE102009031158A
Authority: DE
Inventors: Alexander Schick; Florian Van De Camp; Rainer Stiefelhagen
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Karlsruher Institut fuer Technologie KIT
Priority date: 2009-06-30
Filing date: 2009-06-30
Publication date: 2011-01-05

Abstract

Beschrieben wird ein Konzept zur Erkennung einer Zeigegeste eines Nutzers (102) zur Interaktion des Nutzers mit einer Eingabefläche (104). Nachdem eine dreidimensionale Hülle (108) des Nutzers erfasst wurde, wird eine Position und/oder Orientierung eines die Zeigegeste repräsentierenden Teils (112) der dreidimensionalen Hülle relativ zu der Eingabefläche ermittelt, um eine Berührung der Eingabefläche oder ein Zeigen auf die Eingabefläche festzustellen.

Description

Die vorliegende Erfindung bezieht sich auf ein Konzept zur Interaktion, insbesondere zur berührungslosen Interaktion eines Nutzers mit einer Eingabefläche, wie es beispielsweise bei einer Interaktion mit großflächigen Eingabeflächen eingesetzt werden kann.
Bei einer Interaktion mit Eingabe- bzw. Anzeigeflächen (engt.: Displays) ist eine Berührung für einen Menschen eine natürliche Art und Weise mit der Eingabe-/Anzeigefläche zu interagieren. Eine technische Übersicht über Berührungssysteme bietet Schöning et al., „Multi-Touch Surfaces: A Technical Guide", Technical Report TOM-IO 833, Technical Reports of the Technical University of Munich, 2008. Bei einer der bekanntesten Berührungsanwendungen wird eine kapazitive Oberfläche verwendet, durch welche eine Berührung festgestellt werden kann. Derartige kapazitive Oberflächen eignen sich jedoch nicht für großflächige Displays, da sie entweder zu ungenau oder zu teuer werden. Außerdem ist hier natürlich nur eine Berührung detektierbar, jedoch keine berührungslose Zeigegeste.
Bei einer weiteren bekannten Anwendung wird eine Berührung über Infrarottechniken festgestellt. Eine ebenfalls sehr bekannte Arbeit in Multi-Touch-Bereich stammt von Jefferson Y. Han, welcher den „Frustrated Total Internal Reflection (FITR)"-Effekt benutzt, um eine Berührung festzustellen („Low-Cost Multi-Touch Sensing through Frustrated Total Internal Reflection", J. Y. Han, UIST 2005). Infrarotbasierte Verfahren haben jedoch den Nachteil, dass Sie Einschränkungen für das Display mit sich bringen, z. B. indem eine Infrarot-Kamera hinter dem Display angebracht werden muss. Außerdem kämpfen diese Verfahren in der Praxis oft mit Beleuchtungsproblemen, da eine starke Beleuchtung, wie sie für das Arbeiten eigentlich auch erwünscht ist, Störungen verursachen kann.
Eine videobasierte Lösung ist in Peltonen et al., „It's Mine, Don't Touch!: Interactions at a Large Multi-Touch Display in a City Centre", CHI 2008, beschrieben. Hier wurde ein großflächiges Display, das sich in einem Schaufenster befand, mit einem Berührungsinterface ausgestattet. Bei diesem und anderen bekannten videobasierten Ansätzen ist eine Interaktion jedoch auf Berührung der Eingabefläche beschränkt. Das reicht jedoch bei sehr großen Displays nicht aus, da nicht jede Stelle berührt werden kann. Zudem werden auch hier Infrarot-Filter für Kameras verwendet.
Eine weitere Interaktionsmöglichkeit benutzt den sog. Hover-Effekt. Dieser erlaubt eine Bestimmung eines Abstandes einer Hand eines Nutzers zur Eingabefläche. Dadurch können beispielsweise Objekte auf einem Display durch „Herausziehen” manipuliert werden. Diese Technik erfordert aber, dass sich die Hand vor der Stelle befindet, in der die Interaktion, d. h., der Hover-Effekt, ausgeführt werden soll. Dies reicht jedoch nicht aus, um Stellen zu erreichen, welche außerhalb der Reichweite des Benutzers liegen.
Es gibt also zahlreiche Fälle, in denen eine intuitive Interaktion zwar wünschenswert ist, sich aber nicht realisieren lässt, wie beispielsweise bei sehr großen Eingabeflächen, bei denen Bereiche außerhalb der Reichweite eines Nutzers liegen. In den letzten Jahren sind großflächige Anzeigenflächen bzw. Displays verfügbarer geworden und haben mehr und mehr Aufmerksamkeit in der Öffentlichkeit erlangt. Dabei werden sie nicht mehr nur in Kontrollräumen oder Action Filmen vorgefunden, sondern ebenso an öffentlichen Orten wie Einkaufszentren oder sogar in privaten Haushalten. Selbst wenn derartige große Displays über eine Berührungsfunktionalität verfügten, wäre es für einen Nutzer u. U. nicht möglich, jeden Bereich eines großflächigen Displays durch Berührung zu erreichen.
Eine weitere Schwäche bisheriger Ansätze ist eine Beschränkung auf lediglich zweidimensionale Eingabe-/Anzeigeflächen. In der Regel berechnen bekannte Systeme lediglich Projektionen auf ein 2D-Display.
Basierend auf dem bekannten Stand der Technik und dessen beschriebenen Nachteilen besteht die Aufgabe der vorliegenden Erfindung darin, ein Interaktionskonzept für großflächige Eingabeflächen bereitzustellen, mit welchem eine Berührung fließend in eine berührungslose Zeigegeste, und umgekehrt, übergehen kann.
Diese Aufgabe wird durch eine Vorrichtung mit den Merkmalen des Patentanspruchs 1 sowie ein Verfahren gemäß Patentanspruch 13 gelöst.
Ausführungsbeispiele der vorliegenden Erfindung stellen ein Konzept bereit, das nicht zwischen berührungslosen Zeigegesten und Berührungen unterscheidet, sondern dass beide Alternativen gleichzeitig mittels derselben erfindungsgemäßen Technik unterstützt. Dazu wird eine Situation bzw. eine Szene vor einer (großflächigen) Eingabe-/Anzeigenfläche komplett wahrgenommen, um daraus eine dreidimensionale Hülle eines interagierenden Nutzers oder mehrerer interagierender Nutzer, die sich vor der Eingabefläche befinden, zu rekonstruieren. Dabei sind insbesondere die Teile der dreidimensionalen Hülle, die ihren dreidimensionalen Hand- und/oder Armpositionen entsprechen, von Interesse. Bei den so erhaltenen dreidimensionalen Daten liegt der Unterschied zwischen Berührung und Zeigegeste lediglich in der Entfernung eines einer Berührung und/oder Zeigegeste entsprechenden Teils der dreidimensionalen Hülle relativ zu der Eingabefläche.
Ausführungsbeispiele der vorliegenden Erfindung schaffen dazu eine Vorrichtung zur Erkennung einer Zeigegeste eines Nutzers zur Interaktion des Nutzers mit einer Eingabefläche, mit einer Einrichtung zum Erfassen einer dreidimensionalen Hülle des Nutzers und einer Einrichtung zum Ermitteln einer Position und/oder Orientierung eines die Zeigegeste repräsentierenden Teils der dreidimensionalen Hülle relativ zu der Eingabefläche, um eine Berührung der Eingabefläche oder ein Zeigen auf die Eingabefläche festzustellen.
Andere Ausführungsbeispiele der vorliegenden Erfindung schaffen ein Verfahren zur Erkennung einer Zeigegeste eines Nutzers zur Interaktion des Nutzers mit einer Eingabefläche, mit einem Schritt des Erfassen einer dreidimensionalen Hülle des Nutzers und einem Schritt des Ermitteln einer Position und/oder Orientierung eines die Zeigegeste repräsentierenden Teils der dreidimensionalen Hülle relativ zu der Eingabefläche, um eine Berührung der Eingabefläche oder ein Zeigen auf die Eingabefläche festzustellen.
Zum Erfassen der dreidimensionalen Hülle des Nutzers vor der Eingabe-/Anzeigefläche können gemäß Ausführungsbeispielen mehrere Kameras eingesetzt werden, um eine Mehrzahl von Videobildern des Nutzers und des ihm umgebenden Raums aus jeweils unterschiedlichen Perspektiven zu erfassen. Die dreidimensionale Hülle des Nutzers kann dann basierend auf einer Vorder-/Hintergrundsegmentierung der aus den unterschiedlichen Perspektiven erfassten Videobilder bestimmt werden. D. h., aus den erfassten Videobildern des Nutzers werden sog. Silhouetten- oder Binärbilder des Nutzers aus verschiedenen Perspektiven erzeugt. Mit Hilfe dieser Binärbilder kann dann ein sog. „Voxel-Carving” für die Rekonstruktion der 3D-Hülle des Nutzers eingesetzt werden. Dabei werden Voxel, die nicht zum Vordergrund gehören, entfernt. Der Begriff Voxel wird in der 3D-Computergrafik verwendet und setzt sich aus den Wörtern „volumetrisch” und „Pixel” (Bildelement) zusammen. Bei einem räumlichen Datensatz, der in diskretisierter Form in kartesischen Koordinaten vorliegt, bezeichnet ein Voxel einen diskreten Wert an einer (x, y, z)-Koordinate des Datensatzes. Bei dieser Definition handelt es sich um das dreidimensionale Äquivalent eines Pixels. Somit hat ein Voxel keine bestimmte Form. Man spricht hier auch vom isotropen Voxel oder „Volumenpixel”.
Wurde auf diese Weise die dreidimensionale Hülle aus der dreidimensionalen Voxel- bzw. Punktwolke gebildet, so kann daraufhin der die Zeigegeste repräsentierende Teil der dreidimensionalen Hülle basierend auf einem der Eingabe-/Anzeigefläche am nächsten liegenden Teil der dreidimensionalen Hülle bestimmt werden. Dabei beschreibt der die Zeigegeste repräsentierende Teil der dreidimensionalen Hülle gemäß Ausführungsbeispielen beispielsweise einen Arm bzw. eine Hand eines Nutzers, da diese für die Interaktion besonders wichtig sind. Gemäß weiteren Ausführungsbeispielen könnte der die Zeigegeste repräsentierende Teil beispielsweise auch einen Zeigestab oder ähnliche Hilfsmittel beschreiben.
Nachdem der die Zeigegeste repräsentierende Teil der dreidimensionalen Hülle, also beispielsweise eine Hand oder ein Arm, detektiert wurde, kann gemäß Ausführungsbeispielen durch die diesen Teil beschreibende Voxel- bzw. Punktwolke der 3D-Hülle eine Regressions- bzw. Ausgleichsgerade gelegt werden, um eine Orientierung bzw. Richtung der Zeigegeste zu ermitteln. Liegt eine ermittelte Position der Hand nicht auf der Oberfläche der Eingabefläche, so kann ein Interaktionspunkt des Nutzers mit der Eingabefläche gemäß Ausführungsbeispielen durch einen Schnittpunkt der Ausgleichsgeraden durch den die Hand bzw. den Arm repräsentierenden Teil der dreidimensionalen Hülle mit der Oberfläche der Eingabefläche ermittelt werden. Liegt die ermittelte 3D-Position der Hand jedoch beispielsweise direkt auf der Eingabe-/Anzeigefläche, so ergibt sich der Interaktions- bzw. Berührungspunkt direkt durch die 3D-Koordinaten der Hand oder eines Teils der Hand (z. B. Fingerspitze).
Ausführungsbeispiele der vorliegenden Erfindung ermöglichen also einen fließenden Übergang zwischen einer Berührung einer Eingabe-/Anzeigefläche und einer Zeigegeste auf die Eingabe-/Anzeigefläche, indem beide Interaktionsvarianten durch das gleiche Konzept detektiert werden. Dabei sind Ausführungsbeispiele beispielsweise nicht auf Displays beschränkt. Jede beliebige Oberfläche kann mit der erfindungsgemäßen Technik ausgestattet werden. Kameras oder andere Bildsensoren können beliebig um die Eingabe-/Anzeigefläche herum angebracht werden, solange es jeweils mindestens eine Überschneidung der Sichtkegel der Kameras bzw. Bildsensoren gibt. Eine Modifikation der Eingabefläche bzw. des Displays selbst ist nicht erforderlich. Durch Hinzufügen zusätzlicher Kameras und/oder durch eine Erhöhung der Auflösung der Kameras kann eine Qualität flexibel verbessert werden. Die Größe der Eingabefläche unterliegt dabei keiner Beschränkung.
Ausführungsbeispiele der vorliegenden Erfindung erlauben eine Interaktion einer beliebigen Anzahl von Nutzern mit der Eingabefläche, wobei jeder Nutzer gleichzeitig mit beiden Händen bzw. Armen interagieren kann (Multi-Touch bzw. Multi-Point). Sowohl Berührungen als auch ein Ziel bzw. Interaktionspunkt einer Zeigegeste auf der Eingabefläche können durch das Vorliegen von 3D-Daten zuverlässig und korrekt berechnet werden.
Im Gegensatz zu herkömmlichen infrarotbasierten Systemen, wird die erfindungsgemäße Technik durch eine starke Beleuchtung nicht belastet. Ebenso ist das erfindungsgemäße Konzept nicht auf texturierte Oberflächen angewiesen.
Durch die Möglichkeit des Einsatzes von herkömmlichen Videokameras und Standardhardware ist ein erfindungsgemäßes System zum Erkennen von Berührungen und/oder Zeigegesten auch kostengünstig realisierbar.
Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezugnehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
1 ein Blockdiagramm einer Vorrichtung zur Erkennung einer Zeigegeste eines Nutzers gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
2 eine Draufsicht eines von mehreren Kameras erfassten Nutzers, welcher auf eine Eingabefläche zeigt;
3 ein Kamerabild und eine dazugehörende Vordergrundsegmentierung;
4 ein Kamerabild und eine dazugehörende Voxel-Darstellung einer 3D-Hülle;
5a eine schematische Darstellung einer Interaktion mit einer Eingabefläche durch Berührung und durch eine Zeigegeste;
5b eine schematische Darstellung einer gleichzeitigen Interaktion mit einer Eingabefläche durch Berührung und durch Zeigegesten mehrerer Benutzer unter Verwendung beider Arme;
5c eine schematische Darstellung einer Interaktion über mehrere Zeitschritte, wie sie durch Ausführungsbeispiele der vorliegenden Erfindung ermöglicht werden kann; und
6 eine schematische Darstellung von Start- und Endpunkten von verschiedenen Zeigerichtungen.
1 zeigt schematisch, gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, eine Vorrichtung 100 zur Erkennung einer Berührung und/oder einer Zeigegeste eines Nutzers 102 zur Interaktion des Nutzers mit einer Eingabefläche 104.
Die Vorrichtung 100 umfasst dazu eine Einrichtung 106 zum Erfassen einer dreidimensionalen Hülle 108 des Nutzers 102. Ferner umfasst die Vorrichtung 100 eine Einrichtung 110 zum Ermitteln einer Position und/oder Orientierung eines die Zeigegeste repräsentierenden Teils 112 der dreidimensionalen Hülle 108 relativ zu der Eingabefläche 104, um eine Berührung der Eingabefläche 104 oder ein Zeigen auf die Eingabefläche 104 festzustellen.
Die Erzeugung der dreidimensionalen Hülle 108 des Nutzers 102 kann dabei auf verschiedene Weisen realisiert werden. Beispielsweise können dazu sog. „Time-Of-Flight”-Kameras oder Stereokameras eingesetzt werden.
TOF-Kameras sind 3D-Kamerassysteme, die mit einem Laufzeitverfahren (TOF = time of flight) Distanzen messen. Dazu wird eine Szene mittels eines Lichtpulses ausgeleuchtet und die Kamera misst für jeden Bildpunkt die Zeit, die das Licht bis zum Objekt und wieder zurück braucht. Die benötigte Zeit ist direkt proportional zur Distanz. Eine TOF-Kamera liefert somit für jedem Bildpunkt die Entfernung des darauf abgebildeten Objekts.
Stereo-Kameras besitzen in der Regel zwei oder mehr nebeneinander angebrachte Objektive und ermöglichen beim Auslösen eine gleichzeitige Aufnahme der für 3D-Bilder erforderlichen beiden stereoskopischen Halbbilder. Die Belichtungssteuerung und Schärfeneinstellung beider Objektive sind gekoppelt.
Gemäß einem bevorzugten Ausführungsbeispiel wird jedoch eine Mehrzahl herkömmlicher Videokameras verwendet, um eine Mehrzahl von Videobildern des Nutzers 102 und des ihn umgebenden Raums aus jeweils unterschiedlichen Perspektiven zu erfassen, wobei sich Sichtkegel der Kameras wenigstens einmal überschneiden. D. h., die Einrichtung 106 zum Erfassen der dreidimensionalen Hülle 108 des Nutzers umfasst gemäß einem Ausführungsbeispiel eine Mehrzahl von Videokameras, den Nutzer 102 vor der Eingabefläche 104 aufzuzeichnen.
Ein Draufsicht eines entsprechenden Szenarios eines Nutzers 102 vor einer Eingabefläche 104 ist schematisch in 2 dargestellt.
Die Situation vor der Eingabefläche 104 wird durch Videokameras 202-n (n = 1, ..., 4), deren Sichtkegel sich überschneiden, komplett wahrgenommen. Um die dreidimensionale Hülle 108 des Nutzes 102 zu ermitteln, werden für jede Kamera 202-n (n = 1, ... 4) Silhouetten- bzw. Binärbilder S_j basierend auf einer Vorder-/Hintergrundsegmentierung berechnet. D. h., die Einrichtung 106 zum Erfassen der dreidimensionalen Hülle 108 des Nutzers ist angepasst, um die dreidimensionale Hülle 108 basierend auf einer Vorder-/Hintergrundsegmentierung der aus den unterschiedlichen Perspektiven erfassten Videobilder zu bestimmen, um unterschiedliche zweidimensionale Silhouttenbilder des Nutzers 102 zu erhalten. Ein Videobild 302 eines Nutzers 102 vor einer Eingabefläche 104 und ein dazugehöriges Silhouttenenbild 304 des Nutzers sind beispielhaft in 3 dargestellt.
Basierend auf den so erhaltenen Silhouetten- bzw. Binärbildern des Nutzers 102 kann darauffolgend die 3D-Hülle 108 gemäß einem Ausführungsbeispiel mittels des sog. Voxel-Carving berechnet werden. Voxel-Carving ist eine Möglichkeit, um eine 3D-Struktur oder eine visuelle Hülle von Vordergrundobjekten zu berechnen. Dazu, wird zunächst angenommen, dass der gesamte Raum vor der Eingabefläche 104 in eine bestimmte Anzahl von Voxeln unterteilt ist, die zusammen ein kubisches Gitter mit k ∊ IN Voxeln entlang jeder Achse, d. h. insgesamt k³ Voxeln bilden. Ein Voxel ist dabei ein volumetrischer Pixel oder ein 3D-Würfel mit einer Kantenlänge c, so dass bei einem räumlichen Datensatz, der in diskreter Form in kartesischen Koordinaten vorliegt, ein Voxel einen diskreten Wert an einer (x, y, z)-Koordinate des Datensatzes bezeichnet.
Bei Voxel-Carving besteht die Idee darin, jeden Voxel, der nicht zum Bildvordergrund gehört, zu entfernen. Um dies zu bewerkstelligen, wird für jedes der unterschiedlichen Kamerabilder eine binäre Vordergrund-/Hintergrund-Segmentierung berechnet, wie es im Vorhergehenden bereits erläutert wurde. Dann wird ein 3D-Voxel auf jedes der daraus resultierenden zweidimensionalen Binärbilder projiziert. Falls der projizierte Voxel bei wenigstens einem der unterschiedlichen Binärbilder auf den jeweiligen Bildhintergrund fällt, wird er entfernt. Ansonsten gehört er zum Bildvordergrund und wird beibehalten. Diese Vorgehensweise ist vergleichbar mit der Arbeit eines Bildhauers, der kleine Stücke eines Steinblocks entfernt, bis die fertige Statue übrig bleibt. 4 zeigt dazu ein Kamerabild 402 eines Nutzers 102 zusammen mit der daraus durch Voxel-Carving berechneten dreidimensionalen Hülle 108 des Nutzers 102.
Bezeichnet man S_j ∊ IN₀ als denjenigen Satz von Bildpunkten, die Teil der Silhouette in Kamerabild j sind und bezeichnet man p_j: V → IN₀ × IN₀ als die Projektion vom Voxelraum V in die Bildebene des Silhouettenbilds, lässt sich die dreidimensionale Hülle H ∊ V als Satz derjenigen Voxel x beschreiben, die sich auf die Silhouettenpixel man S_j für jedes Silhouettenbild projizieren lassen: H = {x ∊ V|∀ j: p_j(x) ∊ S_j). (1)
Obwohl auch andere Verfahren zur Bestimmung der dreidimensionalen Hülle 108 eingesetzt werden können, bietet Voxel-Carving einige Vorteile. Hinsichtlich des Rechenaufwands ist Voxel-Carving erstens linear proportional zu einer Anzahl verwendeter Kameras 202. Daher können ihre Zahl und ihre Positionen variiert werden, um ein erfindungsgemäßes System an beliebige Displaygrößen anzupassen und, um vorgegebenen Genauigkeitsanforderungen gerecht zu werden. Des Weiteren sind nachfolgende Verfahrensschritte lediglich von der 3D-Hülle 108 abhängig und damit unabhängig von der Anzahl der verwendeten Kameras. Zweitens, steigt eine Robustheit des erfindungsgemäßen Konzepts mit der Anzahl von Voxeln im Voxelraum V, da jeder Voxel als ein Abtastwert betrachtet werden kann. Drittens, erlauben die 3D-Voxel-Daten in Verbindung mit bekannten 3D-Koordinaten der Eingabefläche 104 nicht nur Rückschlüsse dahingehend, ob der Nutzer 102 mit der Eingabefläche 104 interagiert, sondern sie ermöglichen ebenso eine direkte Bestimmung eines Interaktionspunkts des Nutzers 102 mit der Eingabefläche 104, d. h. einen Ort, an dem der Nutzer 102 mit der Eingabefläche 104 interagiert. Dies wird im Nachfolgenden näher erläutert.
Nachdem zumindest ein Großteil der Voxel des Voxelraums V entfernt wurde, werden die verbleibenden Voxel der 3D-Hülle 308 analysiert, um eine Berührung und/oder eine Zeigegeste des Nutzers 102 zu detektieren. Insbesondere soll festgestellt werden, wo die Eingabefläche 104 berührt wird bzw. in welche Richtung der Nutzer 102 auf die Eingabefläche 104 zeigt. Gemäß Ausführungsbeispielen ist es für beide Modi ausreichend, den Teil 112 der dreidimensionalen Hülle 108 zu erkennen, der die Zeigegeste repräsentiert, wie beispielsweise einen Arm oder einen Zeigestab des Nutzers 102. Während einer Interaktion ist dieser Teil 112 immer näher zu der Eingabefläche 104 als der Rest des Körpers, wie es aus den beiliegenden Figuren leicht ersichtlich ist. Daher werden gemäß einem Ausführungsbeispiel die Voxel der 3D-Hülle 108 hinsichtlich ihrer Distanz zu der Eingabefläche 104 sortiert. D. h., die Einrichtung 110 zum Ermitteln der Position und/oder Orientierung ist angepasst, den die Zeigegeste repräsentierenden Teil 112 der dreidimensionalen Hülle 108 basierend auf einem der Eingabefläche am nächsten liegenden Teil der dreidimensionalen Hülle 108 zu bestimmen.
Daraufhin werden dem Teil 112 entsprechende Voxel- oder Punktwolken in einer Richtung von der Eingabefläche 104 weg gebildet. Diese Punktwolken müssen nicht notwendigerweise an der Oberfläche der Eingabefläche 104 beginnen, sondern Sie können auch in einer beliebigen Entfernung davon anfangen (wie z. B. bei einer Zeigegeste).
Es seien u, v ∊ H zwei Voxel und d(u, v) ihre euklidische Distanz. Zwei Voxel sind dann direkte Nachbarn, falls d(u, v) = c, wobei c die Kantenlänge eines Voxels bedeutet. Zwei Voxel sind durch einen Pfad p verbunden, falls
Gl. (2) bedeutet also, dass ein Pfad zwischen zwei Voxeln u und v dann gegeben ist, wenn sie entweder direkte Nachbarn (d(u, v) = c) sind, oder, falls ein Voxel w als Teil der dreidimensionalen Hülle H existiert, über welches die beiden Voxel u und v indirekt miteinander verbunden sind (p(u, w) ∧ p(w, v) = true). D. h., es existiert ein direkter Pfad zwischen u und w, und es existiert ein direkter Pfad zwischen w und v, so dass u und v über w miteinander verbunden sind.
Zwei Voxel gehören dann und nur dann zu derselben Punkt– bzw. Voxelwolke C_u wenn ein Pfad zwischen ihnen vorhanden ist: C_u = {x ∊ H|p(x, u)) (3)
Durch diese Vorgehensweise kann eine sehr genaue Punktwolkenbildung ermöglicht werden. Selbst eine Detektion von gekreuzten Armen kann so möglich sein. Da gemäß Ausführungsbeispielen der die Zeigegeste repräsentierende Teil 112 der dreidimensionalen Hülle 108 eine Extremität, insbesondere einen Arm, des Nutzers 102 beschreibt, werden die die Zeigegeste repräsentierenden Punktwolken auf eine vorgegebene Länge beschränkt. Punktwolken, die keinen Armen entsprechen, können detektiert werden, indem ihre Länge und Dicke analysiert wird. Die Punktwolken bzw. Cluster können auf eine vorgegebene maximale Länge beschränkt werden, so dass beispielsweise lediglich Arme geclustert werden anstatt der ganzen Person.
Nachdem der die Zeigegeste repräsentierende Teil 112 der dreidimensionalen Hülle, d. h. beispielsweise ein einen Arm repräsentierendes Voxelcluster, ermittelt wurde, wird der Teil 112 der dreidimensionalen Hülle analysiert, um eine Richtung bzw. Orientierung der Zeigegeste herauszufinden. Beispielsweise könnte die Eingabefläche 104 in der x-z-Ebene liegen und orthogonal zur y-Achse des Koordinatensystems sein, wie es in 2 angedeutet ist. Die die Zeigegesten ausführende Arme, und deshalb auch der die Zeigegeste repräsentierende Teil 112 der dreidimensionalen Hülle 108, haben stets eine Richtungskomponente in Richtung der Eingabefläche 104 entlang der y-Achse. Die Verteilung der Voxel entlang der x- und z-Achse (Breite, Höhe) sind unabhängig voneinander. Sie hängen lediglich von der y-Achse ab und sind mit den y-Werten linear korreliert. Zeigt ein Arm beispielsweise zu einer unteren rechten Ecke der Anzeigefläche 104, nehmen die x-Werte zu und die z-Werte ab, während man sich entlang der y-Achse in Richtung des Displays 104 bewegt. Daher kann die Orientierung bzw. Richtung der Zeigegeste im dreidimensionalen Raum mittels einer zweifachen linearen Regression (x – y und z – y) analysiert werden. Gemäß Ausführungsbeispielen ist die Einrichtung 106 zum Ermitteln der Position und/oder Orientierung also angepasst, die Orientierung bzw. Richtung des die Zeigegeste repräsentierenden Teils 112 der dreidimensionalen Hülle 108 basierend auf einer Regressions- bzw. Ausgleichsgeraden durch die Voxel bzw. Punkte des die Zeigegeste repräsentierenden Teils 112 zu bestimmen.
Die lineare Regression passt perfekt zu der voxelbasierten Vorgehensweise, da jedes Voxel einen Abtastwert der 3D-Hülle 108 repräsentiert. Außerdem gehört lineare Regression zu der Gruppe von BLUE-Schätzern (BLUE = Best Linear Unbiased Estimator) und ist daher optimal. Eine dreidimensionale Regressionsgerade kann durch eine Kombination der beiden zweidimensionalen Regressionsgeraden x = a₁y + b₁ und z = a₂y + b₂ erhalten werden. Da sämtliche Voxel bzw. Abtastwerte einer der Zeigegeste entsprechenden Voxel- bzw. Punktwolke 112 zu dieser Ausgleichsgeraden beitragen, ist sie für eine Repräsentation der gesamten Punktwolke bzw. des gesamten Clusters 112 ausreichend.
Ein Interaktionspunkt des Nutzers 102 mit der Eingabefläche 104, d. h., entweder ein Berührungspunkt oder ein Punkt auf der Eingabefläche 104, auf den gezeigt wird, ergibt sich beispielsweise durch einen Schnittpunkt der Ausgleichsgeraden gemäß Gl. (4) mit der Oberfläche der Eingabefläche 104. Aufgrund der bekannten Position und Abmessungen der Eingabefläche bzw. des Displays 104 sowohl in 3D- als auch in Pixelkoordinaten, kann der dreidimensionale Schnittpunkt unmittelbar in zweidimensionale Pixelkoordinaten umgerechnet werden. Gemäß einem Ausführungsbeispiel ist die Einrichtung 106 zum Ermitteln der Position und/oder Orientierung also angepasst, um einen berührungslosen Interaktionspunkt zwischen Nutzer 102 und Eingabefläche 104, basierend auf einem Schnittpunkt einer Ausgleichsgeraden mit der Eingabefläche 104 zu bestimmen. Gemäß einem weiteren Ausführungsbeispiel ist die Einrichtung 106 zum Ermitteln der Position und/oder Orientierung angepasst, um eine Berührung der Eingabefläche 104 zu detektieren, wenn eine Position eines der Eingabefläche am nächsten liegenden Teils 112 der dreidimensionalen Hülle 108 mit einer Position auf der Eingabefläche 104 übereinstimmt.
Mit dem erfindungsgemäßen Konzept ist es daher möglich, in jedem Videorahmen bzw. Videoframe einzelne Berührungen bzw. Zeiggesten des Nutzers 102 zu detektieren und auszuwerten.
Gemäß Ausführungsbeispielen können die einzelnen Berührungen bzw. Zeigegesten nachverfolgt bzw. getrackt werden, was verschiedenen Zwecken dienen kann. Erstens, ist es u. U. notwendig zu wissen, in welchem Interaktionszustand ein Arm ist. Aus diesem Grund kann der Bewegungsablauf des die Zeigegeste repräsentierenden Teils 112 der dreidimensionalen Hülle 108 nachverfolgt werden. Zweitens, ist ein Nachverfolgen wichtig, um kontinuierliche Interaktionen mit dem Display 104, wie beispielsweise die Bewegung eines Objekts entlang der Eingabefläche, zu ermöglichen. Drittens, kann die Nachverfolgung Schätzungen von Armbewegungen durch eine Filterung, insbesondere durch eine Tiefpassfilterung, verbessern. Dies ist deshalb wichtig, weil es fast unmöglich ist, einen Arm oder einen Zeigstab perfekt ruhig zu halten. Je weiter der Nutzer 102 von der Eingabefläche 104 entfernt ist, desto größer ist der Einfluss von selbst geringsten Bewegungen auf die Zeigerichtung auf das Display 104.
Das Nachverfolgen profitiert ebenfalls stark von dem erfindungsgemäßen Konzept unter Verwendung der 3D-Voxelcluster. Da diese 3D-Repräsentierung der Hülle 108 sehr robust und zumeist eindeutig ist, reduziert sich das Nachverfolgen auf ein Abgleichen von vergangenen, gemittelten Cluster, die einem vergangenen Zeigebewegungsablauf entsprechen, mit aktuellen Messungen, d. h. Cluster eines aktuellen Zeitpunktes, die einer aktuellen Zeigegeste entsprechen. Um eine Ähnlichkeit zwischen zwei Cluster festzustellen, wird gemäß Ausführungsbeispielen die euklidische Distanz zwischen den Start- und Endpunkten ihrer Zeigerichtung berechnet, so wie es schematisch in 6 gezeigt ist.
6 zeigt ein vergangenes, gemitteltes Cluster 612a und ein aktuelles Cluster 612b, das einer aktuellen Zeigegeste entspricht. Die Start- und Endpunkte einer Zeigerichtung 618a des vergangenen, gemittelten Clusters 612a sind mit den Bezugszeichen 614a, 616abezeichnet. Die Start- und Endpunkte einer Zeigerichtung 618b des aktuellen Clusters 612b sind mit den Bezugszeichen 614b, 616b bezeichnet. Zur Bestimmung der Zeigrichtung bzw. der Regressionsgeraden werden sämtliche Voxel der Cluster 612a, b berücksichtigt, da sie alle durch die oben beschriebene Regressionsanalyse beigetragen haben. Je kleiner die euklidische Distanz zwischen den beiden Ausgleichsgeraden ist, desto besser passen die zugehörigen Punktwolken bzw. Cluster 612a, b zueinander. Jedes vergangene, gemittelte Cluster 612a (Track) wird einem am besten passenden, d. h. dem am nächsten liegenden Cluster 612b zugewiesen. Falls einem Track 612a kein aktuelles Cluster 612b zu zugewiesen werden konnte, wird dieser Track entfernt. Falls ein besonders großes aktuelles Cluster 612b keinem Track 612a zugewiesen werden konnte, wird gemäß Ausführungsbeispielen ein neuer Track generiert. Multiple Zuweisungen zwischen aktuellen Cluster 612b und vergangenen, gemittelten Cluster, d. h. Tracks 612a, sind dabei nicht erlaubt.
Nachdem aktuelle Cluster 612b passenden vergangenen, gemittelten Cluster, d. h. Tracks 612a, zugewiesen wurden, können die Tracks aktualisiert werden. Sei t_τ-1 eine Ausgleichsgerade eines Tracks 612a, c_τ die Ausgleichsgerade eines aktuellen Clusters 612b und γ eine Aktualisierungsrate. Ein neues, gemitteltes Cluster bzw. neuer Track t bestimmt sich dann gemäß t_τ = (1 – γ)t_τ-1 + γc_τ. (5)
Gemäß Ausführungsbeispielen ist die Einrichtung 110 zum Ermitteln der Position und/oder Orientierung der Zeigegeste 112 also angepasst, um eine aktuelle Orientierung der Zeigegeste mittels einer gefilterten Ausgleichsgerade t_τ zu bestimmen, die basierend auf einer gefilterten vorhergehenden Ausgleichsgeraden t_τ-1 und einer aktuellen Ausgleichsgeraden c_τ durch Punkte des die Zeigegeste 112 repräsentierenden Teils der dreidimensionalen Hülle 108 berechnet wird. Gemäß Ausführungsbeispielen kann hier ein adaptives Filter benutzt werden, bei dem die Aktualisierungsrate γ variabel ist. Falls eine Zeigebewegung sehr schnell erfolgt, wird beispielsweise γ = 1 gewählt. Dies erlaubt schnelle Zeigebewegungen, ohne dass der Track der Zeigebewegung hinterherläuft. Falls ein Arm nur langsam oder leicht bewegt wird, wird der Track nur langsam aktualisiert. Sei m eine Magnitude bzw. Stärke der Zeigebewegung, dann ist gemäß Ausführungsbeispielen γ = 1 – 1/(1 + m). Dadurch wird eine stabile Interaktion ermöglicht, wenn ein Nutzer 102 seinen Arm stillhält (d. h. m = 0). Dies ist besonders wichtig für sehr feine und präzise Bewegungen.
Zeigegesten können in drei Phasen – Anfang, Halten und Ende – eingeteilt werden. Gemäß diesen drei Phasen, die ebenso für Berührungsgesten gelten, können für jeden Track bzw. Zeigbewegungsablauf drei Zustände definiert werden: Annäherung (A), Halten (H) und Zurückziehen (W). Jedem Zustand X kann ein Zuverlässigkeitswert P(X) zwischen 0 und 1 zugewiesen werden, wobei eine Summe über alle Zustandszuverlässigkeitswerte P(X) eines Tracks 1 ist. Ein neuer Track bzw. Zeigbewegungsablauf beginnt mit P(A) = 1. In jedem Frame wird einer der Zuverlässigkeitswerte um α erhöht, wo hingegen die anderen beiden Zuverlässigkeitswerte um β erniedrigt werden. Um zu gewährleisten, dass die Summe über alle Zuverlässigkeitswerte P(X) stets 1 ist, kann beispielsweise α = 2β gewählt werden. Aus diesem Grund bestimmt β, wie schnell es möglich ist, zwischen den drei Zuständen A, H, W hin- und her zu schalten. Welcher Zustandszuverlässigkeitswert erhöht wird, hängt von der Entfernung des Zeigbewegungsablaufs zu der Eingabefläche 104 ab. Falls sich die Entfernung verringert, wird der Zuverlässigkeitswert P(A) des Zustands A erhöht; falls sich die Entfernung der Zeigegeste erhöht, wird der Zuverlässigkeitswert P(W) des Zustands W erhöht; falls sich die Entfernung der Zeigegeste nicht geändert hat, wird der Zuverlässigkeitswert P(H) des Zustands H erhöht. Mit den beschriebenen drei Zuständen ist es beispielsweise möglich, ein Objekt zu berühren, indem man auf es zeigt und den Arm still hält, und das Objekt loszulassen, indem man den Arm zurückzieht. Dabei wird ein Zustandsübergang von A zu H als Berührung interpretiert. Der Zustand W bedeutet Loslassen. Gemäß Ausführungsbeispielen wird ein Objekt nur dann losgelassen, wenn ein Zustandsübergang zum Zustand W stattgefunden hat. Dies erlaubt beispielsweise ein Objekt zu aktivieren und es herumzubewegen.
Gemäß Ausführungsbeispielen handelt es sich bei dem erfindungsgemäßen Konzept also um ein rein videobasiertes Konzept um exakte 3D-Positionen von Armen und Händen, welche zur Interaktion mit einer Eingabefläche 104 benutzt werden, zu ermitteln. Durch diese Daten kann darauffolgend eine Interaktion des Nutzers 102 mit der Eingabefläche 104 ermöglicht werden. Eine Berührung findet genau dann statt, wenn die Hand das Display 104 berührt, was durch einen Abgleich der 3D-Positionen des die Zeigegeste repräsentierenden Teils 112 der dreidimensionalen Hülle 108 und der Eingabefläche 104 direkt ermittelt werden kann. Eine Zeigegeste liegt vor, wenn sich der Arm nahe genug am Display 104 befindet (auch dies ist über einen Abgleich der 3D-Positionen ermittelbar) und auf das Display zeigt. Der Interaktionspunkt kann durch einen Schnitt einer Geraden, welche durch den Arm bzw. den die Zeigegeste repräsentierenden Teil 112 der dreidimensionalen Hülle 108 beschrieben wird (Ausgleichsgerade), mit der Displayoberfläche 104 berechnet werden. Zusätzlich kann auch der Hover-Effekt realisiert werden, also das Schweben einer Hand vor oder über dem Display, da sich die Entfernung zum Display durch die 3D-Position der Hand ergibt.
Prinzipiell sind Ausführungsbeispiele der vorliegenden Erfindung auch geeignet, um komplizierte Zeigegesten zu erkennen. Durch eine Verfolgung der Arme und Hände über die Zeit können temporale Gesten erkannt werden, wie beispielsweise Wischbewegungen oder das Zeichnen eines Kreises. Durch eine höhere Auflösung und eine bessere Erkennung der einzelnen Finger ist auch die Erkennung detaillierter Handgesten möglich.
Wie eingangs bereits erwähnt wurde, können prinzipiell beliebige Verfahren verwendet werden, um die 3D-Position des die Zeigegeste repräsentierenden Teils 112 der dreidimensionalen Hülle 108 zu bestimmen. Gemäß einem bevorzugten Ausführungsbeispiel wird die detailliert beschriebene voxelbasierte Lösung verwendet, da diese sehr schnell, robust und vor allem flexibel (in Bezug auf die Genauigkeit und Anzahl und Position der Kameras 202) ist.
Videowände bzw. großflächige Displays im Allgemeinen eignen sich gut für kooperatives Arbeiten mehrerer Nutzer gleichzeitig. Typischerweise können auf solchen Anzeigen Landkarten angezeigt werden, welche die Nutzer für ihre Arbeit verwenden. Um diese Karten und Objekte darauf zu manipulieren, sind Maus und Tastatur denkbar ungeeignet, da alleine schon die Größe der Videowand das Hantieren mit einem Mauszeiger erschwert. Hier können für den Menschen natürliche Interaktionsmechanismen ihre Stärken entfalten.
Benutzer können durch das erfindungsgemäße Konzept zusammen an der Videowand arbeiten und durch direkte Berührungen Objekte selektieren und. manipulieren. Wird ein selektiertes Objekt verschoben, aber das Ziel befindet sich außerhalb einer Berührungsreichweite eines Nutzers, kann die Berührung in eine Zeigegeste übergehen und so die Aktion trotzdem nahtlos ausgeführt werden. Wenn ein größerer Abstand zur Videowand nötig ist, beispielsweise um eine bessere Übersicht zu erhalten, können Zeigegesten äquivalent zur Berührung eingesetzt werden.
Prinzipiell können Berührungen und Zeigegesten beliebig eingesetzt werden, sei es in direkter Folge, oder sei es als eigenständige Interaktionen. Die 5a bis 5c zeigen schematisch Beispiele möglicher Interaktionen.
5a (links) zeigt einen Nutzer 102, der sich in unmittelbarer Nähe zu einer Eingabefläche 104 befindet und der mit seinem Arm, also dem die Zeigegeste repräsentierenden Teil 112, die Eingabefläche 104 berührt. 5a (rechts) zeigt einen Nutzer 102 in etwas größerer Entfernung zur Eingabefläche 104, so dass er mit seinem Arm außer Reichweite der Eingabefläche 104 ist. Somit ergibt sich ein Interaktionsort 502 auf dem Display durch einen Schnittpunkt der Displayoberfläche mit einer Ausgleichsgeraden 504 durch den die Zeigegeste repräsentierenden Teil 112.
Bei dem in 5b dargestellten Szenario befinden sich zwei Benutzer 102 vor der Eingabefläche 104, wobei ein Nutzer 102a die Eingabefläche mit beiden Armen berührt und somit durch die Berührpunkte die Interaktionspunkte auf der Eingabefläche 104 bestimmt sind. Der zweite Nutzer 102b befindet sich in größerer Entfernung zu der Eingabefläche 104 und setzt beide Arme für Zeigegesten ein, so dass sich auch für den zweiten Nutzer 102b zwei Interaktionspunkte auf der Eingabefläche 104 durch die Zeigegesten ergeben.
5c zeigt schematisch einen Ablauf eines Szenarios, in dem ein Nutzer 102 ein Objekt 506 auf der Eingabefläche 104 von links nach rechts bewegt. Zu einem Zeitpunkt t = 0 befindet sich das Objekt 506 nicht in unmittelbarer Berührungsreichweite des Nutzers 102, so dass er das Objekt 506 mittels einer berührungslosen Zeigegeste bewegt. Sobald das Objekt 506 für den Nutzer 102 in Berührungsreichweite ist (Zeitpunkt t = 1) bewegt er das Objekt 506 durch unmittelbare Berührung der Eingabefläche 104. Zu einem Zeitpunkt t = 2 geht die unmittelbare Berührung wieder in eine Zeigegeste des Nutzers 102 über, da sich da Objekt 506 wieder außerhalb seiner direkten Berührungsreichweite befindet.
Gegenüber herkömmlichen Systemen ermöglichen Ausführungsbeispiele der vorliegenden Erfindung eine flexible Wahl der Platzierung von Kameras 202, so lange sich deren Sichtkegel mindestens einmal überschneiden. Zusätzlich kann je nach Anwendungsszenario die Anzahl an Kameras 202 beliebig erhöht werden, um einen größeren Raumbereich abzudecken, insbesondere bei größeren Eingabeflächen, oder um eine bessere Qualität zu erreichen. Auch eine Erhöhung einer Auflösung der Kameras hat direkte positive Auswirkungen auf die Qualität der erzielten Resultate. Die verwendeten Kameras selbst brauchen dabei selbst nicht alle vom gleichen Modell zu sein, sondern können beliebig kombiniert werden.
Da Ausführungsbeispiele der vorliegenden Erfindung unabhängig von der Eingabefläche 104 bzw. der Oberfläche selbst sind, sind auch Anwendungsszenarien denkbar, in denen Objekte manipuliert werden, die selbst keine eigene Funktionalität besitzen. Eine Berührung eines aufgemalten Schalters kann ein Ein- und/oder Ausschalten eines Lichts bewirken. Eine aufgemalte Tastatur kann zur Eingabe verwendet werden.
Es ist möglich beliebige Oberflächen gemäß Ausführungsbeispielen der vorliegenden Erfindung auszustatten, ohne dass eine Modifikation der Oberflächen selbst notwendig wäre. Die Platzierung der Kameras 202 ist frei wählbar (mit der Einschränkung, dass sich die Sichtkegel überschneiden), wodurch die Kameras sehr diskret und unauffällig platziert werden können, so dass sie für die Benutzer 102 scheinbar unsichtbar sind. Dies ist als ein entscheidender Vorteil gegenüber herkömmlichen Technologien zu sehen, bei denen entweder die Eingabefläche 104 modifiziert werden muss, was bei bereits bestehenden Eingabe- bzw. Oberflächen oft unmöglich ist. Ebenso ist die freie Wahl bei der Platzierung der Kameras ein großer Vorteil, da diese dadurch, je nach Umgebung, beliebig gut versteckt werden können und somit die Benutzer nicht stören.
Prinzipiell können anstatt Videokameras auch Infrarotkameras verwendet werden. Da für diese ebenfalls der Vordergrund berechnet werden kann, ist eine Übertragung des erfindungsgemäßen Konzepts direkt und problemlos möglich. Allgemein kann das erfindungsgemäße Konzept auf beliebige bildgebende Sensoren angewandt werden, welche eine Segmentierung der unterschiedlichen Bilder in Vorder- und Hintergrund erlauben, um Silhouettenbilder bzw. Binärbilder verschiedener Perspektiven zu erhalten.
Abhängig von den Gegebenheiten können erfindungsgemäße Verfahren zur Erkennung einer Zeigegeste in Hard- oder in Software implementiert werden. Die Implementierung kann dabei auf einem digitalen Speichermedium, beispielsweise einer DVD, CD oder Diskette mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des jeweiligen erfindungsgemäßen Verfahrens zur Erkennung einer Zeigegeste, wenn das Computerprogrammprodukt auf einem Rechner abläuft. In anderen Worten ausgedrückt, kann die Erfindung auch als ein Computer-Programmcode zur Durchführung eines Verfahrens zur Erkennung einer Zeigegeste eines Nutzers realisiert werden, wenn das Computerprogramm auf einem Computer abläuft.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

- Schöning et al., „Multi-Touch Surfaces: A Technical Guide”, Technical Report TOM-IO 833, Technical Reports of the Technical University of Munich, 2008 [0002]
- Jefferson Y. Han, welcher den „Frustrated Total Internal Reflection (FITR)”-Effekt benutzt, um eine Berührung festzustellen („Low-Cost Multi-Touch Sensing through Frustrated Total Internal Reflection”, J. Y. Han, UIST 2005) [0003]
- Peltonen et al., „It's Mine, Don't Touch!: Interactions at a Large Multi-Touch Display in a City Centre”, CHI 2008 [0004]

Claims

Vorrichtung (100) zur Erkennung einer Zeigegeste eines Nutzers (102) zur Interaktion des Nutzers mit einer Eingabefläche (104), mit folgenden Merkmalen: einer Einrichtung (106) zum Erfassen einer dreidimensionalen Hülle (108) des Nutzers; und einer Einrichtung (110) zum Ermitteln einer Position und/oder Orientierung eines die Zeigegeste repräsentierenden Teils (112) der dreidimensionalen Hülle relativ zu der Eingabefläche, um eine Berührung der Eingabefläche oder ein Zeigen auf die Eingabefläche festzustellen.
Vorrichtung gemäß Anspruch 1, wobei die Einrichtung (110) zum Ermitteln der Position und/oder Orientierung angepasst ist, den die Zeigegeste repräsentierenden Teil (112) der dreidimensionalen Hülle so zu bestimmen, dass derselbe der Eingabefläche (104) am nächsten liegt.
Vorrichtung gemäß Anspruch 1 oder 2, wobei die Einrichtung (110) zum Ermitteln der Position und/oder Orientierung angepasst ist, um die Orientierung des die Zeigegeste repräsentierenden Teils (112) der dreidimensionalen Hülle (108) basierend auf einer Ausgleichsgeraden (c_τ) durch Punkte des die Zeigegeste repräsentierenden Teils zu bestimmen.
Vorrichtung gemäß einem der Ansprüche 1 bis 3, wobei die Einrichtung (110) zum Ermitteln der Position und/oder Orientierung angepasst ist, um die Orientierung mittels einer zeitlich gefilterten Ausgleichsgeraden (t_τ) durch Punkte des die Zeigegeste repräsentierenden Teils (112) der dreidimensionalen Hülle (108) zu bestimmen.
Vorrichtung gemäß Anspruch 3 oder 4, wobei die Einrichtung (110) zum Ermitteln der Position und/oder Orientierung angepasst ist, um einen berührungslosen Interaktionspunkt (502) zwischen Nutzer (102) und Eingabefläche (104) basierend auf einem Schnittpunkt einer Ausgleichsgeraden (t_τ; c_τ) mit der Eingabefläche zu bestimmen.
Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung (110) zum Ermitteln der Position und/oder Orientierung angepasst ist, um eine Berührung der Eingabefläche (104) zu detektieren, wenn eine Position eines der Eingabefläche am nächsten liegenden Teils der dreidimensionalen Hülle (108) von der Eingabefläche weniger als ein vorbestimmter Abstand entfernt ist.
Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung (110) zum Ermitteln der Position und/oder Orientierung angepasst ist, um der Zeigegeste aus einer Menge von Zuständen, die jeweils eine Annäherung, ein Halten und einen Rückzug der Zeigegeste von der Eingabefläche (104) repräsentieren, einen aktuellen Zustand abhängig von einer Entfernung und/oder einer Änderung der Entfernung des der Eingabefläche am nächsten liegenden Teils der dreidimensionalen Hülle (108) von der Eingabefläche zuzuordnen.
Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung (106) zum Erfassen der dreidimensionalen Hülle des Nutzers eine Mehrzahl von Kameras (202) umfasst, um eine Mehrzahl von Videobildern des Nutzers (102) und eines den Nutzer umgebenden Raums aus jeweils unterschiedlichen Perspektiven zu erfassen, wobei sich Sichtkegel der Kameras überschneiden.
Vorrichtung gemäß Anspruch 8, wobei die Einrichtung (106) zum Erfassen der dreidimensionalen Hülle des Nutzers angepasst ist, um die dreidimensionale Hülle (108) basierend auf einer Vorder-/Hintergrundsegmentierung der aus unterschiedlichen Perspektiven erfassten Videobilder zu bestimmen, um unterschiedliche zweidimensionale Silhouettenbilder (S_j) des Nutzers (102) zu erhalten.
Vorrichtung gemäß Anspruch 9, wobei die Einrichtung (106) zum Erfassen der dreidimensionalen Hülle des Nutzers angepasst ist, um als dreidimensionale Hülle (108) eine dreidimensionale Punktwolke aus einem dreidimensionalen Punktgitter so zu bestimmen, dass sich jeder Punkt (x) der dreidimensionalen Punktwolke in jedes der unterschiedlichen zweidimensionalen Silhouettenbilder (S_j) des Nutzers projizieren lasst.
Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei der die Zeigegeste repräsentierende Teil (112) der dreidimensionalen Hülle (108) eine Extremität des Nutzers (102) beschreibt.
Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei der die Zeigegeste repräsentierende Teil (112) der dreidimensionalen Hülle (108) einen Arm, eine Hand oder einen Finger des Nutzers (102) beschreibt.
Verfahren zur Erkennung einer Zeigegeste eines Nutzers (102) zur Interaktion des Nutzers mit einer Eingabefläche (104), mit folgenden Schritten: Erfassen einer dreidimensionalen Hülle (108) des Nutzers; und Ermitteln einer Position und/oder Orientierung eines die Zeigegeste repräsentierenden Teils (112) der dreidimensionalen Hülle relativ zu der Eingabefläche, um eine Berührung der Eingabefläche oder ein Zeigen auf die Eingabefläche festzustellen.
Computerprogramm zur Durchführung der Schritte des Verfahrens gemäß Anspruch 13, wenn das Computerprogramm auf einem Computer abläuft.