DE10233233A1

DE10233233A1 - Erkennung von Bewegungen (dynamische Gesten) zur berührungslosen und tonlosen Interaktion mit technischen Systemen

Info

Publication number: DE10233233A1
Application number: DE10233233A
Authority: DE
Inventors: Marc Hofmann
Original assignee: Technische Universitaet Muenchen
Current assignee: HOFMANN, MARC, 80799 MUENCHEN, DE
Priority date: 2002-07-22
Filing date: 2002-07-22
Publication date: 2004-02-19
Anticipated expiration: 2022-07-23
Also published as: DE10233233B8; DE10233233B4

Abstract

Die Erfindung betrifft ein Verfahren zur Erkennung von dynamischen Gesten von beweglichen Körperteilen. Das bewegte Körperteil wird während des Bewegungsabschnitts (TG) mit einem Bildaufnehmer aufgezeichnet zur Abgabe eines Bildgebersignals (20). Eine erste Anzahl von Zeitpunkten wird festgelegt, die einen im wesentlichen gleichen zeitlichen Abstand (T0) innerhalb des Bewegungsabschnitts (TG) haben. Das Körperteil (10) wird nach Lage, Größe und Form zumindest zu jedem der ersten Anzahl von Zeitpunkten festgehalten, um eine erste Anzahl von Körperteilbildern (10, 11; 14, 15, 16) zu erhalten. Ein begrenztes erstes Raster (R; r) wird als Erfassungsfeld (E1, E4) für einen ersten (T1, T4) und einen darauf folgenden (zweiten) Zeitpunkt (T2, T5) so auf die Lage, Größe und Form des Körperteils zu den beiden Zeitpunkten abgestimmt, daß das Erfassungsfeld im wesentlichen das vollständige Körperteil zu beiden Zeitpunkten (T1, T2; T4, T5) erfaßt.

Description

Die Erfindung befaßt sich mit einem Verfahren zur Erkennung von dynamischen Gesten von beweglichen Körperteilen. Unter solchen dynamischen Gesten können Gesten verstanden werden, mit denen Individuen einen Bedeutungsgehalt vermitteln oder mitteilen. Der Bedeutungsgehalt kann zur Steuerung von technischen Systemen, insbesondere informationstechnischen dienen, wenn ein Benutzer ein solches Gerät auffordern möchte, eine bestimmte Aktion einzuleiten, oder Informationen in das Gerät einzuspeisen, wie beispielsweise anstelle von Tastaturen, bei Dialogantworten auf Rückfragen (Prompts), PDA-Steuerungen ("portable" oder "personal" digital assistent), Handysteuerungen, Bankautomaten, Fahrzeuge, Sicherheitstechnik und andere vorstellbare Geräte, die bedient werden möchten.
Dynamische Gesten vermitteln also eine Information, ohne daß Worte notwendig sind. Worte können natürlich ergänzend gegeben werden, die reine Erkennung einer dynamischen Geste allein genügt aber, um den gewünschten Bedeutungsgehalt zu erkennen. So ist es für behinderte Menschen oft hilfreich, sich mit Gesten zu verständigen. Auch bei solchen Menschen mit feinmotorischen Störungen und dementsprechend vorhandenen Problemen, Tastaturen zu bedienen, können Gesten Abhilfe schaffen, da sie Informationen zu vermitteln in der Lage sind, trotz ihrer relativ unpräzisen Erscheinung und einer relativ geringen Konzentration des Individuums, das diese Geste von sich gibt.
Die beschriebenen dynamischen Gesten sind als beispielsweise Handgesten eine Gestenart, die durch ihre Bewegung lebt. Diese "dynamischen Gesten" können von einer Hand als "dynamische Handgeste" Informationen vermitteln, die in der Bewegung der gesamten Hand codiert sind. Diese Codierung kann von einem Betrachter ohne weiteres decodiert werden, von optischen Systemen aber derzeit nur schwerfällig und mit hoher Fehlerrate. Mit diesen dynamischen Gesten werden eine Vielzahl von Gestenarten beschrieben, die allgemein aus dem Alltag bekannt sind und somit intuitiv von einem Benutzer einsetzbar und verständlich sind. Beispiele dieser Gesten können "Winken", "Winken nach "links", "Stop", "Daumen nach oben", "vorwärts", "rückwärts", "Andeutung von Bewegungsrichtungen" und beispielsweise auch ein "Gleichgültigkeitsbekunden" sein. Weitere solche Gesten liegen darin, Symbole, wie Zahlen oder Buchstaben zu vermitteln, ohne eine Tastatur oder einen Bildschirm berühren zu müssen. Die Buchstaben oder Zahlen werden als Symbole in die Luft gezeichnet, mit einem Bilderfassungssystem erfaßt und als eine dynamische Geste ausgewertet und klassifiziert, zur Steuerung eines Geräts.
Gestenerkennungen sind beschrieben in US 6,128,003 (Smith) und US 5,454,043 (Freemann) sowie US 6,002,808 (Freemann). Letztere Schriften zeigen Handgestenerkennungen zur statischen und dynamischen Gestenerkennung, vgl. beispielsweise US 5,454,043 in 2b unter Verwendung von sogenannten "Orientation Histograms".
Die Erfindung hat es sich zur Aufgabe gestellt, die Erkennungssicherheit von Gestenerkennungen von beweglichen Körperteilen zu erhöhen und eine hohe Erkennungsleistung zur Verfügung zu stellen, insbesondere komplexe Gesten noch erkennen zu können. Es soll dabei auch ein Augenmerk darauf gelegt werden, daß die erhaltenen Merkmale aus der optischen Bildverarbeitung zur Weiterverarbeitung einfach zu handhaben sind, so daß ein zur Klassifizierung verwendetes Netzwerk übersichtlich bleibt.
Die Erfindung erreicht die vorgenannte Problemstellung mit der Lösung der Ansprüche 1, 2 oder 3 oder 24 oder mit der Vorrichtung nach Anspruch 23.
Dabei geht die Erfindung von der Erkenntnis aus, daß – wie bei den meisten mustererkennenden Verfahren in der Bildverarbeitung – eine Merkmalsextraktion Anwendung findet. Diese Merkmalsextraktion befaßt sich aber nicht allein mit statischen Bilden, sondern berücksichtigt bereits die Bewegung der Bilder aus Momentanbildern und gliedert Bewegungs-Informationen in extrahierte Merkmale ein. Ein Teil der Dynamik der Geste ist also bereits in dem jeweiligen Merkmal repräsentiert, die zu mehreren aus der Bildverarbeitung gewonnen werden. Dabei wird nicht die Form der Hand oder des Fußes alleine oder ein Modell des Körperteils, sondern die Körperteilbewegung zur Merkmalsgewinnung verwendet, insbesondere unter Einsatz einer Differenzbildung von zwei Fuß- oder Handbildern an zwei Zeitpunkten während eines Bewegungsabschnitts. Eine Differenzbildung ist repräsentativ für eine Bewegung. Statisch bleibende Bildbereiche werden durch die Differenzbildung entfernt und es verbleibt derjenige Bildabschnitt, welcher eine Bewegung symbolisiert (Anspruch 3, Anspruch 2).
Die Erfindung macht sich die Eigenschaft der Geste des Körperteils zunutze, daß sie zwischen einem ersten im wesentlichen unbewegten und einem zweiten im wesentlichen unbewegten Zustand abläuft bzw. stattfindet (Anspruch 1). Dieser Bewegungsabschnitt zwischen den zwei statischen Abschnitten ist die Gestendauer oder der Zeitabschnitt, innerhalb dessen der Bedeutungsgehalt der Geste vermittelt wird. Es ist deshalb möglich, die Gestenerkennung über die Erfassung von Bewegung beginnen zu lassen und über eine Erfassung des Endes der Bewegung enden zu lassen. Der Einsatz eines Schwellenwertes zur Bewegung hat sich bewährt, um Beginn und Ende der Gestendauer festzulegen bzw. automatisiert erkennen zu können.
Ist die Gestendauer bekannt und liegt die gesamte Geste als Bildsignal gespeichert vor, kann sie in zeitliche Abschnitte eingeteilt werden, die dann zur Gewinnung mehrerer Merkmale des gesamten Ablaufs verwendet werden. Die zeitlichen Abstände sind bevorzugt äquidistant. Anders als der Stand der Technik, der bislang zumeist Schwerpunkte berechnete, Momente erster Ordnung (Mittelwerte) oder zweiter Ordnung heranzog und die Handform oder ein Modell als Voraussetzung der Erkennung machte, kann die Erfindung die Bewegung bereits in die extrahierten Merkmale einbringen, die zur Klassifizierung und damit zur Gestenerkennung verwendet werden. Die Merkmale beschreiben also nicht oder nicht allein die Form des frei beweglichen Körperteils, sondern enthalten Bewegungsinformationen, die – bewußt oder unbewußt – auch von inneren Abschnitten, beispielsweise von einer Hand oder einem Fuß oder einem Fußteil oder Handteil als frei beweglichem Körperteil vermittelt werden, aber an der Veränderung der äußeren Form alleine nicht ausreichend erkennbar wären.
Die visuelle Interaktion mit einem technischen, insbesondere informationstechnischen System, wie eingangs erläutert, gestaltet sich am intuitivsten durch den Einsatz der beschriebenen dynamischen Gesten (Anspruch 24), beispielsweise als Hand- oder Fußgeste.
Unabhängig von der Art und der Komplexität dieser Gesten, werden solche Gesten als Überlagerungen zweier dynamischer Prozesse angesehen. Da beide Prozesse nicht linear unabhängig sind, werden (neue) Merkmale verwendet, die nicht nur parallel den beiden dynamischen Prozessen Rechnung tragen, sondern auch Korrelationen zwischen den beiden Prozessen berücksichtigen. Das Verfahren ist somit in der Lage, die translatorische Bewegung des gesamten frei beweglichen Körperteils, die dynamische Veränderung der Silhouette bzw. der Form (aus der Sicht des Bildgebers) sowie die semantische Beziehung zwischen der translatorischen Bewegung und der Veränderung der Form in Merkmalen abzubilden bzw. die "Gestenmerkmale" als neu geschaffene Merkmale zur Weiterverarbeitung zu extrahieren.
Diese verschiedenen Einflüsse auf das Momentanbild, das sich zu einem Zeitpunkt ergibt, sollen kurz mit Lage, Form und Größe bezeichnet werden. Die Lage gibt an, wo das Körperteil im Bewegungsfeld (Anspruch 3) liegt, die Form gibt an, welche Form das Körperteil angenommen hat und die Größe zeigt, ob das Körperteil verkleinert oder gedreht im Bild sichtbar ist. Die letzten beiden Eigenschaften überlagern sich, sollen aber gemeinsam genannt werden, beispielsweise für Handform, Handgröße.
Das Verfahren arbeitet mit Strukturen, wie sie vom technischen Schaltungsaufbau her bei Bildverarbeitungen bekannt sind. Die Komponenten sind in der 5 gezeichnet und sollen allgemein so benannt werden, daß ein Bildsignal (Videosignal) von einem Bildgeber (der nicht dargestellt ist) abgegeben wird, einer Vorverarbeitung zugeführt wird, Merkmale extrahiert werden und eine Klassifikation stattfindet. In dieses allgemeine Strukturbild sind bereits Einflüsse der hier zu beschreibenden Erfindung eingeflossen, namentlich eine zeitliche Segmentierung und eine Gestenerkennung, so daß die 1 nicht gänzlich als Stand der Technik zu bezeichnen ist.
Bei der Merkmalsextraktion wird ein begrenztes erstes Raster als Erfassungsfeld verwendet, das so klein als möglich ist, aber für jeweils zwei benachbarte Zeitpunkte gleich bleibt und in seiner Größe so ausgerichtet ist, daß die beiden Momentanbilder des Körperteils dieser beiden Zeitpunkte in das begrenzte erste Raster als Erfassungsfeld passen. Die Momentanbilder werden zu den ersten Zeitpunkten festgehalten und "Frames" aus einer Bildfolge herausgenommen, die mehrere Bilder des Videosignals beinhaltet, von denen aber nur ein Teil zu den festgelegten Zeitpunkten benötigt werden. Der Abstand zwischen den Zeitpunkten als Abtastzeit der Bildfolge sollte äquidistant sein und wird mit T₀ benannt.
Die Erkennung einer Bewegung erfolgt durch Differenzbildung von zwei so festgehaltenen Momentanbildern, wobei mehrere Erfassungsfelder Anwendung finden können, aber immer für zwei benachbarte Zeitpunkte gleich groß sind (Anspruch 15). Ein Erfassungsfeld ist kleiner als das Bewegungsfeld, in dem sich die gesamte Geste des frei beweglichen Körperteils abspielt und das mit dem Kamerabild oder Kamerafeld als beispielsweise Bildgeber gleichgesetzt werden kann.
Das Erfassungsfeld kann ein Gitter sein (Anspruch 7), in dem Gitterzellen als Gitterfelder definiert werden, die dann zu Skalarwerten einer Matrix als Vektormerkmal umgerechnet werden. In einem solchen Gitterfeld befinden sich immer zwei Abbildungen von zwei benachbarten Zeitpunkten (als Momentanbilder). Für die nächsten beiden Zeitpunkte wird ein neues Gitterfeld definiert (Anspruch 12). Ebenso setzt sich das für weitere Zeitpunkte fort bzw. für folgende Zeitpunktpaare. Ein Zeitpunkt kann dabei jeweils beiden Paaren angehören, T1 und T2 sowie T2 und T3, etc.
Die Informationsvielfalt kann bereits am Anfang herabgesetzt werden, indem binarisiert wird, um das Momentanbild von dem Hintergrund zu unterscheiden. Es genügt ein Schwellenwert zur Unterscheidung von hell und dunkel. Weitere Schwellenwerte können Anwendung finden während des Einsatzes der Rasterfelder (Anspruch 7, 8 und 9), zur weiteren Herabsetzung der Informationsvielfalt, beispielsweise ein Wert "Mittel" (127 oder 128 von 256 Werten bei 8 bit). Es wird also nicht mit den einzelnen Pixeln des Bildes und ihrer großen Vielfalt von Grauwerten gerechnet, sondern mit einer stark reduzierten Auflösung, die aber dennoch für die Gestenerkennung ausreichend ist und sicherstellt, daß die extrahierten Merkmale nicht zu komplex für ihre Weiterverarbeitung sind.
Die Bedienung eines informationstechnischen Geräts (Anspruch 24), ohne akustische Kopplung und ohne Berührung, erfolgt über in die Luft gezeichnete Symbole, die von einem Bildaufnehmer so erfaßt werden, daß die Ebene der Zeichnung oder Gestik (beispielsweise als Finger einer Hand oder eine Hand als solches oder ein Zeh eines Fußes) im wesentlichen senkrecht zu der optischen Achse des Bewegungsaufnehmers liegt.
Als zeichenbare Symbole können Zahlen im Sinne von numerischen Zahlen, Buchstaben im Sinne des Alphabets oder mathematische Operatoren, wie Pluszeichen, Minuszeichen und andere Verknüpfungen, Verwendung finden (Anspruch 25). Auch komplexere Steuersymbole, wie "an/aus" oder "heller/dunkler" bezogen auf Bildschirme oder andere technische Geräte können Einsatz finden. Diese Gestik-Schnittstelle bietet auch einem ungeübten Benutzer ein sehr schnelles Verständnis für die Bedienung des Gerätes, anders als akustische Schnittstellen oder haptische Schnittstellen, die mit Berührung über Tastatureingabe und Befehlswörtern arbeiten.
Die Erfindung wird an Ausführungsbeispielen näher erläutert.
1, 1a veranschaulicht zwei Zeitpunkte einer dynamische ablaufenden Handgeste.
2 veranschaulicht ein Differenzbild.
3, 3a veranschaulicht ein Erfassungsfeld mit einem Raster auf den beiden Handbildern der 1, 1a.
4, 4a veranschaulicht eine Herabsetzung der Auflösung durch Mittelwertbildung innerhalb des Rasterfeldes E1.
5 veranschaulicht eine allgemeine Prinzipdarstellung eines Bildverarbeitungssystems mit Einflüssen der Erfindung.
5a veranschaulicht schematisch einen PDA (portable digital assistent) 50, der mit einer optischen Erfassungseinrichtung 52, einem Infrarot-Filter 55 sowie Infrarot-Leuchtdioden 51 versehen ist, die den Nahbereich um die Erfassungseinrichtung 52 zu beleuchten vermögen.
5b veranschaulicht das handhabbare, insbesondere portable technische Gerät mit der optischen Erkennungseinrichtung 52 und einer gestikulierenden Hand zur Eingabe von Symbolen zur Steuerung des Geräts. Das Ausgangssignal der Erkennungseinrichtung bildet beispielsweise das Eingangs-Videosignal 20 der 5.
6 veranschaulicht eine grobe Struktur einer Merkmalsextraktion 30, wie sie in 5 angegeben ist und aus den 1 bis 4 erläutert werden soll.
7 ist eine grafische Darstellung von drei Zeitpunkten T4, T5, T6 eines Gestenverlaufs (eines Unterabschnitts einer dynamischen Handgeste) und ihre Umsetzung in zwei Merkmale m4, m5.
8 ist ein Gestenvokabular und die Wahrscheinlichkeit des Vorliegens einer bestimmten Geste, hier: Daumen oben, die aufgrund der vorgenannten Bildverarbeitung und Klassifizierung nach 10, 11 erhalten wird.
9 ist eine Wahrscheinlichkeitsverteilung zu einer alternativen (anderen) Geste aus demselben Gestenvokabular von 8, bei der eine "Rechts"-Geste erkannt wird.
10 veranschaulicht die Klassifikation durch Einsatz der extrahierten Merkmale aus den mehreren Intervallen, hier mit sechs Intervallen im Zeitabschnitt der dynamischen Handgeste.
11 ist die Topologie eines dynamischen Bayes'schen Netzes für ein Zeitintervall von 10.
Zur Veranschaulichung einer Handgeste sei zunächst auf die 1, 1a sowie auf die sehr komplexe 7 verwiesen, die Handgesten veranschaulichen, aber nur jeweils Zeitpunkte und Lage, Größe und Form einer Hand in einem Handbild, die insgesamt einen Bewegungsablauf durchlaufen hat, der als solches nicht dargestellt ist. Mögliche Handgesten sind aus den 8 und 9 ersichtlich, mit eindeutig benannten dynamischen Gesten, die aufgrund der Benennungen ohne weiteres ersichtlich sind. Von diesen Handgesten zeigen die Zeitpunkte T1, T2 von 1, 1a eine Verschiebung einer Hand mit ausgestreckten Fingern von einer weiter links in dem Bewegungsfeld B liegenden Hand 10 zu der weiter rechts liegenden gleichen Hand 11 in 1a zu einem kurzzeitig späteren Zeitpunkt T2. Die Gestik könnte eine Bewegung nach rechts oder ein Winken andeuten. Eine Kombination aus Translation und Drehung sowie Verformung der Hand zeigt die 7 mit einer Rechtsbewegung von der Hand 14 zur Darstellung 15, bei gleichzeitiger Drehung und mit anschließender Linksbewegung an den linken Rand des Bewegungsfeldes B zum Zeitpunkt T6.
Das Bewegungsfeld B wird von einem Kamerabild vorgegeben, das als Bildaufnehmer ein Videosignal 20 abgibt, wie in 5 veranschaulicht. Dieses Videosignal wird in Frames (Bilder) zerlegt, die in 6 anschaulich als zeitliche Sequenz so dargestellt sind, daß der Frame-Speicher 22 die einzelnen Bilder zu kurzzeitig abgetasteten Zeitpunkten digital speichert. Die gesamte Gestendauer hat n Bilder und eine Dauer TG.
Die Information, welche Frames (Bilder) des Videosignals 20 zur Klassifikation der Geste verwendet werden sollen, wird durch Abtastzeitpunkte vorgegeben. Diese Abtastzeitpunkte haben einen Abstand T0, der sechs Intervalle definiert, die zwischen den Zeitpunkten T1 bis T7 in 6 liegen. Diese zeitliche Segmentierung 21 liegt noch vor der Vorverarbeitung 25 von 5 und wählt bestimmte Frames aus, die aus dem gesamten Bewegungsablauf angeboten werden.
Es werden dabei alle Frames auf einen möglichen Gestenanfang bzw. ein Gestenende, also auf die Zeitpunkte 0 und TG hin untersucht, wenn das System eigenständig den Beginn der Geste und das Ende der Geste erfassen soll. Dazu ist für dynamische Handgesten eine Prüfung vorgesehen, ob der aktuelle Frame bezüglich eines vorhergehenden Frames ein gewisses Maß an Abweichung überschreitet. Eine Abweichung als Überschreitung eines bestimmten Schwellenwertes wird als Dynamik interpretiert und läßt auf eine Bewegung der Hand schließen. Hierfür wird ein Differenzbild berechnet, d. h. es wird eine Differenz aller Helligkeitswerte des aktuellen Frames und des vorhergehenden Frames gebildet.
Wenn die Summe aller Differenzwerte einen vorgegebenen Schwellenwert, der relativ gering ist, überschreitet, werden die folgenden Frames als dynamische Geste interpretiert. Es liegt also der Zeitpunkt des Beginns einer dynamischen Geste fest, der in 6 mit "Null" (t=0) bezeichnet ist.
Entsprechend wird auch das Ende einer dynamischen Geste detektiert. Wird die zuvor genannte Schwelle unterschritten, kann davon ausgegangen werden, daß das Ende der Geste, also der Zeitpunkt TG erreicht ist. Auf diese Weise können alle Frames ermittelt werden, die für die Erkennung der dynamischen Geste als Helligkeitswerte zur Verfügung stehen. In 6 sind das die Framen 1 bis n.
In der Vorverarbeitung 25 wird aus dem Videosignal ein binäres Bild erzeugt, d. h. den Pixeln (Bildpunkten) aller relevanten Frames werden Werte für schwarz oder weiß zugeordnet. Es findet also eine Vorverarbeitung statt, bei der ein großes Maß an angebotener Information ausgeblendet wird, um mit reduzierter Auflösung weiterarbeiten zu können, wobei lediglich von Interesse ist, ob die Hand abgebildet ist oder der Hintergrund vorliegt. Im Idealfall entsprechen die Pixel mit maximaler Helligkeit der Hand und schwarze Pixel dem Hintergrund.
Die Vorverarbeitung kann erleichtert werden, wenn das optische Umfeld besonders angepaßt ist. So kann der in 5 nicht dargestellte Bildaufnehmer, dessen Ausgangssignal aber dem Videosignal 20 entspricht, reflektierte Strahlung von der Hand aufzeichnen. Die Hand bewegt sich dabei in dem Bildfenster des Bildaufnehmers, das zuvor als "Bewegungsfeld" definiert wurde. Dieses Bewegungsfeld ist in 1 schwarz umrandet. Die ganze Hand in dem Bewegungsfeld wird durch eine Beleuchtung der Hand stark von dem Hintergrund abgesetzt. Der Hintergrund ist neutral zu betrachten, und die reflektierte Strahlung von der Hand gibt in der Regel eine gute Unterscheidung gegenüber dem Hintergrund. Zusätzlich kann sichtbares Licht durch eine dunkle Scheibe ausgefiltert werden, oder es kann eine IR-Kamera verwendet werden, bei einer vorgelagerten Filterscheibe, die nur IR-Licht passieren läßt.
Besonders geeignet ist diffuses Licht, um die gewünschte Handabbildung deutlich von dem Hintergrund unterscheiden zu können und bereits bei der Vorverarbeitung den Hintergrund von der Hand klar zu trennen und in dem binären Bild darzustellen. Von diesen binären Bildern wird im folgenden ausgegangen, und alle Darstellungen zeigen die Hand im Rahmen des Videosignals und der zeitlichen Segmentierung als binarisiertes Handbild.
Eine Merkmalsextraktion aus einer Bewegung soll im folgenden beschrieben werden und bildet Grundlage für später anzuwendende Klassifikationsverfahren, die mit den Merkmalen arbeiten. Die Extraktion der Merkmale findet nach 6 statt, mit einer Anordnung nach 5. Am deutlichsten wird die Extraktion der Merkmale, von denen zwei Merkmale m4,m5 als Vektoren dargestellt sind, an 7.
6 veranschaulicht den zeitlichen Ablauf vertikal. Alle Frames, also alle Handbilder entsprechend denjenigen, die in 1, 1a ersichtlich sind, werden gespeichert. Nachdem die Gestendauer TG bekannt ist und eine erste Binarisierung bereits stattgefunden hat, stellt jeder Frame eine Hand dar, zu jeweils einem weiter fortgeschrittenen Zeitpunkt. Davon werden im Beispiel nur sieben Zeitpunkte verwendet, die äquidistant sind. Es wird also der Frame 1, der Frame zum Zeitpunkt T2, zum Zeitpunkt T3 usw. verwendet, bis zum Zeitpunkt T7, welches das Ende TG des Bewegungsablaufes der Handbewegung darstellt. Alle für die Verarbeiten relevanten Frames sind binär gespeichert. Aufgrund der bekannten Dauer der Geste und der Anzahl der Frames kann für sechs Zeitintervalle festgelegt werden, welche Frames für die Weiterverarbeitung Berücksichtigung finden sollen. Die Anzahl der für die Merkmalsextraktion verwendeten Frames ist vom Wesen her nicht beschränkt, sie kann kleiner und größer sein, soll im folgenden aber an sechs Zeitintervallen erläutert werden, wobei ein Zeitintervall sich aus der Differenz von zwei Zeitpunkten T2-T1, T3-T2 usw. jeweils bildet. Aus den Frames zu diesen Zeitpunkten, also den Framen, die am Anfang und am Ende eines Intervalls T0 stehen, werden Merkmale berechnet, und zwar für jedes Zeitintervall ein Merkmal, das diejenige Gestalt besitzt, wie sie an 7 am unteren Bildrand erkennbar ist.
Für jedes der sechs Zeitintervalle wird der gebildete (oder extrahierte) Merkmalsvektor m berechnet, und jeder einzelne Merkmalsvektor gibt die translatorische Dynamik der Hand sowie die Dynamik der Handform innerhalb des mit ihm korrespondierenden Zeitintervalls wieder. Alle sechs Merkmalsvektoren m ergeben dann den Gesamt-Merkmalsvektor M, der in 6 am rechten Bildrand dargestellt ist und der in der Merkmalsberechnung 30 extrahiert wird. Er beschreibt die gesamte Geste und ist Grundlage der Klassifikation.
Ganz wesentlich ist die Qualität und Güte der extrahierten Merkmale für die Güte der Klassifikation, so daß im einzelnen darauf eingegangen werden soll, wie die neuen Merkmale erhalten werden. Dazu wird auf die 1 bis 4 sowie insgesamt auf die 7 zu verweisen sein, die diese Merkmalsextraktionen bildlich und übersichtlich darstellen.
Es wird zunächst das erste Zeitintervall zwischen T1 und T2 betrachtet. Diese Betrachtung kann dann auf alle weiteren Zeitintervalle übertragen werden. In 7 sind drei Zeitintervalle T4, T5 und T6 gezeigt, zunächst aber soll auf das erste Zeitintervall T0 zwischen 0 und 1/6TG eingegangen werden.
Da dynamische Gesten von Bedeutung sein sollen, wird ausschließlich derjenige Bereich des Bewegungsfeldes B von Interesse sein, der auf eine Bewegung der Hand als bewegliches Körperteil schließen läßt. Dieser Bereich wird durch Berechnung eines Differenzbildes der relevanten beiden Frames zum Zeitpunkt T1 und T2 bestimmt. Das Differenzbild ist in 2 veranschaulicht. Diese 2 zeigt das Handbild zum Zeitpunkt T1, subtrahiert vom Handbild zum Zeitpunkt T2. Das sich ergebende Differenz-Handbild 10a entspricht der Differenz der Handbilder 10 und 11. Es bildet gleichzeitig aber auch einen Bewegungsbereich ab, den die Hand zwischen den Zeitpunkten T1 und T2 eingenommen hat. Der Bewegungsbereich der Hand ist größer als die jeweilige Hand zum Zeitpunkt T1 und zum Zeitpunkt T2, aber nicht größer als das Bewegungsfeld B.
Alle weißen Bildpunkte in der 2 weisen auf Bewegung hin. Um diese Bereiche auszuwerten, wird ein Raster R nach 3 und nach 3a über die jeweilige Hand bzw. über das Differenzbild der 2 gelegt. Dieses Differenzbild gibt die Größe des Rasters als Erfassungsfeld E1 vor, wobei die 3 und 3a zeigen, daß das Raster insgesamt größer ist, als das jeweilige Einzelbild der Hand 10 oder 11. Trotzdem das Erfassungsfeld E1 größer ist, als die jeweilige Hand, ist das Erfassungsfeld deutlich kleiner, als das Bewegungsfeld. Dieses Raster soll also einen möglichst kleinen Flächeninhalt besitzen, ist aber durchaus größer gewählt, als die Hand zu einem jeweiligen Zeitpunkt T1 oder T2.
Das hier als Rechteck dargestellte Erfassungsfeld stellt eine Näherung an die örtliche Segmentierung der gesamten Dynamik innerhalb des betrachteten Zeitintervalls T0 dar. Das Rechteck wird in die beiden betrachteten Frames projiziert, was die 3,3a veranschaulichen. Jedes Rechteck ist aufgeteilt in eine Vielzahl kleinerer Gitterfelder, die mit r bezeichnet sind. Im dargestellten Beispiel sind 8×8 Gitterfelder r vorgesehen, die alle gleich groß sind. Damit bilden sich 64 Gitterfelder, die alle selbst Rechtecke sind, wie auch das gesamte Erfassungsfeld E1.
Eine Weiterverarbeitung der so vorgegebenen Gitterfelder ist eine weitere Reduzierung der Auflösung, indem für jedes Gitterfeld "r" ein Mittelwert gebildet wird und dieser Mittelwert im hier beschriebenen Beispiel drei Werte annehmen kann, was die 4,4a verdeutlichen. Die einzelnen Gitterfelder r können dabei weiß, grau oder schwarz sein. Es werden also drei mögliche Quantifizierungen gewählt, die mit zwei Schwellenwerten zwischen den Helligkeitswerten 0 und 255 (für eine 8-Bit-Verarbeitung) erreicht werden können. Die hier abgebildete Hand ist jetzt weiter in der Auflösung herabgesetzt, aber nicht mit einer bloßen "binären" Binarisierung, sondern mit einer weiteren Zwischenstufe als Grauwert, dargestellt als stark abstrahierte Hand 10' bzw. 11', ausgehend von den 1,1a. Die drei Helligkeitsstufen für niedrige, mittlere und hohe Helligkeit sind auch aus 7 ersichtlich. Aus diesen Helligkeitsstufen beider Frames im Raster R werden nun die Merkmale als Vektoren berechnet, wie sie an 7 als Merkmale m4 und m5 ersichtlich sind. Die Helligkeitsstufen (niedrige, mittlere und hohe Helligkeit) der beiden zeitlich beabstandeten aber nebeneinander liegenden Handbilder werden innerhalb der einzelnen miteinander korrespondierenden Gitterfelder r lagerichtig miteinander verglichen. Das linke untere Gitterfeld der 4 wird mit dem linken unteren Gitterfeld der 4a verglichen. Auch die anderen Gitterfelder werden dementsprechend verglichen. Eine sich ergebende Änderung der Helligkeitsstufen wird hier als vorliegende Dynamik interpretiert.
Eine einfache Möglichkeit des Vergleiches bietet sich dann, wenn die Helligkeitsstufen als Dezimalzahlen 0, 1 bis 2 angesetzt werden, repräsentierend die niedrige, mittlere und hohe Helligkeit in den einzelnen Gitterfeldern r. Mit diesen Dezimalzahlen kann eine Differenzbildung 26 die Dynamik in einem zu bildenden Vektor als Merkmal repräsentieren. Die Helligkeitsstufen des jeweils früheren Frames werden in dem jeweiligen Gitterfeld r von den Helligkeitsstufen des nächsten Frames subtrahiert, wobei das korrespondierende Gitterfeld Anwendung findet. Als Ergebnis erhält man einen Merkmalsvektor, wie er in der 7 am unteren Rand dargestellt ist, für das Erfassungsfeld E4, und die in ihm liegenden Handbilder 14 und 15. Das Merkmal m5 wird aus den Handbildern 15,16 in dem weiteren, nächsten Erfassungsfeld E5 gewonnen.
Für das gezeigte Beispiel sind acht Zeilen und acht Spalten für das erhaltene bzw. extrahierte Merkmal angegeben, entsprechend einer Gitterfeldstruktur von 8×8 kleinen Gitterfeldern r in dem Erfassungsfeld E1.
Für zwei Gitterfelder soll anhand von 7 diese Berechnung erläutert werden, so daß sie für die anderen Gitterfelder bei der günstigen graphischen Darstellung ohne weiteres entsprechend nachvollzogen werden kann. Das rechte obere Feld r in dem Erfassungsfeld E4 hat für die Handabbildung 15' den Helligkeitswert 1. Nachdem das entsprechende Rasterfeld der Handabbildung 14 in demselben Erfassungsfeld E4 einen Helligkeitswert 0 besitzt, ergibt sich als Differenz nur im rechten oberen Gitterfeld r der Skalar 1 in dem Merkmalsvektor m4, wobei von dem zeitlich späteren Handbild 15' das zeitlich frühere Handbild 14' abgezogen wurde.
Ein weiteres Beispiel zeigt für das dritte Erfassungsfeld in der oberen Reihe von rechts, daß die Differenz von zwei Helligkeitswerten 1 hier Null ergibt, wie es auch in der Matrix von m4 angegeben wird.
Die Matrix m4 entspricht in Zeilen- und Spaltenrichtung der x- bzw. der y-Richtung der Gitterfelder von 4a, bzw. den zugehörigen Gitterfeldern in der 7.
Ersichtlich ist, daß die Hand nach Lage, Größe und Form an mehreren Stellen des zeitlichen Ablaufs der Gestendauer festgehalten wird. Diese Speicherung ermöglicht die anschließende Auswertung von ausgewählten Frames des Gesamtablaufes. Das begrenzte Raster E1 als erstes Erfassungsfeld für den Zeitpunkt T1 und das selbe begrenzte Raster für den weiteren Zeitpunkt T2 ist in der Lage, Größe und Form so auf die Handbilder abgestimmt, daß beide Handbilder 10,11 in das selbe Rasterfeld passen, ohne daß wesentliche Anteile, insbesondere überhaupt kein Abschnitt der binarisierten Hand dieses Rasterfeld verläßt. Das Rasterfeld erfaßt beide Handbilder vollständig.
Die Differenzbildung 26 kann einmal so verstanden werden, daß sie die Handbilder 10 und 11 zur Festlegung des Rasterbildes als Erfassungsfeld meint, wie an 2 veranschaulicht. Die Differenzbildung kann aber auch so verstanden werden, daß sie die zuvor beschriebenen Differenzbildungen der einzelnen Gitterfelder des Erfassungsfeldes E1 meint, wie an den 4 und 4a sowie an den Merkmalsvektoren m4, m5 gezeigt.
Zu jedem Paar von Handbildern wird ein neues Erfassungsfeld definiert. Für ein jeweiliges Paar an Handbildern bleibt dieses Erfassungsfeld aber gleich, es ändert sich also während der gesamten Gestendauer, bleibt aber nach Anzahl der Gitterfelder gleich, um die Merkmale im Ergebnis vergleichbar zu machen. Das bringt mit sich, daß bei einer ausladenden Geste, die gemäß T5, T6 von 7 einen großen Raum innerhalb des gesamten Bewegungsfeldes beansprucht, auch ein entsprechend großes Erfassungsfeld E5 vorhanden ist, bei entsprechend breiteren Rasterfeldern r, die hinsichtlich der Zahl gleich bleiben, aber in ihrer Größe verändert werden. Während eines ersten Unterabschnittes zwischen T4 und T5 bleibt das Erfassungsfeld gleich. Während des nächsten Unterabschnittes T5, T6 bleibt das Erfassungsfeld auch gleich, es ist aber ein anderes Erfassungsfeld E5, als dasjenige Erfassungsfeld E4 des vorhergehenden T0-Intervalls.
So werden eine Vielzahl von Merkmalen gewonnen, jeweils mit unterschiedlichen Erfassungsfeldern, die an die Bewegung der Hand angepaßt sind, aber es ergibt sich eine jeweils gleiche Anzahl von Skalaren in den Merkmalsvektoren m4, m5 und folgende, die vergleichbar sind.
Anzumerken ist, daß ein jeweiliges Handbild eines Paares doppelt verwendet wird. Das Handbild T5 in 7 wird sowohl für m4, wie auch für m5 verwendet, aber mit unterschiedlichem Erfassungsfeld, was die Erfassungsfelder E4 und E5 anschaulich verdeutlichen. Die selbe Handform, Handgröße und Handgestalt ist deutlich ersichtlich in zwei unterschiedlichen Rasterfeldern E4, E5 als Handabbild 15 in 7 zu erkennen. Aufgrund eines jeweils anderen Vergleichs-Handbildes ist aber das Ergebnis der Merkmalsvektoren m4 und m5 unterschiedlich.
Das Vergleichen bzw. das Klassifizieren der Merkmale aus der Merkmalsextraktion 30 übernimmt die Klassifikation 40 von 5, die als Ergebnis eine höchstwahrscheinliche Geste erkennt, die aus einem Gestenvokabular ausgewählt wird, was die 8 und 9 veranschaulichen. Diese dargestellten Gesten bilden ein "Vokabular", aus dem eine auszuwählen ist. Diese ein auszuwählende Geste ergibt sich aufgrund einer Wahrscheinlichkeit, die mit dem Netz nach den 10, 11 ermittelt wird. Die Geste, die die höchste Wahrscheinlichkeit erhält, wird als erkannt ausgewählt, was bei 8 eine Geste "Daumen nach oben" und bei 9 eine Geste "rechts" ist. Gerade die 9 veranschaulicht, daß auch andere Gesten zumindestens annähernd vergleichbare Wahrscheinlichkeiten erzielt hätten, wie "Daumen nach rechts" und "Auflegen", aber die Geste "rechts" die höchste Wahrscheinlichkeit von 50% erhalten hat und deshalb aus dem Netzwerk der 10, 11 als wahrscheinlichste Geste ermittelt wurde, orientiert an den Merkmalen, die zuvor aus der Gestendauer TG als sechs Merkmalsvektoren ermittelt wurden.
Die Klassifikation 40 erfolgt "probabilistisch" durch den Einsatz eines dynamischen Bayes'schen Netzes, wie 11 veranschaulicht. Eine übergeordnete Struktur dieses Netzes zeigt die 10. Die zuvor extrahierten Merkmalsvektoren der einzelnen Zeitintervalle, jeweils ein Merkmalsvektor für ein Zeitintervall T0, orientiert an zwei Handbildern zum Anfang und zum Ende dieses Intervalls, werden auf das Netzwerk nach 11 abgebildet, um auf die wahrscheinlichste Geste schließen zu können, wie anhand der 8, 9 verdeutlicht. Hierfür verbindet das Netzwerk die Merkmale aller Zeitintervalle von 6 miteinander. Die Wahrscheinlichkeitsverteilung des Gestik-Knotens für das letzte Intervall entspricht einer "quantitativen Evaluierung des Gestik-Hypothesenraumes". Daraus läßt sich das direkte Ergebnis der Klassifikation 40 ablesen, namentlich die Erkennung einer höchst-wahrscheinlichen Geste, die eine größte Wahrscheinlichkeit von allen Gesten des Gestenvokabulars aufweist.
Für die Erkennung werden nur jene Merkmale zugelassen, die eindeutig der Hand zuzuordnen sind. Dafür wird in regelmäßigen Abständen der Hintergrund der Hand gespeichert, um einen nahezu hintergrund-unabhängigen Erkennungsprozeß zu gewährleisten. Für jede der 64 Gitterfelder r wird eine Zustandsvariable zur Verfügung gestellt. Diese Zustände entsprechen den Helligkeitsänderungen, also im Bereich zwischen –2 und +2, entsprechend der Differenzbildung der einzelnen Gitterfelder für drei gewählte Helligkeiten mit ihrer jeweiligen Repräsentierung der Dezimalwerte 0,1 und 2. Aufgrund der Differenzbildung kann kein Wert größer als +2 und kein Wert kleiner als –2 erhalten werden. Diese Werteverteilung repräsentiert die Dynamik, also die Änderung, die damit unmittelbar in den Merkmalen bereits enthalten ist und nicht erst durch Vergleich der Merkmale berechnet werden muß.
Darüber hinaus wird die Struktur des Netzwerkes so festgelegt, daß die Merkmale der hier gewählten sechs Zeitintervalle sequentiell verarbeitet werden können. Die Netzstrukur nach 11 gibt Aufschluß über die wahrscheinlichste Geste für das entsprechende Zeitintervall, das mit Intervall 1 bis Intervall 6 nach 10 veranschaulicht ist.
Es ist anzumerken, daß die Verwendung des Bayes'schen Netzes vorteilhaft ist, daß aber die zuvor beschriebenen neuen "Gestenmerkmale" den Einsatz der Bayes'schen Netze erst ermöglichen. Diese Merkmale sind speziell auf dieses Netze abgestimmt, um eine Echtzeitadaption der Gestikerkennung für den Benutzer zu ermöglichen und eine Adaption des Erkennungsprozesses an den aktuellen Hand-Hintergrund zu leisten.
Ein Bayes'sches Netz kann als ein gerichteter, azyklischer Graph angesehen werden. Jeder Knoten des Graphen ist mit einer (bedingten) Wahrscheinlichkeitsverteilung attributiert. Die Knoten entsprechen Zufallsvariablen (Merkmalen); die Kanten des Graphen entsprechen kausalen Beziehungen zwischen den Zufallsvariablen, die durch die bedingten Wahrscheinlichkeits-Verteilungen quantifiziert werden. Sowohl die Struktur als auch die Attribute Bayes'scher Netze sind aus Daten erlernbar. Mittels geeigneter Verfahren kann über einem Bayes'schen Netz inferiert, also von bekannten Ausprägungen einiger Zufallsvariabler auf unbekannte Ausprägungen anderer Zufallsvariabler geschlossen werden.
Die Bayes'schen Netze erlauben es, die Einflußnahme des Hintergrundes zurücktreten zu lassen, um als direkte Folge dieser Adaption eine Hintergrund-Unabhängigkeit zu erhalten und damit hohe Erkennungsleistung sicherzustellen. Es können auch sehr unterschiedliche Gestenarten klassifiziert werden, um die dynamisch bewegte Hand als Geste in hoher Komplexität erfassen und einem Gestenvokabular eindeutig so zuordnen zu können, daß eine der möglichen Gesten als größt-wahrscheinlichste Geste hervortritt.
Selbst Gesten hoher Komplexität (wie das Erkennen von Zeichen, Ziffern oder Buchstaben) ist möglich. Damit ergibt sich die Fähigkeit der Verfahrensidee, für interaktive Kommunikation mit Geräten eingesetzt zu werden, deren Tastatur zu klein wäre oder deren Tastatur eingespart werden soll, ohne mit einer akustischen Schnittstelle arbeiten zu müssen. Sogar eine durch Gestik vorgegebene dreidimensionale Information kann zweidimensional erfaßt und ausgewertet werden. Damit erschließen sich völlig neue Anwendungsgebiete für die Gestikerkennung, so PDA's und wearable computing (im Sinne von portable computing). Auch eine berührungslose Schließanlage mit Auswertung einer benutzerspezifischen Dynamik ist möglich.
Ein Beispiel eines portablen technischen Gerätes zeigt die 5a. Ein Beispiel seiner Bedienung veranschaulicht die 5b. Beide Geräte können so gesteuert werden, wie zuvor anhand der Merkmalsgewinnung beschrieben, die auf einer optischen Erfassungseinrichtung als beispielsweise Kamera beruhen. Das als Beispiel herangezogene kleine Gerät ist nicht größer als eine Handfläche und in 5a mit 50 bezeichnet. Es ist aufklappbar und zuklappbar um eine Achse. Eine optische Erfassungseinrichtung 52 ist mit einem Infrarot-Filter 55 bedeckt und um die Kameraeinrichtung 52 sind mehrere Infrarot-Leuchtdioden 51 angeordnet, die Licht auf eine bewegte Handfläche oder einen Finger oder einen Fuß oder ein anderes bewegliches Körperteil gerichtet abstrahlen. Die Bedienung des Gerätes erfolgt zur Eingabe beispielsweise des Symbols "7" (sieben) so, wie 5b in sechs Momentanaufnahmen zeigt. Beginnend links oben wird der waagerechte Strich in die Luft gezeichnet, von der Erfassungseinrichtung 52 aufgrund der Beleuchtung des Fingers aufgezeichnet und der Knick des Symbols und die Diagonale werden in den folgenden zwei Momentanaufnahmen ebenfalls erfaßt. In der letzten Darstellung ist das Symbol von der Erfassungseinrichtung aufgezeichnet und kann mit den Momentanaufnahmen wie zuvor beschrieben ausgewertet werden, indem die zuvor beschriebenen Merkmale mit Bewegungsinformation gebildet werden und sie über ein beschriebenes Netz nach der größtwahrscheinlichen Geste, hier des größtwahrscheinlichen Symbols, erkannt werden. Die optische Achse ergibt sich als im wesentlichen senkrecht aus der Papierfläche erstreckend (in Richtung des Blickwinkels der Kamera 52). Die Bewegung zur Aufzeichnung des Symbols erfolgt in einer Ebene, die im wesentlichen senkrecht darauf liegt, ohne das technische Gerät zu berühren, vielmehr im Abstand und beleuchtet von den Leuchtdioden 51. Die Bereiche nahe der Kamera, also dort, wo die Hand das Symbol zeichnet, werden durch die Leuchtdioden heller dargestellt, als weiter entfernte Objekte. Damit kann das Symbol als zu erkennende Geste von der Hintergrundinformation leichter getrennt werden.
Nicht notwendig ist eine Infrarot-Filterscheibe 55 erforderlich und es können andere Wellenlängen des Lichtes ebenso verwendet werden.
Wie bei den meisten Verfahren zur Mustererkennung kann auch das vorliegend beschriebene Verfahren zusätzlich trainiert werden, durch Eingeben von Referenz-Gesten. Diese Referenz-Gesten können so eingelernt werden, daß ein Gestenvokabular entsteht, das an 8, 9 ersichtlich ist. Die Klassifikation 40 und die zuvor beschriebenen extrahierten Merkmale aus der Merkmalsextraktion 30 sind so aufeinander abgestimmt, daß das System in Echtzeit auf neue Gesten trainiert werden kann. Dadurch ist es möglich, die Gestikerkennung "im laufenden Betrieb" an eine benutzerspezifische Dynamik der Hand während einer dynamischen Geste anzupassen. Die Erkennungsleistung kann also auch durch Training verbessert und erheblich gesteigert werden.
Zum Abschluß sollen einige Zeiteinheiten gegeben werden. Eine Gestendauer liegt bei üblichen Gesten zwischen einer halben und zwei Sekunden. Eine Aufzeichnung kann für 24 Bilder, also Framen pro Sekunde realisiert werden, um die Gestendauer abzudecken. Damit liegt etwa alle 40 msec ein Frame vor. Von diesen Framen wird nach 6 nur eine kleine Anzahl ausgewählt, was aber bei erhöhter Rechnungsleistung auch gesteigert werden kann.

Claims

Verfahren zur Erfassung eines Bedeutungsgehaltes eines bewegten Körperteils oder zur Vorbereitung einer Klassifikation einer dynamischen Körperteilgeste während eines Bewegungsabschnitts (TG) des beweglichen Körperteils (10) zwischen einem ersten im wesentlichen unbewegten Zustand (T1) und einem zweiten, im wesentlichen unbewegten Zustand (T6), wobei (i) das bewegte Körperteil während des Bewegungsabschnitts (TG) mit einem Bildaufnehmer aufgezeichnet wird, zur Abgabe eines Bildgebersignals (20); (ii) eine erste Anzahl von Zeitpunkten festgelegt wird, die einen im wesentlichen gleichen zeitlichen Abstand (TO) innerhalb des Bewegungsabschnitts (TG) haben; (iii) das Körperteil (10) nach Lage, Größe und Form zumindest zu jedem der ersten Anzahl von Zeitpunkten festgehalten wird, um eine erste Anzahl von Körperteilbildern (10, 11;14,15,16) zu erhalten; (iv) ein begrenztes erstes Raster (R; r) als Erfassungsfeld (E1,E4) für einen ersten (T1,T4) und einen darauf folgenden (zweiten) Zeitpunkt (T2,T5) so auf die Lage, Größe und Form des Körperteils zu den beiden Zeitpunkten abgestimmt wird, daß das Erfassungsfeld im wesentlichen das vollständige Körperteil zu beiden Zeitpunkten (T1,T2; T4,T5) erfaßt.
Verfahren zur Erfassung eines Bedeutungsgehaltes eines bewegten Körperteils oder zur Klassifikation einer dynamischen Geste des Körperteils während eines Bewegungsabschnitts (TG) zwischen einem ersten im wesentlichen unbewegten Zustand (T1) und einem zweiten, im wesentlichen unbewegten Zustand (T6), wobei (i) das bewegte Körperteil während des Bewegungsabschnitts (TG) mit einem Bildaufnehmer aufgezeichnet wird, zur Abgabe eines Bildgebersignals (20); (ii) mehrere Zeitpunkte festgelegt werden, welche einen im wesentlichen gleichen zeitlichen Abstand (TO) innerhalb des Bewegungsabschnitts (TG) haben; (iii) das Körperteil (10) nach Lage, Größe und Form zumindest zu jedem der mehreren Zeitpunkte festgehalten wird, um mehrere zeitlich beabstandete Momentanbilder (10,11) zu erhalten; (iv) ein erstes von mehreren Merkmalen (m4,m5) des bewegten Körperteils durch eine Differenzbildung (14a,15a) von festgehaltenen Momentanbildern (10,11) zweier benachbarter Zeitpunkte (T1,T2;T2,T3) gebildet wird.
Verfahren zur Erfassung eines Bedeutungsgehaltes einer menschlichen Geste als Bewegungsabschnitt eines beweglichen Körperteils (10), zur Mitteilung des Bedeutungsgehaltes ohne erklärende Worte, wobei das bewegte Körperteil sich in einem Bewegungsfeld (8) bewegt und die Bewegung des Körperteils während im wesentlichen des gesamten Bewegungsabschnitts (TG) in dem Bewegungsfeld mit einem Bildaufnehmer aufgezeichnet wird und ein Bildsignal (20) des bewegten Körperteils abgegeben wird; wobei (aa) ein – gegenüber dem Bewegungsfeld (B) – kleineres Erfassungsfeld (E1,E4) so groß gewählt wird, daß der Körperteil (10,11) es während eines Unterabschnitts (T2-T1; T5-T4; T0) des Bewegungsabschnitts (TG) nicht verläßt; (bb) mehrere verschiedene Erfassungsfelder (E1,E4,E5) in mehreren Unterabschnitten zur Gewinnung mehrerer Merkmale (30;m4,m5) verwendet werden.
Verfahren nach Anspruch 3, wobei der Körperteil das kleinere Erfassungsfeld (E1,E5,E4) nicht wesentlich verläßt.
Verfahren nach einem der vorigen Ansprüche, wobei das Erfassungsfeld ein Raster (R) enthält, zur Bildung einer Vielzahl von kleinen Bild- oder Rasterbereichen (r) des Erfassungsfeldes.
Verfahren nach einem der vorigen Ansprüche, wobei in einer folgenden Klassifikation (40) die gewonnenen Merkmale und damit die Bewegungsabschnitte zwischen den Momentanbildern zu den festgelegten Zeitpunkten (T1 bis T7) zum Bestimmen einer größtwahrscheinlichen Geste aus einem vorgegebenen Vokabular von bekannten Gesten (8,9) verwendet werden. 6a. Verfahren nach Anspruch 6, wobei die Klassifikation ein dynamisches Bayes'sches Netz verwendet, auf dem die gewonnenen Merkmale abgebildet werden. 6b. Verfahren nach Anspruch 6 oder 6a, wobei nur Merkmale zugelassen werden, welche eindeutig dem bewegten Körperteil (10) zuzuordnen sind. 6c. Verfahren nach Anspruch 6a, wobei die Merkmale von mehreren Unterabschnitten des Bewegungsabschnitts (TG) sequentiell mit dem Bayes'schen Netz verarbeitet werden. 6d. Verfahren nach Anspruch 6b, wobei zur eindeutigen Zuordnung der Merkmale zu dem Körperteil (10) in zeitlichen Abständen ein Hintergrund des bewegten Körperteils gespeichert wird, um einen nahezu hintergrund-unabhängigen Erkennungsprozeß zu erhalten.
Verfahren nach einem der vorigen Ansprüche, wobei im begrenzten ersten Raster (R;r) mehrere Gitterfelder (r) vorgegeben werden, in denen jeweils eine Reduzierung der Auflösung vorgenommen wird, insbesondere durch eine Mittelung der Grauwerte aller Pixel in einem jeweiligen Gitterfeld (r).
Verfahren nach Anspruch 1 oder 7, wobei das Erfassungsfeld jeweils ein Rechteck ist und die Gitterfelder (r) ebenfalls Rechtecke sind.
Verfahren nach Anspruch 7, wobei in jedem der Gitterfelder (r) die Mittelung so stattfindet, daß eine grobe Quantifizierung erfolgt, insbesondere nach zumindest zwei, bevorzugt drei Werten (hell, mittel, dunkel).
Verfahren nach Anspruch 7 oder 9, wobei die Reduzierung der Auflösung durch eine Mittelwertbildung so geschieht, daß die Grauwerte der Pixelwerte in einem jeweiligen Gitterfeld (r) summiert werden und durch die Anzahl der Pixel geteilt werden, um einen mittleren Grauwert zu erhalten, der mit zumindest einem, bevorzugt zwei Schwellenwerten verglichen wird, um eine erhebliche Herabsetzung der Grauwerte für ein jeweiliges Gitterfeld (r) zu erzielen.
Verfahren nach einem der vorigen Ansprüche, wobei durch Festlegung der mehreren Zeitpunkte (T1 bis T7) Unterabschnitte des Bewegungsabschnitts (TG) gebildet werden, und damit dieser zeitliche Abschnitt segmentiert wird, gefolgt von einer zumindest zwei-wertigen "Binarisierung" von kleineren Flächenabschnitten als Gitterfelder (r) in einem jeweiligen Momentanbild zu dem jeweils festgelegten Zeitpunkt.
Verfahren nach Anspruch 1, wobei ein begrenztes zweites Raster (R, r) als zweites Erfassungsfeld (E5) für den zweiten Zeitpunkt (T5) und einen darauf folgenden nächsten Zeitpunkt (T6) so auf die Lage, Größe und Form der Hand zu diesen beiden Zeitpunkten (T5,T6) abgestimmt wird, daß das zweite Erfassungsfeld im wesentlichen das vollständige Körperteil zu diesen beiden Zeitpunkten erfaßt.
Verfahren nach einem der vorigen Ansprüche, wobei die Größe des Erfassungsfelds sich an die jeweilige Größe und Lage des Körperteils in den Momentanbildern (10,11,14,15,16) zu den jeweiligen Zeitpunkten anpaßt, aber: (i) die Anzahl der Gitterfelder (r) im ersten, zweiten und folgenden Raster gleichbleibt; (ii) die Größe und Form des Erfassungsfeldes für zwei benachbarte Momentanbilder von zwei benachbarten Zeitpunkten im wesentlichen gleich ist.
Verfahren nach Anspruch 13, wobei die Anzahl der Gitterfelder (r) in einem jeweiligen Erfassungsfeld (E1,E5) in x- und y-Richtung für alle Handbilder zu allen Zeitpunkten (T1 bis T7) gleich ist.
Verfahren nach einem der vorigen Ansprüche, wobei das Erfassungsfeld für jeweils zwei benachbarte Zeitpunkte (T1,T2;T4,T5;T5,T6) gleich ist und größer als jeweils ein umfassendes Rechteck, welches jeweilige Rechteck die sichtbare Fläche eines jeweiligen Körperteils zu den beiden benachbarten Zeitpunkten umfaßt bzw. umschreibt.
Verfahren nach Anspruch 1, 2 oder 12, wobei ein noch weiteres (drittes) begrenztes Raster auf zwei weitere, folgende Momentanbilder (15,16) angewendet wird, die hinsichtlich der Anzahl von Zeitpunkten bzw. der mehreren Zeitpunkte aufeinander folgen.
Verfahren nach Anspruch 1 oder 2, wobei die Anzahl von Zeitpunkten mehrere Zeitpunkte sind, die größer als zwei, insbesondere größer als fünf, bevorzugt sechs sind.
Verfahren nach einem voriger Ansprüche, wobei die Erfassungsfelder mit aufgezeichneten Momentanbildern des Körperteils arbeiten bzw. auf sie abgestimmt sind, ohne ein Modell des beweglichen Körperteils, insbesondere einer Hand (10) oder eines Fußabschnitts, zu verwenden.
Verfahren nach einem voriger Ansprüche, wobei das Bildgebersignal (20) durch ein von dem Körperteil (10) reflektiertes Licht gegenüber einem relativ neutralen Hintergrund entsteht. 19a. Verfahren nach Anspruch 19, wobei das Licht ein diffuses Licht ist, das von dem Körperteil reflektiert und von dem Hintergrund nicht reflektiert wird.
Verfahren nach einem voriger Ansprüche, wobei ein jeweiliges Merkmal eines Unterabschnitts des Bewegungsabschnitts (TG) von mehreren nicht gleichen Momentanbildern, insbesondere zwei benachbarten Handbildern, gebildet wird.
Verfahren nach Anspruch 20, wobei ein Merkmal aus einem zweidimensionalen Vektor besteht, der so viele Skalarwerte enthält, wie das begrenzte Raster (R) als zugeordnetes Erfassungsfeld des Unterabschnitts des Bewegungsabschnitts (TG) Gitterfelder (r) aufweist.
Verfahren nach Anspruch 21, wobei die Anzahl der Zeilen und Spalten des Merkmalsvektors der Anzahl von Gitterfeldern (r) in x- und y-Richtung des begrenzten Rasters (R, r) entspricht.
Vorrichtung zur Durchführung eines der vorgenannten Verfahren, angepaßt und ausgerichtet zur Durchführung zumindest des Anspruchs 1, 2 oder 3, mit einem Differenzbildner (26) zur Bildung einer Differenz zwischen zwei beabstandeten Momentanbildern des bewegten Körperteils (10) aus einem Bewegungsabschnitt (TG) der dynamischen Geste.
Verfahren zur Bedienung eines technischen Geräts (50), insbesondere eines Gerätes das kleiner als eine Tastatur ist, über die Geste eines Körperteils (10), oder bei welchem Gerät eine Tastatur mit allen wesentlichen Symbolen so kleine Einzelfelder für jedes Symbol ergeben würde, daß die jeweilige Fläche eines Einzelfeldes kleiner ist, als eine Fläche einer zur Bedienung verwendeten Fingerkuppe einer Hand (10) eines Benutzers, wobei ein Bildaufnehmer (52) in dem technischen Gerät (50) auf die Bewegung des Körperteils oder eines Abschnitts, insbesondere eines Fingers der Hand ausgerichtet wird, sie erfaßt und ein korrespondierendes Bildsignal abgibt, und wobei das einzugebende Symbol von dem zumindest einen Abschnitt des Körperteils in einer im wesentlichen senkrecht zu einer optischen Achse des Bildaufnehmers (52) liegenden Ebene in die Luft gezeichnet wird, ohne das technische Gerät zu berühren.
Verfahren nach Anspruch 24, wobei das Symbol ausgewählt ist aus der Gruppe: Zahl, Buchstabe, mathematischer Operator.
Verfahren nach Anspruch 24, wobei das Symbol ein Steuersymbol zur Steuerung des Gerätes (50) ist.
Verfahren nach Anspruch 24, wobei das technische Gerät ein tragbares informationstechnisches Gerät ist.