-
Die Erfindung befaßt sich
mit einem Verfahren zur Erkennung von dynamischen Gesten von beweglichen
Körperteilen.
Unter solchen dynamischen Gesten können Gesten verstanden werden,
mit denen Individuen einen Bedeutungsgehalt vermitteln oder mitteilen.
Der Bedeutungsgehalt kann zur Steuerung von technischen Systemen,
insbesondere informationstechnischen dienen, wenn ein Benutzer ein
solches Gerät
auffordern möchte,
eine bestimmte Aktion einzuleiten, oder Informationen in das Gerät einzuspeisen,
wie beispielsweise anstelle von Tastaturen, bei Dialogantworten
auf Rückfragen (Prompts),
PDA-Steuerungen ("portable" oder "personal" digital assistent),
Handysteuerungen, Bankautomaten, Fahrzeuge, Sicherheitstechnik und
andere vorstellbare Geräte,
die bedient werden möchten.
-
Dynamische Gesten vermitteln also
eine Information, ohne daß Worte
notwendig sind. Worte können
natürlich
ergänzend
gegeben werden, die reine Erkennung einer dynamischen Geste allein
genügt
aber, um den gewünschten
Bedeutungsgehalt zu erkennen. So ist es für behinderte Menschen oft hilfreich,
sich mit Gesten zu verständigen.
Auch bei solchen Menschen mit feinmotorischen Störungen und dementsprechend
vorhandenen Problemen, Tastaturen zu bedienen, können Gesten Abhilfe schaffen,
da sie Informationen zu vermitteln in der Lage sind, trotz ihrer
relativ unpräzisen
Erscheinung und einer relativ geringen Konzentration des Individuums,
das diese Geste von sich gibt.
-
Die beschriebenen dynamischen Gesten sind
als beispielsweise Handgesten eine Gestenart, die durch ihre Bewegung
lebt. Diese "dynamischen Gesten" können von einer Hand als "dynamische Handgeste"
Informationen vermitteln, die in der Bewegung der gesamten Hand
codiert sind. Diese Codierung kann von einem Betrachter ohne weiteres decodiert
werden, von optischen Systemen aber derzeit nur schwerfällig und
mit hoher Fehlerrate. Mit diesen dynamischen Gesten werden eine
Vielzahl von Gestenarten beschrieben, die allgemein aus dem Alltag
bekannt sind und somit intuitiv von einem Benutzer einsetzbar und
verständlich
sind. Beispiele dieser Gesten können
"Winken", "Winken nach "links", "Stop", "Daumen nach oben", "vorwärts", "rückwärts", "Andeutung
von Bewegungsrichtungen" und beispielsweise auch ein "Gleichgültigkeitsbekunden"
sein. Weitere solche Gesten liegen darin, Symbole, wie Zahlen oder
Buchstaben zu vermitteln, ohne eine Tastatur oder einen Bildschirm
berühren
zu müssen.
Die Buchstaben oder Zahlen werden als Symbole in die Luft gezeichnet,
mit einem Bilderfassungssystem erfaßt und als eine dynamische
Geste ausgewertet und klassifiziert, zur Steuerung eines Geräts.
-
Gestenerkennungen sind beschrieben
in
US 6,128,003 (Smith)
und
US 5,454,043 (Freemann)
sowie
US 6,002,808 (Freemann).
Letztere Schriften zeigen Handgestenerkennungen zur statischen und dynamischen
Gestenerkennung, vgl. beispielsweise
US
5,454,043 in
2b unter Verwendung
von sogenannten "Orientation Histograms".
-
Die Erfindung hat es sich zur Aufgabe
gestellt, die Erkennungssicherheit von Gestenerkennungen von beweglichen
Körperteilen
zu erhöhen und
eine hohe Erkennungsleistung zur Verfügung zu stellen, insbesondere
komplexe Gesten noch erkennen zu können. Es soll dabei auch ein
Augenmerk darauf gelegt werden, daß die erhaltenen Merkmale aus
der optischen Bildverarbeitung zur Weiterverarbeitung einfach zu
handhaben sind, so daß ein
zur Klassifizierung verwendetes Netzwerk übersichtlich bleibt.
-
Die Erfindung erreicht die vorgenannte
Problemstellung mit der Lösung
der Ansprüche
1, 2 oder 3 oder 24 oder mit der Vorrichtung nach Anspruch 23.
-
Dabei geht die Erfindung von der
Erkenntnis aus, daß – wie bei
den meisten mustererkennenden Verfahren in der Bildverarbeitung – eine Merkmalsextraktion
Anwendung findet. Diese Merkmalsextraktion befaßt sich aber nicht allein mit
statischen Bilden, sondern berücksichtigt
bereits die Bewegung der Bilder aus Momentanbildern und gliedert
Bewegungs-Informationen
in extrahierte Merkmale ein. Ein Teil der Dynamik der Geste ist
also bereits in dem jeweiligen Merkmal repräsentiert, die zu mehreren aus der
Bildverarbeitung gewonnen werden. Dabei wird nicht die Form der
Hand oder des Fußes
alleine oder ein Modell des Körperteils,
sondern die Körperteilbewegung
zur Merkmalsgewinnung verwendet, insbesondere unter Einsatz einer
Differenzbildung von zwei Fuß-
oder Handbildern an zwei Zeitpunkten während eines Bewegungsabschnitts.
Eine Differenzbildung ist repräsentativ
für eine
Bewegung. Statisch bleibende Bildbereiche werden durch die Differenzbildung
entfernt und es verbleibt derjenige Bildabschnitt, welcher eine
Bewegung symbolisiert (Anspruch 3, Anspruch 2).
-
Die Erfindung macht sich die Eigenschaft
der Geste des Körperteils
zunutze, daß sie
zwischen einem ersten im wesentlichen unbewegten und einem zweiten
im wesentlichen unbewegten Zustand abläuft bzw. stattfindet (Anspruch
1). Dieser Bewegungsabschnitt zwischen den zwei statischen Abschnitten
ist die Gestendauer oder der Zeitabschnitt, innerhalb dessen der
Bedeutungsgehalt der Geste vermittelt wird. Es ist deshalb möglich, die
Gestenerkennung über
die Erfassung von Bewegung beginnen zu lassen und über eine
Erfassung des Endes der Bewegung enden zu lassen. Der Einsatz eines Schwellenwertes
zur Bewegung hat sich bewährt, um
Beginn und Ende der Gestendauer festzulegen bzw. automatisiert erkennen
zu können.
-
Ist die Gestendauer bekannt und liegt
die gesamte Geste als Bildsignal gespeichert vor, kann sie in zeitliche
Abschnitte eingeteilt werden, die dann zur Gewinnung mehrerer Merkmale
des gesamten Ablaufs verwendet werden. Die zeitlichen Abstände sind
bevorzugt äquidistant.
Anders als der Stand der Technik, der bislang zumeist Schwerpunkte
berechnete, Momente erster Ordnung (Mittelwerte) oder zweiter Ordnung
heranzog und die Handform oder ein Modell als Voraussetzung der
Erkennung machte, kann die Erfindung die Bewegung bereits in die extrahierten
Merkmale einbringen, die zur Klassifizierung und damit zur Gestenerkennung
verwendet werden. Die Merkmale beschreiben also nicht oder nicht
allein die Form des frei beweglichen Körperteils, sondern enthalten
Bewegungsinformationen, die – bewußt oder
unbewußt – auch von
inneren Abschnitten, beispielsweise von einer Hand oder einem Fuß oder einem
Fußteil
oder Handteil als frei beweglichem Körperteil vermittelt werden,
aber an der Veränderung
der äußeren Form
alleine nicht ausreichend erkennbar wären.
-
Die visuelle Interaktion mit einem
technischen, insbesondere informationstechnischen System, wie eingangs
erläutert,
gestaltet sich am intuitivsten durch den Einsatz der beschriebenen
dynamischen Gesten (Anspruch 24), beispielsweise als Hand- oder
Fußgeste.
-
Unabhängig von der Art und der Komplexität dieser
Gesten, werden solche Gesten als Überlagerungen zweier dynamischer
Prozesse angesehen. Da beide Prozesse nicht linear unabhängig sind,
werden (neue) Merkmale verwendet, die nicht nur parallel den beiden
dynamischen Prozessen Rechnung tragen, sondern auch Korrelationen
zwischen den beiden Prozessen berücksichtigen. Das Verfahren
ist somit in der Lage, die translatorische Bewegung des gesamten
frei beweglichen Körperteils,
die dynamische Veränderung
der Silhouette bzw. der Form (aus der Sicht des Bildgebers) sowie
die semantische Beziehung zwischen der translatorischen Bewegung und
der Veränderung
der Form in Merkmalen abzubilden bzw. die "Gestenmerkmale" als neu
geschaffene Merkmale zur Weiterverarbeitung zu extrahieren.
-
Diese verschiedenen Einflüsse auf
das Momentanbild, das sich zu einem Zeitpunkt ergibt, sollen kurz
mit Lage, Form und Größe bezeichnet
werden. Die Lage gibt an, wo das Körperteil im Bewegungsfeld (Anspruch
3) liegt, die Form gibt an, welche Form das Körperteil angenommen hat und
die Größe zeigt,
ob das Körperteil
verkleinert oder gedreht im Bild sichtbar ist. Die letzten beiden
Eigenschaften überlagern
sich, sollen aber gemeinsam genannt werden, beispielsweise für Handform,
Handgröße.
-
Das Verfahren arbeitet mit Strukturen,
wie sie vom technischen Schaltungsaufbau her bei Bildverarbeitungen
bekannt sind. Die Komponenten sind in der 5 gezeichnet und sollen allgemein so
benannt werden, daß ein
Bildsignal (Videosignal) von einem Bildgeber (der nicht dargestellt
ist) abgegeben wird, einer Vorverarbeitung zugeführt wird, Merkmale extrahiert
werden und eine Klassifikation stattfindet. In dieses allgemeine
Strukturbild sind bereits Einflüsse
der hier zu beschreibenden Erfindung eingeflossen, namentlich eine
zeitliche Segmentierung und eine Gestenerkennung, so daß die 1 nicht gänzlich als
Stand der Technik zu bezeichnen ist.
-
Bei der Merkmalsextraktion wird ein
begrenztes erstes Raster als Erfassungsfeld verwendet, das so klein
als möglich
ist, aber für
jeweils zwei benachbarte Zeitpunkte gleich bleibt und in seiner Größe so ausgerichtet
ist, daß die
beiden Momentanbilder des Körperteils
dieser beiden Zeitpunkte in das begrenzte erste Raster als Erfassungsfeld
passen. Die Momentanbilder werden zu den ersten Zeitpunkten festgehalten
und "Frames" aus einer Bildfolge herausgenommen, die mehrere Bilder
des Videosignals beinhaltet, von denen aber nur ein Teil zu den
festgelegten Zeitpunkten benötigt
werden. Der Abstand zwischen den Zeitpunkten als Abtastzeit der
Bildfolge sollte äquidistant
sein und wird mit T0 benannt.
-
Die Erkennung einer Bewegung erfolgt
durch Differenzbildung von zwei so festgehaltenen Momentanbildern,
wobei mehrere Erfassungsfelder Anwendung finden können, aber
immer für
zwei benachbarte Zeitpunkte gleich groß sind (Anspruch 15). Ein Erfassungsfeld
ist kleiner als das Bewegungsfeld, in dem sich die gesamte Geste
des frei beweglichen Körperteils
abspielt und das mit dem Kamerabild oder Kamerafeld als beispielsweise
Bildgeber gleichgesetzt werden kann.
-
Das Erfassungsfeld kann ein Gitter
sein (Anspruch 7), in dem Gitterzellen als Gitterfelder definiert werden,
die dann zu Skalarwerten einer Matrix als Vektormerkmal umgerechnet
werden. In einem solchen Gitterfeld befinden sich immer zwei Abbildungen
von zwei benachbarten Zeitpunkten (als Momentanbilder). Für die nächsten beiden
Zeitpunkte wird ein neues Gitterfeld definiert (Anspruch 12). Ebenso setzt
sich das für
weitere Zeitpunkte fort bzw. für
folgende Zeitpunktpaare. Ein Zeitpunkt kann dabei jeweils beiden
Paaren angehören,
T1 und T2 sowie T2 und T3, etc.
-
Die Informationsvielfalt kann bereits
am Anfang herabgesetzt werden, indem binarisiert wird, um das Momentanbild
von dem Hintergrund zu unterscheiden. Es genügt ein Schwellenwert zur Unterscheidung
von hell und dunkel. Weitere Schwellenwerte können Anwendung finden während des
Einsatzes der Rasterfelder (Anspruch 7, 8 und 9), zur weiteren Herabsetzung
der Informationsvielfalt, beispielsweise ein Wert "Mittel" (127
oder 128 von 256 Werten bei 8 bit). Es wird also nicht mit den einzelnen Pixeln
des Bildes und ihrer großen
Vielfalt von Grauwerten gerechnet, sondern mit einer stark reduzierten
Auflösung,
die aber dennoch für
die Gestenerkennung ausreichend ist und sicherstellt, daß die extrahierten
Merkmale nicht zu komplex für
ihre Weiterverarbeitung sind.
-
Die Bedienung eines informationstechnischen
Geräts
(Anspruch 24), ohne akustische Kopplung und ohne Berührung, erfolgt über in die
Luft gezeichnete Symbole, die von einem Bildaufnehmer so erfaßt werden,
daß die
Ebene der Zeichnung oder Gestik (beispielsweise als Finger einer
Hand oder eine Hand als solches oder ein Zeh eines Fußes) im wesentlichen
senkrecht zu der optischen Achse des Bewegungsaufnehmers liegt.
-
Als zeichenbare Symbole können Zahlen
im Sinne von numerischen Zahlen, Buchstaben im Sinne des Alphabets
oder mathematische Operatoren, wie Pluszeichen, Minuszeichen und
andere Verknüpfungen,
Verwendung finden (Anspruch 25). Auch komplexere Steuersymbole,
wie "an/aus" oder "heller/dunkler" bezogen auf Bildschirme oder
andere technische Geräte
können
Einsatz finden. Diese Gestik-Schnittstelle bietet auch einem ungeübten Benutzer
ein sehr schnelles Verständnis
für die
Bedienung des Gerätes,
anders als akustische Schnittstellen oder haptische Schnittstellen,
die mit Berührung über Tastatureingabe
und Befehlswörtern
arbeiten.
-
Die Erfindung wird an Ausführungsbeispielen
näher erläutert.
-
1, 1a veranschaulicht zwei
Zeitpunkte einer dynamische ablaufenden Handgeste.
-
2 veranschaulicht
ein Differenzbild.
-
3, 3a veranschaulicht ein Erfassungsfeld
mit einem Raster auf den beiden Handbildern der 1, 1a.
-
4, 4a veranschaulicht eine
Herabsetzung der Auflösung
durch Mittelwertbildung innerhalb des Rasterfeldes E1.
-
5 veranschaulicht
eine allgemeine Prinzipdarstellung eines Bildverarbeitungssystems
mit Einflüssen
der Erfindung.
-
5a veranschaulicht
schematisch einen PDA (portable digital assistent) 50,
der mit einer optischen Erfassungseinrichtung 52, einem
Infrarot-Filter 55 sowie Infrarot-Leuchtdioden 51 versehen
ist, die den Nahbereich um die Erfassungseinrichtung 52 zu beleuchten
vermögen.
-
5b veranschaulicht
das handhabbare, insbesondere portable technische Gerät mit der
optischen Erkennungseinrichtung 52 und einer gestikulierenden
Hand zur Eingabe von Symbolen zur Steuerung des Geräts. Das
Ausgangssignal der Erkennungseinrichtung bildet beispielsweise das
Eingangs-Videosignal 20 der 5.
-
6 veranschaulicht
eine grobe Struktur einer Merkmalsextraktion 30, wie sie
in 5 angegeben ist und
aus den 1 bis 4 erläutert werden soll.
-
7 ist
eine grafische Darstellung von drei Zeitpunkten T4, T5, T6 eines
Gestenverlaufs (eines Unterabschnitts einer dynamischen Handgeste)
und ihre Umsetzung in zwei Merkmale m4, m5.
-
8 ist
ein Gestenvokabular und die Wahrscheinlichkeit des Vorliegens einer
bestimmten Geste, hier: Daumen oben, die aufgrund der vorgenannten
Bildverarbeitung und Klassifizierung nach 10, 11 erhalten
wird.
-
9 ist
eine Wahrscheinlichkeitsverteilung zu einer alternativen (anderen)
Geste aus demselben Gestenvokabular von 8, bei der eine "Rechts"-Geste erkannt wird.
-
10 veranschaulicht
die Klassifikation durch Einsatz der extrahierten Merkmale aus den mehreren
Intervallen, hier mit sechs Intervallen im Zeitabschnitt der dynamischen
Handgeste.
-
11 ist
die Topologie eines dynamischen Bayes'schen Netzes für ein Zeitintervall
von 10.
-
Zur Veranschaulichung einer Handgeste
sei zunächst
auf die 1, 1a sowie auf die sehr komplexe 7 verwiesen, die Handgesten
veranschaulichen, aber nur jeweils Zeitpunkte und Lage, Größe und Form
einer Hand in einem Handbild, die insgesamt einen Bewegungsablauf
durchlaufen hat, der als solches nicht dargestellt ist. Mögliche Handgesten
sind aus den 8 und 9
ersichtlich, mit eindeutig benannten dynamischen Gesten, die aufgrund
der Benennungen ohne weiteres ersichtlich sind. Von diesen Handgesten
zeigen die Zeitpunkte T1, T2 von 1, 1a eine Verschiebung einer
Hand mit ausgestreckten Fingern von einer weiter links in dem Bewegungsfeld
B liegenden Hand 10 zu der weiter rechts liegenden gleichen
Hand 11 in 1a zu
einem kurzzeitig späteren
Zeitpunkt T2. Die Gestik könnte
eine Bewegung nach rechts oder ein Winken andeuten. Eine Kombination
aus Translation und Drehung sowie Verformung der Hand zeigt die 7 mit einer Rechtsbewegung
von der Hand 14 zur Darstellung 15, bei gleichzeitiger
Drehung und mit anschließender
Linksbewegung an den linken Rand des Bewegungsfeldes B zum Zeitpunkt
T6.
-
Das Bewegungsfeld B wird von einem
Kamerabild vorgegeben, das als Bildaufnehmer ein Videosignal 20 abgibt,
wie in 5 veranschaulicht.
Dieses Videosignal wird in Frames (Bilder) zerlegt, die in 6 anschaulich als zeitliche
Sequenz so dargestellt sind, daß der
Frame-Speicher 22 die einzelnen Bilder zu kurzzeitig abgetasteten
Zeitpunkten digital speichert. Die gesamte Gestendauer hat n Bilder
und eine Dauer TG.
-
Die Information, welche Frames (Bilder)
des Videosignals 20 zur Klassifikation der Geste verwendet
werden sollen, wird durch Abtastzeitpunkte vorgegeben. Diese Abtastzeitpunkte
haben einen Abstand T0, der sechs Intervalle definiert, die zwischen den
Zeitpunkten T1 bis T7 in 6 liegen.
Diese zeitliche Segmentierung 21 liegt noch vor der Vorverarbeitung 25 von 5 und wählt bestimmte Frames aus, die
aus dem gesamten Bewegungsablauf angeboten werden.
-
Es werden dabei alle Frames auf einen
möglichen
Gestenanfang bzw. ein Gestenende, also auf die Zeitpunkte 0 und
TG hin untersucht, wenn das System eigenständig den Beginn der Geste und
das Ende der Geste erfassen soll. Dazu ist für dynamische Handgesten eine
Prüfung
vorgesehen, ob der aktuelle Frame bezüglich eines vorhergehenden
Frames ein gewisses Maß an
Abweichung überschreitet. Eine
Abweichung als Überschreitung
eines bestimmten Schwellenwertes wird als Dynamik interpretiert und
läßt auf eine
Bewegung der Hand schließen. Hierfür wird ein
Differenzbild berechnet, d. h. es wird eine Differenz aller Helligkeitswerte
des aktuellen Frames und des vorhergehenden Frames gebildet.
-
Wenn die Summe aller Differenzwerte
einen vorgegebenen Schwellenwert, der relativ gering ist, überschreitet,
werden die folgenden Frames als dynamische Geste interpretiert.
Es liegt also der Zeitpunkt des Beginns einer dynamischen Geste
fest, der in 6 mit "Null"
(t=0) bezeichnet ist.
-
Entsprechend wird auch das Ende einer
dynamischen Geste detektiert. Wird die zuvor genannte Schwelle unterschritten,
kann davon ausgegangen werden, daß das Ende der Geste, also
der Zeitpunkt TG erreicht ist. Auf diese Weise können alle Frames ermittelt
werden, die für
die Erkennung der dynamischen Geste als Helligkeitswerte zur Verfügung stehen.
In 6 sind das die Framen 1 bis
n.
-
In der Vorverarbeitung 25 wird
aus dem Videosignal ein binäres
Bild erzeugt, d. h. den Pixeln (Bildpunkten) aller relevanten Frames
werden Werte für
schwarz oder weiß zugeordnet.
Es findet also eine Vorverarbeitung statt, bei der ein großes Maß an angebotener
Information ausgeblendet wird, um mit reduzierter Auflösung weiterarbeiten
zu können,
wobei lediglich von Interesse ist, ob die Hand abgebildet ist oder
der Hintergrund vorliegt. Im Idealfall entsprechen die Pixel mit
maximaler Helligkeit der Hand und schwarze Pixel dem Hintergrund.
-
Die Vorverarbeitung kann erleichtert
werden, wenn das optische Umfeld besonders angepaßt ist. So
kann der in 5 nicht
dargestellte Bildaufnehmer, dessen Ausgangssignal aber dem Videosignal 20 entspricht,
reflektierte Strahlung von der Hand aufzeichnen. Die Hand bewegt
sich dabei in dem Bildfenster des Bildaufnehmers, das zuvor als
"Bewegungsfeld" definiert wurde. Dieses Bewegungsfeld ist in 1 schwarz umrandet. Die
ganze Hand in dem Bewegungsfeld wird durch eine Beleuchtung der
Hand stark von dem Hintergrund abgesetzt. Der Hintergrund ist neutral
zu betrachten, und die reflektierte Strahlung von der Hand gibt
in der Regel eine gute Unterscheidung gegenüber dem Hintergrund. Zusätzlich kann
sichtbares Licht durch eine dunkle Scheibe ausgefiltert werden,
oder es kann eine IR-Kamera verwendet werden, bei einer vorgelagerten
Filterscheibe, die nur IR-Licht passieren läßt.
-
Besonders geeignet ist diffuses Licht,
um die gewünschte
Handabbildung deutlich von dem Hintergrund unterscheiden zu können und
bereits bei der Vorverarbeitung den Hintergrund von der Hand klar zu
trennen und in dem binären
Bild darzustellen. Von diesen binären Bildern wird im folgenden
ausgegangen, und alle Darstellungen zeigen die Hand im Rahmen des
Videosignals und der zeitlichen Segmentierung als binarisiertes
Handbild.
-
Eine Merkmalsextraktion aus einer
Bewegung soll im folgenden beschrieben werden und bildet Grundlage
für später anzuwendende
Klassifikationsverfahren, die mit den Merkmalen arbeiten. Die Extraktion
der Merkmale findet nach 6 statt,
mit einer Anordnung nach 5.
Am deutlichsten wird die Extraktion der Merkmale, von denen zwei
Merkmale m4,m5 als Vektoren dargestellt sind, an 7.
-
6 veranschaulicht
den zeitlichen Ablauf vertikal. Alle Frames, also alle Handbilder
entsprechend denjenigen, die in 1, 1a ersichtlich sind, werden
gespeichert. Nachdem die Gestendauer TG bekannt ist und eine erste
Binarisierung bereits stattgefunden hat, stellt jeder Frame eine
Hand dar, zu jeweils einem weiter fortgeschrittenen Zeitpunkt. Davon
werden im Beispiel nur sieben Zeitpunkte verwendet, die äquidistant
sind. Es wird also der Frame 1, der Frame zum Zeitpunkt
T2, zum Zeitpunkt T3 usw. verwendet, bis zum Zeitpunkt T7, welches
das Ende TG des Bewegungsablaufes der Handbewegung darstellt. Alle
für die
Verarbeiten relevanten Frames sind binär gespeichert. Aufgrund der
bekannten Dauer der Geste und der Anzahl der Frames kann für sechs
Zeitintervalle festgelegt werden, welche Frames für die Weiterverarbeitung
Berücksichtigung
finden sollen. Die Anzahl der für
die Merkmalsextraktion verwendeten Frames ist vom Wesen her nicht
beschränkt,
sie kann kleiner und größer sein,
soll im folgenden aber an sechs Zeitintervallen erläutert werden,
wobei ein Zeitintervall sich aus der Differenz von zwei Zeitpunkten
T2-T1, T3-T2 usw. jeweils bildet. Aus den Frames zu diesen Zeitpunkten,
also den Framen, die am Anfang und am Ende eines Intervalls T0 stehen,
werden Merkmale berechnet, und zwar für jedes Zeitintervall ein Merkmal,
das diejenige Gestalt besitzt, wie sie an 7 am unteren Bildrand erkennbar ist.
-
Für
jedes der sechs Zeitintervalle wird der gebildete (oder extrahierte)
Merkmalsvektor m berechnet, und jeder einzelne Merkmalsvektor gibt
die translatorische Dynamik der Hand sowie die Dynamik der Handform
innerhalb des mit ihm korrespondierenden Zeitintervalls wieder.
Alle sechs Merkmalsvektoren m ergeben dann den Gesamt-Merkmalsvektor
M, der in 6 am rechten
Bildrand dargestellt ist und der in der Merkmalsberechnung 30 extrahiert
wird. Er beschreibt die gesamte Geste und ist Grundlage der Klassifikation.
-
Ganz wesentlich ist die Qualität und Güte der extrahierten
Merkmale für
die Güte
der Klassifikation, so daß im
einzelnen darauf eingegangen werden soll, wie die neuen Merkmale
erhalten werden. Dazu wird auf die 1 bis 4 sowie insgesamt auf die 7 zu verweisen sein, die
diese Merkmalsextraktionen bildlich und übersichtlich darstellen.
-
Es wird zunächst das erste Zeitintervall
zwischen T1 und T2 betrachtet. Diese Betrachtung kann dann auf alle
weiteren Zeitintervalle übertragen
werden. In 7 sind drei
Zeitintervalle T4, T5 und T6 gezeigt, zunächst aber soll auf das erste
Zeitintervall T0 zwischen 0 und 1/6TG eingegangen werden.
-
Da dynamische Gesten von Bedeutung
sein sollen, wird ausschließlich
derjenige Bereich des Bewegungsfeldes B von Interesse sein, der
auf eine Bewegung der Hand als bewegliches Körperteil schließen läßt. Dieser
Bereich wird durch Berechnung eines Differenzbildes der relevanten
beiden Frames zum Zeitpunkt T1 und T2 bestimmt. Das Differenzbild ist
in 2 veranschaulicht.
Diese 2 zeigt das Handbild
zum Zeitpunkt T1, subtrahiert vom Handbild zum Zeitpunkt T2. Das
sich ergebende Differenz-Handbild 10a entspricht der Differenz
der Handbilder 10 und 11. Es bildet gleichzeitig
aber auch einen Bewegungsbereich ab, den die Hand zwischen den Zeitpunkten
T1 und T2 eingenommen hat. Der Bewegungsbereich der Hand ist größer als
die jeweilige Hand zum Zeitpunkt T1 und zum Zeitpunkt T2, aber nicht
größer als
das Bewegungsfeld B.
-
Alle weißen Bildpunkte in der 2 weisen auf Bewegung hin.
Um diese Bereiche auszuwerten, wird ein Raster R nach 3 und nach 3a über die
jeweilige Hand bzw. über
das Differenzbild der 2 gelegt.
Dieses Differenzbild gibt die Größe des Rasters
als Erfassungsfeld E1 vor, wobei die 3 und 3a zeigen, daß das Raster insgesamt größer ist, als
das jeweilige Einzelbild der Hand 10 oder 11. Trotzdem
das Erfassungsfeld E1 größer ist,
als die jeweilige Hand, ist das Erfassungsfeld deutlich kleiner, als
das Bewegungsfeld. Dieses Raster soll also einen möglichst
kleinen Flächeninhalt
besitzen, ist aber durchaus größer gewählt, als
die Hand zu einem jeweiligen Zeitpunkt T1 oder T2.
-
Das hier als Rechteck dargestellte
Erfassungsfeld stellt eine Näherung
an die örtliche
Segmentierung der gesamten Dynamik innerhalb des betrachteten Zeitintervalls
T0 dar. Das Rechteck wird in die beiden betrachteten Frames projiziert,
was die 3,3a veranschaulichen. Jedes Rechteck ist
aufgeteilt in eine Vielzahl kleinerer Gitterfelder, die mit r bezeichnet
sind. Im dargestellten Beispiel sind 8×8 Gitterfelder r vorgesehen,
die alle gleich groß sind. Damit
bilden sich 64 Gitterfelder, die alle selbst Rechtecke sind, wie
auch das gesamte Erfassungsfeld E1.
-
Eine Weiterverarbeitung der so vorgegebenen
Gitterfelder ist eine weitere Reduzierung der Auflösung, indem
für jedes
Gitterfeld "r" ein Mittelwert gebildet wird und dieser Mittelwert
im hier beschriebenen Beispiel drei Werte annehmen kann, was die 4,4a verdeutlichen. Die einzelnen Gitterfelder
r können
dabei weiß,
grau oder schwarz sein. Es werden also drei mögliche Quantifizierungen gewählt, die
mit zwei Schwellenwerten zwischen den Helligkeitswerten 0 und 255 (für eine 8-Bit-Verarbeitung) erreicht
werden können.
Die hier abgebildete Hand ist jetzt weiter in der Auflösung herabgesetzt,
aber nicht mit einer bloßen
"binären"
Binarisierung, sondern mit einer weiteren Zwischenstufe als Grauwert, dargestellt
als stark abstrahierte Hand 10' bzw. 11', ausgehend
von den 1,1a. Die drei Helligkeitsstufen
für niedrige,
mittlere und hohe Helligkeit sind auch aus 7 ersichtlich. Aus diesen Helligkeitsstufen
beider Frames im Raster R werden nun die Merkmale als Vektoren berechnet,
wie sie an 7 als Merkmale
m4 und m5 ersichtlich sind. Die Helligkeitsstufen (niedrige, mittlere
und hohe Helligkeit) der beiden zeitlich beabstandeten aber nebeneinander liegenden
Handbilder werden innerhalb der einzelnen miteinander korrespondierenden
Gitterfelder r lagerichtig miteinander verglichen. Das linke untere Gitterfeld
der 4 wird mit dem linken
unteren Gitterfeld der 4a verglichen.
Auch die anderen Gitterfelder werden dementsprechend verglichen.
Eine sich ergebende Änderung
der Helligkeitsstufen wird hier als vorliegende Dynamik interpretiert.
-
Eine einfache Möglichkeit des Vergleiches bietet
sich dann, wenn die Helligkeitsstufen als Dezimalzahlen 0, 1 bis
2 angesetzt werden, repräsentierend
die niedrige, mittlere und hohe Helligkeit in den einzelnen Gitterfeldern
r. Mit diesen Dezimalzahlen kann eine Differenzbildung 26 die
Dynamik in einem zu bildenden Vektor als Merkmal repräsentieren.
Die Helligkeitsstufen des jeweils früheren Frames werden in dem
jeweiligen Gitterfeld r von den Helligkeitsstufen des nächsten Frames
subtrahiert, wobei das korrespondierende Gitterfeld Anwendung findet.
Als Ergebnis erhält
man einen Merkmalsvektor, wie er in der 7 am unteren Rand dargestellt ist, für das Erfassungsfeld
E4, und die in ihm liegenden Handbilder 14 und 15. Das
Merkmal m5 wird aus den Handbildern 15,16 in dem
weiteren, nächsten
Erfassungsfeld E5 gewonnen.
-
Für
das gezeigte Beispiel sind acht Zeilen und acht Spalten für das erhaltene
bzw. extrahierte Merkmal angegeben, entsprechend einer Gitterfeldstruktur
von 8×8
kleinen Gitterfeldern r in dem Erfassungsfeld E1.
-
Für
zwei Gitterfelder soll anhand von 7 diese
Berechnung erläutert
werden, so daß sie
für die anderen
Gitterfelder bei der günstigen
graphischen Darstellung ohne weiteres entsprechend nachvollzogen
werden kann. Das rechte obere Feld r in dem Erfassungsfeld E4 hat
für die
Handabbildung 15' den Helligkeitswert 1. Nachdem
das entsprechende Rasterfeld der Handabbildung 14 in demselben
Erfassungsfeld E4 einen Helligkeitswert 0 besitzt, ergibt sich als
Differenz nur im rechten oberen Gitterfeld r der Skalar 1 in
dem Merkmalsvektor m4, wobei von dem zeitlich späteren Handbild 15' das
zeitlich frühere
Handbild 14' abgezogen wurde.
-
Ein weiteres Beispiel zeigt für das dritte
Erfassungsfeld in der oberen Reihe von rechts, daß die Differenz
von zwei Helligkeitswerten 1 hier Null ergibt, wie es auch
in der Matrix von m4 angegeben wird.
-
Die Matrix m4 entspricht in Zeilen-
und Spaltenrichtung der x- bzw.
der y-Richtung der Gitterfelder von 4a,
bzw. den zugehörigen
Gitterfeldern in der 7.
-
Ersichtlich ist, daß die Hand
nach Lage, Größe und Form
an mehreren Stellen des zeitlichen Ablaufs der Gestendauer festgehalten
wird. Diese Speicherung ermöglicht
die anschließende
Auswertung von ausgewählten
Frames des Gesamtablaufes. Das begrenzte Raster E1 als erstes Erfassungsfeld
für den
Zeitpunkt T1 und das selbe begrenzte Raster für den weiteren Zeitpunkt T2
ist in der Lage, Größe und Form
so auf die Handbilder abgestimmt, daß beide Handbilder 10,11 in
das selbe Rasterfeld passen, ohne daß wesentliche Anteile, insbesondere überhaupt
kein Abschnitt der binarisierten Hand dieses Rasterfeld verläßt. Das
Rasterfeld erfaßt
beide Handbilder vollständig.
-
Die Differenzbildung 26 kann
einmal so verstanden werden, daß sie
die Handbilder 10 und 11 zur Festlegung des Rasterbildes
als Erfassungsfeld meint, wie an 2 veranschaulicht.
Die Differenzbildung kann aber auch so verstanden werden, daß sie die
zuvor beschriebenen Differenzbildungen der einzelnen Gitterfelder
des Erfassungsfeldes E1 meint, wie an den 4 und 4a sowie
an den Merkmalsvektoren m4, m5 gezeigt.
-
Zu jedem Paar von Handbildern wird
ein neues Erfassungsfeld definiert. Für ein jeweiliges Paar an Handbildern
bleibt dieses Erfassungsfeld aber gleich, es ändert sich also während der
gesamten Gestendauer, bleibt aber nach Anzahl der Gitterfelder gleich,
um die Merkmale im Ergebnis vergleichbar zu machen. Das bringt mit
sich, daß bei
einer ausladenden Geste, die gemäß T5, T6
von 7 einen großen Raum
innerhalb des gesamten Bewegungsfeldes beansprucht, auch ein entsprechend großes Erfassungsfeld
E5 vorhanden ist, bei entsprechend breiteren Rasterfeldern r, die
hinsichtlich der Zahl gleich bleiben, aber in ihrer Größe verändert werden.
Während
eines ersten Unterabschnittes zwischen T4 und T5 bleibt das Erfassungsfeld
gleich. Während
des nächsten
Unterabschnittes T5, T6 bleibt das Erfassungsfeld auch gleich, es
ist aber ein anderes Erfassungsfeld E5, als dasjenige Erfassungsfeld
E4 des vorhergehenden T0-Intervalls.
-
So werden eine Vielzahl von Merkmalen
gewonnen, jeweils mit unterschiedlichen Erfassungsfeldern, die an
die Bewegung der Hand angepaßt
sind, aber es ergibt sich eine jeweils gleiche Anzahl von Skalaren
in den Merkmalsvektoren m4, m5 und folgende, die vergleichbar sind.
-
Anzumerken ist, daß ein jeweiliges
Handbild eines Paares doppelt verwendet wird. Das Handbild T5 in 7 wird sowohl für m4, wie
auch für
m5 verwendet, aber mit unterschiedlichem Erfassungsfeld, was die
Erfassungsfelder E4 und E5 anschaulich verdeutlichen. Die selbe
Handform, Handgröße und Handgestalt
ist deutlich ersichtlich in zwei unterschiedlichen Rasterfeldern
E4, E5 als Handabbild 15 in 7 zu
erkennen. Aufgrund eines jeweils anderen Vergleichs-Handbildes ist
aber das Ergebnis der Merkmalsvektoren m4 und m5 unterschiedlich.
-
Das Vergleichen bzw. das Klassifizieren
der Merkmale aus der Merkmalsextraktion 30 übernimmt die
Klassifikation 40 von 5,
die als Ergebnis eine höchstwahrscheinliche
Geste erkennt, die aus einem Gestenvokabular ausgewählt wird,
was die 8 und 9 veranschaulichen. Diese
dargestellten Gesten bilden ein "Vokabular", aus dem eine auszuwählen ist.
Diese ein auszuwählende
Geste ergibt sich aufgrund einer Wahrscheinlichkeit, die mit dem
Netz nach den 10, 11 ermittelt wird. Die Geste,
die die höchste
Wahrscheinlichkeit erhält,
wird als erkannt ausgewählt,
was bei 8 eine Geste
"Daumen nach oben" und bei 9 eine
Geste "rechts" ist. Gerade die 9 veranschaulicht,
daß auch
andere Gesten zumindestens annähernd
vergleichbare Wahrscheinlichkeiten erzielt hätten, wie "Daumen nach rechts"
und "Auflegen", aber die Geste "rechts" die höchste Wahrscheinlichkeit von
50% erhalten hat und deshalb aus dem Netzwerk der 10, 11 als wahrscheinlichste
Geste ermittelt wurde, orientiert an den Merkmalen, die zuvor aus
der Gestendauer TG als sechs Merkmalsvektoren ermittelt wurden.
-
Die Klassifikation 40 erfolgt
"probabilistisch" durch den Einsatz eines dynamischen Bayes'schen Netzes,
wie 11 veranschaulicht.
Eine übergeordnete
Struktur dieses Netzes zeigt die 10.
Die zuvor extrahierten Merkmalsvektoren der einzelnen Zeitintervalle,
jeweils ein Merkmalsvektor für
ein Zeitintervall T0, orientiert an zwei Handbildern zum Anfang
und zum Ende dieses Intervalls, werden auf das Netzwerk nach 11 abgebildet, um auf die
wahrscheinlichste Geste schließen
zu können,
wie anhand der 8, 9 verdeutlicht. Hierfür verbindet
das Netzwerk die Merkmale aller Zeitintervalle von 6 miteinander. Die Wahrscheinlichkeitsverteilung
des Gestik-Knotens für
das letzte Intervall entspricht einer "quantitativen Evaluierung
des Gestik-Hypothesenraumes". Daraus läßt sich das direkte Ergebnis der
Klassifikation 40 ablesen, namentlich die Erkennung einer
höchst-wahrscheinlichen
Geste, die eine größte Wahrscheinlichkeit
von allen Gesten des Gestenvokabulars aufweist.
-
Für
die Erkennung werden nur jene Merkmale zugelassen, die eindeutig
der Hand zuzuordnen sind. Dafür
wird in regelmäßigen Abständen der
Hintergrund der Hand gespeichert, um einen nahezu hintergrund-unabhängigen Erkennungsprozeß zu gewährleisten.
Für jede
der 64 Gitterfelder r wird eine Zustandsvariable zur Verfügung gestellt.
Diese Zustände
entsprechen den Helligkeitsänderungen,
also im Bereich zwischen –2
und +2, entsprechend der Differenzbildung der einzelnen Gitterfelder
für drei gewählte Helligkeiten
mit ihrer jeweiligen Repräsentierung
der Dezimalwerte 0,1 und 2. Aufgrund der Differenzbildung kann kein
Wert größer als
+2 und kein Wert kleiner als –2
erhalten werden. Diese Werteverteilung repräsentiert die Dynamik, also
die Änderung, die
damit unmittelbar in den Merkmalen bereits enthalten ist und nicht
erst durch Vergleich der Merkmale berechnet werden muß.
-
Darüber hinaus wird die Struktur
des Netzwerkes so festgelegt, daß die Merkmale der hier gewählten sechs
Zeitintervalle sequentiell verarbeitet werden können. Die Netzstrukur nach 11 gibt Aufschluß über die
wahrscheinlichste Geste für
das entsprechende Zeitintervall, das mit Intervall 1 bis
Intervall 6 nach 10 veranschaulicht
ist.
-
Es ist anzumerken, daß die Verwendung
des Bayes'schen Netzes vorteilhaft ist, daß aber die zuvor beschriebenen
neuen "Gestenmerkmale" den Einsatz der Bayes'schen Netze erst ermöglichen. Diese
Merkmale sind speziell auf dieses Netze abgestimmt, um eine Echtzeitadaption
der Gestikerkennung für
den Benutzer zu ermöglichen
und eine Adaption des Erkennungsprozesses an den aktuellen Hand-Hintergrund
zu leisten.
-
Ein Bayes'sches Netz kann als ein
gerichteter, azyklischer Graph angesehen werden. Jeder Knoten des
Graphen ist mit einer (bedingten) Wahrscheinlichkeitsverteilung
attributiert. Die Knoten entsprechen Zufallsvariablen (Merkmalen);
die Kanten des Graphen entsprechen kausalen Beziehungen zwischen
den Zufallsvariablen, die durch die bedingten Wahrscheinlichkeits-Verteilungen quantifiziert werden.
Sowohl die Struktur als auch die Attribute Bayes'scher Netze sind
aus Daten erlernbar. Mittels geeigneter Verfahren kann über einem
Bayes'schen Netz inferiert, also von bekannten Ausprägungen einiger
Zufallsvariabler auf unbekannte Ausprägungen anderer Zufallsvariabler
geschlossen werden.
-
Die Bayes'schen Netze erlauben es,
die Einflußnahme
des Hintergrundes zurücktreten
zu lassen, um als direkte Folge dieser Adaption eine Hintergrund-Unabhängigkeit
zu erhalten und damit hohe Erkennungsleistung sicherzustellen. Es
können
auch sehr unterschiedliche Gestenarten klassifiziert werden, um
die dynamisch bewegte Hand als Geste in hoher Komplexität erfassen und
einem Gestenvokabular eindeutig so zuordnen zu können, daß eine der möglichen
Gesten als größt-wahrscheinlichste
Geste hervortritt.
-
Selbst Gesten hoher Komplexität (wie das Erkennen
von Zeichen, Ziffern oder Buchstaben) ist möglich. Damit ergibt sich die
Fähigkeit
der Verfahrensidee, für
interaktive Kommunikation mit Geräten eingesetzt zu werden, deren
Tastatur zu klein wäre oder
deren Tastatur eingespart werden soll, ohne mit einer akustischen
Schnittstelle arbeiten zu müssen. Sogar
eine durch Gestik vorgegebene dreidimensionale Information kann
zweidimensional erfaßt
und ausgewertet werden. Damit erschließen sich völlig neue Anwendungsgebiete
für die
Gestikerkennung, so PDA's und wearable computing (im Sinne von portable
computing). Auch eine berührungslose
Schließanlage
mit Auswertung einer benutzerspezifischen Dynamik ist möglich.
-
Ein Beispiel eines portablen technischen
Gerätes
zeigt die 5a. Ein Beispiel
seiner Bedienung veranschaulicht die 5b.
Beide Geräte
können
so gesteuert werden, wie zuvor anhand der Merkmalsgewinnung beschrieben,
die auf einer optischen Erfassungseinrichtung als beispielsweise
Kamera beruhen. Das als Beispiel herangezogene kleine Gerät ist nicht
größer als
eine Handfläche
und in 5a mit 50 bezeichnet.
Es ist aufklappbar und zuklappbar um eine Achse. Eine optische Erfassungseinrichtung 52 ist
mit einem Infrarot-Filter 55 bedeckt und um die Kameraeinrichtung 52 sind
mehrere Infrarot-Leuchtdioden 51 angeordnet,
die Licht auf eine bewegte Handfläche oder einen Finger oder
einen Fuß oder
ein anderes bewegliches Körperteil
gerichtet abstrahlen. Die Bedienung des Gerätes erfolgt zur Eingabe beispielsweise
des Symbols "7" (sieben) so, wie 5b in
sechs Momentanaufnahmen zeigt. Beginnend links oben wird der waagerechte
Strich in die Luft gezeichnet, von der Erfassungseinrichtung 52 aufgrund der
Beleuchtung des Fingers aufgezeichnet und der Knick des Symbols
und die Diagonale werden in den folgenden zwei Momentanaufnahmen
ebenfalls erfaßt.
In der letzten Darstellung ist das Symbol von der Erfassungseinrichtung
aufgezeichnet und kann mit den Momentanaufnahmen wie zuvor beschrieben ausgewertet
werden, indem die zuvor beschriebenen Merkmale mit Bewegungsinformation
gebildet werden und sie über
ein beschriebenes Netz nach der größtwahrscheinlichen Geste, hier
des größtwahrscheinlichen
Symbols, erkannt werden. Die optische Achse ergibt sich als im wesentlichen
senkrecht aus der Papierfläche
erstreckend (in Richtung des Blickwinkels der Kamera 52).
Die Bewegung zur Aufzeichnung des Symbols erfolgt in einer Ebene,
die im wesentlichen senkrecht darauf liegt, ohne das technische
Gerät zu
berühren,
vielmehr im Abstand und beleuchtet von den Leuchtdioden 51.
Die Bereiche nahe der Kamera, also dort, wo die Hand das Symbol zeichnet,
werden durch die Leuchtdioden heller dargestellt, als weiter entfernte
Objekte. Damit kann das Symbol als zu erkennende Geste von der Hintergrundinformation
leichter getrennt werden.
-
Nicht notwendig ist eine Infrarot-Filterscheibe 55 erforderlich
und es können
andere Wellenlängen
des Lichtes ebenso verwendet werden.
-
Wie bei den meisten Verfahren zur
Mustererkennung kann auch das vorliegend beschriebene Verfahren
zusätzlich
trainiert werden, durch Eingeben von Referenz-Gesten. Diese Referenz-Gesten können so
eingelernt werden, daß ein
Gestenvokabular entsteht, das an 8, 9 ersichtlich ist. Die Klassifikation 40 und
die zuvor beschriebenen extrahierten Merkmale aus der Merkmalsextraktion 30 sind
so aufeinander abgestimmt, daß das
System in Echtzeit auf neue Gesten trainiert werden kann. Dadurch
ist es möglich,
die Gestikerkennung "im laufenden Betrieb" an eine benutzerspezifische
Dynamik der Hand während
einer dynamischen Geste anzupassen. Die Erkennungsleistung kann
also auch durch Training verbessert und erheblich gesteigert werden.
-
Zum Abschluß sollen einige Zeiteinheiten gegeben
werden. Eine Gestendauer liegt bei üblichen Gesten zwischen einer
halben und zwei Sekunden. Eine Aufzeichnung kann für 24 Bilder,
also Framen pro Sekunde realisiert werden, um die Gestendauer abzudecken.
Damit liegt etwa alle 40 msec ein Frame vor. Von diesen Framen wird
nach 6 nur eine kleine
Anzahl ausgewählt,
was aber bei erhöhter Rechnungsleistung
auch gesteigert werden kann.