-
Die
Erfindung betrifft ein Verfahren zur automatischen Erkennung wenigstens
der Art und/oder der Lage einer mit einer Gliedmaße gebildeten
Geste, insbesondere einer Handgeste, wobei zeitgleich eine Mehrzahl
zweidimensionaler Bilder der Gliedmaße aus unterschiedlichen Richtungen
erfasst wird.
-
Die
Erkennung von Handgesten, insbesondere um Verfahrensabläufe zu steuern,
ist für
verschiedene technische Gebiete von großem Interesse. Dabei geht es
im Allgemeinen insbesondere darum, einerseits die Art der Geste
zu erkennen und andererseits deren Lage im Raum. Mit der Erkennung der
Art der Geste ist gemeint, zu erkennen, um welche Geste es sich
handelt, was z. B. bei einer Handgeste darüber definiert sein kann, ob
die jeweiligen Finger der Hand geschlossen oder geöffnet sind.
Die Lage der Geste im Raum kann über
deren Position und/oder Orientierung gegeben sein und ist somit
z. B. darüber
definiert, wohin ein vorbestimmter Finger zeigt und an welcher Position
er sich befindet. Das bedeutet insbesondere, dass vorliegend der
Begriff Lage so zu verstehen ist, dass er je nach Anwendungsfall
nur die Orientierung im Raum, nur die Position im Raum oder gemeinsam
die Orientierung und die Position im Raum meint.
-
Einigermaßen verlässliche
Gestenerkennungssysteme, die sowohl die Erkennung der Art der Geste
als auch deren Lage erlauben, existieren bisher entweder nur im
zweidimensionalen Raum oder benötigen
erheblichen technischen Aufwand und Hilfsmittel, wie an verschiedenen
Punkten der Gliedmaße,
wie an den Fingerspitzen einer Hand, befestigte Marker. Im Ergebnis
sind damit keine Verfahren und Systeme bekannt, mit denen im dreidimensionalen
Raum verlässlich
die Erkennung von Art und Orientierung einer Geste durchgeführt werden
kann.
-
Damit
ist es die Aufgabe der Erfindung, ein derartiges Verfahren zur automatischen
Gestenerkennung anzugeben, das auf einfache und verlässliche
Weise in Echtzeit durchführbar
ist.
-
Ausgehend
von dem eingangs beschriebenen Verfahren ist diese Aufgabe dadurch
gelöst,
dass die zweidimensionalen Bilder zu einem dreidimensionalen Bild
kombiniert werden und das dreidimensionale Bild hinsichtlich wenigstens
eines Gestenmerkmals analysiert wird.
-
Es
ist damit ein wesentlicher Punkt der Erfindung, vorerst zweidimensionale
Bilder zu generieren und die zweidimensionalen Bilder dann zu einem dreidimensionalen
Bild zu kombinieren, das dann zur Analyse genutzt wird. Dabei wird
vorliegenden mit dem Begriff „zweidimensionales
Bild" jedes Bild
gemeint, das wenigstens zwei Dimensionen aufweist, jedoch kein dreidimensionales
Bild ist. Die sind einerseits natürlich die herkömmlichen
zweidimensionalen Bilder, wie sie mit üblichen und weit verbreiteten
Kameras aufgenommen werden können.
Insbesondere sind darüber
hinaus jedoch sogenannte 2,5-dimensionale Bilder bekannt, die neben
dem zweidimensionalen Bild Tiefenwerte bereitstellen. Auch solche
Bilder werden vorliegend also als zweidimensionale Bilder angesehen.
Die Erfindung geht damit einen völlig neuen
Weg, indem sie erstmals keine Analyse von Merkmalen im Zweidimensionalen
erfordert, sondern die Analyse eines Gestenmerkmals im Dreidimensionalen
vorsieht.
-
Grundsätzlich können die
erfassten zweidimensionalen Bilder vor ihrer Kombination zu dem dreidimensionalen
Bild unterschiedlichen Verarbeitungsschritten unterworfen werden.
Gemäß einer
bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass
die zweidimensi onalen Bilder vor der Kombination zu dem dreidimensionalen
Bild zumindest segmentiert werden, d. h. eine Trennung der Region
der Gliedmaße
vom Hintergrund erfolgt.
-
Gemäß einer
bevorzugten Weiterbildung der Erfindung ist ferner vorgesehen, dass
bei der Kombination der zweidimensionalen Bilder zu dem dreidimensionalen
Bild eine dreidimensionale Rekonstruktion der Gliedmaße durchgeführt wird.
Diese dreidimensionale Rekonstruktion der Gliedmaße muss
dabei keinem „perfekten", also vollständigen Bild
der Gliedmaße
entsprechen. Vielmehr soll es sich bei dieser dreidimensionalen
Rekonstruktion der Gliedmaße
um eine derartige dreidimensionale Darstellung derselben handeln,
die eine Analyse hinsichtlich wenigstens eines Gestenmerkmals zulässt.
-
Grundsätzlich sind
verschiedene Methoden zur Erlangung einer dreidimensionalen Rekonstruktion
der Gliedmaße
möglich.
Gemäß einer
bevorzugten Weiterbildung der Erfindung ist vorgesehen, dass bei
der dreidimensionalen Rekonstruktion der Gliedmaße deren visuelle Hülle (visual
hull) ermittelt wird.
-
Die
Analyse hinsichtlich wenigstens eines Gestenmerkmals kann auf unterschiedliche
Weise erfolgen. Gemäß einer
bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass
bei der Analyse wenigstens eines Gestenmerkmals die dreidimensionale
Rekonstruktion der Gliedmaße
auf Herausragungen analysiert wird. Als Herausragungen werden dabei
ausgezeichnete, außenliegende
Punkte verstanden, die sozusagen höchste Erhebungen der analysierten
dreidimensionalen Struktur darstellen. Insbesondere ist es auf diese
Weise möglich, den
Ort bzw. die Orientierung von Fingerspitzen zu ermitteln, was eine
wesentliche Voraussetzung sein kann, um die Art und Lage einer Handgeste
zu ermitteln.
-
Auch
die Analyse der Herausragungen kann gänzlich unterschiedlich durchgeführt werden.
Gemäß einer
bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass
die Herausragungen daraufhin analysiert werden, ob sie auf einer
Approximation der konvexen Hülle der
Gliedmaße
liegen. Auch dies dient einer möglichen
Zuordnung einer Herausragung zu einer Fingerspitze.
-
Zur
Zuordnung einer Herausragung zu z. B. einer Fingerspitze kann es
ausreichend sein, dass festgestellt wird, dass diese auf einer Approximation der
konvexen Hülle
der Gliedmaße
liegt. Gemäß einer
bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass
die dreidimensionale Position der Voxel (dreidimensionale Pixel
bzw. Bildpunkte) der Herausragungen in die zweidimensionalen Bilder
projeziert werden. Falls sie dort nämlich am Bildrand liegen, so
ist davon auszugehen, dass die entsprechenden Herausragungen wahrscheinlich nicht
von Fingerspitzen gebildet sind, sondern durch Artefakte, nämlich z.
B. durch einen ins Bild ragenden, schräg abgeschnittenen Arm. Dementsprechend
können
derartige Positionen zur Erfassung von Fingerspitzen eliminiert
werden.
-
Die
Gestenerkennung kann ganz wesentlich darauf beruhen, dass die Herausragungen
nach verschiedenen Aspekten charakterisiert werden. Gemäß einer
bevorzugten Weiterbildung der Erfindung ist in diesem Zusammenhang
vorgesehen, dass die Herausragungen wenigstens in Abhängigkeit
von ihrem Abstand zu einem vorbestimmten Punkt, vorzugsweise in
Abhängigkeit
zum lokalen Masseschwerpunkt, charakterisiert werden. Auf diese
Weise kann man nämlich
die „weitesten" Herausragungen ermitteln,
um letztlich zur Bestimmung von Fingerspitzen zu gelangen.
-
Im
Ergebnis ist es gemäß einer
bevorzugten Weiterbildung der Erfindung insbesondere vorgesehen,
dass die Herausragungen verwendet werden, um die mittels der Gliedmaße gebildete
Geste einer vorbestimmten Gruppe von Gestenarten, vorzugsweise genau
einer vorbestimmten Gestenart, zuzuordnen. Dies stellt letztlich
die eigentliche Erkennung der Art der Geste dar, so dass es damit
gemäß einer bevorzugten
Weiterbildung der Erfindung auch vorgesehen sein kann, dass in Abhängigkeit
von der vorbestimmten Gruppe von Gestenarten bzw. der vorbestimmten
Gestenart automatisch eine vorbestimmte Steuerung eines Verfahrens
durch geführt
wird. So ist es z. B. denkbar, in Abhängigkeit von der erfassten Art
der Geste eine vorbestimmte Art der Steuerung durchzuführen. Wird
eine „Zeigen"-Geste erfasst, so kann
z. B. vorgesehen sein, die Blickrichtung im Rahmen einer visuellen
Simulation zu ändern
oder ein Fahrzeug zu steuern, also dessen Fahrtrichtung zu bestimmen.
Ferner ist vorzugsweise vorgesehen, in Abhängigkeit von der erfassten
Lage der Geste im Raum diese Steuerung tatsächlich durchzuführen. Am
Beispiel der „Zeigen"-Geste kann damit
z. B. vorgesehen sein, dass die Richtung des Zeigens im Rahmen dieser
Steuerung angibt, wie die Blickrichtung sein soll bzw. in welche
Richtung die Fahrt erfolgen soll.
-
Grundsätzlich kann
es vorgesehen sein, dass die Erfassung der Geste und die Steuerung
des Verfahrens zueinander zeitverzögert durchgeführt werden.
Gemäß einer
bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass
die Erfassung der Geste und die Steuerung des Verfahrens in Echtzeit
erfolgen. Insbesondere kann die Erfassung und Auswertung von wenigstens
25 Bildern pro Sekunde vorgesehen sein. Auf diese Weise sind anspruchsvolle
Anwendungen möglich,
wie die zuvor schon angesprochene Steuerung eines Fahrzeugs.
-
Grundsätzlich kann
vorgesehen sein, dass das Verfahren und ggf. auch die Steuerung
durch die erfassten Gesten einer Initialisierung bedürfen. Gemäß einer
bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass
die Gestenerkennung und insbesondere auch die Steuerung automatisch gestartet
werden, sobald eine Geste erfasst und einer vorbestimmten Gruppen
von Gesten bzw. einer vorbestimmten Geste zugeordnet worden ist.
Mit anderen Worten bedeutet dies, dass die eingangs genannten Verfahrensschritte
regelmäßig durchgeführt werden
können
und das Verfahren der eigentlichen Gestenerkennung automatisch anläuft, sobald
eine Gliedmaße
derart erfaßbar
wird, dass zeitgleich eine Mehrzahl zweidimensionaler Bilder dieser
Gliedmaße
aus unterschiedlichen Richtungen erkennbar werden.
-
Um
insbesondere einen unkontrollierten Zustand der mittels der durch
Gesten erfolgenden Steuerung vermeiden zu können, ist gemäß einer
bevorzugten Weiterbildung der Erfindung ferner vorgesehen, dass
in dem Fall, in dem die mittels der Gliedmaße gebildete Geste keiner vorbestimmten
Gruppen von Gesten bzw. keiner vorbestimmten Geste zugeordnet werden
kann, eine Warnung ausgegeben wird, vorzugsweise als optisches oder/und
akustisches Signal. Auf diese Weise wird der Verwender darüber informiert,
dass gegenwärtig
keine Gestensteuerung mehr möglich
ist und er zur Wiederaufnahme des Verfahrens z. B. seine Hand wieder
in den Bereich bringen muss, in dem die Mehrzahl zweidimensionaler
Bilder der Gliedmaße
aus verschiedenen Richtungen erfassbar ist.
-
Schließlich kann
auch bei dem vorliegend beschriebenen Verfahren die Gliedmaße mit Markern versehen
werden. Gemäß einer
bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die
Geste ohne an der Gliedmaße
angebrachte Marker erfasst wird. Dies kann insbesondere dadurch
erreicht werden, dass keine Analyse der erfassten zweidimensionalen
Bilder erfolgt, sondern vor der Merkmalsgestenanalyse eine Kombination
der zweidimensionalen Bilder ins Dreidimensionale durchgeführt wird.
-
Das
zuvor beschriebene Verfahren ermöglicht
die Verfolgung der räumlichen
Lage, nämlich
der Position und der Orientierung, z. B. einer menschlichen Hand,
hinsichtlich mehrerer, voneinander verschiedener Gesten, wodurch
eine natürliche
und effiziente Interaktion zwischen Mensch und Maschine gewährleistet
wird. Insbesondere weist dieses Verfahren folgende Vorteile auf:
Der
Verwender benötigt
lediglich seine bloße
Hand, so dass es nicht erforderlich ist, die Hand mit Markern zu
versehen. Die Initialisierung kann vollautomatisch erfolgen, was
bedeutet, dass die Verfolgung der Hand unmittelbar starten kann,
sobald der Verwender seine Hand in den Arbeitsbereich bewegt. Zur
Initialisierung ist also keine spezielle Lage oder Geste der Hand
erforderlich. Die Berechnung kann in Echtzeit erfolgen, so dass
das Verfahren für
direkte Interaktionen einsetzbar ist. Auch bei einem Wechsel des Verwenders
sind keine Einstellungsänderungen
erforderlich.
-
Die
Erfassung der zweidimensionalen Bilder der Gliedmaße kann
auf unterschiedliche Weisen erfolgen. Gemäß einer bevorzugten Weiterbildung
der Erfindung sind jedoch drei oder mehr Kameras vorgesehen, die
in spezieller Anordnung die Gliedmaße aus unterschiedlichen Richtungen
beobachten. Um die Lage und Geste der Gliedmaße zu errechnen, wird, wie
oben schon ausgeführt,
zunächst
eine dreidimensionale Rekonstruktion der Gliedmaße aus den Kamerabildern bestimmt,
wobei die zweidimensional erfassten Informationen in eine konsistente
dreidimensionale Darstellung gebracht werden. Dazu werden z. B.
die Bilder aller Kameras synchron ausgelesen und jeweils in eine
Region, die der Gliedmaße entspricht,
und den Hintergrund unterteilt, also segmentiert.
-
Wenn
alle Bilder segmentiert sind, werden die Regionen der Gliedmaße ausgehend
vom Blickpunkt der jeweiligen Kamera durch den dreidimensionalen
Raum projeziert, so dass sich im Schnitt der drei Projektionen eine
grobe dreidimensionale Rekonstruktion der Hand ergibt. Anders formuliert
gehören
alle Voxel zur dreidimensionalen Rekonstruktion der Hand, für die die
Projektionen in alle zweidimensionale Kamerabilder innerhalb der
jeweiligen Handregion liegen. Entsprechendes wird auch als Rekonstruktion
der visuellen Hülle
oder „Shape-from-Silhouettes"-Technik bezeichnet.
-
In
der groben dreidimensionalen Rekonstruktion der Hand kann nun nach
besonderen Merkmalen gesucht werden. Um die Menge potentieller Merkmale
einzuschränken,
kann z. B. nur nach Herausragungen gesucht werden, die von Fingerspitzen gebildet
werden können
und auf einem k-DOP (diskretes orientiertes Polytop/discrete orientated
polytope), einer Approximation der konvexen Hülle der Gliedmaße, liegen.
Ein k-DOP ist ein Hüllvolumen (bounding
volume), welches konstruiert wird, indem k wohlorientierte Ebenen
aus dem Unendlichen bewegt werden, bis sie die dreidimensionale
Rekonstruktion berühren.
Das k-DOP ist dann dasjenige konvexe Polytop, welches aus dem Schnitt
der Halbräume
resultiert, die durch diese k-Ebenen begrenzt werden.
-
Für jede dieser
Ebenen gibt es also einen zur dreidimensionalen Rekonstruktion gehörenden Voxel,
der die Ebene berührt
und damit ihre Position beschreibt. In einer bevorzugten Realisierung
des Verfahrens wird ein 26-DOP verwendet, so dass es 26 Ebenen bzw.
Orientierungen gibt und damit 26 Voxel bestimmt werden. Diese 26
Voxel bilden die Menge der möglichen
Merkmale für
die Extraktion der Fingerspitzenmerkmale. Diese Voxel werden nun
klassifiziert, indem ihre lokalen Umgebungen analysiert werden.
Für ein
bevorzugtes Verfahren ist zum Beispiel vorgesehen, eine sehr einfache
Analyse durchzuführen,
so dass lediglich der Abstand zum lokalen Massenschwerpunkt, wie
oben schon ausgeführt,
zur Charakterisierung verwendet wird. Ist der Abstand sehr groß, so befindet
sich der Voxel bzw. das Merkmal auf einem sehr hervorstehenden Teil
der dreidimensionalen Rekonstruktion und damit wahrscheinlich auf
einer der gewünschten
Fingerspitzen.
-
Im
Folgenden wird das erfindungsgemäße Verfahren
anhand eines bevorzugten Ausführungsbeispiels
unter Bezugnahme auf die Zeichnung weiter im Detail erläutert. In
der Zeichnung zeigt
-
1 die
vier mit dem vorliegend beschriebenen Verfahren gemäß einem
bevorzugten Ausführungsbeispiel
der Erfindung erkennbaren Arten von Gesten,
-
2 die
mittels dreier segmentierter zweidimensionaler Bilder ermittelte
visuelle Hülle
einer erfassten Hand,
-
3 schematisch
die Extraktion von DOP-Punkten im Zweidimensionalen bzw. im Dreidimensionalen
und
-
4 Histogramme
für das
ermittelte Maß der
Herausragungen bei verschiedenen Arten von Gesten.
-
Aus 1 sind
die vier mittels des vorliegend beschriebenen Verfahrens gemäß dem bevorzugten
Ausführungsbeispiel
der Erfindung erfassbaren Arten von Handgesten ersichtlich. Von
links nach rechts sind die Gesten „Handfläche", „Greifen", „Zeigen
A" und „Zeigen
B" dargestellt.
Wie aus 1 ersichtlich, sind jeder Handgeste „am weitesten
vorstehende" Fingerspitzen
zuordenbar, die in 1 jeweils mit einem Pfeil gekennzeichnet
sind.
-
Diese
vorstehenden Fingerspitzen sind gemäß dem vorliegend beschriebenen
bevorzugten Ausführungsbeispiel
von besonderem Interesse, da über
die Erfassung der jeweiligen Fingerspitze und über die zusätzliche Erfassung der Richtung
des entsprechenden Fingers eindeutig auf eine der vier vorbestimmten
Gestenarten geschlossen werden kann. Sind ferner die Positionen
zweier vorstehender Fingerspitzen relativ zum Masseschwerpunkt der
Hand bekannt, so kann die Ausrichtung, also die Position und die
Orientierung der Hand bestimmt werden.
-
Dazu
wird vorliegend ein Algorithmus verwendet, mit dem es möglich ist,
alle erforderlichen Informationen zu extrahieren, um sowohl die
Geste zu erkennen als auch deren Ausrichtung im Raum. Diese Informationen
werden auf der Grundlage eines dreidimensionalen binären Voxel-Gitters
der visuellen Hülle
berechnet, die ihrerseits auf der Grundlage der segmentierten zweidimensionalen
Bilder der einzelnen Kameras erstellt worden ist.
-
Gemäß dem vorliegend
beschriebenen Verfahren werden drei Kameras verwendet, die in einer Ebene
angeordnet sind. Der Winkel zwischen den Aufnahmerichtungen einander
benachbarter Kameras beträgt
jeweils 60°.
Auf diese Weise wird vermieden, dass eine Kamera von einer anderen
Kamera als Hintergrund erfasst wird. Es hat sich gezeigt, dass diese
Anordnung ausreichend ist, um eine hinreichend genaue Ermittlung
der visuellen Hülle
der Hand zu erzielen.
-
Nach
der Segmentierung der Bilder werden die segmentierten zweidimensionalen
Bilder (10), wie in 2 schematisch
dargestellt, zur visuellen Hülle
(11) der Hand kombiniert. Mögli che Fingerspitzen werden
als die Voxel der visuellen Hülle
definiert, die eine der Ebenen des umschließenden DOP berühren. Im
Falle einer 26-DOP ergeben sich, wie in 3, rechts,
dargestellt, 26-DOP-Punkte der visuellen Hülle im Dreidimensionalen, die
in 3, soweit sichtbar, mit Pfeilen gekennzeichnet
sind. Die entsprechende, zweidimensionale Darstellung (12)
ist links gezeigt.
-
Die
Fingerspitzen können
als Endpunkte hervorstehender Bereiche des Voxel-Gitters angesehen
werden. Um nun die potentiellen Fingerspitzen zu beurteilen, muss
ein Maß für das Hervorstehen gefunden
werden. Vorliegend wird als Maß der
Abstand des jeweiligen Punktes von lokalem Masseschwerpunkt verwendet.
-
Aus 4 ist
nun ersichtlich, wie dieses Maß für das Hervorstehen
bzw. die Herausragungen analysiert werden kann. Dazu sind in den
gezeigten Histogrammen jeweils für
150 Bilder mit der „Zeigen A"-Geste (links), der „Zeigen
B"-Geste (Mitte)
und einer „Faust"-Geste (rechts),
bei der kein Finger hervorsteht, als Maß für die Herausragung der Abstand des
jeweiligen Punktes von lokalem Masseschwerpunkt aufgetragen. Die „Zeigen
A"-Geste zeigt deutlich
zwei Herausragungen, während
bei der „Zeigen B"-Geste noch eine
Herausragung besonders betont ist und bei der „Faust"-Geste keine definierten Herausragungen
mehr bestimmbar sind.
-
Zeigt
sich auf diese Weise, dass zwei Fingerspitzen vorhanden sind, so
muss festgestellt werden, welche dem Daumen entspricht. Die Identifizierung des
Daumens basiert vorliegend auf der Feststellung, dass der maximale
geodätische
Abstand zwischen der Daumenspitze und allen anderen möglichen
Kandidaten geringer ist als der entsprechend berechnete maximale
geodätische
Abstand für
die anderen Fingerspitzen. Da die Berechnung des exakten geodätischen
Abstands bei Echtzeitanwendungen gegenwärtig praktisch nicht möglich ist,
wird dieser vorliegend geschätzt.
-
Danach
muss erfasst werden, ob ein nicht als Daumen erfasster Finger der
Mittelfinger oder der Zeigefinger ist. Dies wird erreicht durch
die Berechnung einer Kovarianz-Matrix lokal um die Fingerspitze
herum mittels eines GPU-Algorithmus. Das Verhältnis zwischen dem größten und
dem zweitgrößten Eigenwert
der Kovarianz-Matrix erlaubt es, die Identität des Fingers zu ermitteln.
Wird nun festgestellt, dass dieser Finger der Zeigefinger ist, kann
die Richtung des Fingers zumindest näherungsweise bestimmt werden.
-
Im
Ergebnis wird damit derartiges Verfahren zur automatischen Erkennung
der Art und der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere
nämlich
einer Handgeste, angegeben, das auf einfache und verlässliche
Weise in Echtzeit durchführbar
ist und auf diese Weise anspruchsvolle Verfahrenssteuerungen, wie
die Steuerung eines Fahrzeugs, ermöglicht.