DE102007041482A1 - Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste - Google Patents

Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste Download PDF

Info

Publication number
DE102007041482A1
DE102007041482A1 DE102007041482A DE102007041482A DE102007041482A1 DE 102007041482 A1 DE102007041482 A1 DE 102007041482A1 DE 102007041482 A DE102007041482 A DE 102007041482A DE 102007041482 A DE102007041482 A DE 102007041482A DE 102007041482 A1 DE102007041482 A1 DE 102007041482A1
Authority
DE
Germany
Prior art keywords
gesture
limb
dimensional
predetermined
dimensional images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102007041482A
Other languages
English (en)
Inventor
Markus Schlattmann
Reinhard Klein
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RHEINISCHE FRIEDRICH-WILHELMS-UNIVERSITAET BON, DE
Original Assignee
Rheinische Friedrich Wilhelms Universitaet Bonn
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rheinische Friedrich Wilhelms Universitaet Bonn filed Critical Rheinische Friedrich Wilhelms Universitaet Bonn
Priority to DE102007041482A priority Critical patent/DE102007041482A1/de
Priority to PCT/EP2008/060934 priority patent/WO2009027307A1/de
Publication of DE102007041482A1 publication Critical patent/DE102007041482A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/564Depth or shape recovery from multiple images from contours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage (Position und Orientierung) einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste, wobei zeitgleich eine Mehrzahl zweidimensionaler Bilder der Gliedmaße aus unterschiedlichen Richtungen erfasst wird. Erfindungsgemäß ist vorgesehen, dass die zweidimensionalen Bilder zu einem dreidimensionalen Bild kombiniert werden und das dreidimensionale Bild hinsichtlich wenigstens eines Gestenmerkmals analysiert wird. Auf diese Weise wird ein Verfahren zur automatischen Gestenerkennung angegeben, das auf einfache und verlässliche Weise in Echtzeit durchführbar ist und so anspruchsvolle Verfahrenssteuerungen, wie die Steuerung eines Fahrzeugs, ermöglicht.

Description

  • Die Erfindung betrifft ein Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste, wobei zeitgleich eine Mehrzahl zweidimensionaler Bilder der Gliedmaße aus unterschiedlichen Richtungen erfasst wird.
  • Die Erkennung von Handgesten, insbesondere um Verfahrensabläufe zu steuern, ist für verschiedene technische Gebiete von großem Interesse. Dabei geht es im Allgemeinen insbesondere darum, einerseits die Art der Geste zu erkennen und andererseits deren Lage im Raum. Mit der Erkennung der Art der Geste ist gemeint, zu erkennen, um welche Geste es sich handelt, was z. B. bei einer Handgeste darüber definiert sein kann, ob die jeweiligen Finger der Hand geschlossen oder geöffnet sind. Die Lage der Geste im Raum kann über deren Position und/oder Orientierung gegeben sein und ist somit z. B. darüber definiert, wohin ein vorbestimmter Finger zeigt und an welcher Position er sich befindet. Das bedeutet insbesondere, dass vorliegend der Begriff Lage so zu verstehen ist, dass er je nach Anwendungsfall nur die Orientierung im Raum, nur die Position im Raum oder gemeinsam die Orientierung und die Position im Raum meint.
  • Einigermaßen verlässliche Gestenerkennungssysteme, die sowohl die Erkennung der Art der Geste als auch deren Lage erlauben, existieren bisher entweder nur im zweidimensionalen Raum oder benötigen erheblichen technischen Aufwand und Hilfsmittel, wie an verschiedenen Punkten der Gliedmaße, wie an den Fingerspitzen einer Hand, befestigte Marker. Im Ergebnis sind damit keine Verfahren und Systeme bekannt, mit denen im dreidimensionalen Raum verlässlich die Erkennung von Art und Orientierung einer Geste durchgeführt werden kann.
  • Damit ist es die Aufgabe der Erfindung, ein derartiges Verfahren zur automatischen Gestenerkennung anzugeben, das auf einfache und verlässliche Weise in Echtzeit durchführbar ist.
  • Ausgehend von dem eingangs beschriebenen Verfahren ist diese Aufgabe dadurch gelöst, dass die zweidimensionalen Bilder zu einem dreidimensionalen Bild kombiniert werden und das dreidimensionale Bild hinsichtlich wenigstens eines Gestenmerkmals analysiert wird.
  • Es ist damit ein wesentlicher Punkt der Erfindung, vorerst zweidimensionale Bilder zu generieren und die zweidimensionalen Bilder dann zu einem dreidimensionalen Bild zu kombinieren, das dann zur Analyse genutzt wird. Dabei wird vorliegenden mit dem Begriff „zweidimensionales Bild" jedes Bild gemeint, das wenigstens zwei Dimensionen aufweist, jedoch kein dreidimensionales Bild ist. Die sind einerseits natürlich die herkömmlichen zweidimensionalen Bilder, wie sie mit üblichen und weit verbreiteten Kameras aufgenommen werden können. Insbesondere sind darüber hinaus jedoch sogenannte 2,5-dimensionale Bilder bekannt, die neben dem zweidimensionalen Bild Tiefenwerte bereitstellen. Auch solche Bilder werden vorliegend also als zweidimensionale Bilder angesehen. Die Erfindung geht damit einen völlig neuen Weg, indem sie erstmals keine Analyse von Merkmalen im Zweidimensionalen erfordert, sondern die Analyse eines Gestenmerkmals im Dreidimensionalen vorsieht.
  • Grundsätzlich können die erfassten zweidimensionalen Bilder vor ihrer Kombination zu dem dreidimensionalen Bild unterschiedlichen Verarbeitungsschritten unterworfen werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die zweidimensi onalen Bilder vor der Kombination zu dem dreidimensionalen Bild zumindest segmentiert werden, d. h. eine Trennung der Region der Gliedmaße vom Hintergrund erfolgt.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung ist ferner vorgesehen, dass bei der Kombination der zweidimensionalen Bilder zu dem dreidimensionalen Bild eine dreidimensionale Rekonstruktion der Gliedmaße durchgeführt wird. Diese dreidimensionale Rekonstruktion der Gliedmaße muss dabei keinem „perfekten", also vollständigen Bild der Gliedmaße entsprechen. Vielmehr soll es sich bei dieser dreidimensionalen Rekonstruktion der Gliedmaße um eine derartige dreidimensionale Darstellung derselben handeln, die eine Analyse hinsichtlich wenigstens eines Gestenmerkmals zulässt.
  • Grundsätzlich sind verschiedene Methoden zur Erlangung einer dreidimensionalen Rekonstruktion der Gliedmaße möglich. Gemäß einer bevorzugten Weiterbildung der Erfindung ist vorgesehen, dass bei der dreidimensionalen Rekonstruktion der Gliedmaße deren visuelle Hülle (visual hull) ermittelt wird.
  • Die Analyse hinsichtlich wenigstens eines Gestenmerkmals kann auf unterschiedliche Weise erfolgen. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass bei der Analyse wenigstens eines Gestenmerkmals die dreidimensionale Rekonstruktion der Gliedmaße auf Herausragungen analysiert wird. Als Herausragungen werden dabei ausgezeichnete, außenliegende Punkte verstanden, die sozusagen höchste Erhebungen der analysierten dreidimensionalen Struktur darstellen. Insbesondere ist es auf diese Weise möglich, den Ort bzw. die Orientierung von Fingerspitzen zu ermitteln, was eine wesentliche Voraussetzung sein kann, um die Art und Lage einer Handgeste zu ermitteln.
  • Auch die Analyse der Herausragungen kann gänzlich unterschiedlich durchgeführt werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die Herausragungen daraufhin analysiert werden, ob sie auf einer Approximation der konvexen Hülle der Gliedmaße liegen. Auch dies dient einer möglichen Zuordnung einer Herausragung zu einer Fingerspitze.
  • Zur Zuordnung einer Herausragung zu z. B. einer Fingerspitze kann es ausreichend sein, dass festgestellt wird, dass diese auf einer Approximation der konvexen Hülle der Gliedmaße liegt. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die dreidimensionale Position der Voxel (dreidimensionale Pixel bzw. Bildpunkte) der Herausragungen in die zweidimensionalen Bilder projeziert werden. Falls sie dort nämlich am Bildrand liegen, so ist davon auszugehen, dass die entsprechenden Herausragungen wahrscheinlich nicht von Fingerspitzen gebildet sind, sondern durch Artefakte, nämlich z. B. durch einen ins Bild ragenden, schräg abgeschnittenen Arm. Dementsprechend können derartige Positionen zur Erfassung von Fingerspitzen eliminiert werden.
  • Die Gestenerkennung kann ganz wesentlich darauf beruhen, dass die Herausragungen nach verschiedenen Aspekten charakterisiert werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist in diesem Zusammenhang vorgesehen, dass die Herausragungen wenigstens in Abhängigkeit von ihrem Abstand zu einem vorbestimmten Punkt, vorzugsweise in Abhängigkeit zum lokalen Masseschwerpunkt, charakterisiert werden. Auf diese Weise kann man nämlich die „weitesten" Herausragungen ermitteln, um letztlich zur Bestimmung von Fingerspitzen zu gelangen.
  • Im Ergebnis ist es gemäß einer bevorzugten Weiterbildung der Erfindung insbesondere vorgesehen, dass die Herausragungen verwendet werden, um die mittels der Gliedmaße gebildete Geste einer vorbestimmten Gruppe von Gestenarten, vorzugsweise genau einer vorbestimmten Gestenart, zuzuordnen. Dies stellt letztlich die eigentliche Erkennung der Art der Geste dar, so dass es damit gemäß einer bevorzugten Weiterbildung der Erfindung auch vorgesehen sein kann, dass in Abhängigkeit von der vorbestimmten Gruppe von Gestenarten bzw. der vorbestimmten Gestenart automatisch eine vorbestimmte Steuerung eines Verfahrens durch geführt wird. So ist es z. B. denkbar, in Abhängigkeit von der erfassten Art der Geste eine vorbestimmte Art der Steuerung durchzuführen. Wird eine „Zeigen"-Geste erfasst, so kann z. B. vorgesehen sein, die Blickrichtung im Rahmen einer visuellen Simulation zu ändern oder ein Fahrzeug zu steuern, also dessen Fahrtrichtung zu bestimmen. Ferner ist vorzugsweise vorgesehen, in Abhängigkeit von der erfassten Lage der Geste im Raum diese Steuerung tatsächlich durchzuführen. Am Beispiel der „Zeigen"-Geste kann damit z. B. vorgesehen sein, dass die Richtung des Zeigens im Rahmen dieser Steuerung angibt, wie die Blickrichtung sein soll bzw. in welche Richtung die Fahrt erfolgen soll.
  • Grundsätzlich kann es vorgesehen sein, dass die Erfassung der Geste und die Steuerung des Verfahrens zueinander zeitverzögert durchgeführt werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die Erfassung der Geste und die Steuerung des Verfahrens in Echtzeit erfolgen. Insbesondere kann die Erfassung und Auswertung von wenigstens 25 Bildern pro Sekunde vorgesehen sein. Auf diese Weise sind anspruchsvolle Anwendungen möglich, wie die zuvor schon angesprochene Steuerung eines Fahrzeugs.
  • Grundsätzlich kann vorgesehen sein, dass das Verfahren und ggf. auch die Steuerung durch die erfassten Gesten einer Initialisierung bedürfen. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die Gestenerkennung und insbesondere auch die Steuerung automatisch gestartet werden, sobald eine Geste erfasst und einer vorbestimmten Gruppen von Gesten bzw. einer vorbestimmten Geste zugeordnet worden ist. Mit anderen Worten bedeutet dies, dass die eingangs genannten Verfahrensschritte regelmäßig durchgeführt werden können und das Verfahren der eigentlichen Gestenerkennung automatisch anläuft, sobald eine Gliedmaße derart erfaßbar wird, dass zeitgleich eine Mehrzahl zweidimensionaler Bilder dieser Gliedmaße aus unterschiedlichen Richtungen erkennbar werden.
  • Um insbesondere einen unkontrollierten Zustand der mittels der durch Gesten erfolgenden Steuerung vermeiden zu können, ist gemäß einer bevorzugten Weiterbildung der Erfindung ferner vorgesehen, dass in dem Fall, in dem die mittels der Gliedmaße gebildete Geste keiner vorbestimmten Gruppen von Gesten bzw. keiner vorbestimmten Geste zugeordnet werden kann, eine Warnung ausgegeben wird, vorzugsweise als optisches oder/und akustisches Signal. Auf diese Weise wird der Verwender darüber informiert, dass gegenwärtig keine Gestensteuerung mehr möglich ist und er zur Wiederaufnahme des Verfahrens z. B. seine Hand wieder in den Bereich bringen muss, in dem die Mehrzahl zweidimensionaler Bilder der Gliedmaße aus verschiedenen Richtungen erfassbar ist.
  • Schließlich kann auch bei dem vorliegend beschriebenen Verfahren die Gliedmaße mit Markern versehen werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die Geste ohne an der Gliedmaße angebrachte Marker erfasst wird. Dies kann insbesondere dadurch erreicht werden, dass keine Analyse der erfassten zweidimensionalen Bilder erfolgt, sondern vor der Merkmalsgestenanalyse eine Kombination der zweidimensionalen Bilder ins Dreidimensionale durchgeführt wird.
  • Das zuvor beschriebene Verfahren ermöglicht die Verfolgung der räumlichen Lage, nämlich der Position und der Orientierung, z. B. einer menschlichen Hand, hinsichtlich mehrerer, voneinander verschiedener Gesten, wodurch eine natürliche und effiziente Interaktion zwischen Mensch und Maschine gewährleistet wird. Insbesondere weist dieses Verfahren folgende Vorteile auf:
    Der Verwender benötigt lediglich seine bloße Hand, so dass es nicht erforderlich ist, die Hand mit Markern zu versehen. Die Initialisierung kann vollautomatisch erfolgen, was bedeutet, dass die Verfolgung der Hand unmittelbar starten kann, sobald der Verwender seine Hand in den Arbeitsbereich bewegt. Zur Initialisierung ist also keine spezielle Lage oder Geste der Hand erforderlich. Die Berechnung kann in Echtzeit erfolgen, so dass das Verfahren für direkte Interaktionen einsetzbar ist. Auch bei einem Wechsel des Verwenders sind keine Einstellungsänderungen erforderlich.
  • Die Erfassung der zweidimensionalen Bilder der Gliedmaße kann auf unterschiedliche Weisen erfolgen. Gemäß einer bevorzugten Weiterbildung der Erfindung sind jedoch drei oder mehr Kameras vorgesehen, die in spezieller Anordnung die Gliedmaße aus unterschiedlichen Richtungen beobachten. Um die Lage und Geste der Gliedmaße zu errechnen, wird, wie oben schon ausgeführt, zunächst eine dreidimensionale Rekonstruktion der Gliedmaße aus den Kamerabildern bestimmt, wobei die zweidimensional erfassten Informationen in eine konsistente dreidimensionale Darstellung gebracht werden. Dazu werden z. B. die Bilder aller Kameras synchron ausgelesen und jeweils in eine Region, die der Gliedmaße entspricht, und den Hintergrund unterteilt, also segmentiert.
  • Wenn alle Bilder segmentiert sind, werden die Regionen der Gliedmaße ausgehend vom Blickpunkt der jeweiligen Kamera durch den dreidimensionalen Raum projeziert, so dass sich im Schnitt der drei Projektionen eine grobe dreidimensionale Rekonstruktion der Hand ergibt. Anders formuliert gehören alle Voxel zur dreidimensionalen Rekonstruktion der Hand, für die die Projektionen in alle zweidimensionale Kamerabilder innerhalb der jeweiligen Handregion liegen. Entsprechendes wird auch als Rekonstruktion der visuellen Hülle oder „Shape-from-Silhouettes"-Technik bezeichnet.
  • In der groben dreidimensionalen Rekonstruktion der Hand kann nun nach besonderen Merkmalen gesucht werden. Um die Menge potentieller Merkmale einzuschränken, kann z. B. nur nach Herausragungen gesucht werden, die von Fingerspitzen gebildet werden können und auf einem k-DOP (diskretes orientiertes Polytop/discrete orientated polytope), einer Approximation der konvexen Hülle der Gliedmaße, liegen. Ein k-DOP ist ein Hüllvolumen (bounding volume), welches konstruiert wird, indem k wohlorientierte Ebenen aus dem Unendlichen bewegt werden, bis sie die dreidimensionale Rekonstruktion berühren. Das k-DOP ist dann dasjenige konvexe Polytop, welches aus dem Schnitt der Halbräume resultiert, die durch diese k-Ebenen begrenzt werden.
  • Für jede dieser Ebenen gibt es also einen zur dreidimensionalen Rekonstruktion gehörenden Voxel, der die Ebene berührt und damit ihre Position beschreibt. In einer bevorzugten Realisierung des Verfahrens wird ein 26-DOP verwendet, so dass es 26 Ebenen bzw. Orientierungen gibt und damit 26 Voxel bestimmt werden. Diese 26 Voxel bilden die Menge der möglichen Merkmale für die Extraktion der Fingerspitzenmerkmale. Diese Voxel werden nun klassifiziert, indem ihre lokalen Umgebungen analysiert werden. Für ein bevorzugtes Verfahren ist zum Beispiel vorgesehen, eine sehr einfache Analyse durchzuführen, so dass lediglich der Abstand zum lokalen Massenschwerpunkt, wie oben schon ausgeführt, zur Charakterisierung verwendet wird. Ist der Abstand sehr groß, so befindet sich der Voxel bzw. das Merkmal auf einem sehr hervorstehenden Teil der dreidimensionalen Rekonstruktion und damit wahrscheinlich auf einer der gewünschten Fingerspitzen.
  • Im Folgenden wird das erfindungsgemäße Verfahren anhand eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf die Zeichnung weiter im Detail erläutert. In der Zeichnung zeigt
  • 1 die vier mit dem vorliegend beschriebenen Verfahren gemäß einem bevorzugten Ausführungsbeispiel der Erfindung erkennbaren Arten von Gesten,
  • 2 die mittels dreier segmentierter zweidimensionaler Bilder ermittelte visuelle Hülle einer erfassten Hand,
  • 3 schematisch die Extraktion von DOP-Punkten im Zweidimensionalen bzw. im Dreidimensionalen und
  • 4 Histogramme für das ermittelte Maß der Herausragungen bei verschiedenen Arten von Gesten.
  • Aus 1 sind die vier mittels des vorliegend beschriebenen Verfahrens gemäß dem bevorzugten Ausführungsbeispiel der Erfindung erfassbaren Arten von Handgesten ersichtlich. Von links nach rechts sind die Gesten „Handfläche", „Greifen", „Zeigen A" und „Zeigen B" dargestellt. Wie aus 1 ersichtlich, sind jeder Handgeste „am weitesten vorstehende" Fingerspitzen zuordenbar, die in 1 jeweils mit einem Pfeil gekennzeichnet sind.
  • Diese vorstehenden Fingerspitzen sind gemäß dem vorliegend beschriebenen bevorzugten Ausführungsbeispiel von besonderem Interesse, da über die Erfassung der jeweiligen Fingerspitze und über die zusätzliche Erfassung der Richtung des entsprechenden Fingers eindeutig auf eine der vier vorbestimmten Gestenarten geschlossen werden kann. Sind ferner die Positionen zweier vorstehender Fingerspitzen relativ zum Masseschwerpunkt der Hand bekannt, so kann die Ausrichtung, also die Position und die Orientierung der Hand bestimmt werden.
  • Dazu wird vorliegend ein Algorithmus verwendet, mit dem es möglich ist, alle erforderlichen Informationen zu extrahieren, um sowohl die Geste zu erkennen als auch deren Ausrichtung im Raum. Diese Informationen werden auf der Grundlage eines dreidimensionalen binären Voxel-Gitters der visuellen Hülle berechnet, die ihrerseits auf der Grundlage der segmentierten zweidimensionalen Bilder der einzelnen Kameras erstellt worden ist.
  • Gemäß dem vorliegend beschriebenen Verfahren werden drei Kameras verwendet, die in einer Ebene angeordnet sind. Der Winkel zwischen den Aufnahmerichtungen einander benachbarter Kameras beträgt jeweils 60°. Auf diese Weise wird vermieden, dass eine Kamera von einer anderen Kamera als Hintergrund erfasst wird. Es hat sich gezeigt, dass diese Anordnung ausreichend ist, um eine hinreichend genaue Ermittlung der visuellen Hülle der Hand zu erzielen.
  • Nach der Segmentierung der Bilder werden die segmentierten zweidimensionalen Bilder (10), wie in 2 schematisch dargestellt, zur visuellen Hülle (11) der Hand kombiniert. Mögli che Fingerspitzen werden als die Voxel der visuellen Hülle definiert, die eine der Ebenen des umschließenden DOP berühren. Im Falle einer 26-DOP ergeben sich, wie in 3, rechts, dargestellt, 26-DOP-Punkte der visuellen Hülle im Dreidimensionalen, die in 3, soweit sichtbar, mit Pfeilen gekennzeichnet sind. Die entsprechende, zweidimensionale Darstellung (12) ist links gezeigt.
  • Die Fingerspitzen können als Endpunkte hervorstehender Bereiche des Voxel-Gitters angesehen werden. Um nun die potentiellen Fingerspitzen zu beurteilen, muss ein Maß für das Hervorstehen gefunden werden. Vorliegend wird als Maß der Abstand des jeweiligen Punktes von lokalem Masseschwerpunkt verwendet.
  • Aus 4 ist nun ersichtlich, wie dieses Maß für das Hervorstehen bzw. die Herausragungen analysiert werden kann. Dazu sind in den gezeigten Histogrammen jeweils für 150 Bilder mit der „Zeigen A"-Geste (links), der „Zeigen B"-Geste (Mitte) und einer „Faust"-Geste (rechts), bei der kein Finger hervorsteht, als Maß für die Herausragung der Abstand des jeweiligen Punktes von lokalem Masseschwerpunkt aufgetragen. Die „Zeigen A"-Geste zeigt deutlich zwei Herausragungen, während bei der „Zeigen B"-Geste noch eine Herausragung besonders betont ist und bei der „Faust"-Geste keine definierten Herausragungen mehr bestimmbar sind.
  • Zeigt sich auf diese Weise, dass zwei Fingerspitzen vorhanden sind, so muss festgestellt werden, welche dem Daumen entspricht. Die Identifizierung des Daumens basiert vorliegend auf der Feststellung, dass der maximale geodätische Abstand zwischen der Daumenspitze und allen anderen möglichen Kandidaten geringer ist als der entsprechend berechnete maximale geodätische Abstand für die anderen Fingerspitzen. Da die Berechnung des exakten geodätischen Abstands bei Echtzeitanwendungen gegenwärtig praktisch nicht möglich ist, wird dieser vorliegend geschätzt.
  • Danach muss erfasst werden, ob ein nicht als Daumen erfasster Finger der Mittelfinger oder der Zeigefinger ist. Dies wird erreicht durch die Berechnung einer Kovarianz-Matrix lokal um die Fingerspitze herum mittels eines GPU-Algorithmus. Das Verhältnis zwischen dem größten und dem zweitgrößten Eigenwert der Kovarianz-Matrix erlaubt es, die Identität des Fingers zu ermitteln. Wird nun festgestellt, dass dieser Finger der Zeigefinger ist, kann die Richtung des Fingers zumindest näherungsweise bestimmt werden.
  • Im Ergebnis wird damit derartiges Verfahren zur automatischen Erkennung der Art und der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere nämlich einer Handgeste, angegeben, das auf einfache und verlässliche Weise in Echtzeit durchführbar ist und auf diese Weise anspruchsvolle Verfahrenssteuerungen, wie die Steuerung eines Fahrzeugs, ermöglicht.

Claims (15)

  1. Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste, wobei zeitgleich eine Mehrzahl zweidimensionaler Bilder der Gliedmaße aus unterschiedlichen Richtungen erfasst wird, dadurch gekennzeichnet, dass die zweidimensionalen Bilder zu einem dreidimensionalen Bild kombiniert werden und das dreidimensionale Bild hinsichtlich wenigstens eines Gestenmerkmals analysiert wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die zweidimensionalen Bilder vor der Kombination zu dem dreidimensionalen Bild durch Trennung der Region der Gliedmaße vom Hintergrund segmentiert werden.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass bei der Kombination der zweidimensionalen Bilder zu dem dreidimensionalen Bild eine dreidimensionale Rekonstruktion der Gliedmaße durchgeführt wird.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass bei der dreidimensionalen Rekonstruktion der Gliedmaße deren visuellen Hülle ermittelt wird.
  5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass bei der Analyse wenigstens eines Gestenmerkmals die dreidimensionale Rekonstruktion der Gliedmaße auf Herausragungen analysiert wird.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Herausragungen darauf hin analysiert werden, ob sie auf einer Approximation der konvexen Hülle der Gliedmaße liegen.
  7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass die dreidimensionale Position der Voxel der Herausragungen in die zweidimensionalen Bilder projeziert werden.
  8. Verfahren nach einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, dass die Herausragungen wenigstens in Abhängigkeit von ihrem Abstand zu einem vorbestimmten Punkt, vorzugsweise in Abhängigkeit zum lokalen Masseschwerpunkt, charakterisiert werden.
  9. Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, dass die Herausragungen verwendet werden, um die mittels der Gliedmaße gebildete Art der Geste einer vorbestimmten Gruppe von Gestenarten, vorzugsweise genau einer vorbestimmten Gestenart, zuzuordnen.
  10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass in Abhängigkeit von der vorbestimmten Gruppe von Gesten bzw. der vorbestimmten Geste automatisch eine vorbestimmte Art einer Verfahrenssteuerung durchgeführt wird.
  11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die Verfahrenssteuerung in Abhängigkeit von der erfassten Lage der Geste im Raum durchgeführt wird.
  12. Verfahren nach Anspruch 10 oder 11, dadurch gekennzeichnet, dass die Erfassung der Art bzw. der Lage der Geste und die Verfahrenssteuerung in Echtzeit erfolgen, vorzugsweise durch Auswertung von wenigstens 25 Bildern pro Sekunde.
  13. Verfahren nach einem der Ansprüche 10 bis 12, dadurch gekennzeichnet, dass die Verfahrenssteuerung automatisch gestartet wird, so bald eine Geste erfasst und einer vorbestimmten Gruppe von Gesten bzw. einer vorbestimmten Geste zugeordnet worden ist.
  14. Verfahren nach einem der Ansprüche 9 bis 13, dadurch gekennzeichnet, dass in dem Fall, in dem die mittels der Gliedmaße gebildete Art der Geste keiner vorbestimmten Gruppe von Gestenarten bzw. keiner vorbestimmten Gesteart zugeordnet werden kann, eine Warnung ausgegeben wird, vorzugsweise als optisches oder/und akustisches Signal.
  15. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet die Geste ohne an der Gliedmaße angebrachte Marker erfasst wird.
DE102007041482A 2007-08-31 2007-08-31 Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste Withdrawn DE102007041482A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102007041482A DE102007041482A1 (de) 2007-08-31 2007-08-31 Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste
PCT/EP2008/060934 WO2009027307A1 (de) 2007-08-31 2008-08-21 VERFAHREN ZUR AUTOMATISCHEN ERKENNUNG WENIGSTENS DER ART UND/ODER DER LAGE EINER MIT EINER GLIEDMAßE GEBILDETEN GESTE, INSBESONDERE EINER HANDGESTE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007041482A DE102007041482A1 (de) 2007-08-31 2007-08-31 Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste

Publications (1)

Publication Number Publication Date
DE102007041482A1 true DE102007041482A1 (de) 2009-03-05

Family

ID=39863082

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007041482A Withdrawn DE102007041482A1 (de) 2007-08-31 2007-08-31 Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste

Country Status (2)

Country Link
DE (1) DE102007041482A1 (de)
WO (1) WO2009027307A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014017166A1 (de) 2014-11-20 2016-05-25 Audi Ag Verfahren zum Betreiben einer Objektbewertungsvorrichtung für ein Kraftfahrzeug, Objektbewertungsvorrichtung für ein Kraftfahrzeug und Kraftfahrzeug mit einer Objektbewertungsvorrichtung
DE102014224618A1 (de) * 2014-12-02 2016-06-02 Robert Bosch Gmbh Verfahren und Vorrichtung zum Betreiben einer Eingabevorrichtung

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903011A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 基于图像深度信息的智能轮椅手势识别控制方法
DE102015201730A1 (de) 2015-02-02 2016-08-04 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Auswählen eines Bedienelements eines Kraftfahrzeugs und Bediensystem für ein Kraftfahrzeug

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6147678A (en) * 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom
US6204852B1 (en) * 1998-12-09 2001-03-20 Lucent Technologies Inc. Video hand image three-dimensional computer interface
US6222465B1 (en) * 1998-12-09 2001-04-24 Lucent Technologies Inc. Gesture-based computer interface
US6788809B1 (en) * 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
US20050166163A1 (en) * 2004-01-23 2005-07-28 Chang Nelson L.A. Systems and methods of interfacing with a machine
EP1879130A2 (de) * 2006-07-13 2008-01-16 Northrop Grumman Corporation Schnittstellensystem zur Gestenerkennung

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6147678A (en) * 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom
US6204852B1 (en) * 1998-12-09 2001-03-20 Lucent Technologies Inc. Video hand image three-dimensional computer interface
US6222465B1 (en) * 1998-12-09 2001-04-24 Lucent Technologies Inc. Gesture-based computer interface
US6788809B1 (en) * 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
US20050166163A1 (en) * 2004-01-23 2005-07-28 Chang Nelson L.A. Systems and methods of interfacing with a machine
EP1879130A2 (de) * 2006-07-13 2008-01-16 Northrop Grumman Corporation Schnittstellensystem zur Gestenerkennung

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014017166A1 (de) 2014-11-20 2016-05-25 Audi Ag Verfahren zum Betreiben einer Objektbewertungsvorrichtung für ein Kraftfahrzeug, Objektbewertungsvorrichtung für ein Kraftfahrzeug und Kraftfahrzeug mit einer Objektbewertungsvorrichtung
DE102014224618A1 (de) * 2014-12-02 2016-06-02 Robert Bosch Gmbh Verfahren und Vorrichtung zum Betreiben einer Eingabevorrichtung

Also Published As

Publication number Publication date
WO2009027307A1 (de) 2009-03-05

Similar Documents

Publication Publication Date Title
DE60133386T2 (de) Vorrichtung und verfahren zur anzeige eines ziels mittels bildverarbeitung ohne drei dimensionales modellieren
DE112014003563B4 (de) Vorrichtung und Verfahren zur Gestenbestimmung, Gestenbedienungsvorrichtung, Programm und Aufzeichnungsmedium
EP3642696B1 (de) Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste
DE112014001658T5 (de) Nachverfolgungsverarbeitungsvorrichtung und Nachverfolgungsverarbeitungssystem, das damit ausgestattet ist, und Nachverfolgungsverarbeitungsverfahren
DE102007059478B4 (de) Verfahren und System zur Ausrichtung eines virtuellen Modells an einem realen Objekt
EP2711869A2 (de) Verfahren und Vorrichtung zur Aufnahme von Fingerabdrücken auf Basis von Fingerabdruckscannern in zuverlässig hoher Qualität
DE102010016251A1 (de) Erkennungsverfahren für ein bewegliches Objekt und das der Erkennung des beweglichen Objekts zugrunde liegende Befehlseingabeverfahren
DE102017122010A1 (de) Erkennungsverfahren und Erkennungseinrichtung zur Erkennung einer dreidimensionalen Position eines Objekts
WO2017153354A1 (de) Verfahren und vorrichtung zum bewerten von blickabbildungen
DE10100615A1 (de) Handerkennung mit Positionsbestimmung
EP2787485B1 (de) Verfahren und Vorrichtung zur automatischen Fehlerstellenerkennung bei biegeschlaffen Körpern
WO2016120251A1 (de) Verfahren zum betreiben einer eingabevorrichtung, eingabevorrichtung
DE102007041482A1 (de) Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste
AT519722A1 (de) Verfahren zur Detektion zumindest eines Jetonobjekts
DE102022130652A1 (de) Anlernen eines roboters durch vorführen mit visualservoing
DE102006045828B4 (de) Verfahren und Vorrichtung zum Erkennen eines Gesichts sowie ein Gesichtserkennungsmodul
WO2018234251A1 (de) Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste
EP2740021A1 (de) Methode und vorrichtung zur bestimmung eines bildausschnitts und auslösen von bilderfassungen mittels einer einzigen berührungsbasierten geste
DE102015109971B4 (de) Informationsverarbeitungsverfahren und elektronisches Gerät
DE19612465A1 (de) Automatische Konfiguration von Prüfsystemen
DE102012211734A1 (de) Verfahren und Vorrichtung zum Erfassen der Lage eines Objekts in einer Werkzeugmaschine
DE102011075877A1 (de) Auswertungsverfahren für eine Folge von zeitlich aufeinander folgenden Tiefenbildern
WO2015110331A1 (de) Verfahren zur erkennung einer bewegungsbahn mindestens eines bewegten objektes innerhalb eines erfassungsbereiches, verfahren zur gestikerkennung unter einsatz eines derartigen erkennungsverfahrens sowie vorrichtung zur durchführung eines derartigen erkennungsverfahrens
AT503007B1 (de) Verfahren und anordnung zum abbilden eines gegenstandes
WO2007048674A1 (de) System und verfahren für ein kamerabasiertes tracking

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
R082 Change of representative

Representative=s name: MICHALSKI HUETTERMANN & PARTNER PATENTANWAELTE, DE

Representative=s name: MICHALSKI HUETTERMANN & PARTNER PATENTANWAELTE, 40

R081 Change of applicant/patentee

Owner name: RHEINISCHE FRIEDRICH-WILHELMS-UNIVERSITAET BON, DE

Free format text: FORMER OWNER: RHEINISCHE FRIEDRICH-WILHELMS UNIVERSITAET, 53113 BONN, DE

Effective date: 20120316

R082 Change of representative

Representative=s name: MICHALSKI HUETTERMANN & PARTNER PATENTANWAELTE, DE

Effective date: 20120316

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20130301