DE10153610A1 - System und Verfahren für eine Gestenschnittstelle - Google Patents

System und Verfahren für eine Gestenschnittstelle

Info

Publication number
DE10153610A1
DE10153610A1 DE10153610A DE10153610A DE10153610A1 DE 10153610 A1 DE10153610 A1 DE 10153610A1 DE 10153610 A DE10153610 A DE 10153610A DE 10153610 A DE10153610 A DE 10153610A DE 10153610 A1 DE10153610 A1 DE 10153610A1
Authority
DE
Germany
Prior art keywords
determining
gesture
steps
images
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10153610A
Other languages
English (en)
Inventor
Che-Bin Liu
Visvanathan Ramesh
Bernhard Geiger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corporate Research Inc
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Publication of DE10153610A1 publication Critical patent/DE10153610A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

Ein Verfahren zur Bestimmung einer Geste umfaßt das Erkennen von Änderungen in dem Hintergrund eines Videobildes in einer Sequenz (301). Das Verfahren kann den Hautton eines Benutzers gemäß einem Gaußschen Mischungsmodell (302) erkennen. Eine Bewegungsbahn z. B. der Hand eines Benutzers kann aus der Videosequenz (303) extrahiert werden. Eine TDNN-gestützte Bewegungsmusterklassifizierung (304) kann zur Klassifizierung einer Handgeste verwendet werden.

Description

HINTERGRUND DER ERFINDUNG 1. Technisches Gebiet
Die vorliegende Erfindung betrifft Computer­ schnittstellen und insbesondere eine Echtzeit-Gesten­ schnittstelle zur Verwendung in Workstations für visuelle Darstellungen für medizinische Zwecke.
2. Allgemeiner Stand der Technik
In vielen Umgebungen sind traditionelle Benutzerschnittstellen, die berührt werden, wie zum Beispiel eine Maus und eine Tastatur, für den Dialog mit einem Computer nicht praktikabel. Eine solche Umgebung ist zum Beispiel ein Operationssaal (OP), in dem strikte Sterilität herrschen muß. Ein Chirurg und alle Geräte, mit denen seine Hände in Kontakt kommen, müssen steril sein. Deshalb sind die Maus und die Tastatur möglicherweise von der Betrachtung als Schnittstelle ausgeschlossen, da sie nicht sterilisiert werden können.
Ein Computer kann im OP für medizinische Abbildungen verwendet werden. Der Dialog kann Befehle zum Anzeigen verschiedener Bilder, das Durchlaufen einer Menge zweidimensionaler (2D) Bilder, das Wechseln von Abbildungsparametern (Fenster/Ebene) usw. umfassen. Durch Fortschritte bei der Technologie werden immer mehr dreidimensionale (3D-)visuelle Darstellungen verlangt. Der Dialog mit und die Manipulation von 3D- Modellen ist naturgemäß komplizierter als bei 2D- Modellen, auch wenn eine Maus und eine Tastatur verwendet werden können, da die Befehle beim Arbeiten in 3D möglicherweise nicht intuitiv sind. Befehle in der Umgebung der medizinischen visuellen 3D- Datendarstellung sind zum Beispiel Drehungen und Translationen, einschließlich Zoom.
Zu Bereichen des Mensch-Maschine-Dialogs im OP gehören zum Beispiel die Spracherkennung und die Gestenerkennung. Es sind mehrere Spracherkennungs­ systeme im Handel erhältlich. Im Kontext des OP besteht ihr Vorteil darin, daß der Chirurg eine Aktivität, wie zum Beispiel eine Naht, fortsetzen kann, während er dem Abbildungssystem befiehlt. Der Nachteil besteht jedoch darin, daß der Chirurg im Kopf geometrische Informationen in Sprache übersetzen muß: z. B. "nach rechts drehen", "vergrößern", "stop". Diese Befehle müssen eine bestimmte Form von qualitativen Informationen enthalten. Deshalb kann es kompliziert und ermüdend sein, eine spezifische 3D-Orientierung zu erzielen. Andere Probleme, die mit der Spracherkennung zusammenhängen, bestehen darin, daß sie in einer lauten Umgebung versagen können und das System möglicherweise auf jeden Benutzer trainiert werden muß.
Forscher haben versucht, Systeme zu entwickeln, die eine natürliche und intuitive Mensch-Maschine- Schnittstelle bereitstellen können. Die Bemühungen haben sich auf die Entwicklung von Schnittstellen ohne maus- oder gerätegestützte Dialoge konzentriert. Im OP rechtfertigt die Notwendigkeit der Sterilität die Verwendung neuartiger Verfahren für Mensch-Maschine- Schnittstellen, damit der Arzt Befehle an eine Workstation für die medizinische Abbildung ausgeben kann.
Die Gestenerkennung umfaßt zwei sequenzielle Aufgaben, die Merkmaldetektion/-extraktion und die Mustererkennung/-klassifizierung. Eine Übersicht der visuellen Interpretation von Handgesten findet sich in V.I. Pavlovic, R. Sharma und T.S. Huang "Visual interpretation of hand gestures for human-computer interaction, A Review", IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(7): 677-695, Juli 1997.
Für die Merkmaldetektion/-extraktion können Anwendungen zum Beispiel Farbe verwenden, um menschliche Haut zu erkennen. Ein Vorteil einer farbgestützten Technik ist die Echtzeitleistung. Die Variabilität der Hautfarbe bei veränderlichen Beleuchtungsbedingungen kann jedoch zu einer Falscherkennung führen. Bestimmte Anwendungen verwenden Bewegung, um die Geste zu lokalisieren. Ein Nachteil des Ansatzes der Bewegungshinweise besteht darin, daß möglicherweise Annahmen notwendig sind, damit das System funktionsfähig wird, z. B. ein stationärer Hintergrund und aktive Gesten von nur einer Person. Andere Verfahren, wie zum Beispiel die Verwendung von Datenhandschuhen/Sensoren zum Sammeln von 3D-Daten sind möglicherweise für eine Mensch- Maschine-Schnittstelle nicht geeignet, da sie nicht natürlich sind.
Für die Mustererkennung und -klassifizierung wurden mehrere Techniken vorgeschlagen. Das Hidden-Markov- Modell (HMM) ist ein Verfahren. Das HMM kann zum Beispiel für die Erkennung der amerikanischen Zeichensprache (ASL) verwendet werden. Ein Ansatz verwendet Bewegungsenergiebilder (MEI) und Bewegungs- Vorgeschichtebilder (MHI), um Gestenaktionen zu erkennen. Der Hauptvorteil eines solchen Zeit- Schablonen-Ansatzes ist die rechnerische Einfachheit. Es kann jedoch im MHI eine Bewegung irrelevanter Objekte vorliegen.
Neuronale Netze sind ein weiteres Werkzeug, das zur Erkennung verwendet wird. Insbesondere hat ein neuronales Netz mit Zeitverzögerung (time-delay neural network TDNN) die Fähigkeit demonstriert, räumlich/zeitliche Signale zu klassifizieren. Das TDNN kann auch für die Erkennung von Handgesten verwendet werden. Das TDNN ist möglicherweise jedoch für bestimmte Umgebungen, wie zum Beispiel einen OP, nicht geeignet, wenn der Hintergrund Elemente enthalten kann, die zu einem Durcheinander beitragen.
Deshalb werden ein System und ein Verfahren für eine Echtzeitschnittstelle für medizinische Workstations benötigt.
KURZE DARSTELLUNG DER ERFINDUNG
Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Verfahren zur Bestimmung einer Geste bereitgestellt. Das Verfahren umfaßt, das Bestimmen einer Änderung in einem Hintergrund eines Bildes aus mehreren Bildern und das Bestimmen eines Objekts in dem Bild. Das Verfahren umfaßt weiterhin das Bestimmen einer Bahn des Objekts durch die mehreren Bilder hindurch und das Klassifizieren einer Geste gemäß der Bahn des Objekts.
Das Bestimmen der Änderung in dem Hintergrund umfaßt das Bestimmen eines Gradientenintensitätsplans für den Hintergrund aus mehreren Bildern, das Bestimmen eines Gradientenintensitätsplans für das aktuelle Bild und das Bestimmen, für mehrere Pixel, einer Differenz zwischen dem Gradientenintensitätsplan und dem Gradientenintensitätsplan für den Hintergrund. Das Bestimmen der Änderung in dem Hintergrund umfaßt weiterhin das Bestimmen eines Vergleichs zwischen der Differenz und einer Schwelle und das Bestimmen eines Pixels als einen Hintergrundpixel gemäß dem Vergleich.
Das Objekt umfaßt die Hand eines Benutzers.
Das Bestimmen des Objekts in dem Bild umfaßt das Gewinnen einer normierten Farbdarstellung für mehrere Farben in jedem Bild, das Bestimmen einer Schätzung einer Wahrscheinlichkeitsverteilung normierter Farbwerte für eine Objektklasse aus Trainingsbildern und das Bestimmen, für jeden Pixel, einer Wahrscheinlichkeit gemäß einer geschätzten Wahrscheinlichkeitsdichte normierter Farbwerte für die Objektklasse.
Das Bestimmen der Bahn des Objekts durch die mehreren Bilder hindurch umfaßt weiterhin das Bestimmen, für jeden Pixel, einer zeitlichen Wahrscheinlichkeit über mehrere Bilder hinweg und das Bestimmen mehrerer Momente gemäß den zeitlichen Wahrscheinlichkeiten.
Das Bestimmen der Bahn umfaßt das Bestimmen einer Differenz in einer Größe des Objekts über eine vorbestimmte Zeitspanne hinweg, das Bestimmen mehrerer Winkel zwischen mehreren, aufeinanderfolgende Zentroide verbindenden Linien über die Zeitspanne hinweg und das Bestimmen eines Merkmalvektors gemäß den Winkeln und Linien.
Das Verfahren umfaßt weiterhin das Klassifizieren des Merkmalvektors gemäß einem neuronalen Netz mit Zeitverzögerung, wobei ein Merkmal eine feste Länge aufweist.
Das Klassifizieren der Geste umfaßt das Bestimmen eines Bezugspunkts, das Bestimmen einer Entsprechung zwischen der Bahn und dem Bezugspunkt und das Klassifizieren der Bahn gemäß einem von mehreren Befehlen.
Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Verfahren zur Bestimmung einer Bahn einer Hand durch mehrere Bilder hindurch bereitgestellt. Das Verfahren umfaßt das Erkennen eines Bezugspunkts, das Aktualisieren des Bezugspunkts, während sich der Bezugspunkt ändert, und das Erkennen einer ersten Translation der Hand durch die mehreren Bilder hindurch. Das Verfahren umfaßt weiterhin das Erkennen einer zweiten Translation durch die mehreren Bilder hindurch, das Bestimmen einer Geste gemäß einer Wahl und das Bestimmen, ob die Geste ein gültiger Gestenbefehl ist.
Der Bezugspunkt wird nicht als ein Gestenbefehl interpretiert. Der Bezugspunkt ist gekennzeichnet durch die Handgröße und eine Position eines Zentroids der Hand in jedem Bild.
Die erste Translation ist eine Vorwärts- oder eine Rückwärtstranslation, wobei die erste Translation durch eine große Änderung der Handgröße und eine relativ kleine Änderung eines Zentroids der Hand gekennzeichnet ist. Die zweite Translation ist eine Links-, eine Rechts-, eine Aufwärts- oder eine Abwärtstranslation.
Das Erkennen der zweiten Translation umfaßt das Bestimmen eines normierten Vektors zwischen zwei Zentroiden ct und ct-1 als einen Merkmalvektor, wobei es drei Ausgangsmuster gibt. Die drei Ausgangsmuster sind eine vertikale Bewegung, eine horizontale Bewegung und eine Unbekannte. Das Verfahren umfaßt weiterhin das Vergleichen des Bezugspunkts mit einem Zentroid bei Bestimmung der Translation als eine vertikale oder horizontale Translation, und das Prüfen eines Eingangsmusters bei Bestimmung der Translation als eine unbekannte Translation. Das Prüfen des Eingangsmusters umfaßt weiterhin das Erkennen einer kreisförmigen Bewegung, wobei ein Winkel zwischen dem Vektor ctct-1 und dem Vektor ct-1ct-2 als der Merkmalvektor bestimmt wird.
Die gültige Geste wird kontinuierlich eine vorbestimmte Zeit lang durchgeführt.
Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein Programmspeichergerät bereitgestellt, das maschinenlesbar ist und deutlich ein Programm von Befehlen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zur Bestimmung einer Geste durchzuführen. Das Verfahren umfaßt das Bestimmen einer Änderung in einem Hintergrund eines Bild aus mehreren Bildern, das Bestimmen eines Objekts in dem Bild, das Bestimmen einer Bahn des Objekts durch die mehreren Bilder hindurch und das Klassifizieren einer Geste gemäß der Bahn des Objekts.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Es werden nun bevorzugte Ausführungsformen der vorliegenden Erfindung ausführlicher beschrieben, wobei auf die beigefügten Zeichnungen Bezug genommen wird:
Fig. 1 ist ein Screenshot des Fly-Through-Werkzeugs zur visuellen Darstellung gemäß einer Ausführungsform der vorliegenden Erfindung;
Fig. 2 ist ein Bild der operierenden Hand eines Benutzers in einem Bild gemäß einer Ausführungsform der vorliegenden Erfindung;
Fig. 3 zeigt Module der Gestenschnittstelle für medizinische Workstations gemäß einer Ausführungsform der vorliegenden Erfindung;
Fig. 4 zeigt eine Hierarchie eines TDNN-gestützten Klassifizierers gemäß einer Ausführungsform der vorliegenden Erfindung;
Fig. 5a-d zeigen ein Beispiel für ein Verfahren zur Unterscheidung von Bewegungen gemäß einer Ausführungsform der vorliegenden Erfindung; und
Fig. 6a-h zeigen ein Beispiel für ein Verfahren zur Bestimmung einer Handgeste, wobei. die Hand nicht stationär gehalten wird, gemäß einer Ausführungsform der vorliegenden Erfindung.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Ein System und ein Verfahren für eine Computerschnittstelle erkennt Änderungen in einem Hintergrundteil eines Bildes, klassifiziert ein interessierendes Objekt auf der Grundlage von Farbeigenschaften in dem Bild und extrahiert und klassifiziert ein Gestenmerkmal. Die resultierenden Klassifizierungsergebnisse können zur Steuerung eines Systems zur visuellen 3D-Darstellung für medizinische Bilddaten, wie zum Beispiel Fly-Through, verwendet werden. Dieses System und dieses Verfahren können eine Echtzeitleistung in durcheinandergemischten Hinter­ grundverhältnissen erzielen. Außerdem kann man das System und das Verfahren in Verbindung mit einem System oder Verfahren zur medizinischen visuellen Darstellung von Bildern implementieren.
3D Virtuoso ist eine Nachverarbeitungs-Workstation von Siemens, die viele 3D-Werkzeuge besitzt. Eines dieser Werkzeuge, Fly-Through, ist ein eigenes Werkzeug für die virtuelle Endoskopiesimulation. Neben generischen 3D-Wiedergabefähigkeiten enthält es einen Sichtpunkt, der eine Ansicht eines Hohlraums, wie zum Beispiel einer Luftröhre oder eines Darms von einem Sichtpunkt im Körper, dem virtuellen Endoskop, zeigt. Fig. 1 ist ein Screenshot eines Werkzeugs zur visuellen Darstellung, in diesem Fall Fly-Through, wobei eine globale Ansicht der Daten 101 sowie eine Ansicht 102 des virtuellen Endoskops von einem vom Benutzer definierten vorteilhaften Punkt aus gezeigt ist.
Gemäß einer Ausführungsform der vorliegenden Erfindung können das System und das Verfahren die Manipulation eines Endoskops imitieren. Das System und das Verfahren ermöglichen dem Benutzer zum Beispiel, ein virtuelles Endoskop zu schieben, zu ziehen, zu schwenken und zu drehen. Diese und andere Befehle können eine Gestenerkennung bereitstellen. Gesten sind zum Beispiel Grade von Translationen, einschließlich Links-, Rechts-, Aufwärts-, Abwärts-, Vorwärts- und Rückwärts- und kreisförmige Bewegungen im Uhrzeigersinn oder entgegen dem Uhrzeigersinn. Kreisförmige Bewegungen werden in der Gestenschnittstelle als Drehungen angesehen. Wie in Fig. 2 gezeigt, ist eine Kamera vor der Hand 201 eines Benutzers fixiert. Ein gültiger Gestenbefehl muß kontinuierlich eine vorbestimmte Zeit lang durchgeführt werden, um den Befehl zu initialisieren. Eine Wiederholung einer Geste, z. B. mehr als zweimal, kann als ein gültiger Befehl betrachtet werden. Um zum Beispiel das virtuelle Endoskop nach links zu steuern, kann der Benutzer seine Hand von rechts nach links und von links nach rechts bewegen und diese Bewegung fortsetzen, bis sich das virtuelle Endoskop an die gewünschte Stelle bewegt. Somit kann unter Verwendung von Handgesten eine hohe Erkennungsrate, z. B. 95%, erzielt werden.
Der Entwurf von Gesten kann für eine Gestenschnittstelle wichtig sein. Es ist möglicherweise nicht realistisch, einen Benutzer zu bitten, seine Hand immer in dem visuellen Feld der Kamera zu halten. Außerdem müssen bedeutungslose Handbewegungen von der Mensch-Maschine-Schnittstelle ignoriert werden. Zum Beispiel könnte der Benutzer nach der Durchführung einer Geste wünschen, seine Hand aus dem Sichtfeld der Kamera herauszubewegen, um andere Tätigkeiten durchzuführen, z. B. um einen Schnitt auszuführen. Diese Arten von Handbewegungen sind erlaubt, und die HMI muß sie ignorieren. Nachdem der Benutzer einen gültigen Gestenbefehl initialisiert, führt das System den Befehl so lange aus, wie die Geste fortdauert. Zum Beispiel führt das virtuelle Endoskop im Fall von Fly-Through eine umso größere Bewegung durch, je länger eine Geste durchgeführt wird.
Man betrachte zwei gültige Gestenbefehle, Bewegung nach links und Bewegung nach rechts. Beide Befehle können erfordern, daß die Hand des Benutzers horizontal bewegt wird, und der Benutzer kann diese Bewegung so oft wie gewünscht fortsetzen. Wenn keine Informationen über den Ursprung der Bewegung gegeben sind, ist es eventuell unmöglich, zwischen den Bewegungsbahnmustern, z. B. Bewegung nach links oder nach rechts, zu unterscheiden. Ähnliche Mehrdeutigkeiten können entstehen, wenn andere Translationen durchgeführt werden. Aus diesem Grund müssen das System und das Verfahren einen Startpunkt für einen Gestenbefehl kennen oder bestimmen. Gemäß einer Ausführungsform der vorliegenden Erfindung wird durch Ruhighalten der Hand vor der Durchführung einer neuen Geste der Ruhepunkt zu einem Bezugspunkt. Der Bezugspunkt wird zur Unterscheidung zum Beispiel zwischen einer Bewegung nach links oder nach rechts, nach oben oder nach unten oder vorwärts oder rückwärts verwendet.
Ein Gestenbefehl kann verschiedene Gesten umfassen, wobei zum Beispiel die Darstellung kreisförmiger Bewegungen eines Fingers oder ein Drehen der Hand zur Bewirkung einer Drehung der Ansicht verwendet wird. In diesem Beispiel kann das Zeichnen von Kreisen für den Benutzer einfacher als das Drehen der Hand sein.
Mit Bezug auf Fig. 3 umfaßt das Verfahren das Erkennen von Änderungen in dem Hintergrund eines Videobildes in einer Sequenz 301. Das Verfahren kann die Hauttönung eines Benutzers gemäß einem Gaußschen Mischungsmodell 302 erkennen. Eine Bewegungsbahn zum Beispiel der Hand des Benutzers kann aus der Videosequenz 303 extrahiert werden. Die TDNN-gestützte Bewegungsmuster­ klassifizierung 304 kann zur Klassifizierung einer Handgeste verwendet werden. Das System sendet die Klassifizierungsergebnisse zum Beispiel zu dem Fly- Through-System zur visuellen Darstellung.
Das System und das Verfahren können Änderungen in einem Hintergrund durch Bestimmen einer Intensität jedes Bildes aus dem Videostrom erkennen. Um Rauschen zu beseitigen, kann auf jedes Bild ein Gaußsches Filter angewandt werden. Ein Gradientenplan der Pixelintensität kann bestimmt werden. Nach der Bestimmung des Gradientenplans eines aktuellen Einzelbildes kann wird der Gradienten mit dem gelernten Hintergrundgradientenplan verglichen. Wenn sich ein gegebener Pixel um weniger als eine Schwelle zwischen diesen beiden Gradientenplänen unterscheidet, wird der Pixel als ein Hintergrundpixel bestimmt und kann entsprechend markiert werden. Es kann eine vorbestimmte Schwelle verwendet werden. Für Durchschnittsfachleute ist im Hinblick auf die vorliegende Erfindung erkennbar, daß es zusätzliche Verfahren zur Auswahl der Schwelle gibt, und zwar zum Beispiel durch Kenntnis der Sensoreigenschaften oder durch normale Beleuchtungsänderungen, die in dem Hintergrund zugelassen werden. Gemäß einer Ausführungsform der vorliegenden Erfindung kann der größte Bereich verbundener Hintergrundpixel als Hintergrundbereich verwendet werden.
Gemäß einer Ausführungsform der vorliegenden Erfindung kann die Erkennung des Hauttons auf einem normierten Farbmodell basieren, wobei eine gelernte Mischung Gaußscher Verteilungen verwendet wird. Die Verwendung normierter Farben
kann die Varianz der Hautfarbe in einem Bild reduzieren. Außerdem wurde gezeigt, daß die Hautfarbe durch eine Mehrvariablen- Gaußfunktion im HS-Raum (Farbton und Sättigung) unter bestimmten Beleuchtungsbedingungen modelliert werden kann. Im allgemeinen für ein Gaußsches Mischungsmodell mit n Komponenten die bedingte Wahrscheinlichkeitsdichte für eine Beobachtung χ der Dimensionalität:
wobei der Mischungsparameter πi der vorherigen Wahrscheinlichkeit der Mischungskomponente i entspricht und jede Komponente eine Gaußfunktion mit Mittelwertvektor µi und Kovarianzmatrix Σi ist. Gemäß einer Ausführungsform der vorliegenden Erfindung können Hautfarben im normierten RG-Raum (rot und grün) modelliert werden. Nach gelernten Mittelwertvektoren µ, Kovarianzmatrix Σ und bekanntem vorherigem π wird eine Wahrscheinlichkeit für jeden Pixel des Bildes gemäß der obigen Gleichung (1) bestimmt. Gemäß einer Ausführungsform der vorliegenden Erfindung kann die Wahrscheinlichkeit eines Pixels I(x, y) folgendermaßen definiert werden:
Für einen Vordergrundpixel mit seiner normierten Farbbeobachtung χ ist die Wahrscheinlichkeit des Pixels definiert als seine geschätzte Dichte. Bei Hintergrundpixeln werden die Wahrscheinlichkeitswerte auf 0 gesetzt. Ein mögliches Verfahren zur Auswahl von Hautpixeln besteht darin, eine einfache Schwelle auf Gleichung (2) anzuwenden. Wenn die Wahrscheinlichkeit eines Pixels größer als die Schwelle ist, wird der Pixel dann als ein Hautpixel klassifiziert. Und die größte Hautfläche des Bildes wird häufig als das erkannte Hautobjekt angesehen.
Die Bahn des Zentroids des erkannten Hautobjekts wird häufig als die Bewegungsbahn des Objekts verwendet. Es wurde jedoch bestimmt, daß es in einer Büroumgebung viele Objekte mit hautartiger Farbe gibt. Zum Beispiel kann ein Bücherregal aus Holz oder ein Poster an einer Wand falsch als ein hautartiges Objekt klassifiziert werden. Deshalb versuchen das System und das Verfahren, wie oben besprochen Hintergrundpixel zu beseitigen. Nebenbei bemerkt werden die Hautobjekte (die Hand des Benutzers und wahrscheinlich der Arm) manchmal in zwei oder mehr Blobs aufgeteilt. Andere Hautbereiche, wie zum Beispiel das Gesicht, können ebenfalls im Sichtfeld der Kamera erscheinen. Diese Probleme in Verbindung mit der ungleichförmigen Beleuchtung lassen den Zentroid drastisch schwanken und führen zu Falscherkennungen. Aus diesen Gründen kann man eine stabile Bewegungsbahn nur schwer einfach alleinig durch Auffinden des größten Hautbereichs erhalten. Um diese Probleme zu behandeln, kann man eine zeitliche Wahrscheinlichkeit als Lt(x, y, t) jedes Pixels I(x, y) folgendermaßen definieren:
Lt(x, y, t) = λL(x, y) + (1 - λ) Lt(x, y, t-1) (3)
wobei λ ein Abklingfaktor ist. Experimente zeigen, daß ein Wert von λ gleich 0,5 verwendet werden kann.
Um Hautpixel zu wählen, wird eine Schwelle δ auf die zeitliche Wahrscheinlichkeit Lt(x, y, t) anstelle der Wahrscheinlichkeit L(x, y) jedes Pixels angewandt. Somit kann die einem Schwellenwert unterworfene zeitliche Wahrscheinlichkeit eines Pixels folgender­ maßen definiert werden:
Die Momente des Bildes können folgendermaßen bestimmt werden:
Gemäß einer Ausführungsform der vorliegenden Erfindung wird M t|00 als die Größe von Hautpixeln angesehen. Und (M t|10, M t|01) wird genommen, um die Bewegungsbahn zu bilden. Die vorliegende Erfindung klassifiziert die Benutzergeste präzise. Das System und das Verfahren liefern eine vernünftige Lösung für die Extraktion von Bahnen von Handbewegungen.
Die Erkennung von Bewegungsmustern der Hand eines Benutzers kann unter Verwendung von TDNN gemäß einer Ausführungsform der vorliegenden Erfindung erzielt werden. Experimente zeigen, daß TDNN eine gute Leistung bei der Bewegungsmusterklassifizierung aufweist. Wie durch Experimente gezeigt wird, weist TDNN eine bessere Leistung auf, wenn die Anzahl von Ausgangsetiketten klein gehalten wird. Ein weiterer Vorteil besteht darin, daß durch wenige Ausgangsetiketten Netzwerke einfach werden und in der Netztrainingsstufe Zeit gespart wird. Aus diesen Gründen werden die Gesten des Benutzers hierarchisch geprüft. Außerdem wurde bestimmt, daß eine hierarchische Anwendung des TDNN für die Klassifizierung der acht oben beschriebenen Bewegungsmuster geeignet ist. Zum Beispiel weisen eine Linksbewegung und eine Rechtsbewegung das gemeinsame Bewegungsmuster einer horizontalen Handbewegung auf. Sobald eine horizontale Bewegung erkannt wird, wird somit der Bewegungsumfang mit dem Bezugspunkt verglichen, um diese beiden Gesten zu unterscheiden.
Ohne Einführung des Bezugspunkts ist es für das neuronale Netz schwierig, die Gesten zu unterscheiden. Die Eingangsmuster der TDNNs weisen eine feste Eingangslänge auf. Da die Klassifizierung in Echtzeit durchgeführt werden soll, während der Benutzer seine Hand bewegt, werden die Bewegungsmuster entlang von zeitlichen Fenstern klassifiziert. Zum Zeitpunkt t wird der Zentroid ct wie in bezug auf die Bewegungsbahnextraktion beschrieben gewonnen.
Man nehme an, die Länge eines Eingangsmusters sei w, die Merkmalvektoren {νt-w+1, νy-w+2, . . ., νt} aus {ct-w, ct-w+1, . . ., ct} werden extrahiert, um ein TDNN- Eingangsmuster zu bilden. Wenn die maximale Reaktion aus dem Netzwerk im Vergleich mit anderen Etikettenreaktionen relativ klein ist, wird das Eingangsmuster als eine Unbekannte klassifiziert. Einige falsche Erkennungen oder Unbekannte sind unausweichlich. Eine Falscherkennung kann auftreten, wenn die Bahn einer Translation einem Bogen eines Kreises gleichen. Um die Falscherkennung zu minimieren und eine stabile Leistung zu erhalten, wird eine feste Anzahl vergangener Ergebnisse geprüft. Wenn mehr als die Hälfte dieser vergangenen Ergebnisse dasselbe Ausgangsmuster anzeigen, wird dieses Ausgangsmuster als das Endergebnis bestimmt. Dieses Verfahren ergab erfolgreich eine zuverlässige Erkennungsrate.
Fig. 4 zeigt eine Hierarchie des Bewegungsmuster­ klassifizierers gemäß einer Ausführungsform der vorliegenden Erfindung. Zur Erkennung eines Bezugspunkts erkennt, wenn ein Benutzer seine Hand 401 eine Zeit lang ruhig hält, das heißt, daß sowohl die Größe als auch der Zentroid entlang eines bestimmten Zeitintervalls fast gleich bleiben, das Verfahren aktualisiert einen Bezugspunkt 402. Der Bezugspunkt wird von dem System und dem Verfahren nicht als ein Gestenbefehl interpretiert.
Das Verfahren erkennt Vorwärts-/Rückwärtstranslationen 403. Die aus Gleichung (5) erhaltenen Hautgrößeninformationen können zur Bestimmung einer Translation verwendet werden. Da die Bewegung von vorwärts oder rückwärts ungefähr entlang der Z-Achse der Kamera erfolgt, sind diese beiden Translationen durch eine drastische Änderung der Hautgröße und eine geringfügige Änderung des Zentroids des erkannten Hautbereichs gekennzeichnet. Die geschätzte Größe der Hand wird mit der Größe der Hand verglichen, als der Bezugspunkt initialisiert wurde, um zwischen einer Vorwärts- und einer Rückwärtsbewegung zu unterscheiden. Außerdem kann das Verfahren Links-/Rechts-/Aufwärts-/Ab­ wärts-Translationen 405 erkennen. Der normierte Vektor zwischen den Zentroiden ct und ct-1 wird als der Merkmalvektor berechnet. Es gibt drei Ausgangsmuster: Vertikale Bewegung, horizontale Bewegung und unbekannt. Um zu bestimmen, ob eine Bewegung vertikal oder horizontal ist, wird der Zentroid des Bezugspunkts mit dem gerade in dem Einzelbild geschätzten Zentroid verglichen. Wenn das Ergebnis unbekannt ist, z. B. eine kreisförmige Bewegung sein kann, wird das Eingangsmuster in der nächsten Phase geprüft.
Zur Erkennung kreisförmiger Bewegungen wird der Winkel zwischen dem Vektor ctct-1 und dem Vektor ct-1ct-2 als der Merkmalvektor 406 berechnet. Dieses Merkmal kann zwischen kreisförmigen Bewegungen im Uhrzeigersinn und entgegen dem Uhrzeigersinn unterscheiden. Wie erwartet, können Benutzer Kreise aus einer beliebigen Position zeichnen. Insbesondere würde eine Spirale nicht als eine Translation, sondern als eine der kreisförmigen Bewegungen klassifiziert. Mit Bezug auf Fig. 4 kann das Verfahren ein Wahlverfahren 407 verwenden, um vergangene Ergebnisse zu prüfen, um eine sinnvolle Ausgabe zu bilden, das System vermindert die Wahrscheinlichkeit einer Falschklassifizierung. Das Verfahren bestimmt, ob eine gegebene Geste ein gültiger Gestenbefehl 408 ist. Ein gültige Gesten müssen fortwährend in einem bestimmten Zeitintervall durchgeführt werden, um den Befehl zu initialisieren.
Fig. 5 und 6 zeigen Beispiele für unsere experimentellen Ergebnisse. In jedem Bild wird der schwarze Bereich, z. B. 501 als Hintergrund angesehen. Die Umrandungsbox, z. B. 502 (in Fig. 5b der Klarheit halber weiß hervorgehoben) jedes Bildes zeigt den größten Hautbereich an, der durch die einem Schwellenwert unterzogene Wahrscheinlichkeit, Gleichung (2), bestimmt wird. Man beachte, daß die Umrandungsboxen nur für die Anzeige verwendet werden. Der Pfeil bzw. die Pfeile, z. B. 503, auf jede Umrandungsbox zeigen das Klassifizierungsergebnis. Eine Umrandungsbox ohne Pfeil, wie zum Beispiel in Fig. 5a-c, darauf bedeutet, daß die Geste ein unbekanntes Muster ist, oder daß keine Bewegung stattgefunden hat, oder daß nicht genug Daten gesammelt wurden. Da hier Bewegungsmuster entlang zeitlichen Fenstern klassifiziert werden, kann nach der Initialisierung einer Geste eine bestimmte Verzögerung erfolgen (Daten reichen nicht aus, damit das System eine globale Entscheidung treffen kann).
Gemäß einer Ausführungsform der vorliegenden Erfindung können unbeabsichtigte Bewegungen mit einem Wahlverfahren 407 geprüft werden, um vergangene Ergebnisse zu prüfen, um sinnvolle Ausgaben zu bilden, so daß die Möglichkeit einer Falschklassifizierung vermindert wird. Außerdem kann ein Benutzer Gesten ändern, ohne seine Hand ruhig zu halten. Für zwei beliebige Gesten, die ohne neuen Bezugspunkt unterschieden werden können, wie zum Beispiel Linksdrehung und dann aufwärts oder eine Translation zu einer kreisförmigen Bewegung, muß der Benutzer die Hand dazwischen nicht ruhig halten. In Prüfungen demonstriert das System eine zuverlässige und präzise Leistung.
Es wird eine intuitive Gestenschnittstelle für medizinische Abbildungs-Workstations benötigt. Die vorliegende Erfindung schlägt ein Echtzeitsystem und -verfahren vor, die Gesten erkennen, um ein virtuelles Endoskopiesystem anzusteuern. Das System und das Verfahren können die Geste eines Benutzers als eines von acht definierten Bewegungsmustern klassifizieren: Drehung nach links/rechts, Drehung im Uhrzeigersinn oder entgegen dem Uhrzeigersinn, Bewegung aufwärts/abwärts und Tiefenbewegung hinein/heraus. Das Erkennen zusammengesetzter Gestenbefehle auf einer zweidimensionalen Ebene erfordert weitere Modifikationen. Außerdem nutzen derzeitige Arbeiten den Umstand aus, daß bestimmte Translationsmuster entlang der Z-Achse der Kamera durchgeführt werden. Mit nur einer Kamera erfordert das Entwerfen einer Gestenschnittstelle für sechs Freiheitsgrade mit einer flexibleren Kameraposition weitere Forschungen. Das System und das Verfahren wurden in einer Laborumgebung geprüft, und es ist weitere Arbeit notwendig, um das System zu verbessern und es in einer klinischen Umgebung zu bewerten.
Nach der Beschreibung von Ausführungsformen für ein System und ein Verfahren für Echtzeit-Gesten­ schnittstellen für medizinische Workstations sei bemerkt, daß Fachleute im Hinblick auf die obigen Lehren, Modifikationen und Abwandlungen vornehmen können. Es versteht sich deshalb, daß an den offengelegten bestimmten Ausführungsformen der Erfindung Änderungen vorgenommen werden können, die in den Gedanken und Schutzumfang der Erfindung fallen, der durch die angefügten Ansprüche definiert wird. Nachdem somit die Erfindung mit den Details und Einzelheiten, die von den Patentgesetzen gefordert werden, beschrieben wurde, wird nunmehr der gewünschte Schutzumfang durch das Patent in den angefügten Ansprüchen beansprucht.

Claims (25)

1. Verfahren zur Bestimmung einer Geste mit den folgenden Schritten:
Bestimmen einer Änderung in einem Hintergrund eines Bildes aus mehreren Bildern;
Bestimmen eines Objekts in dem Bild;
Bestimmen einer Bahn des Objekts durch die mehreren Bilder hindurch; und
Klassifizieren einer Geste gemäß der Bahn des Objekts.
2. Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens der Änderung in dem Hintergrund weiterhin die folgenden Schritte umfaßt:
Bestimmen eines Gradientenintensitätsplans für den Hintergrund aus mehreren Bildern;
Bestimmen eines Gradientenintensitätsplans für das aktuelle Bild;
Bestimmen, für mehrere Pixel, einer Differenz zwischen dem Gradientenintensitätsplan und dem Gradientenintensitätsplan für den Hintergrund;
Bestimmen eines Vergleichs zwischen der Differenz und einer Schwelle; und
Bestimmen eines Pixels als einen Hintergrundpixel gemäß dem Vergleich.
3. Verfahren nach Anspruch 1, wobei das Objekt die Hand eines Benutzers umfaßt.
4. Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens des Objekts in dem Bild weiterhin die folgenden Schritte umfaßt:
Gewinnen einer normierten Farbdarstellung für mehrere Farben in jedem Bild;
Bestimmen einer Schätzung einer Wahrscheinlich­ keitsverteilung normierter Farbwerte für eine Objektklasse aus Trainingsbildern; und
Bestimmen, für jeden Pixel, einer Wahrscheinlichkeit gemäß einer geschätzten Wahrscheinlichkeitsdichte normierter Farbwerte für die Objektklasse.
5. Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens der Bahn des Objekts durch die mehreren Bilder hindurch weiterhin die folgenden Schritte umfaßt:
Bestimmen, für jeden Pixel, einer zeitlichen Wahrscheinlichkeit über mehrere Bilder hinweg; und
Bestimmen mehrerer Momente gemäß den zeitlichen Wahrscheinlichkeiten.
6. Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens der Bahn weiterhin die folgenden Schritte umfaßt:
Bestimmen einer Differenz einer Größe des Objekts über eine vorbestimmte Zeitspanne hinweg;
Bestimmen mehrerer Winkel zwischen mehreren, aufeinanderfolgende Zentroide verbindenden Linien über die Zeitspanne hinweg; und
Bestimmen eines Merkmalvektors gemäß den Winkeln und Linien.
7. Verfahren nach Anspruch 6, weiterhin mit dem Schritt des Klassifizierens des Merkmalvektors gemäß einem neuronalen Netz mit Zeitverzögerung, wobei ein Merkmal eine feste Länge aufweist.
8. Verfahren nach Anspruch 1, wobei der Schritt des Klassifizierens der Geste weiterhin die folgenden Schritte umfaßt:
Bestimmen eines Bezugspunkts;
Bestimmen einer Entsprechung zwischen der Bahn und dem Bezugspunkt; und
Klassifizieren der Bahn gemäß einem von mehreren Befehlen.
9. Verfahren zur Bestimmung einer Bahn einer Hand durch mehrere Bilder hindurch, mit den folgenden Schritten:
Erkennen eines Bezugspunkts;
Aktualisieren des Bezugspunkts, während sich der Bezugspunkt ändert;
Erkennen einer ersten Translation der Hand durch die mehreren Bilder hindurch;
Erkennen einer zweiten Translation durch die mehreren Bilder hindurch; Bestimmen einer Geste gemäß einer Wahl; und
Bestimmen, ob die Geste ein gültiger Gestenbefehl ist.
10. Verfahren nach Anspruch 9, wobei der Bezugspunkt nicht als ein Gestenbefehl interpretiert wird.
11. Verfahren nach Anspruch 9, wobei der Bezugspunkt durch Handgröße und eine Position eines Zentroids der Hand in jedem Bild gekennzeichnet wird.
12. Verfahren nach Anspruch 9, wobei die erste Translation eine Vorwärts- oder eine Rückwärtstranslation ist, wobei die erste Translation durch eine große Änderung der Handgröße und eine relativ kleine Änderung eines Zentroids der Hand gekennzeichnet ist.
13. Verfahren nach Anspruch 9, wobei die zweite Translation eine Links-, eine Rechts-, eine Aufwärts- oder eine Abwärtstranslation ist.
14. Verfahren nach Anspruch 9, wobei der Schritt des Erkennens der zweiten Translation weiterhin den Schritt des Bestimmens eines normierten Vektors zwischen zwei Zentroiden ct und ct-1 als einen Merkmalvektor umfaßt, wobei es drei Ausgangsmuster gibt.
15. Verfahren nach Anspruch 14, wobei die drei Ausgangsmuster eine vertikale Bewegung, eine horizontale Bewegung und eine Unbekannte sind, wobei das Verfahren weiterhin die folgenden Schritte umfaßt:
Vergleichen des Bezugspunkts mit einem Zentroid bei Bestimmung der Translation als eine vertikale oder eine horizontale Translation; und
Prüfen eines Eingangsmusters bei Bestimmung der Translation als eine unbekannte Translation.
16. Verfahren nach Anspruch 15, wobei der Schritt des Prüfens eines Eingangsmusters weiterhin die Schritte des Erkennens einer kreisförmigen Bewegung umfaßt, wobei ein Winkel zwischen dem Vektor ctct-1 und dem Vektor ct-1ct-2 als der Merkmalvektor bestimmt wird.
17. Verfahren nach Anspruch 9, wobei die gültige Geste kontinuierlich eine vorbestimmte Zeit lang durchgeführt wird.
18. Programmspeichergerät, das maschinenlesbar ist und deutlich ein Programm von Befehlen realisiert, die von der Maschine ausführbar sind, um Verfahren zur Bestimmung einer Geste durchzuführen, wobei die Verfahrensschritte folgendes umfassen:
Bestimmen einer Änderung in einem Hintergrund eines Bildes aus mehreren Bildern;
Bestimmen eines Objekts in dem Bild;
Bestimmen einer Bahn des Objekts durch die mehreren Bilder hindurch;
Klassifizieren einer Geste gemäß der Bahn des Objekts.
19. Verfahren nach Anspruch 18, wobei der Schritt des Bestimmens der Änderung in dem Hintergrund weiterhin die folgenden Schritte umfaßt:
Bestimmen eines Gradientenintensitätsplans für den Hintergrund aus mehreren Bildern;
Bestimmen eines Gradientenintensitätsplans für das aktuelle Bild;
Bestimmen, für mehrere Pixel, einer Differenz zwischen dem Gradientenintensitätsplan und dem Gradientenintensitätsplan für den Hintergrund;
Bestimmen eines Vergleichs zwischen der Differenz und einer Schwelle; und
Bestimmen eines Pixels als einen Hintergrundpixel gemäß dem Vergleich.
20. Verfahren nach Anspruch 18, wobei das Objekt die Hand eines Benutzers umfaßt.
21. Verfahren nach Anspruch 18, wobei der Schritt des Bestimmens des Objekts in dem Bild weiterhin die folgenden Schritte umfaßt:
Gewinnen einer normierten Farbdarstellung für mehrere Farben in jedem Bild;
Bestimmen einer Schätzung einer Wahrscheinlich­ keitsverteilung normierter Farbwerte für eine Objektklasse aus Trainingsbildern; und
Bestimmen, für jeden Pixel, einer Wahrschein­ lichkeit gemäß einer geschätzten Wahrscheinlich­ keitsdichte normierter Farbwerte für die Objektklasse.
22. Verfahren nach Anspruch 18, wobei der Schritt des Bestimmens der Bahn des Objekts durch die mehreren Bilder hindurch weiterhin die folgenden Schritte umfaßt:
Bestimmen, für jeden Pixel, einer zeitlichen Wahrscheinlichkeit über mehrere Bilder hinweg; und
Bestimmen mehrerer Momente gemäß den zeitlichen Wahrscheinlichkeiten.
23. Verfahren nach Anspruch 18, wobei der Schritt des Bestimmens der Bahn weiterhin die folgenden Schritte umfaßt:
Bestimmen einer Differenz einer Größe des Objekts über eine vorbestimmte Zeitspanne hinweg;
Bestimmen mehrerer Winkel zwischen mehreren, aufeinanderfolgende Zentroide verbindenden Linien über die Zeitspanne hinweg; und
Bestimmen eines Merkmalvektors gemäß den Winkeln und Linien.
24. Verfahren nach Anspruch 23, weiterhin mit den Schritten des Klassifizierens des Merkmalvektors gemäß einem neuronalen Netz mit Zeitverzögerung, wobei ein Merkmal eine feste Länge aufweist.
25. Verfahren nach Anspruch 18, wobei der Schritt des Klassifizierens der Geste weiterhin die folgenden Schritte umfaßt:
Bestimmen eines Bezugspunkts;
Bestimmen einer Entsprechung zwischen Bahn und dem Bezugspunkt; und
Klassifizieren der Bahn gemäß einem von mehreren Befehlen.
DE10153610A 2000-11-03 2001-11-02 System und Verfahren für eine Gestenschnittstelle Ceased DE10153610A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US24568600P 2000-11-03 2000-11-03

Publications (1)

Publication Number Publication Date
DE10153610A1 true DE10153610A1 (de) 2002-06-13

Family

ID=22927653

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10153610A Ceased DE10153610A1 (de) 2000-11-03 2001-11-02 System und Verfahren für eine Gestenschnittstelle

Country Status (1)

Country Link
DE (1) DE10153610A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014225796A1 (de) * 2014-12-15 2016-06-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Steuerung eines Fahrzeugsystems

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014225796A1 (de) * 2014-12-15 2016-06-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Steuerung eines Fahrzeugsystems
US10528146B2 (en) 2014-12-15 2020-01-07 Bayerische Motoren Werke Aktiengesellschaft Method for controlling a vehicle system

Similar Documents

Publication Publication Date Title
US7095401B2 (en) System and method for gesture interface
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE69823001T2 (de) Verfahren und Vorrichtung zur Rekonstruktion der dreidimensionalen Bewegung eines menschlichen Körpers aus Monokularbildsequenzen
DE68928895T2 (de) Verfahren und Gerät für universelle adaptiv lernende Bildmessung und -erkennung
DE112006002954B4 (de) Virtuelles Schnittstellensystem
DE602004009960T2 (de) System und verfahren zum erkennen und vergleichen anatomischer strukturen unter verwendung von erscheinungsbild und form
DE602004002756T2 (de) Bildverarbeitungsverfahren zur automatischen anpassung eines deformierbaren 3d-modells auf eine im wesentlichen röhrenförmige oberfläche eines 3d-objekts
EP2344980B1 (de) Vorrichtung, verfahren und computerprogramm zur erkennung einer geste in einem bild, sowie vorrichtung, verfahren und computerprogramm zur steuerung eines geräts
DE69331259T2 (de) Räumliche Mensch-Schnittstelle durch Bewegungserkennung mit dynamischer Bildverarbeitung
EP3040818B1 (de) Programm und system zum erkennen eines objektes in einer bildschirmdarstellung
EP2430614A1 (de) Verfahren zur echtzeitfähigen, rechnergestützten analyse einer eine veränderliche pose enthaltenden bildsequenz
DE19955690A1 (de) System und Verfahren zur auf einer Volumendarstellung basierenden Segmentation
Ismail et al. Hand gesture recognition on python and opencv
Nath et al. Real time sign language interpreter
DE102017220307A1 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE112019002848T5 (de) System und verfahren zum auffinden und klassifizieren von mustern in einem bild mit einem bildverarbeitungssystem
WO2016120251A1 (de) Verfahren zum betreiben einer eingabevorrichtung, eingabevorrichtung
DE102005049017B4 (de) Verfahren zur Segmentierung in einem n-dimensionalen Merkmalsraum und Verfahren zur Klassifikation auf Grundlage von geometrischen Eigenschaften segmentierter Objekte in einem n-dimensionalen Datenraum
DE69328147T2 (de) Gebärdenspracherkennungsgerät und Verfahren und Gebärdensprachübersetzungssystem, das dieses verwendet
DE10153610A1 (de) System und Verfahren für eine Gestenschnittstelle
CN115509355A (zh) 一种整合视觉下的mi-bci交互控制系统及方法
CN113807280A (zh) 一种基于Kinect的虚拟船舶机舱系统与方法
Phu et al. Computer vision based hand gesture recognition using artificial neural network
Fan et al. Machine vision for an intelligent tutor
DE4339161C2 (de) Verfahren zur Verfolgung von Bewegungen einer menschlichen Hand in einer zeitlichen Folge digitaler Farbbilder

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8120 Willingness to grant licences paragraph 23
8131 Rejection