DE10153610A1 - System und Verfahren für eine Gestenschnittstelle - Google Patents
System und Verfahren für eine GestenschnittstelleInfo
- Publication number
- DE10153610A1 DE10153610A1 DE10153610A DE10153610A DE10153610A1 DE 10153610 A1 DE10153610 A1 DE 10153610A1 DE 10153610 A DE10153610 A DE 10153610A DE 10153610 A DE10153610 A DE 10153610A DE 10153610 A1 DE10153610 A1 DE 10153610A1
- Authority
- DE
- Germany
- Prior art keywords
- determining
- gesture
- steps
- images
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
Ein Verfahren zur Bestimmung einer Geste umfaßt das Erkennen von Änderungen in dem Hintergrund eines Videobildes in einer Sequenz (301). Das Verfahren kann den Hautton eines Benutzers gemäß einem Gaußschen Mischungsmodell (302) erkennen. Eine Bewegungsbahn z. B. der Hand eines Benutzers kann aus der Videosequenz (303) extrahiert werden. Eine TDNN-gestützte Bewegungsmusterklassifizierung (304) kann zur Klassifizierung einer Handgeste verwendet werden.
Description
Die vorliegende Erfindung betrifft Computer
schnittstellen und insbesondere eine Echtzeit-Gesten
schnittstelle zur Verwendung in Workstations für
visuelle Darstellungen für medizinische Zwecke.
In vielen Umgebungen sind traditionelle
Benutzerschnittstellen, die berührt werden, wie zum
Beispiel eine Maus und eine Tastatur, für den Dialog
mit einem Computer nicht praktikabel. Eine solche
Umgebung ist zum Beispiel ein Operationssaal (OP), in
dem strikte Sterilität herrschen muß. Ein Chirurg und
alle Geräte, mit denen seine Hände in Kontakt kommen,
müssen steril sein. Deshalb sind die Maus und die
Tastatur möglicherweise von der Betrachtung als
Schnittstelle ausgeschlossen, da sie nicht sterilisiert
werden können.
Ein Computer kann im OP für medizinische Abbildungen
verwendet werden. Der Dialog kann Befehle zum Anzeigen
verschiedener Bilder, das Durchlaufen einer Menge
zweidimensionaler (2D) Bilder, das Wechseln von
Abbildungsparametern (Fenster/Ebene) usw. umfassen.
Durch Fortschritte bei der Technologie werden immer
mehr dreidimensionale (3D-)visuelle Darstellungen
verlangt. Der Dialog mit und die Manipulation von 3D-
Modellen ist naturgemäß komplizierter als bei 2D-
Modellen, auch wenn eine Maus und eine Tastatur
verwendet werden können, da die Befehle beim Arbeiten
in 3D möglicherweise nicht intuitiv sind. Befehle in
der Umgebung der medizinischen visuellen 3D-
Datendarstellung sind zum Beispiel Drehungen und
Translationen, einschließlich Zoom.
Zu Bereichen des Mensch-Maschine-Dialogs im OP gehören
zum Beispiel die Spracherkennung und die
Gestenerkennung. Es sind mehrere Spracherkennungs
systeme im Handel erhältlich. Im Kontext des OP besteht
ihr Vorteil darin, daß der Chirurg eine Aktivität, wie
zum Beispiel eine Naht, fortsetzen kann, während er dem
Abbildungssystem befiehlt. Der Nachteil besteht jedoch
darin, daß der Chirurg im Kopf geometrische
Informationen in Sprache übersetzen muß: z. B. "nach
rechts drehen", "vergrößern", "stop". Diese Befehle
müssen eine bestimmte Form von qualitativen
Informationen enthalten. Deshalb kann es kompliziert
und ermüdend sein, eine spezifische 3D-Orientierung zu
erzielen. Andere Probleme, die mit der Spracherkennung
zusammenhängen, bestehen darin, daß sie in einer lauten
Umgebung versagen können und das System möglicherweise
auf jeden Benutzer trainiert werden muß.
Forscher haben versucht, Systeme zu entwickeln, die
eine natürliche und intuitive Mensch-Maschine-
Schnittstelle bereitstellen können. Die Bemühungen
haben sich auf die Entwicklung von Schnittstellen ohne
maus- oder gerätegestützte Dialoge konzentriert. Im OP
rechtfertigt die Notwendigkeit der Sterilität die
Verwendung neuartiger Verfahren für Mensch-Maschine-
Schnittstellen, damit der Arzt Befehle an eine
Workstation für die medizinische Abbildung ausgeben
kann.
Die Gestenerkennung umfaßt zwei sequenzielle Aufgaben,
die Merkmaldetektion/-extraktion und die
Mustererkennung/-klassifizierung. Eine Übersicht der
visuellen Interpretation von Handgesten findet sich in
V.I. Pavlovic, R. Sharma und T.S. Huang "Visual
interpretation of hand gestures for human-computer
interaction, A Review", IEEE Transactions on Pattern
Analysis and Machine Intelligence, 19(7): 677-695, Juli
1997.
Für die Merkmaldetektion/-extraktion können Anwendungen
zum Beispiel Farbe verwenden, um menschliche Haut zu
erkennen. Ein Vorteil einer farbgestützten Technik ist
die Echtzeitleistung. Die Variabilität der Hautfarbe
bei veränderlichen Beleuchtungsbedingungen kann jedoch
zu einer Falscherkennung führen. Bestimmte Anwendungen
verwenden Bewegung, um die Geste zu lokalisieren. Ein
Nachteil des Ansatzes der Bewegungshinweise besteht
darin, daß möglicherweise Annahmen notwendig sind,
damit das System funktionsfähig wird, z. B. ein
stationärer Hintergrund und aktive Gesten von nur einer
Person. Andere Verfahren, wie zum Beispiel die
Verwendung von Datenhandschuhen/Sensoren zum Sammeln
von 3D-Daten sind möglicherweise für eine Mensch-
Maschine-Schnittstelle nicht geeignet, da sie nicht
natürlich sind.
Für die Mustererkennung und -klassifizierung wurden
mehrere Techniken vorgeschlagen. Das Hidden-Markov-
Modell (HMM) ist ein Verfahren. Das HMM kann zum
Beispiel für die Erkennung der amerikanischen
Zeichensprache (ASL) verwendet werden. Ein Ansatz
verwendet Bewegungsenergiebilder (MEI) und Bewegungs-
Vorgeschichtebilder (MHI), um Gestenaktionen zu
erkennen. Der Hauptvorteil eines solchen Zeit-
Schablonen-Ansatzes ist die rechnerische Einfachheit.
Es kann jedoch im MHI eine Bewegung irrelevanter
Objekte vorliegen.
Neuronale Netze sind ein weiteres Werkzeug, das zur
Erkennung verwendet wird. Insbesondere hat ein
neuronales Netz mit Zeitverzögerung (time-delay neural
network TDNN) die Fähigkeit demonstriert,
räumlich/zeitliche Signale zu klassifizieren. Das TDNN
kann auch für die Erkennung von Handgesten verwendet
werden. Das TDNN ist möglicherweise jedoch für
bestimmte Umgebungen, wie zum Beispiel einen OP, nicht
geeignet, wenn der Hintergrund Elemente enthalten kann,
die zu einem Durcheinander beitragen.
Deshalb werden ein System und ein Verfahren für eine
Echtzeitschnittstelle für medizinische Workstations
benötigt.
Gemäß einer Ausführungsform der vorliegenden Erfindung
wird ein Verfahren zur Bestimmung einer Geste
bereitgestellt. Das Verfahren umfaßt, das Bestimmen
einer Änderung in einem Hintergrund eines Bildes aus
mehreren Bildern und das Bestimmen eines Objekts in dem
Bild. Das Verfahren umfaßt weiterhin das Bestimmen
einer Bahn des Objekts durch die mehreren Bilder
hindurch und das Klassifizieren einer Geste gemäß der
Bahn des Objekts.
Das Bestimmen der Änderung in dem Hintergrund umfaßt
das Bestimmen eines Gradientenintensitätsplans für den
Hintergrund aus mehreren Bildern, das Bestimmen eines
Gradientenintensitätsplans für das aktuelle Bild und
das Bestimmen, für mehrere Pixel, einer Differenz
zwischen dem Gradientenintensitätsplan und dem
Gradientenintensitätsplan für den Hintergrund. Das
Bestimmen der Änderung in dem Hintergrund umfaßt
weiterhin das Bestimmen eines Vergleichs zwischen der
Differenz und einer Schwelle und das Bestimmen eines
Pixels als einen Hintergrundpixel gemäß dem Vergleich.
Das Objekt umfaßt die Hand eines Benutzers.
Das Bestimmen des Objekts in dem Bild umfaßt das
Gewinnen einer normierten Farbdarstellung für mehrere
Farben in jedem Bild, das Bestimmen einer Schätzung
einer Wahrscheinlichkeitsverteilung normierter
Farbwerte für eine Objektklasse aus Trainingsbildern
und das Bestimmen, für jeden Pixel, einer
Wahrscheinlichkeit gemäß einer geschätzten
Wahrscheinlichkeitsdichte normierter Farbwerte für die
Objektklasse.
Das Bestimmen der Bahn des Objekts durch die mehreren
Bilder hindurch umfaßt weiterhin das Bestimmen, für
jeden Pixel, einer zeitlichen Wahrscheinlichkeit über
mehrere Bilder hinweg und das Bestimmen mehrerer
Momente gemäß den zeitlichen Wahrscheinlichkeiten.
Das Bestimmen der Bahn umfaßt das Bestimmen einer
Differenz in einer Größe des Objekts über eine
vorbestimmte Zeitspanne hinweg, das Bestimmen mehrerer
Winkel zwischen mehreren, aufeinanderfolgende Zentroide
verbindenden Linien über die Zeitspanne hinweg und das
Bestimmen eines Merkmalvektors gemäß den Winkeln und
Linien.
Das Verfahren umfaßt weiterhin das Klassifizieren des
Merkmalvektors gemäß einem neuronalen Netz mit
Zeitverzögerung, wobei ein Merkmal eine feste Länge
aufweist.
Das Klassifizieren der Geste umfaßt das Bestimmen eines
Bezugspunkts, das Bestimmen einer Entsprechung zwischen
der Bahn und dem Bezugspunkt und das Klassifizieren der
Bahn gemäß einem von mehreren Befehlen.
Gemäß einer Ausführungsform der vorliegenden Erfindung
wird ein Verfahren zur Bestimmung einer Bahn einer Hand
durch mehrere Bilder hindurch bereitgestellt. Das
Verfahren umfaßt das Erkennen eines Bezugspunkts, das
Aktualisieren des Bezugspunkts, während sich der
Bezugspunkt ändert, und das Erkennen einer ersten
Translation der Hand durch die mehreren Bilder
hindurch. Das Verfahren umfaßt weiterhin das Erkennen
einer zweiten Translation durch die mehreren Bilder
hindurch, das Bestimmen einer Geste gemäß einer Wahl
und das Bestimmen, ob die Geste ein gültiger
Gestenbefehl ist.
Der Bezugspunkt wird nicht als ein Gestenbefehl
interpretiert. Der Bezugspunkt ist gekennzeichnet durch
die Handgröße und eine Position eines Zentroids der
Hand in jedem Bild.
Die erste Translation ist eine Vorwärts- oder eine
Rückwärtstranslation, wobei die erste Translation durch
eine große Änderung der Handgröße und eine relativ
kleine Änderung eines Zentroids der Hand gekennzeichnet
ist. Die zweite Translation ist eine Links-, eine
Rechts-, eine Aufwärts- oder eine Abwärtstranslation.
Das Erkennen der zweiten Translation umfaßt das
Bestimmen eines normierten Vektors zwischen zwei
Zentroiden ct und ct-1 als einen Merkmalvektor, wobei es
drei Ausgangsmuster gibt. Die drei Ausgangsmuster sind
eine vertikale Bewegung, eine horizontale Bewegung und
eine Unbekannte. Das Verfahren umfaßt weiterhin das
Vergleichen des Bezugspunkts mit einem Zentroid bei
Bestimmung der Translation als eine vertikale oder
horizontale Translation, und das Prüfen eines
Eingangsmusters bei Bestimmung der Translation als eine
unbekannte Translation. Das Prüfen des Eingangsmusters
umfaßt weiterhin das Erkennen einer kreisförmigen
Bewegung, wobei ein Winkel zwischen dem Vektor ctct-1 und
dem Vektor ct-1ct-2 als der Merkmalvektor bestimmt wird.
Die gültige Geste wird kontinuierlich eine vorbestimmte
Zeit lang durchgeführt.
Gemäß einer Ausführungsform der vorliegenden Erfindung
wird ein Programmspeichergerät bereitgestellt, das
maschinenlesbar ist und deutlich ein Programm von
Befehlen realisiert, die von der Maschine ausführbar
sind, um Verfahrensschritte zur Bestimmung einer Geste
durchzuführen. Das Verfahren umfaßt das Bestimmen einer
Änderung in einem Hintergrund eines Bild aus mehreren
Bildern, das Bestimmen eines Objekts in dem Bild, das
Bestimmen einer Bahn des Objekts durch die mehreren
Bilder hindurch und das Klassifizieren einer Geste
gemäß der Bahn des Objekts.
Es werden nun bevorzugte Ausführungsformen der
vorliegenden Erfindung ausführlicher beschrieben, wobei
auf die beigefügten Zeichnungen Bezug genommen wird:
Fig. 1 ist ein Screenshot des Fly-Through-Werkzeugs zur
visuellen Darstellung gemäß einer Ausführungsform der
vorliegenden Erfindung;
Fig. 2 ist ein Bild der operierenden Hand eines
Benutzers in einem Bild gemäß einer Ausführungsform der
vorliegenden Erfindung;
Fig. 3 zeigt Module der Gestenschnittstelle für
medizinische Workstations gemäß einer Ausführungsform
der vorliegenden Erfindung;
Fig. 4 zeigt eine Hierarchie eines TDNN-gestützten
Klassifizierers gemäß einer Ausführungsform der
vorliegenden Erfindung;
Fig. 5a-d zeigen ein Beispiel für ein Verfahren zur
Unterscheidung von Bewegungen gemäß einer
Ausführungsform der vorliegenden Erfindung; und
Fig. 6a-h zeigen ein Beispiel für ein Verfahren zur
Bestimmung einer Handgeste, wobei. die Hand nicht
stationär gehalten wird, gemäß einer Ausführungsform
der vorliegenden Erfindung.
Ein System und ein Verfahren für eine
Computerschnittstelle erkennt Änderungen in einem
Hintergrundteil eines Bildes, klassifiziert ein
interessierendes Objekt auf der Grundlage von
Farbeigenschaften in dem Bild und extrahiert und
klassifiziert ein Gestenmerkmal. Die resultierenden
Klassifizierungsergebnisse können zur Steuerung eines
Systems zur visuellen 3D-Darstellung für medizinische
Bilddaten, wie zum Beispiel Fly-Through, verwendet
werden. Dieses System und dieses Verfahren können eine
Echtzeitleistung in durcheinandergemischten Hinter
grundverhältnissen erzielen. Außerdem kann man das
System und das Verfahren in Verbindung mit einem System
oder Verfahren zur medizinischen visuellen Darstellung
von Bildern implementieren.
3D Virtuoso ist eine Nachverarbeitungs-Workstation von
Siemens, die viele 3D-Werkzeuge besitzt. Eines dieser
Werkzeuge, Fly-Through, ist ein eigenes Werkzeug für
die virtuelle Endoskopiesimulation. Neben generischen
3D-Wiedergabefähigkeiten enthält es einen Sichtpunkt,
der eine Ansicht eines Hohlraums, wie zum Beispiel
einer Luftröhre oder eines Darms von einem Sichtpunkt
im Körper, dem virtuellen Endoskop, zeigt. Fig. 1 ist
ein Screenshot eines Werkzeugs zur visuellen
Darstellung, in diesem Fall Fly-Through, wobei eine
globale Ansicht der Daten 101 sowie eine Ansicht 102
des virtuellen Endoskops von einem vom Benutzer
definierten vorteilhaften Punkt aus gezeigt ist.
Gemäß einer Ausführungsform der vorliegenden Erfindung
können das System und das Verfahren die Manipulation
eines Endoskops imitieren. Das System und das Verfahren
ermöglichen dem Benutzer zum Beispiel, ein virtuelles
Endoskop zu schieben, zu ziehen, zu schwenken und zu
drehen. Diese und andere Befehle können eine
Gestenerkennung bereitstellen. Gesten sind zum Beispiel
Grade von Translationen, einschließlich Links-, Rechts-,
Aufwärts-, Abwärts-, Vorwärts- und Rückwärts- und
kreisförmige Bewegungen im Uhrzeigersinn oder entgegen
dem Uhrzeigersinn. Kreisförmige Bewegungen werden in
der Gestenschnittstelle als Drehungen angesehen. Wie in
Fig. 2 gezeigt, ist eine Kamera vor der Hand 201 eines
Benutzers fixiert. Ein gültiger Gestenbefehl muß
kontinuierlich eine vorbestimmte Zeit lang durchgeführt
werden, um den Befehl zu initialisieren. Eine
Wiederholung einer Geste, z. B. mehr als zweimal, kann
als ein gültiger Befehl betrachtet werden. Um zum
Beispiel das virtuelle Endoskop nach links zu steuern,
kann der Benutzer seine Hand von rechts nach links und
von links nach rechts bewegen und diese Bewegung
fortsetzen, bis sich das virtuelle Endoskop an die
gewünschte Stelle bewegt. Somit kann unter Verwendung
von Handgesten eine hohe Erkennungsrate, z. B. 95%,
erzielt werden.
Der Entwurf von Gesten kann für eine
Gestenschnittstelle wichtig sein. Es ist möglicherweise
nicht realistisch, einen Benutzer zu bitten, seine Hand
immer in dem visuellen Feld der Kamera zu halten.
Außerdem müssen bedeutungslose Handbewegungen von der
Mensch-Maschine-Schnittstelle ignoriert werden. Zum
Beispiel könnte der Benutzer nach der Durchführung
einer Geste wünschen, seine Hand aus dem Sichtfeld der
Kamera herauszubewegen, um andere Tätigkeiten
durchzuführen, z. B. um einen Schnitt auszuführen. Diese
Arten von Handbewegungen sind erlaubt, und die HMI muß
sie ignorieren. Nachdem der Benutzer einen gültigen
Gestenbefehl initialisiert, führt das System den Befehl
so lange aus, wie die Geste fortdauert. Zum Beispiel
führt das virtuelle Endoskop im Fall von Fly-Through
eine umso größere Bewegung durch, je länger eine Geste
durchgeführt wird.
Man betrachte zwei gültige Gestenbefehle, Bewegung nach
links und Bewegung nach rechts. Beide Befehle können
erfordern, daß die Hand des Benutzers horizontal bewegt
wird, und der Benutzer kann diese Bewegung so oft wie
gewünscht fortsetzen. Wenn keine Informationen über den
Ursprung der Bewegung gegeben sind, ist es eventuell
unmöglich, zwischen den Bewegungsbahnmustern, z. B.
Bewegung nach links oder nach rechts, zu unterscheiden.
Ähnliche Mehrdeutigkeiten können entstehen, wenn andere
Translationen durchgeführt werden. Aus diesem Grund
müssen das System und das Verfahren einen Startpunkt
für einen Gestenbefehl kennen oder bestimmen. Gemäß
einer Ausführungsform der vorliegenden Erfindung wird
durch Ruhighalten der Hand vor der Durchführung einer
neuen Geste der Ruhepunkt zu einem Bezugspunkt. Der
Bezugspunkt wird zur Unterscheidung zum Beispiel
zwischen einer Bewegung nach links oder nach rechts,
nach oben oder nach unten oder vorwärts oder rückwärts
verwendet.
Ein Gestenbefehl kann verschiedene Gesten umfassen,
wobei zum Beispiel die Darstellung kreisförmiger
Bewegungen eines Fingers oder ein Drehen der Hand zur
Bewirkung einer Drehung der Ansicht verwendet wird. In
diesem Beispiel kann das Zeichnen von Kreisen für den
Benutzer einfacher als das Drehen der Hand sein.
Mit Bezug auf Fig. 3 umfaßt das Verfahren das Erkennen
von Änderungen in dem Hintergrund eines Videobildes in
einer Sequenz 301. Das Verfahren kann die Hauttönung
eines Benutzers gemäß einem Gaußschen Mischungsmodell
302 erkennen. Eine Bewegungsbahn zum Beispiel der Hand
des Benutzers kann aus der Videosequenz 303 extrahiert
werden. Die TDNN-gestützte Bewegungsmuster
klassifizierung 304 kann zur Klassifizierung einer
Handgeste verwendet werden. Das System sendet die
Klassifizierungsergebnisse zum Beispiel zu dem Fly-
Through-System zur visuellen Darstellung.
Das System und das Verfahren können Änderungen in einem
Hintergrund durch Bestimmen einer Intensität jedes
Bildes aus dem Videostrom erkennen. Um Rauschen zu
beseitigen, kann auf jedes Bild ein Gaußsches Filter
angewandt werden. Ein Gradientenplan der
Pixelintensität kann bestimmt werden. Nach der
Bestimmung des Gradientenplans eines aktuellen
Einzelbildes kann wird der Gradienten mit dem gelernten
Hintergrundgradientenplan verglichen. Wenn sich ein
gegebener Pixel um weniger als eine Schwelle zwischen
diesen beiden Gradientenplänen unterscheidet, wird der
Pixel als ein Hintergrundpixel bestimmt und kann
entsprechend markiert werden. Es kann eine vorbestimmte
Schwelle verwendet werden. Für Durchschnittsfachleute
ist im Hinblick auf die vorliegende Erfindung
erkennbar, daß es zusätzliche Verfahren zur Auswahl der
Schwelle gibt, und zwar zum Beispiel durch Kenntnis
der Sensoreigenschaften oder durch normale
Beleuchtungsänderungen, die in dem Hintergrund
zugelassen werden. Gemäß einer Ausführungsform der
vorliegenden Erfindung kann der größte Bereich
verbundener Hintergrundpixel als Hintergrundbereich
verwendet werden.
Gemäß einer Ausführungsform der vorliegenden Erfindung
kann die Erkennung des Hauttons auf einem normierten
Farbmodell basieren, wobei eine gelernte Mischung
Gaußscher Verteilungen verwendet wird. Die Verwendung
normierter Farben
kann die Varianz der
Hautfarbe in einem Bild reduzieren. Außerdem wurde
gezeigt, daß die Hautfarbe durch eine Mehrvariablen-
Gaußfunktion im HS-Raum (Farbton und Sättigung) unter
bestimmten Beleuchtungsbedingungen modelliert werden
kann. Im allgemeinen für ein Gaußsches Mischungsmodell
mit n Komponenten die bedingte
Wahrscheinlichkeitsdichte für eine Beobachtung χ der
Dimensionalität:
wobei der Mischungsparameter πi der vorherigen
Wahrscheinlichkeit der Mischungskomponente i entspricht
und jede Komponente eine Gaußfunktion mit
Mittelwertvektor µi und Kovarianzmatrix Σi ist. Gemäß
einer Ausführungsform der vorliegenden Erfindung können
Hautfarben im normierten RG-Raum (rot und grün)
modelliert werden. Nach gelernten Mittelwertvektoren µ,
Kovarianzmatrix Σ und bekanntem vorherigem π wird eine
Wahrscheinlichkeit für jeden Pixel des Bildes gemäß der
obigen Gleichung (1) bestimmt. Gemäß einer
Ausführungsform der vorliegenden Erfindung kann die
Wahrscheinlichkeit eines Pixels I(x, y) folgendermaßen
definiert werden:
Für einen Vordergrundpixel mit seiner normierten
Farbbeobachtung χ ist die Wahrscheinlichkeit des Pixels
definiert als seine geschätzte Dichte. Bei
Hintergrundpixeln werden die Wahrscheinlichkeitswerte
auf 0 gesetzt. Ein mögliches Verfahren zur Auswahl von
Hautpixeln besteht darin, eine einfache Schwelle auf
Gleichung (2) anzuwenden. Wenn die Wahrscheinlichkeit
eines Pixels größer als die Schwelle ist, wird der
Pixel dann als ein Hautpixel klassifiziert. Und die
größte Hautfläche des Bildes wird häufig als das
erkannte Hautobjekt angesehen.
Die Bahn des Zentroids des erkannten Hautobjekts wird
häufig als die Bewegungsbahn des Objekts verwendet. Es
wurde jedoch bestimmt, daß es in einer Büroumgebung
viele Objekte mit hautartiger Farbe gibt. Zum Beispiel
kann ein Bücherregal aus Holz oder ein Poster an einer
Wand falsch als ein hautartiges Objekt klassifiziert
werden. Deshalb versuchen das System und das Verfahren,
wie oben besprochen Hintergrundpixel zu beseitigen.
Nebenbei bemerkt werden die Hautobjekte (die Hand des
Benutzers und wahrscheinlich der Arm) manchmal in zwei
oder mehr Blobs aufgeteilt. Andere Hautbereiche, wie
zum Beispiel das Gesicht, können ebenfalls im Sichtfeld
der Kamera erscheinen. Diese Probleme in Verbindung mit
der ungleichförmigen Beleuchtung lassen den Zentroid
drastisch schwanken und führen zu Falscherkennungen.
Aus diesen Gründen kann man eine stabile Bewegungsbahn
nur schwer einfach alleinig durch Auffinden des größten
Hautbereichs erhalten. Um diese Probleme zu behandeln,
kann man eine zeitliche Wahrscheinlichkeit als Lt(x, y,
t) jedes Pixels I(x, y) folgendermaßen definieren:
Lt(x, y, t) = λL(x, y) + (1 - λ) Lt(x, y, t-1) (3)
wobei λ ein Abklingfaktor ist. Experimente zeigen, daß
ein Wert von λ gleich 0,5 verwendet werden kann.
Um Hautpixel zu wählen, wird eine Schwelle δ auf die
zeitliche Wahrscheinlichkeit Lt(x, y, t) anstelle der
Wahrscheinlichkeit L(x, y) jedes Pixels angewandt.
Somit kann die einem Schwellenwert unterworfene
zeitliche Wahrscheinlichkeit eines Pixels folgender
maßen definiert werden:
Die Momente des Bildes können folgendermaßen bestimmt
werden:
Gemäß einer Ausführungsform der vorliegenden Erfindung
wird M t|00 als die Größe von Hautpixeln angesehen. Und
(M t|10, M t|01) wird genommen, um die Bewegungsbahn zu bilden.
Die vorliegende Erfindung klassifiziert die
Benutzergeste präzise. Das System und das Verfahren
liefern eine vernünftige Lösung für die Extraktion von
Bahnen von Handbewegungen.
Die Erkennung von Bewegungsmustern der Hand eines
Benutzers kann unter Verwendung von TDNN gemäß einer
Ausführungsform der vorliegenden Erfindung erzielt
werden. Experimente zeigen, daß TDNN eine gute Leistung
bei der Bewegungsmusterklassifizierung aufweist. Wie
durch Experimente gezeigt wird, weist TDNN eine bessere
Leistung auf, wenn die Anzahl von Ausgangsetiketten
klein gehalten wird. Ein weiterer Vorteil besteht
darin, daß durch wenige Ausgangsetiketten Netzwerke
einfach werden und in der Netztrainingsstufe Zeit
gespart wird. Aus diesen Gründen werden die Gesten des
Benutzers hierarchisch geprüft. Außerdem wurde
bestimmt, daß eine hierarchische Anwendung des TDNN für
die Klassifizierung der acht oben beschriebenen
Bewegungsmuster geeignet ist. Zum Beispiel weisen eine
Linksbewegung und eine Rechtsbewegung das gemeinsame
Bewegungsmuster einer horizontalen Handbewegung auf.
Sobald eine horizontale Bewegung erkannt wird, wird
somit der Bewegungsumfang mit dem Bezugspunkt
verglichen, um diese beiden Gesten zu unterscheiden.
Ohne Einführung des Bezugspunkts ist es für das
neuronale Netz schwierig, die Gesten zu unterscheiden.
Die Eingangsmuster der TDNNs weisen eine feste
Eingangslänge auf. Da die Klassifizierung in Echtzeit
durchgeführt werden soll, während der Benutzer seine
Hand bewegt, werden die Bewegungsmuster entlang von
zeitlichen Fenstern klassifiziert. Zum Zeitpunkt t wird
der Zentroid ct wie in bezug auf die
Bewegungsbahnextraktion beschrieben gewonnen.
Man nehme an, die Länge eines Eingangsmusters sei w,
die Merkmalvektoren {νt-w+1, νy-w+2, . . ., νt} aus {ct-w, ct-w+1, . . .,
ct} werden extrahiert, um ein TDNN-
Eingangsmuster zu bilden. Wenn die maximale Reaktion
aus dem Netzwerk im Vergleich mit anderen
Etikettenreaktionen relativ klein ist, wird das
Eingangsmuster als eine Unbekannte klassifiziert.
Einige falsche Erkennungen oder Unbekannte sind
unausweichlich. Eine Falscherkennung kann auftreten,
wenn die Bahn einer Translation einem Bogen eines
Kreises gleichen. Um die Falscherkennung zu minimieren
und eine stabile Leistung zu erhalten, wird eine feste
Anzahl vergangener Ergebnisse geprüft. Wenn mehr als
die Hälfte dieser vergangenen Ergebnisse dasselbe
Ausgangsmuster anzeigen, wird dieses Ausgangsmuster als
das Endergebnis bestimmt. Dieses Verfahren ergab
erfolgreich eine zuverlässige Erkennungsrate.
Fig. 4 zeigt eine Hierarchie des Bewegungsmuster
klassifizierers gemäß einer Ausführungsform der
vorliegenden Erfindung. Zur Erkennung eines
Bezugspunkts erkennt, wenn ein Benutzer seine Hand 401
eine Zeit lang ruhig hält, das heißt, daß sowohl die
Größe als auch der Zentroid entlang eines bestimmten
Zeitintervalls fast gleich bleiben, das Verfahren
aktualisiert einen Bezugspunkt 402. Der Bezugspunkt
wird von dem System und dem Verfahren nicht als ein
Gestenbefehl interpretiert.
Das Verfahren erkennt Vorwärts-/Rückwärtstranslationen
403. Die aus Gleichung (5) erhaltenen
Hautgrößeninformationen können zur Bestimmung einer
Translation verwendet werden. Da die Bewegung von
vorwärts oder rückwärts ungefähr entlang der Z-Achse
der Kamera erfolgt, sind diese beiden Translationen
durch eine drastische Änderung der Hautgröße und eine
geringfügige Änderung des Zentroids des erkannten
Hautbereichs gekennzeichnet. Die geschätzte Größe der
Hand wird mit der Größe der Hand verglichen, als der
Bezugspunkt initialisiert wurde, um zwischen einer
Vorwärts- und einer Rückwärtsbewegung zu unterscheiden.
Außerdem kann das Verfahren Links-/Rechts-/Aufwärts-/Ab
wärts-Translationen 405 erkennen. Der normierte
Vektor zwischen den Zentroiden ct und ct-1 wird als der
Merkmalvektor berechnet. Es gibt drei Ausgangsmuster:
Vertikale Bewegung, horizontale Bewegung und unbekannt.
Um zu bestimmen, ob eine Bewegung vertikal oder
horizontal ist, wird der Zentroid des Bezugspunkts mit
dem gerade in dem Einzelbild geschätzten Zentroid
verglichen. Wenn das Ergebnis unbekannt ist, z. B. eine
kreisförmige Bewegung sein kann, wird das
Eingangsmuster in der nächsten Phase geprüft.
Zur Erkennung kreisförmiger Bewegungen wird der Winkel
zwischen dem Vektor ctct-1 und dem Vektor ct-1ct-2 als der
Merkmalvektor 406 berechnet. Dieses Merkmal kann
zwischen kreisförmigen Bewegungen im Uhrzeigersinn und
entgegen dem Uhrzeigersinn unterscheiden. Wie erwartet,
können Benutzer Kreise aus einer beliebigen Position
zeichnen. Insbesondere würde eine Spirale nicht als
eine Translation, sondern als eine der kreisförmigen
Bewegungen klassifiziert. Mit Bezug auf Fig. 4 kann das
Verfahren ein Wahlverfahren 407 verwenden, um
vergangene Ergebnisse zu prüfen, um eine sinnvolle
Ausgabe zu bilden, das System vermindert die
Wahrscheinlichkeit einer Falschklassifizierung. Das
Verfahren bestimmt, ob eine gegebene Geste ein gültiger
Gestenbefehl 408 ist. Ein gültige Gesten müssen
fortwährend in einem bestimmten Zeitintervall
durchgeführt werden, um den Befehl zu initialisieren.
Fig. 5 und 6 zeigen Beispiele für unsere
experimentellen Ergebnisse. In jedem Bild wird der
schwarze Bereich, z. B. 501 als Hintergrund angesehen.
Die Umrandungsbox, z. B. 502 (in Fig. 5b der Klarheit
halber weiß hervorgehoben) jedes Bildes zeigt den
größten Hautbereich an, der durch die einem
Schwellenwert unterzogene Wahrscheinlichkeit, Gleichung
(2), bestimmt wird. Man beachte, daß die
Umrandungsboxen nur für die Anzeige verwendet werden.
Der Pfeil bzw. die Pfeile, z. B. 503, auf jede
Umrandungsbox zeigen das Klassifizierungsergebnis. Eine
Umrandungsbox ohne Pfeil, wie zum Beispiel in Fig. 5a-c,
darauf bedeutet, daß die Geste ein unbekanntes
Muster ist, oder daß keine Bewegung stattgefunden hat,
oder daß nicht genug Daten gesammelt wurden. Da hier
Bewegungsmuster entlang zeitlichen Fenstern
klassifiziert werden, kann nach der Initialisierung
einer Geste eine bestimmte Verzögerung erfolgen (Daten
reichen nicht aus, damit das System eine globale
Entscheidung treffen kann).
Gemäß einer Ausführungsform der vorliegenden Erfindung
können unbeabsichtigte Bewegungen mit einem
Wahlverfahren 407 geprüft werden, um vergangene
Ergebnisse zu prüfen, um sinnvolle Ausgaben zu bilden,
so daß die Möglichkeit einer Falschklassifizierung
vermindert wird. Außerdem kann ein Benutzer Gesten
ändern, ohne seine Hand ruhig zu halten. Für zwei
beliebige Gesten, die ohne neuen Bezugspunkt
unterschieden werden können, wie zum Beispiel
Linksdrehung und dann aufwärts oder eine Translation zu
einer kreisförmigen Bewegung, muß der Benutzer die Hand
dazwischen nicht ruhig halten. In Prüfungen
demonstriert das System eine zuverlässige und präzise
Leistung.
Es wird eine intuitive Gestenschnittstelle für
medizinische Abbildungs-Workstations benötigt. Die
vorliegende Erfindung schlägt ein Echtzeitsystem und
-verfahren vor, die Gesten erkennen, um ein virtuelles
Endoskopiesystem anzusteuern. Das System und das
Verfahren können die Geste eines Benutzers als eines
von acht definierten Bewegungsmustern klassifizieren:
Drehung nach links/rechts, Drehung im Uhrzeigersinn
oder entgegen dem Uhrzeigersinn, Bewegung
aufwärts/abwärts und Tiefenbewegung hinein/heraus. Das
Erkennen zusammengesetzter Gestenbefehle auf einer
zweidimensionalen Ebene erfordert weitere
Modifikationen. Außerdem nutzen derzeitige Arbeiten den
Umstand aus, daß bestimmte Translationsmuster entlang
der Z-Achse der Kamera durchgeführt werden. Mit nur
einer Kamera erfordert das Entwerfen einer
Gestenschnittstelle für sechs Freiheitsgrade mit einer
flexibleren Kameraposition weitere Forschungen. Das
System und das Verfahren wurden in einer Laborumgebung
geprüft, und es ist weitere Arbeit notwendig, um das
System zu verbessern und es in einer klinischen
Umgebung zu bewerten.
Nach der Beschreibung von Ausführungsformen für ein
System und ein Verfahren für Echtzeit-Gesten
schnittstellen für medizinische Workstations sei
bemerkt, daß Fachleute im Hinblick auf die obigen
Lehren, Modifikationen und Abwandlungen vornehmen
können. Es versteht sich deshalb, daß an den
offengelegten bestimmten Ausführungsformen der
Erfindung Änderungen vorgenommen werden können, die in
den Gedanken und Schutzumfang der Erfindung fallen, der
durch die angefügten Ansprüche definiert wird. Nachdem
somit die Erfindung mit den Details und Einzelheiten,
die von den Patentgesetzen gefordert werden,
beschrieben wurde, wird nunmehr der gewünschte
Schutzumfang durch das Patent in den angefügten
Ansprüchen beansprucht.
Claims (25)
1. Verfahren zur Bestimmung einer Geste mit den
folgenden Schritten:
Bestimmen einer Änderung in einem Hintergrund eines Bildes aus mehreren Bildern;
Bestimmen eines Objekts in dem Bild;
Bestimmen einer Bahn des Objekts durch die mehreren Bilder hindurch; und
Klassifizieren einer Geste gemäß der Bahn des Objekts.
Bestimmen einer Änderung in einem Hintergrund eines Bildes aus mehreren Bildern;
Bestimmen eines Objekts in dem Bild;
Bestimmen einer Bahn des Objekts durch die mehreren Bilder hindurch; und
Klassifizieren einer Geste gemäß der Bahn des Objekts.
2. Verfahren nach Anspruch 1, wobei der Schritt des
Bestimmens der Änderung in dem Hintergrund
weiterhin die folgenden Schritte umfaßt:
Bestimmen eines Gradientenintensitätsplans für den Hintergrund aus mehreren Bildern;
Bestimmen eines Gradientenintensitätsplans für das aktuelle Bild;
Bestimmen, für mehrere Pixel, einer Differenz zwischen dem Gradientenintensitätsplan und dem Gradientenintensitätsplan für den Hintergrund;
Bestimmen eines Vergleichs zwischen der Differenz und einer Schwelle; und
Bestimmen eines Pixels als einen Hintergrundpixel gemäß dem Vergleich.
Bestimmen eines Gradientenintensitätsplans für den Hintergrund aus mehreren Bildern;
Bestimmen eines Gradientenintensitätsplans für das aktuelle Bild;
Bestimmen, für mehrere Pixel, einer Differenz zwischen dem Gradientenintensitätsplan und dem Gradientenintensitätsplan für den Hintergrund;
Bestimmen eines Vergleichs zwischen der Differenz und einer Schwelle; und
Bestimmen eines Pixels als einen Hintergrundpixel gemäß dem Vergleich.
3. Verfahren nach Anspruch 1, wobei das Objekt die
Hand eines Benutzers umfaßt.
4. Verfahren nach Anspruch 1, wobei der Schritt des
Bestimmens des Objekts in dem Bild weiterhin die
folgenden Schritte umfaßt:
Gewinnen einer normierten Farbdarstellung für mehrere Farben in jedem Bild;
Bestimmen einer Schätzung einer Wahrscheinlich keitsverteilung normierter Farbwerte für eine Objektklasse aus Trainingsbildern; und
Bestimmen, für jeden Pixel, einer Wahrscheinlichkeit gemäß einer geschätzten Wahrscheinlichkeitsdichte normierter Farbwerte für die Objektklasse.
Gewinnen einer normierten Farbdarstellung für mehrere Farben in jedem Bild;
Bestimmen einer Schätzung einer Wahrscheinlich keitsverteilung normierter Farbwerte für eine Objektklasse aus Trainingsbildern; und
Bestimmen, für jeden Pixel, einer Wahrscheinlichkeit gemäß einer geschätzten Wahrscheinlichkeitsdichte normierter Farbwerte für die Objektklasse.
5. Verfahren nach Anspruch 1, wobei der Schritt des
Bestimmens der Bahn des Objekts durch die mehreren
Bilder hindurch weiterhin die folgenden Schritte
umfaßt:
Bestimmen, für jeden Pixel, einer zeitlichen Wahrscheinlichkeit über mehrere Bilder hinweg; und
Bestimmen mehrerer Momente gemäß den zeitlichen Wahrscheinlichkeiten.
Bestimmen, für jeden Pixel, einer zeitlichen Wahrscheinlichkeit über mehrere Bilder hinweg; und
Bestimmen mehrerer Momente gemäß den zeitlichen Wahrscheinlichkeiten.
6. Verfahren nach Anspruch 1, wobei der Schritt des
Bestimmens der Bahn weiterhin die folgenden
Schritte umfaßt:
Bestimmen einer Differenz einer Größe des Objekts über eine vorbestimmte Zeitspanne hinweg;
Bestimmen mehrerer Winkel zwischen mehreren, aufeinanderfolgende Zentroide verbindenden Linien über die Zeitspanne hinweg; und
Bestimmen eines Merkmalvektors gemäß den Winkeln und Linien.
Bestimmen einer Differenz einer Größe des Objekts über eine vorbestimmte Zeitspanne hinweg;
Bestimmen mehrerer Winkel zwischen mehreren, aufeinanderfolgende Zentroide verbindenden Linien über die Zeitspanne hinweg; und
Bestimmen eines Merkmalvektors gemäß den Winkeln und Linien.
7. Verfahren nach Anspruch 6, weiterhin mit dem
Schritt des Klassifizierens des Merkmalvektors
gemäß einem neuronalen Netz mit Zeitverzögerung,
wobei ein Merkmal eine feste Länge aufweist.
8. Verfahren nach Anspruch 1, wobei der Schritt des
Klassifizierens der Geste weiterhin die folgenden
Schritte umfaßt:
Bestimmen eines Bezugspunkts;
Bestimmen einer Entsprechung zwischen der Bahn und dem Bezugspunkt; und
Klassifizieren der Bahn gemäß einem von mehreren Befehlen.
Bestimmen eines Bezugspunkts;
Bestimmen einer Entsprechung zwischen der Bahn und dem Bezugspunkt; und
Klassifizieren der Bahn gemäß einem von mehreren Befehlen.
9. Verfahren zur Bestimmung einer Bahn einer Hand
durch mehrere Bilder hindurch, mit den folgenden
Schritten:
Erkennen eines Bezugspunkts;
Aktualisieren des Bezugspunkts, während sich der Bezugspunkt ändert;
Erkennen einer ersten Translation der Hand durch die mehreren Bilder hindurch;
Erkennen einer zweiten Translation durch die mehreren Bilder hindurch; Bestimmen einer Geste gemäß einer Wahl; und
Bestimmen, ob die Geste ein gültiger Gestenbefehl ist.
Erkennen eines Bezugspunkts;
Aktualisieren des Bezugspunkts, während sich der Bezugspunkt ändert;
Erkennen einer ersten Translation der Hand durch die mehreren Bilder hindurch;
Erkennen einer zweiten Translation durch die mehreren Bilder hindurch; Bestimmen einer Geste gemäß einer Wahl; und
Bestimmen, ob die Geste ein gültiger Gestenbefehl ist.
10. Verfahren nach Anspruch 9, wobei der Bezugspunkt
nicht als ein Gestenbefehl interpretiert wird.
11. Verfahren nach Anspruch 9, wobei der Bezugspunkt
durch Handgröße und eine Position eines Zentroids
der Hand in jedem Bild gekennzeichnet wird.
12. Verfahren nach Anspruch 9, wobei die erste
Translation eine Vorwärts- oder eine
Rückwärtstranslation ist, wobei die erste
Translation durch eine große Änderung der
Handgröße und eine relativ kleine Änderung eines
Zentroids der Hand gekennzeichnet ist.
13. Verfahren nach Anspruch 9, wobei die zweite
Translation eine Links-, eine Rechts-, eine
Aufwärts- oder eine Abwärtstranslation ist.
14. Verfahren nach Anspruch 9, wobei der Schritt des
Erkennens der zweiten Translation weiterhin den
Schritt des Bestimmens eines normierten Vektors
zwischen zwei Zentroiden ct und ct-1 als einen
Merkmalvektor umfaßt, wobei es drei Ausgangsmuster
gibt.
15. Verfahren nach Anspruch 14, wobei die drei
Ausgangsmuster eine vertikale Bewegung, eine
horizontale Bewegung und eine Unbekannte sind,
wobei das Verfahren weiterhin die folgenden
Schritte umfaßt:
Vergleichen des Bezugspunkts mit einem Zentroid bei Bestimmung der Translation als eine vertikale oder eine horizontale Translation; und
Prüfen eines Eingangsmusters bei Bestimmung der Translation als eine unbekannte Translation.
Vergleichen des Bezugspunkts mit einem Zentroid bei Bestimmung der Translation als eine vertikale oder eine horizontale Translation; und
Prüfen eines Eingangsmusters bei Bestimmung der Translation als eine unbekannte Translation.
16. Verfahren nach Anspruch 15, wobei der Schritt des
Prüfens eines Eingangsmusters weiterhin die
Schritte des Erkennens einer kreisförmigen
Bewegung umfaßt, wobei ein Winkel zwischen dem
Vektor ctct-1 und dem Vektor ct-1ct-2 als der
Merkmalvektor bestimmt wird.
17. Verfahren nach Anspruch 9, wobei die gültige Geste
kontinuierlich eine vorbestimmte Zeit lang
durchgeführt wird.
18. Programmspeichergerät, das maschinenlesbar ist und
deutlich ein Programm von Befehlen realisiert, die
von der Maschine ausführbar sind, um Verfahren zur
Bestimmung einer Geste durchzuführen, wobei die
Verfahrensschritte folgendes umfassen:
Bestimmen einer Änderung in einem Hintergrund eines Bildes aus mehreren Bildern;
Bestimmen eines Objekts in dem Bild;
Bestimmen einer Bahn des Objekts durch die mehreren Bilder hindurch;
Klassifizieren einer Geste gemäß der Bahn des Objekts.
Bestimmen einer Änderung in einem Hintergrund eines Bildes aus mehreren Bildern;
Bestimmen eines Objekts in dem Bild;
Bestimmen einer Bahn des Objekts durch die mehreren Bilder hindurch;
Klassifizieren einer Geste gemäß der Bahn des Objekts.
19. Verfahren nach Anspruch 18, wobei der Schritt des
Bestimmens der Änderung in dem Hintergrund
weiterhin die folgenden Schritte umfaßt:
Bestimmen eines Gradientenintensitätsplans für den Hintergrund aus mehreren Bildern;
Bestimmen eines Gradientenintensitätsplans für das aktuelle Bild;
Bestimmen, für mehrere Pixel, einer Differenz zwischen dem Gradientenintensitätsplan und dem Gradientenintensitätsplan für den Hintergrund;
Bestimmen eines Vergleichs zwischen der Differenz und einer Schwelle; und
Bestimmen eines Pixels als einen Hintergrundpixel gemäß dem Vergleich.
Bestimmen eines Gradientenintensitätsplans für den Hintergrund aus mehreren Bildern;
Bestimmen eines Gradientenintensitätsplans für das aktuelle Bild;
Bestimmen, für mehrere Pixel, einer Differenz zwischen dem Gradientenintensitätsplan und dem Gradientenintensitätsplan für den Hintergrund;
Bestimmen eines Vergleichs zwischen der Differenz und einer Schwelle; und
Bestimmen eines Pixels als einen Hintergrundpixel gemäß dem Vergleich.
20. Verfahren nach Anspruch 18, wobei das Objekt die
Hand eines Benutzers umfaßt.
21. Verfahren nach Anspruch 18, wobei der Schritt des
Bestimmens des Objekts in dem Bild weiterhin die
folgenden Schritte umfaßt:
Gewinnen einer normierten Farbdarstellung für mehrere Farben in jedem Bild;
Bestimmen einer Schätzung einer Wahrscheinlich keitsverteilung normierter Farbwerte für eine Objektklasse aus Trainingsbildern; und
Bestimmen, für jeden Pixel, einer Wahrschein lichkeit gemäß einer geschätzten Wahrscheinlich keitsdichte normierter Farbwerte für die Objektklasse.
Gewinnen einer normierten Farbdarstellung für mehrere Farben in jedem Bild;
Bestimmen einer Schätzung einer Wahrscheinlich keitsverteilung normierter Farbwerte für eine Objektklasse aus Trainingsbildern; und
Bestimmen, für jeden Pixel, einer Wahrschein lichkeit gemäß einer geschätzten Wahrscheinlich keitsdichte normierter Farbwerte für die Objektklasse.
22. Verfahren nach Anspruch 18, wobei der Schritt des
Bestimmens der Bahn des Objekts durch die mehreren
Bilder hindurch weiterhin die folgenden Schritte
umfaßt:
Bestimmen, für jeden Pixel, einer zeitlichen Wahrscheinlichkeit über mehrere Bilder hinweg; und
Bestimmen mehrerer Momente gemäß den zeitlichen Wahrscheinlichkeiten.
Bestimmen, für jeden Pixel, einer zeitlichen Wahrscheinlichkeit über mehrere Bilder hinweg; und
Bestimmen mehrerer Momente gemäß den zeitlichen Wahrscheinlichkeiten.
23. Verfahren nach Anspruch 18, wobei der Schritt des
Bestimmens der Bahn weiterhin die folgenden
Schritte umfaßt:
Bestimmen einer Differenz einer Größe des Objekts über eine vorbestimmte Zeitspanne hinweg;
Bestimmen mehrerer Winkel zwischen mehreren, aufeinanderfolgende Zentroide verbindenden Linien über die Zeitspanne hinweg; und
Bestimmen eines Merkmalvektors gemäß den Winkeln und Linien.
Bestimmen einer Differenz einer Größe des Objekts über eine vorbestimmte Zeitspanne hinweg;
Bestimmen mehrerer Winkel zwischen mehreren, aufeinanderfolgende Zentroide verbindenden Linien über die Zeitspanne hinweg; und
Bestimmen eines Merkmalvektors gemäß den Winkeln und Linien.
24. Verfahren nach Anspruch 23, weiterhin mit den
Schritten des Klassifizierens des Merkmalvektors
gemäß einem neuronalen Netz mit Zeitverzögerung,
wobei ein Merkmal eine feste Länge aufweist.
25. Verfahren nach Anspruch 18, wobei der Schritt des
Klassifizierens der Geste weiterhin die folgenden
Schritte umfaßt:
Bestimmen eines Bezugspunkts;
Bestimmen einer Entsprechung zwischen Bahn und dem Bezugspunkt; und
Klassifizieren der Bahn gemäß einem von mehreren Befehlen.
Bestimmen eines Bezugspunkts;
Bestimmen einer Entsprechung zwischen Bahn und dem Bezugspunkt; und
Klassifizieren der Bahn gemäß einem von mehreren Befehlen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24568600P | 2000-11-03 | 2000-11-03 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10153610A1 true DE10153610A1 (de) | 2002-06-13 |
Family
ID=22927653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10153610A Ceased DE10153610A1 (de) | 2000-11-03 | 2001-11-02 | System und Verfahren für eine Gestenschnittstelle |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10153610A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102014225796A1 (de) * | 2014-12-15 | 2016-06-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zur Steuerung eines Fahrzeugsystems |
-
2001
- 2001-11-02 DE DE10153610A patent/DE10153610A1/de not_active Ceased
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102014225796A1 (de) * | 2014-12-15 | 2016-06-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zur Steuerung eines Fahrzeugsystems |
US10528146B2 (en) | 2014-12-15 | 2020-01-07 | Bayerische Motoren Werke Aktiengesellschaft | Method for controlling a vehicle system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7095401B2 (en) | System and method for gesture interface | |
DE112017002799B4 (de) | Verfahren und system zum generieren multimodaler digitaler bilder | |
DE69823001T2 (de) | Verfahren und Vorrichtung zur Rekonstruktion der dreidimensionalen Bewegung eines menschlichen Körpers aus Monokularbildsequenzen | |
DE68928895T2 (de) | Verfahren und Gerät für universelle adaptiv lernende Bildmessung und -erkennung | |
DE112006002954B4 (de) | Virtuelles Schnittstellensystem | |
DE602004009960T2 (de) | System und verfahren zum erkennen und vergleichen anatomischer strukturen unter verwendung von erscheinungsbild und form | |
DE602004002756T2 (de) | Bildverarbeitungsverfahren zur automatischen anpassung eines deformierbaren 3d-modells auf eine im wesentlichen röhrenförmige oberfläche eines 3d-objekts | |
EP2344980B1 (de) | Vorrichtung, verfahren und computerprogramm zur erkennung einer geste in einem bild, sowie vorrichtung, verfahren und computerprogramm zur steuerung eines geräts | |
DE69331259T2 (de) | Räumliche Mensch-Schnittstelle durch Bewegungserkennung mit dynamischer Bildverarbeitung | |
EP3040818B1 (de) | Programm und system zum erkennen eines objektes in einer bildschirmdarstellung | |
EP2430614A1 (de) | Verfahren zur echtzeitfähigen, rechnergestützten analyse einer eine veränderliche pose enthaltenden bildsequenz | |
DE19955690A1 (de) | System und Verfahren zur auf einer Volumendarstellung basierenden Segmentation | |
Ismail et al. | Hand gesture recognition on python and opencv | |
Nath et al. | Real time sign language interpreter | |
DE102017220307A1 (de) | Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen | |
DE112019002848T5 (de) | System und verfahren zum auffinden und klassifizieren von mustern in einem bild mit einem bildverarbeitungssystem | |
WO2016120251A1 (de) | Verfahren zum betreiben einer eingabevorrichtung, eingabevorrichtung | |
DE102005049017B4 (de) | Verfahren zur Segmentierung in einem n-dimensionalen Merkmalsraum und Verfahren zur Klassifikation auf Grundlage von geometrischen Eigenschaften segmentierter Objekte in einem n-dimensionalen Datenraum | |
DE69328147T2 (de) | Gebärdenspracherkennungsgerät und Verfahren und Gebärdensprachübersetzungssystem, das dieses verwendet | |
DE10153610A1 (de) | System und Verfahren für eine Gestenschnittstelle | |
CN115509355A (zh) | 一种整合视觉下的mi-bci交互控制系统及方法 | |
CN113807280A (zh) | 一种基于Kinect的虚拟船舶机舱系统与方法 | |
Phu et al. | Computer vision based hand gesture recognition using artificial neural network | |
Fan et al. | Machine vision for an intelligent tutor | |
DE4339161C2 (de) | Verfahren zur Verfolgung von Bewegungen einer menschlichen Hand in einer zeitlichen Folge digitaler Farbbilder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8120 | Willingness to grant licences paragraph 23 | ||
8131 | Rejection |