DE69936620T2 - Verfahren und Vorrichtung zum Segmentieren von Handgebärden - Google Patents

Verfahren und Vorrichtung zum Segmentieren von Handgebärden Download PDF

Info

Publication number
DE69936620T2
DE69936620T2 DE69936620T DE69936620T DE69936620T2 DE 69936620 T2 DE69936620 T2 DE 69936620T2 DE 69936620 T DE69936620 T DE 69936620T DE 69936620 T DE69936620 T DE 69936620T DE 69936620 T2 DE69936620 T2 DE 69936620T2
Authority
DE
Germany
Prior art keywords
gesture
hand
perceived
feature
transient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69936620T
Other languages
English (en)
Other versions
DE69936620D1 (de
Inventor
Yuji Fukuoka-shi Takata
Hideaki Fukuoka-shi Matsuo
Seiji Tokorozawa-shi Igi
Shan Tokorozawa-shi Lu
Yuji Fuchu-shi Nagashima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology, Matsushita Electric Industrial Co Ltd filed Critical National Institute of Information and Communications Technology
Application granted granted Critical
Publication of DE69936620D1 publication Critical patent/DE69936620D1/de
Publication of DE69936620T2 publication Critical patent/DE69936620T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf Verfahren und Vorrichtungen zum Segmentieren von Handgesten, genauer auf ein Verfahren und eine Vorrichtung zum automatischen Segmentieren von Handgesten zum Beispiel für Zeichensprache in Wörter, wenn die Handgesten erkannt werden.
  • Beschreibung der Hintergrundtechnik
  • In den letzten Jahren haben Personalcomputer einfache Eingabe zum Beispiel mit einer Zeigevorrichtung ermöglicht, und daher wird sie unter den Benutzern nicht nur zum professionellen Gebrauch beliebt, ohne komplizierte Tastaturbedienung.
  • Weiterhin, mit der Technologie des automatischen Erkennens einer Benutzerstimme, die vor kurzem entwickelt wurde, ist ein Personalcomputer vom Stimmen-Eingabe-Typ oder ein Heimelektrogerät, das mit einem Mikrocomputer vom Stimmen-Eingabe-Typ ausgestattet ist, auf dem Markt erschienen (nachfolgend wird so ein Personalcomputer oder ein Heimelektrogerät, das mit einem Mikrocomputer ausgestattet ist, als Computervorrichtung bezeichnet). Angenommen, diese Technologie sieht weiteren Fortschritt, können Eingabeoperation für die Computervorrichtung kann an die Art und Weise angenähert werden, die in Kommunikation zwischen Personen beobachtet wird. Darüber hinaus können Be nutzer, die Schwierigkeit in der Bedienung mit Händen haben, leicht auf die Computervorrichtung zugreifen, dank des Stimmeneingabesystems.
  • Die Menschen kommunizieren miteinander dadurch, dass sie ihre Hände oder Köpfe bewegen, oder durch Ändern von Gesichtsausdrücken, und durch Sprechen. Wenn die Computervorrichtung solche Bewegungen, die in bestimmten Körperteilen beobachtet werden, automatisch erkennen kann, können Benutzer Eingabeoperationen auf eine Art und Weise handhaben, die ähnlich der Kommunikation zwischen Personen ist. Weiterhin können Benutzer, die Schwierigkeit in der Bedienung mit Stimme haben, auf die Computervorrichtung einfach zugreifen, indem sie Zeichensprache verwenden. Die Computervorrichtung kann auch verwendet werden, um Zeichensprache zu übersetzen.
  • Um einer solchen Anforderung zu entsprechen, wurde eine solche Computervorrichtung, die die Bewegungen erkennt, die in bestimmten Körperteilen des Benutzers beobachtet werden, einschließlich Handgesten für Zeichensprache, durch die Inhaber der vorliegenden Erfindung und andere entwickelt. Die Verarbeitung, die in so einer herkömmlichen Computervorrichtung ausgeführt wird, um die Handgesten für Zeichensprache zu erkennen, ist wie folgt.
  • Als Erstes wird ein Benutzer fotografiert, dann wird sein/ihr Bild gespeichert. Als Zweites wird ein Teil des Bildes als eine Hand/Hände spezifiziert. Danach werden Bewegungen der Hand/der Hände detektiert, und dann wird jedes Wort für Zeichensprache, das zu den detektierten Bewegungen passt, spezifiziert unter Bezugnahme auf irgendein Wörterbuch, das sagt, wie Gesten für Zeichensprache gemacht werden. Auf diese Weise "erkennt" die Computervorrichtung die Zeichensprache des Benutzers.
  • Nachfolgend wird mit Bezug auf die oben erwähnte Vorgehensweise ein Verarbeiten, das ausgeführt wird, um Wörter für Zeichensprache in Übereinstimmung mit den Bewegungen von Händen zu spezifizieren, aufgenommen, um detaillierter zu beschreiben.
  • Jedes Wort für Zeichensprache ist im Allgemeinen durch mehrere Einheitsgesten oder eine Kombination aus ihnen strukturiert. Die Einheitsgeste bedeutet hierin eine unterteilbare Minimalgeste, wie etwa Anheben, Senken oder Krümmen. Angenommen, dass die Einheitsgesten A, B oder C sind, können Wörter für die Zeichensprache auf die Art und Weise dargestellt werden, dass (A), (B), (C), ..., (A, B), (A, C), (B, C), ..., (A, B, C), ... Leute sprechen durch Zeichensprache, indem sie diese Wörter für Zeichensprache kombinieren.
  • Angenommen, dass das Wort für Zeichensprache (A) "Strom" bedeutet und das Zeichensprachenwort (B, C) bedeutet "Abschalten", wird eine Bedeutung von "Strom abschalten" vervollständigt, indem die Zeichensprachenwörter (A) und (B, C) ausgedrückt werden, d.h., indem nacheinander die Einheitsgesten A, B und C gemacht werden.
  • In Blickkontakt-Zeichensprache, wenn eine Person, die mit Zeichensprache spricht (nachfolgend Zeichengeber) nacheinander die Einheitsgesten A, B und C macht, mit den Zeichensprachenwörtern (A) und (B, C) im Sinn, kann sein/ihr Partner oft intuitiv die Serie von Einheitsgesten erkennen, die auf die Zeichensprachenwörter (A) und (B, C) abzielen. Wenn andererseits Zeichensprache in die Computervorrichtung eingegeben wird, kann die Computervorrichtung die Serie von Einheitsgesten A, B und C nicht als die Zeichensprachenwörter (A) und (B, C) erkennen, selbst wenn der Benutzer hintereinander die Einheitsgesten für A, B und C mit den Zeichensprachenwörtern (A) und (B, C) im Sinn macht.
  • Daher hat der Benutzer eine vorbestimmte Geste wie eine Pause (nachfolgend Segmentierungsgeste a) zwischen den Zeichensprachenwörtern (A) und (B, C) gemacht. Genauer gesagt, wenn der Benutzer "Strom abschalten" eingeben will, drückt er/sie die Zeichensprachenwörter (A) und (B, C) mit der Segmentierungs geste a dazwischen eingefügt aus, d.h., die Einheitsgeste A wird als Erste gemacht, dann die Segmentierungsgeste a, und die Einheitsgesten B und C werden als Letztes gemacht. Die Computervorrichtung erkennt dann die Serie von Gesten, die durch den Benutzer gemacht wird, segmentiert diese vor und nach der Segmentierungsgeste a und erhält die Zeichensprachenwörter (A) und (B, C).
  • Wie aus dem Obigen bekannt ist, hat der Benutzer im herkömmlichen Gestenerkennungsverfahren, das in der Computervorrichtung ausgeführt wird, keine andere Wahl als ärgerlicherweise eine Segmentierungsgeste zwischen einer Handgeste, die einem bestimmten Wort entspricht, und einer Handgeste, die einem anderen entspricht, welches folgt, jedes Mal einzufügen, wenn er/sie einen Satz, der durch mehrere Wörter gegliedert ist, in die Computervorrichtung mit den Handgesten für Zeichensprache eingibt. Das herkömmliche Gestenerkennungsverfahren konnte nämlich nicht automatisch zu erkennende Gesten in Wörter segmentieren.
  • Man beachte, dass ein Verfahren des Segmentierens einer Serie von Einheitsgesten (Gestencodekette), die in Wörter erkannt werden muss, zum Beispiel eine Verarbeitung umfassen kann, die auf eine Art und Weise ausgeführt wird, die einer japanischen Textverarbeitung ähnlich ist, in der eine Zeichencodekette in Wörter segmentiert wird und dann in Zeichen umgewandelt wird.
  • In diesem Fall wird die Gestencodekette jedoch segmentiert, indem auf irgendein Wörterbuch Bezug genommen wird, in dem Wörter registriert sind. Daher sind Positionen, an denen die Gestencodekette segmentiert wird, nicht einheitlich definiert. Wenn dies der Fall ist, muss die Computervorrichtung dem Benutzer mehrere Alternativen anbieten, wo zu segmentieren ist, und dann muss der Benutzer eine Position auswählen, die am besten für seinen/ihren Zweck geeignet ist. Dementsprechend macht es dem Benutzer eine Menge Ärger und gleichzeitig macht es die Eingabeoperation langsam.
  • In einem Fall, in dem auf ein Wörterbuch Bezug genommen wird, das in einer Computervorrichtung enthalten ist und die Zeichensprachenwörter (A), (B), (C), ..., (A, B), (A, C), (B, C), ..., (A, B, C), ... enthält, um eine Segmentierungsposition in den Einheitsgesten A, B und C zu finden, die nacheinander durch den Benutzer mit den Zeichensprachenwörtern (A) und (B, C) im Sinn gemacht wurden, kann die Segmentierungsposition nicht auf eine begrenzt werden. Daher segmentiert die Computervorrichtung an einigen potentiellen Positionen, um mehrere Alternativen anzubieten, etwa (A), und (B, C), (A, B) und (C) oder (A, B, C) für den Benutzer. In Antwort hierauf wählt der Benutzer irgendeine aus, die am besten seinem/ihrem Zweck dient, und teilt dann die ausgewählte Position der Computervorrichtung mit.
  • Wie aus dem Obigen evident ist, ist so ein Segmentierungssystem, das auf Gestencodeketten basiert, nicht ausreichend, um automatisch die Serien von zu erkennenden Einheitsgesten zu segmentieren.
  • Der Artikel "Adapting Hidden Markov Models for ASL Recognition by Using Three-dimensional Computer Vision Methods" von Christian Vogler und Dimitris Metaxas (SYSTEMS; MAN, AND CYBERNETICS; 1997. COMPUTATIONAL CYBERNETICS AND SIMULATION, 1997 IEEE INTERNATIONAL CONFERENCE IN ORLANDO, FL, USA 12-15 OKT. 1997, NEW YORK; NY, USA, IEEE, US, 12 OKT. 1997, Seiten 156-161, ISBN: 0-7803-4053-1) stellt einen Ansatz zur kontinuierlichen Erkennung von amerikanischer Zeichensprache (ASL), der als Eingabe dreidimensionale Daten von Armbewegungen verwendet, dar. Er verwendet Computersichtverfahren zum Extrahieren dreidimensionaler Objektformen und Bewegungsparameter, und dazu austauschbar eine "Ascesion Technologies Flock of Birds", um korrekte dreidimensionale Bewegungsparameter von ASL-Sätzen zu erhalten, die aus einem 53 Zeichen-Vokabular und einer weit variierten Satzstruktur ausgewählt wurden. Diese Parameter werden als Merkmale für "Hidden Markov Models" (HMMs) verwendet. Um Coartikulationseffekte zu behandeln und die Erkennungsergebnisse zu verbessern, wurde mit zwei verschiedenen Ansätzen experimentiert. Der erste besteht im Training von kontextabhängigen HMMs und wurde durch Spracherkennungssysteme inspiriert. Der zweite besteht im Modellieren von Übergangsbewegungen zwischen Zeichen und wurde durch die Eigenschaften der ASL-Phonologie inspiriert. Die Experimente verifizierten, dass der zweite Ansatz bessere Erkennungsergebnisse erzielt.
  • Der Artikel "Gesture spotting from continuous hand motion" von Hyeon-Kyu Lee und Jin-Hyung Kim (PATTERN RECOGNITION LETTERS, NORTH-HOLLAND PUBL. AMSTERDAM, NL, Band 19, Nr. 5-6, 1 APR. 1998, Seiten 513-520, ISSN: 0167-8655) schlägt ein Verfahren zur Gestenerkennung vor, das auf dem Hidden Markov Model (HMM) basiert, und das bedeutsame Gesten aus ununterbrochener Handbewegung extrahiert. Um Nichtgestenmuster von Eingabemustern zu entfernen, wurde das Schwellenmodell, das die Schwellenwahrscheinlichkeit des Eingabemusters berechnet und hilft, ein Eingabemuster als eine Geste zu qualifizieren, eingeführt. Das vorgeschlagene Verfahren extrahiert Gesten mit einer Verlässlichkeit von 93,38 %.
  • Eine Aufgabe der vorliegenden Erfindung ist es daher, ein Handgestesegmentierungsverfahren und eine entsprechende Vorrichtung zur Verfügung zu stellen, zum automatischen Segmentieren detektierter Handgesten in Wörter, wenn die Handgesten erkannt werden, ohne Darstellung des Benutzers, wo zu segmentieren ist.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Ein erster Aspekt der vorliegenden Erfindung ist auf ein Handgeste-Segmentierungsverfahren gerichtet zum automatischen Segmentieren einer Handgeste eines Benutzers in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl an Wörtern strukturiert sind, wenn die Handgeste eines Benutzers erkannt wird, wobei das Verfahren folgende Schritte umfasst:
    Vorheriges Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht am Körper eines Benutzers während einer Geste wahrgenommen wird, die ein Wort darstellt, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Merkmal der Übergangsgeste zumindest Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/hinaus einer Hand aus eine(r) bedeutungslose(n) Handzone durch eine Hand beinhaltet, die in einem Fotografiebereich einer Kamera eingestellt ist und in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird;
    Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall und Speichern einer Mehrzahl von fotografierten Bilddaten davon;
    Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste beobachtet wurde, aus der Mehrzahl von fotografierten Bilddaten;
    Detektieren einer Bewegung des Bildes, die einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird;
    und Segmentieren der Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird.
  • Wie oben beschrieben, wird im ersten Aspekt die Handgeste in Übereinstimmung mit der Übergangsgeste segmentiert, die nicht wahrgenommen wird am Körper eines Benutzers, während Gesten, die ein Wort repräsentieren, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird. Daher kann die detektierte Handgeste automatisch in Wörter oder begreifliche Ein heiten, die aus einer Mehrzahl von Wörtern strukturiert sind, segmentiert werden, ohne die Darstellung eines Benutzers, wo zu segmentieren ist.
  • Gemäß einem zweiten Aspekt im ersten Aspekt wird im Schritt des Segmentierens der Handgeste eine Dauer der Übergangsgeste gemessen und dann die Handgeste im Verhältnis zur Dauer segmentiert.
  • Wie oben beschrieben, kann im zweiten Aspekt Segmentierung mit verbesserter Genauigkeit vorgenommen werden.
  • Gemäß einem dritten Aspekt im ersten Aspekt umfasst das Verfahren weiterhin die folgenden Schritte:
    Vorheriges Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste beinhalten, die nicht am Körper des Benutzers wahrgenommen wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern, die während einer Geste wahrgenommen wird, die ein Wort repräsentiert;
    Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten;
    Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird; und
    Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten, wobei
    im Schritt des Segmentierens der Handgeste die Handgeste nicht an der Zeitposition segmentiert wird, wo die Nicht-Übergangsgeste wahrgenommen wird.
  • Wie oben beschrieben, wird im dritten Aspekt die Handgeste nicht an der Zeitposition segmentiert, wo die Nicht-Übergangsgeste wahrgenommen wird, die eine Geste ist, die nicht am Körper des Benutzers während Gesten wahrgenommen wird, die ein Wort repräsentieren, sondern die beobachtet wird, wenn von einer Geste zu einer anderen übergegangen wird. Daher kann fehlerhaftes Segmentieren von Wörtern verhindert werden, und somit kann Genauigkeit für die Segmentierung verbessert werden.
  • Gemäß einem vierten Aspekt im dritten Aspekt beinhaltet die Nicht-Übergangsgeste, Hände einander näher zu bringen als ein Wert, der für einen Abstand zwischen ihnen vorbestimmt ist.
  • Gemäß einem fünften Aspekt im dritten Aspekt beinhaltet die Nicht-Übergangsgeste das Ändern einer Mundform.
  • Gemäß einem sechsten Aspekt im dritten Aspekt beinhaltet die Nicht-Übergangsgeste eine Bewegung des Bewegens einer rechten Hand symmetrisch zu einer linken Hand, und die linke Hand umgekehrt.
  • Gemäß einem siebten Aspekt im sechsten Aspekt, im Schritt des Fotografierens des Benutzers und des Speicherns der Bilddaten davon, wird der Benutzer stereoskopisch fotografiert und ein 3D-Bild davon gespeichert, im Detektierungsschritt wird eine Bewegung des 3D-Bildes detektiert, und im Schritt des Findens der Zeitposition werden Veränderungen in einer Gestenebene für die rechte Hand und einer Gestenebene für die linke Hand in Übereinstimmung mit der Bewegung des 3D-Bildes detektiert, und wenn keine der Gestenebenen eine Veränderung aufweist, wird bestimmt, dass die Nicht-Übergangsgeste wahrgenommen wird, und dann wird eine Zeitposition von ihr gefunden.
  • Gemäß einem achten Aspekt im siebten Aspekt wird im Schritt des Findens der Zeitposition die Veränderung in der Gestenebene für die rechte Hand und der Gestenebene für die linke Hand gemäß einer Veränderung in einem Normalenvektor zu den Gestenebenen detektiert.
  • Gemäß einem neunten Aspekt im siebten Aspekt umfasst das Verfahren weiterhin einen Schritt des vorherigen Erzeugens, in Bezug auf eine Mehrzahl von 3D-Gestencodes, die einem 3D-Vektor entsprechen, dessen Richtung sich verändert, einer Einfachbewegungs-Ebenentabelle, in der eine Kombination von 3D-Gestencodes enthalten ist, die in einer einzigen Ebene gefunden werden; und einen Schritt des Umwandelns der Bewegung der 3D-Gestencode-Zeichenkette, die durch die Mehrzahl von 3D-Gestencodes dargestellt wird, wobei im Schritt des Findens der Zeitposition die Veränderungen in der Gestenebene für die rechte Hand und der Gestenebene für die linke Hand in Übereinstimmung mit der Einfachbewegungs-Ebenentabelle detektiert werden.
  • Gemäß einem zehnten Aspekt im ersten Aspekt umfasst das Verfahren weiterhin die folgenden Schritte:
    Vorheriges Speichern von Bilddaten einer Animation, die die Übergangsgeste darstellt;
    Detektieren eines Zustands der Detektion der Nicht-Übergangsgeste und eines Zustands der Erkennung der Handgeste; und
    visuelles Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer im Verhältnis zum Zustand der Detektion der Übergangsgeste und zum Zustand der Erkennung der Handgeste.
  • Wie oben beschrieben, wird im zehnten Aspekt, wenn die Detektionsfrequenz einer bestimmten Übergangsgeste besonders niedrig ist, oder wenn eine Handgeste nicht erkannt wurde, obwohl die Handgeste gemäß der detektierten Übergangsgeste segmentiert wurde, die Animation angezeigt, die die Übergangsgeste darstellt. Daher kann der Benutzer beabsichtigt seine/ihre Übergangsgeste korrigieren, während er auf die angezeigte Animation Bezug nimmt, und dementsprechend kann die Übergangsgeste auf eine präzise Art und Weise detektiert werden.
  • Gemäß einem elften Aspekt im zehnten Aspekt wird im Schritt des Anzeigens der Animation eine Geschwindigkeit der Animation in Übereinstimmung mit dem Zustand der Erkennung der Handgeste geändert.
  • Wie oben beschrieben, wird im elften Aspekt, wenn der Zustand der Erkennung einer Handgeste nicht korrekt genug ist, die Geschwindigkeit der anzuzeigenden Animation verringert. Danach wird der Benutzer geleitet, um seine/ihre Übergangsgeste auf langsamere Art und Weise zu machen. Auf diese Weise kann somit der Zustand einer Handgestenerkennung verbessert werden.
  • Ein zwölfter Aspekt der vorliegenden Erfindung ist auf ein Aufzeichnungsmedium gerichtet, in dem ein Programm gespeichert wird, das in einer Computervorrichtung auszuführen ist, das ein Verfahren des automatischen Segmentierens der Handgeste eines Benutzers in Wörter oder begreifliche Einheiten enthält, die durch eine Mehrzahl von Wörtern strukturiert sind, wobei das Programm zum Realisieren einer Betriebsumgebung da ist, einschließlich der folgenden Schritte:
    vorheriges Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht am Körper eines Benutzers während einer Geste wahrgenommen wird, die ein Wort darstellt, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Übergangsmerkmal mindestens Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine/einer bedeutungslose(n) Handzone beinhaltet, die in einem Fotografiebereich einer Kamera eingestellt ist, in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird;
    Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall, und Speichern einer Mehrzahl von Fotografiebilddaten davon;
    Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, aus der Mehrzahl von Fotografiebilddaten;
    Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird;
    Segmentieren einer Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird.
  • Gemäß einem dreizehnten Aspekt im zwölften Aspekt umfasst das Programm weiterhin folgende Schritte:
    vorheriges Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste enthalten, die nicht am Körper eines Benutzers wahrgenommen wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen ü bergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort darstellt;
    Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten;
    Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird; und
    Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten, wobei
    im Schritt des Segmentierens der Handgeste die Handgeste nicht an der Zeitposition segmentiert wird, wo die Nicht-Übergangsgeste wahrgenommen wird.
  • Gemäß einem vierzehnten Aspekt im zwölften Aspekt umfasst das Programm weiterhin die folgenden Schritte:
    Vorheriges Speichern von Bilddaten einer Animation, die die Übergangsgeste darstellt;
    Detektieren eines Zustands der Detektion der Übergangsgeste und eines Zustands der Erkennung der Handgeste; und
    visuelles Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer, im Verhältnis zum Zustand der Detektion der Übergangsgeste und zum Zustand der Erkennung der Handgeste.
  • Ein fünfzehnter Aspekt der vorliegenden Erfindung ist gerichtet auf eine Handgesten-Segmentierungsvorrichtung zum automatischen Segmentieren einer Handgeste des Benutzers in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl von Wörtern strukturiert sind, wenn die Handgeste des Benutzers erkannt wird, wobei die Vorrichtung umfasst:
    Mittel zum Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Merkmal des Übergangs mindestens Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine/einer bedeutungslose(n) Handzone enthält, die in einem Fotografiebereich einer Kamera eingestellt ist, in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird;
    Mittel zum Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall, und Speichern einer Mehrzahl von Fotografiebilddaten davon;
    Mittel zum Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, aus der Mehrzahl der Fotografiebilddaten;
    Mittel zum Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird; und
    Mittel zum Segmentieren der Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird.
  • Gemäß einem sechzehnten Aspekt im fünfzehnten Aspekt umfasst die Handgesten-Segmentierungsvorrichtung weiterhin:
    Mittel zum Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste enthalten, die nicht wahrgenommen wird am Körper eines Benutzers, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort darstellt;
    Mittel zum Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten;
    Mittel zum Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird; und
    Mittel zum Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten, wobei
    die Mittel zum Segmentieren der Handgeste Segmentierung nicht mit Bezug auf die Handgeste an der Zeitposition ausführen, wo die Nicht-Übergangsgeste wahrgenommen wird.
  • Gemäß einem siebzehnten Aspekt im fünfzehnten Aspekt umfasst die Handgesten-Segmentierungsvorrichtung weiterhin:
    eine Kamera zum Fotografieren des Benutzers, die in einer dem Benutzer gegenüber liegenden Position angebracht ist;
    Mittel zum visuellen Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer in Bezug auf den Zustand der Detektion der Übergangsgeste und den Zustand der Erkennung der Handgeste; und
    Mittel zum Verbergen der Kamera vor der Ansicht des Benutzers.
  • Wie oben beschrieben, ist im siebzehnten Aspekt die Kamera für die Ansicht des Benutzers unsichtbar. Daher kann der Benutzer nicht unsicher werden und nervös werden, wenn er/sie seine/ihre Handgesten macht. Dementsprechend kann die Segmentierung auf präzise Art und Weise gemacht werden.
  • Gemäß einem achtzehnten Aspekt im siebzehnten Aspekt umfassen die Mittel zum Anzeigen der Animation einen nach oben gerichteten Monitor, der in einer vertikal niedrigeren Position von einer geraden Linie zwischen dem Benutzer und der Kamera angebracht ist, und
    enthalten die Mittel zum Verbergen der Kamera einen Halbspiegel, der es Licht, das aus einer Vorwärtsrichtung kommt, erlaubt durchzugehen, und Licht reflektiert, das aus einer entgegengesetzten Richtung kommt, wobei
    der Halbspiegel auf einer geraden Linie zwischen dem Benutzer und der Kamera angebracht ist, und auch in einer vertikal höheren Position vom Monitor, wo ein Winkel von 45 Grad erhalten wird im Verhältnis zur geraden Linie.
  • Wie oben beschrieben, kann im achtzehnten Aspekt die Kamera in einer einfachen Struktur verborgen werden.
  • Diese und andere Ziele, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden offensichtlicher werden von der folgenden detaillierten Beschreibung der vorliegenden Erfindung, wenn sie in Zusammenhang mit den angehängten Zeichnungen genommen wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Flussdiagramm für ein Handgesten-Erkennungsverfahren, das ein Verfahren des Segmentierens von Handgesten gemäß einer ersten Ausführungsform der vorliegenden Erfindung verwendet.
  • 2 ist ein Blockdiagramm, das beispielhaft die Struktur einer Computervorrichtung zeigt, die das in 1 dargestellte Verfahren realisiert.
  • 3 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentierung von Zeichensprachengesten gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt.
  • 4 ist ein Flussdiagramm für eine beispielhafte Prozedur, die durch die Vorrichtung zur Segmentierung von Zeichensprachengesten in 3 ausgeführt wird.
  • 5 ist ein Diagramm, das beispielhaft Bereichcodes zeigt, die durch einen Körpermerkmals-Extraktionsteil 302 zugeordnet werden.
  • 6 ist ein Diagramm, das beispielhaft Segmentelementdaten zeigt, die in einem Segmentelement-Speicherteil 305 gespeichert sind.
  • 7 ist ein Diagramm, das beispielhaft einen beigen Bereich zeigt, der durch den Körpermerkmals-Extraktionsteil 302 extrahiert wurde.
  • 8 ist ein Diagramm, das beispielhaft Gesichtsbereichinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
  • 9 ist ein Diagramm, das Bedingungen von Gesichtsmerkmalbewegungen für einen Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um einen Merkmalsbewegungscode zu bestimmen.
  • 10 ist ein Diagramm, das beispielhaft einen Bewegungselementparameter zeigt, der für ein Bewegungsmerkmal 602 gesetzt ist.
  • 11 ist ein Diagramm, das beispielhaft Bestimmungscodedaten zeigt, die durch einen Segmentpositions-Bestimmungsteil 304 erzeugt wurden.
  • 12 ist ein Diagramm, das beispielhaft einen beigen Bereich in einem Gesicht zeigt, der durch den Körpermerkmals-Extraktionsteil 302 extrahiert wurde.
  • 13 ist ein Diagramm, das beispielhaft Augenbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
  • 14 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Augen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • 15 ist ein Diagramm, das beispielhaft Mundbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
  • 16 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für einen Mund für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • 17 ist ein Diagramm, das beispielhaft Handbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
  • 18 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Körper und Handbereich für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • 19 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für eine Geste des Berührens des Gesichts mit Hand/Händen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • 20 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für eine Änderung in der Effektivität von Händen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • 21 ist ein Flussdiagramm, das im selben Verfahren des Segmentierens von Zeichensprachengeste mit der Detektierung von Nicken (siehe 4) zeigt, wie die Segmentierung gemacht wird, während jede Dauer von detektierten Gesten berücksichtigt wird.
  • 22 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentierung von Zeichensprachengesten gemäß einer dritten Ausführungsform der vorliegenden Erfindung zeigt.
  • 23 ist ein Flussdiagramm, das beispielhaft eine Prozedur darstellt, die in der Vorrichtung zur Segmentierung von Zeichensprachengesten in 22 ausgeführt wird.
  • 24 ist ein Flussdiagramm, das beispielhaft eine Prozedur zeigt, die in der Vorrichtung zur Segmentierung von Zeichensprachengesten in 22 ausgeführt wird.
  • 25 ist ein Diagramm, das beispielhaft Nichtsegment-Elementdaten zeigt, die in einem Nichtsegment-Elementspeicherteil 2201 gespeichert sind.
  • 26 ist ein Diagramm, das beispielhaft Nichtsegment-Bewegungsmerkmalsparameter zeigt, die in einem Nichtsegment-Bewegungsmerkmal 2502 gesetzt sind.
  • 27 ist ein Diagramm, das Bedingungen von Nichtsegment-Merkmalsbewegungen für Symmetrie von Zeichensprachengesten für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • 28 ist ein Diagramm, das beispielhaft Bedingungen von Nichtsegmentcodes für Symmetrie von Zeichensprachengesten zeigt, die im Nichtsegment-Element-Speicherteil 2201 gespeichert sind.
  • 29 ist ein Diagramm, das beispielhaft eine identische Gestenebenentabelle zeigt, die im Nichtsegment-Elementspeicherteil 2201 gespeichert ist.
  • 30 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Zuführung eines Segmentelements gemäß einer vierten Ausführungsform der vorliegenden Erfindung zeigt (die Vorrichtung zur Zuführung eines Segmentelements ist zusätzlich mit einer nicht dargestellten Zeichensprachenerkennungsvorrichtung und der Vorrichtung zur Segmentierung von Zeichensprachengeste in 3 oder 22 ausgestattet).
  • 31 ist ein Flussdiagramm für eine Prozedur, die in der Vorrichtung zur Zuführung eines Segmentelements in 30 ausgeführt wird.
  • 32 ist ein Diagramm, das beispielhaft Erkennungszustandsinformationen zeigt, die in einen Erkennungsergebniseingabeteil 3001 eingegeben werden.
  • 33 ist ein Diagramm, das beispielhaft Segmentierungszustandsinformationen zeigt, die in den Segmentierungsergebniseingabeteil 3002 eingegeben werden.
  • 34 ist ein Diagramm, das beispielhaft Zuführungssteuerinformationen zeigt, die durch den Teil zur Erzeugung von Zuführungssteuerungsinformationen 3003 erzeugt wurden.
  • 35 ist ein Diagramm, das beispielhaft eine Induktionsregel zeigt, die im Induktionsregel-Speicherteil 3005 gespeichert ist.
  • 36 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Anpassung der Animationsgeschwindigkeit zeigt, die der Segmentelementinduktionsvorrichtung in 30 zur Verfügung gestellt wird.
  • 37 ist ein Diagramm, das beispielhaft eine Geschwindigkeitsanpassungsregel zeigt, die in einem Teil zur Speicherung der Geschwindigkeitsanpassungsregel 3604 gespeichert ist.
  • 38 ist ein schematisches Diagramm, das beispielhaft die Struktur eines Kameraverbergungsteils zeigt, der der Segmentelementinduktionsvorrichtung in 22 zur Verfügung gestellt wird.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die Ausführungsformen der vorliegenden Erfindung werden unten als Nächstes beschrieben unter Bezugnahme auf die angehängten Zeichnungen.
  • (Erste Ausführungsform)
  • 1 ist ein Flussdiagramm für ein Handgesten-Erkennungsverfahren, das ein Verfahren des Segmentierens von Handgesten gemäß einer ersten Ausführungsform der vorliegenden Erfindung verwendet. 2 ist ein Blockdiagramm, das eine beispielhafte Struktur einer Computervorrichtung zeigt, die das in 1 gezeigte Verfahren realisiert.
  • In 2 enthält die Computervorrichtung eine CPU 201, einen RAM 202, einen Programmspeicherteil 203, einen Eingabeteil 204, einen Ausgabeteil 205, einen Fotografierteil 206, einen Bildspeicherteil 207, einen Zeichensprachen-Handgesten-Speicherteil 208 und einen Übergangsgesten-Speicherteil 209.
  • Die Computervorrichtung in 2 erkennt zunächst Handgesten eines Benutzers für Zeichensprache und führt dann ein vorbestimmtes Verarbeiten durch. Genauer wird angenommen, dass so eine Computervorrichtung ein universelles Personal Computer-System ist, in dem vorbestimmte Programmdaten installiert sind und eine Kamera angeschlossen ist, so dass Eingabe und automatische Übersetzung von Zeichensprache realisiert wird. Die Computervorrichtung kann ein beliebiges Heimelektrogerät beinhalten, das mit einem Mikrocomputer verbunden ist, der die Stromversorgung an/abschaltet oder Betriebsmodi auswählt, die den Handgesten des Benutzers entsprechen.
  • Das Handgesten-Erkennungsverfahren in 1 umfasst Handgesten-Segmentierungsverarbeitung zum Segmentieren der detektierten Handgesten in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl von Wörtern strukturiert sind, wenn sie die Handgesten des Benutzers erkennt.
  • Die vorliegende Erfindung wird hier wie folgt um der Klarheit willen zusammengefasst.
  • Wie in der Hintergrundtechnik beschrieben, werden, um durch Zeichensprache zu sprechen, mehrere Teile von Wörtern für Zeichensprache im Allgemeinen verwendet, um einen Satz zu bilden. Jedes Zeichensprachenwort wird durch Kombinieren von einer oder mehreren Einheitsgesten strukturiert. Andererseits detektiert die Computervorrichtung die Handgesten des Benutzers als eine Serie von Ein heitsgesten. Um daher die Computervorrichtung zu veranlassen, die Handgesten zu erkennen, ist es nötig, die Serie von Einheitsgesten irgendwie in Wörter zu segmentieren, wie sie durch den Benutzer beabsichtigt waren.
  • Im herkömmlichen Segmentierungsverfahren macht der Benutzer eine Pause zwischen einer Geste, die einem bestimmten Wort entspricht, und einer Geste, die einem anderen entspricht, das folgt, während die Computervorrichtung so eine Pause detektiert, so dass die Serie von Einheitsgesten segmentiert wird. Mit anderen Worten wird erwartet, dass der Benutzer anzeigt, wo segmentiert werden soll.
  • Wenn Leute durch Zeichensprache mit Blickkontakt sprechen, werden die Wörter nacheinander ausgedrückt. Die Erfinder der vorliegenden Erfindung haben bemerkt, dass eine Person, die durch Zeichensprache spricht, sich unbewusst auf eine bestimmte Art und Weise zwischen einer Geste, die einem bestimmten Wort entspricht, und einer Geste, die einem anderen Wort entspricht, das folgt, bewegt, etwa Blinzeln, Schließen seines/ihres Mundes oder Nicken (im Folgenden wird jede Geste, die durch den Benutzer unbewusst zwischen Wörtern gemacht wird, als Übergangsgeste bezeichnet). Die Übergangsgeste umfasst auch jede Pause, die spontan zwischen Wörtern gemacht wird. So eine Übergangsgeste wird während Handgesten, die einem einzigen Wort entsprechen, kaum wahrgenommen. Daher haben die Erfinder der vorliegenden Erfindung vorgeschlagen, die Übergangsgesten zum Segmentieren von Handgesten zu verwenden.
  • Genauer detektiert im Verfahren in 1 die Computervorrichtung gleichzeitig die Übergangsgeste, wenn sie die Zeichensprachen-Handgesten des Benutzers detektiert. Danach findet die Computervorrichtung eine Zeitposition, wo die Übergangsgeste nicht beobachtet wird, so dass die Handgesten (d.h., eine Folge von Einheitsgesten) in Wörter oder begreifliche Einheiten segmentiert werden. Folglich muss anders als im herkömmlichen Segmentierungsverfahren der Benutzer nicht anzeigen, wo segmentiert werden soll.
  • Wieder Bezug nehmend auf 2 enthält der Programmspeicherteil 203 Programmdaten zum Realisieren des Verarbeitens, das durch das Flussdiagramm in 1 dargestellt ist. Die CPU 201 führt das in 1 dargestellte Verarbeiten in Übereinstimmung mit den Programmdaten durch, die im Programmspeicherteil 203 gespeichert sind. Der RAM 202 speichert Daten, die zum Verarbeiten in der CPU 201 nötig sind, oder Arbeitsdaten, die zum Beispiel in der Verarbeitung erzeugt werden.
  • Der Eingabeteil 204 umfasst eine Tastatur oder eine Maus und gibt verschiedene Arten von Anweisungen und Daten in die CPU 201 gemäß einer Operation des Bedieners ein. Der Ausgabeteil 205 umfasst eine Anzeige oder einen Zeichner und gibt das Verarbeitungsergebnis der CPU 201 und Ähnliches in Form von Video oder Audio aus.
  • Der Fotografierteil 206 umfasst mindestens eine Kamera und fotografiert die Gesten des Benutzers. Eine Kamera ist ausreichend für einen Fall, in dem die Gesten des Benutzers zweidimensional erfasst werden, aber sie ist nicht ausreichend im dreidimensionalen Fall. In so einem Fall werden zwei Kameras benötigt.
  • Der Bildspeicherteil 207 speichert Bilder, die vom Fotografierteil 206 ausgegeben werden für eine Mehrzahl von Rahmen. Der Zeichensprachen-Handgesten-Speicherteil 208 umfasst Zeichensprachen-Merkmalsdaten, die Merkmale von Handgesten für Zeichensprache ausdrücken. Der Übergangsgesten-Speicherteil 209 umfasst Übergangsmerkmalsdaten, die Merkmale von Übergangsgesten ausdrücken.
  • Die folgenden drei Verfahren werden betrachtet, um Programmdaten im Programmspeicherteil 203 zu speichern. In einem ersten Verfahren werden Daten von einem Speichermedium, in dem die Programmdaten vorher gespeichert waren, gelesen und dann im Programmspeicherteil 203 gespeichert. In einem zweiten Verfahren werden Programmdaten, die über eine Kommunikationsschaltung über tragen werden, empfangen und dann im Programmspeicherteil 203 gespeichert. In einem dritten Verfahren werden Programmdaten im Programmspeicherteil 203 im Voraus vor der Auslieferung der Computervorrichtung gespeichert.
  • Man beachte, dass die Zeichensprachen-Merkmalsdaten und die Übergangsmerkmalsdaten entsprechend sowohl im Zeichensprachen-Handgesten-Speicherteil 208 als auch im Übergangsgesten-Speicherteil 209 gespeichert werden können, auf ähnliche Art und Weise wie im obigen ersten und dritten Verfahren.
  • Im Folgenden wird eine Beschreibung gemacht werden, wie die Computervorrichtung, die wie oben erwähnt aufgebaut ist, betrieben wird, unter Bezugnahme auf das Flussdiagramm in 1.
  • Als Erstes beginnt der Fotografierteil 206, einen Benutzer zu fotografieren (Schritt S101). Bilddaten, die vom Fotografierteil 206 ausgegeben werden, werden im Bildspeicherteil 207 zu vorbestimmten Abtastintervallen (zum Beispiel 1/30 Sekunden) gespeichert (Schritt S102). Einzelne Rahmen von Bilddaten, die im Bildspeicherteil 207 gespeichert werden, werden seriell nummeriert (Rahmennummer) in Art einer Zeitserie.
  • Als Zweites extrahiert die CPU 201 Daten, die den Händen des Benutzers entsprechen, entsprechend aus den Rahmen der Bilddaten, die im Bildspeicherteil 207 in Schritt S102 gespeichert wurden (Schritt S103). Dann detektiert die CPU 201 Bewegungen der Hände des Benutzers in Übereinstimmung mit den in Schritt S103 extrahierten Daten (Schritt S104). Diese Schritte S103 und S104 werden später detaillierter beschrieben werden.
  • Danach extrahiert die CPU 201 Daten, die dem spezifischen Körperteil des Benutzers entsprechen, aus den Bilddaten, die im Bildspeicherteil 207 in Schritt S102 gespeichert wurden (Schritt S105). In diesem Beispiel umfasst der spezifische Teil zum Beispiel Augen, Mund, Gesicht (Umriss) und Körper, wo die oben erwähnte Übergangsgeste beobachtet wird. In Schritt S105 werden Daten, die mindestens einem spezifischen Teil, vorzugsweise einer Mehrzahl davon entsprechen, extrahiert. In diesem Beispiel wird angenommen, dass Daten extrahiert werden, die Augen, Mund, Gesicht und Körper entsprechen.
  • Als Nächstes detektiert die CPU 201 Bewegungen der jeweiligen Teile in Übereinstimmung mit den in Schritt S105 extrahierten Daten (Schritt S106). Die Übergangsgesten werden in Händen wahrgenommen sowie Augen, Mund, Gesicht oder Körper. Man beachte, dass für Bewegungen der Hände das in Schritt S104 detektierte Ergebnis angewendet wird.
  • Im Folgenden wird im Detail beschrieben werden, wie Daten in den Schritten S103 und S105 extrahiert werden, und wie Bewegungen in den Schritten S104 und S106 detektiert werden.
  • Daten werden beispielhaft extrahiert wie folgt in den Schritten S103 und S105.
  • Als Erstes teilt die CPU 201 die im Bildspeicherteil 207 gespeicherten Bilddaten in eine Mehrzahl von Bereiche auf, denen jeweils die Körperteile des Benutzers entsprechen. In diesem Beispiel werden die Bilddaten in drei Bereiche aufgeteilt: einen Handbereich, der die Hände umfasst; einen Gesichtsbereich, der ein Gesicht umfasst; und einen Körperbereich, der einen Körper umfasst. Diese Bereichsaufteilung wird beispielhaft wie folgt vorgenommen.
  • Der Benutzer gibt eine Farbe eines zu extrahierenden Teils in die CPU 201 durch den Eingabeteil 204 ein. Im Detail wird die Handfarbe (zum Beispiel Beige) in Schritt S103 eingegeben, während die Farbe des Augenweiß (zum Beispiel Weiß) die Lippenfarbe (zum Beispiel Dunkelrot), die Gesichtsfarbe (zum Beispiel Beige) und die Kleidungsfarbe (zum Beispiel Blau) in Schritt S105 eingegeben werden.
  • In Antwort darauf nimmt die CPU 201 auf eine Mehrzahl von Pixeldaten Bezug, die die Bilddaten in den entsprechenden Bereichen bilden, und beurteilt dann, ob jede Farbe, die durch die Pixeldaten angezeigt wird, identisch oder ähnlich der durch den Benutzer bezeichneten Farbe ist oder nicht, und wählt dann nur die Pixeldaten aus, die als positiv beurteilt werden.
  • Mit anderen Worten, in Schritt S103 werden nur die Daten, die beige anzeigen, aus den Pixeldaten ausgewählt, die zum Handbereich gehören. Daher können auf diese Weise die Daten extrahiert werden, die den Händen entsprechen.
  • In Schritt S105 werden nur die Daten, die Weiß anzeigen, aus dem Gesichtsbereich ausgewählt. Daher können die Daten, die den Augen entsprechen (deren Weiß) extrahiert werden. Da nur die Daten, die Dunkelrot anzeigen, aus dem Gesichtsbereich ausgewählt werden, können ähnlich die Daten, die dem Mund (Lippen) entsprechen, extrahiert werden. Weiterhin können, da nur die Daten, die Beige anzeigen, aus dem Gesichtsbereich ausgewählt werden, die Daten, die dem Gesicht entsprechen, extrahiert werden. Weiterhin noch können, da nur die Daten, die Blau anzeigen, aus dem Körperbereich ausgewählt werden, die Daten extrahiert werden, die dem Körper (der Kleidung) entsprechen.
  • Bewegungen werden wie folgt in Schritt S104 detektiert.
  • Die CPU 201 vergleicht die Daten, die aus den entsprechenden Rahmen in Schritt S103 extrahiert wurden, um Bewegungen der Hände in den entsprechenden Rahmen zu detektieren. Danach kodiert die CPU 201 die detektierten Bewegungen, indem sie einer vorbestimmten Prozedur folgt.
  • Dementsprechend sind die Bewegungen der Hände, die in Schritt S104 detektiert wurden, in der Form einer Codekette, die jeweils durch eine Mehrzahl von Gestencodes aufgebaut sind, die für Hände vorbestimmt sind. Die Gestencodeketten werden vorübergehend im RAM 202 gespeichert.
  • Bewegungen werden in Schritt S106 wie folgt detektiert.
  • Die CPU 201 vergleicht die Daten, die aus den entsprechenden Rahmen in Schritt S105 extrahiert wurden, um Bewegungen der Augen, des Mundes, des Gesichts und des Körpers in den entsprechenden Rahmen zu detektieren. Danach kodiert die CPU 201 die detektierten Bewegungen, indem sie einer vorbestimmten Prozedur folgt.
  • Dementsprechend sind die Bewegungen der jeweiligen Teile (Augen, Mund, Gesicht und Körper), die im Schritt S106 detektiert wurden, in der Form einer Codekette, die jeweils durch eine Mehrzahl von Gestencodes strukturiert ist, die für die Teile vorbestimmt sind. Die Gestencodeketten werden vorübergehend im RAM 202 gespeichert.
  • Bezug nehmend wieder auf die 2 wird dann das Verarbeiten beschrieben, das vom Schritt S107 an auszuführen ist.
  • Die CPU 201 liest die Übergangsmerkmalsdaten vom Übergangsmerkmals-Speicherteil 209, um diese mit den Bewegungen der entsprechenden Teile zu vergleichen, die in Schritt S106 detektiert wurden. Zu diesem Zeitpunkt werden die Übergangsmerkmalsdaten mit der Mehrzahl an Gestencodes beschrieben, die in den Schritten S104 und S106 verwendet werden, um die Bewegungen der Körperteile des Benutzers darzustellen. Danach beurteilt die CPU 201, ob irgendeine Bewegung der entsprechenden Teile (Augen, Mund, Gesicht oder Körper) identisch zu oder ähnlich den Übergangsgesten (Blinzeln, Schließen eines Mundes, Nicken oder Stoppen der Hand- oder Körperbewegung) ist (Schritt S107).
  • Im Detail sucht die CPU 201 nach Gestencodeketten der entsprechenden Teile, die im RAM 202 gespeichert sind, und beurteilt dann, ob irgendeine Gestencode kette identisch zu oder ähnlich den Gestencodes oder Gestencodeketten der Übergangsmerkmalsdaten ist.
  • Wenn die in Schritt S107 gemachte Beurteilung negativ ist, geht die Prozedur nach Schritt S109 weiter.
  • Wenn die in Schritt S107 gemachte Beurteilung positiv ist, bestimmt die CPU 201 eine Position, an der die Handgesten, die in Schritt S104 detektiert wurden, in Wörter segmentiert werden (Schritt S108). Dieses Verarbeiten zum Bestimmen der Segmentierungsposition wird wie folgt ausgeführt.
  • Als Erstes wählt die CPU 201 irgendeine Bewegung der entsprechenden Teile aus, die identisch zu oder ähnlich der Übergangsgeste ist, als eine potentielle Segmentierungsposition. Genauer sucht die CPU 201 nach Gestencodeketten der entsprechenden Teile, die im RAM 202 gespeichert sind, detektiert alle Gestencodeketten, die identisch zu oder ähnlich den Gestencodes oder Gestencodeketten der Übergangsmerkmalsdaten sind und spezifiziert dann jede Zeitposition davon mit Rahmennummer. Die auf diese Weise spezifizierte Zeitposition wird im Folgenden potentielle Segmentierungsposition genannt.
  • Als Nächstes vergleicht die CPU 201 die potentiellen Segmentierungspositionen, die für die entsprechenden Teile ausgewählt wurden, miteinander in der oben erwähnten Art und Weise, dann bestimmt sie, wo die Handgesten (eine Folge von Einheitsgesten), die im Schritt S104 detektiert wurden, zu segmentieren sind, durch Bezugnahme auf den Vergleich.
  • Um Blinzeln als ein Beispiel zu nehmen, wird der Augenblick, an dem die Augenlider gesenkt werden (in anderen Worten, der Zeitpunkt, zu dem das Weiß der Augen unsichtbar wird) als die potentielle Segmentierungsposition betrachtet. Was eine Bewegung des Schließens eines Mundes betrifft, wird der Augenblick, an dem die Lippen geschlossen werden, als die potentielle Position betrachtet.
  • Was Nicken betrifft, wird der Augenblick, an dem das untere Ende des Gesichts seine Bewegung von nach unten zu nach oben ändert (der Augenblick, zu dem die Kinnspitze den niedrigsten Punkt erreicht) als die potentielle Position betrachtet. Was das Stoppen der Bewegung zum Beispiel von Händen betrifft, wird der Augenblick, an dem die Hände aufhören, sich zu bewegen, als die potentielle Position betrachtet. Was das Stoppen der Bewegung zum Beispiel des Körpers betrifft, wird der Augenblick, an dem der Körper aufhört, sich zu bewegen, als die potentielle Position betrachtet.
  • Nachdem diese potentiellen Positionen, die von den entsprechenden Teilen ausgewählt wurden, miteinander verglichen wurden, wenn zwei oder mehr potentielle Positionen in derselben Position oder näher als ein vorbestimmtes Intervall sind, bestimmt die CPU 201 die Position als die Segmentierungsposition. Genauer, wenn zwei oder mehr potentielle Positionen an derselben Position liegen, wird die Position als die Segmentierungsposition betrachtet. Wenn zwei oder mehr potentielle Positionen näher zueinander sind, wird eine Durchschnittsposition davon als die Segmentierungsposition betrachtet (oder irgendeine Position davon kann als die Segmentierungsposition betrachtet werden).
  • In Schritt S109 wird Verarbeiten zum Übersetzen der Handgesten, die in Schritt S104 detektiert wurden, ausgeführt unter Bezugnahme auf die Segmentierungsposition, die in Schritt S108 bestimmt wurde.
  • Insbesondere segmentiert die CPU 201 die in Schritt S104 detektierten Handgesten an der Segmentierungsposition, die in Schritt S108 bestimmt wurde, und übersetzt dann Zeichensprachenwörter, die dadurch erhalten werden, während sie diese mit den Zeichensprachenmerkmalsdaten vergleicht, die im Zeichensprachen-Handgesten-Speicherteil 208 gespeichert sind. In diesem Beispiel werden die Zeichensprachen-Merkmalsdaten mit der Mehrzahl von Gestencodes beschrieben, die in Schritt S104 verwendet wurden, um die Handgesten zu machen.
  • Danach bestimmt die CPU 201, ob sie die Operation beendet oder nicht (Schritt S110). Wenn die Bestimmung negativ ist, wird das Verarbeiten, das in Schritt S101 und danach ausgeführt wurde, wiederholt. Wenn positiv, wird die Operation beendet.
  • Wie aus dem Obigen bekannt ist, werden gemäß dieser Ausführungsform die Handgesten in Übereinstimmung mit der Übergangsgeste segmentiert, die im Körper des Benutzers beobachtet wird, wenn der Benutzer seine/ihre Geste von einer Geste, die ein Wort repräsentiert, in eine Geste übergehen lässt, die ein anderes darstellt, aber nicht während Gesten, die ein einziges Wort darstellen. Daher kann die Computervorrichtung ohne die Darstellung des Benutzers, wo segmentiert werden soll, die detektierten Handgesten automatisch in Wörter oder begreifliche Einheiten, die aus einer Mehrzahl von Wörtern bestehen, segmentieren.
  • Während in der ersten Ausführungsform die Bilddaten in drei Bereiche aufgeteilt wurden, den Handbereich einschließlich der Hände, den Gesichtsbereich einschließlich eines Gesichts und den Körperbereich einschließlich eines Körpers, um daraus Daten zu extrahieren, die den entsprechenden Körperteilen des Benutzers entsprechen, können die Bilddaten in vier Bereiche aufgeteilt werden, in denen zusätzlich ein bedeutungsloser Handbereich enthalten ist. In diesem Beispiel ist der bedeutungslose Handbereich eine Entsprechung zum unteren Teil eines Bildschirms des Ausgabeteils 205, in dem die Hände des Benutzers platziert werden mit seinen/ihren Armen in niedriger Position.
  • Solange die Hände im bedeutungslosen Handbereich wahrgenommen werden, beurteilt die Computervorrichtung, dass der Benutzer nicht durch Zeichensprache spricht. Umgekehrt beurteilt die Computervorrichtung in dem Augenblick, in dem die Hände aus dem bedeutungslosen Handbereich herauskommen, dass begonnen wird, Handgesten zu machen. Auf diese Weise kann die Computervorrichtung somit korrekt erkennen, wann der Benutzer beginnt, Handgesten zu machen. Weiterhin kann die Computervorrichtung eingestellt werden, das Hinein in/Hinaus aus dem bedeutungslosen Handbereich als die Übergangsgeste zu detektieren, um diese für Segmentierung zu verwenden.
  • Während mindestens eine der Bewegungen, wie etwa Blinzeln, Schließen eines Mundes, Nicken, Stoppen der Bewegung von Händen oder Körper in der ersten Ausführungsform als die Übergangsgeste zum Bestimmen, wo segmentiert werden soll, detektiert wurde(n), ist die Übergangsgeste darauf nicht beschränkt. Zum Beispiel kann eine Bewegung des Berührens eines Gesichts mit einer Hand/Händen als eine Übergangsgeste betrachtet werden. In Zeichensprache werden nämlich oft Gesten, wie das Bringen einer Hand/von Händen näher an ein Gesicht oder das Bewegen einer Hand/von Händen weg vom Gesicht am Anfang eines Worts beobachtet oder an dessen Ende.
  • Weiterhin kann, um die Segmentierungsposition zu bestimmen, eine Dauer einer Übergangsgeste in der ersten Ausführungsform berücksichtigt werden. Zum Beispiel wird die Dauer, während der die Hände sich nicht bewegen, mit einem vorbestimmten Schwellenwert verglichen. Wenn die Dauer länger als der Schwellenwert ist, wird sie als die Übergangsgeste bestimmt und sie wird verwendet, um die Segmentierungsposition zu bestimmen. Wenn die Dauer kürzer als der Schwellenwert ist, wird sie nicht als die Übergangsgeste bestimmt und somit nicht berücksichtigt. Auf diese Weise kann Segmentierung mit verbesserter Präzision gemacht werden.
  • Weiterhin wird in der ersten Ausführungsform noch eine Nicht-Übergangsgeste gespeichert, sowie die Übergangsgeste, um die Segmentierungsposition in Übereinstimmung damit zu bestimmen. Hier bedeutet eine Nicht-Übergangsgeste eine Geste, die nicht im Körper des Benutzers beobachtet wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste beobachtet wird, die ein Wort darstellt. Die Nicht-Übergangsgeste kann eine Geste des Hände einander näher Bringens oder zum Beispiel eine Geste des Änderns der Mundform beinhalten.
  • Im Detail ist die Computervorrichtung in 2 weiterhin mit einem Teil zur Speicherung einer Nicht-Übergangsgeste (nicht dargestellt) ausgestattet, und die Nicht-Übergangsmerkmalsdaten, die Merkmale einer Nicht-Übergangsgeste anzeigen, werden dort gespeichert. Danach werden in Schritt S106 in 1 sowohl eine Übergangsgeste als auch eine Nicht-Übergangsgeste detektiert. Die Nicht-Übergangsgeste kann auf ähnliche Weise wie die Übergangsgeste detektiert werden. Dann werden in Schritt S108 die Handgesten in Übereinstimmung mit der Übergangsgeste und der Nicht-Übergangsgeste segmentiert, die beide in Schritt S106 detektiert wurden.
  • Genauer wird in der ersten Ausführungsform, wenn die potentiellen Segmentierungspositionen, die für die jeweiligen Teile ausgewählt wurden, verglichen werden und gefunden wird, dass zwei oder mehr in der gleichen Position oder näher als ein vorbestimmtes Intervall sind, die Segmentierungsposition in Übereinstimmung damit bestimmt (mit anderen Worten, die übereinstimmende Position oder eine mittlere Position der benachbarten potentiellen Positionen wird als die Segmentierungsposition bestimmt). Dies ist jedoch nicht auf einen Fall anwendbar, wenn die Nicht-Übergangsgeste als gleichzeitig detektiert betrachtet wird. Das heißt, dass für die Dauer der Nicht-Übergangsgeste Segmentierung nicht gemacht wird, selbst wenn die Übergangsgeste detektiert wird. Auf diese Weise kann Segmentierung mit verbesserter Präzision gemacht werden.
  • Weiterhin noch können in der ersten Ausführungsform, um die Computervorrichtung die Übergangsgeste auf eine präzise Art und Weise detektieren zu lassen, Animationsbilder zum Anleiten eines Benutzers, eine korrekte Übergangsgeste zu machen (in anderen Worten, Übergangsgesten, die für eine Computervorrichtung erkennbar sind), auf dem Bildschirm des Ausgabeteils 205 angezeigt werden.
  • Im Detail werden in der Computervorrichtung in 2 Animationsbilddaten, die jede Übergangsgeste darstellen, vorher in einem Animationsspeicherteil (nicht dargestellt) gespeichert. Die CPU 201 bestimmt dann, welche Übergangsgeste dem Benutzer dargestellt werden soll, auf der Grundlage des Zustands der Übergangsgestendetektion (zum Beispiel, dass die Detektionsfrequenz einer bestimmten Übergangsgeste besonders niedrig ist) und des Zustands von Handgestenerkennung, ob die Handgesten erkannt werden oder nicht (nachdem sie gemäß der detektierten Übergangsgeste segmentiert wurden). Danach liest die CPU 201 die Animationsbilddaten, die die ausgewählte Übergangsgeste darstellt, aus dem Animationsspeicherteil aus, um diese an den Ausgabeteil 205 auszugeben. Auf diese Weise zeigt der Bildschirm des Ausgabeteils 205 eine Animation an, die jede Übergangsgeste darstellt, und der Benutzer korrigiert seine/ihre Übergangsgeste, während er auf die angezeigte Animation Bezug nimmt.
  • (Zweite Ausführungsform)
  • 3 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentierung von Zeichensprachengesten gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt.
  • In 3 umfasst die Vorrichtung zur Segmentierung von Zeichensprachengesten einen Bildeingabeteil 301, einen Körpermerkmals-Extraktionsteil 302, einen Merkmalsbewegungs-Nachverfolgungsteil 303, einen Segmentpositions-Bestimmungsteil 304 und einen Segmentelement-Speicherteil 305.
  • Die Vorrichtung zur Segmentierung von Zeichensprachengesten kann zum Beispiel in eine Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt) eingebaut sein. Die Vorrichtung kann auch in eine Computervorrichtung, wie etwa ein Heimelektrogerät oder einen Ticketautomaten eingebaut sein.
  • Der Bildeingabeteil 301 empfängt Bilder, die von einer Bildeingabevorrichtung, wie etwa einer Kamera, aufgenommen werden. In diesem Beispiel ist eine einzige Bildeingabevorrichtung ausreichend, da die Gesten eines Zeichners zweidimensional erfasst werden, wenn nicht anders spezifiziert.
  • Der Bildeingabeteil 301 empfängt Körperbilder des Zeichners. Den Bildern, die vom Bildeingabeteil 301 eingegeben werden (nachfolgend eingegebenes Bild) wird jeweils eine Nummer für jeden Rahmen zugeordnet, dann werden sie an den Körpermerkmals-Extraktionsteil 302 übertragen. Der Segmentelement-Speicherteil 305 umfasst vorher gespeicherte Körpermerkmale und Bewegungsmerkmale als Elemente zur Segmentierung (nachfolgend Segmentelement).
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die den Körpermerkmalen entsprechen, die im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern. Der Merkmalsbewegungs-Nachverfolgungsteil 303 berechnet Bewegungen der Körpermerkmale auf der Grundlage der extrahierten Bilder und überträgt dann Bewegungsinformationen, die die Berechnung anzeigen, an den Segmentpositions-Bestimmungsteil 304. Der Segmentpositions-Bestimmungsteil 304 findet eine Segmentierungsposition in Übereinstimmung mit den übertragenen Bewegungsinformationen und den Bewegungsmerkmalen, die im Segmentelement-Speicherteil 305 gespeichert sind, und gibt dann eine Rahmennummer aus, die die Segmentierungsposition anzeigt.
  • Hier können der Bildeingabeteil 301, der Körpermerkmals-Extraktionsteil 302, der Merkmalsbewegungs-Nachverfolgungsteil 303 und der Segmentierungspositions-Bestimmungsteil 304 mit einem einzigen oder einer Mehrzahl von Computer realisiert werden. Der Segmentelement-Speicherteil 305 kann mit einer Speichervorrichtung, wie etwa einer Festplatte, CD-ROM oder DVD realisiert werden, die mit dem Computer verbunden ist.
  • Im Folgenden wird eine Beschreibung gemacht werden, wie die Vorrichtung zur Segmentierung von Zeichensprachengesten, die auf die oben beschriebene Art und Weise aufgebaut ist, betrieben wird, um Verarbeitung auszuführen.
  • 4 zeigt ein Flussdiagramm einer beispielhaften Prozedur, die von der Vorrichtung zur Segmentierung von Zeichensprachengesten in 3 ausgeführt wird.
  • Die jeweiligen Schritte, die in 4 gezeigt werden, werden wie folgt ausgeführt.
  • [Schritt S401]
  • Der Bildeingabeteil 301 empfängt eingegebene Bilder für einen Rahmen, wenn es welche gibt. Eine Rahmennummer i wird dann um "1" inkrementiert und die eingegebenen Bilder werden an den Körpermerkmals-Extraktionsteil 302 übertragen. Danach geht die Prozedur zu Schritt S402.
  • Wenn es keine eingegebenen Bilder gibt, wird die Rahmennummer i auf "0" gesetzt, und dann wird eine Bestimmungscodenummer j auf "1" gesetzt. Danach wiederholt die Prozedur Schritt S401.
  • [Schritt S402]
  • Der Körpermerkmals-Extraktionsteil 302 teilt einen räumlichen Bereich gemäß dem Körper des Zeichners auf. Der räumliche Bereich wird zum Beispiel auf ähnliche Art und Weise wie im Verfahren aufgeteilt, das in "Method of detecting start position of gestures" (Verfahren zum Detektieren einer Startposition von Gesten) ( japanische Patentoffenlegungsschrift Nr. 9-44668 ) offenbart ist.
  • Insbesondere detektiert der Körpermerkmals-Extraktionsteil 302 zuerst einen Bereich des menschlichen Körpers in Übereinstimmung mit einen Farbunterschied zwischen dem Hintergrund und dem Zeichner in den Bilddaten und teilt dann den räumlichen Bereich um den Zeichner entlang eines Umrisses des detektierten Be reichs des menschlichen Körpers auf. Danach wird ein Bereichscode jeweils jedem Bereich zugeordnet, der nach der Aufteilung erhalten wird.
  • 5 ist ein Diagramm, das beispielhafte Bereichscodes zeigt, die vom Körpermerkmals-Extraktionsteil 302 zugeordnet wurden.
  • In 5 wird ein eingegebenes Bild 501 (räumlicher Bereich) durch einen Umriss 502 des Bereichs eines menschlichen Körpers, einen Kopf, der ein Rechteck 503 umschreibt, eine Halslinie 504, eine Körperlinie links 505, eine Körperlinie rechts 506 und eine Linie 507 zum Entscheiden eines bedeutungslosen Handbereichs aufgeteilt.
  • Genauer gesagt detektiert der Körpermerkmals-Extraktionsteil 302 zunächst eine Position des Halses durch Bezugnahme auf den Umriss 502 des Bereichs des menschlichen Körpers und zeichnet die Halslinie 504 an der Position des Halses parallel zur X-Achse. Danach zeichnet der Körpermerkmals-Extraktionsteil 302 die Linie 507 zur Entscheidung des bedeutungslosen Handbereichs parallel zur X-Achse, deren Höhe gleich einem Wert ist, der durch Multiplizieren der Höhe der Halslinie 504 von der Unterseite des Bildschirms mit einem Bedeutungslos-Handentscheidungsverhältnis erhalten wird. Das Bedeutungslos-Handentscheidungsverhältnis ist ein Parameter, der verwendet wird, um zu bestätigen, dass die Hände effektiv sind. Wenn daher die Hände unter die Bedeutungslos-Handentscheidungslinie 507 platziert werden, wird die Handgeste, die zu diesem Zeitpunkt durchgeführt wird, als ungültig bestimmt, d.h., die Hände bewegen sich nicht, selbst wenn die Handgeste durchgeführt wird. Das Bedeutungslos-Handentscheidungsverhältnis wird hier auf etwa 1/5 gesetzt.
  • Als Nächstes wird jedem Bereich, der durch die Aufteilung im Vorangegangenen erhalten wird, ein Bereichscode zugeordnet. Jede Nummer in einem Kreis, die in der Zeichnung gefunden wird, ist ein Bereichscode. In dieser Ausführungsform werden die Zeichencodes, wie in 5 gezeigt, zugeteilt. Genauer gesagt, ist ein Bereich außerhalb des Kopfs, der das Rechteck 503 umschreibt und über der Halslinie 504 ist ➀, ein Bereich innerhalb des Kopfs, der das Rechteck 503 umschreibt, ist ➁ und ein Bereich zwischen der Halslinie 504 und der Bedeutungslos-Handentscheidungslinie 507, der sich links von der Körperlinie links 505 befindet, ist ➂, ein Bereich, der von der Halslinie 504 der Bedeutungslos-Handentscheidungslinie 507 der Körperlinie links 505 und der Körperlinie rechts 506 eingeschlossen wird, ist ➃, ein Bereich zwischen der Halslinie 504 und der Bedeutungslos-Handentscheidungslinie 507, der sich rechts von der Körperlinie rechts 506 befindet, ist ➄ und ein Bereich unterhalb der Bedeutungslos-Handentscheidungslinie 507 ist ➅.
  • Danach geht die Prozedur zu Schritt S403.
  • [Schritt S403]
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die den Körpermerkmalen entsprechen, die im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern. Die auf diese Weise extrahierten Bilder werden nachfolgend als extrahierte Körpermerkmale bezeichnet.
  • 6 ist ein Diagramm, das beispielhafte Segmentelementdaten zeigt, die im Segmentelement-Speicherteil 305 gespeichert sind.
  • In 6 umfassen die Segmentelementdaten ein Körpermerkmal 601 und ein Bewegungsmerkmal 602. Das Körpermerkmal 601 umfasst ein oder mehrere Körpermerkmale. In diesem Beispiel umfasst das Körpermerkmal 601 einen Gesichtsbereich; Augen; Mund; Handbereich und Körper; Handbereich und Gesichtsbereich und Handbereich.
  • Das Bewegungsmerkmal 602 wird auf Bewegungsmerkmale gesetzt, die jeweils den Körpermerkmalen entsprechen, die im Körpermerkmal 601 gefunden werden.
  • Genauer wird die Kinnspitze, wenn genickt wird, als dem Gesichtsbereich entsprechend gesetzt, Blinzeln wird als den Augen entsprechend gesetzt, Ändern der Form des Mundes wird als dem Mund entsprechend gesetzt, eine Pause wird als dem Handbereich und dem Körper entsprechend gesetzt, eine Bewegung des Berührens des Gesichts mit Hand/Händen wird als dem Handbereich oder dem Gesichtsbereich entsprechend gesetzt und ein Punkt, an dem sich die Wirksamkeit von Händen ändert, wird als dem Handbereich entsprechend gesetzt.
  • Der Körpermerkmals-Extraktionsteil 302 detektiert die Körpermerkmale, die im Körpermerkmal 601 als die extrahierten Körpermerkmale gesetzt wurden. Wenn das Körpermerkmal 601 zum Beispiel als der "Gesichtsbereich" gesetzt ist, extrahiert der Körpermerkmals-Extraktionsteil 302 den Gesichtsbereich als die extrahierten Körpermerkmale.
  • Hier wird jetzt eine Beschreibung gemacht, wie der Gesichtsbereich extrahiert wird.
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert zuerst einen beigen Bereich aus den eingegebenen Bildern in Übereinstimmung mit der RGB-Farbinformation. Dann nimmt der Körpermerkmals-Extraktionsteil 302 aus dem beigen Bereich alle Teile heraus, die einen Bereich überlagern, dessen Bereichscode ➁ (Kopfbereich) ist, der durch die Aufteilung in Schritt S402 erhalten wurde, und betrachtet den Teil als den Gesichtsbereich.
  • 7 ist ein Diagramm, das einen beispielhaften beigen Bereich zeigt, der durch den Körpermerkmals-Extraktionsteil 302 extrahiert wurde. Wie in 7 gezeigt, umfasst der beige Bereich einen beigen Bereich für Gesicht 702 und einen beigen Bereich für Hände 703. Dementsprechend ist die Extraktion, die gemäß den RGB-Farbinformationen gemacht wurde, nicht ausreichend, da sowohl beige Regionen für Gesicht 702 und Hände 703 ununterscheidbar extrahiert werden. Daher wird, wie in 5 gezeigt, das eingegebene Bild vorher in Bereiche ➀ bis aufgeteilt, und nur der Teil, der den Kopfbereich 701 überlagert, (Bereich ➁ in 5) wird aus den extrahierten beigen Bereichen genommen. Auf diese Weise wird der beige Bereich für Gesicht 702 somit erhalten.
  • Als Nächstes erzeugt der Körpermerkmals-Extraktionsteil 302 Gesichtsbereichinformationen. Das heißt, der Körpermerkmals-Extraktionsteil 302 setzt i-te Gesichtsbereichsinformationen face [i] mit einem Schwerpunkt, Gebiet, einer Längs-Maximallänge und einer Vertikal-Maximallänge des extrahierten Gesichtsbereichs.
  • 8 ist ein Diagramm, das beispielhafte Gesichtsbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
  • In 8 umfassen die Gesichtsbereichsinformationen Schwerpunktkoordinaten 801 des Gesichtsbereichs, ein Gebiet 802 davon, Längs-Maximallänge 803 davon und Vertikal-Maximallänge 804 davon.
  • Danach geht die Prozedur nach Schritt S404.
  • [Schritt S404]
  • Wenn die Rahmennummer i 1 ist, kehrt die Prozedur nach Schritt S401 zurück. Wenn nicht, geht die Prozedur nach Schritt S405.
  • [Schritt S405]
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet einen Merkmalsbewegungscode des Gesichtsbereichs unter Bezugnahme auf die Informationen des i-ten Gesichtsbereichs face[i] und die Informationen des [i – 1]-ten Gesichtsbereichs face[i – 1] mit <Gleichung 1>. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 einen Gesichtsbewegungsvektor V-face[i] im i-ten Ge sichtsbereich unter Bezugnahme auf einen Schwerpunkt g_face[i] der Informationen des i-ten Gesichtsbereichs face[i] und einen Schwerpunkt g_face[i – 1], der Informationen über den (i – 1)-ten Gesichtsbereich face[i – 1].
  • Figure 00400001
  • Als Nächstes bestimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 den Merkmalsbewegungscode unter Bezugnahme auf den Gesichtsbewegungsvektor V-face[i] im i-ten Gesichtsbereich.
  • 9 ist ein Diagramm, das Bedingungen von Gesichtsmerkmalsbewegungen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • In 9 umfassen die Bedingungen von Gesichtsmerkmalsbewegungen einen Bewegungscode 901 und eine Bedingung 902. Der Bewegungscode 901 ist auf Zahlen "1" bis "8" gesetzt und die Bedingung 902 ist auf die Bedingungen von Gesichtsmerkmalsbewegungen gesetzt, die den entsprechenden Nummern entsprechen, die im Bewegungscode 901 gesetzt sind.
  • Im Detail nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 902 in 9 Bezug und wählt dann irgendeine Bedingung von Gesichtsmerkmalsbewegungen entsprechend dem Gesichtsbewegungsvektor V-face[i] im i-ten Gesichtsbereich aus. Danach nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Zahl auf, die der ausgewählten Bedingung von Ge sichtsmerkmalsbewegungen entspricht, vom Bewegungscode 901 in 9, um den Merkmalsbewegungscode zu bestimmen.
  • Dann geht die Prozedur nach Schritt S406.
  • [Schritt S406]
  • Der Segmentierungsposition-Bestimmungsteil 304 nimmt auf die Segmentelementdaten Bezug (siehe 6), die im Segmentelement-Speicherteil 305 gespeichert sind, und überprüft, ob der festgestellte Merkmalsbewegungscode mit dem Bewegungsmerkmal 602 übereinstimmt oder nicht. Das Bewegungsmerkmal 602 ist auf einen Parameter (Bewegungsmerkmalsparameter) gesetzt, der das Bewegungsmerkmal anzeigt, um Segmentierung zu bestätigen.
  • 10 ist ein Diagramm, das einen beispielhaften Bewegungsmerkmalparameter zeigt, der auf Bewegungsmerkmal 602 gesetzt ist.
  • In 10 umfasst der Bewegungsmerkmalsparameter ein Bewegungsmerkmal 1001, einen Bestimmungscode 1002, Zeit 1003 und Segmentierungsposition 1004. Das Bewegungsmerkmal 1001 bezeichnet eine Art von Bewegungsmerkmal. Der Bestimmungscode 1002 ist eine Codekette, die verwendet wird, um das Bewegungsmerkmal zu bestimmen. Die Zeit 1003 ist Zeit, die verwendet wird, um das Bewegungsmerkmal zu bestimmen. Die Segmentierungsposition 1004 zeigt Segmentierungspositionen im Bewegungsmerkmal an.
  • In der Codekette, die im Bestimmungscode 1002 enthalten ist, wird jeder Code durch Nummern "1" bis "8" dargestellt, auf ähnliche Weise wie der Bewegungscode 901 (Merkmalsbewegungscode) in 9, und eine Nummer "0", die eine Pause anzeigt, und die Codes sind durch Bindestriche verbunden.
  • Wenn die Codes hintereinander eine Reihenfolge von beispielsweise "1", "0" und "2" haben, wird bestimmt, dass die Merkmalsbewegungscodes, die in Schritt S405 bestimmt wurden, mit einer Codekette von "1-0-2" übereinstimmen.
  • Hier bedeutet ein Code in Klammern, dass der Code bei der Bestimmung in der obigen Art und Weise relativ unbedeutend ist. Zum Beispiel wird angenommen, dass eine Codekette von "7-(0)-3" und diejenige von "7-3" die gleichen sind.
  • Weiterhin bedeuten Codes mit einem Schrägstrich dazwischen, dass beide Codes gehen. In einem Fall, in dem Codes zum Beispiel "0/3" sind, werden beide Codes "0" oder "3" als ausreichend betrachtet (nicht dargestellt).
  • Ein Zeichen "*" bedeutet, dass jeder beliebige Code geht.
  • Um Nicken zu detektieren, ist das anwendbare Körpermerkmal 601 in 6 "Gesichtsbereich" und das anwendbare Bewegungsmerkmal 602 ist "die Kinnspitze beim Nicken". In diesem Fall bestimmt der Segmentierungspositions-Bestimmungsteil 304, ob der Gesichtsmerkmalsbewegungscode, der in Schritt S405 bestimmt wurde, mit der Codekette "7-(0)-3" übereinstimmt, die dem "Kinnspitze beim Nicken" in 10 entspricht.
  • Die Vorrichtung zur Segmentierung von Zeichensprachengesten beurteilt, ob j 1 ist oder nicht. Wenn j = 1, geht die Prozedur nach Schritt S407. Wenn j > 1, schreitet die Prozedur nach Schritt S409 voran.
  • [Schritt S407]
  • Die Vorrichtung zur Segmentierung von Zeichensprachengesten bestimmt, ob der Merkmalsbewegungscode mit dem ersten Code des Bestimmungscodes 1002 übereinstimmt. Wenn ja, geht die Prozedur nach Schritt S408. Wenn nein, kehrt die Prozedur nach Schritt S401 zurück.
  • [Schritt S408]
  • Der Segmentierungspositions-Bestimmungsbereich 304 erzeugt Bestimmungscodedaten. Das heißt, dass der Segmentierungspositions-Bestimmungsbereich 304 eine Codenummer von ersten Bestimmungscodedaten Code_data[1] auf den Merkmalsbewegungscode setzt, und dass er eine Codestart-Rahmennummer davon auf i setzt.
  • 11 ist ein Diagramm, das beispielhafte Bestimmungscodedaten zeigt, die durch den Segmentpositions-Bestimmungsteil 304 erzeugt wurden.
  • In 11 umfassen die Bestimmungscodedaten eine Codenummer 1101, eine Codestart-Rahmennummer 1102 und eine Codeende-Rahmennummer 1103.
  • Wenn 10 als ein Beispiel genommen wird, wird, mit dem Merkmalsbewegungscode von "7" die Codenummer der ersten Bestimmungscodedaten Code_data[1] auf "7" gesetzt, und die Codestart-Rahmennummer der ersten Bestimmungscodedaten Code_data[1] wird auf i gesetzt.
  • Danach wird j auf 2 gesetzt und die Prozedur kehrt nach Schritt S401 zurück.
  • [Schritt S409]
  • Es wird bestimmt, ob der Merkmalsbewegungscode mit einer Codenummer von (j – 1)-ten Bestimmungscodedaten Code_data[j – 1] übereinstimmt oder nicht. Wenn ja kehrt die Prozedur nach Schritt S401 zurück.
  • Wenn nicht, geht die Prozedur nach Schritt S410.
  • [Schritt S410]
  • Der Segmentierungspositions-Bestimmungsteil 304 setzt eine Codeende-Rahmennummer der (j – 1)-ten Bestimmungscodedaten Code_data[j – 1] auf (i – 1). Danach geht die Prozedur nach Schritt S411.
  • [Schritt S411]
  • Es wird bestimmt, ob die Anzahl an Codes, die im Bestimmungscode 1002 enthalten sind, j oder mehr ist. Wenn ja, geht die Prozedur nach Schritt S412.
  • Wenn die Anzahl an Codes, die im Bestimmungscode 1002 enthalten sind (j – 1) ist, schreitet die Prozedur nach Schritt S417 voran.
  • [Schritt S412]
  • Es wird bestimmt, ob der j-te Code des Bestimmungscodes 1002 mit dem Merkmalsbewegungscode übereinstimmt oder nicht. Wenn nicht, geht die Prozedur nach Schritt S413.
  • Wenn ja, schreitet die Prozedur nach Schritt S416 voran.
  • [Schritt S413]
  • Es wird bestimmt, ob der j-te Code des Bestimmungscodes 1002 in Klammern ist. Wenn ja, geht die Prozedur nach Schritt S414.
  • Wenn nicht, schreitet die Prozedur nach Schritt S415 voran.
  • [Schritt S414]
  • Es wird bestimmt, ob der (j + 1)-te Code des Bestimmungscodes 1002 mit dem Merkmalsbewegungscode übereinstimmt oder nicht. Wenn nicht, geht die Prozedur nach Schritt S415.
  • Wenn ja, wird j um 1 inkrementiert, dann schreitet die Prozedur nach Schritt S416 voran.
  • [Schritt S415]
  • Als Erstes wird j auf 1 gesetzt und dann kehrt die Prozedur nach Schritt S401 zurück.
  • [Schritt S416]
  • Die Codenummer der j-ten Bestimmungscodedaten Code_data[j] wird auf den Merkmalsbewegungscode gesetzt. Weiterhin wird die Codestart-Rahmennummer der j-ten Bestimmungscodedaten Code_data[j] auf i gesetzt. Dann wird j um 1 inkrementiert. Danach kehrt die Prozedur nach Schritt S401 zurück.
  • [Schritt S417]
  • Der Segmentpositions-Bestimmungsteil 304 findet die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
  • Wenn das anwendbare Bewegungsmerkmal "Kinnspitze beim Nicken" ist, ist die diesem entsprechende Segmentposition der niedrigste Punkt unter den Y-Koordinaten. Daher findet der Segmentpositions-Bestimmungsteil 304 eine Rahmennummer, die dem entspricht.
  • Im Detail vergleicht der Segmentpositions-Bestimmungsteil 304 Schwerpunkt-Y-Koordinaten im Gesichtsbereich für die jeweiligen Rahmen, die im Bereich zwischen der Codestartnummer der ersten Bestimmungscodedaten Code_data[1] und der Codeende-Rahmennummer der (j – 1)-ten Bestimmungscodedaten Code_data[j – 1] anwendbar sind. Dann wird die Rahmennummer des Rahmens, in dem die Schwerpunkt-Y-Koordinate am kleinsten ist (d.h., der Schwerpunkt des Gesichtsbereichs kommt an den niedrigsten Punkt) als die Segmentposition im Bewegungsmerkmal gesetzt.
  • Man beachte, dass, wenn mehrere Rahmennummern für den niedrigsten Punkt der Y-Koordinate anwendbar sind, die erste (die kleinste) Rahmennummer als die Segmentposition betrachtet wird.
  • Danach geht die Prozedur nach Schritt S418.
  • [Schritt S418]
  • Die Vorrichtung zur Segmentierung von Zeichensprachengesten gibt die Segmentierungsposition aus. Danach kehrt die Prozedur nach Schritt S401 zurück, um dieselbe Verarbeitung wie oben beschrieben zu wiederholen.
  • Auf diese Weise kann das Verfahren zur Segmentierung von Zeichensprachengesten mit der Detektion von Nicken realisiert werden.
  • Im Folgenden wird das Verfahren des Segmentierens von Zeichensprachengesten mit der Detektion von Blinzeln beschrieben.
  • Im Verfahren des Segmentierens von Zeichensprachengesten mit der Detektion von Blinzeln wird die Verarbeitung in Schritt S403, die für die Detektion von Nicken beschrieben wurde (siehe 4) wie folgt geändert.
  • [Schritt S403a]
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
  • Wenn Blinzeln detektiert wird, wird das Körpermerkmal 601 auf "Augen" gesetzt und der Körpermerkmals-Extraktionsteil 302 extrahiert Augen als die extrahierten Körpermerkmale.
  • Eine Beschreibung wird jetzt hier gemacht, wie die Augen extrahiert werden.
  • Als Erstes wird der Gesichtsbereich auf ähnliche Weise wie in Schritt S403 extrahiert. Dann werden die Augen aus dem extrahierten Gesichtsbereich auf folgende Weise extrahiert.
  • 12 ist ein Diagramm, das einen beispielhaften Gesichtsbereich zeigt, der durch den Körpermerkmals-Extraktionsteil 302 extrahiert wurde.
  • In 12 beinhaltet der extrahierte Gesichtsbereich 1201 zwei Lochbereiche, die durch Augenbrauen 1202 gemacht, zwei Lochbereiche, die durch Augen 1203 gemacht werden und einen Lochbereich, der durch einen Mund 1204 gemacht wird (ein schraffierter Bereich ist der beige Bereich.
  • Eine gerade Linie, die durch ein Bezugszeichen 1205 in der Zeichnung bezeichnet wird, ist eine Oben- und Unten-Trennlinie des Gesichts. Die Oben- und Unten-Trennlinie des Gesichts 1205 ist eine Linie, die den extrahierten Gesichtsbereich 1201 in zwei teilt, oben und unten.
  • Als Erstes wird diese Oben- und Unten-Trennlinie des Gesichts 1205 zwischen einem oberen und einem unteren Ende des Gesichts an einer Stelle gezeichnet, die durch ein Oben- und Unten-Trennungsverhältnis des Gesichts ausgewiesen wird. Hier ist das Oben- und Unten-Trennungsverhältnis des Gesichts ein Parameter und wird so gesetzt, dass die Lochbereiche, die durch Augen 1203 gemacht werden, im Bereich oberhalb der Oben- und Unten-Trennlinie 1205 des Gesichts sind.
  • Das Oben- und Unten-Teilungsverhältnis des Gesichts wird in dieser Ausführungsform auf "1/2" gesetzt.
  • Als Nächstes wird jeder Lochbereich im Gesichtsbereich, der oberhalb der Oben- und Unten-Trennlinie des Gesichts 1205 liegt, detektiert.
  • Wenn zwei Lochbereiche detektiert werden, werden die Lochbereiche als Augenbrauen eingeschätzt und Augen als geschlossen.
  • Wenn drei Lochbereiche detektiert werden, wird eingeschätzt, dass ein Auge geschlossen ist, und jeder Lochbereich, der im unteren Teil liegt, wird als ein Auge eingeschätzt.
  • Wenn vier Lochbereiche detektiert werden, wird eingeschätzt, dass beiden Augen offen sind, und alle zwei Lochbereiche, die sich im unteren Teil befinden, werden als Auge eingeschätzt.
  • Wenn 12 als ein Beispiel genommen wird, gibt es vier Lochbereiche. Daher sind die zwei Lochbereiche, die sich im unteren Teil befinden, der Lochbereich, der durch Augen 1203 gemacht wird.
  • Dann erzeugt der Körpermerkmals-Extraktionsteil 302 Augenbereichsinformationen. Genauer werden die Anzahl an extrahierten Augen und ihr Bereich beide in einer i-ten Augenbereichsinformation eye[i] gesetzt.
  • 13 ist ein Diagramm, das beispielhafte Augenbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
  • In 13 enthalten die Augenbereichsinformationen die Anzahl an Augen 1301, ein Gebiet des ersten Auges 1302 und ein Gebiet des zweiten Auges 1303.
  • Der Körpermerkmals-Extraktionsteil 302 setzt zuerst die Anzahl an Augen 1301 auf die Anzahl der extrahierten Augen, dann setzt er das Augengebiet entsprechend der Anzahl an extrahierten Augen auf die folgende Weise.
  • Wenn die Anzahl an extrahierten Augen null ist, werden das Gebiet des ersten Auges 1302 und das Gebiet des zweiten Auges 1303 beide auf null gesetzt.
  • Wenn die Anzahl an extrahierten Augen 1 ist, wird das Gebiet des Auges (Lochbereich, der durch Augen 1203 gemacht wird) berechnet und im Gebiet des ersten Auges 1302 gesetzt. Das Gebiet des zweiten Auges wird auf null gesetzt.
  • Wenn die extrahierte Anzahl an Augen 2 ist, wird das Gebiet der entsprechenden Augen berechnet. Das Gebiet des ersten Auges 1302 wird auf das Gebiet des linken Auges gesetzt (Lochbereich, der durch Augen 1203 gemacht wird, links), und das Gebiet des zweiten Auges 1303 wird auf das Gebiet des rechten Auges gesetzt.
  • Danach geht die Prozedur nach Schritt S404.
  • Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Blinzeln wird die Verarbeitung in Schritt S404 wie folgt geändert.
  • [Schritt S405a]
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet mit <Gleichung 2> einen Merkmalsbewegungscode für Augen unter Bezugnahme auf die i-ten Augenbereichsinformation eye[i] und (i – 1)-te Augenbereichsinformation eye[i – 1]. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Veränderung d1_eye[i] im Gebiet des ersten Auges im i-ten Augenbereich unter Bezugnahme auf ein Gebiet s1_eye[i] des ersten Auges der i-ten Augenbereichsinformation eye[i] und ein Gebiet s1_eye[i – 1] des ersten Auges der (i – 1)-ten Augenbereichsinformation eye[i]. Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Veränderung d2_eye[i] im Gebiet des zweiten Auges im i-ten Augenbereich unter Bezugnahme auf ein Gebiet s2_eye[i] des zweiten Auges der i-ten Augenbereichsinformation eye[i] und ein Gebiet s2_eye[i – 1] des zweiten Auges der (i – 1)-ten Augenbereichsinformation eye[i – 1].
  • Figure 00500001
  • 14 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Augen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • In 14 enthalten die Bedingungen von Merkmalsbewegungen für Augen einen Bewegungscode 1401 und eine Bedingung 1402. Der Bewegungscode 1401 wird auf Zahlen von "0" bis "6" gesetzt, und die Bedingung 1402 wird auf die Bedingungen von Merkmalsbewegungen für Augen gesetzt, die den entsprechenden Zahlen entsprechen, die für den Bewegungscode 1401 gesetzt sind.
  • Ein Zeichen α, das in der Bedingung 1402 gefunden wird, ist ein Schwellenwert des Augengebiets, der verwendet wird, um zu bestimmen, ob das Auge/die Augen geschlossen sind, und zum Beispiel auf "1" gesetzt. Ein Zeichen β ist ein Schwel lenwert einer Änderung in der Augengröße, der verwendet wird, um zu bestimmen, ob sich die Augengröße verändert hat oder nicht, und zum Beispiel auf "5" gesetzt.
  • Mit anderen Worten, der Merkmalsbewegungs-Nachverfolgungsteil 303 nimmt auf die Bedingung 1402 in 14 Bezug und wählt irgendeine Bedingung von Merkmalsbewegungen für Augen, die der i-ten Augenbereichsinformation eye[i], der Veränderung d1_eye[i] im Gebiet des ersten Auges im i-ten Augenbereich und der Veränderung d2_eye[i] im Gebiet des zweiten Auges darin entsprechen. Danach nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Zahl entsprechend der ausgewählten Bedingung von Merkmalsbewegungen für Augen vom Bewegungscode 1401 in 14 auf und bestimmt dann den Merkmalsbewegungscode.
  • Wenn zum Beispiel beide Augen geschlossen sind, wird die Bedingung s1_eye[i] ≤ α, s2_eye[i] ≤ α sein, und der Merkmalsbewegungscode zu diesem Zeitpunkt ist 0.
  • Danach geht die Prozedur nach Schritt 406.
  • Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Blinzeln wird Verarbeitung im Schritt S417 wie folgt verändert.
  • [Schritt S417a]
  • Der Segmentsposition-Bestimmungsteil 304 findet die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
  • Wenn das anwendbare Bewegungsmerkmal "Blinzeln" ist, ist die Segmentierungsposition, die "Blinzeln" entspricht, ein Punkt, an dem der Augenbereich un sichtbar wird. Daher bestimmt der Segmentpositions-Bestimmungsteil 304 eine Rahmennummer, die dem entspricht.
  • Das heißt, dass die Codestartrahmenzahl der zweiten Bestimmungscodedaten Code_data[2] als die Segmentierungsposition bestimmt wird.
  • Dann geht die Prozedur nach Schritt S418.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Blinzeln realisiert werden.
  • Als Nächstes wird das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion einer Änderung der Mundform (Schließen eines Mundes) beschrieben.
  • In diesem Fall wird Schritt S403, der für das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Blinzeln beschrieben wurde, wie folgt geändert.
  • [Schritt S403b]
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6), die im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
  • Wenn irgendeine Veränderung in der Mundform detektiert wird (Schließen eines Mundes), wird das Körpermerkmal auf "Mund" gesetzt, und dann extrahiert der Körpermerkmals-Extraktionsteil 302 den Mund als die extrahierten Körpermerkmale.
  • Hier wird eine Beschreibung gemacht, wie der Mund extrahiert wird.
  • Als Erstes wird der Gesichtsbereich auf ähnliche Weise wie in Schritt S403 extrahiert. Als Zweites wird ein Mund vom extrahierten Gesichtsbereich auf folgende Weise extrahiert.
  • In 12 wird die Oben- und Unten-Trennlinie des Gesichts 1205 wie in Schritt S403 gezeichnet. Dann wird jeder Lochbereich im Gesichtsbereich, der sich unterhalb der Oben- und Unten-Trennlinie des Gesichts 1205 befindet, detektiert.
  • Wenn zwei oder mehr Lochbereiche detektiert werden, wird jeder Lochbereich, dessen Entfernung vom unteren Ende eines Gesichts der Bedingung einer Entfernung zwischen einer Position eines Mundes einer durchschnittlichen Person und dem unteren Ende eines Gesichts am Nächsten kommt als der Mund betrachtet, die ein Parameter ist. In dieser Ausführungsform wird die Bedingung auf "10" gesetzt.
  • Wenn ein Lochbereich detektiert wird, wird der Lochbereich als der Mund betrachtet.
  • Wenn kein Lochbereich detektiert wird, wird der Mund als geschlossen eingeschätzt.
  • Wenn 12 als ein Beispiel genommen wird, gibt es nur einen Lochbereich zwischen der Oben- und Unten-Trennlinie des Gesichts 1205. Daher ist der Lochbereich der Lochbereich, der durch den Mund 1204 gemacht wird.
  • Als Nächstes erzeugt der Körpermerkmals-Extraktionsteil 302 Mundbereichsinformationen. Genauer gesagt, werden ein Gebiet des extrahierten Mundes und eine vertikale Maximallänge davon in der i-ten Mundbereichsinformation mouth[i] gesetzt.
  • 15 ist ein Diagramm, das beispielhafte Mundbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
  • In 15 beinhalten die Mundbereichsinformationen ein Mundgebiet 1501 und eine vertikale Maximallänge davon 1502.
  • Der Körpermerkmals-Extraktionsteil 302 berechnet das Gebiet des extrahierten Mundes und setzt die Berechnung im Mundgebiet 1501. Weiterhin berechnet der Körpermerkmals-Extraktionsteil 302 die vertikale Maximallänge des Mundes und setzt dann die berechnete Länge in der vertikalen Maximalmundlänge 1502.
  • Danach geht die Prozedur nach Schritt S404.
  • Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion einer Veränderung in der Mundform wird die Verarbeitung in Schritt S405 wie folgt abgewandelt.
  • [Schritt S405b]
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet einen Merkmalsbewegungscode für Mund unter Bezugnahme auf die i-ten Mundbereichsinformation mouth[i] und (i – 1)-te Mundbereichsinformation mouth[i – 1]. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Veränderung d_mouth[i] im Gebiet des Mundes im i-ten Mundbereich unter Bezugnahme auf ein Gebiet s_mouth[i] der i-ten Mundbereichsinformation mouth[i] und ein Gebiet s_mouth[i – 1] der (i – 1)-ten Mundbereichsinformation mouth[i – 1] mit <Gleichung 3>. d_mouth[i] = s_mouth[i] – s_mouth[i – 1] <Gleichung 3>
  • Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 4> eine vertikale Änderung y_mouth[i] in der Länge des Mundes im i-ten Mundbereich unter Bezugnahme auf die vertikale Maximallänge h_mouth[i] der i-ten Mundbereichsinformation mouth[i] und eine vertikale Maximallänge h_mouth[i – 1] der (i – 1)-ten Mundbereichsinformation mouth[i – 1]. y_mouth[i] = h_mouth[i] – h_mouth[i –1] <Gleichung 4>
  • 16 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Mund für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • In 16 enthalten die Bedingungen von Merkmalsbewegungen für Mund einen Bewegungscode 1601 und eine Bedingung 1602. Der Bewegungscode 1601 wird auf Zahlen "0" und "1" gesetzt, und die Bedingung 1602 wird auf die Bedingungen von Merkmalsbewegungen für Mund gesetzt, die den entsprechenden Zahlen entspricht, die für den Bewegungscode 1601 gesetzt sind.
  • Ein Zeichen γ, das in der Bedingung 1602 gefunden wird, ist ein Schwellenwert der Änderung im Mundgebiet, der verwendet wird, um zu bestimmen, ob die Form des Mundes sich verändert hat oder nicht, und wird in dieser Ausführungsform zum Beispiel auf "5" gesetzt. Ein Zeichen λ ist ein Schwellenwert der vertikalen Änderung in der Mundlänge und wird zum Beispiel auf "3" gesetzt.
  • Im Detail nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 1302 in 16 Bezug und wählt dann irgendeine Bedingung von Merkmalsbewegungen für Mund, die der Änderung d_mouth[i] im Gebiet des Mundes im i-ten Mundbereich und der vertikalen Maximallänge h_mouth[i] in der Länge des Mundes im i-ten Mundbereich entspricht. Danach nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Zahl auf, die der ausgewählten Bedingung von Merkmalsbewegungen für Mund entspricht, vom Bewegungscode 1601 in 16, und bestimmt dann den Merkmalsbewegungscode.
  • Wenn der Mund zum Beispiel geschlossen ist, ist die Bedingung s_mouth[i] ≤ γ, und der Merkmalsbewegungscode ist zu diesem Zeitpunkt "0".
  • Danach geht die Prozedur nach Schritt S406.
  • Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion einer Veränderung in der Form des Mundes wird die Verarbeitung im Schritt S417 wie folgt abgewandelt.
  • [Schritt S417b]
  • Der Segmentpositions-Bestimmungsteil 304 bestimmt die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
  • Wenn das anwendbare Bewegungsmerkmal "Ändern der Mundform" ist, ist die Segmentposition, die dem entspricht, der Start- und Endpunkt der Änderung. Daher findet der Segmentpositions-Bestimmungspunkt 304 Rahmennummern, die jeweils dem entsprechen.
  • Im Detail gibt der Segmentpositions-Bestimmungsteil 304 sowohl die Codestart-Rahmennummer der zweiten Bestimmungscodedaten Code_data[2] als auch die Codeende-Rahmennummer davon als die Segmentierungsposition aus.
  • Danach geht die Prozedur nach Schritt S418.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion einer Änderung in der Form des Mundes realisiert werden.
  • Im Folgenden wird das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Stoppen von Händen oder Körper beschrieben.
  • In diesem Fall wird die Verarbeitung in Schritt S403, die für das Verfahren von Segmentierung von Zeichensprachengesten mit der Detektion von Blinzeln beschrieben wurde, wie folgt abgewandelt.
  • [Schritt S403c]
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
  • Wenn irgendein Stoppen von Händen oder Körper detektiert wird, wird das Körpermerkmal 601 auf "Handbereich, Körper" gesetzt, und der Körpermerkmals-Extraktionsteil 302 extrahiert den Handbereich und Körper als die extrahierten Körpermerkmale.
  • Hier wird eine Beschreibung gemacht, wie der Handbereich und Körper extrahiert werden.
  • Als Erstes extrahiert der Körpermerkmals-Extraktionsteil 302 den Handbereich auf ähnliche Weise wie in Schritt S403 im oben Beschriebenen. Das heißt, dass der Körpermerkmals-Extraktionsteil 302 den beigen Bereich aus den eingegebenen Bildern extrahiert und dann jeden Teil, der nicht mit dem Kopfbereich überlappt, aus dem extrahierten beigen Bereich herausnimmt und den Teil als den Handbereich betrachtet.
  • Wenn 7 als ein Beispiel genommen wird, wird ein Bereich, der nicht mit dem Kopfbereich überlappt, d.h., der Handbereich 703, aus dem beigen Bereich extrahiert.
  • Was den Körper betrifft, wird der menschliche Körperbereich, der in Schritt S402 extrahiert wurde, als der Körper betrachtet.
  • Als Zweites erzeugt der Körpermerkmals-Extraktionsteil 302 Handbereichsinformationen. Genauer wird die i-te Handbereichsinformation hand[i] auf einen Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Handbereichs gesetzt. Dann wird die i-te Körperinformation body[i] auf einen Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Körpers gesetzt.
  • 17 ist ein Diagramm, das beispielhafte Handbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
  • In 17 enthalten die Handbereichsinformationen die Anzahl an Händen 1701, Schwerpunktkoordinaten der ersten Hand 1702, ein Gebiet der ersten Hand 1703, Schwerpunktkoordinaten der zweiten Hand 1704 und ein Gebiet der zweiten Hand 1705.
  • Der Körpermerkmals-Extraktionsteil 302 setzt als Erstes die Anzahl an extrahierten Händen in der Anzahl an Händen 1701 und setzt dann die Schwerpunktkoordinaten von Hand/Händen und das Gebiet von Hand/Händen gemäß der Anzahl an extrahierten Händen auf die folgende Weise.
  • Wenn die Anzahl an extrahierten Händen 1701 0 ist, werden die Schwerpunktkoordinaten der ersten Hand 1702 und die Schwerpunktkoordinaten der zweiten Hand 1704 beide auf (0, 0) gesetzt und das Gebiet der ersten Hand 1703 und das Gebiet der zweiten Hand 1704 werden beiden auf 0 gesetzt.
  • Wenn die Anzahl an extrahierten Händen 1701 "1" ist, werden die Schwerpunktkoordinaten und das Gebiet des Handbereichs berechnet, um die Berechnungen jeweils in den Schwerpunktkoordinaten der ersten Hand 1702 und dem Gebiet der zweiten Hand 1703 zu setzen. Danach werden die Schwerpunktkoordinaten der zweiten Hand 1704 auf (0, 0) gesetzt und das Gebiet der zweiten Hand 1704 wird auf 0 gesetzt.
  • Wenn die Anzahl an extrahierten Händen 1701 "2" ist, werden die Schwerpunktkoordinaten und das Gebiet des Handbereichs links berechnet, um die Berechnungen jeweils für die Schwerpunktkoordinaten der ersten Hand 1702 und das Gebiet der ersten Hand 1703 zu setzen. Weiterhin werden die Schwerpunktkoordinaten und das Gebiet des Handbereichs rechts berechnet, um die Berechnungen jeweils für die Schwerpunktkoordinaten der zweiten Hand 1704 und das Gebiet der zweiten Hand 1705 zu setzen.
  • Die Körperinformationen body[i] können realisiert werden mit der Struktur in 8, so wie die Gesichtsbereichinformationen face[i].
  • Dann geht die Prozedur nach Schritt S404.
  • Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Stoppen von Händen oder Körper wird die Verarbeitung in Schritt S405 wie folgt abgewandelt.
  • [Schritt S405c]
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 5> findet einen Merkmalsbewegungscode für Handbereich und Körper unter Bezugnahme auf die i-te Handbereichsinformation hand[i], die (i – 1)-te Handbereichsinformation hand[i – 1], die i-te Körperinformation body[i] und die (i – 1)-te Körperinformation body[i – 1]. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g1_hand[i – 1] der ersten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1]. Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Bewegungsmenge m2_hand[i] der zweiten Hand im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g2_hand[i – 1] der zweiten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1].
  • Figure 00600001
  • Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 6> die Änderung d1_hand[i] im Gebiet der ersten Hand im i-ten Handbereich unter Bezugnahme auf das Gebiet s1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] und das Gebiet s1_hand[i – 1] der ersten Hand in der (i – 1)-ten Handbereichsinformation hand[i – 1]. Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 die Änderung d2_hand[i] im Gebiet der zweiten Hand im 1-ten Handbereich unter Bezugnahme auf das Gebiet s2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] und das Gebiet s2_hand[i – 1] der zweiten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1].
  • Figure 00600002
  • Figure 00610001
  • Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 7> eine Bewegungsmenge m_body[i] des i-ten Körpers unter Bezugnahme auf einen Schwerpunkt g_body[i] der i-ten Körperinformation body[i] und einen Schwerpunkt g_body[i – 1] der (i – 1)-ten Körperinformationen body[i – 1].
  • Figure 00610002
  • 18 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Körper- und Handbereich zeigt.
  • In 18 enthalten die Bedingungen von Merkmalsbewegungen für Körper und Handbereich einen Bewegungscode 1801 und eine Bedingung 1802. Der Bewegungscode 1801 wird auf Zahlen "0" und "1" gesetzt, und die Bedingung 1802 wird auf die Bedingungen von Merkmalsbewegungen für Körper und Handbereich gesetzt, die den entsprechenden Nummern entsprechen, die für den Bewegungscode 1801 gesetzt sind.
  • Ein Zeichen χ, das in der Bedingung 1802 gefunden wird, ist ein Schwellenwert, der verwendet wird, um zu bestimmen, ob der Handbereich gestoppt ist oder nicht und wird in dieser Ausführungsform zum Beispiel auf "5" gesetzt. Ein Zeichen δ ist ein Schwellenwert, der verwendet wird, um zu bestimmen, ob die Form des Handbereichs geändert ist, und zum Beispiel auf "10" gesetzt. Ein Zeichen ε ist ein Schwellenwert, der verwendet wird, um zu bestimmen, ob der Körper gestoppt ist oder nicht, und zum Beispiel auf "5" gesetzt.
  • Genauer nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 1802 in 18 Bezug und wählt dann irgendeine Bedingung von Merkmalsbewegungen für den Handbereich und Körper aus, die der Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich entspricht, der Bewegungsmenge m2_hand[i] der zweiten Hand im i-ten Handbereich, der Änderung d1_hand[i] im Gebiet der ersten Hand im i-ten Handbereich, der Änderung d2_hand[i] im Gebiet der zweiten Hand im i-ten Handbereich und der Bewegungsmenge m_body[i] des i-ten Körpers. Danach nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Nummer auf, entsprechend den ausgewählten Bedingungen von Merkmalsbewegungen von Handbereich und Körper, vom Bewegungscode 1801 in 18, und bestimmt dann den Merkmalsbewegungscode.
  • Wenn sich die Hand von links nach rechts oder umgekehrt bewegt, ist die Bedingung für die Bewegungsmenge im i-ten Handbereich m hand[i] > χ, und der Merkmalsbewegungscode ist zu diesem Zeitpunkt "1".
  • Danach geht die Prozedur nach Schritt S406.
  • Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Stoppen von Händen oder Körper wird die Verarbeitung in Schritt 5417 wie folgt abgewandelt.
  • [Schritt S417c]
  • Der Segmentpositions-Bestimmungsteil 304 bestimmt die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
  • Wenn das anwendbare Bewegungsmerkmal "Stoppen" ist, ist die dementsprechende Segmentierungsposition Start- und Endpunkt von Gesten, und somit findet der Segmentpositions-Bestimmungsteil 304 Rahmennummern, die dem jeweils entsprechen.
  • Alternativ dazu kann der Segmentpositions-Bestimmungsteil 304 eine Rahmennummer finden, die einem Zwischenpunkt dazwischen entspricht. In diesem Fall werden zuerst die Coderahmennummer der ersten Bestimmungscodedaten Code_data[1] und die Codeende-Rahmennummer davon bestimmt, und dann wird ein Zwischenwert davon berechnet.
  • Danach geht die Prozedur nach Schritt S418.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Stoppen von Händen oder Körper realisiert werden.
  • Als Nächstes wird das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Geste des Berührens des Gesichts mit Hand/Händen beschrieben.
  • In diesem Fall wird Schritt S403, der für das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Nicken (siehe 4) beschrieben wurde, wie folgt abgewandelt.
  • [Schritt S403d]
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
  • Um die Geste des Berührens des Gesichts mit Hand/Händen zu detektieren, wird das Körpermerkmal mit "Gesichtsbereich, Handbereich" gesetzt, und der Ge sichtsbereich und Handbereich werden als die extrahierten Körpermerkmale extrahiert.
  • Hier wird eine Beschreibung gemacht, wie der Gesichtsbereich und Handbereich extrahiert werden.
  • Als Erstes wird der Gesichtsbereich auf ähnliche Weise wie in Schritt S403 extrahiert und der Handbereich wird auf ähnliche Weise wie in Schritt S403c extrahiert.
  • Als Nächstes wird die i-te Gesichtsbereichsinformation face[i] für einen Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Gesichtsbereichs gesetzt. Weiterhin wird die i-te Handbereichsinformation hand[i] für einen Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Handbereichs gesetzt.
  • Danach geht das Verfahren nach Schritt S404.
  • Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Geste des Berührens des Gesichts mit Hand/Händen wird die Verarbeitung in Schritt S405 wie folgt abgewandelt.
  • [Schritt S405d]
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 8> findet einen Merkmalsbewegungscode für den Handbereich und Gesichtsbereich unter Bezugnahme auf die i-te Handbereichsinformation hand[i] und die i-te Gesichtsbereichsinformation face[i]. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Entfernung l1_fh[i] zwischen der ersten Hand und Gesicht im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand und die i-te Handbereichsinformation hand[i] und den Schwer- Punkt g_face[i] der i-ten Gesichtsbereichsinformation face[i]. Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Entfernung l2_fh[i] zwischen der zweiten Hand und Gesicht im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g_face[i – 1] der i-ten Gesichtsbereichsinformation face[i].
  • Figure 00650001
  • Man beachte, dass, wenn das Gebiet s1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] 0 ist, l1_fh[i] = 0, wenn l1_fh[i – 1] ≤ Φ. l1_fh[i] = 1000, wenn l1_fh[l – 1] > Φ.
  • Ähnlich ist, wenn das Gebiet s2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] 0, l2_fh[i] = 0, wenn l2_fh[i – 1] ≤ Φ. l1_fh[i] = 1000, wenn l2fh[i] > Φ. Hier steht Φ für einen Schwellenwert der Entfernung zwischen Hand/Händen und Gesicht, und wird in dieser Ausführungsform zum Beispiel auf "20" gesetzt.
  • 19 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Hand/Händen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen
  • In 19 enthalten die Bedingungen von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Hand/Händen einen Bewegungscode 1901 und eine Bedingung 1902. Der Bewegungscode 1901 wird mit Zahlen "0" und "1" gesetzt, und die Bedingung 1902 wird mit den Bedingungen von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Hand/Händen entsprechend den entsprechenden Nummern gesetzt, die für den Bewegungscode 1901 gesetzt sind.
  • Ein Zeichen ω, das in der Bedingung 1902 gefunden wird, ist ein Schwellenwert des Berührens des Gesichtsbereichs mit Handbereich und in dieser Ausführungsform zum Beispiel auf "5" gesetzt.
  • Genauer gesagt, nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 1902 in 19 Bezug und wählt dann irgendeine Bedingung der Merkmalsbewegungen, die der Entfernung l1_fh[i] zwischen der ersten Hand und Gesicht im i-ten Handbereich entspricht, und der Entfernung l2_fh[i] zwischen der zweiten Hand und Gesicht im i-ten Gesichtsbereich l2_fh[i]. Dann nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Nummer auf, die der ausgewählten Bedingung von Merkmalsbewegungen entspricht, vom Bewegungscode 1901 in 19, und bestimmt dann den Merkmalsbewegungscode.
  • Wenn die rechte Hand zum Beispiel das Gesicht überlagert, wird die Entfernung l1_fh[i] zwischen der ersten Hand und dem Gesicht im i-ten Handbereich 0 sein, und der Merkmalsbewegungscode ist "0" zu diesem Zeitpunkt.
  • Danach geht die Prozedur nach Schritt S406.
  • Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Geste des Berührens des Gesichts mit Hand/Händen wird die Verarbeitung in Schritt S417 wie folgt abgewandelt.
  • [Schritt S417d]
  • Der Segmentpositions-Bestimmungsteil 304 bestimmt die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
  • Wenn das anwendbare Bewegungsmerkmal "Geste des Berührens des Gesichts mit Hand/Händen" ist, ist die dementsprechende Segmentierungsposition "Startpunkt und Endpunkt des Berührens". Daher findet der Segmentpositions-Bestimmungsteil 304 Rahmennummern, die jeweils sowohl dem Startpunkt als auch dem Endpunkt für die Geste des Berührens des Gesichts mit Hand/Händen entsprechen.
  • Im Detail werden sowohl die Coderahmenstartnummer der ersten Bestimmungscodedaten Code_data[1] und die Codeende-Rahmennummer davon als die Segmentierungsposition betrachtet.
  • Danach kehrt die Prozedur nach Schritt S401 zurück.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Geste des Berührens des Gesichts mit Hand/Händen realisiert werden.
  • Als Nächstes wird eine Beschreibung gemacht, wie die Änderung in der Effektivität von Händen detektiert wird.
  • In diesem Fall wird das Verarbeiten in Schritt S403, der für das Verfahren zum Segmentieren von Handzeichengesten mit der Detektion von Nicken beschrieben wurde, wie folgt abgewandelt.
  • [Schritt S403e]
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
  • Um die Änderung in der Effektivität von Händen zu detektieren, wird das Körpermerkmal 601 auf "Handbereich" gesetzt, und der Köperbereichs-Extraktionsteil 302 extrahiert den Handbereich als die extrahierten Körpermerkmale.
  • Man beachte, dass der Handbereich auf ähnliche Weise wie in Schritt S403c extrahiert wird.
  • Dann setzt der Körpermerkmals-Extraktionsteil 302 die i-te Handbereichsinformation hand[i] mit dem Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Handbereichs.
  • Danach schreitet die Prozedur nach Schritt S404 voran.
  • Im Verfahren zum Segmentieren von Zeichensprachengeste mit der Detektion der Änderung in der Effektivität von Händen wird das Verarbeiten in Schritt S405 wie folgt abgewandelt.
  • [Schritt S405e]
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet mit der oben erwähnten <Gleichung 5> einen Merkmalsbewegungscode für die Effektivität und Bewegungen von Händen unter Bezugnahme auf die i-te Handbereichsinformation hand[i].
  • Weiterhin bestimmt der Merkmalsbewegungs-Nachverfolgungsteil 303, zu welchem Bereich unter den mehreren Bereichen, die durch die räumliche Segmentierung in Schritt S402 (siehe 5) erhalten wurde, die erste Hand gehört, unter Bezugnahme auf den Schwerpunkt g_1hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i], findet den Gebietscode davon und setzt denselben in einem Handbereichsraumcode sp1_hand[i] der ersten Hand. Man beachte, dass, wenn das Gebiet s1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] 0 ist, der Handbereichraumcode sp1_hand[i] der ersten Hand auf "6" gesetzt wird.
  • Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 den Bewegungscode unter Bezugnahme auf den Schwerpunkt g2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i], um diesen im Handbereichsraumcode sp2_hand[i] der zweiten Hand zu setzen. Wenn das Gebiet s2_hand[i] der zweiten Hand der i-ten Handbereichsinformation 0 ist, wird der Handbereichsraumcode sp2_hand[i] der zweiten Hand auf "6" gesetzt.
  • Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 die Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g1_hand[i – 1] der ersten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1].
  • Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 die Bewegungsmenge m2_hand[i] der zweiten Hand im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g2_hand[i – 1] der zweiten Hand der (i – 1)-ten Handbereichsinformation hand[i].
  • 20 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für die Änderung in der Effektivität von Händen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
  • In 20 enthalten die Bedingungen von Merkmalsbewegungen für die Änderung in der Effektivität von Händen einen Bewegungscode 2001 und eine Bedingung 2002. Der Bewegungscode 2001 wird auf die Zahlen "0" bis "5" gesetzt, und die Bedingung 2002 wird auf Bedingungen von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Händen gesetzt, die den entsprechenden Nummern entsprechen, die für den Bewegungscode 2001 gesetzt sind.
  • Ein Zeichen χ, das in der Bedingung 2002 gefunden wird, ist ein Schwellenwert, der verwendet wird, um zu bestimmen, ob der Handbereich gestoppt ist oder nicht, und wird in dieser Ausführungsform zum Beispiel auf "5" gesetzt.
  • Im Detail nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 2002 in 20 Bezug und wählt dann irgendeine Bedingung von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Hand/Händen aus, die dem Handbereichsraumcode sp1_hand[i] der ersten Hand im i-ten Handbereich, der Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich, dem Handbereichsraumcode sp2_hand[i] der zweiten Hand im i-ten Handbereich und der Bewegungsmenge m2_hand[i] der zweiten Hand im i-ten Handbereich entspricht.
  • Wenn sich die rechte Hand bewegt und die linke Hand wird auf die niedrigste Position des eingegebenen Bildes 501 (siehe 5) abgesenkt, ist die Bedingung der Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich m1_hand[i] > χ, der Handbereichsraumcode sp2_hand[i] der zweiten Hand im i-ten Handbereich ist 7 und der Merkmalsbewegungscode ist zu diesem Zeitpunkt ist "2".
  • Danach geht die Prozedur nach Schritt S406.
  • Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Änderung in der Effektivität von Händen wird das Verarbeiten in Schritt S417 wie folgt abgewandelt.
  • [Schritt S417e]
  • Der Segmentpositions-Bestimmungsteil 304 findet die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
  • Wenn das anwendbare Bewegungsmerkmal "Punkt, an dem sich die Effektivität von Händen ändert" ist, ist die dementsprechende Segmentierungsposition "Änderungspunkt von Code", und der Segmentpositions-Bestimmungsteil 304 findet somit eine dementsprechende Rahmennummer.
  • Genauer gesagt, werden die Codestart-Rahmennummer der ersten Bestimmungscodedaten Code_data[1] und die Codeende-Rahmennummer davon als die Segmentierungsposition betrachtet.
  • Danach geht die Prozedur nach Schritt S418.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengeste realisiert werden mit der Detektion der Änderung in der Effektivität von Händen.
  • Nachfolgend wird das Verfahren zum Segmentieren von Zeichensprachengeste mit der kombinierten Detektion der oben erwähnten Gesten beschrieben.
  • In diesem Verfahren wird die Verarbeitung in Schritt S403, die für das Verfahren zum Segmentieren von Zeichensprachengeste mit der Detektion von Nicken (siehe 4) beschrieben wurde, wie folgt abgewandelt.
  • [Schritt S403f]
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
  • Um die entsprechenden Gesten im oben Beschriebenen zu detektieren, wird das Körpermerkmal 601 auf "Gesichtsbereich", "Augen", "Mund", "Handbereich, Körper", "Handbereich, Gesichtsbereich" und "Handbereich" gesetzt, und der Körpermerkmals-Extraktionsteil 302 extrahiert den Gesichtsbereich, Augen, Mund und Handbereich und Körper als die extrahierten Körpermerkmale.
  • Man beachte, dass der Gesichtsbereich auf ähnliche Weise wie in Schritt S403 extrahiert wird. Die Augen werden auf ähnliche Weise wie in Schritt S403a extrahiert. Der Mund wird auf ähnliche Weise wie in Schritt S403b extrahiert. Der Handbereich und Körper werden auf ähnliche Weise wie in Schritt S403c extrahiert.
  • Als Nächstes setzt der Körpermerkmals-Extraktionsteil 302 Informationen, die für den extrahierten Gesichtsbereich, die Augen, den Mund bzw. den Handbereich und Körper relevant sind, auf die Gesichtsbereichsinformationen face[i], die Augenbereichsinformationen eye[i], die Mundbereichsinformationen mouth[i], die Handbereichsinformationen hand[i] und die Körperinformationen body[i].
  • Danach geht das Verfahren nach Schritt S404.
  • Die Vorrichtung zur Segmentierung von Zeichensprachengeste führt dann Verarbeitung in Schritten S405 bis S417 durch, und danach in Schritten S405b bis S417b. Danach führt die Vorrichtung zur Segmentierung von Zeichensprachengeste nacheinander Verarbeitung in den Schritten S405c bis S417c, Schritten S405d bis S417d und S405e bis S417d durch.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengeste mit der kombinierten Detektion der oben erwähnten Gesten realisiert werden.
  • Als Nächstes wird das Verfahren zum Segmentieren von Zeichensprachengeste beschrieben, in dem jede Dauer von detektierten Gesten vor dem Segmentieren betrachtet wird.
  • 21 ist ein Flussdiagramm, das im Verfahren zum Segmentieren von Zeichensprachengeste mit der Detektion von Nicken (siehe 4) darstellt, wie die Segmentierung gemacht wird, während jede Dauer der detektierten Gesten berücksichtigt wird.
  • Das in 21 gezeigte Verfahren ist ähnlich dem Verfahren in 4, außer, dass Schritt S411 auf folgende Weise abgewandelt wird, und Schritt S2101 zusätzlich zur Verfügung gestellt wird.
  • [Schritt S411a]
  • Als Erstes wird bestimmt, ob die Anzahl an Codes, die im Bestimmungscode 1002 enthalten sind, j oder mehr ist. Wenn ja, geht die Prozedur nach Schritt S412.
  • Wenn die Anzahl (j – 1) ist, schreitet die Prozedur nach Schritt S2101 voran.
  • [Schritt S2101]
  • Als Erstes wird die Anzahl an Rahmen, die im Bereich zwischen der Codestartnummer der ersten Bestimmungscodedaten Code_data[1] und der Codeende-Rahmennummer der (j – 1)-ten Bestimmungscodedaten Code_data[j – 1] in einer Merkmalsdauer anwendbar ist, gesetzt.
  • Dann wird bestimmt, ob irgendein Wert, der in der Zeit 1003 gesetzt ist, im Bewegungsmerkmalsparameter (siehe 10) gesetzt ist oder nicht, und danach wird bestimmt, ob die Merkmalsdauer kleiner als der auf Zeit 1003 gesetzte Wert ist.
  • Wenn die Zeit 1003 auf irgendeinen Wert gesetzt ist, und wenn die Merkmalsdauer kleiner als der für die Zeit 1003 gesetzte Wert ist, geht die Prozedur nach Schritt S417.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengeste, in dem jede Dauer der detektierten Gesten berücksichtigt wird, realisiert werden.
  • Im Folgenden wird das Verfahren zum Segmentieren von Zeichensprachengeste, in dem ein Nichtsegmentelement detektiert wird, sowie ein Segmentelement, beschrieben.
  • (Dritte Ausführungsform)
  • 22 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentierung von Zeichensprachengeste gemäß einer dritten Ausführungsform der vorliegenden Erfindung zeigt.
  • Die Vorrichtung in 22 ist zusätzlich mit einem Nichtsegment-Elementspeicherteil 2201 ausgestattet, im Vergleich zur Vorrichtung in 3.
  • Der Nichtsegment-Elementspeicherteil 2201 enthält ein vorher gespeichertes Nichtsegmentelement, das eine Bedingung von Nichtsegmentierung ist. Andere Bestandteile in dieser Vorrichtung sind identisch zu denen, die in der Vorrichtung in 3 enthalten sind.
  • Genauer führt die Vorrichtung in 22 so ein Verfahren zum Segmentieren von Zeichensprachengeste aus, dass das Nichtsegmentelement sowie das Segmentelement detektiert werden, und die Zeichensprachengesten werden in Übereinstimmung damit segmentiert.
  • Nachfolgend wird eine Beschreibung gemacht, wie die Vorrichtung zur Segmentierung von Zeichensprachengeste, die auf die oben erwähnte Weise aufgebaut ist, betrieben wird, um Verarbeitung auszuführen.
  • Als Erstes wird eine Beschreibung gemacht in einem Fall, in dem eine Geste, in der Hände einander nähergebracht werden als das Nichtsegmentelement detektiert wird.
  • 23 und 24 sind Flussdiagramme, die beispielhaft illustrieren, wie die Vorrichtung zur Segmentierung von Zeichensprachengeste in 22 betrieben wird, um Verarbeitung auszuführen.
  • Die in den 23 und 24 dargestellten Verfahren sind ähnlich dem Verfahren in 21, außer dass Schritt S2401 zu Schritt S403 hinzugefügt wird, Schritte S2402 bis S2405 werden Schritt S405 hinzugefügt und Schritt S418 wird auf eine ähnliche Weise nach Schritt S418a abgewandelt.
  • Diese Schritte (S2401 bis s2405 und S418a) werden jeweils unten im Detail beschrieben.
  • [Schritt S2401]
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die den Körpermerkmalen entsprechen, die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind, aus den eingegebenen Bildern.
  • 25 ist ein Diagramm, das beispielhafte Nichtsegmentelementdaten zeigt, die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind.
  • In 25 enthalten die Nichtsegment-Elementdaten ein Körpermerkmal 2501 und ein Nichtsegment-Bewegungsmerkmal 2502.
  • Um zum Beispiel die Geste, in der Hände näher gebracht werden zu detektieren, wird "Handbereich" vorher für das Körpermerkmal 2501 gesetzt.
  • Der Körpermerkmals-Extraktionsteil 302 extrahiert den Handbereich als die Nichtsegment-Körpermerkmale. Der Handbereich kann extrahiert werden, indem der Prozedur in Schritt S403c gefolgt wird.
  • Danach geht die Prozedur nach Schritt S404.
  • [Schritt S2402]
  • Ein Nichtsegment-Merkmalsbewegungscode wird in der folgenden Prozedur bestimmt.
  • Wenn die Anzahl an Händen der i-ten Handbereichsinformationen hand[i] 2 ist, findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 9> eine Entfernung l_hand[i] zwischen Händen im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] und des Schwerpunkts g2_hand[i] der zweiten Hand davon.
  • Figure 00770001
  • Dann findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 10> eine Änderung d1_hand[i] in der Entfernung zwischen Händen unter Bezugnahme auf die Entfernung l_hand[i] zwischen Händen im i-ten Handbereich und der Entfernung l_hand[i – 1] zwischen Händen im (i – 1)-ten Handbereich. d_hand[i] = l_hand[i] – l_hand[i – 1] <Gleichung 10>
  • Wenn die Anzahl an Händen der i-ten Handbereichsinformation hand[i] nicht 2 ist oder wenn die Anzahl an Händen der i-ten Handbereichsinformation hand[i] und die Anzahl an Händen der (i – 1)-ten Handbereichsinformation hand[i – 1] nicht die gleiche ist, setzt der Merkmalsbewegungs-Nachverfolgungsteil 303 die Änderung d1_hand[i] in der Entfernung zwischen Händen auf irgendeinen nicht negativen Wert, zum Beispiel 1000.
  • Wenn die Änderung d1_hand[i] in der Entfernung zwischen Händen d1_hand[i] ≤ –θ ist, ist der Nichtsegment-Merkmalsbewegungscode "1". Wenn die Änderung d1_hand[i] in der Entfernung zwischen Händen d1_hand[i] > –θ ist, ist der Nichtsegment-Merkmalsbewegungscode "0". θ steht hier für einen Schwellenwert der Veränderung in der Entfernung zwischen Händen und wird in dieser Ausführungsform zum Beispiel auf "5" gesetzt.
  • Wenn eine Nichtsegment-Codenummer k keinen Wert gesetzt hat, wird der Nichtsegmentcode k auf "1" gesetzt und die Nummer der Nichtsegment-Merkmalsrahmen wird auf "0" gesetzt.
  • In diesem Beispiel bezeichnet die Nichtsegment-Codenummer k die Anzahl an Codes, die die Nichtsegment-Merkmalsbewegungscodes binden, und die Anzahl der Nichtsegment-Merkmalsrahmen bezeichnet die Anzahl an Rahmen, die der Dauer der Detektion des Nichtsegment-Bewegungsmerkmals entsprechen, d.h., die Anzahl an Rahmen im Bereich zwischen dem Rahmen, an dem die Detektion begonnen wurde und dem Rahmen, an dem die Detektion endete.
  • Danach geht die Prozedur nach Schritt S3003.
  • [Schritt S2403]
  • Der Segmentpositions-Bestimmungsteil 304 nimmt auf die Nichtsegment-Elementdaten Bezug (siehe 25), die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind, und überprüft, ob der Nichtsegment-Merkmalsbewegungscode mit dem Nichtsegment-Bewegungsmerkmal 2502 übereinstimmt oder nicht. Das Nichtsegment-Bewegungsmerkmal 2502 wird mit einem Parameter (Nichtsegment-Bewegungsmerkmalsparameter) gesetzt, der das Bewegungsmerkmal anzeigt, um Nichtsegmentierung zu bestätigen (Nichtsegment-Bewegungsmerkmal).
  • 26 ist ein Diagramm, das beispielhaft Nichtsegment-Bewegungsmerkmalsparameter zeigt, die im Nichtsegment-Bewegungsmerkmal 2502 zu setzen sind.
  • In 26 enthalten die Nichtsegment-Bewegungsmerkmalsparameter ein Nichtsegment-Bewegungselement 2601, einen Bestimmungscode 2602 und die Zeit 2603. Das Nichtsegment-Bewegungsmerkmal 2601 zeigt einen Typ der Nichtsegment-Bewegungsmerkmale an. Der Bestimmungscode 2602 ist eine Codeket te, die als eine Bedingung verwendet wird, um die Nichtsegment-Bewegungsmerkmale zu bestimmen. Die Zeit 2603 ist eine Zeit, die als eine Bedingung verwendet wird, um die Nichtsegment-Bewegungsmerkmale zu bestimmen.
  • Der Bestimmungscode 2602 wird auf ähnliche Weise wie der Bestimmungscode 1002 beschrieben, der im Bewegungsmerkmalsparameter in 10 enthalten ist. Die Zeit 2603 wird auf eine Minimaldauer für das Nichtsegment-Bewegungsmerkmal 2601 gesetzt.
  • Wenn der Bestimmungscode 2602 gegenüber dem k-ten Code des Nichtsegment-Merkmalsbewegungscodes, der in Schritt S2402 bestimmt wurde, unterschiedlich ist, d.h., dem letzten Code, der den Nichtsegment-Bewegungsmerkmalscode bildet, geht die Prozedur nach Schritt S2404.
  • Wenn er identisch ist, geht die Prozedur nach Schritt S2405.
  • [Schritt S2404]
  • Als Erstes wird die Anzahl an Nichtsegment-Merkmalsrahmen auf "0" gesetzt und dann wird die Nichtsegment-Codenummer k auf "1" gesetzt.
  • Danach schreitet die Prozedur nach Schritt S406 fort.
  • [Schritt S2405]
  • Die Anzahl an Nichtsegment-Merkmalsrahmen wird um "1" inkrementiert.
  • Wenn k > 2 und wenn der (k – 1)-te Code der Bedingung für Nichtsegment-Bestimmungscodekette sich vom Nichtsegment-Merkmalsbewegungscode unterscheidet, wird k um "1" inkrementiert.
  • Danach geht die Prozedur nach Schritt S406.
  • [Schritt S418a]
  • Wenn die Zeit 2603, die im Nichtsegment-Merkmalsbewegungsparameter enthalten ist (siehe 26) nicht auf irgendeinen Wert gesetzt ist, wird ein Minimalwert für die Nichtsegmentzeit auf 0 gesetzt.
  • Wenn die Zeit 2603 auf irgendeinen Wert gesetzt ist, wird der Minimalwert für die Nichtsegmentzeit auf den Wert der Zeit 2603 gesetzt. Wenn die Anzahl an Nichtsegment-Merkmalsrahmen kleiner als die Anzahl an Rahmen ist, die zum Minimalwert für die Nichtsegmentzeit äquivalent sind, wird die in Schritt S417 gesetzte Segmentierungsposition ausgegeben.
  • Danach kehrt die Prozedur nach Schritt S401 zurück.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengeste, in dem sowohl das Nichtsegmentelement (Hände einander näher Bringen) als auch das Segmentelement detektiert wird, und die Zeichensprachengeste in Übereinstimmung damit segmentiert wird, realisiert werden.
  • Als Nächstes wird eine Beschreibung in einem Fall gemacht, in dem Ändern der Mundform als das Nichtsegmentelement detektiert wird.
  • In diesem Fall wird die Verarbeitung in Schritt S2401 wie folgt abgeändert.
  • [Schritt S2401a]
  • Der Körpermerkmal-Extraktionsteil 302 extrahiert Bilder, die den Körpermerkmalen entsprechen, die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind, aus den eingegebenen Bildern.
  • Wenn in 25 irgendeine Veränderung in der Form des Mundes detektiert wird, wird "Mund" vorher mit dem Körpermerkmal 2501 gesetzt. Der Körpermerkmal-Extraktionsteil 302 extrahiert den Mund als Nichtsegment-Körpermerkmal. Der Mund kann auf ähnliche Weise wie Schritt S403b extrahiert werden.
  • Danach geht die Prozedur nach Schritt S404.
  • Weiterhin wird die Verarbeitung in Schritt S2402 auch wie folgt abgewandelt.
  • [Schritt S2402a]
  • Der Nichtsegment-Merkmalsbewegungscode wird bestimmt, indem der nächsten Prozedur gefolgt wird.
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet als Erstes auf ähnliche Weise wie Schritt S405b die Veränderung d_mouth[i] im Gebiet des Mundbereichs der i-ten Mundbereichsinformation, und die vertikale Veränderung y_mouth[i] in der Länge des Mundes der i-ten Mundbereichsinformation.
  • Dann nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 1602 in 16 Bezug und wählt irgendeine Bedingung von Merkmalsbewegungen für Mund aus, die der Änderung d_mouth[i] im Gebiet des Mundbereichs der i-ten Mundbereichsinformation und der vertikalen Änderung y_mouth[i] in der Länge des Mundes der i-ten Mundbereichsinformation entspricht. Dann nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Zahl auf, die der ausgewählten Bedingung von Merkmalsbewegungen für Mund ent spricht, aus dem Merkmalscode 1601 in 16, und bestimmt dann den Nichtsegment-Merkmalsbewegungscode.
  • Wenn sich der Mund nicht bewegt, wird zum Beispiel keine Veränderung im Gebiet und der vertikalen Maximallänge des Mundes beobachtet. Zu diesem Zeitpunkt ist der Nichtsegment-Merkmalsbewegungscode "0".
  • Wenn die Nichtsegment-Codenummer k keinen Wert gesetzt hat, wird die Nichtsegment-Codenummer k auf "1" gesetzt, und die Anzahl an Nichtsegment-Merkmalsrahmen wird auf "0" gesetzt.
  • Danach geht die Prozedur nach Schritt S2403.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten gemäß den Detektionsergebnissen des Nichtsegmentelements (Ändern der Mundform) sowie des Segmentelements realisiert werden.
  • Als Nächstes wird eine Beschreibung eines Falls gemacht, in dem Symmetrie von Handgesten als das Nichtsegmentelement detektiert wird.
  • In diesem Fall wird die Verarbeitung in Schritt S2402 wie folgt abgewandelt.
  • [Schritt S2402b]
  • Der Nichtsegment-Merkmalsbewegungscode wird durch die folgende nächste Prozedur bestimmt.
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 bestimmt als Erstes, ob die Anzahl an Händen in der i-ten Handbereichsinformation hand[i] 1 oder kleiner ist oder nicht. Wenn die Anzahl kleiner als 1 ist, wird der Nichtsegment- Merkmalsbewegungscode auf 0 gesetzt. Danach geht die Prozedur nach Schritt S2403.
  • Wenn die Anzahl an Händen in der i-ten Handbereichsinformation hand[i] 2 ist, findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 11> einen Bewegungsvektor vh[1][i] der ersten Hand im i-ten Handbereich und einen Bewegungsvektor vh[2][i] der zweiten Hand darin, unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i], den Schwerpunkt g2_hand[i] der zweiten Hand davon, den Schwerpunkt g1_hand[i – 1] der ersten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1] und den Schwerpunkt g2_hand[i – 1] der zweiten Hand davon.
  • Figure 00830001
  • Als Nächstes findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 12> die Bewegungsmenge dvh[1][i] der ersten Hand im i-ten Handbereich, und die Bewegungsmenge dvh[2][i] der zweiten Hand im i-ten Handbereich.
  • Figure 00830002
  • 27 zeigt Bedingungen von Nichtsegment-Merkmalsbewegungen für die Symmetrie von Zeichensprachengesten für den Merkmalsbewegungs- Nachverfolgungsteil 303, um den Nichtsegment-Merkmalsbewegungscode zu bestimmen.
  • In 27 enthalten die Bedingungen der Nichtsegment-Merkmalsbewegungen für die Symmetrie von Zeichensprachengesten einen Bewegungscode 2701 und eine Bedingung 2702. Der Bewegungscode 2701 wird auf Zahlen von "0" bis "8" gesetzt und die Bedingung 2702 wird auf die Bedingungen von Nichtsegment-Merkmalsbewegungen für die Symmetrie von Zeichensprachengesten gesetzt, die den entsprechenden Zahlen entsprechen, die im Bewegungscode 2701 gesetzt sind.
  • Danach findet der Merkmalsbewegungs-Nachverfolgungsteil 303 einen Bewegungscode Ch[1][i] der ersten Hand im i-ten Handbereich, und einen Bewegungscode Ch[2][i] der zweiten Hand darin, unter Bezugnahme auf die Bedingungen der Nichtsegment-Merkmalsbewegungen für Symmetrie von Zeichensprachengesten in 27.
  • Wenn die Anzahl an Nichtsegment-Merkmalsrahmen 0 ist, wird ein Startpunkt Psh[1] der ersten Nichtsegmentbedingung auf den Schwerpunkt g1_hand[i – 1] der ersten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1] gesetzt, und ein Startpunkt Psh[2] der zweiten Nichtsegmentbedingung wird auf den Schwerpunkt g2_hand[i – 1] der zweiten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1] gesetzt.
  • Hier enthält der Nichtsegment-Elementspeicherteil 2201 vorher gespeicherte Bedingungen von Nichtsegmentcodes für Symmetrie von Zeichensprachengesten.
  • 28 ist ein Diagramm, das beispielhaft Bedingungen von Nichtsegmentcodes für Symmetrie von Zeichensprachengesten zeigt, die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind.
  • Für die Bedingungen für Nichtsegmentcodes in 28 wird Symmetrie, die in irgendeiner Geste (Zeichensprachengeste) beobachtet wird, die für die Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt) erkennbar ist, als Bedingungen gesetzt, die durch Zahlen 1 bis 10 gekennzeichnet werden.
  • Für die Zeichensprachengesten bewegen sich zum Beispiel die Hände oft symmetrisch zueinander im Verhältnis zu einer zum Körper vertikalen oder horizontalen Oberfläche. Es sollte bemerkt werden, dass solche Bedingungen in bedeutungslosen Handgesten gesetzt werden können, die für die Vorrichtung erkennbar sind.
  • Der Segmentpositions-Bestimmungsteil 304 nimmt dann auf den Startpunkt Psh[1] = (Xps1, Yps1) der ersten Nichtsegmentbedingung Bezug, den Startpunkt Psh[2] = (Xps2, Yps2) der zweiten Segmentbedingung, den Bewegungscode Ch[1][i] der ersten Hand im i-ten Handbereich, und den Bewegungscode Ch[2][i] der zweiten Hand im i-ten Handbereich, und bestimmt dann, ob die Merkmalsbewegungscodes für die Symmetrie von Zeichensprachengesten (d.h., der Bewegungscode Ch[1][i] der ersten Hand im i-ten Handbereich und der Bewegungscode Ch[2][i] der zweiten Hand im i-ten Handbereich) mit den Bedingungen in 28 (irgendeine Bedingung aus den Nummern 1 bis 10) übereinstimmt oder nicht. Wenn Ja, wird der Nichtsegment-Merkmalscode auf 1 gesetzt. Wenn Nein, wird der Nichtsegment-Merkmalscode auf 0 gesetzt.
  • Danach geht die Prozedur nach Schritt S2403.
  • Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten, in dem das Nichtsegmentelement (Symmetrie von Handgesten) detektiert wird, sowie das Segmentelement, und die Zeichensprachengesten in Übereinstimmung damit segmentiert werden, realisiert werden.
  • Im obigen Segmentierungsverfahren werden die Gesten des Zeichners jedoch zweidimensional erfasst, um die Symmetrie seiner/ihrer Handgesten zu detektie ren. Dementsprechend ist in diesem Verfahren die detektierbare Symmetrie auf zweidimensional beschränkt.
  • Im Folgenden wird daher eine Beschreibung für ein Verfahren gegeben werden, in dem die Gesten des Zeichners stereoskopisch erfasst werden, um dreidimensionale Symmetrie seiner/ihrer Handgesten zu detektieren.
  • In 22 enthält der Bildeingabeteil 301 zwei Kameras und gibt dreidimensionale Bilder ein. Auf diese Weise können die Gesten des Zeichners stereoskopisch erfasst werden.
  • In diesem Fall wird die Vorrichtung in 22 auch auf ähnliche Weise wie in den 23 und 24 betrieben, außer, dass die folgenden Punkte abgeändert werden.
  • Im Detail extrahiert in Schritt S403 in 23 der Körpermerkmals-Extraktionsteil 302 Bilder der Körpermerkmale, d.h. des Handbereichs in diesem Beispiel, aus den eingegebenen 3D-Bildern von den zwei Kameras.
  • Um den Handbereich von den 3D-Bildern zu extrahieren, kann der beige Bereich gemäß den RGB-Farbinformationen detektiert werden, wie es in einem Fall gemacht wird, in dem der Handbereich aus 2D-Bildern extrahiert wird. In diesem Fall jedoch werden RGB-Farbinformationen für jedes Pixel, das die 3D-Bilder bildet, als eine Funktion von 3D-Koordinaten in den RGB-Farbinformationen beschrieben.
  • Alternativ kann das Verfahren verwendet werden, das in "Face Detection from Color Images by Fuzzy Pattern Matching" (Gesichtserkennung aus Farbbildern durch unscharfes Musterabbilden) (geschrieben von Wu, Chen und Yachida; Artikel veröffentlicht durch The Electronic Information Communications Society, D-II Band J80-D-II Nr. 7, S. 1774 bis 1785, 1997. 7) beschrieben wird.
  • Nachdem der Handbereich detektiert wurde, findet der Körpermerkmals-Extraktionsteil 302 3D-Koordinaten h[1][i] der ersten Hand im i-ten Handbereich und 3D-Koordinaten h[2][i] der zweiten Hand im i-ten Handbereich.
  • Um 3D-Koordinaten des Handbereichs zu erhalten, der von den 3D-Bildern extrahiert wurde, die von den zwei Kameras eingegeben wurden, kann eine Parallaxe verwendet werden, die zwischen den 2D-Bildern von einer Kamera und den 2D-Bildern von der anderen Kamera erzeugt wird.
  • Weiterhin wird das Verarbeiten in Schritt S2402b wie folgt abgewandelt.
  • [Schritt S2402c]
  • Die Verarbeitung in diesem Schritt ist ähnlich dem Schritt S2402b. Hier werden Informationen über den Handbereich, der von den Bildern berechnet wird, die von einer der Kameras eingegeben wurden, zum Beispiel die Kamera links, verwendet.
  • Man beachte, dass der Merkmalsbewegungs-Nachverfolgungsteil 303 einen 3D-Vektor vth[1][i] der ersten Hand im i-ten Handbereich und einen 3D-Vektor vth[2][i] der zweiten Hand darin mit <Gleichung 13> findet.
  • Figure 00870001
  • Wenn die Anzahl an Nichtsegment-Merkmalsrahmen kleiner als 3 ist, geht die Prozedur nach Schritt S2403.
  • Auf diese Weise kann die dreidimensionale Symmetrie von Handgesten detektiert werden.
  • Als Nächstes wird eine Beschreibung gemacht, wie die Veränderung in Symmetrie von Handgesten im oben erwähnten Verfahren zum Segmentieren von Zeichensprachengesten gemäß Detektionsergebnissen des Nichtsegmentelements (Symmetrie von Handgesten) sowie des Segmentelements detektiert wird.
  • Jede Veränderung in der Symmetrie von Handgesten kann detektiert werden, indem jede Veränderung, die in einer Gestenebene beobachtet wird, erfasst wird. Hier bedeutet die Gestenebene eine Ebene, die den Pfad der Geste beinhaltet.
  • Zum Beispiel ist die Gestenebene für Hände eine Ebene, die einen Pfad beinhaltet, der durch Handgesten gemacht wird. Wenn irgendeine Veränderung in einer der Gestenebenen für die rechte Hand oder für die linke Hand beobachtet wird, wird die Gestensymmetrie als verändert betrachtet.
  • Um irgendeine Veränderung in der Gestenebene zu detektieren, kann zum Beispiel irgendeine Veränderung in einem Normalenvektor in der Gestenebene detektiert werden.
  • Daher wird jetzt eine Beschreibung gemacht, wie irgendeine Veränderung in der Gestenebene detektiert wird, unter Verwendung der Änderung im Normalenvektor in der Gestenebene.
  • Um irgendeine Veränderung in der Gestenebene durch Verwendung der Änderung im Normalenvektor in der Gestenebene zu detektieren, kann die Verarbeitung im Schritt S2402 wie folgt abgewandelt werden.
  • [Schritt S2402d]
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet mit <Gleichung 14> einen Normalenvektor vch[1][i] in einer Bewegungsebene der ersten Hand im i-ten Handbereich unter Bezugnahme auf den 3D-Vektor vth[1][i] der ersten Hand im i-ten Handbereich und einen 3D-Vektor vth[1][i – 1] der ersten Hand im (i – 1)-ten Handbereich und findet einen Normalenvektor vch[2][i] in einer Bewegungsebene der zweiten Hand im i-ten Handbereich unter Bezugnahme auf einen 3D-Vektor vth[2][i] der zweiten Hand im i-ten Handbereich und einen 3D-Vektor vth[2][i – 1] der zweiten Hand im (i – 1)-ten Handbereich.
  • Figure 00890001
  • Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 15> einen Bewegungskosinus cosθh[1][i] der ersten Hand im i-ten Handbereich unter Bezugnahme auf den Normalenvektor vch[1][i] in der Bewegungsebene der ersten Hand im i-ten Handbereich und den Normalenvektor vch[1][i – 1] in der Bewegungsebene der ersten Hand im (i – 1)-ten Handbereich und findet einen Bewegungskosinus cosθh[2][i] in der Bewegungsebene der zweiten Hand im i-ten Handbereich unter Bezugnahme auf den Normalenvektor vch[2][i – 1] in der Bewegungsebene der zweiten Hand im i-ten Handbereich und den Normalenvektor vch[2][i – 1] in der Bewegungsebene der zweiten Hand im (i – 1)-ten Handbereich.
  • Figure 00890002
  • Figure 00900001
  • Wenn der Bewegungskosinus cosθh[1][i] der ersten Hand im i-ten Handbereich und der Bewegungskosinus cosθh[2][i] der zweiten Hand darin nicht mindestens eine der Bedingungen der <Gleichung 16> erfüllen, wird der Nichtsegment-Bewegungscode auf 0 gesetzt. Hier ist α_vc ein Schwellenwert einer Veränderung des Normalenvektors, und wird zum Beispiel auf 0,1 gesetzt.
  • Figure 00900002
  • Danach geht die Prozedur nach Schritt S2403.
  • Auf diese Weise kann jede Veränderung in der Gestenebene detektiert werden, unter Verwendung der Änderung im Normalenvektor davon.
  • Außer dem oben erwähnten Verfahren gibt es ein Verfahren, in dem ein Gestencodevektor verwendet wird, um irgendeine Veränderung in der Gestenebene zu detektieren.
  • Daher wird jetzt eine Beschreibung gemacht, wie die Veränderung in der Gestenebene unter Verwendung des Gestencodevektors detektiert wird.
  • Um irgendeine Veränderung in der Gestenebene unter Verwendung des Gestencodevektors zu detektieren, wird die Verarbeitung in Schritt S2402 wie folgt abgewandelt.
  • [Schritt S2402e]
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet einen 3D-Bewegungscode Code_h1[i] der ersten Hand im i-ten Handbereich unter Bezugnahme auf die 3D-Koordinaten h1[i] der ersten Hand im Handbereich und die 3D-Koordinaten h1[i – 1] der ersten Hand im (i – 1)-ten Handbereich und findet einen 3D-Bewegungscode Code_h2[i] der zweiten Hand im i-ten Handbereich unter Bezugnahme auf die 3D-Koordinaten h2[i] der zweiten Hand im i-ten Handbereich und die 3D-Koordinaten h2[i – 1] der zweiten Hand im (i – 1)-ten Handbereich.
  • Hier wird ein Verfahren zum Berechnen des 3D-Bewegungscodes in "Gesture Recognition Device" (Gestenerkennungsvorrichtung) ( japanische Patentoffenlegungsschrift Nr. 7-282235 ) gelehrt. In diesem Verfahren werden Bewegungen im Handbereich durch 27 Codeteile (von 0 bis 26) dargestellt. Diese 27 Codeteile entsprechen jeweils den 3D-Vektoren, deren Richtungen variieren.
  • Andererseits beinhaltet der Nichtsegment-Elementspeicherteil 2201 eine vorher gespeicherte identische Gestenebenentabelle.
  • 29 ist ein Diagramm, das beispielhaft eine identische Gestenebenentabelle zeigt, die im Nichtsegment-Elementspeicherteil 2201 gespeichert ist.
  • In 29 enthält die identische Gestenebenentabelle 9 Teile der identischen Gestenebenen (Gestenebenen Nr. "1" bis "9"). Die identischen Gestenebenen werden jeweils durch 27 Codeteile ähnlich den Codes im oben erwähnten Verfahren dargestellt.
  • Der Merkmalsbewegungs-Nachverfolgungsteil 303 extrahiert in Übereinstimmung mit den 3D-Koordinaten h1[i] der ersten Hand im i-ten Handbereich die Gestenebenennummer, die die erste Hand im i-ten Handbereich enthält, und die Gestenebenennummer, die die zweite Hand im i-ten Handbereich enthält, aus der Tabelle in 29.
  • Wenn eine potentielle Gestenebene MOVE_plane1 der ersten Hand nichts gesetzt hat, werden alle Gestenebenennummern, die in der extrahierten ersten Hand enthalten sind, in der potentiellen Gestenebene MOVE_plane1 der ersten Hand gesetzt, und alle Gestenebenennummem in der extrahierten zweiten Hand werden in einer zweiten potentiellen Gestenebene MOVE_plane2 der zweiten Hand gesetzt. Danach geht die Prozedur nach Schritt S2403.
  • Als Nächstes beurteilt der Merkmalsbewegungs-Nachverfolgungsteil 303, ob irgendeine Gestenebenennummer der extrahierten ersten Hand mit den Gestenebenennummern, die in MOVE_plane1 gesetzt sind, übereinstimmt oder nicht und ob irgendeine Gestenebenennummer in der extrahierten zweiten Hand mit den Gestenebenennummern, die in MOVE_plane2 gesetzt sind, übereinstimmt oder nicht.
  • Wenn die Beurteilung sagt, dass keine der Gestenebenennummern in der extrahierten ersten Hand mit den Gestenebenennummern übereinstimmt, die in MOVE_plane1 gesetzt sind, oder keine der Gestenebenennummern im extrahierten zweiten Handbereich mit den Gestenebenennummem übereinstimmt, die in MOVE_plane2 gesetzt sind, löscht der Merkmalsbewegungs-Nachverfolgungsteil 303 jede Gestenebenennummer, die in MOVE_plane1 oder in MOVE_plane2 gesetzt ist, und setzt dann 0 in den Nichtsegment-Bewegungscode. Danach geht die Prozedur nach Schritt S2403.
  • Wenn irgendeine Gestenebenennummer im extrahierten ersten Handbereich mit den Gestenebenennummem übereinstimmt, die in MOVE_plane1 gesetzt sind, setzt der Merkmalsbewegungs-Nachverfolgungsteil 303 nur die übereinstimmenden Nummern für MOVE_plane1 und löscht den Rest davon.
  • Wenn irgendeine Gestenebenennummer in der extrahierten zweiten Hand mit den Gestenebenennummern übereinstimmt, die in MOVE_plane2 gesetzt sind, setzt der Merkmalsbewegungs-Nachverfolgungsteil 303 nur die übereinstimmenden Nummern in MOVE_plane2 und löscht den Rest davon, solange eine oder mehrere Gestenebenennummem für die potentielle Gestenebene MOVE_plane2 der zweiten Hand gesetzt ist. Danach geht die Prozedur nach Schritt S2403.
  • Auf diese Weise kann jede Veränderung in der Gestenebene unter Verwendung des Gestencodevektors detektiert werden.
  • Als Nächstes wird jetzt eine Beschreibung für eine Vorrichtung für Segmentelementinduktion gemacht, die zusätzlich in die Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt) und die Vorrichtung zur Segmentierung von Zeichensprachengeste in 3 oder 22 eingefügt ist, und die den Benutzer anleitet, Übergangsgesten zu machen, die für die Vorrichtung zur Segmentierung von Zeichensprachengeste erkennbar ist, um mit Animation auf der Anzeige zu segmentieren.
  • (Vierte Ausführungsform)
  • 30 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentelementinduktion gemäß einer vierten Ausführungsform der vorliegenden Erfindung zeigt.
  • Die Vorrichtung zur Segmentelementinduktion in 30 wird zusätzlich in die Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt) und die Vorrichtung zur Segmentierung von Zeichensprachengeste in 3 oder 22 eingefügt.
  • In 30 enthält die Vorrichtung zur Segmentelementinduktion einen Erkennungsergebnis-Eingabeteil 3001, einen Segmentierungsergebnis-Eingabeteil 3002, einen Teil zur Erzeugung induktiver Kontrollinformationen 3003, einen Ausgabeteil 3004 und einen Teil zur Speicherung induktiver Regeln 3005.
  • Der Erkennungsergebnis-Eingabeteil 3001 empfängt aktuelle Erkennungszustandsinformationen von der Vorrichtung zur Erkennung von Zeichensprache, die mit ihm verbunden ist. Der Segmentierungsergebnis-Eingabeteil 3002 empfängt aktuelle Segmentierungsstatusinformationen von der Vorrichtung zur Segmentierung von Zeichensprachengeste, die mit ihm verbunden ist.
  • Der Erkennungsergebnis-Eingabeteil 3001 überträgt die eingegebenen Erkennungsstatusinformationen an den Teil zur Erzeugung induktiver Steuerinformationen 3003. Der Segmentierungsergebnis-Eingabeteil 3002 überträgt die eingegebenen Segmentierungsstatusinformationen an den Teil zur Erzeugung induktiver Steuerinformationen 3003. Der Teil zur Erzeugung induktiver Steuerinformationen 3003 erzeugt induktive Steuerinformationen unter Bezugnahme auf die Erkennungsstatusinformationen und Segmentierungsstatusinformationen und durch Verwendung der induktiven Regel, die im Teil zur Speicherung induktiver Regeln 3005 gespeichert ist, und überträgt dann die erzeugten induktiven Steuerinformationen an den Ausgabeteil 3004. Der Ausgabeteil 3004 gibt die induktiven Steuerinformationen an eine Vorrichtung wie etwa eine Zeichensprachen-Animationsvorrichtung (nicht dargestellt) aus, die mit ihm verbunden ist.
  • Im Folgenden wird eine Beschreibung gemacht werden, wie die Segmentelement-Induktionsvorrichtung, die auf die oben erwähnte Weise aufgebaut ist, betrieben wird.
  • 31 ist ein Flussdiagramm, das darstellt, wie die Segmentelement-Induktionsvorrichtung in 30 betrieben wird.
  • Die Schritte in 31 werden unten jeweils im Detail beschrieben.
  • [Schritt S3101]
  • Der Erkennungsergebnis-Eingabeteil 3001 überprüft die Erkennungsstatusinformationen, die von der Vorrichtung zur Erkennung von Zeichensprache eingegeben wurden, die mit ihm verbunden ist.
  • 32 ist ein Diagramm, das beispielhaft die Erkennungsstatusinformationen zeigt, die in den Erkennungsergebnis-Eingabeteil 3001 eingegeben wurden.
  • In 32 umfassen die Erkennungsergebnisinformationen eine Rahmennummer 3201 und einen Statusanzeiger 3202. Für die Rahmennummer 3201 wird ein aktueller Rahmen gesetzt, mit anderen Worten eine Rahmennummer des Rahmens, der in Bearbeitung ist, wenn die Vorrichtung zur Erkennung von Zeichensprache die Erkennungsstatusinformationen erzeugt. Der Statusanzeiger 3202 wird auf 0 gesetzt, wenn die Erkennung gelingt, oder 1, wenn sie fehlschlägt.
  • Nachdem die Erkennungsstatusinformationen eingegeben wurden, überträgt der Erkennungsergebnis-Eingabeteil 3001 diese an den Teil zur Erzeugung von induktiven Steuerinformationen 3003.
  • Danach geht die Prozedur nach Schritt S3102.
  • [Schritt S3102]
  • Der Segmentierungsergebnis-Eingabeteil 3002 überprüft die Segmentstatusinformationen, die von der Vorrichtung zur Segmentierung von Zeichensprachengeste eingegeben wurden.
  • 33 ist ein Diagramm, das beispielhafte Segmentstatusinformationen zeigt, die in den Segmentierungsergebnis-Eingabeteil 3002 eingegeben wurden.
  • In 33 enthalten die Segmentstatusinformationen eine Rahmennummer 3301 und die Anzahl an noch nicht segmentierten Rahmen 3302. In der Rahmennummer 3301 wird ein aktueller Rahmen, in anderen Worten, eine Rahmennummer des Rahmens, der in Bearbeitung ist, wenn die Vorrichtung zur Segmentierung von Zeichensprachengeste die Segmentierungsstatusinformationen erzeugt, gesetzt. In der Anzahl noch nicht segmentierter Rahmen 3302 wird die Anzahl an Rahmen im Bereich vom zuletzt segmentierten Rahmen bis zum aktuellen Rahmen gesetzt.
  • Nachdem die Segmentierungsstatusinformation eingegeben wurden, überträgt der Segmentierungsergebnis-Eingabeteil 3002 die Segmentierungsinformationen an den Teil zur Erzeugung induktiver Steuerinformationen 3003.
  • Danach geht die Prozedur nach Schritt S3103.
  • [Schritt S3103]
  • Der Teil zur Erzeugung induktiver Steuerinformationen 3003 erzeugt die induktiven Steuerinformationen unter Verwendung der induktiven Regel, die im Teil zur Speicherung von induktiven Regeln 3005 gespeichert ist.
  • 34 ist ein Diagramm, das beispielhaft induktive Steuerinformationen zeigt, die durch den Teil zur Erzeugung induktiver Steuerinformationen 3003 erzeugt wurden.
  • In 34 umfassen die induktiven Steuerinformationen die Anzahl an Steuerteilen des Körpers 3401, einen Steuerteil des Körpers 3402 und eine Steuergeste 3403. In der Anzahl an Steuerteilen des Körpers 3401 wird die Nummer des Kör perteils/der Körperteile, der/die in CG-Zeichen (Animation) zu steuern ist/sind, gesetzt. Im Steuerteil 3402 wird/werden der Körperteil/die Körperteile, der/die im CG-Zeichen zu steuern ist/sind, gesetzt. Man beachte, dass die Steuerteile 3402 und die Steuergeste 3403 beide darin für die Häufigkeit gesetzt werden, die gleich der Anzahl an Teilen ist, die in der Anzahl an Steuerteilen 3401 gesetzt ist.
  • Als Nächstes extrahiert der Teil zur Erzeugung von induktiven Steuerinformationen 3003 die induktive Regel vom Teil zur Speicherung induktiver Regeln 3003 in Übereinstimmung mit den aktuell eingegebenen Erkennungsstatusinformationen und den Segmentierungsstatusinformationen.
  • 35 ist ein Diagramm, das beispielhaft die induktive Regel zeigt, die im Teil zur Speicherung induktiver Regeln 3005 gespeichert ist.
  • In 35 enthält die induktive Regel einen Erkennungsstatus 3501, die Anzahl noch nicht segmentierter Rahmen 3502, einen Steuerteil 3503 und eine Steuergeste 3504.
  • Wenn zum Beispiel die Erkennungsstatusinformationen in 32 und die Segmentierungsstatusinformationen in 33 eingegeben werden, stimmt der Erkennungsstatus und der Segmentierungsstatus mit der Bedingung überein, die in der zweiten Spalte von 35 gefunden wird, dem Erkennungsstatus 3501 und der Anzahl an noch nicht segmentierten Rahmen. Daher wird für die induktiven Steuerinformationen in 34 die Anzahl an Steuerteilen 3401 auf "1" gesetzt, die Steuerteile 3402 werden auf "Kopf gesetzt bzw. die Steuergeste 3403 wird auf "Nicken" gesetzt.
  • Die induzierenden Steuerinformationen, die auf diese Weise erzeugt werden, werden an den Ausgabeteil 3004 übertragen.
  • Danach geht die Prozedur nach Schritt S3104.
  • [Schritt S3104]
  • Der Ausgabeteil 3004 gibt die induktiven Steuerinformationen aus, die vom Teil zur Erzeugung induktiver Steuerinformationen 3003 übertragen wurden, zum Beispiel in die Animationserzeugungsvorrichtung. Zu diesem Zeitpunkt wandelt der Ausgabeteil 3004 die induktiven Steuerinformationen in eine Form um, die zum Beispiel von der Animationserzeugungsvorrichtung angefordert wird, wenn nötig.
  • Danach geht die Prozedur nach Schritt S3101.
  • Auf diese Weise kann das Verfahren zum Induzieren des Segmentelements realisiert werden.
  • Als Nächstes wird mit Bezug auf so ein Verfahren zum Induzieren des Segmentelements eine Beschreibung für einen Fall gemacht, in dem eine Animationsgeschwindigkeit gemäß einem Erkennungsverhältnis der Zeichensprachengesten geändert wird.
  • Im Detail wird das Erkennungsverhältnis der Zeichensprachengesten, die in der Vorrichtung zur Erkennung von Zeichensprache erhalten wurden, an die Seite der Segmentelement-Induktionsvorrichtung gegeben. Die Segmentelement-Induktionsvorrichtung ist mit einer Animationsgeschwindigkeits-Einstellungsvorrichtung ausgestattet, die die Animationsgeschwindigkeit auf der Anzeige absenkt, wenn das Erkennungsverhältnis niedrig ist, und dann den Benutzer anleitet, seine/ihre Übergangsgesten langsamer zu machen.
  • 36 ist ein Blockdiagramm, das die Struktur der Animationsgeschwindigkeits-Anpassungsvorrichtung zeigt, mit der die Segmentelement-Induktionsvorrichtung in 30 ausgestattet ist.
  • In 36 umfasst die Animationsgeschwindigkeits-Anpassungsvorrrichtung einen Erkennungsergebnis-Eingabeteil 3601, einen Segmentierungsergebnis-Eingabeteil 3602, einen Teil zur Erzeugung von Geschwindigkeitsanpassungsinformationen 3603, einen Teil zur Speicherung von Geschwindigkeitsanpassungsregeln 3604 und einen Ausgabeteil 3605.
  • Der Erkennungsergebnis-Eingabeteil 3601 empfängt Erkennungsergebnisinformationen von der Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt). Der Segmentierungsergebnis-Eingabeteil 3603 empfängt Segmentierungsergebnisinformationen von der Vorrichtung zur Segmentierung von Zeichensprachengeste in 3 oder 22. Der Teil zur Speicherung von Geschwindigkeitsanpassungsregeln 3604 enthält eine vorher gespeicherte Geschwindigkeitsanpassungsregel. Der Teil zur Erzeugung von Geschwindigkeitsanpassungsinformationen 3603 erzeugt Steuerinformationen (Animationsgeschwindigkeits-Anpassungsinformationen) zur Steuerung der Animationsgeschwindigkeit in Übereinstimmung zumindest mit den Erkennungsergebnisinformationen, vorzugsweise sowohl den Erkennungsergebnisinformationen als auch den Segmentierungsergebnisinformationen, während auf die Geschwindigkeitsanpassungsregel Bezug genommen wird.
  • In diesem Beispiel wird eine Beschreibung für einen Fall gemacht, in dem der Teil zur Erzeugung von Geschwindigkeitsanpassungsinformationen 3603 die Animationsgeschwindigkeits-Anpassungsinformationen in Übereinstimmung mit den Erkennungsergebnisinformationen erzeugt.
  • In der Segmentelement-Induktionsvorrichtung, in die die Vorrichtung zur Anpassung der Animationsgeschwindigkeit, die auf die oben erwähnte Weise aufgebaut ist, eingefügt ist, wird Verarbeitung auf ähnliche Weise wie in 31 ausgeführt, außer, dass die folgenden Punkte unterschiedlich sind.
  • Die Verarbeitung in Schritt S3103 in 31 wird wie folgt abgewandelt.
  • [Schritt S3103a]
  • Der Teil zu Erzeugung von Geschwindigkeits-Anpassungsinformationen 3603 setzt 0, wenn ein Fehlererkennungsanzeiger FLAG_rec nichts gesetzt hat. Wenn der Statusanzeiger, der in den Erkennungsergebnisinformationen enthalten ist, 1 ist, wird der Fehlererkennungsanzeiger FLAG_rec um 1 inkrementiert. Wenn der Statusanzeiger 0 ist mit dem Fehlererkennungsanzeiger FLAG_rec > 0, wird der Fehlererkennungsanzeiger FLAG_rec um 1 verringert.
  • 37 ist ein Diagramm, das beispielhaft die Geschwindigkeitsanpassungsregel zeigt, die im Teil zur Speicherung von Geschwindigkeitsanpassungsregeln 3604 gespeichert ist.
  • In 37 enthält die Geschwindigkeitsanpassungsregel eine Geschwindigkeitsanpassungsmenge 3701 und eine Bedingung 3702. Die Bedingung 3702 ist eine Bedingung, die verwendet wird, um die Menge an Geschwindigkeitsanpassung zu bestimmen. Hier ist d_spd, das in der Bedingung 3702 gefunden wird, ein Geschwindigkeitsanpassungsparameter, und zum Beispiel auf 50 gesetzt.
  • Der Teil zur Erzeugung von Geschwindigkeitsanpassungsinformationen 3603 findet die Geschwindigkeitsanpassungsmenge d_spd, die für den Fehlererkennungsanzeiger FLAG_rec angemessen ist, während er auf die Geschwindigkeitsanpassungsregel Bezug nimmt, die im Teil zur Speicherung von Geschwindigkeitsanpassungsregeln 3604 gespeichert ist.
  • Die auf diese Weise erhaltene Geschwindigkeitsanpassungsmenge wird an den Ausgabeteil 3605 übertragen.
  • Man bemerke, dass andere als die obige Verarbeitung in ähnlicher Weise wie in Schritt S3103 ausgeführt wird und nicht beschrieben wird.
  • Weiterhin wird die Verarbeitung in Schritt 3104 wie folgt abgewandelt.
  • [Schritt S3104a]
  • Der Ausgabeteil 3605 überträgt die Geschwindigkeitsanpassungsmenge d_spd an die Animationserzeugungsvorrichtung (nicht dargestellt). Die Animationserzeugungsvorrichtung passt die Animationsgeschwindigkeit so an, dass die Geschwindigkeit spd_def der Standardanimation um etwa die Geschwindigkeitsanpassungsmenge d_spd abgesenkt wird.
  • Auf diese Weise kann, wenn das Erkennungsverhältnis der Zeichensprachengeste niedrig ist, die Animationsgeschwindigkeit auf der Anzeige gesenkt werden, wodurch der Benutzer angeleitet wird, seine/ihre Übergangsgesten langsamer zu machen.
  • Als Nächstes wird eine Beschreibung für einen Fall gemacht, in dem ein Teil zum Verbergen einer Kamera zur Verfügung gestellt wird, um die Kamera vor der Ansicht des Benutzers zu verbergen, in der oben erwähnten Segmentelement-Induktionsvorrichtung (siehe 22; man beachte, dass es keinen Unterschied gibt, ob die Vorrichtung zur Anpassung der Animationsgeschwindigkeit dieser zur Verfügung gestellt ist oder nicht).
  • Wenn die Kamera ausgestellt ist, kann der Zeichner unsicher werden und nervös werden, wenn er seine/ihre Handgesten macht. Dementsprechend kann die Segmentierung nicht auf präzise Weise gemacht werden, und das Erkennungsverhältnis der Vorrichtung zur Erkennung von Zeichensprache kann absinken.
  • 38 ist ein schematisches Diagramm, das beispielhaft die Struktur eines Teils zum Verstecken einer Kamera zeigt, mit der die Segmentelement-Induktionsvorrichtung in 22 ausgestattet ist.
  • In 38 wird eine Kamera 3802 in eine Position gebracht, die einem Zeichner 3801 gegenüberliegt, und ein nach oben gerichteter Monitor 3803 wird in einer vertikal niedrigeren Position von einer geraden Linie zwischen der Kamera 3802 und dem Zeichner 3801 angebracht.
  • Der Teil zum Verstecken der Kamera enthält einen Halbspiegel 3804, der es Licht, das von einer Vorwärtsrichtung kommt, erlaubt zu passieren, und Licht reflektiert, das von einer Rückwärtsrichtung kommt. Dieser Teil zum Verstecken der Kamera wird realisiert, indem der Halbspiegel 3804 auf einer geraden Linie zwischen den Zeichen 3801 und der Kamera 3802 platziert wird, und auch in einer vertikal höheren Position vom Monitor 3802, wobei ein Winkel von 45 Grad im Verhältnis zur geraden Linie erhalten wird.
  • Mit diesem Aufbau wird das Licht, das vom Monitor 3803 kommt, zuerst durch den Halbspiegel 3804 reflektiert und erreicht dann den Zeichner 3801. Somit kann der Zeichner 3801 den Monitor 3803 (auf dem die Animation angezeigt wird) sehen.
  • Das Licht, das vom Zeichner 3801 auf die Kamera 3802 gerichtet ist, kann durch den Halbspiegel 3804 passieren, während das Licht, das von der Kamera 3802 auf den Zeichner 3801 gerichtet ist, durch den Halbspiegel reflektiert wird. Daher ermöglicht diese Struktur der Kamera 3802, den Zeichner 3801 zu fotografieren, obwohl die Kamera für die Ansicht des Zeichners unsichtbar ist.
  • Mit so einem Teil zum Verstecken der Kamera kann die Kamera für die Ansicht des Zeichners unsichtbar sein.
  • Während die Erfindung im Detail beschrieben wurde, ist die vorangehende Beschreibung in allen Aspekten illustrativ und nicht beschränkend. Es wird verstan den, dass zahlreiche andere Modifikationen und Variationen ausgedacht werden können, ohne vom Bereich der Erfindung abzuweichen.

Claims (18)

  1. Verfahren des Segmentierens von Handgestik zum automatischen Segmentieren der Handgestik eines Benutzers in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl an Wörtern strukturiert sind, wenn die Handgestik eines Benutzers erkannt wird, wobei das Verfahren die folgenden Schritte umfasst: vorheriges Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht am Körper eines Benutzers während einer Geste wahrgenommen wird, die ein Wort darstellt, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Merkmal der Übergangsgeste zumindest Blinzeln, Nicken, Schließen eines Munds, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine(r) bedeutungslose(n) Handzone durch eine Hand beinhaltet, die in einem Fotografiebereich einer Kamera eingestellt ist und in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird; Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall und Speichern einer Mehrzahl von fotografierten Bilddaten davon (S101, S102 und S401); Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste beobachtet wurde, aus der Mehrzahl von fotografierten Bilddaten (S105, S403); Detektieren einer Bewegung des Bildes, die einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird (S106, S3405); und Segmentieren der Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird (S107, S108 und S417).
  2. Verfahren des Segmentierens von Handgestik gemäß Anspruch 1, wobei im Schritt des Segmentierens der Handgeste (S107, S108 und S417) eine Dauer der Übergangsgeste gemessen wird und dann die Handgeste im Verhältnis zu der Dauer segmentiert wird.
  3. Verfahren des Segmentierens von Handgestik gemäß Anspruch 1, weiterhin aufweisend die folgenden Schritte: vorheriges Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste beinhalten, die nicht am Körper des Benutzers wahrgenommen wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort repräsentiert; Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten (S2401); Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird (S2402); und Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten (S2403), wobei im Schritt des Segmentierens der Handgeste (S107, S108 und S417) die Handgeste nicht an der Zeitposition segmentiert wird, wo die Nicht-Übergangsgeste wahrgenommen wird.
  4. Verfahren des Segmentierens von Handgestik gemäß Anspruch 3, wobei die Nicht-Übergangsgeste beinhaltet, Hände einander näher zu bringen als ein Wert, der für einen Abstand zwischen ihnen vorbestimmt ist.
  5. Verfahren des Segmentierens von Handgestik gemäß Anspruch 3, wobei die Nicht-Übergangsgeste das Ändern einer Mundform beinhaltet.
  6. Verfahren des Segmentierens von Handgestik gemäß Anspruch 3, wobei die Nicht-Übergangsgeste eine Bewegung des Bewegens einer rechten Hand symmetrisch zu einer linken Hand, und umgekehrt die linke Hand, beinhaltet.
  7. Verfahren des Segmentierens von Handgestik gemäß Anspruch 6, wobei im Schritt des Fotografierens des Benutzers und Speicherns der Bilddaten davon (S101, S102 und S401) der Benutzer stereoskopisch fotografiert wird und ein 3D-Bild davon gespeichert wird, im Abstrahierungsschritt (S2401) ein 3D-Bild, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, von den 3D-Bilddaten extrahiert wird, im Detektierungsschritt (S2402) eine Bewegung des 3D-Bildes detektiert wird, und im Schritt des Findens der Zeitposition (S2403) Veränderungen in einer Gestenebene für die rechte Hand und einer Gestenebene für die linke Hand in Übereinstimmung mit der Bewegung des 3D-Bildes detektiert werden, und wenn keine der Gestenebenen eine Veränderung aufweist, bestimmt wird, dass die Nicht-Übergangsgeste wahrgenommen wird, und dann eine Zeitposition von ihr gefunden wird.
  8. Verfahren des Segmentierens von Handgestik gemäß Anspruch 7, wobei im Schritt des Findens der Zeitposition (S2403) die Veränderung in der Gestenebene für die rechte Hand und der Gestenebene für die linke Hand gemäß einer Veränderung in einem Normalenvektor zu den Gestenebenen detektiert wird.
  9. Verfahren des Segmentierens von Handgestik gemäß Anspruch 7, weiter hin aufweisend einen Schritt des vorherigen Erzeugens, in Bezug auf eine Mehrzahl von 3D-Gestencodes, die einem 3D-Vektor entsprechen, dessen Richtung sich verändert, einer Einfachbewegungs-Ebenentabelle, in der eine Kombination von 3D-Gestencodes enthalten ist, die in einer einzigen Ebene gefunden werden; und einen Schritt des Umwandelns der Bewegung der 3D-Gestencode-Zeichenkette, die durch die Mehrzahl von 3D-Gestencodes dargestellt wird (S2404), wobei im Schritt des Findens der Zeitposition (S2403) die Veränderungen in der Gestenebene für die rechte Hand und der Gestenebene für die linke Hand in Übereinstimmung mit der Einfachbewegungsebenentabelle detektiert werden.
  10. Verfahren des Segmentierens von Handgestik gemäß Anspruch 1, weiterhin aufweisend die folgenden Schritte: vorheriges Speichern von Bilddaten einer Animation, die die Übergangsgeste darstellt; Detektieren eines Zustands der Detektion der Nicht-Übergangsgeste und eines Zustands der Erkennung der Handgeste (S3101, S3102); und visuelles Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer im Verhältnis zum Zustand der Detektion der Übergangsgeste und zum Zustand der Erkennung der Handgeste (S3103, S3104).
  11. Verfahren des Segmentierens von Handgestik gemäß Anspruch 10, wobei im Schritt des Anzeigens der Animation (S3103, S3104) eine Geschwin digkeit der Animation in Übereinstimmung mit dem Zustand der Erkennung der Handgeste geändert wird.
  12. Aufzeichnungsmedium, in dem ein Programm gespeichert wird, das in einer Computervorrichtung auszuführen ist, und ein Verfahren des automatischen Segmentierens der Handgestik eines Benutzers in Wörter oder begreifliche Einheiten enthält, die durch eine Mehrzahl von Wörtern strukturiert sind, wobei das Programm zum Realisieren einer Betriebsumgebung da ist, die die folgenden Schritte enthält: vorheriges Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht am Körper eines Benutzers während einer Geste wahrgenommen wird, die ein Wort darstellt, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Übergangsmerkmal mindestens Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine/einer bedeutungslose(n) Handzone beinhaltet, die in einem Fotografiebereich einer Kamera eingestellt ist, in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird; Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall, und Speichern einer Mehrzahl von Fotografiebilddaten davon (S101, S102 und S401); Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, von der Mehrzahl von Fotografiebilddaten (S105, S403); Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird (S106, S405); und Segmentieren einer Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird (S107, S108 und S417).
  13. Aufzeichnungsmedium gemäß Anspruch 12, wobei das Programm weiterhin die folgenden Schritte umfasst: vorheriges Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste enthalten, die nicht am Körper eines Benutzers wahrgenommen wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort darstellt; Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten (S2401); Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird (S2402); und Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten (S2403), wobei im Schritt des Segmentieren der Handgeste (S107, S108 und S417) die Handgeste nicht an der Zeitposition segmentiert wird, wo die Übergangsgeste wahrgenommen wird.
  14. Aufzeichnungsmedium gemäß Anspruch 12, wobei das Programm weiterhin die folgenden Schritte umfasst: vorheriges Speichern von Bilddaten einer Animation, die die Übergangsgeste darstellt; Detektieren eines Zustands der Detektion der Übergangsgeste und eines Zustands der Erkennung der Handgeste (S3101, S3102); und visuelles Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer, im Verhältnis zum Zustand der Detektion der Übergangsgeste und zum Zustand der Erkennung der Handgeste (S3103, S3104).
  15. Vorrichtung des Segmentierens von Handgestik zum automatischen Segmentieren einer Handgestik des Benutzers in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl von Wörtern strukturiert sind, wenn die Handgestik des Benutzers erkannt wird, wobei die Vorrichtung umfasst: Mittel zum Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird (305), wobei das Merkmal des Übergangs mindestens Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine/einer bedeutungslose(n) Handzone enthält, die in einem Fotografiebereich einer Kamera eingestellt ist, in der keine Handgestik als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird; Mittel zum Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall und Speichern einer Mehrzahl von Fotografiebilddaten davon (301); Mittel zum Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, aus der Mehrzahl der Fotografiebilddaten (302); Mittel zum Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird (303); und Mittel zum Segmentieren der Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird (304).
  16. Vorrichtung des Segmentierens von Handgesten gemäß Anspruch 15, weiterhin aufweisend: Mittel zum Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste enthalten, die nicht wahrgenommen wird am Körper eines Benutzers, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort darstellt (2210); Mittel zum Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten (302); Mittel zum Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird (303); und Mittel zum Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten (304), wobei die Mittel zum Segmentieren der Handgeste (304) Segmentierung nicht mit Bezug auf die Handgeste an der Zeitposition ausführt, wo die Nicht-Übergangsgeste wahrgenommen wird.
  17. Vorrichtung des Segmentierens von Handgestik gemäß Anspruch 15, weiterhin umfassend: eine Kamera (3802) zum Fotografieren des Benutzers (3801), die in einer dem Benutzer (3801) gegenüber liegenden Position angebracht wird; Mittel zum visuellen Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer (3801) in Bezug auf den Zustand der Detektion der Übergangsgeste und den Zustand der Erkennung der Handgeste (3003, 3004); und Mittel zum Verbergen der Kamera (3802) vor der Ansicht des Benutzers (3801).
  18. Vorrichtung des Segmentierens von Handgesten gemäß Anspruch 17, wobei die Mittel zum Anzeigen der Animation (3003, 3004) einen nach oben gerichteten Monitor (3803) enthalten, der in einer vertikal niedrigeren Position von einer geraden Linie zwischen dem Benutzer (3801) und der Kamera (3802) angebracht wird, und die Mittel zum Verbergen der Kamera (3802) einen Halbspiegel (3804) enthalten, der es Licht, das aus einer Vorwärtsrichtung kommt, erlaubt, durchzugehen, und Licht reflektiert, das aus einer entgegen gesetzten Richtung kommt, wobei der Halbspiegel (3804) auf einer geraden Linie zwischen dem Benutzer (3801) und der Kamera (3802) angebracht wird, und auch in einer vertikal höheren Position vom Monitor (3803), wo ein Winkel von 45 Grad erhalten wird im Verhältnis zur geraden Linie.
DE69936620T 1998-09-28 1999-09-27 Verfahren und Vorrichtung zum Segmentieren von Handgebärden Expired - Lifetime DE69936620T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP27396698 1998-09-28
JP27396698 1998-09-28

Publications (2)

Publication Number Publication Date
DE69936620D1 DE69936620D1 (de) 2007-09-06
DE69936620T2 true DE69936620T2 (de) 2008-05-21

Family

ID=17535068

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69936620T Expired - Lifetime DE69936620T2 (de) 1998-09-28 1999-09-27 Verfahren und Vorrichtung zum Segmentieren von Handgebärden

Country Status (4)

Country Link
US (1) US6256400B1 (de)
EP (1) EP0991011B1 (de)
CN (1) CN1193284C (de)
DE (1) DE69936620T2 (de)

Families Citing this family (382)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US6993157B1 (en) * 1999-05-18 2006-01-31 Sanyo Electric Co., Ltd. Dynamic image processing method and device and medium
JP2001245269A (ja) * 2000-02-25 2001-09-07 Sony Corp コミュニケーション・データ作成装置及び作成方法、コミュニケーション・データ再生装置及び再生方法、並びに、プログラム記憶媒体
US7227526B2 (en) * 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
US7058204B2 (en) 2000-10-03 2006-06-06 Gesturetek, Inc. Multiple camera control system
US6804396B2 (en) * 2001-03-28 2004-10-12 Honda Giken Kogyo Kabushiki Kaisha Gesture recognition system
US6937742B2 (en) * 2001-09-28 2005-08-30 Bellsouth Intellectual Property Corporation Gesture activated home appliance
US6990639B2 (en) 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
JP3906729B2 (ja) * 2002-04-05 2007-04-18 株式会社日立製作所 手話教育用システム及び該システムを実現するためのプログラム
JP3867627B2 (ja) * 2002-06-26 2007-01-10 ソニー株式会社 観客状況推定装置と観客状況推定方法および観客状況推定プログラム
JP3996015B2 (ja) * 2002-08-09 2007-10-24 本田技研工業株式会社 姿勢認識装置及び自律ロボット
US7665041B2 (en) 2003-03-25 2010-02-16 Microsoft Corporation Architecture for controlling a computer using hand gestures
US8745541B2 (en) 2003-03-25 2014-06-03 Microsoft Corporation Architecture for controlling a computer using hand gestures
DE602004006190T8 (de) * 2003-03-31 2008-04-10 Honda Motor Co., Ltd. Vorrichtung, Verfahren und Programm zur Gestenerkennung
JP3752246B2 (ja) * 2003-08-11 2006-03-08 学校法人慶應義塾 ハンドパターンスイッチ装置
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
JP2005242694A (ja) * 2004-02-26 2005-09-08 Mitsubishi Fuso Truck & Bus Corp ハンドパターンスイッチ装置
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20060020486A1 (en) * 2004-04-02 2006-01-26 Kurzweil Raymond C Machine and method to assist user in selecting clothing
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
EP1746807A1 (de) * 2004-05-12 2007-01-24 Takashi Yoshimine Gesprächsunterstützungseinrichtung und gesprächsunterstützungsverfahren
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
JP4792824B2 (ja) * 2004-11-05 2011-10-12 富士ゼロックス株式会社 動作分析装置
US7583819B2 (en) 2004-11-05 2009-09-01 Kyprianos Papademetriou Digital signal processing methods, systems and computer program products that identify threshold positions and values
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
CN101496387B (zh) 2006-03-06 2012-09-05 思科技术公司 用于移动无线网络中的接入认证的系统和方法
US7725547B2 (en) 2006-09-06 2010-05-25 International Business Machines Corporation Informing a user of gestures made by others out of the user's line of sight
US7971156B2 (en) 2007-01-12 2011-06-28 International Business Machines Corporation Controlling resource access based on user gesturing in a 3D captured image stream of the user
US8269834B2 (en) 2007-01-12 2012-09-18 International Business Machines Corporation Warning a user about adverse behaviors of others within an environment based on a 3D captured image stream
US7840031B2 (en) 2007-01-12 2010-11-23 International Business Machines Corporation Tracking a range of body movement based on 3D captured image streams of a user
US7801332B2 (en) 2007-01-12 2010-09-21 International Business Machines Corporation Controlling a system based on user behavioral signals detected from a 3D captured image stream
US8295542B2 (en) * 2007-01-12 2012-10-23 International Business Machines Corporation Adjusting a consumer experience based on a 3D captured image stream of a consumer response
US7792328B2 (en) 2007-01-12 2010-09-07 International Business Machines Corporation Warning a vehicle operator of unsafe operation behavior based on a 3D captured image stream
US7877706B2 (en) 2007-01-12 2011-01-25 International Business Machines Corporation Controlling a document based on user behavioral signals detected from a 3D captured image stream
FR2911983B1 (fr) * 2007-01-25 2009-05-29 St Microelectronics Sa Procede de suivi automatique des mouvements de la mains dans une sequence d'images.
US8005238B2 (en) 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
US8077930B2 (en) * 2007-04-13 2011-12-13 Atg Advanced Swiss Technology Group Ag Method for recognizing content in an image sequence
US8005237B2 (en) 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
US8629976B2 (en) * 2007-10-02 2014-01-14 Microsoft Corporation Methods and systems for hierarchical de-aliasing time-of-flight (TOF) systems
KR100906378B1 (ko) * 2007-12-17 2009-07-07 한국전자통신연구원 머리 제스처를 이용한 사용자 인터페이스 장치 및 그 방법
US20090166684A1 (en) * 2007-12-26 2009-07-02 3Dv Systems Ltd. Photogate cmos pixel for 3d cameras having reduced intra-pixel cross talk
US9372576B2 (en) * 2008-01-04 2016-06-21 Apple Inc. Image jaggedness filter for determining whether to perform baseline calculations
US8797377B2 (en) 2008-02-14 2014-08-05 Cisco Technology, Inc. Method and system for videoconference configuration
US8319819B2 (en) 2008-03-26 2012-11-27 Cisco Technology, Inc. Virtual round-table videoconference
US8390667B2 (en) 2008-04-15 2013-03-05 Cisco Technology, Inc. Pop-up PIP for people not in picture
US8385557B2 (en) * 2008-06-19 2013-02-26 Microsoft Corporation Multichannel acoustic echo reduction
US8325909B2 (en) 2008-06-25 2012-12-04 Microsoft Corporation Acoustic echo suppression
US8203699B2 (en) 2008-06-30 2012-06-19 Microsoft Corporation System architecture design for time-of-flight system having reduced differential pixel size, and time-of-flight systems so designed
US8146020B2 (en) * 2008-07-24 2012-03-27 Qualcomm Incorporated Enhanced detection of circular engagement gesture
WO2010011929A1 (en) 2008-07-25 2010-01-28 Gesturetek, Inc. Enhanced detection of waving engagement gesture
US8694658B2 (en) 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
US7796278B2 (en) * 2008-09-19 2010-09-14 Gii Acquisition, Llc Method for precisely measuring position of a part to be inspected at a part inspection station
US20100134499A1 (en) * 2008-12-03 2010-06-03 Nokia Corporation Stroke-based animation creation
US8681321B2 (en) 2009-01-04 2014-03-25 Microsoft International Holdings B.V. Gated 3D camera
US8588465B2 (en) 2009-01-30 2013-11-19 Microsoft Corporation Visual target tracking
US20100199231A1 (en) 2009-01-30 2010-08-05 Microsoft Corporation Predictive determination
US8267781B2 (en) 2009-01-30 2012-09-18 Microsoft Corporation Visual target tracking
US8565477B2 (en) 2009-01-30 2013-10-22 Microsoft Corporation Visual target tracking
US7996793B2 (en) 2009-01-30 2011-08-09 Microsoft Corporation Gesture recognizer system architecture
US8295546B2 (en) 2009-01-30 2012-10-23 Microsoft Corporation Pose tracking pipeline
US8577084B2 (en) * 2009-01-30 2013-11-05 Microsoft Corporation Visual target tracking
US8448094B2 (en) 2009-01-30 2013-05-21 Microsoft Corporation Mapping a natural input device to a legacy system
US8487938B2 (en) * 2009-01-30 2013-07-16 Microsoft Corporation Standard Gestures
US8577085B2 (en) * 2009-01-30 2013-11-05 Microsoft Corporation Visual target tracking
US8565476B2 (en) 2009-01-30 2013-10-22 Microsoft Corporation Visual target tracking
US8682028B2 (en) * 2009-01-30 2014-03-25 Microsoft Corporation Visual target tracking
US8294767B2 (en) 2009-01-30 2012-10-23 Microsoft Corporation Body scan
WO2010096193A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US8605942B2 (en) * 2009-02-26 2013-12-10 Nikon Corporation Subject tracking apparatus, imaging apparatus and subject tracking method
US8659637B2 (en) 2009-03-09 2014-02-25 Cisco Technology, Inc. System and method for providing three dimensional video conferencing in a network environment
US8477175B2 (en) * 2009-03-09 2013-07-02 Cisco Technology, Inc. System and method for providing three dimensional imaging in a network environment
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
WO2010105244A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8773355B2 (en) 2009-03-16 2014-07-08 Microsoft Corporation Adaptive cursor sizing
US9256282B2 (en) 2009-03-20 2016-02-09 Microsoft Technology Licensing, Llc Virtual object manipulation
US8988437B2 (en) 2009-03-20 2015-03-24 Microsoft Technology Licensing, Llc Chaining animations
US9313376B1 (en) 2009-04-01 2016-04-12 Microsoft Technology Licensing, Llc Dynamic depth power equalization
US20100257462A1 (en) * 2009-04-01 2010-10-07 Avaya Inc Interpretation of gestures to provide visual queues
US8253746B2 (en) 2009-05-01 2012-08-28 Microsoft Corporation Determine intended motions
US9015638B2 (en) 2009-05-01 2015-04-21 Microsoft Technology Licensing, Llc Binding users to a gesture based system and providing feedback to the users
US8660303B2 (en) * 2009-05-01 2014-02-25 Microsoft Corporation Detection of body and props
US8340432B2 (en) 2009-05-01 2012-12-25 Microsoft Corporation Systems and methods for detecting a tilt angle from a depth image
US9498718B2 (en) 2009-05-01 2016-11-22 Microsoft Technology Licensing, Llc Altering a view perspective within a display environment
US8181123B2 (en) 2009-05-01 2012-05-15 Microsoft Corporation Managing virtual port associations to users in a gesture-based computing environment
US9898675B2 (en) 2009-05-01 2018-02-20 Microsoft Technology Licensing, Llc User movement tracking feedback to improve tracking
US8649554B2 (en) 2009-05-01 2014-02-11 Microsoft Corporation Method to control perspective for a camera-controlled computer
US8638985B2 (en) 2009-05-01 2014-01-28 Microsoft Corporation Human body pose estimation
US8942428B2 (en) 2009-05-01 2015-01-27 Microsoft Corporation Isolate extraneous motions
US8503720B2 (en) 2009-05-01 2013-08-06 Microsoft Corporation Human body pose estimation
US9377857B2 (en) 2009-05-01 2016-06-28 Microsoft Technology Licensing, Llc Show body position
US9417700B2 (en) 2009-05-21 2016-08-16 Edge3 Technologies Gesture recognition systems and related methods
US9182814B2 (en) 2009-05-29 2015-11-10 Microsoft Technology Licensing, Llc Systems and methods for estimating a non-visible or occluded body part
US8659639B2 (en) 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US8856691B2 (en) 2009-05-29 2014-10-07 Microsoft Corporation Gesture tool
US8320619B2 (en) 2009-05-29 2012-11-27 Microsoft Corporation Systems and methods for tracking a model
US8418085B2 (en) 2009-05-29 2013-04-09 Microsoft Corporation Gesture coach
US8693724B2 (en) 2009-05-29 2014-04-08 Microsoft Corporation Method and system implementing user-centric gesture control
US8509479B2 (en) 2009-05-29 2013-08-13 Microsoft Corporation Virtual object
US8379101B2 (en) 2009-05-29 2013-02-19 Microsoft Corporation Environment and/or target segmentation
US8542252B2 (en) 2009-05-29 2013-09-24 Microsoft Corporation Target digitization, extraction, and tracking
US9400559B2 (en) 2009-05-29 2016-07-26 Microsoft Technology Licensing, Llc Gesture shortcuts
US8625837B2 (en) 2009-05-29 2014-01-07 Microsoft Corporation Protocol and format for communicating an image from a camera to a computing environment
US9383823B2 (en) 2009-05-29 2016-07-05 Microsoft Technology Licensing, Llc Combining gestures beyond skeletal
US8744121B2 (en) 2009-05-29 2014-06-03 Microsoft Corporation Device for identifying and tracking multiple humans over time
US8487871B2 (en) 2009-06-01 2013-07-16 Microsoft Corporation Virtual desktop coordinate transformation
US8390680B2 (en) 2009-07-09 2013-03-05 Microsoft Corporation Visual representation expression based on player expression
US9159151B2 (en) 2009-07-13 2015-10-13 Microsoft Technology Licensing, Llc Bringing a visual representation to life via learned input from the user
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
US20120151415A1 (en) * 2009-08-24 2012-06-14 Park Yong-Gook Method for providing a user interface using motion and device adopting the method
US8264536B2 (en) * 2009-08-25 2012-09-11 Microsoft Corporation Depth-sensitive imaging via polarization-state mapping
US9141193B2 (en) 2009-08-31 2015-09-22 Microsoft Technology Licensing, Llc Techniques for using human gestures to control gesture unaware programs
US8508919B2 (en) 2009-09-14 2013-08-13 Microsoft Corporation Separation of electrical and optical components
US8330134B2 (en) * 2009-09-14 2012-12-11 Microsoft Corporation Optical fault monitoring
US8428340B2 (en) * 2009-09-21 2013-04-23 Microsoft Corporation Screen space plane identification
US8976986B2 (en) * 2009-09-21 2015-03-10 Microsoft Technology Licensing, Llc Volume adjustment based on listener position
US8760571B2 (en) 2009-09-21 2014-06-24 Microsoft Corporation Alignment of lens and image sensor
US9014546B2 (en) 2009-09-23 2015-04-21 Rovi Guides, Inc. Systems and methods for automatically detecting users within detection regions of media devices
US8452087B2 (en) 2009-09-30 2013-05-28 Microsoft Corporation Image selection techniques
US8723118B2 (en) 2009-10-01 2014-05-13 Microsoft Corporation Imager for constructing color and depth images
US8963829B2 (en) 2009-10-07 2015-02-24 Microsoft Corporation Methods and systems for determining and tracking extremities of a target
US8867820B2 (en) 2009-10-07 2014-10-21 Microsoft Corporation Systems and methods for removing a background of an image
US8564534B2 (en) 2009-10-07 2013-10-22 Microsoft Corporation Human tracking system
US7961910B2 (en) 2009-10-07 2011-06-14 Microsoft Corporation Systems and methods for tracking a model
US9400548B2 (en) * 2009-10-19 2016-07-26 Microsoft Technology Licensing, Llc Gesture personalization and profile roaming
US8988432B2 (en) * 2009-11-05 2015-03-24 Microsoft Technology Licensing, Llc Systems and methods for processing an image for target tracking
US8843857B2 (en) 2009-11-19 2014-09-23 Microsoft Corporation Distance scalable no touch computing
KR20110055062A (ko) * 2009-11-19 2011-05-25 삼성전자주식회사 로봇 시스템 및 그 제어 방법
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US9244533B2 (en) 2009-12-17 2016-01-26 Microsoft Technology Licensing, Llc Camera navigation for presentations
US20110151974A1 (en) * 2009-12-18 2011-06-23 Microsoft Corporation Gesture style recognition and reward
US20110150271A1 (en) 2009-12-18 2011-06-23 Microsoft Corporation Motion detection using depth images
US8320621B2 (en) 2009-12-21 2012-11-27 Microsoft Corporation Depth projector system with integrated VCSEL array
US9019201B2 (en) 2010-01-08 2015-04-28 Microsoft Technology Licensing, Llc Evolving universal gesture sets
US9268404B2 (en) * 2010-01-08 2016-02-23 Microsoft Technology Licensing, Llc Application gesture interpretation
US8631355B2 (en) 2010-01-08 2014-01-14 Microsoft Corporation Assigning gesture dictionaries
US8334842B2 (en) 2010-01-15 2012-12-18 Microsoft Corporation Recognizing user intent in motion capture system
US8933884B2 (en) 2010-01-15 2015-01-13 Microsoft Corporation Tracking groups of users in motion capture system
US8676581B2 (en) 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US8864581B2 (en) 2010-01-29 2014-10-21 Microsoft Corporation Visual based identitiy tracking
US8891067B2 (en) 2010-02-01 2014-11-18 Microsoft Corporation Multiple synchronized optical sources for time-of-flight range finding systems
US8687044B2 (en) 2010-02-02 2014-04-01 Microsoft Corporation Depth camera compatibility
US8619122B2 (en) 2010-02-02 2013-12-31 Microsoft Corporation Depth camera compatibility
US8717469B2 (en) 2010-02-03 2014-05-06 Microsoft Corporation Fast gating photosurface
US8499257B2 (en) * 2010-02-09 2013-07-30 Microsoft Corporation Handles interactions for human—computer interface
US8659658B2 (en) * 2010-02-09 2014-02-25 Microsoft Corporation Physical interaction zone for gesture-based user interfaces
US20110199302A1 (en) * 2010-02-16 2011-08-18 Microsoft Corporation Capturing screen objects using a collision volume
US8633890B2 (en) * 2010-02-16 2014-01-21 Microsoft Corporation Gesture detection based on joint skipping
US8928579B2 (en) * 2010-02-22 2015-01-06 Andrew David Wilson Interacting with an omni-directionally projected display
US20110216173A1 (en) * 2010-03-02 2011-09-08 Comcast Cable Communications, Llc Impairments To 3D Experiences
US8422769B2 (en) 2010-03-05 2013-04-16 Microsoft Corporation Image segmentation using reduced foreground training data
US8655069B2 (en) 2010-03-05 2014-02-18 Microsoft Corporation Updating image segmentation following user input
US8411948B2 (en) 2010-03-05 2013-04-02 Microsoft Corporation Up-sampling binary images for segmentation
US20110223995A1 (en) 2010-03-12 2011-09-15 Kevin Geisner Interacting with a computer based application
US20110221755A1 (en) * 2010-03-12 2011-09-15 Kevin Geisner Bionic motion
US8279418B2 (en) * 2010-03-17 2012-10-02 Microsoft Corporation Raster scanning for depth detection
US9225916B2 (en) 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
US8213680B2 (en) * 2010-03-19 2012-07-03 Microsoft Corporation Proxy training data for human body tracking
US20110234481A1 (en) * 2010-03-26 2011-09-29 Sagi Katz Enhancing presentations using depth sensing cameras
US8514269B2 (en) * 2010-03-26 2013-08-20 Microsoft Corporation De-aliasing depth images
US8523667B2 (en) * 2010-03-29 2013-09-03 Microsoft Corporation Parental control settings based on body dimensions
US8605763B2 (en) 2010-03-31 2013-12-10 Microsoft Corporation Temperature measurement and control for laser and light-emitting diodes
US9098873B2 (en) 2010-04-01 2015-08-04 Microsoft Technology Licensing, Llc Motion-based interactive shopping environment
US9646340B2 (en) 2010-04-01 2017-05-09 Microsoft Technology Licensing, Llc Avatar-based virtual dressing room
US8351651B2 (en) 2010-04-26 2013-01-08 Microsoft Corporation Hand-location post-process refinement in a tracking system
US8379919B2 (en) 2010-04-29 2013-02-19 Microsoft Corporation Multiple centroid condensation of probability distribution clouds
US8284847B2 (en) 2010-05-03 2012-10-09 Microsoft Corporation Detecting motion for a multifunction sensor device
US8885890B2 (en) 2010-05-07 2014-11-11 Microsoft Corporation Depth map confidence filtering
US8498481B2 (en) 2010-05-07 2013-07-30 Microsoft Corporation Image segmentation using star-convexity constraints
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US8457353B2 (en) 2010-05-18 2013-06-04 Microsoft Corporation Gestures and gesture modifiers for manipulating a user-interface
US8396252B2 (en) 2010-05-20 2013-03-12 Edge 3 Technologies Systems and related methods for three dimensional gesture recognition in vehicles
US8803888B2 (en) 2010-06-02 2014-08-12 Microsoft Corporation Recognition system for sharing information
US9008355B2 (en) 2010-06-04 2015-04-14 Microsoft Technology Licensing, Llc Automatic depth camera aiming
US8751215B2 (en) 2010-06-04 2014-06-10 Microsoft Corporation Machine based sign language interpreter
US9557574B2 (en) 2010-06-08 2017-01-31 Microsoft Technology Licensing, Llc Depth illumination and detection optics
US8330822B2 (en) 2010-06-09 2012-12-11 Microsoft Corporation Thermally-tuned depth camera light source
US9384329B2 (en) 2010-06-11 2016-07-05 Microsoft Technology Licensing, Llc Caloric burn determination from body movement
US8749557B2 (en) 2010-06-11 2014-06-10 Microsoft Corporation Interacting with user interface via avatar
US20110304541A1 (en) * 2010-06-11 2011-12-15 Navneet Dalal Method and system for detecting gestures
US8675981B2 (en) 2010-06-11 2014-03-18 Microsoft Corporation Multi-modal gender recognition including depth data
US8982151B2 (en) 2010-06-14 2015-03-17 Microsoft Technology Licensing, Llc Independently processing planes of display data
US8670029B2 (en) 2010-06-16 2014-03-11 Microsoft Corporation Depth camera illuminator with superluminescent light-emitting diode
US8558873B2 (en) 2010-06-16 2013-10-15 Microsoft Corporation Use of wavefront coding to create a depth image
US8296151B2 (en) 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands
US8381108B2 (en) 2010-06-21 2013-02-19 Microsoft Corporation Natural user input for driving interactive stories
US8416187B2 (en) 2010-06-22 2013-04-09 Microsoft Corporation Item navigation using motion-capture data
US9075434B2 (en) 2010-08-20 2015-07-07 Microsoft Technology Licensing, Llc Translating user motion into multiple object responses
US8613666B2 (en) 2010-08-31 2013-12-24 Microsoft Corporation User selection and navigation based on looped motions
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US8655093B2 (en) 2010-09-02 2014-02-18 Edge 3 Technologies, Inc. Method and apparatus for performing segmentation of an image
US8666144B2 (en) 2010-09-02 2014-03-04 Edge 3 Technologies, Inc. Method and apparatus for determining disparity of texture
US8467599B2 (en) 2010-09-02 2013-06-18 Edge 3 Technologies, Inc. Method and apparatus for confusion learning
US8582866B2 (en) 2011-02-10 2013-11-12 Edge 3 Technologies, Inc. Method and apparatus for disparity computation in stereo images
US20120058824A1 (en) 2010-09-07 2012-03-08 Microsoft Corporation Scalable real-time motion recognition
US8437506B2 (en) 2010-09-07 2013-05-07 Microsoft Corporation System for fast, probabilistic skeletal tracking
US8599934B2 (en) 2010-09-08 2013-12-03 Cisco Technology, Inc. System and method for skip coding during video conferencing in a network environment
US8988508B2 (en) 2010-09-24 2015-03-24 Microsoft Technology Licensing, Llc. Wide angle field of view active illumination imaging system
US8681255B2 (en) 2010-09-28 2014-03-25 Microsoft Corporation Integrated low power depth camera and projection device
US9746927B2 (en) * 2010-09-30 2017-08-29 France Telecom User interface system and method of operation thereof
US8548270B2 (en) 2010-10-04 2013-10-01 Microsoft Corporation Time-of-flight depth imaging
US9484065B2 (en) 2010-10-15 2016-11-01 Microsoft Technology Licensing, Llc Intelligent determination of replays based on event identification
US8599865B2 (en) 2010-10-26 2013-12-03 Cisco Technology, Inc. System and method for provisioning flows in a mobile network environment
US8592739B2 (en) 2010-11-02 2013-11-26 Microsoft Corporation Detection of configuration changes of an optical element in an illumination system
US8866889B2 (en) 2010-11-03 2014-10-21 Microsoft Corporation In-home depth camera calibration
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
JP2012098988A (ja) * 2010-11-04 2012-05-24 Sony Corp 画像処理装置および方法、並びにプログラム
US8667519B2 (en) 2010-11-12 2014-03-04 Microsoft Corporation Automatic passive and anonymous feedback system
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US10726861B2 (en) 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8730297B2 (en) 2010-11-15 2014-05-20 Cisco Technology, Inc. System and method for providing camera functions in a video environment
US8542264B2 (en) 2010-11-18 2013-09-24 Cisco Technology, Inc. System and method for managing optics in a video environment
US9349040B2 (en) 2010-11-19 2016-05-24 Microsoft Technology Licensing, Llc Bi-modal depth-image analysis
US8723914B2 (en) 2010-11-19 2014-05-13 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US9111138B2 (en) * 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
US10234545B2 (en) 2010-12-01 2019-03-19 Microsoft Technology Licensing, Llc Light source module
US8553934B2 (en) 2010-12-08 2013-10-08 Microsoft Corporation Orienting the position of a sensor
US8618405B2 (en) 2010-12-09 2013-12-31 Microsoft Corp. Free-space gesture musical instrument digital interface (MIDI) controller
US8408706B2 (en) 2010-12-13 2013-04-02 Microsoft Corporation 3D gaze tracker
US8920241B2 (en) 2010-12-15 2014-12-30 Microsoft Corporation Gesture controlled persistent handles for interface guides
US8884968B2 (en) 2010-12-15 2014-11-11 Microsoft Corporation Modeling an object from image data
US9171264B2 (en) 2010-12-15 2015-10-27 Microsoft Technology Licensing, Llc Parallel processing machine learning decision tree training
USD682294S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD678307S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD678308S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD682864S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen with graphical user interface
USD682293S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD682854S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen for graphical user interface
USD678320S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD678894S1 (en) 2010-12-16 2013-03-26 Cisco Technology, Inc. Display screen with graphical user interface
US8448056B2 (en) 2010-12-17 2013-05-21 Microsoft Corporation Validation analysis of human target
US8803952B2 (en) 2010-12-20 2014-08-12 Microsoft Corporation Plural detector time-of-flight depth mapping
US9823339B2 (en) 2010-12-21 2017-11-21 Microsoft Technology Licensing, Llc Plural anode time-of-flight sensor
US8994718B2 (en) 2010-12-21 2015-03-31 Microsoft Technology Licensing, Llc Skeletal control of three-dimensional virtual world
US8385596B2 (en) 2010-12-21 2013-02-26 Microsoft Corporation First person shooter control with virtual skeleton
US9821224B2 (en) 2010-12-21 2017-11-21 Microsoft Technology Licensing, Llc Driving simulator control with virtual skeleton
US9848106B2 (en) 2010-12-21 2017-12-19 Microsoft Technology Licensing, Llc Intelligent gameplay photo capture
US9123316B2 (en) 2010-12-27 2015-09-01 Microsoft Technology Licensing, Llc Interactive content creation
US8488888B2 (en) 2010-12-28 2013-07-16 Microsoft Corporation Classification of posture states
TW201233157A (en) * 2011-01-27 2012-08-01 Hon Hai Prec Ind Co Ltd System and method for avoiding closed eyes during capturing person images
US8401242B2 (en) 2011-01-31 2013-03-19 Microsoft Corporation Real-time camera tracking using depth maps
US8401225B2 (en) 2011-01-31 2013-03-19 Microsoft Corporation Moving object segmentation using depth images
US8587583B2 (en) 2011-01-31 2013-11-19 Microsoft Corporation Three-dimensional environment reconstruction
US9247238B2 (en) 2011-01-31 2016-01-26 Microsoft Technology Licensing, Llc Reducing interference between multiple infra-red depth cameras
US8724887B2 (en) 2011-02-03 2014-05-13 Microsoft Corporation Environmental modifications to mitigate environmental factors
US9189072B2 (en) * 2011-02-08 2015-11-17 Lg Electronics Inc. Display device and control method thereof
US8970589B2 (en) 2011-02-10 2015-03-03 Edge 3 Technologies, Inc. Near-touch interaction with a stereo camera grid structured tessellations
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
US8497838B2 (en) 2011-02-16 2013-07-30 Microsoft Corporation Push actuation of interface controls
US8692862B2 (en) 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
US9551914B2 (en) 2011-03-07 2017-01-24 Microsoft Technology Licensing, Llc Illuminator with refractive optical element
US9067136B2 (en) 2011-03-10 2015-06-30 Microsoft Technology Licensing, Llc Push personalization of interface controls
US10895917B2 (en) 2011-03-12 2021-01-19 Uday Parshionikar Multipurpose controllers and methods
US8571263B2 (en) 2011-03-17 2013-10-29 Microsoft Corporation Predicting joint positions
US9470778B2 (en) 2011-03-29 2016-10-18 Microsoft Technology Licensing, Llc Learning from high quality depth measurements
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US8824749B2 (en) 2011-04-05 2014-09-02 Microsoft Corporation Biometric recognition
US8503494B2 (en) 2011-04-05 2013-08-06 Microsoft Corporation Thermal management system
JP5798183B2 (ja) * 2011-04-22 2015-10-21 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America ポインティング制御装置とその集積回路、およびポインティング制御方法
US8620113B2 (en) 2011-04-25 2013-12-31 Microsoft Corporation Laser diode modes
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8702507B2 (en) 2011-04-28 2014-04-22 Microsoft Corporation Manual and camera-based avatar control
US9259643B2 (en) 2011-04-28 2016-02-16 Microsoft Technology Licensing, Llc Control of separate computer game elements
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US10671841B2 (en) 2011-05-02 2020-06-02 Microsoft Technology Licensing, Llc Attribute state classification
US10102612B2 (en) * 2011-05-09 2018-10-16 Koninklijke Philips N.V. Rotating an object on a screen
US8888331B2 (en) 2011-05-09 2014-11-18 Microsoft Corporation Low inductance light source module
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9137463B2 (en) 2011-05-12 2015-09-15 Microsoft Technology Licensing, Llc Adaptive high dynamic range camera
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
US8788973B2 (en) 2011-05-23 2014-07-22 Microsoft Corporation Three-dimensional gesture controlled avatar configuration interface
US8760395B2 (en) 2011-05-31 2014-06-24 Microsoft Corporation Gesture recognition techniques
US8526734B2 (en) 2011-06-01 2013-09-03 Microsoft Corporation Three-dimensional background removal for vision system
US9594430B2 (en) 2011-06-01 2017-03-14 Microsoft Technology Licensing, Llc Three-dimensional foreground selection for vision system
US8897491B2 (en) 2011-06-06 2014-11-25 Microsoft Corporation System for finger recognition and tracking
US9013489B2 (en) 2011-06-06 2015-04-21 Microsoft Technology Licensing, Llc Generation of avatar reflecting player appearance
US9098110B2 (en) 2011-06-06 2015-08-04 Microsoft Technology Licensing, Llc Head rotation tracking from depth-based center of mass
US10796494B2 (en) 2011-06-06 2020-10-06 Microsoft Technology Licensing, Llc Adding attributes to virtual representations of real-world objects
US8929612B2 (en) 2011-06-06 2015-01-06 Microsoft Corporation System for recognizing an open or closed hand
US9724600B2 (en) 2011-06-06 2017-08-08 Microsoft Technology Licensing, Llc Controlling objects in a virtual environment
US8597142B2 (en) 2011-06-06 2013-12-03 Microsoft Corporation Dynamic camera based practice mode
US9208571B2 (en) 2011-06-06 2015-12-08 Microsoft Technology Licensing, Llc Object digitization
US9597587B2 (en) 2011-06-08 2017-03-21 Microsoft Technology Licensing, Llc Locational node device
JP5915000B2 (ja) * 2011-06-13 2016-05-11 ソニー株式会社 情報処理装置及びプログラム
US8786730B2 (en) 2011-08-18 2014-07-22 Microsoft Corporation Image exposure using exclusion regions
US9557836B2 (en) 2011-11-01 2017-01-31 Microsoft Technology Licensing, Llc Depth image compression
US9117281B2 (en) 2011-11-02 2015-08-25 Microsoft Corporation Surface segmentation from RGB and depth images
US8854426B2 (en) 2011-11-07 2014-10-07 Microsoft Corporation Time-of-flight camera with guided light
US9672609B1 (en) 2011-11-11 2017-06-06 Edge 3 Technologies, Inc. Method and apparatus for improved depth-map estimation
US8947493B2 (en) 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
US8724906B2 (en) 2011-11-18 2014-05-13 Microsoft Corporation Computing pose and/or shape of modifiable entities
US8509545B2 (en) 2011-11-29 2013-08-13 Microsoft Corporation Foreground subject detection
US8635637B2 (en) 2011-12-02 2014-01-21 Microsoft Corporation User interface presenting an animated avatar performing a media reaction
US8803800B2 (en) 2011-12-02 2014-08-12 Microsoft Corporation User interface control based on head orientation
US9100685B2 (en) 2011-12-09 2015-08-04 Microsoft Technology Licensing, Llc Determining audience state or interest using passive sensor data
US8630457B2 (en) 2011-12-15 2014-01-14 Microsoft Corporation Problem states for pose tracking pipeline
US8879831B2 (en) 2011-12-15 2014-11-04 Microsoft Corporation Using high-level attributes to guide image processing
US8971612B2 (en) 2011-12-15 2015-03-03 Microsoft Corporation Learning image processing tasks from scene reconstructions
US8811938B2 (en) 2011-12-16 2014-08-19 Microsoft Corporation Providing a user interface experience based on inferred vehicle state
US9342139B2 (en) 2011-12-19 2016-05-17 Microsoft Technology Licensing, Llc Pairing a computing device to a user
US8682087B2 (en) 2011-12-19 2014-03-25 Cisco Technology, Inc. System and method for depth-guided image filtering in a video conference environment
KR101868903B1 (ko) * 2012-01-11 2018-06-20 한국전자통신연구원 손 추적 장치 및 방법
US12260023B2 (en) 2012-01-17 2025-03-25 Ultrahaptics IP Two Limited Systems and methods for machine control
US9070019B2 (en) 2012-01-17 2015-06-30 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US9720089B2 (en) 2012-01-23 2017-08-01 Microsoft Technology Licensing, Llc 3D zoom imager
US9600169B2 (en) * 2012-02-27 2017-03-21 Yahoo! Inc. Customizable gestures for mobile devices
US8898687B2 (en) 2012-04-04 2014-11-25 Microsoft Corporation Controlling a media program based on a media reaction
US9210401B2 (en) 2012-05-03 2015-12-08 Microsoft Technology Licensing, Llc Projected visual cues for guiding physical movement
CA2775700C (en) 2012-05-04 2013-07-23 Microsoft Corporation Determining a future portion of a currently presented media program
CN102693084B (zh) * 2012-05-08 2016-08-03 上海鼎为电子科技(集团)有限公司 移动终端及其响应操作的方法
US9619036B2 (en) 2012-05-11 2017-04-11 Comcast Cable Communications, Llc System and methods for controlling a user experience
US9263084B1 (en) * 2012-06-15 2016-02-16 A9.Com, Inc. Selective sharing of body data
KR101911133B1 (ko) 2012-06-21 2018-10-23 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 깊이 카메라를 이용한 아바타 구성
US9836590B2 (en) 2012-06-22 2017-12-05 Microsoft Technology Licensing, Llc Enhanced accuracy of user presence status determination
US9696427B2 (en) 2012-08-14 2017-07-04 Microsoft Technology Licensing, Llc Wide angle depth detection
TWI479430B (zh) * 2012-10-08 2015-04-01 Pixart Imaging Inc 以自然影像進行的手勢辨識方法
CN104813258B (zh) * 2012-11-22 2017-11-10 夏普株式会社 数据输入装置
US9681154B2 (en) 2012-12-06 2017-06-13 Patent Capital Group System and method for depth-guided filtering in a video conference environment
US8882310B2 (en) 2012-12-10 2014-11-11 Microsoft Corporation Laser die light source module with low inductance
KR101393573B1 (ko) * 2012-12-27 2014-05-09 현대자동차 주식회사 광 스캔을 이용한 사용자 인터페이스 시스템 및 방법
US9857470B2 (en) 2012-12-28 2018-01-02 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
US9251590B2 (en) 2013-01-24 2016-02-02 Microsoft Technology Licensing, Llc Camera pose estimation for 3D reconstruction
US9052746B2 (en) 2013-02-15 2015-06-09 Microsoft Technology Licensing, Llc User center-of-mass and mass distribution extraction using depth images
US9940553B2 (en) 2013-02-22 2018-04-10 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates
US9135516B2 (en) 2013-03-08 2015-09-15 Microsoft Technology Licensing, Llc User body angle, curvature and average extremity positions extraction using depth images
US9524028B2 (en) * 2013-03-08 2016-12-20 Fastvdo Llc Visual language for human computer interfaces
US9092657B2 (en) 2013-03-13 2015-07-28 Microsoft Technology Licensing, Llc Depth image processing
US9274606B2 (en) 2013-03-14 2016-03-01 Microsoft Technology Licensing, Llc NUI video conference controls
WO2014200589A2 (en) 2013-03-15 2014-12-18 Leap Motion, Inc. Determining positional information for an object in space
US10721448B2 (en) 2013-03-15 2020-07-21 Edge 3 Technologies, Inc. Method and apparatus for adaptive exposure bracketing, segmentation and scene organization
US9953213B2 (en) 2013-03-27 2018-04-24 Microsoft Technology Licensing, Llc Self discovery of autonomous NUI devices
US9442186B2 (en) 2013-05-13 2016-09-13 Microsoft Technology Licensing, Llc Interference reduction for TOF systems
US9843621B2 (en) 2013-05-17 2017-12-12 Cisco Technology, Inc. Calendaring activities based on communication processing
US10884493B2 (en) 2013-06-20 2021-01-05 Uday Parshionikar Gesture based user interfaces, apparatuses and systems using eye tracking, head tracking, hand tracking, facial expressions and other user actions
US10846942B1 (en) 2013-08-29 2020-11-24 Ultrahaptics IP Two Limited Predictive information for free space gesture control and communication
US9462253B2 (en) 2013-09-23 2016-10-04 Microsoft Technology Licensing, Llc Optical modules that reduce speckle contrast and diffraction artifacts
JP6132925B2 (ja) 2013-09-30 2017-05-24 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理方法、プログラム及び情報記憶媒体
US9443310B2 (en) 2013-10-09 2016-09-13 Microsoft Technology Licensing, Llc Illumination modules that emit structured light
US9996638B1 (en) * 2013-10-31 2018-06-12 Leap Motion, Inc. Predictive information for free space gesture control and communication
US9674563B2 (en) 2013-11-04 2017-06-06 Rovi Guides, Inc. Systems and methods for recommending content
US9769459B2 (en) 2013-11-12 2017-09-19 Microsoft Technology Licensing, Llc Power efficient laser diode driver circuit and method
US9508385B2 (en) 2013-11-21 2016-11-29 Microsoft Technology Licensing, Llc Audio-visual project generator
US9971491B2 (en) 2014-01-09 2018-05-15 Microsoft Technology Licensing, Llc Gesture library for natural user input
US10203762B2 (en) * 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US9785247B1 (en) 2014-05-14 2017-10-10 Leap Motion, Inc. Systems and methods of tracking moving hands and recognizing gestural interactions
US10852838B2 (en) 2014-06-14 2020-12-01 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
EP3164073B1 (de) * 2014-07-02 2020-07-01 Covidien LP System und verfahren zur erkennung der luftröhre
US20160078287A1 (en) 2014-08-29 2016-03-17 Konica Minola Laboratory U.S.A., Inc. Method and system of temporal segmentation for gesture analysis
GB201416311D0 (en) 2014-09-16 2014-10-29 Univ Hull Method and Apparatus for Producing Output Indicative of the Content of Speech or Mouthed Speech from Movement of Speech Articulators
US9384396B2 (en) * 2014-09-29 2016-07-05 Xerox Corporation System and method for detecting settle down time using computer vision techniques
US10412280B2 (en) 2016-02-10 2019-09-10 Microsoft Technology Licensing, Llc Camera with light valve over sensor array
US10257932B2 (en) 2016-02-16 2019-04-09 Microsoft Technology Licensing, Llc. Laser diode chip on printed circuit board
US10462452B2 (en) 2016-03-16 2019-10-29 Microsoft Technology Licensing, Llc Synchronizing active illumination cameras
CN106547354B (zh) * 2016-10-31 2019-08-02 邯郸美的制冷设备有限公司 一种用于控制空调的手势校验方法及装置
US11295120B2 (en) * 2020-05-06 2022-04-05 Nec Corporation Of America Hand gesture habit forming
US20240086812A1 (en) * 2021-08-19 2024-03-14 Nec Corporation A method, an apparatus and a non-transitory computer readable medium for measuring productivity
CN114677766B (zh) * 2022-05-26 2023-02-14 中国科学院西安光学精密机械研究所 基于无镜头成像技术的手语识别方法、系统及交互设备
US12530086B2 (en) * 2022-10-12 2026-01-20 Snap Inc. Tractable body-based AR system input
US20250218131A1 (en) * 2023-12-29 2025-07-03 Harman International Industries, Incorporated Augmented reality for occupants
CN119646605B (zh) * 2024-11-21 2025-06-13 哈尔滨工业大学 一种手势分割与识别方法、电子设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4878843A (en) * 1988-06-08 1989-11-07 Kuch Nina J Process and apparatus for conveying information through motion sequences
US5759044A (en) * 1990-02-22 1998-06-02 Redmond Productions Methods and apparatus for generating and processing synthetic and absolute real time environments
US5422653A (en) * 1993-01-07 1995-06-06 Maguire, Jr.; Francis J. Passive virtual reality
JPH07282235A (ja) 1994-04-15 1995-10-27 Matsushita Electric Ind Co Ltd 動作認識装置
US5982853A (en) * 1995-03-01 1999-11-09 Liebermann; Raanan Telephone for the deaf and method of using same
JP3440641B2 (ja) 1995-07-26 2003-08-25 松下電器産業株式会社 動作開始位置検出方法
US5953052A (en) * 1995-09-20 1999-09-14 Videotronic Systems Reflected display teleconferencing eye contact terminal
US5774591A (en) * 1995-12-15 1998-06-30 Xerox Corporation Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images
US5802220A (en) * 1995-12-15 1998-09-01 Xerox Corporation Apparatus and method for tracking facial motion through a sequence of images
US5859904A (en) * 1997-01-03 1999-01-12 Advis, Inc. Methods and systems for connecting multiple telephone lines between two stations
US5832115A (en) * 1997-01-02 1998-11-03 Lucent Technologies Inc. Ternary image templates for improved semantic compression
US5990865A (en) * 1997-01-06 1999-11-23 Gard; Matthew Davis Computer interface device
US5890120A (en) * 1997-05-20 1999-03-30 At&T Corp Matching, synchronization, and superposition on orginal speaking subject images of modified signs from sign language database corresponding to recognized speech segments
US5930379A (en) * 1997-06-16 1999-07-27 Digital Equipment Corporation Method for detecting human body motion in frames of a video sequence
US5990980A (en) * 1997-12-23 1999-11-23 Sarnoff Corporation Detection of transitions in video sequences

Also Published As

Publication number Publication date
EP0991011A2 (de) 2000-04-05
CN1193284C (zh) 2005-03-16
CN1249454A (zh) 2000-04-05
EP0991011B1 (de) 2007-07-25
EP0991011A3 (de) 2002-01-09
DE69936620D1 (de) 2007-09-06
US6256400B1 (en) 2001-07-03

Similar Documents

Publication Publication Date Title
DE69936620T2 (de) Verfahren und Vorrichtung zum Segmentieren von Handgebärden
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
EP1119822B1 (de) Verfahren und system zur personenerkennung mit modellbasierter gesichtsfindung
DE60215743T2 (de) Verfahren und Rechnerprogrammprodukt zur Lagebestimmung von Gesichtsmerkmalen
DE102006032484B4 (de) Auf Gesichtsmerkmale örtlich begrenztes und umfassendes Echtzeit-Video-Morphing
DE60209989T2 (de) Robuste Ansichtsmodelle zur visuellen Bewegungsanalyse und Nachführung
DE69934478T2 (de) Verfahren und Gerät zur Bildverarbeitung auf Basis von Metamorphosemodellen
DE69612700T2 (de) Merkmallokalisierung in einem Bild
DE69922752T2 (de) Verfahren zum Detektieren eines menschlichen Gesichtes
DE10195928B4 (de) Abschätzen der Textfarbe und Segmentieren von Bildern
DE69932619T2 (de) Verfahren und system zum aufnehmen und repräsentieren von dreidimensionaler geometrie, farbe und schatten von animierten objekten
DE69734855T2 (de) Vorrichtung und Verfahren zur Extraktion eines Objektes in einem Bild
DE102022121680A1 (de) Ermittlung eines aktiven Sprechers mittels Bilddaten
DE60213933T2 (de) System zur Schlüsselerkennung
DE60307583T2 (de) Auswertung der Schärfe eines Bildes der Iris eines Auges
DE60313941T2 (de) Personendetektion durch Gesichtsdetektion und Bewegungsdetektion
DE69833999T2 (de) Verfahren zur automatischen erkennung menschlicher augen in digitalbildern
DE60037919T2 (de) Verfahren zum Wiederauffinden von Bildtexturen und Vorrichtung dafür
DE69636695T2 (de) Bildverarbeitungsvorrichtung
DE10195927B4 (de) Verallgemeinerte Textlokalisation in Bildern
EP3103060A1 (de) 2d-bildanalysator
DE102010016251A1 (de) Erkennungsverfahren für ein bewegliches Objekt und das der Erkennung des beweglichen Objekts zugrunde liegende Befehlseingabeverfahren
DE602004002837T2 (de) Objekterkennung
DE69715175T2 (de) Bildsynthetisierung
CN115410254B (zh) 一种基于深度学习的多特征表情识别方法

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: NATIONAL INSTITUTE OF INFORMATION AND COMMUNIC, JP

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP