DE69936620T2

DE69936620T2 - Verfahren und Vorrichtung zum Segmentieren von Handgebärden

Info

Publication number: DE69936620T2
Application number: DE69936620T
Authority: DE
Inventors: Yuji Fukuoka-shi Takata; Hideaki Fukuoka-shi Matsuo; Seiji Tokorozawa-shi Igi; Shan Tokorozawa-shi Lu; Yuji Fuchu-shi Nagashima
Original assignee: National Institute of Information and Communications Technology; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; National Institute of Information and Communications Technology
Priority date: 1998-09-28
Filing date: 1999-09-27
Publication date: 2008-05-21
Anticipated expiration: 2019-09-28
Also published as: EP0991011A2; CN1193284C; CN1249454A; EP0991011B1; EP0991011A3; DE69936620D1; US6256400B1

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf Verfahren und Vorrichtungen zum Segmentieren von Handgesten, genauer auf ein Verfahren und eine Vorrichtung zum automatischen Segmentieren von Handgesten zum Beispiel für Zeichensprache in Wörter, wenn die Handgesten erkannt werden.
Beschreibung der Hintergrundtechnik
In den letzten Jahren haben Personalcomputer einfache Eingabe zum Beispiel mit einer Zeigevorrichtung ermöglicht, und daher wird sie unter den Benutzern nicht nur zum professionellen Gebrauch beliebt, ohne komplizierte Tastaturbedienung.
Weiterhin, mit der Technologie des automatischen Erkennens einer Benutzerstimme, die vor kurzem entwickelt wurde, ist ein Personalcomputer vom Stimmen-Eingabe-Typ oder ein Heimelektrogerät, das mit einem Mikrocomputer vom Stimmen-Eingabe-Typ ausgestattet ist, auf dem Markt erschienen (nachfolgend wird so ein Personalcomputer oder ein Heimelektrogerät, das mit einem Mikrocomputer ausgestattet ist, als Computervorrichtung bezeichnet). Angenommen, diese Technologie sieht weiteren Fortschritt, können Eingabeoperation für die Computervorrichtung kann an die Art und Weise angenähert werden, die in Kommunikation zwischen Personen beobachtet wird. Darüber hinaus können Be nutzer, die Schwierigkeit in der Bedienung mit Händen haben, leicht auf die Computervorrichtung zugreifen, dank des Stimmeneingabesystems.
Die Menschen kommunizieren miteinander dadurch, dass sie ihre Hände oder Köpfe bewegen, oder durch Ändern von Gesichtsausdrücken, und durch Sprechen. Wenn die Computervorrichtung solche Bewegungen, die in bestimmten Körperteilen beobachtet werden, automatisch erkennen kann, können Benutzer Eingabeoperationen auf eine Art und Weise handhaben, die ähnlich der Kommunikation zwischen Personen ist. Weiterhin können Benutzer, die Schwierigkeit in der Bedienung mit Stimme haben, auf die Computervorrichtung einfach zugreifen, indem sie Zeichensprache verwenden. Die Computervorrichtung kann auch verwendet werden, um Zeichensprache zu übersetzen.
Um einer solchen Anforderung zu entsprechen, wurde eine solche Computervorrichtung, die die Bewegungen erkennt, die in bestimmten Körperteilen des Benutzers beobachtet werden, einschließlich Handgesten für Zeichensprache, durch die Inhaber der vorliegenden Erfindung und andere entwickelt. Die Verarbeitung, die in so einer herkömmlichen Computervorrichtung ausgeführt wird, um die Handgesten für Zeichensprache zu erkennen, ist wie folgt.
Als Erstes wird ein Benutzer fotografiert, dann wird sein/ihr Bild gespeichert. Als Zweites wird ein Teil des Bildes als eine Hand/Hände spezifiziert. Danach werden Bewegungen der Hand/der Hände detektiert, und dann wird jedes Wort für Zeichensprache, das zu den detektierten Bewegungen passt, spezifiziert unter Bezugnahme auf irgendein Wörterbuch, das sagt, wie Gesten für Zeichensprache gemacht werden. Auf diese Weise "erkennt" die Computervorrichtung die Zeichensprache des Benutzers.
Nachfolgend wird mit Bezug auf die oben erwähnte Vorgehensweise ein Verarbeiten, das ausgeführt wird, um Wörter für Zeichensprache in Übereinstimmung mit den Bewegungen von Händen zu spezifizieren, aufgenommen, um detaillierter zu beschreiben.
Jedes Wort für Zeichensprache ist im Allgemeinen durch mehrere Einheitsgesten oder eine Kombination aus ihnen strukturiert. Die Einheitsgeste bedeutet hierin eine unterteilbare Minimalgeste, wie etwa Anheben, Senken oder Krümmen. Angenommen, dass die Einheitsgesten A, B oder C sind, können Wörter für die Zeichensprache auf die Art und Weise dargestellt werden, dass (A), (B), (C), ..., (A, B), (A, C), (B, C), ..., (A, B, C), ... Leute sprechen durch Zeichensprache, indem sie diese Wörter für Zeichensprache kombinieren.
Angenommen, dass das Wort für Zeichensprache (A) "Strom" bedeutet und das Zeichensprachenwort (B, C) bedeutet "Abschalten", wird eine Bedeutung von "Strom abschalten" vervollständigt, indem die Zeichensprachenwörter (A) und (B, C) ausgedrückt werden, d.h., indem nacheinander die Einheitsgesten A, B und C gemacht werden.
In Blickkontakt-Zeichensprache, wenn eine Person, die mit Zeichensprache spricht (nachfolgend Zeichengeber) nacheinander die Einheitsgesten A, B und C macht, mit den Zeichensprachenwörtern (A) und (B, C) im Sinn, kann sein/ihr Partner oft intuitiv die Serie von Einheitsgesten erkennen, die auf die Zeichensprachenwörter (A) und (B, C) abzielen. Wenn andererseits Zeichensprache in die Computervorrichtung eingegeben wird, kann die Computervorrichtung die Serie von Einheitsgesten A, B und C nicht als die Zeichensprachenwörter (A) und (B, C) erkennen, selbst wenn der Benutzer hintereinander die Einheitsgesten für A, B und C mit den Zeichensprachenwörtern (A) und (B, C) im Sinn macht.
Daher hat der Benutzer eine vorbestimmte Geste wie eine Pause (nachfolgend Segmentierungsgeste a) zwischen den Zeichensprachenwörtern (A) und (B, C) gemacht. Genauer gesagt, wenn der Benutzer "Strom abschalten" eingeben will, drückt er/sie die Zeichensprachenwörter (A) und (B, C) mit der Segmentierungs geste a dazwischen eingefügt aus, d.h., die Einheitsgeste A wird als Erste gemacht, dann die Segmentierungsgeste a, und die Einheitsgesten B und C werden als Letztes gemacht. Die Computervorrichtung erkennt dann die Serie von Gesten, die durch den Benutzer gemacht wird, segmentiert diese vor und nach der Segmentierungsgeste a und erhält die Zeichensprachenwörter (A) und (B, C).
Wie aus dem Obigen bekannt ist, hat der Benutzer im herkömmlichen Gestenerkennungsverfahren, das in der Computervorrichtung ausgeführt wird, keine andere Wahl als ärgerlicherweise eine Segmentierungsgeste zwischen einer Handgeste, die einem bestimmten Wort entspricht, und einer Handgeste, die einem anderen entspricht, welches folgt, jedes Mal einzufügen, wenn er/sie einen Satz, der durch mehrere Wörter gegliedert ist, in die Computervorrichtung mit den Handgesten für Zeichensprache eingibt. Das herkömmliche Gestenerkennungsverfahren konnte nämlich nicht automatisch zu erkennende Gesten in Wörter segmentieren.
Man beachte, dass ein Verfahren des Segmentierens einer Serie von Einheitsgesten (Gestencodekette), die in Wörter erkannt werden muss, zum Beispiel eine Verarbeitung umfassen kann, die auf eine Art und Weise ausgeführt wird, die einer japanischen Textverarbeitung ähnlich ist, in der eine Zeichencodekette in Wörter segmentiert wird und dann in Zeichen umgewandelt wird.
In diesem Fall wird die Gestencodekette jedoch segmentiert, indem auf irgendein Wörterbuch Bezug genommen wird, in dem Wörter registriert sind. Daher sind Positionen, an denen die Gestencodekette segmentiert wird, nicht einheitlich definiert. Wenn dies der Fall ist, muss die Computervorrichtung dem Benutzer mehrere Alternativen anbieten, wo zu segmentieren ist, und dann muss der Benutzer eine Position auswählen, die am besten für seinen/ihren Zweck geeignet ist. Dementsprechend macht es dem Benutzer eine Menge Ärger und gleichzeitig macht es die Eingabeoperation langsam.
In einem Fall, in dem auf ein Wörterbuch Bezug genommen wird, das in einer Computervorrichtung enthalten ist und die Zeichensprachenwörter (A), (B), (C), ..., (A, B), (A, C), (B, C), ..., (A, B, C), ... enthält, um eine Segmentierungsposition in den Einheitsgesten A, B und C zu finden, die nacheinander durch den Benutzer mit den Zeichensprachenwörtern (A) und (B, C) im Sinn gemacht wurden, kann die Segmentierungsposition nicht auf eine begrenzt werden. Daher segmentiert die Computervorrichtung an einigen potentiellen Positionen, um mehrere Alternativen anzubieten, etwa (A), und (B, C), (A, B) und (C) oder (A, B, C) für den Benutzer. In Antwort hierauf wählt der Benutzer irgendeine aus, die am besten seinem/ihrem Zweck dient, und teilt dann die ausgewählte Position der Computervorrichtung mit.
Wie aus dem Obigen evident ist, ist so ein Segmentierungssystem, das auf Gestencodeketten basiert, nicht ausreichend, um automatisch die Serien von zu erkennenden Einheitsgesten zu segmentieren.
Der Artikel "Adapting Hidden Markov Models for ASL Recognition by Using Three-dimensional Computer Vision Methods" von Christian Vogler und Dimitris Metaxas (SYSTEMS; MAN, AND CYBERNETICS; 1997. COMPUTATIONAL CYBERNETICS AND SIMULATION, 1997 IEEE INTERNATIONAL CONFERENCE IN ORLANDO, FL, USA 12-15 OKT. 1997, NEW YORK; NY, USA, IEEE, US, 12 OKT. 1997, Seiten 156-161, ISBN: 0-7803-4053-1) stellt einen Ansatz zur kontinuierlichen Erkennung von amerikanischer Zeichensprache (ASL), der als Eingabe dreidimensionale Daten von Armbewegungen verwendet, dar. Er verwendet Computersichtverfahren zum Extrahieren dreidimensionaler Objektformen und Bewegungsparameter, und dazu austauschbar eine "Ascesion Technologies Flock of Birds", um korrekte dreidimensionale Bewegungsparameter von ASL-Sätzen zu erhalten, die aus einem 53 Zeichen-Vokabular und einer weit variierten Satzstruktur ausgewählt wurden. Diese Parameter werden als Merkmale für "Hidden Markov Models" (HMMs) verwendet. Um Coartikulationseffekte zu behandeln und die Erkennungsergebnisse zu verbessern, wurde mit zwei verschiedenen Ansätzen experimentiert. Der erste besteht im Training von kontextabhängigen HMMs und wurde durch Spracherkennungssysteme inspiriert. Der zweite besteht im Modellieren von Übergangsbewegungen zwischen Zeichen und wurde durch die Eigenschaften der ASL-Phonologie inspiriert. Die Experimente verifizierten, dass der zweite Ansatz bessere Erkennungsergebnisse erzielt.
Der Artikel "Gesture spotting from continuous hand motion" von Hyeon-Kyu Lee und Jin-Hyung Kim (PATTERN RECOGNITION LETTERS, NORTH-HOLLAND PUBL. AMSTERDAM, NL, Band 19, Nr. 5-6, 1 APR. 1998, Seiten 513-520, ISSN: 0167-8655) schlägt ein Verfahren zur Gestenerkennung vor, das auf dem Hidden Markov Model (HMM) basiert, und das bedeutsame Gesten aus ununterbrochener Handbewegung extrahiert. Um Nichtgestenmuster von Eingabemustern zu entfernen, wurde das Schwellenmodell, das die Schwellenwahrscheinlichkeit des Eingabemusters berechnet und hilft, ein Eingabemuster als eine Geste zu qualifizieren, eingeführt. Das vorgeschlagene Verfahren extrahiert Gesten mit einer Verlässlichkeit von 93,38 %.
Eine Aufgabe der vorliegenden Erfindung ist es daher, ein Handgestesegmentierungsverfahren und eine entsprechende Vorrichtung zur Verfügung zu stellen, zum automatischen Segmentieren detektierter Handgesten in Wörter, wenn die Handgesten erkannt werden, ohne Darstellung des Benutzers, wo zu segmentieren ist.
ZUSAMMENFASSUNG DER ERFINDUNG
Ein erster Aspekt der vorliegenden Erfindung ist auf ein Handgeste-Segmentierungsverfahren gerichtet zum automatischen Segmentieren einer Handgeste eines Benutzers in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl an Wörtern strukturiert sind, wenn die Handgeste eines Benutzers erkannt wird, wobei das Verfahren folgende Schritte umfasst:
Vorheriges Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht am Körper eines Benutzers während einer Geste wahrgenommen wird, die ein Wort darstellt, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Merkmal der Übergangsgeste zumindest Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/hinaus einer Hand aus eine(r) bedeutungslose(n) Handzone durch eine Hand beinhaltet, die in einem Fotografiebereich einer Kamera eingestellt ist und in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird;
Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall und Speichern einer Mehrzahl von fotografierten Bilddaten davon;
Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste beobachtet wurde, aus der Mehrzahl von fotografierten Bilddaten;
Detektieren einer Bewegung des Bildes, die einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird;
und Segmentieren der Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird.
Wie oben beschrieben, wird im ersten Aspekt die Handgeste in Übereinstimmung mit der Übergangsgeste segmentiert, die nicht wahrgenommen wird am Körper eines Benutzers, während Gesten, die ein Wort repräsentieren, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird. Daher kann die detektierte Handgeste automatisch in Wörter oder begreifliche Ein heiten, die aus einer Mehrzahl von Wörtern strukturiert sind, segmentiert werden, ohne die Darstellung eines Benutzers, wo zu segmentieren ist.
Gemäß einem zweiten Aspekt im ersten Aspekt wird im Schritt des Segmentierens der Handgeste eine Dauer der Übergangsgeste gemessen und dann die Handgeste im Verhältnis zur Dauer segmentiert.
Wie oben beschrieben, kann im zweiten Aspekt Segmentierung mit verbesserter Genauigkeit vorgenommen werden.
Gemäß einem dritten Aspekt im ersten Aspekt umfasst das Verfahren weiterhin die folgenden Schritte:
Vorheriges Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste beinhalten, die nicht am Körper des Benutzers wahrgenommen wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern, die während einer Geste wahrgenommen wird, die ein Wort repräsentiert;
Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten;
Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird; und
Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten, wobei
im Schritt des Segmentierens der Handgeste die Handgeste nicht an der Zeitposition segmentiert wird, wo die Nicht-Übergangsgeste wahrgenommen wird.
Wie oben beschrieben, wird im dritten Aspekt die Handgeste nicht an der Zeitposition segmentiert, wo die Nicht-Übergangsgeste wahrgenommen wird, die eine Geste ist, die nicht am Körper des Benutzers während Gesten wahrgenommen wird, die ein Wort repräsentieren, sondern die beobachtet wird, wenn von einer Geste zu einer anderen übergegangen wird. Daher kann fehlerhaftes Segmentieren von Wörtern verhindert werden, und somit kann Genauigkeit für die Segmentierung verbessert werden.
Gemäß einem vierten Aspekt im dritten Aspekt beinhaltet die Nicht-Übergangsgeste, Hände einander näher zu bringen als ein Wert, der für einen Abstand zwischen ihnen vorbestimmt ist.
Gemäß einem fünften Aspekt im dritten Aspekt beinhaltet die Nicht-Übergangsgeste das Ändern einer Mundform.
Gemäß einem sechsten Aspekt im dritten Aspekt beinhaltet die Nicht-Übergangsgeste eine Bewegung des Bewegens einer rechten Hand symmetrisch zu einer linken Hand, und die linke Hand umgekehrt.
Gemäß einem siebten Aspekt im sechsten Aspekt, im Schritt des Fotografierens des Benutzers und des Speicherns der Bilddaten davon, wird der Benutzer stereoskopisch fotografiert und ein 3D-Bild davon gespeichert, im Detektierungsschritt wird eine Bewegung des 3D-Bildes detektiert, und im Schritt des Findens der Zeitposition werden Veränderungen in einer Gestenebene für die rechte Hand und einer Gestenebene für die linke Hand in Übereinstimmung mit der Bewegung des 3D-Bildes detektiert, und wenn keine der Gestenebenen eine Veränderung aufweist, wird bestimmt, dass die Nicht-Übergangsgeste wahrgenommen wird, und dann wird eine Zeitposition von ihr gefunden.
Gemäß einem achten Aspekt im siebten Aspekt wird im Schritt des Findens der Zeitposition die Veränderung in der Gestenebene für die rechte Hand und der Gestenebene für die linke Hand gemäß einer Veränderung in einem Normalenvektor zu den Gestenebenen detektiert.
Gemäß einem neunten Aspekt im siebten Aspekt umfasst das Verfahren weiterhin einen Schritt des vorherigen Erzeugens, in Bezug auf eine Mehrzahl von 3D-Gestencodes, die einem 3D-Vektor entsprechen, dessen Richtung sich verändert, einer Einfachbewegungs-Ebenentabelle, in der eine Kombination von 3D-Gestencodes enthalten ist, die in einer einzigen Ebene gefunden werden; und einen Schritt des Umwandelns der Bewegung der 3D-Gestencode-Zeichenkette, die durch die Mehrzahl von 3D-Gestencodes dargestellt wird, wobei im Schritt des Findens der Zeitposition die Veränderungen in der Gestenebene für die rechte Hand und der Gestenebene für die linke Hand in Übereinstimmung mit der Einfachbewegungs-Ebenentabelle detektiert werden.
Gemäß einem zehnten Aspekt im ersten Aspekt umfasst das Verfahren weiterhin die folgenden Schritte:
Vorheriges Speichern von Bilddaten einer Animation, die die Übergangsgeste darstellt;
Detektieren eines Zustands der Detektion der Nicht-Übergangsgeste und eines Zustands der Erkennung der Handgeste; und
visuelles Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer im Verhältnis zum Zustand der Detektion der Übergangsgeste und zum Zustand der Erkennung der Handgeste.
Wie oben beschrieben, wird im zehnten Aspekt, wenn die Detektionsfrequenz einer bestimmten Übergangsgeste besonders niedrig ist, oder wenn eine Handgeste nicht erkannt wurde, obwohl die Handgeste gemäß der detektierten Übergangsgeste segmentiert wurde, die Animation angezeigt, die die Übergangsgeste darstellt. Daher kann der Benutzer beabsichtigt seine/ihre Übergangsgeste korrigieren, während er auf die angezeigte Animation Bezug nimmt, und dementsprechend kann die Übergangsgeste auf eine präzise Art und Weise detektiert werden.
Gemäß einem elften Aspekt im zehnten Aspekt wird im Schritt des Anzeigens der Animation eine Geschwindigkeit der Animation in Übereinstimmung mit dem Zustand der Erkennung der Handgeste geändert.
Wie oben beschrieben, wird im elften Aspekt, wenn der Zustand der Erkennung einer Handgeste nicht korrekt genug ist, die Geschwindigkeit der anzuzeigenden Animation verringert. Danach wird der Benutzer geleitet, um seine/ihre Übergangsgeste auf langsamere Art und Weise zu machen. Auf diese Weise kann somit der Zustand einer Handgestenerkennung verbessert werden.
Ein zwölfter Aspekt der vorliegenden Erfindung ist auf ein Aufzeichnungsmedium gerichtet, in dem ein Programm gespeichert wird, das in einer Computervorrichtung auszuführen ist, das ein Verfahren des automatischen Segmentierens der Handgeste eines Benutzers in Wörter oder begreifliche Einheiten enthält, die durch eine Mehrzahl von Wörtern strukturiert sind, wobei das Programm zum Realisieren einer Betriebsumgebung da ist, einschließlich der folgenden Schritte:
vorheriges Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht am Körper eines Benutzers während einer Geste wahrgenommen wird, die ein Wort darstellt, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Übergangsmerkmal mindestens Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine/einer bedeutungslose(n) Handzone beinhaltet, die in einem Fotografiebereich einer Kamera eingestellt ist, in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird;
Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall, und Speichern einer Mehrzahl von Fotografiebilddaten davon;
Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, aus der Mehrzahl von Fotografiebilddaten;
Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird;
Segmentieren einer Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird.
Gemäß einem dreizehnten Aspekt im zwölften Aspekt umfasst das Programm weiterhin folgende Schritte:
vorheriges Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste enthalten, die nicht am Körper eines Benutzers wahrgenommen wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen ü bergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort darstellt;
Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten;
Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird; und
Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten, wobei
im Schritt des Segmentierens der Handgeste die Handgeste nicht an der Zeitposition segmentiert wird, wo die Nicht-Übergangsgeste wahrgenommen wird.
Gemäß einem vierzehnten Aspekt im zwölften Aspekt umfasst das Programm weiterhin die folgenden Schritte:
Vorheriges Speichern von Bilddaten einer Animation, die die Übergangsgeste darstellt;
Detektieren eines Zustands der Detektion der Übergangsgeste und eines Zustands der Erkennung der Handgeste; und
visuelles Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer, im Verhältnis zum Zustand der Detektion der Übergangsgeste und zum Zustand der Erkennung der Handgeste.
Ein fünfzehnter Aspekt der vorliegenden Erfindung ist gerichtet auf eine Handgesten-Segmentierungsvorrichtung zum automatischen Segmentieren einer Handgeste des Benutzers in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl von Wörtern strukturiert sind, wenn die Handgeste des Benutzers erkannt wird, wobei die Vorrichtung umfasst:
Mittel zum Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Merkmal des Übergangs mindestens Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine/einer bedeutungslose(n) Handzone enthält, die in einem Fotografiebereich einer Kamera eingestellt ist, in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird;
Mittel zum Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall, und Speichern einer Mehrzahl von Fotografiebilddaten davon;
Mittel zum Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, aus der Mehrzahl der Fotografiebilddaten;
Mittel zum Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird; und
Mittel zum Segmentieren der Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird.
Gemäß einem sechzehnten Aspekt im fünfzehnten Aspekt umfasst die Handgesten-Segmentierungsvorrichtung weiterhin:
Mittel zum Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste enthalten, die nicht wahrgenommen wird am Körper eines Benutzers, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort darstellt;
Mittel zum Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten;
Mittel zum Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird; und
Mittel zum Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten, wobei
die Mittel zum Segmentieren der Handgeste Segmentierung nicht mit Bezug auf die Handgeste an der Zeitposition ausführen, wo die Nicht-Übergangsgeste wahrgenommen wird.
Gemäß einem siebzehnten Aspekt im fünfzehnten Aspekt umfasst die Handgesten-Segmentierungsvorrichtung weiterhin:
eine Kamera zum Fotografieren des Benutzers, die in einer dem Benutzer gegenüber liegenden Position angebracht ist;
Mittel zum visuellen Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer in Bezug auf den Zustand der Detektion der Übergangsgeste und den Zustand der Erkennung der Handgeste; und
Mittel zum Verbergen der Kamera vor der Ansicht des Benutzers.
Wie oben beschrieben, ist im siebzehnten Aspekt die Kamera für die Ansicht des Benutzers unsichtbar. Daher kann der Benutzer nicht unsicher werden und nervös werden, wenn er/sie seine/ihre Handgesten macht. Dementsprechend kann die Segmentierung auf präzise Art und Weise gemacht werden.
Gemäß einem achtzehnten Aspekt im siebzehnten Aspekt umfassen die Mittel zum Anzeigen der Animation einen nach oben gerichteten Monitor, der in einer vertikal niedrigeren Position von einer geraden Linie zwischen dem Benutzer und der Kamera angebracht ist, und
enthalten die Mittel zum Verbergen der Kamera einen Halbspiegel, der es Licht, das aus einer Vorwärtsrichtung kommt, erlaubt durchzugehen, und Licht reflektiert, das aus einer entgegengesetzten Richtung kommt, wobei
der Halbspiegel auf einer geraden Linie zwischen dem Benutzer und der Kamera angebracht ist, und auch in einer vertikal höheren Position vom Monitor, wo ein Winkel von 45 Grad erhalten wird im Verhältnis zur geraden Linie.
Wie oben beschrieben, kann im achtzehnten Aspekt die Kamera in einer einfachen Struktur verborgen werden.
Diese und andere Ziele, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden offensichtlicher werden von der folgenden detaillierten Beschreibung der vorliegenden Erfindung, wenn sie in Zusammenhang mit den angehängten Zeichnungen genommen wird.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Flussdiagramm für ein Handgesten-Erkennungsverfahren, das ein Verfahren des Segmentierens von Handgesten gemäß einer ersten Ausführungsform der vorliegenden Erfindung verwendet.
2 ist ein Blockdiagramm, das beispielhaft die Struktur einer Computervorrichtung zeigt, die das in 1 dargestellte Verfahren realisiert.
3 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentierung von Zeichensprachengesten gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt.
4 ist ein Flussdiagramm für eine beispielhafte Prozedur, die durch die Vorrichtung zur Segmentierung von Zeichensprachengesten in 3 ausgeführt wird.
5 ist ein Diagramm, das beispielhaft Bereichcodes zeigt, die durch einen Körpermerkmals-Extraktionsteil 302 zugeordnet werden.
6 ist ein Diagramm, das beispielhaft Segmentelementdaten zeigt, die in einem Segmentelement-Speicherteil 305 gespeichert sind.
7 ist ein Diagramm, das beispielhaft einen beigen Bereich zeigt, der durch den Körpermerkmals-Extraktionsteil 302 extrahiert wurde.
8 ist ein Diagramm, das beispielhaft Gesichtsbereichinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
9 ist ein Diagramm, das Bedingungen von Gesichtsmerkmalbewegungen für einen Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um einen Merkmalsbewegungscode zu bestimmen.
10 ist ein Diagramm, das beispielhaft einen Bewegungselementparameter zeigt, der für ein Bewegungsmerkmal 602 gesetzt ist.
11 ist ein Diagramm, das beispielhaft Bestimmungscodedaten zeigt, die durch einen Segmentpositions-Bestimmungsteil 304 erzeugt wurden.
12 ist ein Diagramm, das beispielhaft einen beigen Bereich in einem Gesicht zeigt, der durch den Körpermerkmals-Extraktionsteil 302 extrahiert wurde.
13 ist ein Diagramm, das beispielhaft Augenbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
14 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Augen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
15 ist ein Diagramm, das beispielhaft Mundbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
16 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für einen Mund für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
17 ist ein Diagramm, das beispielhaft Handbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
18 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Körper und Handbereich für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
19 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für eine Geste des Berührens des Gesichts mit Hand/Händen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
20 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für eine Änderung in der Effektivität von Händen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
21 ist ein Flussdiagramm, das im selben Verfahren des Segmentierens von Zeichensprachengeste mit der Detektierung von Nicken (siehe 4) zeigt, wie die Segmentierung gemacht wird, während jede Dauer von detektierten Gesten berücksichtigt wird.
22 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentierung von Zeichensprachengesten gemäß einer dritten Ausführungsform der vorliegenden Erfindung zeigt.
23 ist ein Flussdiagramm, das beispielhaft eine Prozedur darstellt, die in der Vorrichtung zur Segmentierung von Zeichensprachengesten in 22 ausgeführt wird.
24 ist ein Flussdiagramm, das beispielhaft eine Prozedur zeigt, die in der Vorrichtung zur Segmentierung von Zeichensprachengesten in 22 ausgeführt wird.
25 ist ein Diagramm, das beispielhaft Nichtsegment-Elementdaten zeigt, die in einem Nichtsegment-Elementspeicherteil 2201 gespeichert sind.
26 ist ein Diagramm, das beispielhaft Nichtsegment-Bewegungsmerkmalsparameter zeigt, die in einem Nichtsegment-Bewegungsmerkmal 2502 gesetzt sind.
27 ist ein Diagramm, das Bedingungen von Nichtsegment-Merkmalsbewegungen für Symmetrie von Zeichensprachengesten für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
28 ist ein Diagramm, das beispielhaft Bedingungen von Nichtsegmentcodes für Symmetrie von Zeichensprachengesten zeigt, die im Nichtsegment-Element-Speicherteil 2201 gespeichert sind.
29 ist ein Diagramm, das beispielhaft eine identische Gestenebenentabelle zeigt, die im Nichtsegment-Elementspeicherteil 2201 gespeichert ist.
30 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Zuführung eines Segmentelements gemäß einer vierten Ausführungsform der vorliegenden Erfindung zeigt (die Vorrichtung zur Zuführung eines Segmentelements ist zusätzlich mit einer nicht dargestellten Zeichensprachenerkennungsvorrichtung und der Vorrichtung zur Segmentierung von Zeichensprachengeste in 3 oder 22 ausgestattet).
31 ist ein Flussdiagramm für eine Prozedur, die in der Vorrichtung zur Zuführung eines Segmentelements in 30 ausgeführt wird.
32 ist ein Diagramm, das beispielhaft Erkennungszustandsinformationen zeigt, die in einen Erkennungsergebniseingabeteil 3001 eingegeben werden.
33 ist ein Diagramm, das beispielhaft Segmentierungszustandsinformationen zeigt, die in den Segmentierungsergebniseingabeteil 3002 eingegeben werden.
34 ist ein Diagramm, das beispielhaft Zuführungssteuerinformationen zeigt, die durch den Teil zur Erzeugung von Zuführungssteuerungsinformationen 3003 erzeugt wurden.
35 ist ein Diagramm, das beispielhaft eine Induktionsregel zeigt, die im Induktionsregel-Speicherteil 3005 gespeichert ist.
36 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Anpassung der Animationsgeschwindigkeit zeigt, die der Segmentelementinduktionsvorrichtung in 30 zur Verfügung gestellt wird.
37 ist ein Diagramm, das beispielhaft eine Geschwindigkeitsanpassungsregel zeigt, die in einem Teil zur Speicherung der Geschwindigkeitsanpassungsregel 3604 gespeichert ist.
38 ist ein schematisches Diagramm, das beispielhaft die Struktur eines Kameraverbergungsteils zeigt, der der Segmentelementinduktionsvorrichtung in 22 zur Verfügung gestellt wird.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Die Ausführungsformen der vorliegenden Erfindung werden unten als Nächstes beschrieben unter Bezugnahme auf die angehängten Zeichnungen.
(Erste Ausführungsform)
1 ist ein Flussdiagramm für ein Handgesten-Erkennungsverfahren, das ein Verfahren des Segmentierens von Handgesten gemäß einer ersten Ausführungsform der vorliegenden Erfindung verwendet. 2 ist ein Blockdiagramm, das eine beispielhafte Struktur einer Computervorrichtung zeigt, die das in 1 gezeigte Verfahren realisiert.
In 2 enthält die Computervorrichtung eine CPU 201, einen RAM 202, einen Programmspeicherteil 203, einen Eingabeteil 204, einen Ausgabeteil 205, einen Fotografierteil 206, einen Bildspeicherteil 207, einen Zeichensprachen-Handgesten-Speicherteil 208 und einen Übergangsgesten-Speicherteil 209.
Die Computervorrichtung in 2 erkennt zunächst Handgesten eines Benutzers für Zeichensprache und führt dann ein vorbestimmtes Verarbeiten durch. Genauer wird angenommen, dass so eine Computervorrichtung ein universelles Personal Computer-System ist, in dem vorbestimmte Programmdaten installiert sind und eine Kamera angeschlossen ist, so dass Eingabe und automatische Übersetzung von Zeichensprache realisiert wird. Die Computervorrichtung kann ein beliebiges Heimelektrogerät beinhalten, das mit einem Mikrocomputer verbunden ist, der die Stromversorgung an/abschaltet oder Betriebsmodi auswählt, die den Handgesten des Benutzers entsprechen.
Das Handgesten-Erkennungsverfahren in 1 umfasst Handgesten-Segmentierungsverarbeitung zum Segmentieren der detektierten Handgesten in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl von Wörtern strukturiert sind, wenn sie die Handgesten des Benutzers erkennt.
Die vorliegende Erfindung wird hier wie folgt um der Klarheit willen zusammengefasst.
Wie in der Hintergrundtechnik beschrieben, werden, um durch Zeichensprache zu sprechen, mehrere Teile von Wörtern für Zeichensprache im Allgemeinen verwendet, um einen Satz zu bilden. Jedes Zeichensprachenwort wird durch Kombinieren von einer oder mehreren Einheitsgesten strukturiert. Andererseits detektiert die Computervorrichtung die Handgesten des Benutzers als eine Serie von Ein heitsgesten. Um daher die Computervorrichtung zu veranlassen, die Handgesten zu erkennen, ist es nötig, die Serie von Einheitsgesten irgendwie in Wörter zu segmentieren, wie sie durch den Benutzer beabsichtigt waren.
Im herkömmlichen Segmentierungsverfahren macht der Benutzer eine Pause zwischen einer Geste, die einem bestimmten Wort entspricht, und einer Geste, die einem anderen entspricht, das folgt, während die Computervorrichtung so eine Pause detektiert, so dass die Serie von Einheitsgesten segmentiert wird. Mit anderen Worten wird erwartet, dass der Benutzer anzeigt, wo segmentiert werden soll.
Wenn Leute durch Zeichensprache mit Blickkontakt sprechen, werden die Wörter nacheinander ausgedrückt. Die Erfinder der vorliegenden Erfindung haben bemerkt, dass eine Person, die durch Zeichensprache spricht, sich unbewusst auf eine bestimmte Art und Weise zwischen einer Geste, die einem bestimmten Wort entspricht, und einer Geste, die einem anderen Wort entspricht, das folgt, bewegt, etwa Blinzeln, Schließen seines/ihres Mundes oder Nicken (im Folgenden wird jede Geste, die durch den Benutzer unbewusst zwischen Wörtern gemacht wird, als Übergangsgeste bezeichnet). Die Übergangsgeste umfasst auch jede Pause, die spontan zwischen Wörtern gemacht wird. So eine Übergangsgeste wird während Handgesten, die einem einzigen Wort entsprechen, kaum wahrgenommen. Daher haben die Erfinder der vorliegenden Erfindung vorgeschlagen, die Übergangsgesten zum Segmentieren von Handgesten zu verwenden.
Genauer detektiert im Verfahren in 1 die Computervorrichtung gleichzeitig die Übergangsgeste, wenn sie die Zeichensprachen-Handgesten des Benutzers detektiert. Danach findet die Computervorrichtung eine Zeitposition, wo die Übergangsgeste nicht beobachtet wird, so dass die Handgesten (d.h., eine Folge von Einheitsgesten) in Wörter oder begreifliche Einheiten segmentiert werden. Folglich muss anders als im herkömmlichen Segmentierungsverfahren der Benutzer nicht anzeigen, wo segmentiert werden soll.
Wieder Bezug nehmend auf 2 enthält der Programmspeicherteil 203 Programmdaten zum Realisieren des Verarbeitens, das durch das Flussdiagramm in 1 dargestellt ist. Die CPU 201 führt das in 1 dargestellte Verarbeiten in Übereinstimmung mit den Programmdaten durch, die im Programmspeicherteil 203 gespeichert sind. Der RAM 202 speichert Daten, die zum Verarbeiten in der CPU 201 nötig sind, oder Arbeitsdaten, die zum Beispiel in der Verarbeitung erzeugt werden.
Der Eingabeteil 204 umfasst eine Tastatur oder eine Maus und gibt verschiedene Arten von Anweisungen und Daten in die CPU 201 gemäß einer Operation des Bedieners ein. Der Ausgabeteil 205 umfasst eine Anzeige oder einen Zeichner und gibt das Verarbeitungsergebnis der CPU 201 und Ähnliches in Form von Video oder Audio aus.
Der Fotografierteil 206 umfasst mindestens eine Kamera und fotografiert die Gesten des Benutzers. Eine Kamera ist ausreichend für einen Fall, in dem die Gesten des Benutzers zweidimensional erfasst werden, aber sie ist nicht ausreichend im dreidimensionalen Fall. In so einem Fall werden zwei Kameras benötigt.
Der Bildspeicherteil 207 speichert Bilder, die vom Fotografierteil 206 ausgegeben werden für eine Mehrzahl von Rahmen. Der Zeichensprachen-Handgesten-Speicherteil 208 umfasst Zeichensprachen-Merkmalsdaten, die Merkmale von Handgesten für Zeichensprache ausdrücken. Der Übergangsgesten-Speicherteil 209 umfasst Übergangsmerkmalsdaten, die Merkmale von Übergangsgesten ausdrücken.
Die folgenden drei Verfahren werden betrachtet, um Programmdaten im Programmspeicherteil 203 zu speichern. In einem ersten Verfahren werden Daten von einem Speichermedium, in dem die Programmdaten vorher gespeichert waren, gelesen und dann im Programmspeicherteil 203 gespeichert. In einem zweiten Verfahren werden Programmdaten, die über eine Kommunikationsschaltung über tragen werden, empfangen und dann im Programmspeicherteil 203 gespeichert. In einem dritten Verfahren werden Programmdaten im Programmspeicherteil 203 im Voraus vor der Auslieferung der Computervorrichtung gespeichert.
Man beachte, dass die Zeichensprachen-Merkmalsdaten und die Übergangsmerkmalsdaten entsprechend sowohl im Zeichensprachen-Handgesten-Speicherteil 208 als auch im Übergangsgesten-Speicherteil 209 gespeichert werden können, auf ähnliche Art und Weise wie im obigen ersten und dritten Verfahren.
Im Folgenden wird eine Beschreibung gemacht werden, wie die Computervorrichtung, die wie oben erwähnt aufgebaut ist, betrieben wird, unter Bezugnahme auf das Flussdiagramm in 1.
Als Erstes beginnt der Fotografierteil 206, einen Benutzer zu fotografieren (Schritt S101). Bilddaten, die vom Fotografierteil 206 ausgegeben werden, werden im Bildspeicherteil 207 zu vorbestimmten Abtastintervallen (zum Beispiel 1/30 Sekunden) gespeichert (Schritt S102). Einzelne Rahmen von Bilddaten, die im Bildspeicherteil 207 gespeichert werden, werden seriell nummeriert (Rahmennummer) in Art einer Zeitserie.
Als Zweites extrahiert die CPU 201 Daten, die den Händen des Benutzers entsprechen, entsprechend aus den Rahmen der Bilddaten, die im Bildspeicherteil 207 in Schritt S102 gespeichert wurden (Schritt S103). Dann detektiert die CPU 201 Bewegungen der Hände des Benutzers in Übereinstimmung mit den in Schritt S103 extrahierten Daten (Schritt S104). Diese Schritte S103 und S104 werden später detaillierter beschrieben werden.
Danach extrahiert die CPU 201 Daten, die dem spezifischen Körperteil des Benutzers entsprechen, aus den Bilddaten, die im Bildspeicherteil 207 in Schritt S102 gespeichert wurden (Schritt S105). In diesem Beispiel umfasst der spezifische Teil zum Beispiel Augen, Mund, Gesicht (Umriss) und Körper, wo die oben erwähnte Übergangsgeste beobachtet wird. In Schritt S105 werden Daten, die mindestens einem spezifischen Teil, vorzugsweise einer Mehrzahl davon entsprechen, extrahiert. In diesem Beispiel wird angenommen, dass Daten extrahiert werden, die Augen, Mund, Gesicht und Körper entsprechen.
Als Nächstes detektiert die CPU 201 Bewegungen der jeweiligen Teile in Übereinstimmung mit den in Schritt S105 extrahierten Daten (Schritt S106). Die Übergangsgesten werden in Händen wahrgenommen sowie Augen, Mund, Gesicht oder Körper. Man beachte, dass für Bewegungen der Hände das in Schritt S104 detektierte Ergebnis angewendet wird.
Im Folgenden wird im Detail beschrieben werden, wie Daten in den Schritten S103 und S105 extrahiert werden, und wie Bewegungen in den Schritten S104 und S106 detektiert werden.
Daten werden beispielhaft extrahiert wie folgt in den Schritten S103 und S105.
Als Erstes teilt die CPU 201 die im Bildspeicherteil 207 gespeicherten Bilddaten in eine Mehrzahl von Bereiche auf, denen jeweils die Körperteile des Benutzers entsprechen. In diesem Beispiel werden die Bilddaten in drei Bereiche aufgeteilt: einen Handbereich, der die Hände umfasst; einen Gesichtsbereich, der ein Gesicht umfasst; und einen Körperbereich, der einen Körper umfasst. Diese Bereichsaufteilung wird beispielhaft wie folgt vorgenommen.
Der Benutzer gibt eine Farbe eines zu extrahierenden Teils in die CPU 201 durch den Eingabeteil 204 ein. Im Detail wird die Handfarbe (zum Beispiel Beige) in Schritt S103 eingegeben, während die Farbe des Augenweiß (zum Beispiel Weiß) die Lippenfarbe (zum Beispiel Dunkelrot), die Gesichtsfarbe (zum Beispiel Beige) und die Kleidungsfarbe (zum Beispiel Blau) in Schritt S105 eingegeben werden.
In Antwort darauf nimmt die CPU 201 auf eine Mehrzahl von Pixeldaten Bezug, die die Bilddaten in den entsprechenden Bereichen bilden, und beurteilt dann, ob jede Farbe, die durch die Pixeldaten angezeigt wird, identisch oder ähnlich der durch den Benutzer bezeichneten Farbe ist oder nicht, und wählt dann nur die Pixeldaten aus, die als positiv beurteilt werden.
Mit anderen Worten, in Schritt S103 werden nur die Daten, die beige anzeigen, aus den Pixeldaten ausgewählt, die zum Handbereich gehören. Daher können auf diese Weise die Daten extrahiert werden, die den Händen entsprechen.
In Schritt S105 werden nur die Daten, die Weiß anzeigen, aus dem Gesichtsbereich ausgewählt. Daher können die Daten, die den Augen entsprechen (deren Weiß) extrahiert werden. Da nur die Daten, die Dunkelrot anzeigen, aus dem Gesichtsbereich ausgewählt werden, können ähnlich die Daten, die dem Mund (Lippen) entsprechen, extrahiert werden. Weiterhin können, da nur die Daten, die Beige anzeigen, aus dem Gesichtsbereich ausgewählt werden, die Daten, die dem Gesicht entsprechen, extrahiert werden. Weiterhin noch können, da nur die Daten, die Blau anzeigen, aus dem Körperbereich ausgewählt werden, die Daten extrahiert werden, die dem Körper (der Kleidung) entsprechen.
Bewegungen werden wie folgt in Schritt S104 detektiert.
Die CPU 201 vergleicht die Daten, die aus den entsprechenden Rahmen in Schritt S103 extrahiert wurden, um Bewegungen der Hände in den entsprechenden Rahmen zu detektieren. Danach kodiert die CPU 201 die detektierten Bewegungen, indem sie einer vorbestimmten Prozedur folgt.
Dementsprechend sind die Bewegungen der Hände, die in Schritt S104 detektiert wurden, in der Form einer Codekette, die jeweils durch eine Mehrzahl von Gestencodes aufgebaut sind, die für Hände vorbestimmt sind. Die Gestencodeketten werden vorübergehend im RAM 202 gespeichert.
Bewegungen werden in Schritt S106 wie folgt detektiert.
Die CPU 201 vergleicht die Daten, die aus den entsprechenden Rahmen in Schritt S105 extrahiert wurden, um Bewegungen der Augen, des Mundes, des Gesichts und des Körpers in den entsprechenden Rahmen zu detektieren. Danach kodiert die CPU 201 die detektierten Bewegungen, indem sie einer vorbestimmten Prozedur folgt.
Dementsprechend sind die Bewegungen der jeweiligen Teile (Augen, Mund, Gesicht und Körper), die im Schritt S106 detektiert wurden, in der Form einer Codekette, die jeweils durch eine Mehrzahl von Gestencodes strukturiert ist, die für die Teile vorbestimmt sind. Die Gestencodeketten werden vorübergehend im RAM 202 gespeichert.
Bezug nehmend wieder auf die 2 wird dann das Verarbeiten beschrieben, das vom Schritt S107 an auszuführen ist.
Die CPU 201 liest die Übergangsmerkmalsdaten vom Übergangsmerkmals-Speicherteil 209, um diese mit den Bewegungen der entsprechenden Teile zu vergleichen, die in Schritt S106 detektiert wurden. Zu diesem Zeitpunkt werden die Übergangsmerkmalsdaten mit der Mehrzahl an Gestencodes beschrieben, die in den Schritten S104 und S106 verwendet werden, um die Bewegungen der Körperteile des Benutzers darzustellen. Danach beurteilt die CPU 201, ob irgendeine Bewegung der entsprechenden Teile (Augen, Mund, Gesicht oder Körper) identisch zu oder ähnlich den Übergangsgesten (Blinzeln, Schließen eines Mundes, Nicken oder Stoppen der Hand- oder Körperbewegung) ist (Schritt S107).
Im Detail sucht die CPU 201 nach Gestencodeketten der entsprechenden Teile, die im RAM 202 gespeichert sind, und beurteilt dann, ob irgendeine Gestencode kette identisch zu oder ähnlich den Gestencodes oder Gestencodeketten der Übergangsmerkmalsdaten ist.
Wenn die in Schritt S107 gemachte Beurteilung negativ ist, geht die Prozedur nach Schritt S109 weiter.
Wenn die in Schritt S107 gemachte Beurteilung positiv ist, bestimmt die CPU 201 eine Position, an der die Handgesten, die in Schritt S104 detektiert wurden, in Wörter segmentiert werden (Schritt S108). Dieses Verarbeiten zum Bestimmen der Segmentierungsposition wird wie folgt ausgeführt.
Als Erstes wählt die CPU 201 irgendeine Bewegung der entsprechenden Teile aus, die identisch zu oder ähnlich der Übergangsgeste ist, als eine potentielle Segmentierungsposition. Genauer sucht die CPU 201 nach Gestencodeketten der entsprechenden Teile, die im RAM 202 gespeichert sind, detektiert alle Gestencodeketten, die identisch zu oder ähnlich den Gestencodes oder Gestencodeketten der Übergangsmerkmalsdaten sind und spezifiziert dann jede Zeitposition davon mit Rahmennummer. Die auf diese Weise spezifizierte Zeitposition wird im Folgenden potentielle Segmentierungsposition genannt.
Als Nächstes vergleicht die CPU 201 die potentiellen Segmentierungspositionen, die für die entsprechenden Teile ausgewählt wurden, miteinander in der oben erwähnten Art und Weise, dann bestimmt sie, wo die Handgesten (eine Folge von Einheitsgesten), die im Schritt S104 detektiert wurden, zu segmentieren sind, durch Bezugnahme auf den Vergleich.
Um Blinzeln als ein Beispiel zu nehmen, wird der Augenblick, an dem die Augenlider gesenkt werden (in anderen Worten, der Zeitpunkt, zu dem das Weiß der Augen unsichtbar wird) als die potentielle Segmentierungsposition betrachtet. Was eine Bewegung des Schließens eines Mundes betrifft, wird der Augenblick, an dem die Lippen geschlossen werden, als die potentielle Position betrachtet.
Was Nicken betrifft, wird der Augenblick, an dem das untere Ende des Gesichts seine Bewegung von nach unten zu nach oben ändert (der Augenblick, zu dem die Kinnspitze den niedrigsten Punkt erreicht) als die potentielle Position betrachtet. Was das Stoppen der Bewegung zum Beispiel von Händen betrifft, wird der Augenblick, an dem die Hände aufhören, sich zu bewegen, als die potentielle Position betrachtet. Was das Stoppen der Bewegung zum Beispiel des Körpers betrifft, wird der Augenblick, an dem der Körper aufhört, sich zu bewegen, als die potentielle Position betrachtet.
Nachdem diese potentiellen Positionen, die von den entsprechenden Teilen ausgewählt wurden, miteinander verglichen wurden, wenn zwei oder mehr potentielle Positionen in derselben Position oder näher als ein vorbestimmtes Intervall sind, bestimmt die CPU 201 die Position als die Segmentierungsposition. Genauer, wenn zwei oder mehr potentielle Positionen an derselben Position liegen, wird die Position als die Segmentierungsposition betrachtet. Wenn zwei oder mehr potentielle Positionen näher zueinander sind, wird eine Durchschnittsposition davon als die Segmentierungsposition betrachtet (oder irgendeine Position davon kann als die Segmentierungsposition betrachtet werden).
In Schritt S109 wird Verarbeiten zum Übersetzen der Handgesten, die in Schritt S104 detektiert wurden, ausgeführt unter Bezugnahme auf die Segmentierungsposition, die in Schritt S108 bestimmt wurde.
Insbesondere segmentiert die CPU 201 die in Schritt S104 detektierten Handgesten an der Segmentierungsposition, die in Schritt S108 bestimmt wurde, und übersetzt dann Zeichensprachenwörter, die dadurch erhalten werden, während sie diese mit den Zeichensprachenmerkmalsdaten vergleicht, die im Zeichensprachen-Handgesten-Speicherteil 208 gespeichert sind. In diesem Beispiel werden die Zeichensprachen-Merkmalsdaten mit der Mehrzahl von Gestencodes beschrieben, die in Schritt S104 verwendet wurden, um die Handgesten zu machen.
Danach bestimmt die CPU 201, ob sie die Operation beendet oder nicht (Schritt S110). Wenn die Bestimmung negativ ist, wird das Verarbeiten, das in Schritt S101 und danach ausgeführt wurde, wiederholt. Wenn positiv, wird die Operation beendet.
Wie aus dem Obigen bekannt ist, werden gemäß dieser Ausführungsform die Handgesten in Übereinstimmung mit der Übergangsgeste segmentiert, die im Körper des Benutzers beobachtet wird, wenn der Benutzer seine/ihre Geste von einer Geste, die ein Wort repräsentiert, in eine Geste übergehen lässt, die ein anderes darstellt, aber nicht während Gesten, die ein einziges Wort darstellen. Daher kann die Computervorrichtung ohne die Darstellung des Benutzers, wo segmentiert werden soll, die detektierten Handgesten automatisch in Wörter oder begreifliche Einheiten, die aus einer Mehrzahl von Wörtern bestehen, segmentieren.
Während in der ersten Ausführungsform die Bilddaten in drei Bereiche aufgeteilt wurden, den Handbereich einschließlich der Hände, den Gesichtsbereich einschließlich eines Gesichts und den Körperbereich einschließlich eines Körpers, um daraus Daten zu extrahieren, die den entsprechenden Körperteilen des Benutzers entsprechen, können die Bilddaten in vier Bereiche aufgeteilt werden, in denen zusätzlich ein bedeutungsloser Handbereich enthalten ist. In diesem Beispiel ist der bedeutungslose Handbereich eine Entsprechung zum unteren Teil eines Bildschirms des Ausgabeteils 205, in dem die Hände des Benutzers platziert werden mit seinen/ihren Armen in niedriger Position.
Solange die Hände im bedeutungslosen Handbereich wahrgenommen werden, beurteilt die Computervorrichtung, dass der Benutzer nicht durch Zeichensprache spricht. Umgekehrt beurteilt die Computervorrichtung in dem Augenblick, in dem die Hände aus dem bedeutungslosen Handbereich herauskommen, dass begonnen wird, Handgesten zu machen. Auf diese Weise kann die Computervorrichtung somit korrekt erkennen, wann der Benutzer beginnt, Handgesten zu machen. Weiterhin kann die Computervorrichtung eingestellt werden, das Hinein in/Hinaus aus dem bedeutungslosen Handbereich als die Übergangsgeste zu detektieren, um diese für Segmentierung zu verwenden.
Während mindestens eine der Bewegungen, wie etwa Blinzeln, Schließen eines Mundes, Nicken, Stoppen der Bewegung von Händen oder Körper in der ersten Ausführungsform als die Übergangsgeste zum Bestimmen, wo segmentiert werden soll, detektiert wurde(n), ist die Übergangsgeste darauf nicht beschränkt. Zum Beispiel kann eine Bewegung des Berührens eines Gesichts mit einer Hand/Händen als eine Übergangsgeste betrachtet werden. In Zeichensprache werden nämlich oft Gesten, wie das Bringen einer Hand/von Händen näher an ein Gesicht oder das Bewegen einer Hand/von Händen weg vom Gesicht am Anfang eines Worts beobachtet oder an dessen Ende.
Weiterhin kann, um die Segmentierungsposition zu bestimmen, eine Dauer einer Übergangsgeste in der ersten Ausführungsform berücksichtigt werden. Zum Beispiel wird die Dauer, während der die Hände sich nicht bewegen, mit einem vorbestimmten Schwellenwert verglichen. Wenn die Dauer länger als der Schwellenwert ist, wird sie als die Übergangsgeste bestimmt und sie wird verwendet, um die Segmentierungsposition zu bestimmen. Wenn die Dauer kürzer als der Schwellenwert ist, wird sie nicht als die Übergangsgeste bestimmt und somit nicht berücksichtigt. Auf diese Weise kann Segmentierung mit verbesserter Präzision gemacht werden.
Weiterhin wird in der ersten Ausführungsform noch eine Nicht-Übergangsgeste gespeichert, sowie die Übergangsgeste, um die Segmentierungsposition in Übereinstimmung damit zu bestimmen. Hier bedeutet eine Nicht-Übergangsgeste eine Geste, die nicht im Körper des Benutzers beobachtet wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste beobachtet wird, die ein Wort darstellt. Die Nicht-Übergangsgeste kann eine Geste des Hände einander näher Bringens oder zum Beispiel eine Geste des Änderns der Mundform beinhalten.
Im Detail ist die Computervorrichtung in 2 weiterhin mit einem Teil zur Speicherung einer Nicht-Übergangsgeste (nicht dargestellt) ausgestattet, und die Nicht-Übergangsmerkmalsdaten, die Merkmale einer Nicht-Übergangsgeste anzeigen, werden dort gespeichert. Danach werden in Schritt S106 in 1 sowohl eine Übergangsgeste als auch eine Nicht-Übergangsgeste detektiert. Die Nicht-Übergangsgeste kann auf ähnliche Weise wie die Übergangsgeste detektiert werden. Dann werden in Schritt S108 die Handgesten in Übereinstimmung mit der Übergangsgeste und der Nicht-Übergangsgeste segmentiert, die beide in Schritt S106 detektiert wurden.
Genauer wird in der ersten Ausführungsform, wenn die potentiellen Segmentierungspositionen, die für die jeweiligen Teile ausgewählt wurden, verglichen werden und gefunden wird, dass zwei oder mehr in der gleichen Position oder näher als ein vorbestimmtes Intervall sind, die Segmentierungsposition in Übereinstimmung damit bestimmt (mit anderen Worten, die übereinstimmende Position oder eine mittlere Position der benachbarten potentiellen Positionen wird als die Segmentierungsposition bestimmt). Dies ist jedoch nicht auf einen Fall anwendbar, wenn die Nicht-Übergangsgeste als gleichzeitig detektiert betrachtet wird. Das heißt, dass für die Dauer der Nicht-Übergangsgeste Segmentierung nicht gemacht wird, selbst wenn die Übergangsgeste detektiert wird. Auf diese Weise kann Segmentierung mit verbesserter Präzision gemacht werden.
Weiterhin noch können in der ersten Ausführungsform, um die Computervorrichtung die Übergangsgeste auf eine präzise Art und Weise detektieren zu lassen, Animationsbilder zum Anleiten eines Benutzers, eine korrekte Übergangsgeste zu machen (in anderen Worten, Übergangsgesten, die für eine Computervorrichtung erkennbar sind), auf dem Bildschirm des Ausgabeteils 205 angezeigt werden.
Im Detail werden in der Computervorrichtung in 2 Animationsbilddaten, die jede Übergangsgeste darstellen, vorher in einem Animationsspeicherteil (nicht dargestellt) gespeichert. Die CPU 201 bestimmt dann, welche Übergangsgeste dem Benutzer dargestellt werden soll, auf der Grundlage des Zustands der Übergangsgestendetektion (zum Beispiel, dass die Detektionsfrequenz einer bestimmten Übergangsgeste besonders niedrig ist) und des Zustands von Handgestenerkennung, ob die Handgesten erkannt werden oder nicht (nachdem sie gemäß der detektierten Übergangsgeste segmentiert wurden). Danach liest die CPU 201 die Animationsbilddaten, die die ausgewählte Übergangsgeste darstellt, aus dem Animationsspeicherteil aus, um diese an den Ausgabeteil 205 auszugeben. Auf diese Weise zeigt der Bildschirm des Ausgabeteils 205 eine Animation an, die jede Übergangsgeste darstellt, und der Benutzer korrigiert seine/ihre Übergangsgeste, während er auf die angezeigte Animation Bezug nimmt.
(Zweite Ausführungsform)
3 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentierung von Zeichensprachengesten gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt.
In 3 umfasst die Vorrichtung zur Segmentierung von Zeichensprachengesten einen Bildeingabeteil 301, einen Körpermerkmals-Extraktionsteil 302, einen Merkmalsbewegungs-Nachverfolgungsteil 303, einen Segmentpositions-Bestimmungsteil 304 und einen Segmentelement-Speicherteil 305.
Die Vorrichtung zur Segmentierung von Zeichensprachengesten kann zum Beispiel in eine Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt) eingebaut sein. Die Vorrichtung kann auch in eine Computervorrichtung, wie etwa ein Heimelektrogerät oder einen Ticketautomaten eingebaut sein.
Der Bildeingabeteil 301 empfängt Bilder, die von einer Bildeingabevorrichtung, wie etwa einer Kamera, aufgenommen werden. In diesem Beispiel ist eine einzige Bildeingabevorrichtung ausreichend, da die Gesten eines Zeichners zweidimensional erfasst werden, wenn nicht anders spezifiziert.
Der Bildeingabeteil 301 empfängt Körperbilder des Zeichners. Den Bildern, die vom Bildeingabeteil 301 eingegeben werden (nachfolgend eingegebenes Bild) wird jeweils eine Nummer für jeden Rahmen zugeordnet, dann werden sie an den Körpermerkmals-Extraktionsteil 302 übertragen. Der Segmentelement-Speicherteil 305 umfasst vorher gespeicherte Körpermerkmale und Bewegungsmerkmale als Elemente zur Segmentierung (nachfolgend Segmentelement).
Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die den Körpermerkmalen entsprechen, die im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern. Der Merkmalsbewegungs-Nachverfolgungsteil 303 berechnet Bewegungen der Körpermerkmale auf der Grundlage der extrahierten Bilder und überträgt dann Bewegungsinformationen, die die Berechnung anzeigen, an den Segmentpositions-Bestimmungsteil 304. Der Segmentpositions-Bestimmungsteil 304 findet eine Segmentierungsposition in Übereinstimmung mit den übertragenen Bewegungsinformationen und den Bewegungsmerkmalen, die im Segmentelement-Speicherteil 305 gespeichert sind, und gibt dann eine Rahmennummer aus, die die Segmentierungsposition anzeigt.
Hier können der Bildeingabeteil 301, der Körpermerkmals-Extraktionsteil 302, der Merkmalsbewegungs-Nachverfolgungsteil 303 und der Segmentierungspositions-Bestimmungsteil 304 mit einem einzigen oder einer Mehrzahl von Computer realisiert werden. Der Segmentelement-Speicherteil 305 kann mit einer Speichervorrichtung, wie etwa einer Festplatte, CD-ROM oder DVD realisiert werden, die mit dem Computer verbunden ist.
Im Folgenden wird eine Beschreibung gemacht werden, wie die Vorrichtung zur Segmentierung von Zeichensprachengesten, die auf die oben beschriebene Art und Weise aufgebaut ist, betrieben wird, um Verarbeitung auszuführen.
4 zeigt ein Flussdiagramm einer beispielhaften Prozedur, die von der Vorrichtung zur Segmentierung von Zeichensprachengesten in 3 ausgeführt wird.
Die jeweiligen Schritte, die in 4 gezeigt werden, werden wie folgt ausgeführt.
[Schritt S401]
Der Bildeingabeteil 301 empfängt eingegebene Bilder für einen Rahmen, wenn es welche gibt. Eine Rahmennummer i wird dann um "1" inkrementiert und die eingegebenen Bilder werden an den Körpermerkmals-Extraktionsteil 302 übertragen. Danach geht die Prozedur zu Schritt S402.
Wenn es keine eingegebenen Bilder gibt, wird die Rahmennummer i auf "0" gesetzt, und dann wird eine Bestimmungscodenummer j auf "1" gesetzt. Danach wiederholt die Prozedur Schritt S401.
[Schritt S402]
Der Körpermerkmals-Extraktionsteil 302 teilt einen räumlichen Bereich gemäß dem Körper des Zeichners auf. Der räumliche Bereich wird zum Beispiel auf ähnliche Art und Weise wie im Verfahren aufgeteilt, das in "Method of detecting start position of gestures" (Verfahren zum Detektieren einer Startposition von Gesten) ( japanische Patentoffenlegungsschrift Nr. 9-44668 ) offenbart ist.
Insbesondere detektiert der Körpermerkmals-Extraktionsteil 302 zuerst einen Bereich des menschlichen Körpers in Übereinstimmung mit einen Farbunterschied zwischen dem Hintergrund und dem Zeichner in den Bilddaten und teilt dann den räumlichen Bereich um den Zeichner entlang eines Umrisses des detektierten Be reichs des menschlichen Körpers auf. Danach wird ein Bereichscode jeweils jedem Bereich zugeordnet, der nach der Aufteilung erhalten wird.
5 ist ein Diagramm, das beispielhafte Bereichscodes zeigt, die vom Körpermerkmals-Extraktionsteil 302 zugeordnet wurden.
In 5 wird ein eingegebenes Bild 501 (räumlicher Bereich) durch einen Umriss 502 des Bereichs eines menschlichen Körpers, einen Kopf, der ein Rechteck 503 umschreibt, eine Halslinie 504, eine Körperlinie links 505, eine Körperlinie rechts 506 und eine Linie 507 zum Entscheiden eines bedeutungslosen Handbereichs aufgeteilt.
Genauer gesagt detektiert der Körpermerkmals-Extraktionsteil 302 zunächst eine Position des Halses durch Bezugnahme auf den Umriss 502 des Bereichs des menschlichen Körpers und zeichnet die Halslinie 504 an der Position des Halses parallel zur X-Achse. Danach zeichnet der Körpermerkmals-Extraktionsteil 302 die Linie 507 zur Entscheidung des bedeutungslosen Handbereichs parallel zur X-Achse, deren Höhe gleich einem Wert ist, der durch Multiplizieren der Höhe der Halslinie 504 von der Unterseite des Bildschirms mit einem Bedeutungslos-Handentscheidungsverhältnis erhalten wird. Das Bedeutungslos-Handentscheidungsverhältnis ist ein Parameter, der verwendet wird, um zu bestätigen, dass die Hände effektiv sind. Wenn daher die Hände unter die Bedeutungslos-Handentscheidungslinie 507 platziert werden, wird die Handgeste, die zu diesem Zeitpunkt durchgeführt wird, als ungültig bestimmt, d.h., die Hände bewegen sich nicht, selbst wenn die Handgeste durchgeführt wird. Das Bedeutungslos-Handentscheidungsverhältnis wird hier auf etwa 1/5 gesetzt.
Als Nächstes wird jedem Bereich, der durch die Aufteilung im Vorangegangenen erhalten wird, ein Bereichscode zugeordnet. Jede Nummer in einem Kreis, die in der Zeichnung gefunden wird, ist ein Bereichscode. In dieser Ausführungsform werden die Zeichencodes, wie in 5 gezeigt, zugeteilt. Genauer gesagt, ist ein Bereich außerhalb des Kopfs, der das Rechteck 503 umschreibt und über der Halslinie 504 ist ➀, ein Bereich innerhalb des Kopfs, der das Rechteck 503 umschreibt, ist ➁ und ein Bereich zwischen der Halslinie 504 und der Bedeutungslos-Handentscheidungslinie 507, der sich links von der Körperlinie links 505 befindet, ist ➂, ein Bereich, der von der Halslinie 504 der Bedeutungslos-Handentscheidungslinie 507 der Körperlinie links 505 und der Körperlinie rechts 506 eingeschlossen wird, ist ➃, ein Bereich zwischen der Halslinie 504 und der Bedeutungslos-Handentscheidungslinie 507, der sich rechts von der Körperlinie rechts 506 befindet, ist ➄ und ein Bereich unterhalb der Bedeutungslos-Handentscheidungslinie 507 ist ➅.
Danach geht die Prozedur zu Schritt S403.
[Schritt S403]
Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die den Körpermerkmalen entsprechen, die im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern. Die auf diese Weise extrahierten Bilder werden nachfolgend als extrahierte Körpermerkmale bezeichnet.
6 ist ein Diagramm, das beispielhafte Segmentelementdaten zeigt, die im Segmentelement-Speicherteil 305 gespeichert sind.
In 6 umfassen die Segmentelementdaten ein Körpermerkmal 601 und ein Bewegungsmerkmal 602. Das Körpermerkmal 601 umfasst ein oder mehrere Körpermerkmale. In diesem Beispiel umfasst das Körpermerkmal 601 einen Gesichtsbereich; Augen; Mund; Handbereich und Körper; Handbereich und Gesichtsbereich und Handbereich.
Das Bewegungsmerkmal 602 wird auf Bewegungsmerkmale gesetzt, die jeweils den Körpermerkmalen entsprechen, die im Körpermerkmal 601 gefunden werden.
Genauer wird die Kinnspitze, wenn genickt wird, als dem Gesichtsbereich entsprechend gesetzt, Blinzeln wird als den Augen entsprechend gesetzt, Ändern der Form des Mundes wird als dem Mund entsprechend gesetzt, eine Pause wird als dem Handbereich und dem Körper entsprechend gesetzt, eine Bewegung des Berührens des Gesichts mit Hand/Händen wird als dem Handbereich oder dem Gesichtsbereich entsprechend gesetzt und ein Punkt, an dem sich die Wirksamkeit von Händen ändert, wird als dem Handbereich entsprechend gesetzt.
Der Körpermerkmals-Extraktionsteil 302 detektiert die Körpermerkmale, die im Körpermerkmal 601 als die extrahierten Körpermerkmale gesetzt wurden. Wenn das Körpermerkmal 601 zum Beispiel als der "Gesichtsbereich" gesetzt ist, extrahiert der Körpermerkmals-Extraktionsteil 302 den Gesichtsbereich als die extrahierten Körpermerkmale.
Hier wird jetzt eine Beschreibung gemacht, wie der Gesichtsbereich extrahiert wird.
Der Körpermerkmals-Extraktionsteil 302 extrahiert zuerst einen beigen Bereich aus den eingegebenen Bildern in Übereinstimmung mit der RGB-Farbinformation. Dann nimmt der Körpermerkmals-Extraktionsteil 302 aus dem beigen Bereich alle Teile heraus, die einen Bereich überlagern, dessen Bereichscode ➁ (Kopfbereich) ist, der durch die Aufteilung in Schritt S402 erhalten wurde, und betrachtet den Teil als den Gesichtsbereich.
7 ist ein Diagramm, das einen beispielhaften beigen Bereich zeigt, der durch den Körpermerkmals-Extraktionsteil 302 extrahiert wurde. Wie in 7 gezeigt, umfasst der beige Bereich einen beigen Bereich für Gesicht 702 und einen beigen Bereich für Hände 703. Dementsprechend ist die Extraktion, die gemäß den RGB-Farbinformationen gemacht wurde, nicht ausreichend, da sowohl beige Regionen für Gesicht 702 und Hände 703 ununterscheidbar extrahiert werden. Daher wird, wie in 5 gezeigt, das eingegebene Bild vorher in Bereiche ➀ bis aufgeteilt, und nur der Teil, der den Kopfbereich 701 überlagert, (Bereich ➁ in 5) wird aus den extrahierten beigen Bereichen genommen. Auf diese Weise wird der beige Bereich für Gesicht 702 somit erhalten.
Als Nächstes erzeugt der Körpermerkmals-Extraktionsteil 302 Gesichtsbereichinformationen. Das heißt, der Körpermerkmals-Extraktionsteil 302 setzt i-te Gesichtsbereichsinformationen face [i] mit einem Schwerpunkt, Gebiet, einer Längs-Maximallänge und einer Vertikal-Maximallänge des extrahierten Gesichtsbereichs.
8 ist ein Diagramm, das beispielhafte Gesichtsbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
In 8 umfassen die Gesichtsbereichsinformationen Schwerpunktkoordinaten 801 des Gesichtsbereichs, ein Gebiet 802 davon, Längs-Maximallänge 803 davon und Vertikal-Maximallänge 804 davon.
Danach geht die Prozedur nach Schritt S404.
[Schritt S404]
Wenn die Rahmennummer i 1 ist, kehrt die Prozedur nach Schritt S401 zurück. Wenn nicht, geht die Prozedur nach Schritt S405.
[Schritt S405]
Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet einen Merkmalsbewegungscode des Gesichtsbereichs unter Bezugnahme auf die Informationen des i-ten Gesichtsbereichs face[i] und die Informationen des [i – 1]-ten Gesichtsbereichs face[i – 1] mit <Gleichung 1>. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 einen Gesichtsbewegungsvektor V-face[i] im i-ten Ge sichtsbereich unter Bezugnahme auf einen Schwerpunkt g_face[i] der Informationen des i-ten Gesichtsbereichs face[i] und einen Schwerpunkt g_face[i – 1], der Informationen über den (i – 1)-ten Gesichtsbereich face[i – 1].
Als Nächstes bestimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 den Merkmalsbewegungscode unter Bezugnahme auf den Gesichtsbewegungsvektor V-face[i] im i-ten Gesichtsbereich.
9 ist ein Diagramm, das Bedingungen von Gesichtsmerkmalsbewegungen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
In 9 umfassen die Bedingungen von Gesichtsmerkmalsbewegungen einen Bewegungscode 901 und eine Bedingung 902. Der Bewegungscode 901 ist auf Zahlen "1" bis "8" gesetzt und die Bedingung 902 ist auf die Bedingungen von Gesichtsmerkmalsbewegungen gesetzt, die den entsprechenden Nummern entsprechen, die im Bewegungscode 901 gesetzt sind.
Im Detail nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 902 in 9 Bezug und wählt dann irgendeine Bedingung von Gesichtsmerkmalsbewegungen entsprechend dem Gesichtsbewegungsvektor V-face[i] im i-ten Gesichtsbereich aus. Danach nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Zahl auf, die der ausgewählten Bedingung von Ge sichtsmerkmalsbewegungen entspricht, vom Bewegungscode 901 in 9, um den Merkmalsbewegungscode zu bestimmen.
Dann geht die Prozedur nach Schritt S406.
[Schritt S406]
Der Segmentierungsposition-Bestimmungsteil 304 nimmt auf die Segmentelementdaten Bezug (siehe 6), die im Segmentelement-Speicherteil 305 gespeichert sind, und überprüft, ob der festgestellte Merkmalsbewegungscode mit dem Bewegungsmerkmal 602 übereinstimmt oder nicht. Das Bewegungsmerkmal 602 ist auf einen Parameter (Bewegungsmerkmalsparameter) gesetzt, der das Bewegungsmerkmal anzeigt, um Segmentierung zu bestätigen.
10 ist ein Diagramm, das einen beispielhaften Bewegungsmerkmalparameter zeigt, der auf Bewegungsmerkmal 602 gesetzt ist.
In 10 umfasst der Bewegungsmerkmalsparameter ein Bewegungsmerkmal 1001, einen Bestimmungscode 1002, Zeit 1003 und Segmentierungsposition 1004. Das Bewegungsmerkmal 1001 bezeichnet eine Art von Bewegungsmerkmal. Der Bestimmungscode 1002 ist eine Codekette, die verwendet wird, um das Bewegungsmerkmal zu bestimmen. Die Zeit 1003 ist Zeit, die verwendet wird, um das Bewegungsmerkmal zu bestimmen. Die Segmentierungsposition 1004 zeigt Segmentierungspositionen im Bewegungsmerkmal an.
In der Codekette, die im Bestimmungscode 1002 enthalten ist, wird jeder Code durch Nummern "1" bis "8" dargestellt, auf ähnliche Weise wie der Bewegungscode 901 (Merkmalsbewegungscode) in 9, und eine Nummer "0", die eine Pause anzeigt, und die Codes sind durch Bindestriche verbunden.
Wenn die Codes hintereinander eine Reihenfolge von beispielsweise "1", "0" und "2" haben, wird bestimmt, dass die Merkmalsbewegungscodes, die in Schritt S405 bestimmt wurden, mit einer Codekette von "1-0-2" übereinstimmen.
Hier bedeutet ein Code in Klammern, dass der Code bei der Bestimmung in der obigen Art und Weise relativ unbedeutend ist. Zum Beispiel wird angenommen, dass eine Codekette von "7-(0)-3" und diejenige von "7-3" die gleichen sind.
Weiterhin bedeuten Codes mit einem Schrägstrich dazwischen, dass beide Codes gehen. In einem Fall, in dem Codes zum Beispiel "0/3" sind, werden beide Codes "0" oder "3" als ausreichend betrachtet (nicht dargestellt).
Ein Zeichen "*" bedeutet, dass jeder beliebige Code geht.
Um Nicken zu detektieren, ist das anwendbare Körpermerkmal 601 in 6 "Gesichtsbereich" und das anwendbare Bewegungsmerkmal 602 ist "die Kinnspitze beim Nicken". In diesem Fall bestimmt der Segmentierungspositions-Bestimmungsteil 304, ob der Gesichtsmerkmalsbewegungscode, der in Schritt S405 bestimmt wurde, mit der Codekette "7-(0)-3" übereinstimmt, die dem "Kinnspitze beim Nicken" in 10 entspricht.
Die Vorrichtung zur Segmentierung von Zeichensprachengesten beurteilt, ob j 1 ist oder nicht. Wenn j = 1, geht die Prozedur nach Schritt S407. Wenn j > 1, schreitet die Prozedur nach Schritt S409 voran.
[Schritt S407]
Die Vorrichtung zur Segmentierung von Zeichensprachengesten bestimmt, ob der Merkmalsbewegungscode mit dem ersten Code des Bestimmungscodes 1002 übereinstimmt. Wenn ja, geht die Prozedur nach Schritt S408. Wenn nein, kehrt die Prozedur nach Schritt S401 zurück.
[Schritt S408]
Der Segmentierungspositions-Bestimmungsbereich 304 erzeugt Bestimmungscodedaten. Das heißt, dass der Segmentierungspositions-Bestimmungsbereich 304 eine Codenummer von ersten Bestimmungscodedaten Code_data[1] auf den Merkmalsbewegungscode setzt, und dass er eine Codestart-Rahmennummer davon auf i setzt.
11 ist ein Diagramm, das beispielhafte Bestimmungscodedaten zeigt, die durch den Segmentpositions-Bestimmungsteil 304 erzeugt wurden.
In 11 umfassen die Bestimmungscodedaten eine Codenummer 1101, eine Codestart-Rahmennummer 1102 und eine Codeende-Rahmennummer 1103.
Wenn 10 als ein Beispiel genommen wird, wird, mit dem Merkmalsbewegungscode von "7" die Codenummer der ersten Bestimmungscodedaten Code_data[1] auf "7" gesetzt, und die Codestart-Rahmennummer der ersten Bestimmungscodedaten Code_data[1] wird auf i gesetzt.
Danach wird j auf 2 gesetzt und die Prozedur kehrt nach Schritt S401 zurück.
[Schritt S409]
Es wird bestimmt, ob der Merkmalsbewegungscode mit einer Codenummer von (j – 1)-ten Bestimmungscodedaten Code_data[j – 1] übereinstimmt oder nicht. Wenn ja kehrt die Prozedur nach Schritt S401 zurück.
Wenn nicht, geht die Prozedur nach Schritt S410.
[Schritt S410]
Der Segmentierungspositions-Bestimmungsteil 304 setzt eine Codeende-Rahmennummer der (j – 1)-ten Bestimmungscodedaten Code_data[j – 1] auf (i – 1). Danach geht die Prozedur nach Schritt S411.
[Schritt S411]
Es wird bestimmt, ob die Anzahl an Codes, die im Bestimmungscode 1002 enthalten sind, j oder mehr ist. Wenn ja, geht die Prozedur nach Schritt S412.
Wenn die Anzahl an Codes, die im Bestimmungscode 1002 enthalten sind (j – 1) ist, schreitet die Prozedur nach Schritt S417 voran.
[Schritt S412]
Es wird bestimmt, ob der j-te Code des Bestimmungscodes 1002 mit dem Merkmalsbewegungscode übereinstimmt oder nicht. Wenn nicht, geht die Prozedur nach Schritt S413.
Wenn ja, schreitet die Prozedur nach Schritt S416 voran.
[Schritt S413]
Es wird bestimmt, ob der j-te Code des Bestimmungscodes 1002 in Klammern ist. Wenn ja, geht die Prozedur nach Schritt S414.
Wenn nicht, schreitet die Prozedur nach Schritt S415 voran.
[Schritt S414]
Es wird bestimmt, ob der (j + 1)-te Code des Bestimmungscodes 1002 mit dem Merkmalsbewegungscode übereinstimmt oder nicht. Wenn nicht, geht die Prozedur nach Schritt S415.
Wenn ja, wird j um 1 inkrementiert, dann schreitet die Prozedur nach Schritt S416 voran.
[Schritt S415]
Als Erstes wird j auf 1 gesetzt und dann kehrt die Prozedur nach Schritt S401 zurück.
[Schritt S416]
Die Codenummer der j-ten Bestimmungscodedaten Code_data[j] wird auf den Merkmalsbewegungscode gesetzt. Weiterhin wird die Codestart-Rahmennummer der j-ten Bestimmungscodedaten Code_data[j] auf i gesetzt. Dann wird j um 1 inkrementiert. Danach kehrt die Prozedur nach Schritt S401 zurück.
[Schritt S417]
Der Segmentpositions-Bestimmungsteil 304 findet die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
Wenn das anwendbare Bewegungsmerkmal "Kinnspitze beim Nicken" ist, ist die diesem entsprechende Segmentposition der niedrigste Punkt unter den Y-Koordinaten. Daher findet der Segmentpositions-Bestimmungsteil 304 eine Rahmennummer, die dem entspricht.
Im Detail vergleicht der Segmentpositions-Bestimmungsteil 304 Schwerpunkt-Y-Koordinaten im Gesichtsbereich für die jeweiligen Rahmen, die im Bereich zwischen der Codestartnummer der ersten Bestimmungscodedaten Code_data[1] und der Codeende-Rahmennummer der (j – 1)-ten Bestimmungscodedaten Code_data[j – 1] anwendbar sind. Dann wird die Rahmennummer des Rahmens, in dem die Schwerpunkt-Y-Koordinate am kleinsten ist (d.h., der Schwerpunkt des Gesichtsbereichs kommt an den niedrigsten Punkt) als die Segmentposition im Bewegungsmerkmal gesetzt.
Man beachte, dass, wenn mehrere Rahmennummern für den niedrigsten Punkt der Y-Koordinate anwendbar sind, die erste (die kleinste) Rahmennummer als die Segmentposition betrachtet wird.
Danach geht die Prozedur nach Schritt S418.
[Schritt S418]
Die Vorrichtung zur Segmentierung von Zeichensprachengesten gibt die Segmentierungsposition aus. Danach kehrt die Prozedur nach Schritt S401 zurück, um dieselbe Verarbeitung wie oben beschrieben zu wiederholen.
Auf diese Weise kann das Verfahren zur Segmentierung von Zeichensprachengesten mit der Detektion von Nicken realisiert werden.
Im Folgenden wird das Verfahren des Segmentierens von Zeichensprachengesten mit der Detektion von Blinzeln beschrieben.
Im Verfahren des Segmentierens von Zeichensprachengesten mit der Detektion von Blinzeln wird die Verarbeitung in Schritt S403, die für die Detektion von Nicken beschrieben wurde (siehe 4) wie folgt geändert.
[Schritt S403a]
Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
Wenn Blinzeln detektiert wird, wird das Körpermerkmal 601 auf "Augen" gesetzt und der Körpermerkmals-Extraktionsteil 302 extrahiert Augen als die extrahierten Körpermerkmale.
Eine Beschreibung wird jetzt hier gemacht, wie die Augen extrahiert werden.
Als Erstes wird der Gesichtsbereich auf ähnliche Weise wie in Schritt S403 extrahiert. Dann werden die Augen aus dem extrahierten Gesichtsbereich auf folgende Weise extrahiert.
12 ist ein Diagramm, das einen beispielhaften Gesichtsbereich zeigt, der durch den Körpermerkmals-Extraktionsteil 302 extrahiert wurde.
In 12 beinhaltet der extrahierte Gesichtsbereich 1201 zwei Lochbereiche, die durch Augenbrauen 1202 gemacht, zwei Lochbereiche, die durch Augen 1203 gemacht werden und einen Lochbereich, der durch einen Mund 1204 gemacht wird (ein schraffierter Bereich ist der beige Bereich.
Eine gerade Linie, die durch ein Bezugszeichen 1205 in der Zeichnung bezeichnet wird, ist eine Oben- und Unten-Trennlinie des Gesichts. Die Oben- und Unten-Trennlinie des Gesichts 1205 ist eine Linie, die den extrahierten Gesichtsbereich 1201 in zwei teilt, oben und unten.
Als Erstes wird diese Oben- und Unten-Trennlinie des Gesichts 1205 zwischen einem oberen und einem unteren Ende des Gesichts an einer Stelle gezeichnet, die durch ein Oben- und Unten-Trennungsverhältnis des Gesichts ausgewiesen wird. Hier ist das Oben- und Unten-Trennungsverhältnis des Gesichts ein Parameter und wird so gesetzt, dass die Lochbereiche, die durch Augen 1203 gemacht werden, im Bereich oberhalb der Oben- und Unten-Trennlinie 1205 des Gesichts sind.
Das Oben- und Unten-Teilungsverhältnis des Gesichts wird in dieser Ausführungsform auf "1/2" gesetzt.
Als Nächstes wird jeder Lochbereich im Gesichtsbereich, der oberhalb der Oben- und Unten-Trennlinie des Gesichts 1205 liegt, detektiert.
Wenn zwei Lochbereiche detektiert werden, werden die Lochbereiche als Augenbrauen eingeschätzt und Augen als geschlossen.
Wenn drei Lochbereiche detektiert werden, wird eingeschätzt, dass ein Auge geschlossen ist, und jeder Lochbereich, der im unteren Teil liegt, wird als ein Auge eingeschätzt.
Wenn vier Lochbereiche detektiert werden, wird eingeschätzt, dass beiden Augen offen sind, und alle zwei Lochbereiche, die sich im unteren Teil befinden, werden als Auge eingeschätzt.
Wenn 12 als ein Beispiel genommen wird, gibt es vier Lochbereiche. Daher sind die zwei Lochbereiche, die sich im unteren Teil befinden, der Lochbereich, der durch Augen 1203 gemacht wird.
Dann erzeugt der Körpermerkmals-Extraktionsteil 302 Augenbereichsinformationen. Genauer werden die Anzahl an extrahierten Augen und ihr Bereich beide in einer i-ten Augenbereichsinformation eye[i] gesetzt.
13 ist ein Diagramm, das beispielhafte Augenbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
In 13 enthalten die Augenbereichsinformationen die Anzahl an Augen 1301, ein Gebiet des ersten Auges 1302 und ein Gebiet des zweiten Auges 1303.
Der Körpermerkmals-Extraktionsteil 302 setzt zuerst die Anzahl an Augen 1301 auf die Anzahl der extrahierten Augen, dann setzt er das Augengebiet entsprechend der Anzahl an extrahierten Augen auf die folgende Weise.
Wenn die Anzahl an extrahierten Augen null ist, werden das Gebiet des ersten Auges 1302 und das Gebiet des zweiten Auges 1303 beide auf null gesetzt.
Wenn die Anzahl an extrahierten Augen 1 ist, wird das Gebiet des Auges (Lochbereich, der durch Augen 1203 gemacht wird) berechnet und im Gebiet des ersten Auges 1302 gesetzt. Das Gebiet des zweiten Auges wird auf null gesetzt.
Wenn die extrahierte Anzahl an Augen 2 ist, wird das Gebiet der entsprechenden Augen berechnet. Das Gebiet des ersten Auges 1302 wird auf das Gebiet des linken Auges gesetzt (Lochbereich, der durch Augen 1203 gemacht wird, links), und das Gebiet des zweiten Auges 1303 wird auf das Gebiet des rechten Auges gesetzt.
Danach geht die Prozedur nach Schritt S404.
Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Blinzeln wird die Verarbeitung in Schritt S404 wie folgt geändert.
[Schritt S405a]
Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet mit <Gleichung 2> einen Merkmalsbewegungscode für Augen unter Bezugnahme auf die i-ten Augenbereichsinformation eye[i] und (i – 1)-te Augenbereichsinformation eye[i – 1]. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Veränderung d1_eye[i] im Gebiet des ersten Auges im i-ten Augenbereich unter Bezugnahme auf ein Gebiet s1_eye[i] des ersten Auges der i-ten Augenbereichsinformation eye[i] und ein Gebiet s1_eye[i – 1] des ersten Auges der (i – 1)-ten Augenbereichsinformation eye[i]. Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Veränderung d2_eye[i] im Gebiet des zweiten Auges im i-ten Augenbereich unter Bezugnahme auf ein Gebiet s2_eye[i] des zweiten Auges der i-ten Augenbereichsinformation eye[i] und ein Gebiet s2_eye[i – 1] des zweiten Auges der (i – 1)-ten Augenbereichsinformation eye[i – 1].
14 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Augen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
In 14 enthalten die Bedingungen von Merkmalsbewegungen für Augen einen Bewegungscode 1401 und eine Bedingung 1402. Der Bewegungscode 1401 wird auf Zahlen von "0" bis "6" gesetzt, und die Bedingung 1402 wird auf die Bedingungen von Merkmalsbewegungen für Augen gesetzt, die den entsprechenden Zahlen entsprechen, die für den Bewegungscode 1401 gesetzt sind.
Ein Zeichen α, das in der Bedingung 1402 gefunden wird, ist ein Schwellenwert des Augengebiets, der verwendet wird, um zu bestimmen, ob das Auge/die Augen geschlossen sind, und zum Beispiel auf "1" gesetzt. Ein Zeichen β ist ein Schwel lenwert einer Änderung in der Augengröße, der verwendet wird, um zu bestimmen, ob sich die Augengröße verändert hat oder nicht, und zum Beispiel auf "5" gesetzt.
Mit anderen Worten, der Merkmalsbewegungs-Nachverfolgungsteil 303 nimmt auf die Bedingung 1402 in 14 Bezug und wählt irgendeine Bedingung von Merkmalsbewegungen für Augen, die der i-ten Augenbereichsinformation eye[i], der Veränderung d1_eye[i] im Gebiet des ersten Auges im i-ten Augenbereich und der Veränderung d2_eye[i] im Gebiet des zweiten Auges darin entsprechen. Danach nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Zahl entsprechend der ausgewählten Bedingung von Merkmalsbewegungen für Augen vom Bewegungscode 1401 in 14 auf und bestimmt dann den Merkmalsbewegungscode.
Wenn zum Beispiel beide Augen geschlossen sind, wird die Bedingung s1_eye[i] ≤ α, s2_eye[i] ≤ α sein, und der Merkmalsbewegungscode zu diesem Zeitpunkt ist 0.
Danach geht die Prozedur nach Schritt 406.
Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Blinzeln wird Verarbeitung im Schritt S417 wie folgt verändert.
[Schritt S417a]
Der Segmentsposition-Bestimmungsteil 304 findet die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
Wenn das anwendbare Bewegungsmerkmal "Blinzeln" ist, ist die Segmentierungsposition, die "Blinzeln" entspricht, ein Punkt, an dem der Augenbereich un sichtbar wird. Daher bestimmt der Segmentpositions-Bestimmungsteil 304 eine Rahmennummer, die dem entspricht.
Das heißt, dass die Codestartrahmenzahl der zweiten Bestimmungscodedaten Code_data[2] als die Segmentierungsposition bestimmt wird.
Dann geht die Prozedur nach Schritt S418.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Blinzeln realisiert werden.
Als Nächstes wird das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion einer Änderung der Mundform (Schließen eines Mundes) beschrieben.
In diesem Fall wird Schritt S403, der für das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Blinzeln beschrieben wurde, wie folgt geändert.
[Schritt S403b]
Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6), die im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
Wenn irgendeine Veränderung in der Mundform detektiert wird (Schließen eines Mundes), wird das Körpermerkmal auf "Mund" gesetzt, und dann extrahiert der Körpermerkmals-Extraktionsteil 302 den Mund als die extrahierten Körpermerkmale.
Hier wird eine Beschreibung gemacht, wie der Mund extrahiert wird.
Als Erstes wird der Gesichtsbereich auf ähnliche Weise wie in Schritt S403 extrahiert. Als Zweites wird ein Mund vom extrahierten Gesichtsbereich auf folgende Weise extrahiert.
In 12 wird die Oben- und Unten-Trennlinie des Gesichts 1205 wie in Schritt S403 gezeichnet. Dann wird jeder Lochbereich im Gesichtsbereich, der sich unterhalb der Oben- und Unten-Trennlinie des Gesichts 1205 befindet, detektiert.
Wenn zwei oder mehr Lochbereiche detektiert werden, wird jeder Lochbereich, dessen Entfernung vom unteren Ende eines Gesichts der Bedingung einer Entfernung zwischen einer Position eines Mundes einer durchschnittlichen Person und dem unteren Ende eines Gesichts am Nächsten kommt als der Mund betrachtet, die ein Parameter ist. In dieser Ausführungsform wird die Bedingung auf "10" gesetzt.
Wenn ein Lochbereich detektiert wird, wird der Lochbereich als der Mund betrachtet.
Wenn kein Lochbereich detektiert wird, wird der Mund als geschlossen eingeschätzt.
Wenn 12 als ein Beispiel genommen wird, gibt es nur einen Lochbereich zwischen der Oben- und Unten-Trennlinie des Gesichts 1205. Daher ist der Lochbereich der Lochbereich, der durch den Mund 1204 gemacht wird.
Als Nächstes erzeugt der Körpermerkmals-Extraktionsteil 302 Mundbereichsinformationen. Genauer gesagt, werden ein Gebiet des extrahierten Mundes und eine vertikale Maximallänge davon in der i-ten Mundbereichsinformation mouth[i] gesetzt.
15 ist ein Diagramm, das beispielhafte Mundbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
In 15 beinhalten die Mundbereichsinformationen ein Mundgebiet 1501 und eine vertikale Maximallänge davon 1502.
Der Körpermerkmals-Extraktionsteil 302 berechnet das Gebiet des extrahierten Mundes und setzt die Berechnung im Mundgebiet 1501. Weiterhin berechnet der Körpermerkmals-Extraktionsteil 302 die vertikale Maximallänge des Mundes und setzt dann die berechnete Länge in der vertikalen Maximalmundlänge 1502.
Danach geht die Prozedur nach Schritt S404.
Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion einer Veränderung in der Mundform wird die Verarbeitung in Schritt S405 wie folgt abgewandelt.
[Schritt S405b]
Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet einen Merkmalsbewegungscode für Mund unter Bezugnahme auf die i-ten Mundbereichsinformation mouth[i] und (i – 1)-te Mundbereichsinformation mouth[i – 1]. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Veränderung d_mouth[i] im Gebiet des Mundes im i-ten Mundbereich unter Bezugnahme auf ein Gebiet s_mouth[i] der i-ten Mundbereichsinformation mouth[i] und ein Gebiet s_mouth[i – 1] der (i – 1)-ten Mundbereichsinformation mouth[i – 1] mit <Gleichung 3>. d_mouth[i] = s_mouth[i] – s_mouth[i – 1] <Gleichung 3>
Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 4> eine vertikale Änderung y_mouth[i] in der Länge des Mundes im i-ten Mundbereich unter Bezugnahme auf die vertikale Maximallänge h_mouth[i] der i-ten Mundbereichsinformation mouth[i] und eine vertikale Maximallänge h_mouth[i – 1] der (i – 1)-ten Mundbereichsinformation mouth[i – 1]. y_mouth[i] = h_mouth[i] – h_mouth[i –1] <Gleichung 4>
16 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Mund für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
In 16 enthalten die Bedingungen von Merkmalsbewegungen für Mund einen Bewegungscode 1601 und eine Bedingung 1602. Der Bewegungscode 1601 wird auf Zahlen "0" und "1" gesetzt, und die Bedingung 1602 wird auf die Bedingungen von Merkmalsbewegungen für Mund gesetzt, die den entsprechenden Zahlen entspricht, die für den Bewegungscode 1601 gesetzt sind.
Ein Zeichen γ, das in der Bedingung 1602 gefunden wird, ist ein Schwellenwert der Änderung im Mundgebiet, der verwendet wird, um zu bestimmen, ob die Form des Mundes sich verändert hat oder nicht, und wird in dieser Ausführungsform zum Beispiel auf "5" gesetzt. Ein Zeichen λ ist ein Schwellenwert der vertikalen Änderung in der Mundlänge und wird zum Beispiel auf "3" gesetzt.
Im Detail nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 1302 in 16 Bezug und wählt dann irgendeine Bedingung von Merkmalsbewegungen für Mund, die der Änderung d_mouth[i] im Gebiet des Mundes im i-ten Mundbereich und der vertikalen Maximallänge h_mouth[i] in der Länge des Mundes im i-ten Mundbereich entspricht. Danach nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Zahl auf, die der ausgewählten Bedingung von Merkmalsbewegungen für Mund entspricht, vom Bewegungscode 1601 in 16, und bestimmt dann den Merkmalsbewegungscode.
Wenn der Mund zum Beispiel geschlossen ist, ist die Bedingung s_mouth[i] ≤ γ, und der Merkmalsbewegungscode ist zu diesem Zeitpunkt "0".
Danach geht die Prozedur nach Schritt S406.
Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion einer Veränderung in der Form des Mundes wird die Verarbeitung im Schritt S417 wie folgt abgewandelt.
[Schritt S417b]
Der Segmentpositions-Bestimmungsteil 304 bestimmt die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
Wenn das anwendbare Bewegungsmerkmal "Ändern der Mundform" ist, ist die Segmentposition, die dem entspricht, der Start- und Endpunkt der Änderung. Daher findet der Segmentpositions-Bestimmungspunkt 304 Rahmennummern, die jeweils dem entsprechen.
Im Detail gibt der Segmentpositions-Bestimmungsteil 304 sowohl die Codestart-Rahmennummer der zweiten Bestimmungscodedaten Code_data[2] als auch die Codeende-Rahmennummer davon als die Segmentierungsposition aus.
Danach geht die Prozedur nach Schritt S418.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion einer Änderung in der Form des Mundes realisiert werden.
Im Folgenden wird das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Stoppen von Händen oder Körper beschrieben.
In diesem Fall wird die Verarbeitung in Schritt S403, die für das Verfahren von Segmentierung von Zeichensprachengesten mit der Detektion von Blinzeln beschrieben wurde, wie folgt abgewandelt.
[Schritt S403c]
Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
Wenn irgendein Stoppen von Händen oder Körper detektiert wird, wird das Körpermerkmal 601 auf "Handbereich, Körper" gesetzt, und der Körpermerkmals-Extraktionsteil 302 extrahiert den Handbereich und Körper als die extrahierten Körpermerkmale.
Hier wird eine Beschreibung gemacht, wie der Handbereich und Körper extrahiert werden.
Als Erstes extrahiert der Körpermerkmals-Extraktionsteil 302 den Handbereich auf ähnliche Weise wie in Schritt S403 im oben Beschriebenen. Das heißt, dass der Körpermerkmals-Extraktionsteil 302 den beigen Bereich aus den eingegebenen Bildern extrahiert und dann jeden Teil, der nicht mit dem Kopfbereich überlappt, aus dem extrahierten beigen Bereich herausnimmt und den Teil als den Handbereich betrachtet.
Wenn 7 als ein Beispiel genommen wird, wird ein Bereich, der nicht mit dem Kopfbereich überlappt, d.h., der Handbereich 703, aus dem beigen Bereich extrahiert.
Was den Körper betrifft, wird der menschliche Körperbereich, der in Schritt S402 extrahiert wurde, als der Körper betrachtet.
Als Zweites erzeugt der Körpermerkmals-Extraktionsteil 302 Handbereichsinformationen. Genauer wird die i-te Handbereichsinformation hand[i] auf einen Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Handbereichs gesetzt. Dann wird die i-te Körperinformation body[i] auf einen Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Körpers gesetzt.
17 ist ein Diagramm, das beispielhafte Handbereichsinformationen zeigt, die durch den Körpermerkmals-Extraktionsteil 302 erzeugt wurden.
In 17 enthalten die Handbereichsinformationen die Anzahl an Händen 1701, Schwerpunktkoordinaten der ersten Hand 1702, ein Gebiet der ersten Hand 1703, Schwerpunktkoordinaten der zweiten Hand 1704 und ein Gebiet der zweiten Hand 1705.
Der Körpermerkmals-Extraktionsteil 302 setzt als Erstes die Anzahl an extrahierten Händen in der Anzahl an Händen 1701 und setzt dann die Schwerpunktkoordinaten von Hand/Händen und das Gebiet von Hand/Händen gemäß der Anzahl an extrahierten Händen auf die folgende Weise.
Wenn die Anzahl an extrahierten Händen 1701 0 ist, werden die Schwerpunktkoordinaten der ersten Hand 1702 und die Schwerpunktkoordinaten der zweiten Hand 1704 beide auf (0, 0) gesetzt und das Gebiet der ersten Hand 1703 und das Gebiet der zweiten Hand 1704 werden beiden auf 0 gesetzt.
Wenn die Anzahl an extrahierten Händen 1701 "1" ist, werden die Schwerpunktkoordinaten und das Gebiet des Handbereichs berechnet, um die Berechnungen jeweils in den Schwerpunktkoordinaten der ersten Hand 1702 und dem Gebiet der zweiten Hand 1703 zu setzen. Danach werden die Schwerpunktkoordinaten der zweiten Hand 1704 auf (0, 0) gesetzt und das Gebiet der zweiten Hand 1704 wird auf 0 gesetzt.
Wenn die Anzahl an extrahierten Händen 1701 "2" ist, werden die Schwerpunktkoordinaten und das Gebiet des Handbereichs links berechnet, um die Berechnungen jeweils für die Schwerpunktkoordinaten der ersten Hand 1702 und das Gebiet der ersten Hand 1703 zu setzen. Weiterhin werden die Schwerpunktkoordinaten und das Gebiet des Handbereichs rechts berechnet, um die Berechnungen jeweils für die Schwerpunktkoordinaten der zweiten Hand 1704 und das Gebiet der zweiten Hand 1705 zu setzen.
Die Körperinformationen body[i] können realisiert werden mit der Struktur in 8, so wie die Gesichtsbereichinformationen face[i].
Dann geht die Prozedur nach Schritt S404.
Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Stoppen von Händen oder Körper wird die Verarbeitung in Schritt S405 wie folgt abgewandelt.
[Schritt S405c]
Der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 5> findet einen Merkmalsbewegungscode für Handbereich und Körper unter Bezugnahme auf die i-te Handbereichsinformation hand[i], die (i – 1)-te Handbereichsinformation hand[i – 1], die i-te Körperinformation body[i] und die (i – 1)-te Körperinformation body[i – 1]. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g1_hand[i – 1] der ersten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1]. Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Bewegungsmenge m2_hand[i] der zweiten Hand im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g2_hand[i – 1] der zweiten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1].
Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 6> die Änderung d1_hand[i] im Gebiet der ersten Hand im i-ten Handbereich unter Bezugnahme auf das Gebiet s1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] und das Gebiet s1_hand[i – 1] der ersten Hand in der (i – 1)-ten Handbereichsinformation hand[i – 1]. Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 die Änderung d2_hand[i] im Gebiet der zweiten Hand im 1-ten Handbereich unter Bezugnahme auf das Gebiet s2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] und das Gebiet s2_hand[i – 1] der zweiten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1].
Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 7> eine Bewegungsmenge m_body[i] des i-ten Körpers unter Bezugnahme auf einen Schwerpunkt g_body[i] der i-ten Körperinformation body[i] und einen Schwerpunkt g_body[i – 1] der (i – 1)-ten Körperinformationen body[i – 1].
18 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für Körper- und Handbereich zeigt.
In 18 enthalten die Bedingungen von Merkmalsbewegungen für Körper und Handbereich einen Bewegungscode 1801 und eine Bedingung 1802. Der Bewegungscode 1801 wird auf Zahlen "0" und "1" gesetzt, und die Bedingung 1802 wird auf die Bedingungen von Merkmalsbewegungen für Körper und Handbereich gesetzt, die den entsprechenden Nummern entsprechen, die für den Bewegungscode 1801 gesetzt sind.
Ein Zeichen χ, das in der Bedingung 1802 gefunden wird, ist ein Schwellenwert, der verwendet wird, um zu bestimmen, ob der Handbereich gestoppt ist oder nicht und wird in dieser Ausführungsform zum Beispiel auf "5" gesetzt. Ein Zeichen δ ist ein Schwellenwert, der verwendet wird, um zu bestimmen, ob die Form des Handbereichs geändert ist, und zum Beispiel auf "10" gesetzt. Ein Zeichen ε ist ein Schwellenwert, der verwendet wird, um zu bestimmen, ob der Körper gestoppt ist oder nicht, und zum Beispiel auf "5" gesetzt.
Genauer nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 1802 in 18 Bezug und wählt dann irgendeine Bedingung von Merkmalsbewegungen für den Handbereich und Körper aus, die der Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich entspricht, der Bewegungsmenge m2_hand[i] der zweiten Hand im i-ten Handbereich, der Änderung d1_hand[i] im Gebiet der ersten Hand im i-ten Handbereich, der Änderung d2_hand[i] im Gebiet der zweiten Hand im i-ten Handbereich und der Bewegungsmenge m_body[i] des i-ten Körpers. Danach nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Nummer auf, entsprechend den ausgewählten Bedingungen von Merkmalsbewegungen von Handbereich und Körper, vom Bewegungscode 1801 in 18, und bestimmt dann den Merkmalsbewegungscode.
Wenn sich die Hand von links nach rechts oder umgekehrt bewegt, ist die Bedingung für die Bewegungsmenge im i-ten Handbereich m hand[i] > χ, und der Merkmalsbewegungscode ist zu diesem Zeitpunkt "1".
Danach geht die Prozedur nach Schritt S406.
Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Stoppen von Händen oder Körper wird die Verarbeitung in Schritt 5417 wie folgt abgewandelt.
[Schritt S417c]
Der Segmentpositions-Bestimmungsteil 304 bestimmt die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
Wenn das anwendbare Bewegungsmerkmal "Stoppen" ist, ist die dementsprechende Segmentierungsposition Start- und Endpunkt von Gesten, und somit findet der Segmentpositions-Bestimmungsteil 304 Rahmennummern, die dem jeweils entsprechen.
Alternativ dazu kann der Segmentpositions-Bestimmungsteil 304 eine Rahmennummer finden, die einem Zwischenpunkt dazwischen entspricht. In diesem Fall werden zuerst die Coderahmennummer der ersten Bestimmungscodedaten Code_data[1] und die Codeende-Rahmennummer davon bestimmt, und dann wird ein Zwischenwert davon berechnet.
Danach geht die Prozedur nach Schritt S418.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Stoppen von Händen oder Körper realisiert werden.
Als Nächstes wird das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Geste des Berührens des Gesichts mit Hand/Händen beschrieben.
In diesem Fall wird Schritt S403, der für das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion von Nicken (siehe 4) beschrieben wurde, wie folgt abgewandelt.
[Schritt S403d]
Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
Um die Geste des Berührens des Gesichts mit Hand/Händen zu detektieren, wird das Körpermerkmal mit "Gesichtsbereich, Handbereich" gesetzt, und der Ge sichtsbereich und Handbereich werden als die extrahierten Körpermerkmale extrahiert.
Hier wird eine Beschreibung gemacht, wie der Gesichtsbereich und Handbereich extrahiert werden.
Als Erstes wird der Gesichtsbereich auf ähnliche Weise wie in Schritt S403 extrahiert und der Handbereich wird auf ähnliche Weise wie in Schritt S403c extrahiert.
Als Nächstes wird die i-te Gesichtsbereichsinformation face[i] für einen Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Gesichtsbereichs gesetzt. Weiterhin wird die i-te Handbereichsinformation hand[i] für einen Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Handbereichs gesetzt.
Danach geht das Verfahren nach Schritt S404.
Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Geste des Berührens des Gesichts mit Hand/Händen wird die Verarbeitung in Schritt S405 wie folgt abgewandelt.
[Schritt S405d]
Der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 8> findet einen Merkmalsbewegungscode für den Handbereich und Gesichtsbereich unter Bezugnahme auf die i-te Handbereichsinformation hand[i] und die i-te Gesichtsbereichsinformation face[i]. Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Entfernung l1_fh[i] zwischen der ersten Hand und Gesicht im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand und die i-te Handbereichsinformation hand[i] und den Schwer- Punkt g_face[i] der i-ten Gesichtsbereichsinformation face[i]. Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Entfernung l2_fh[i] zwischen der zweiten Hand und Gesicht im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g_face[i – 1] der i-ten Gesichtsbereichsinformation face[i].
Man beachte, dass, wenn das Gebiet s1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] 0 ist, l1_fh[i] = 0, wenn l1_fh[i – 1] ≤ Φ. l1_fh[i] = 1000, wenn l1_fh[l – 1] > Φ.
Ähnlich ist, wenn das Gebiet s2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] 0, l2_fh[i] = 0, wenn l2_fh[i – 1] ≤ Φ. l1_fh[i] = 1000, wenn l2fh[i] > Φ. Hier steht Φ für einen Schwellenwert der Entfernung zwischen Hand/Händen und Gesicht, und wird in dieser Ausführungsform zum Beispiel auf "20" gesetzt.
19 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Hand/Händen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen
In 19 enthalten die Bedingungen von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Hand/Händen einen Bewegungscode 1901 und eine Bedingung 1902. Der Bewegungscode 1901 wird mit Zahlen "0" und "1" gesetzt, und die Bedingung 1902 wird mit den Bedingungen von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Hand/Händen entsprechend den entsprechenden Nummern gesetzt, die für den Bewegungscode 1901 gesetzt sind.
Ein Zeichen ω, das in der Bedingung 1902 gefunden wird, ist ein Schwellenwert des Berührens des Gesichtsbereichs mit Handbereich und in dieser Ausführungsform zum Beispiel auf "5" gesetzt.
Genauer gesagt, nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 1902 in 19 Bezug und wählt dann irgendeine Bedingung der Merkmalsbewegungen, die der Entfernung l1_fh[i] zwischen der ersten Hand und Gesicht im i-ten Handbereich entspricht, und der Entfernung l2_fh[i] zwischen der zweiten Hand und Gesicht im i-ten Gesichtsbereich l2_fh[i]. Dann nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Nummer auf, die der ausgewählten Bedingung von Merkmalsbewegungen entspricht, vom Bewegungscode 1901 in 19, und bestimmt dann den Merkmalsbewegungscode.
Wenn die rechte Hand zum Beispiel das Gesicht überlagert, wird die Entfernung l1_fh[i] zwischen der ersten Hand und dem Gesicht im i-ten Handbereich 0 sein, und der Merkmalsbewegungscode ist "0" zu diesem Zeitpunkt.
Danach geht die Prozedur nach Schritt S406.
Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Geste des Berührens des Gesichts mit Hand/Händen wird die Verarbeitung in Schritt S417 wie folgt abgewandelt.
[Schritt S417d]
Der Segmentpositions-Bestimmungsteil 304 bestimmt die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
Wenn das anwendbare Bewegungsmerkmal "Geste des Berührens des Gesichts mit Hand/Händen" ist, ist die dementsprechende Segmentierungsposition "Startpunkt und Endpunkt des Berührens". Daher findet der Segmentpositions-Bestimmungsteil 304 Rahmennummern, die jeweils sowohl dem Startpunkt als auch dem Endpunkt für die Geste des Berührens des Gesichts mit Hand/Händen entsprechen.
Im Detail werden sowohl die Coderahmenstartnummer der ersten Bestimmungscodedaten Code_data[1] und die Codeende-Rahmennummer davon als die Segmentierungsposition betrachtet.
Danach kehrt die Prozedur nach Schritt S401 zurück.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Geste des Berührens des Gesichts mit Hand/Händen realisiert werden.
Als Nächstes wird eine Beschreibung gemacht, wie die Änderung in der Effektivität von Händen detektiert wird.
In diesem Fall wird das Verarbeiten in Schritt S403, der für das Verfahren zum Segmentieren von Handzeichengesten mit der Detektion von Nicken beschrieben wurde, wie folgt abgewandelt.
[Schritt S403e]
Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
Um die Änderung in der Effektivität von Händen zu detektieren, wird das Körpermerkmal 601 auf "Handbereich" gesetzt, und der Köperbereichs-Extraktionsteil 302 extrahiert den Handbereich als die extrahierten Körpermerkmale.
Man beachte, dass der Handbereich auf ähnliche Weise wie in Schritt S403c extrahiert wird.
Dann setzt der Körpermerkmals-Extraktionsteil 302 die i-te Handbereichsinformation hand[i] mit dem Schwerpunkt, Gebiet, Längsmaximallänge und Vertikalmaximallänge des extrahierten Handbereichs.
Danach schreitet die Prozedur nach Schritt S404 voran.
Im Verfahren zum Segmentieren von Zeichensprachengeste mit der Detektion der Änderung in der Effektivität von Händen wird das Verarbeiten in Schritt S405 wie folgt abgewandelt.
[Schritt S405e]
Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet mit der oben erwähnten <Gleichung 5> einen Merkmalsbewegungscode für die Effektivität und Bewegungen von Händen unter Bezugnahme auf die i-te Handbereichsinformation hand[i].
Weiterhin bestimmt der Merkmalsbewegungs-Nachverfolgungsteil 303, zu welchem Bereich unter den mehreren Bereichen, die durch die räumliche Segmentierung in Schritt S402 (siehe 5) erhalten wurde, die erste Hand gehört, unter Bezugnahme auf den Schwerpunkt g_1hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i], findet den Gebietscode davon und setzt denselben in einem Handbereichsraumcode sp1_hand[i] der ersten Hand. Man beachte, dass, wenn das Gebiet s1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] 0 ist, der Handbereichraumcode sp1_hand[i] der ersten Hand auf "6" gesetzt wird.
Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 den Bewegungscode unter Bezugnahme auf den Schwerpunkt g2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i], um diesen im Handbereichsraumcode sp2_hand[i] der zweiten Hand zu setzen. Wenn das Gebiet s2_hand[i] der zweiten Hand der i-ten Handbereichsinformation 0 ist, wird der Handbereichsraumcode sp2_hand[i] der zweiten Hand auf "6" gesetzt.
Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 die Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g1_hand[i – 1] der ersten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1].
Weiterhin noch findet der Merkmalsbewegungs-Nachverfolgungsteil 303 die Bewegungsmenge m2_hand[i] der zweiten Hand im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g2_hand[i] der zweiten Hand der i-ten Handbereichsinformation hand[i] und den Schwerpunkt g2_hand[i – 1] der zweiten Hand der (i – 1)-ten Handbereichsinformation hand[i].
20 ist ein Diagramm, das Bedingungen von Merkmalsbewegungen für die Änderung in der Effektivität von Händen für den Merkmalsbewegungs-Nachverfolgungsteil 303 zeigt, um den Merkmalsbewegungscode zu bestimmen.
In 20 enthalten die Bedingungen von Merkmalsbewegungen für die Änderung in der Effektivität von Händen einen Bewegungscode 2001 und eine Bedingung 2002. Der Bewegungscode 2001 wird auf die Zahlen "0" bis "5" gesetzt, und die Bedingung 2002 wird auf Bedingungen von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Händen gesetzt, die den entsprechenden Nummern entsprechen, die für den Bewegungscode 2001 gesetzt sind.
Ein Zeichen χ, das in der Bedingung 2002 gefunden wird, ist ein Schwellenwert, der verwendet wird, um zu bestimmen, ob der Handbereich gestoppt ist oder nicht, und wird in dieser Ausführungsform zum Beispiel auf "5" gesetzt.
Im Detail nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 2002 in 20 Bezug und wählt dann irgendeine Bedingung von Merkmalsbewegungen für die Geste des Berührens des Gesichts mit Hand/Händen aus, die dem Handbereichsraumcode sp1_hand[i] der ersten Hand im i-ten Handbereich, der Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich, dem Handbereichsraumcode sp2_hand[i] der zweiten Hand im i-ten Handbereich und der Bewegungsmenge m2_hand[i] der zweiten Hand im i-ten Handbereich entspricht.
Wenn sich die rechte Hand bewegt und die linke Hand wird auf die niedrigste Position des eingegebenen Bildes 501 (siehe 5) abgesenkt, ist die Bedingung der Bewegungsmenge m1_hand[i] der ersten Hand im i-ten Handbereich m1_hand[i] > χ, der Handbereichsraumcode sp2_hand[i] der zweiten Hand im i-ten Handbereich ist 7 und der Merkmalsbewegungscode ist zu diesem Zeitpunkt ist "2".
Danach geht die Prozedur nach Schritt S406.
Im Verfahren zum Segmentieren von Zeichensprachengesten mit der Detektion der Änderung in der Effektivität von Händen wird das Verarbeiten in Schritt S417 wie folgt abgewandelt.
[Schritt S417e]
Der Segmentpositions-Bestimmungsteil 304 findet die Segmentierungsposition im Bewegungsmerkmal in Übereinstimmung mit dem Bewegungsmerkmal 1001 und der Segmentierungsposition 1004 (siehe 10).
Wenn das anwendbare Bewegungsmerkmal "Punkt, an dem sich die Effektivität von Händen ändert" ist, ist die dementsprechende Segmentierungsposition "Änderungspunkt von Code", und der Segmentpositions-Bestimmungsteil 304 findet somit eine dementsprechende Rahmennummer.
Genauer gesagt, werden die Codestart-Rahmennummer der ersten Bestimmungscodedaten Code_data[1] und die Codeende-Rahmennummer davon als die Segmentierungsposition betrachtet.
Danach geht die Prozedur nach Schritt S418.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengeste realisiert werden mit der Detektion der Änderung in der Effektivität von Händen.
Nachfolgend wird das Verfahren zum Segmentieren von Zeichensprachengeste mit der kombinierten Detektion der oben erwähnten Gesten beschrieben.
In diesem Verfahren wird die Verarbeitung in Schritt S403, die für das Verfahren zum Segmentieren von Zeichensprachengeste mit der Detektion von Nicken (siehe 4) beschrieben wurde, wie folgt abgewandelt.
[Schritt S403f]
Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die dem Körpermerkmal 601 entsprechen (siehe 6) und im Segmentelement-Speicherteil 305 gespeichert sind, aus den eingegebenen Bildern.
Um die entsprechenden Gesten im oben Beschriebenen zu detektieren, wird das Körpermerkmal 601 auf "Gesichtsbereich", "Augen", "Mund", "Handbereich, Körper", "Handbereich, Gesichtsbereich" und "Handbereich" gesetzt, und der Körpermerkmals-Extraktionsteil 302 extrahiert den Gesichtsbereich, Augen, Mund und Handbereich und Körper als die extrahierten Körpermerkmale.
Man beachte, dass der Gesichtsbereich auf ähnliche Weise wie in Schritt S403 extrahiert wird. Die Augen werden auf ähnliche Weise wie in Schritt S403a extrahiert. Der Mund wird auf ähnliche Weise wie in Schritt S403b extrahiert. Der Handbereich und Körper werden auf ähnliche Weise wie in Schritt S403c extrahiert.
Als Nächstes setzt der Körpermerkmals-Extraktionsteil 302 Informationen, die für den extrahierten Gesichtsbereich, die Augen, den Mund bzw. den Handbereich und Körper relevant sind, auf die Gesichtsbereichsinformationen face[i], die Augenbereichsinformationen eye[i], die Mundbereichsinformationen mouth[i], die Handbereichsinformationen hand[i] und die Körperinformationen body[i].
Danach geht das Verfahren nach Schritt S404.
Die Vorrichtung zur Segmentierung von Zeichensprachengeste führt dann Verarbeitung in Schritten S405 bis S417 durch, und danach in Schritten S405b bis S417b. Danach führt die Vorrichtung zur Segmentierung von Zeichensprachengeste nacheinander Verarbeitung in den Schritten S405c bis S417c, Schritten S405d bis S417d und S405e bis S417d durch.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengeste mit der kombinierten Detektion der oben erwähnten Gesten realisiert werden.
Als Nächstes wird das Verfahren zum Segmentieren von Zeichensprachengeste beschrieben, in dem jede Dauer von detektierten Gesten vor dem Segmentieren betrachtet wird.
21 ist ein Flussdiagramm, das im Verfahren zum Segmentieren von Zeichensprachengeste mit der Detektion von Nicken (siehe 4) darstellt, wie die Segmentierung gemacht wird, während jede Dauer der detektierten Gesten berücksichtigt wird.
Das in 21 gezeigte Verfahren ist ähnlich dem Verfahren in 4, außer, dass Schritt S411 auf folgende Weise abgewandelt wird, und Schritt S2101 zusätzlich zur Verfügung gestellt wird.
[Schritt S411a]
Als Erstes wird bestimmt, ob die Anzahl an Codes, die im Bestimmungscode 1002 enthalten sind, j oder mehr ist. Wenn ja, geht die Prozedur nach Schritt S412.
Wenn die Anzahl (j – 1) ist, schreitet die Prozedur nach Schritt S2101 voran.
[Schritt S2101]
Als Erstes wird die Anzahl an Rahmen, die im Bereich zwischen der Codestartnummer der ersten Bestimmungscodedaten Code_data[1] und der Codeende-Rahmennummer der (j – 1)-ten Bestimmungscodedaten Code_data[j – 1] in einer Merkmalsdauer anwendbar ist, gesetzt.
Dann wird bestimmt, ob irgendein Wert, der in der Zeit 1003 gesetzt ist, im Bewegungsmerkmalsparameter (siehe 10) gesetzt ist oder nicht, und danach wird bestimmt, ob die Merkmalsdauer kleiner als der auf Zeit 1003 gesetzte Wert ist.
Wenn die Zeit 1003 auf irgendeinen Wert gesetzt ist, und wenn die Merkmalsdauer kleiner als der für die Zeit 1003 gesetzte Wert ist, geht die Prozedur nach Schritt S417.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengeste, in dem jede Dauer der detektierten Gesten berücksichtigt wird, realisiert werden.
Im Folgenden wird das Verfahren zum Segmentieren von Zeichensprachengeste, in dem ein Nichtsegmentelement detektiert wird, sowie ein Segmentelement, beschrieben.
(Dritte Ausführungsform)
22 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentierung von Zeichensprachengeste gemäß einer dritten Ausführungsform der vorliegenden Erfindung zeigt.
Die Vorrichtung in 22 ist zusätzlich mit einem Nichtsegment-Elementspeicherteil 2201 ausgestattet, im Vergleich zur Vorrichtung in 3.
Der Nichtsegment-Elementspeicherteil 2201 enthält ein vorher gespeichertes Nichtsegmentelement, das eine Bedingung von Nichtsegmentierung ist. Andere Bestandteile in dieser Vorrichtung sind identisch zu denen, die in der Vorrichtung in 3 enthalten sind.
Genauer führt die Vorrichtung in 22 so ein Verfahren zum Segmentieren von Zeichensprachengeste aus, dass das Nichtsegmentelement sowie das Segmentelement detektiert werden, und die Zeichensprachengesten werden in Übereinstimmung damit segmentiert.
Nachfolgend wird eine Beschreibung gemacht, wie die Vorrichtung zur Segmentierung von Zeichensprachengeste, die auf die oben erwähnte Weise aufgebaut ist, betrieben wird, um Verarbeitung auszuführen.
Als Erstes wird eine Beschreibung gemacht in einem Fall, in dem eine Geste, in der Hände einander nähergebracht werden als das Nichtsegmentelement detektiert wird.
23 und 24 sind Flussdiagramme, die beispielhaft illustrieren, wie die Vorrichtung zur Segmentierung von Zeichensprachengeste in 22 betrieben wird, um Verarbeitung auszuführen.
Die in den 23 und 24 dargestellten Verfahren sind ähnlich dem Verfahren in 21, außer dass Schritt S2401 zu Schritt S403 hinzugefügt wird, Schritte S2402 bis S2405 werden Schritt S405 hinzugefügt und Schritt S418 wird auf eine ähnliche Weise nach Schritt S418a abgewandelt.
Diese Schritte (S2401 bis s2405 und S418a) werden jeweils unten im Detail beschrieben.
[Schritt S2401]
Der Körpermerkmals-Extraktionsteil 302 extrahiert Bilder, die den Körpermerkmalen entsprechen, die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind, aus den eingegebenen Bildern.
25 ist ein Diagramm, das beispielhafte Nichtsegmentelementdaten zeigt, die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind.
In 25 enthalten die Nichtsegment-Elementdaten ein Körpermerkmal 2501 und ein Nichtsegment-Bewegungsmerkmal 2502.
Um zum Beispiel die Geste, in der Hände näher gebracht werden zu detektieren, wird "Handbereich" vorher für das Körpermerkmal 2501 gesetzt.
Der Körpermerkmals-Extraktionsteil 302 extrahiert den Handbereich als die Nichtsegment-Körpermerkmale. Der Handbereich kann extrahiert werden, indem der Prozedur in Schritt S403c gefolgt wird.
Danach geht die Prozedur nach Schritt S404.
[Schritt S2402]
Ein Nichtsegment-Merkmalsbewegungscode wird in der folgenden Prozedur bestimmt.
Wenn die Anzahl an Händen der i-ten Handbereichsinformationen hand[i] 2 ist, findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 9> eine Entfernung l_hand[i] zwischen Händen im i-ten Handbereich unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i] und des Schwerpunkts g2_hand[i] der zweiten Hand davon.
Dann findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 10> eine Änderung d1_hand[i] in der Entfernung zwischen Händen unter Bezugnahme auf die Entfernung l_hand[i] zwischen Händen im i-ten Handbereich und der Entfernung l_hand[i – 1] zwischen Händen im (i – 1)-ten Handbereich. d_hand[i] = l_hand[i] – l_hand[i – 1] <Gleichung 10>
Wenn die Anzahl an Händen der i-ten Handbereichsinformation hand[i] nicht 2 ist oder wenn die Anzahl an Händen der i-ten Handbereichsinformation hand[i] und die Anzahl an Händen der (i – 1)-ten Handbereichsinformation hand[i – 1] nicht die gleiche ist, setzt der Merkmalsbewegungs-Nachverfolgungsteil 303 die Änderung d1_hand[i] in der Entfernung zwischen Händen auf irgendeinen nicht negativen Wert, zum Beispiel 1000.
Wenn die Änderung d1_hand[i] in der Entfernung zwischen Händen d1_hand[i] ≤ –θ ist, ist der Nichtsegment-Merkmalsbewegungscode "1". Wenn die Änderung d1_hand[i] in der Entfernung zwischen Händen d1_hand[i] > –θ ist, ist der Nichtsegment-Merkmalsbewegungscode "0". θ steht hier für einen Schwellenwert der Veränderung in der Entfernung zwischen Händen und wird in dieser Ausführungsform zum Beispiel auf "5" gesetzt.
Wenn eine Nichtsegment-Codenummer k keinen Wert gesetzt hat, wird der Nichtsegmentcode k auf "1" gesetzt und die Nummer der Nichtsegment-Merkmalsrahmen wird auf "0" gesetzt.
In diesem Beispiel bezeichnet die Nichtsegment-Codenummer k die Anzahl an Codes, die die Nichtsegment-Merkmalsbewegungscodes binden, und die Anzahl der Nichtsegment-Merkmalsrahmen bezeichnet die Anzahl an Rahmen, die der Dauer der Detektion des Nichtsegment-Bewegungsmerkmals entsprechen, d.h., die Anzahl an Rahmen im Bereich zwischen dem Rahmen, an dem die Detektion begonnen wurde und dem Rahmen, an dem die Detektion endete.
Danach geht die Prozedur nach Schritt S3003.
[Schritt S2403]
Der Segmentpositions-Bestimmungsteil 304 nimmt auf die Nichtsegment-Elementdaten Bezug (siehe 25), die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind, und überprüft, ob der Nichtsegment-Merkmalsbewegungscode mit dem Nichtsegment-Bewegungsmerkmal 2502 übereinstimmt oder nicht. Das Nichtsegment-Bewegungsmerkmal 2502 wird mit einem Parameter (Nichtsegment-Bewegungsmerkmalsparameter) gesetzt, der das Bewegungsmerkmal anzeigt, um Nichtsegmentierung zu bestätigen (Nichtsegment-Bewegungsmerkmal).
26 ist ein Diagramm, das beispielhaft Nichtsegment-Bewegungsmerkmalsparameter zeigt, die im Nichtsegment-Bewegungsmerkmal 2502 zu setzen sind.
In 26 enthalten die Nichtsegment-Bewegungsmerkmalsparameter ein Nichtsegment-Bewegungselement 2601, einen Bestimmungscode 2602 und die Zeit 2603. Das Nichtsegment-Bewegungsmerkmal 2601 zeigt einen Typ der Nichtsegment-Bewegungsmerkmale an. Der Bestimmungscode 2602 ist eine Codeket te, die als eine Bedingung verwendet wird, um die Nichtsegment-Bewegungsmerkmale zu bestimmen. Die Zeit 2603 ist eine Zeit, die als eine Bedingung verwendet wird, um die Nichtsegment-Bewegungsmerkmale zu bestimmen.
Der Bestimmungscode 2602 wird auf ähnliche Weise wie der Bestimmungscode 1002 beschrieben, der im Bewegungsmerkmalsparameter in 10 enthalten ist. Die Zeit 2603 wird auf eine Minimaldauer für das Nichtsegment-Bewegungsmerkmal 2601 gesetzt.
Wenn der Bestimmungscode 2602 gegenüber dem k-ten Code des Nichtsegment-Merkmalsbewegungscodes, der in Schritt S2402 bestimmt wurde, unterschiedlich ist, d.h., dem letzten Code, der den Nichtsegment-Bewegungsmerkmalscode bildet, geht die Prozedur nach Schritt S2404.
Wenn er identisch ist, geht die Prozedur nach Schritt S2405.
[Schritt S2404]
Als Erstes wird die Anzahl an Nichtsegment-Merkmalsrahmen auf "0" gesetzt und dann wird die Nichtsegment-Codenummer k auf "1" gesetzt.
Danach schreitet die Prozedur nach Schritt S406 fort.
[Schritt S2405]
Die Anzahl an Nichtsegment-Merkmalsrahmen wird um "1" inkrementiert.
Wenn k > 2 und wenn der (k – 1)-te Code der Bedingung für Nichtsegment-Bestimmungscodekette sich vom Nichtsegment-Merkmalsbewegungscode unterscheidet, wird k um "1" inkrementiert.
Danach geht die Prozedur nach Schritt S406.
[Schritt S418a]
Wenn die Zeit 2603, die im Nichtsegment-Merkmalsbewegungsparameter enthalten ist (siehe 26) nicht auf irgendeinen Wert gesetzt ist, wird ein Minimalwert für die Nichtsegmentzeit auf 0 gesetzt.
Wenn die Zeit 2603 auf irgendeinen Wert gesetzt ist, wird der Minimalwert für die Nichtsegmentzeit auf den Wert der Zeit 2603 gesetzt. Wenn die Anzahl an Nichtsegment-Merkmalsrahmen kleiner als die Anzahl an Rahmen ist, die zum Minimalwert für die Nichtsegmentzeit äquivalent sind, wird die in Schritt S417 gesetzte Segmentierungsposition ausgegeben.
Danach kehrt die Prozedur nach Schritt S401 zurück.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengeste, in dem sowohl das Nichtsegmentelement (Hände einander näher Bringen) als auch das Segmentelement detektiert wird, und die Zeichensprachengeste in Übereinstimmung damit segmentiert wird, realisiert werden.
Als Nächstes wird eine Beschreibung in einem Fall gemacht, in dem Ändern der Mundform als das Nichtsegmentelement detektiert wird.
In diesem Fall wird die Verarbeitung in Schritt S2401 wie folgt abgeändert.
[Schritt S2401a]
Der Körpermerkmal-Extraktionsteil 302 extrahiert Bilder, die den Körpermerkmalen entsprechen, die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind, aus den eingegebenen Bildern.
Wenn in 25 irgendeine Veränderung in der Form des Mundes detektiert wird, wird "Mund" vorher mit dem Körpermerkmal 2501 gesetzt. Der Körpermerkmal-Extraktionsteil 302 extrahiert den Mund als Nichtsegment-Körpermerkmal. Der Mund kann auf ähnliche Weise wie Schritt S403b extrahiert werden.
Danach geht die Prozedur nach Schritt S404.
Weiterhin wird die Verarbeitung in Schritt S2402 auch wie folgt abgewandelt.
[Schritt S2402a]
Der Nichtsegment-Merkmalsbewegungscode wird bestimmt, indem der nächsten Prozedur gefolgt wird.
Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet als Erstes auf ähnliche Weise wie Schritt S405b die Veränderung d_mouth[i] im Gebiet des Mundbereichs der i-ten Mundbereichsinformation, und die vertikale Veränderung y_mouth[i] in der Länge des Mundes der i-ten Mundbereichsinformation.
Dann nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 auf die Bedingung 1602 in 16 Bezug und wählt irgendeine Bedingung von Merkmalsbewegungen für Mund aus, die der Änderung d_mouth[i] im Gebiet des Mundbereichs der i-ten Mundbereichsinformation und der vertikalen Änderung y_mouth[i] in der Länge des Mundes der i-ten Mundbereichsinformation entspricht. Dann nimmt der Merkmalsbewegungs-Nachverfolgungsteil 303 eine Zahl auf, die der ausgewählten Bedingung von Merkmalsbewegungen für Mund ent spricht, aus dem Merkmalscode 1601 in 16, und bestimmt dann den Nichtsegment-Merkmalsbewegungscode.
Wenn sich der Mund nicht bewegt, wird zum Beispiel keine Veränderung im Gebiet und der vertikalen Maximallänge des Mundes beobachtet. Zu diesem Zeitpunkt ist der Nichtsegment-Merkmalsbewegungscode "0".
Wenn die Nichtsegment-Codenummer k keinen Wert gesetzt hat, wird die Nichtsegment-Codenummer k auf "1" gesetzt, und die Anzahl an Nichtsegment-Merkmalsrahmen wird auf "0" gesetzt.
Danach geht die Prozedur nach Schritt S2403.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten gemäß den Detektionsergebnissen des Nichtsegmentelements (Ändern der Mundform) sowie des Segmentelements realisiert werden.
Als Nächstes wird eine Beschreibung eines Falls gemacht, in dem Symmetrie von Handgesten als das Nichtsegmentelement detektiert wird.
In diesem Fall wird die Verarbeitung in Schritt S2402 wie folgt abgewandelt.
[Schritt S2402b]
Der Nichtsegment-Merkmalsbewegungscode wird durch die folgende nächste Prozedur bestimmt.
Der Merkmalsbewegungs-Nachverfolgungsteil 303 bestimmt als Erstes, ob die Anzahl an Händen in der i-ten Handbereichsinformation hand[i] 1 oder kleiner ist oder nicht. Wenn die Anzahl kleiner als 1 ist, wird der Nichtsegment- Merkmalsbewegungscode auf 0 gesetzt. Danach geht die Prozedur nach Schritt S2403.
Wenn die Anzahl an Händen in der i-ten Handbereichsinformation hand[i] 2 ist, findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 11> einen Bewegungsvektor vh[1][i] der ersten Hand im i-ten Handbereich und einen Bewegungsvektor vh[2][i] der zweiten Hand darin, unter Bezugnahme auf den Schwerpunkt g1_hand[i] der ersten Hand der i-ten Handbereichsinformation hand[i], den Schwerpunkt g2_hand[i] der zweiten Hand davon, den Schwerpunkt g1_hand[i – 1] der ersten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1] und den Schwerpunkt g2_hand[i – 1] der zweiten Hand davon.
Als Nächstes findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 12> die Bewegungsmenge dvh[1][i] der ersten Hand im i-ten Handbereich, und die Bewegungsmenge dvh[2][i] der zweiten Hand im i-ten Handbereich.
27 zeigt Bedingungen von Nichtsegment-Merkmalsbewegungen für die Symmetrie von Zeichensprachengesten für den Merkmalsbewegungs- Nachverfolgungsteil 303, um den Nichtsegment-Merkmalsbewegungscode zu bestimmen.
In 27 enthalten die Bedingungen der Nichtsegment-Merkmalsbewegungen für die Symmetrie von Zeichensprachengesten einen Bewegungscode 2701 und eine Bedingung 2702. Der Bewegungscode 2701 wird auf Zahlen von "0" bis "8" gesetzt und die Bedingung 2702 wird auf die Bedingungen von Nichtsegment-Merkmalsbewegungen für die Symmetrie von Zeichensprachengesten gesetzt, die den entsprechenden Zahlen entsprechen, die im Bewegungscode 2701 gesetzt sind.
Danach findet der Merkmalsbewegungs-Nachverfolgungsteil 303 einen Bewegungscode Ch[1][i] der ersten Hand im i-ten Handbereich, und einen Bewegungscode Ch[2][i] der zweiten Hand darin, unter Bezugnahme auf die Bedingungen der Nichtsegment-Merkmalsbewegungen für Symmetrie von Zeichensprachengesten in 27.
Wenn die Anzahl an Nichtsegment-Merkmalsrahmen 0 ist, wird ein Startpunkt Psh[1] der ersten Nichtsegmentbedingung auf den Schwerpunkt g1_hand[i – 1] der ersten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1] gesetzt, und ein Startpunkt Psh[2] der zweiten Nichtsegmentbedingung wird auf den Schwerpunkt g2_hand[i – 1] der zweiten Hand der (i – 1)-ten Handbereichsinformation hand[i – 1] gesetzt.
Hier enthält der Nichtsegment-Elementspeicherteil 2201 vorher gespeicherte Bedingungen von Nichtsegmentcodes für Symmetrie von Zeichensprachengesten.
28 ist ein Diagramm, das beispielhaft Bedingungen von Nichtsegmentcodes für Symmetrie von Zeichensprachengesten zeigt, die im Nichtsegment-Elementspeicherteil 2201 gespeichert sind.
Für die Bedingungen für Nichtsegmentcodes in 28 wird Symmetrie, die in irgendeiner Geste (Zeichensprachengeste) beobachtet wird, die für die Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt) erkennbar ist, als Bedingungen gesetzt, die durch Zahlen 1 bis 10 gekennzeichnet werden.
Für die Zeichensprachengesten bewegen sich zum Beispiel die Hände oft symmetrisch zueinander im Verhältnis zu einer zum Körper vertikalen oder horizontalen Oberfläche. Es sollte bemerkt werden, dass solche Bedingungen in bedeutungslosen Handgesten gesetzt werden können, die für die Vorrichtung erkennbar sind.
Der Segmentpositions-Bestimmungsteil 304 nimmt dann auf den Startpunkt Psh[1] = (Xps1, Yps1) der ersten Nichtsegmentbedingung Bezug, den Startpunkt Psh[2] = (Xps2, Yps2) der zweiten Segmentbedingung, den Bewegungscode Ch[1][i] der ersten Hand im i-ten Handbereich, und den Bewegungscode Ch[2][i] der zweiten Hand im i-ten Handbereich, und bestimmt dann, ob die Merkmalsbewegungscodes für die Symmetrie von Zeichensprachengesten (d.h., der Bewegungscode Ch[1][i] der ersten Hand im i-ten Handbereich und der Bewegungscode Ch[2][i] der zweiten Hand im i-ten Handbereich) mit den Bedingungen in 28 (irgendeine Bedingung aus den Nummern 1 bis 10) übereinstimmt oder nicht. Wenn Ja, wird der Nichtsegment-Merkmalscode auf 1 gesetzt. Wenn Nein, wird der Nichtsegment-Merkmalscode auf 0 gesetzt.
Danach geht die Prozedur nach Schritt S2403.
Auf diese Weise kann das Verfahren zum Segmentieren von Zeichensprachengesten, in dem das Nichtsegmentelement (Symmetrie von Handgesten) detektiert wird, sowie das Segmentelement, und die Zeichensprachengesten in Übereinstimmung damit segmentiert werden, realisiert werden.
Im obigen Segmentierungsverfahren werden die Gesten des Zeichners jedoch zweidimensional erfasst, um die Symmetrie seiner/ihrer Handgesten zu detektie ren. Dementsprechend ist in diesem Verfahren die detektierbare Symmetrie auf zweidimensional beschränkt.
Im Folgenden wird daher eine Beschreibung für ein Verfahren gegeben werden, in dem die Gesten des Zeichners stereoskopisch erfasst werden, um dreidimensionale Symmetrie seiner/ihrer Handgesten zu detektieren.
In 22 enthält der Bildeingabeteil 301 zwei Kameras und gibt dreidimensionale Bilder ein. Auf diese Weise können die Gesten des Zeichners stereoskopisch erfasst werden.
In diesem Fall wird die Vorrichtung in 22 auch auf ähnliche Weise wie in den 23 und 24 betrieben, außer, dass die folgenden Punkte abgeändert werden.
Im Detail extrahiert in Schritt S403 in 23 der Körpermerkmals-Extraktionsteil 302 Bilder der Körpermerkmale, d.h. des Handbereichs in diesem Beispiel, aus den eingegebenen 3D-Bildern von den zwei Kameras.
Um den Handbereich von den 3D-Bildern zu extrahieren, kann der beige Bereich gemäß den RGB-Farbinformationen detektiert werden, wie es in einem Fall gemacht wird, in dem der Handbereich aus 2D-Bildern extrahiert wird. In diesem Fall jedoch werden RGB-Farbinformationen für jedes Pixel, das die 3D-Bilder bildet, als eine Funktion von 3D-Koordinaten in den RGB-Farbinformationen beschrieben.
Alternativ kann das Verfahren verwendet werden, das in "Face Detection from Color Images by Fuzzy Pattern Matching" (Gesichtserkennung aus Farbbildern durch unscharfes Musterabbilden) (geschrieben von Wu, Chen und Yachida; Artikel veröffentlicht durch The Electronic Information Communications Society, D-II Band J80-D-II Nr. 7, S. 1774 bis 1785, 1997. 7) beschrieben wird.
Nachdem der Handbereich detektiert wurde, findet der Körpermerkmals-Extraktionsteil 302 3D-Koordinaten h[1][i] der ersten Hand im i-ten Handbereich und 3D-Koordinaten h[2][i] der zweiten Hand im i-ten Handbereich.
Um 3D-Koordinaten des Handbereichs zu erhalten, der von den 3D-Bildern extrahiert wurde, die von den zwei Kameras eingegeben wurden, kann eine Parallaxe verwendet werden, die zwischen den 2D-Bildern von einer Kamera und den 2D-Bildern von der anderen Kamera erzeugt wird.
Weiterhin wird das Verarbeiten in Schritt S2402b wie folgt abgewandelt.
[Schritt S2402c]
Die Verarbeitung in diesem Schritt ist ähnlich dem Schritt S2402b. Hier werden Informationen über den Handbereich, der von den Bildern berechnet wird, die von einer der Kameras eingegeben wurden, zum Beispiel die Kamera links, verwendet.
Man beachte, dass der Merkmalsbewegungs-Nachverfolgungsteil 303 einen 3D-Vektor vth[1][i] der ersten Hand im i-ten Handbereich und einen 3D-Vektor vth[2][i] der zweiten Hand darin mit <Gleichung 13> findet.
Wenn die Anzahl an Nichtsegment-Merkmalsrahmen kleiner als 3 ist, geht die Prozedur nach Schritt S2403.
Auf diese Weise kann die dreidimensionale Symmetrie von Handgesten detektiert werden.
Als Nächstes wird eine Beschreibung gemacht, wie die Veränderung in Symmetrie von Handgesten im oben erwähnten Verfahren zum Segmentieren von Zeichensprachengesten gemäß Detektionsergebnissen des Nichtsegmentelements (Symmetrie von Handgesten) sowie des Segmentelements detektiert wird.
Jede Veränderung in der Symmetrie von Handgesten kann detektiert werden, indem jede Veränderung, die in einer Gestenebene beobachtet wird, erfasst wird. Hier bedeutet die Gestenebene eine Ebene, die den Pfad der Geste beinhaltet.
Zum Beispiel ist die Gestenebene für Hände eine Ebene, die einen Pfad beinhaltet, der durch Handgesten gemacht wird. Wenn irgendeine Veränderung in einer der Gestenebenen für die rechte Hand oder für die linke Hand beobachtet wird, wird die Gestensymmetrie als verändert betrachtet.
Um irgendeine Veränderung in der Gestenebene zu detektieren, kann zum Beispiel irgendeine Veränderung in einem Normalenvektor in der Gestenebene detektiert werden.
Daher wird jetzt eine Beschreibung gemacht, wie irgendeine Veränderung in der Gestenebene detektiert wird, unter Verwendung der Änderung im Normalenvektor in der Gestenebene.
Um irgendeine Veränderung in der Gestenebene durch Verwendung der Änderung im Normalenvektor in der Gestenebene zu detektieren, kann die Verarbeitung im Schritt S2402 wie folgt abgewandelt werden.
[Schritt S2402d]
Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet mit <Gleichung 14> einen Normalenvektor vch[1][i] in einer Bewegungsebene der ersten Hand im i-ten Handbereich unter Bezugnahme auf den 3D-Vektor vth[1][i] der ersten Hand im i-ten Handbereich und einen 3D-Vektor vth[1][i – 1] der ersten Hand im (i – 1)-ten Handbereich und findet einen Normalenvektor vch[2][i] in einer Bewegungsebene der zweiten Hand im i-ten Handbereich unter Bezugnahme auf einen 3D-Vektor vth[2][i] der zweiten Hand im i-ten Handbereich und einen 3D-Vektor vth[2][i – 1] der zweiten Hand im (i – 1)-ten Handbereich.
Weiterhin findet der Merkmalsbewegungs-Nachverfolgungsteil 303 mit <Gleichung 15> einen Bewegungskosinus cosθh[1][i] der ersten Hand im i-ten Handbereich unter Bezugnahme auf den Normalenvektor vch[1][i] in der Bewegungsebene der ersten Hand im i-ten Handbereich und den Normalenvektor vch[1][i – 1] in der Bewegungsebene der ersten Hand im (i – 1)-ten Handbereich und findet einen Bewegungskosinus cosθh[2][i] in der Bewegungsebene der zweiten Hand im i-ten Handbereich unter Bezugnahme auf den Normalenvektor vch[2][i – 1] in der Bewegungsebene der zweiten Hand im i-ten Handbereich und den Normalenvektor vch[2][i – 1] in der Bewegungsebene der zweiten Hand im (i – 1)-ten Handbereich.
Wenn der Bewegungskosinus cosθh[1][i] der ersten Hand im i-ten Handbereich und der Bewegungskosinus cosθh[2][i] der zweiten Hand darin nicht mindestens eine der Bedingungen der <Gleichung 16> erfüllen, wird der Nichtsegment-Bewegungscode auf 0 gesetzt. Hier ist α_vc ein Schwellenwert einer Veränderung des Normalenvektors, und wird zum Beispiel auf 0,1 gesetzt.
Danach geht die Prozedur nach Schritt S2403.
Auf diese Weise kann jede Veränderung in der Gestenebene detektiert werden, unter Verwendung der Änderung im Normalenvektor davon.
Außer dem oben erwähnten Verfahren gibt es ein Verfahren, in dem ein Gestencodevektor verwendet wird, um irgendeine Veränderung in der Gestenebene zu detektieren.
Daher wird jetzt eine Beschreibung gemacht, wie die Veränderung in der Gestenebene unter Verwendung des Gestencodevektors detektiert wird.
Um irgendeine Veränderung in der Gestenebene unter Verwendung des Gestencodevektors zu detektieren, wird die Verarbeitung in Schritt S2402 wie folgt abgewandelt.
[Schritt S2402e]
Der Merkmalsbewegungs-Nachverfolgungsteil 303 findet einen 3D-Bewegungscode Code_h1[i] der ersten Hand im i-ten Handbereich unter Bezugnahme auf die 3D-Koordinaten h1[i] der ersten Hand im Handbereich und die 3D-Koordinaten h1[i – 1] der ersten Hand im (i – 1)-ten Handbereich und findet einen 3D-Bewegungscode Code_h2[i] der zweiten Hand im i-ten Handbereich unter Bezugnahme auf die 3D-Koordinaten h2[i] der zweiten Hand im i-ten Handbereich und die 3D-Koordinaten h2[i – 1] der zweiten Hand im (i – 1)-ten Handbereich.
Hier wird ein Verfahren zum Berechnen des 3D-Bewegungscodes in "Gesture Recognition Device" (Gestenerkennungsvorrichtung) ( japanische Patentoffenlegungsschrift Nr. 7-282235 ) gelehrt. In diesem Verfahren werden Bewegungen im Handbereich durch 27 Codeteile (von 0 bis 26) dargestellt. Diese 27 Codeteile entsprechen jeweils den 3D-Vektoren, deren Richtungen variieren.
Andererseits beinhaltet der Nichtsegment-Elementspeicherteil 2201 eine vorher gespeicherte identische Gestenebenentabelle.
29 ist ein Diagramm, das beispielhaft eine identische Gestenebenentabelle zeigt, die im Nichtsegment-Elementspeicherteil 2201 gespeichert ist.
In 29 enthält die identische Gestenebenentabelle 9 Teile der identischen Gestenebenen (Gestenebenen Nr. "1" bis "9"). Die identischen Gestenebenen werden jeweils durch 27 Codeteile ähnlich den Codes im oben erwähnten Verfahren dargestellt.
Der Merkmalsbewegungs-Nachverfolgungsteil 303 extrahiert in Übereinstimmung mit den 3D-Koordinaten h1[i] der ersten Hand im i-ten Handbereich die Gestenebenennummer, die die erste Hand im i-ten Handbereich enthält, und die Gestenebenennummer, die die zweite Hand im i-ten Handbereich enthält, aus der Tabelle in 29.
Wenn eine potentielle Gestenebene MOVE_plane1 der ersten Hand nichts gesetzt hat, werden alle Gestenebenennummern, die in der extrahierten ersten Hand enthalten sind, in der potentiellen Gestenebene MOVE_plane1 der ersten Hand gesetzt, und alle Gestenebenennummem in der extrahierten zweiten Hand werden in einer zweiten potentiellen Gestenebene MOVE_plane2 der zweiten Hand gesetzt. Danach geht die Prozedur nach Schritt S2403.
Als Nächstes beurteilt der Merkmalsbewegungs-Nachverfolgungsteil 303, ob irgendeine Gestenebenennummer der extrahierten ersten Hand mit den Gestenebenennummern, die in MOVE_plane1 gesetzt sind, übereinstimmt oder nicht und ob irgendeine Gestenebenennummer in der extrahierten zweiten Hand mit den Gestenebenennummern, die in MOVE_plane2 gesetzt sind, übereinstimmt oder nicht.
Wenn die Beurteilung sagt, dass keine der Gestenebenennummern in der extrahierten ersten Hand mit den Gestenebenennummern übereinstimmt, die in MOVE_plane1 gesetzt sind, oder keine der Gestenebenennummern im extrahierten zweiten Handbereich mit den Gestenebenennummem übereinstimmt, die in MOVE_plane2 gesetzt sind, löscht der Merkmalsbewegungs-Nachverfolgungsteil 303 jede Gestenebenennummer, die in MOVE_plane1 oder in MOVE_plane2 gesetzt ist, und setzt dann 0 in den Nichtsegment-Bewegungscode. Danach geht die Prozedur nach Schritt S2403.
Wenn irgendeine Gestenebenennummer im extrahierten ersten Handbereich mit den Gestenebenennummem übereinstimmt, die in MOVE_plane1 gesetzt sind, setzt der Merkmalsbewegungs-Nachverfolgungsteil 303 nur die übereinstimmenden Nummern für MOVE_plane1 und löscht den Rest davon.
Wenn irgendeine Gestenebenennummer in der extrahierten zweiten Hand mit den Gestenebenennummern übereinstimmt, die in MOVE_plane2 gesetzt sind, setzt der Merkmalsbewegungs-Nachverfolgungsteil 303 nur die übereinstimmenden Nummern in MOVE_plane2 und löscht den Rest davon, solange eine oder mehrere Gestenebenennummem für die potentielle Gestenebene MOVE_plane2 der zweiten Hand gesetzt ist. Danach geht die Prozedur nach Schritt S2403.
Auf diese Weise kann jede Veränderung in der Gestenebene unter Verwendung des Gestencodevektors detektiert werden.
Als Nächstes wird jetzt eine Beschreibung für eine Vorrichtung für Segmentelementinduktion gemacht, die zusätzlich in die Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt) und die Vorrichtung zur Segmentierung von Zeichensprachengeste in 3 oder 22 eingefügt ist, und die den Benutzer anleitet, Übergangsgesten zu machen, die für die Vorrichtung zur Segmentierung von Zeichensprachengeste erkennbar ist, um mit Animation auf der Anzeige zu segmentieren.
(Vierte Ausführungsform)
30 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Segmentelementinduktion gemäß einer vierten Ausführungsform der vorliegenden Erfindung zeigt.
Die Vorrichtung zur Segmentelementinduktion in 30 wird zusätzlich in die Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt) und die Vorrichtung zur Segmentierung von Zeichensprachengeste in 3 oder 22 eingefügt.
In 30 enthält die Vorrichtung zur Segmentelementinduktion einen Erkennungsergebnis-Eingabeteil 3001, einen Segmentierungsergebnis-Eingabeteil 3002, einen Teil zur Erzeugung induktiver Kontrollinformationen 3003, einen Ausgabeteil 3004 und einen Teil zur Speicherung induktiver Regeln 3005.
Der Erkennungsergebnis-Eingabeteil 3001 empfängt aktuelle Erkennungszustandsinformationen von der Vorrichtung zur Erkennung von Zeichensprache, die mit ihm verbunden ist. Der Segmentierungsergebnis-Eingabeteil 3002 empfängt aktuelle Segmentierungsstatusinformationen von der Vorrichtung zur Segmentierung von Zeichensprachengeste, die mit ihm verbunden ist.
Der Erkennungsergebnis-Eingabeteil 3001 überträgt die eingegebenen Erkennungsstatusinformationen an den Teil zur Erzeugung induktiver Steuerinformationen 3003. Der Segmentierungsergebnis-Eingabeteil 3002 überträgt die eingegebenen Segmentierungsstatusinformationen an den Teil zur Erzeugung induktiver Steuerinformationen 3003. Der Teil zur Erzeugung induktiver Steuerinformationen 3003 erzeugt induktive Steuerinformationen unter Bezugnahme auf die Erkennungsstatusinformationen und Segmentierungsstatusinformationen und durch Verwendung der induktiven Regel, die im Teil zur Speicherung induktiver Regeln 3005 gespeichert ist, und überträgt dann die erzeugten induktiven Steuerinformationen an den Ausgabeteil 3004. Der Ausgabeteil 3004 gibt die induktiven Steuerinformationen an eine Vorrichtung wie etwa eine Zeichensprachen-Animationsvorrichtung (nicht dargestellt) aus, die mit ihm verbunden ist.
Im Folgenden wird eine Beschreibung gemacht werden, wie die Segmentelement-Induktionsvorrichtung, die auf die oben erwähnte Weise aufgebaut ist, betrieben wird.
31 ist ein Flussdiagramm, das darstellt, wie die Segmentelement-Induktionsvorrichtung in 30 betrieben wird.
Die Schritte in 31 werden unten jeweils im Detail beschrieben.
[Schritt S3101]
Der Erkennungsergebnis-Eingabeteil 3001 überprüft die Erkennungsstatusinformationen, die von der Vorrichtung zur Erkennung von Zeichensprache eingegeben wurden, die mit ihm verbunden ist.
32 ist ein Diagramm, das beispielhaft die Erkennungsstatusinformationen zeigt, die in den Erkennungsergebnis-Eingabeteil 3001 eingegeben wurden.
In 32 umfassen die Erkennungsergebnisinformationen eine Rahmennummer 3201 und einen Statusanzeiger 3202. Für die Rahmennummer 3201 wird ein aktueller Rahmen gesetzt, mit anderen Worten eine Rahmennummer des Rahmens, der in Bearbeitung ist, wenn die Vorrichtung zur Erkennung von Zeichensprache die Erkennungsstatusinformationen erzeugt. Der Statusanzeiger 3202 wird auf 0 gesetzt, wenn die Erkennung gelingt, oder 1, wenn sie fehlschlägt.
Nachdem die Erkennungsstatusinformationen eingegeben wurden, überträgt der Erkennungsergebnis-Eingabeteil 3001 diese an den Teil zur Erzeugung von induktiven Steuerinformationen 3003.
Danach geht die Prozedur nach Schritt S3102.
[Schritt S3102]
Der Segmentierungsergebnis-Eingabeteil 3002 überprüft die Segmentstatusinformationen, die von der Vorrichtung zur Segmentierung von Zeichensprachengeste eingegeben wurden.
33 ist ein Diagramm, das beispielhafte Segmentstatusinformationen zeigt, die in den Segmentierungsergebnis-Eingabeteil 3002 eingegeben wurden.
In 33 enthalten die Segmentstatusinformationen eine Rahmennummer 3301 und die Anzahl an noch nicht segmentierten Rahmen 3302. In der Rahmennummer 3301 wird ein aktueller Rahmen, in anderen Worten, eine Rahmennummer des Rahmens, der in Bearbeitung ist, wenn die Vorrichtung zur Segmentierung von Zeichensprachengeste die Segmentierungsstatusinformationen erzeugt, gesetzt. In der Anzahl noch nicht segmentierter Rahmen 3302 wird die Anzahl an Rahmen im Bereich vom zuletzt segmentierten Rahmen bis zum aktuellen Rahmen gesetzt.
Nachdem die Segmentierungsstatusinformation eingegeben wurden, überträgt der Segmentierungsergebnis-Eingabeteil 3002 die Segmentierungsinformationen an den Teil zur Erzeugung induktiver Steuerinformationen 3003.
Danach geht die Prozedur nach Schritt S3103.
[Schritt S3103]
Der Teil zur Erzeugung induktiver Steuerinformationen 3003 erzeugt die induktiven Steuerinformationen unter Verwendung der induktiven Regel, die im Teil zur Speicherung von induktiven Regeln 3005 gespeichert ist.
34 ist ein Diagramm, das beispielhaft induktive Steuerinformationen zeigt, die durch den Teil zur Erzeugung induktiver Steuerinformationen 3003 erzeugt wurden.
In 34 umfassen die induktiven Steuerinformationen die Anzahl an Steuerteilen des Körpers 3401, einen Steuerteil des Körpers 3402 und eine Steuergeste 3403. In der Anzahl an Steuerteilen des Körpers 3401 wird die Nummer des Kör perteils/der Körperteile, der/die in CG-Zeichen (Animation) zu steuern ist/sind, gesetzt. Im Steuerteil 3402 wird/werden der Körperteil/die Körperteile, der/die im CG-Zeichen zu steuern ist/sind, gesetzt. Man beachte, dass die Steuerteile 3402 und die Steuergeste 3403 beide darin für die Häufigkeit gesetzt werden, die gleich der Anzahl an Teilen ist, die in der Anzahl an Steuerteilen 3401 gesetzt ist.
Als Nächstes extrahiert der Teil zur Erzeugung von induktiven Steuerinformationen 3003 die induktive Regel vom Teil zur Speicherung induktiver Regeln 3003 in Übereinstimmung mit den aktuell eingegebenen Erkennungsstatusinformationen und den Segmentierungsstatusinformationen.
35 ist ein Diagramm, das beispielhaft die induktive Regel zeigt, die im Teil zur Speicherung induktiver Regeln 3005 gespeichert ist.
In 35 enthält die induktive Regel einen Erkennungsstatus 3501, die Anzahl noch nicht segmentierter Rahmen 3502, einen Steuerteil 3503 und eine Steuergeste 3504.
Wenn zum Beispiel die Erkennungsstatusinformationen in 32 und die Segmentierungsstatusinformationen in 33 eingegeben werden, stimmt der Erkennungsstatus und der Segmentierungsstatus mit der Bedingung überein, die in der zweiten Spalte von 35 gefunden wird, dem Erkennungsstatus 3501 und der Anzahl an noch nicht segmentierten Rahmen. Daher wird für die induktiven Steuerinformationen in 34 die Anzahl an Steuerteilen 3401 auf "1" gesetzt, die Steuerteile 3402 werden auf "Kopf gesetzt bzw. die Steuergeste 3403 wird auf "Nicken" gesetzt.
Die induzierenden Steuerinformationen, die auf diese Weise erzeugt werden, werden an den Ausgabeteil 3004 übertragen.
Danach geht die Prozedur nach Schritt S3104.
[Schritt S3104]
Der Ausgabeteil 3004 gibt die induktiven Steuerinformationen aus, die vom Teil zur Erzeugung induktiver Steuerinformationen 3003 übertragen wurden, zum Beispiel in die Animationserzeugungsvorrichtung. Zu diesem Zeitpunkt wandelt der Ausgabeteil 3004 die induktiven Steuerinformationen in eine Form um, die zum Beispiel von der Animationserzeugungsvorrichtung angefordert wird, wenn nötig.
Danach geht die Prozedur nach Schritt S3101.
Auf diese Weise kann das Verfahren zum Induzieren des Segmentelements realisiert werden.
Als Nächstes wird mit Bezug auf so ein Verfahren zum Induzieren des Segmentelements eine Beschreibung für einen Fall gemacht, in dem eine Animationsgeschwindigkeit gemäß einem Erkennungsverhältnis der Zeichensprachengesten geändert wird.
Im Detail wird das Erkennungsverhältnis der Zeichensprachengesten, die in der Vorrichtung zur Erkennung von Zeichensprache erhalten wurden, an die Seite der Segmentelement-Induktionsvorrichtung gegeben. Die Segmentelement-Induktionsvorrichtung ist mit einer Animationsgeschwindigkeits-Einstellungsvorrichtung ausgestattet, die die Animationsgeschwindigkeit auf der Anzeige absenkt, wenn das Erkennungsverhältnis niedrig ist, und dann den Benutzer anleitet, seine/ihre Übergangsgesten langsamer zu machen.
36 ist ein Blockdiagramm, das die Struktur der Animationsgeschwindigkeits-Anpassungsvorrichtung zeigt, mit der die Segmentelement-Induktionsvorrichtung in 30 ausgestattet ist.
In 36 umfasst die Animationsgeschwindigkeits-Anpassungsvorrrichtung einen Erkennungsergebnis-Eingabeteil 3601, einen Segmentierungsergebnis-Eingabeteil 3602, einen Teil zur Erzeugung von Geschwindigkeitsanpassungsinformationen 3603, einen Teil zur Speicherung von Geschwindigkeitsanpassungsregeln 3604 und einen Ausgabeteil 3605.
Der Erkennungsergebnis-Eingabeteil 3601 empfängt Erkennungsergebnisinformationen von der Vorrichtung zur Erkennung von Zeichensprache (nicht dargestellt). Der Segmentierungsergebnis-Eingabeteil 3603 empfängt Segmentierungsergebnisinformationen von der Vorrichtung zur Segmentierung von Zeichensprachengeste in 3 oder 22. Der Teil zur Speicherung von Geschwindigkeitsanpassungsregeln 3604 enthält eine vorher gespeicherte Geschwindigkeitsanpassungsregel. Der Teil zur Erzeugung von Geschwindigkeitsanpassungsinformationen 3603 erzeugt Steuerinformationen (Animationsgeschwindigkeits-Anpassungsinformationen) zur Steuerung der Animationsgeschwindigkeit in Übereinstimmung zumindest mit den Erkennungsergebnisinformationen, vorzugsweise sowohl den Erkennungsergebnisinformationen als auch den Segmentierungsergebnisinformationen, während auf die Geschwindigkeitsanpassungsregel Bezug genommen wird.
In diesem Beispiel wird eine Beschreibung für einen Fall gemacht, in dem der Teil zur Erzeugung von Geschwindigkeitsanpassungsinformationen 3603 die Animationsgeschwindigkeits-Anpassungsinformationen in Übereinstimmung mit den Erkennungsergebnisinformationen erzeugt.
In der Segmentelement-Induktionsvorrichtung, in die die Vorrichtung zur Anpassung der Animationsgeschwindigkeit, die auf die oben erwähnte Weise aufgebaut ist, eingefügt ist, wird Verarbeitung auf ähnliche Weise wie in 31 ausgeführt, außer, dass die folgenden Punkte unterschiedlich sind.
Die Verarbeitung in Schritt S3103 in 31 wird wie folgt abgewandelt.
[Schritt S3103a]
Der Teil zu Erzeugung von Geschwindigkeits-Anpassungsinformationen 3603 setzt 0, wenn ein Fehlererkennungsanzeiger FLAG_rec nichts gesetzt hat. Wenn der Statusanzeiger, der in den Erkennungsergebnisinformationen enthalten ist, 1 ist, wird der Fehlererkennungsanzeiger FLAG_rec um 1 inkrementiert. Wenn der Statusanzeiger 0 ist mit dem Fehlererkennungsanzeiger FLAG_rec > 0, wird der Fehlererkennungsanzeiger FLAG_rec um 1 verringert.
37 ist ein Diagramm, das beispielhaft die Geschwindigkeitsanpassungsregel zeigt, die im Teil zur Speicherung von Geschwindigkeitsanpassungsregeln 3604 gespeichert ist.
In 37 enthält die Geschwindigkeitsanpassungsregel eine Geschwindigkeitsanpassungsmenge 3701 und eine Bedingung 3702. Die Bedingung 3702 ist eine Bedingung, die verwendet wird, um die Menge an Geschwindigkeitsanpassung zu bestimmen. Hier ist d_spd, das in der Bedingung 3702 gefunden wird, ein Geschwindigkeitsanpassungsparameter, und zum Beispiel auf 50 gesetzt.
Der Teil zur Erzeugung von Geschwindigkeitsanpassungsinformationen 3603 findet die Geschwindigkeitsanpassungsmenge d_spd, die für den Fehlererkennungsanzeiger FLAG_rec angemessen ist, während er auf die Geschwindigkeitsanpassungsregel Bezug nimmt, die im Teil zur Speicherung von Geschwindigkeitsanpassungsregeln 3604 gespeichert ist.
Die auf diese Weise erhaltene Geschwindigkeitsanpassungsmenge wird an den Ausgabeteil 3605 übertragen.
Man bemerke, dass andere als die obige Verarbeitung in ähnlicher Weise wie in Schritt S3103 ausgeführt wird und nicht beschrieben wird.
Weiterhin wird die Verarbeitung in Schritt 3104 wie folgt abgewandelt.
[Schritt S3104a]
Der Ausgabeteil 3605 überträgt die Geschwindigkeitsanpassungsmenge d_spd an die Animationserzeugungsvorrichtung (nicht dargestellt). Die Animationserzeugungsvorrichtung passt die Animationsgeschwindigkeit so an, dass die Geschwindigkeit spd_def der Standardanimation um etwa die Geschwindigkeitsanpassungsmenge d_spd abgesenkt wird.
Auf diese Weise kann, wenn das Erkennungsverhältnis der Zeichensprachengeste niedrig ist, die Animationsgeschwindigkeit auf der Anzeige gesenkt werden, wodurch der Benutzer angeleitet wird, seine/ihre Übergangsgesten langsamer zu machen.
Als Nächstes wird eine Beschreibung für einen Fall gemacht, in dem ein Teil zum Verbergen einer Kamera zur Verfügung gestellt wird, um die Kamera vor der Ansicht des Benutzers zu verbergen, in der oben erwähnten Segmentelement-Induktionsvorrichtung (siehe 22; man beachte, dass es keinen Unterschied gibt, ob die Vorrichtung zur Anpassung der Animationsgeschwindigkeit dieser zur Verfügung gestellt ist oder nicht).
Wenn die Kamera ausgestellt ist, kann der Zeichner unsicher werden und nervös werden, wenn er seine/ihre Handgesten macht. Dementsprechend kann die Segmentierung nicht auf präzise Weise gemacht werden, und das Erkennungsverhältnis der Vorrichtung zur Erkennung von Zeichensprache kann absinken.
38 ist ein schematisches Diagramm, das beispielhaft die Struktur eines Teils zum Verstecken einer Kamera zeigt, mit der die Segmentelement-Induktionsvorrichtung in 22 ausgestattet ist.
In 38 wird eine Kamera 3802 in eine Position gebracht, die einem Zeichner 3801 gegenüberliegt, und ein nach oben gerichteter Monitor 3803 wird in einer vertikal niedrigeren Position von einer geraden Linie zwischen der Kamera 3802 und dem Zeichner 3801 angebracht.
Der Teil zum Verstecken der Kamera enthält einen Halbspiegel 3804, der es Licht, das von einer Vorwärtsrichtung kommt, erlaubt zu passieren, und Licht reflektiert, das von einer Rückwärtsrichtung kommt. Dieser Teil zum Verstecken der Kamera wird realisiert, indem der Halbspiegel 3804 auf einer geraden Linie zwischen den Zeichen 3801 und der Kamera 3802 platziert wird, und auch in einer vertikal höheren Position vom Monitor 3802, wobei ein Winkel von 45 Grad im Verhältnis zur geraden Linie erhalten wird.
Mit diesem Aufbau wird das Licht, das vom Monitor 3803 kommt, zuerst durch den Halbspiegel 3804 reflektiert und erreicht dann den Zeichner 3801. Somit kann der Zeichner 3801 den Monitor 3803 (auf dem die Animation angezeigt wird) sehen.
Das Licht, das vom Zeichner 3801 auf die Kamera 3802 gerichtet ist, kann durch den Halbspiegel 3804 passieren, während das Licht, das von der Kamera 3802 auf den Zeichner 3801 gerichtet ist, durch den Halbspiegel reflektiert wird. Daher ermöglicht diese Struktur der Kamera 3802, den Zeichner 3801 zu fotografieren, obwohl die Kamera für die Ansicht des Zeichners unsichtbar ist.
Mit so einem Teil zum Verstecken der Kamera kann die Kamera für die Ansicht des Zeichners unsichtbar sein.
Während die Erfindung im Detail beschrieben wurde, ist die vorangehende Beschreibung in allen Aspekten illustrativ und nicht beschränkend. Es wird verstan den, dass zahlreiche andere Modifikationen und Variationen ausgedacht werden können, ohne vom Bereich der Erfindung abzuweichen.

Claims

Verfahren des Segmentierens von Handgestik zum automatischen Segmentieren der Handgestik eines Benutzers in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl an Wörtern strukturiert sind, wenn die Handgestik eines Benutzers erkannt wird, wobei das Verfahren die folgenden Schritte umfasst: vorheriges Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht am Körper eines Benutzers während einer Geste wahrgenommen wird, die ein Wort darstellt, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Merkmal der Übergangsgeste zumindest Blinzeln, Nicken, Schließen eines Munds, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine(r) bedeutungslose(n) Handzone durch eine Hand beinhaltet, die in einem Fotografiebereich einer Kamera eingestellt ist und in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird; Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall und Speichern einer Mehrzahl von fotografierten Bilddaten davon (S101, S102 und S401); Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste beobachtet wurde, aus der Mehrzahl von fotografierten Bilddaten (S105, S403); Detektieren einer Bewegung des Bildes, die einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird (S106, S3405); und Segmentieren der Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird (S107, S108 und S417).
Verfahren des Segmentierens von Handgestik gemäß Anspruch 1, wobei im Schritt des Segmentierens der Handgeste (S107, S108 und S417) eine Dauer der Übergangsgeste gemessen wird und dann die Handgeste im Verhältnis zu der Dauer segmentiert wird.
Verfahren des Segmentierens von Handgestik gemäß Anspruch 1, weiterhin aufweisend die folgenden Schritte: vorheriges Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste beinhalten, die nicht am Körper des Benutzers wahrgenommen wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort repräsentiert; Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten (S2401); Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird (S2402); und Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten (S2403), wobei im Schritt des Segmentierens der Handgeste (S107, S108 und S417) die Handgeste nicht an der Zeitposition segmentiert wird, wo die Nicht-Übergangsgeste wahrgenommen wird.
Verfahren des Segmentierens von Handgestik gemäß Anspruch 3, wobei die Nicht-Übergangsgeste beinhaltet, Hände einander näher zu bringen als ein Wert, der für einen Abstand zwischen ihnen vorbestimmt ist.
Verfahren des Segmentierens von Handgestik gemäß Anspruch 3, wobei die Nicht-Übergangsgeste das Ändern einer Mundform beinhaltet.
Verfahren des Segmentierens von Handgestik gemäß Anspruch 3, wobei die Nicht-Übergangsgeste eine Bewegung des Bewegens einer rechten Hand symmetrisch zu einer linken Hand, und umgekehrt die linke Hand, beinhaltet.
Verfahren des Segmentierens von Handgestik gemäß Anspruch 6, wobei im Schritt des Fotografierens des Benutzers und Speicherns der Bilddaten davon (S101, S102 und S401) der Benutzer stereoskopisch fotografiert wird und ein 3D-Bild davon gespeichert wird, im Abstrahierungsschritt (S2401) ein 3D-Bild, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, von den 3D-Bilddaten extrahiert wird, im Detektierungsschritt (S2402) eine Bewegung des 3D-Bildes detektiert wird, und im Schritt des Findens der Zeitposition (S2403) Veränderungen in einer Gestenebene für die rechte Hand und einer Gestenebene für die linke Hand in Übereinstimmung mit der Bewegung des 3D-Bildes detektiert werden, und wenn keine der Gestenebenen eine Veränderung aufweist, bestimmt wird, dass die Nicht-Übergangsgeste wahrgenommen wird, und dann eine Zeitposition von ihr gefunden wird.
Verfahren des Segmentierens von Handgestik gemäß Anspruch 7, wobei im Schritt des Findens der Zeitposition (S2403) die Veränderung in der Gestenebene für die rechte Hand und der Gestenebene für die linke Hand gemäß einer Veränderung in einem Normalenvektor zu den Gestenebenen detektiert wird.
Verfahren des Segmentierens von Handgestik gemäß Anspruch 7, weiter hin aufweisend einen Schritt des vorherigen Erzeugens, in Bezug auf eine Mehrzahl von 3D-Gestencodes, die einem 3D-Vektor entsprechen, dessen Richtung sich verändert, einer Einfachbewegungs-Ebenentabelle, in der eine Kombination von 3D-Gestencodes enthalten ist, die in einer einzigen Ebene gefunden werden; und einen Schritt des Umwandelns der Bewegung der 3D-Gestencode-Zeichenkette, die durch die Mehrzahl von 3D-Gestencodes dargestellt wird (S2404), wobei im Schritt des Findens der Zeitposition (S2403) die Veränderungen in der Gestenebene für die rechte Hand und der Gestenebene für die linke Hand in Übereinstimmung mit der Einfachbewegungsebenentabelle detektiert werden.
Verfahren des Segmentierens von Handgestik gemäß Anspruch 1, weiterhin aufweisend die folgenden Schritte: vorheriges Speichern von Bilddaten einer Animation, die die Übergangsgeste darstellt; Detektieren eines Zustands der Detektion der Nicht-Übergangsgeste und eines Zustands der Erkennung der Handgeste (S3101, S3102); und visuelles Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer im Verhältnis zum Zustand der Detektion der Übergangsgeste und zum Zustand der Erkennung der Handgeste (S3103, S3104).
Verfahren des Segmentierens von Handgestik gemäß Anspruch 10, wobei im Schritt des Anzeigens der Animation (S3103, S3104) eine Geschwin digkeit der Animation in Übereinstimmung mit dem Zustand der Erkennung der Handgeste geändert wird.
Aufzeichnungsmedium, in dem ein Programm gespeichert wird, das in einer Computervorrichtung auszuführen ist, und ein Verfahren des automatischen Segmentierens der Handgestik eines Benutzers in Wörter oder begreifliche Einheiten enthält, die durch eine Mehrzahl von Wörtern strukturiert sind, wobei das Programm zum Realisieren einer Betriebsumgebung da ist, die die folgenden Schritte enthält: vorheriges Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht am Körper eines Benutzers während einer Geste wahrgenommen wird, die ein Wort darstellt, sondern die wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird, wobei das Übergangsmerkmal mindestens Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine/einer bedeutungslose(n) Handzone beinhaltet, die in einem Fotografiebereich einer Kamera eingestellt ist, in der keine Handgeste als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird; Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall, und Speichern einer Mehrzahl von Fotografiebilddaten davon (S101, S102 und S401); Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, von der Mehrzahl von Fotografiebilddaten (S105, S403); Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird (S106, S405); und Segmentieren einer Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird (S107, S108 und S417).
Aufzeichnungsmedium gemäß Anspruch 12, wobei das Programm weiterhin die folgenden Schritte umfasst: vorheriges Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste enthalten, die nicht am Körper eines Benutzers wahrgenommen wird, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort darstellt; Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten (S2401); Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird (S2402); und Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten (S2403), wobei im Schritt des Segmentieren der Handgeste (S107, S108 und S417) die Handgeste nicht an der Zeitposition segmentiert wird, wo die Übergangsgeste wahrgenommen wird.
Aufzeichnungsmedium gemäß Anspruch 12, wobei das Programm weiterhin die folgenden Schritte umfasst: vorheriges Speichern von Bilddaten einer Animation, die die Übergangsgeste darstellt; Detektieren eines Zustands der Detektion der Übergangsgeste und eines Zustands der Erkennung der Handgeste (S3101, S3102); und visuelles Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer, im Verhältnis zum Zustand der Detektion der Übergangsgeste und zum Zustand der Erkennung der Handgeste (S3103, S3104).
Vorrichtung des Segmentierens von Handgestik zum automatischen Segmentieren einer Handgestik des Benutzers in Wörter oder begreifliche Einheiten, die durch eine Mehrzahl von Wörtern strukturiert sind, wenn die Handgestik des Benutzers erkannt wird, wobei die Vorrichtung umfasst: Mittel zum Speichern von Übergangsmerkmalsdaten, die ein Merkmal einer Übergangsgeste beschreiben, die nicht wahrgenommen wird, wenn von einer Geste zu einer anderen übergegangen wird (305), wobei das Merkmal des Übergangs mindestens Blinzeln, Nicken, Schließen eines Mundes, Stoppen einer Körperbewegung, Berühren eines Gesichts mit Hand/Händen und/oder ein Hinein einer Hand in/Hinaus einer Hand aus eine/einer bedeutungslose(n) Handzone enthält, die in einem Fotografiebereich einer Kamera eingestellt ist, in der keine Handgestik als effektiv betrachtet wird, selbst wenn die Hand des Benutzers wahrgenommen wird; Mittel zum Fotografieren des Benutzers zu einem vorbestimmten Abtastintervall und Speichern einer Mehrzahl von Fotografiebilddaten davon (301); Mittel zum Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, aus der Mehrzahl der Fotografiebilddaten (302); Mittel zum Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird (303); und Mittel zum Segmentieren der Handgeste durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Übergangsgeste wahrgenommen wird, mit den Übergangsmerkmalsdaten, und dann Finden einer Zeitposition, wo die Übergangsgeste wahrgenommen wird (304).
Vorrichtung des Segmentierens von Handgesten gemäß Anspruch 15, weiterhin aufweisend: Mittel zum Speichern von Nicht-Übergangsmerkmalsdaten, die ein Merkmal einer Nicht-Übergangsgeste enthalten, die nicht wahrgenommen wird am Körper eines Benutzers, wenn von einer Geste, die ein Wort darstellt, zu einer anderen übergegangen wird, sondern die während einer Geste wahrgenommen wird, die ein Wort darstellt (2210); Mittel zum Extrahieren eines Bildes, das einem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, aus den Bilddaten (302); Mittel zum Detektieren einer Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird (303); und Mittel zum Finden einer Zeitposition, wo die Nicht-Übergangsgeste wahrgenommen wird, durch Vergleichen der Bewegung des Bildes, das dem Körperteil entspricht, in dem die Nicht-Übergangsgeste wahrgenommen wird, mit den Nicht-Übergangsmerkmalsdaten (304), wobei die Mittel zum Segmentieren der Handgeste (304) Segmentierung nicht mit Bezug auf die Handgeste an der Zeitposition ausführt, wo die Nicht-Übergangsgeste wahrgenommen wird.
Vorrichtung des Segmentierens von Handgestik gemäß Anspruch 15, weiterhin umfassend: eine Kamera (3802) zum Fotografieren des Benutzers (3801), die in einer dem Benutzer (3801) gegenüber liegenden Position angebracht wird; Mittel zum visuellen Anzeigen der Animation, die die Übergangsgeste darstellt, für den Benutzer (3801) in Bezug auf den Zustand der Detektion der Übergangsgeste und den Zustand der Erkennung der Handgeste (3003, 3004); und Mittel zum Verbergen der Kamera (3802) vor der Ansicht des Benutzers (3801).
Vorrichtung des Segmentierens von Handgesten gemäß Anspruch 17, wobei die Mittel zum Anzeigen der Animation (3003, 3004) einen nach oben gerichteten Monitor (3803) enthalten, der in einer vertikal niedrigeren Position von einer geraden Linie zwischen dem Benutzer (3801) und der Kamera (3802) angebracht wird, und die Mittel zum Verbergen der Kamera (3802) einen Halbspiegel (3804) enthalten, der es Licht, das aus einer Vorwärtsrichtung kommt, erlaubt, durchzugehen, und Licht reflektiert, das aus einer entgegen gesetzten Richtung kommt, wobei der Halbspiegel (3804) auf einer geraden Linie zwischen dem Benutzer (3801) und der Kamera (3802) angebracht wird, und auch in einer vertikal höheren Position vom Monitor (3803), wo ein Winkel von 45 Grad erhalten wird im Verhältnis zur geraden Linie.