-
Technisches Gebiet
-
Die vorliegende Erfindung bezieht sich auf eine Gestenbeurteilungseinrichtung, die die Inhalte einer durch eine Bedienperson durchgeführten Gestenbedienung beurteilt, eine Gestenbedienungseinrichtung, die einen Bedienungsbefehl zum Bedienen von Ausrüstung erzeugt auf der Grundlage der Inhalte der Gestenbedienung, und ein Gestenbeurteilungsverfahren zum Beurteilen der Inhalte der durch die Bedienperson durchgeführten Gestenbedienung.
-
Hintergrund zum Stand der Technik
-
Wenn Ausrüstung, wie ein elektrisches Heimgerät oder fahrzeugmontierte Ausrüstung, bedient wird, ist es effektiv, eine Gestenbedienung durchzuführen durch Ausführen einer Handbewegung, die es einer Bedienperson ermöglicht, die Ausrüstung zu bedienen, ohne eine Fernsteuerung zu benutzen oder ohne ein Bedienfeld zu berühren. Zudem ist es in Fällen, in denen Ausrüstung zur digitalen Beschilderung (Digital Signage) oder dergleichen in einer öffentlichen Einrichtung oder einer Fabrik bedient wird, schwierig, Berührungsbildschirme einzusetzen, da nicht davon ausgegangen werden kann, dass jede Bedienperson eine Fernbedienung besitzt und viele Anzeigeeinrichtungen groß dimensioniert sind. Daher ist die Gestenbedienung mit dem vorangehend beschriebenen Merkmal effektiv. Um eine solche Gestenbedienung zu erzielen werden Bilder der Bedienperson, die aus einer Vielzahl von Einzelbildern gebildet sind, mit einer Bildaufnahmeeinrichtung, wie einer Kamera, aufgenommen, und beispielsweise Bewegung zwischen Einzelbildern detektiert und somit die Gestenbedienung beurteilt. Dieses Verfahren birgt allerdings dahingehend Probleme, dass eine Geste in einer Situation, in der sich der Hintergrund stark verändert, wie in einer Fahrzeuginnenraumumgebung, leicht falsch beurteilt werden kann, und dass es schwer ist, zwischen der Gestenbedienung und einer unbeabsichtigten Bewegung der Bedienperson zu unterscheiden.
-
Zur Lösung dieser Probleme gibt es eine Technologie, die die Genauigkeit der Gestenbeurteilung erhöht durch Begrenzen eines Zielbereichs der Gestenbedienungsbeurteilung in Bezug auf die Position des Gesichts der Bedienperson, Beurteilen einer spezifizierten Bedienung durch die Bedienperson in Bezug auf den begrenzten Bereich, Beurteilen, ob oder ob nicht die Bedienung kontinuierlich für einen vorherbestimmten Zeitraum durchgeführt wurde, und dadurch zwischen der Gestenbedienung und einer Veränderung im Hintergrund oder zwischen der Gestenbedienung und einer unbeabsichtigten Bewegung der Bedienperson unterschieden werden kann (siehe zum Beispiel Patentreferenz 1).
-
Referenzen zum Stand der Technik
-
Patentreferenz
-
Patentreferenz 1:
Japanische Patentanmeldung Veröffentlichungsnummer 2012-58928
-
Zusammenfassung der Erfindung
-
Durch die Erfindung zu lösendes Problem
-
Bei der in Patentreferenz 1 beschriebenen Technologie muss die Bedienperson eine vorherbestimmte Bedienung kontinuierlich für eine vorherbestimmte Zeitdauer durchführen, um die Gestenbeurteilungsgenauigkeit zu erhöhen, und somit ist die Technologie zum Beurteilen einer Gestenbedienung, die in einer kurzen Zeit durchgeführt werden kann, wie eine Bedienung des Schwenkens einer Hand (nachfolgend auch als ein „Schwenken“ einer Hand bezeichnet), nicht geeignet.
-
Ein Gegenstand der vorliegenden Erfindung, die zur Lösung des vorstehend genannten Problems bei der herkömmlichen Technologie realisiert wurde, ist die Realisierung einer Hochgenauigkeitsgestenbeurteilung durch Reduzieren der Falschbeurteilung der Geste aufgrund einer Veränderung des Hintergrunds und einer unbeabsichtigten Bewegung durch die Bedienperson, selbst wenn die Bedienperson eine Gestenbedienung kurzer Dauer durchführt.
-
Mittel zum Lösen des Problems
-
Eine Gestenbeurteilungseinrichtung gemäß der vorliegenden Erfindung ist eine Gestenbeurteilungseinrichtung zum Beurteilen von Inhalten einer durch eine Bedienperson durchgeführten Gestenbedienung, aufweisend: eine Referenzteildetektionseinheit, die einen Referenzteil in einer Vielzahl von als aufgenommene Bilder nacheinander erworbenen Einzelbildern detektiert und eine Referenzteilinformation, anzeigend einen Referenzteilbereich, in dem der Referenzteil vorhanden ist, bezüglich jeder der Vielzahl von Einzelbildern ausgibt; eine Bewegungsextraktionseinheit, die Bewegung zwischen Bildern in der Vielzahl von Einzelbildern extrahiert und eine Bewegungsinformation, anzeigend einen Bewegungsbereich, in dem die Bewegung aufgetreten ist, ausgibt; eine Referenzteilverschwindensbeurteilungseinheit, die eine Referenzteilverschwindensinformation, anzeigend einen ersten Zeitpunkt des Auftretens eines Einzelbildes, in dem der Referenzteil nicht detektiert ist, erzeugt auf der Grundlage eines Ergebnisses des Detektierens, das durch die Referenzteilinformation angezeigt ist; eine Zeitpunktbeurteilungseinheit; die beurteilt, ob der durch die Referenzteilverschwindensinformation angezeigte erste Zeitpunkt und der Zeitpunkt des Auftretens eines Einzelbildes, in dem sich der durch die Bewegungsinformation angezeigte Bewegungsbereich und der durch die Bewegungsteilinformation angezeigte Referenzteilbereich miteinander überlappen, miteinander synchronisiert sind oder nicht und ein Zeitpunktbeurteilungsergebnis, das ein Ergebnis der Beurteilung ist, ausgibt; und eine Bedienungsbeurteilungseinheit, die die Inhalte der durch die Bedienperson durchgeführten Gestenbedienung beurteilt auf der Grundlage des Zeitpunktbeurteilungsergebnisses und der Bewegungsinformation.
-
Eine Gestenbedienungseinrichtung gemäß der vorliegenden Erfindung umfasst die vorstehend erläuterte Gestenbeurteilungseinrichtung und eine Befehlserzeugungseinheit, die einen Bedienungsbefehl zum Bedienen von Ausrüstung erzeugt auf der Grundlage der Inhalte der durch die Bedienungsbeurteilungseinheit beurteilten Gestenbedienung.
-
Ein Gestenbeurteilungsverfahren gemäß der vorliegenden Erfindung umfasst: einen Referenzteildetektionsschritt des Detektierens eines Referenzteils in einer Vielzahl von als aufgenommene Bilder nacheinander erworbenen Einzelbildern und Ausgebens einer Referenzteilinformation, anzeigend einen Referenzteilbereich, in dem der Referenzteil vorhanden ist, hinsichtlich jedes der Vielzahl von Einzelbildern; einen Bewegungsextraktionsschritt des Extrahierens von Bewegung zwischen Einzelbildern in der Vielzahl von Einzelbildern und Ausgebens der Bewegungsinformation, anzeigend einen Bewegungsbereich, in dem die Bewegung aufgetreten ist; einen Referenzteilverschwindensbeurteilungsschritt des Erzeugens von Referenzteilverschwindensinformation, anzeigend einen ersten Zeitpunkt des Auftretens eines Einzelbildes, in dem der Referenzteil nicht detektiert ist, auf der Grundlage eines Ergebnisses des Detektierens, das durch die Referenzteilinformation angezeigt ist; einen Zeitpunktbeurteilungsschritt des Beurteilens, ob der durch die Referenzteilverschwindensinformation angezeigte erste Zeitpunkt und der zweite Zeitpunkt des Auftretens eines Einzelbildes, in dem sich der durch die Bewegungsinformation angezeigte Bewegungsbereich und der durch die Referenzteilinformation angezeigte Referenzteilbereich miteinander überlappen, miteinander synchronisiert sind oder nicht und Ausgebens eines Zeitpunktbeurteilungsergebnisses, das ein Ergebnis der Beurteilung ist; und einen Bedienungsbeurteilungsschritt des Beurteilens von Inhalten einer durch eine Bedienperson durchgeführten Gestenbedienung auf der Grundlage des Zeitpunktbeurteilungsergebnisses und der Bewegungsinformation.
-
Wirkung der Erfindung
-
Mit der Gestenbeurteilungseinrichtung, der Gestenbedienungseinrichtung und dem Gestenbeurteilungsverfahren gemäß der vorliegenden Erfindung ist es möglich, Hochgenauigkeitsgestenbeurteilung zu realisieren durch Reduzieren der Falschbeurteilung der Geste aufgrund von einer Veränderung im Hintergrund und einer unbeabsichtigten Bewegung durch die Bedienperson, selbst dann wenn die Bedienperson eine Gestenbedienung kurzer Dauer durchführt.
-
Figurenliste
-
- 1 ist ein Diagramm zum Darstellen der allgemeinen Konfiguration einer Gestenbeurteilungseinrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung.
- 2 ist ein Diagramm zum Darstellen einer Anordnung von Blöcken bei der Berechnung eines Texturmerkmals in der ersten Ausführungsform.
- 3 ist ein Diagramm zum Darstellen von Pixeln, die zur Berechnung eines CSLBP-Merkmals in der ersten Ausführungsform verwendet werden.
- 4 ist ein Diagramm zum Darstellen der Anordnung von Zellen in einem Block bei der Berechnung eines Texturmerkmals in der ersten Ausführungsform.
- 5 ist ein Diagramm zum Darstellen eines Beispiels eine Menge an Bewegungen, die eine Gestenbedienung in der ersten Ausführungsform repräsentieren (eine Bewegung eines Schwenkens einer Hand von der linken Seite zur rechten Seite in einem Bild).
- 6 ist ein Diagramm zum Darstellen eines Bewegungsbereichs und einer Position eines Baryzentrums des Bewegungsbereichs, wenn die Menge an Bewegungen, die die Gestenbedienung repräsentieren (die Bewegung des Schwenkens einer Hand von der linken Seite zur rechten Seite im Bild) in der ersten Ausführungsform durchgeführt wird.
- 7 ist ein Diagramm zum Darstellen eines Beispiels eines Zustandsübergangsdiagramms einer Zeitpunktbeurteilungseinheit in der ersten Ausführungsform.
- 8 ist ein Diagramm zum Erläutern einer Definition von drei Bereichen auf der Grundlage von einer Referenzteilinformation in der ersten Ausführungsform.
- 9 ist ein Diagramm zum Darstellen eines Beispiels einer Menge an Bewegungen, das eine Gestenbedienung in der ersten Ausführungsform (Bewegungen des Bewegens einer Hand von der linken Seite im Bild zu einer Position vor einem Gesicht und dann Zurückschwenken der Hand zur linken Seite) repräsentiert.
- 10 ist ein Flussdiagramm zum Darstellen eines durch die Gestenbeurteilungseinrichtung gemäß der ersten Ausführungsform durchgeführten Prozesses.
- 11 ist ein Diagramm zum Darstellen der allgemeinen Konfiguration einer Gestenbeurteilungseinrichtung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung.
- 12(A) bis 12(c) sind Diagramme zum Darstellen von Handzeichentypen in der zweiten Ausführungsform.
- 13 ist ein Blockdiagramm zum Darstellen einer allgemeinen Konfiguration einer Gestenbeurteilungseinrichtung gemäß einer dritten Ausführungsform der vorliegenden Erfindung.
- 14 ist ein Blockdiagramm zum Darstellen einer allgemeinen Konfiguration einer Gestenbeurteilungseinrichtung gemäß einer vierten Ausführungsform der vorliegenden Erfindung.
- 15 ist ein Diagramm zum Darstellen einer allgemeinen Konfiguration einer Gestenbedienungseinrichtung gemäß einer fünften Ausführungsform der vorliegenden Erfindung.
- 16 ist ein Blockdiagramm zum Darstellen einer allgemeinen Konfiguration einer Gestenbedienungseinrichtung gemäß einer sechsten Ausführungsform der vorliegenden Erfindung.
- 17 ist ein Diagramm zum Darstellen einer Konfiguration einer Steuerungseinheit in einer Modifikation.
-
Ausführungsform zum Ausführen der Erfindung
-
Erste Ausführungsform
-
Konfiguration
-
1 ist ein Blockdiagramm, darstellend die allgemeine Konfiguration einer Gestenbeurteilungseinrichtung 100 gemäß einer ersten Ausführungsform der vorliegenden Erfindung. Die Gestenbeurteilungseinrichtung 100 ist eine Einrichtung, die in der Lage ist, ein Gestenbeurteilungsverfahren gemäß der ersten Ausführungsform auszuführen. Wie in 1 gezeigt, umfasst die Gestenbeurteilungseinrichtung 100 eine Referenzteildetektionseinheit 10, eine Bewegungsextraktionseinheit 20, eine Referenzteilverschwindensbeurteilungseinheit 30, eine Zeitpunktbeurteilungseinheit 40 und eine Bedienungsbeurteilungseinheit 50.
-
Zunächst folgt die Erläuterung eines allgemeiner Überblicks über die Gestenbeurteilungseinrichtung 100. Die Gestenbeurteilungseinrichtung 100 empfängt Bilddaten (aufgenommene Bilder) Im(k) von einer Menge an Einzelbildern, die Videobilder eines Raumes, enthaltend die Bedienperson, die mit einer vorherbestimmten Einzelbildrate aufgenommen wurden, repräsentieren. Hier repräsentiert k eine Einzelbildanzahl(positive ganze Zahl), die jedem Einzelbild zugeordnet ist. Zum Beispiel ist ein zu einer Zeit neben einem Einzelbild Im(k) bereitgestelltes Einzelbild als Im(k+1) repräsentiert.
-
Die Einzelbildrate ist zum Beispiel vorzugsweise mit 30 Einzelbildern pro Sekunde einzustellen. Die Bilddaten können zum Beispiel Farbbilder, Graustufenbilder oder Entfernungsbilder sein. Zur Vereinfachung der Erläuterung erfolgt die folgende Beschreibung für einen Fall, in dem die Bilddaten 8-Bit-Gadierungs-Graustufenbilder mit einer Breite von 640 Pixel und einer Höhe von 480 Pixel sind. Wie in 1 dargestellt, führt die Gestenbeurteilungseinrichtung 100 eine Menge an Bedienungen zum Ausgaben eines Gestenbeurteilungsergebnisses Om(k) auf der Grundlage der Bilddaten Im(k) einer Menge an Einzelbildern durch.
-
Die Referenzteildetektionseinheit 10 detektiert zumindest einen Teil der Bedienperson als eine Referenz (Referenzteil als ein vorherbestimmter Körperteil) in den Bilddaten Im(k), die als Eingabeinformation bereitgestellt sind, aus einer Bildaufnahmeeinrichtung und erzeugt dadurch die Referenzteilinformation Am(k), die den Referenzteil anzeigt. Für den Referenzteil in der ersten Ausführungsform wird angenommen, in der folgenden Beschreibung das Gesicht der Bedienperson zu sein. Allerdings kann der Referenzteil auch ein anderer Teil als das Gesicht der Bedienperson sein. Zum Beispiel kann der Referenzteil entweder ein zum Gesicht gehörender Teil (Gesicht, Auge, Augenbraue, Nase, Mund, Stirn, Wange, Kinn etc.) oder ein anderer Körperteil als das Gesicht, wie der Kopf oder eine Schulter, sein.
-
Die Referenzteilinformation Am(k) kann Informationen bezüglich des Vorhandenseins/Nichtvorhandenseins der Detektion des Referenzteils, zentrale Koordinaten des detektierten Referenzteils, die Größe des detektierten Referenzteils und so weiter enthalten. Die erzeugte Referenzeilinformation Am(k) wird an die Bewegungsextraktionseinheit 20 und die Referenzteilverschwindensbeurteilungseinheit 30 geliefert. Zudem gibt die Referenzteildetektionseinheit 10 die Bilddaten Im(K) einer Menge an Einzelbildern an die Bewegungsextraktionseinheit 20 und die Referenzteilverschwindensbeurteilungseinheit 30 aus.
-
Die Bewegungsextraktionseinheit 20 empfängt die Referenzteilinformation Am(k) und die jüngsten Bilddaten Im (k), extrahiert einen Bereich in der Nähe des Referenzteils, in dem die Bewegung zwischen Einzelbildern aufgetreten ist, aus den jüngsten Bilddaten Im(k) und zumindest einem Teil der Bilddaten Im(k-α) unter Bilddaten mit Einzelbildnummern, die sich von denen von Im(k) unterscheiden, und erzeugt eine Bewegungsinformation Bm(k), anzeigend den extrahierten Bereich, in dem die Bewegung aufgetreten ist. Hier ist α eine ganze Zahl größer als oder gleich 1. Die Bewegungsinformation Bm(k) umfasst Baryzentrumsdaten hinsichtlich eines Bereichs, in dem die Bewegung zwischen Bilddaten groß ist. Die erzeugte Bewegungsinformation Bm(k) wird an die Zeitpunktbeurteilungseinheit 40 geliefert.
-
Die Referenzteilverschwindensbeurteilungseinheit 30 empfängt die Bilddaten Im(k) und die Referenzteilinformation Am(k) von der Referenzteildetektionseinheit 10, beurteilt das Verschwinden des Referenzteils in den Bilddaten Im(k) durch Durchführen eines Vergleichs mit vergangenen Referenzteilinformationen Am (k-a), die in einer nicht dargestellten Speichereinheit gespeichert sind, und erzeugt dadurch ein Referenzteilverschwindensbeurteilungsergebnis (Referenzteilverschwindensinformation) Cm(k), anzeigend den Zeitpunkt des Auftretens eines Einzelbildes, in dem der Referenzteil nicht detektiert ist (erster Zeitpunkt). Hier ist α eine ganze Zahl größer als oder gleich 1. Das Referenzteilverschwindensbeurteilungsergebnis Cm (k) enthält eine Information darüber, ob oder ob nicht der Referenzteil in den Bilddaten Im(k) verschwunden ist. Zum Beispiel wird ein Wert 1 ausgegeben, wenn der Referenzteil verschwunden ist und ein Wert 0 ausgegeben, wenn der Referenzteil nicht verschwunden ist. Das durch die Referenzteilverschwindensbeurteilungseinheit 30 erzeugte Referenzteilverschwindensbeurteilungsergebnis Cm(k) wird an die Zeitpunktbeurteilungseinheit 40 geliefert.
-
Die Zeitpunktbeurteilungseinheit 40 empfängt die Referenzteilinformation Am(k), die Bewegungsinformation Bm(k)und das Referenzteilverschwindensbeurteilungsergebnis Cm(k, beurteilt, ob die Bewegungsinformation Bm(k) durch eine Geste der Bedienperson oder ein anderes Phänomen (eine Änderung des Hintergrundes und eine unbeabsichtigte Bewegung durch die Bedienperson) bewirkt wurde, und erzeugt ein Zeitpunktbeurteilungsergebnis Dm(k), das das Ergebnis der Beurteilung anzeigt. Insbesondere beurteilt die Zeitpunktbeurteilungseinheit 40, ob der erste Zeitpunkt des Auftretens des Einzelbildes, im der Referenzteil nicht detektiert ist, angezeigt durch das Referenzteilverschwindensbeurteilungsergebnis Cm(k), und der zweite Zeitpunkt des Auftretens eines Einzelbildes, in dem sich ein durch die Bewegungsinformation Bm(k) angezeigter Bewegungsbereich und ein durch die Referenzteilinformation Am(k) angezeigter Referenzteilbereich miteinander überlappen, miteinander synchronisiert sind oder nicht, und gibt das Zeitpunktbeurteilungsergebnis Dm(k) aus, das das Ergebnis der Beurteilung ist. Das Zeitpunktbeurteilungsergebnis Dm(k)wird an die Bedienungsbeurteilungseinheit 50 geliefert.
-
Die Bedienungsbeurteilungseinheit 50 empfängt die Bewegungsinformation Bm(k) und das Zeitpunktbeurteilungsergebnis Dm(k) von der Zeitpunktbeurteilungseinheit 40, beurteilt die Inhalte der Gestenbedienung auf der Grundlage des Zeitpunktbeurteilungsergebnisses Dm(k) und zumindest eines vergangenen Zeitpunktbeurteilungsergebnisses Dm(k - α) und gibt das Ergebnis der Beurteilung als das Gestenbeurteilungsergebnis Om(k) aus. Hier ist α eine ganze Zahl größer als oder gleich 1.
-
Im Folgenden wird die Funktionsweise der Gestenbeurteilungseinrichtung 100 näher beschrieben. Die Referenzteildetektionseinheit 10 erzeugt die Referenzteilinformation Am(k), indem sie mindestens einen vorherbestimmten Referenzteil der Bedienperson in den als die Eingabe bereitgestellten Bilddaten Im(k) detektiert. Zur Vereinfachung der Erläuterung wird in der folgenden Beschreibung ein Fall erläutert, bei dem der Referenzteil das Gesicht der Bedienperson ist.
-
In dem Fall, in dem der Referenzteil das Gesicht der Bedienperson ist, umfasst die Referenzteilinformation Am(k) beispielsweise Informationen über das Vorhandensein/Nichtvorhandensein der Detektion dieser Referenzteile, zentrale Koordinaten Fc (Fcx, Fcy) eines das Gesicht der Bedienperson umgebenden Rechtecks und die Breite Fcw und die Höhe Fch des Rechtecks. Hier ist beispielsweise das Vorhandensein/Nichtvorhandensein der Detektion des Referenzteils auf 1 eingestellt, wenn der Referenzteil erfolgreich detektiert wurde, und auf 0 eingestellt, wenn der Referenzteil nicht detektiert wurde. Die zentralen Koordinaten des Rechtecks sind in einem Koordinatensystem in den Bilddaten dargestellt, wobei die linke obere Ecke des Bildes als Ursprung, die rechte Richtung im Bild als positive Richtung der x-Achse und die Richtung nach unten im Bild als positive Richtung der y-Achse definiert ist. Die Detektion des Gesichts der Bedienperson kann mit einem allgemein bekannten Mittel erfolgen. So kann beispielsweise ein rechteckiger Bereich, der das Gesicht der Bedienperson umgibt, mit Hilfe eines Gesichtsdetektors vom Kaskadentyp unter Verwendung von Haar-ähnlichen Merkmalswerten extrahiert werden.
-
Die Bewegungsextraktionseinheit 20 empfängt die neuesten Bilddaten Im(k), extrahiert aus den neuesten Bilddaten Im(k)und mindestens einem Teil der Bilddaten Im(k-α) unter den Bilddaten mit Einzelbildnummern, die sich von denen von Im(k) unterscheiden, einen Bereich in der Nähe des Referenzteils, in dem eine Bewegung zwischen Bilddaten aufgetreten ist, und erzeugt die Bewegungsinformation Bm(k) auf der Grundlage des Ergebnisses der Extraktion. Zur Vereinfachung der Erklärung wird in der folgenden Beschreibung davon ausgegangen, dass die Bewegungsinformation Bm(k) aus der Referenzteilinformation Am(k), den neuesten Bilddaten Im(k) und den vorherigen Vollbild-Bilddaten Im(k-1) erzeugt wird, die in der nicht dargestellten Speichereinheit gespeichert sind. Die Bewegungsinformation Bm(k) enthält die Baryzentrumsdaten bezüglich des Bereichs, in dem die Bewegung zwischen den Bilddaten groß ist.
-
Eine allgemein bekannte Technologie kann verwendet werden, um die Größe der Bewegung zwischen Bilddaten auszuwerten. So wird beispielsweise ein Bild in eine Vielzahl von rechteckigen Bereichen unterteilt (Bewegungsmerkmal-Extraktionsblöcke, im Folgenden auch einfach als „Blöcke“ bezeichnet), für jeden Block ein Merkmal (Texturmerkmal TF) berechnet, das die Textur (Erscheinung) darstellt, und die Differenz zwischen den Bilddaten ausgewertet. In diesem Fall ist in einem Block, in dem die Bewegung groß ist, der Erscheinungsunterschied zwischen Bilddaten groß und der Unterschied im Texturmerkmal groß, wodurch die Größe der Bewegung zwischen den Bilddaten bezüglich jeder Zelle ausgewertet werden kann.
-
Im Folgenden wird für jede Zelle ein Histogramm eines CSLBP-(Center Symmetric Local Binary Pattern)-Merkmals berechnet, das kaum von Schwankungen des Umgebungslichts beeinflusst wird, und ein Bereich mit Bewegung durch Auswertung von Zellen extrahiert, in dem die Bewegung zwischen Bilddaten groß ist. Das CSLBP-Merkmal ist ein Merkmal, das durch binäre Codierung des Leuchtdichtegradienten in Bezug auf Pixel in einem quadratischen Merkmalsextraktionsbereich erhalten wird, der auf jedem Pixel zentriert ist.
-
Zunächst wird die Anordnung der Blöcke in den Bilddaten unter Bezugnahme auf 2 erläutert. 2 ist ein Diagramm, das die Anordnung der Blöcke bei der Berechnung des Texturmerkmals in der ersten Ausführungsform zeigt. Wie in 2 dargestellt, sind die Zentren der Blöcke wie ein Raster (M-Teile in x-Achsrichtung, N-Teile in y-Achsrichtung) in den Bilddaten angeordnet. M und N sind positive ganze Zahlen. Die Größe jedes in 2 dargestellten Blocks wird sowohl in der Breite Blw als auch in der Höhe Blh mit 40 Pixel angenommen. Im folgenden Beispiel sind M und N auf 16 beziehungsweise 12 eingestellt und die Blöcke sind sowohl in x-Achsenrichtung als auch in y-Achsenrichtung gleichmäßig angeordnet. Die zentralen Koordinaten des Blocks am oberen linken Ende in den Bilddaten werden als (20, 20) angenommen. In diesem Fall sind die zentralen Koordinaten des Blocks am unteren rechten Ende in den Bilddaten (620, 460).
-
Als nächstes wird im Folgenden ein Beispiel für ein Verfahren zum Berechnen des Histogramms des CSLBP-Merkmals für jeden Block unter Bezugnahme auf 3 beschrieben. Das CSLBP-Merkmal wird für alle in jedem Block enthaltenen Pixel berechnet.
-
3 ist ein Diagramm, das die Anordnung der Pixel zeigt, die für die Berechnung des CSLBP-Merkmals in der ersten Ausführungsform verwendet werden. In
3 sind Zahlen dargestellt, die Pixeln in einem 3x3-Pixel-Bereich (3 Pixel vertikal, 3 Pixel horizontal) zugeordnet sind, die auf einem Pixel Pc(x, y) zentriert sind, das für die Berechnung des CSLBP-Merkmals für jedes Pixel Pc(x, y) verwendet wird. Das CSLBP-Merkmal B(x, y) bezüglich des Pixels Pc(x, y) wird gemäß dem folgenden Ausdruck (1) unter Verwendung von Leuchtdichtewerten der 3x3-Pixel, die auf dem Pixel Pc(x, y) zentriert sind, berechnet und durch einen Wert von 0 bis 15 dargestellt:
-
In Ausdruck (1) stellen n0 bis n7 jeweils die Leuchtdichtewerte der in 5 dargestellten Pixel n0 bis n7 dar. Weiterhin stellt s(a) eine Schwellenfunktion dar; wobei s(a) = 1 wenn a > T1 und s(a) = 0 wenn a T1. Da s(a) gleich 0 oder 1 ist, ist das CSLBP-Merkmal B(x, y) eine ganze Zahl, und der Wertebereich, den das CSLBP-Merkmal B(x, y) annehmen kann, ist 0 B(x, y) < 16 Vx, y, nämlich ist B(x, y) größer als oder gleich 0 und kleiner als 16 für irgendein x und y. Der Schwellenwert T1 soll zum Beispiel etwa 1% des größten Wertes betragen, den der Leuchtdichtewert annehmen kann, und wird als T1 = 3 eingestellt, wenn der Wert des Leuchtdichtewertes von 0 bis 255 reicht.
-
Als nächstes wird nachfolgend ein Verfahren des Berechnens des Histogramms jedes Blocks unter Verwendung der für alle Pixel im Block berechneten CSLBP-Merkmale unter Bezugnahme auf 4 beschrieben. 4 ist ein Diagramm, das die Anordnung der Zellen in einem der Blöcke bei der Texturmerkmalsberechnung in der ersten Ausführungsform zeigt. Wie in 4 dargestellt, wird der Block mit der Breite Blw und der Höhe Blh weiter in Zellen mit jeweils einer Breite Cew und einer Höhe Ceh unterteilt. In der folgenden Erläuterung werden die Breite Cew und die Höhe Ceh auf Cew=5 und Ceh=5 eingestellt und jeder Block in 4x4=16 Zellen unterteilt.
-
Jede Zelle enthält Cew x Ceh Pixel, und das CSLBP-Merkmal wurde für jede Zelle berechnet. Durch die Verwendung dieser CSLBP-Merkmale wird ein Histogramm für jede Zelle erstellt. In diesem Fall wird das Histogramm für jede Zelle als 16-dimensionaler Vektor erhalten, da das CSLBP-Merkmal eine ganze Zahl von 0 bis 15 annehmen kann. Anschließend werden die jeweils für die 16 Zellen im Block berechneten 16-dimensionalen Vektoren miteinander kombiniert und der resultierende 16x16=256-dimensionale Vektor als das Texturmerkmal TF in jedem Block erhalten.
-
Für die Bilddaten Im(k) und die Bilddaten Im(k-1) wird in jedem Block das Texturmerkmal TF berechnet und in jedem Block ein Änderungsbetrag dTF des Texturmerkmals berechnet. Der Änderungsbetrag dTF wird zum Beispiel durch den euklidischen Abstand zwischen Vektoren erhalten. Durch die Berechnung des Änderungsbetrags dTF wie oben beschrieben kann die Größe der Bewegung in jedem Block ausgewertet werden.
-
Die Blöcke werden in Bereiche, in denen die Änderung groß war, und in weitere Bereiche als die Bereiche, in denen die Änderung groß war (d.h. Bereiche, in denen die Änderung gering war), klassifiziert, indem der in jedem Block berechnete Änderungsbetrag dTF unter Verwendung eines Schwellenwerts Tth binärisiert wird. So wird beispielsweise ein Block, der Schwellenwert Tth ≤ Änderungsbetrag dTF erfüllt, mit 1 gekennzeichnet und gilt als Bereiche, in denen die Änderung groß war. Im Gegensatz dazu ist ein Block, der Schwellenwert Tth > Änderungsbetrag dTF erfüllt, mit 0 gekennzeichnet und gilt als Bereiche, in denen die Änderung gering war.
-
Nach der Binärisierung der Blöcke wird der Bereich mit großer Bewegung in Gruppen unterteilt, indem die mit 1 gekennzeichneten Blöcke miteinander verbunden werden. Dann wird als der Bewegungsbereich eine Gruppe mit der größten Größe (ein Bereich mit einer großen Anzahl von miteinander verbundenen Blöcken) spezifiziert und das Baryzentrum Mg(k) der Gruppe berechnet, durch das die Bewegungsinformation Bm(k) erzeugt wird.
-
Die Referenzteilverschwindensbeurteilungseinheit 30 empfängt die Bilddaten Im(k) und die Referenzteilinformation Am(k), beurteilt das Verschwinden des Referenzteils in den Bilddaten Im(k) durch Durchführen eines Vergleichs mit den vergangenen Referenzteilinformationen Am(k-α) und erzeugt dadurch das Referenzteilverschwindensbeurteilungsergebnis Cm(k).
-
So führt beispielsweise die Referenzteilverschwindensbeurteilungseinheit 30 die Referenzteilverschwindensbeurteilung auf der Grundlage des Vorhandenseins/Nichtvorhandenseins der Referenzteildetektion durch, die in der als eine Eingabe bereitgestellten Referenzteilinformation Am(k) enthalten ist. Wenn die Referenzteildetektion in Am(k) „vorhanden“ ist, wird beurteilt, dass das Verschwinden des Referenzteils nicht aufgetreten ist, und das Referenzteilverschwindensbeurteilungsergebnis Cm(k) wird auf „0“ gesetzt und an die Zeitpunktbeurteilungseinheit 40 geliefert. Wenn die Referenzteildetektion in Am(k) „nicht vorhanden“ ist, wird beurteilt, dass das Verschwinden des Referenzteils aufgetreten ist, und das Referenzteilverschwindensbeurteilungsergebnis Cm(k) wird auf „1“ gesetzt und an die Zeitpunktbeurteilungseinheit 40 geliefert.
-
Die Zeitpunktbeurteilungseinheit 40 empfängt die Referenzteilinformation Am(k), die Bewegungsinformation Bm(k)und das Referenzteilverschwindensbeurteilungsergebnis Cm(k), beurteilt, ob die Bewegungsinformation Bm(k) durch eine Geste der Bedienperson oder ein anderes Phänomen (eine Änderung des Hintergrundes und eine unbeabsichtigte Bewegung durch die Bedienperson) bewirkt wurde, und erzeugt dadurch ein Zeitpunktbeurteilungsergebnis Dm(k). Um ein Beispiel für die Zeitpunktbeurteilung zu erläutern, wird im Folgenden davon ausgegangen, dass eine Bewegung des Bewegens einer Hand vor dem Gesicht, um das Gesicht zu kreuzen, angenommen wird, das Ziel der Gestenbeurteilung zu sein. Eine Bedienung als ein Beispiel für die Zeitpunktbeurteilung wird im Folgenden unter Bezugnahme auf 5 bis 8 beschrieben.
-
5 ist ein Diagramm, das ein Beispiel für eine Menge an Bewegungen zeigt, die eine Gestenbedienung in der ersten Ausführungsform darstellen (eine Bewegung, bei der eine Hand von der linken zur rechten Seite des Bildes bewegt wird, nämlich das Schwenken). 5 zeigt Bilder in der Nähe der Bedienperson, die aus den Bilddaten Im(k) bis Im(k + 4) extrahiert wurden, wenn die Bedienperson die Bewegung des Bewegens einer Hand vor dem Gesicht, um das Gesicht zu kreuzen, durchgeführt hat, und den Status der Detektion des Referenzteils (Gesichtes) in jedem Teil der Bilddaten.
-
Jedes in 5 gezeigte strichpunktierte Rechteck zeigt die Position der Detektion des Referenzteils als den Referenzteilbereich an. Wie in 5 gezeigt, ist das Gesicht in Im(k), Im(k + 1) und Im(k + 4) als der Referenzteil in den Bilddaten deutlich aufgenommen, und der Referenzteil dementsprechend detektiert und die Gesichtsposition von dem strichpunktierten Rechteck umgeben. Im Gegensatz dazu wurde bei Im(k + 2) und Im(k + 3) das Gesicht aufgrund der Gestenbedienung von der Hand verdeckt, so dass der Referenzteil nicht detektiert wurde und das strichpunktierte Rechteck nicht vorhanden ist.
-
6 ist ein Diagramm, das den Bewegungsbereich Mb und die Position des Baryzentrums Mg des Bewegungsbereichs Mb zeigt, wenn die Menge an Bewegungen, die die Gestenbedienung (die Bewegung des Schwenkens einer Hand von der linken zur rechten Seite im Bild) in der ersten Ausführungsform darstellt, durchgeführt wird. 6 zeigt die Positionsbeziehung zwischen dem Bereich Mb mit großer Bewegung und dem Baryzentrum Mg des Bereichs Mb in Bezug auf jeden Teil der Bilddaten in 5. In 6 wird die Position des Referenzteils durch ein strichpunktiertes Rechteck an der gleichen Position wie in 5 angezeigt. In(k + 1) bis In(k + 4) in 6 entsprechen jeweils Im(k + 1) bis Im(k + 4) in 5. Während der Referenzteil in Im(k + 2) und Im(k + 3) in 5 nicht detektiert wird, wird der Referenzteil in In(k + 2) und In(k + 3) in 6 entsprechend Im(k + 2) und Im(k + 3) gezeichnet, wobei der Grund dafür später beschrieben wird.
-
Basierend auf 5 und 6 können die Bedingungen, die der Gestenbeurteilung genügen, zu den folgenden vier Bedingungen (A1) bis (A4) zusammengefasst werden:
- Bedingung (A1): Der Referenzteil wird im Ausgangszustand detektiert und der Referenzteil verschwindet ein Mal aufgrund einer Geste.
- Bedingung (A2): Der Bewegungsbereich Mb ist in dem rechteckigen Bereich des Referenzteils enthalten, wenn der Referenzteil verschwindet (erster Zeitpunkt).
- Bedingung (A3): Der Bewegungsbereich Mb befindet sich in der Nähe (auf der linken Seite in 6, eine erste Seite) des Referenzteils unmittelbar vor dem Verschwinden des Referenzteils (dritter Zeitpunkt).
- Bedingung (A4): Der Bewegungsbereich Mb befindet sich auf einer Seite (auf der rechten Seite in 6, eine zweite Seite) gegenüber der Seite bei Bedingung (A3) unmittelbar nach dem Verschwinden des Referenzteils (vierter Zeitpunkt).
-
Die Gestenbeurteilung kann durch die Beurteilung der Synchronisation des Zeitpunkts des Vorhandenseins des Bewegungsbereichs Mb in der Nähe des Referenzteils und des Zeitpunkts des Verschwindens des Referenzteils basierend auf den oben genannten vier Bedingungen (A1) bis (A4) und der Detektion der Bewegung der Position des Vorhandenseins des Bewegungsbereichs Mb vorgenommen werden. Die Zeitpunktbeurteilungseinheit 40 beurteilt die Synchronisation des früheren Zeitpunkts des Vorhandenseins des Bewegungsbereichs Mb in der Nähe des Referenzteils und des Zeitpunkts des Verschwindens des Referenzteils und liefert das Zeitpunktbeurteilungsergebnis Dm(k) an die Bedienungsbeurteilungseinheit 50. Anschließend beurteilt die Bedienungsbeurteilungseinheit 50 die Geste basierend auf dem Zeitpunktbeurteilungsergebnis Dm(k) und dem Bewegungsstatus des Bewegungsbereichs Mb.
-
Als nächstes wird im Folgenden ein Verfahren zur Umsetzung der oben beschriebenen Zeitpunktbeurteilung unter Bezugnahme auf 7 beschrieben. 7 ist ein Diagramm, das ein Beispiel für ein Zustandsübergangsdiagramm der Zeitpunktbeurteilungseinheit 40 in der ersten Ausführungsform zeigt. Wie in 7 dargestellt, nimmt die Zeitpunktbeurteilungseinheit 40 einen Zustand S(k) an, und das Zeitpunktbeurteilungsergebnis Dm(k) enthält den Zustand S(k), den die Zeitpunktbeurteilungseinheit 40 annimmt. Der Zustand S(k) kann einen der drei in 7 dargestellten Zustände Sn, Sp und Sg annehmen, und die Bedingungen für den Zustandsübergang sind drei Bedingungen Qn, Qm und Qh.
-
Die drei Zustände Sn, Sp und Sg und die drei Bedingungen Qn, Qm und Qh werden im Folgenden unter Bezugnahme auf 8 erläutert. 8 ist ein Diagramm zur Erläuterung der Definition der drei Bereiche Rl, Rc und Rr auf der Grundlage der Referenzteilinformation Am in der ersten Ausführungsform. Der Bereich Rl ist ein Bereich, der sich links (eine negative Richtung der x-Achse) des Referenzteils in den Bilddaten und wird durch ein Zentrum Rlc (Rlcx, Rlcy), eine Breite Rlw und eine Höhe Rlh definiert. Der Bereich Rc ist ein Bereich, der sich in der Mitte der Bilddaten des Referenzteils befindet und durch ein Zentrum Rcc (Rccx, Rccy), eine Breite Rcw und eine Höhe Rch definiert ist. Der Bereich Rr ist ein Bereich, der sich rechts von (der positiven Richtung der x-Achse) dem Referenzteil in den Bilddaten befindet und durch ein Zentrum Rrc (Rrcx, Rrcy), eine Breite Rrw und eine Höhe Rrh definiert ist.
-
Die Bedingung Qm ist eine Bedingung, dass das Baryzentrum Mg im Bereich Rl oder dem Bereich Rr vorhanden ist und das Referenzteilverschwindensbeurteilungsergebnis Cm „0“ ist. Die Bedingung Qh ist eine Bedingung, dass das Baryzentrum Mg im Bereich Rc vorhanden ist und das Referenzteilverschwindensbeurteilungsergebnis Cm „1“ ist. Die Bedingung Qn repräsentiert alle Bedingungen mit Ausnahme der Bedingung Qm oder Qh.
-
Wie in 7 dargestellt, ist der Zustand Sn der Anfangszustand von S(k). Wenn die Bedingung Qm im Zustand Sn erfüllt ist, verschiebt sich der Zustand in den Zustand Sp. Andernfalls wird der Zustand Sn ohne Zustandsübergang beibehalten. Wenn die Bedingung Qh im Zustand Sp erfüllt ist, verschiebt sich der Zustand in den Zustand Sg. Wenn die Bedingung Qm im Zustand Sp erfüllt ist, wird der Zustand Sp ohne Zustandsübergang beibehalten. Wenn die Bedingung Qn im Zustand Sg erfüllt ist, verschiebt sich der Zustand in den Zustand Sn. Wenn die Bedingung Qm im Zustand Sg erfüllt ist, verschiebt sich der Zustand in den Zustand Sp. Wenn die Bedingung Qh im Zustand Sg erfüllt ist, wird der Zustand Sg ohne Zustandsübergang beibehalten. Wenn die Bedingung Qn im Zustand Sg erfüllt ist, verschiebt sich der Zustand in den Zustand Sn.
-
Wie der Übergang des Zustands S(k) in Bezug auf die in 5 dargestellte Menge an Bilddaten erfolgt, wird im Folgenden erläutert. Zunächst gilt im Ausgangszustand S(k) = Sn. Anschließend befindet sich zu einem Zeitpunkt, zu dem Im(k + 1) eingegeben wird, das Baryzentrum Mg im Bereich Rl und das Referenzteilverschwindensbeurteilungsergebnis ist „0“, und somit ist die Bedingung Qm erfüllt und der Zustand verschiebt sich zu S(k + 1) = Sp.
-
Danach ist in Im(k + 2) das Baryzentrum Mg im Bereich Rc vorhanden und das Referenzteilverschwindensbeurteilungsergebnis ist „1“, und somit ist die Bedingung Qh erfüllt und der Zustand verschiebt sich zu S(k + 2) = Sg. In Im(k + 3) ist die Bedingung Qh wie in Im(k + 2) erfüllt, und somit bleibt der Zustand in S(k + 3) = Sg. In Im(k + 4) ist Mg in Rr vorhanden und das Referenzteilverschwindensbeurteilungsergebnis ist „0“, und der Zustand verschiebt sich somit zu S(k + 4) = Sp.
-
Wie vorangehend verschiebt sich in Antwort auf die in 5 dargestellte Geste der Zustand der Zeitpunktbeurteilungseinheit 40 in der Reihenfolge von Sp, Sg und Sp (nämlich Sp -> Sg -> Sp). Durch die Beurteilung dieses Zustandsübergangs kann eine Geste, die die Bedingung (A1) bis zur Bedingung (A4) erfüllt, detektiert werden.
-
Dieser Zustandsübergang kann auch durch eine in 9 dargestellte Bewegung bewirkt werden. 9 ist ein Diagramm, das ein Beispiel für eine Menge an Bewegungen zeigt, die eine Gestenbedienung in der ersten Ausführungsform darstellen (Bewegungen, bei denen eine Hand von der linken Seite im Bild in eine Position vor einem Gesicht bewegt wird und dann die Hand zur linken Seite zurückgeschwenkt wird). Der Unterschied zwischen den Bewegungen in 5 und 9 liegt darin, ob der Bewegungsbereich Mb kurz nach dem Verschwinden des Referenzteils auf der Seite gegenüber der Seite des Vorhandenseins des Bewegungsbereichs Mb kurz vor dem Verschwinden des Referenzteils (5) oder auf der gleichen Seite (9) vorhanden ist. Die Beurteilung über diesen Unterschied wird durch die Bedienungsbeurteilungseinheit 50 in der letzten Stufe durchgeführt.
-
In den Fällen, in denen die Bewegung von 9 ausgeführt wird, können die Bedingungen, die die Gestenbeurteilung erfüllen, zu den folgenden vier Bedingungen (B1) bis (B4) zusammengefasst werden: Bedingung (B1): Der Referenzteil wird im Ausgangszustand detektiert und der Referenzteil verschwindet ein Mal aufgrund einer Geste. Bedingung (B2): Der Bewegungsbereich Mb ist im rechteckigen Bereich des Referenzteils enthalten, wenn der Referenzteil verschwindet (erster Zeitpunkt). Bedingung (B3): Der Bewegungsbereich Mb befindet sich in der Nähe des Referenzteils unmittelbar vor dem Verschwinden des Referenzteils (dritter Zeitpunkt). Bedingung (B4): Der Bewegungsbereich Mb befindet sich auf der gleichen Seite wie bei der Bedingung (B3) und in der Nähe des Referenzteils unmittelbar nach dem Verschwinden des Referenzteils (vierter Zeitpunkt).
-
Die Bedienungsbeurteilungseinheit 50 empfängt die Bewegungsinformation Bm(k) und das Zeitpunktbeurteilungsergebnis Dm(k), erzeugt das Gestenbeurteilungsergebnis Om(k) unter Verwendung der Bewegung des Baryzentrums Mg des Bewegungsbereichs Mb, das in der Bewegungsinformation Bm(k) und dem Zeitpunktbeurteilungsergebnis Dm(k) enthalten ist, und gibt das Gestenbeurteilungsergebnis Om(k) aus.
-
Insbesondere wird das Zeitpunktbeurteilungsergebnis Dm(k) als Übergang in der Reihenfolge der Zustände Sp, Sg und Sp (nämlich Sp -> Sg -> Sg -> Sp) detektiert und die Geste basierend auf der Positionsbeziehung zwischen den Baryzentren Mg zum Zeitpunkt der Übergänge beurteilt. Wenn beispielsweise in Fällen des Beurteilens der in 5 dargestellten Menge an Bewegungen als die Geste, wenn das Baryzentrum Mg, das sich vom Bereich Rl zum Bereich Rc bewegt, beobachtet wird, wenn sich das Zeitpunktbeurteilungsergebnis Dm(k) vom Zustand Sp in den Zustand Sg verschiebt, und weiterhin das Baryzentrum Mg, das sich von dem Bereich Rc in den Bereich Rr bewegt, beobachtet wird, wenn sich das Zeitpunktbeurteilungsergebnis Dm(k) vom Zustand Sg in den Zustand Sp verschiebt, wird die Geste als detektiert worden zu sein beurteilt und das Ergebnis der Beurteilung ausgegeben.
-
Ebenso wird in Fällen der Beurteilung der in 9 dargestellten Menge an Bewegungen als die Geste, wenn das Baryzentrum Mg, das sich vom Bereich Rl zum Bereich Rc bewegt, beobachtet wird, wenn sich das Zeitpunktbeurteilungsergebnis Dm(k) vom Zustand Sp in den Zustand Sg verschiebt, und ferner das Baryzentrum Mg, das sich vom Bereich Rc in den Bereich Rl bewegt, beobachtet wird, wenn sich das Zeitpunktbeurteilungsergebnis Dm(k) vom Zustand Sg in den Zustand Sp verschiebt, die Geste als detektiert worden zu sein beurteilt und das Ergebnis der Beurteilung ausgegeben.
-
Betrieb
-
Anschließend wird im Folgenden ein Verfahren eines Prozesses, der durch die Gestenbeurteilungseinrichtung 100 gemäß der ersten Ausführungsform durchgeführt wird, unter Bezugnahme auf 10 beschrieben. 10 ist ein Flussdiagramm, das den durch die Gestenbeurteilungseinrichtung 100 durchgeführten Prozess gemäß der ersten Ausführungsform darstellt. Der in 10 dargestellte Prozess wird in jeder Einzelbildperiode durchgeführt, in der ein aufgenommenes Bild eingegeben wird, nämlich einmal in jeder Einzelbildperiode durchgeführt. Zunächst erzeugt die Referenzteildetektionseinheit 10 in Schritt S1 die Referenzteilinformation Am(k)durch Detektieren mindestens eines vorherbestimmten Teils der Bedienperson als die Referenz (Referenzteil) in den als die Eingabe bereitgestellten Bilddaten Im(k).
-
Anschließend empfängt die Bewegungsextraktionseinheit 20 in Schritt S2 die Referenzteilinformation Am(k) und die neuesten Bilddaten Im(k), extrahiert aus den neuesten Bilddaten Im(k) und zumindest einem Teil der Bilddaten Im(k-α) unter den Bilddaten, die Einzelbildnummern aufweisen, die sich von Im(k) unterscheiden, einen Bereich in der Nähe des Referenzteils, in dem eine Bewegung zwischen Einzelbildern aufgetreten hat, und erzeugt dadurch die Bewegungsinformation Bm(k).
-
Anschließend empfängt die Referenzteilverschwindensbeurteilungseinheit 30 in Schritt S3 die Bilddaten Im(k) und die Referenzteilinformation Am(k), beurteilt das Verschwinden des Referenzteils in den Bilddaten Im(k) durch Durchführen eines Vergleichs mit vergangenen Referenzteilinformationen Am(k-α) und erzeugt dadurch das Referenzteilverschwindensbeurteilungsergebnis Cm(k).
-
Die Verarbeitung des Schrittes S2 und die Verarbeitung des Schrittes S3 werden parallel durchgeführt.
-
Anschließend empfängt die Zeitpunktbeurteilungseinheit 40 in Schritt S4 die Referenzteilinformation Am(k), die Bewegungsinformation Bm(k) und das Referenzteilverschwindensbeurteilungsergebnis Cm(k), beurteilt, ob die Bewegungsinformation Bm(k) durch eine Geste der Bedienperson oder ein anderes Phänomen (eine Änderung im Hintergrund und eine unbeabsichtigte Bewegung durch die Bedienperson) bewirkt wurde und erzeugt dadurch das Zeitpunktbeurteilungsergebnis Dm(k).
-
Schließlich empfängt die Bedienungsbeurteilungseinheit 50 in Schritt S5 das Zeitpunktbeurteilungsergebnis Dm(k), führt die Gestenbeurteilung durch auf der Grundlage von Dm(k) und zumindest einem vergangenen Zeitpunktbeurteilungsergebnis Dm(k-α) und erzeugt und gibt dadurch das Gestenbeurteilungsergebnis Om(k) aus.
-
Wirkung
-
Wie vorstehend beschrieben, wird mit der Gestenbeurteilungseinrichtung 100 gemäß der ersten Ausführungsform die Geste basierend auf der Position und dem Zeitpunkt des Erscheinens des Bewegungsbereichs im Bild, der durch die Gestenbedienung bewirkt wird, und dem Zeitpunkt des Verschwindens des Referenzteils einer Person aus dem aufgenommenen Bild aufgrund der Gestenbedienung beurteilt. Mit deren Worten beurteilt die Gestenbeurteilungseinrichtung 100 gemäß der ersten Ausführungsform, ob der erste Zeitpunkt des Auftretens eines Einzelbildes, in dem der Referenzteil nicht detektiert ist, angezeigt durch die Referenzteilverschwindensinformation, und der zweite Zeitpunkt des Auftretens eines Einzelbildes, in dem sich der durch die Bewegungsinformation angezeigte Bewegungsbereich und der durch die Referenzteilinformation angezeigte Referenzteilbereich miteinander überlappen, miteinander synchronisiert sind oder nicht und beurteilt den Inhalt der durch die Bedienperson durchgeführten Gestenbedienung basierend auf dem Zeitpunktbeurteilungsergebnis, das das Ergebnis der Beurteilung und der Bewegungsinformation ist. Dementsprechend kann die Gestenbeurteilung auch dann mit hoher Genauigkeit durchgeführt werden, wenn die Bedienperson eine Gestenbedienung kurzer Dauer (z.B. die Bedienung des Schwenkens einer Hand) durchführt, ohne eine vorherbestimmte Bewegung für einen vorherbestimmten Zeitraum fortzusetzen.
-
Weiterhin kann die Bedienperson mit der Gestenbeurteilungseinrichtung 100 gemäß der ersten Ausführungsform durch Einstellung des Referenzteils als das Gesicht der Bedienperson eine entsprechende Gestenbedienung durchführen durch Ausführen einer Bewegung des Bewegens einer Hand, um eine Position vor der Kamera zu kreuzen (Position zwischen dem Gesicht der Bedienperson und der Kamera). Auf diese Weise kann die Bedienperson die Referenz der Gestenbedienung leicht erfassen (einfaches Bewegen einer Hand, um die Position vor seinem/ihrem eigenen Gesicht zu kreuzen, funktioniert) und die Gestenbedienung durch die Bedienperson wird erleichtert.
-
Modifikationen
-
Während das Gesicht der Bedienperson als der Referenzteil in der ersten Ausführungsform verwendet wird, ist der Referenzteil nicht auf dieses Beispiel beschränkt: Ein anderer Körperteil der Bedienperson, wie Auge, Nase, Mund, Hals, Schulter oder dergleichen, kann auch als der Referenzteil verwendet werden. Für die Detektion eines solchen anderen Teils als des Gesichts ist es möglich, einen Kaskadendetektor ähnlich wie bei der Gesichtsdetektion zu verwenden oder eine allgemein bekannte Technologie, wie AAM (Active Appearance Model), zu verwenden.
-
Während der Referenzteil in der ersten Ausführungsform als ein Teil (Gesicht) der Bedienperson eingestellt ist, ist der Referenzteil nicht auf dieses Beispiel beschränkt: Der Referenzteil muss kein Teil der Bedienperson sein. So ist es beispielsweise in einem Fall, in dem die Bedienperson auf einem Stuhl sitzt, möglich, den Referenzteil als einen Teil des Stuhls, wie beispielsweise eine Armlehne, eine Beleuchtungsvorrichtung oder einen Teil einer Wand in einem Raum, in dem sich die Bedienperson befindet, einzustellen. Im Hinblick auf die genaue Detektion der Geste ist es jedoch vorteilhaft, den Referenzteil als einen Teil an einer Position einzustellen, an der der Teil aufgrund einer anderen Bewegung als der Geste nicht aus dem Bild verschwindet. Weiterhin ist es vorteilhaft, den Referenzteil als einen zwischen der Bedienperson und der Kamera vorhandenen Teil einzustellen.
-
Während in der ersten Ausführungsform ein Referenzteil (das Gesicht der Bedienperson) eingestellt ist, ist die Einstellung des Referenzteils nicht auf dieses Beispiel beschränkt. So ist es beispielsweise möglich, eine Vielzahl von Referenzteilen zu detektieren und die Beurteilung darauf beruhend durchzuführen, ob die extrahierte Bewegungsinformation durch die Gestenbedienung bewirkt wurde oder nicht unter Verwendung des Referenzteilverschwindensbeurteilungsergebnisses in Bezug auf den Verschwindenszeitpunkt jedes der Vielzahl von detektierten Referenzteilen. Dies ermöglicht es, die Gestenbeurteilung mit noch höherer Genauigkeit durchzuführen. Es ist auch möglich, die Beurteilung darauf beruhend durchzuführen, ob die extrahierte Bewegungsinformation durch die Gestenbedienung bewirkt wurde oder nicht auf der Grundlage der Reihenfolge des Verschwindenszeitpunkts der Vielzahl von Referenzteilen. Auch in diesem Fall wird eine Hochgenauigkeitsgestenbeurteilung möglich.
-
Während die Texturinformation für die Bewegungsextraktion in der ersten Ausführungsform verwendet wird, ist die Bewegungsextraktion nicht auf dieses Beispiel beschränkt; die Bewegungsextraktion kann durch Berechnen einer Leuchtdichtewertdifferenz zwischen Einzelbildern oder durch Verwenden einer statistischen Hintergrunddifferenztechnik unter Verwendung von Histogrammen aus roten, grünen und blauen (RGB) Pixelwerten und dem Leuchtdichtewert durchgeführt werden. Es ist auch möglich, die Bewegung zu extrahieren durch Detektieren einer Hand mit einem Detektionsmittel, wie beispielsweise einem Kaskadendetektor, ähnlich der Gesichtsdetektion, und Verfolgen der detektierten Hand. Eine allgemein bekannte Technik, wie ein Kalman-Filter oder ein Teilchenfilter, kann als ein Verfahren zur Verfolgung der detektierten Hand verwendet werden.
-
Während eine Bewegung, wie das Bewegen einer Hand vor dem Gesicht, um das Gesicht zu kreuzen, in der ersten Ausführungsform als die Zielbewegung der Gestenbeurteilung verwendet wird, ist die Bewegung als die Zielbedienung nicht auf dieses Beispiel beschränkt; jede Bewegung ist verwendbar, solange ein vorherbestimmter Referenzteil zusammen mit der Bewegung einer Hand verschwindet. Zum Beispiel kann eine Bedienung, bei der eine Hand vor dem Gesicht bewegt wird, um das Gesicht von oben nach unten zu kreuzen, oder eine Hand wiederholt von links nach rechts vor dem Gesicht geschwenkt wird, um das Gesicht zu kreuzen, als die Geste als das Ziel der Beurteilung verwendet werden.
-
Während davon ausgegangen wird, dass die Bewegungsinformation Bm(k)die Baryzentrumsdaten des Bereichs mit großer Bewegung in der ersten Ausführungsform enthält, ist die Bewegungsinformation Bm(k) nicht auf dieses Beispiel beschränkt; zentrale Punktdaten des Bereichs mit großer Bewegung können beispielsweise verwendet werden.
-
Während der Bereich mit großer Bewegung in Gruppen unterteilt ist und ein Bereich mit einer großen Anzahl von miteinander verbundenen Blöcken als der Bewegungsbereich in der ersten Ausführungsform spezifiziert ist, ist der Bewegungsbereich nicht auf dieses Beispiel beschränkt. So kann beispielsweise der Bewegungsbereich auch als ein Bereich, der von miteinander verbundenen Blöcken umgeben ist und den größten Bereich unter diesen umgebenen Bereichen aufweist, oder als ein Bereich mit dem größten Gesamtwert der für jeden Block, der in den miteinander verbundenen Blöcken enthalten ist, berechneten Änderungsbetrag dTF spezifiziert sein.
-
Während die Bewegungsextraktion für die gesamten Bilddaten Im(k) in der ersten Ausführungsform durchgeführt wird, ist es auch möglich, einen Bereich in der Nähe des detektierten Referenzteils als einen Bewegungsextraktionszielbereich einzustellen und die Bewegungsextraktion innerhalb des Bereichs des eingestellten Bewegungsextraktionszielbereichs durchzuführen. Durch die Einstellung des Bewegungsextraktionszielbereichs wie oben beschrieben können die für die Berechnung des CSLBP-Merkmals notwendigen Berechnungskosten reduziert werden.
-
Während die Bewegungsextraktionseinheit 20 eine Gruppe aus den Gruppen im Bereich mit großer Bewegung auswählt und dadurch die Bewegungsinformation Bm(k) in der ersten Ausführungsform erzeugt, ist die Bewegungsinformation Bm(k) nicht auf dieses Beispiel beschränkt. So kann beispielsweise die Bewegungsinformation Bm(k) Informationen über zwei oder mehr der Gruppen enthalten. In solchen Fällen ist durch die Zeitpunktbeurteilungseinheit 40 zu bestimmen, welche Gruppe aus den Gruppen ausgewählt und verwendet werden soll. Wenn die Gruppe durch die Zeitpunktbeurteilungseinheit 40 ausgewählt ist, wird beispielsweise eine Gruppe mit der größten Größe oder eine Gruppe, die zum Referenzteil oder dem verschwundenen Referenzteil an nächsten liegt, ausgewählt.
-
Zweite Ausführungsform
-
Konfiguration
-
11 ist ein Blockdiagramm, das die allgemeine Konfiguration einer Gestenbeurteilungseinrichtung 100a gemäß einer zweiten Ausführungsform der vorliegenden Erfindung darstellt. Die in 11 dargestellte Gestenbeurteilungseinrichtung 100a, die im Wesentlichen die gleiche ist wie die in 1 dargestellte Gestenbeurteilungseinrichtung 100, unterscheidet sich von der Gestenbeurteilungseinrichtung 100 dadurch, dass sie eine Formextraktionseinheit 60 und eine Bedienungsbeurteilungseinheit 50a enthält. In 11 wird jeder Komponente, die mit einer in 1 dargestellten Komponente identisch oder korrespondierend ist, das gleiche Bezugszeichen wie in 1 zugewiesen. Weiterhin entfällt die Beschreibung für Komponenten, die identisch mit oder den in 1 dargestellten Komponenten entsprechend sind.
-
Die zweite Ausführungsform unterscheidet sich von der ersten Ausführungsform dadurch, dass die Gestenbeurteilung nicht auf eine Geste beschränkt ist, die mittels einer Bewegung, wie der Handschwenkbewegung, ausgeführt wird, die Formextraktionseinheit 60 eine Zeichenextraktion auf eine Geste durchführt, die ein bestimmtes Handzeichen aufweist, wie das Senden eines Signals, und die Bedienungsbeurteilungseinheit 50a das Gestenbeurteilungsergebnis Om(k) basierend auf einem Handzeichenextraktionsergebnis Em(k, das durch die Formextraktionseinheit 60 erhalten wurde, und das Zeitpunktbeurteilungsergebnis Dm(k), das durch die Zeitpunktbeurteilungseinheit 40 erhalten wurde, ausgibt.
-
Zunächst empfängt die Formextraktionseinheit 60 die Bilddaten Im(k) als die Eingabe, detektiert eine in den Bilddaten Im(k) enthaltene Hand und gibt das Handzeichenextraktionsergebnis Em(k) aus. 12(a) bis 12(c) sind Diagramme, die Typen von Handzeichen zeigen, die mit einer Hand in der zweiten Ausführungsform gebildet werden. 12(a) zeigt einen Fall, in dem das Handzeichen ein Stein ist, 12(b) zeigt einen Fall, in dem das Handzeichen eine Schere ist, und 12(c) zeigt einen Fall, in dem das Handzeichen Papier ist. Die durch die Formextraktionseinheit 60 extrahierten Handzeichen sind vorherbestimmte Handzeichen; die in 12 dargestellten Typen (Stein, Schere, Papier) können als Beispiel angegeben werden. In der folgenden Beschreibung werden die in 12 dargestellten Handzeichen als die Typen des extrahierten Handzeichens angenommen.
-
Das Handzeichenextraktionsergebnis Em(k) enthält Informationen über das Vorhandensein/Nichtvorhandensein der Handdetektion, anzeigend, ob eine Hand in den Bilddaten Im(k) detektiert wurde oder nicht, Informationen über den Typ des extrahierten Handzeichens, Informationen über die zentralen Koordinaten und die Größe der detektierten Hand, und so weiter. In Bezug auf das Vorhandensein/Nichtvorhandensein der Handdetektion wird zum Beispiel bei der Detektion einer Hand ein Wert von 1 oder ein Wert von 0 ausgegeben, wenn keine Hand detektiert wurde. In Bezug auf den Typ des Handzeichens, für die Handzeichen im Spiel von Stein, Papier und Schere wird beispielsweise ein Wert von 1 ausgegeben, wenn das Handzeichen der Stein ist (Steinform), ein Wert von 2 wird ausgegeben, wenn das Handzeichen die Schere ist (Scherenform), ein Wert von 3 wird ausgegeben, wenn das Handzeichen das Papier ist (Papierzeichen), und ein Wert von 0 wird ausgegeben, wenn das Handzeichen kein vorherbestimmtes Handzeichen ist. Ein Bereich der detektierten Hand wird durch einen rechteckigen Bereich dargestellt, zum Beispiel werden die zentralen Koordinaten Hc (Hcx, Hcy) des rechteckigen Bereichs als die zentralen Koordinaten der Hand ausgegeben, und die Breite Hw und die Höhe Hh des rechteckigen Bereichs werden als die Größe ausgegeben.
-
Die Bedienungsbeurteilungseinheit 50a empfängt das Handzeichenextraktionsergebnis Em(k), das Bewegungsextraktionsergebnis Bm(k) und das Zeitpunktbeurteilungsergebnis Dm(k) und gibt das Gestenbeurteilungsergebnis Om(k) aus.
-
Betrieb
-
Im Folgenden wird der Betrieb der Gestenbeurteilungseinrichtung 100a gemäß der zweiten Ausführungsform beschrieben. Zunächst wird der Betrieb der Formextraktionseinheit 60 beschrieben. Die Formextraktionseinheit 60 ist in der Lage, eine in den Bilddaten Im(k) enthaltene Hand zu detektieren und ein vorherbestimmtes Handzeichen unter Verwendung einer allgemein bekannten Technologie zu extrahieren. Für die Handdetektion wird beispielsweise ein Handdetektor vom Kaskadentyp, wie der für die Gesichtsdetektion verwendete Detektor, verwendet. Für die Extraktion des Handzeichens werden die CSLBP-Merkmalswerte für den vom Handdetektor detektierten rechteckigen Bereich der Hand berechnet und das Zeichen wird zum Beispiel mittels SVM (Support Vector Machine) extrahiert. Die Formextraktionseinheit 60 gibt das durch die Extraktion erhaltene Handzeichenextraktionsergebnis Em(k) an die Bedienungsbeurteilungseinheit 50a aus.
-
Als nächstes wird eine Bewegung der Bedienungsbeurteilungseinheit 50a beschrieben. Die Bedienungsbeurteilungseinheit 50a gibt als ein Gestenbeurteilungsergebnis Om(k) ein Gestenbeurteilungsergebnis mittels Handbewegung oder ein Gestenbeurteilungsergebnis mittels Handzeichendarstellung aus. Das Gestenbeurteilungsergebnis mittels Handbewegung wird basierend auf dem Zeitpunktbeurteilungsergebnis Dm(k)erzeugt und ausgegeben. Das Gestenbeurteilungsergebnis mittels Handzeichendarstellung wird basierend auf dem Ergebnis des Analysierens der Bewegungsgeschwindigkeit des Bewegungsbereichs im Bild, der aus dem Bewegungsextraktionsergebnis Bm(k) bestimmt ist, und dem Handzeichenextraktionsergebnis Em(k) für eine Vielzahl von Einzelbildern erzeugt und ausgegeben.
-
Die Gestenbeurteilung mittels Handbewegung erfolgt in gleicher Weise wie in der ersten Ausführungsform. Für die Gestenbeurteilung mittels Handzeichendarstellung verfügt die Bedienungsbeurteilungseinheit 50a über Zähler zum Zählen von Informationen über ein im letzten Einzelbild extrahiertes Handzeichen in Bezug auf jeden der in 12 dargestellten Gestentypen, und inkrementiert, dekrementiert oder setzt die Zähler zurück in Abhängigkeit vom Handzeichenextraktionsergebnis Em(k) und der aus dem Bewegungsextraktionsergebnis Bm(k) bestimmten Bewegungsgeschwindigkeit des Bewegungsbereichs im aufgenommenen Bild. Wenn der Zähler einen bestimmten Wert erreicht, wird er als eine Geste der Präsentation eines Handzeichens gewertet.
-
Zunächst wird die Bewegungsgeschwindigkeit V(k) des Bewegungsbereichs im aufgenommenen Bild aus dem Bewegungsextraktionsergebnis Bm(k) des aktuellen Einzelbildes und dem Bewegungsextraktionsergebnis Bm(k-a) eines vergangenen Einzelbildes berechnet. In diesem Beispiel wird zur Vereinfachung der Erläuterung angenommen, dass a=l ist. So wird beispielsweise die Bewegungsgeschwindigkeit V(k) berechnet unter Verwendung des euklidischen Abstands zwischen dem im Bewegungsextraktionsergebnis Bm(k) enthaltenen Baryzentrum Mg(k) und dem im Bewegungsextraktionsergebnis Bm(k-1) enthaltenen Baryzentrum Mg(k-1).
-
Im Folgenden werden die Bedingungen für das Inkrementieren, Dekrementieren und Zurücksetzen der Zähler beschrieben. Bezüglich des Inkrements, wenn die Bewegungsgeschwindigkeit V(k) des Bewegungsbereichs (Bewegungsbewertungswert) kleiner ist als ein vorherbestimmter Schwellenwert Vh und ein vorherbestimmter Gestentyp im Handzeichenextraktionsergebnis Em(k) extrahiert wurde, wird der Zähler des jeweiligen Gestentyps inkrementiert. In diesem Fall werden Zähler irrelevanter Gestentypen dekrementiert. Das Dekrement wird durchgeführt, wenn eine der oben genannten Bedingungen erfüllt ist oder die Bewegungsgeschwindigkeit V(k) größer als oder gleich dem vorherbestimmten Schwellenwert Vh ist.
-
Im Übrigen wird ein Maximalwert zum Zeitpunkt des Inkrements auf CMax gesetzt und das Inkrement wird nicht durchgeführt, wenn der Zähler den Maximalwert überschreitet. Weiterhin wird z.B. ein Minimalwert zum Zeitpunkt des Dekrements auf 0 gesetzt und das Dekrement wird nicht durchgeführt, wenn der Zähler unter den Minimalwert fällt. Wenn eine Geste mittels Handbewegung detektiert wird, wird das Zurücksetzen des Zählers für alle Zähler durchgeführt, indem die Zähler z.B. auf 0 als Zählerminimalwert gesetzt werden.
-
Was den Zeitpunkt der Gestenbeurteilung mittels Handzeichendarstellung betrifft, so wird zu dem Zeitpunkt, zu dem ein Zähler, der einer der in 12 dargestellten Gesten entspricht, einen Schwellenwert Cth überschreitet, beurteilt, dass die Geste detektiert wurde und das Bewertungsergebnis ausgegeben. Im Übrigen wird der Schwellenwert Cth auf einen Wert gesetzt, der kleiner als der Maximalwert Cmax ist.
-
Wirkung
-
Mit der Gestenbeurteilungseinrichtung 100a gemäß der zweiten Ausführungsform können ähnliche Wirkungen wie mit der Gestenbeurteilungseinrichtung 100 gemäß der ersten Ausführungsform erzielt werden.
-
Mit der Gestenbeurteilungseinrichtung 100a gemäß der zweiten Ausführungsform wird die Gestenbeurteilung mittels Handzeichendarstellung unter Verwendung des Gestenbeurteilungsergebnisses Om(k) mittels Handbewegung durchgeführt, das basierend auf dem Handzeichenextraktionsergebnis Em(k) als Ergebnis der Extraktion durch die Formextraktionseinheit 60 und dem Zeitpunktbeurteilungsergebnis Dm(k) als Ergebnis der Beurteilung durch die Zeitpunktbeurteilungseinheit 40 erzeugt wird. Dementsprechend wird eine Gestenbeurteilung mit geringerer Falschbeurteilung möglich.
-
Mit der Gestenbeurteilungseinrichtung 100a gemäß der zweiten Ausführungsform wird der Bewegungsbewertungswert (in der zweiten Ausführungsform als Bewegungsgeschwindigkeit V(k) des Bewegungsbereichs beschrieben) aus dem Bewegungsmerkmal berechnet, und die Gestenbeurteilung mittels Handzeichendarstellung nicht durchgeführt, wenn der Bewegungsbewertungswert größer als der vorherbestimmte Schwellenwert ist (die Gestenbeurteilung mittels Handzeichendarstellung wird durchgeführt, wenn der Bewegungsbewertungswert kleiner oder gleich dem vorherbestimmten Schwellenwert ist. Dementsprechend wird eine Gestenbeurteilung mit geringerer Falschbeurteilung möglich.
-
Modifikationen
-
Während die Bewegungsgeschwindigkeit des Bewegungsbereichs als Bewegungsbewertungswert in der zweiten Ausführungsform verwendet wird, ist der Bewegungsbewertungswert nicht auf dieses Beispiel beschränkt; es ist auch möglich, die Größe des Bewegungsbereichs als Bewegungsbewertungswert zu verwenden.
-
Während die Zeichenextraktion für die gesamten Bilddaten Im(k) in der zweiten Ausführungsform durchgeführt wird, ist das Verfahren der Zeichenextraktion nicht auf dieses Beispiel beschränkt. So ist es beispielsweise auch möglich, die Referenzteilinformation Am(k) in die Formextraktionseinheit 60 einzugeben und die Formextraktionseinheit 60 zu veranlassen, einen Bereich in der Nähe des Referenzteils als Formextraktionszielbereich einzustellen und die Zeichenextraktion im eingestellten Zeichenextraktionszielbereich durchzuführen. Durch die Begrenzung des Zielbereichs der Zeichenextraktion wie oben beschrieben können die Verarbeitungskosten reduziert werden.
-
Während die Gestenbeurteilung mittels Handzeichendarstellung nicht durchgeführt wird, wenn der Bewegungsbewertungswert größer als der vorherbestimmte Schwellenwert in der zweiten Ausführungsform ist, ist es auch möglich zu bestimmen, ob die Zeichenextraktion in Abhängigkeit vom Bewegungsbewertungswert durchgeführt werden soll oder nicht. Auf diese Weise können die Verarbeitungskosten reduziert werden, da die Verarbeitung für die Zeichenextraktion entfallen kann.
-
Während die Formextraktionseinheit 60 eine Hand detektiert und das Handzeichen in der zweiten Ausführungsform extrahiert, kann die Formextraktionseinheit 60 auch ausgelegt sein, eine Vielzahl von Händen zu detektieren und das Handzeichenextraktionsergebnis Em(k) zu erzeugen, um das Ergebnis der Beurteilung über den Handzeichentyp in Bezug auf jede der detektierten Hände zu enthalten.
-
Während die Steuerung der Zähler in der Gestenbeurteilung mittels Handzeichendarstellung basierend auf der Bewegungsgeschwindigkeit V(k) des Bewegungsbereichs in der zweiten Ausführungsform erfolgt, ist die Zählersteuerung nicht auf dieses Beispiel beschränkt. So kann beispielsweise die Zählersteuerung durchgeführt werden durch Verfolgen der durch die Formextraktionseinheit 160 detektierte Bereich der Hand und Berechnen der Bewegungsgeschwindigkeit des Handbereichs.
-
Dritte Ausführungsform
-
Konfiguration
-
13 ist ein Blockdiagramm, das die allgemeine Konfiguration einer Gestenbeurteilungseinrichtung 100b gemäß einer dritten Ausführungsform der vorliegenden Erfindung darstellt. Wie in 13 dargestellt, unterscheidet sich die Gestenbeurteilungseinrichtung 100b gemäß der dritten Ausführungsform, die im Wesentlichen die gleiche ist wie die in 11 dargestellte Gestenbeurteilungseinrichtung 100a, von der Gestenbeurteilungseinrichtung 100a dadurch, dass sie eine Zeitpunktbeurteilungseinheit 40b, eine Bedienungsbeurteilungseinheit 50b und eine Bedienpersonbeurteilungseinheit 70 enthält. In 13 wird jeder Komponente, die mit einer in 11 dargestellten Komponente identisch oder korrespondierend ist, das gleiche Bezugszeichen wie in 11 zugewiesen. Weiterhin entfällt die Beschreibung für Komponenten, die identisch mit oder korrespondierend mit den in 11 dargestellten Komponenten sind.
-
Die dritte Ausführungsform unterscheidet sich von der zweiten Ausführungsform dadurch, dass ein Bedienpersonbeurteilungsergebnis Fm(k) erhalten wird, indem beurteilt wird, welche Person die Bedienperson ist, basierend auf der Referenzteilinformation Am(k) und dem Referenzteilverschwindensbeurteilungsergebnis Cm(k), und das Gestenbeurteilungsergebnis basierend auf dem Bewegungsextraktionsergebnis Bm(k), dem Zeichenextraktionsergebnis Em(k), dem Zeitpunktbeurteilungsergebnis Dm(k) und dem Bedienpersonbeurteilungsergebnis Fm(k)ausgegeben wird.
-
Die Bedienpersonbeurteilungseinheit 70 weist die Referenzteilinformation Am(k) und das Referenzteilverschwindensbeurteilungsergebnis Cm(k) als Eingaben auf, wodurch beurteilt wird, welche Person die Bedienperson ist, und gibt das Bedienpersonbeurteilungsergebnis Fm(k) an die Bedienpersonbeurteilungseinheit 50b aus. Das Bedienpersonbeurteilungsergebnis Fm(k) enthält individuelle Informationen über die Bedienperson, einschließlich eines Kennzeichens, das die Bedienperson spezifiziert, und Positionsinformationen über die Bedienperson, die Position des Referenzteils und das Verschwindensbeurteilungsergebnis hinsichtlich jedes Referenzteils.
-
Das Kennzeichen wird beispielsweise anhand der Position der Bedienperson in den Bilddaten Im(k) bestimmt. Die folgende Erläuterung erfolgt unter der Bedingung, dass es zwei Bedienpersonen gibt, wobei das Kennzeichen der Bedienperson auf der linken Seite des aufgenommenen Bildes als L und das Kennzeichen der Bedienperson auf der rechten Seite des aufgenommenen Bildes als R angenommen wird. Die Positionsinformationen über die Bedienperson werden basierend auf der Position des Referenzteils erhalten, und in Fällen, in denen der Referenzteil ein Gesichtsbereich ist, werden zentrale Koordinaten des Gesichtsbereichs zum Beispiel als Positionsinformationen erhalten.
-
Die Zeitpunktbeurteilungseinheit 40b weist das Bewegungsextraktionsergebnis Bm(k) und das Bedienpersonbeurteilungsergebnis Fm(k) als Eingaben auf, beurteilt bezüglich jeder Bedienperson, ob die Bewegungsinformation Bm(k) durch eine Geste der Bedienperson oder ein anderes Phänomen bewirkt wurde, und gibt dadurch das Zeitpunktbeurteilungsergebnis Dm(k) aus.
-
Die Bedienungsbeurteilungseinheit 50b gibt das Gestenbeurteilungsergebnis Om(k) basierend auf dem Bewegungsextraktionsergebnis Bm(k), dem Handzeichenextraktionsergebnis Em(k), dem Zeitpunktbeurteilungsergebnis Dm(k) und dem Bedienpersonbeurteilungsergebnis Fm(k) aus. Die Bedienpersonbeurteilungseinheit 70 beurteilt, welche Bedienperson die Geste durchgeführt hat basierend auf dem Bedienpersonbeurteilungsergebnis Fm(k), fügt das Kennzeichen der Bedienperson zum Beurteilungsergebnis des Gestentyps hinzu und gibt das Ergebnis als das Gestenbeurteilungsergebnis Om(k) aus.
-
Betrieb
-
Als nächstes wird der Betrieb jeder Komponente im Folgenden beschrieben. Die Bedienpersonbeurteilungseinheit 70 weist das Kennzeichen einer Bedienperson zu, zu der ein Referenzteil gehört, basierend auf der durch die Referenzteildetektionseinheit 10 detektierten Koordinateninformation über den Referenzteil oder der durch die Referenzteilverschwindensbeurteilungseinheit 30 detektierten Koordinateninformation über das verschwundene Referenzteil. Beispielsweise ist die Bedienperson mit „L“ gekennzeichnet, wenn das Referenzteil auf der Seite links von der Mitte des aufgenommenen Bildes detektiert wurde. Im Gegensatz dazu ist die Bedienperson mit „R“ gekennzeichnet, wenn das Referenzteil auf der Seite rechts von der Mitte des aufgenommenen Bildes detektiert wurde.
-
Die Zeitpunktbeurteilungseinheit 40 verfolgt Zustandsübergänge, wie in 7 gezeigt, für jede Bedienperson und beurteilt für jede Bedienperson, ob die Bewegungsinformation Bm(k) durch eine Geste der Bedienperson oder ein anderes Phänomen bewirkt wurde. Für Informationen über jeden aus einer Vielzahl von Bewegungsbereichen, die in der Bewegungsinformation Bm(k) enthalten sind, erfolgt eine Beurteilung darüber, welche Bedienperson die Bedienperson ist, zu der die Information gehört basierend auf den Positionsinformationen über die Bedienperson, die im Bedienpersonbeurteilungsergebnis Fm(k) enthalten sind, und das Ergebnis der Beurteilung wird für den Zustandsübergang der relevanten Bedienperson verwendet. Die Zeitpunktbeurteilungseinheit 40b gibt Kennzeichnungsinformationen über eine Bedienperson, anzeigend, dass ein Zeitpunktsignal ein Signal bezüglich der Bedienperson ist, zusammen mit dem Signal bezüglich des Zustandsübergangs an die Bedienungsbeurteilungseinheit 50b als Dm(k) aus.
-
Die Beurteilung, welche Bedienperson die Bedienperson ist, zu der die Bewegungsinformation Bm(k) gehört, wird beispielsweise anhand des Abstands zwischen dem Baryzentrum des Bewegungsbereichs und der Position jeder Bedienperson getroffen. Abstände zwischen der Baryzentrumposition eines bestimmten Bewegungsbereichs und allen Bedienpersonen werden berechnet und die Bewegungsinformation Bm(k) wird als zu der Bedienperson in kürzester Entfernung gehörend beurteilt. Wenn zu einer Bedienperson mehrere Bewegungsbereiche gehören, wird beispielsweise einer der Bewegungsbereiche ausgewählt und verwendet.
-
Die Bedienungsbeurteilungseinheit 50b erzeugt und gibt das Gestenbeurteilungsergebnis Om(k) basierend auf dem für jede Bedienperson gelieferten Zeitpunktbeurteilungsergebnis Dm(k), dem Handzeichenextraktionsergebnis Em(k) und dem Bedienpersonbeurteilungsergebnis Fm(k) aus. Die Bedienungsbeurteilungseinheit 50b verfügt über die Zähler, die den in 12 dargestellten Gestentypen für jede Bedienperson entsprechen. Basierend auf Handpositionsinformationen, die im Handzeichenextraktionsergebnis Em(k) enthalten sind, und der Position jeder Bedienperson, wird beurteilt, zu welcher Bedienperson die extrahierte Hand gehört, und das Inkrementieren, Dekrementieren und Zurücksetzen der Zähler jeder Bedienperson wird entsprechend durchgeführt. Anschließend wird das Gestenbeurteilungsergebnis Om(k) für jede Bedienperson basierend auf dem Zeitpunktbeurteilungsergebnis für jede Bedienperson und dem Zustand der Zähler jeder Bedienperson erzeugt. Das erzeugte Gestenbeurteilungsergebnis Om(k) wird zusammen mit der Bezeichnung der Bedienperson ausgegeben.
-
Wirkung
-
Mit der Gestenbeurteilungseinrichtung 100b gemäß der dritten Ausführungsform können Wirkungen ähnlich denen der Gestenbeurteilungseinrichtung 100 gemäß der ersten Ausführungsform und der Gestenbeurteilungseinrichtung 100a gemäß der zweiten Ausführungsform erzielt werden.
-
Mit der Gestenbeurteilungseinrichtung 100b gemäß der dritten Ausführungsform wird mithilfe der Bedienpersonbeurteilungseinheit 70 die Gestenbeurteilung unter Zuordnung des Referenzteils zu den einzelnen Informationen (z.B. Positionsinformationen) über eine Bedienperson durchgeführt. Dementsprechend wird es möglich, die Gestenbeurteilung mit hoher Genauigkeit durchzuführen, auch wenn eine Vielzahl von Bedienpersonen im aufgenommenen Bild vorhanden sind.
-
Modifikation
-
Während die dritte Ausführungsform oben beschrieben wurde, indem ein Fall berücksichtigt ist, in dem die Anzahl der Bedienpersonen als ein Beispiel zwei ist, ist die dritte Ausführungsform nicht auf dieses Beispiel beschränkt. So kann beispielsweise in Fällen von Betriebsausrüstung für Digital Signage oder dergleichen in einer öffentlichen Einrichtung oder einer Fabrik mittels Gestenbedienung eine unbegrenzte Anzahl von Bedienpersonen vorhanden sein. In solchen Fällen wird die Bedienpersonkennzeichnung für jeden in den Bilddaten detektierten Gesichtsbereich durchgeführt und die Beurteilung der Gestenbedienung beispielsweise für jede Bedienperson durchgeführt.
-
Modifikation
-
In der dritten Ausführungsform kann die Zeitpunktbeurteilungseinheit 40b die Bedienpersonkennzeichungsinformation basierend auf der Bedienperson, zu der der Referenzteil gehört, basierend auf der Bedienperson, zu der die Bewegungsinformation gehört, oder basierend auf beiden bestimmen.
-
Im Folgenden wird beispielsweise ein Beispiel für das Bestimmen der Bedienpersonkennzeichnungsinformation basierend auf der Bedienperson, zu der der Referenzteil gehört, erläutert. Wenn der Referenzteil einer Bedienperson auf der linken Seite des aufgenommenen Bildes als Bewegungsinformation beurteilt wird, die durch eine Gestenbedienung verursacht wird, die auf einer Bewegung einer Bedienperson auf der rechten Seite des aufgenommenen Bildes basiert, wird die Bedienpersonkennzeichungsinformation unter der Annahme bestimmt, dass die Bedienperson auf der linken Seite des aufgenommenen Bildes, zu dem der Referenzteil gehört, die Bedienung ausgeführt hat. Insbesondere wird das Kennzeichen als „L“ bestimmt.
-
Als nächstes wird im Folgenden ein Beispiel für das Bestimmen der Bedienpersonkennzeichungsinformation basierend auf der Bedienperson, zu der die Bewegungsinformation gehört, erläutert. Wenn der Referenzteil einer Bedienperson auf der linken Seite des aufgenommenen Bildes als Bewegungsinformation beurteilt wird, die durch eine Gestenbedienung bewirkt wird, die auf einer Bewegung einer Bedienperson auf der rechten Seite des aufgenommenen Bildes basiert, wird die Bedienpersonkennzeichungsinformation unter der Annahme bestimmt, dass die Bedienperson auf der rechten Seite des aufgenommenen Bildes, zu der die Bewegungsinformation gehört, die Bedienung ausgeführt hat. Insbesondere wird das Kennzeichen als „R“ bestimmt.
-
Vierte Ausführungsform
-
Konfiguration
-
14 ist ein Blockdiagramm, das die allgemeine Konfiguration einer Gestenbeurteilungseinrichtung 100c gemäß einer vierten Ausführungsform der vorliegenden Erfindung darstellt. Wie in 14 dargestellt, unterscheidet sich die Gestenbeurteilungseinrichtung 100c gemäß der vierten Ausführungsform, die im Wesentlichen die gleiche ist wie die in 13 gezeigte Gestenbeurteilungseinrichtung 100b, von der Gestenbeurteilungseinrichtung 100b durch das Enthalten einer Bedienpersonbeurteilungseinheit 70a. In 14 wird jeder Komponente, die mit einer in 13 dargestellten Komponente identisch oder korrespondierend ist, das gleiche Bezugszeichen wie in 13 zugewiesen. Weiterhin entfällt die Beschreibung für Komponenten, die identisch oder korrespondierend mit den in 13 dargestellten Komponenten sind.
-
Der Unterschied zur dritten Ausführungsform besteht darin, dass die Bedienpersonbeurteilungseinheit 70a mit einer Authentifizierungsergebnis-ID versehen ist und die Bedienpersonbeurteilungseinheit 70a eine Id ausgibt, die durch Einbeziehen des Authentifizierungsergebnisses in das Bedienpersonbeurteilungsergebnis Fm(k) als ein Kennzeichen erhalten wird. Die Authentifizierungsergebnis-ID ist eine individuelle Information über eine Bedienperson, spezifizierend, wer die Bedienperson ist, einschließlich beispielsweise Gesichtsauthentifizierungsinformationen über die Bedienperson, einer Authentifizierungsnummer der Bedienperson und Positionsinformationen im erfassten Bild.
-
Die Bedienpersonbeurteilungseinheit 70a weist die Referenzteilinformationen Am(k), das Referenzteilverschwindensbeurteilungsergebnis Cm(k) und das Authentifizierungsergebnis Id als Eingaben auf und gibt das Bedienpersonbeurteilungsergebnis Fm(k) aus. Die Bedienpersonbeurteilungseinheit 70a beurteilt anhand der Positionsinformationen in der Authentifizierungsergebnis-ID, zu welcher Bedienperson der detektierte Referenzteil und das verschwundene Referenzteil gehören und gibt das Bedienpersonbeurteilungsergebnis Fm(k) einschließlich der Authentifizierungsnummer der Bedienperson als ein Kennzeichen aus.
-
Die Bedienungsbeurteilungseinheit 50b erzeugt und gibt das Bedienungsbeurteilungsergebnis Om(k) basierend auf dem für jede Bedienperson gelieferten Zeitpunktbeurteilungsergebnis Dm(k), dem Zeichenextraktionsergebnis Em(k) und dem Bedienpersonbeurteilungsergebnis Fm(k) aus.
-
Wirkung
-
Mit der Gestenbeurteilungseinrichtung 100c gemäß der vierten Ausführungsform können ähnliche Wirkungen wie mit den Gestenbeurteilungseinrichtungen 100, 100a und 100b gemäß der ersten bis dritten Ausführungsform erzielt werden.
-
Mit der Gestenbeurteilungseinrichtung 100c gemäß der vierten Ausführungsform wird die Bedienpersonbeurteilungseinheit 70a bereitgestellt und die Gestenbeurteilung unter Zuordnung des Referenzteils zu den individuellen Informationen (z.B. Gesichtsauthentifizierungsinformation) über eine Bedienperson durchgeführt. Dementsprechend wird es möglich, die Gestenbeurteilung mit hoher Genauigkeit durchzuführen, auch wenn eine Vielzahl von Bedienpersonen im aufgenommenen Bild vorhanden sind.
-
Modifikation
-
In der vierten Ausführungsform kann die Zeitpunktbeurteilungseinheit 40b, ähnlich wie in der dritten Ausführungsform, die Bedienpersonkennzeichnungsinformationen basierend auf der Bedienperson, zu der der Referenzteil gehört, basierend auf der Bedienperson, zu der die Bewegungsinformation gehört, oder basierend auf beidem bestimmen.
-
Fünfte Ausführungsform
-
(Konfiguration
-
15 ist ein Blockdiagramm zum Darstellen der allgemeinen Konfiguration einer Gestendetektionseinrichtung 300 gemäß einer sechsten Ausführungsform der vorliegenden Erfindung. Wie in 15 dargestellt, enthält die Gestenbedienungseinrichtung 300 gemäß der fünften Ausführungsform die Gestenbeurteilungseinrichtung 100 und eine Befehlserzeugungseinheit 200.
-
Die Gestenbedienungseinrichtung 300 empfängt die Bilddaten Im(k) von außen und gibt das Gestenbeurteilungsergebnis Om(k) aus durch Analysieren der Bilddaten Im(k) und Beurteilen der Geste der Bedienperson. Die Befehlserzeugungseinheit 200 erzeugt basierend auf dem Gestenbeurteilungsergebnis Om(k) einen Bedienungsbefehl Pm(k) zum Bedienen von Ausrüstung und gibt den Bedienungsbefehl Pm(k) an eine externe HMI-(Human Machine Interface)-Steuereinheit 400 aus. Die HMI-Steuereinheit 400 steuert eine Anzeigeeinrichtung 500 und eine Audioausgabeeinrichtung 600 basierend auf dem Bedienungsbefehl Pm(k). Der Bedienungsbefehl Pm(k) ist ein Eingabebefehl zum Steuern der HMI, zum Beispiel in Bezug auf Menüwechsel, Überspringen von Liedern, Rücklauf usw.
-
Wirkung
-
Mit der Gestenbedienungseinrichtung 300 gemäß der fünften Ausführungsform wird die Geste basierend auf der Position und dem Erscheinungszeitpunkt des Bewegungsbereichs im Bild, der durch die Gestenbedienung verursacht wird, und dem Zeitpunkt des Verschwindens des Referenzteils einer Person aus dem aufgenommenen Bild aufgrund der Gestenbedienung beurteilt, und die Bedienung/Steuerung der Ausrüstung basierend auf der Gestenbeurteilung durchgeführt. Dementsprechend kann eine Gestenbedienung kurzer Dauer mit hoher Genauigkeit beurteilt und ein entsprechender Bedienungsbefehl für die Ausrüstung erzeugt werden, ohne dass die Bedienperson eine vorherbestimmte Bewegung für einen vorherbestimmten Zeitraum fortsetzen muss. Somit ist es möglich, eine Gestenbedienungseinrichtung 300 bereitzustellen, die in der Lage ist, eine Hochgenauigkeitsgestenbedienung durchzuführen, auch wenn die Bedienperson eine Gestenbedienung kurzer Dauer durchführt.
-
Sechste Ausführungsform
-
Konfiguration
-
16 ist ein Blockdiagramm zum Darstellen der allgemeinen Konfiguration einer Gestenbedienungseinrichtung 901 gemäß einer sechsten Ausführungsform der vorliegenden Erfindung. Die Gestenbedienungseinrichtung 300a gemäß der sechsten Ausführungsform, die im Wesentlichen die gleiche ist wie die in 15 gezeigte Gestenbedienungseinrichtung 300, unterscheidet sich von der in 15 gezeigten Gestenbedienungseinrichtung 300 dadurch, dass sie eine Kommunikationseinheit 700 aufweist. In 16 wird jeder Komponente, die mit einer in 15 dargestellten Komponente identisch oder korrespondierend ist, das gleiche Bezugszeichen wie in 15 zugewiesen. Weiterhin entfällt die Beschreibung für Komponenten, die identisch oder korrespondierend mit den in 15 dargestellten Komponenten sind.
-
Die Kommunikationseinheit 700 empfängt den von der Befehlserzeugungseinheit 200 eingegebenen Bedienungsbefehl Pm(k), wandelt den Bedienungsbefehl Pm(k) in ein Kommunikationssignal Qm(k) um und gibt das Kommunikationssignal Qm(k) an eine externe Ausrüstung aus. Das Kommunikationssignal Qm(k) kann ein Signaltyp sein, der beispielsweise aus einem Infrarot-Fernsteuersignal, einem Funkkommunikationssignal, einem optischen Kommunikationssignal, einem elektrischen Signal und einem CAN-Kommunikationssignal (Controller Area Network) ausgewählt ist.
-
Wirkung
-
Mit der Gestenbedienungseinrichtung 300a gemäß der sechsten Ausführungsform können ähnliche Wirkungen wie mit der Gestenbedienungseinrichtung 300 gemäß der fünften Ausführungsform erzielt werden.
-
Mit der Gestenbedienungseinrichtung 300a gemäß der sechsten Ausführungsform kann mithilfe der Kommunikationseinheit 700 der erzeugte Bedienungsbefehl Pm(k) in das Kommunikationssignal Qm(k) umgewandelt und ausgegeben werden, so dass die Bedienperson mehrere Teile von Ausrüstung unter Verwendung einer Gestenbedienungseinrichtung 300a bedienen kann.
-
Modifikationen
-
17 ist ein Hardwarekonfigurationsdiagramm, das die Konfiguration einer Modifikation der Gestenbeurteilungseinrichtungen 100, 100a, 100b und 100c gemäß der ersten bis vierten Ausführungsform darstellt. Die in 17 dargestellte Gestenbeurteilungseinrichtung kann eine Programmausführungseinheit (z.B. Computer) mit einem Speicher 91 als eine Speichereinrichtung zum Speichern eines Programms als Software und einem Prozessor 92 als eine Informationsverarbeitungseinheit zum Ausführen des im Speicher 91 gespeicherten Programms sein. Die in 17 dargestellte Gestenbeurteilungseinrichtung kann auch mit einer integrierten Halbleiterschaltung gebildet sein. Weiterhin kann die in 17 dargestellte Gestenbeurteilungseinrichtung auch mit einer Kombination aus einer Programmausführungseinheit und einer integrierten Halbleiterschaltung gebildet sein.
-
Bezugszeichenliste
-
100, 100a, 100b, 100c: Gestenbeurteilungseinrichtung, 10: Referenzteildetektionseinheit, 20: Bewegungsextraktionseinheit, 30: Referenzteilverschwindensbeurteilungseinheit, 40: Zeitpunktbeurteilungseinheit, 50, 50a, 50b: Bedienungsbeurteilungseinheit, 60: Formextraktionseinheit , 70, 70a: Bedienpersonbeurteilungseinheit, 200: Befehlserzeugungseinheit, 300, 300a: Gestenbedienungseinrichtung, 400: HMI-Steuereinheit, 500: Anzeigeeinrichtung, 600: Audioausgabeeinrichtung, 700: Kommunikationseinheit, Am(k): Referenzteilinformation, Bm(k): Bewegungsinformation, Cm(k): Referenzteilverschwindensbeurteilungsergebnis (Referenzteilverschwindensinformation), Dm(k): Zeitpunktbeurteilungsergebnis, Im(k): Bilddaten, Om(k): Gestenbeurteilungsergebnis, Mg(k): Baryzentrum des Bewegungsbereichs, Em(k): Zeichenextraktionsergebnis, Fm(k): Bedienpersonbeurteilungsergebnis, Pm(k): Bedienungsbefehl, Qm(k): Kommunikationssignal.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-