JP6559359B2

JP6559359B2 - ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法

Info

Publication number: JP6559359B2
Application number: JP2018536928A
Authority: JP
Inventors: 雄大中村; 雅志神谷; 内藤　正博; 正博内藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-09-01
Filing date: 2017-04-21
Publication date: 2019-08-14
Anticipated expiration: 2037-04-21
Also published as: US20200143150A1; US10719697B2; JPWO2018042751A1; WO2018042751A1; DE112017004394T5; CN109643165A

Description

本発明は、操作者によるジェスチャー操作の内容を判定するジェスチャー判定装置、ジェスチャー操作の内容から機器を操作するための操作コマンドを生成するジェスチャー操作装置、及び操作者によるジェスチャー操作の内容を判定するためのジェスチャー判定方法に関する。

家電機器及び車両搭載機器等の機器操作においては、リモコンを用いることなく、また操作パネルに触れることなく操作を行うことが可能な、手の動きによるジェスチャー操作が有効である。また、公共施設や工場におけるデジタルサイネージ等の機器操作においては、全ての操作者がリモコンを持つことは想定しにくく、かつ大型の表示機器が多いため、タッチパネルの活用が難しい。そのため、上記特徴を持つジェスチャー操作が有効である。このようなジェスチャー操作を実現するためには、例えば、操作者をカメラ等の撮像装置によって複数フレーム撮像し、フレーム間の動きを検出することでジェスチャー操作を判定する。しかし、この手法は、車内環境等、背景が著しく変化する環境下ではジェスチャーの誤判定が生じやすく、また、ジェスチャー操作と操作者の意図しない動きとを弁別するのが難しいという課題がある。

この課題の解決のため、操作者の顔位置を基準にジェスチャー操作判定の対象領域を限定し、限定した領域に対して操作者の特定の動作を判定し、その動作が所定の期間継続的に行われたことを判定することでジェスチャー操作と背景の変化、あるいはジェスチャー操作と操作者の意図しない動きとを弁別し、ジェスチャー判定の精度を高める技術がある（例えば、特許文献１参照）。

特開２０１２−５８９２８号公報

しかしながら、特許文献１に記載の技術においては、ジェスチャーの判定精度を高めるために操作者が所定の動作を所定の期間継続して行う必要があり、手を振り払う操作（以降「スワイプ」とも言う）等、短時間で実行可能なジェスチャー操作の判定には不向きである。

本発明は、上記従来技術の課題を解決するためになされたものであり、操作者が短時間のジェスチャー操作を行った場合であっても、背景の変化及び操作者の意図しない動作によるジェスチャーの誤判定を低減し、高精度なジェスチャー判定を可能にすることを目的とする。

本発明に係るジェスチャー判定装置は、操作者によるジェスチャー操作の内容を判定するジェスチャー判定装置であって、撮像画像として順次取得される複数のフレーム画像から基準部位を検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出部と、前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出部と、前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第１のタイミングを示す基準部位消失情報を生成する基準部位消失判定部と、前記基準部位消失情報が示す前記第１のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第２のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定部と、前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する操作判定部とを有することを特徴とする。

本発明に係るジェスチャー操作装置は、上述したジェスチャー判定装置と、前記操作判定部により判定された前記ジェスチャー操作の内容から機器を操作するための操作コマンドを生成するコマンド生成部とを有することを特徴とする。

本発明に係るジェスチャー判定方法は、撮像画像として順次取得される複数のフレーム画像から基準部位を検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出ステップと、前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出ステップと、前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第１のタイミングを示す基準部位消失情報を生成する基準部位消失判定ステップと、前記基準部位消失情報が示す前記第１のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第２のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定ステップと、前記タイミング判定結果と前記動き情報とから操作者によるジェスチャー操作の内容を判定する操作判定ステップとを有することを特徴とする。

本発明に係るジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法によれば、操作者が短時間のジェスチャー操作を行った場合であっても、背景の変化及び操作者の意図しない動作によるジェスチャーの誤判定を低減し、高精度なジェスチャー判定を可能にすることができる。

本発明の実施の形態１に係るジェスチャー判定装置の概略的な構成を示すブロック図である。実施の形態１のテクスチャ特徴の算出におけるブロックの配置を示す図である。実施の形態１のＣＳＬＢＰ特徴の算出に用いられる画素の配置を示す図である。実施の形態１のテクスチャ特徴算出におけるブロック内のセルの配置を示す図である。実施の形態１のジェスチャー操作を表す一連の動作の例（画像上左側から右側へ手を振る動作）を示す図である。実施の形態１のジェスチャー操作を表す一連の動作（画像上左側から右側へ手を振る動作）を行った場合の動き領域とその重心の位置を示す図である。実施の形態１のタイミング判定部の状態遷移図の一例を示す図である。実施の形態１における基準部位情報に基づいて３つの領域の定義を説明した図である。実施の形態１のジェスチャー操作を表す一連の動作の例（画像上左側から顔の目の前に一度手を移動させてから、左側へ手を振り戻す動作）を示す図である。実施の形態１に係るジェスチャー判定装置の処理を示すフローチャートである。本発明の実施の形態２に係るジェスチャー判定装置の概略的な構成を示すブロック図である。（ａ）から（ｃ）は、実施の形態２における手の形状の種類を示す図である。本発明の実施の形態３に係るジェスチャー判定装置の概略的な構成を示すブロック図である。本発明の実施の形態４に係るジェスチャー判定装置の概略的な構成を示すブロック図である。本発明の実施の形態５に係るジェスチャー操作装置の概略的な構成を示すブロック図である。本発明の実施の形態６に係るジェスチャー操作装置の概略的な構成を示すブロック図である。変形例における制御部の構成を示す図である。

≪１≫実施の形態１
≪１−１≫構成
図１は、本発明の実施の形態１に係るジェスチャー判定装置１００の概略的な構成を示すブロック図である。ジェスチャー判定装置１００は、実施の形態１に係るジェスチャー判定方法を実行することができる装置である。図１に示されるように、ジェスチャー判定装置１００は基準部位検出部１０と、動き抽出部２０と、基準部位消失判定部３０と、タイミング判定部４０と、操作判定部５０とを備える。

まず、ジェスチャー判定装置１００の概要を説明する。ジェスチャー判定装置１００は、操作者を含む空間を予め定められたフレームレートで撮像した、該空間の動画像を表す一連のフレームの画像データ（撮像画像）Ｉｍ（ｋ）を受け取る。ここで、ｋは、それぞれフレームに割り当てられるフレーム番号（正の整数）を示す。例えば、Ｉｍ（ｋ）の次のタイミングで与えられるフレームはＩｍ（ｋ＋１）と表記する。

フレームレートは、例えば、１秒間に３０フレームが好ましい。画像データは、例えば、カラー画像、グレースケール画像、又は距離画像である。以降では、説明を簡潔にするため、画像データが、幅６４０画素、高さ４８０画素の８ｂｉｔ階調のグレースケール画像の場合を説明する。図１に示されるように、ジェスチャー判定装置１００は、一連のフレームの画像データＩｍ（ｋ）からジェスチャー判定結果Ｏｍ（ｋ）を出力するための一連の動作を行う。

基準部位検出部１０は、撮像装置からの入力情報として与えられた画像データＩｍ（ｋ）から操作者の基準となる部位（予め定められた身体部位としての基準部位）を少なくとも１つ検出し、基準部位を示す基準部位情報Ａｍ（ｋ）を生成する。実施の形態１における基準部位は、操作者の顔であるものとして説明する。しかし、基準部位は、操作者の顔以外の部位であってもよい。例えば、顔に属する部位（顔、目、眉、鼻、口、おでこ、頬、顎など）であってもよいし、頭、肩などのような顔以外の身体部位であってもよい。

基準部位情報Ａｍ（ｋ）は、基準部位の検出の有無と、検出された基準部位の中心座標と、検出された基準部位のサイズ等の情報を含むことができる。生成された基準部位情報Ａｍ（ｋ）は、動き抽出部２０と基準部位消失判定部３０へ供給される。また、基準部位検出部１０は、一連のフレームの画像データＩｍ（ｋ）を動き抽出部２０及び基準部位消失判定部３０に対して出力する。

動き抽出部２０は、基準部位情報Ａｍ（ｋ）と最新の画像データＩｍ（ｋ）とを受け取り、最新の画像データＩｍ（ｋ）と、Ｉｍ（ｋ）と異なるフレーム番号を持つ画像データのうち少なくとも１つの画像データＩｍ（ｋ−α）とから、基準部位付近においてフレーム間で動きの生じた領域を抽出し、抽出された動きの生じた領域を示す動き情報Ｂｍ（ｋ）を生成する。ここで、αは１以上の整数である。動き情報Ｂｍ（ｋ）は、画像データ間で動きの大きい領域の重心データを含む。生成された動き情報Ｂｍ（ｋ）は、タイミング判定部４０へ供給される。

基準部位消失判定部３０は、基準部位検出部１０から画像データＩｍ（ｋ）と基準部位情報Ａｍ（ｋ）を受け取り、図示しない記憶部に記憶している過去の基準部位情報Ａｍ（ｋ−α）と比較して画像データＩｍ（ｋ）における基準部位の消失を判定し、基準部位が検出されないフレーム画像が発生したタイミング（第１のタイミング）を示す基準部位消失判定結果（基準部位消失情報）Ｃｍ（ｋ）を生成する。ここで、αは、１以上の整数である。基準部位消失判定結果Ｃｍ（ｋ）は、画像データＩｍ（ｋ）において基準部位が消失しているか否かの情報を含み、例えば、基準部位が消失していれば１、消失していなければ０を出力する。基準部位消失判定部３０により生成された基準部位消失判定結果Ｃｍ（ｋ）は、タイミング判定部４０へ供給される。

タイミング判定部４０は、基準部位情報Ａｍ（ｋ）と動き情報Ｂｍ（ｋ）と基準部位消失判定結果Ｃｍ（ｋ）を受け取り、動き情報Ｂｍ（ｋ）が操作者のジェスチャーによるものか、それ以外の現象（背景の変化及び操作者の意図しない動き）によるものなのかを判定し、この判定の結果を示すタイミング判定結果Ｄｍ（ｋ）を生成する。すなわち、タイミング判定部４０は、基準部位消失判定結果Ｃｍ（ｋ）が示す基準部位が検出されないフレーム画像が発生した第１のタイミングと、動き情報Ｂｍ（ｋ）が示す動き領域と基準部位情報Ａｍ（ｋ）が示す基準部位領域とが重なるフレームが発生した第２のタイミングとが同期するか否かを判定し、判定の結果であるタイミング判定結果Ｄｍ（ｋ）を出力する。タイミング判定結果Ｄｍ（ｋ）は操作判定部５０へ供給される。

操作判定部５０は、タイミング判定部４０から動き情報Ｂｍ（ｋ）及びタイミング判定結果Ｄｍ（ｋ）を受け取り、タイミング判定結果Ｄｍ（ｋ）と少なくとも１つの過去のタイミング判定結果Ｄｍ（ｋ−α）とからジェスチャー操作の内容を判定し、この判定の結果をジェスチャー判定結果Ｏｍ（ｋ）として出力する。ここで、αは、１以上の整数である。

続いて、ジェスチャー判定装置１００の動作をより詳しく説明する。基準部位検出部１０は、入力として与えられる画像データＩｍ（ｋ）から予め定められた操作者の基準部位を少なくとも１つ検出し、基準部位情報Ａｍ（ｋ）を生成する。以降では、説明を簡便にするため、基準部位が操作者の顔である場合を説明する。

基準部位が操作者の顔である場合、基準部位情報Ａｍ（ｋ）は、例えば、これらの基準部位の検出の有無と、操作者の顔を囲む矩形の中心座標Ｆｃ（Ｆｃｘ，Ｆｃｙ）と、この矩形の幅Ｆｃｗ及び高さＦｃｈである。ここで、基準部位の検出の有無は、例えば、検出できた場合は１、検出できなかった場合は０とする。また、矩形の中心座標は、画像データ上の座標系で表現し、画像の左上を原点とし、画像右向きをｘ軸の正方向、下向きをｙ軸の正方向とする。操作者の顔の検出は、公知の手段を利用して実現することができる。例えば、Ｈａａｒ−ｌｉｋｅ特徴量を使用したカスケード型の顔検出器を使用して、操作者の顔を囲う矩形領域を抽出することができる。

動き抽出部２０は、最新の画像データＩｍ（ｋ）を受け取り、最新の画像データＩｍ（ｋ）と、Ｉｍ（ｋ）と異なるフレーム番号を持つ画像データのうち少なくとも１つの画像データＩｍ（ｋ−α）とから、基準部位付近において画像データ間で動きの生じた領域を抽出し、この抽出結果に基づいて動き情報Ｂｍ（ｋ）を生成する。以降では、説明を簡便にするために、基準部位情報Ａｍ（ｋ）と、最新の画像データＩｍ（ｋ）と、図示しない記憶部に記憶されている１フレーム過去の画像データＩｍ（ｋ−１）とから、動き情報Ｂｍ（ｋ）を生成するものとする。動き情報Ｂｍ（ｋ）は、画像データ間で動きの大きい領域の重心データを含む。

画像データ間での動きの大きさを評価するためには、公知の技術を用いることができる。例えば、画像を複数の矩形領域（動き特徴抽出ブロック。以降、単に「ブロック」とも表記する。）に分割し、各ブロックにおいてテクスチャ（見え方）を表現する特徴（テクスチャ特徴ＴＦ）を算出し、画像データ間で差を評価する。すると、動きの大きいブロックでは、画像データ間で見え方の差が大きくなり、テクスチャ特徴の差が大きくなることから、画像データ間での動きの大きさをセルごとに評価することができる。

以降では、環境光の変動による影響を受けにくいＣＳＬＢＰ（ＣｅｎｔｅｒＳｙｍｍｅｔｒｉｃＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴のヒストグラムをセル毎に算出し、画像データ間での動きの大きいセルを評価し、動きのある領域を抽出する。ＣＳＬＢＰ特徴は、各画素について当該画素を中心とする正方形の特徴抽出領域内の画素について、輝度勾配をバイナリコード化した特徴である。

まず、画像データ上のブロックの配置について図２を参照して説明する。図２は、実施の形態１のテクスチャ特徴の算出におけるブロックの配置を示す図である。図２に示されるように、ブロックの中心は、画像データ上に格子状（ｘ軸方向にＭ個、ｙ軸方向にＮ個）に配置する。Ｍは正の整数であり、Ｎは正の整数である。図２に示されるブロックのサイズは、幅Ｂｌｗ、高さＢｌｈともに４０画素とする。以下では、Ｍ＝１６、Ｎ＝１２とし、ｘ軸方向、ｙ軸方向ともに均等に配置する。また、画像データ上の最も左上のブロックの中心座標は（２０，２０）とする。このとき、最も右下のブロックの中心座標は（６２０，４６０）となる。

続いて、各ブロックにおけるＣＳＬＢＰ特徴のヒストグラムの算出方法の一例について図３を参照しながら説明する。ＣＳＬＢＰ特徴は各ブロックに含まれる全ての画素に対して算出する。

図３は、実施の形態１のＣＳＬＢＰ特徴の算出に用いられる画素の配置を示す図である。図３に示されるのは、各画素Ｐｃ（ｘ，ｙ）についてのＣＳＬＢＰ特徴の算出に使用される、当該画素を中心とする３×３画素（縦３画素、横３画素）の領域内の画素に番号を付けたものである。画素Ｐｃ（ｘ，ｙ）についてのＣＳＬＢＰ特徴Ｂ（ｘ，ｙ）は、当該画素を中心とする３×３個の画素の輝度値を用いて次式（１）により算出され、０から１５の値で表される。

式（１）で，ｎ０からｎ７は、それぞれ図５に示される画素ｎ０からｎ７の輝度値を表す。また、ｓ（ａ）は閾値関数であり、ａ＞Ｔ１のときｓ（ａ）＝１、ａ≦Ｔ１のときはｓ（ａ）＝０となる。また、ｓ（ａ）は０又は１であるので、ＣＳＬＢＰ特徴Ｂ（ｘ，ｙ）は整数であり、ＣＳＬＢＰ特徴Ｂ（ｘ，ｙ）の取り得る値の範囲は、
０≦Ｂ（ｘ，ｙ）＜１６ ∀ｘ，ｙである、すなわち、Ｂ（ｘ，ｙ）は、全てのｘ及びｙについて、０以上１６未満である。閾値Ｔ１は、例えば、輝度値の取り得る値の１％程度が望ましく、輝度値が０から２５５の値を取る場合は、Ｔ１＝３と設定する。

次に、ブロック内の全ての画素に対し算出したＣＳＬＢＰ特徴を使って各ブロックのヒストグラムを算出する方法について図４を参照しながら説明する。図４は、実施の形態１のテクスチャ特徴算出におけるブロック内のセルの配置を示す図である。図４に示されるように、幅Ｂｌｗ、高さＢｌｈであるブロックをさらに幅Ｃｅｗ、高さＣｅｈのセルに分割する。以下では、Ｃｅｗ＝５、Ｃｅｈ＝５とし、ブロックを４×４の合計１６個のセルに分割する。

各セルにはＣｅｗ×Ｃｅｈの画素が含まれ、それぞれのセルに対しＣＳＬＢＰ特徴が算出されている。これらＣＳＬＢＰ特徴を使用して各セルでのヒストグラムを生成する。このとき、ＣＳＬＢＰ特徴の取りうる値は０から１５までの整数であるため、各セルのヒストグラムは１６次元のベクトルとなる。そして、ブロック内の１６個のセルでそれぞれ算出した１６次元のベクトルを連結させ、１６×１６＝２５６次元のベクトルを各ブロックにおけるテクスチャ特徴ＴＦとする。

画像データＩｍ（ｋ）と画像データＩｍ（ｋ−１）に対し、各ブロックでテクスチャ特徴ＴＦを算出し、各ブロックでテクスチャ特徴の変化量ｄＴＦを算出する。変化量ｄＴＦは、例えば、ベクトル間のユークリッド距離を用いて求める。このように、変化量ｄＴＦを算出することで、各ブロックでの動きの大きさを評価することができる。

各ブロックで算出した変化量ｄＴＦに対し、閾値Ｔｔｈを用いて２値化を行い、変化の大きかった領域と、変化の大きかった領域以外の領域（すなわち、変化の小さかった領域）とに、ブロックを分類する。例えば、閾値Ｔｔｈ≦変化量ｄＴＦを満たすブロックは、１とラベル付けし、変化の大きかった領域とする。一方、閾値Ｔｔｈ＞変化量ｄＴＦであるブロックは、０とラベル付けし、変化の小さかった領域とする。

各ブロックを２値化した後は、１とラベル付けされたブロックを連結させ、動きの大きい領域をグループに分ける。そして、サイズの一番大きいグループ（連結されたブロック数が多い領域）を動き領域とし、そのグループの重心Ｍｇ（ｋ）を算出し、動き情報Ｂｍ（ｋ）とする。

基準部位消失判定部３０は、画像データＩｍ（ｋ）と基準部位情報Ａｍ（ｋ）を受け取り、過去の基準部位情報Ａｍ（ｋ−α）と比較して画像データＩｍ（ｋ）における基準部位の消失を判定し、基準部位消失判定結果Ｃｍ（ｋ）を生成する。

基準部位消失判定部３０は、例えば、入力として与えられる基準部位情報Ａｍ（ｋ）に含まれる基準部位検出の有無を元に基準部位消失判定をする。Ａｍ（ｋ）において基準部位検出が「有」の場合は、基準部位の消失はなしとして基準部位消失判定結果Ｃｍ（ｋ）を「０」としてタイミング判定部４０へ供給する。Ａｍ（ｋ）において基準部位検出が「無」の場合は、基準部位の消失はありとして基準部位消失判定結果Ｃｍ（ｋ）を「１」としてタイミング判定部４０へ供給する。

タイミング判定部４０は、基準部位情報Ａｍ（ｋ）と動き情報Ｂｍ（ｋ）と基準部位消失判定結果Ｃｍ（ｋ）を受け取り、動き情報Ｂｍ（ｋ）が操作者のジェスチャーによるものか、それ以外の現象（背景の変化及び操作者の意図しない動き）によるものなのかを判定し、タイミング判定結果Ｄｍ（ｋ）を生成する。以下では、タイミング判定の一例を説明するために、顔の前を手が横切るように手を動かす動作をジェスチャー判定の対象とする。以下、図５から図８を参照しながらタイミング判定の一例の動作について説明する。

図５は、実施の形態１のジェスチャー操作を表す一連の動作の例（画像上左側から右側へ手を振る動作、すなわち、スワイプ）を示す図である。図５は、Ｉｍ（ｋ）からＩｍ（ｋ＋４）にかけて操作者が顔の前を手が横切るように手を動かす動作したときの画像データの操作者付近を切り出した画像と、各画像データに対して検出した基準部位（顔）の検出状態を示している。

図５に示される点線矩形は、基準部位領域である基準部位の検出位置を示している。図５に示されるように、Ｉｍ（ｋ）、Ｉｍ（ｋ＋１）、Ｉｍ（ｋ＋４）では、画像データ上に基準部位である顔がはっきりと映っているため、基準部位が検出されており、顔の位置が点線矩形で囲ってある。一方、Ｉｍ（ｋ＋２）、Ｉｍ（ｋ＋３）では、ジェスチャー操作により顔が手で隠れてしまっている。そのため、基準部位は検出されておらず、点線矩形は存在しない。

図６は、実施の形態１のジェスチャー操作を表す一連の動作（画像上左側から右側へ手を振る動作）を行った場合の動き領域Ｍｂとその重心Ｍｇの位置を示す図である。図６は、図５の各画像データに対して、動きの大きい動き領域Ｍｂとその重心Ｍｇの位置関係を示している。図６では、図５と同じ位置に点線矩形で基準部位の位置を示している。図６におけるＩｎ（ｋ＋１）からＩｎ（ｋ＋４）は、図５におけるＩｍ（ｋ＋１）からＩｍ（ｋ＋４）にそれぞれ対応する。図５のＩｍ（ｋ＋２）、Ｉｍ（ｋ＋３）では基準部位は検出されないが、これらに対応する図６のＩｎ（ｋ＋２）、Ｉｎ（ｋ＋３）で基準部位が描画されている理由は後述する。

図５及び図６より、ジェスチャー判定が成立する条件は、以下の４つの条件（Ａ１）から（Ａ４）にまとめることができる。
条件（Ａ１）：初期状態では基準部位が検出されており、ジェスチャーによって一度基準部位が消失すること。
条件（Ａ２）：基準部位が消失した際（第１のタイミング）に動き領域Ｍｂが基準部位の矩形領域に含まれること。
条件（Ａ３）：基準部位が消失する直前（第３のタイミング）に基準部位付近（図６における左側、第１の側）に動き領域Ｍｂが存在すること。
条件（Ａ４）：基準部位が消失した直後（第４のタイミング）に、条件（Ａ３）のときとは反対側（図６における右側、第２の側）に動き領域Ｍｂが存在すること。

上記４つの条件（Ａ１）〜（Ａ４）より、動き領域Ｍｂが基準部位付近に存在するタイミングと基準部位消失のタイミングの同期を判定し、動き領域Ｍｂの存在位置の移動を検出することでジェスチャー判定が可能である。タイミング判定部４０は、前者の動き領域Ｍｂが基準部位付近に存在するタイミングと基準部位消失のタイミングの同期の判定を行い、タイミング判定結果Ｄｍ（ｋ）を操作判定部５０へ供給する。一方、操作判定部５０は、タイミング判定結果Ｄｍ（ｋ）と動き領域Ｍｂの移動状況からジェスチャーを判定する。

続いて、図７を用いて、上述したタイミング判定を実現する方法を説明する。図７は、実施の形態１のタイミング判定部４０の状態遷移図の一例を示す図である。図７に示されるように、タイミング判定部４０は、状態Ｓ（ｋ）を持っており、タイミング判定結果Ｄｍ（ｋ）には、タイミング判定部４０が持つ状態Ｓ（ｋ）が含まれる。状態Ｓ（ｋ）は、図７に示される３つの状態Ｓｎ、Ｓｐ、Ｓｇのいずれかの状態をとり、状態遷移の条件は、Ｑｎ、Ｑｍ、Ｑｈの３つである。

３つの状態Ｓｎ、Ｓｐ、Ｓｇと３つの条件Ｑｎ、Ｑｍ，Ｑｈについて図８を参照しながら説明する。図８は、実施の形態１における基準部位情報Ａｍに基づいて３つの領域ＲＩ，Ｒｃ，Ｒｒの定義を説明した図である。領域Ｒｌは、基準部位の画像データ上左側（ｘ軸負の方向）に位置している領域で、中心Ｒｌｃ（Ｒｌｃｘ，Ｒｌｃｙ）、幅Ｒｌｗ、高さＲｌｈで定義される。領域Ｒｃは基準部位の画像データの中心に位置している領域で、中心Ｒｃｃ（Ｒｃｃｘ，Ｒｃｃｙ）、幅Ｒｃｗ，高さＲｃｈで定義される。領域Ｒｒは基準部位の画像データ上右側（ｘ軸正の方向）に位置している領域で、中心Ｒｒｃ（Ｒｒｃｘ，Ｒｒｃｙ）、幅Ｒｒｗ，高さＲｒｈで定義される。

条件Ｑｍは、重心Ｍｇが領域Ｒｌまたは領域Ｒｒに存在し、かつ基準部位消失判定結果Ｃｍが「０」という条件である。条件Ｑｈは、重心Ｍｇが領域Ｒｃに存在し、かつ基準部位消失判定結果Ｃｍが「１」という条件である。条件Ｑｎは、Ｑｍ、Ｑｈ以外の条件全てを表す。

図７に示されるように、状態ＳｎはＳ（ｋ）の初期状態である。状態Ｓｎにおいて、条件Ｑｍが満たされると状態Ｓｐに遷移する。それ以外は状態Ｓｎから遷移しない。状態Ｓｐにおいて、条件Ｑｈが満たされると状態Ｓｇに遷移する。状態Ｓｐにおいて、条件Ｑｍが満たされる場合は状態Ｓｐから遷移しない。状態Ｓｇにおいて、条件Ｑｎが満たされると状態Ｓｎに遷移する。状態Ｓｇにおいて、条件Ｑｍが満たされると状態Ｓｐに遷移する。状態Ｓｇにおいて、条件Ｑｈが満たされる場合は状態Ｓｇから遷移しない。状態Ｓｇにおいて、条件Ｑｎが満たされる場合は状態Ｓｎに遷移する。

図５に示す一連の画像データに対し、状態Ｓ（ｋ）がどのように遷移するのかを説明する。まず、初期状態では、Ｓ（ｋ）＝Ｓｎである。続いて、Ｉｍ（ｋ＋１）が入力された時点で、重心Ｍｇが領域Ｒｌに存在し、かつ基準部位消失判定結果が「０」となるため、条件Ｑｍを満たしＳ（ｋ＋１）＝Ｓｐと遷移する。

続いて、Ｉｍ（ｋ＋２）では重心Ｍｇが領域Ｒｃに存在し、かつ基準部位消失判定結果が「１」となるため、条件Ｑｈを満たしＳ（ｋ＋２）＝Ｓｇと遷移する。Ｉｍ（ｋ＋３）では、Ｉｍ（ｋ＋２）と同様に条件Ｑｈを満たすためＳ（ｋ＋３）＝Ｓｇのままとなる。Ｉｍ（ｋ＋４）では、ＭｇがＲｒに存在し、かつ基準部位消失判定結果が「０」となるため、Ｓ（ｋ＋４）＝Ｓｐと遷移する。

以上のように、図５に示すジェスチャーに対しては、タイミング判定部４０の持つ状態はＳｐ、Ｓｇ、Ｓｐの順（すなわち、Ｓｐ→Ｓｇ→Ｓｐ）で遷移する。この状態遷移を判定することで、条件（Ａ１）から条件（Ａ４）を満たすジェスチャーを検出することができる。

この状態の遷移は、図９に示される動きでも起こりうる。図９は、実施の形態１のジェスチャー操作を表す一連の動作の例（画像上左側から顔の目の前に一度手を移動させてから、左側へ手を振り戻す動作）を示す図である。図５と図９における動作の違いは、基準部位が消失した直後に、動き領域Ｍｂが、基準部位が消失した直前と反対側に存在するか（図５）、同じ側に存在するか（図９）の違いである。この違いの判定は後段の操作判定部５０で実施する。

図９の動作が行われる場合、ジェスチャー判定が成立する条件は、以下の４つの条件（Ｂ１）から（Ｂ４）にまとめることができる。
条件（Ｂ１）：初期状態では基準部位が検出されており、ジェスチャーによって一度基準部位が消失すること。
条件（Ｂ２）：基準部位が消失した際（第１のタイミング）に動き領域Ｍｂが基準部位の矩形領域に含まれること。
条件（Ｂ３）：基準部位が消失する直前（第３のタイミング）に基準部位付近に動き領域Ｍｂが存在すること。
条件（Ｂ４）：基準部位が消失した直後（第４のタイミング）に、条件（Ｂ３）と同じ側の基準部位付近に動き領域Ｍｂが存在すること。

操作判定部５０は、動き情報Ｂｍ（ｋ）とタイミング判定結果Ｄｍ（ｋ）を受け取り、動き情報Ｂｍ（ｋ）が含む動き領域Ｍｂの重心Ｍｇの移動とタイミング判定結果Ｄｍ（ｋ）を用いてジェスチャー判定結果Ｏｍ（ｋ）を生成し、出力する。

具体的には、タイミング判定結果Ｄｍ（ｋ）が状態Ｓｐ、Ｓｇ、Ｓｐの順（すなわち、Ｓｐ→Ｓｇ→Ｓｐ）で遷移するのを検出し、各遷移の際の重心Ｍｇの位置関係からジェスチャーを判定する。例えば、図５に示す一連の動作をジェスチャーとして判定する場合は、タイミング判定結果Ｄｍ（ｋ）が状態Ｓｐから状態Ｓｇへ遷移する際に重心Ｍｇが領域Ｒｌから領域Ｒｃへ移動し、さらに、状態Ｓｇから状態Ｓｐに遷移する際に重心Ｍｇが領域Ｒｃから領域Ｒｒへ移動するのを観測した場合に、該ジェスチャーを検出したとして判定結果を出力する。

同様に、図９に示す一連の動作をジェスチャーとして判定する場合は、タイミング判定結果Ｄｍ（ｋ）が状態Ｓｐから状態Ｓｇへ遷移する際に重心Ｍｇが領域Ｒｌから領域Ｒｃへ移動し、さらに状態Ｓｇから状態Ｓｐに遷移する際に重心Ｍｇが領域Ｒｃから領域Ｒｌへ移動するのを観測した場合に、該ジェスチャーを検出したとして判定結果を出力する。

≪１−２≫動作
次に、実施の形態１に係るジェスチャー判定装置１００の処理の手順について図１０を用いて説明する。図１０は、実施の形態１に係るジェスチャー判定装置１００の処理を示したフローチャートである。図１０に示される処理は、撮像画像が入力される１フレーム期間毎に、すなわち１フレーム期間に一度行われる。まず、ステップＳ１で、基準部位検出部１０が、入力として与えられる画像データＩｍ（ｋ）から予め定められた操作者の基準となる部位（基準部位）を少なくとも１つ検出し、基準部位情報Ａｍ（ｋ）を生成する。

次に、ステップＳ２では、動き抽出部２０が、基準部位情報Ａｍ（ｋ）と、最新の画像データＩｍ（ｋ）を受け取り、最新の画像データＩｍ（ｋ）と、Ｉｍ（ｋ）と異なるフレーム番号を持つ画像データのうち少なくとも１つの画像データＩｍ（ｋ−α）とから、基準部位付近においてフレーム間で動きの生じた領域を抽出し、動き情報Ｂｍ（ｋ）を生成する。

次に、ステップＳ３では、基準部位消失判定部３０が、画像データＩｍ（ｋ）と基準部位情報Ａｍ（ｋ）を受け取り、過去の基準部位情報Ａｍ（ｋ−α）と比較して画像データＩｍ（ｋ）における基準部位の消失を判定し、基準部位消失判定結果Ｃｍ（ｋ）を生成する。ステップＳ２の処理と、ステップＳ３の処理は平行して行われる。

次に、ステップＳ４では、タイミング判定部４０が、基準部位情報Ａｍ（ｋ）と動き情報Ｂｍ（ｋ）と基準部位消失判定結果Ｃｍ（ｋ）を受け取り、動き情報Ｂｍ（ｋ）が操作者のジェスチャーによるものか、それ以外の現象（背景の変化及び操作者の意図しない動き）によるものなのかを判定し、タイミング判定結果Ｄｍ（ｋ）を生成する。

最後に、ステップＳ５では、操作判定部５０は、タイミング判定結果Ｄｍ（ｋ）を受け取り、Ｄｍ（ｋ）と少なくとも１つの過去のタイミング判定結果Ｄｍ（ｋ−α）とからジェスチャー判定を行い、ジェスチャー判定結果Ｏｍ（ｋ）を生成し、出力する。

≪１−３≫効果
以上のように、実施の形態１に係るジェスチャー判定装置１００によれば、ジェスチャー操作により生じる画像上の動き領域の位置及び出現タイミングとジェスチャー操作により撮像画像から人物の基準部位が消失するタイミングとから、ジェスチャーを判定する。言い換えれば、実施の形態１に係るジェスチャー判定装置１００は、基準部位が検出されないフレーム画像が発生した第１のタイミングを示す基準部位消失情報が示す第１のタイミングと、動き情報が示す動き領域と基準部位情報が示す基準部位領域とが重なるフレームが発生した第２のタイミングとが同期するか否かを判定し、この判定の結果であるタイミング判定結果と前記動き情報とから操作者によるジェスチャー操作の内容を判定する。これにより、操作者が予め定められた動作を予め定められた期間継続することなく、短時間のジェスチャー操作（例えば、手をスワイプさせる操作）を行う場合であっても、ジェスチャー判定を高精度に行うことができる。

また、実施の形態１に係るジェスチャー判定装置１００によれば、基準部位を操作者の顔とすることで、操作者は、カメラの前（操作者の顔とカメラの間）を通過するように手を動かす動作により適切なジェスチャー操作が可能となる。このため、操作者は、ジェスチャー操作の基準（自分の顔の前を通過するように手を移動させればよい）が分かり易くなり、操作者のジェスチャー操作が容易になる。

≪１−４≫変形例
なお、実施の形態１では、基準部位として操作者の顔を使用したが、これに限るものではなく、操作者の目、鼻、口、首、肩等のような他の身体部位を用いてもよい。顔以外の部位の検出には、顔検出と同様にカスケード検出器を使用してもよいし、ＡＡＭ（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ）等の公知の技術を用いて検出してもよい。

なお、実施の形態１では、基準部位を操作者の一部（顔）であるとしたが、これに限るものではなく、操作者に属する部位でなくても良い。例えば、操作者が椅子に座っている場合は、肘かけ等、椅子の一部を基準部位としても良いし、操作者が存在する空間にある照明や壁の一部を基準部位としても良い。ただし、ジェスチャーを精度よく検出する観点からは、ジェスチャー以外の動作によって画像から消失しない位置にある部位を基準部位とするのが良く、また、操作者とカメラの間に存在する部位を基準部位とするのが好ましい。

なお、実施の形態１では、基準部位を１つ（操作者の顔）としたが、これに限るものではない。例えば、複数の基準部位を検出して、検出された複数の基準部位の消失タイミングについての基準部位消失判定結果を用いて、抽出された動き情報がジェスチャー操作によるものであることを判定してもよい。これにより、更に高精度なジェスチャー判定が可能となる。また、複数の基準部位の消失タイミングの順番から、抽出された動き情報がジェスチャー操作によるものであることを判定してもよい。この場合も高精度なジェスチャー判定が可能となる。

なお、実施の形態１では、動き抽出するためにテクスチャ情報を用いたが、これに限るものではなく、フレーム間で輝度値の差分を計算することで動き抽出してもよいし、赤緑青（ＲＧＢ）画素値及び輝度値のヒストグラムを用いた統計的な背景差分法を用いてもよい。また、顔検出と同様に、カスケード検出器等の検出方法で手を検出し、検出した手を追跡することで動きを抽出してもよい。検出した手を追跡する方法としては、カルマンフィルタ、パーティクルフィルタなどの公知の技術を用いることができる。

なお、実施の形態１では、手が顔の前を横切るような動作をジェスチャー判定の対象動作としたが、これに限るものではなく、手の動きに伴い、予め定められた基準部位が消失する動作であればよい。例えば、手を上から下へ、顔の前を通るように動かす動作を判定対象のジェスチャーとしてもよいし、顔の前を横切るように手を繰り返し左右に振る動作でもよい。

なお、実施の形態１では、動き情報Ｂｍ（ｋ）は、動きの大きい領域の重心データを含むとしたが、これに限られるものではなく、例えば、動きの大きい領域の中心データを使用してもよい。

なお、実施の形態１では、動きの大きい領域をグループに分け、連結されたブロック数が多い領域を動き領域としたが、これに限られるものではない。例えば、連結されたブロックが囲む領域の面積が、一番大きなものを動き領域としてもよいし、連結されたブロックに含まれる各ブロックで算出した変化量ｄＴＦの合計値が一番大きなものを動き領域としてもよい。

なお、実施の形態１では、画像データＩｍ（ｋ）全体に対し、動き抽出を行ったが、検出された基準部位の周辺の領域を動き抽出対象領域として設定し、設定された動き抽出対象領域の範囲内において動き抽出を実施してもよい。このように、動き抽出対象領域を設定することで、ＣＳＬＢＰ特徴の計算に必要な計算コストを低減することができる。

なお、実施の形態１では、動き抽出部２０は、動きの大きい領域のグループから、１つのグループを選定し、動き情報Ｂｍ（ｋ）としたが、これに限るものではない。例えば、動き情報Ｂｍ（ｋ）は複数の前記グループの情報を含んでいてもよい。その場合は、タイミング判定部４０にて、グループのうち、どのグループを選択し、使用するかを決める必要がある。タイミング判定部４０にてグループを選択する際は、例えば、一番サイズの大きいグループ又は、基準部位若しくは消失した基準部位に最も接近するグループを選択する。

≪２≫実施の形態２
≪２−１≫構成
図１１は、本発明の実施の形態２に係るジェスチャー判定装置１００ａの概略的な構成を示すブロック図である。図１１に示されるジェスチャー判定装置１００ａは、図１に示すジェスチャー判定装置１００と概して同じであるが、形状抽出部６０と操作判定部５０ａを備える点が異なる。図１１において、図１に示される構成要素と同一又は対応する構成要素には、図１に示される符号と同じ符号が付される。また、図１に示される構成と同一又は対応する構成については説明を省略する。

実施の形態１との違いは、実施の形態２では、手振り動作のような動きによるジェスチャーの判定だけでなく、サインのように特定の手の形状を提示するジェスチャーの形状抽出を形状抽出部６０が行い、操作判定部５０ａが、形状抽出部６０による手の形状の抽出結果Ｅｍ（ｋ）と、タイミング判定部４０によるタイミング判定結果Ｄｍ（ｋ）とからジェスチャー判定結果Ｏｍ（ｋ）を出力する点である。

まず、形状抽出部６０は、画像データＩｍ（ｋ）が入力され、画像データＩｍ（ｋ）内に含まれる手を検出し、手の形状の抽出結果Ｅｍ（ｋ）を出力する。図１２（ａ）から（ｃ）は、実施の形態２における手の形状の種類を示す図である。図１２（ａ）は、手の形状がグーである場合を示しており、図１２（ｂ）は、手の形状がチョキである場合を示しており、図１２（ｃ）は、手の形状がパーである場合を示している。形状抽出部６０が抽出する手の形状は、予め定められた予め定められた手の形状であり、例えば、図１２に示される種類（グー、チョキ、パー）がある。以降の説明では、抽出する手の形状の種類として図１２に示される手の形状を対象とする。

手の形状の抽出結果Ｅｍ（ｋ）は、画像データＩｍ（ｋ）の中で手が検出されたかどうかを示す手の検出の有無と、抽出された手の形状の種類と、検出された手の中心座標とサイズ情報等を含む。手の検出の有無は、例えば、検出された場合は１、検出されなかった場合は０を出力する。手の形状の種類は、例えば、じゃんけんにおける手の形における、グー（岩の形）であれば１、チョキ（ハサミの形）であれば２、パー（紙の形）であれば３、予め定められた手の形状でない場合は０を出力する。検出された手の領域は、例えば、矩形領域で表現し、手の中心座標は、矩形領域の中心座標Ｈｃ（Ｈｃｘ，Ｈｃｙ）、サイズは矩形領域の幅Ｈｗ、高さＨｈを出力する。

操作判定部５０ａは、手の形状の抽出結果Ｅｍ（ｋ）と、動き抽出結果Ｂｍ（ｋ）と、タイミング判定結果Ｄｍ（ｋ）とを受け取り、ジェスチャーの判定結果Ｏｍ（ｋ）を出力する。

≪２−２≫動作
次に、実施の形態２に係るジェスチャー判定装置１００ａの動作について説明する。まず、形状抽出部６０の動作について説明する。形状抽出部６０は、公知の技術を用いて画像データＩｍ（ｋ）に含まれる手を検出し、予め定められた手の形状を抽出することができる。手を検出するためには、例えば、顔検出に用いたようなカスケード型の手検出器を利用する。手の形状の抽出には、例えば、手検出器により検出された手の矩形領域に対し、ＣＳＬＢＰ特徴量を算出し、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）により形状を抽出する。形状抽出部６０は、抽出した手の形状の抽出結果Ｅｍ（ｋ）を操作判定部５０ａに対して出力する。

続いて、操作判定部５０ａの動作について説明する。操作判定部５０ａは、手の動きによるジェスチャー判定結果あるいは手の形状の提示によるジェスチャー判定結果のいずれかをジェスチャー判定結果Ｏｍ（ｋ）として出力する。手の動きによるジェスチャー判定結果は、タイミング判定結果Ｄｍ（ｋ）から生成し、出力する。手の形状の提示によるジェスチャー判定結果は、動き抽出結果Ｂｍ（ｋ）から求めた画像上における動き領域の移動速度と、手の形状の抽出結果Ｅｍ（ｋ）を複数フレームに渡り解析した結果に基づいて、生成され、出力される。

手の動きによるジェスチャー判定は、実施の形態１と同様に判定を行う。手の形状の提示によるジェスチャー判定では、操作判定部５０ａは、直近のフレームで抽出された手の形状に関する情報をカウントするカウンタを図１２に示すジェスチャーの種類毎に保持し、動き抽出結果Ｂｍ（ｋ）から求めた撮像画像上における動き領域の移動速度と、手の形状の抽出結果Ｅｍ（ｋ）に応じてカウンタをインクリメント、デクリメントあるいはリセットする。そして、カウンタが一定以上の値に達したことで手の形状の提示によるジェスチャーと判定する。

まず、撮像画像上における動き領域の移動速度Ｖ（ｋ）は、現フレームの動き抽出結果Ｂｍ（ｋ）と、過去のフレームの動き抽出結果Ｂｍ（ｋ−α）とから算出する。ここでは、説明を簡単にするため、α＝１とする。例えば、移動速度Ｖ（ｋ）は、動き抽出結果Ｂｍ（ｋ）に含まれる重心Ｍｇ（ｋ）と動き抽出結果Ｂｍ（ｋ−１）に含まれる重心Ｍｇ（ｋ−１）とのユークリッド距離とを用いて算出される。

次に、カウンタのインクリメント、デクリメント、リセットの条件について説明する。インクリメントは、動き領域の移動速度Ｖ（ｋ）（動き評価値）が予め定められた閾値Ｖｈより小さく、かつ手の形状の抽出結果Ｅｍ（ｋ）にて、予め定められた種類のジェスチャーが抽出されている場合は、該当する種類のジェスチャーのカウンタをインクリメントする。このとき、該当しない種類のジェスチャーのカウンタは、デクリメントする。デクリメントは、前述した条件、または移動速度Ｖ（ｋ）が予め定められた閾値Ｖｈ以上の場合に実施する。

なお、インクリメントする際の最大値はＣＭａｘとし、最大値を上回る場合は、インクリメントを実施しない。また、デクリメントする際の最小値は、例えば、０に設定し、最小値を下回る場合は、デクリメントを実施しない。カウンタのリセットは、手の動きによるジェスチャーが検出された場合に、すべてのカウンタに対して実施し、例えば、カウンタの最小値０に設定する。

手の形状の提示によるジェスチャー判定のタイミングは、図１２に示す何れかのジェスチャーに対応するカウンタが、閾値Ｃｔｈを上回ったタイミングで前記ジェスチャーが検出されたとして判定結果を出力する。なお、閾値Ｃｔｈは、最大値Ｃｍａｘより小さい値に設定される。

≪２−３≫効果
実施の形態２に係るジェスチャー判定装置１００ａによれば、上記実施の形態１に係るジェスチャー判定装置１００と同様の効果を得ることができる。

実施の形態２に係るジェスチャー判定装置１００ａによれば、形状抽出部６０により抽出された手の形状の抽出結果Ｅｍ（ｋ）と、タイミング判定部４０により判定されたタイミング判定結果Ｄｍ（ｋ）とに基づいて生成した手の動きによるジェスチャーの判定結果Ｏｍ（ｋ）から、手の形状の提示によるジェスチャー判定を実施する。これにより、誤判定が少ないジェスチャー判定が可能となる。

実施の形態２に係るジェスチャー判定装置１００ａによれば、動き特徴から算出した動き評価値（実施の形態２では、動き領域の移動速度Ｖ（ｋ）として説明）を計算し、動き評価値が予め定められた閾値より大きい場合は手の形状の提示によるジェスチャー判定を行わない（動き評価値が予め定められた閾値以下である場合に手の形状の提示によるジェスチャー判定を行う）こととした。これにより、誤判定が少ないジェスチャー判定が可能となる。

≪２−４≫変形例
なお、実施の形態２では、動き評価値として動き領域の移動速度を用いたが、これに限るものではなく、例えば、動き領域の大きさを動き評価値としてもよい。

なお、実施の形態２では、画像データＩｍ（ｋ）全体に対して、形状抽出を行ったが、これに限るものではない。例えば、基準部位情報Ａｍを形状抽出部６０へ入力し、形状抽出部６０は基準部位周辺の領域を形状抽出対象領域として設定し、設定された形状抽出対象領域において形状抽出を行ってもよい。このように形状抽出の対象領域を限定することで、処理コストを低減することができる。

なお、実施の形態２では、動き評価値が予め定められた閾値よりも大きい場合は、手の形状の提示によるジェスチャー判定を行わないが、動き評価値に応じて、形状抽出の実行の有無を決めるようにしてもよい。このようにすることで、形状抽出のための処理が必要なくなるため、処理コストを低減することができる。

なお、実施の形態２では、形状抽出部６０は、１つの手を検出し手の形状を抽出したが、複数の手を検出し、検出された手毎に手の形状の種類を判定した結果を付したものを手の形状の抽出結果Ｅｍ（ｋ）としてもよい。

なお、実施の形態２では、動き領域の移動速度Ｖ（ｋ）に基づいて、手の形状の提示によるジェスチャー判定におけるカウンタの制御を行ったが、これに限るものではない。例えば、形状抽出部１６０で検出した手の領域を追跡処理し、移動速度を算出してカウンタの制御をしてもよい。

≪３≫実施の形態３
≪３−１≫構成
図１３は、本発明の実施の形態３に係るジェスチャー判定装置１００ｂの概略的な構成を示すブロック図である。図１３に示されるように、実施の形態３に係るジェスチャー判定装置１００ｂは、図１１に示される実施の形態２に係るジェスチャー判定装置１００ａと概して同じであるが、タイミング判定部４０ｂと操作判定部５０ｂと操作者判定部７０とを備える点が異なる。図１３において、図１１に示される構成要素と同一又は対応する構成要素には、図１１に示される符号と同じ符号が付される。また、図１１に示される構成と同一又は対応する構成については説明を省略する。

実施の形態２との違いは、実施の形態３では、基準部位情報Ａｍ（ｋ）および基準部位消失判定結果Ｃｍ（ｋ）を元に操作者がどの人物であるのかを判定し、操作者判定結果Ｆｍ（ｋ）を算出し、動き抽出結果Ｂｍ（ｋ）と形状抽出結果Ｅｍ（ｋ）とタイミング判定結果Ｄｍ（ｋ）と操作者判定結果Ｆｍ（ｋ）とからジェスチャー判定結果を出力する点である。

操作者判定部７０は、基準部位情報Ａｍ（ｋ）と基準部位消失判定結果Ｃｍ（ｋ）が入力として与えられ、操作者がどの人物であるかを判定し、操作者判定結果Ｆｍ（ｋ）を操作判定部５０ｂへ出力する。操作者判定結果Ｆｍ（ｋ）とは、操作者を特定するラベルと操作者の位置情報とを含む操作者の個別情報と、基準部位の位置と、基準部位毎の消失判定結果とを含む。

ラベルは、例えば、画像データＩｍ（ｋ）における操作者の位置に基づいて決定する。以降の説明では、操作者が２人いる条件のもとで説明を行い、撮像画像上左側に映る操作者のラベルをＬ、右側に映る操作者のラベルをＲとする。操作者の位置情報は基準部位の位置に基づいて算出し、例えば、基準部位が顔領域の場合は、顔領域の中心座標とする。

タイミング判定部４０ｂは、動き抽出結果Ｂｍ（ｋ）と操作者判定結果Ｆｍ（ｋ）が入力として与えられ、操作者毎に動き情報Ｂｍ（ｋ）が操作者のジェスチャーによるものか、それ以外の現象によるものなのかを判定し、タイミング判定結果Ｄｍ（ｋ）を出力する。

操作判定部５０ｂは、動き抽出結果Ｂｍ（ｋ）と手の形状の抽出結果Ｅｍ（ｋ）とタイミング判定結果Ｄｍ（ｋ）と操作者判定結果Ｆｍ（ｋ）とからジェスチャー判定結果Ｏｍ（ｋ）を出力する。操作者判定部７０は、操作者判定結果Ｆｍ（ｋ）に基づいて、どの操作者によってなされたジェスチャーであるのかを判定し、操作者のラベルをジェスチャーの種類の判定結果に付してジェスチャー判定結果Ｏｍ（ｋ）として出力する。

≪３−２≫動作
次に、各要素の動作について説明する。操作者判定部７０は、基準部位検出部１０によって検出された基準部位の座標情報または基準部位消失判定部３０によって検出された消失した基準部位の座標情報から、基準部位の属する操作者のラベル付けを行う。例えば、撮像画像の中心より左側で基準部位が検出された場合は、「Ｌ」とラベル付けする。一方で、撮像画像の中心より右側で検出された場合は、「Ｒ」とラベル付けする。

タイミング判定部４０ｂは、操作者毎に、図７に示すような状態遷移を保持し、操作者毎に動き情報Ｂｍ（ｋ）が操作者のジェスチャーによるものか、それ以外の現象によるものなのかを判定する。動き情報Ｂｍ（ｋ）が含む複数の動き領域の情報は、操作者判定結果Ｆｍ（ｋ）に含まれる操作者の位置情報に基づいてどの操作者に属するものかが判定され、該当する操作者の状態遷移に活用される。タイミング判定部４０ｂは、どの操作者のタイミング信号であるのかを示す操作者のラベル情報を状態変化の信号と一緒にＤｍ（ｋ）として操作判定部５０ｂへ出力する。

動き情報Ｂｍ（ｋ）がどの操作者に属するものかを判定するためには、例えば、動き領域の重心と操作者位置の距離から判定する。ある動き領域の重心位置と、全ての操作者との距離を計算し、最も距離の短い操作者に属すると判定する。一人の操作者に属する動き領域が複数ある場合は、例えば、そのうちの１つを選択して使用する。

操作判定部５０ｂは、操作者毎に送られてくるタイミング判定結果Ｄｍ（ｋ）と、手の形状の抽出結果Ｅｍ（ｋ）と、操作者判定結果Ｆｍ（ｋ）とからジェスチャー判定結果Ｏｍ（ｋ）を生成し、出力する。操作判定部５０ｂは、操作者毎に図１２に示すジェスチャーの種類に対応したカウンタを保持している。手の形状の抽出結果Ｅｍ（ｋ）に含まれる手の位置情報と操作者の位置に基づいて、抽出された手がどの操作者に属するものであるかを判定し、操作者毎のカウンタのインクリメント、デクリメントおよびリセットを実施する。そして、操作者毎のタイミング判定結果と、操作者毎のカウンタの状態から操作者毎にジェスチャー判定結果Ｏｍ（ｋ）を生成する。生成されたジェスチャー判定結果Ｏｍ（ｋ）は、操作者のラベルを付して出力される。

≪３−３≫効果
実施の形態３に係るジェスチャー判定装置１００ｂによれば、上記実施の形態１に係るジェスチャー判定装置１００及び上記実施の形態２に係るジェスチャー判定装置１００ａと同様の効果を得ることができる。

実施の形態３に係るジェスチャー判定装置１００ｂによれば、操作者判定部７０を有することにより、基準部位を操作者の個別情報（位置情報等）と結び付けてジェスチャー判定を行う。これにより、撮像画像内に複数の操作者が存在する場合でも、精度よくジェスチャー判定することが可能となる。

≪３−４≫変形例
なお、実施の形態３では、操作者が２人の場合を一例として挙げて説明を行ったが、これに限るものではない。例えば、公共施設や工場におけるデジタルサイネージ等の機器装置をジェスチャー操作する際には、操作者が不特定多数となる。その場合は、例えば、画像データ上で検出された顔領域毎に操作者のラベル付けを行い、操作者毎のジェスチャー操作を判定する。

≪３−５≫変形例
なお、実施の形態３では、タイミング判定部４０ｂにおいて、操作者のラベル情報を、基準部位が属する操作者に基づいて決定しても良いし、動き情報が属する操作者に基づいて決定しても良いし、その両方に基づいて決定しても良い。

例えば、基準部位が属する操作者に基づいて操作者のラベル情報を決定する例を説明する。撮像画像上左側に映る操作者の基準部位が、撮像画像上右側に映る操作者の動作により、ジェスチャー操作による動き情報であると判定された場合、基準部位が属している撮像画像上左側に映る操作者が操作したとして操作者のラベル情報が決定される。すなわち、「Ｌ」とラベル付けされる。

次に、動き情報が属する操作者に基づいて操作者のラベル情報を決定する例を説明する。撮像画像上左側に映る操作者の基準部位が、撮像画像上右側に映る操作者の動作により、ジェスチャー操作による動き情報であると判定された場合、動き情報が属している撮像画像上右側に映る操作者が操作したとして操作者のラベル情報が決定される。すなわち、「Ｒ」とラベル付けされる。

≪４≫実施の形態４
≪４−１≫構成
図１４は、本発明の実施の形態４に係るジェスチャー判定装置１００ｃの概略的な構成を示すブロック図である。図１４に示されるように、実施の形態４に係るジェスチャー判定装置１００ｃは、図１３に示される実施の形態３に係るジェスチャー判定装置１００ｂと概して同じであるが、操作者判定部７０ａを備える点が異なる。図１４において、図１３に示される構成要素と同一又は対応する構成要素には、図１３に示される符号と同じ符号が付される。また、図１３に示される構成と同一又は対応する構成については説明を省略する。

実施の形態３との違いは、操作者判定部７０ａに認証結果Ｉｄが与えられており、操作者判定部７０ａは、操作者判定結果Ｆｍ（ｋ）に認証結果を反映させたＩｄをラベルとして出力する点である。認証結果Ｉｄとは、操作者が誰であるのかを特定する操作者の個別情報であり、例えば、操作者の顔認証情報と、操作者の認証番号と、撮像画像における位置情報を含む。

操作者判定部７０ａは、基準部位情報Ａｍ（ｋ）と、基準部位消失判定結果Ｃｍ（ｋ）と、認証結果Ｉｄが入力として与えられ、操作者判定結果Ｆｍ（ｋ）を出力する。操作者判定部７０ａは、認証結果Ｉｄの位置情報から、検出された基準部位および消失した基準部位がどの操作者に属するかを判定し、ラベルとして操作者の認証番号を付して、操作者判定結果Ｆｍ（ｋ）として出力する。

操作判定部５０ｂは、操作者毎に送られてくるタイミング判定結果Ｄｍ（ｋ）と、形状抽出結果Ｅｍ（ｋ）と、操作者判定結果Ｆｍ（ｋ）とから操作判定結果Ｏｍ（ｋ）を生成し、出力する。

≪４−２≫効果
実施の形態４に係るジェスチャー判定装置１００ｃによれば、上記実施の形態１から３に係るジェスチャー判定装置１００，１００ａ，１００ｂと同様の効果を得ることができる。

実施の形態４に係るジェスチャー判定装置１００ｃによれば、操作者判定部７０ａを有し、基準部位を操作者の個別情報（顔認証情報等）と結び付けてジェスチャー判定する。これにより、撮像画像内に複数の操作者が存在する場合でも、精度よくジェスチャー判定することが可能となる。

≪４−３≫変形例
なお、実施の形態４では、実施の形態３と同様、タイミング判定部４０ｂにおいて、操作者のラベル情報を、基準部位が属する操作者に基づいて決定しても良いし、動き情報が属する操作者に基づいて決定しても良いし、その両方に基づいて決定しても良い。

≪５≫実施の形態５
≪５−１≫構成
図１５は、本発明の実施の形態５に係るジェスチャー操作装置３００の概略的な構成を示すブロック図である。図１５に示されるように、実施の形態５に係るジェスチャー操作装置３００は、ジェスチャー判定装置１００とコマンド生成部２００とを備える。

ジェスチャー操作装置３００は、外部から画像データＩｍ（ｋ）を受け取り、画像データＩｍ（ｋ）を解析して操作者のジェスチャーを判定してジェスチャー判定結果Ｏｍ（ｋ）を出力する。コマンド生成部２００は、ジェスチャー判定結果Ｏｍ（ｋ）に基づいて機器を操作する操作コマンドＰｍ（ｋ）を生成し、外部のＨＭＩ（ＨｕｍａｎＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ）制御部４００へ出力する。ＨＭＩ制御部４００は、操作コマンドＰｍ（ｋ）に基づいて表示装置５００及び音出力装置６００の制御を行う。操作コマンドＰｍ（ｋ）は、例えば、メニュー切り替え、音楽の曲送り、戻し等のＨＭＩを制御するための入力コマンドである。

≪５−２≫効果
実施の形態５に係るジェスチャー操作装置３００によれば、ジェスチャー操作により生じる画像上の動き領域の位置・出現タイミングとジェスチャー操作により撮像画像から人物の基準部位が消失するタイミングとからジェスチャーを判定し、ジェスチャー判定に基づいて機器の操作、制御を行う。これにより、操作者は予め定められた動作を予め定められた期間継続することなく、短時間のジェスチャー操作を高精度に判定し、機器の操作コマンドを生成できるため、操作者が短時間のジェスチャー操作を行った場合でも、高精度なジェスチャー操作が可能なジェスチャー操作装置３００を提供することができる。

≪６≫実施の形態６
≪６−１≫構成
図１６は、本発明の実施の形態６に係るジェスチャー操作装置３００ａの概略的な構成を示すブロック図である。実施の形態６に係るジェスチャー操作装置３００ａは、図１５に示されるジェスチャー操作装置３００と概して同じであるが、通信部７００を備える点で図１５に示されるジェスチャー操作装置３００と異なる。図１６において、図１５に示される構成要素と同一又は対応する構成要素には、図１５に示される符号と同じ符号が付される。また、図１５に示される構成要素と同一又は対応する構成については説明を省略する。

通信部７００は、コマンド生成部２００から操作コマンドＰｍ（ｋ）が入力され、操作コマンドＰｍ（ｋ）を通信信号Ｑｍ（ｋ）に変換し、外部機器に出力する。通信信号Ｑｍ（ｋ）は、例えば、赤外線リモコン信号、無線通信信号、光通信信号、電気信号、ＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）通信信号のいずれかとすることができる。

≪６−２≫効果
実施の形態６に係るジェスチャー操作装置３００ａによれば、上記実施の形態５に係るジェスチャー操作装置３００と同様の効果を得ることができる。

実施の形態６に係るジェスチャー操作装置３００ａによれば、通信部７００を有することにより、生成した操作コマンドＰｍ（ｋ）を通信信号Ｑｍ（ｋ）に変換し、出力することができるため、操作者は１つのジェスチャー操作装置３００ａで複数の外部機器を操作できる。

≪７≫変形例
図１７は、上記実施の形態１から４に係るジェスチャー判定装置１００，１００ａ，１００ｂ，１００ｃの変形例の構成を示すハードウェア構成図である。図１７に示されるジェスチャー判定装置は、ソフトウェアとしてのプログラムを格納する記憶装置としてのメモリ９１と、メモリ９１に格納されたプログラムを実行する情報処理部としてのプロセッサ９２とを有するプログラム実行部（例えば、コンピュータにより）であることが可能である。図１７に示されるジェスチャー判定装置は、半導体集積回路によって構成されることも可能である。また、図１７に示されるジェスチャー判定装置は、プログラム実行部と半導体集積回路との組み合わせによって構成されことも可能である。

１００，１００ａ，１００ｂ，１００ｃジェスチャー判定装置、１０基準部位検出部、２０動き抽出部、３０基準部位消失判定部、４０タイミング判定部、５０，５０ａ，５０ｂ操作判定部、６０形状抽出部、７０，７０ａ操作者判定部、２００コマンド生成部、３００，３００ａジェスチャー操作装置、４００ＨＭＩ制御部、５００表示装置、６００音出力装置、７００通信部、Ａｍ（ｋ）基準部位情報、Ｂｍ（ｋ）動き情報、Ｃｍ（ｋ）基準部位消失判定結果（基準部位消失情報）、Ｄｍ（ｋ）タイミング判定結果、Ｉｍ（ｋ）画像データ、Ｏｍ（ｋ）ジェスチャー判定結果、Ｍｇ（ｋ）動き領域の重心、Ｅｍ（ｋ）形状抽出結果、Ｆｍ（ｋ）操作者判定結果、Ｐｍ（ｋ）操作コマンド、Ｑｍ（ｋ）通信信号。

Claims

操作者によるジェスチャー操作の内容を判定するジェスチャー判定装置であって、
撮像画像として順次取得される複数のフレーム画像から基準部位を検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出部と、
前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出部と、
前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第１のタイミングを示す基準部位消失情報を生成する基準部位消失判定部と、
前記基準部位消失情報が示す前記第１のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第２のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定部と、
前記タイミング判定結果と前記動き情報とからジェスチャー操作の内容を判定する操作判定部と
を有することを特徴とするジェスチャー判定装置。
撮像画像として順次取得される複数のフレーム画像から操作者の身体の部位を基準部位として検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出部と、
前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出部と、
前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第１のタイミングを示す基準部位消失情報を生成する基準部位消失判定部と、
前記基準部位消失情報が示す前記第１のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第２のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定部と、
前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する操作判定部と
を有することを特徴とするジェスチャー判定装置。
前記操作判定部は、前記第１のタイミングより前の第３のタイミングにおいて、前記動き領域が前記基準部位領域の第１の側に検出され、前記第１のタイミングの後の第４のタイミングにおいて、前記動き領域が前記基準部位領域の前記第１の側とは反対の第２の側に検出されたときに、前記動き情報が前記操作者のジェスチャー操作によるものであると判定する
ことを特徴とする請求項１または２に記載のジェスチャー判定装置。
前記操作判定部は、前記第１のタイミングより前の第３のタイミングにおいて、前記動き領域が前記基準部位領域の第１の側に検出され、前記第１のタイミングの後の第４のタイミングにおいて、前記動き領域が前記基準部位領域の前記第１の側に検出されたときに、前記動き情報が前記操作者のジェスチャー操作によるものであると判定する
ことを特徴とする請求項１または２に記載のジェスチャー判定装置。
前記基準部位領域は矩形領域であることを特徴とする請求項１から４のいずれか１項に記載のジェスチャー判定装置。
前記基準部位検出部は、前記基準部位以外の他の基準部位を検出し、前記他の基準部位についての他の基準部位情報を出力し、
前記基準部位消失判定部は、前記他の基準部位情報が示す前記検出の結果から、他の基準部位消失情報を生成し、
前記タイミング判定部は、前記他の基準部位消失情報についての前記判定の結果から他のタイミング判定結果を出力し、
前記操作判定部は、前記他のタイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する
ことを特徴とする請求項１から５のいずれか１項に記載のジェスチャー判定装置。
前記タイミング判定部は、前記複数の基準部位情報が消失する順番に関する情報を前記タイミング判定結果として出力する
ことを特徴とする請求項６に記載のジェスチャー判定装置。
前記基準部位は、前記操作者の顔または顔に属する部位であることを特徴とする請求項１から７のいずれか１項に記載のジェスチャー判定装置。
前記撮像画像における手の領域の形状を抽出し、前記抽出の結果である手形状抽出結果を出力する形状抽出部を更に有し、
前記操作判定部は、前記手形状抽出結果と前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する
ことを特徴とする請求項１から８のいずれか１項に記載のジェスチャー判定装置。
前記操作判定部は、前記動き情報から算出した動き評価値が予め定められた閾値以下である場合に前記手形状抽出結果と前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する
ことを特徴とする請求項９に記載のジェスチャー判定装置。
前記形状抽出部は、前記基準部位領域を基準として設定される形状抽出対象領域内において、前記手の領域の形状の抽出を行う
ことを特徴とする請求項９又は１０に記載のジェスチャー判定装置。
前記基準部位情報と前記基準部位消失情報とから、操作者が前記撮像画像におけるどの人物であるかを判定し、前記判定の結果である操作者判定結果を出力する操作者判定部を更に有し、
前記操作判定部は、前記操作者判定結果と前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する
ことを特徴とする請求項１から１１のいずれか１項に記載のジェスチャー判定装置。
前記操作者判定結果は操作者の位置を特定する位置情報を含むことを特徴とする請求項１２に記載のジェスチャー判定装置。
前記操作者判定結果は操作者の顔認証情報を含むことを特徴とする請求項１２に記載のジェスチャー判定装置。
請求項１から１４のいずれか１項に記載のジェスチャー判定装置と、
前記操作判定部により判定された前記ジェスチャー操作の内容から機器を操作するための操作コマンドを生成するコマンド生成部と
を有することを特徴とするジェスチャー操作装置。
外部機器へ操作コマンドを送信するための通信部を更に有することを特徴とする請求項１５に記載のジェスチャー操作装置。
撮像画像として順次取得される複数のフレーム画像から基準部位を検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出ステップと、
前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出ステップと、
前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第１のタイミングを示す基準部位消失情報を生成する基準部位消失判定ステップと、
前記基準部位消失情報が示す前記第１のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第２のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定ステップと、
前記タイミング判定結果と前記動き情報とから操作者によるジェスチャー操作の内容を判定する操作判定ステップと
を有することを特徴とするジェスチャー判定方法。