JP2013242768A

JP2013242768A - 情報処理装置、制御方法及びプログラム

Info

Publication number: JP2013242768A
Application number: JP2012116520A
Authority: JP
Inventors: Ryosuke Tsuji; 良介辻
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-05-22
Filing date: 2012-05-22
Publication date: 2013-12-05

Abstract

【課題】動作モデルと制御命令とをユーザが任意で登録することによってジェスチャー認識による制御が混乱することを回避する。
【解決手段】情報処理装置は、被写体のジェスチャーを認識するための動作モデルと特定の制御命令とが関連付けられて登録される記憶部２０４と、動作モデルを所定の制御命令と関連付けて記憶部２０４に登録する登録部２０５と、被写体のジェスチャーを動作モデルを記憶部２０４に登録する際に、記憶部２０４に登録された動作モデル及び制御命令から、被写体のジェスチャーと類似する動作モデルとこれに関連付けられた制御命令とを抽出する動作モデル抽出部２０３と、所定の制御命令を記憶部２０４に登録する際に、記憶部２０４に登録された制御命令及び動作モデルから、所定の制御命令と関連性の高い制御命令とこれに関連付けられた動作モデルとを抽出する制御命令抽出部２０６とを備える。
【選択図】図２

Description

本発明は、ジェスチャー認識機能を備えた情報処理装置、情報処理装置の制御方法及びそのプログラムに関する。

人間の手振りや身振り等のジェスチャーを認識する技術は、マン・マシン・インタフェースの分野において重要な技術である。近年、被写体にデータグローブ等の接触型センサやマーカを装着することなく、撮影した画像から被写体のジェスチャーを認識して、撮影制御や再生制御を行う装置が提案されている。

例えば、撮像手段により撮像されたハンドジェスチャーの認識結果に基づいて、画像に対して移動、回転、拡大、縮小等の操作を行う装置が知られている（特許文献１参照）。ここで、ジェスチャー認識による撮影制御や再生制御を行うためには、予め認識に用いる動作モデルと制御命令とを関連付けて記憶しておく必要がある。そこで、例えば、被写体の動きを撮影した画像から動きパターン画像を生成し、動きパターン画像とそれに対応した制御命令を登録する方法が提案されている（特許文献２参照）。この方法によれば、ユーザによる任意の動作モデルと制御命令の組み合わせにより、撮像装置の撮影制御や再生制御が可能となる。また、ユーザによる任意の動作モデルと制御命令の組み合わせを複数登録することにより、様々な制御が可能となる。

特開平１１−３３８１２０号公報特開２００５−７１２０８号公報

しかしながら、動作モデルの登録において、登録済みの動作モデルと類似する動作モデルを、ユーザが類似していると認識しないまま登録を行ってしまうと、ジェスチャーによる撮影制御或いは再生制御が混乱するおそれがある。また、多数の動作モデルと制御命令の組み合わせを登録する場合に、動作モデルと制御命令の組み合わせを把握することが困難になる場合がある。

本発明は、ジェスチャー認識による撮影制御又は再生制御が、ユーザによる動作モデルと制御命令の任意登録によって混乱してしまうことを回避する技術を提供することを目的とする。

本発明に係る情報処理装置は、所定の時間間隔で供給される画像に含まれる被写体のジェスチャーを認識し、認識したジェスチャーと予め関連付けられている制御命令を実行する情報処理装置であって、前記被写体のジェスチャーを認識するための動作モデルと特定の制御命令とが関連付けられて登録される記憶手段と、前記被写体のジェスチャーを前記動作モデルとして、所定の制御命令と関連付けて前記記憶手段に登録する登録手段と、前記登録手段が前記被写体のジェスチャーを動作モデルとして前記記憶手段に登録する際に、前記記憶手段に登録された動作モデル及び制御命令から、前記被写体のジェスチャーと類似する動作モデルと、該類似する動作モデルに関連付けられた制御命令とを抽出する動作モデル抽出手段と、前記登録手段が前記所定の制御命令を前記記憶手段に登録する際に、前記記憶手段に登録された制御命令及び動作モデルから、前記所定の制御命令と関連性の高い制御命令と、該関連性の高い制御命令と関連付けられた動作モデルとを抽出する制御命令抽出手段とを備えることを特徴とする。

本発明によれば、ジェスチャー認識による撮影又は再生制御が、動作モデルと制御命令をユーザが任意で登録することによって混乱してしまうことを回避するができる。

本発明の実施形態に係る情報処理装置の概略構成を示すブロック図である。情報処理装置が備えるジェスチャー認識部の構成を示すブロック図である。ジェスチャー認識部において実行されるジェスチャー認識処理のフローチャートである。ジェスチャー認識部において実行される動作モデル登録処理のフローチャートである。ジェスチャー認識部による動作モデル登録処理時の表示内容の例を示す図である。ジェスチャー認識部が保持するジェスチャー辞書データの例を示す図である。ジェスチャー認識部において実行される制御命令登録処理のフローチャートである。ジェスチャー認識部による制御命令登録処理時の表示内容の例を示す図である。

以下、本発明の実施形態について添付図面を参照して詳細に説明する。本実施形態では、本発明に係る情報処理装置として撮像装置を取り上げることとするが、本発明は撮像装置に限定されるものではなく、例えば、パーソナルコンピュータ、スマートフォン、携帯電話、ゲーム機等の電子機器に対しても適用することができる。

＜撮像装置の概略構成＞
図１は、本実施形態に係る撮像装置１００の概略構成を示すブロック図である。撮像装置１００は、被写体からの光線を集光する撮像光学系を構成する撮像レンズ１０１と、撮像光学系を通して得られる被写体からの光線が被写体像として結像する撮像部１０２を備える。撮像部１０２は、ＣＣＤイメージセンサやＣＭＯＳイメージセンサ等の撮像素子と、撮像素子を駆動する駆動回路とを有する。被写体からの光線は、撮像素子の受光面において結像し、撮像素子による光電変換により画素単位で電荷に変換される。撮像部１０２は、変換された電荷を画素毎に読み出して、画像信号としてアナログ信号処理部１０３へ出力する。なお、撮像部１０２において、撮像素子からの電荷の読み出しを所定の時間間隔、例えばフレーム周期で連続的に行うことにより、動画像信号を得ることができる。

アナログ信号処理部１０３は、撮像部１０２から受信した画像信号に対して、相関二重サンプリング（ＣＤＳ）やゲイン調整等のアナログ信号処理を行い、処理後の画像信号をＡ／Ｄ変換部１０４に対して出力する。Ａ／Ｄ変換部１０４は、アナログ信号処理部１０３から受信した画像信号をデジタル信号に変換して画像データを生成し、生成した画像データを制御部１０５及び画像処理部１０６へ出力する。

制御部１０５は、撮像装置１００全体の動作を制御する。制御部１０５は、ＣＰＵ、ＲＯＭ及びＲＡＭ等を有し、ＣＰＵは、ＲＯＭに予め記憶されたプログラムに従い、ＲＡＭをワークメモリとして用いて動作し、撮像装置１００の各部を制御する。制御部１０５は、Ａ／Ｄ変換部１０４から出力された画像データに基づいて、撮像レンズ１０１の合焦制御機構（不図示）や露出制御機構（不図示）を制御する撮像制御を行い、また、撮像素子の出力タイミングや出力画素等の制御を行う。更に、制御部１０５は、後述するジェスチャー認識部１１０での処理結果にしたがって、撮像装置１００の各部を制御する。

画像処理部１０６は、Ａ／Ｄ変換部１０４から供給された画像データに対して、ガンマ補正やホワイトバランス処理等の所定の画像処理を施す。また、画像処理部１０６は、撮像装置１００が備えるジャイロセンサ（不図示）から出力される角速度情報に基づき、手ぶれによる画像ぶれを補正する処理を行うことができる。

画像処理部１０６において所定の処理が施された画像データは、画像処理部１０６から記録部１０７に供給され、記録媒体（不図示）記録される。記録部１０７は、記録媒体は、撮像装置１００に対して着脱可能な、例えば、不揮発性の半導体メモリ等である。但し、これに限られず、記憶媒体は、撮像装置１００に内蔵されたメモリやハードディスクであってもよいし、撮像装置１００が備える通信部（不図示）により通信可能に接続された外部装置であってもよい。

画像処理部１０６において所定の処理が施された画像データは、画像処理部１０６から表示部１０８にも供給される。表示部１０８は、例えば、ＬＣＤや有機ＥＬディスプレイ等の表示デバイスと、画像データに基づき表示デバイスを駆動する駆動回路とを有し、供給された画像データを表示デバイスに表示する。また、表示部１０８は、後述するジェスチャー認識部１１０よって抽出された情報である類似動作モデルや、類似動作モデルに関連付けられた制御命令の情報を表示する機能を有する。これらの機能の詳細については後述する。なお、時系列的に連続撮影した画像を逐次的に表示部１０８で表示することにより、表示部１０８を、撮像画像をモニタする電子ビューファインダ（ＥＶＦ）として機能させることができる。

操作部１０９は、ユーザの操作を受け付ける入力デバイスとして、ボタン入力デバイスやタッチパネル等のポインティングデバイスを有する。なお、操作部１０９が備える入力デバイスは、本発明に係る情報処理装置によって異なり、前記のものに限定されるものではない。操作部１０９によって入力された情報は、制御部１０５に供給される。

画像処理部１０６から出力された画像データは、ジェスチャー認識部１１０にも供給される。ジェスチャー認識部１１０は、画像中の人物の身振りや手振り等のジェスチャーが、予め保持されている特定のジェスチャー（以下「動作モデル」という）と一致するか否かを判定する。撮像装置１００では、動作モデルに対する制御内容が予め定められている。ジェスチャー認識部１１０では、特定の動作モデルが認識された場合には、認識された動作モデルに関連付けられた制御命令が制御部１０５によって実行される。また、ジェスチャー認識部１１０は、ジェスチャー認識のための辞書情報を登録する際に、辞書登録のためのアシスト情報を抽出する処理を実行する。

つまり、ジェスチャー認識部１１０は、認識した動作モデルに関連付けられた制御命令を出力するモードと、ジェスチャー辞書の登録及び登録のためのアシスト情報を抽出するモードの２種類のモードを有する。ジェスチャー認識部１１０がいずれのモードで動作するかは、操作部１０９において受け付けられたユーザの操作に基づく。例えば、操作部１０９では、ジェスチャー辞書登録のオン／オフ（ＯＮ／ＯＦＦ）操作が可能となっている。ジェスチャー辞書登録がＯＮのとき、ジェスチャー認識部１１０は、ジェスチャー辞書の登録及び登録のためのアシスト情報を抽出するモードで動作するように、制御部１０５によって制御される。一方、ジェスチャー辞書登録がＯＦＦのとき、ジェスチャー認識部１１０は、画像中のジェスチャーを認識し、認識したジェスチャーに対応する動作モデルに関連付けられた制御命令を出力するモードで動作するように、制御部１０５によって制御される。

＜ジェスチャー認識部１１０の構成及び動作＞
図２は、ジェスチャー認識部１１０の構成を示すブロック図である。また、図３は、ジェスチャー認識部１１０において実行されるジェスチャー認識処理のフローチャートである。本実施形態では、ジェスチャー認識として、人物の身振りや手振り等を認識するものとし、以下の説明では、ジェスチャー認識部１１０の各部の機能説明とジェスチャー認識処理のフローとを並行して説明する。

ジェスチャー認識部１１０は、被写体領域検出部２０１、動作特徴抽出部２０２、動作モデル抽出部２０３、ジェスチャー辞書記憶部２０４、ジェスチャー辞書登録部２０５及び制御命令抽出部２０６を有する。なお、図２に示す制御部１０５、画像処理部１０６及び表示部１０８は、図１に示したものと同じである。

ジェスチャー認識処理では、最初に、被写体領域検出部２０１が、画像処理部１０６から所定の時間間隔で供給される画像データに基づき、被写体領域を検出する（ステップＳ３０１）。本実施形態では、ジェスチャー認識として、人物の身振りや手振り等を認識するため、被写体領域検出部２０１は、人物領域を検出する。人物領域の検出方法としては、例えば、特開２００９−２１１３１１号公報に記載されている周知技術を用いることができ、本実施形態では、局所的な人体の輪郭のエッジ強度を局所特徴量として検出することとする。なお、画像から特徴量を抽出する方法としては、Sobelフィルタ、Rrewittフィルタ、Haarフィルタ等の種々の方法がある。被写体領域検出部２０１が備える不図示の人物判別器は、抽出された局所特徴量に基づいて人物又は非人物かを判別し、人物判別器における判別は、AdaBoost学習等の機械学習に基づき、実施される。

ステップＳ３０１の後、動作特徴抽出部２０２が、被写体領域検出部２０１において検出された被写体の動作特徴を抽出する（ステップＳ３０２）。具体的には、顔や腕等の人体を構成する各パーツの領域を推定するために、検出された被写体領域に形状モデルを当てはめる。なお、形状モデルとは、単純化された３次元パーツモデル（例えば、円筒、楕円体、super-quadrics等）により近似された人体各部の形状モデルである。例えば、顔部（頭部）の位置、姿勢を基準として、腕、手、足、動体等の存在範囲を推定することにより、人体を構成する各パーツの領域を推定する。そして、対象となる人物を構成するパーツごとの特徴量（局所的かつ幾何学的な特徴、動きベクトル、色成分特徴等）をパーツの代表点付近での平均的特徴量として所定の記憶手段に格納し、パーツ単位での代表点位置を動作特徴量として抽出する。

ステップＳ３０２の後、動作モデル抽出部２０３が、動作特徴抽出部２０２により抽出された動作特徴量とジェスチャー辞書記憶部２０４に記憶されている動作モデルとの照合を行う（ステップＳ３０３）。ステップＳ３０３での照合の結果として、抽出された動作特徴量と各動作モデルとの類似度が算出される。動作モデル抽出部２０３は、抽出された動作特徴量と動作モデルとが同じ動作を示すか否かを、算出された類似度が所定の閾値以上であるか否かによって判定する（ステップＳ３０４）。ここで、動作モデルとは、１つ以上のパーツによる時系列的な特徴量である。

なお、人物動作の抽出技術としては、周知技術を用いることができ、例えば、『星野、「人物動作における個性の抽出と再構成」画像電子学会誌第３０巻、ｐｐ．６３１−６４０，２００１』等に記載されている技術を用いればよい。動作モデルとのマッチング処理の基本的な方法としては、入力画像の遷移系列とモデルとの対応付けをDynamic time warpingという手法で行う方法（例えば、T. J. Darell and A. P. Pentland, 1993, “Space-Time Gestures”）がある。また、動作の状態遷移を確率モデルで行う隠れマルコフモデルを用いた手法（J. Yamato, J. Ohya and K. Ishii, 1992, “Recognizing Human Action in Time-Sequential Images Using Hidden Markov Model”,Proc. CVPR, pp. 379-385）を用いてもよい。更に、時空間エッジ画像ベクトル列の連続動的計画法（Continuous Dynamic Programming）による方法（西村、岡、「ジェスチャ動画像の逆時間動作や静止動作をスポッティング認識するためのNon-monotonic連続DP」、信学技報、PRMU 96-32, pp. 49-56, 1996）を用いてもよい。

ジェスチャー辞書記憶部２０４には、動作モデルと制御命令とが関連付けられて記憶されている。そこで、類似度が所定の閾値以上の動作モデルが抽出された場合（Ｓ３０４でＹＥＳ）、動作モデル抽出部２０３は、その動作モデルに関連付けられた制御命令を制御部１０５へ供給する。制御部１０５は、供給された制御命令に基づいて、撮像装置１００の各部を制御する（ステップＳ３０５）。一方、類似度が所定の閾値以上の動作モデルが抽出されない場合（Ｓ３０４でＮＯ）、特に処理は行われない。

以上の説明の通り、撮像装置１００では、撮影された被写体のジェスチャーに基づいた各種制御が可能となっている。

次に、ジェスチャー辞書の登録及び登録のためのアシスト情報を抽出する処理について説明する。上述の通り、ジェスチャー辞書記憶部２０４には、動作モデルと制御命令とが関連付けられて記憶されている。以下の説明では、動作モデルと制御命令とが関連付けられた登録データを「ジェスチャー辞書データ」と呼称する。よって、ジェスチャー辞書データの登録においては、動作モデルと制御命令の両方の登録を必要とする。

図４は、ジェスチャー認識部１１０において実行される動作モデル登録処理のフローチャートである。先ず、図３のステップＳ３０１の処理と同様に、被写体領域検出部２０１が、画像処理部１０６から供給される画像データに基づき、被写体領域を検出する（ステップＳ４０１）。なお、画像処理部１０６供給される画像データは、ジェスチャー辞書登録部２０５によって登録される可能性のある画像データである。続いて、図３のステップＳ３０２の処理と同様に、動作特徴抽出部２０２が、被写体領域検出部２０１より検出された被写体の動作特徴量を抽出する（ステップＳ４０２）。

次いで、図３のステップＳ３０３の処理と同様に、動作モデル抽出部２０３が、動作特徴抽出部２０２により抽出された動作特徴量とジェスチャー辞書記憶部２０４に登録済みの動作モデルとを照合する（ステップＳ４０３）。ステップＳ４０３では、動作モデル抽出部２０３は、照合により動作モデル毎に類似度を算出する。続いて、動作モデル抽出部２０３は、算出した類似度が所定の閾値以上か否かを判定する（ステップＳ４０４）。

類似度が所定の閾値以上の動作モデルが存在する場合（Ｓ４０４でＹＥＳ）、動作モデル抽出部２０３は、類似した動作モデル（以下、適宜、「類似動作モデル」と記す）と、類似動作モデルに関連付けられた制御命令の内容とを、表示部１０８へ通知する（ステップＳ４０５）。類似度が所定の閾値以上の動作モデルが存在しない場合（Ｓ４０４でＮＯ）、動作モデル抽出部２０３は、類似動作モデルが存在しないことを表示部１０８へ通知する（ステップＳ４０６）。

ジェスチャー認識部１１０の動作モデル登録処理時の通知情報に基づいて表示部１０８に表示される表示例について、図５及び図６を参照して説明する。

図５は、ジェスチャー認識部１１０による動作モデル登録処理時の表示内容の例を示す図である。図５（Ａ）には、図４のステップＳ４０５において、類似動作モデル（ここでは複数の類似動作モデルを示す）と、類似動作モデルに関連付けられた制御命令とが、表示部１０８へ通知された場合の表示例が示されている。図５（Ｂ）には、ステップＳ４０６において、類似動作モデルが存在しないことが表示部１０８へ通知された場合の表示例が示されている。

図６は、ジェスチャー認識部１１０が保持するジェスチャー辞書データの例を示す図である。なお、本実施形態では、図６に示す情報がジェスチャー辞書データとしてジェスチャー辞書記憶部２０４に登録されているものとする。図６には、動作モデル６０１，６０２と、制御命令６０３，６０４とが示されている。ここで、動作モデル６０１と制御命令６０３とが、動作モデル６０２と制御命令６０４とがそれぞれ関連付けられており、ジェスチャー辞書記憶部２０４に記憶されているものとする。

図５（Ａ）に示す画面５０１は、ステップＳ４０５にしたがって表示部１０８において表示される内容の全体又は一部を示している。画面５０１内の動作モデル５０２には、ジェスチャー辞書データに動作モデルとして登録される候補となる画像データの一部と、動作特徴抽出部２０２により抽出された動作特徴量とが示されている。図５（Ａ）の表示例では、動作特徴量として人間の手の動きが抽出されたものとする。動作モデル５０２に表示される画像データは、画像処理部１０６から供給されて被写体領域検出部２０１及び動作特徴抽出部２０２で利用した画像データのうち、キーフレームとして選択された画像である。本実施形態でのキーフレームとは、ジェスチャー認識に用いる特徴部位のフレーム間の動作特徴が大きく変化したフレームを指す。

動作モデル５０２には、キーフレームとして選択した画像に対して、キーフレーム間の特徴部位の動作ベクトルが矢印で重畳されている。動作モデル５０２のような形態で登録候補を表示することにより、ユーザは、意図した動作が正しく動作モデルとして登録されるかを確認することができる。また、キーフレームの画像と動作ベクトルを示す矢印とを用いて動作モデルを簡略化して明示することにより、ユーザによる確認が容易となる。

画面５０１内には、ジェスチャー辞書記憶部２０４に登録されており、登録候補の動作モデル５０２に類似するとして、動作モデル抽出部２０３により抽出された類似動作モデル５０３が示されている。類似動作モデル５０３の表示方法は動作モデル５０２の表示方法と同様であり、類似動作モデル５０３は、キーフレームの画像と動作ベクトルを示す矢印とを用いて表示される。ここで、類似動作モデル５０３は、図６に示す動作モデル６０１と同様である。また、画面５０１内に示される制御命令５０４は、類似動作モデル５０３と関連付けられており、図６に示す制御命令６０３と同様である。

ユーザは、画面５０１内の表示内容を確認し、登録候補の動作モデル５０２をジェスチャー辞書記憶部２０４に登録するか否かを判断する。登録すると判断された場合は、ジェスチャー辞書登録部２０５によって登録候補の動作モデル５０２がジェスチャー辞書記憶部２０４に登録される。また、キーフレームとして選択された画像データも登録する動作モデル５０２と関連付けて記憶される。

なお、動作モデル抽出部２０３によってジェスチャー辞書記憶部２０４に登録済みの複数の類似動作モデル５０３が抽出された場合、これらの類似動作モデル５０３は類似度の高い順に並べて表示される。或いは、所定の時間間隔で、表示するジェスチャー辞書データを類似度の高い順に切り替えてもよい。また、動作モデル抽出部２０３において算出された類似度が所定の閾値以上の類似動作モデル５０３が存在する場合は、登録候補の動作モデル５０２の登録を禁止するようにしてもよい。

図５（Ｂ）に示す画面５０５は、ステップＳ４０６にしたがって、表示部１０８において表示される内容の全体又は一部を示している。画面５０５内の動作モデル５０６には、ジェスチャー辞書データに動作モデルとして登録される候補の画像データの一部と、動作特徴抽出部２０２により抽出された動作特徴量とが示されている。図５（Ｂ）の表示例でも、動作特徴量として人間の手の動きのみが抽出されたものとする。動作モデル５０６の表示方法は、図５（Ａ）の動作モデル５０２の表示方法と同じであるため、その説明を省略する。図５（Ｂ）の画面５０５は、動作モデル５０６が、図６に示されるジェスチャー辞書記憶部２０４に登録されている動作モデルと類似していないため、類似動作モデルが登録されていないことを表示している。ユーザは、図５（Ａ）の場合と同様に、画面５０５の表示内容を確認し、登録候補の動作モデル５０６をジェスチャー辞書記憶部２０４に登録するか否かを判断する。

以上のように、登録候補の動作モデルと類似した登録済みの動作モデル、登録済みの動作モデルに関連付けられた制御命令を抽出して表示することにより、ユーザの意図しない動作モデルの登録を回避することができる。

次に、制御命令の登録処理について、図７を参照して説明する。図７は、ジェスチャー認識部１１０において実行される制御命令登録処理のフローチャートである。ユーザが、操作部１０９を操作して、ジェスチャー辞書データとして登録したい制御内容を選択する。ここで選択される制御内容の例としては、静止画記録、動画記録の開始、動画記録の停止、ズームイン、ズームアウト、電源のオフ等が挙げられる。

操作部１０９で選択された制御内容に関する情報、すなわち、登録候補の制御命令は、制御部１０５を介してジェスチャー辞書登録部２０５に供給される。すると、制御命令抽出部２０６は、ジェスチャー辞書登録部２０５に供給された登録候補の制御命令と関連性の高い制御命令をジェスチャー辞書記憶部２０４に記憶されている制御命令の中から抽出する（ステップＳ７０１）。なお、関連性の高い制御命令とは、制御対象が同じであり、且つ、制御方法が異なる制御命令の組み合わせを示す。例えば、動画記録の開始と動画記録の停止、ズームインとズームアウト等は、関連性の高い制御命令である。一方、関連性の低い制御命令とは、制御対象が異なる制御命令の組み合わせを示す。例えば、動画記録の開始とズームイン、動画記録の停止とズームアウト、ズームインと電源のオフ等は、関連性の低い制御命令である。

続いて、制御命令抽出部２０６は、関連性の高い制御命令が抽出されたか否かを判定する（ステップＳ７０２）。関連性の高い制御命令が抽出された場合（Ｓ７０２でＹＥＳ））、制御命令抽出部２０６は、ジェスチャー辞書記憶部２０４に登録されている関連性の高い制御命令及び動作モデルを表示部１０８に通知する（ステップＳ７０３）。一方、関連性の高い制御命令が抽出されなかった場合（Ｓ７０２でＮＯ）、制御命令抽出部２０６は、関連性の高い制御命令がジェスチャー辞書記憶部２０４に登録されていないことを表示部１０８に通知する（ステップＳ７０４）。

ジェスチャー認識部１１０の制御命令登録処理時の通知情報に基づいて表示部１０８に表示される表示例について、図８を参照して説明する。図８は、ジェスチャー認識部１１０による制御命令登録処理時の表示内容の例を示す図である。なお、図８を参照した説明にあたっては、図６に示す情報がジェスチャー辞書データとして登録されているものとする。

図８（Ａ）には、ステップＳ７０３において、関連性の高い動作モデルと、その動作モデルに関連付けられた制御命令とが表示部１０８へ通知された場合の表示例が示されている。また、図８（Ｂ）には、ステップＳ７０４において、関連性の高い制御命令が登録されていないことが表示部１０８へ通知された場合の表示例が示されている。

図８（Ａ）に示す画面８０１は、ステップＳ７０３にしたがって表示部１０８において表示される内容の全体又は一部を示している。画面８０１には、ジェスチャー辞書データの制御命令として登録される候補となっている制御命令８０２が表示されている。また、画面８０１には、ジェスチャー辞書記憶部２０４に登録済みであり、制御命令抽出部２０６により抽出された制御命令８０３と、制御命令８０３と関連付けられた動作モデル８０４とが示されている。なお、制御命令８０３及び動作モデル８０４はそれぞれ、図６に示す制御命令６０４、動作モデル６０２と同じである。よって、動作モデル８０４の表示方法は、図５（Ａ）に示した動作モデル５０２について説明した通り、キーフレームの画像と動作ベクトルを示す矢印とが重畳されて表示されている。

なお、制御命令抽出部２０６によりジェスチャー辞書記憶部２０４に登録済みの複数の制御命令が抽出された場合は、それらの制御命令は関連性の高い順に並べて表示される。或いは、表示するジェスチャー辞書データを、関連性の高い順に所定の時間間隔で切り替えてもよい。

図８（Ｂ）に示す画面８０５は、ステップＳ７０４にしたがって表示部１０８において表示される内容の全体又は一部を示している。画面８０１には、ジェスチャー辞書データの制御命令として登録される候補となっている制御命令８０６が表示されている。また、画面８０１には、登録候補の制御命令８０６が、図６に示されるジェスチャー辞書記憶部２０４に登録されている制御内容とは関連性の低い制御命令であったため、関連性の高い制御命令が登録されていないことが表示されている。

ユーザは、画面８０１又は画面８０５の表示内容を確認し、登録候補の制御命令８０２或いは制御命令８０６をジェスチャー辞書記憶部２０４に登録するか否かを判断する。登録すると判断された場合、ジェスチャー辞書登録部２０５により、登録すると判断された制御命令がジェスチャー辞書記憶部２０４に登録される。

図８（Ａ）に示したように登録候補の制御命令８０２と関連性が高い制御命令８０３が抽出された場合、ユーザは関連性の高い制御命令８０３と関連付けて登録されている動作モデル８０４を確認することができる。関連性の高い制御命令８０３であれば、関連付けられた動作モデル８０４も関連性の高い動作モデルであることが、ジェスチャー辞書データに登録されている内容を把握する観点から好ましい。

したがって、関連性の高い制御命令８０３と関連付けて登録されている動作モデル８０４をユーザに確認させることによって、登録候補の制御命令８０２には、抽出された動作モデル８０４と関連付けられた動作モデルを登録させるように誘発することができる。具体例を図８（Ｃ）に示す。図８（Ｃ）は、図８（Ａ）の動作モデル８０４と関連付けられた動作モデルの例である動作モデル８０７を示す。動作モデル８０７は、動作モデル８０４に対して左右の手の動作を反転させた動作モデルである。

以上の説明の通り、本実施形態によれば、ジェスチャー辞書データに動作モデルや制御命令を登録する際にアシスト情報を抽出する。これによって、ユーザが任意でジェスチャー辞書データを登録することが招くジェスチャー認識に起因する撮影制御の混乱を回避することができる。

＜その他の実施形態＞
以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。本発明は以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。

１００撮像装置
１０３アナログ信号処理部
１０４Ａ／Ｄ変換部
１０５制御部
１０６画像処理部
１０８表示部
１０９操作部
１１０ジェスチャー認識部
２０１被写体領域検出部
２０２動作特徴抽出部
２０３動作モデル抽出部
２０４ジェスチャー辞書記憶部
２０５ジェスチャー辞書登録部
２０６制御命令抽出部

Claims

所定の時間間隔で供給される画像に含まれる被写体のジェスチャーを認識し、認識したジェスチャーと予め関連付けられている制御命令を実行する情報処理装置であって、
前記被写体のジェスチャーを認識するための動作モデルと特定の制御命令とが関連付けられて登録される記憶手段と、
前記被写体のジェスチャーを前記動作モデルとして、所定の制御命令と関連付けて前記記憶手段に登録する登録手段と、
前記登録手段が前記被写体のジェスチャーを動作モデルとして前記記憶手段に登録する際に、前記記憶手段に登録された動作モデル及び制御命令から、前記被写体のジェスチャーと類似する動作モデルと、該類似する動作モデルに関連付けられた制御命令とを抽出する動作モデル抽出手段と、
前記登録手段が前記所定の制御命令を前記記憶手段に登録する際に、前記記憶手段に登録された制御命令及び動作モデルから、前記所定の制御命令と関連性の高い制御命令と、該関連性の高い制御命令と関連付けられた動作モデルとを抽出する制御命令抽出手段とを備えることを特徴とする情報処理装置。
前記動作モデル抽出手段は、前記被写体のジェスチャーとの前記記憶手段に登録された動作モデルとの類似度を算出し、算出された前記類似度が所定の閾値以上である動作モデルを前記類似する動作モデルとして抽出することを特徴とする請求項１記載の情報処理装置。
前記動作モデル抽出手段により前記類似する動作モデルが抽出された場合に、前記類似する動作モデルと該動作モデルに関連付けられた制御命令とを表示し、前記制御命令抽出手段により前記関連性の高い制御命令が抽出された場合に、前記関連性の高い制御命令と該制御命令に関連付けられた動作モデルとを表示する表示手段を備えることを特徴とする請求項２記載の情報処理装置。
前記動作モデル抽出手段により複数の前記類似する動作モデルが抽出された場合、前記複数の類似する動作モデルは、該複数の類似する動作モデルと関連付けられた制御命令と共に、前記類似度の大きい順に前記表示手段に表示されることを特徴とする請求項３記載の情報処理装置。
前記動作モデル抽出手段が前記所定の閾値以上の動作モデルを抽出した場合、前記登録手段は、前記被写体のジェスチャーを動作モデルとして前記記憶手段に登録しないことを特徴とする請求項２記載の情報処理装置。
前記所定の時間間隔で供給される画像のフレーム間で前記被写体の特徴部位の動作特徴が大きく変化したフレームをキーフレームとして、
前記被写体のジェスチャーは、前記キーフレームとして選択された画像に前記キーフレーム間の特徴部位の動作ベクトルが矢印で重畳されて、前記表示手段に表示されることを特徴とする請求項３記載の情報処理装置。
前記類似する動作モデルは、前記被写体のジェスチャーに対応する画像に、該画像の特徴部位の動作ベクトルが矢印で重畳されて、前記表示手段に表示されることを特徴とする請求項６記載の情報処理装置。
所定の時間間隔で供給される画像に含まれる被写体のジェスチャーを認識し、認識したジェスチャーと予め関連付けられている制御命令を実行する情報処理装置の制御方法であって、
所定の時間間隔で供給される画像に含まれる被写体のジェスチャーを認識し、認識したジェスチャーと予め関連付けられている制御命令を実行する情報処理装置であって、
前記被写体のジェスチャーを認識するための動作モデルと特定の制御命令とが関連付けられて登録される記憶手段に、前記被写体のジェスチャーを前記動作モデルとして所定の制御命令と関連付けて登録する登録ステップと、
前記登録ステップで、前記被写体のジェスチャーを動作モデルとして前記記憶手段に登録する際に、前記記憶手段に登録された動作モデル及び制御命令から、前記被写体のジェスチャーと類似する動作モデルと、該類似する動作モデルに関連付けられた制御命令とを抽出する動作モデル抽出ステップと、
前記登録ステップで、前記所定の制御命令を前記記憶手段に登録する際に、前記記憶手段に登録された制御命令及び動作モデルから、前記所定の制御命令と関連性の高い制御命令と、該関連性の高い制御命令と関連付けられた動作モデルとを抽出する制御命令抽出ステップとを備えることを特徴とする情報処理装置の制御方法。
請求項８記載の情報処理装置の制御方法をコンピュータに実行させることを特徴とするプログラム。