JP2015043141A

JP2015043141A - ジェスチャ認識装置および制御プログラム

Info

Publication number: JP2015043141A
Application number: JP2013174440A
Authority: JP
Inventors: 悠貴福井; Yuki Fukui; 良介辻; Ryosuke Tsuji; 佳弘水尾; Yoshihiro Mizuo; 田中　秀哉; Hideya Tanaka; 秀哉田中; 悠一野元; Yuichi Nomoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2015-03-05

Abstract

【課題】ジェスチャ動作の誤検出又は誤認識が生じた場合に、画像に不自然な被写体の動作が残ることを防ぐ。【解決手段】ジェスチャ動作の認識を行う際、ジェスチャ認識部１０９は予め設定された動作モデルとジェスチャ動作とを比較してその類似度を求め、類似度が第１の類似閾値未満でかつ当該第１の類似閾値よりも小さい第２の類似閾値以上であると、ジェスチャ動作を示すジェスチャ情報をメモリ１０２に記憶する。類似度が第１の類似閾値以上であると、ＣＰＵ１０１はジェスチャ動作に対応付けられた制御命令を実行し、メモリに記憶されたジェスチャ情報に基づいて制御命令が行われたジェスチャ動作から所定の時間以内に存在するジェスチャ動作までの期間を動画像において予め定められた画像処理を施す効果対象期間とする。【選択図】図７

Description

本発明は、ジェスチャ認識装置および制御プログラムに関し、特に、ジェスチャ認識によって認識された人の動きに基づいて電子機器などの各種機器の制御を行う技術に関する。

一般に、人間の身振り又は手振りを認識する技術は、柔軟なＭａｎ−ＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅＳｙｓｔｅｍ（マンマシンインタフェースシステム）を構築する上で重要な技術である。特に、電子機器の１つであるデジタルカメラなどの撮像装置において、被写体にデータグローブなどの接触型センサ又はマーカーを装着させることなく、撮像の結果得られた画像に応じて被写体の動作を認識して撮影制御を行うものが知られている。

このような撮像装置においては、例えば、「頭の上で手を振る」という動作に対して「静止画撮影」という制御情報が関連付けてメモリなどに登録され、撮像中に被写体が頭の上で手を振る動作を行うことによって、静止画撮影の制御が行われる。

さらに、このような撮像装置によって動画撮影を行う際、明暗および露出などの画質調整、ズーム操作、および録画停止などの撮像制御を実行するために行われる被写体の動作が画像として記録されることを防止することが行われている。

ここでは、撮影中および撮影後に被写体認識技術およびマッチング技術を用いて不自然な被写体の動作について画像処理を行って、撮像制御を実行するために行われる被写体の動作が画像として記録されることを防止するようにしている。

例えば、画像（以下映像ともいう）に対して、予めセットした処理パラメータと編集したい映像情報および置換情報とを用いて映像から編集したい映像情報と類似する箇所を抽出して置換情報で置換した映像を作成するようにしたものがある（特許文献１参照）。

特開２００５−１５９４１５号公報

ところで、人間の身振り又は手振りを認識するジェスチャ認識技術においては、撮影環境又は被写体の些細な動き、そして、ジェスチャ認識の精度などによって不可避的に誤検出又は誤認識が起こりうる。このような場合には、被写体は意図した制御命令を実行するため被写体動作を何度か行うことになる。

このような状況においては、特許文献１に記載のように、不自然な被写体の動作について画像処理を行ったとしても、編集したい映像情報と類似すると判定されない誤判定のため置換処理が行われず、映像に不自然な被写体の動作が残ってしまうことになる。

さらに、前述のように、ジェスチャ認識による制御では、特定のジェスチャを認識して当該ジェスチャに対応した制御が実行される。例えば、記録制御と特定のジェスチャとを対応付けておけば、当該ジェスチャを認識すると画像の記録が開始される。

同様に、記録停止についても特定のジェスチャを対応付けておけばジェスチャ認識の後に記録停止が行われる。

ところが、記録停止のためジェスチャを被写体が行っている期間も画像記録期間に含まれるので、記録すべき画像と異なる不要期間における画像、つまり、不自然な被写体の動作が記録されることになってしまう。

また、手の動き又はウインクなどの被写体の特定の部位のジェスチャによって撮像制御を行うことがあるが、画像における被写体の位置および大きさによってはジェスチャ認識ができないことがある。例えば、被写体の顔領域が大きく撮影されていれば、ウインク又は視線など目を特徴部位としたジェスチャ認識を行うことができるものの、このような画像の場合、手などは画像内に存在しない可能性が高く、目以外の特徴部位のジェスチャ認識を行うことは困難である。

一方、被写体の顔領域が小さく撮影されている状況では、手は画像に存在している可能性が高く手を特徴部位としたジェスチャ認識を行うことは可能であるものの、目については十分な画像解像度が得られず、検出が困難である可能性が高い。よって、ウインク又は視線など目を特徴部位としたジェスチャ認識を行うことは困難である。

加えて、慣性センサの１つである加速度センサを備える撮像装置が知られており、このような撮像装置ではジェスチャと関連付けて制御命令を登録する際、ユーザは撮像装置を把持した状態でジェスチャを行う。そして、当該ジェスチャ動作によって生じる撮像装置の動きを加速度センサで検知して制御命令とジェスチャとを関連付けてメモリに関連情報として登録する。

その後、ユーザは撮像装置を把持した状態でジェスチャを行えば、当該ジェスチャによる撮像装置の動きが加速度センサで検出されて、ジェスチャに対応する制御命令が実行される。

しかしながら、この場合には、ジェスチャの大きさが異なっても同一のジェスチャと認識されてしまい、さらには、ジェスチャの身体における相対的位置が異なっても同一のジェスチャとして認識されてしまう。つまり、ジェスチャの大きさ又は身体に対する相対的位置を区別して別のジェスチャとして認識することができない。

さらに、辞書に登録済のジェスチャがユーザの癖と同一であるなどの理由で、ユーザ創作のジェスチャに差し替えたいという要望がある。この際には、ユーザ創作のジェスチャを登録する必要がある。

一方、撮像装置を操作する用途で慣性センサを用いたいことがある。この様な場合には、つまり、撮像装置が慣性センサを備えている場合には、ユーザ創作のジェスチャを登録する際に、ユーザは撮像装置を把持してジェスチャを行う必要がある。

言い換えると、ユーザは撮像装置を振らなければならず、その結果、ユーザは撮像装置に備えられた表示部を確認すること又は撮像装置でユーザ自身を撮影することができない。

このため、ジェスチャを辞書に登録する際にのみ慣性センサを用いて、撮像装置を操作する際にはジェスチャを画像認識によって検出することが行われている。これによって、登録したいジェスチャを簡単にできるばかりでなく、撮像装置を操作する際においてもジェスチャによる操作を行うことができる。

ところが、ジェスチャを辞書に登録する際には、当該ジェスチャは慣性センサによって３次元で検出されることになる。一方、画像認識によってジェスチャを検出する際には２次元でジェスチャを検出することになる。このため、三次元で登録されたジェスチャを２次元のジェスチャに変換する必要がある。

この際、その変換処理が十分でないと、撮像装置に向いているつもりで演じたジェスチャと登録されたジェスチャとが一致せず、精度よくジェスチャ操作を行うことができないという課題がある。

さらに、ユーザ自身を撮影しつつ指で化粧をするようにレタッチ処理を行う撮像装置が知られている。このような撮像装置において、顔の器官と指との位置関係からレタッチ処理を選択する際、手又は指が顔に被っているとライブビューに表示される顔画像が見づらくなってレタッチ処理を選択することが難しくなってしまう。

従って、本発明の第１の目的は、ジェスチャの誤検出又は誤認識が生じた場合においても、画像処理の際に映像（画像）に不自然な被写体の動作が残ることを低減することのできるジェスチャ認識装置および制御プログラムを提供することにある。

本発明の第２の目的は、画像における被写体の位置又は大きさなどの被写体状態に依存することなくジェスチャ認識を行うことのできるジェスチャ認識装置および制御プログラムを提供することにある。

本発明の第３の目的は、３次元で登録されたジェスチャ動作を用いて、画像認識によって検出されたジェスチャによる制御を行うことのできるジェスチャ認識装置および制御プログラムを提供することにある。

本発明の第４の目的は、ユーザ自身を撮影しつつレタッチ処理を行う際、容易にレタッチ処理を選択することのできるジェスチャ認識装置および制御プログラムを提供することにある。

上記の目的を達成するため、本発明によるジェスチャ認識装置は、予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該認識したジェスチャ動作に応じて制御命令を実行するジェスチャ認識装置であって、前記ジェスチャ動作の認識を行う際、予め設定された動作モデルと前記ジェスチャ動作とを比較してその類似度を求める照合手段と、前記類似度が予め定められた第１の類似閾値未満でかつ当該第１の類似閾値よりも小さい第２の類似閾値以上であると、前記ジェスチャ動作を示すジェスチャ情報をメモリに記憶し、前記類似度が前記第１の類似閾値以上であると、前記ジェスチャ動作に対応付けられた制御命令を実行するとともに、前記メモリに記憶された前記ジェスチャ情報に基づいて、前記制御命令が行われたジェスチャ動作から所定の時間以内に存在するジェスチャ動作までの期間を、前記画像において予め定められた画像処理を施す効果対象期間とする制御手段と、を有することを特徴とする。

本発明によるジェスチャ認識装置は、予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、前記ジェスチャ動作が開始された際に、前記機器の現在の状態を示す状態情報を記憶する状態記憶手段と、前記ジェスチャ動作に応じた制御命令の属性が停止制御および開始制御のいずれであるかを判定する判定手段と、前記判定手段によって前記制御命令の属性が開始制御であると判定されると、前記ジェスチャ動作が認識されたタイミングで当該制御命令を実行し、前記判定手段によって前記制御命令の属性が停止制御であると判定されると、前記状態情報が示す機器の状態と等価となるように前記制御命令を実行する制御手段と、を有することを特徴とする。

本発明によるジェスチャ認識装置は、予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、前記画像における前記被写体の状況に応じて前記ジェスチャ動作の認識に用いる被写体の特定部位を決定する決定手段と、前記決定手段によって決定された特定部位の動作に応じて前記ジェスチャ動作の認識を行う認識手段と、を有することを特徴とする。

本発明によるジェスチャ認識装置は、予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、前記被写体が前記ジェスチャ認識装置を把持した状態で慣性センサによって前記ジェスチャ動作を検出する第１の検出手段と、前記ジェスチャ動作に応じて前記被写体の動きの大きさを検出する第２の検出手段と、前記ジェスチャ動作に関連付けて前記制御命令をメモリに登録するするとともに、前記被写体の動きの大きさに応じて、前記被写体に対する前記被写体の動きの相対的大きさをメモリに登録する登録手段と、前記メモリに登録されたジェスチャ動作と前記機器を制御する際に行われたジェスチャ動作とを比較して前記制御命令を実行する際、前記被写体の動きの相対的大きさを参照して、前記メモリに登録されたジェスチャ動作と前記機器を制御する際に行われたジェスチャ動作とのマッチングを判定する判定手段と、を有することを特徴とする。

本発明によるジェスチャ認識装置は、予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、前記被写体が前記ジェスチャ認識装置を把持した状態で慣性センサによって前記ジェスチャ動作の軌跡をジェスチャ軌跡として検出する第１の検出手段と、前記ジェスチャ軌跡の前記被写体の身体に対する相対的位置をジェスチャ位置として設定する設定手段と、前記ジェスチャ軌跡に関連付けて前記制御命令をおよび前記ジェスチャ位置をメモリに登録する登録手段と、前記メモリに登録されたジェスチャ軌跡と前記機器を制御する際に行われたジェスチャ動作とを比較して前記制御命令を実行する際、前記ジェスチャ位置を参照して、前記メモリに登録されたジェスチャ軌跡と前記機器を制御する際に行われたジェスチャ動作とのマッチングを判定する判定手段と、を有することを特徴とする。

本発明によるジェスチャ認識装置は、予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、前記機器の移動軌跡を３次元ジェスチャ動作として検出する検出手段と、前記３次元ジェスチャ動作を平面に投影した面積が最大となる方向に応じて前記３次元ジェスチャ動作を２次元ジェスチャ動作に変換する正面方向を決定する決定手段と、前記正面方向に基づいて前記３次元ジェスチャ動作を前記２次元ジェスチャ動作に変換する手段と、前記ジェスチャ動作と前記２次元ジェスチャ動作とを比較して前記制御命令を実行する制御手段と、を有することを特徴とする。

本発明によるジェスチャ認識装置は、予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じてレタッチ処理を行う制御命令を実行するジェスチャ認識装置であって、前記ジェスチャ動作として前記画像において所定の指示部によって前記被写体の所定の領域を指し示す指示動作を検出する検出手段と、前記指示部と前記所定の領域との位置関係に応じて前記所定の領域に前記レタッチ処理を行うか否かを選択する選択手段と、前記選択手段によって前記レタッチ処理が選択された際、前記指示部によって前記所定の領域が被われていると、前記指示部によって前記所定の領域が被われる直前のフレームにおける画像について前記レタッチ処理を行う制御手段と、を有することを特徴とする。

本発明によれば、被写体によるジェスチャ動作について誤検出又は誤認識があった場合に、認識されたジェスチャ動作を基準としてその前後に存在する誤認識のジェスチャ動作を含む期間について所定の画像処理を行う期間である効果対象領域を設定するようにした。よって、画像に不自然な被写体の動作が残ったまま記録されることを防ぐことができる。

さらに、本発明によれば、画像における被写体の位置又は大きさなどの被写体の状態に依存することなくジェスチャ認識を行うことができる。

本発明によれば、加速度センサなどの慣性センサを用いて登録したジェスチャを参照して、ジェスチャ動作の大きさを考慮してジェスチャ動作を認識しているので同一のジェスチャ動作であってもジェスチャ動作を区別することができる。また、ジェスチャ動作の身体における相対的位置を考慮しているので、同一のジェスチャ動作であってもジェスチャ動作を区別することができる。

また、本発明によれば、３次元で登録されたジェスチャ動作を用いて、画像認識によって検出されたジェスチャによる制御を行うことができる。そして、ユーザ自身を撮影しつつレタッチ処理を行う際、指示部によって所定の領域が被われていても、常にライブビュー画像においては指示部によって所定の領域が被われていない状態でレタッチ処理の効果を確認することができる。

本発明の第１の実施形態によるジェスチャ認識装置の一例についてその構成を示すブロック図である。図１に示すジェスチャ認識装置の認識動作を説明するためのフローチャートである。図１に示すジェスチャ認識装置によって認識される被写体の動作を時系列的に示す図であり、（ａ）は被写体動作の第１の例を示す図、（ｂ）は被写体動作の第２の例を示す図である。図１に示すジェスチャ認識装置によって認識された被写体動作に応じて設定される効果対象期間を説明するための図であり、（ａ）は効果対象期間の第１の例を示す図、（ｂ）は効果対象期間の第２の例を示す図、（ｃ）は効果対象期間の第３の例を示す図である。本発明の第２の実施形態によるジェスチャ認識装置の認識動作を説明するためのフローチャートである。本発明の第２の実施形態に示すジェスチャ認識装置によって認識された被写体動作に応じて設定される効果対象期間を説明するための図である。本発明の第３の実施形態によるジェスチャ認識装置に備えられたジェスチャ認識部の構成についてその一例を示すブロック図である。本発明の第３の実施形態によるジェスチャ認識装置における認識動作の一例を説明するためのフローチャートである。本発明の第３の実施形態によるジェスチャ認識装置におけるジェスチャと画像記録期間との関係を説明するための図であり、（ａ）は従来のジェスチャ認識装置におけるジェスチャと画像記録期間との関係を示す図、（ｂ）は本発明の第３の実施形態によるジェスチャ認識装置におけるジェスチャと画像記録期間との関係を示す図である。本発明の第４の実施形態によるジェスチャ認識装置に備えられたジェスチャ認識部の構成についてその一例を示すブロック図である。本発明の第４の実施形態によるジェスチャ認識装置による認識動作の一例を説明するためのフローチャートである。図１０に示す特徴部位判定部で行われる特徴部位判定を説明するためのフローチャートである。図１０に示す特徴部位判定部で用いられる顔閾値の設定を説明するための図であり、（ａ）は顔領域と目領域との相対関係を示す図、（ｂ）は顔領域と手領域との相対関係を示す図である。本発明の第４の実施形態によるジェスチャ認識装置を備える撮像装置の外観を示す図であり、（ａ）は正面側からみた図、（ｂ）は背面側からみた図である。本発明の第５の実施形態によるジェスチャ認識装置におけるジェスチャ登録処理を説明するためのフローチャートである。本発明の第５の実施形態によるジェスチャ認識装置においてジェスチャ登録の際に表示部に表示される画面を説明するための図であり、（ａ）は操作説明を示す図、（ｂ）はジェスチャ動作の入力を示す図である。図１５に示す軌跡算出処理を説明するためのフローチャートである。本発明の第５の実施形態によるジェスチャ認識装置における加速度の検出を説明するための図であり、（ａ）は３軸方向の定義を示す図、（ｂ）は撮像装置の移動を示す図である。図１６（ａ）に示す指示に応じたユーザ動作の一例を示す図である。本発明の第５の実施形態によるジェスチャ認識装置におけるジェスチャ動作の区別を示す図である。本発明の第５の実施形態によるジェスチャ認識装置を備える撮像装置による撮像の際に被撮影者のジェスチャ動作が検出された場合のコマンド操作の一例を示す図である。本発明の第５の実施形態によるジェスチャ認識装置によるジェスチャ検出処理を説明するためのフローチャートである。図２２で説明したジェスチャ検出処理によるジェスチャ検出の一例を示す図である。図２２で説明したジェスチャ検出処理によるジェスチャ検出の他の例を示す図である。本発明の第５の実施形態によるジェスチャ認識装置における身体的特徴量を入力する画面の一例を示す図である。本発明の第６の実施形態によるジェスチャ認識装置におけるジェスチャ登録処理を説明するためのフローチャートである。本発明の第６の実施形態によるジェスチャ認識装置においてジェスチャ登録の際に表示部に表示される画面の一例を説明するための図であり、（ａ）は初期位置を選択する画面の一例を示す図、（ｂ）は初期位置を選択する画面の他の例を示す図である。本発明の第６の実施形態によるジェスチャ認識装置においてジェスチャ登録の際に表示部に表示される画面の他の例を説明するための図であり、（ａ）は表示部に最初に表示される画面を示す図、（ｂ）はユーザによる変更操作後の画面を示す図である。本発明の第６の実施形態によるジェスチャ認識装置を備える撮像装置による撮像の際に被撮影者のジェスチャ動作が検出された場合のコマンド操作の一例を示す図である。本発明の第６の実施形態によるジェスチャ認識装置によるジェスチャ検出処理を説明するためのフローチャートである。本発明の第６の実施形態によるジェスチャ認識装置におけるジェスチャ動作の区別を示す図である。図３０で説明したジェスチャ検出処理によるジェスチャ検出の一例を説明するための図であり、（ａ）はジェスチャ検出の一例を示す図、（ｂ）はジェスチャ検出の他の例を示す図である。本発明の第７の実施形態によるジェスチャ認識装置における加速度検出信号の処理を説明するための図であり、（ａ）は撮像装置の動作方向と加速度センサ方向の一例を示す図、（ｂ）は（ａ）に対応する動作量を示す図、（ｃ）は撮像装置の動作方向と加速度センサ方向の他の例を示す図、（ｄ）は（ｃ）に対応する動作量を示す図、（ｅ）は撮像装置の動作方向と加速度センサ方向のさらに他の例を示す図、（ｆ）は（ｅ）に対応する動作量を示す図である。本発明の第７の実施形態によるジェスチャ認識装置で行われる動きベクトル変化の解析処理を説明するためのフローチャートである。本発明の第７の実施形態によるジェスチャ認識装置で行われるジェスチャ認識処理を説明するためのフローチャートである。本発明の第７の実施形態によるジェスチャ認識装置においてジェスチャ認識に用いる連続画像を説明するための図であり、（ａ）〜（ｄ）はそれぞれ時刻の経過に応じた画像の一例を示す図である。図３６に示す画像において検出された動きベクトルを説明するための図であり、（ａ）〜（ｃ）は動きベクトルの一例を示す図である。図３４で説明した動きベクトル変化の解析処理後の動きベクトルを説明するための図であり、（ａ）〜（ｃ）は解析処理後の動きベクトルの一例を示す図である。本発明の第７の実施形態によるジェスチャ認識装置に２次元ジェスチャ動作として記録されたジェスチャ認識用辞書データに登録された動きベクトルを説明するための図であり、（ａ）〜（ｃ）はその一例を示す図である。図３９に示す特徴動作として登録された動きベクトルが発生する具体的なジェスチャ動作を説明するための図であり、（ａ）〜（ｃ）はその一例を示す図である。本発明の第７の実施形態におけるジェスチャ認識装置を備えるビデオカメラにおいてジェスチャ動作を登録させる際の処理を説明するためのフローチャートである。本発明の第７の実施形態によるジェスチャ認識装置を備えるビデオカメラにおいて回転方向確定操作中の操作画面を説明するための図であり、（ａ）〜２（ｃ）は操作画面による操作を示す図である。図４１に示す正面方向決定処理を説明するためのフローチャートである。ＸＹＺ座標上で検出された３次元ジェスチャ動作を説明するための図であり、（ａ）はＸＹ平面への投影を示す図、（ｂ）はＸＺ平面への投影を示す図、（ｃ）はＹＺ平面への投影を示す図である。投影方向に応じた投影面積を説明するための図であり、（ａ）〜（ｆ）はその一例を示す図である。投影方向に応じた投影面積を説明するための図であり、（ａ）〜（ｈ）はその一例を示す図である。図４１に示す回転方向決定処理を説明するためのフローチャートである。本発明の第８の実施形態によるジェスチャ認識装置を備える撮像装置におけるレタッチ処理の一例を説明するためのフローチャートである。図４８に示す処理を行った際の処理タイミングと表示部の状態遷移を説明するための図である。

以下、本発明の形態によるジェスチャ認識装置の一例について図面を参照して説明する。

［第１の実施形態］
図１は、本発明の第１の実施形態によるジェスチャ認識装置の一例についてその構成を示すブロック図である。

図示のジェスチャ認識装置１００は、ＣＰＵ１０１、メモリ１０２、不揮発性メモリ１０３、画像処理部１０４、撮像部１０５、記憶媒体Ｉ／Ｆ１０６、被写体検出部１０８、ジェスチャ認識部１０９、外部Ｉ／Ｆ（インタフェース）１１０、および通信Ｉ／Ｆ１１１を有している。そして、これらブロックは内部バス１５０によって相互に接続されている。

ＣＰＵ１０１は、不揮発性メモリ１０３に格納されたプログラムに応じて、メモリ１０２をワーク用メモリとして用いてジェスチャ認識装置１００の全体を制御する。なお、メモリ１０２は、例えば、ＲＡＭである。

不揮発性メモリ１０３は、電気的に消去・記録可能なメモリであって、例えば、ＥＥＰＲＯＭが用いられる。そして、不揮発性メモリ１０３には、前述のように、ＣＰＵ１０１が動作するための各種プログラムなどが格納される。

画像処理部１０４は、ＣＰＵ１０１の制御下でメモリ１０２又は記録媒体１０７に格納された画像データ、撮像部１０５による撮像の結果得られた映像信号（画像信号ともいう）、および外部Ｉ／Ｆ１１０又は通信Ｉ／Ｆ１１１を介して取得した画像データなどに対して各種の画像処理を施す。

画像処理部１０４で行われる画像処理には、例えば、Ａ／Ｄ変換処理、Ｄ／Ａ変換処理、符号化処理、圧縮処理、デコード処理、拡大／縮小処理（リサイズ）、ノイズ低減処理、および色変換処理などがある。

なお、図示の例では、画像処理部１０４は、特定の画像処理を施すための専用の回路ブロックで構成されているが、画像処理によっては画像処理部１０４を用いることなくＣＰＵ１０１が画像処理を行うようにしてもよい。

図示はしないが、撮像部１０５は、複数のレンズを備える光学系と撮像センサ（例えば、ＣＣＤ又はＣＭＯＳセンサ）とを有しており、ユーザによるジェスチャが撮影可能な方向に向けて配置されている。撮像部１０５による撮像の結果得られた画像（映像信号）は、画像処理部１０４に送られる。

記憶媒体Ｉ／Ｆ１０６は、メモリカード、ハードディスク、ＣＤ、又はＤＶＤなどの記録媒体１０７が装着される。そして、記憶媒体Ｉ／Ｆ１０６は、ＣＰＵ１０１の制御下で記録媒体１０７から画像データを読み出すとともに、記録媒体１０７に画像データを書き込む。

被写体検出部１０８は、画像処理部１０４の出力である画像データを受けて、当該画像データにおいて被写体領域を検出する。ここでは、後述するジェスチャ認識部１０９はジェスチャである人物の身振り又は手振りを認識し、被写体検出部１０８は被写体領域として人物領域を検出する。

被写体検出部１０８で用いられる検出手法として、例えば、特開２００９−２１１３１１号公報に記載の手法が用いられる。つまり、被写体検出部１０８は局所的な被写体の輪郭についてそのエッジ強度を局所特徴量として検出する。

なお、画像データから特徴量を抽出する手法として、例えば、Ｓｏｂｅｌフィルタ処理、Ｐｒｅｗｉｔｔフィルタ処理、およびＨａａｒフィルタ処理などの様々な手法が知られている。そして、被写体検出部１０８は、局所特徴量に応じて人物判別器によって被写体領域が人物領域又は非人物領域のいずれであるかを判別する。人物判別器における判別には、例えば、ＡｄａＢｏｏｓｔ学習などのような機械学習が用いられる。

ジェスチャ認識部１０９は、被写体検出部１０８によって検出された人物領域に基づいて人物の動作特徴量を抽出する。ここでは、ジェスチャ認識部１０９は、人物領域において顔および腕などの人体を構成する各パーツの領域を推定するため、人物領域に所定の形状モデルを当てはめる。

この形状モデルとは、予め単純化された３次元パーツモデル（円筒、楕円体、ｓｕｐｅｒ−ｑｕａｄｒｉｃｓなど）によって近似された人体各部のモデルである。ジェスチャ認識部１０９は、例えば、顔部（頭部）の位置および姿勢を基準として、腕、手、足、および胴体などの存在範囲を推定する。

そして、ジェスチャ認識部１０９は、対象となる人物領域を構成するパーツ毎の特徴量（局所的かつ幾何学的な特徴、動きベクトル、および色成分特徴など）をパーツの代表点付近における平均的特徴量として内蔵メモリに格納して、パーツ単位における代表点位置を動作特徴量として抽出する。

さらに、ジェスチャ認識部１０９は、抽出した動作特徴量とメモリ１０２又は不揮発性メモリ１０３などに記憶された動作モデルとを照合する。ここで、動作モデルとは、１つ以上のパーツによる時系列的な特徴量を示すモデルである。

なお、メモリ１０２又は不揮発性メモリ１０３に記憶される動作モデルは１つに限定されず、複数の動作モデルを記憶するようにしてもよい。また、ジェスチャ認識部１０９は記録媒体１０７から動作モデルを読み込むようにしてもよいし、さらには、後述する外部Ｉ／Ｆ１１０又は通信Ｉ／Ｆ１１１を用いて動作モデルを取得することもできる。

ジェスチャ認識部１０９は、照合の結果として、動作特徴量と動作モデルとの類似度を算出する。そして、ジェスチャ認識部１０９は当該類似度に基づいて、抽出された動作特徴量と動作モデルとが同一の動作を示すか否かを判定する。

なお、人物動作の抽出手法については、例えば、文献（星野、「人物動作における個性の抽出と再構成」画像電子学会誌第３０巻、ｐｐ．６３１−６４０，２００１）に記載の手法が用いられる。

また、動作モデルとのマッチング処理の基本的な手法として、例えば、入力画像の遷移系列とモデルとの対応付けをＤｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇで行う手法がある（Ｔ．Ｊ．ＤａｒｅｌｌａｎｄＡ．Ｐ．Ｐｅｎｔｌａｎｄ，１９９３ “Ｓｐａｃｅ−ＴｉｍｅＧｅｓｔｕｒｅｓ，”）。

さらに、動作の状態遷移を確率モデルで行う隠れマルコフモデルを用いた手法（Ｊ．Ｙａｍａｔｏ，Ｊ．Ｏｈｙａ，ａｎｄＫ．Ｉｓｈｉｉ，１９９２ “ＲｅｃｏｇｎｉｚｉｎｇＨｕｍａｎＡｃｔｉｏｎｉｎＴｉｍｅ−ＳｅｑｕｅｎｔｉａｌＩｍａｇｅｓＵｓｉｎｇＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，” Ｐｒｏｃ．ＣＶＰＲ，ｐｐ．３７９−３８５）、そして、時空間エッジ画像ベクトル列の連続動的計画法（ＣｏｎｔｉｎｕｏｕｓＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）による手法（西村、岡「ジェスチャ動画像の逆時間動作や静止動作をスポッティング認識するためのＮｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰ」、信学技報、ＰＲＭＵ９６−３２、ｐｐ．４９−５６，１９９６）などがある。

ジェスチャ認識部１０９は、動作特徴量と動作モデルとが同一の動作であるか否かを判定する際、例えば、照合結果である類似度が第１の閾値以上（第１の類似閾値以上）であるか否かによって同一の動作であるかを判定する。

なお、上記の動作モデルは制御命令と対応付けられてメモリ１０２又は不揮発性メモリ１０３などに記憶されている。

第１の閾値以上である類似度の動作モデルが存在すると、ジェスチャ認識部１０９は第１の閾値以上となる類似度についてその類似度が最大となる動作モデルに対応付けられた制御命令を示す識別情報をＣＰＵ１０１に出力する。そして、ＣＰＵ１０１は、当該識別情報に基づいて制御命令を実行する。

さらに、ＣＰＵ１０１は当該動作特徴量に対応する被写体動作の開始と終了および後述するメモリ１０２に記憶された動作特徴量に対応する被写体動作の開始と終了に基づいて、入力された画像データ（時系列画像）において画像処理およびスキップ処理を施す期間を設定する。

一方、第１の閾値以上となる類似度の動作モデルが存在しないと、ジェスチャ認識部１０９は類似度が第１の閾値（第１の類似閾値）よりも小さい第２の閾値（第２の類似閾値）以上であるか否かを判定する。第１の類似閾値未満で第２の類似閾値以上である類似度、つまり、動作モデルが存在すると、ジェスチャ認識部１０９は、その動作特徴量を取得した開始時刻と終了時刻および当該類似度をメモリ１０２に記憶する。以後、メモリ１０２に記憶されるデータを総称してジェスチャ情報と呼ぶ。

類似度が第２の閾値以上となる動作モデルが複数存在する場合には、ジェスチャ認識部１０９は第２の閾値以上である動作モデルに対応するジェスチャ情報をメモリ１０２登録してもよい。さらに、第２の閾値以上である動作モデルにおいてその類似度が最大の動作モデルに対応するジェスチャ情報のみをメモリ１０２に登録するようにしてもよい。

なお、以下の説明では、第２の閾値以上である動作モデルにおいて類似度が最大の動作モデルに対応するジェスチャ情報のみをメモリ１０２に登録する場合について説明する。

第２の閾値以上である動作モデルが存在しないと、ジェスチャ認識部１０９はその後の処理を行わない。このようにして、撮影された被写体（ここでは人物）のジェスチャに基づいて、ＣＰＵ１０１は各種制御を行う。

外部Ｉ／Ｆ１１１は、外部機器と有線ケーブル又は無線によって接続され、画像データおよび音声信号の入出力を行うためのインタフェースである。通信Ｉ／Ｆ１１２は、外部機器又はインターネットなどと通信を行って、画像ファイルおよびコマンドなどの各種データの送受信を行うためのインタフェースである。

図１に示すジェスチャ認識装置１００では、撮像部１０５によって得られた映像信号（つまり、予め定められた間隔（フレームレート）で与えられる時系列画像）に基づいて、被写体検出部１０８が被写体（人物）を検出する。そして、ジェスチャ認識部１０９は、検出された被写体の手振り又は身振りなどのジェスチャを認識する。ＣＰＵ１０１は、認識されたジェスチャに対応する制御命令を実行するとともに、時系列画像に対して画像処理又はスキップ処理を施す期間を設定する。

図２は、図１に示すジェスチャ認識装置の認識動作を説明するためのフローチャートである。なお、図２に示すフローチャートに係る処理は、ＣＰＵ１０１の制御下で行われる。

認識動作を開始すると、ＣＰＵ１０１の制御下で、被写体検出部１０８は、画像処理部１０４から撮像部１０５による撮像の結果得られた画像データを取得して、当該画像について被写体領域の検出処理を行う（ステップＳ２０１）。そして、被写体検出部１０８はその検出結果をＣＰＵ１０１に出力する。

続いて、ＣＰＵ１０１は、被写体検出部１０８による検出結果に基づいて被写体領域が存在するか否かを判定する（ステップＳ２０２）。被写体領域が存在すると（ステップＳ２０２において、ＮＯ）、ＣＰＵ１０１はステップＳ２０１の処理に戻る。

一方、被写体領域が存在すると（ステップＳ２０２において、ＹＥＳ）、ジェスチャ認識部１０９は、ＣＰＵ１０１の制御下で被写体領域に基づいて被写体動作の特徴量を抽出する（ステップＳ２０３）。そして、ＣＰＵ１０１は、ジェスチャ認識部１０９によって複数フレームに亘って抽出された特徴量に応じて、被写体動作候補が存在するか否か、つまり、被写体動作候補が抽出されたか否かを判定する（ステップＳ２０４）。

被写体動作候補が存在しないと（ステップＳ２０４において、ＮＯ）、ＣＰＵ１０１はステップＳ２０１の処理に戻る。一方、被写体動作候補が存在すると（ステップＳ２０４において、ＹＥＳ）、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は、抽出された被写体動作の特徴量とメモリ１０２に登録されているジェスチャ動作との照合を行う。そして、照合の結果として類似度を出力する（ステップＳ２０５）。

続いて、ジェスチャ認識部１０９は、各動作モデルとの類似度の各々について、その類似度が所定の第１の閾値ＴＨ１以上である動作モデルが存在するか否かを判定する（ステップＳ２０６）。類似度が第１の閾値ＴＨ１以上である動作モデルが存在すると（ステップＳ２０６において、ＹＥＳ）、ジェスチャ認識部１０９は当該動作モデルに対応付けられた制御命令の識別情報をＣＰＵ１０１に出力する。そして、ＣＰＵ１０１は当該制御命令の識別情報に応じて、制御命令を実行する（ステップＳ２０７）。

ここで、制御命令の例として、例えば、撮像中に実行可能な「静止画撮影」、ズーム操作の「ズームイン」および「ズームアウト」、画質調整の明るさおよび露出の変更がある。

次に、ＣＰＵ１０１はメモリ１０２に記憶されているジェスチャ情報に基づいて、所定の期間内に行われた被写体動作を抽出する（ステップＳ２０８）。つまり、ＣＰＵ１０１は効果対象期間に設定するための被写体動作を抽出することになる。

なお、ステップＳ２０８で抽出される被写体動作とは、ステップＳ２０７で実行された制御命令に対応する被写体動作の検出開始時刻又は終了時刻から所定の時間内に行われた被写体動作をいう。

続いて、ＣＰＵ１０１は、抽出した被写体動作に応じて効果対象期間を設定する（ステップＳ２０９）。その後、ＣＰＵ１０１はステップＳ２０１の処理に戻る。

類似度が第１の閾値ＴＨ１以上である動作モデルが存在しないと（ステップＳ２０６において、ＮＯ）、ジェスチャ認識部１０９は照合結果である類似度が所定の第２の閾値ＴＨ２以上となる動作モデルが存在するか否かを判定する（ステップＳ２１０）。

類似度が所定の第２の閾値ＴＨ２以上となる動作モデルが存在すると（ステップＳ２１０において、ＹＥＳ）、ジェスチャ認識部１０９は被写体動作の特徴量に係る取得開始時刻と取得終了時刻、そして、第２の閾値ＴＨ２以上である類似度をジェスチャ情報としてＣＰＵ１０１に出力する。

ＣＰＵ１０１は、上記のジェスチャ情報をメモリ１０２に記憶して（ステップＳ２１１）、ステップＳ２０１の処理に戻る。一方、類似度が所定の第２の閾値ＴＨ２以上となる動作モデルが存在しないと判定されると（ステップＳ２１０において、ＮＯ）、ＣＰＵ１０１はステップＳ２０１の処理に戻る。

図３は、図１に示すジェスチャ認識装置によって認識される被写体の動作を時系列的に示す図である。そして、図３（ａ）は被写体動作の第１の例を示す図であり、図３（ｂ）は被写体動作の第２の例を示す図である。

まず、図２および図３（ａ）を参照して、いま、ジェスチャ認識装置が、図３（ａ）に示す被写体動作１について認識処理を行って、動作モデルとの照合結果である類似度Ｒ１が第１の閾値ＴＨ１以上であるものとする。

図３（ａ）に示す例では、被写体動作１の前においては、被写体動作が存在せず、ＣＰＵ１０１は、効果対象期間として被写体動作１の開始時刻ｔ１から終了時刻ｔ２までを画像処理又はスキップ処理を行う対象期間に設定することになる。

図３（ｂ）に示す例では、被写体（つまり、ユーザ）が制御命令を実行させるため被写体動作１および被写体動作２を行ったにも拘わらず、誤検出又は誤認識などに起因して動作モデルとの照合結果である類似度が第１の閾値ＴＨ１未満で第２の閾値ＴＨ２以上であるものとする。

なお、第２の閾値ＴＨ２は、被写体動作と動作モデルとの類似度が制御命令を実行させる類似度には達していないものの、被写体の自然な動作とは異なって被写体が動作モデルと同一の被写体動作を行った可能性があることを判定するために用いられる。また、ここでは、被写体動作２に続く被写体動作３と動作モデルとの照合結果である類似度が第１の閾値ＴＨ１以上であるものとする。

図３（ｂ）においては、図２に示すステップＳ２０６において、被写体動作１と動作モデルとの照合結果である類似度が第１の閾値ＴＨ１未満であると判定されるので、ジェスチャ認識装置はステップＳ２１０の処理に移る。そして、ステップＳ２１０において、被写体動作１と動作モデルとの類似度が第２の閾値ＴＨ２以上であると判定されるので、ジェスチャ認識装置は被写体動作１に係る取得開始時刻ｔ１と取得終了時刻ｔ２、その類似度Ｒ１をジェスチャ情報として記憶することになる。

同様にして、被写体動作２に係る類似度Ｒ２も第１の閾値ＴＨ１未満で、かつ第２の閾値ＴＨ２以上であるので、ジェスチャ認識装置は被写体動作２に係る取得開始時刻ｔ３と取得終了時刻ｔ４、その類似度Ｒ２をジェスチャ情報として記憶することになる。

被写体動作３については、その類似度Ｒ３が第１の閾値ＴＨ１以上であるので、ジェスチャ認識装置、つまり、ＣＰＵ１０１は、ステップＳ２０７で類似度Ｒ３の動作モデルに対応付けられた制御命令の識別情報に応じた制御命令を実行する。そして、ＣＰＵ１０１は、ステップＳ２０８においてメモリ１０２に記憶されているジェスチャ情報に基づいて、効果対象期間に設定する被写体動作を抽出する。

前出のように、メモリ１０２には被写体動作１および被写体動作２に係るジェスチャ情報が記憶されている。ここで、ジェスチャ情報に基づいて抽出される被写体動作とは、ステップＳ２０７において実行された制御命令に対応する被写体動作の開始時刻又は終了時刻から所定時間内に開始又は終了した被写体動作である。

例えば、ＣＰＵ１０１は制御命令が実行された被写体動作３の開始時刻ｔ５を基準として、ジェスチャ情報のから所定時間以内に開始された被写体動作を抽出する。

図４は、図１に示すジェスチャ認識装置によって認識された被写体動作に応じて設定される効果対象期間を説明するための図である。そして、図４（ａ）は効果対象期間の第１の例を示す図であり、図４（ｂ）は効果対象期間の第２の例を示す図である。また、図４（ｃ）は効果対象期間の第３の例を示す図である。

図４（ａ）に示す例では、ＣＰＵ１０１は、実行した制御命令に対応する被写体動作３の開始時刻ｔ５を基準として、所定時間Ｍ以内に開始された被写体動作１および被写体動作２を抽出する。

ここでは、例えば、ＣＰＵ１０１は、まず被写体動作２に係るジェスチャ情報である被写体動作２の開始時刻ｔ３が開始時刻ｔ５から所定時間Ｍ以内であることを判別する。

続いて、ＣＰＵ１０１は被写体動作１の開始時刻ｔ１が開始時刻ｔ５から所定時間Ｍ以内であることを判別する。そして、被写体動作１の前に記憶された被写体動作に係るジェスチャ情報が存在しないので、ＣＰＵ１０１は被写体動作１および被写体動作２を抽出して、前述のステップＳ２０９に進む。

図４（ｂ）に示す例では、開始時刻ｔ５から所定時間Ｍに開始時刻（ここでは、開始時刻ｔ３）が存在するのは被写体動作２のみであるので、ＣＰＵ１０１は被写体動作２のみを抽出してステップＳ２０９に進む。

図４（ａ）および図４（ｂ）に示す例では、ＣＰＵ１０１は、実行した制御命令に対応する被写体動作の「開始時刻」を用いたが、「終了時刻」を用いるようにしてもよい。この場合、図４（ｂ）に示す被写体動作１の終了時刻ｔ２は、被写体動作３の開始時刻ｔ５を基準とすると所定時間Ｍ以内であるので、ＣＰＵ１０１は被写体動作１も効果対象期間に設定される被写体動作として抽出することになる。

また、「ジェスチャ情報の開始時刻が所定時間Ｍ以内」ではなく、「ジェスチャ情報の終了時刻が所定時間Ｍ以内」である被写体動作を抽出するようにしてもよい。この場合、図４（ｃ）に示す例では、被写体動作１の開始時刻ｔ１および被写体動作２の開始時刻ｔ３は、被写体動作３の終了時刻ｔ６を基準とするとともに所定時間Ｍ以内に存在しない。よって、ＣＰＵ１０１は、被写体動作１および被写体動作２をともに効果対象期間に設定される被写体動作として抽出しない。なお、ジェスチャ情報を用いた被写体情報の抽出は、図４に示す例示に限られない。

上述のようにして、被写体動作を抽出した後、ＣＰＵ１０１は、ステップＳ２０９において、抽出した被写体動作に基づいて効果対象期間を設定する。図４（ａ）に示す例では、被写体動作１および被写体動作２が抽出される結果、ＣＰＵ１０１は被写体動作１および被写体動作２を含む被写体動作１の開始時刻ｔ１から被写体動作３の終了時刻ｔ６を効果対象期間として設定する。

図４（ｂ）に示す例では、被写体動作２が抽出される結果、ＣＰＵ１０１は被写体動作２の開始時刻ｔ３から被写体動作３の終了時刻ｔ６を効果対象期間として設定する。また、図４（ｃ）に示す例では、被写体動作１および被写体動作２のいずれも抽出されないので、ＣＰＵ１０１は被写体動作３の開始時刻ｔ５から終了時刻ｔ６を効果対象期間として設定する。

なお、上述した処理が行われた時系列画像はメモリ１０２に一旦記憶された後、撮影データとしてエンコードされて記録媒体１０７に記憶される。

ここで、メモリ１０２のサイズに応じたジェスチャ認識装置１００の処理動作について説明する。

まず、メモリ１０２に記憶可能な時系列画像が前述の所定時間Ｍ以上であるとする。この場合、ＣＰＵ１０１は、メモリ１０２に記録された時系列画像に対して、効果対象期間の開始時刻と終了時刻に対して画像処理又はスキップ処理を実施するためのタグの付与を行うことができる。

さらに、ＣＰＵ１０１はメモリ１０２に記録された時系列画像に対して、画像処理部１０４による画像処理、スキップ処理、又は削除処理などを行って、処理後の時系列画像に基づいて生成された映像データをエンコードして記録媒体１０７に記憶することも可能である。

次に、メモリ１０２が記憶可能な時系列画像が所定時間Ｍ未満であるとする。この場合には、効果対象期間に設定する被写体動作がメモリ１０２に記憶されている場合と記録媒体１０７に記憶されている場合によってその処理が異なる。

効果対象期間に設定する被写体動作がメモリ１０２に記憶されている場合には、ＣＰＵ１０１は、前述の場合と同様に、メモリ１０２に記録された時系列画像に対してタグの付与、そして、画像処理、スキップ処理、又は削除処理などを行うことができる。

効果対象期間に設定する被写体動作が記録媒体１０７に記録されている場合には、ＣＰＵ１０１は、記録媒体１０７に記憶されている画像データをデコードする。そして、ＣＰＵ１０１はデコード後の画像データに含まれる効果対象期間に設定する被写体動作の開始時刻又は終了時刻にタグの付与、そして、画像処理、スキップ処理、又は削除処理を行う。その後、ＣＰＵ１０１は再度エンコード処理を行って記録媒体１０７に画像データを記憶する。

このように、本発明の第１の実施形態では、被写体動作の特徴量と動作モデルとの類似度が第１の閾値ＴＨ１未満で、かつ第２の閾値ＴＨ２以上であると、当該被写体動作に係るジェスチャ情報をメモリに記憶する。そして、類似度が第１の閾値ＴＨ１以上である被写体動作に係る制御命令が実行された際に、当該被写体動作の開始時刻又は終了時刻から所定時間Ｍ以内に開始時刻又は終了時刻がある被写体動作を抽出する。続いて、制御命令が実行された被写体動作と抽出された被写体動作とを含む期間を画像処理又はスキップ処理を施す効果対象期間として設定する。

これによって、記録画像データにおける被写体動作を意識させることがない画像データを提供することができる。

なお、第１の実施形態では、実行した制御命令の前に行われた被写体動作のみを効果対象期間として設定する手法について説明したが、実行した制御命令の後に行われた被写体動作を効果対象期間に設定することも可能である。

例えば、実行した制御命令の終了から所定時間内に開始又は終了した被写体動作を抽出する。そして、抽出した被写体動作を含む期間を効果対象期間に設定する。このようにすれば、類似度が第１の閾値ＴＨ１未満であって、実行した制御命令の後に存在する被写体動作を効果対象期間として設定できるばかりでなく、実行した制御命令の前後に存在する被写体動作を効果対象期間として設定することもできる。

［第２の実施形態］
次に、本発明の第２の実施形態によるジェスチャ認識装置の一例について説明する。なお、第２の実施形態によるジェスチャ認識装置の構成は図１に示すジェスチャ認識装置と同様である。

図５は、本発明の第２の実施形態によるジェスチャ認識装置の認識動作を説明するためのフローチャートである。なお、図５に示すフローチャートにおいて、図２に示すフローチャートのステップと同一のステップについては同一の参照符号を付して説明を省略する。

ステップＳ２０８において、前述のように、ＣＰＵ１０１はジェスチャ情報に基づいて、効果対象期間に設定するための被写体動作を抽出する。そして、ＣＰＵ１０１は、抽出した被写体動作からステップＳ２０７で実行した制御命令に対応する被写体動作と同一の被写体動作を抽出する（ステップＳ５０１）。その後、ステップＳ２０９において、ＣＰＵ１０１はステップＳ５０１で抽出した被写体動作に応じて効果対象期間を設定する。

図６は、本発明の第２の実施形態に示すジェスチャ認識装置によって認識された被写体動作に応じて設定される効果対象期間を説明するための図である。

図６に示す例において、被写体動作１はズームインを指示するジェスチャであり、被写体動作２および被写体動作３の各々は静止画撮影を指示するジェスチャであるとする。まず、時刻ｔ１からｔ２において被写体（つまり、ユーザ）はズームイン操作を行うための被写体動作１を行った。

ところが、被写体動作１はジェスチャ認識装置による誤検出又は誤認識などによって、その類似度Ｒ１が第２の閾値ＴＨ２以上でかつ第１の閾値ＴＨ１未満であったので、被写体動作１に対応する制御命令（ここでは、ズームイン）は実行されなかったものとする。

同様に、時刻ｔ３からｔ４において、静止画撮影のために行われた被写体動作２についても誤検出又は誤認識などによってその類似度Ｒ２が第２の閾値ＴＨ２以上でかつ第１の閾値ＴＨ１未満であったので、制御命令（ここでは静止画撮影）は行われなかったものとする。

そして、被写体動作２の後、時刻ｔ５からｔ６において行われた被写体動作３は、その類似度Ｒ３が第１の閾値ＴＨ以上であったので、被写体動作３に応じた制御命令（ここでは、静止画撮影）が実行されたものとする。

この場合、ステップＳ２１１において、被写体動作１および被写体動作２に係るジェスチャ情報がメモリ１０２に記憶されることになる。但し、第２の実施形態においては、ジェスチャ認識部１０９は被写体動作１および被写体動作２に係る開始時刻および終了時刻と動作モデルとの類似度の他に、動作モデルの識別情報をジェスチャ情報としてＣＰＵ１０１に出力する。

なお、動作モデルの識別情報とは、被写体動作１および被写体動作２に対応付けられた制御命令である「ズームイン」および「静止画撮影」又は制御命令に関連付けられた制御命令ＩＤなどである。

前述のように、被写体動作２の後に行われた被写体動作３に応じた制御命令がステップＳ２０７で行われて、ステップＳ２０８でジェスチャ情報に基づいて被写体動作が抽出される。図６に示す例では、被写体動作１および被写体動作２の開始時刻ｔ１およびｔ３は被写体動作３の開始時刻ｔ５から所定時間Ｍ以内に存在するので、ここでは、被写体動作１および被写体動作２が抽出される。

その後、ステップＳ５０１において、ＣＰＵ１０１は、被写体動作１および被写体動作２から、ステップＳ２０７で実行した制御命令に対応する被写体動作３と同一の被写体動作を抽出する。つまり、ここでは、ＣＰＵ１０１はジェスチャ情報に含まれる動作モデルの識別情報に基づいて、制御命令（静止画撮影）を示す被写体動作３と同一の被写体動作である被写体動作２を抽出することになる。

続いて、ステップＳ２０９において、ＣＰＵ１０１は、ステップＳ５０１において抽出された被写体動作２に応じて、被写体動作２の開始時刻ｔ３から被写体動作３の終了時刻ｔ６までを効果対象期間として設定する。

このように、本発明の第２の実施形態では、類似度が第１の閾値ＴＨ１未満でかつ第２の閾値ＴＨ２以上である被写体動作について対応する動作モデルに係る識別情報もジェスチャ情報として記憶する。そして、実行された制御命令に係る被写体動作から所定時間以内にありかつ当該被写体動作と同一の制御命令を示す被写体動作をジェスチャ情報に応じて抽出する。

その後、制御命令が実行された被写体動作と抽出された被写体動作とを含む期間を画像処理又はスキップ処理を行う効果対象期間として設定する。

これによって、第２の実施形態では、記録された画像データから、誤検出又は誤認識などに起因して行われた被写体動作を適切に取り除くことができ、被写体動作を意識させない画像データを得ることができる。

なお、第２の実施形態においても、第１の実施形態と同様に、実行された制御命令の後に行われた被写体動作を効果対象期間に設定するようにしてもよい。

［第３の実施形態］
続いて、本発明の第３の実施形態によるジェスチャ認識装置の一例について説明する。

なお、第３の実施形態によるジェスチャ認識装置の構成は図１に示すジェスチャ認識装置と同様であるが、ジェスチャ認識部１０９の構成が異なる。また、図示はしないが、当該ジェスチャ認識装置は、例えば、デジタルカメラなどの撮像装置で用いられる。

図７は、本発明の第３の実施形態によるジェスチャ認識装置に備えられたジェスチャ認識部１０９の構成についてその一例を示すブロック図である。

ジェスチャ認識部１０９は、特徴部位検出部７０１、初期姿勢照合部７０２、動作特徴抽出部７０３、動作照合部７０４、およびジェスチャ辞書記憶部７０５を備えている。特徴部位検出部７０１は、被写体検出部１０８で検出された被写体におけるジェスチャを認識するために用いる特徴部位を検出する。特徴部位は、例えば、被写体の手である。

この特徴部位（ここでは、手）の検出に当たっては、特徴部位検出部７０１は、例えば、肌色情報などの色特徴又はＳｏｂｅｌフィルタ処理などによるエッジ強度を用いて形状特徴を抽出する。そして、特徴部位検出部７０１は、手判別器によって形状特徴について手又は非手領域を判別する。手判別器による判別には、例えば、ＡｄａＢｏｏｓｔ学習などのような機械学習が用いられる。

なお、色特徴を用いて特徴部位の検出を行う際には、特徴部位検出部７０１は被写体検出部１０８で検出された顔領域における色情報を肌色情報として参照して、個人差および環境光の差に頑健な色特徴を抽出する。また、被写体検出部１０８によって検出された顔領域の位置および大きさに応じて手の検出範囲および検出する手の大きさに制限を設けることができる。

特徴部位検出部７０１は、検出した特徴部位である手の重心位置などを示す特徴部位情報を出力する。初期姿勢照合部７０２は、特徴部位情報とジェスチャ辞書記憶部７０５で記憶されたジェスチャの初期姿勢とが一致するか否かを判定する。一致すると判定するとジェスチャ開始の可能性があるので、初期姿勢照合部７０２はその時の撮像装置の状態をメモリ１０２に記憶する。

動作特徴抽出部７０３は、特徴部位情報に基づいて動作特徴を抽出する。被写体検出部１０８は画像処理部１０４より逐次与えられる画像データについて被写体検出を行っており、特徴部位検出部７０１から逐次特徴部位情報が動作特徴抽出部７０３に与えられる。動作特徴抽出部７０３は、特徴部位情報における変化を動作ベクトルとして蓄積することによって動作特徴量を抽出する。

動作照合部７０４は、動作特徴抽出部７０３によって抽出された動作特徴量とジェスチャ辞書記憶部７０５に記憶された動作特徴量とを照合する。ジェスチャ辞書記憶部７０５には、ジェスチャ辞書データとして動作特徴量と制御命令とが関連付けて記憶されている。

動作特徴量のマッチング処理を行う際には、前述の入力画像の遷移系列とモデルとの対応付けをＤｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇという手法で行う方法が用いられる。また、動作の状態遷移を確率モデルで行う隠れマルコフモデルを用いた手法を用いるようにしてもよい。さらには、時空間エッジ画像ベクトル列の連続動的計画法を用いるようにしてもよい。

ジェスチャ辞書記憶部７０５に記憶された動作特徴量と動作特徴抽出部７０３によって抽出された動作特徴量とが一致すると、動作照合部７０４は動作特徴量とこれに対応する制御命令をＣＰＵ１０１に出力する。

ＣＰＵ１０１は、動作照合部７０４から送られた動作特徴量および制御命令に基づいて、認識したジェスチャに対応する制御命令が停止制御又は開始制御であるか否かを判定する。制御命令が開始制御であれば、ＣＰＵ１０１は当該制御命令を実行する。一方、制御命令（つまり、制御属性）が停止制御であれば、ＣＰＵ１０１はメモリ１０２に記憶された撮像装置の状態と同等（つまり、等価）なるように制御命令を実行する。

図８は、本発明の第３の実施形態によるジェスチャ認識装置における認識動作の一例を説明するためのフローチャートである。

なお、図示のフローチャートに係る処理は、ＣＰＵ１０１の制御下で行われる。また、このフローチャートに係る処理は、画像処理部１０４からジェスチャ認識部１０９に画像データが供給される度に行われる。

認識動作を開始すると、被写体検出部１０８は画像処理部１０４から送られた画像データについて被写体の検出を行う（ステップＳ８０１）。次に、特徴部位検出部７０１は、被写体検出部１０８で検出された被写体についてジェスチャ認識のための特徴部位を検出する（ステップＳ８０２）。そして、ＣＰＵ１０１はジェスチャ認識途中であるか否かを判定する（ステップＳ８０３）。

例えば、ここでは、ジェスチャ認識途中であるか否かを判定するためのフラグ（ジェスチャ認識途中フラグ）を準備して、ＣＰＵ１０１は当該フラグがＯＮであるか否かを判定する。

ジェスチャ認識途中でなければ（ステップＳ８０３において、ＮＯ）、ＣＰＵ１０１の制御下で初期姿勢照合部７０２は、検出された特徴部位とジェスチャ辞書記憶部７０５に記憶されたジェスチャの初期姿勢とを照合する（ステップＳ８０４）。そして、初期姿勢照合部７０２は照合結果に応じて特徴部位と初期姿勢とが一致しているか否かを判定する（ステップＳ８０５）。

特徴部位と初期姿勢とが一致していないと（ステップＳ８０５において、ＮＯ）、ＣＰＵ１０１の制御下で、初期姿勢照合部７０２は認識処理を終了する。

一方、特徴部位と初期姿勢とが一致していると（ステップＳ８０５において、ＹＥＳ）、初期姿勢照合部７０２はメモリ１０２に撮像装置の状態（例えば、現在時刻）を記憶する（状態記憶：ステップＳ８０６）。そして、初期姿勢照合部７０２は、ＣＰＵ１０１の制御下でジェスチャ認識途中としてジェスチャ認識途中フラグをＯＮにセットして（ステップＳ８０７）、認識処理を終了する。

ジェスチャ認識途中であると、つまり、ジェスチャ認識途中フラグがＯＮであると（Ｓ８０３において、ＹＥＳ）、動作特徴抽出部７０３は特徴部位情報に応じて動作特徴量を抽出する（ステップＳ８０８）。そして、動作照合部７０４は、抽出された動作特徴量とジェスチャ辞書記憶部７０５に記憶された動作特徴量（辞書データ）とを照合する（ステップＳ８０９）。

動作照合部７０４は、照合結果に応じて、抽出された動作特徴量とジェスチャ辞書記憶部７０５に記憶された動作特徴量とが一致するか否かを判定する（ステップＳ８１０）。一致する判定されると（ステップＳ８１０において、ＹＥＳ）、ＣＰＵ１０１は当該ジェスチャに対応する制御命令の属性を判定する（ステップＳ８１１）。ここで、制御命令の属性判定は、開始に関する制御か又は停止に関する制御かを判定するものである。

例えば、ジェスチャの認識に対応した特定の制御命令Ａを実行中に、制御命令Ａに係るジェスチャが認識されるとＣＰＵ１０１は当該制御命令を停止するため、この制御命令の属性を停止属性と判定する。

一方、制御命令Ａが実行されていない状態で、制御命令Ａに係るジェスチャが認識されると、ＣＰＵ１０１は当該制御命令を開始するため、この制御命令の属性を開始属性と判定する。

制御命令の属性が開始属性であると判定すると（ステップＳ８１１において、開始属性）、ＣＰＵ１０１はジェスチャに対応する制御命令を実行する（ステップＳ８１２）。制御命令の属性が停止属性であると判定すると（ステップＳ８１１において、停止属性）、ＣＰＵ１０１はジェスチャに対応する制御に関し、メモリ１０２に記憶された撮像装置の状態と同等となるように制御を実行する（ステップＳ８１３）。

ステップＳ８１２又はＳ８１３の処理に続いて、ＣＰＵ１０１は、メモリ１０２に記憶されたジェスチャ認識装置１００の状態（つまり、状態情報）は不要であるので、当該状態情報をクリアする（ステップＳ８１４）。さらに、ジェスチャ認識が完了したので、ＣＰＵ１０１はジェスチャ認識途中フラグをＯＦＦとして（ステップＳ８１５）、認識処理を終了する。

抽出された動作特徴量とジェスチャ辞書記憶部７０５に記憶された動作特徴量とが一致しないと判定すると（ステップＳ８１０において、ＮＯ）、動作照合部７０４は抽出した動作特徴量が全ての辞書データの動作特徴量と不一致であるか否かを判定する（Ｓ８１６）。

全てが不一致であると判定されると（ステップＳ８１６において、ＹＥＳ）、ＣＰＵ１０１は、ステップＳ８１４の処理に進んで、メモリ１０２に記憶された撮像装置の状態（状態情報）は不要であるので、当該状態情報をクリアする。

一方、全てが不一致でないと判定されると（ステップＳ８１６において、ＮＯ）、ＣＰＵ１０１は認識処理を終了する。

なお、全てが不一致でない状態では、ジェスチャ認識途中であって処理中の動作特徴量が辞書データと一致／不一致であるかを判定できない状況であることを示す。

図９は、本発明の第３の実施形態によるジェスチャ認識装置におけるジェスチャと画像記録期間との関係を説明するための図である。そして、図９（ａ）は従来のジェスチャ認識装置におけるジェスチャと画像記録期間との関係を示す図であり、図９（ｂ）は本発明の第３の実施形態によるジェスチャ認識装置におけるジェスチャと画像記録期間との関係を示す図である。

ここでは、撮像装置で得られた画像（映像ともいう）の記録に関する制御はジェスチャ認識部１０９による認識結果に基づいて行われる。つまり、ジェスチャ辞書記憶部７０５には、特定のジェスチャと記録制御（記録制御命令）とが対応付けられて記憶されている。

まず、図９（ａ）を参照して、時刻９０１からジェスチャが開始されて、時刻９０２でジェスチャ認識部１０９がジェスチャの認識に成功したとする。この認識タイミングで、ＣＰＵ１０１はジェスチャに対応する制御命令を実行する。ここでは、ジェスチャとして撮像装置の映像の記録開始に関する制御命令を認識したものとして、映像の記録が開始される。

次に、時刻９０３で映像記録停止の制御命令に対応するジェスチャが開始されて、時刻９０４において、ジェスチャ認識部１０９が当該ジェスチャを認識したものとする。図９（ａ）に示す例では、ジェスチャ認識を成功したタイミングで、当該ジェスチャに対応する制御命令が実行されるので、時刻９０４で映像記録に関する制御（ここでは、記録停止制御）が実行されることとなる。

よって、時刻９０２から時刻９０４までの期間が記録映像となる。時刻９０３から時刻９０４の期間は、記録停止のためのジェスチャを実施している期間であって、当該機関に係る映像は記録したい映像とはいえない。つまり、ユーザにとっては不要な映像が記録されてしまうことになる。

図９（ｂ）においては、時刻９０５からジェスチャが開始され、時刻９０６でジェスチャ認識部１０９がジェスチャの認識に成功したものとする。ここでは、時刻９０５（つまり、ジェスチャ開始時）における撮像装置の状態（状態情報）がメモリ１０２に記憶される。例えば、状態情報として撮像装置における現在時刻が記憶される。

次に、時刻９０６（つまり、ジェスチャ認識完了時）において、ＣＰＵ１０１は認識されたジェスチャに対応する制御命令が制御停止であるか又は制御開始であるかの属性を判定する。例えば、撮像装置が映像を記録しない非記録状態である場合に、記録制御命令に対応するジェスチャが認識されると、ＣＰＵ１０１は映像記録を開始するための開始属性であると判定する。

一方、撮像装置が映像を記録する記録状態である場合に、記録制御命令に対応するジェスチャが認識されると、ＣＰＵ１０１は映像記録を停止するための停止属性であると判定することになる。図９（ｂ）においては、時刻９０６において開始属性として判定されて、ＣＰＵ１０１は時刻９０６から映像記録に関する制御を実行する。

次に、時刻９０７において、映像記録の制御命令に対応するジェスチャが開始されて、時刻９０８において、ジェスチャ認識部１０９が当該ジェスチャを認識したものとする。上述のようにして、時刻９０７においてメモリ１０２に撮像装置の現在時刻が記憶される。また、時刻９０８において、ＣＰＵ１０１は制御命令の属性が停止属性であると判定する。この結果、ＣＰＵ１０１は時刻９０７における撮像装置の状態と同等となるように制御を実行する。

ここでは、時刻９０７においてジェスチャの認識が完了したとするため、ＣＰＵ１０１は時刻９０７までを映像記録の期間とする。メモリ１０２には時刻９０７に対応する状態情報（現在時刻）が記録されているので、ＣＰＵ１０１は上記の制御を行うことができる。例えば、ＣＰＵ１０１は時刻９０７から時刻よ０８までの映像を消去又は再生の際に再生不可として、時刻９０６から時刻９０７までの期間に係る映像を記録することになる。

なお、映像が記録される記録媒体１０７の残容量に応じて、時刻９０７から時刻９０８までの期間の映像を消去か又は画像データとしては記録するが再生しない画像データとするかを切り替えるようにしてもよい。

上述の第３の実施形態では、映像記録に関する制御をジェスチャの認識に基づいて実行する例について説明したが、他の制御をジェスチャの認識に応じて行うようにしてもよい。例えば、撮像装置のズーム制御をジェスチャ認識に基づいて実行する場合についても、第３の実施形態を提供することができる。

この際には、メモリ１０２にズーム値に関するズーム情報がジェスチャの開始の際に記憶される。そして、ジェスチャ認識部１０９がズーム制御に対応するジェスチャを認識して、ＣＰＵ１０１は開始属性と判定するとズームイン又はズームアウトの制御を実行する。

さらに、ジェスチャ認識部１０９がズーム制御に対応するジェスチャを認識して、ＣＰＵ１０１は停止属性と判定するとメモリ１０２に記憶されたズーム状態と同等になるように制御を実行することになる。

加えて、画像を再生する際においても第３の実施形態を適用することができる。例えば、記録媒体１０７に記憶された映像の再生制御（つまり、再生制御命令）をジェスチャ認識に基づいて実行する場合において、再生制御として再生映像（再生画像）を早送りするとする。この場合、メモリ１０２には再生映像（再生画像）の再生時刻に関する時刻情報がジェスチャの開始の際に記憶される。

ジェスチャ認識部１０９が再生制御に対応するジェスチャを認識して、ＣＰＵ１０１は開始属性と判定すると、早送りなどの再生制御を実行する。再生制御に関しては、ジェスチャ辞書記憶部７０５に記憶されたジェスチャと制御命令との対応付けに依存する。

一方、ジェスチャ認識部１０９が再生制御に対応するジェスチャを認識して、ＣＰＵ１０１は停止属性と判定すると、メモリ１０２に記憶された再生時刻と同等になるように制御を実行する。つまり、当該制御ではジェスチャ開始タイミングの時刻からの通常再生に戻ることとなる。

このように、本発明の第３の実施形態では、映像においてジェスチャに要する期間の影響をなくして、ジェスチャ認識を用いた操作性の高い制御を行うことができる。

［第４の実施形態］
続いて、本発明の第４の実施形態によるジェスチャ認識装置の一例について説明する。なお、第４の実施形態によるジェスチャ認識装置の構成は図１に示すジェスチャ認識装置と同様であるが、ジェスチャ認識部１０９の構成が異なる。また、図示はしないが、当該ジェスチャ認識装置は、例えば、デジタルカメラなどの撮像装置で用いられる。

図１０は、本発明の第４の実施形態によるジェスチャ認識装置に備えられたジェスチャ認識部１０９の構成についてその一例を示すブロック図である。

なお、図１０に示すジェスチャ認識部１０９において、図７に示すジェスチャ認識部と同一の構成要素については同一の参照番号を付して説明を省略する。

ジェスチャ認識部１０９は、特徴部位判定部１００１、第１の特徴部位検出部１００２、第２の特徴部位検出部１００３、動作特徴抽出部１００４、動作照合部７０４、およびジェスチャ辞書記憶部７０５を有している。ここでは、第１の特徴部位検出部１００２は特徴部位（特定部位ともいう）として人物の手を検出し、第２の特徴部位検出部１００３は特徴部位（特定部位）として人物の視線を検出するものとのする。

なお、第１の特徴部位検出部１００２および第２の特徴部位検出部１００３は上記の特徴部位の検出に限定されるものではなく、手および視線などのように人物被写体の互いに異なる特徴部位を検出すればよい。

特徴部位判定部１００１は、被写体検出部１０８で検出された被写体におけるジェスチャを認識するために用いる特徴部位を判定する。例えば、特徴部位判定部１００１は第１の特徴部位である手を検出するか又は第２の特徴部位である視線を検出するかを判定する。特徴部位の判定に当たっては、被写体検出部１０８で検出された被写体の画像中の位置および大きさを用いる。なお、特徴部位の判定手法については後述する。

第１の特徴部位検出部１００２は、ジェスチャ認識のための特徴部位（特定部位）として被写体検出部１０８で検出された被写体の手を検出する。前述のように、手を検出する際には、肌色情報などの色特徴又はＳｏｂｅｌフィルタ処理などが用いられる。そして、第１の特徴部位検出部１００２は検出結果として手の重心位置などを示す第１の特徴部位情報を出力する。

第２の特徴部位検出部１００３は、ジェスチャ認識のための特徴部位として被写体検出部１０８で検出された被写体の視線を検出する。視線の検出に当たっては、第２の特徴部位検出部１００３は、被写体検出部１０８で検出された顔領域から目の画像領域を抽出する。なお、目の画像領域を抽出する際には、被写体検出部１０８で検出された顔領域に対して、目、鼻、および口などの顔の特徴点によって構成される３次元モデルをフィッティングすることによって抽出する。

次に、第２の特徴部位検出部１００３は、抽出された目の画像領域における輝度値の分布状況に基づいて視線を検出する。そして、第２の特徴部位検出部１００３は検出結果として視線の位置などを示す第２の特徴部位情報を出力する。

動作特徴抽出部１００４は、第１の特徴部位情報又は第２の特徴部情報に基づいて動作特徴量を抽出する。前述のように、被写体検出部１０８は画像処理部１０４より逐次与えられる画像データについて被写体検出を行っており、第１の特徴部位検出部１００２又は第２の特徴部位検出部１００３から逐次第１の特徴部位情報又は第２の特徴部位情報が動作特徴抽出部１００４に与えられる。

動作特徴抽出部１００４は、第１の特徴部位情報又は第２の特徴部位情報における変化を動作ベクトルとして蓄積することによって動作特徴量を抽出する。

なお、動作照合部７０４およびジェスチャ辞書記憶部７０５については、図７で説明したようにして動作する。

図１１は、本発明の第４の実施形態によるジェスチャ認識装置による認識動作の一例を説明するためのフローチャートである。

認識動作を開始すると、被写体検出部１０８は、ＣＰＵ１０１の制御下で画像処理部１０４から送られた画像データにおいて被写体領域（例えば、人物の顔領域）を検出する（ステップＳ１１０１）。続いて、特徴部位判定部１００１は、後述するようにして、顔領域の画像における位置および大きさに応じてジェスチャ認識のための特徴部位を判定する（ステップＳ１１０２）。

被写体における顔領域が大きい場合には、視線など顔領域に存在する部位を検出することは可能であるが、手など顔に含まれない人物の部位が画像内に存在せずに検出できない可能性がある。一方、被写体における顔領域が小さい場合には、被写体の手は画像内に存在している可能性が高いが、視線については十分な画像解像度が得られずに検出が困難な可能性が高い。

また、被写体の顔領域が画像の端に存在する場合には、手など顔領域に含まれない人物の部位については画像内に存在せずに検出できない可能性がある。よって、特徴部位判定部１００１は検出可能性の高い部位を特徴部位として判定する。

図１２は、図１０に示す特徴部位判定部１００１で行われる特徴部位判定を説明するためのフローチャートである。

特徴部位判定を開始すると、特徴部位判定部１００１は、被写体検出結果（つまり、顔領域）の大きさが所定の閾値（以下顔閾値という）未満であるか否かを判定する（ステップＳ１２０１）。顔検出結果（顔領域検出結果ともいう）の大きさが顔閾値未満であれば（ステップＳ１２０１において、ＹＥＳ）、特徴部位判定部１００１は手を特徴部位として設定して（ステップＳ１２０２）、特徴部位判定を終了する。

図１３は、図１０に示す特徴部位判定部１００１で用いられる顔閾値の設定を説明するための図である。そして、図１３（ａ）は顔領域と目領域との相対関係を示す図であり、図１３（ｂ）は顔領域と手領域との相対関係を示す図である。

図１３（ａ）において、いま、被写体検出部１０８によって顔領域１３０１が検出され、当該顔領域１３０１には視線検出のための目領域１３０２が含まれている。顔領域１３０１と目領域１３０２との大きさの比を１：Ｎ（０＜Ｎ＜１）として、特徴部位判定部１００１は当該比で示す関係性を保持する。

ここで、第２の特徴部位検出部１００３において視線を検出可能な目領域の大きさは、Ｇ（Ｇは２以上の整数）ｐｉｘｅｌ四方の大きさであるとする。この場合、視線を検出するためには、顔領域の大きさがＧ／Ｎ以上である必要がある。よって、顔閾値はＧ／Ｎを基準として設定される。つまり、顔検出結果（顔領域）の大きさがＧ／Ｎ未満であれば、目領域において十分な画像解像度が得られず視線検出が困難となるので、手を特徴部位として設定することが望ましい。

再び図１２を参照して、顔検出結果の大きさが顔閾値以上であれば（ステップＳ１２０１において、ＮＯ）、特徴部位判定部１００１は顔検出結果の位置および大きさに基づいて、推測される手の存在可能位置が画像の範囲内に存在するか否かを判定する（ステップＳ１２０３）。

顔検出結果の位置および大きさに応じて推測される手の存在可能位置が画像の範囲内に存在すると（ステップＳ１２０３において、ＹＥＳ）、特徴部位判定部１００１は手を特徴部位として設定して（ステップＳ１２０４）、特徴部位判定を終了する。

一方、顔検出結果の位置および大きさに応じて推測される手の存在可能位置が画像の範囲外である場合には（ステップＳ１２０３において、ＮＯ）、特徴部位判定部１００１はステップＳ１２０２の処理に進んで視線を特徴部位として設定する。

図１３（ｂ）を参照すると、いま、被写体検出部１０８によって顔領域１３０３が検出され、顔領域１３０３の中心位置と手との最大距離１３０４がＤであるとする。そして、特徴部位判定部１００１は、予め顔の大きさで正規化した顔領域から手領域までの最大距離αを保持して、被写体検出部１０８による被写体検出結果によって手の位置の範囲を推測する。

例えば、被写体検出部１０８によって検出された顔領域の大きさをＳとすると、距離ＤはＳ×αとして求めることができる。画像の左上を原点として顔検出結果（顔領域）の座標位置を（Ｘ、Ｙ）とした場合、手の存在可能範囲は（Ｓ＊α±Ｘ、Ｓ＊α±Ｙ）となる。

特徴部位判定部１００１は手の存在可能範囲が画像の範囲であるか否かを判定する。当手の存在可能範囲が画像の範囲外であれば、手を検出できない可能性があるため、特徴部位として視線を設定ことが望ましい。

図１１を参照して、特徴部位判定部１００１は、特徴部位判定結果に応じてジェスチャ認識に用いる特徴部位を判定する（ステップＳ１１０３）。手を特徴部位とすると判定すると（ステップＳ１１０３において、手）、特徴部位判定部１００１は、被写体検出部１０８による被写体検出結果（つまり、顔領域を含む画像）を第１の特徴部位検出部１００２に送る。

これによって、第１の特徴部位検出部１００２は被写体検出結果に応じて手の領域を特徴部位として検出して第１の特徴部位情報を出力する（ステップＳ１１０４）。

一方、視線を特徴部位とすると判定すると（ステップＳ１１０３において、視線）、特徴部位判定部１００１は、被写体検出部１０８による被写体検出結果（つまり、顔領域を含む画像）を第２の特徴部位検出部１００３に送る。

これによって、第２の特徴部位検出部１００３は被写体検出結果に応じて視線を特徴部位として検出して第２の特徴部位情報を出力する（ステップＳ１１０５）。

ステップＳ１１０４又はＳ１１０５の処理に続いて、動作照合部７０４は、前述したようにして、第１の特徴部位情報又は第２の特徴部情報に基づいて動作特徴量を抽出する（ステップＳ１１０６）。そして、動作照合部７０４は抽出された動作特徴量とジェスチャ辞書記憶部７０５に記憶された動作特徴量とを照合して、類似度を得る（ステップＳ１１０７）。動作照合部７０４は類似度の各々について所定の閾値（以下類似度閾値という）以上であるか否かを判定する（ステップＳ１１０８）。

類似度が類似度閾値以上であれば（ステップＳ１１０８においてＹＥＳ）、動作照合部７０４は動作特徴量と対応する制御命令をＣＰＵ１０１に送る。そして、ＣＰＵ１０１は制御命令に応じた制御を実行して（ステップＳ１１０９）、認識動作を終了する。全ての類似度が類似度閾値未満であると判定されると（ステップＳ１１０８においてＮＯ）、ＣＰＵ１０１は認識動作を終了する。

なお、制御命令としては、例えば、画像記録の開始を命令する記録命令、撮像レンズに備えられたズームレンズを駆動制御するズームアウトおよびズームイン命令などのズーム命令がある。

ところで、ジェスチャ認識に用いられる特徴部位が頻繁に切り替わると、ジェスチャ認識が正確に行われない恐れがある。このため、特徴部位判定部１００１において、過去に判定された特徴部位の種別を保持して、現在の判定の際に過去に判定された特徴部位の種別に応じて特徴部位を選択するようにしてもよい。

このように、本発明の第４の実施形態では、画像における被写体の位置および大きさに応じて、ジェスチャ認識のための特徴部位を選択するようにしたので、被写体の撮影状況に依存することなくジェスチャ認識による制御を精度よく行うことができる。

［第５の実施形態］
続いて、本発明の第５の実施形態によるジェスチャ認識装置の一例について説明する。

なお、図示はしないが、第５の実施形態によるジェスチャ認識装置の構成は、図１に示すジェスチャ認識装置の構成に加えて音声検出部および加速度センサ部を備えており、これら音声検出部および加速度センサ部は内部バス１５０に接続されている。さらに、当該ジェスチャ認識装置は、例えば、デジタルカメラなどの撮像装置で用いられる。

前述の音声検出部は、ＣＰＵ１０１の制御下で撮像装置の周囲における音（音響）を集音して記録媒体Ｉ／Ｆ１０６を介して記録媒体１０７に音声データとして記録する。また、加速度センサ部は、互いに直交する３軸方向に対して独立する加速度センサを有しており、撮像装置に掛かる３軸方向の加速度を検出する。

図１４は、本発明の第４の実施形態によるジェスチャ認識装置を備える撮像装置の外観を示す図である。そして、図１４（ａ）は正面側からみた図であり、図１４（ｂ）は背面側からみた図である。

撮像装置１４００の正面側には撮影レンズ部１４１４が配置されており、この撮影レンズ部１４１４は撮像部１０５（図１）の一部を構成する。撮像部１０５は、例えば、ＣＣＤ又はＣＭＯＳセンサなどの撮像素子を有しており、撮影レンズ部１４１４を介して撮像素子に光学像（被写体像）が結像し、撮像素子は当該光学像に応じた画像信号を出力する。

図示のように、撮像装置１４００の筐体の上面にはシャッターボタン１４０５が設けられ、背面側には表示部である液晶パネルが配置されている。そして、当該表示部１４０２には撮影の結果得られた画像が表示されるとともに、各種アイコン１４１５がＣＰＵ１０１の制御下で表示される。

図１５は、本発明の第５の実施形態によるジェスチャ認識装置におけるジェスチャ登録処理を説明するためのフローチャートである。なお、図示のフローチャートに係る処理はＣＰＵ１０１の制御下で行われる。

いま、撮像装置の電源を投入すると、ＣＰＵ１０１は撮像装置の初期化処理を行う。そして、ユーザが操作部（図示せず）などによってジェスチャ登録処理の開始を指示すると、ＣＰＵ１０１はジェスチャ登録処理を開始する。

この際には、ＣＰＵ１０１は不揮発性メモリ１０３に格納されたプログラムをメモリ１０２に展開して、登録処理を実行する。ジェスチャ登録処理を開始すると、ＣＰＵ１０１はユーザに対する操作説明（操作指示ともいう）を表示部１４０２に表示する（ステップＳ１５０２）。

図１６は、本発明の第５の実施形態によるジェスチャ認識装置においてジェスチャ登録の際に表示部に表示される画面を説明するための図である。そして、図１６（ａ）は操作説明を示す図であり、図１６（ｂ）はジェスチャ動作の入力を示す図である。

ステップＳ１５０２においては、ＣＰＵ１０１は、図１６（ａ）に示す画面を表示部１４０２に表示する。図示の例では、当該画面には「カメラの上下を固定したまま、腕を水平横に曲げ伸ばししてください」との文言が表示される。そして、ユーザは、操作部に備えられたボタン（ここでは開始ボタン）を押下げた後、当該文言に応じてカメラの上下を垂直方向に固定したまま手を水平横に伸ばす動作を行う。さらに、ユーザは当該動作を行った後に、操作部に備えられたボタン（終了ボタン）を押下げる。

開始ボタンの押下げによって、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は加速度センサ部によって検知された３軸方向の加速度を検出する（ステップＳ１５０４）。そして、ジェスチャ認識部１０９は、後述する撮像装置１４００の軌跡算出処理を行う（第１の検出：ステップＳ１５０５）。

図１７は、図１５に示す軌跡算出処理を説明するためのフローチャートである。

軌跡算出処理を開始すると、ジェスチャ認識部１０９は前回の加速度検出から予め設定されたサンプリング時間Δｔが経過したか否かを判定する（ステップＳ１７０１）。サンプリング時間Δｔが経過しないと（ステップＳ１７０１において、ＮＯ）、ジェスチャ認識部１０９は待機する。

一方、サンプリング時間Δｔが経過すると（ステップＳ１７０１において、ＹＥＳ）、ジェスチャ認識部１０９は、加速度センサ部によってユーザの動きに応じて撮像装置１４００に掛かる現在の加速度を検出する（ステップＳ１７０２）。

図１８は、本発明の第５の実施形態によるジェスチャ認識装置における加速度の検出を説明するための図である。そして、図１８（ａ）は３軸方向の定義を示す図であり、図１８（ｂ）は撮像装置の移動を示す図である。

いま、図１８（ａ）に示すように、表示部１４０２の長辺方向をＺ方向、短辺方向をＸ方向、そして、奥行方向をＹ方向と定義する。前述の図１６（ａ）に関連して説明したように、ユーザには撮像装置１４００のＺ方向を重力方向と平行させるように指示を行っているので、Ｚ軸方向にのみ重力加速度が掛かることになる。

現在、加速度センサ部によって検知されるＸ、Ｙ、およびＺ方向の加速度をそれぞれβｘ、βｙ、βｚとし、重力加速度をＧとする。この際、ユーザの動作によって撮像装置１４００に掛かるＸ、Ｙ、およびＺ方向の加速度をそれぞれα_ｘ、α_ｙ、およびα_ｚとすると、加速度α_ｘ、α_ｙ、およびα_ｚは式（１）で示される。

続いて、ジェスチャ認識部１０９は、撮像装置１４００が移動する際の現在速度を算出する（ステップＳ１７０３）。

図１８（ｂ）において、撮像装置１４００はサンプリング時間Δｔ毎にＡ、Ｂ、Ｃ、Ｄ、およびＥの順に移動しているものとする。なお、ここでは、サンプリング時間Δｔ毎のサンプル番号をｎとする。

サンプリング番号ｎ＝０で示す地点はユーザが操作部に備えられたボタンを押下げた時点に対応しており、当該時点において撮像装置１４００は停止しているものとする。この際、Ｘ、Ｙ、およびＺ方向の速度をそれぞれｖ_ｘ（ｎ）、ｖ_ｙ（ｎ）、およびｖ_ｚ（ｎ）とすると、これら速度ｖ_ｘ（ｎ）、ｖ_ｙ（ｎ）、およびｖ_ｚ（ｎ）は式（２）で示される。

前述のように、サンプリング番号ｎ＝０の地点においては、撮像装置１４００は停止しているので、ｖｘ（０）＝０、ｖｙ（０）＝０、ｖｚ（０）＝０となる。

続いて、ジェスチャ認識部１０９は現在の加速度のサンプリング時点から、次のサンプリング時間Δｔ後のサンプリング時点までの微小変位を算出する（ステップＳ１７０４）。この際、Ｘ、Ｙ、およびＺ方向の微小変位をそれぞれＬｘ（ｎ）、Ｌｙ（ｎ）、およびＬｚ（ｎ）とすると、微小変位Ｌｘ（ｎ）、Ｌｙ（ｎ）、およびＬｚ（ｎ）は式（３）で示される。

これら微小変位Ｌｘ（ｎ）、Ｌｙ（ｎ）、およびＬｚ（ｎ）は撮像装置１４００の軌跡を表し、微小変位Ｌｘ（ｎ）、Ｌｙ（ｎ）、およびＬｚ（ｎ）がジェスチャ動作情報として用いられる。

次に、ジェスチャ認識部１０９は撮像装置１４００の現在位置を算出する（ステップＳ１７０５）。Ｘ、Ｙ、およびＺ方向の現在位置をそれぞれＸ（ｎ）、Ｙ（ｎ）、およびＺ（ｎ）とすると、現在位置Ｘ（ｎ）、Ｙ（ｎ）、およびＺ（ｎ）は式（４）で示される。

上述のようにして、撮像装置１４００の現在位置が算出された後、ＣＰＵ１０１は軌跡算出処理を終了する。

再び図１５を参照して、軌跡算出処理が行われた後、ＣＰＵ１０１はユーザが操作部に備えられた終了ボタンを押下げたか否かを判定する（ステップＳ１５０６）。所定の時間を経過しても終了ボタンが押下げられないと（ステップＳ１５０６において、ＮＯ）、ＣＰＵ１０１はステップＳ１５０４の処理に戻る。

一方、終了ボタンが押下げられると（ステップＳ１５０６において、ＹＥＳ）、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９はユーザの腕の長さを算出する（第２の検出：ステップＳ１５０７）。

図１９は、図１６（ａ）に示す指示に応じたユーザ動作の一例を示す図である。

いま、ユーザが大人であるとし、図１５に示すステップＳ１５０３〜Ｓ１５０７においては、ユーザは大人１９０１および１９０２で示すように、撮像装置１４００を持ってその腕を伸ばし、続いて縮める動作を行う。この際、大人１９０１に示す撮像装置１４００の位置から大人１９０２に示す撮像装置１４００の位置までの距離Ｌ（ここでは、Ｄ１）は次の式（５）によって求めることができる。

図１９に示すように、ユーザが大人１９０１および１９０２である場合と子供１９０３および１９０４である場合とでは、式（５）によって求められる腕距離Ｄ１およびＤ２は異なることになる。

腕長さが算出された後、ＣＰＵ１０１は、表示部１４０２にユーザによるジェスチャ動作を指示する画面を表示する（ステップＳ１５０８）。ステップＳ１５０８においては、ＣＰＵ１０１は、例えば、１６（ｂ）に示す画面を表示部１４０２に表示する。

図示の例では、当該画面には「カメラの上下を固定、身体と平行のままジェスチャ動作を行ってください」との文言が表示される。そして、ユーザは、操作部に備えられたボタン（開始ボタン）を押下げた後、当該文言に応じて撮像装置１４００のＺ方向を重力方向、そして、Ｘ方向を身体の両肩と平行な方向に固定して、ジェスチャ動作を行うことになる。さらに、ユーザはジェスチャ動作を行った後に、操作部に備えられたボタン（終了ボタン）を押下げる。

開始ボタンが押下げられると（ステップＳ１５０９）、ＣＰＵ１０１はジェスチャ動作の検出を開始する。そして、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は加速度センサ部によって検知された３軸方向の加速度を検出し（ステップＳ１５１０）、続いて、撮像装置１４００の軌跡算出処理を行う（ステップＳ１５１１）。

なお、ステップＳ１５１０およびＳ１５１１に係る処理は、それぞれステップＳ１５０４およびＳ１５０５の処理と同様の処理である。

続いて、ＣＰＵ１０１はユーザが操作部に備えられた終了ボタンを押下げたか否かを判定する（ステップＳ１５１２）。所定の時間を経過しても終了ボタンが押下げられないと（ステップＳ１５１２において、ＮＯ）、ＣＰＵ１０１はステップＳ１５１０の処理に戻る。

一方、終了ボタンが押下げられると（ステップＳ１５１２において、ＹＥＳ）、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は腕の長さ、操作コマンド、およびジェスチャ動作を関連付けて、例えば、不揮発性メモリ１０３に登録して（ステップＳ１５１３）、ジェスチャ登録処理を終了する。

登録の際には、上記の微小変位Ｌｘ（ｎ）、Ｌｙ（ｎ）、およびＬｚ（ｎ）がジェスチャ動作情報になるが、ジェスチャを検出する際に用いるジェスチャ動作は２次元情報であるので、ここでは、微小変位Ｌｘ（ｎ）、Ｌｙ（ｎ）、およびＬｚ（ｎ）の内微小変位Ｌｘ（ｎ）およびＬｚ（ｎ）で示す２次元方向の軌跡が登録ジェスチャ動作情報として用いられる。

なお、ステップＳ１５１３においては、ステップＳ１５０７で算出した腕の長さおよびステップＳ１５０９〜Ｓ１５１２で算出されたジェスチャ軌跡が関連付けられる。そして、ユーザが希望する撮像装置１４００に対する操作コマンドもともに登録される。

ところで、加速度センサ部によって検出されたジェスチャ動作は、絶対的大きさを有しており、ジェスチャ動作と腕の長さの絶対的長さとを比較すれば、人体に対する相対的な大きさ（相対的大きさ）を決定することができる。

図２０は、本発明の第５の実施形態によるジェスチャ認識装置におけるジェスチャ動作の区別を示す図である。

いま、人物２００１がジェスチャ動作２００２を行った場合とジェスチャ動作２００３を行った場合について考えると、前述のように、ジェスチャ動作２００２および２００３と腕の長さの絶対的長さとを比較すれば、ジェスチャ動作２００２および２００３の人体に対する相対的な大きさを決定することができる。よって、ジェスチャ認識部１０９はジェスチャ動作２００２および２００３を区別することかことができる。

図２１は、本発明の第５の実施形態によるジェスチャ認識装置を備える撮像装置による撮像の際に被撮影者のジェスチャ動作が検出された場合のコマンド操作の一例を示す図である。

また、図２２は、本発明の第５の実施形態によるジェスチャ認識装置によるジェスチャ検出処理を説明するためのフローチャートである。

図２１および図２２を参照して、いま、撮像装置１４００によって被撮影者２１０１が撮影されているものとする。撮像動作を開始すると、撮像部１０５に電源が供給されて画像が逐次表示部１４０２に表示される。

ＣＰＵ１０１の制御下で、被写体検出部１０８は現在の撮像領域（つまり、画像）に被写体である人物を検出して、被写体検出結果を出力する（ステップＳ２２０２）。そして、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は被写体検出結果に応じて人物が検出されたか否かを判定する（ステップＳ２２０３）。

人物が検出されないと判定されると（ステップＳ２２０３において、ＮＯ）、ＣＰＵ１０１はステップＳ２２０２の処理に戻る。一方、人物が検出されると（ステップＳ２２０３において、ＹＥＳ）、ジェスチャ認識部１０９は、検出された人物の大きさを検出する（ステップＳ２２０４）。ここでは、ジェスチャ認識部１０９は、図２１に示す肩幅２１０２を検出して、人物の大きさを得る。

続いて、ジェスチャ認識部１０９は、検出した人物における手の部分を検出する（ステップＳ２２０５）。ここでは、ジェスチャ認識部１０９は、画像における人物の位置および人物の大きさに基づいて、手の部分が存在する領域（手領域）を推定する。そして、ジェスチャ認識部１０９は、推定の結果得られた手領域において手の形状特徴量を備える部位を検出する。この処理によって、例えば、図２１に示す手部分２１０３が検出される。

続いて、ジェスチャ認識部１０９は手部分が存在するか否かを判定する（ステップＳ２２０６）。手部分が存在しないと判定されると（ステップＳ２２０６において、ＮＯ）、ＣＰＵ１０１はステップＳ２２０２の処理に戻る。手部分が存在すると（ステップＳ２２０６において、ＹＥＳ）、ジェスチャ認識部１０９は手軌跡算出処理によって、画像における手部分の時系列的な軌跡（手軌跡）を求める（ステップＳ２２０７）。そして、この手軌跡がジェスチャ動作となる。

続いて、ジェスチャ認識部１０９は、ステップＳ２２０４で得られた人物の大きさに応じて、手軌跡の大きさを人体に対する相対的な大きさに変換する（ステップＳ２２０８）。そして、ジェスチャ認識部１０９は、前述のようにして予め登録された登録ジェスチャ動作と手軌跡（つまり、ジェスチャ動作）とのマッチング検索を行う（ステップＳ２２０９）。

この際には、手軌跡（つまり、ジェスチャ動作）および登録ジェスチャ動作ともに、人体に対する相対的な大きさが分かっているので、ジェスチャ認識部１０９は、例えば、図２０に示すジェスチャ動作２００２とジェスチャ動作２００３とを異なるジェスチャ動作として区別することができる。

次に、ジェスチャ認識部１０９はジェスチャ動作にマッチングする登録ジェスチャ動作が存在するか否かを判定する（ステップＳ２２１０）。ジェスチャ動作にマッチングする登録ジェスチャ動作が存在しないと判定されると（ステップＳ２２１０において、ＮＯ）、ＣＰＵ１０１はステップＳ２２０２の処理に戻る。

一方、ジェスチャ動作にマッチングする登録ジェスチャ動作が存在すると判定されると（ステップＳ２２１０において、ＹＥＳ）、ＣＰＵ１０１はマッチングした登録ジェスチャ動作に関連付けられた操作コマンドを実行して撮像装置１４００を制御する（ステップＳ２２１１）。そして、ＣＰＵ１０１はステップＳ２２０２の処理に戻る。

図２３は、図２２で説明したジェスチャ検出処理によるジェスチャ検出の一例を示す図である。

いま、撮像装置１４００から同一の距離に大人２３０１および子供２３０３が位置し、それぞれ身体に対して同一の比率の円状のジェスチャ動作２３０２およびジェスチャ動作２３０４を行ったとする。この場合、図２２で説明したジェスチャ検出処理を行うと、ジェスチャ認識部１０９はジェスチャ動作２３０２およびジェスチャ動作２３０４を同様のジェスチャ動作と判定する。この結果、ＣＰＵ１０１はいずれのジェスチャ動作についても同様の操作コマンドを実行することになる。

図２４は、図２２で説明したジェスチャ検出処理によるジェスチャ検出の他の例を示す図である。

いま、撮像装置１４００から互いに異なるに大人２４０１および子供２４０３が位置し、それぞれ身体に対して同一の比率の円状のジェスチャ動作２４０２およびジェスチャ動作２４０４を行ったとする。この場合においても、図２２で説明したジェスチャ検出処理を行うと、ジェスチャ認識部１０９はジェスチャ動作２４０２およびジェスチャ動作２４０４を同様のジェスチャ動作と判定する。

この結果、ＣＰＵ１０１はいずれのジェスチャ動作についても同様の操作コマンドを実行することになる。

図２５は、本発明の第５の実施形態によるジェスチャ認識装置における身体的特徴量を入力する画面の一例を示す図である。

上述の例では、腕の曲げ伸ばし動作に応じて腕の長さを算出し人体の絶対的大きさの基準としたが、図２５に示すように、ＣＰＵ１０１は表示部１４０２に身体的特徴量入力画面を表示して、ユーザなどに身長などの身体的特徴量を直接入力するようにしてもよい。そして、ＣＰＵ１０１はユーザが入力した身体的特徴量を絶対的大きさの基準とするようにしてもよい。

このように、本発明の第５の実施形態では、ジェスチャ動作の検知によって撮像装置から遠く離れた人物又は複数の人物によるジェスチャ動作に応じて操作コマンドを実行することができる。その結果、ユーザが意図したように撮像装置などの機器を制御することができる。

なお、上述の説明では、２次元平面においてジェスチャ動作を登録するようにしたが、３次元軌跡としてジェスチャ動作を登録して、認識処理の際に登録ジェスチャ動作を２次元軌跡に変換するようにしてもよい。

さらに、上述の説明では、撮像装置１４００のＺ方向を重力加速度方向と一致させて、撮像装置１４００を動かす場合を例に挙げたが、撮像装置１４００が停止している状態から重力加速度方向を監視して撮像装置１４００の回転動作も検知するようにしてもよい。このようにすれば、撮像装置１４００の向きが制限されることがない。

また、上述の例では、加速度センサ部を用いてユーザのジェスチャ登録を行う場合について説明したが、角加速度センサを用いるようにしてもよく、さらには加速度センサおよび角加速度センサの双方を用いるようにしてもよい。

［第６の実施形態］
続いて、本発明の第６の実施形態によるジェスチャ認識装置の一例について説明する。

なお、第６の実施形態によるジェスチャ認識装置の構成は、図１に示すジェスチャ認識装置の構成に加えて音声検出部および加速度センサ部を備えている。さらに、当該ジェスチャ認識装置は、例えば、デジタルカメラなどの撮像装置で用いられる（撮像装置の外観は図１４に示す例と同様である）。

図２６は、本発明の第６の実施形態によるジェスチャ認識装置におけるジェスチャ登録処理を説明するためのフローチャートである。

なお、図２６に示すフローチャートにおいて、図１５に示すフローチャートのステップと同一のステップについては同一の参照符号を付して説明を省略する。また、図示のフローチャートに係る処理はＣＰＵ１０１の制御下で行われる。

この際には、ＣＰＵ１０１は不揮発性メモリ１０３に格納されたプログラムをメモリ１０２に展開して、ジェスチャ登録処理を実行する。ジェスチャ登録処理を開始すると、ＣＰＵ１０１は撮像装置１４００の初期位置を選択する画面（ジェスチャ位置候補画面）を表示部１４０２に表示する（ステップＳ２６０２）。

図２７は、本発明の第６の実施形態によるジェスチャ認識装置においてジェスチャ登録の際に表示部に表示される画面の一例を説明するための図である。そして、図２７（ａ）は初期位置を選択する画面の一例を示す図であり、図２７（ｂ）は初期位置を選択する画面の他の例を示す図である。

ステップＳ２６０２の処理においては、ＣＰＵ１０１は、図２７（ａ）に示す画面を表示部１４０２に表示する。図示の例では、画面には「初期位置を選択してください」との文言が表示されるとともに、撮像装置１４００を把持した複数の姿勢（ジェスチャ位置候補）が初期位置として表示される。なお、ジェスチャ位置候補は相対的位置候補とも呼ばれる。

なお、図２７（ａ）に示す例では、ユーザに対する撮像装置１４００の位置として４つの候補が挙げられる。つまり、ユーザは４つの候補からのみ初期位置の選択を行うことができる。

図２８は、本発明の第６の実施形態によるジェスチャ認識装置においてジェスチャ登録の際に表示部に表示される画面の他の例を説明するための図である。そして、図２８（ａ）は表示部に最初に表示される画面を示す図であり、図２８（ｂ）はユーザによる変更操作後の画面を示す図である。

図示の例では、ＣＰＵ１０１は、まず表示部１４０２に図２８（ａ）に示す画面を表示する。図２８（ａ）では人体２８０１と撮像装置１４００との関係が予め設定された初期状態で表示される。ユーザは当該画面を見て操作部によって画面上で所望の位置に撮像装置１４００を示すマーカー２８０２を移動させて、初期位置を決定するようにしてもよい（図２８（ｂ）参照）。

続いて、ユーザが、図２７（ａ）に示す画面から所望の初期位置（つまり、ジェスチャ位置候補）を選択すると（ステップＳ２６０３）、ＣＰＵ１０１は、前述の図１６（ｂ）に示すジェスチャ動作指示画面を表示部１４０２に表示制御する（ステップＳ２６０４）。そして、ユーザが撮像装置１４００を手に把持して、ステップＳ２６０３で選択した初期位置に手を移動させ、操作部に備えられた開始ボタンを押下する（ステップＳ２６０５）。

これによって、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は、図１５および図１７で説明したステップＳ１５０４〜Ｓ１５０６の処理を行う。

ステップＳ１５０６において、終了ボタンが押下げられると、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９はステップＳ１５０５までの処理で登録されたジェスチャ動作と予め登録されたジェスチャ動作群と比較して類似するジェスチャ動作が存在するか否かを検索する（ステップＳ２６０９）。そして、ジェスチャ認識部１０９は類似するジェスチャ動作が存在するか否かを判定する（ステップＳ２６１０）。

類似するジェスチャ動作が存在すると判定されると（ステップＳ２６１０において、ＹＥＳ）、ＣＰＵ１０１は、表示部１４０２に図２７（ｂ）に示す画面（ジェスチャ位置候補画面）を表示制御する（ステップＳ２６１１）。ここでは、ＣＰＵ１０１は、初期位置の変更を行うと類似のジェスチャ動作とならないジェスチャ位置候補を表示して、ユーザにジェスチャ位置候補の選択を催促する。

図２７（ｂ）に示す例では、ステップＳ２６０３で選択したジェスチャ位置候補が画面の左上に表示され、当該ジェスチャ位置候補をグレイアウト（斜線で示す）して選択を禁止する。

ユーザがグレイアウトされていないジェスチャ位置候補の１つを選択すると（ステップＳ２６１２）、ＣＰＵ１０１はステップＳ２６１０の処理に戻る。類似するジェスチャ動作が存在しないと（ステップＳ２６１０において、ＮＯ）、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９はジェスチャ動作および身体に対する撮像装置１４００の相対位置を登録するとともに、当該ジェスチャ動作に対応する操作コマンドをユーザに選択させる。そして、ジェスチャ認識部１０９は、相対位置、操作コマンド、およびジェスチャ動作を関連付けて、例えば、不揮発性メモリ１０３に登録する（ステップＳ２６１３）。その後、ＣＰＵ１０１はジェスチャ登録処理を終了する。

図２９は、本発明の第６の実施形態によるジェスチャ認識装置を備える撮像装置による撮像の際に被撮影者のジェスチャ動作が検出された場合のコマンド操作の一例を示す図である。

図３０は、本発明の第６の実施形態によるジェスチャ認識装置によるジェスチャ検出処理を説明するためのフローチャートである。なお、図３０に示すフローチャートにおいて、図２２に示すフローチャートと同一のステップについては同一の参照符号を付して説明を省略する。

図２９および図３０を参照して、ステップＳ２２０３において、人物が検出されると（ステップＳ２２０３において、ＹＥＳ）、ジェスチャ認識部１０９は、検出された人物における顔（顔領域）の位置を検出する（ステップＳ３００４）。ここでは、ジェスチャ認識部１０９は、図２９に示す人物の顔部２９０２を検出して、当該人物２９０１の画面上における位置を求める。

その後、ジェスチャ認識部１０９は、ＣＰＵ１０１の制御下でステップＳ２２０５〜Ｓ２２０７の処理を行って、図２９に示す手部分２９０３を検出するとともに、画像における手部分２９０３の時系列的な軌跡（移動軌跡：つまり、ジェスチャ動作）２９０４を求める。

ステップＳ２２０７の処理に続いて、ジェスチャ認識部１０９は、ステップＳ３００４で求めた人物の顔の位置を用いて、手軌跡２９０４の人体２９０１に対する相対的な位置（相対的位置）を求める（ステップＳ３００８）。その後、ジェスチャ認識部１０９はステップＳ２２０９およびＳ２２１０の処理を行う。

図３１は、本発明の第６の実施形態によるジェスチャ認識装置におけるジェスチャ動作の区別を示す図である。

いま、人物３１０１がジェスチャ動作３１０２を行った場合とジェスチャ動作３１０３を行った場合について考えると、ジェスチャ動作（つまり、手軌跡）については人体に対する相対的な位置（相対的位置）が予め判明しているので、ジェスチャ認識部１０９はジェスチャ動作３１０２および３１０３を区別することかことができる。

ステップＳ２１１０において、ジェスチャ動作にマッチングする登録ジェスチャ動作が存在すると判定されると、ＣＰＵ１０１は、ステップＳ２２１１において、マッチングした登録ジェスチャ動作に関連付けられた操作コマンドを実行して撮像装置１４００を制御する。

図３２は、図３０で説明したジェスチャ検出処理によるジェスチャ検出の一例を説明するための図である。そして、図３２（ａ）はジェスチャ検出の一例を示す図であり、図３２（ｂ）はジェスチャ検出の他の例を示す図である。

図３２（ａ）および図３２（ｂ）に示す例では、ともに大人３２０１は撮像装置１４００から同一の距離に位置する。この際、図３２（ａ）においては、左側で円状のジェスチャ動作３２０２を行い、図３２（ｂ）においては右側で円状のジェスチャ動作３２０３を行っている。

この場合に、図３０で説明したジェスチャ検出処理を行うと、ジェスチャ認識部１０９はジェスチャ動作３２０２およびジェスチャ動作３２０４を互いに異なるジェスチャ動作と判定することになる。

このように、本発明の第６の実施形態では、被写体のジェスチャ動作に応じた操作コマンドを確実に実行することができ、その結果、被写体であるユーザが意図した操作を行うことができる。

なお、第６の実施形態においても、２次元平面においてジェスチャ動作を登録するようにしたが、３次元軌跡としてジェスチャ動作を登録して、認識処理の際に登録ジェスチャ動作を２次元軌跡に変換するようにしてもよい。

さらに、上述の説明では、説明の便宜上撮像装置１４００のＺ方向を重力加速度方向と一致させて、撮像装置１４００を動かす場合を例に挙げて説明したが、撮像装置１４００が停止している状態から重力加速度方向を監視して撮像装置１４００の回転動作も検知するようにしてもよい。このようにすれば、撮像装置１４００の向きが制限されることがない。

［第７の実施形態］
続いて、本発明の第７の実施形態によるジェスチャ認識装置の一例について説明する。

なお、図示はしないが、第７の実施形態によるジェスチャ認識装置は、図１に示すジェスチャ認識装置の構成に加えて３次元動作検出部を有している。さらに、当該ジェスチャ認識装置は、例えば、デジタルカメラなどの撮像装置１４００で用いられる。そして、撮像装置１４００には各種コマンドなどを入力するための操作部が備えられている。操作部としてタッチパネルを用いる場合には、操作部と表示部１４０２とを一体的に構成することができる。

例えば、タッチパネルを光の透過率が表示部１４０２の表示を妨げないように構成して、表示部１４０２の表示面に取り付ける。そして、タッチパネルにおける入力座標と表示部１４０２上の表示座標とを対応付ける。これによって、恰もユーザが表示部１４０２上に表示された画面を直接的に操作可能であるかのようなＧＵＩ（グラフィックユーザインタフェース）を構成することができる。

操作部としてタッチパネルを用いた際には、ＣＰＵ１０１はタッチパネルに対する次の操作を検出する。例えば、タッチパネルを指又はペンで触れたこと（以下タッチダウンという）。タッチパネルを指又はペンで触れている状態であること（以下タッチオンという）。タッチパネルを指又はペンで触れたままの状態で移動させること（以下ムーブという）。タッチパネルに触れていた指又はペンを離したこと（以下タッチアップという）。タッチパネルに何も触れていない状態（以下タッチオフという）。

これらの操作、そして、タッチパネルに指又はペンが触れる位置座標は、内部バス１５０を介して位置情報としてＣＰＵ１０１に通知される。ＣＰＵ１０１は当該位置情報に基づいてタッチパネルでどのような操作が行なわれたかを判定する。

ムーブについては、ＣＰＵ１０１はタッチパネル上で移動する指又はペンの移動方向についても位置座標の変化に基づいて、タッチパネル上の垂直成分および水平成分毎に判定する。さらに、タッチパネル上においてタッチダウンから一定のムーブを経てタッチアップをした際、これをストロークを描いたとする。

素早くストロークを描く操作をフリックと呼ぶ。フリックはタッチパネル上に指を触れたままある程度の距離だけ素早く動かして、そのまま離すという操作である。言い換えると、フリックはタッチパネル上を指ではじくように素早くなぞる操作である。所定の距離以上を所定速度以上でムーブしたことを検出してそのままタッチアップを検出すると、ＣＰＵ１０１はフリックが行なわれたと判定する。

また、所定距離以上を所定速度未満でムーブしたことを検出すると、ＣＰＵ１０１はドラッグが行なわれたと判定する。ジェスチャ認識部に備えられた３次元動作検出部は、例えば、慣性センサの１つである加速度センサ、コンパス、傾斜センサ、および角速度センサなどを用いて３次元的な姿勢変化および位置変化を検出する。

ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は３次元動作検出部で得られた検出信号（以下３次元検出信号又は加速度検出信号と呼ぶ）に応じて撮像装置１４００の３次元な動作を検出して、その検出結果をメモリ１０２に記録する。

図３３は、本発明の第７の実施形態によるジェスチャ認識装置における加速度検出信号の処理を説明するための図である。そして、図３３（ａ）は撮像装置の動作方向と加速度センサ方向の一例を示す図であり、図３３（ｂ）は図３３（ａ）に対応する動作量を示す図である。さらに、図３３（ｃ）は撮像装置の動作方向と加速度センサ方向の他の例を示す図であり、図３３（ｄ）は図３３（ｃ）に対応する動作量を示す図である。また、図３３（ｅ）は撮像装置の動作方向と加速度センサ方向のさらに他の例を示す図であり、図３３（ｆ）は図３３（ｅ）に対応する動作量を示す図である。

まず、図３３（ａ）および図３３（ｂ）を参照して、ここでは、横方向軸（Ｘ軸）と奥行き方向軸（Ｙ軸）に関する処理について説明する。図３３（ａ）では動作方向３３００においてＹ軸の加速度センサ方向が参照番号３３０１の場合が示されている。そして、図３３（ｂ）には、図３３（ａ）に示す加速度が検出される動作をした際の動作量が示されている。

図３３（ａ）においては動作方向３３００とＹ軸加速度センサ方向３３０１とが一致していないので、加速度３３０３は、Ｙ軸加速度センサ方向３３０１におけるＹ軸加速度センサ出力３３０４とＸ軸加速度センサ方向３３０２におけるＸ軸加速度センサ出力３３０５に分解されて検出される。

Ｙ軸加速度センサ方向３３０１とＸ軸加速度センサ方向３３０２との角度は９０度であるので、次の式（６）で示すようにＹ軸加速度センサ出力３３０４の二乗とＸ軸加速度センサ出力３３０５の二乗とを加算したものの平方根を求めれば、加速度３３０３の絶対値を得ることができる。

このように、Ｘ軸およびＹ軸からなる２軸のベクトル合成演算を行えば、３次元動作検出部の検出軸取り付け方向と動作方向がたとえ一致していない場合であっても、動作方向の加速度３３０３の絶対値を求めることができる。

続いて、ジェスチャ認識部１０９は加速度３３０３に対して二階積分演算を行って撮像装置１４００の動作量を求める。Ｙ軸加速度センサ方向３３０１とＸ軸加速度センサ方向３３０２との角度は９０度であるので、次の式（７）で示すように、Ｙ軸加速度センサ出力３３０４とＸ軸加速度センサ出力３３０５とを用いて逆正接関数演算を行って、加速度３３０３とＸ軸加速度センサ方向３３０２とのなす角度３３０６を求める。

このようにして、Ｘ軸およびＹ軸からなる２軸の逆正接関数演算を行えば、３次元動作検出部の検出軸取り付け方向と動作方向がたとえ一致していな意場合であっても、加速度３３０３とＸ軸加速度センサ方向３３０２とのなす角度３３０６を求めることができる。

なお、３次元動作の検出に際しては、例えば、夫々直交する横方向、奥行き方向、および高さ方向の加速度を検出して軸合成処理を３軸に対して繰り返せば、３次元動作を検出することができる。

図３３（ｂ）においては、動作開始位置を原点ｏとして、Ｙ軸加速度センサ方向３３０１をｙ軸、Ｘ軸加速度センサ方向３３０２をｘ軸とする座標系を設定した際、ｘ軸から角度３３０６の向きに動作量としての軌跡３３０７が定義される。

図３３（ｃ）では動作方向３３０８においてＹ軸の加速度センサ方向が参照番号３３０１の場合が示されている。そして、図３３（ｄ）には、図３３（ｃ）に示す加速度が検出される動作をした際の動作量が示されている。図３３（ｃ）においては、動作方向３３０８とＹ軸加速度センサ方向３３０１とが一致していないので、加速度３３０９はＹ軸加速度センサ方向３３０１におけるＹ軸加速度センサ出力３３１０とＸ軸加速度センサ方向３３０２におけるＸ軸加速度センサ出力３３１１に分解されて検出される。

Ｙ軸加速度センサ方向３３０１とＸ軸加速度センサ方向３３０２との角度は９０度であるので、Ｙ軸加速度センサ出力３３１０の二乗とＸ軸加速度センサ出力３３１１の二乗とを加算したものの平方根を演算することによって、加速度３３０９の絶対値を求めることができる。Ｙ軸加速度センサ方向３３０１とＸ軸加速度センサ方向３３０２との角度は９０度であるので、Ｙ軸加速度センサ出力３３１０とＸ軸加速度センサ出力３３１１を用いて、逆正接関数演算を行えば加速度３３０９とＸ軸加速度センサ方向３３０２とのなす角度３３１２を求めることができる。

図３３（ｄ）においては、軌跡３３０７の終点を動作開始位置（スタート位置）として原点ｏ１として、Ｙ軸加速度センサ方向３３０１をｙ１軸、Ｘ軸加速度センサ方向３３０２をｘ１軸とする座標系を設定した際、ｘ１軸から角度３３１２の向きに動作量としての軌跡３３１３が定義される。

図３３（ｅ）では動作方向３３１４においてＹ軸の加速度センサ方向が参照番号３３１５の場合が示されている。そして、図３３（ｆ）には、図３３（ｅ）に示す加速度が検出される動作をした際の動作量が示されている。図３３（ｅ）においては、動作方向３３１４とＹ軸加速度センサ方向３３１５とが一致していないので、加速度３３１７はＹ軸加速度センサ方向３３１５におけるＹ軸加速度センサ出力３３１８とＸ軸加速度センサ方向３３１６におけるＸ軸加速度センサ出力３３１９とに分解されて検出される。

Ｙ軸加速度センサ方向３３１５とＸ軸加速度センサ方向３３１６との角度は９０度であるので、Ｙ軸加速度センサ出力３３１８の二乗とＸ軸加速度センサ出力３３１９の二乗とを加算したものの平方根を演算することによって、加速度３３１７の絶対値を求めることができる。

Ｙ軸加速度センサ方向３３１５とＸ軸加速度センサ方向３３１６との角度は９０度であるので、Ｙ軸加速度センサ出力３３１８とＸ軸加速度センサ出力３３１９とを用いて逆正接関数演算を行うと加速度３３１７とＸ軸加速度センサ方向３３１６とのなす角度３３２０を求めることができる。

図３３（ｃ）においてはＹ軸加速度センサ方向３３０１であるが、図３３（ｅ）ではＹ軸加速度センサ方向３３１５に回転している。この回転角３３２１は３次元動作検出部の他のセンサ、例えば、ジャイロセンサの角速度信号又は電子コンパスの方位信号、水平および縦撮りを検出する傾斜センサの傾斜度信号から求めることができる。

図３３（ｆ）においては、軌跡３３１３終点を動作開始位置として原点ｏ２として、ｙ１軸に対して回転角３３２１で回転してＹ軸加速度センサ方向３３１５をｙ２軸、Ｘ軸加速度センサ方向３３１６をｘ２軸とする座標系を設定した際、ｘ２軸から角度３３２０の向きに動作量としての軌跡３３２２が定義される。

このようにして、動作量と動作方向とを繋いでいけばジェスチャ動作を軌跡として検出することができる。３次元ジェスチャ動作の検出に際しては、例えば、夫々直交する横方向、奥行き方向、および高さ方向の加速度を検出して、動作量と動作方向を繋ぐようにすればよい。

ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９はメモリ１０２に記録したデータに応じて動きベクトルを検出して、その結果をメモリ１０２に記録する。動きベクトルの検出に当たっては、例えば、勾配法又はブロックマッチングなどの既知の動きベクトル検出手法が用いられる。

ジェスチャ認識部１０９は、当該動きベクトルについて、例えば、記録媒体１０７に記憶された画像認識用２次元ジェスチャ動作の辞書データと相似であるか否かを照合する。この照合においては、数学的な相似演算を行うか又はパターンマッチなどの既知の照合手法が用いられる。

図３４は、本発明の第７の実施形態によるジェスチャ認識装置で行われる動きベクトル変化の解析処理を説明するためのフローチャートである。なお、図示のフローチャートに係る処理は、ＣＰＵ１０１の制御下で行われる。

動きベクトル変化の解析処理を開始すると、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は前回フレームから今回フレームの間で動きベクトルが検出されているか否かを判定する（ステップＳ３４０１）。動きベクトルが検出されないと（ステップＳ３４０１において、ＮＯ）、ジェスチャ認識部１０９は動きベクトル変化の解析処理を終了する。

一方、動きベクトルが検出されると（ステップＳ３４０１において、ＹＥＳ）、ジェスチャ認識部１０９は動きベクトルの中から判定対象とする動きベクトルを選択する（ステップＳ３４０２）。そして、ジェスチャ認識部１０９は所定のフレームにおいて過去に遡り判定対象の動きベクトルの始点近傍が終点近傍となる動きベクトルが存在するか否かを判定する（ステップＳ３４０３）。

終点近傍となる動きベクトルが存在すると（ステップＳ３４０３において、ＹＥＳ）、ジェスチャ認識部１０９は今回検出された動きベクトルが過去に検出された動きベクトルの継続動作である判定する（ステップＳ３４０４）。そして、ジェスチャ認識部１０９は今回検出された動きベクトルに係る動きベクトル情報を継続動作とされた過去の動きベクトル変化履歴に追加してメモリ１０２に保存する（ステップＳ３４０５）。

終点近傍となる動きベクトルが存在しないと（ステップＳ３４０３において、ＮＯ）、ジェスチャ認識部１０９は今回検出された動きベクトルが過去と継続性の無い新規動作である判定する（ステップＳ３４０６）。そして、ジェスチャ認識部１０９は今回検出された動きベクトルに係る動きベクトル情報について、新規の動きベクトル変化履歴を作成してメモリ１０２保存する（ステップＳ３４０７）。

ステップＳ３４０５又はＳ３４０７の処理に続いて、ジェスチャ認識部１０９は、検出した動きベクトル全てについて継続動作である又は新規動作であるかの解析が終了したか否かを判定する（ステップＳ３４０８）。全ての動きベクトルについて解析が終了すると（ステップＳ３４０８において、ＹＥＳ）、ジェスチャ認識部１０９は動きベクトル変化の解析処理を終了する。

一方、全ての動きベクトルについて解析が終了していない（ステップＳ３４０８において、ＮＯ）、ジェスチャ認識部１０９は、検出された動きベクトルから判定対象とする次の動きベクトルを選択する（ステップＳ３４０９）。そして、ジェスチャ認識部１０９はステップＳ３４０３の処理に戻る。

このようにして、ジェスチャ認識部１０９は所定フレームにおいて過去に遡りジェスチャ動作の可能性がある動きベクトル変化履歴を保存する。

図３５は、本発明の第７の実施形態によるジェスチャ認識装置で行われるジェスチャ認識処理を説明するためのフローチャートである。なお、図示のフローチャートに係る処理は、ＣＰＵ１０１の制御下で行われる。

ジェスチャ認識処理を開始すると、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は保存した動きベクトル変化履歴から認識対象の動きベクトル変化履歴を選択する（ステップＳ３５０１）。そして、ジェスチャ認識部１０９は選択した動きベクトル変化履歴について所定の第１特徴動作まで類似するジェスチャが辞書に存在するか否かを判定する（ステップＳ３５０２）。

図３６は、本発明の第７の実施形態によるジェスチャ認識装置においてジェスチャ認識に用いる連続画像を説明するための図である。そして、図３６（ａ）〜図３６（ｄ）はそれぞれ時刻の経過に応じた画像の一例を示す図である。

図３６において、図３６（ａ）は時刻Ｔにおける画像を示し、図２６（ｂ）は時刻ＴからＸ時間経過後の時刻Ｔ２における画像を示す。そして、図３６（ｃ）は時刻Ｔ２からＸ時間経過後の時刻Ｔ３にお画像を示し、図３６（ｄ）は時刻Ｔ３からＸ時間経過後の時刻Ｔ４にお画像を示す。図示の画像では、撮像範囲３６０１において被写体（ここでは人物）３６０２および３６０３が写されている。

図３７は、図３６に示す画像において検出された動きベクトルを説明するための図である。そして、図３７（ａ）〜図３７（ｃ）は動きベクトルの一例を示す図である。

図３７（ａ）には図３６（ａ）に示す画像と図３６（ｂ）に示す画像との間における動きベクトルが示され、被写体３６０２において動きベクトル３７０１が検出されている。また、被写体３６０３において動きベクトル３７０２が検出されている。

図３７（ｂ）には図３６（ｂ）に示す画像と図３６（ｃ）に示す画像との間における動きベクトルが示され、被写体３６０２において動きベクトル３７０３が検出されている。同様に、図３７（ｃ）には図３６（ｃ）に示す画像と図３６（ｄ）に示す画像との間における動きベクトルが示され、被写体３６０２において動きベクトル３７０４が検出されている。また、被写体３６０３において動きベクトル３７０５が検出されている。

図３８は、図３４で説明した動きベクトル変化の解析処理後の動きベクトルを説明するための図である。そして、図３８（ａ）〜図３８（ｃ）は解析処理後の動きベクトルの一例を示す図である。

図３８（ａ）には時刻Ｔ２までの動きベクトル３７０１および３７０２が示され、図３８（ｂ）には時刻Ｔ３までの動きベクトル３７０３が示されている。そして、図３８（ｃ）には時刻Ｔ４までの動きベクトル３７０４が示されている。

図３７に示す例のように、動きベクトル変化があると、図３８（ａ）においては動きベクトル３７０２および３７０３が新規動作として保存される。そして、図３８（ｂ）においては、動きベクトル３７０１の継続動作として動きベクトル３７０３が追加で保存される。

図３８（ｃ）においては、動きベクトル３７０１の継続動作である動きベクトル３７０３の継続動作として動きベクトル３７０４が追加で保存される。そして、動きベクトル３７０１、３７０３、および３７０４は一連の動作として扱われる。

図３９は、本発明の第７の実施形態によるジェスチャ認識装置に２次元ジェスチャ動作として記録されたジェスチャ認識用辞書データに登録された動きベクトルを説明するための図である。そして、図３９（ａ）〜図３９（ｃ）はその一例を示す図である。

図３９（ａ）には第１特徴動作３９０１が示されており、この第１特徴動作３９０１は、図中上側から下側に向かう動くベクトルである。図３９（ｂ）には第２特徴動作３９０２が示されており、この第２特徴動作３９０２は、図中下側から上側に向かう動くベクトルである。そして、図３９（ｃ）には第３特徴動作３９０３が示されており、この第３特徴動作３９０３は、図中上側から斜め下側に向かう動くベクトルである。

図４０は、図３９に示す特徴動作として登録された動きベクトルが発生する具体的なジェスチャ動作を説明するための図である。そして、図４０（ａ）〜図４０（ｃ）はその一例を示す図である。

図４０（ａ）には、腕を上から下へ下ろすような動作が示されており、図４０（ｂ）には腕を下から上へ上げるような動作が示されている。そして、図４０（ｃ）には腕を上から斜めに下げるような動作が示されている。

図３６（ａ）〜図３６（ｂ）に示す画像には、図４０（ａ）に示す動作が含まれており、図３９（ａ）に示す第１特徴動作３９０１と類似している。そこで、図３８（ａ）に示す動きベクトル３７０１および３７０２が検出されると、ジェスチャ認識部１０９は類似するジェスチャが辞書に存在すると判定することになる。

再び図３５を参照して、選択した動きベクトル変化履歴について所定の第１特徴動作まで類似するジェスチャが辞書に存在しないと（ステップＳ３５０２において、ＮＯ）、ジェスチャ認識部１０９は当該動きベクトル変化履歴を削除する（ステップＳ３５０３）。

一方、選択した動きベクトル変化履歴について所定の第１特徴動作まで類似するジェスチャが辞書に存在すると（ステップＳ３５０２において、ＹＥＳ）、ジェスチャ認識部１０９は選択した動きベクトル変化履歴について第２特徴動作まで類似するジェスチャが辞書に存在するか否かを判定する（ステップＳ３５０４）。

図３６（ｂ）〜図３６（ｃ）においては、図４０（ｂ）に示す動作が含まれており、図３９（ｂ）に示す第２特徴動作と類似している。そこで、ジェスチャ認識部１０９は、図３８（ｂ）のに示す動きベクトル３７０１に続く動きベクトル３７０３が存在すると類似するジェスチャが辞書に存在する判定する。

選択した動きベクトル変化履歴について第２特徴動作まで類似するジェスチャが辞書に存在しないと（ステップＳ３５０４において、ＮＯ）、ジェスチャ認識部１０９は選択された動きベクトル変化履歴においてまだ第２特徴動作が出現していないかを判定する（ステップＳ３５０５）。第２特徴動作が出現していれば（ステップＳ３５０５において、ＮＯ）、ジェスチャ認識部１０９はステップＳ３５０３の処理に進む。

図３８（ｂ）に示すように、図３８（ａ）に示す動きベクトル３７０２に続く動作が検出されていない場合には、ジェスチャ認識部１０９は動きベクトル３７０２に続く第２特徴動作がまだ出現していないと判定する。

一方、第２特徴動作が出現していないと（ステップＳ３５０５において、ＹＥＳ）、ジェスチャ認識部１０９は、選択した動きベクトル変化履歴が第１特徴動作を継続中であるか又は第２特徴動作に移る前に一時停止している可能性があるので、次回再判定するべく選択した動きベクトル変化履歴を再保存する（ステップＳ３５０６）。

選択した動きベクトル変化履歴について第２特徴動作まで類似するジェスチャが辞書に存在すると（ステップＳ３５０４において、ＹＥＳ）、ジェスチャ認識部１０９は、選択した動きベクトル変化履歴が辞書のジェスチャに対して途中動作の第２特徴動作まで類似しさらに第３特徴動作まで一致する可能性があるとして、ジェスチャ認識途中フラグをオンとする（ステップＳ３５０７）。そして、ジェスチャ認識部１０９は選択した動きベクトル変化履歴について第３特徴動作まで一致するジェスチャが辞書にあるか否かを判定する（ステップＳ３５０８）。

選択した動きベクトル変化履歴について第３特徴動作まで一致するジェスチャが辞書にないと（ステップＳ３５０８において、ＮＯ）、ジェスチャ認識部１０９は選択した動きベクトル変化履歴にまだ第３特徴動作が出現していないかを判定する（ステップＳ３５０９）。選択した動きベクトル変化履歴にまだ第３特徴動作が出現していないと（ステップＳ３５０９において、ＹＥＳ）、ジェスチャ認識部１０９は、選択した動きベクトル変化履歴を再保存する（ステップＳ３５１０）。

一方、選択した動きベクトル変化履歴に第３特徴動作が出現していると（ステップＳ３５０９において、ＮＯ）、ジェスチャ認識部１０９は、選択した動きベクトル変化履歴に一致するジェスチャは辞書に登録されていないとして、選択した動きベクトル変化履歴を削除する（ステップＳ３５１１）。

選択した動きベクトル変化履歴について第３特徴動作まで一致するジェスチャが辞書にあると（ステップＳ３５０８において、ＹＥＳ）、ジェスチャ認識部１０９は、選択した動きベクトル変化履歴が辞書データのジェスチャに関して最終動作の第３特徴動作まで一致しているのでジェスチャ認識に成功する。

その後、ジェスチャ認識部１０９はジェスチャ認識途中フラグをオフとする（ステップＳ３５１２）。そして、ジェスチャ認識部１０９はジェスチャ認識に成功したとして、現在保存中の他の動きベクトル変化履歴を全て削除し（ステップＳ３５１３）、ジェスチャ認識処理を終了する。

ステップＳ３５０３、Ｓ３５０６、Ｓ３５１０、又はＳ３５１１の処理に続いて、ジェスチャ認識部１０９は保存中の動きベクトル変化履歴の全てについてジェスチャ認識処理が終了したか否かを判定する（ステップＳ３５１４）、全ての動きベクトル変化履歴についてジェスチャ認識処理が終了すると（ステップＳ３５１４において、ＹＥＳ）、ジェスチャ認識部１０９はジェスチャ認識処理を終了する。

一方、全ての動きベクトル変化履歴についてジェスチャ認識処理が終了すると（ステップＳ３５１４において、ＹＥＳ）、ジェスチャ認識部１０９は、保存された動きベクトル変化履歴から認識対象とする次の動きベクトルを選択する（ステップＳ３５１５）。そして、ジェスチャ認識部１０９はステップＳ３５０２の処理に戻る。

続いて、ジェスチャ認識装置を備える撮像装置がビデオカメラであり、記録トリガボタンを押し続けている間に検出された３次元ジェスチャ動作を２次元ジェスチャ動作に変換する例について説明する。

図４１は、本発明の第７の実施形態におけるジェスチャ認識装置を備えるビデオカメラにおいてジェスチャ動作を登録させる際の処理を説明するためのフローチャートである。なお、図示のフローチャートに係る処理はＣＰＵ１０１の制御下で行われる。

ジェスチャ登録処理を開始すると、ＣＰＵ１０１は操作部においてジェスチャ登録処理の開始を確定する操作が行われたか否かを判定する（ステップＳ４１０１）。ジェスチャ登録処理の確定操作が行われないと（ステップＳ４１０１において、ＮＯ）、ＣＰＵ１０１は待機する。

ジェスチャ登録処理の確定操作が行われると（ステップＳ４１０１において、ＹＥＳ）、ＣＰＵ１０１は、ユーザにジェスチャ軌跡の回転方向の検知有無を選択するためのメッセージを表示部１４０２に表示する（ステップＳ４１０２）。そして、ＣＰＵ１０１は操作部でジェスチャ軌跡の回転方向の検知有無に係る選択操作が行われたか否かを判定する（ステップＳ４１０３）。

なお、例えば、三角形、四角形、円、又は星のような単純な形状を軌跡して検出するだけであれば、軌跡の天地方向を決定する必要はないので、回転方向を検知しないと選択すればよい。

回転方向の検知有無に係る選択操作が行われないと（ステップＳ４１０３において、ＮＯ）、ＣＰＵ１０１は待機する。一方、回転方向の検知有無に係る選択操作が行われないと（ステップＳ４１０３において、ＮＯ）、ＣＰＵ１０１は、ユーザに対して序盤に入力されたジェスチャ軌跡を正面方向決定の際に重視するか否かを選択するメッセージを表示部１４０２に表示する（ステップＳ４１０４）。そして、ＣＰＵ１０１は操作部によって序盤に入力された軌跡を重視か否かの選択操作が行われたか否かを判定する（ステップＳ４１０５）。

序盤に入力された軌跡を重視か否かの選択操作が行われないと（ステップＳ４１０５において、ＮＯ）、ＣＰＵ１０１は待機する。一方、序盤に入力された軌跡を重視か否かの選択操作が行われると（ステップＳ４１０５において、ＹＥＳ）、ＣＰＵ１０１は記録トリガボタンを押してアラーム音が鳴るまでは静止している旨およびアラーム音が鳴ったらジェスチャ入力開始可能を示す操作方法を表示部１４０２に表示する（ステップＳ４１０６）。

続いて、ＣＰＵ１０１は、操作部において記録トリガボタンを押す操作が行われたか否かを判定する（ステップＳ４１０７）。記録トリガボタンを押す操作が行われないと（ステップＳ４１０７において、ＮＯ）、ＣＰＵ１０１は待機する。

一方、記録トリガボタンを押す操作が行われると（ステップＳ４１０７において、ＹＥＳ）、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は前述の３次元動作検出部１０７で得られた検出信号の処理を開始する（ステップＳ４１０８）。

続いて、ジェスチャ認識部１０９は３次元動作検出部１０７で得られた検出信号に応じて重力方向の検知処理を開始する（ステップＳ４１０９）。そして、ジェスチャ認識部１０９は重力方向の検知処理が終了したか否かを判定する（ステップＳ４１１０）。重力方向の検知処理が終了しないと（ステップＳ４１１０において、ＮＯ）、ジェスチャ認識部１０９はステップＳ４１０９の処理に戻って、重力方向の検知処理を継続する。

なお、ここで、重力方向の検知処理とは、静止状態において重力加速度が検出される方向を検知する処理であり、現在の座標系において重力方向を定義するために行うものである。

一方、重力方向の検知処理が終了したと判定されると（ステップＳ４１１０において、ＹＥＳ）、ＣＰＵ１０１は所定の時間アラームを鳴動させる（ステップＳ４１１１）。そして、ＣＰＵ１０１は操作部において記録トリガボタンを離す操作が行われたか否かを判定する（ステップＳ４１１２）。

記録トリガボタンを離す操作が行われないと（ステップＳ４１１２において、ＮＯ）、ＣＰＵ１０１は待機する。一方、記録トリガボタンを離す操作が行われると（ステップＳ４１１２において、ＹＥＳ）、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は３次元動作検出部で得られた検出信号の処理を停止した後、正面方向決定処理を行う（ステップＳ４１１３）。

その後、ＣＰＵ１０１は回転方向検知有りが選択されているか否かを判定する（ステップＳ４１１４）。回転方向検知有りが選択されていると（ステップＳ４１１４において、ＹＥＳ）、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は検出した３次元ジェスチャ動作が重力方向に動かず水平動作のみであるか否かを判定する（ステップＳ４１１５）。

３次元ジェスチャ動作が水平動作のみでないと、つまり、３次元ジェスチャ動作に重力方向の動きが含まれていると（ステップＳ４１１５において、ＮＯ）、ジェスチャ認識部１０９は鉛直方向（つまり、重力方向）に対する傾斜方向が分かるので、回転方向決定処理において当該傾斜方向に応じて回転方向を決定する（ステップＳ４１１６）。

３次元ジェスチャ動作が水平動作のみであると判定されると（ステップＳ４１１５において、ＹＥＳ）、ＣＰＵ１０１はユーザに対して重力方向の動きを加えてジェスチャ動作をやり直すか又は画面操作によって回転方向を決定するかのいずれかを選択するメッセージを表示部１４０２に表示する（ステップＳ４１１７）。そして、ＣＰＵ１０１は操作部によってジェスチャ動作のやり直しが選択されたか否かを判定する（ステップＳ４１１８）。

ジェスチャ動作のやり直しが選択されると（ステップＳ４１１８において、ＹＥＳ）、ＣＰＵ１０１はステップＳ４１０６の処理に戻る。一方、ジェスチャ動作のやり直しが選択されないと（ステップＳ４１１８において、ＮＯ）、ＣＰＵ１０１は登録候補である２次元ジェスチャ動作を操作画面として表示部１４０２に表示する（ステップＳ４１１９）。

続いて、ＣＰＵ１０１は操作部によって回転方向を確定するための確定操作が行われたか否かを判定する（ステップＳ４１２０）。確定操作が行われないと（ステップＳ４１２０において、ＮＯ）、ＣＰＵ１０１はステップＳ４１１９の処理に戻る。一方、確定操作が行われると（ステップＳ４１２０において、ＹＥＳ）、ＣＰＵ１０１は、後述するステップＳ４１２２の処理に進む。

ステップＳ４１１６の処理が行われた後、ＣＰＵ１０１は登録候補である２次元ジェスチャ動作を表示部１４０２に表示する（ステップＳ４１２１）。なお、回転方向検知有りが選択されていないと（ステップＳ４１１４において、ＮＯ）、ＣＰＵ１０１はステップＳ４１２１の処理に進む。

図４２は、本発明の第７の実施形態によるジェスチャ認識装置を備えるビデオカメラにおいて回転方向確定操作中の操作画面を説明するための図である。そして、図４２（ａ）〜図４２（ｃ）は操作画面による操作を示す図である。

図４２（ａ）においては、タッチパネルを備える表示部１４０２に登録候補である２次元ジェスチャ動作４２０１が表示されるとともに、タッチパネル上に操作ボタンとして確定ボタン４２０２および回転ボタン４２０３が表示される。

図４２（ｂ）では、図４２（ａ）に示す状態から回転ボタン４２０３を用いて右回転の操作が行われている。これによって、登録候補である２次元ジェスチャ動作４２０１は図４２（ａ）に示す状態よりも右回転した状態で表示される。

図４２（ｃ）では、図４２（ａ）に示す状態から回転ボタン４２０３を用いて左回転の操作が行われている。これによって、登録候補である２次元ジェスチャ動作４２０１は図４２（ａ）に示す状態よりも左回転した状態で表示される。

ステップＳ４１２０又はＳ４１２１の処理に続いて、ＣＰＵ１０１は操作部において登録承諾の選択操作が行われたか否かを判定する（ステップＳ４１２２）。登録承諾の選択操作が行われると（ステップＳ４１２２において、ＹＥＳ）、ＣＰＵ１０１は２次元ジェスチャ動作を、例えば、記録媒体１０７に辞書登録して（ステップＳ４１２３）、ジェスチャ登録処理を終了する。

一方、登録承諾の選択操作が行われないと（ステップＳ４１２２において、ＮＯ）、ＣＰＵ１０１はステップＳ４１０６の処理に戻る。

図４３は、図４１に示す正面方向決定処理を説明するためのフローチャートである。

正面方向決定処理を開始すると、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は、前述のステップＳ４１０５において序盤軌跡重視有が選択されているかどうか否かを判定する（ステップＳ４３０１）。

図４４は、ＸＹＺ座標上で検出された３次元ジェスチャ動作を説明するための図である。そして、図４４（ａ）はＸＹ平面への投影を示す図であり、図４４（ｂ）はＸＺ平面への投影を示す図である。また、図４４（ｃ）はＹＺ平面への投影を示す図である。

図４４（ａ）には、ＸＹＺ座標（ＸＹＺ軸）上で検出された３次元ジェスチャ動作においてＸ軸４４０１とＹ軸４４０２とからなる平面への投影が示されている。同様に、図４４（ｂ）には、Ｘ軸４４０１とＺ軸４４０３とからからなる平面への投影が示されている。そして、図４４（ｃ）には、Ｙ軸４４０２とＺ軸４４０３とからなる平面への投影が示されている。

そして、ここでは、第１軌跡４４０４、第２軌跡４４０５、第３軌跡４４０６、および第４軌跡４４０７が示されている。第１軌跡４４０４は（ｘ，ｙ，ｚ）の座標で表現すると、座標（１，１，７）から座標（１，４，４）への移動を示し、第２軌跡４４０５は、座標（１，４，４）から座標（７，４，１）への移動を示す。また、第３軌跡４４０６は、座標（７，４，１）から座標（１，１，７）への移動を示し、第４軌跡４４０７は、座標（１，１，７）から座標（７，１，４）への移動を示している。

再び図４３を参照して、序盤軌跡重視有が選択されていないと（ステップＳ４３０１において、ＮＯ）、ジェスチャ認識部１０９は投影方向をＺ軸方向として投影面積を求める（ステップＳ４３０２）。

図４５および図４６は投影方向に応じた投影面積を説明するための図である。そして、図４５（ａ）〜図４５（ｆ）および図４６（ａ）〜図４６（ｈ）はその一例を示す図である。

図４５（ａ）は、図４４（ｃ）についてＺ軸方向を投影方向４５０１とする図である。そして、図４５（ｂ）においては、図４５（ａ）に示すＸ軸４４０１とＹ軸４４０２からなる平面への投影面４５０２が座標系の単位で４．５面積分として投影されている。

再び図４３を参照して、ジェスチャ認識部１０９は投影方向をＸ軸回りに所定の角度だけ回転して投影した投影面積を求める（ステップＳ４３０３）。そして、ジェスチャ認識部１０９は投影方向がＹ軸に平行になったか否かを判定する（ステップＳ４３０４）。

ここで、図４５（ｃ）は図４４（Ｃ）ついてＸ軸回りに１５度回転させて投影方向４５０３とした図である。そして、図４５（ｄ）においては、図４５（ｃ）に示すＸ軸４４０１とＹ１軸４５０４とからなる平面への投影面４５０５が座標系の単位で５．５面積分として投影されている。

図４５（ｅ）は図４４（Ｃ）についてＸ軸回りに３０度回転させて投影方向４５０６とした図である。図４５（ｆ）においては、図４５（ｅ）に示すＸ軸４４０１とＹ２軸４５０７とからなる平面への投影面４５０８が座標系の単位で６．１面積分として投影されている。

図４６（ａ）は図４４（ｃ）についてＸ軸回りに４５度回転させて投影方向４５０９とした図である。そして、図４６（ｂ）においては、図４６（ａ）に示すＸ軸４４０１とＹ３軸４５１０とからなる平面への投影面４５１１が座標系の単位で６．３面積分として投影されている。

図４６（ｃ）は図４４（ｃ）についてＸ軸回りに６０度回転させて投影方向４５１２とした図である。そして、図４６（ｄ）においては、図４６（ｄ）に示すＸ軸４４０１とＹ４軸４５１３とからなる平面への投影面４５１４が座標系の単位で６．１面積分として投影されている。

図４６（ｅ）は図４４（ｃ）についてＸ軸回りに７５度回転させて投影方向４５１５とした図である。そして、図４６（ｆ）においては。図４６（ｅ）に示すＸ軸４４０１とＹ５軸４５１６とからなる平面への投影面４５１７として座標系の単位で５．５面積分として投影されている。

図４６（ｇ）は図４４（ｃ）についてＸ軸回りに９０度回転させて投影方向４５１８とした図である。ここでは、投影方向はＹ軸に平行となっている。そして、図４６（ｈ）においては、図４６（ｇ）に示すＸ軸４４０１とＹ６軸４５１９とからなる平面への投影面４５２０が座標系の単位で４．５面積分として投影されている。

再び図４３を参照して、投影方向がＹ軸に平行になると（ステップＳ４３０４において、ＹＥＳ）、ジェスチャ認識部１０９は投影面積が最大であった回転角度（回転量ともいう）をθとしてメモリ１０２保存する（ステップＳ４３０５）。ここでは、図４６（ｂ）に示す投影面積が最大であるので、ジェスチャ認識部１０９は、図４６（ａ）に示す投影方向４５０９への回転量４５２１を回転量θとする。

続いて、ジェスチャ認識部１０９は、Ｚ軸Ｙ軸をＸ軸回りに回転角度θだけ回転してその軸をＺθ軸Ｘ軸Ｙθ軸とする（ステップＳ４３０６）。このことは、Ｚ軸Ｘ軸Ｙ軸で規定される座標が回転角度θだけ回転されたことを意味する。そして、ジェスチャ認識部１０９は、投影方向をＺθ軸方向として投影面積を求める（ステップＳ４３０７）。当該投影面積は、Ｘ軸とＹθ軸からなる平面を真上から投影した面積に相当する。

続いて、ジェスチャ認識部１０９は、投影方向をＹθ軸回りに所定の角度、回転させて投影した投影面積を求める（ステップＳ４３０８）。そして、ジェスチャ認識部１０９は、投影方向がＸ軸と平行になったか否かを判定する（ステップＳ４３０９）。

投影方向がＸ軸と平行でないと（ステップＳ４３０９において、ＮＯ）、ジェスチャ認識部１０９はステップＳ４３０８の処理に戻って、投影方向をＹθ軸回りに所定の角度、回転させて投影した投影面積を求める。一方、投影方向がＸ軸と平行であると（ステップＳ４３０９において、ＹＥＳ）、ジェスチャ認識部１０９は、投影面積が最大であった回転角（回転量）をγとしてメモリ１０２に保存する（ステップＳ４３１０）。

次に、ジェスチャ認識部１０９はＺθ軸およびＸ軸をＹθ軸回りに回転量γだけ回転して、その軸をＺθγ軸、Ｘγ軸、およびＹθ軸とする（ステップＳ４３１１）。そして、ジェスチャ認識部１０９はＺθγ軸、Ｘγ軸、およびＹθ軸の座標においてＺθγ軸方向を正面方向する（ステップＳ４３１２）。

続いて、ジェスチャ認識部１０９はＺθγ軸方向に投影したＸγ軸およびＹθ軸の座標を得て２次元ジェスチャ動作の軌跡候補として（ステップＳ４３１３）、正面方向決定処理を終了する。

序盤軌跡重視有が選択されていると（ステップＳ４３０１において、ＹＥＳ）、ジェスチャ認識部１０９は第１軌跡をＺ軸とＹ軸からなる平面に投影した軌跡とＺ軸が直角（直交）となるようにＺ軸およびＹ軸をＸ軸回りに回転して、それぞれＺＡ軸、Ｘ軸、およびＹＡ軸とする（ステップＳ４３１４）。

ここでは、図４４（ｃ）に示す第１軌跡４４０４とＺ軸４４０３とが直角になるようにＺ軸４４０３およびＹ軸４４０２をＸ軸４４０１の回りに回転する。

次に、ジェスチャ認識部１０９は投影方向をＺＡ軸方向として投影面積を求める（ステップＳ４３１５）。そして、ジェスチャ認識部１０９は、投影方向をＸ軸回りに所定の角度、回転して投影した投影面積を求める（ステップＳ４３１６）。その後、ジェスチャ認識部１０９は、投影面積が増加しているか否かを判定する（ステップＳ４３１７）。

投影面積が増加していると（ステップＳ４３１７において、ＹＥＳ）、ジェスチャ認識部１０９はステップＳ４３１６の処理に戻って、投影方向をＸ軸回りに所定の角度、回転して投影した投影面積を求める。一方、投影面積が増加していないと（ステップＳ４３１７において、ＮＯ）、ジェスチャ認識部１０９は投影方向をＸ軸回りに所定の角度、反転して投影した投影面積を求める（ステップＳ４３１８）。そして、ジェスチャ認識部１０９は再び投影面積が増加しているか否かを判定する（ステップＳ４３１９）。

投影面積が増加していると（ステップＳ４３１９において、ＹＥＳ）、ジェスチャ認識部１０９はステップＳ４３１８の処理に戻って、投影方向をＸ軸回りに所定の角度、反転して投影した投影面積を求める。投影面積が増加していないと（ステップＳ４３１９において、ＮＯ）、ジェスチャ認識部１０９は１回前の回転角（つまり、回転量）θの場合に投影面積が最大であったとして回転量θをメモリ１０２に保存する（ステップＳ４３２０）。

続いて、ジェスチャ認識部１０９は第１軌跡を重視して投影面積が最大である投影方向を探索するため、第１軌跡に直角な投影方向から先に開始して山登り手法で投影方向を探索する。なお、第１軌跡を重視する場合、投影面積が最大である投影方向の探索中に、第１軌跡（特定の軌跡）に直角な投影方向で求められる面積には所定の係数を乗算して、他の投影方向における投影面積に対して重みを付けるようにしてもよい。

さらには、正面方向を決定する際、特定の軌跡がなす面の投影面積の算出を優先して行うようにしてもよい。また、３次元ジェスチャ動作の軌跡において重力方向への移動が存在しないと、警告を行うか又は再度のジェスチャ動作を催促するようにしてもよい。

ジェスチャ認識部１０９はＺＡ軸およびＹＡ軸をＸ軸回りに回転量θだけ回転して、その軸をＺθ軸、Ｘ軸、およびＹθ軸とする（ステップＳ４３２１）。そして、ジェスチャ認識部１０９はステップＳ４３０７の処理に進む。

図４７は、図４１に示す回転方向決定処理を説明するためのフローチャートである。

回転方向決定処理を開始すると、ジェスチャ認識部１０９は、図４１に示すステップＳ４１０９において得た重力方向をＺ軸方向としたＸＹＺ座標に３次元ジェスチャ動作の第１軌跡を配置する（ステップＳ４７０１）。そして、ジェスチャ認識部１０９はＺ軸と３次元ジェスチャ動作の第１軌跡とのなす角度αを求める（ステップＳ４７０２）。

続いて、ジェスチャ認識部１０９は２次元ジェスチャ軌跡を第１軌跡の始点を中心として重力方向から角度αだけ回転させる。そして、ジェスチャ認識部１０９は回転方向決定処理を終了する。

このように、本発明の第７の実施形態では、３次元ジェスチャ動作の投影面積が最大になる方向を正面とするようにしたので、ユーザが空間的にどこを向いても撮像装置に向いているつもりで演じたジェスチャ動作イメージと一致するように、３次元ジェスチャ動作を２次元ジェスチャに変換することができる。

なお、第７の実施形態では、登録の際に３次元ジェスチャ動作の検出から２次元ジェスチャ動作への変換までを一連の処理として行っているが、３次元ジェスチャ動作の検出結果を一旦記録媒体１０７などのメモリに保存して、２次元ジェスチャ動作の認識の前に３次元ジェスチャ動作をメモリから読みだして２次元ジェスチャ動作に変換するようにしてもよい。

［第８の実施形態］
続いて、本発明の第８の実施形態によるジェスチャ認識装置の一例について説明する。

なお、第８の実施形態によるジェスチャ認識装置は、図１に示すジェスチャ認識装置と同様の構成を備えている。さらに、当該ジェスチャ認識装置は、例えば、デジタルカメラなどの撮像装置１４００で用いられる。そして、撮像装置１４００には各種コマンドなどを入力するための操作部が備えられている。操作部としてタッチパネルを用いる場合には、操作部と表示部１４０２とを一体的に構成される。

第８の実施形態によるジェスチャ認識装置では、ジェスチャ認識部１０９は撮像の結果得られた画像データから被写体の指示であるジェスチャ動作を検出する。ここでは、ジェスチャ動作とは、被写体の手又は指などの指示部による指示をいう。

ジェスチャ動作（ここでは、指示動作ともいう）は、指示部を規定する画素群の座標で表される。なお、ジェスチャ認識部１０９は、例えば、手又は指などの指示部の輪郭を基準としてテンプレートマッチングによって指示動作を検出するようにしてもよい。

第８の実施形態によるジェスチャ認識装置において、被写体検出部１０８は、撮像の結果得られた画像データに存在する顔領域を検出する。顔領域は、例えば、顔の中心および顔の縦横の大きさで表され顔枠として表示部１４０２に表示される。

なお、被写体検出部１０８は、例えば、顔の輪郭を基準としてテンプレートマッチングによって顔領域を検出するようにしてもよい。

さらに、被写体検出部１０８は顔領域から器官領域を検出する。ここで、器官領域とは、顔領域において器官を構成する領域であって、例えば、器官とは顔を構成する目、鼻、および口などのパーツをいう。そして、器官領域は、例えば、器官を構成する画素群の座標で表される。なお、被写体検出部１０８は、例えば、目、鼻、および口などの輪郭を基準としてテンプレートマッチングによって器官領域を検出するようにしてもよい。

第８の実施形態によるジェスチャ認識装置では、ＣＰＵ１０１はジェスチャ認識部１０９でされた指示動作と被写体検出部１０６で検出された器官領域とに応じて、被写体に施すレタッチ処理を選択する。例えば、ＣＰＵ１０１は、ジェスチャ認識部１０９で検出された手の位置座標が被写体検出部１０６で検出された目の領域を表わす座標に存在すると、被写体の目を大きくする画像処理をレタッチ処理として選択する。

ＣＰＵ１０１は画像データにおける器官領域に対してレタッチ処理を行う。例えば、ＣＰＵ１０１は、選択されたレタッチ処理に応じて被写体の該当する器官領域に対してレタッチ処理を行う。

上述のジェスチャ認識装置を備える撮像装置１４００では、所謂中央１点ＡＦ又は顔ＡＦを用いた撮影を行うことができる。中央１点ＡＦとは撮影画面内の中央位置１点に対してＡＦを行うことであり、顔ＡＦとは上記の顔検出機能によって検出された撮影画面内の顔に対してＡＦを行うことである。

図４８は、本発明の第８の実施形態によるジェスチャ認識装置を備える撮像装置におけるレタッチ処理の一例を説明するためのフローチャートである。なお、図示のフローチャートに係る処理は、ＣＰＵ１０１の制御下で行われる。

ここでは、手の指示動作および顔の器官領域のうち目領域をそれぞれジェスチャ認識部１０９および被写体検出部１０６で検出する。そして、ＣＰＵ１０１は手の座標と顔領域の座標とから表示部１４０２に表示する画像を選択する。さらに、ＣＰＵ１０１は手の座標と目領域の座標とに応じてレタッチ処理を選択して、後述のレタッチ機能がＯＮであると目を大きく見せるレタッチ処理を被写体に施して表示部１４０２に表示する。

レタッチ処理を開始すると、ＣＰＵ１０１は現フレームにおいて画像データ（以下単に画像と呼ぶ）をキャプチャする（ステップＳ４８０１）。続いて、ＣＰＵ１０１は、キャプチャした画像の直前のフレームにおいて表示部１４０２に表示した画像をメモリ１０２に保存する（ステップＳ４８０２）。

次に、ＣＰＵ１０１の制御下で、被写体検出部１０６はキャプチャされた画像について被写体の顔領域を検出する。そして、ＣＰＵ１０１は顔領域が検出されたか否かを判定する（ステップＳ４８０３）。顔領域が検出されると（ステップＳ４８０３において、ＹＥＳ）、ＣＰＵ１０１の制御下で、被写体検出部１０６は当該顔領域について目領域を検出する器官検出を行う。そして、ＣＰＵ１０１は器官の１つである目領域が検出されたか否かを判定する（ステップＳ４８０４）。

目領域が検出されると（ステップＳ４８０４において、ＹＥＳ）、ＣＰＵ１０１の制御下で、ジェスチャ認識部１０９は被写体における手の指示動作を検出する。そして、ジェスチャ認識部１０９は所定の指示動作が検出されたか否かを判定する（ステップ４８０５）。所定の指示動作が検出されると（ステップＳ４８０５において、ＹＥＳ）、ＣＰＵ１０１は顔領域の座標と手領域の座標とを比較して、手領域が顔領域と被っているか否かを判定する（ステップＳ４８０６）。

手領域が顔領域を被っていると（ステップＳ４８０６において、ＹＥＳ）、ＣＰＵ１０１は目領域の座標と手領域の座標とを比較し、手領域が目領域を指し示しているか否かを判定する。つまり、ここでは、ＣＰＵ１０１は、手領域と目領域との位置関係に応じてレタッチ処理が選択されたか否かを判定することになる（ステップＳ４８０７）。レタッチ処理が選択されたと判定すると（ステップＳ４８０７において、ＹＥＳ）、ＣＰＵ１０１はレタッチ機能の切り替えを行う（ステップＳ４８０８）。

ここでは、ＣＰＵ１０１はレタッチ機能がＯＦＦであればレタッチ機能をＯＮに切り替える処理を行う。また、ＣＰＵ１０１はレタッチ機能がＯＮであればレタッチ機能をＯＦＦに切り替える。

続いて、ＣＰＵ１０１はレタッチ機能がＯＮであるか否かを判定する（ステップＳ４８０９）。レタッチ機能がＯＮであると（ステップＳ４８０９において、ＹＥＳ）、レタッチ機能はＯＮであるがステップＳ４８０１でキャプチャした画像においては手領域が顔領域を被っていので、ＣＰＵ１０１はステップＳ４８０２でメモリ１０２に保存した直前のフレームの画像を読み込む。

その後、ＣＰＵ１０１は当該直前のフレームの画像において被写体の目を大きくするレタッチ処理を行って、メモリ１０２に規定された表示用画像領域にレタッチ処理した画像を保存する（ステップＳ４８１０）。

続いて、ＣＰＵ１０１はメモリ１０２の表示用画像領域に−保存された画像を表示部１４０２に表示する（ステップＳ４８１１）。そして、ＣＰＵ１０１はレタッチ処理を終了する。なお、レタッチ処理が選択されないと（ステップＳ４８０７において、ＮＯ）、ＣＰＵ１０１はステップＳ４８０９の処理に進む。

レタッチ機能がＯＦＦであると（ステップＳ４８０９において、ＮＯ）、レタッチ機能がＯＦＦの状態で、ステップＳ４８０１においてキャプチャした画像においては手領域が顔領域を被っていので、ＣＰＵ１０１はステップＳ４８０２でメモリ１０２に保存した直前のフレームの画像を表示用画像領域に保存する（ステップＳ４８１２）。そして、ＣＰＵ１０１はステップＳ４８１１の処理に進む。

手領域が顔領域を被っていないと（ステップＳ４８０６において、ＮＯ）、ＣＰＵ１０１はレタッチ機能がＯＮであるか否かを判定する（ステップＳ４８１３）。レタッチ機能がＯＮであると（ステップＳ４８１３において、ＹＥＳ）、レタッチ機能がＯＮの状態でキャプチャした画像では手領域と顔領域を被っていないので、ＣＰＵ１０１はステップＳ４８０１でキャプチャした画像について被写体の目を大きくするレタッチ処理を行う。そして、ＣＰＵ１０１はレタッチ処理後の画像をメモリ１０２の表示用画像領域に保存する（ステップＳ４８１４）。その後、ＣＰＵ１０１はステップＳ４８１１の処理に進む。

レタッチ機能がＯＦＦであると（ステップＳ４８１３において、ＮＯ）、レタッチ機能がＯＦＦの状態でキャプチャした画像では手領域と顔領域を被っていないので、ＣＰＵ１０１はステップＳ４８０１でキャプチャした画像をメモリ１０２の表示用画像領域に保存する。そして、ＣＰＵ１０１はステップＳ４８１１の処理に進む。ここでは、ステップＳ３８０１においてキャプチャした画像が表示部１４０２に表示されることになる。

なお、所定の指示動作が検出されないと（ステップＳ４８０５において、ＮＯ）、ＣＰＵ１０１はステップＳ４８１３の処理に進む。また、顔領域が検出されない場合（ステップＳ４８０３において、ＮＯ）又は目領域が検出されない場合（ステップＳ４８０４において、ＹＥＳ）には、ＣＰＵ１０１はステップＳ４８１５の処理に進む。

次に、図４８で説明した処理を行った際の被写体の状態と表示部に表示される画像の変化について説明する。

図４９は、図４８に示す処理を行った際の処理タイミングと表示部の状態遷移を説明するための図である。

いま、時刻ｔにおいて、ステップＳ４８０３の処理でキャプチャされた画像において顔領域が検出され、ステップＳ４８０４の処理で当該顔領域から目領域が検出される（状態（ａ）参照）。状態（ａ）では、キャプチャした画像には手領域が写っていないので、ステップＳ４８０５の処理では指示動作は検出されない。また、ここでは、レタッチ機能がＯＦＦであるので、ステップＳ４８１３の処理からステップＳ４８１５の処理に進む。この結果、表示部１４０２にはライブビュー画像としてキャプチャした画像がそのまま表示されることになる。

時刻（ｔ＋１）において、ステップＳ４８０３の処理でキャプチャされた画像において顔領域が検出され、ステップＳ４８０４の処理で当該顔領域から目領域が検出される（状態（ｂ）参照）。状態（ｂ）では、キャプチャした画像には手領域が写っているので、ステップＳ４８０５の処理では指示動作は検出される。

一方、ここでは、手領域が顔領域を被っておらず、レタッチ機能がＯＦＦであるので、ステップＳ４８１３の処理からステップＳ４８１５の処理に進む。この結果、表示部１４０２にはライブビュー画像としてキャプチャした画像がそのまま表示されることになる。

時刻（ｔ＋２）において、ステップＳ４８０３の処理でキャプチャされた画像において顔領域が検出され、ステップＳ４８０４の処理で当該顔領域から目領域が検出される（状態（ｃ）参照）。状態（ｃ）では、キャプチャした画像には手領域が写っているので、ステップＳ４８０５の処理では指示動作が検出される。

ここでは、手領域が顔領域を被っているので、ステップＳ４８０７の処理において目領域の座標と手領域の座標とが比較されて、その結果、手領域は目領域を指し示していないので、目領域に対するレタッチ処理は選択されない。そして、レタッチ機能がＯＦＦであるので、ステップＳ４８１２の処理においては、手領域が顔領域を被っていない直前の時刻（ｔ＋１）でライブビュー表示された画像が時刻（ｔ＋２）においてライブビュー表示される。

時刻（ｔ＋３）において、ステップＳ４８０３の処理でキャプチャされた画像において顔領域が検出され、ステップＳ４８０４の処理で当該顔領域から目領域が検出される（状態（ｄ）参照）。状態（ｄ）では、キャプチャした画像には手領域が写っているので、ステップＳ４８０５の処理では指示動作が検出される。

ここでは、手領域が顔領域を被っているので、ステップＳ４８０７の処理において目領域の座標と手領域の座標とが比較されて、その結果、手領域は目領域を指し示しているので、目領域に対するレタッチ処理が選択される。そして、レタッチ機能がＯＮであるので、ステップＳ４８１２の処理においては、手領域が顔領域を被っていない時刻（ｔ＋１）でライブビュー表示された画像について被写体の目領域を大きくするレタッチ処理が行われた画像がライブビュー表示される。

時刻（ｔ＋４）において、ステップＳ４８０３の処理でキャプチャされた画像において顔領域が検出され、ステップＳ４８０４の処理で当該顔領域から目領域が検出される（状態（ｅ）参照）。状態（ｅ）では、キャプチャした画像には手領域が写っていないので、ステップＳ４８０５の処理では指示動作が検出されない。

ここでは、手領域が顔領域を被っているので、ステップＳ４８０７の処理において目領域の座標と手領域の座標とが比較されて、その結果、手領域は目領域を指し示しているので、目領域に対するレタッチ処理が選択される。

一方、レタッチ機能はＯＮの状態に保持されているので、ステップＳ４８１２の処理においては、時刻（ｔ＋４）でキャプチャした画像について被写体の目領域を大きくするレタッチ処理が行われた画像がライブビュー表示されることになる。

なお、目にレタッチ処理を施す際に、手が目の領域を被っている場合には、前述のように直前のフレームにおける画像にレタッチ処理が施されるが、この際、ＣＰＵ１０１は手の周辺を拡大した画像を表示部１４０２の別の領域に表示するようにしてもよい。ＣＰＵ１０１は現在のフレームの画像を表示部１４０２の別の領域に表示するようにしてもよい。

さらに、ジェスチャ認識部１０９は、例えば、被写体による画像の確認が可能な状態に表示部１４０２が位置づけられている場合に有効とされるようにしてもよい。

このように、本発明の第８の実施形態では、被写体自身による指示動作に応じて顔領域にレタッチ処理を行うか否かを選択する際に、当該指示動作を検出した場合に指などの指示部が顔に被っていても、常にライブビュー表示においては指などの指示部が顔に被っていない状態でレタッチ処理を行うことができる。

以上、本発明について実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。

例えば、上記の実施の形態の機能を制御方法として、この制御方法をジェスチャ認識装置に実行させるようにすればよい。また、上述の実施の形態の機能を有するプログラムを制御プログラムとして、当該制御プログラムをジェスチャ認識が備えるコンピュータに実行させるようにしてもよい。なお、制御プログラムは、例えば、コンピュータに読み取り可能な記録媒体に記録される。

また、本発明は、以下の処理を実行することによっても実現される。つまり、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種の記録媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵなど）がプログラムを読み出して実行する処理である。

１０１ＣＰＵ
１０２メモリ
１０３不揮発性メモリ
１０４画像処理部
１０５撮像部
１０６記憶媒体Ｉ／Ｆ
１０７記憶媒体
１０８被写体検出部
１０９ジェスチャ認識部
１１０外部Ｉ／Ｆ

Claims

予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該認識したジェスチャ動作に応じて制御命令を実行するジェスチャ認識装置であって、
前記ジェスチャ動作の認識を行う際、予め設定された動作モデルと前記ジェスチャ動作とを比較してその類似度を求める照合手段と、
前記類似度が予め定められた第１の類似閾値未満でかつ当該第１の類似閾値よりも小さい第２の類似閾値以上であると、前記ジェスチャ動作を示すジェスチャ情報をメモリに記憶し、前記類似度が前記第１の類似閾値以上であると、前記ジェスチャ動作に対応付けられた制御命令を実行するとともに、前記メモリに記憶された前記ジェスチャ情報に基づいて、前記制御命令が行われたジェスチャ動作から所定の時間以内に存在するジェスチャ動作までの期間を、前記画像において予め定められた画像処理を施す効果対象期間とする制御手段と、
を有することを特徴とするジェスチャ認識装置。
前記制御手段は、少なくとも前記ジェスチャ動作の開始時刻、前記ジェスチャ動作の終了時刻、および前記類似度を前記ジェスチャ情報として前記メモリに記憶することを特徴とする請求項１に記載のジェスチャ認識装置。
前記制御手段は、前記メモリに記憶された前記ジェスチャ情報に応じてそのジェスチャ動作の開始時刻又は終了時刻が、前記制御命令が実行されたジェスチャ動作の開始時刻又は終了時刻から前記所定の時間以内であると、前記ジェスチャ情報に対応するジェスチャ動作の開始から前記制御命令が実行されたジェスチャ動作の終了までの期間を前記効果対象期間とすることを特徴とする請求項２に記載のジェスチャ認識装置。
前記制御手段は、さらに前記ジェスチャ情報として前記動作モデルを識別するための識別情報を前記メモリに記憶しており、
前記制御手段は、前記制御命令が実行される前に、前記ジェスチャ情報に含まれる前記動作モデルの識別情報に応じて前記制御命令が実行されるジェスチャ動作と同一のジェスチャ動作が検出されると、前記同一のジェスチャ動作の開始から前記制御命令が実行されるジェスチャ動作の終了までの期間を前記効果対象期間とすることを特徴とする請求項２に記載のジェスチャ認識装置。
前記制御手段は、さらに前記ジェスチャ情報として前記動作モデルを識別するための識別情報を前記メモリに記憶しており、
前記制御手段は、前記制御命令が実行された後に、前記ジェスチャ情報に含まれる前記動作モデルの識別情報に応じて前記制御命令が実行されたジェスチャ動作と同一のジェスチャ動作が検出されると、前記制御命令が実行されたジェスチャ動作の開始から前記同一のジェスチャ動作の終了までの期間を前記効果対象期間とすることを特徴とする請求項２に記載のジェスチャ認識装置。
前記制御手段は、前記制御命令が実行されたジェスチャ動作の開始又は終了から所定の時間以内に、その類似度が前記第１の類似閾値未満でかつ前記第２の類似閾値以上であるジェスチャ動作の開始又は終了を検出すると、前記制御命令が実行されたジェスチャ動作の開始からその類似度が前記第１の類似閾値未満でかつ前記第２の類似閾値以上であるジェスチャ動作の終了までの期間を前記効果対象期間とすることを特徴とする請求項２〜５のいずれか１項に記載のジェスチャ認識装置。
前記予め定められた画像処理はスキップ処理又は削除処理であることを特徴とする請求項１〜６のいずれか１項に記載のジェスチャ認識装置。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、
前記ジェスチャ動作が開始された際に、前記機器の現在の状態を示す状態情報を記憶する状態記憶手段と、
前記ジェスチャ動作に応じた制御命令の属性が停止制御および開始制御のいずれであるかを判定する判定手段と、
前記判定手段によって前記制御命令の属性が開始制御であると判定されると、前記ジェスチャ動作が認識されたタイミングで当該制御命令を実行し、前記判定手段によって前記制御命令の属性が停止制御であると判定されると、前記状態情報が示す機器の状態と等価となるように前記制御命令を実行する制御手段と、
を有することを特徴とするジェスチャ認識装置。
前記機器は、被写体を撮像して前記画像を得る撮像手段と、前記画像を記録する画像記録手段とを少なくとも備える撮像装置であり、
前記状態記憶手段は、前記状態情報として、前記ジェスチャ動作が開始された際の前記撮像装置における現在時刻を記憶し、
前記映像記録手段による前記画像の記録を命令する記録命令を示す制御命令の属性が前記停止制御であると、前記制御手段は前記画像記録手段を制御して前記現在時刻の後の画像を記録しない状態とすることを特徴とする請求項８に記載のジェスチャ認識装置。
前記機器は、少なくともズームレンズを備える撮像レンズと、当該撮像レンズを介して結像された光学像に応じて前記画像を得る撮像手段と有する撮像装置であり、
前記状態記憶手段は、前記状態情報として前記ジェスチャ動作が開始された際の前記ズームレンズのズーム値を記憶し、
前記ズームレンズを制御するズーム命令を示す制御命令の属性が前記停止制御であると、前記制御手段は前記状態記憶手段によって記憶された前記ズーム値と等価に前記ズームレンズを制御することを特徴とする請求項８に記載のジェスチャ認識装置。
前記機器は、メモリに記憶された画像を再生して再生画像として表示部に表示する再生装置であり、
前記状態記憶手段は、前記状態情報として前記ジェスチャ動作が開始された際の前記再生画像が再生された再生時刻を記憶し、
前記再生装置を再生制御する再生制御命令を示す制御命令の属性が前記停止制御であると、前記制御手段は前記再生装置を制御して前記再生時刻における画像を前記表示部に表示することを特徴とする請求項８に記載のジェスチャ認識装置。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、
前記画像における前記被写体の状況に応じて前記ジェスチャ動作の認識に用いる被写体の特定部位を決定する決定手段と、
前記決定手段によって決定された特定部位の動作に応じて前記ジェスチャ動作の認識を行う認識手段と、
を有することを特徴とするジェスチャ認識装置。
前記決定手段は、前記被写体の状況として前記画像における前記被写体の大きさに応じて前記特定部位を決定することを特徴とする請求項１２に記載のジェスチャ認識装置。
前記被写体における顔領域を検出する顔領域検出手段を備え、
前記画像における前記顔領域の大きさが所定の閾値未満であると、前記決定手段は予め設定された特定部位として手を選択することを特徴とする請求項１２又は１３に記載のジェスチャ認識装置。
前記画像における前記顔領域の大きさが所定の閾値以上であると、前記決定手段は前記画像における前記顔領域の位置および大きさに応じて手の領域が前記画像に存在するか否かを判定して、前記手の領域が画像に存在しないと判定すると前記特徴部位として視線を選択することを特徴とする請求項１４に記載のジェスチャ認識装置。
前記決定手段は前記手の領域が画像に存在すると判定すると前記特徴部位として前記手を選択することを特徴とする請求項１５に記載のジェスチャ認識装置。
前記決定手段は、過去に決定された前記特定部位の種別をメモリに記憶し、現在における特定部位を決定する際、前記メモリに記憶された特徴部位の種別を参照して特徴部位を選択することを特徴とする請求項１２〜１６のいずれか１項に記載のジェスチャ認識装置。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、
前記被写体が前記ジェスチャ認識装置を把持した状態で慣性センサによって前記ジェスチャ動作を検出する第１の検出手段と、
前記ジェスチャ動作に応じて前記被写体の動きの大きさを検出する第２の検出手段と、
前記ジェスチャ動作に関連付けて前記制御命令をメモリに登録するするとともに、前記被写体の動きの大きさに応じて、前記被写体に対する前記被写体の動きの相対的大きさをメモリに登録する登録手段と、
前記メモリに登録されたジェスチャ動作と前記機器を制御する際に行われたジェスチャ動作とを比較して前記制御命令を実行する際、前記被写体の動きの相対的大きさを参照して、前記メモリに登録されたジェスチャ動作と前記機器を制御する際に行われたジェスチャ動作とのマッチングを判定する判定手段と、
を有することを特徴とするジェスチャ認識装置。
前記第２の検出手段は、前記被写体が前記ジェスチャ認識装置を把持した状態でその腕の曲げ伸ばし動作を行った際の腕の距離を前記被写体の動きの大きさとすることを特徴とする請求項１８に記載のジェスチャ認識装置。
前記被写体の身体的特徴量を入力する操作手段を有し、
前記第２の検出手段は、前記操作手段で入力された前記身体的特徴量に応じて前記被写体の動きの大きさを検出することを特徴とする請求項１８に記載のジェスチャ認識装置。
前記判定手段によって前記メモリに登録されたジェスチャ動作と前記機器を制御する際に行われたジェスチャ動作とが同一であると判定されると、前記登録されたジェスチャ動作に関連付けられた制御命令を実行する制御手段を有することを特徴とする請求項１８〜２０のいずれか１項に記載のジェスチャ認識装置。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、
前記被写体が前記ジェスチャ認識装置を把持した状態で慣性センサによって前記ジェスチャ動作の軌跡をジェスチャ軌跡として検出する第１の検出手段と、
前記ジェスチャ軌跡の前記被写体の身体に対する相対的位置をジェスチャ位置として設定する設定手段と、
前記ジェスチャ軌跡に関連付けて前記制御命令をおよび前記ジェスチャ位置をメモリに登録する登録手段と、
前記メモリに登録されたジェスチャ軌跡と前記機器を制御する際に行われたジェスチャ動作とを比較して前記制御命令を実行する際、前記ジェスチャ位置を参照して、前記メモリに登録されたジェスチャ軌跡と前記機器を制御する際に行われたジェスチャ動作とのマッチングを判定する判定手段と、
を有することを特徴とするジェスチャ認識装置。
前記ジェスチャ軌跡と前記身体との相対的位置の候補である複数の相対的位置候補を表示部に表示する表示制御手段を備え、
前記設定手段は前記複数の相対的位置候補から選択された１つの候補を前記ジェスチャ位置とすることを特徴とする請求項２２に記載のジェスチャ認識装置。
前記ジェスチャ軌跡と前記身体との相対的位置を示すマーカーを表示部に表示して、ユーザの操作に応じて前記表示部において前記マーカを移動する表示制御手段を有し、
前記設定手段は、ユーザの操作によって決定された前記マーカーの位置を前記ジェスチャ位置とすることを特徴とする請求項２２に記載のジェスチャ認識装置。
前記設定手段は、前記ジェスチャ軌跡のスタート位置と身体との相対的位置を前記ジェスチャ位置とすることを特徴とする請求項２２に記載のジェスチャ認識装置。
前記設定手段は前記ジェスチャ軌跡の重心位置と身体との相対的位置を前記ジェスチャ位置とすることを特徴とする請求項２２に記載のジェスチャ認識装置。
前記判定手段によって前記メモリに登録されたジェスチャ軌跡と前記機器を制御する際に行われたジェスチャ動作とが同一であると判定されると、前記登録されたジェスチャ軌跡に関連付けられた制御命令を実行する制御手段を有することを特徴とする請求項２２〜２６のいずれか１項に記載のジェスチャ認識装置。
前記慣性センサは加速度を検出するための加速度センサであることを特徴とする請求項１８〜２７のいずれか１項に記載のジェスチャ認識装置。
前記慣性センサは角速度を検出するための角加速度センサであることを特徴とする請求項１８〜２７のいずれか１項に記載のジェスチャ認識装置。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置であって、
前記機器の移動軌跡を３次元ジェスチャ動作として検出する検出手段と、
前記３次元ジェスチャ動作を平面に投影した面積が最大となる方向に応じて前記３次元ジェスチャ動作を２次元ジェスチャ動作に変換する正面方向を決定する決定手段と、
前記正面方向に基づいて前記３次元ジェスチャ動作を前記２次元ジェスチャ動作に変換する変換手段と、
前記ジェスチャ動作と前記２次元ジェスチャ動作とを比較して前記制御命令を実行する制御手段と、
を有することを特徴とするジェスチャ認識装置。
前記決定手段は、２次元ジェスチャ動作を登録する際、前記３次元ジェスチャ動作の重力方向に対する相対的な移動方向に応じて前記２次元ジェスチャ動作の回転方向を決定することを特徴とする請求項３０に記載のジェスチャ認識装置。
前記決定手段は、前記３次元ジェスチャ動作の軌跡における特定の軌跡がなす面の投影面積に重み付けをして正面方向を決定することを特徴とする請求項３０に記載のジェスチャ認識装置。
前記決定手段は、前記正面方向を決定する際、前記特定の軌跡がなす面の投影面積の算出を優先して行うことを特徴とする請求項３２に記載のジェスチャ認識装置。
前記決定手段は、前記３次元ジェスチャ動作の軌跡において重力方向への移動が存在しないと、警告を行うか又は再度のジェスチャ動作を催促することを特徴とする請求項３２に記載のジェスチャ認識装置。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じてレタッチ処理を行う制御命令を実行するジェスチャ認識装置であって、
前記ジェスチャ動作として前記画像において所定の指示部によって前記被写体の所定の領域を指し示す指示動作を検出する検出手段と、
前記指示部と前記所定の領域との位置関係に応じて前記所定の領域に前記レタッチ処理を行うか否かを選択する選択手段と、
前記選択手段によって前記レタッチ処理が選択された際、前記指示部によって前記所定の領域が被われていると、前記指示部によって前記所定の領域が被われる直前のフレームにおける画像について前記レタッチ処理を行う制御手段と、
を有することを特徴とするジェスチャ認識装置。
前記選択手段によって前記レタッチ処理が選択された際、前記制御手段は、前記指示部によって前記所定の領域が被われていないと、前記指示動作が検出されたフレームにおける画像について前記レタッチ処理を行うことを特徴とする請求項３５に記載のジェスチャ認識装置。
前記被写体の所定の領域は顔領域における特定の部位であることを特徴とする請求項３５又は３６に記載のジェスチャ認識装置。
前記指示部は前記被写体の手であり、前記特定の部位は目であることを特徴とする請求項３７に記載のジェスチャ認識装置。
前記画像を表示する表示部を備え、
前記検出手段は前記被写体による前記画像の確認が可能な状態に前記表示部が位置づけられている場合に有効となることを特徴とする請求項３５〜３８のいずれか１項に記載のジェスチャ認識装置。
前記選択手段によって前記レタッチ処理が選択されない場合、前記制御手段は、前記指示部によって前記所定の領域が被われていると、前記指示部によって前記所定の領域が被われる直前のフレームにおける画像を表示部に表示することを特徴とする請求項３５〜３９のいずれか１項に記載のジェスチャ認識装置。
前記選択手段によって前記レタッチ処理が選択されると、前記制御手段は、前記指示部によって前記所定の領域が被われている場合には、前記指示部の周辺を拡大して表示部の別の領域に表示するようにしたことを特徴とする請求項３５〜３９のいずれか１項に記載のジェスチャ認識装置。
前記選択手段によって前記レタッチ処理が選択されると、前記制御手段は、前記指示部によって前記所定の領域が被われている場合には、現在のフレームの画像を表示部の別の領域に表示するようにしたことを特徴とする請求項３５〜３９のいずれか１項に記載のジェスチャ認識装置。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該認識したジェスチャ動作に応じて制御命令を実行するジェスチャ認識装置で用いられる制御プログラムであって、
前記ジェスチャ認識装置に備えられたコンピュータに、
前記ジェスチャ動作の認識を行う際、予め設定された動作モデルと前記ジェスチャ動作とを比較してその類似度を求める照合ステップと、
前記類似度が予め定められた第１の類似閾値未満でかつ当該第１の類似閾値よりも小さい第２の類似閾値以上であると、前記ジェスチャ動作を示すジェスチャ情報をメモリに記憶し、前記類似度が前記第１の類似閾値以上であると、前記ジェスチャ動作に対応付けられた制御命令を実行するとともに、前記メモリに記憶された前記ジェスチャ情報に基づいて、前記制御命令が行われたジェスチャ動作から所定の時間以内に存在するジェスチャ動作までの期間を、前記画像において予め定められた画像処理を施す効果対象期間とする制御ステップと、
を実行させることを特徴とする制御プログラム。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置で用いられる制御プログラムであって、
前記ジェスチャ認識装置が備えるコンピュータに、
前記ジェスチャ動作が開始された際に、前記機器の現在の状態を示す状態情報をメモリに記憶する状態記憶ステップと、
前記ジェスチャ動作に応じた制御命令の属性が停止制御および開始制御のいずれであるかを判定する判定ステップと、
前記判定ステップで前記制御命令の属性が開始制御であると判定されると、前記ジェスチャ動作が認識されたタイミングで当該制御命令を実行し、前記判定ステップで前記制御命令の属性が停止制御であると判定されると、前記状態情報が示す機器の状態と等価となるように前記制御命令を実行する制御ステップと、
を実行させることを特徴とする制御プログラム。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置で用いられる制御プログラムであって、
前記ジェスチャ認識装置が備えるコンピュータに、
前記画像における前記被写体の状況に応じて前記ジェスチャ動作の認識に用いる被写体の特定部位を決定する決定ステップと、
前記決定ステップで決定された特定部位の動作に応じて前記ジェスチャ動作の認識を行う認識ステップと、
を実行させることを特徴とする制御プログラム。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置で用いられる制御プログラムであって、
前記ジェスチャ認識装置が備えるコンピュータに、
前記被写体が前記ジェスチャ認識装置を把持した状態で慣性センサによって前記ジェスチャ動作を検出する第１の検出ステップと、
前記ジェスチャ動作に応じて前記被写体の動きの大きさを検出する第２の検出ステップと、
前記ジェスチャ動作に関連付けて前記制御命令をメモリに登録するするとともに、前記被写体の動きの大きさに応じて、前記被写体に対する前記被写体の動きの相対的大きさをメモリに登録する登録ステップと、
前記メモリに登録されたジェスチャ動作と前記機器を制御する際に行われたジェスチャ動作とを比較して前記制御命令を実行する際、前記被写体の動きの相対的大きさを参照して、前記メモリに登録されたジェスチャ動作と前記機器を制御する際に行われたジェスチャ動作とのマッチングを判定する判定ステップと、
を実行させることを特徴とする制御プログラム。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置で用いられる制御プログラムであって、
前記ジェスチャ認識装置が備えるコンピュータに、
前記被写体が前記ジェスチャ認識装置を把持した状態で慣性センサによって前記ジェスチャ動作の軌跡をジェスチャ軌跡として検出する第１の検出ステップと、
前記ジェスチャ軌跡の前記被写体の身体に対する相対的位置をジェスチャ位置として設定する設定ステップと、
前記ジェスチャ軌跡に関連付けて前記制御命令をおよび前記ジェスチャ位置をメモリに登録する登録ステップと、
前記メモリに登録されたジェスチャ軌跡と前記機器を制御する際に行われたジェスチャ動作とを比較して前記制御命令を実行する際、前記ジェスチャ位置を参照して、前記メモリに登録されたジェスチャ軌跡と前記機器を制御する際に行われたジェスチャ動作とのマッチングを判定する判定ステップと、
を実行させることを特徴とする制御プログラム。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じて機器の制御を行う制御命令を実行するジェスチャ認識装置で用いられる制御プログラムであって、
前記ジェスチャ認識装置が備えるコンピュータに、
前記機器の移動軌跡を３次元ジェスチャ動作として検出する検出ステップと、
前記３次元ジェスチャ動作を平面に投影した面積が最大となる方向に応じて前記３次元ジェスチャ動作を２次元ジェスチャ動作に変換する正面方向を決定する決定ステップと、
前記正面方向に基づいて前記３次元ジェスチャ動作を前記２次元ジェスチャ動作に変換する変換ステップと、
前記ジェスチャ動作と前記２次元ジェスチャ動作とを比較して前記制御命令を実行する制御ステップと、
を実行することを特徴とする制御プログラム。
予め定められた間隔で与えられる画像において被写体の所定の動作をジェスチャ動作として認識して、当該ジェスチャ動作に応じてレタッチ処理を行う制御命令を実行するジェスチャ認識装置で用いられる制御プログラムであって、
前記ジェスチャ認識装置が備えるコンピュータに、
前記ジェスチャ動作として前記画像において所定の指示部によって前記被写体の所定の領域を指し示す指示動作を検出する検出ステップと、
前記指示部と前記所定の領域との位置関係に応じて前記所定の領域に前記レタッチ処理を行うか否かを選択する選択ステップと、
前記選択ステップで前記レタッチ処理が選択された際、前記指示部によって前記所定の領域が被われていると、前記指示部によって前記所定の領域が被われる直前のフレームにおける画像について前記レタッチ処理を行う制御ステップと、
を実行させることを特徴とする制御プログラム。