JP2012008772A

JP2012008772A - ジェスチャ認識装置、ジェスチャ認識方法およびプログラム

Info

Publication number: JP2012008772A
Application number: JP2010143651A
Authority: JP
Inventors: Yoshito Oki; 嘉人大木; Osamu Shigeta; 脩繁田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-06-24
Filing date: 2010-06-24
Publication date: 2012-01-12
Anticipated expiration: 2030-06-24
Also published as: US8756508B2; US20110320949A1; EP2400371B1; EP2400371A3; JP5601045B2; CN102298442A; EP2400371A2

Abstract

【課題】ジェスチャの予測情報を用いて、適切なジェスチャフィードバックを行うことが可能な、ジェスチャ認識装置、ジェスチャ認識方法およびプログラムを提供する。
【解決手段】所定の入力期間内に入力される一連のジェスチャ情報に基づきジェスチャを認識する認識処理部１７と、一連のジェスチャ情報のうち途中まで入力されたジェスチャ情報からジェスチャを予測するジェスチャ予測部１９と、ジェスチャの予測結果に関する予測情報をユーザに通知する予測情報通知部２１とを備える。ユーザＵは、予測情報の通知を通じて、ジェスチャ情報の入力を継続することで、どのようなジェスチャが認識されうるかを確認することができる。
【選択図】図１

Description

本発明は、ジェスチャ認識装置、ジェスチャ認識方法およびプログラムに関する。

近年、ユーザの動作や発話として入力されるジェスチャを認識し、システム等を制御することが一般的に行われつつある（下記特許文献１）。ジェスチャ認識では、ビデオカメラやマイクに入力される動作や発話に基づく一連のジェスチャ情報を用いてジェスチャが認識される。一連のジェスチャ情報は、例えば、物体の動作過程を捉えた一連の画像やキーワード等の発話過程を捉えた一連の音声に基づく情報である。

ところで、ジェスチャ認識では、ジェスチャ認識が適用されるシステムの利便性を向上する上で、ジェスチャ情報の入力に対するフィードバック（以下、ジェスチャフィードバックとも称する。）が重要となる。適切なジェスチャフィードバックにより、ジェスチャ情報の誤入力の訂正をユーザに促し、ジェスチャの入力方法をユーザに教示することが可能となる。

従来、ジェスチャフィードバックとして、ユーザの動作過程を示す映像をディスプレイ等に表示することが知られている。この場合、ユーザは、映像の確認を通じて、ジェスチャ情報の入力状況を直感的に理解することができる。また、ユーザの動作過程を示す映像に代えて、ユーザの動作過程を示す軌跡等の情報を表示することも知られている。

特開２００６−２０９５６３号公報

しかし、いずれの方法も、途中まで入力されたジェスチャ情報からジェスチャを予測し、ジェスチャの予測結果に関する予測情報をユーザに通知するものではない。ここで、ジェスチャの予測情報は、ジェスチャの予測結果自体でもよく、ジェスチャの予測結果の信頼度でもよい。ジェスチャの予測情報は、ジェスチャ情報の入力を継続することで、どのようなジェスチャが認識されうるかを示し、場合によっては、そのジェスチャがどの程度の信頼度をもって認識されうるか否かを示す指標となりうる。このため、従来、ジェスチャ情報の誤入力の訂正をユーザに促したり、ジェスチャの入力方法をユーザに教示したりできず、適切なジェスチャフィードバックが十分に行われていなかった。

そこで、本発明は、ジェスチャの予測情報を用いて、適切なジェスチャフィードバックを行うことが可能な、ジェスチャ認識装置、ジェスチャ認識方法およびプログラムを提供しようとするものである。

本発明のある観点によれば、所定の入力期間内に入力される一連のジェスチャ情報に基づきジェスチャを認識する認識部と、一連のジェスチャ情報のうち途中まで入力されたジェスチャ情報からジェスチャを予測する予測部と、ジェスチャの予測結果に関する予測情報をユーザに通知する通知部とを備えるジェスチャ認識装置が提供される。

上記ジェスチャの予測情報は、ジェスチャの予測結果の信頼度を含んでもよい。

上記予測結果の信頼度は、一連のジェスチャ情報に対して途中まで入力されたジェスチャ情報の比率として表されてもよい。

上記予測結果の信頼度は、比率が高いほど急激に増加してもよい。

上記通知部は、予測結果の信頼度が所定閾値以上になると、予測情報の通知を開始してもよい。

上記通知部は、入力期間内に一連のジェスチャ情報が入力されないと、予測情報の通知を終了してもよい。

上記通知部は、入力期間内に一連のジェスチャ情報が入力されない頻度が所定閾値以上になると、認識可能なジェスチャの一覧を通知してもよい。

上記ジェスチャ情報をユーザに通知する第２の通知部をさらに備えてもよい。

上記ジェスチャ情報として画像情報を入力するための入力部をさらに備えてもよい。

上記ジェスチャ情報として音声情報を入力するための入力部をさらに備えてもよい。

また、本発明の別の観点によれば、所定の入力期間内に入力される一連のジェスチャ情報に基づきジェスチャを認識するステップを含み、認識ステップにおいて、一連のジェスチャ情報のうち途中まで入力されたジェスチャ情報からジェスチャを予測し、ジェスチャの予測結果に関する予測情報をユーザに通知するステップをさらに含むジェスチャ認識方法が提供される。

また、本発明の別の観点によれば、上記ジェスチャ認識方法をコンピュータに実行させるためのプログラムが提供される。ここで、プログラムは、コンピュータ読取り可能な記録媒体を用いて提供されてもよく、通信手段等を介して提供されてもよい。

以上説明したように本発明によれば、ジェスチャの予測情報を用いて、適切なジェスチャフィードバックを行うことが可能な、ジェスチャ認識装置、ジェスチャ認識方法およびプログラムを提供することができる。

本発明の実施形態に係るジェスチャ認識装置の概要を示す図である。ジェスチャ認識装置の主要な機能構成を示すブロック図である。ジェスチャ認識装置の動作を示すフロー図である。予測結果および予測結果の信頼度の通知例を示す図（１／５）である。予測結果および予測結果の信頼度の通知例を示す図（２／５）である。予測結果および予測結果の信頼度の通知例を示す図（３／５）である。予測結果および予測結果の信頼度の通知例を示す図（４／５）である。予測結果および予測結果の信頼度の通知例を示す図（５／５）である。予測結果および予測結果の信頼度の他の通知例を示す図（１／３）である。予測結果および予測結果の信頼度の他の通知例を示す図（２／３）である。予測結果および予測結果の信頼度の他の通知例を示す図（３／３）である。予測結果および予測結果の信頼度の他の通知例を示す図（１／２）である。予測結果および予測結果の信頼度の他の通知例を示す図（２／２）である。ジェスチャ一覧の通知例を示す図である。予測結果の信頼度の通知例を示す図（１／３）である。予測結果の信頼度の通知例を示す図（２／３）である。予測結果の信頼度の通知例を示す図（３／３）である。予測結果の信頼度の他の通知例を示す図（１／２）である。予測結果の信頼度の他の通知例を示す図（２／２）である。変形例に係るジェスチャ認識装置の主要な機能構成を示すブロック図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

［１．ジェスチャ認識装置の概要］
まず、図１を参照して、本発明の実施形態に係るジェスチャ認識装置１の概要について説明する。図１に示すように、ジェスチャ認識装置１は、ジェスチャの予測結果に関する予測情報を用いて、適切なジェスチャフィードバックを行う。

ジェスチャ認識装置１は、パーソナルコンピュータ、テレビジョン受像機、携帯情報端末、携帯電話等の情報処理装置である。ジェスチャ認識装置１には、ビデオカメラ等の動画像センサ１１から動画像信号が入力され、マイク等の音声センサ（不図示）から音声信号が入力される。なお、ジェスチャ認識装置１と動画像／音声センサは、一体に構成されてもよく、別体に構成されてもよい。

ジェスチャ認識装置１は、動画像センサ１１の前面でユーザＵが所定の動作を行うと、動画像信号に基づき動作ジェスチャを認識し、音声センサの周囲でユーザＵが所定の発話を行うと、音声信号に基づき発話ジェスチャを認識する。ここで、動作ジェスチャは、物体Ｏ（手等）の動作過程を捉えた一連の画像からなるジェスチャ情報に基づき認識され、発話ジェスチャは、キーワード等の発話過程を捉えた一連の音声に基づくジェスチャ情報を用いて認識される。

動作ジェスチャとしては、例えば、動画像センサ１１の前面で物体Ｏを左右に移動させるフリックジェスチャ、動画像センサ１１の前面を物体Ｏで遮蔽する遮蔽ジェスチャが挙げられる。発話ジェスチャとしては、例えば、音声センサの周囲で所定の語・句・節・文等を発話するジェスチャが挙げられる。

ここで、楽曲再生アプリケーションへの適用を想定すれば、例えば、左・右のフリックジェスチャが再生送り・戻しに各々に対応し、遮蔽ジェスチャが再生停止に対応する。また、例えば、発話「サイセイテイシ」が楽曲の再生停止に対応し、発話「サイセイオクリ」、「サイセイモドシ」が再生送り・戻しに各々に対応してもよい。同様に所定の動作ジェスチャと発話ジェスチャの組合せが各種の処理に対応してもよい。

ジェスチャ認識装置１は、以下の手順で、ジェスチャの予測結果に関する予測情報を用いて、適切なジェスチャフィードバックを行う。前述したように、ジェスチャ認識装置１では、所定の入力期間内に入力される一連のジェスチャ情報を用いてジェスチャが認識される。ジェスチャが認識されると、認識されたジェスチャに対応する処理が実行される。

そして、ジェスチャの認識過程において、一連のジェスチャ情報のうち途中まで入力されたジェスチャ情報からジェスチャが予測され、ジェスチャの予測情報がユーザＵに通知される。ここで、ジェスチャの予測情報は、ジェスチャの予測結果自体でもよく、予測結果の信頼度でもよい。

図１には、予測情報の通知例が示されている。ジェスチャ認識装置１では、センサ前面の映像がリアルタイムで捉えられ、ディスプレイＤに表示される。ユーザＵがジェスチャの入力を開始すると、ジェスチャの予測情報がディスプレイＤに表示される。図１に示す例では、ユーザＵが手Ｏを右方向に移動することで、右フリックジェスチャの入力が予測され、右フリックジェスチャを特定するアイコンＩと、予測結果の信頼度を示すレベルメータＬが表示される。この例では、手Ｏを右方向にさらに移動すると、予測結果の信頼度が増加し、レベルメータＬの表示が更新される。そして、手Ｏを右方向に所定距離まで移動すると、右フリックジェスチャが認識され、右フリックジェスチャに対応する処理が実行される。

これにより、ユーザＵは、予測情報の通知を通じて、ジェスチャ情報の入力を継続することで、どのようなジェスチャが認識されうるかを確認することができる。よって、ユーザＵは、期待通りの予測情報が得られない場合には、ジェスチャ情報の誤入力に気付き、入力を訂正することができる。また、ユーザＵは、ジェスチャ情報を試行錯誤的に入力して予測情報を確認することで、ジェスチャの入力方法を直感的に理解することもできる。

［２．ジェスチャ認識装置の構成］
つぎに、図２を参照して、ジェスチャ認識装置１の主要な機能構成について説明する。なお、以下では、ユーザＵの手Ｏの動作からなるジェスチャを認識する場合について説明する。

図２に示すように、ジェスチャ認識装置１は、動画像センサ１１、動画像処理部１３、ジェスチャ情報通知部（第２の通知部）１５、認識処理部（認識部）１７、ジェスチャ予測部（予測部）１９、予測情報通知部（通知部）２１、処理実行部２３、ジェスチャ情報記憶部２５、照合情報記憶部２７を含んで構成される。

動画像センサ１１は、センサ前面の情景を撮像し、撮像結果を示す動画像信号を生成する。センサ前面の情景は、認識対象となる物体Ｏの画像や背景の画像からなる。

動画像処理部１３は、動画像センサ１１から供給される動画像信号を処理し、ジェスチャ情報を生成する。ジェスチャ情報は、物体Ｏの動作を示す情報である。ジェスチャ情報は、ジェスチャ情報記憶部２５に一時記憶される。

ジェスチャ情報通知部１５は、動画像処理部１３から供給されるジェスチャ情報をユーザＵに通知する。ジェスチャ情報は、手Ｏの動作過程を示す映像情報として通知されてもよく、手Ｏの動作過程を示す音声情報として通知されてもよい。ジェスチャ情報通知部１５では、ジェスチャ情報が不図示のディスプレイＤやスピーカを通じてユーザＵに通知される。

認識処理部１７は、ジェスチャ情報記憶部２５からジェスチャ情報を読出し、照合情報記憶部２７から照合情報を読出し、照合情報に基づきジェスチャ情報を処理する。認識処理部１７では、一連のジェスチャ情報と認識対象となる各ジェスチャの照合情報が照合され、照合結果が生成される。照合情報は、ジェスチャを認識するために一連のジェスチャ情報と照合されるべき情報であり、認識対象となる各ジェスチャについて予め設定されている。例えば、動作ジェスチャの照合情報は、所定方向に移動する物体Ｏの移動パターン（移動方向・距離・速度等）として設定される。照合結果は、一連のジェスチャ情報により表される移動パターンと、各ジェスチャの照合情報により表される移動パターンの類似度に相当する。

ジェスチャ予測部１９は、認識処理部１７から供給される照合結果に基づき、入力されようとしているジェスチャを予測する。ジェスチャ予測部１９では、最も高い類似度を示すジェスチャがジェスチャの予測結果として特定される。また、予測されたジェスチャの類似度が予測結果の信頼度として特定される。ジェスチャの予測情報は、ジェスチャの予測結果に関する情報であり、ジェスチャの予測結果自体および／または予測結果の信頼度からなる。ここで、ジェスチャの予測結果は、ジェスチャ情報の入力を継続することで、どのようなジェスチャが認識されうるかを示し、予測結果の信頼度は、そのジェスチャがどの程度の信頼度をもって認識されうるか否かを示す指標となる。

予測情報通知部２１は、ジェスチャ予測部１９から供給されるジェスチャの予測情報をユーザＵに通知する。予測情報は、画像情報として通知されてもよく、音声情報として通知されてもよい。予測情報通知部２１では、予測情報が不図示のディスプレイＤやスピーカ等を通じてユーザＵに通知される。

処理実行部２３は、ジェスチャの認識結果に基づき、認識されたジェスチャに対応する処理を実行する。処理実行部２３では、例えば、左・右フリックジェスチャが認識されると、楽曲の再生送り・戻し処理が実行され、遮蔽ジェスチャが認識されると、再生停止処理が実行される。

動画像センサ１１は、ビデオカメラ等の画像入力装置として構成される。動画像処理部１３、ジェスチャ情報通知部１５、認識処理部１７、ジェスチャ予測部１９、予測情報通知部２１、処理実行部２３は、ＣＰＵ、ＤＳＰ等のプロセッサを伴う情報処理装置として構成される。ジェスチャ情報通知部１５および予測情報通知部２１は、不図示のディスプレイＤやスピーカに接続される。ジェスチャ情報記憶部２５および照合情報記憶部２７は、メモリ等の内部記憶装置や外部記憶装置として構成される。

上記構成要素の機能は、少なくとも一部が回路等のハードウェアとして実現されてもよく、プログラム等のソフトウェアとして実現されてもよい。また、各構成要素をソフトウェアとして実現する場合、プロセッサ上で実行されるプログラムを通じて各構成要素の機能が実現される。

［３．ジェスチャ認識装置の動作］
つぎに、図３から図７を参照して、ジェスチャ認識装置１の動作について説明する。図３に示すように、ジェスチャ認識装置１では、ジェスチャの入力開始が判定される（ステップＳ１１）。動画像センサ１１では、センサ前面の情景が撮像され、撮像結果を示す動画像信号が生成される。動画像処理部１３では、動画像信号からフレーム画像が生成される。

ここで、ジェスチャの入力開始は、センサ前面における認識対象の存在に基づき判定されてもよい。この場合、認識処理部１７では、パターン認識等の技術を用いて、認識対象となる物体Ｏがフレーム画像に含まれているかが判定される。そして、判定結果が肯定的であれば入力が開始されたと判定される。なお、認識処理部１７では、フレーム画像よりも粗い解像度で生成された濃淡画像に、認識対象となる物体Ｏが含まれているかが判定されてもよい。

また、ジェスチャの入力開始は、センサ前面における認識対象の移動状態に基づき判定されてもよい。この場合、動画像処理部１３では、フレーム画像よりも粗い解像度の濃淡画像が生成される。そして、濃淡画像のフレーム差分、つまり変化領域に基づき動き領域が検出され、動き領域の重心位置がジェスチャ情報として生成される。ジェスチャ情報は、ジェスチャ情報記憶部２５に一時記憶される。そして、所定期間におけるジェスチャ情報に基づき、認識対象となる物体Ｏが所定の移動パターンで移動を開始しているかが判定される。そして、判定結果が肯定的であれば入力が開始されたと判定される。

ここで、入力が開始されたと判定されると、処理タイマ（不図示）が起動され（ステップＳ１３）、ステップＳ１５以降の処理が開始される。一方、入力が開始されたと判定されなければ、ステップＳ１１の判定処理が繰返される。

入力が開始されたと判定されると、処理タイマに基づき所定の入力期間の経過が判定される（ステップＳ１５）。入力期間は、一連のジェスチャ情報に基づきジェスチャを認識するために十分な期間（数分の１秒から数秒等）として設定されている。

つぎに、入力開始の判定処理時と同様に、センサ前面の情景を表す動画像信号が入力される（ステップＳ１７）。動画像センサ１１では、センサ前面の情景が撮像され、撮像結果を示す動画像信号が生成される。動画像処理部１３では、例えば、以下のような動画像処理が行われる。

動画像処理部１３では、まず、動画像信号からフレーム画像が生成され、フレーム画像よりも粗い解像度の濃淡画像が生成される。そして、濃淡画像のフレーム差分、つまり変化領域に基づき動き領域が検出され、動き領域の重心位置がジェスチャ情報として生成される。濃淡画像を用いることで、動き領域を効率的に検出することができる。

ジェスチャ情報通知部１５では、認識対象自体および／または認識対象の動作を示す情報として、ジェスチャ情報がユーザＵに通知される。ジェスチャ情報は、ジェスチャ情報の生成順序に関連付けて、ジェスチャ情報記憶部２５に一時記憶される。ジェスチャ情報記憶部２５には、少なくとも入力期間に亘ってジェスチャ情報が一時記憶される。

つぎに、認識処理が実行される（ステップＳ１９）。認識処理部１７では、入力期間の開始時点から入力された一連のジェスチャ情報がジェスチャ情報記憶部２５から読出される。なお、認識対象の移動状態に基づき入力開始を判定した場合、判定処理に用いられたジェスチャ情報が一連のジェスチャ情報に含まれてもよい。また、認識対象となる各ジェスチャの照合情報が照合情報記憶部２７から読出される。つぎに、一連のジェスチャ情報と認識対象となる各ジェスチャの照合情報が照合され、照合結果が生成される。

つぎに、照合結果が所定の第１の閾値以上であるかが判定される（ステップＳ２１）。認識処理部１７では、いずれかのジェスチャの照合結果が第１の閾値以上の類似度を示しているかが判定される。第１の閾値は、認識対象となるジェスチャを適切に認識できる程度の類似度として、認識処理に要求される精度に応じて設定される。これにより、認識対象となるジェスチャのいずれかが認識されたかが判定される。

例えば、フリックジェスチャの類似度は、ジェスチャが認識されるまでに移動すべき距離に対する、実際に移動した距離の比率として表される。類似度は、移動すべき距離に対する移動した距離の比率をパラメータとする関数として表されてもよい。この場合、類似度は、距離の比率が比較的低い場合には、距離の比率に応じて緩やかに増加し、距離の比率が比較的高い場合には、距離の比率に応じて急激に増加してもよい。

ここで、いずれかのジェスチャが認識された場合、処理実行部２３では、認識されたジェスチャに対応する処理が実行される（ステップＳ２９）。そして、認識処理を終了するかが判定され（ステップＳ３１）、判定結果が肯定的であれば処理が終了し、否定的であれば処理がステップＳ１１に復帰する。なお、認識処理の終了は、ステップＳ１１からＳ２９の途中における任意のタイミングで判定されてもよい。

一方、いずれのジェスチャも認識されなかった場合、入力されようとしているジェスチャが予測される（ステップＳ２３）。ジェスチャ予測部１９では、認識処理部１７から供給される照合結果に基づき、最も高い類似度を示すジェスチャがジェスチャの予測結果として特定され、予測されたジェスチャの類似度が予測結果の信頼度として特定される。

つぎに、予測結果の信頼度が所定の第２の閾値以上であるかが判定される（ステップＳ２５）。予測情報通知部２１では、ジェスチャ予測部１９から供給される予測結果の信頼度が第２の閾値以上であるかが判定される。第２の閾値は、認識対象となるジェスチャのうちいずれかの開始が認識されうる程度の類似度として、認識処理に要求される認識精度に応じて設定される。ここで、第２の閾値は、ジェスチャの認識に用いる第１の閾値よりも低い類似度として設定される。これにより、認識対象となるジェスチャのうちいずれかの開始が認識されうるかが判定される。

ここで、予測情報通知部２１では、判定結果が肯定的であれば、ジェスチャの予測結果自体および／または予測結果の信頼度がユーザＵに通知され（ステップＳ２７）、否定的であれば、ユーザＵに通知されない。つまり、予測情報は、認識対象となるジェスチャのうちいずれかの開始が認識された場合に通知される。そして、処理がステップＳ１５に復帰し、入力期間の経過が判定される。

図４Ａ−４Ｅには、予測結果および予測結果の信頼度の通知例が示されている。図４Ａに示すように、センサ前面において認識対象となる物体Ｏ（ユーザＵの手Ｏ）の存在が確認されると、ジェスチャの入力が開始されたと判定される。ディスプレイＤには、手Ｏを捉えた映像が表示される。入力が開始されたと判定されると、処理タイマの起動により入力期間が開始され、ジェスチャ情報の入力および認識処理の実行が開始される。なお、認識処理の実行中、ディスプレイＤには、センサ前面の情景を捉えた映像がリアルタイムで表示される。

図４Ｂに示すように、いずれかのジェスチャの予測結果の信頼度が第２の閾値以上であると判定されると、ジェスチャの予測情報の通知が開始される。ディスプレイＤには、手Ｏを捉えた映像とともに、予測情報を示すウィンドウＷが表示される。ウィンドウＷには、認識対象となるジェスチャ（例えば、左・右フリックジェスチャ、遮蔽ジェスチャ）を示すアイコンＩ１、Ｉ２、Ｉ３と、予測結果の信頼度を示すレベルメータＬ１、Ｌ２が表示されている。

図４Ｂに示す例では、図４Ａに示した状態からユーザＵが手Ｏを右方向に一定距離移動すると、予測結果として右フリックジェスチャが特定され、予測結果の信頼度が第２の閾値以上であると判定される。ウィンドウＷでは、右フリックジェスチャを示すアイコンＩ２がハイライト表示され、右フリックジェスチャのレベルメータＬ２が僅かに増加している。

図４Ｃに示すように、図４Ｂに示した状態からユーザＵが手Ｏを右方向にさらに移動すると、より高い類似度を示す照合結果が得られ、予測結果の信頼度がさらに増加していると判定される。ウィンドウＷでは、右フリックジェスチャのレベルメータＬ２がさらに増加している。

ここで、図４Ｄに示すように、図４Ｃに示した状態からユーザＵが手Ｏを右方向にさらに移動し、入力期間が経過する前に、右フリックジェスチャの照合結果が第１の閾値以上の類似度を示していると判定されると、右フリックジェスチャが認識される。ウィンドウＷでは、右フリックジェスチャのレベルメータＬ２が最高レベルに達している。

一方、図４Ｅに示すように、図４Ｃに示した状態からユーザＵが手Ｏを右方向にさらに移動せず、入力期間が経過する前に、右フリックジェスチャの照合結果が第１の閾値以上の類似度を示していると判定されなければ、右フリックジェスチャが認識されず、認識処理が中止される。ディスプレイＤでは、ウィンドウＷが非表示となり、手Ｏを捉えた映像のみが表示される。

図５Ａ−５Ｃには、予測結果および予測結果の信頼度の他の通知例が示されている。図５Ａに示す例では、左・右フリックジェスチャを認識対象とする場合に、ユーザＵが手Ｏを上方向に移動している。この場合、左右方向の移動を示すジェスチャ情報が生成されないので、いずれかのジェスチャの予測結果の信頼度が第２の閾値以上であると判定されない。よって、ジェスチャの予測情報の通知が開始されない。このため、ユーザＵは、手Ｏを移動したにもかかわらず、予測情報が通知されないので、ジェスチャ情報の誤入力に気付くことができる。

一方、図５Ｂに示す例では、ユーザＵが手Ｏを右上方向に移動している。この場合、認識対象の移動ベクトルの成分として右方向への僅かな移動を示すジェスチャ情報が生成されるので、手Ｏを右上方向にある程度移動した時点で、右フリックジェスチャの予測結果の信頼度が第２の閾値以上であると判定される。よって、手Ｏを右方向に移動する場合に比べると遅れてではあるが、ジェスチャの予測情報の通知が開始される。

ウィンドウＷでは、右フリックジェスチャを示すアイコンＩ１がハイライト表示され、右フリックジェスチャのレベルメータＬ２が僅かに増加している。このため、ユーザＵは、手Ｏを移動したにもかかわらず、ウィンドウＷの表示が遅れるとともに予測結果の信頼度が期待通りに増加しないので、ジェスチャ情報の誤入力に気付くことができる。

図５Ｃに示す例では、図５Ｂに示した状態からユーザＵが手Ｏを右方向に移動している。この場合、右方向への移動を示すジェスチャ情報が入力されるので、より高い類似度を示す照合結果が得られ、予測結果の信頼度がさらに増加していると判定される。ウィンドウＷでは、右フリックジェスチャのレベルメータＬ２がさらに増加している。このため、ユーザＵは、ジェスチャ情報の誤入力に気付いた上で入力を訂正するとともに、予測結果の信頼度が期待通りに増加したので、ジェスチャ情報の入力が適切であると確認することができる。

図６Ａ−６Ｂには、予測結果および予測結果の信頼度の他の通知例が示されている。図６Ａに示す例では、ユーザＵが左フリックジェスチャを入力しようとしているにもかかわらず、誤って手Ｏを右方向に僅かに移動している。この場合、右方向への僅かな移動を示すジェスチャ情報が生成されるので、右フリックジェスチャの予測結果の信頼度が第２の閾値以上であると判定される。よって、ジェスチャの予測情報の通知が開始される。

ウィンドウＷでは、右フリックジェスチャを示すアイコンＩ２がハイライト表示され、右フリックジェスチャのレベルメータＬ２が僅かに増加している。このため、ユーザＵは、左フリックジェスチャを入力しようとしているにもかかわらず、右フリックジェスチャを示すアイコンＩ２がハイライト表示されたことを確認することで、ジェスチャ情報の誤入力に気付くことができる。

図６Ｂに示す例では、図６Ａに示した状態からユーザＵが手Ｏを左方向に移動している。この場合、左方向への移動を示すジェスチャ情報が生成されるので、左フリックジェスチャの予測結果が第２の閾値以上の類似度を示す。よって、ウィンドウＷでは、右フリックジェスチャに代えて左フリックジェスチャを示すアイコンＩ１がハイライト表示され、左フリックジェスチャのレベルメータＬ１が増加している。このため、ユーザＵは、ジェスチャ情報の誤入力に気付いた上で、入力を訂正することができる。

図７には、ジェスチャ一覧の通知例が示されている。ジェスチャ認識装置１では、入力期間内にジェスチャが認識されなかった場合に認識失敗ログが記録される。そして、所定期間内に認識失敗ログが所定閾値以上の頻度で記録されると、認識対象となるジェスチャ一覧ＧがユーザＵに通知される。

図７に示すように、ジェスチャ一覧Ｇには、認識対象となるジェスチャの種類と、ジェスチャの入力方法が示されている。ジェスチャ一覧には、例えば、手Ｏを左・右方向に移動することで、楽曲の再生早送り・早戻しを行い、動画像センサ１１の前面を遮蔽することで、再生停止を行うことができる旨が示されている。これにより、システムの操作に不慣れなユーザＵは、ジェスチャ一覧Ｇの参照を通じて、認識対象となるジェスチャを習得することができる。

［４．予測情報の通知の変形例］
図８Ａ−８Ｃには、予測結果の信頼度の通知例が示されている。図８Ａに示す例では、物体Ｏで円を描くサークルジェスチャを認識対象とする場合に、物体Ｏの移動を示す軌跡線ＴＬ（軌跡線の総称）を用いてジェスチャの予測結果の信頼度が通知される。図８Ａに示すように、ユーザＵが手Ｏで四分円を描くと、ディスプレイＤには、手Ｏを捉えたリアルタイム映像とともに、手Ｏの移動過程を示す四分円状の軌跡線ＴＬ１が表示される。軌跡線ＴＬ１は、比較的細い線、薄い色、暗い色の線として表示されている。

図８Ｂに示すように、図８Ａに示した状態からユーザＵが手Ｏで半円を描くと、ディスプレイＤには、手Ｏの移動過程を示す半円状の軌跡線ＴＬ２が表示される。ここで、軌跡線ＴＬ２は、図８Ａに示した軌跡線ＴＬ１よりも太い線や濃い色、明るい色の線として表示されている。つまり、図８Ｂに示す状態では、図８Ａに示した状態よりも、サークルジェスチャを特定する予測結果の信頼度が増加しているので、軌跡線ＴＬの線種、色、彩度の変更を通じて、信頼度の増加がユーザＵに通知されている。

さらに、図８Ｃに示すように、図８Ｂに示した状態からユーザＵが手Ｏでほぼ円を描くと、ディスプレイＤには、手Ｏの移動過程を示す略円状の軌跡線ＴＬ３が表示される。ここで、軌跡線ＴＬ３は、図８Ｂに示した軌跡線ＴＬ２よりも太い線や濃い色、明るい色の線として表示されている。そして、サークルジェスチャの照合結果が第１の閾値以上の類似度を示していると判定されると、サークルジェスチャが認識される。

図９Ａ−９Ｂには、予測結果の信頼度の他の通知例が示されている。図９Ａに示す例では、右フリックジェスチャを認識対象とする場合に、物体Ｏの移動を示す軌跡点ＴＰを用いてジェスチャの予測結果の信頼度が通知される。図９Ａに示すように、ユーザＵが手Ｏを右方向に一定距離で移動すると、ディスプレイＤには、手Ｏを捉えたリアルタイム映像とともに、手Ｏの移動過程を示す複数の軌跡点ＴＰが表示される。軌跡点ＴＰは、白丸シンボルと、白丸シンボルの中心に位置する黒丸シンボルを組合せて表示されている。

図９Ｂに示すように、図９Ａに示した状態からユーザＵが手Ｏを右方向にさらに移動すると、ディスプレイＤには、手Ｏの移動過程を示す複数の軌跡点ＴＰがさらに追加して表示される。ここで、手Ｏの移動距離が大きくなるほど、白丸シンボルの中心に位置する黒丸シンボルが大きく表示されている。つまり、手Ｏの移動距離が大きくなるほど、右フリックジェスチャを特定する予測結果の信頼度が増加するので、黒丸シンボルの大きさを変更することで、信頼度の増加がユーザＵに通知されている。そして、右フリックジェスチャの照合結果が第１の閾値以上の類似度を示していると判定されると、右フリックジェスチャが認識される。

［５．ジェスチャ認識装置の変形例］
つぎに、変形例に係るジェスチャ認識装置２について説明する。変形例に係るジェスチャ認識装置２では、動画像センサ１１とともに（または動画像センサ１１に代えて）音声センサ２９を用いて、動作ジェスチャおよび発話ジェスチャ（または発話ジェスチャ）が認識される。

図１０に示すように、ジェスチャ認識装置２は、動画像センサ１１、動画像処理部１３、ジェスチャ情報通知部１５、認識処理部１７、ジェスチャ予測部１９、予測情報通知部２１、処理実行部２３、ジェスチャ情報記憶部２５、照合情報記憶部２７とともに、音声センサ２９および音声処理部３１を含んで構成される。なお、以下では、前述したジェスチャ認識装置１と重複する説明を省略する。

音声センサ２９は、センサ周囲に位置するユーザＵの発話を収音し、収音結果を示す音声信号を生成する。音声処理部３１は、音声センサ２９から供給される音声信号を処理し、発話ジェスチャ情報を生成する。発話ジェスチャ情報は、語・句・節・文等、ユーザＵの発話を示すための情報である。発話ジェスチャ情報は、ジェスチャ情報記憶部２５に一時記憶される。

認識処理部１７は、ジェスチャ情報記憶部２５から動作ジェスチャおよび／または発話ジェスチャのジェスチャ情報を読出し、照合情報記憶部２７から照合情報を読出し、照合情報に基づきジェスチャ情報を処理する。ここで、発話ジェスチャの照合情報は、所定の音声パターン（音素の高さ、長さ、音量等）として設定される。照合結果は、一連のジェスチャ情報により表される音声パターンと各ジェスチャの照合情報により表される音声パターンの類似度に相当する。ここで、動作ジェスチャおよび発話ジェスチャの組合せからなる複合ジェスチャについては、動作ジェスチャの照合結果と発話ジェスチャの照合結果を組合せて、複合ジェスチャとしての照合結果が求められる。

ジェスチャ情報通知部１５は、動画像処理部１３および音声処理部３１から供給される、動作ジェスチャおよび／または発話ジェスチャのジェスチャ情報をユーザＵに通知する。発話ジェスチャのジェスチャ情報は、認識された音声パターンを示す文字情報でもよく、認識された音声パターンを復唱する音声情報でもよい。ジェスチャ情報通知部１５では、ジェスチャ情報が不図示のディスプレイＤやスピーカを通じてユーザＵに通知される。

ジェスチャ予測部１９は、認識部処理部１７から供給される照合結果に基づき、入力されようとしているジェスチャを予測する。ジェスチャ予測部１９では、最も高い類似度を示すジェスチャがジェスチャの予測結果として特定される。ここで、複合ジェスチャについては、動作ジェスチャの照合結果と発話ジェスチャの照合結果の類似度を組合せて、ジェスチャの予測結果が特定される。

処理実行部２３は、例えば、発話ジェスチャ「サイセイオクリ」または「サイセイモドシ」が認識されると、楽曲の再生送り・戻し処理を実行してもよく、フリックジェスチャとともに発話ジェスチャ「オクリ」または「モドシ」が認識されると、再生送り・戻し処理を実行してもよい。

［６．まとめ］
以上説明したように、本発明の実施形態に係るジェスチャ認識装置１、２およびジェスチャ認識方法によれば、ジェスチャの認識過程において、一連のジェスチャ情報のうち途中まで入力されたジェスチャ情報からジェスチャが予測され、ジェスチャの予測結果に関する予測情報がユーザＵに通知される。これにより、ユーザＵは、予測情報の通知を通じて、ジェスチャ情報の入力を継続することで、どのようなジェスチャが認識されうるかを確認することができる。

よって、ユーザＵは、期待通りの予測情報が得られない場合には、ジェスチャ情報の誤入力に気付き、入力を訂正することができる。また、ユーザＵは、ジェスチャ情報を試行錯誤的に入力して予測情報を確認することで、ジェスチャの入力方法を直感的に理解することもできる。よって、本発明の実施形態に係るジェスチャ認識装置１、２およびジェスチャ認識方法によれば、ジェスチャの予測情報を用いて、適切なジェスチャフィードバックを行うことができる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記説明では、ジェスチャの予測情報およびジェスチャ情報を映像情報として通知する場合について主に説明した。しかし、ジェスチャの予測情報およびジェスチャ情報は、映像情報に代えて（または映像情報とともに）、音声情報等の情報として通知されてもよい。

１、２ジェスチャ認識装置
１１動画像センサ
１３動画像処理部
１５ジェスチャ情報通知部
１７認識処理部
１９ジェスチャ予測部
２１予測情報通知部
２３処理実行部
２５ジェスチャ情報記憶部
２７照合情報記憶部
２９音声センサ
３１音声処理部

Claims

所定の入力期間内に入力される一連のジェスチャ情報に基づきジェスチャを認識する認識部と、
前記一連のジェスチャ情報のうち途中まで入力されたジェスチャ情報からジェスチャを予測する予測部と、
前記ジェスチャの予測結果に関する予測情報をユーザに通知する通知部と
を備えるジェスチャ認識装置。
前記ジェスチャの予測情報は、前記ジェスチャの予測結果の信頼度を含む、請求項１に記載のジェスチャ認識装置。
前記予測結果の信頼度は、前記一連のジェスチャ情報に対して前記途中まで入力されたジェスチャ情報の比率として表される、請求項２に記載のジェスチャ認識装置。
前記予測結果の信頼度は、前記比率が高いほど急激に増加する、請求項３に記載のジェスチャ認識装置。
前記通知部は、前記予測結果の信頼度が所定閾値以上になると、前記予測情報の通知を開始する、請求項１から４のいずれか１項に記載のジェスチャ認識装置。
前記通知部は、前記入力期間内に前記一連のジェスチャ情報が入力されないと、前記予測情報の通知を終了する、請求項５に記載のジェスチャ認識装置。
前記通知部は、前記入力期間内に前記一連のジェスチャ情報が入力されない頻度が所定閾値以上になると、認識可能なジェスチャの一覧を通知する、請求項１から６のいずれか１項に記載のジェスチャ認識装置。
前記ジェスチャ情報をユーザに通知する第２の通知部をさらに備える、請求項１から７のいずれか１項に記載のジェスチャ認識装置。
前記ジェスチャ情報として画像情報を入力するための入力部をさらに備える、請求項１から８のいずれか１項に記載のジェスチャ認識装置。
前記ジェスチャ情報として音声情報を入力するための入力部をさらに備える、請求項１から９のいずれか１項に記載のジェスチャ認識装置。
所定の入力期間内に入力される一連のジェスチャ情報に基づきジェスチャを認識するステップを含み、
前記認識ステップにおいて、前記一連のジェスチャ情報のうち途中まで入力されたジェスチャ情報からジェスチャを予測し、前記ジェスチャの予測結果に関する予測情報をユーザに通知するステップをさらに含むジェスチャ認識方法。
上記請求項１１に記載のジェスチャ認識方法をコンピュータに実行させるためのプログラム。