JP2023139534A

JP2023139534A - ジェスチャ認識装置、頭部装着型表示装置、ジェスチャ認識方法、プログラム、および記憶媒体

Info

Publication number: JP2023139534A
Application number: JP2022045113A
Authority: JP
Inventors: 裕樹田中; Hiroki Tanaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2023-10-04
Also published as: US12087095B2; US20230306788A1; CN116798068A

Abstract

【課題】様々な状況下でジェスチャを高精度に認識することのできる技術を提供する。【解決手段】本発明のジェスチャ認識装置は、撮像画像から、ジェスチャを行う第１部位を検出する第１検出手段と、前記撮像画像から、前記第１検出手段によって検出された前記第１部位における、前記ジェスチャを行う第２部位を検出する第２検出手段と、前記第１検出手段によって検出された前記第１部位の動きと、前記第２検出手段によって検出された前記第２部位の動きとに基づいて、前記ジェスチャを認識する認識手段とを有し、前記第２検出手段によって所定の条件を満たす検出結果が得られなかった場合に、前記認識手段は、前記第２検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識することを特徴とする。【選択図】図３

Description

本発明は、ジェスチャを認識する技術に関する。

ユーザの手や指などによるジェスチャを認識し、認識したジェスチャに応じた処理を行う技術が提案されている。このような技術によれば、ユーザは、ジェスチャによって、電子機器（電子機器の入力デバイス）に触れずに、当該電子機器を操作することができる。

特許文献１には、ユーザの手や指などをカメラで撮像した画像から、ジェスチャを行う部位である手を抽出し、抽出した手の形状を特定して、ジェスチャを認識することが開示されている。

特許文献２には、ジェスチャの認識にディープラーニングを用いることが開示されている。

特開２０１５－１７２８８７号公報特開２０１９－７１０４８号公報

しかしながら、両手を用いたジェスチャなどを認識する場合に、状況に依っては、ジェスチャが高精度に認識できない（ジェスチャの認識が不安定になる）ことがある。例えば、右手と左手が重なり合っている場合に、右手と左手の分離や、関節など（ジェスチャの認識のキーポイント）の検出、手など（ジェスチャを行う部位）の形状の特定（認識）などが高精度に行えない（不安定になる）ことがある。

本発明は、様々な状況下でジェスチャを高精度に認識することのできる技術を提供することを目的とする。

本発明の第１の態様は、撮像画像から、ジェスチャを行う第１部位を検出する第１検出手段と、前記撮像画像から、前記第１検出手段によって検出された前記第１部位における、前記ジェスチャを行う第２部位を検出する第２検出手段と、前記第１検出手段によって検出された前記第１部位の動きと、前記第２検出手段によって検出された前記第２部位の動きとに基づいて、前記ジェスチャを認識する認識手段とを有し、前記第２検出手段によって所定の条件を満たす検出結果が得られなかった場合に、前記認識手段は、前記第２検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識することを特徴とするジェスチャ認識装置である。

本発明の第２の態様は、撮像画像から、ジェスチャを行う第１部位を検出する第１検出ステップと、前記撮像画像から、前記第１検出ステップにおいて検出された前記第１部位における、前記ジェスチャを行う第２部位を検出する第２検出ステップと、前記第１検出ステップにおいて検出された前記第１部位の動きと、前記第２検出ステップにおいて検出された前記第２部位の動きとに基づいて、前記ジェスチャを認識する認識ステップとを有
し、前記第２検出ステップにおいて所定の条件を満たす検出結果が得られなかった場合に、前記認識ステップは、過去の第２検出ステップにおいて得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識することを特徴とするジェスチャ認識方法である。

本発明の第３の態様は、上記ジェスチャ認識装置の認識結果に基づいて表示を制御する表示制御手段を有することを特徴とする頭部装着型表示装置である。本発明の第４の態様は、コンピュータを上記ジェスチャ認識装置の各手段として機能させるためのプログラムである。本発明の第５の態様は、コンピュータを上記ジェスチャ認識装置の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体である。

本発明によれば、様々な環境下でジェスチャを高精度に認識することができる。

ジェスチャ認識装置の構成例を示すブロック図である。手と関節の検出例を示す図である。ジェスチャ認識処理の一例を示すフローチャートである。ジェスチャ認識処理の一例を説明する図である。

本発明の実施形態について説明する。図１は、本実施形態におけるジェスチャ認識装置１０１の構成例を示すブロック図である。ジェスチャ認識装置１０１は、撮像部１０２、システム制御部１０３、不揮発性メモリ１０４、システムメモリ１０５、およびジェスチャ認識部１１０を有する。

撮像部１０２は、複数のレンズを備える光学系と、イメージセンサ（例えば、ＣＣＤまたはＣＭＯＳセンサ）とを有しており、ユーザによるジェスチャが撮像可能な方向を向くように配置されている。本実施形態においてはイメージセンサを用いるとするが、ジェスチャの認識に利用可能なセンサであればよく、測距センサ（例えば、ＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）のようなレーザーを利用したセンサ）を用いてもよい。

不揮発性メモリ１０４は、電気的に消去・記録可能なメモリであり、例えばＦｌａｓｈ－ＲＯＭなどである。不揮発性メモリ１０４には、システム制御部１０３の動作用の定数やプログラムなどが格納される。ここでいう、プログラムとは、例えば、本実施形態にて後述するフローチャートの各処理を実行するためのプログラムのことである。

システムメモリ１０５は、例えばＲＡＭなどであり、システム制御部１０３の動作用の変数や、不揮発性メモリ１０４から読み出された定数やプログラムなどが展開される。

システム制御部１０３は、少なくとも１つのプロセッサまたは回路からなる制御部であり、ジェスチャ認識装置１０１全体を制御する。システム制御部１０３は、前述した不揮発性メモリ１０４に格納されているプログラムを実行することで、後述するフローチャートの各処理を実現する。システム制御部１０３は、撮像部１０２から得られた撮像画像に対してノイズ除去やリサイズなどの画像処理を施すことで検出画像を生成し、検出画像をシステムメモリ１０５に記録する。また、システム制御部１０３は、ジェスチャ認識部１１０によって認識されたジェスチャに応じた処理を実行する。例えば、システム制御部１０３は、認識されたジェスチャに対応する制御信号を生成し、当該制御信号を用いてジェスチャ認識装置１０１の各部を制御する。

ジェスチャ認識部１１０は、対象部位検出部１１１、詳細部位検出部１１２、詳細部位判断部１１３、およびジェスチャ検出部１１４を有し、撮像部１０２から得られた撮像画像（具体的には、上述した検出画像）に基づいてジェスチャを認識する。

ジェスチャ認識部１１０について、図２を用いて詳細に説明する。図２は、本実施形態における手と関節の検出例を示す図である。

図２の画像２００は、撮像部１０２から得られた撮像画像に画像処理を施した検出画像である。検出画像２００には、ジェスチャ（ジェスチャ操作）を行うユーザの左手２１１と右手２１２が写っている。図２の画像２０１は、検出画像２００に対象部位検出部１１１と詳細部位検出部１１２の検出結果を重畳した画像である。

対象部位検出部１１１は、検出画像２００から、ジェスチャを行う対象部位である手を検出（抽出）する。図２では、左手２１１と右手２１２のそれぞれについて、手領域（手の領域）が検出されている。手領域は、例えば手の中心位置を中心として当該手を囲む矩形領域である。左手２１１については手領域２２１が検出され、右手２１２については手領域２２２が検出される。

詳細部位検出部１１２は、検出画像２００から、対象部位検出部１１１によって検出された対象部位における、ジェスチャを行う詳細部位である関節を検出（抽出）する。図２では、左手２１１と右手２１２のそれぞれについて、手首から各指先までの２１点の関節位置（関節の位置）が検出されている。対象部位検出部１１１は、２１点の関節位置に基づいて関節情報を得る。左手２１１については関節情報２３１が得られ、右手２１２については関節情報２３２が得られる。関節情報２３１，２３２は、２１点の関節位置と、骨格を形成するように２１点の関節位置を繋ぐ複数の線分とを示す。関節情報が示す関節位置は、例えば、手領域に対する相対位置である。関節情報２３１が示す関節位置は、手領域２２１に対する相対位置であり、関節情報２３２が示す関節位置は、手領域２２２に対する相対位置である。なお、本実施形態では、ユーザが手や指でジェスチャを行うとするが、体や腕、足、顔、目、口などでジェスチャを行ってもよい。対象部位を体とし、詳細部位を腕や腕の関節などとしてもよい。対象部位を顔とし、詳細部位を目などとしてもよい。また、検出画像が大きい（検出画像の画素数が多い）場合には、詳細部位の検出に長い時間を要してしまう。リサイズによって小さい検出画像（解像度（画素の密度）の低い検出画像）が得られるようにすると、詳細部位の検出に要する時間は短くなるが、当該検出の精度が低下てしまう。そのため、検出画像から対象部位の領域（手領域２２１や手領域２２２）を切り出し、当該切り出した領域の画像（切り出し画像）から詳細部位を検出してもよい。切り出し画像の解像度は検出画像と同じであるが、切り出し画像は検出画像よりも小さい（切り出し画像の画素数は検出画像よりも少ない）。そのため、切り出し画像から詳細部位を検出するようにすれば、詳細部位を短時間かつ高精度で検出することが可能になる。

詳細部位判断部１１３は、詳細部位検出部１１２によって得られた検出結果（関節情報）の信頼度を判断（算出）する。そして、詳細部位判断部１１３は、信頼度が閾値ＴＨ以上であるか否かに基づいて、ジェスチャ検出部１１４で用いる関節情報を決定する。信頼度の判断方法や、ジェスチャ検出部１１４で用いる関節情報の決定方法などの詳細（具体例）については後述する。

ジェスチャ検出部１１４は、対象部位検出部１１１によって検出された対象部位（手）の動きと、詳細部位検出部１１２によって検出された詳細部位（関節）の動きとに基づいて、ジェスチャを検出（認識）する。本実施形態では、ジェスチャ検出部１１４は、対象
部位検出部１１１の検出結果（手領域）と詳細部位判断部１１３の判断結果（関節情報）とを用いて、ジェスチャを検出する。ジェスチャ検出部１１４は、例えば、対象部位検出部１１１の検出結果（手領域）と詳細部位判断部１１３の判断結果（関節情報）とを、予め不揮発性メモリ１０４に格納しておいたジェスチャモデルと照合して、ジェスチャを検出する。なお、ジェスチャの検出方法はこれに限られず、ディープラーニングなどで学習された検出器を用いてジェスチャを検出してもよい。ディープラーニングを用いる場合には、ＲＮＮ（回帰型ニューラルネットワーク）を用いることで、関節情報の時系列データから、１フレームのデータからは検出できないジェスチャ（指で円を描くジェスチャなど）を検出することが可能となる。ジェスチャ検出部１１４が検出可能なジェスチャは１つに限られず、ジェスチャ検出部１１４は複数のジェスチャを検出可能であってもよい。

本実施形態におけるジェスチャ認識処理について説明する。図３は、本実施形態におけるジェスチャ認識処理の一例を示すフローチャートである。この処理は、システム制御部１０３が不揮発性メモリ１０４に格納されているプログラムをシステムメモリ１０５に展開して実行することにより実現される。例えば、ジェスチャ認識装置１０１が起動すると、図３の処理が開始する。図４は、本実施形態におけるジェスチャ認識処理の一例を説明する図である。図４では、検出画像４０１～４０３が時系列順に並べられている。検出画像４０１が最も古く、検出画像４０３が最も新しい。検出画像４０１～４０３には左手４０５と右手４１１が写っている。以下では、右手４１１に関する処理について説明するが、複数の手のジェスチャが認識できるように、右手４１１に関する処理と、左手４０５に関する処理とを並列に行ったり、順に行ったりしてもよい。左手４０５に関する処理は、右手４１１に関する処理と同様である。

ステップＳ３０１では、システム制御部１０３は、撮像部１０２から撮像画像を取得し、撮像画像に画像処理を施すことにより検出画像４０１を生成（取得）する。そして、システム制御部１０３は、対象部位検出部１１１を用いて、生成した検出画像４０１から手領域４１２を検出する。

ステップＳ３０２では、システム制御部１０３は、ステップＳ３０１で手領域４１２が検出できたか否かを判定する。手領域４１２が検出できた場合はステップＳ３０３に進み、そうでない場合はステップＳ３０１に戻る。ここでは、手領域４１２が検出できたとし、ステップＳ３０３に進むとする。

ステップＳ３０３では、システム制御部１０３は、詳細部位検出部１１２を用いて、ステップＳ３０１で検出した手領域４１２から関節情報４１３を取得する。

ステップＳ３０４では、システム制御部１０３は、詳細部位判断部１１３を用いて、ステップＳ３０３で取得した関節情報４１３（詳細部位検出部１１２の検出結果）の信頼度を判断（算出）する。関節情報の時系列データに基づいて、検出画像における関節の移動量（移動速度）が閾値ＴＨ１よりも大きいと判断される場合、例えば関節が想定外の大きさ（速度）で移動したと判断される場合には、誤った関節情報が取得されている可能性が高い。検出画像における複数の関節の間隔が閾値ＴＨ２よりも長いと判断される場合、例えば関節の間隔が想定外の長さであると判断される場合にも、誤った関節情報が取得されている可能性が高い。手のうち、検出画像に写っている部分の割合（例えば、手領域４１２の画素数に対する右手４１１の画素数の割合）が閾値ＴＨ３よりも小さい場合、例えば手の大部分が別の手などによって隠れている場合にも、誤った関節情報が取得されている可能性が高い。そのため、これらの場合において、信頼度を低く算出してもよい。なお、詳細部位検出部１１２が、ディープラーニングなどで学習された検出器のように、検出結果と共に、その信頼度を示すスコアを出力してもよい。

ステップＳ３０５では、システム制御部１０３は、詳細部位判断部１１３を用いて、ステップＳ３０４で判断（算出）した信頼度が閾値ＴＨ以上か否かを判定する。信頼度が閾値ＴＨ以上の場合は、システム制御部１０３は、ステップＳ３０３で取得した関節情報４１３を、ジェスチャ検出部１１４で用いる関節情報として決定し、システムメモリ１０５に保存する。そして、ステップＳ３０６に進む。信頼度が閾値ＴＨ未満の場合は、システム制御部１０３は、システムメモリ１０５に保存されている関節情報、つまり詳細部位検出部１１２によって過去に得られた、閾値ＴＨ以上の信頼度の関節情報を、ジェスチャ検出部１１４で用いる関節情報として決定する。そして、ステップＳ３０７に進む。例えば、検出画像における関節の移動量が閾値ＴＨ１よりも大きい場合や、検出画像における複数の関節の間隔が閾値ＴＨ２よりも長い場合、手のうち検出画像に写っている部分の割合が閾値ＴＨ３よりも小さい場合に、信頼度は閾値ＴＨよりも低くなる。なお、信頼度が閾値ＴＨ以上であるという条件を用いたが、関節情報が高精度に（正確に）検出できている場合に満たされ、そうでない場合に満たされない条件であれば、別の所定の条件を用いてもよい。所定の条件が満たされたか否かでジェスチャ検出部１１４で用いる関節情報を切り替えることで、ジェスチャ検出部１１４による誤った関節情報の使用を抑制することができ、ひいてはジェスチャの誤検出を抑制することができる。ここでは、信頼度が閾値ＴＨ以上であるとし、ステップＳ３０６に進むとする。

ステップＳ３０６では、システム制御部１０３は、ジェスチャ検出部１１４を用いて、ステップＳ３０１で検出した手領域４１２と、ステップＳ３０３で取得した関節情報４１３とから、ジェスチャを検出（認識）する。

ステップＳ３０９では、システム制御部１０３は、ジェスチャ認識処理を終了するか否かを判定する。ジェスチャ認識処理を終了する場合はジェスチャ認識処理を終了し、そうでない場合はステップＳ３０１に戻る。ここでは、ステップＳ３０１に戻るとする。ステップＳ３０１で、システム制御部１０３は、新たな検出画像４０２を取得して、手領域４２２を検出する。ステップＳ３０２で、システム制御部１０３は、手領域４２２が検出できたか否かを判定する。ここでは、手領域４２２が検出できたとし、ステップＳ３０３に進むとする。システム制御部１０３は、ステップＳ３０３で関節情報４２３を取得し、ステップＳ３０４で関節情報４２３（詳細部位検出部１１２の検出結果）の信頼度を判断（算出）する。そして、ステップＳ３０５で、システム制御部１０３は、関節情報４２３の信頼度が閾値ＴＨ以上か否かを判定する。ここでは、信頼度が閾値ＴＨ未満であるとし、ステップＳ３０７に進むとする。

ステップＳ３０７では、システム制御部１０３は、システムメモリ１０５から過去の関節情報（閾値ＴＨ以上の信頼度の関節情報）を取得する。そして、ステップＳ３０８に進む。システムメモリ１０５に関節情報が保存されていない場合（閾値ＴＨ以上の信頼度の関節情報が過去に得られていない場合）は、ジェスチャを認識しないように、ステップＳ３０１に戻る。ここでは、システムメモリ１０５に関節情報４１３が保存されているとし、システムメモリ１０５から関節情報４１３を取得してステップＳ３０８に進むとする。なお、システムメモリ１０５に複数の関節情報が保存されている場合には、最新の関節情報を取得してもよい。システムメモリ１０５に関節情報が保存されていても、ジェスチャを高精度に認識できない可能性が高い場合には、ジェスチャを認識（検出）しないように、ステップＳ３０１に戻ってよい。例えば、現在に対して所定時間前のタイミングよりも古い関節情報しか保存されていない場合（閾値ＴＨ以上の信頼度の関節情報が所定時間前のタイミングよりも後に得られていない場合）には、ステップＳ３０１に戻ってよい。検出画像における右手４１１の移動量（例えば右手４１１の中心位置の移動量）が閾値ＴＨ４よりも大きい場合にも、ステップＳ３０１に戻ってよい。

ステップＳ３０８では、システム制御部１０３は、ジェスチャ検出部１１４を用いて、
ステップＳ３０１で検出した手領域４２２と、ステップＳ３０７で取得した過去の関節情報４１３とから、ジェスチャを検出（認識）する。

ステップＳ３０９では、システム制御部１０３は、ジェスチャ認識処理を終了するか否かを判定する。ジェスチャ認識処理を終了する場合はジェスチャ認識処理を終了し、そうでない場合はステップＳ３０１に戻る。ここでは、ステップＳ３０１に戻るとする。ステップＳ３０１で、システム制御部１０３は、新たな検出画像４０３を取得して、手領域４３２を検出する。ステップＳ３０２で、システム制御部１０３は、手領域４３２が検出できたか否かを判定する。ここでは、手領域４３２が検出できたとし、ステップＳ３０３に進むとする。システム制御部１０３は、ステップＳ３０３で関節情報４３３を取得し、ステップＳ３０４で関節情報４３３（詳細部位検出部１１２の検出結果）の信頼度を判断（算出）する。

以上述べたように、本実施形態によれば、詳細部位検出部１１２によって所定の条件を満たす検出結果が得られなかった場合に、詳細部位検出部１１２によって過去に得られた、所定の条件を満たす検出結果を用いて、ジェスチャが認識される。こうすることで、様々な環境下でジェスチャを高精度に認識することができる。

なお、上記実施形態はあくまで一例であり、本発明の要旨の範囲内で上記実施形態の構成を適宜変形したり変更したりすることにより得られる構成も、本発明に含まれる。例えば、ジェスチャ認識装置１０１は、ＡＲ（拡張現実）に対応したスマートグラスなどの電子機器（頭部装着型表示装置）に設けられてもよい。この場合は、頭部装着型表示装置が有する表示制御部は、ジェスチャ認識装置１０１の認識結果に基づいて表示を制御する。ジェスチャ認識装置１０１（ジェスチャ認識部１１０）は、頭部装着型表示装置とは別体の電子機器であってもよく、例えばクラウド上のコンピュータ（サーバ）などであってもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１：ジェスチャ認識装置１０３：システム制御部１１０：ジェスチャ認識部
１１１：対象部位検出部１１２：詳細部位検出部１１３：詳細部位判断部
１１４：ジェスチャ検出部

Claims

撮像画像から、ジェスチャを行う第１部位を検出する第１検出手段と、
前記撮像画像から、前記第１検出手段によって検出された前記第１部位における、前記ジェスチャを行う第２部位を検出する第２検出手段と、
前記第１検出手段によって検出された前記第１部位の動きと、前記第２検出手段によって検出された前記第２部位の動きとに基づいて、前記ジェスチャを認識する認識手段と
を有し、
前記第２検出手段によって所定の条件を満たす検出結果が得られなかった場合に、前記認識手段は、前記第２検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識する
ことを特徴とするジェスチャ認識装置。
前記撮像画像における前記第２部位の移動量が閾値よりも大きい場合に、前記認識手段は、前記第２検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いる
ことを特徴とする請求項１に記載のジェスチャ認識装置。
前記第２検出手段は、複数の第２部位を検出し、
前記撮像画像における前記複数の第２部位の間隔が閾値よりも長い場合に、前記認識手段は、前記第２検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いる
ことを特徴とする請求項１または２に記載のジェスチャ認識装置。
前記第１部位のうち、前記撮像画像に写っている部分の割合が閾値よりも小さい場合に、前記認識手段は、前記第２検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いる
ことを特徴とする請求項１～３のいずれか１項に記載のジェスチャ認識装置。
前記第２検出手段によって得られた検出結果の信頼度を判断する判断手段をさらに有し、
前記判断手段によって判断された前記信頼度が閾値よりも低い場合に、前記認識手段は、前記第２検出手段によって過去に得られた、前記閾値よりも高い信頼度の検出結果を用いる
ことを特徴とする請求項１～４のいずれか１項に記載のジェスチャ認識装置。
前記第２検出手段は、前記第１検出手段によって検出された前記第１部位の領域を前記撮像画像から切り出し、当該切り出した領域の画像から前記第２部位を検出する
ことを特徴とする請求項１～５のいずれか１項に記載のジェスチャ認識装置。
前記認識手段によって認識された前記ジェスチャに対応する制御信号を生成する生成手段をさらに有する
ことを特徴とする請求項１～６のいずれか１項に記載のジェスチャ認識装置。
前記第２検出手段によって前記所定の条件を満たす検出結果が得られなかった場合に、前記認識手段は、前記第２検出手段によって過去に得られた、前記所定の条件を満たす最新の検出結果を用いる
ことを特徴とする請求項１～７のいずれか１項に記載のジェスチャ認識装置。
前記第２検出手段によって前記所定の条件を満たす検出結果が得られなかった場合であ
っても、前記所定の条件を満たす検出結果が前記第２検出手段によって過去に得られていない場合には、前記認識手段は、前記ジェスチャを認識しない
ことを特徴とする請求項１～８のいずれか１項に記載のジェスチャ認識装置。
前記第２検出手段によって前記所定の条件を満たす検出結果が得られなかった場合であっても、前記所定の条件を満たす検出結果が前記第２検出手段によって所定時間前のタイミングよりも後に得られていない場合には、前記認識手段は、前記ジェスチャを認識しない
ことを特徴とする請求項１～９のいずれか１項に記載のジェスチャ認識装置。
前記第２検出手段によって前記所定の条件を満たす検出結果が得られなかった場合であっても、前記撮像画像における前記第１部位の移動量が閾値よりも大きい場合には、前記認識手段は、前記ジェスチャを認識しない
ことを特徴とする請求項１～１０のいずれか１項に記載のジェスチャ認識装置。
前記第１部位は手であり、前記第２部位は関節である
ことを特徴とする請求項１～１１のいずれか１項に記載のジェスチャ認識装置。
請求項１～１２のいずれか１項に記載のジェスチャ認識装置の認識結果に基づいて表示を制御する表示制御手段を有する
ことを特徴とする頭部装着型表示装置。
撮像画像から、ジェスチャを行う第１部位を検出する第１検出ステップと、
前記撮像画像から、前記第１検出ステップにおいて検出された前記第１部位における、前記ジェスチャを行う第２部位を検出する第２検出ステップと、
前記第１検出ステップにおいて検出された前記第１部位の動きと、前記第２検出ステップにおいて検出された前記第２部位の動きとに基づいて、前記ジェスチャを認識する認識ステップと
を有し、
前記第２検出ステップにおいて所定の条件を満たす検出結果が得られなかった場合に、前記認識ステップは、過去の第２検出ステップにおいて得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識する
ことを特徴とするジェスチャ認識方法。
コンピュータを、請求項１～１２のいずれか１項に記載のジェスチャ認識装置の各手段として機能させるためのプログラム。
コンピュータを、請求項１～１２のいずれか１項に記載のジェスチャ認識装置の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体。