JP2016520946A

JP2016520946A - 人間対コンピュータの自然な３次元ハンドジェスチャベースのナビゲーション方法

Info

Publication number: JP2016520946A
Application number: JP2016518540A
Authority: JP
Inventors: ゾット、ダヴィッドダル; レニュイ、アントワーヌ; シモンズ、ケヴィン
Original assignee: ソフトキネティックソフトウェア
Priority date: 2014-01-07
Filing date: 2015-01-06
Publication date: 2016-07-14
Also published as: WO2015104257A1; US11294470B2; EP2891950A1; CN105849673A; KR101761050B1; EP2891950B1; US20160124513A1; KR20160006751A

Abstract

人間対コンピュータの３次元ハンドジェスチャベースの自然なインタラクションを可能にするための方法が本明細書において説明される。測距撮像システムによって提供される奥行き画像から、方法は、ユーザが自身の手を自由に動かす環境において制御（インタラクション）ジェスチャが作動している期間を区切るための所定の型の自然なジェスチャの始まり（開始）および終了（停止）を含む特定の一連の自然なジェスチャを効率的かつ堅固に検出することを可能にする。本発明は、限定的ではないが特に、指先または手先ベースの自然なジェスチャの終了までグラフィカルユーザインタフェース内での効率的かつ堅固なナビゲーション、ズーム、およびスクロールインタラクションを提供するために、指先または手先ベースの自然なジェスチャの開始に続いて意図的に実行される自然なジェスチャを偽陽性や遅延を一切伴わずに検出することに関する。

Description

本発明は、３次元ハンドベースジェスチャ認識を用いる人間対コンピュータのインタラクションにおける、またはそれらに関する改良に関する。本発明は、それだけには限らないが特に、イベントをトリガするためのデバイスシステムを有さず自由に動く手の連続的な動作にも関わらず従来のグラフィカルユーザインタフェースにおいて信頼できるナビゲーション、スクロール、およびズームインタラクションを提供するように、意図的に行われる特定の一連の自然なジェスチャの、偽陽性や遅延を伴わないリアルタイム検出に関する。

従来の人間対コンピュータインタフェースは、例えばキーボード、マウス、遠隔制御装置およびポインティングデバイスなどのハードウェア制御システムインタフェースを含む。そのようなインタフェースの場合、それらのデバイスインタフェースによって、例えばトリガされる２値イベントや連続値などの制御コマンドが、インタフェースがインタラクトしようと意図されるコンピュータシステムへ送信され得ることが可能になるように、物理的動作は、例えばタッチする、動かす、把持する、ポイントする、押す、動かす、クリックする、あるいはそれらの動作の複数を連続して、または同時に行うなど、ハードウェアデバイス自体で実行される必要がある。

コンピュータシステムは多くの場合、ユーザに視覚フィードバックを提供するために表示されるウインドウ、ボタン、および他のアイテムや要素を有するグラフィカルユーザインタフェース（ＧＵＩ）を備え、それらは、従来の人間対コンピュータハードウェアインタフェースの有用性および人間工学に準拠して設計される。例えば、オペレーティングシステムは多くの場合、例えばマップ、画像、またはテキストボックスなどコンテンツ内のナビゲーションを可能にするためのスクロールバーを備えるＧＵＩウインドウを有し、そのサイズは、ディスプレイスクリーンサイズ自体の大きさによって区切られたエリア内に表示されるものよりも大きい。スクロールバーとのインタラクションは、マウス型ハードウェアデバイスのホイールを用いて、あるいはマウスの動きと把持クリック動作とを併用することによって最適化される。更に、従来のＧＵＩは多くの場合、ＧＵＩのコンテンツのズームインおよびズームアウトのためにマウスボタンによってユーザがクリックするボタンを備える。

更に、従来のＧＵＩはまた多くの場合、マウスの動きに応じてマップをスクロールさせるため、あるいは１つのマップエリアから別のマップエリアに変更するために、連続的なマウスの動きを伴ったクリックを通常必要とするマップナビゲーションＧＵＩインタラクションを備える。

昨今は、非接触インタラクションシステムが使用できるようになりつつある。これらのシステムは、時間に関してシーンの画像を連続的に捕捉するためのデバイス、および捕捉されたシーンにおいてユーザによって実行されたジェスチャを決定するための方法に基づく。そのような非接触インタラクションシステムは、既存のハードウェアインタフェースと併用されるか、あるいは任意選択的に、従来のハードウェアインタフェースと同じ制御コマンドを連続的に捕捉されたシーンの画像において認識されたジェスチャからトリガすることによって単独で用いられることが意図される。

ＵＳ−Ａ−２０１１／０１１５８９２号において、従来の２次元（２Ｄ）カメラは、２Ｄ画像において、可視スペクトルにおける光を捕捉し、ジェスチャが認識され得るユーザの指を検出するために用いられる。コンピュータ化されたシステムとインタラクトするためにジェスチャが用いられ得る。しかし、従来の２Ｄ撮像技術に固有の制約、特に撮像システムに固有の制約が、変化する明るさを有する環境における物体の検出および認識を信頼できないものにする。例えば、ペンなど指に似た物体は、用いられる技術が原因となり誤って指として識別または検出されることがあり、あるいは、シーンの明るさに対する画像品質の依存が原因となり、連続的に捕捉された画像における指の追跡が失われ得る。

最新の２Ｄ画像処理技術は、ユーザの手の許容可能な検出を行い、いくつかのハンドパラメータおよびその動きの検出および分析による非常に単純なハンドジェスチャベースのインタラクションを提供するために、従来の２Ｄカラーカメラを用いることを可能にする。特に、２Ｄ背景学習技術およびその後の背景除去処理と併用される最新鋭の自動露出技術は、シーンからの対象となる前景物体の更に効率的な抽出を提供し、シーンはクラスタに分割され、そこから物体認識が実行され得る。この方法で、ユーザの手は、肌色検出および形状的特徴に起因するある程度の堅固性を伴って２Ｄカラー画像から抽出され、基本的なジェスチャ認識が実行され得る。しかし、ユーザの身体部分と撮像デバイスとの距離が著しく変化し、その結果、捕捉された２Ｄ画像におけるそれらの表現が一貫性を欠くことがあるため、現実の３Ｄ環境において自由に動くユーザの身体部分（例えば手）を効率的かつ正確に分析することは未だ不可能である。

ＵＳ−Ａ−２０１１／１９７２６３号は、手の基準点と基準となる手構造との合致および比較に頼る、空間入力ベースのマルチユーザ共有ディスプレイセッションを提供するためのシステムおよび方法を開示する。検出された手の部分は、合致する手の部分を識別し、手の部分同士を繋ぎ合わせ、手の基準点のベクトルを生成し、合致する手構造を識別するために、手の基準データ記憶装置に記憶された基準となる手オブジェクトモデルと比較され得る。手の基準点のベクトルは、合致する手構造を識別するために、手の基準データ記憶装置に記憶された基準となる手構造と比較され得る。

ＵＳ−Ａ−２０１３／２７８５０４号は、手の周囲にバウンディングボックスが効果的に設けられた手検出システムを開示する。手に関連する形状的特徴、例えば、偏心度、緊密度、向き、矩形性、幅中心、高さ中心、最小ボックス角度、最小ボックス幅、欠陥の数、バウンディングボックスの左部と右部との距離、および／またはバウンディングボックスの上部と下部との距離が、システム内に記憶されたデータとの比較のためにジェスチャ識別モジュールへ入力される。

ＣＮ−Ａ−１０２２３６４０９号は、エッジ検出を用いて入力画像において手が識別されると、事前設定された開始および停止ジェスチャが実行されたかを判別するために手が追跡される手検出システムを開示する。ジェスチャの判別は、手における見えている指の数に基づく。

ＵＳ−Ａ−２０１２／００６９１６８号において、例えば手の平中心や手の平の付け根、および、シーンから抽出された手のマスクを用いた手の平中心から手の輪郭すなわち末端部までの画素の距離など、様々な手関連データやハンドパラメータを探索するために色情報が用いられる。これらの距離は、手が開いているか閉じているかを判定するためにも用いることができ、この判定から、手がオブジェクト「選択」ジェスチャを実行しているかが判別され得る。しかし、そのようなジェスチャベースの方法には限界があるので、コンピュータとの３Ｄポインティングのようなインタラクションを分析するためのローエンドプラットフォームにおいて効率的なリアルタイム処理を提供する堅固なソリューションを提供することはできず、また、そのような方法は、色を区別することができない暗い環境で使用することもできない。更に、検出される「選択」ジェスチャは、実際の対物距離およびサイズの測定値が存在しないために正確ではない。従って撮像デバイスからの様々な距離で正確に仮想オブジェクトを「ポイント」し「選択」することは確かではない。更に、そのようなソリューションは、例えば３Ｄ空間において変化する手の向きや指ベースの３Ｄジェスチャのサポートなど、高い信頼性レベルの要件をサポートするために用いることはできない。

任意のソリューションまたは環境において堅固かつ効率的なハンドジェスチャ認識を可能にするために２Ｄ画像捕捉ソリューションが強力な回復不能の制限に見舞われると、結果としてそれらは、信頼できる制御コマンドまたは信頼できる関連する人間対コンピュータインタラクションを提供する更に導出された信号処理方法を可能にするために適切ではないと承認される。

しかし、第３の次元、すなわち奥行きに関する情報は、いくつかの新たな距離感知カメラシステムである３Ｄカメラによって昨今使用できるようになったデータである。それらの３Ｄカメラすなわち３Ｄ撮像システムの１つの利点は、特に、例えばユーザの手および手に関連するパラメータのより良い検出認識および追跡を可能にする、より正確で絶対的な距離メトリック情報を提供する能力である。この第３次元は更に、例えば、ユーザの身体部分すなわち手の末端部に対応する少なくとも１つのクラスタ、およびハンドプッシュジェスチャ、ハンドクリックジェスチャ、ハンドプルジェスチャ、ハンドスワイプジェスチャ、ハンドサークルジェスチャ、あるいは単に手の３Ｄ位置ベースのポインティングジェスチャのうち少なくとも１つを、ユーザを備えるクラスタ化された奥行きマップにおいて、一般的に長距離（例えば約３ｍ）で決定することを備える方法が開示される、ＥＰ−Ａ−２６１３２２３号におけるような静的および／または動的ジェスチャを含む、空間内の３Ｄ位置および／または３Ｄ姿勢を決定することを可能にする。ジェスチャは予め決定され、明確で一貫した動作を実行している手や末端部が検出された３Ｄ空間の区切られたエリア内で認識される。

更に、そのような距離撮像システム（３Ｄカメラ）は、それ自体に照明を設け得るので、可視スペクトルではなく赤外線スペクトルにおいて作動することができる。例えば飛行時間型（ＴＯＦ）３Ｄカメラなどのそのような距離感知システムは、シーン捕捉がもはやそのシーンの自然照明に依存しないことにより、ユーザの身体部分（例えば手）の部分のより堅固で、安定した、信頼できる正確な検出を有する可能性をもたらす３Ｄ情報を提供する。加えて、物体の絶対的サイズおよび距離の測定値の供給は、画像感知デバイスから対象となる物体（すなわち手）までの距離に対する計算能力の依存（リアルタイム要件面）を打開する。

手の３Ｄ寸法および３Ｄ位置のリアルタイムでの測定に取り組むいくつかの画像処理方法、および関連するハンドベース３Ｄジェスチャ認識技術は現在、着実に、３Ｄカメラによって提供されるデータの使用に適合するようになっている。そのような方法は、少なくとも奥行き情報、および任意選択的に、シーンの照明レベルに対応するグレースケール信頼画像およびカラー画像の少なくとも１つを用いる。

３Ｄハンドベースジェスチャ認識の分野における従来技術の発展にも関わらず、距離撮像システムによって提供されるデータから、正確で、効率が良く（すなわち、限られた処理能力要件に伴う遅延がなく）、堅固かつ信頼できる（すなわち、偽陽性ジェスチャ検出がない）システムを得ることは未だ困難である。指ベースジェスチャ認識はかつてない分野である。これは、ジェスチャ認識技術が適用され得るユーザの手および／または指の新たな検出および追跡技術、新たなジェスチャ認識技術それ自体、および新たな、または適合した人間対コンピュータインタラクションの組み合わせを必要とする問題の複雑さに起因する。

具体的には、第１の問題は、タッチベースのインタラクションやマウスデバイスベースのインタラクションのために設計されたＧＵＩのための人間対コンピュータインタフェース（ＨＣＩ）として、３Ｄハンドジェスチャ認識ベースのインタラクションが現在最も使用されており、例えば連続的な制御値と併用されるイベントトリガなどの更なるコマンドを必要とする。手の動作は実際には連続的な現象であるので、意図的なインタラクションと非意図的なインタラクションとを区別する能力を伴って従来のＧＵＩを有する３Ｄハンドジェスチャ認識システムを用いようと試みる場合、第２の問題が生じる。更に具体的には、第３の本質的な問題は、ユーザが自由に動く環境において所定の自然なジェスチャの始まり（開始）および終了（停止）の正確かつ信頼できる検出を、少なくとも１つの片手の連続的な動きの中で決定しなければならないことである。

これは、ジェスチャが好適には自然で、直感的で、行うのが非常に簡単である必要がある場合、また、手が、制御ジェスチャ（すなわちインタラクション）が開始および停止し得る時を示すイベントをトリガするために用いられ得る任意のボタン、ホイール、または任意の専用に設計されたアクチュエータを元々備えていないため、更にいっそう問題となる。

従来のＧＵＩの１つのボタンを、遅延を伴わずに直感的に制御すること、あるいは、例えばマップにおいて、制御すべきスクロールバーを有するアプリケーションのＧＵＩにおいて、または明確かつ確実に認識可能かつ反復可能な単純なジェスチャによってアクセスされ得る複数のウインドウを有するＧＵＩにおいてなど、ＧＵＩにおける自然で正確で迅速かつ単純な上下左右のスクロールのための開閉状態を備えるにすぎない既存の３Ｄハンドベースジェスチャ認識システムを容易に用いることは、不可能に近いというのが１つの結論である。

本明細書で説明される本発明は、これらの問題に対する解決策を提供する。

本発明の一態様によると、３次元ハンドジェスチャベースの認識システムを用いて自然な人間対コンピュータインタラクションを提供するための方法が提供され、方法は、
ａ）ユーザの手における少なくとも２つの注視点を決定するステップと、
ｂ）上記２つの注視点によって実行される自然なジェスチャを認識するステップであって、
ｂ１）３次元空間における２つの注視点が互いに近づき合う場合に２つの注視点の間の距離が所定の閾値を下回ることを判別することによって、人間対コンピュータインタラクションの始まりをトリガする３次元ハンドポーズに対応する第１の自然なジェスチャを認識することと、
ｂ２）上記第１の３次元ハンドポーズが続く限り制御される連続的な人間対コンピュータインタラクションを制御するために、手の少なくとも１つの注視点の動きから第２の自然なジェスチャを認識することと、
ｂ３）人間対コンピュータインタラクションの終了をトリガするために、上記第１の３次元ハンドポーズが解除され次第判別される第３の自然なジェスチャを認識することと
を含むステップと、
ｃ）上記注視点によって実行される一連の上記第１、第２、および第３の自然なジェスチャを用いてグラフィカルユーザインタフェースとインタラクトするステップと
を含む方法が提供される。

時間内に後続する３次元ハンドポーズの明確な発生を検出することによって、自然な手の動きが意図的であるか非意図的であるか、すなわち制御ジェスチャが意図的であるか非意図的であるか、およびそれが開始および停止する時を判定することが可能である。

少なくとも２つの注視点を用いて３次元ハンドポーズに対応する第１の３次元ジェスチャを検出および判別すること、および、上記第１の３次元ハンドポーズが続く限り人間対コンピュータインタラクションを制御することによって、連続的なインタラクションに対応する第２の後続する３次元ジェスチャを検出および判別することが可能である。上記第１の３次元ハンドポーズ（すなわち、開始イベントをトリガした３次元ジェスチャ）の解除は、停止イベントに対応する第３の３次元ジェスチャの検出をトリガし、上記第２の後続する連続的な３次元インタラクションの停止を意味する。

更に、３次元ハンドポーズに対応する第１の３次元ジェスチャにおける穴の存在、およびそれに続く、第１の３次元ハンドポーズの解除に対応する第３の３次元ジェスチャにおける除去を検出することによって、手の動きが意図的であるか非意図的であるかをより堅固に判別することが可能である。これは、人間対コンピュータインタラクションのために用いられる一連の自然な３次元ハンドジェスチャの３つの主相、すなわち、人間対コンピュータインタラクションの開始、人間対コンピュータインタラクションそのもの、および人間対コンピュータインタラクションの終了の正確かつ信頼できる検出を提供する。

本発明は、第１の態様において、ユーザの手におけるパラメータおよび注視点（ＰＯＩ）を決定するための方法に関し、それらのＰＯＩは指先を含むがその限りではない。パラメータの決定は、３Ｄ測距撮像システムによって捕捉されるクラスタ化された３Ｄ点群（すなわちクラスタ化された奥行きマップ）を入力として用いる。少なくとも１つの手の３Ｄ位置、ポーズ、動作、および向きに関わらず検出は可能である。

具体的には本発明は、手のＰＯＩを検出および追跡することに関し、それらＰＯＩは、手先、指先（すなわち手および指の末端部）、手の平中心、および、手の平中心と末端部における他の複数のＰＯＩとを用いて決定されるＰＯＩの中から少なくとも２つのＰＯＩを備えることを特徴とし、これらＰＯＩの２つは、信頼できる指先ベースの「摘む」３Ｄジェスチャ、信頼できる指先ベースの「クリック」３Ｄジェスチャ、および手先の「掴む」３Ｄジェスチャの少なくとも１つの検出を可能にするために選択および追跡され、これらＰＯＩの１つは、ハンドベース３Ｄ「ポインティング」ジェスチャ（またはインタラクションジェスチャ）を可能にするために選択および追跡される。

本発明は、第２の態様において、指先ベースの「摘む」ジェスチャ、指先ベースの「クリック」ジェスチャ、およびハンドベースの「掴む」ジェスチャの中から所定の３Ｄジェスチャが発生し、解除された時を判別するため、また、ハンドベースの「ポインティング」３Ｄジェスチャ（またはインタラクションジェスチャ）から連続的な制御コマンドを決定するための方法に関する。

本発明は、第３の態様において、信頼できる指先ベースの「摘む」３Ｄジェスチャ、信頼できる指先ベースの「クリック」３Ｄジェスチャ、および手先の「掴む」３Ｄジェスチャの１つの発生および解除の検出によって判別される、「開始」および「終了」インタラクションイベントの一連の検出とともに、ハンドベースの連続的な「ポインティング」ジェスチャ（またはインタラクションジェスチャ）を用いることによって、グラフィカルユーザインタフェースのスクロール、ズーム、およびナビゲーション機能を制御するための３Ｄハンドジェスチャベースの人間対コンピュータインタラクション処理に関する。

１つの有利な実施形態において、本発明は、３次元指およびハンド３Ｄジェスチャベース認識システムを用いる自然な人間対コンピュータインタラクションを提供し、その方法は、第１の所定の３Ｄジェスチャ（開始イベント）が所定の人間対コンピュータインタラクションの始まりをトリガし、第２の後続する（連続的インタラクション）３Ｄジェスチャが人間対コンピュータインタラクションを制御し、第３の所定の３Ｄジェスチャ（停止イベント）が認識されると第２の（インタラクション）３Ｄジェスチャが過ぎ去ることを特徴とする。

一実施形態において、ステップｂ２）は、ステップｂ１）に続いて実行され、少なくとも１つの注視点の位置の連続的な変化を検出および追跡することを備える。この位置の連続的な変化の検出および追跡は、手における少なくとも１つのＰＯＩの３Ｄ位置の変化を検出および追跡することを備え得る。

好適な一実施形態において、ステップｂ１）およびｂ３）は、ステップｂ２）に関して用いられる注視点と異なる注視点を用いることを備える。この場合、第１および第３（開始および停止イベント）に対応する所定の３Ｄジェスチャは、第２の後続の（インタラクション）３Ｄジェスチャを判別するために用いられるＰＯＩとは異なる手のＰＯＩの分析によって認識される。

更に有利には、所定の３Ｄ（開始イベント）ジェスチャが認識されると、少なくとも１つのＰＯＩのスクリーン上のポインタ表現は、それが指しているグラフィカルユーザインタフェース内のポイントされた可動要素、および表示されたグラフィカルユーザインタフェース内のそれが指している位置の少なくとも１つにロックされ、所定の３Ｄジェスチャ（停止イベント）が認識されると、スクリーン上の表現は、それがロックされていたグラフィカルユーザインタフェース内の位置や要素からロック解除される。

本明細書で用いられる「ロックされた」または「ロックする」という用語は、グラフィカルユーザインタフェースの可動要素とポインタとの関連付けを指す。対応するグラフィカル表現は、表現をロック解除しＧＵＩ全体を自由に動くことを可能にする停止イベントの検出まで、グラフィカルユーザインタフェースの上記可動要素の空間内での位置に結び付けられる。

本明細書で用いられる「ロック解除された」または「ロック解除する」という用語は、グラフィカルユーザインタフェースの可動要素とポイントとの分離を指す。

更に有利には、少なくとも１つのポインタのスクリーン上の表現がロックされると、第２の後続する（連続的インタラクション）３Ｄジェスチャは、（連続的インタラクション）ジェスチャを制御する手における注視点の３Ｄ位置に対して、ポインタがロックされているグラフィカルユーザインタフェース要素の位置を変化させる。

好適には、（開始イベント）および（停止イベント）所定の３Ｄジェスチャは、開閉３Ｄハンドジェスチャ、指先ベースの「クリック」３Ｄジェスチャ、指先ベースの「摘む」３Ｄジェスチャ、手先ベースの「掴む」３Ｄジェスチャの１つの発生およびそれぞれの解除である。

更に好適には、グラフィカルユーザインタフェースのスクロール、グラフィカルユーザインタフェース上でのズーム効果、グラフィカルユーザインタフェースに関連する要素のスクロール、およびグラフィカルユーザインタフェースの変更の少なくとも１つを制御するために第２の（連続的インタラクション）３Ｄジェスチャ入力として用いられるＰＯＩの位置における変化。

更に好適には、ハンドジェスチャの認識は、３次元手骨格モデリング技術、３次元手先およびパラメータ検出技術の少なくとも１つによってユーザの手において決定されたＰＯＩを用いて実行される。

有利には、３つの後続の自然な（開始、インタラクション、停止）ジェスチャは、少なくとも１つの片手を用いて実行される。

別の一実施形態において、手において決定される少なくとも１つのＰＯＩの位置の変化の検出および追跡は、開始および停止イベントがトリガされた手ではない方の手において実行される。

別の一実施形態において、インタラクションは、出現するウインドウが、上記第２の後続する自然なジェスチャの方向に応じて選択され、上記第２の後続する自然なジェスチャが、所定の閾値を上回る注視点の位置の変化を備える場合、後続する第２の（連続的インタラクション）３Ｄジェスチャに相対的なグラフィカルユーザインタフェースの変化である。

本発明の他の詳しい特徴は、特許請求の範囲によって定義され、下記の説明において裏付けられる。

本発明をより良く理解するために、以下で、一例として添付図面が参照される。

本発明に係る方法の３つの主な処理ステップのフロー図を示す。手の平中心、親指の指先、および手先の位置に関するＰＯＩ、および本発明によって決定されるような他のＰＯＩによる補間ＰＯＩとともにハンドベースの「掴む」姿勢をとっている手の側面図を示す。開いた「摘む」ポーズをとる手の奥行きマップを示す。開いた「摘む」ポーズをとる手の奥行きマップに対応する応答マップを示す。自然な指およびハンドベース３Ｄジェスチャによってスクリーン上のマップをスクロールするために実行される連続的かつ自然な手の動作の軌跡を示す。自然な指先ベースの開始および停止インタラクション３Ｄジェスチャによってスクリーン上に表示されたウインドウを変更／スライドするために実行される連続的かつ自然な手の動作の軌跡を示す。指先ベースの「摘む」３次元ジェスチャを実行する２ステップの２次元透視図を示す。指先ベースの「摘む」３次元ジェスチャの次元透視図を示し、穴検出を可能にするための直交する線を上に伴う、手の平中心から手の方向に突出した近傍線を示す。手の平中心を概算するために用いられる距離マップを示す。

本発明は、効率的かつ堅固なハンドパラメータベースの３Ｄジェスチャ認識技術を用いて従来のグラフィカルユーザインタフェース（ＧＵＩ）を制御するための指およびハンドベースの自然な３次元（３Ｄ）ジェスチャインタラクションに関する。これは特に、３Ｄジェスチャベースである１つの方法に基づいて、マウスおよびタッチジェスチャインタラクションのために元来設計されたＧＵＩにおけるナビゲーション、ズームおよびスクロール機能に対処する。これは更に、例えば自動車インフォテイメント（情報／娯楽）システム制御、パーソナルコンピュータシステム制御、タブレット、スマートフォン、および他の組込み型コンピュータの制御などの近距離ジェスチャベースインタラクションに非常に適している。

本明細書の発明は、特定の図面を参照して特定の実施形態に関して説明されるが、当業者は、本発明がそれらに限定されないことを認めるであろう。説明される図面は単なる概略図であり、非限定的である。図面において、いくつかの要素の大きさは、例示目的のために縮尺通りに表されず拡大して示され得る。更に、以下で説明されるような図面の特定の向きは、限定的ではなく一例として示される。

本明細書で用いられる「自然なインタラクション」や「自然な３Ｄジェスチャベースインタラクション」という用語は人間対コンピュータインタラクションを指し、この場合、人間は一切のハードウェアデバイスやマーカを操作、携行、または使用する必要がなく、インタラクティブコンピュータシステムは、例えばコンピュータを直感的に制御するためにユーザの手の動作によって提供される情報を、演算手段を用いて捕捉および抽出するための３Ｄ飛行時間型（ＴＯＦ）カメラなどの測距撮像システムといった撮像手段に関連し、情報は、好適には、所定の自然な３Ｄジェスチャのセットの形式である。

本明細書で用いられる「仮想表現」および「表現」という用語は、インタラクティングオブジェクトのＧＵＩまたは仮想世界におけるデジタル表現を示す。このインタラクティングオブジェクトは、例えば、ユーザがインタラクトし得るオペレーティングシステムのＧＵＩにおけるフォルダなど、仮想世界自体におけるオブジェクトであってよい。このインタラクティングオブジェクトは、例えば、オペレーティングシステムのＧＵＩとのポインティングまたはマウスポインティングインタラクションを可能にするためにその位置が経時的に追跡されるユーザの手に関連するポインタ表現など、現実世界における実在のインタラクティングオブジェクトの仮想世界におけるデジタル表現であってもよい。

本明細書で用いられる「ハンドパラメータ」という用語は、少なくとも、手に関連する以下のパラメータを指す。手先および指先、（「手の平中心」と称される）手の平の中心、（「手の平半径」と称される）手の平の半径、（「手の平垂線」と称される）手の平に対する垂線、（「手の平開度」または「手の平開閉状態」と称される）手の平の開き、手の平の付け根、および手の平中心から手の輪郭までの距離。

本明細書で用いられる「特異注視点」という用語は、ユーザの手における特異点、すなわち、手の末端部、指先、手先、手の質量の中心、手の平中心、または手から得られる他の信頼できる点の少なくとも１つの位置を用いて決定され、かつ時間に対して追跡され得る位置にある他の任意の点を指す。

「注視点」という用語は、以下で概ね「ＰＯＩ」と称される。

本明細書で用いられる「手先」という用語は、手の主な末端部に対応する単一のＰＯＩを指す。これは特に、指の末端部に近い平均位置に位置付けられ得る。

本明細書で用いられる「指先」という用語は、各個別の指先すなわち指の末端部を表す、間隙を介するいくつかの位置を指す。各個別の指先は、通常、特異ＰＯＩまたはＰＯＩであるとみなされる。

本明細書で用いられる「ポインタ」という用語は、ＰＯＩまたは選択されたＰＯＩのセットのディスプレイスクリーン上での表現を指す。

本明細書で用いられる「ポーズ」または「姿勢」という用語は、時間内の特定の瞬間における物理的な手の姿勢を指す。これは、手の特定のＰＯＩのセットの位置の空間における特定の配置に対応し、具体的には、指先に対応するＰＯＩの、互いに対する、また手の平中心に対する、空間における配置に対応する。

本明細書で用いられる「ジェスチャ」または「３Ｄジェスチャ」という用語は、時間に対するＰＯＩまたはＰＯＩのセットの空間における配置の変化を指す。代替または追加として、「ジェスチャ」という用語は、時間に対して空間内で変化しないＰＯＩの配置（ポーズ）の位置の変化も指す。ポーズが時間に対して変化しない場合、すなわち、空間におけるＰＯＩの配置が変化しないままである場合、それは、静的ジェスチャとして説明される。ＰＯＩの配置が変化しないままであり、かつ配置の位置が時間に対して空間内で変化する場合、それは、静的ポーズを有する動的ジェスチャとして説明される。ＰＯＩの配置が時間に対して変化する場合、それは、様々なポーズを有する動的ジェスチャとして説明される。

本明細書で説明される「ポインティング」という用語は、「ポインティングジェスチャ」を指す。これは例えば、現実世界のユーザに関連する基準３Ｄ位置、すなわち、ポインタの仮想表現が存在する位置を仮想空間において決定するために用いられ得る、末端部に対応する空間内の位置として、手先の少なくとも１つ、または関連するＰＯＩを用いることを示す。ポインタの仮想表現の位置の決定は、例えば、現実世界３Ｄ空間におけるユーザＰＯＩの絶対位置を用いること、決定された基準３Ｄ位置に対する現実世界３Ｄ空間におけるユーザＰＯＩの相対位置を用いること、または、例えば、手の平中心から人差し指の先へのベクトルによって定められる方向や、目から、例えば人差し指の先など手の末端部に対応するＰＯＩの１つへのベクトルによって定められる方向など、２つのＰＯＩ間に設定されるベクトルの主方向によって決定される相対位置を用いることを含むいくつかの方法に従って遂行され得る。「ポインティング」は、例えば少なくとも２つのＰＯＩの位置の統計モードを用いることを含む、いくつかのポインタを更に使用し得ることが理解されるであろう。統計モードは例えば、それらの位置の平均値、中央値、最大値、最小値、または加重和の少なくとも１つであってよい。

本明細書で用いられる「インタラクション３Ｄジェスチャ」という用語は、例えば、好適には、ポインタやスクロールバーの制御など、コンピュータインタフェースによって可能になるインタラクションを制御するための空間内の位置に対するＰＯＩの相対位置を用いる「ポインティング」ジェスチャなど、連続的なジェスチャを指す。

本明細書で用いられる「開始３Ｄジェスチャ」（開始イベント）および「停止３Ｄジェスチャ」（停止イベント）という用語は、１つの所定の自然な３Ｄジェスチャが実行された、あるいはそれぞれ解除されたと認識された時点で発生するイベントを指す。

本明細書で用いられる「掴む」ジェスチャ、「摘む」ジェスチャ、および「クリック」ジェスチャという用語は、好適には、少なくとも２つのＰＯＩの動作およびポーズの分析から開始または停止ジェスチャベースのイベントをトリガするための、ハンドパラメータを用いて実行される自然な３Ｄジェスチャを指す。

「摘む」ジェスチャは、人間工学的考察に関して、指先のＰＯＩの中から選択された少なくとも２つのＰＯＩが、互いに接触しようとして近づき合わされるように手を閉じることを指す。２つのＰＯＩ間の距離または相対距離は、「摘む」ジェスチャのレベルや量に関連する値を決定するために更に用いられ得る。「摘むジェスチャ」は、好適には、親指の指先のＰＯＩと人差し指の先のＰＯＩとを用いることを備える。「摘む」ジェスチャの検出は、使用可能であれば、１つの好適な透視図において、手の形状における穴の状態を追加として検出することによって向上し得る。

「掴むジェスチャ」は「摘むジェスチャ」の変化形であり、第１のＰＯＩが親指の指先、かつ第２のＰＯＩが手先である。

「クリックジェスチャ」は、例えば、持続期間が時間遅延閾値に応じて決定され得る非常に短い期間維持される手のポーズの検出など、散発的なイベントに対応することを特徴とするジェスチャである。「クリックジェスチャ」は、詳しくは、考慮される２つのＰＯＩ間の接触が、所定の時間遅延閾値を下回る持続期間を有する非常に短い期間維持されることを特徴とする、上述された「摘む」および「掴む」ジェスチャに対応するが、その限りではない。あるいは「クリックジェスチャ」は、例えば所定の距離および所定の期間内で（主成分分析（ＰＣＡ）によって決定されたような）手の２つの主軸に対して上下に一度素早く振動する人差し指の先や手先など、単一のＰＯＩを用いて実行されることもある。

本発明は一般に、改良された非接触かつ自然な人間対コンピュータインタラクションを提供するための方法に関し、特に、直感的かつ容易に連続して実行される３Ｄジェスチャを用いてＧＵＩを制御するための方法に関する。ジェスチャは、例えばコンピュータシステムに関連する３Ｄカメラなどの距離撮像システムによって時間に対して連続的に捕捉されたユーザの手の動作によって空間内で実行される。本明細書で説明される方法に従って作動するコンピュータシステム、３Ｄカメラ、およびＧＵＩは、非接触かつ自然な人間対コンピュータインタラクションシステムを形成する。測距カメラデバイスに対するユーザの位置は、インタラクトしている手およびその手のＰＯＩが測距カメラデバイスの撮像センサにおいて撮像され得る限り、重要ではない。

本発明によると、ハンドジェスチャ情報は、測距カメラデバイスによって提供されるデータから抽出され、そのデータは、少なくとも画素ごとの奥行き測定値、および任意選択的にシーン照明および／または色情報を備える（頂点のセットとも称される）３Ｄ点群あるいは奥行きマップの形式をとる。

本発明の実施形態によると、図１は、方法の３つの主な処理ステップ、すなわち、インタラクトしているハンドパラメータが検出、識別、および経時的に追跡され、関連するＰＯＩを定める第１のステップ（ステップ１００）、考慮されている関連ＰＯＩの動作およびポーズから３Ｄジェスチャが認識される第２のステップ（ステップ１０１）、および、ステップ（１０１）によって認識された所定の３Ｄジェスチャのセットが、ＧＵＩとのインタラクションを制御するために用いられる第３のステップ（ステップ１０２）のフロー図を示す。ＧＵＩとのインタラクションの制御は更に、ステップ（１００）において検出されるＰＯＩの数や識別を変更し得るフィードバックループ（１０３）、または数を変更し得る別のフィードバックループ（１０４）を更に備え得る。

第１のステップ、ステップ１００は、ハンドパラメータのセットを検出、識別、および追跡することを目的とし、それらによって、いくつかの関連ＰＯＩ、すなわち特異ＰＯＩまたはＰＯＩが、ＧＵＩとの更なるインタラクションを可能にする３Ｄジェスチャを決定するために選択されることになる。ハンドパラメータは、少なくとも１つ、好適には２つの安定した信頼できるＰＯＩを提供することができるように、好適には、手先部、すなわち手先および指先を含み得るがその限りではない。更に、ステップ１００は、手の平半径、手の平開度、および手の平垂線というパラメータの少なくとも１つを決定することも備え得る。更に、ハンドパラメータが決定される元となる少なくとも１つの信頼できるＰＯＩを用いて、方法は更に、ＧＵＩとインタラクトしているポインタに関連させるための少なくとも１つのＰＯＩを決定することを備える。

本発明の第１のステップは、ユーザの少なくとも１つの手を備える奥行きマップまたは対応する３Ｄ点群（すなわち、頂点のセット）の形式で、入力情報を用いる。奥行きマップは、当該技術において知られている方法に従っていくつかのクラスタに分割され、クラスタの各々は適切にラベル付けされる。使用されると識別された手に対応するラベルも提供される。インタラクトする手は、無作為に（例えば、両手の一方の選択、左手）、あるいは空間内の位置や動作から自動的に決定され得る（例えば、動きを示すラベル付きの手が選択され得る）。但し、インタラクトする手に対応するラベル付き３Ｄ点のみが、後続する処理ステップにおいて考慮されることになる。

第１の一態様において、ステップ１００は、手の平中心を検出および決定することを第１に備えてよく、これは、「距離変換」の事前計算を必要とし、その出力は、使用されると識別された手の距離マップである。手の平中心の検出は必須ではないが、ポインティングジェスチャインタラクションのための基準として用いられる比較的安定したＰＯＩを提供するために有利なモードである。手の距離マップは、例えば図８に示すような、手の各画素が、最も近い手の境界線までの現実世界のメトリックシステムでの距離に等しい値を有する画像であり、ここで、使用されるラベル付きの手は、背景から、および他の任意の不要なユーザのラベル付き身体部分から切り出される。図において、手の表現における各画素の中身が暗くなるほど、その画素は、ラベル付きの手の中心から遠くなる。そのような距離マップ画像は、手の２値ラベル画像における２つのパスを用いて計算され得る。距離変換を実行するためにいくつかの方法が用いられ得る。しかし、本発明における１つの重要な点は、ラベル画像の各画素が３Ｄ点群における位置に対応するので、また、距離マップにおける各距離は現実世界における距離メトリックに対応するので、各画素について得られた距離値は、現実世界におけるメトリック距離に関連し得る点である。例えば距離変換は、第１のパスが２値ラベル画像の左上の角から右下の角に向かい、第２のパスが反対の方向に向かう２パス処理を用いて実行され得る。各パスについて、距離は、各画素について累積され、既にパスによって処理された全ての直接隣り合う画素の最小値の和に対応する。例えば、第１のパスにおいて、画素のすぐ隣は、左、斜め左、上、および斜め右の画素であってよい。現在画素について決定された距離は、４つの隣り合う画素の最小値足す１であると決定され得る。更に、画素の基本的な幾何学的特性を考慮すると、横／縦に隣り合う画素の値は、例えば５の値など所定の係数によって加重され、斜めに隣り合う画素は、例えば７の値など別の所定の重み係数によって加重され得る。７／５の比は、典型的な正方画素の対角線と辺との間で保つ比に一致する

。平方根計算は更に多くの処理ユニットリソースを必要とするため、そのような比を用いることは、計算の最適化において好適な実施形態である。更に、処理効率を向上させるために、奥行きマップ全体の限られた部分が処理されることになり、その境界は、奥行きマップ内で考慮される手に対応するラベル付き３Ｄピントの最大値および最小値および上下左右の部分によって定められる。手の平中心の位置を概算するために、処理はその後、少なくとも距離情報強度が手の他の全ての画素の最大値である画素の位置を決定することを備え、好適な実施形態において、事前に決定される手の平中心までの距離を最小にすることは、事前に決定される手の平中心位置の場所を滑らかに変更することを可能にするために考慮され得る。そのように概算された手の平中心の位置を精密化するために当該技術による３Ｄ安定化技術が更に用いられ得る。

別の態様においてステップ１００は、例えば手の３Ｄ点群にわたり実行されるＰＣＡなどを用いて手先の３Ｄ位置を検出および決定することも備える。起点が手の平の中心であるように設定され、かつ方向がＰＣＡによって求められる主方向であるように設定された３Ｄベクトルを用いて、手の主方向を定めるベクトルの各セクションについて、主方向に直交する別のベクトルの方向に従って、ベクトル主軸から手の輪郭までの画素（または３Ｄ点）の数をカウントするために、ヒストグラムが計算される。

主方向を表すベクトルの各セクションは、例えば１ｍｍ刻みの距離メトリックによって表現され得る。生成されたヒストグラムが最も高いエネルギを示す正規直交方向（すなわち、整数値が最大である点）を選択することによって、あるいは手の２つの主方向によって形成される２本の軸およびカメラ座標系の２本の所定の軸によってそれぞれ形成される面によって生じる角度を最大化するように、主方向に直交するベクトルは、手の主方向に対するカメラ位置の配置に関して、ＰＣＡによって得られた手の第２の主方向から任意に選択され得る。そのように決定されたヒストグラムを用いて、その後、手先は、手の画素の最小数が投影された主ベクトルのセクションに対応するエリアとして決定され得る。好適な一実施形態において、投影される画素が少ないヒストグラムのセクションに対応し、ゆえに手先であると決定される空間における手の主方向に沿った手の最も厚い部分に対応する、２つの所定の閾値の間の範囲が例えば９５％〜９９％の範囲などに定められ得る。概算された手先の位置を精密化するために、当該技術分野において周知である３Ｄ安定化技術が追加として用いられ得る。

ステップ１００はその後、（図３ａを参照して以下で説明されるような）入力奥行きマップ３０１における手のポーズに関わらず手先の３Ｄ位置を検出および決定することを備える。手先は、指先に近い、手の末端部に対応するエリアを備える。そのような検出を遂行するために、（図３ｂを参照して以下で説明されるような）「応答画像」３０２が決定され得る。応答画像において、画素の値は、３Ｄ点が表現される基準３Ｄ座標系に関して、考慮される各画素と隣り合う８つの画素との奥行きの差を表す。高い値は、末端部である可能性が高いことを示す。各画素（３Ｄ点）の値は、一般的な８つの方向（すなわち、上、左上、右、右下、下、左下、左、左上）に沿った８つの隣り合う画素から計算される。各方向において、現在点から２ｃｍの距離にある画素（３Ｄ点）が考慮される。各方向における２ｃｍの距離の投影にどの画素が対応するかを調べるために、撮像デバイスすなわちカメラの規格は、現在点の奥行き値と併用されるか、あるいは基準３Ｄ座標系を用いて容易に決定される。この動作はもちろん、有効な画素、すなわち所定の閾値を上回る信頼値を有する画素（３Ｄ点）についてのみ行われる。信頼値は、画素において受ける赤外線（ＩＲ）照明の量を表す。それら８つの画素について、現在画素との３Ｄ位置の差が決定され、現在画素の値は、３番目に小さい値と考えられる。例えば、図３ａおよび図３ｂに対応する一実施形態において、手がカメラに面している場合、３Ｄ位置の差は奥行きの差にほぼ一致するであろう。３番目に小さい値は、任意の非末端部が、１つの側面（例えば手の平の側面）に連結されないことによって大きい値を有することが容易であるため、および、手のそれらの部分は指としての応答を提供しないことが望まれるため、選択される。しかし指も、それらが手に連結される何らかの方向を有し得る。そのため、２つの最小応答値を有する２つの方向は無視される。いくつかの手のポーズは、手の物理的な末端部の各々について適切な応答を提供しないことがあり、例えば、閉じた握りこぶしは、手先に対応する単一の応答を提供するであろうことに留意する。しかし本発明は、２つのＰＯＩ（すなわち末端部）が使用でき、ポインティングジェスチャがある場合、手の平中心の推定されたＰＯＩ位置からそれが実行され得る、所定のジェスチャのセットに頼ってインタラクションが設計されるので、そのような可能性による影響を受けない。

更に、応答画像および奥行きマップ画像に基づいて、連結された成分画像が決定され得る。これは、２つの隣接する画素（すなわち３Ｄ点）の両方が応答画像において正の応答値を有する場合、すなわちそれらが末端部であり、かつ奥行きにおいて十分に近い（例えば１ｃｍ以内）場合に限り、それらに同じラベルを設定することを可能にするラベル画像に対応する。つまり、２つの隣り合う画素（すなわち３Ｄ点）は、それらが、例えば１ｃｍなどの所定の閾値を上回る、例えば図３に従う奥行き差などの距離値差を有する場合、あるいは、それらの１つが、末端部応答画像において正の応答値を有さない場合、同じラベルを有さないことになる。この画像はその後、２つの目的のために用いられ得る。第１は、単一の手末端部が指先であるように、末端部応答を集合的にグループ化し指先候補にすることを可能にすることであり、第２は、画像から不所望の小さな応答を除去することである。具体的には、成分のサイズが例えば１ｃｍなど所定の閾値よりも小さい場合、それは却下され得る。

本発明の方法は更に、手の平中心、手先、指先、あるいは、それらのパラメータの位置の組み合わせから補間される位置にある点の中から、事前に決定されたハンドパラメータの少なくとも１つを選択することによってＰＯＩを決定することを備える。好適には、２つのＰＯＩは、本発明の特定のインタラクションに従って決定されなければならない。ＰＯＩの数および識別は、ＧＵＩによって必要とされるインタラクションによって制御されるフィードバックループ１０３によって設定され得る。具体的には、ＰＯＩの決定は、手先に対応するラベル付き応答を用いることを必要とする。これは、互いの距離に基づいて（成分が孤立しているほど、重みが大きくなるように）応答画像における各ラベル付き手先部応答（すなわち、成分）について重み付け値を計算することによって実現され得る。このように、少なくとも２つのＰＯＩの事前選択は、２つの最も大きい重みを有する２つの成分を選択することによって容易に実行され得る。

本発明の好適な一実施形態において、応答画像における成分全ての中から中心点が決定され得る。手成分の３Ｄ点全ての単純な加重和が重み付け手段として用いられる場合、手の上部に目に見える指が多く存在し、そのため、親指の先の応答のみが存在する下側領域よりも上側領域でより強い応答が得られるので、得られる中心点は、手の上部に偏在することになる。この事態を回避するため、各成分の重み付けは、応答が属する成分の識別に従って精密化される。（例えば、親指の指先に対応する成分など）成分が他の全ての成分から離れている場合、それはより大きい重みを有し、（例えば、指先など）他の成分に近接している場合、それはより小さな重みを有することになる。それによって、孤立した指（ほとんどの場合、親指）が、その他の指が見えている場合、それらよりも高い重み付けを得ることが保証される。またそれによって、少なくとも手先と比較される親指の指先すなわち親指の先をより堅固に識別すること、および／または、上記親指に対する、またＰＣＡによって得られた手の主方向および手の平中心位置に対するその他の指先の位置に関して個別に識別され得るその他の指の指先をより堅固に識別することが保証される。

この目的のために、成分間の距離は、例えば５という所定の係数と手の半径との乗算として計算される手の長さによって正規化され得る。末端部全ての中心点が、事前に定められた成分重み付けを用いて加重和として計算される。中心点が決定されると、それは、３Ｄデカルト空間において成分を区別するために用いられる。そのために、決定された中心点と手の平中心とを通る面が用いられる。好適には、面の一方の側面に親指があり、他方の側面に他の指があることが目的であるので、中心点および手の平中心によって形成される軸に対する面の向きは、２つの主成分の中心点の面までの距離を同時に最大化するように連続的に決定され得る。そのように決定された面が与えられると、その後、手の点は、面におけるそれらの側面に従って容易に分類され得る。更に、検出された使用できる成分の数、それら各々のサイズおよび位置に従って、親指の指先成分、手先成分、または他の指先成分の少なくとも１つであってよい、使用できる成分のアイデンティティを正確に判別することが可能となる。その後、ステップ（１０３）におけるフィードバックループによって提供され得る、インタラクションに必要な成分の識別に従って、２つの「ＰＯＩ」の選択が実行され得る。

更に、本発明が、自然な３Ｄジェスチャを認識するために２つのＰＯＩを検出および追跡することを必要とする場合、３Ｄジェスチャが「ポインティング」インタラクションジェスチャであれば、単一のＰＯＩで十分になり得る。そのような単一のＰＯＩは、手の平中心であるように設定され得る。好適な実施形態において、第１のＰＯＩは親指の指先のＰＯＩであり、第２のＰＯＩは手先部の１つのＰＯＩまたは例えば人差し指の先のＰＯＩなど１つの別の指先のＰＯＩである、２つの「ＰＯＩ」が決定されると、２つのＰＯＩの間の追加の安定した仮想ＰＯＩが、当該技術分野において周知である補間技術によって計算され得る。仮想ＰＯＩは、手の平中心の動きによって調整され「ポインティングジェスチャ」を可能にするために用いられ得る「ＰＯＩ」の中心であってよい。

図２において、「掴む」姿勢を取っている手の側面図が示され、手先ＰＯＩ２０１、親指の先ＰＯＩ２０２、手の平中心ＰＯＩ２０３の位置、および他の上述したＰＯＩを用いて計算される追加の安定した仮想ＰＯＩ２０４の位置が図上に示される。具体的には、この仮想ＰＯＩの位置は、手の平中心が例えば３ｍｍなど所定の距離を上回って動いた場合のみ更新され得る。これは、本発明の有利な一態様を保証する。すなわち、ユーザは、彼／彼女が「摘むジェスチャ」、「クリックジェスチャ」または「掴むジェスチャ」を同時に実行しなければならない場合にも、彼／彼女の指先によるインタラクション（すなわちポインティング）を自然かつ快適に感じるであろう。更に、仮想ＰＯＩの動きを手の平中心の動きと関連させることによって、これは、ノイズ、ジッター、または僅かな指の動きに関わらず、手が動かない場合、仮想ＰＯＩに関連するポインタが動かないことを保証する。更に、仮想ＰＯＩの位置におけるジッターを回避するために、この処理は、２値、すなわち開始または停止ではなく、過去のフレームにおける仮想ＰＯＩ位置と新たに検出された仮想ＰＯＩの位置の中心との間の単純な線形回帰によって、０〜３ｍｍの範囲内の手の平中心の動きから平滑化され得る。当該技術分野において周知である３Ｄ安定化技術は、好適には、概算されたＰＯＩ位置を精密化するために用いられ得る。

図３ａにおいて、開いた、すなわち解除された「摘む」ポーズを取っている手の前面図奥行きマップ３０１が示される。ここでは、人差し指の先および親指の先に対応するＰＯＩが示される。図３ｂは、図３ａに示す奥行きマップに対応する応答マップ３０２を示す。見て分かるように、応答マップ３０２は、人差し指の先、および親指の先に関する明確な応答信号を示す。

更に、追加の一実施形態において、手の平垂線は、手の平自体の向きを決定するため、および、指のアイデンティティを区別するために定められる面を精密化するために用いられ得る。手の平垂線は、手の平中心から指先の中心点位置までのベクトルと、事前に決定された手の平垂線との間の角度を用いて調整され得る。この角度は、２つの情報セット間の滑らかなブレンディングを実現するために、いくつかのカスタムパラメタリゼーションに従って重み付けされ得る。手の平垂線は、ＰＣＡを用いて計算され、重要性が最も低い方向であるように設定される。

更に、手の平半径の正確な推定値は、手の平中心から最も近い手の輪郭までの距離の推定値を用いること、および、手の平中心の現在位置における奥行き値およびカメラの規格を用いることによって、距離マップから得ることができる。

更に、一般的に手が開いているか閉じているかを表すブール値であってよい手の開度は、事前に決定されたＰＯＩから得ることもできる。手は、指先が検出されない場合（すなわち、指先に対応するＰＯＩが存在しない場合）、閉じているとみなされる。２つのＰＯＩが使用できる場合、手の開度は、選択された２つのＰＯＩ間の距離と手の平半径との比を用いて更新され得る。その比が所定の閾値よりも小さく、かつ事前に手が開いているとみなされていた場合、手の開度は調整され、閉じているとしてフラグ付けされることになる。比が別の所定の閾値を上回る場合、手は開いているとみなされることになる。

手におけるＰＯＩを決定するための上述した方法が好適な実施形態である場合、本発明のステップ１００は、代替または補足として、３Ｄ撮像システムの視野内でインタラクトする手のモデルを用い得る。手のモデルは、手に対応する３Ｄ点群において追跡および適合され得る。例えば、手の骨格モデルが用いられ得る。周知の適合および追跡技術は、ハンドパラメータの各々の３Ｄ位置をリアルタイムで決定することを可能にする。その後、ハンドパラメータの２つが２つのＰＯＩとして選択されてよく、そこから３Ｄジェスチャが更に認識される。各ハンドパラメータはモデル内で識別されるので、この選択は容易に行われ、インタフェースを制御するために用いられるジェスチャが、どのハンドパラメータが選択されるべきかを定めることになる。例えば、「摘む」３Ｄジェスチャを可能にするためのＰＯＩとして、親指の指先および人差し指の先が選択され、「掴む」３Ｄジェスチャを可能にするための２つのＰＯＩとして、親指の指先および手先が選択されるだろう。

ＰＯＩの検出および決定は、本方法に関わらず、後述するようなマルチハンドインタラクションを可能にするように、シーン内の複数の手において実行され得ることに留意すべきである。

本発明の第２のステップ（ステップ１０１）は、ＧＵＩとのインタラクションを制御する必要な所定の３Ｄジェスチャを検出するために、ステップ１００で決定された少なくとも１つの手におけるＰＯＩの選択の経時的な追跡および分析を備える。ステップ１０２において予想され詳述されるインタラクションによると、様々な所定の３Ｄジェスチャはフレームごとに個別に、連続して、および好適には同時に認識され得る。３Ｄジェスチャの認識を実行するために、まず、各ＰＯＩの経時的な空間内での位置が追跡される。

第１のジェスチャ認識の一態様において、単一のＰＯＩの経時的な３Ｄ位置は、従来の「ポインティング」ジェスチャに入力を提供するために用いられ得る。選択されたＰＯＩの空間における相対位置は、それに応じてスクリーンに表示されるポインタが動くことを可能にする。例えばＰＯＩは、手先がいずれも使用できない場合は手の平中心であり、信頼できる指先が使用できない場合は手先であり、ポインティングのためには人差し指が自然に用いられるので、使用できる場合、好適には人差し指の先であり、あるいは必要であれば他の任意の指先であってよい。他の一実施形態において、他の指先は仮想ＰＯＩであってよく、３Ｄ空間におけるその位置は、手の平中心、指先、および手先の中から少なくとも２つの所定のハンドパラメータによる補間位置を用いて計算される。更に、ＧＵＩ内のポインタに関連するＰＯＩは、ハンドパラメータに対応する他の任意の安定したＰＯＩに従って精密化された位置を有し得る。例えば、ユーザがポインティングジェスチャを実行する時、手の実際の自発的な動きを検証するために手の平中心点が用いられ得るため、ＧＵＩ内のポインタに関連するＰＯＩの位置は、空間における手の平中心点の位置に従って精密化され得る。どのＰＯＩが使用されるかの決定は、柔軟性を伴わず静的に設定され得るが、パラメトリックかつ、フィードバックループ１０３を用いるインタラクションによって制御されてもよい。更に有利な実施形態において、「ポインティングジェスチャ」は、フレームごとにどのハンドパラメータが使用できる場合であっても実行され得るので、インタラクションの連続性が可能になり得る。更に詳しくは、どのハンドパラメータが使用できるかに従ってＧＵＩ内のポインタに関連するＰＯＩを設定するために、ステートマシンを備える自動化処理が用いられ得る。例えば好適には、人間工学および自然性に関して、「ポインティングジェスチャ」は、第１に他の２つから補間される仮想ＰＯＩに関連し、第２に人差し指の先に対応するＰＯＩに関連し、第３に手先に対応するＰＯＩに関連し、そして最後に、常に使用できるので、手の平中心点に関連することになる。

更に、上述したように、ポインタのスクリーン上での位置は、それが関連するＰＯＩの空間内の位置に対して相対的に設定され得る。他の一実施形態において、ポインタの位置は、それが関連する手におけるＰＯＩの動きの絶対メトリック距離に関して移動し得る。

第２のジェスチャ認識の態様において、「クリックジェスチャ」、「掴むジェスチャ」、または「摘むジェスチャ」の中から少なくとも１つの動的ジェスチャの発生または解除の検出に少なくとも対応する入力を提供するために、２つのＰＯＩが用いられる。これらのジェスチャや、それらの発生または解除の認識は、それぞれ「開始イベント」および「停止イベント」を個々にトリガすることが意図される。好適な実施形態において、連続的な「ポインティングジェスチャ」を潜在的に同時に実行している方の手において２つのＰＯＩが選択され得る。しかし２つのＰＯＩは、距離撮像センサによって撮像されたもう一方の手において事前に定められていることがある。一実施形態において、本発明は、ステートマシンを使用することにより自然なジェスチャベースのインタラクションを実行するために人間工学的に最も使用可能性のあるＰＯＩを自動的に管理および決定することを備え得るので、少なくとも２つのＰＯＩが使用できる場合、ステップ１００において選択されたＰＯＩに関して、「掴むジェスチャ」と「摘むジェスチャ」とを区別することが自動的に可能となる。選択された２つのＰＯＩが手先および親指の先である場合、ジェスチャは「掴むジェスチャ」になり、選択された２つのＰＯＩが人差し指の先および親指の先である場合、ジェスチャは「摘むジェスチャ」になる。「クリックジェスチャ」もまた、「掴むジェスチャ」および「摘むジェスチャ」のいずれか１つを実行する時、２つのＰＯＩが、所定の時間閾値（例えば０．５秒）を下回る短い期間で互いに近づき合い、その期間の間、２つのＰＯＩが合わさり（通常、手先として検出され得る種類の）単一のＰＯＩを形成し、その期間の後、元の２つのＰＯＩが再び検出され、非接触状態／姿勢に戻ることで特徴付けられる、「掴むジェスチャ」または「摘むジェスチャ」のいずれかに対応するものとして区別される。「クリックジェスチャ」は、動的な指ベース３Ｄジェスチャである。

一方の片手の手先または１本の指の指先が使用できる状態に対応する特定の一実施形態において、そのような場合、その片手の使用可能な末端部に関連するＰＯＩの特定の動きによって、「クリックジェスチャ」は、それがトリガされ得るような本方法に従って可能にもなる。更に詳しくは、「クリックジェスチャ」イベントは、ＰＯＩが、例えば上下の動きなど１回の振動の形式をとる動作を実行する場合に限り、トリガされてよく、その動きは、所定の距離閾値を下回り（例えば２ｃｍ未満）、その持続期間は、時間閾値よりも短い（例えば０．５秒未満）。この特定の実施形態は、用いられる検出および追跡方法に関わらずＰＯＩ追跡が失われ得る場合、インタラクション方法をより堅固にする。

「掴むジェスチャ」および「摘むジェスチャ」それぞれの発生および解除イベントの検出に関して、それらのイベントはそれぞれ、手および指ベースの動的ジェスチャの分析によって判別される。更に詳しくは、発生および解除イベントの検出は、追跡されている２つのＰＯＩのアイデンティティ（すなわち、親指の指先と手の指先、または親指の指先と人差し指の先）に応じて決定されてよく、２つのＰＯＩが互いに近づき合い単一のＰＯＩを形成すると、またはそれらの間の距離が所定の閾値（例えば０．２ｍｍ）未満になると、それぞれ、「掴み発生イベント」や「摘み発生イベント」がトリガされ、「開始ジェスチャイベント」として設定され得る。２つのＰＯＩが単一のＰＯＩを形成することによって「開始ジェスチャイベント」をトリガした場合、あるいはそれらの間の距離が所定の閾値（例えば０．２ｍｍ）未満になった場合、かつ、単一のＰＯＩが再び元の２つのＰＯＩになり、および／または２つのＰＯＩ間の距離が別の所定の閾値（例えば０．３ｍｍ）を上回ると、それぞれ、「掴み解除イベント」または「摘み解除イベント」がトリガされ、「停止ジェスチャイベント」として設定され得る。好適には、２つのＰＯＩが距離閾値に近づいた時の不安定で断片的な検出を回避するために、「開始ジェスチャイベント」および「停止ジェスチャイベント」を検出するための距離閾値基準とともにヒステリシス関数が用いられ得る。例えば、人間工学的かつ自然なジェスチャに関する本発明の好適な一実施形態において、方法は、「摘む」動的ジェスチャ検出を可能にするために手先部から選択された少なくとも２つのＰＯＩの分析を備える。上述したように、「摘む」は、任意選択的に少なくとも１つのポインタとして表示される、互いに近づき合うことができる２つの向かい合った先端部に対応してよく、２つの手先、関連するＰＯＩ、またはポインタの間の距離は、連続測定である「摘み」の程度の判別を可能にする。好適には、「摘む」ジェスチャは、図６に関して以下で説明されるように、親指の指先が第１の選択されたＰＯＩに対応し、人差し指の先が第２の選択されたＰＯＩに対応する時に実行されるジェスチャとして事前に定められる。

また、本発明の第２のステップ１０１の更に好適な一実施形態において、距離撮像カメラデバイスがインタラクトしている手の上面図を捕捉する場合、例えば３Ｄカメラデバイスが車両の天井に設置され、ユーザが右手を自由に動かしながら座っている場合、第１の実施形態の方法は、手形状のある所定の透視図において穴の状態を検出することによって「開始ジェスチャイベント」および「停止ジェスチャイベント」の検出を強化することを目的とするいくつかの追加の処理によって改良され得る。右手の検出は、（例えば、欧州、米国、カナダなどにおける）左ハンドルを有する車両の場合であり、（例えば英国、オーストラリア、ニュージーランドなどにおける）右ハンドルを有する車両の場合は左手の検出が適していることが理解されるであろう。

挙げられた例によると、図６は、６００で示すような「摘む」３Ｄジェスチャに基づく指先の２Ｄ上面図または表現を示す。ここで、事前に選択されたインタラクトする手は、少なくとも２つの明確に区別される指および指先を備え、（透視図によると）６１０に示すそれらの２Ｄ形状は、指が、「３Ｄ摘むジェスチャ開始イベント」または単に「開始ジェスチャイベント」をトリガし得る「摘み発生」ポーズを取る場合、穴６０２を備える。

そのように、「摘み発生」ポーズは「開始」イベントに対応し、その時点から、手による、あるいはそれに限られないが例えばある所定の注視点（例えば質量の中心）など手における少なくとも１つの特定の特徴による任意の後続動作が追跡され、３Ｄジェスチャが実行されたかを判別するために分析される。追跡および分析は、手のポーズが解除されるまで、すなわち本実施形態において「摘み発生」ポーズが停止するまで維持される。

図７は、穴６０２を伴う６０１として図６に示されるものと同じ手形状表現７００を示す。手形状表現７００は、ＰＣＡによって決定されたような手の主方向７０５に平行に沿った手の平中心７０３から突出する複数の平行な近傍線７０６を示すとともに穴７０１を含み、その上に、（有限平均奥行き値を有する）手の物質から隙間までの推移、あるいは大幅に異なる奥行き値（すなわち、手の物質の有限平均値との差が所定の閾値を上回る奥行き値や背景に対応する値）を検出すると、手のエッジおよび穴候補のエッジ７０２を決定するために表現に対応する奥行きマップの境界線まで、少なくとも２本の直交する線７０４が投影される。更に詳しくは、「物質」から「物質無し」までの各推移について、投影された光線は、画像における手の輪郭全体を検出することを可能にする。更に、各推移について、投影された線が推移を伴わず画像の境界線に達する場合、その推移は手の輪郭としてフラグ付けされ、一方、投影された光線において検出された他のエッジは７０２に示すものと同様の穴候補としてフラグ付けされる。各穴エッジ候補について、その後、ループを定める経路が検査され得る。経路解析アルゴリズムは、手形状における実際の穴として検証されるために所定の閾値（例えば２ｃｍ）を上回らなければならない穴候補の輪郭長さを測定するために用いられ得る。複数の近傍線７０６は、手における完全かつ正確な輪郭検出を可能にするために用いられ得る。

穴検出方法に関する他の方法も用いられ得る。例えば、追跡される手の透視図の３Ｄ点群または２Ｄ表現は、ハンドパラメータ（例えば指のサイズ）に準拠する寸法に対するクラスタの平均サイズによって制約を受ける撮像デバイスすなわちカメラと手との平均距離に応じて決定され得る所定の数のクラスタにクラスタ化され得る。連結成分分析（すなわち、クラスタの連結）に基づく穴検出は、その後、撮像された手における穴の有無を判別するために用いられ得る。検出された穴の数、サイズ、形状、または他のパラメータは、検出ステップを強化し、手が取っている静的ポーズにおける有効な穴の存在を検証するために更に用いられ得る。

上述した指先または手先ベースの「摘むジェスチャ」の発生および「掴むジェスチャ」の発生のそれぞれおよび解除の検出に関して、それらのジェスチャは、別のステートマシンを備え得る上述した穴検出処理を用いることによって改良され得る。例えば「摘むジェスチャ」の発生および「掴むジェスチャ」の発生はそれぞれ、穴検出が検証される場合に限り、検証され得る。この目的のため、ステートマシンは、「待ち」ステータスによって初期化され得る。手先から２つの区別されるＰＯＩが検出され次第、ステートマシンは「開始」ステータスに設定される。２つのＰＯＩが互いに近づく動きに続いてＰＯＩの数が２から１になると、まず穴候補の状態が検査され、次に使用できるＰＯＩの数の安定性が検査される、検証ステップが開始される。ＰＯＩの数の変化の頻度が所定の閾値を上回る場合、または穴が検出されない場合、「開始イベントジェスチャ」の検証は却下され、両者が満たされる場合、「開始ベントジェスチャ」が検証され、それに応じてステートマシンのステータスが設定される。ステータスにおける断片的な変化を更に良好に回避するために、例えばヒステリシス関数など最新技術による更なるフィルタリングがステートマシンのステータスに適用され得る。

本発明の第３かつ最後のステップであるステップ１０２は、（ステップ１０１によって）認識された３Ｄジェスチャによる情報を入力情報として用いて柔軟で堅固かつ自然な人間対コンピュータインタラクションを提供することを備える。インタラクションスキームは、更に具体的には、３つの後続ジェスチャが実行されることが必要不可欠であること、および、それら３つの後続ジェスチャが自然なインタラクションを可能にすることを特徴とする。それらのジェスチャの中で、少なくとも１つは（ハンドまたは指先ベースの）連続的な動的ジェスチャであり、他の２つはジェスチャベースイベント、好適には指先ジェスチャベースイベントである。更に詳しくは、ユーザの手の連続した自由な動作において、方法は、所定の人間対コンピュータインタラクションの始まり（開始）をトリガする第１の所定の３Ｄジェスチャイベント、人間対コンピュータインタラクションを制御する第２の後続（連続的インタラクション）３Ｄジェスチャ、第３の所定の（停止）３Ｄジェスチャイベントが認識されると終了する第２の（連続的インタラクション）３Ｄジェスチャを検出することを備え得る。

更に具体的には、第１のジェスチャイベントは好適には、「クリックジェスチャ」、「摘むジェスチャ」、「掴むジェスチャ」、または開閉ハンドジェスチャの１つを用いて実行される３Ｄジェスチャである。第２のジェスチャは通常、ＧＵＩ内のポインタが、ポインティングジェスチャが関連するＰＯＩの位置に関連付けられると、ＧＵＩの任意の部分へのアクセスを可能にする「ポインティングジェスチャ」であり、第３のジェスチャは、「摘むジェスチャ」、「掴むジェスチャ」、「閉ハンドイベントジェスチャ」、または「クリックイベントジェスチャ」や「開ハンドイベントジェスチャ」の新たな発生を考慮すると、インタラクションの終了をトリガする第１のジェスチャの解除である。

本発明のスキームに特有の１つの利点は、様々なＧＵＩを用いる自然な指およびハンドベースインタラクションを可能にする３つの後続する所定のジェスチャを必要とすることであり、接触または接触素子が操作されることを一切必要としない共通のデバイスベースインタラクティブシステム（例えばマウスやタッチスクリーン）のインタラクションを含む。例えば、本発明の一実施形態によると、例えば車両ＧＰＳシステムなどのナビゲーションシステムにおける３Ｄハンドジェスチャベースインタラクションは、片手を用いて安全に制御され得る。

図４は、自然なハンドベース３Ｄジェスチャによってスクリーン４０３上のマップ内でナビゲートするために実行される連続的な手の動作４００の軌跡の背面図を示す。ナビゲーションは、点線４００によって示される軌跡を伴う連続的な手の動作中に実行される、示された開始ジェスチャ検出４０１と停止ジェスチャ検出時間４０２との間に発生するスクロールインタラクションを備える。スクリーン上のマップに関連する移動／スクロールは、インタラクションが終了すると４０６を中心とするエリア４０４から４０７を中心とするエリア４０５に移動するようにマップの位置を変更する。ユーザが実行している３Ｄジェスチャに関するユーザへの視覚フィードバックを可能にするために、ユーザのインタラクトしている手における１つのＰＯＩに関連するポインタが継続的に表示され得る。

例えば、本発明の別の一実施形態によると、様々なウインドウを備えるＧＵＩにおける３Ｄハンドジェスチャベースナビゲーションは、片手を用いて安全に制御され得る。

図５は、自然なハンドベース３Ｄジェスチャによってディスプレイスクリーン５０３内にＧＵＩ５０５またはスライドを変更するために実行される連続的な手の動作５００の軌跡の背面図を示す。ユーザの片手におけるＰＯＩに関連するポインタがフィードバック情報として表示され得る。軌跡５０６を通るその動きは、例えば、それが関連するＰＯＩの点線５００によって示されるような絶対変位に相対的な絶対変位になるようにされる。ユーザのインタラクトしている手の連続的な動作中、５０１における摘むジェスチャの検出によって第１の「開始イベントジェスチャ」がトリガされると、５０２において「摘むジェスチャ」が解除されて「停止イベントジェスチャ」が検出されるまで、インタラクトしている手の自然な連続した動作の距離および方向が測定される。「開始ジェスチャ」イベント５０７および「停止ジェスチャ」イベント５０８が示される軌跡５０６に沿った（円によって示す）ポインタの移動に対応するその動作によると、動作が所定の距離閾値（例えば５ｃｍ）を上回る場合、および軌跡が一方向におけるリニアリティ相関値（例えば、０．８の線形相関比）を示す場合、および動作が所定の期間内（例えば、１秒未満）で実行される場合。それによって、以前は表示されていなかったウインドウやＧＵＩすなわちスライド５０４が表示され、以前表示されていたウインドウやＧＵＩすなわちスライド５０５がスクリーンから消去される。インタフェースに従って、軌跡は、上下左右方向への動きの少なくとも１つ、あるいはそれらの動作の組み合わせであってよく、それらは例えば、自動車用インフォテイメントシステムにおいて、オーディオメニューからＧＰＳメニュー、またビデオメニューに至る推移を可能にするなど、メニューを制御および変更することが意図され得る。

例えば、本発明の別の一態様によると、インタラクションは、距離および時間閾値を用いずにポインティングジェスチャを用いることによってインタフェース、ウインドウ、またはＧＵＩを変更することを備え得る。更に詳しくは、「クリックジェスチャ」、「摘むジェスチャ」、「掴むジェスチャ」の１つによる開始ジェスチャが検出されると、ポインタの後続位置が、ディスプレイスクリーンに対するその位置に応じてＧＵＩへの変更を決定することになる。ポインタがスクリーンの上端に到達すると、例えばオーディオシステムにおいて音楽のプレイリストをスライドさせるように、ＧＵＩは上部にスライドされ得る。インタラクションは、任意の方向に従って設定されてよく、連続的であってもステップごとベースであってもよい。

例えば、本発明の別の一態様によると、インタラクションは、ＧＵＩにズームインすることを備え得る。ズーム機能は例えば、「掴むジェスチャ」に関連してよく、「クリック」および／または「摘むジェスチャ」の認識を用いる他の種類のインタラクションを可能にする。「掴むジェスチャ」の発生として識別されるような「開始イベント」がトリガされると、例えば、掴むジェスチャが維持されている間、それが解除されるまで、ディスプレイスクリーンに手を近づけるような連続的な動きは表示されたＧＵＩにズームインし、ディスプレイスクリーンから遠ざかる動きはＧＵＩからズームアウトする。

本発明の態様は特定の実施形態に関して説明されてきたが、これらの態様は、一方の手で「開始および停止ジェスチャ」を、もう一方の手で連続的な「インタラクションジェスチャ」をトリガするために両手を併用することを含む他の形式で実現され得ることが容易に理解されるであろう。

Claims

３次元ハンドジェスチャベース認識システムを用いる自然な人間対コンピュータインタラクションを提供するための方法であって、
ａ）ユーザの手における少なくとも２つの注視点を決定するステップと、
ｂ）前記少なくとも２つの注視点によって実行される自然なジェスチャを認識するステップであって、
ｂ１）３次元空間における２つの注視点が互いに近づき合う場合に前記２つの注視点の間の距離が所定の閾値を下回ることを判別することによって、人間対コンピュータインタラクションの始まりをトリガする３次元ハンドポーズに対応する第１の自然なジェスチャを認識することと、
ｂ２）前記第１の３次元ハンドポーズが続く限り制御される連続的な人間対コンピュータインタラクションを制御するために、前記手の少なくとも１つの注視点の動きから第２の自然なジェスチャを認識することと、
ｂ３）前記人間対コンピュータインタラクションの終了をトリガするために、前記第１の３次元ハンドポーズが解除され次第判別される第３の自然なジェスチャを認識することと
を含むステップと、
ｃ）前記注視点によって実行される一連の前記第１、第２、および第３の自然なジェスチャを用いてグラフィカルユーザインタフェースとインタラクトするステップと
を含む方法。
前記対応する３次元ハンドポーズが所定の３次元形状透視図において検出される穴を備える場合、前記第１の自然なジェスチャを検証することをステップｂ１）が更に含む、請求項１に記載の方法。
前記穴がもはや検出されない場合、前記第３の自然なジェスチャのトリガを判別することをステップｂ３）が更に含む、請求項２に記載の方法。
ステップｂ２）は、前記少なくとも１つの注視点の位置の連続的な変化を検出および追跡することを含む、請求項１〜３のうちいずれか１項に記載の方法。
ステップｂ１）およびｂ３）は、ステップｂ２）のために用いられる注視点とは異なる注視点を用いることを含む、請求項４に記載の方法。
ポインティングジェスチャを可能にするために、少なくとも１つのポインタのスクリーン上の表現を前記手の注視点と関連させるステップと、
前記第１の自然なジェスチャがステップｂ１）において認識されると、前記ポインタの前記スクリーン上の表現を、それが指しているグラフィカルユーザインタフェース内の可動要素および表示されたグラフィカルユーザインタフェースにおいてそれが指している位置のうちの少なくとも１つにロックするステップと、
前記第３の自然なジェスチャがステップｂ３）において認識されると、前記スクリーン上の表現をロック解除するステップと
を更に含む、請求項１〜５のいずれか１項に記載の方法。
前記少なくとも１つのポインタのスクリーン上の表現がロックされる場合、ステップｂ２）は、前記第２の自然なジェスチャに対応する前記少なくとも１つの注視点の位置の変化に対して前記少なくとも１つのポインタがロックされる前記グラフィカルユーザインタフェース内の前記可動要素の位置を変化させることを含む、請求項６に記載の方法。
前記第１および第３の自然なジェスチャは、開閉ハンドジェスチャ、指先ベースの「クリック」ジェスチャ、指先ベースの「摘む」ジェスチャ、および手先ベースの「掴む」ジェスチャのうちの少なくとも１つのアクティブ化および非アクティブ化にそれぞれ対応する、請求項１〜７のいずれか１項に記載の方法。
グラフィカルユーザインタフェースのスクロール、グラフィカルユーザインタフェース上でのズーム効果、グラフィカルユーザインタフェースに関連する要素のスクロール、およびグラフィカルユーザインタフェースの変更のうちの少なくとも１つを制御するために、前記第２の自然なジェスチャに関する少なくとも１つの注視点の位置の変化を用いることをステップｂ２）が含む、請求項１〜８のいずれか１項に記載の方法。
ステップｂ）は、ユーザの手において決定される注視点を用いてハンドジェスチャを認識することを含み、前記認識は、３次元手骨格モデリング技術および３次元手先およびパラメータ検出技術のうちの少なくとも１つを用いて実行される、請求項１〜９のいずれか１項に記載の方法。
前記第１、第２、および第３の自然なジェスチャは、少なくとも１つの手を用いて実行される、請求項１〜１０のいずれか１項に記載の方法。
ステップｂ１）およびｂ３）は第１の手を用いて実行され、ステップｂ２）は別の手を用いて実行される、請求項１〜１１のいずれか１項に記載の方法。
グラフィカルユーザインタフェースの変更は、ステップｂ２）において実行される前記第２の自然なジェスチャの方向に依存する、請求項９〜１２のいずれか１項に記載の方法。