JP6360050B2

JP6360050B2 - 手の上の特異な注目すべき点を使用した人間−コンピュータ・ジェスチャ・ベース同時相互作用のための方法及びシステム

Info

Publication number: JP6360050B2
Application number: JP2015521026A
Authority: JP
Inventors: ピノー、ジル; サリホグル、ウトク; ソウザ、カルロス; トロ、ジュリアン; ギーグ、ローラン
Original assignee: ソフトキネティックソフトウェア
Priority date: 2012-07-13
Filing date: 2013-07-12
Publication date: 2018-07-18
Anticipated expiration: 2033-07-12
Also published as: EP2872967B1; EP3007039B1; US11513601B2; KR101757080B1; CN105378593B; US20170097687A1; EP3007039A1; WO2014009561A3; CN105378593A; EP2872967A2; KR20150034215A; US20150153833A1; JP2015522195A; US9864433B2; WO2014009561A2

Description

本発明は、ユーザの少なくとも片方の手によって実施されるジェスチャに基づく人間−コンピュータの自然な相互作用（interaction）の改善、又はそれに関連する改善に関し、より詳細には、それには限定されないが、その片方の手を使用して同時に実施されるポインティング・ジェスチャ及び起動ジェスチャなどの複数の三次元（３Ｄ：ｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌ）ジェスチャの検出に関する。本発明は、ユーザの少なくとも一方の手を含む３Ｄシーンを取り込むための深度知覚画像化デバイス、及び個々の片方の手によって同時に実施され得る複数の３Ｄジェスチャの同時認識を可能にする計算手段の使用を含む。詳細には、本発明は、手の末端、複数の指の先端、複数の手の先端、手の質量中心及び掌中心など、３Ｄジェスチャを認識するための入力として使用される、手の上の複数の特異な複数の注目すべき点（ＰＯＩ：ｐｏｉｎｔｓｏｆｉｎｔｅｒｅｓｔ）を検出し、空間中で追跡し、且つ、解析するための手段を備えている。本発明は、さらに、識別された手及び／又は指並びにそれらの関連する複数の注目すべき点によって実施される３Ｄジェスチャを使用し、ユーザが、特に同時のポインティング及び起動ジェスチャを使用してコンピュータ・システムと自然且つ直感的に相互作用することを可能にするグラフィカル・ユーザ・インタフェース・システムに関する。

従来の人間−コンピュータ・インタフェースは、通常、キーボード、マウス、遠隔制御及びポインティング・デバイスなどのハードウェア制御システム・インタフェースを含む。このようなインタフェースの場合、そのインタフェースが相互作用することが意図されているコンピュータ・システムに制御コマンドを送ることができるように、ハードウェア・デバイス自体を使用して、これらのデバイス・インタフェースによって可能にされるように物理的なアクション、例えば接触アクション、移動アクション、保持アクション、ポインティング・アクション、プレス・アクション、クリック・アクションを実施しなければならず、さらには複数のこれらのアクションを、一緒に、連続的に、又は同時に実施しなければならない。

ごく最近、例えば米国特許出願公開第２０１１／０１１５８９２（Ａ）号明細書に記載されているような自然な相互作用システムが出現し、可視スペクトルの光を取り込むため、及びユーザの指を検出するために従来の二次元（２Ｄ：ｔｗｏｄｉｍｅｎｓｉｏｎａｌ）カメラが使用されている。しかしながらその種の技術の限界のため、指のような対象、例えば取り込まれたシーンの中のペンが指として誤って識別又は検出される可能性があり、或いはシーン照度に対する依存性のために指の追跡が失われる可能性がある。しかしながら最新の画像化処理技法によれば、従来のカメラを使用して手を検出することができ、且つ、手の末端の解析を可能にする入力を提供することができる。しかしながらこれらの技法を使用しても、３Ｄシーンの中に存在している何らかの他の末端を正確に解析することは依然として不可能であり、とりわけ、異なる距離における強い頑強性（ｒｏｂｕｓｔｎｅｓｓ）又は背景照度に対する強い頑強性において解析することは依然として不可能である。

米国特許出願公開第２０１２／００６９１６８（Ａ）号明細書では、シーンから抽出される手のマスクを使用して、異なる手に関連するデータ、つまり掌中心及び掌のつけね、並びに掌中心から手の輪郭即ち端部までの距離などの手パラメータを見出すために色情報が使用されている。これらの距離は、手が閉じているか、或いは開いているかどうかを評価するためにさらに使用することも可能であり、また、その評価から、「選択」すなわち「つかむ（grab）」に関連するジェスチャを手が実施しているかどうかを決定することも可能である。しかしながらジェスチャに基づくこのような方法には限界があり、コンピュータとの相互作用のような３Ｄポインティングを解決するための頑強とした方法を提供することはできず、また、色を区別することができない暗い環境で動作させることもできない。さらに、提供される距離は単なる相対測値にすぎないため、検出される「つかむ」ジェスチャは極めて不正確であり、したがってセンサ又は画像化デバイスから様々な距離に位置している仮想対象を正確に「指示(point)」し、且つ、「つかむ」ために使用することはできない。さらに、このような方法は、正確且つ信頼性の高い「つかむ」ジェスチャを得るためには不可欠であり、或いはシーンの中の手の「つまむ（pinch）」ジェスチャのレベル又は相対量を測定するためには同じく不可欠である、３Ｄシーンの中の２つの独立した複数の注目すべき点の間の正確な目標距離などの情報を提供しない。

しかしながら第３の時限、即ち深度に関連する情報は重要な追加であり、それは、現在ではレンジ・センシング・カメラからの入力を使用することによって決定することができる。さらに、レンジ・センシング・カメラは、例えば可視スペクトルの代わりに赤外スペクトルで動作させることができる。このようなレンジ・センシング・カメラは、シーン取込みがシーンの自然な照度に無関係であり、また、画像知覚デバイスからの距離がいかなる距離であれ、対象の絶対サイズ及び複数の注目すべき点の間の距離を決定することができるため、より頑強とした、且つ、より安定した、信頼性の高い正確なユーザの手のモデルを有するための可能性を切り開く三次元（３Ｄ）情報を提供する。

これまでは、手の指の追跡又は三次元における何らかの他の関連する複数の注目すべき点の追跡と共に手の頑強とした検出及びその追跡は不可能であった。さらに、片方の手又はその関連する特異な複数の注目すべき点によって連続的又は同時に実施される異なる種類のジェスチャの頑強とした認識も同じく不可能であった。詳細には、３Ｄシーンの中の少なくとも片方の手の上の複数の特異な複数の注目すべき点を決定することができ、且つ、これらのジェスチャがそれらのジェスチャに関連する片方の手によって同時に実施される場合であっても、誤りである可能性のある検出を招くことなくこれらの複数の注目すべき点を追跡し、それによりポインティング及び起動ジェスチャを認識することができる自然な３Ｄジェスチャ・ベース相互作用システムは、今のところ存在しない。

グラフィカル・ユーザ・インタフェース（ＧＵＩ：ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）技術の分野では、ポインタに基づくインタフェースの使用が一般的であり、また、接触又は多重接触インタフェースの使用が増加している。ポインタに基づくこのようなインタフェースを使用している代表的な入力デバイスには、マウス及びタッチ・スクリーンがある。少なくとも１つのポインタに基づくこのような入力デバイスは、その取扱いが正確であり、また、コマンドを明確に区別し、且つ、関連するコンピュータ・システムのＧＵＩ、例えばユーザの相互作用の状態に関する明確なフィードバックをユーザに提供するクリック・ボタンを使用して、同時に特徴を指示し、且つ、起動することができるハードウェア・マウス・デバイスに転送することができる点で有利である。しかしながらハードウェアの使用は、フィードバックの一部を部分的にハードウェア・デバイス自体との接触によって構築しなければならないため、場合によっては不利である。

最近、人間−コンピュータ相互作用を可能にするための画像処理の分野で、指及び手の検出、それらの追跡、それらの識別、及びごく限られた範囲ではあるが、空間におけるそれらの運動の認識に関するいくつかの技法が開発された。さらに、実時間コンピュータ・ビジョン・ベースの人間の指認識は、認証アプリケーションのための指紋認識及び掌紋認識にほとんど的が絞られている。さらに、複雑な背景の中で人間の指を認識することができるようにするために、指の運動の追跡及び定義済みジェスチャにおける指の運動の解釈は、従来、画像化システム及び該画像化システムをサポートしている画像信号処理システムの能力によって制限されている。１つの結論は、手／指３Ｄジェスチャ・ベースの自然な相互作用のための明確な、疑いの余地のないフィードバックを提供するための努力が真になされていないことである。

一方、ユーザの身体の一部、例えば手又は手の上の指の３Ｄ運動を認識し、且つ、追跡することによってポインタを制御するための自然な相互作用技法は、依然として、制御に対応する運動と相互作用自体には無関係の運動に対応する運動とを明確に区別する必要があるため、比較的低い認識比率を示すことが知られている。その問題を解決するための共通の技法は、効率的な片手で同時の「ポインティング」及び「起動(activation)」ジェスチャ認識とは適合しない、連続的に実行される明確な「開始」及び／又は「停止」ジェスチャなどの特殊なアクションを使用するため、非直観的な難しさを要求する。さらに、手又は指ジェスチャ・ベースの自然な相互作用技法は、３Ｄ空間におけるユーザの運動に帰し得るポインタの変位をユーザの観点からのマウスの変位に対応させることが依然として困難であるため、同じく問題である。これは、とりわけ、自然ベースの相互作用、詳細には、ジェスチャが認識されたか否かを示すフィードバックを、自然なジェスチャを実施するユーザに提供することができない相互作用形システムと適合して使用するようには開発されていないＧＵＩ又は相互作用形システムの場合に言える。これは、起動ボタンが起動フィードバックとして物理的なクリックを提供するハードウェア・マウスとは全く異なる。

米国特許出願公開第２０１１／０１１５８９２（Ａ）号明細書米国特許出願公開第２０１２／００６９１６８（Ａ）号明細書

本発明は、一態様では、それらに限定されないが、３Ｄレンジ・ファインディング画像化システムを使用して取り込まれたシーンから得られる３Ｄ点クラウドの中の手及び指の複数の先端を含む、ユーザの少なくとも片方の手のパラメータ及び特異な複数の注目すべき点を検出するための特定の実施態様に関しており、これらの３Ｄ点のクラスタは、考察中の手を表す。この検出は、手のポーズ及び配向に無関係に実施することができる。

本発明は、より詳細には、「ポインティング」ジェスチャを可能にするための、片方の手の上の少なくとも第１の注目すべき点、好ましくは先端又は末端の検出に関し、好ましい実施例では、信頼性の高い「つまむ」、「つかむ」、「クリック」又は「スナップ」ジェスチャを可能にするために、少なくとも２つの特異な複数の注目すべき点が関連する連続又は同時相互作用の中で識別される。

より好ましくは、本発明は、片方の手の上の２つのＰＯＩの検出に関し、この検出によって、例えば、人差し指の先端などの検出された末端の中から少なくとも１つの第１のＰＯＩを決定することができ、また、他のＰＯＩを親指の先端などの手の第２の末端として決定することができる。通常、その相互作用のために必要な２つのＰＯＩのうちの１つとして任意の指を割り当てることができる。

他の実施例では、第１のＰＯＩは、例えば人差し指の先端などの指の先端として決定することができ、一方、少なくとも第２のＰＯＩは、３Ｄ点クラウド内における掌中心又は手の質量中心として決定することができる。この実施例では、第２のＰＯＩは、ポインティング・ジェスチャのために使用することができ、一方、第１のＰＯＩは、人差し指の先端の上下運動によってトリガされる起動ジェスチャのために使用することができ、つまり、どちらかのジェスチャの何らかの誤った検出を招くことなく、ポインティング・ジェスチャと同時に実施することができる「スナップ（snap）」ジェスチャのために使用することができる。

特定の形態では、方法は、何本かの指が互いにそろうと、複数の手の先端の頑強とした有効な決定を可能にするための手段を備えており、例えば第１の先端を親指の検出された先端として決定することができ、また、他の先端を、他の個々の指が互いにそろった手の末端に対応する手の先端として決定することができ、その末端の位置は、すべての他の複数の指の先端の近似平均位置に対応する。２つの先端が検出され、且つ、対応する複数の注目すべき点が使用される形態では、方法は、第３の注目すべき点の決定をさらに含むことができ、その位置は、後のプロセスでポインタとして使用される重要な「中間（intermediate）」点を生成するために、２つの先端に応じて決定される。特定の実施例では、先端などの２つの注目すべき点の運動は対称的ではないことがあり、したがって正確な自然な相互作用のためには場合によっては問題であるため、この第３の点は、「つまむ」ようなジェスチャの間、その位置のずれが回避されるように決定される。

本発明の方法及びシステムは、手の指の２つの先端の検出に限定されず、同じ手の指の上、及び／又はいくつかの手の上でより多くの先端又はＰＯＩと共に使用することも可能であることは理解されよう。詳細には、方法及びシステムは、「つまむ」又は「つかむ」ベースの相互作用のために最も適した複数の注目すべき点が自動的に決定され、且つ、選択されるように、互いに反対側の少なくとも２つの異なる注目すべき点をいくつかの手の先端の中から区別するための手段を備えている。

本発明は、第２の態様では、少なくとも手の複数の先端及び好ましくはこれらの手の複数の先端に関連する一組の注目すべき点を含む一組の決定された注目すべき点の空間及び時間における配置、及びそれらの互いの関係を解析するための特定の実施態様に関している。解析は、第１のサブ・ステップで、最新技術で知られている方法を使用して、「ポインティング」ジェスチャ又は「スワイプ（swipe）」ジェスチャなどの動的ジェスチャを決定するために、複数の注目すべき点のうちの少なくとも１つの時間の経過に伴う運動を検出し、且つ、認識することを目的としている。解析は、第２のサブ・ステップで、所与の時間点における特定の配置を認識し、且つ、手のポーズを決定するために、複数の注目すべき点の空間配置を一度で検出し、且つ、認識すること、つまり空間におけるそれらの個々の位置を検出し、且つ、認識することを目的としている。所与の時間点における手のポーズ解析には、パターン一致認識方法などの最新技術で知られている任意の他の方法を使用することができる。好ましくは、手のポーズ認識を使用して、複数の注目すべき点を一体にリンクしている幾何学的パラメータを解析することができる。解析は、第３のサブ・ステップで、手の非静的ポーズを有する動的ジェスチャを決定し、且つ、静的ポーズを有する動的ジェスチャからそれらを区別するために、適用可能である場合、時間の経過に伴う複数の注目すべき点の空間配置の変化、つまりそれらの個々の位置の変化を検出し、且つ、認識することを目的としている。詳細には、方法は、少なくとも「つまむ」又は「つかむ」ジェスチャの形態であってもよい手の非静的ポーズを有する動的ジェスチャの認識を含む。

本発明は、第３の態様では、複数の注目すべき点の中から、フィードバック手段を有する特定のシステム、例えばＧＵＩと相互作用するための複数のポインタとして使用される複数の注目すべき点を決定するための方法の特定の実施態様に関しており、その設計は、少なくとも１つのポインタの表現と順応し、好ましくは２つのポインタの表現と順応する。システムのＧＵＩは、さらに、ユーザの手の（複数の）注目すべき点の表現、つまり（複数の）ポインタと組み合わせて使用することができる個々の相互作用能力を有する異なる仮想対象を表すことができる。より好ましくは、表現される仮想対象又はＧＵＩの表面の空間のいくつかの部分は、位置又は（複数の）注目すべき点と関連付けられた（複数の）ポインタによって、或いは（複数の）注目すべき点自体によって実施されるジェスチャに応じてユーザに視覚フィードバックを提供することができる。さらに好ましくは、表現される仮想対象又はＧＵＩの表面の空間のいくつかの部分は、ユーザの手の（複数の）注目すべき点と関連付けられた（複数の）ポインタが特定の位置を指示し、及び／又はジェスチャを実施している場合、或いは（複数の）注目すべき点自体によって特定の位置を指示し、及び／又はジェスチャを実施している場合、ひずみ、移動、明滅、強調又は他の手段の形態の視覚フィードバックをユーザに提供することができる。さらに、（複数の）ポインタは、その位置に応じて、検出されたジェスチャに応じて、或いは相互作用している仮想対象に応じて視覚フィードバックを引き渡すことも可能である。本発明の好ましい実施例では、相互作用は、複数のポインタの、ＧＵＩ上に表示された対象を使用した文脈的な表現の自動決定、及びＧＵＩの領域内のこれらの対象とのそれらの相互作用と共に、表示するための、手の上の複数の注目すべき点の数の自動決定、及び複数のポインタの数の自動決定をさらに含むことができる。

本発明の他の特徴は、本明細書の特許請求の範囲によって定義される。

本発明をより良好に理解するために、以下、実例として添付の図面を参照する。

本発明による方法の３つの主要な処理ステップの流れ図である。本発明による方法の第１の主要なステップの４つのサブ・ステップの流れ図である。いくつかの手パラメータを決定する際に考慮すべき、ユーザの手の可能ポスチャー又はポーズを示す図である。いくつかの手パラメータを決定する際に考慮すべき、ユーザの手の可能ポスチャー又はポーズを示す図である。いくつかの手パラメータを決定する際に考慮すべき、ユーザの手の可能ポスチャー又はポーズを示す図である。いくつかの手パラメータを決定する際に考慮すべき、ユーザの手の可能ポスチャー又はポーズを示す図である。いくつかの手パラメータを決定する際に考慮すべき、ユーザの手の可能ポスチャー又はポーズを示す図である。いくつかの手パラメータを決定する際に考慮すべき、ユーザの手の可能ポスチャー又はポーズを示す図である。本発明による方法によってその先端を決定することができる２本の指を使用して対象をつかむ原理を示す図である。本発明による方法によってその先端を決定することができる２本の指を使用して対象をつかむ原理を示す図である。本発明の方法に従って決定するための手のポスチャー(posture:姿勢)における手の複数の先端及び掌中心の位置決めを示す図である。本発明の方法に従って決定するための手のポスチャーにおける手の複数の先端及び掌中心の位置決めを示す図である。本発明の方法に従って決定するための手のポスチャーにおける手の複数の先端及び掌中心の位置決めを示す図である。本発明の方法に従って決定するための手のポスチャーにおける握りこぶしの先端の位置決めを示す図である。手の複数の先端の位置決め、掌中心、及び重要な追加点の位置決めと重畳した「つかむ」ポスチャー内の手の側面図である。手の先端の位置決め、親指の先端、及びポインタとして設定することができる重要な追加点の位置決めと重畳した「つかむ」ポスチャー内の手の正面図である。手の距離マップを示す図である。開いた「つまむ」姿勢を想定した手の深度マップを示す図である。図９ａの深度マップに対応する応答マップを示す図である。閉じた「つまむ」姿勢を想定した手の深度マップを示す図である。図１０ａの深度マップに対応する応答マップを示す図である。親指が鮮明な応答信号を生成し、且つ、他の応答が手の先端に対応する、深度マップを示す図である。図１１ａの深度マップに対応する応答マップを示す図である。複数の末端に対する深度マップを示す図である。図１２ａの深度マップに対応する応答マップを示す図である。仮想対象及び複数の手の先端の中から決定された複数の注目すべき点と関連付けられた２つのポインタの表現を含む何らかの相互作用を示す図である。同時ポインティング及び起動ジェスチャを可能にするポスチャーの中の手の側面図である。

本発明について、特定の実施例に関して、特定の図面を参照して説明するが、本発明はそれらに限定されない。説明される図面は単なる略図にすぎず、非制限である。図面では、何らかの要素のサイズは、実例で説明することを目的として場合によっては誇張されており、スケール通りには描かれていない。

さらに、以下で説明される図の特定の配向は非制限であるが、実例として示されている。

本明細書において使用されている「自然な相互作用」又は「自然な三次元（３Ｄ）ジェスチャ・ベース相互作用」という用語は、人間が何らかのハードウェア・デバイス又はマーカを取り扱い、持ち運び、或いは使用する必要がない人間−コンピュータ相互作用を意味しており、相互作用形コンピュータ・システムは、コンピュータを制御するためにユーザによって提供される、好ましくは何らかの計算手段によって認識することができるジェスチャの形態の情報をこれらの計算手段を使用して取り込み、且つ、抽出するための三次元（３Ｄ）タイム・オブ・フライト（ＴＯＦ：ｔｉｍｅ−ｏｆ−ｆｌｉｇｈｔ）カメラのようなレンジ・ファインディング（range finding）画像化システムなどの画像化手段に関連付けられている。

本明細書において使用されている「ポーズ(pose)」又は「ポスチャー(posture)」という用語は、特定の瞬間における物理的な手のポスチャーを意味している。これは、手の一組の特定の点の位置の空間における特定の配置に対応し、詳細には、空間における、一組の特異な（複数の）注目すべき点の配置に対応する。

本明細書において使用されている「特異な複数の注目すべき点(singular points of interest)」又は「注目すべき点(point of interest)」という用語は、ユーザ特異点の手の上の特異点、つまり手の末端、複数の指の先端、複数の手の先端、手の質量中心、掌中心又は任意の他の点を意味しており、その位置は、時間に対して追跡することができる手から得られる他の信頼性の高い点のうちの少なくとも１つの位置を使用して決定することができる。

「注目すべき点」又は「複数の注目すべき点」という用語は、以下、一括して「ＰＯＩ」として参照され、１つ又は複数の注目すべき点が説明されているかどうかの決定は、「ＰＯＩ」という用語が使用されている文脈から明らかであろう。

本明細書において使用されている「ジェスチャ(gesture)」という用語は、時間に対するＰＯＩ又は一組のＰＯＩの空間配置の変化を意味している。追加又は別法として、「ジェスチャ」という用語は、時間に対する、空間におけるＰＯＩの不変の配置の位置の変化を意味することも可能である。ポーズが時間に対して変化しない、つまり空間におけるＰＯＩの配置が不変を維持する場合、それは静的ジェスチャとして説明される。ＰＯＩの配置が不変を維持し、且つ、配置の位置が時間に対して空間中で変化する場合、これは、静的ポーズを有する動的ジェスチャとして説明することができる。ＰＯＩの配置が時間に対して変化する場合、これは、異なるポーズを有する動的ジェスチャとして説明される。

本明細書において使用されている「手の先端(hand tip)」という用語は、手の主要な末端に対応する単一のＰＯＩを意味している。手の先端は、より詳細には指の末端に近い平均位置に配置することができる。

本明細書において使用されている「複数の指の先端(finger tips)」という用語は、個々の指の先端又は指の末端を表すいくつかの空間位置を意味している。個々の指の先端は、典型的にはＰＯＩと見なされる。

本明細書において使用されている「複数の手の先端(hand tips)」という用語は、手の先端を意味しており、また、同じく複数の指の先端を意味している。

本明細書において使用されている「ポインタ」又は「複数のポインタ」という用語は、ＰＯＩ又は一組の選択されたＰＯＩの仮想世界における表現を意味している。

本明細書において使用されている「複数のグラバ(grabbers)」という用語は、手の上のＰＯＩと結合している所定の数の複数のポインタを意味している。それらは、基本的に、ユーザが少なくとも一方のユーザの手を使用して「つまむジェスチャ」を実施している場合に、手の重要な末端を識別するために使用される少なくとも２つのポインタを含む。親指及び人差し指を使用する場合、親指及び人差し指の複数の先端は、それぞれ下部及び上部の「複数のグラバ」を含む。３本以上の指が使用される場合、下部「グラバ」は、親指の上に固定することができ、また、上部「グラバ」は、他の指の平均位置であってもよい。さらに、「下部グラバ」及び「上部グラバ」という用語の使用は、シーンに対する関連するＰＯＩの配向を意味している。「下部グラバ」及び「上部グラバ」は、実際上は、シーンの中のＰＯＩの配向に応じて、左側及び右側の「複数のグラバ」と見なすことができる。

本明細書において使用されている「ポインティング」という用語は、「ポインティング・ジェスチャ」を意味している。それは、例えば複数の手の先端のうちの少なくとも１つ又は関連するＰＯＩを、実世界のユーザに関連する基準３Ｄ位置、つまり仮想空間における、ポインタの仮想表現が配置される位置を決定するために使用することができる末端に対応する空間中の位置として使用することに対応する。ポインタの仮想表現の位置の決定は、例えば実世界３Ｄ空間におけるユーザＰＯＩの絶対位置決めの使用、決定された基準３Ｄ位置に対する実世界３Ｄ空間におけるユーザＰＯＩの相対位置決めの使用、又は２つのＰＯＩの間に設定されるベクトルの主方向、例えば掌中心から人差し指の先端までのベクトルによって画定される方向によって決定される相対位置決めの使用を始めとするいくつかの方法に従って達成することができる。「ポインティング」は、例えば少なくとも２つのＰＯＩの位置の統計的モードの使用を始めとするいくつかのポインタの追加利用することができることは理解されよう。統計的モードは、例えば、それらの位置の平均、中間、最大、最小又は重み付き合計のうちの少なくとも１つであってもよい。

本明細書において使用されている「起動ジェスチャ」という用語は、システムによって認識され、マウス・クリックの事象トリガと同様の事象トリガとして使用されるジェスチャを意味している。起動ジェスチャは、「つまむ」ジェスチャ、指「スナップ」ジェスチャ及び／又は「つかむ」ジェスチャを含むことができる。

「つまむ(pinching)」という用語は、人間工学考察に関して、手が閉じられ、したがって手の部分を表すＰＯＩの中から選択された少なくとも２つのＰＯＩ又はそれらの対応する複数のポインタが互いにより接近することを意味している。「つまむ」は、起動のために使用される認識されたジェスチャであってもよい。２つのＰＯＩの間の距離又は相対距離は、「つまむ」ジェスチャのレベル又は量に関連する値を決定するために追加使用することができる。

「つかむ(grabbing)」という用語は、人間工学考察に関して、手が閉じられ、したがって手の部分を表すＰＯＩの中から選択された少なくとも２つのＰＯＩ又はそれらの対応する複数のポインタが、仮想世界におけるそれらの表現の間の距離が「つかまれる」対象又は仮想対象の表現のサイズに対応するまで互いにより接近することを意味している。その時点で、対象は、「つかまれた」と見なすことができ、例えばユーザによって実施されるジェスチャの関数として握られ、移動され、配向され、並進され、引きずられ、落下され、等々の形態で取り扱うことができる。「つかむ」は、認識されたジェスチャであってもよい。

「スナップ・ジェスチャ」という用語は、人間工学考察に関して、指の先端、好ましくは人差し指の先端、又は手の先端に対応するＰＯＩの上下運動、或いはそれらの関連する複数のポインタの上下運動を意味している。「スナップ・ジェスチャ」は、典型的には、人間−機械相互作用システムにおけるクリックなどの事象をトリガリングするための起動ジェスチャとして使用されるジェスチャである。

本明細書において使用されている「手パラメータ」という用語は、手に関連する少なくとも以下のパラメータを意味している。複数の手の先端、掌の中心（「掌中心」と呼ばれる）、掌の半径（「掌半径」と呼ばれる）、掌に対する垂直線（normal）（「掌垂直線」と呼ばれる）、掌の開度（「掌開度」と呼ばれる）、掌のつけね、及び掌中心から手の輪郭までの距離。

本明細書において使用されている「仮想表現(virtual representation)」及び「表現(representation)」という用語は、相互作用対象の仮想世界におけるディジタル図解に対応している。この相互作用対象は、仮想世界自体からの対象、例えばユーザが相互作用することができるオペレーティング・システムのＧＵＩからのフォルダであってもよい。また、この相互作用対象は、実世界からの実相互作用対象の仮想世界におけるディジタル図解、例えばユーザの手であってもよく、その位置は、ポインティング又はオペレーティング・システムのＧＵＩとの仮想世界におけるマウス・ポインティング相互作用を可能にするために、時間に対して追跡される。

本発明は、一般に、非接触の自然な相互作用システムを提供するための装置及び方法に関係しており、より詳細には、手の指及び／又は手自体及び／又は手のパラメータからの３Ｄ位置及び３Ｄジェスチャから決定される制御を使用して、非接触方式で少なくとも１つのマウス・ポインタを制御するための自然な相互作用システムを提供するための装置及び方法に関している。詳細には、「ポインティング」、「つまむ」、「つかむ」又は「スナッピング」ジェスチャ及びそれらの派生物などの頑強とした信頼性の高いポインティング及び起動ジェスチャを検出することができ、それによりこれらのポインティング及び起動ジェスチャに応じて適切な前後関係のフィードバックを提供するシステムとの３Ｄの自然な相互作用の人間工学を改善することができ、これらのポインティング及び起動ジェスチャは、さらに、連続的に実施することができるだけではなく、同時に実施することも可能である。

本発明の方法は、マルチ・タッチ・スクリーンの種類の相互作用を提供することができ、或いはポインティング及び起動操作を有効に検出する場合、従来のマウスより、より自然な相互作用を単純に提供することができる３Ｄ手ジェスチャ認識に基づいているため、従来のマウス・タイプの相互作用に限定されない。

本発明によれば、レンジ・ファインディング・カメラ・デバイスによって提供されるデータ、つまり深度マップ又は３Ｄ点クラウド（一組の頂点又は頂点とも呼ばれる）から抽出される手ジェスチャ情報に関連する情報に関連してコンピュータ化されるシステムとの人間の直観的な自然な相互作用を可能にする方法及びシステムが提供される。相互作用は、少なくとも１つのポインタ、好ましくは少なくとも２つのポインタを決定し、それにより適宜に設計されるＧＵＩと文脈的に相互作用するために、所定の手パラメータ、即ち手の掌中心及び複数の手の先端を利用する。

方法は、以下の３つの主要なステップを含む。

第１のステップは、少なくとも掌中心及び複数の手の先端を含む少なくとも１つの手パラメータ及びその特異なＰＯＩの検出を含む。この第１のステップの目的は、いくつかの関連するＰＯＩ、つまり、さらなる相互作用のために使用することができる複数のポインタを個々に決定し、或いは組み合わせて決定するために使用することができる特異なＰＯＩ又はＰＯＩを決定することである。

第２のステップは、ジェスチャ相互作用を検出するために、少なくとも１つのＰＯＩ又はその関連するポインタの選択の時間に対する追跡及び解析を含む。選択されるＰＯＩの数に応じて、少なくともポインティング・ジェスチャを決定することができる。本発明の好ましい実施例によれば、少なくとも２つのＰＯＩが使用される場合、「つまむ」、「つかむ」および「指スナップ」のジェスチャ、及び、それらに潜在的に関連する「クリック」又は「ダブル・クリック」などの相互作用を、ポインティング・ジェスチャとは独立して、或いは同時に決定することができる。

このステップでは、例えば以下のような、認識される様々なジェスチャが存在している。
（ｉ）手の上の単一のＰＯＩを使用した「ポインティング」ジェスチャであって、このような単一のＰＯＩは、指の先端、手の先端、手の掌中心、等々であってもよい。
（ｉｉ）手の上の少なくとも２つのＰＯＩを使用した「ポインティング」ジェスチャであって、一実施例では、２つのＰＯＩ位置の間の補間は、事実上、ポインタとして作用する他のＰＯＩを提供する。補間のために使用される２つのＰＯＩは、２つの指の先端であっても、１つの指の先端及び手の先端、好ましくは、人間工学的に指の先端とは反対側であるため、例えば親指であっても、１つの指の先端及び手の掌中心であってもよい。他の実施例では、「ポインティング」ジェスチャは、２つのＰＯＩ、例えば指先端及び掌中心の間の方向ベクトルを使用して決定される。補間の基本のために、或いは方向ベクトルを決定するために、任意の２つの適切なＰＯＩを使用することができることは理解されよう。
（ｉｉｉ）少なくとも１つの単一のＰＯＩを使用した「起動」又は「起動」ジェスチャであって、例えば掌中心を使用した「プッシュ」ジェスチャ、「つまむ」及び／又は「つかむ」のための少なくとも２つのＰＯＩを使用した「起動」又は「起動」ジェスチャ、或いは「スナップ」ジェスチャのための移動ＰＯＩ及び静的ＰＯＩを使用した「起動」又は「起動」ジェスチャ。
（ｉｖ）例えばポインティングのための掌中心及び「スナップ」ジェスチャで起動するための１つの指の先端、又は「つまむ」及び／又は「つかむ」ジェスチャのための２つの指の先端を使用した少なくとも２つのＰＯＩを使用した同時「ポインティング」及び「起動」。
（ｖ）例えば２つの指の先端と共に掌中心を使用した、１つの指の先端及び１つの手の先端と共に掌中心を使用した、２つの指の先端及び補間されたＰＯＩを使用した、或いは２つの指の先端及び掌中心を補間されたＰＯＩと共に使用した少なくとも３つのＰＯＩを使用した同時ポインティング及び起動。好ましい実施例では、「ポインティング」ポインタの位置は、２つのＰＯＩから補間され、「ポインティング」ジェスチャ以外のジェスチャを実施するためにそれらが同時に使用されると、これらの２つのＰＯＩの回転及び個々の運動に対して不変にされる。

第３のステップは、ユーザの手のＰＯＩの表現と相互作用する際に、人間工学的で、直観的且つ自然な相互作用を可能にし、例えば対象を強調し、且つ、対象の形態を搾り出すために、仮想対象を含むＧＵＩを有するシステムに関連して検出される複数のポインタ及びジェスチャの使用、及び前後関係（contextual）のフィードバックの引渡しを含む。

本発明の一実施例によれば、図１は、方法の３つの主要な処理ステップ、即ち手パラメータの検出（ステップ１００）、それらの運動及びポスチャーのＰＯＩの決定及び追跡並びに解析（ステップ１０１）、及び（複数の）注目すべき点の表現と、順応する自然な非接触ジェスチャ・ベースＧＵＩの間の相互作用の前後関係の決定（ステップ１０２）を示す流れ図を示している。フィードバック制御ループは、矢印１０３で示されているように、ステップ１００で手パラメータを検出するために、ステップ１０２における前後関係の決定から提供されている。さらに、矢印１０４で示されているように、ステップ１０２における前後関係の決定から、ステップ１０２におけるそれらの運動及びポスチャーのＰＯＩの決定及び追跡並びに解析まで、他のフィードバック制御ループが提供されている。

本発明の第１のステップ（ステップ１００）は、少なくとも１つの安定したＰＯＩを提供することができるように、特定の複数の手の先端、つまり手の先端及び複数の指の先端を含む手パラメータを検出することを目的としている。好ましくは、方法は、安定したＰＯＩを決定することができる上部ＰＯＩ及び下部ＰＯＩの検出をさらに含むことができる。

さらに、未だ利用可能ではない場合、方法は、掌半径、手開度及び掌垂直線のパラメータのうちの少なくとも１つの決定を含むことも可能である。

これらの決定された注目すべき点の中から少なくとも１つの注目すべき点を使用して、方法は、以下でステップ１０２に関連してより詳細に説明するように、システムと相互作用するための少なくとも１つのポインタの決定をさらに含む。好ましくは、方法は、相互作用を実施するための複数の手の先端に対応する上部及び下部ＰＯＩに関連付けられた少なくとも２つのポインタの決定を含む。

本発明の第１のステップは、ユーザの手及びラベル・イメージの少なくとも一方のを含む深度マップ又は対応する３Ｄ点クラウド（つまり一組の頂点）を少なくとも含む入力情報を使用する。［３Ｄ点クラウドは、いくつかのクラスタにセグメント化され、クラスタの各々にはラベルが振られている］。識別された手のラベルが使用され、また、制御点の数を決定する定義済みの値が決定される（制御点のこの定義済みの数は、可能にされた場合、矢印１０３によって示されているフィードバック制御ループのため、ユーザ・インタフェースによって任意選択で提供される）。さらに、決定すべき複数のポインタの数を決定する定義済みの値を使用することも可能である（複数のポインタのこの定義済みの数は、可能にされた場合、矢印１０３によって示されているフィードバック制御ループのため、ユーザ・インタフェースによって提供することができる）。

本発明の第１のステップであるステップ１００は、図２に示されている４つの処理サブ・ステップ、即ち手の掌中心及び複数の手の先端の検出及び決定（ステップ２００）、注目すべき点の決定（ステップ２０１）、ＰＯＩを使用した（複数の）ポインタの決定（ステップ２０２）、及び開度及び掌垂直線などの他の追加手パラメータの決定及び／又は精製（ステップ２０３）を含む。

ステップ２００は、最初に、「距離変換」の事前計算を必要とする手の掌中心の検出及び決定を含み、距離変換の出力は、使用すべき識別された手の距離マップである。手の距離マップは、手の個々のピクセルが、メトリック・システム（metric system）内で、図８に示されているような手の最も近い境界までの距離に等しい値を有するイメージである。詳細には、図８では、使用すべきラベルがつけられた手は、ユーザの他の役に立たないラベルがつけられた部分及び背景から隔離されている。図解では、手の表現の中の個々のピクセルの内容が暗くなるにつれて、このピクセルは、ラベルがつけられた手の境界からますます遠ざかっている。このような距離マップ・イメージは、手の２進ラベル・イメージ上の２つのパス（ツー・パス）を使用して計算することができる。

距離変換は、いくつかの方法を使用して実施することができる。しかしながら、本発明における１つの重要な点は、ラベル・イメージの個々のピクセルが３Ｄ点クラウド内の位置に対応し、また、距離マップの中の個々の距離が実世界における距離メトリックに対応するため、ピクセル毎に得られる距離値を実世界におけるメトリック距離に関連付けることができることである。例えば距離変換は、第１のパスが２進ラベル・イメージの左上隅から右下隅までであり、また、第２のパスがその反対の方向であるツー・パス・プロセスを使用して実施することができる。パス毎に、ピクセル毎の距離が累積され、これは、パスによって既に処理済みのすべての直接隣接するピクセルの最小値の合計に対応する。例えば第１のパスでは、あるピクセルのすぐ隣のピクセルは、左側、対角線の左側、上側及び対角線の右側のピクセルであってもよい。現在のピクセルに対して決定される距離は、４つの隣接するピクセルの最小値＋１として決定することができる。さらに、ピクセルの基本的な幾何学的特性を考慮するために、水平方向／垂直方向に隣接するピクセルの値は、所定の係数、例えば５の値によって重みを付けることができ、一方、対角線の方向に隣接するピクセルの値は、他の所定の重み係数、例えば７の値によって重みを付けることができる。７／５比率は、典型的な正方形ピクセルの対角線と辺の間の保存比（preserving ratio）に対応している（７／５＝１．４≒√２）。

掌中心位置を見出し、或いは近似するために、プロセスは、少なくとも、距離情報強度が手の他のすべてのピクセルの最大値であるピクセル位置の決定を含み、好ましい実施例では、既に決定されている掌中心位置の滑らかな位置変化を可能にするために、既に決定されている掌中心までの距離を最小にすることを考慮することができる。

次に、ステップ２００は、手の３Ｄ点クラウド全体にわたって実施される主成分解析（ＰＣＡ：ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を使用した手の先端の決定を含む。原点が掌の中心として設定され、且つ、その方向がＰＣＡによって与えられる主方向として設定されるベクトルを使用して、そのベクトルに対して正規直交であるピクセルの数がカウントされ、そのベクトルの個々のセクション上に突出するようにヒストグラムが計算される。ベクトルのセクションは、例えば１ｍｍステップの距離メトリックによって表すことができる。次に、このようにして決定されたヒストグラムを使用して、手ピクセルの最小が突出しているベクトルのセクションに対応する領域として手の先端を決定することができる。１つの好ましい最も頑強とした実施例では、２つの所定の閾値の間の範囲を画定することができ、例えば、ピクセルの突出が比較的小さいヒストグラムのセクションに対応し、したがって手の先端である仮定される空間における手の主方向に沿った手の最も分厚いセクションに対応する９５％から９９％の範囲を画定することができる。

第３に、ステップ２００は、複数の指の先端を近似する手の末端に対応する領域である複数の手の先端の三次元における決定を含む。そのために、図９ｂに示されている「応答イメージ」が決定される。応答イメージでは、ピクセルの値は、考察中のピクセルとその隣接する８個のピクセルの間の深度の差を表している。大きい値は、末端である確率が高いことを示している。個々のピクセル値は、共通の８つの方向（つまり上、左上、右、右下、下、左下、左及び左上の方向）に沿って隣接する８個のピクセルから計算される。個々の方向では、現在の点から２ｃｍの距離に位置しているピクセルが考慮される。どのピクセルが個々の方向における２ｃｍの距離の突出に対応しているかを見出すために、画像化デバイス又はカメラの仕様が現在の点の深度値と共に使用される。この操作は、当然、有効なピクセルに対してのみ実施される。これらの８個のピクセルに対して、現在のピクセルとの深度の差が決定され、且つ、現在のピクセルの値が第３の最も小さい値と見なされる。第３の最も小さい値が選択されるのは、一方の辺（例えば掌の辺）に接続されていないことによってすべての非末端部分に大きい値を持たせることが容易であり、また、手のこれらの部分は、指として応答を提供しないことが望ましいことによるものである。さらに、指はいくつかの方向を有することも可能であり、それらは手に接続される。そのため、２つの最も小さい応答値を有する２つの方向は無視される。

残念ながら、状況によっては、手の個々の物理的な末端に対して適切な応答を提供しないことがあり、例えば閉じた握りこぶしは、図５ｄに示されているような手の先端に対応する１つの単一の応答を提供することができ、また、「停止」（図３ｆ及び５ａに示されているような開いた掌）は、他の個々の指に対する応答ではなく、親指に対する応答、及び図１１ａ及び１１ｂの応答イメージ上の半径１ｃｍの円で示されているような互いにそろったすべての他の指に対する１つの単一の他の応答を提供することができるだけである。図１０ａ及び１０ｂでは、手の先端の円は、応答イメージ（図１０ｂ）の中に１００２で示されており、１００１（図１０ａ）の深度画像から、明確に画定された末端は存在していないことは明らかである。これは、手のポーズがどのようなものであれ、「ポインティング」のための少なくとも１つのＰＯＩを与える有効な解決法を常に提供する点で、この方法の頑強性を示している。

以下の図１１ａ及び１１ｂに示されている実例では、親指に対する１つの単一の応答、及び互いにそろったすべての他の指に対する１つの単一の応答しか存在していないが、さらなる相互作用のための「複数のグラバ」として選択することができる２つの信頼性の高いＰＯＩを提供している。

さらに、個々の応答をきちんと整頓するために、例えば知られている従来のガウス・フィルタを使用して応答イメージに円滑化フィルタを適用することも可能である。

さらに、円滑化された応答イメージ及びｙイメージに基づいて、接続された成分イメージを決定することができる。これは、２つの隣接するピクセルが応答イメージの中でいずれも正の応答値を有している、つまりそれらが末端であり、且つ、それらの深度が十分に接近している（＜１ｃｍ）場合、その場合に限ってその２つの隣接するピクセルに同じラベルを与えるラベル・イメージに対応する。言い換えると、２つの隣接するピクセルは、それらが所定の閾値、例えば１ｃｍより大きい深度値差を有している場合、又はそれらの一方が末端応答イメージの中で正の応答値を有していない場合、同じラベルを有することはできない。次に２つの目的のためにこのイメージを使用することができ、第１の目的は、指の先端候補を形成し、且つ、不要な小さい応答をイメージから除去するために、末端応答をまとめてグループ化することができるようにすることである。成分が所定の閾値、例えば１ｃｍより小さい場合、その成分を除くことができる。

一実施例では、ＰＯＩを決定するステップは、少なくとも掌中心、手の先端、複数の手の先端、又はこれらのパラメータの組合せを含む予め決定された手パラメータの中から少なくとも１つの点を選択することによって少なくとも１つの単一のＰＯＩを決定するステップを含む。そのためには、例えばこれらのパラメータのうちの単一の１つをＰＯＩとして定義しなければならない。そのためには、場合によっては、例えばこれらのパラメータのうちの２つをＰＯＩとして定義しなければならない。また、そのためには、場合によっては、一組の手パラメータ及びＰＯＩ、又は手パラメータ及びＰＯＩのサブセットの平均位置を同じく定義しなければならない。

他の実施例では、ＰＯＩを決定するステップは、手パラメータのうちの少なくとも２つ、又は１つの手パラメータといくつかの他の手パラメータの組合せを選択することによって少なくとも２つのＰＯＩを決定するステップを含む。好ましくは、例えば「つかむ」のために使用される２つの注目すべき点を使用した相互作用を考察する場合、第３のＰＯＩを「ポインティング」のために使用することができ、また、これらの２つのＰＯＩに応じて第３のＰＯＩを決定することができる。

詳細には、複数の手の先端に対応するラベルがつけられた応答からのＰＯＩの決定は、他のラベルがつけられた応答までの距離に基づいて、応答イメージ中のラベルが振られた応答（即ち成分）毎の重み付けを計算することによって達成することができる（成分の隔離が大きいほど、その重み付けが大きくなる）。応答イメージは、ラベルが振られた少なくとも１つの成分を含んでいなければならない。２つのポインタが期待される場合、応答は、少なくとも２つのグループに分離しなければならない。個々のグループは、複数のポインタ又は「複数のグラバ」のうちの１つの位置を計算するために使用される。そのためには、末端応答イメージの中に正の応答を有する手の点の中から中心点を見出さなければならない。末端応答イメージの中のそれらの応答を使用した手のすべての点の単純な重み付き合計が重み付けとして採用されると、得られた掌中心は、目に見えるより多くの指が存在し、したがってその領域における応答が一般により強力であるため、手の上部部分に向かってバイアスされることになる。それを回避するために、応答の重み付けが使用されるだけでなく、応答が属している成分の応じた係数が使用される。

ある成分が他のすべての成分から遠い場合、その成分は、より大きい重み付けを有することになり、また、その成分が他の成分に近い場合、それは、より小さい重み付けを有することになる。これは、指が目に見える場合、隔離された指（ほとんどの場合、親指）は、残りの指より大きい重み付けを得ることを保証する。１本の他の指しか目に見えない場合、定義により、両方の指が同じ重み付けを有することになる。距離は、手の半径に例えば５の係数を掛けたものとして計算される手のスパンによって正規化される。

末端の中心は、それらの重み付き応答及びそれらの成分と関連付けられた重み付けを使用して、重み付き合計として計算される。

中心が決定されると、その中心は、３Ｄカルテシアン（Cartesian）空間における応答を分離するために使用される。そのために、決定された中心点を通る平面が使用される。目的は、その平面の１つの辺に好ましくは親指を有し、また、残りの指を他の辺に有することであるため、１つのＰＯＩ（又は「グラバ」）から他のＰＯＩ（又は「グラバ」）への方向がその平面に対する垂直線として採用され、中心点と結合されて、その平面の完全な定義を提供する。

しかしながら、これらの点を「複数のグラバ」として考察する場合、信頼性の高い複数の注目すべき点を時間に対してより良好に追跡し、且つ、引き渡すために、つまり先行するフレームからのそれらの位置に対する、時間に対するそれらの個々の位置の信頼性の高い決定を保証するためには、ｔ−１（現在のフレームはｔである）を使用することができることが好ましい。第１のフレームに対しては、アップ軸が基準として使用される。最初の軸が誤っていてもアルゴリズムが正しい配向に収束するため、この選択はインパクトがない。アップ軸が選択されるのは、このアップ軸が通常のポーズにおける「複数のグラバ」の最も可能性の高い一般方向であることによるものである。

先行するステップから平面が与えられると、平面のそれらの辺に応じて手の点が分類され、且つ、グループ毎の重心を使用して２つの「複数のグラバ」のための最良の候補を、例えば個々の重心により近い「複数のグラバ」として得ることができる。

次に、複数の手の先端、掌中心及びＰＯＩのうちの１つとして複数のポインタを決定することができる。好ましい実施例では、「複数のグラバ」が決定されると、複数のグラバ間の安定した追加ポインティング座標を計算することができる。それは、掌中心の運動によって調整された「複数のグラバ」の中心であってもよい。しかしながらこの点の値は、掌中心が例えば３ｍｍを超えて移動した場合にのみ更新される。これは、たとえユーザが「つまんでも」、ユーザがユーザの手を移動させない限りポインタは移動しないことを保証する。このプロセスは、ジッタを回避するために２進ではなく、その代わりに、新しい「複数のグラバ」の中心と先行するフレームの安定化された点の間の単純な線形回帰によって、０と３ｍｍの間の範囲内で手の運動が円滑化される。

さらに、掌垂直線を使用して掌自体の配向を決定することも可能である。掌垂直線は、掌中心からポインタ位置までのベクトルと既に決定済みの掌垂直線の間の角度を使用して調整される。この角度は、２つの情報セットの間のブレンディング（blending）を円滑にするために、いくつかのカスタム・パラメータ化に応じて重み付けされる。掌垂直線はＰＣＡを使用して計算され、また、最も重要ではない方向は掌垂直線である。また、この垂直線は、カメラ方向などの情報を使用して同じくブレンドされる。

さらに、掌半径は距離マップから得ることができ、つまり定義済みの係数、例えば５で割った距離マップの値から得ることができ、それにより手の最も近い境界までの距離の予測値が提供され、また、カメラの仕様及び掌中心の現在の位置における深度値を使用して、ミリメートルの単位で掌半径を予測することができる。

さらに、手が開いているか、或いは閉じているかどうかを表すブール値である手開度を得ることも可能である。指の先端が検出されない場合、手は閉じていると見なされる。手開度は、「複数のグラバ」距離と掌半径の間の比率を使用して更新することができる。比率が所定の閾値より小さい場合、また、手が予め開いていると見なされている場合、手の開度を調整することができ、且つ、閉じた手として印を付けることができる。比率が他の所定の閾値より大きくなると、手は開いていると見なされる。

要約すると、本発明の第１のステップからの出力は、好ましくは少なくとも１つのＰＯＩの決定を含み、その３Ｄ位置は、３Ｄジェスチャ・ベース相互作用を実施するために使用され、また、好ましくは少なくとも２つのＰＯＩの決定を含み、その位置は、片方の手で同時に実施されるポインティング及び起動３Ｄジェスチャに適合する３Ｄジェスチャ認識ベース相互作用に使用される。

本発明の第２のステップ（図１のステップ１０１）は、ジェスチャ及び相互作用を検出するための、ＰＯＩ又はそれらに関連する複数のポインタの選択の時間に対する追跡及び解析を含む。少なくとも片方の手の上で選択されたＰＯＩ数に応じて、異なるジェスチャを独立して、単独に、又は同時に決定することができる。

ジェスチャを決定するために、最初に、追跡及びポインティング目的のために個々のＰＯＩの時間に対する空間位置が使用される。とりわけ、少なくとも１つのポインタによって表される、或いは好ましくは２つのポインタによって表される少なくとも２つのＰＯＩを使用する場合、フレーム間の追跡により、一貫した「ポインティング」が保証される。一実施例では、単一のＰＯＩを使用することができる。このＰＯＩは、ポインティング特徴を可能にするためのポインタとして選定することができ、また、上で説明した先行するステップで検出された複数の手の先端のうちの１つとして決定することができる。例えばポインタは、必要に応じて、複数の手の先端を利用することができない場合は掌中心であっても、信頼性の高い指の先端を利用することができない場合は手の先端であっても、利用可能である場合はポインティングのために自然に使用される人差し指の先端であっても、又は任意の他の指の先端であっても、或いは他の点であってもよく、３Ｄ空間におけるその位置は、掌中心、複数の指の先端及び手の先端のうちの所定の手パラメータのうちの少なくとも２つを使用してコンピュータ化される。本発明の好ましい実施例によれば、ＧＵＩ上の個々のポインタ表現の位置の変化又は少なくとも１つのＰＯＩの位置の変化の解析は、例えば「波」、「プッシュ」、「スワイプ」、「円」、「指スナップ」の形態の動的ジェスチャ又は他の動的ジェスチャを決定するための従来のジェスチャ認識方法を使用してさらに解析することができる。このような動的ジェスチャの決定は、相互作用形ＧＵＩのための入力として使用される事象をトリガリングするために使用される。これは、少なくとも１つのポインタの位置とそのポインタによって指示される対象の組合せであってもよいが、この組合せは不可欠ではない。

次に、ジェスチャの決定で、手ポスチャーを決定するために、互いに対して決定されたＰＯＩの所与の時間における空間位置が使用される。時間によって手の位置が変化しない不変の手ポスチャーは、静的ジェスチャとして決定される。静的ポスチャーは、手パラメータのサブセットの空間配置である。例えば親指が接続されていない開いた手は、「停止」ポスチャー又はジェスチャに対応させることができ、その配置は、親指の先端、掌中心及び手の先端の間が直角を形成することによって画定される。ポスチャーの検出は、形状一致技法の使用などの最新技術で知られているいくつかの方法を使用して達成することができる。しかしながら、本発明の好ましい実施例によれば、手ポスチャーの決定は、ＰＯＩのサブセットの空間配置の幾何構造の検出を含む。複数の手の先端のうちの少なくとも１つ及び手の掌中心を含む決定されたＰＯＩの各々が互いに接続される。ＰＯＩ間のリンクの距離及び方向、並びにそれらの交点の特性（値の角度）が計算され、それにより一組のデータ・パラメータが決定される。ＰＯＩの数及びこのようにして定義されたそれらのデータ・パラメータに応じて、検出すべき主ポスチャーを含むデータベースとの比較によって位置が決定される。フレーム毎に、期待された手ポスチャーのうちの１つが検出されると、事象をトリガして相互作用システムを駆動することができる。

その次に、ジェスチャの決定で、時間に対する、決定されたＰＯＩの互いに対する空間位置の変化、つまり時間に対する手ポスチャーの変化を使用して、例えば「つまむ」、「つかむ」、「クリック」、「スナップ」又は他のジェスチャの形態の手の動的ジェスチャが決定される。

例えば、本発明の一実施例では、方法は、「つまむ」動的ジェスチャの検出を可能にするために、ＰＯＩを画定している少なくとも２つの手の先端及び関連する複数のポインタの解析を含む。上で説明したように、「つまむ」は、任意選択で複数のポインタとして表示される、互いに向かって移動させることができる互いに反対側の２つの先端に対応させることができ、２つの手の先端又は関連するＰＯＩ或いは複数のポインタの間の距離によって「つまむ」の程度を決定することができる。

本発明の他の実施例では、少なくとも２つの「グラバ」が特定の時間期間にわたって互いに接触し、次に非接触状態／ポスチャーに復帰する「つまむ」である場合、「クリック」動的ジェスチャを決定することができる。

「つかむ」ジェスチャは、ユーザ・インタフェースの中に示されている仮想対象と相互作用する場合、文脈的に検出することができる。「つかむ」は、２つのポインタの形態でＧＵＩの中で示すことができる少なくとも２つのＰＯＩの検出を含む。２つのポインタが仮想対象とその２つの互いに反対側で接触すると、「つかむ」を検出することができる。

「プッシュ」ジェスチャは、ユーザ・インタフェースによって可能にされた場合、少なくとも１つのポインタの表現が仮想対象表現と接触し、且つ、ポインタの連続運動がＧＵＩ内の仮想対象表現を押すと検出することができる。

「指スナップ」、より単純には「スナップ」ジェスチャは、ユーザ・インタフェースによって可能にされた場合、少なくとも２つのＰＯＩが片方の手の上で選択されると検出することができる。好ましくは掌中心の近似又は手の質量中心に対応する第１のＰＯＩは、ポインティング・ジェスチャのために使用することができる３Ｄ位置を提供し、一方、好ましくは人差し指の先端などの指の先端に対応する第２のＰＯＩは、「起動ジェスチャ」を認識するための３Ｄ位置を提供する。決定済みの速度での、決定済みの振幅及び継続期間のＰＯＩのアップ及びダウンの自然な運動は、信頼性の高い事象トリガ相互作用として使用することができる「指スナップ」（又は「スナップ」）ジェスチャを画定する。その特定の実施例の信頼性は、指の先端及び手の掌中心の両方が同じ手の指の先端及び掌中心であるにもかかわらず、指の先端の位置が手の掌中心の位置に対して相関されないことに依存している。

本発明の第３のステップは、ＧＵＩとの人間−コンピュータ非接触相互作用を可能にする方法及びシステムを含む。方法は、インタフェースを制御するための手段に関しており、また、システムは、インタフェース及び視覚フィードバックを表示するための手段に関している。方法及びシステムは、距離測値を含む入力情報を利用しており、また、従来の２Ｄ非接触相互作用形システムとは対照的に、レンジ・ファインディング画像化システム又はカメラまでの手の距離には無関係であるＰＯＩから抽出されるポインティング及び起動ジェスチャなどの関連する情報を含む入力情報を利用している。本発明では、相互作用は、上で説明したステップを時間に対して使用して決定される手及びジェスチャのＰＯＩの時空的特性(spatio-temporal properties)の解析に依存しており、詳細にはＰＯＩの仮想表現、即ち仮想対象に対して前後関係の（複数の）ポインタ、例えば「ポインティング」相互作用、「つかむ」相互作用、操作相互作用（例えば「つまむ」、回転、「引きずり及び落下」、「プッシュ」）、及びクリック相互作用（例えば「指スナップ」又は「スナップ」）の解析に依存している。

以下の説明は、本発明の異なる態様を示す実施例に関しており、これらの実施例は、スクリーン上に表示される仮想対象との相互作用のために上で説明したステップで抽出される手パラメータの非制限の使用と見なされたい。

「ポインティング」相互作用を示す第１の実施例では、方法は、仮想世界空間におけるポインタ表現の位置を決定するために、特異なＰＯＩ、即ち基準ＰＯＩとして上で決定された掌中心の使用を含むことができる。時間に対する掌の位置の変化は、時間に対する仮想空間におけるその表現の位置の変化をトリガする。仮想世界位置への実世界位置の変換は、１対１絶対比率を使用して線形計算することができ、或いは１対ｘ相対比率を使用して線形計算することができ、ｘ係数は、ユーザが予め決定することができ、或いは、例えばユーザによって予め定義される多項式変換比率を使用した非線形計算は、画像化デバイスまでの手の距離に依存する比率を有することができる。

他の実施例では、同様の方法は、時間に対する仮想世界空間におけるポインタ表現の位置を決定するために、手の先端の基準位置の使用を含むことができる。この特定の事例では、指の構成に無関係に、つまりすべての指が一体に接合されているかどうか、部分的に一体に接合されているかどうか、又はすべての指が互いに離れているかどうかに無関係に手の先端が決定される。図３ａ乃至３ｆは、指の構成の実例を示したものである。

さらに他の実施例では、同様の方法は、時間に対する仮想世界空間へのポインタ表現の位置を決定するために、第１の基準位置（図３ｃ）の使用を含むことができる。この特定の事例は、個々の複数の指の先端を検出することができない手に対応していてもよく、また、例えばレンジ・ファインディング画像化デバイスに対する手の最も近い位置が握りこぶしの先端として選択される手に対応していてもよい。

好ましい一実施例では、同様の方法は、時間に対する仮想世界空間におけるポインタ表現の位置を決定するために、少なくとも１つの単一の指の先端基準位置の使用を含むことができる。１つの単一の指の先端を使用して、現実における物を指示するためのこの特定の共通且つ自然な方法は、例えば「人差し」指の先端の位置の常時使用に対応していてもよく、或いは他の実施例では、例えば手の先端の主方向を使用して決定される指の先端の方向の使用に対応していてもよい。

他の好ましい一実施例では、方法は、時間に対する仮想世界空間における単一のポインタ表現の位置を決定するために、いくつかの手パラメータの使用を含むことができる。例えば方法は、単一のポインタ表現の位置を決定するために、少なくとも２つの手パラメータの重み付き合計を使用することができる。単一のポインタ位置は、選択された手パラメータ間の位置に対応していてもよい。例えば単一のポインタ位置は、手の先端と親指の先端などの離れた指の先端の間の位置に対応していてもよく、言及されている先端までの個々の距離は、所定の重み付け係数によって加減される。詳細には、親指の先端と他の手の先端又は指の先端などの離れた指を考察すると、「つまむ」運動の非対称性は、他の先端が親指の先端より大きい振幅で移動することがあるため、離れた指の先端の位置に関連する重み付け係数には、場合によっては他の先端に関連する重み付け係数より重い重み付け係数を要求することがある。このような特定の重み付き計算（又は補間）の目的は、ポインタの位置が引き出される２つのＰＯＩが他のジェスチャ、例えば「つまむ」及び「つかむ」ジェスチャなどの起動ジェスチャを実施している間に、ポインティング・ジェスチャのための信頼性が高く、且つ、安定したポインタ位置を得ることであり、下部ポインタ位置は、例えば最も小さい運動を実施するポインタ位置と見なされ、したがってより大きい重み付け係数を含むポインタ位置と見なされる。ポインタ位置（２つのＰＯＩから引き出される）は、これらのＰＯＩが起動ジェスチャを実施している場合、個々のＰＯＩの独立した運動に対して不変であり、また、手の回転に対して不変である。

他の実例として、ポインタの適切な重み付け係数の決定は、これらの複数のポインタに対応する個々の手パラメータの掌中心までの距離を考察することであり、より近い手パラメータは、移動がより小さいことが仮定され、したがって最も大きい重み付け係数を有する手パラメータである。この他の実例は、手の配向に対して不変で、且つ、複数の手の先端及び複数の指の先端の識別に無関係の重み付けを期待する場合にとりわけ適している。

他の好ましい一実施例では、方法は、時間に対する仮想世界空間におけるいくつかのポインタ表現の位置を決定するために、いくつかの手パラメータの使用を含むことができる。例えばいくつかのポインタ表現は、手の先端に対応する「ポインタ」、及び親指の先端に対応する「ポインタ」などの少なくとも２つの手パラメータの個々の表現を含むことができる。派生的実施例では、３つ以上のポインタを決定することができる。他の単純な一実例は、仮想世界で表現すべき３つのポインタの決定に対応している。これらの３つのポインタは、手の先端、親指の先端、及びこれらの２つの手パラメータ位置の間の重み付けされた位置に対応していてもよい他のＰＯＩであってもよい。

さらに他の一実施例では、方法は、手ポスチャーは、手パラメータの信頼性の高い検出を可能にすることができても、或いはできなくてもよいため、このポスチャーに応じて表現される複数のポインタの数の自動定義を含むことができる。

さらに他の一実施例では、方法は、好ましくは、使用されるＧＵＩを使用して、また、詳細にはこのＧＵＩの中に示されている対象に応じて文脈的に表現すべき複数のポインタの数の自動定義を含むことができる。例えば方法は、ポインタ表現を使用してスクリーン領域を分解するために、手の先端に対応していてもよい１つの単一のポインタを定義することができる。例えばスクリーン領域が、例えば握りが可能であることによって少なくとも２つのポインタ相互作用と順応するフォルダ表現を含む特定の位置では、インタフェースは、例えば手の先端及び親指の先端などの離れた指の先端などの２つの手パラメータに対応していてもよい２つのポインタ表現を定義することができる。この場合、これらの複数のポインタの運動は、ＧＵＩによって許可されると、フォルダの「つかむ」操作を可能にすることができる。

「つかむ」相互作用である第２の実施例では、方法は、上で説明したようにして決定された掌中心の、仮想世界空間における単一のポインタ表現の位置を決定するための基準位置を画定する手パラメータとしての使用を含む。方法は、手の上の２つのＰＯＩ、例えば手の先端及び親指の先端の決定をさらに含む。この場合、相互作用は、特徴の「つかむ」を可能にする仮想対象に向かうポインティングを含む。仮想対象の「つかむ」は、２つのＰＯＩが所定の閾値未満の距離まで互いに接近して移動する場合に生じる。その時点で仮想対象の表現がポインタ表現の位置に関連付けられ、且つ、適宜に移動する。仮想対象は、２つの注目すべき点の間の距離が第２の所定の閾値に到達した時点で解放される（もはや「つかまれていない」）。

他の実施例では、方法は、複数の手の先端の中から２つのＰＯＩの決定、及びそれに応じた２つのポインタの決定を含み、それにより例えば手の先端及び親指の先端に対応していてもよいこれらの２つのポインタの視覚フィードバックが得られる。この場合、相互作用は、特徴の「つかむ」を可能にする仮想対象に向かうポインティングからなることになる。仮想対象の「つかむ」は、例えばカメラ又はレンジ画像化デバイスが抱えている潜在的な精度の問題を補償するために、２つのＰＯＩの各々が、何らかの所定の閾値を包含する特定のリミットに対して、仮想対象表現の境界と接触すると生じる。その時点で仮想対象の表現がポインタ表現の位置に関連付けられ、且つ、適宜に移動する。仮想対象は、少なくとも１つのポインタと対象の境界の間の距離が第２の所定の閾値に到達した時点で解放される（もはや「つかまれていない」）。

他の好ましい実施例では、方法は、上で説明したようにして決定された手パラメータの中から選択されるポインタの使用を含み、例えばそのポインタは特定のＰＯＩに対応していてもよく、その位置は、例えば親指の先端及び人差し指の先端に対応していてもよい２つの他のＰＯＩの間の位置として決定される。ポインタの表現が特徴の「つかむ」と適合する対象の領域又は表現に到達すると、そのポインタは、特定のＰＯＩが決定されたＰＯＩのうちの少なくとも２つに関連する少なくとも２つのポインタに分割することができる。次に上で説明したように仮想対象は「つかまれ」、且つ、操作されることが可能となる。複数のポインタの表現は、他の条件に到達し、例えば複数のポインタが所定の閾値より長い距離だけ互いに分離されるまでの間は可視状態を維持する。「つかむ」のための条件がもはや関連しなくなると、先行する単一のポインタの状態が再確立される。

操作相互作用である第３の実施例では、方法は、上で説明したようにして決定された手パラメータから選択される少なくとも１つのポインタ、好ましくは２つのポインタの使用を含み、例えばそのポインタは、複数の手の先端のうちの少なくとも１つに対応していてもよい。スクリーン上に表現される仮想対象に対する複数のポインタの位置を使用して、その仮想対象の少なくとも１つのパラメータの操作をトリガし、制御し、且つ、停止することができる。例えば操作の開始及び終了のトリガリングは、仮想対象の境界までの２つのポインタの距離にリンクさせることができ、操作は、複数のポインタの平均位置に応じた仮想対象の位置の決定からなっていてもよく、また、表示スクリーンの水平軸及び垂直軸に対して決定される１つのポインタから他のポインタへの方向に応じて仮想対象の配向を決定することができる。

他の実施例では、方法は、一組の特定の時空的条件を満足すると事象をトリガするために、いくつかの手パラメータを使用した「クリック」相互作用を含むことができる。例えばポインタが、例えばフォルダからのアプリケーションの開始などのシステム事象をトリガするための「クリック」事象が期待されるスクリーンの領域に位置し、２つのＰＯＩの間又は２つの表示されたポインタの間の距離が、最大の定義済み継続期間の間、定義済み閾値より短くなると、「クリック」ジェスチャの検出及び関連する事象をトリガすることができる。

好ましい一実施例では、ＧＵＩの仮想対象は、複数のポインタが仮想対象のサイズより寄り集まるとフィードバックを提供することができ、例えば複数のポインタの間の距離に応じて対象を絞ることができる。

好ましくは、相互作用システムは、実施される相互作用に応じて、複数のポインタ又は対象のレンダリングの変化などの視覚フィードバック情報を提供することも可能である。例えば対象が２つのポインタによって「つままれる」と、仮想対象絞りの視覚フィードバックを生成することができる。

さらに、複数のポインタ及び仮想対象の個々の位置を文脈的に解析することによって相互作用を最適化することも可能であり、それにより仮想対象によって可能にされる相互作用の達成を改善することができる。例えば仮想対象に近い、「つかむ」操作を可能にする２つのポインタは、仮想対象の境界に引き付けることができ、それによりユーザ経験を改善することができる。

さらに、レンジ・ファインディング画像化デバイスの精度を補償し、或いはユーザ経験を改善し、それにより仮想空間における接触を厳密にする必要なく対象との相互作用を許容するために、許容誤差を導入することも可能である。

より好ましくは、相互作用形システムのスタート・アップ時に仮想対象相互作用能力をプリセットすることも可能であり、また、ユーザによって実施される相互作用及び操作に応じて、この仮想対象相互作用能力を動的に変化させることも可能である。例えば対象は、回転させるだけでノブ（knob）制御にすることができ、対象は、一方向に並進させるだけでスライダにすることができ、対象は、押されるだけでスイッチにすることができ、対象は、ポインタが対象から遠すぎない場合にのみ出現し、或いは対象は、対象が「つかまれる」場所に応じて異なる挙動を示すことができる。

完全無欠にするために、図４は、少なくとも２つの手の先端を対象の表面に向かって収束させることによって対象を「つかむ」方法の１つを示したものである。この事例では複数の手の先端は、親指の先端及び「人差し指」の先端を含んでいるが、親指の先端及び中指、薬指又は小指の先端であってもよい。実際の対象をつかむ場合、人は、通常、何の困難もなく、対象の互いに反対側に向かって収束する複数本の指と向い合い、一方、人は、空中で、実際の対象に狙いを付けることなくつかむジェスチャを実施する場合、通常、著しく非対称なジェスチャを実施する。１つの仮想対象及び少なくとも２つのポインタの視覚フィードバックを表現することにより（図１３）、この能力を回復して、実際の対象の場合と同様の方法で複数のポインタを仮想対象に向かって収束させることができる。

図５ａ乃至５ｃは、同じ手ポスチャーに対する、５０１で示されている複数の手の先端、及び５０２及び５０３で示されている掌中心の位置を示したものであり、また、図５ｄは、握りこぶしの先端及びその関連する掌中心５０３並びに手の先端５０３を示したものである。

図６は、複数の手の先端（６０１）の位置決め、親指の先端（６０２）、掌中心（６０３）、及びいくつかの手の先端（６０４）を使用して計算された安定した追加ＰＯＩの位置決めと重畳した「つかむ」ポスチャー内の手の側面図を示したものである。

図７は、手の先端（７０１）の位置決め、親指の先端（７０２）、及びいくつかの手の先端（７０３）を使用して計算された安定した追加ＰＯＩの位置決めと重畳した「つかむ」ポスチャー内の手の正面図を示したものである。

図８は、手の距離マップを示したもので、指及び親指と共に輪郭即ち外形を見ることができる。また、掌も、掌の中心の強調された領域によって示されている、掌中心と見なすことができる部分と共に同じく見ることができる。

図９ａには、開いた「つまむ」姿勢を想定した手の深度マップ９０１が示されている。ここでは、人差し指及び親指の先端に対応するＰＯＩが示されている。図９ｂは、図９ａに示されている深度マップに対応する応答マップ９０２を示したものである。図から分かるように、応答マップ９０２は、上部グラバである人差し指の先端のため、及び下部グラバである親指の先端のための鮮明な応答信号を有している。

図１０ａには、閉じた「つまむ」姿勢を想定した手の深度マップ１００１が示されている。人差し指の先端に対応するＰＯＩのみを見ることができる。図１０ｂは、図１０ａの深度マップに対応する応答マップ１００２を示したもので、鮮明な応答信号は、人差し指の先端に対してのみ得られる。

図１１ａには、手及び親指の先端に対応するＰＯＩが存在している開いた手の深度マップ１１０１が示されている。図１１ｂは、図１１ａの深度マップに対応する応答マップ１１０２を示したものである。この事例では、鮮明な応答信号は、親指及び手の先端から得られる。

図１２ａには手の深度マップが示されている。図１２ｂは、図１２ａの深度マップに対応する応答マップを示したものである。図１２ｂでは、鮮明な応答は、手の複数の末端、この事例では親指及び指に対して得られる。

図１３は、仮想対象（１３０６で示されている）及び手のいくつかの決定済みの注目すべき点と関連付けられた２つのポインタ（１３０５によって示されている）の表現を含む何らかの相互作用を示したものである。１３０１で示されているように、複数のポインタは仮想対象に接触していない。２つのポインタは、１３０２で仮想対象と接触しており、仮想対象は、絞られた形状の形態の下で視覚フィードバックを提供しており、絞りの程度は、考察されている複数のポインタの間の距離に関連している。この事例では、対象はつかまれていると見なすことができ、次に、複数のポインタの他の個々の位置に応じて操作することができる。１３０３では、絞られた仮想対象は、２つのポインタによって握られていると見なされ、次に、これらの複数のポインタの間の距離が対象の最初のサイズ以下を維持している限り、複数のポインタの個々の位置に応じて操作することができる。操作は、例えば、１３０２と比較した場合の１３０３で示されているような回転、並進、スケーリングなどの変換又は仮想対象によって前後関係から許容される他の変換のうちの少なくとも１つであってもよい。

仮想対象は１３０４で完全に絞られる。一実施例では、この状態は、対象表現の特定の挙動、例えば形態の変化のトリガリングにリンクさせることができ、また、仮想対象自体に相関されていない特定の事象、例えばユーザ・インタフェースにリンクされているアプリケーションの起動のトリガリングにさらに結合することも可能である。

図１４には、起動ジェスチャと共に使用することができるＰＯＩ１４０１（人差し指の先端を表している）の位置決めと重畳したユーザの手の側面図が示されている。また、手の質量中心と関連付けられる、ポインティング・ジェスチャのために使用することができる追加ＰＯＩ１４０２も同じく重畳されている。矢印１４０３は、「指スナップ」起動ジェスチャのための上下指ジェスチャを示している。

以上、本発明の態様について、特定の実施例に関連して説明したが、これらの態様は他の形態で実施することも可能であることは容易に理解されよう。

Claims

三次元手ジェスチャ認識システムに基づく自然な人間−コンピュータ相互作用を提供するための方法であって、
ａ）少なくとも一人のユーザの少なくとも１つの手を含むシーンを画像化するステップであって、画像化されたシーンはシーン内の対象物とカメラの距離である深度情報を含むステップと、
ｂ）前記少なくとも１つの手に関連付けられた少なくとも３つの注目すべき点を決定するために、前記画像化されたシーンを前記深度情報を使用して処理するステップと、
ｃ）時間に対する個々の注目すべき点の追跡された運動を提供するために、前記少なくとも３つの注目すべき点を追跡するステップと、
ｄ）個々の注目すべき点の前記追跡された運動を解析するステップと、
ｅ）前記追跡された前記少なくとも３つの注目すべき点の運動の解析から、２つの注目すべき点に基づく起動ジェスチャと単一の注目すべき点に基づくポインティング・ジェスチャの同時実行を決定するステップと、
ｆ）前記決定された同時の起動ジェスチャとポインティング・ジェスチャの実行を人間−コンピュータ相互作用のために使用するステップと
を含み、
前記注目すべき点は、指の先端、手の先端、掌中心、手の質量中心のうちの１つ、及び前記指の先端、前記手の先端、前記掌中心及び前記手の質量中心のうちの少なくとも２つの組合せの派生物を含み、
前記方法は、前記手のすべての正規直交ピクセルが突出しているベクトルのヒストグラム中の所定の範囲に対応する空間における位置を決定することによって手の先端の位置を決定するステップをさらに含み、前記ベクトルが、その方向が手３Ｄ点クラウド上で実施されるＰＣＡ解析の主方向に相関され、また、その原点が前記手の掌中心と相関関係の位置に配置されることを特徴とする、方法。
三次元手ジェスチャ認識システムに基づく自然な人間−コンピュータ相互作用を提供するための方法であって、
ａ）少なくとも一人のユーザの少なくとも１つの手を含むシーンを画像化するステップであって、画像化されたシーンはシーン内の対象物とカメラの距離である深度情報を含むステップと、
ｂ）前記少なくとも１つの手に関連付けられた少なくとも３つの注目すべき点を決定するために、前記画像化されたシーンを前記深度情報を使用して処理するステップと、
ｃ）時間に対する個々の注目すべき点の追跡された運動を提供するために、前記少なくとも３つの注目すべき点を追跡するステップと、
ｄ）個々の注目すべき点の前記追跡された運動を解析するステップと、
ｅ）前記追跡された前記少なくとも３つの注目すべき点の運動の解析から、２つの注目すべき点に基づく起動ジェスチャと単一の注目すべき点に基づくポインティング・ジェスチャの同時実行を決定するステップと、
ｆ）前記決定された同時の起動ジェスチャとポインティング・ジェスチャの実行を人間−コンピュータ相互作用のために使用するステップと
を含み、
前記注目すべき点は、指の先端、手の先端、掌中心、手の質量中心のうちの１つ、及び前記指の先端、前記手の先端、前記掌中心及び前記手の質量中心のうちの少なくとも２つの組合せの派生物を含み、
前記方法は、応答マップを計算することによって複数の手の先端又は末端を決定するステップをさらに含み、前記応答マップのピクセルの値は、該ピクセルと該ピクセルに隣接する複数のピクセルのそれぞれとの深度の違いを計算し、計算した複数の深度の違いのなかの３番目に小さな値として決定され、個々の隣接するピクセルが、一組の所定の方向における所定の距離に位置し、また、該ピクセルとは異なる所定の値より大きい深度値を有する、方法。
距離マップ及びＰＣＡ解析のうちの１つを使用して前記掌中心の位置を決定するステップをさらに含む、請求項１または２に記載の方法。
前記ポインティング・ジェスチャが、２つの指先、１つ掌中心、補間された注目すべき点のうちの１つを使用して決定される、請求項１から３までのいずれか一項に記載の方法。
前記ポインティング・ジェスチャが、２つの注目すべき点から補間された注目すべき点を使用する、請求項４に記載の方法。
前記ポインティング・ジェスチャが、前記起動ジェスチャを提供する２つの指の先端間の補間された注目すべき点を使用する、請求項５に記載の方法。
前記ポインティング・ジェスチャが、掌中心に相当する注目すべき点を使用する、請求項４に記載の方法。
前記起動ジェスチャが、２つの指の先端、および１つの指の先端と１つの手の先端のうちのいずれかによって実施される、請求項７に記載の方法。
起動ジェスチャの実行のための前記２つの注目すべき点が、２つの指の先端、１つの指の先端と手の先端、および１つの指の先端と掌中心のうちのいずれかを含む、請求項１から８までのいずれか一項に記載の方法。
前記ポインティング・ジェスチャが、回転に対して不変である、請求項１から９までのいずれか一項に記載の方法。
ジェスチャの実行に応答して、ユーザに前後関係のフィードバックを提供するステップをさらに含む、請求項１から１０までのいずれか一項に記載の方法。
フィードバック情報の提供を可能にする前記システムが、仮想要素を含むグラフィカル・ユーザ・インタフェースであって、前記仮想要素が、それらが相互作用する少なくとも１つのポインタをレンダリングすることができる、請求項１１に記載の方法。
前記システムと、少なくとも１つのポインタによって表現されるユーザの手の前記複数の注目すべき点との間の相互作用が、接触、絞る、つまむ、つかむ、回転、プッシュ、落下、クリック及びそれらの派生的ジェスチャのうちの少なくとも１つを含む仮想対象の操作を含む自然な相互作用である、請求項１２に記載の方法。
相互作用が、少なくとも１つのポインタによって表現される少なくとも２つの注目すべき点を使用した仮想対象の操作を含む、請求項１２または１３に記載の方法。
相互作用が、２つのポインタ又は複数のグラバによって表現される少なくとも２つの制御点を使用した仮想対象の操作を含む、請求項１２から１４までのいずれか一項に記載の方法。
相互作用が、２つのポインタ又は複数のグラバ及び他のポインタによって表現される少なくとも２つの制御点を使用した仮想対象の操作を含み、前記他のポインタの位置が２つの他のポインタの間として決定される、請求項１２から１５までのいずれか一項に記載の方法。
グラフィカル・ユーザ・インタフェース内の対象及び複数のポインタの表現を、ユーザによって実施されるジェスチャ及びそれらの個々の空間位置に応じて修正するステップをさらに含む、請求項１２から１６までのいずれか一項に記載の方法。
三次元手ジェスチャ認識システムであって、前記システムは少なくとも一人のユーザの少なくとも１つの手を含むシーンを画像化することが可能であり、シーン内の対象物との距離である深度情報を取得できるレンジ・センシング・カメラを含む画像化システムと、前記画像化システムに関連する相互作用コンピュータシステムを含み、前記相互作用コンピュータシステムは、
ｉ）前記少なくとも１つの手に関連付けられた少なくとも３つの注目すべき点を決定するために、前記画像化されたシーンを前記深度情報を使用して処理するステップと、
ｉｉ）時間に対する個々の注目すべき点の追跡された運動を提供するために、前記少なくとも３つの注目すべき点を追跡するステップと、
ｉｉｉ）個々の注目すべき点の前記追跡された運動を解析するステップと、
ｉｖ）前記追跡された前記少なくとも３つの注目すべき点の運動の解析から、２つの注目すべき点に基づく起動ジェスチャと単一の注目すべき点に基づくポインティング・ジェスチャの同時実行を決定するステップと、
ｖ）前記決定された起動ジェスチャとポインティング・ジェスチャの実行を人間−コンピュータ相互作用のために使用するステップと、
を含むステップを実行することができ、
前記相互作用コンピュータシステムは、前記注目すべき点は、指の先端、手の先端、掌中心、手の質量中心のうちの１つ、及び前記指の先端、前記手の先端、前記掌中心及び前記手の質量中心のうちの少なくとも２つの組合せの派生物を含み、
前記手のすべての正規直交ピクセルが突出しているベクトルのヒストグラム中の所定の範囲に対応する空間における位置を決定することによって手の先端の位置を決定するステップをさらに実行することができ、前記ベクトルが、その方向が手３Ｄ点クラウド上で実施されるＰＣＡ解析の主方向に相関され、また、その原点が前記手の掌中心と相関関係の位置に配置されることを特徴とする、三次元手ジェスチャ認識システム。
三次元手ジェスチャ認識システムであって、前記システムは少なくとも一人のユーザの少なくとも１つの手を含むシーンを画像化することが可能であり、シーン内の対象物との距離である深度情報を取得できるレンジ・センシング・カメラを含む画像化システムと、前記画像化システムに関連する相互作用コンピュータシステムを含み、前記相互作用コンピュータシステムは、
ｉ）前記少なくとも１つの手に関連付けられた少なくとも３つの注目すべき点を決定するために、前記画像化されたシーンを前記深度情報を使用して処理するステップと、
ｉｉ）時間に対する個々の注目すべき点の追跡された運動を提供するために、前記少なくとも３つの注目すべき点を追跡するステップと、
ｉｉｉ）個々の注目すべき点の前記追跡された運動を解析するステップと、
ｉｖ）前記追跡された前記少なくとも３つの注目すべき点の運動の解析から、２つの注目すべき点に基づく起動ジェスチャと単一の注目すべき点に基づくポインティング・ジェスチャの同時実行を決定するステップと、
ｖ）前記決定された起動ジェスチャとポインティング・ジェスチャの実行を人間−コンピュータ相互作用のために使用するステップと、
を含むステップを実行することができ、
前記注目すべき点は、指の先端、手の先端、掌中心、手の質量中心のうちの１つ、及び前記指の先端、前記手の先端、前記掌中心及び前記手の質量中心のうちの少なくとも２つの組合せの派生物を含み、
前記相互作用コンピュータシステムは、応答マップを計算することによって複数の手の先端又は末端を決定するステップをさらに実行することができ、前記応答マップのピクセルの値は、該ピクセルと該ピクセルに隣接する複数のピクセルのそれぞれとの深度の違いを計算し、計算した複数の深度の違いのなかの３番目に小さな値として決定され、個々の隣接するピクセルが、一組の所定の方向における所定の距離に位置し、また、該ピクセルとは異なる所定の値より大きい深度値を有する、三次元手ジェスチャ認識システム。
三次元手ジェスチャ認識システムであって、
シーンの錐台の少なくとも一人のユーザの少なくとも1つの手を含む少なくとも1枚の画像を供給するように動作し、画像化されたシーンはシーン内の対象物とカメラの距離である深度情報を含む三次元画像化システムと、
前記三次元画像化システムに関連するプロセッサであって、前記少なくとも1枚の画像に対して、
前記少なくとも１つの手に関係する少なくとも３つの注目すべき点を前記深度情報を使用して識別し、
時間に対して前記少なくとも３つの注目すべき点の各々の追跡した動きを生成し、
前記追跡した動きの分析を行い、
２つの注目すべき点に基づく起動ジェスチャと単一の注目すべき点に基づくポインティング・ジェスチャの同時実行を識別する、
処理を行うプロセッサ、
を含み、
前記注目すべき点は、指の先端、手の先端、掌中心、手の質量中心のうちの１つ、及び前記指の先端、前記手の先端、前記掌中心及び前記手の質量中心のうちの少なくとも２つの組合せの派生物を含み、
前記プロセッサは、前記手のすべての正規直交ピクセルが突出しているベクトルのヒストグラム中の所定の範囲に対応する空間における位置を決定することによって手の先端の位置を決定する処理をさらに行い、前記ベクトルが、その方向が手３Ｄ点クラウド上で実施されるＰＣＡ解析の主方向に相関され、また、その原点が前記手の掌中心と相関関係の位置に配置されることを特徴とする、三次元手ジェスチャ認識システム。
三次元手ジェスチャ認識システムであって、
シーンの錐台の少なくとも一人のユーザの少なくとも1つの手を含む少なくとも1枚の画像を供給するように動作し、画像化されたシーンはシーン内の対象物とカメラの距離である深度情報を含む三次元画像化システムと、
前記三次元画像化システムに関連するプロセッサであって、前記少なくとも1枚の画像に対して、
前記少なくとも１つの手に関係する少なくとも３つの注目すべき点を前記深度情報を使用して識別し、
時間に対して前記少なくとも３つの注目すべき点の各々の追跡した動きを生成し、
前記追跡した動きの分析を行い、
２つの注目すべき点に基づく起動ジェスチャと単一の注目すべき点に基づくポインティング・ジェスチャの同時実行を識別する、
処理を行うプロセッサ、
を含み、
前記注目すべき点は、指の先端、手の先端、掌中心、手の質量中心のうちの１つ、及び前記指の先端、前記手の先端、前記掌中心及び前記手の質量中心のうちの少なくとも２つの組合せの派生物を含み、
前記プロセッサは、応答マップを計算することによって複数の手の先端又は末端を決定する処理をさらに行い、前記応答マップのピクセルの値は、該ピクセルと該ピクセルに隣接する複数のピクセルのそれぞれとの深度の違いを計算し、計算した複数の深度の違いのなかの３番目に小さな値として決定され、個々の隣接するピクセルが、一組の所定の方向における所定の距離に位置し、また、該ピクセルとは異なる所定の値より大きい深度値を有する、三次元手ジェスチャ認識システム。