JP2014225288A

JP2014225288A - 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム

Info

Publication number: JP2014225288A
Application number: JP2014158723A
Authority: JP
Inventors: ディアス、ファンカルロストシノ; Carlos Tocino Diaz Juan; シモンズ、ケビン; simons Kevin; ピノー、ジル; Pinault Gilles; ベール、グザヴィエ; Baele Xavier; トロ、ジュリアン; Thollot Julien; ゾット、デイビッドダル; Dal Zot David
Original assignee: Softkinetic Software SA
Current assignee: Sony Depthsensing Solutions NV SA
Priority date: 2011-01-05
Filing date: 2014-08-04
Publication date: 2014-12-04
Anticipated expiration: 2032-01-04
Also published as: CN103314391A; US20140007022A1; KR20130112061A; CA2817443A1; KR101554082B1; EP2474950B1; JP2014501415A; JP6031071B2; AU2012204889B2; AU2012204889A1; CN103314391B; SG190826A1; TW201237677A; JP5646085B2; US9081419B2; WO2012093147A1; TWI524210B; EP2474950A1; CA2817443C

Abstract

【課題】ユーザ又は物体によってなされるジェスチャが、ユーザ又は物体の表現をモデル化する必要なしに画像化システムの動作を制御するために使用することができるように、三次元画像化システムと容易に統合可能なユーザ・インターフェースを提供する。【解決手段】対話型三次元画像化システムのディスプレイ画面上に文脈フィードバック、制御部及びインターフェース要素を提供するユーザ・インターフェースが本明細書に記載されている。ユーザ２４１０は、対話型三次元画像化システムによって認識されたものに従って制御信号を提供するために、ユーザ・インターフェースと対話し、対話型三次元画像化システムによって画像化された三次元シーン内の少なくとも１つの対象ポイント２３１０、２３２０を利用して、制御信号がユーザ・インターフェースに提供される。制御信号は、対象ポイントの動き及び軌道の統計的及び幾何学的特性を分析するジェスチャ認識プロセスによって実時間で分析されるジェスチャ２４２０、２４３０を用いて提供される。【選択図】図２４

Description

本発明は、自然なジェスチャに基づくユーザ・インターフェース方法及びシステムに関し、より詳細には、コンピュータ化されたシステムのナビゲーション及び制御のための自然なジェスチャ認識に基づくユーザ・インターフェースに関する。

コンピュータ・ビジョン技術は、実時間の正確な三次元シーン測定結果が取得可能な状態まで発展した。これらのシーン測定結果により、画像処理システムが、たとえば潜在的な物体／ユーザとシステムとの対話など、新しい種類の入力を計算し提供することが可能になり、この場合、入力対話は、見られているシーン内の視界内の物体／ユーザの動作及び／又はジェスチャと関連している。

いくつかの種類のユーザ・インターフェース・デバイス及び方法が、現在、利用可能である。マウス、ジョイスティック、コンピュータ・キーボード、タッチ画面又は赤外線遠隔制御技術などのインターフェース・デバイスとは別に、最新の技術は、シーン内の人間の体を検出し、モデル化し、シミュレートすることを可能にする、三次元画像化又は感知システムに基づく。たとえば、手など、体の部分が、シミュレーションから抽出可能であり、通常は、経時的にそれらの位置に関して監視可能である。したがって、その手は、次いで画像化又は感知システムによって認識され得るジェスチャを実行するために使用され得る。これらのジェスチャは、トリガ事象を起動させること、及び／又は受信された入力に従って対話するコンピュータ・インターフェースに連続的入力データを提供することを目的とする。

認識されたユーザ表現を囲むカスタマイズされたアイコンを用いて、通信セッションを制御するために使用されるジェスチャに基づくナビゲーション・システムが、ＷＯ−Ａ−２００９／０４２５７９に記載されている。音声及びビデオ通信のための機能強化されたインターフェースが提供され、その中で、ユーザのジェスチャは、一連のカメラ画像から認識される。ユーザ制御及びユーザ表現を含む、ユーザ・インターフェースもまた、提供される。本方法は、制御入力をトリガするために、画像処理を使用してジェスチャ認識を実行する、ナビゲーション・インターフェース及びシステムを対象とする。たとえば、電気通信セッション状態は、ユーザ表現によって作られる連動ジェスチャの認識によって、スタンバイ状態からコール又はメニュ状態に変更され得る。

他のジェスチャに基づくナビゲーション・システムが、ＷＯ−Ａ−２００９／０３５７０５、ＷＯ−Ａ−２００９／１０８８９４及びＷＯ−Ａ−２００４／０７０５９５に記載されている。ＷＯ−Ａ−２００９／０３５７０５では、三次元環境における対話型ディスプレイを用いた、ジェスチャに基づくユーザ対話を処理するための単純なシステム及び方法が開示されている。そのディスプレイは、システムと対話することができるアイコンを用いてユーザの手を表す。

ＷＯ−Ａ−２００９／１０８８９４には、ユーザの認識されたジェスチャを使用する機能強化された入力が記載されている。ユーザ表現は、中央部に関して放射状に配置された対話要素をさらに含む制御部の中央部に表示される。その機能強化された入力はまた、ユーザの認識されたジェスチャに基づいて制御部と対話すること、及びその制御部との対話に基づいてアプリケーションを制御することを含む。その対話要素は、ユーザ表現の広い範囲のジェスチャ、たとえば、手、目又は体の動作による指から顔の表情までのジェスチャを使用して選択される一連のアイコンの形をとり得る。

ＷＯ−Ａ−２００４／０７０５９５では、ジェスチャを使用し、画像表現装置のグラフィック・ユーザ・インターフェースの画像内でマウス・ポインタを対話形式で制御するためのデバイス及び方法が開示されている。そのデバイスは、補助画像を生成するためのビデオカメラと、その補助画像の画像データを処理する画像処理デバイスと、その補助画像の鏡映を作るためのミラー・ユニットとを備える。分析ユニットもまた、そのビデオカメラによってとらえられた物体を検出するために、及び補助画像内の検出された物体の瞬間的位置を判定するために設けられる。マウス制御機構が、分析ユニットに接続され、それぞれの判定された瞬間的位置に従って画像表現装置の画像内でマウス・ポインタを表現し、移動させ、ミキシング及び／又はクロスフェーディング・デバイスが、ミラー・ユニットに接続され、このミラー・ユニットは、メイン画像と、ミラー・ユニットによって取得される鏡映化された補助画像とを画像表現装置の画像内で部分的に透過した形で重ね合わせるように構成されている。

ユーザ・インターフェースからのユーザ・フィードバックが、ＷＯ−Ａ−２０１０／１２６７１４に記載されている。ここでは、取込みデバイスが、ユーザの動きを取り込むために使用され、ユーザのその動きにマップするモデルを表示するためのデバイスが提供される。ジェスチャが、ユーザ・インターフェースの制御のために使用される。しかし、ユーザは、自身の動きをマップするシステムに不慣れであることや、どのジェスチャが特定のアプリケーションを実行するために適用可能であるかを知らないことがあり、したがって、実行するアプリケーションに適用可能なジェスチャの実行方法を知らない。ユーザに教育的ジェスチャ・データを表す視覚的フィードバックを提供することで、そのユーザに適切なジェスチャの方法を教えることができる。本視覚的フィードバックは、任意の数の適切な方法で提供することができる。たとえば、視覚的フィードバックは、ゴーストされた画像、プレーヤのアバタ、又は骨格表現を使用して提供することができる。本システムはまた、教育的ジェスチャ・データを表す視覚的フィードバックを表示するための事前に記録された又は生の内容を処理することもできる。その視覚的フィードバックは、ユーザの実際の位置と理想的ジェスチャの位置の差を表現することができる。

ＷＯ−Ａ−２０１０／１０３４８２には、コンピュータ化されたシステム、通常は仮想キーボード、を動作させるための方法が記載され、そこではユーザ・インターフェース要素がディスプレイ画面に提示される。ユーザの体の部分によって三次元空間で行われる第１のジェスチャが検出され、その第１のジェスチャに応答して、ポイントすることによって、ユーザによって事前選択されたディスプレイ画面のエリアが識別される。次いで、ディスプレイ画面上の選択されたエリアに現れるユーザ要素のうちの１つ又は複数の倍率レベルが上げられる。倍率レベルを上げた後、ユーザの体の部分によって行われる第２のジェスチャが、ユーザ・インターフェースに現れるものの中から事前選択された要素を選択するために検出される。第３のジェスチャは、ユーザ・インターフェース要素の倍率レベルを下げる。

ＷＯ−Ａ−２００３／０７１４１０には、体のジェスチャ、特に手のジェスチャに関し、且つ深度認識センサを使用する、一般的ジェスチャ認識システム及び方法について記載されている。三次元センサは、ユーザの体の部分の複数の個別の領域の三次元の位置情報を提供する。ジェスチャは、体の部分（すなわち、手）の形状とある間隔に亘るそれらの位置及び向きから認識される。ジェスチャは、関連電子デバイスへの入力を判定するために分類される。定義されていないセグメント化モジュールは、背景からユーザの体の部分を分離するために深度情報を使用する。システムと対話する画素群は、カメラから最も近い物体であると識別される手の一部であると考えられ、又はそれらは、人間の皮膚と同じ光の反射特性を示しているとき、ユーザに属するものとして識別される。ジェスチャ認識は、手を表すと考えられる画素群のポーズ及び体勢から判定され、ポーズは手の形状の位置及び方向に関連し、体勢はその形状とポーズの組合せに関連する。動的ジェスチャ認識が、特定の手のジェスチャ、特定の動き、特定の音声、又はキー入力などの動的ジェスチャの開始又は終了をトリガするための区切り機能の定義において、定義されていない分類に基づくアルゴリズムに基づいて自動的に実行され得る。確認機能が必要とされ、その中でユーザは検証のためのジェスチャを認証しなければならない。これは、別のジェスチャ、音声、又はハードウェア・キーボードへのテキスト入力の使用によって行われる。

さらに具体的なジェスチャ認識が、ＷＯ−Ａ−２０１０／０１１９２３及びＷＯ−Ａ−２０１０／０１１９２９に記載されている。これらの文献では、ウェーブ及び円形のジェスチャ認識のための技法が、特定の信号処理実施例の中で説明されている。

ＷＯ−Ａ−２０１０／０１１９２３では、円形連動ジェスチャの機能強化された検出について記載されており、ここでは形状は動きデータ内で定義され、動きデータは、その定義された形状に合わせたポイントでサンプリングされる。ここで、判定は、動く物体が、そのサンプリングされる動きデータによって示されるパターンに基づいて、その定義された形状に相互に関連するジェスチャを実行しているかどうかである。アプリケーションは、移動する物体が必要とされるジェスチャを実行していると判定された場合に制御される。

ＷＯ−Ａ−２０１０／０１１９２９は、ウェーブ連動ジェスチャの機能強化された検出を開示しており、そこでは形状が動きデータ内で定義され、動きデータは、定義された形状に合わせたポイントでサンプリングされ、サンプリングされた動きデータに基づいて、定義された形状に沿って移動する物体の位置が経時的に判定される。移動する物体が必要とされるジェスチャを実行している場合に、移動する物体がその判定された位置によって示されるパターンに基づくジェスチャを実行しているかどうかの判定が、アプリケーションを制御するために使用される。

しかし、前述のシステムの多くは、ユーザが事前に検出されそのシーン内に位置付けられることを必要とし、少なくとも手の身体部分がそのシーン内に位置付けられることを必要とし、且つ／又は、そこから体の部分、たとえば、手の位置を抽出することがより容易なユーザ表現のモデリングを必要とし、それは、手が、システム・インターフェースとの対話のために使用される主要な体の部分であるからである。

ＷＯ−Ａ−２００９／０４２５７９ＷＯ−Ａ−２００９／０３５７０５ＷＯ−Ａ−２００９／１０８８９４ＷＯ−Ａ−２００４／０７０５９５ＷＯ−Ａ−２０１０／１２６７１４ＷＯ−Ａ−２０１０／１０３４８２ＷＯ−Ａ−２００３／０７１４１０ＷＯ−Ａ−２０１０／０１１９２３ＷＯ−Ａ−２０１０／０１１９２９

したがって、本発明の目的は、ユーザ又は物体によってなされるジェスチャが、ユーザ又は物体の表現をモデル化する必要なしに画像化システムの動作を制御するために使用することができるように、三次元画像化システムと容易に統合可能なユーザ・インターフェースを提供することである。加えて、シーン内のユーザ又は物体の位置の事前検出又は追跡に関する要件はない。

本発明によれば、ジェスチャ認識を用いてユーザ・インターフェースと対話するための方法であって、ａ）シーンの少なくとも１つの多次元の表現を、少なくとも１つの多次元の画像化システムの視界内に形成するステップと、ｂ）多次元の表現において多次元の制約付きクラスタリング動作を実行して、シーンのクラスタ化された表現を生成するステップと、ｃ）ジェスチャ認識に使用可能なクラスタ化された表現から対象ポイントの候補を識別するステップと、ｄ）認識されたジェスチャに従って前記ユーザ・インターフェース・システムを制御するステップとを含み、上記ステップｃ）が、他の１つのクラスタのみに接続され、コヒーレントな動きを示す少なくとも１つのクラスタを識別するステップを含む方法が提供される。

上記の方法はさらに、以下のステップを含む少なくとも連続的軌道分析を使用することを含む：対象ポイント候補の軌道に沿って軌道ポイントを識別するステップ、基準シード識別オーダを有する基準シード・ポイントを形成する少なくとも１つの多次元の変化を対象ポイント候補の軌道方向で識別するステップ、各々が連続的基準シード・ポイントを形成する連続的変化を軌道方向で識別するステップ、及び基準シード・ポイント及び軌道ポイントを使用してジェスチャを認識するステップ。

ジェスチャ認識の部分として、基準シード識別オーダが使用され得る。

有利には、軌道分析は、前のポイントに関する距離、速度ベクトル又は加速ベクトルのうちの少なくとも１つを、各ポイントについて判定するステップをさらに含む。各ポイントの幾何学的及び統計的計算を使用してジェスチャを認識するさらなるステップを実施してもよい。

一実施例によれば、対象ポイント候補は、それが第１に所定のジェスチャを実行した場合に、アクティブ化された対象ポイントとしてアクティブ化可能であり、アクティブ化された対象ポイントは対象ポイント候補状態をなお有する。この場合、対象領域は、アクティブ化された対象ポイントと関連付けてもよい。さらなる対象ポイント候補がまた、各対象ポイント候補が所定のジェスチャを実行したときに、少なくとも１つのさらなるアクティブ化された対象ポイントとしてアクティブ化可能であり、少なくとも１つのさらなるアクティブ化された対象ポイントは、対象ポイント候補状態をなお有する。

さらに、少なくとも１つのさらなる対象領域は、少なくとも１つのさらなるアクティブ化された対象ポイントに関連付け可能であると判断され得る。各対象領域は、対象ポイント候補の位置に対して相対的にセットされた位置及び次元を有するようにしてもよい。

加えて、本方法は、少なくとも１つの判定された対象領域内で少なくとも１つの所定の対象ポイント候補によって実行された所定のジェスチャを認識するステップを含む。

有利には、ユーザ・インターフェース・システムは、グラフィカル・ユーザ・インターフェースを有する、ジェスチャに基づく仮想キーボードを含み、グラフィカル・ユーザ・インターフェースは、最小限の自然なジェスチャのみを使用して選択するための要素の所定の配置を有する。

一実施例では、本方法は、ｅ）少なくとも１つの対象ポイント候補のコヒーレントな動きにしたがって、ユーザ・インターフェース・システムを制御するステップをさらに含む。

ユーザ・インターフェース・システムの現在の状態による文脈フィードバック情報が、提供され得る。

ステップｂ）は、多重解像度画像処理を使用することを含み得る。

好ましい実施例では、各多次元の表現は、三次元表現を含み得る。

本発明をよりよく理解するために、以下のような添付の図面が、実例としてのみ、ここで参照されることになる。

本発明の主要な要素の流れ図である。本発明によるユーザ・インターフェースの動作の流れ図である。対象ポイント（ＰＯＩ）局所化及び識別動作の流れ図である。多重解像度プロセスの流れ図である。図４の多重解像度プロセスをさらに詳しく示す図である。図４及び図５の多重解像度プロセスによって作成される低解像度深度マップの使用の流れ図である。重心及び末端のリンク・グラフを判定するための制約付きＫ平均法リーダ・フォロワ・アルゴリズムの使用を示す図である。クラスタ識別を画素に割り当てるためのリファイナリ・プロセスを示す図である。リファイナリ・プロセスの動作をより詳細に示す図である。図８のリファイナリ・プロセスの効果を示す図である。リファイナリ・プロセスの出力の使用の流れ図である。軌道に基づく「円形」ジェスチャ認識を示す図である。軌道に基づく「ウェーブ」ジェスチャ認識を示す図である。軌道に基づく「スワイプ」ジェスチャ認識を示す図である。軌道に基づく「押す」／「引く」ジェスチャ認識を示す図である。軌道に基づく「クリック」ジェスチャ認識を示す図である。ユーザ・インターフェース・ナビゲーション・システムの流れ図である。仮想キーボード・メイン・フレームを示す図である。仮想キーボードの好ましい実施例を示す図である。対象領域（ＲＯＩ）管理の流れ図である。ＰＯＩ管理の流れ図である。ＰＯＩマネージャの動作の流れ図である。人間を対話コントローラとした、シーンにおけるＲＯＩ及びＰＯＩの表現を示す図である。ユーザが実行することを期待されるジェスチャをユーザに教えるためのアクティブ化及び制御ジェスチャ・フィードバック・グラフィカル・インターフェースを示す図である。フィードバック・インターフェース要素を示す図である。フィードバック・インターフェース要素の第１の好ましい実施例を示す図である。フィードバック・インターフェース要素の第２の好ましい実施例を示す図である。制御後対話プロセスの流れ図である。

本発明は、文脈制御及び文脈インターフェース要素を提供するとともに、文脈ユーザ・フィードバックを提供する、自然なジェスチャの遠隔制御ナビゲーション・システム及びその関連方法を開示する。革新的な画像処理技法が、三次元画像化デバイスからの出力を処理するために使用される。少なくとも１つのＰＯＩが、三次元シーン内で識別され、そのＰＯＩは少なくとも１つの区切られたＲＯＩ内で対話し、それにより、実時間の自然なジェスチャ認識分析が、革新的で効率的な軌道及び／又は動きの分析を使用して各識別されたＰＯＩにおいて実行され得る。ジェスチャ認識分析の出力データは次いで、連続的ポインティング信号として、システム内の事象、たとえばシステム内の要素の選択及びアクティブ化をトリガするために、使用され得る。本システムは、直観的で自然で苦痛のない制御に対応する自然なジェスチャ駆動のユーザ・インターフェースを使用する。

より正確に言えば、本発明は、意味を含まない多次元のポイント・クラウドから、又は取り込まれた深度マップ画像若しくは一連の取り込まれた深度マップ画像の画素から、ユーザと機械又はシステムとの間の対話を定義する何らかのデータを抽出することを可能にする、新しく効率的な方法及びシステムを提供する。その意味において、データは、ユーザがそのインターフェースを制御しそこに情報を配信することを可能にする入力データである第１のクラスと、機械又はシステム及び関連アプリケーションによって出力される文脈データである第２のクラスの２つのクラスに分割される。本発明によれば、このユーザ・インターフェース・システムは、２セットのデータの両方について、ユーザへのフィードバック／情報を含む。さらにより正確に言えば、システム／機械／ユーザ・インターフェースと対話するために使用される体に又は物体に関連する、少なくとも１つのＰＯＩを識別する方法もまた提供される。

さらに、本発明の方法及びシステムはまた、自然なジェスチャ制御との組合せで、期待されるジェスチャ及び実行されたジェスチャに関連するフィードバック情報を提供しながら、最も直観的で効率的な様態でユーザが対話することを要求する、文脈インターフェース・システムも定義することができる。前述のすべては、実時間クロスプラットフォーム処理互換性の制約を克服する。

より正確に言えば、本発明は、たとえばディスプレイ画面上に、少なくとも文脈フィードバック、制御部及びインターフェース要素を提示する、ナビゲーション方法及びシステムを提供する。このフィードバックは、任意の感覚関連信号を提供することができる任意の他のデバイスまで拡張され得る。ここで、本方法及びシステムは、三次元画像化デバイスを使用して三次元シーン内で少なくとも１つのＰＯＩを検出する。加えて、本ナビゲーション方法及びシステムはまた、検出されたＰＯＩにおいて、より正確に言えば、それらの軌道の離散的読取り値において実行される、組込み型の実時間の自然なジェスチャ認識分析システムを含む。自然なジェスチャ認識分析システムからの出力データは、ユーザ・インターフェースのコントローラとして使用される。

この開示はまた、ＰＯＩ検出及び自然なジェスチャ認識を含む、多次元に基づく、具体的には、三次元画像処理に基づく、ユーザ・インターフェース及び非接触型遠隔制御システムに関する。この点において、本発明は、経時的に時空間コヒーレンシを示すクラスタを生成するクラスタリング・アルゴリズムを使用する知的な様態でセグメント化可能な画像化シーンを使用する。本発明のユーザ・インターフェースは、そのシーン内の各画素が、ｘ座標及びｙ座標、並びに深度値として知られるｚ座標を有する三次元シーンを表す深度マップを入力として使用することができる。ユーザ・インターフェースからの出力は、ユーザのジェスチャによって作り出される連続的及び散発的事象の両方を含む。文脈ユーザ・インターフェース・フィードバックもまた、使用され得る。

より正確に言えば、シーン内の画素は、典型的にはＫ平均法及びリーダ・フォロワ・セグメント化アルゴリズムの混合を使用して、いくつかの空間的制約によりクラスタにグループ化され得る。クラスタは、少なくともリーダ・フォロワ・セグメント化アルゴリズム及び何らかの事前定義されたパラメータに従って作り出し、破棄することができる。１つのそのようなパラメータは、各クラスタ内に存在する必要がある画素の最小数でもよい。別法として、クラスタの最大半径が、パラメータとして使用され得る。加えて、識別コードは、前のフレームから各クラスタ及び複数のクラスタに割り当てること、及び現在のフレームのシードとして使用することができる。

加えて、シーン内のユーザの意図的な動作は、そのシーン内のノイズ又は意図しない動作と区別可能な、したがって、分析される必要があるＰＯＩ候補であるとしてクラスタが識別されることを可能にする特定の挙動により、クラスタを動かす効果を有する。少なくとも第１のクラスタがアクティブ化ジェスチャを実行した後は、そのクラスタはＰＯＩとして識別され得る。シーン分析は、そうすると、そのＰＯＩの位置を囲むＲＯＩまで潜在的には低減され得る。

前述したものを使用し、本発明は、ユーザ・インターフェースの制御を提供するために使用可能なロバストで効率的な方法を提供する。理想的には以下である：（ｉ）シーン全体がクラスタ化され、各クラスタの動きの分析が経時的に実行されるので、シーンからの背景除去の必要がないこと、（ｉｉ）本画像化システムとともに使用される三次元カメラが、信頼できる座標系において信頼できる測定結果を提供するので、シーン較正の必要がないこと、（ｉｉｉ）移動するＰＯＩは、時空間コヒーレンシ特性を有し、また好ましい実施例では少なくとも末端であり、そのＰＯＩはさらに好ましい実施例ではコヒーレントな動きを示すので、画像内のユーザ又は物体の識別の必要がないこと、（ｉｖ）コヒーレントな動きをするＰＯＩは、制御をサポートするものであることになるので、ユーザである人間の手又は肢の任意の他の部分の識別の必要がないこと、及び（ｖ）取得されたＰＯＩの時間的コヒーレンシは十分に有意であり信頼できるので、動き推定又は追跡アルゴリズムの必要がないこと。

追加として、本発明の方法は、ユーザの他の部分、たとえば、足、手及び手に握られた物体を使用して制御が行われることを可能にする。制御はまた、期待されるジェスチャに関連する特定の動作を実行することができる物体によっても行うことができる。

（本発明の具体的な実施例の説明）
本発明は、個々の実施例に関して及びある特定の図面を参照して説明されることになるが、本発明はそれらに限定されない。記載された図面は、単に概略的に過ぎず、限定するものではない。図中で、その要素のうちのいくつかのサイズは、例示目的のために、誇張されていることがあり、原寸に比例して描かれていないこともある。

概括的な一実装形態によれば、ユーザは、何らかのフィードバック情報を文脈的に提供するために、また三次元シーン情報を取り込むために、ホーム「ｄｏｍｏｔｉｃ」コントローラ、又は少なくとも１つのデバイスに接続されたマルチメディア・ナビゲーション・システムなどのコンピュータ化されたシステムと対話することができる。たとえばデバイス・ディスプレイなどの描画デバイスを使用して、グラフィカル・ユーザ・インターフェース（ＧＵＩ）の視覚化における少なくとも１つの要素の表現の変化などの何らかの視覚的フィードバック情報を提供することができる。別の実例では、取込みデバイスは、ユーザが対話しようとするシーンの三次元画像を提供する三次元カメラとすることができる。本方法及びシステムはまた、別の補完的実装形態では、たとえば、ユーザに追加の音声フィードバック情報を提供するために、ラウドスピーカを組み込むことができる。当然、他のデバイスが、他のタイプの感覚性フィードバックを提供するために使用されてもよい。

ユーザからシステムへの対話は、直接的、直観的（すなわち、非常に短期間の習得曲線を伴う）且つ苦痛のない自然なジェスチャを含むことができ、一方、システムからユーザへの対話は、ユーザの行動に応答した視覚的及び／又は音声文脈情報などの感覚性信号を含み得る。システムからユーザへの対話はまた、ユーザが実行すると期待される対話の表現を提供することもできる。

本システム及び方法は、第１のステップでは、人−機械対話が交換されることになる人によって実行されることが期待されるジェスチャを表すグラフィカル・インターフェースの部分を形成し、ディスプレイ画面上にアニメーションを提供することを含み得る。このステップは、対話セッションを開始及び初期化することを目的とする。たとえば、期待されるジェスチャは、テキスト、アニメーション図又はビデオで表され得る「手を振ること」でもよい。ユーザは、直観的にその視覚的信号を理解することができ、次いで、少なくとも体の１つの部分で、又は自身の体の部分のうちの１つにリンクされた少なくとも１つの物体で、振るジェスチャを実行することができる。典型的には、そのような体の部分は、人間のユーザの手を含むが、本発明はそのような体の部分に限定されないことが理解されよう。したがって、本システムは、カメラ・デバイスを使用して、シーンの三次元画像を取り込み、何らかの信号処理を実行して、期待されるジェスチャの位置を特定し、認識し、次いで、さらなる対話が、好ましくはその後にその中で探されることになる好ましい対象領域（ＲＯＩ）の位置を特定し、定義することができる。同時に、本システムはまた、その期待されるジェスチャを実行した体の部分を表す画素群でもよい好ましいＰＯＩ（ＰＯＩ）を識別することもできる。この場合、ＰＯＩは、次の対話がそれを介して行われることになるユーザの部分的表現である。したがって、期待されるジェスチャを実行することによって、ユーザは、システムが期待していた形でフィードバック応答を与えたので、ユーザ自身をシステム・コントローラとしてアクティブ化することになる。より正確に言えば、本方法及びシステムは、画像化されたポイント、又は、期待されたアクティブ化ジェスチャを実行した手を表す三次元画像化されたポイント群を、システムが見る及び分析することになる主要なＰＯＩにすることになる。この第１のステップは、アクティブ化及び識別段階に同化することができる。したがって、このステップは、ユーザが好ましいＰＯＩの検出前に検出される必要がないこと、また体の部分又は物体識別が事前に実行される必要がないことを特徴とする。

第２のステップでは、少なくとも１つのＰＯＩが対話すべき少なくとも１つのＲＯＩが存在すると、本システムは、連続的ポインティング情報又はジェスチャ事象トリガを収集するために、主要なＰＯＩとして指定された識別された第１のＰＯＩで制御ジェスチャ認識を実行する。この第２のステップは、ナビゲーション・システムの対話型インターフェースの主な自然なジェスチャに基づく制御と考えることができる。たとえば、認識されたジェスチャから、本システムは、動的に及び文脈的に、表示されるＧＵＩを変更する。一実施例では、これはまた、アクティブ化ジェスチャ検出時に行われ得る。典型的には、それらに限定されないが、本システムは、ＷＷＷナビゲーション、マップ・ナビゲーション、音楽プレーヤ、ビデオ・プレーヤ、ＴＶチャネル・エクスプローラ、フォト・ギャラリ・プレーヤ、ゲーム、音声音量制御、投票アプリケーションなど、異なる種類のサブ・メニュ又はアプリケーションをユーザが開始できるようにするいくつかの要素、アイコン及び／又は表現で構成されたマルチメディア・メニュを画面上に表示することができる。インターフェース、すなわち各要素、アイコン、及び／又は、少なくともサブ・メニュ又はアプリケーションに対応する表現のレイアウトは、最も容易で最も自然なジェスチャの動作をユーザに実行させて、要素、アイコン及び／又は表現のうちのいずれか１つを選択、事前選択、又はアクティブ化させるやり方で編成され得る。選択は、いくつかの方法で行うことができ、たとえば、その最も単純な形では、選択は、ＧＵＩ要素をポイントすることによって達成することができる。タイマ制御及び他のジェスチャは、その最も単純な形と組み合わせて使用することができる。

典型的には、選択、事前選択又はアクティブ化は、所望のＧＵＩ要素の上にユーザの表現、たとえばマウス・ポインタ又はアバタを動かし、次いで、その要素の端部にリンクされた関連タイマ期間、待つことによって、自然なジェスチャ遠隔制御を介して実行することができ、経過した時間又は残りの時間の表現がフィードバック情報としてインターフェースに表示される。

別の実施例では、選択、事前選択又はアクティブ化はまた、複数のステップで実行され得る。典型的には、しかしこれに限定されず、選択、事前選択又はアクティブ化は、本方法及びシステムのジェスチャに基づく連続的ポインティング機能を使用して所望の要素が選択される第１のステップと、たとえば、表示されるインターフェース・メニュを変えること、インターフェースのレイアウトを変えること、アプリケーションを実行することなど、ＰＯＩポイントが生じる要素又は表現に付加又はリンクされた対話を開始することになる、クリックのジェスチャ又は押す動作のジェスチャなど、文化的に中立で意味的に関連のあり得る別の自然な制御ジェスチャに基づく第２のステップとを含む、２つのステップ・プロセスで実行され得る。

本方法及びシステムの第１のステップ及び第２のステップの両方は、複数ＰＯＩ及び複数ＲＯＩに対応して、複数のユーザが少なくとも１つのコンピュータ化されたシステム内で同時にいくつかの部分と対話すること、又は、ネットワーク上でともにリンクされたいくつかのコンピュータ化されたシステムと対話することを可能にする。

別の実施例では、経験の少ない又は熟達したユーザが、少なくとも部分的には、本システムと対話するために実行することを期待されるジェスチャに関するフィードバックを得る必要がないように、人対機械及び機械対人の対話プロセスは、直観的及び自然に定義される。たとえば、経験の少ないユーザは、対話プロセスを初期化するために、離れた人間とのコミュニケーションを行うのと同じ態様で、自然なジェスチャに基づくシステムの前で、自然な手を振るジェスチャを直観的に実行することができる。別の実例では、自然なジェスチャに基づく対話システムを既に経験したユーザである人は、画面上に表示された情報が、メイン・メニュ又は音声制御メニュを出現させる方法をユーザに思い出させる又は教えることを必要としないことになる。熟達したユーザは、いつでも、円形のジェスチャを実行することによって、システムのメイン・メニュが画面上に現れること、及び、ジェスチャに基づく対話型システムとの対話が、前述のような「手を振るジェスチャ」などのアクティブ化ジェスチャを実行することによって開始した後は、再度手を振るジェスチャを実行することが、画面上のアプリケーション又は表示されたインターフェースが何であっても、音声制御メニュを出現させることになることを知っていることになる。別法として、手を使ってユーザの耳を覆うなどの意味的ジェスチャもまた、システムの音を消すための制御ジェスチャとして使用することができる。

本発明の別の実施例では、自然なジェスチャでの文脈対話は、「手を振るジェスチャ」などの自然なジェスチャがシステム及びそのアプリケーションの状態に関連した異なる時間に異なる方法で使用され得るように、説明され得る。より正確な実例では、第１のステップ内で、ウェーブ・ジェスチャは、ユーザと、「ウェーブ・ジェスチャ」を実行するようにユーザに依頼するアニメーションの絵に基づく情報を提供しているシステムとの間の対話を初期化、開始、又はアクティブ化するために、使用することができる。第２のステップ内では、要求されたジェスチャを実行することによって対話型システムをユーザがアクティブ化した後は、「ウェーブ・ジェスチャ」は、それが実行されると、アプリケーション又は表示されたＧＵＩの状態にかかわらず、ディスプレイ画面上に音声制御インターフェースを出現させることができる。第３のステップでは、音声制御メニュが表示されている場合、ウェーブ・ジェスチャを再び実行することで、音声制御メニュが消えることになる。

好ましい実施例では、判定されたアプリケーションが立ち上げられている場合、ジェスチャに関連する制御は、動的にロード及びアンロードされ得る、たとえば、「ウェーブ・ジェスチャ」は、仮想キーボード・アプリケーション・インターフェースでの文字選択を消すことなどの対話プロセスに動的に関連付けられ得る。「ウェーブ・ジェスチャ」は、個々の仮想キーボード・アプリケーションを終了するときには音声メニュ・バーの呼出しに自動的に再び関連付けられ得る。

本システム及び方法の好ましい実施例では、画像取込みデバイスは、二次元カメラ、立体カメラ、ＬＩＤＡＲ、音波撮像装置、一般的に知られている構造化されたライト三次元カメラを含む三次元カメラ、及びＴＯＦ（ｔｉｍｅ−ｏｆ−ｆｌｉｇｈｔ）カメラを使用することができる。さらに好ましい実施例では、本システム及び方法は、深度マップ又は三次元ポイント・クラウド入力データ・タイプを使用する。

好ましい実施例では、深度マップ又は多次元ポイント・クラウドは、時空間で有意味のクラスタにグループ化され、各クラスタは重心によって表され、時間に関連してその個々の動作の追跡を可能にするアイデンティティを有する。さらに好ましい実施例では、三次元シーン・クラスタリングは、たとえば、制約付きＫ平均法リーダ・フォロワ・クラスタリング・アルゴリズムでもよい。

別の実施例では、ＰＯＩ及びＲＯＩ検出、局所化及び識別は、より特別には、クラスタ又は重心の動作を分析することによって、入力データに実行される信号処理アルゴリズムを使用する。好ましい実施例では、少なくとも第１のＰＯＩは、重心又はクラスタが前述のようにアクティブ化ジェスチャを実行した場合に、識別され、重心又はクラスタに付加される。さらに好ましい実施例では、アクティブ化ジェスチャを実行した重心又は関連クラスタは、クラスタ化された多次元シーン・ポイント・クラウドの領域隣接グラフ（ＲＡＧ）の末端でなければならない。さらにより好ましい実施例では、コヒーレントな動きをするクラスタ又は重心が最良のＰＯＩ候補であるかを判断し、いくつかの候補の間で偽陽性及び曖昧さを取り除くことが必要である。

別の実施例では、重心又はクラスタがアクティブ化ジェスチャをまだ満たしていない場合、マスタＰＯＩが、アクティブ化ジェスチャを第一に実行することになるものになる。主要なＰＯＩの周りのエリア内の任意の他のコヒーレントな動きをする末端がスレーブＰＯＩとして同化され得る。ＰＯＩのマスタ及びスレーブ状態は、何らかの事前定義された規則に従って交換され得る。ＰＯＩの周りのエリアはＲＯＩであり、その位置は、アクティブ化ジェスチャが検出された位置に関連する空間的位置を中心とする。

ＲＯＩ位置は、静的又は動的のいずれでもよい。これは、その位置が少なくとも１つのＰＯＩ位置に従って変化し得ることを意味する。ＲＯＩの次元はまた、静的又は動的のいずれでもよい。これは、１つの静的ＰＯＩが最初に定義されたＲＯＩを出る場合に、次元が修正可能であることを意味する。

ある一定の継続期間の後、判定されたＲＯＩ内のＰＯＩのいずれも十分に移動していない、又は識別されたＰＯＩのいずれかがＲＯＩから出た場合、対応するＰＯＩ及びＲＯＩはもはや対話を行うことができないので、本システムはそれらを破棄することができる。そのとき、本システムは、前述の方法及びシステムの第１のステップで実行された同じプロセスを使用して、新しいＰＯＩ及びＲＯＩが識別されるのを待つことになる。

別の実施例では、セキュリティ・タイマは、最近無効にされた又は非アクティブ化されたＰＯＩが十分に移動した場合又はそれがリンクされたＲＯＩに再度入る場合、それが再び対話を開始するときに、使用可能にされる又は再アクティブ化されることを可能にし得る。このセキュリティ・タイマ中、対応するＰＯＩ及びＲＯＩは、破棄される代わりに、単に無効にされる又は非アクティブ化される。

別の好ましい実施例では、自然なジェスチャ認識が、本方法及びシステムの個々のステップに関係なく、セグメント化された入力画像の重心又はクラスタの軌道の分析によって、実行される。これは、アクティブ化ジェスチャが探索される第１のステップについて、又は、制御ジェスチャが探索される第２のステップについて、ジェスチャ認識が、「ウェーブ」、「押す」、「クリック」、「引く」、「静止」、「ポインティング」などの自然なジェスチャを検出すること、並びに、「円形」、「正方形」、「長方形」、「線」、「十字形」、「三角形」などの基本的な幾何学形状の検出に依存することを意味する。

さらに好ましい実施例では、ジェスチャ認識は、対応するＲＯＩ内のマスタ及び／又はスレーブＰＯＩ軌道において実行される。

さらにより好ましい実施例では、ジェスチャ認識は、ＰＯＩ軌道の方向の変化、判定された継続期間内の連続的ＰＯＩ方向の変化間の時間、連続的ＰＯＩ軌道方向の変化間のユークリッド距離、連続的ＰＯＩ軌道の変化の間のＰＯＩ速度、及び連続的ＰＯＩ軌道方向の変化間のＰＯＩ加速の分析によって実行される。ＰＯＩ軌道方向の変化は、連続する取り込まれた画像のＰＯＩのフレームからフレームへのＸ方向、Ｙ方向又はＺ方向での変化を少なくとも意味する。これらのＰＯＩ軌道変化は、ＰＯＩの次の位置が比較される基準シード・ポイントを作成する。加えて、軌道分析は、好ましくは、実行されたジェスチャを認識するために、基準シード・ポイントの順序付け作成の分析を含み得る。

さらにより好ましい実施例では、軌道方向の変化の分析方法には、方向のＸ、Ｙ、Ｚ変化の計算と軌道方向の変化間の累積距離の計算とが少なくとも所定の閾値より下にとどまる場合、ＰＯＩ候補の中のコヒーレントな動きをする重心又はクラスタを判定するために、使用される。

前述の第１の及び第２のステップのアクティブ化ジェスチャ又は制御ジェスチャのいずれかで、ジェスチャ認識が、「クリック」、「押す」、「ウェーブ」ジェスチャ事象などのジェスチャ対話トリガ、及び／又は、ポインティング位置などの連続的データ情報を抽出するために、時間に関してＰＯＩで実行される。

本方法及びシステムの個々の実施例では、ジェスチャ認識が、仮想キーボード・アプリケーションを制御するために使用可能であり、仮想キーボードのＧＵＩのレイアウトは、限られた数のジェスチャで非常に単純な動作をユーザが直観的に実行できるように配置され得る。好ましい実施例では、そのレイアウトは、いずれの他のジェスチャなしで文字を少なくとも事前選択し、次いで選択するためのＰＯＩ表現による、前後のジェスチャ、たとえば、上下又は左右など、ポインティングの動作のみを実行するようにユーザに要求し得る。たとえば、そのレイアウトは、事前選択ゾーン、事前選択ゾーンの下の選択ゾーン、及び、事前選択ゾーンの下に、選択された文字がその中に表示され得るテキスト・ボックスで構成され得る。追加として、単語事前選択ゾーンもまた、そのテキスト・ボックスの下方に設けることができる。上下に動くことによって、ＰＯＩ表現は、それが現在ポイントしている対応するゾーンの要素を自動的に選択する。別の実施例では、ユーザは、各ゾーンで判定されたジェスチャを実行して選択された要素を認証することを要求され得る。

前述の先行技術文献の開示とは対照的に、本発明は、実時間対話能力を有するユーザ・インターフェース方法及びシステムを提供し、新しい多次元の接触なしの及びマーカなしのジェスチャ認識技術に基づく。これは、所定のインターフェース要素が文脈／ユーザ／物体対話に関連して表示されることを可能にする。本方法及びシステムは、世界的な最も一般的で知られている人間のジェスチャ、たとえば、「連続的ポインティング」、「ウェーブ」、「押す」、「引く」、「左へスワイプ」、「右へスワイプ」及び「円形」トリガ、又はすべての最も一般的な幾何学的形状に限定されたジェスチャ・ライブラリを使用することによって、人間工学的に最適化される。加えて、本方法及びシステムは、単一の対話及び逐次の対話の両方を行う際のユーザの体験を改善するための労力を最小限にすることによって、たとえば、ＰＯＩ位置との組合せでタイマを使用することによって、或いは、インターフェース機能をアクティブ化する又は選択を確認するための単純な制御ジェスチャを使用することによって、人間工学的に最適化される。

アイコン、ボタン、アバタなどの制御要素をサポートするナビゲーション・システム内のメニュが提供され得る。別法として又は追加として、その制御装置要素は、少なくともマルチメディア・メニュ及び／又は少なくとも仮想キーボードを定義することができる。理想的には、サポートする制御要素の配置は、対話効率及び直観性、ひいてはユーザの体験を改善するように編成される。

ＰＯＩ検出は、多次元のシーン分析に基づく。そのシーンは三次元のクラスタ化されたシーンを含み、そのクラスタは時空間コヒーレンシを示す。シーン分析はまた、単一の及び／又は複数の対象ポイント、並びに単一の及び／又は複数の対象領域をサポートする。

本発明の方法及びシステムはまた、ジェスチャに基づく対話が入るＲＯＩと、それらの対話ジェスチャを生成することになるシーンの少なくとも主要なＰＯＩの両方とを定義するアクティブ化ジェスチャの検出をサポートする。制御ジェスチャは、ジェスチャ認識が実時間ＰＯＩ軌道分析によって実行される対話をトリガするために使用される。加えて、ＰＯＩの表現は、ＰＯＩの動作及び時間に対するその位置に関するフィードバックを少なくとも提供する。

本発明は、ＰＯＩ候補検出、ＰＯＩ候補へのアクティブ化ジェスチャ認識、ＰＯＩ軌道分析からの制御ジェスチャ認識、時間に関する識別されるＰＯＩの管理、時間に関する識別されるＲＯＩの管理、ＰＯＩとユーザ・インターフェースとの間の対話、文脈ユーザ・インターフェース・ナビゲーション・システムの最適化、及びマーカのない、ジェスチャに基づく仮想キーボード入力ユーザ・インターフェースの最適化に関して、以下に説明される。

図１には、本発明のユーザ・インターフェースを実装するための３つの主要な構成要素を説明する流れ図１００が示される。シーン内のＰＯＩが、候補要素の軌道分析に基づくアクティブ化ジェスチャ認識と組み合わせて局所化及び識別技法を使用して、検出される（ステップ１１０）。少なくともＰＯＩが検出された後は、そのＰＯＩによって作られるジェスチャが、その軌道分析に基づいて検出される（ステップ１２０）。ユーザ・インターフェースを使用するナビゲーションが次いで、検出されたジェスチャを使用して行われる（ステップ１３０）。これらのステップは、以下にさらに詳しく説明される。

図２は、本発明によるユーザ・インターフェースで実行される動作を示す流れ図２００である。ステップ２０５で、入力データが、画像処理システムに提供される。この入力データは、少なくとも深度マップ又は多次元若しくは三次元ポイント・クラウドを含むシーンの三次元画像の形をとる。本深度マップは、三次元画像内の各画素の画像化システムの部分を形成するカメラからのポイント・クラウド内の各ポイントの距離に相当する。三次元画像は次いで、セグメント化されて（ステップ２１０）複数のクラスタを作成する。ステップ２１５で、クラスタのリストが、ステップ２１０からの出力として提供される。クラスタのリストが次いで、候補クラスタ・リファイナリ・プロセスの入力として使用され（ステップ２２０）、それは候補クラスタのリストを提供する（ステップ２２５）。候補クラスタ・リファイナリは、すべてのシーン・クラスタの中で、シーンＲＡＧの末端であるという特性を示し、またコヒーレントな動きの特性を有するものを少なくとも判定することを目的とする。これらの候補クラスタは、ステップ２３０でのアクティブ化ジェスチャ認識プロセスで使用され、その目的は、どの候補クラスタが最初に所定のアクティブ化ジェスチャを実行したかを判定することである。ジェスチャ認識の部分として、対象ポイントのリスト及び対象領域のリストが生成される（ステップ２３５）。これらのリストは、そのプロセスで無用なＰＯＩ及びＲＯＩを取り除くために、又は、新しいＰＯＩ若しくはＲＯＩを追加するために、管理され（ステップ２４０）、そうして、制御ジェスチャ認識のための入力を形成する（ステップ２５０）。制御ジェスチャ認識は、事象トリガ及び連続的制御を提供し（ステップ２５５）、それは文脈インターフェース制御に使用される（ステップ２６０）。

図３は、ＰＯＩが位置を特定される及び識別される特定の実施例を示す流れ図３００である。入力データは、深度マップの形でもよい。深度マップデータは、再スケーリング／多重解像度プロセス（ステップ３１０）のためのステップ３０５での入力である。再スケーリング／多重解像度プロセスからの出力はＮレベルのピラミッド形画像入力データを含む（ステップ３１５）。このデータは次いで、制約付き三次元クラスタリングで及び／又は三次元シーン・セグメント化で使用される（ステップ３２０）。そのクラスタリング及び／又はセグメント化ステップは、低解像度及び高解像度の両方のデータを含むＮレベルのクラスタ化された入力データを提供する（ステップ３２５）。低解像度データは次いで、リファイナリ・ステップで精密化され（ステップ３３０）、低解像度及び高解像度の両方のクラスタを含むクラスタ化された入力データを作り出す（ステップ３３５）。クラスタ化された入力データは次いで、領域隣接グラフ（ＲＡＧ）ビルダで（ステップ３４０）、ｎ次元の末端検出器で（ステップ３５０）、並びに動き及びコヒーレンシ分析プロセスで（ステップ３６０）、使用される。隣接グラフ・ビルダは、そのシーンのクラスタ間の接続状態を定義する領域隣接グラフを作り出し（ステップ３４５）、ｎ次元末端検出器が、グラフ末端を含むシーン・クラスタのリストを作り出し（ステップ３５５）、動き及びコヒーレンシ分析が、コヒーレントな動きをするクラスタのリストを判定する（ステップ３６５）。これらの３つの要素の各々に関連するデータは、クラスタ及び／又はＰＯＩ識別プロセスのための入力を形成し（ステップ３７０）、それは、典型的にはアクティブ化ジェスチャに相当する特定の動きを示す、第１のコヒーレントな動きをするクラスタであるとして（ステップ３６５）、及びシーン末端であるとして（ステップ３５５）、少なくとも第１のＰＯＩを判定する。ＰＯＩのリスト及びＲＯＩのリストが、形成される（ステップ３７５）。ＰＯＩ及びＲＯＩのリストが、ＰＯＩ及びＲＯＩマネージャに入力される（ステップ３８０）。

それぞれステップ３１０及び３２０で、多重解像度及び三次元シーン・セグメント化のオーダは、この段階は重要ではない。多重解像度は任意選択のプロセスであり、同じ結果が他のプロセスを使用して取得可能であることが理解されよう。

多重解像度プロセスの概説が、図４に概して示される。以下にさらに詳しく説明するように、そのシーンの高解像度深度マップを取得し（ステップ４１０）、多重解像度技法を使用して、高解像度深度マップを処理すること（ステップ４２０）で始まる、流れ図４００が示される。多重解像度プロセス（ステップ４２０）は、高解像度深度マップをダウンサンプルして、少なくとも高解像度深度マップ４１０を作り出し、また少なくとも中／中間解像度深度マップ４３０及び低解像度深度マップ４４０をそれぞれ作り出すための、ピラミッド形処理を含む。多重解像度プロセス４２０は、少なくとも解像度をピラミッドの各レベルについて２で割ることを含む。３つのレベルのみが示されるが、プロセス４２０は、任意の適切な数のレベルを含み得ることが理解されよう。ピラミッド形ダウンサンプルの実例が、図５に示される。

図５（ａ）では、８×８画素の配列５００が示される。各画素は、図示するように配列された１、２、３、４又は５の深度値を有する。これらの値は、例として与えられ、画像化システムの部分を形成するカメラからの各画素の距離を示す。この場合、配列５００は、ｎ＊ｎの固有の解像度を有する高解像度深度マップを表すことが意図されている。

高解像度深度マップが次のレベルまでダウンサンプルされるとき、８×８配列は４×４配列にダウンサンプルされ（図５（ｂ）に示すように）、４つの画素の各グループ、たとえばグループ５１０、内の最小深度値は、配列５４０内の４の深度値を有する単一の画素５３０として保持される。配列５４０は、最初の高解像度深度マップの中解像度レベルを表すことが意図されている。ダウンサンプルのプロセスでは、最初の高解像度深度マップは保持され、中解像度深度マップは、その場合に、（ｎ／２）＊（ｎ／２）の解像度を有して作成される。

中解像度深度マップはまた、図５（ｃ）に示すように、低解像度深度マップにダウンサンプルすることができる。ここで、４×４配列５４０は、ダウンサンプルされて２×２配列を形成する。配列５４０内の４つの画素の１つのグループ５５０は、ダウンサンプルされて低解像度配列５８０内の１つの低解像度画素５７０を形成するものとして示される。これまでのように、４つの画素の各グループ内の最小値は、低解像度深度マップ内に保持され、この場合、３である。低解像度深度マップは、（ｎ／４）＊（ｎ／４）の解像度を有する。必要に応じて、配列５８０の解像度を変更して、（ｎ／８）＊（ｎ／８）の解像度を有する単一のピクセルを形成することが可能になろう。

８×８配列、４×４及び２×２配列は例としてのみ与えられることが、理解されよう。実際には、各高解像度配列は、もはやダウンサンプルが可能でなくなるまで、解像度（ｎ／ｋ）＊（ｎ／ｋ）まで任意の回数ダウンサンプルすることができるｎ＊ｎ配列を備え得る。

図６には、シーン・クラスタリングのステップを説明する流れ図６００が示される。低解像度深度マップ６１０は、制約付きＫ平均法リーダ・フォロワ・アルゴリズム（ＫＭＬＦ）６２０への入力を形成する。ＫＭＬＦは、シーンを画素の時空間コヒーレント・グループ、クラスタ（重心を有する）にセグメント化するように動作する、知られているアルゴリズムの混合である。ＫＭＬＦ６２０からの３つの主要な出力、すなわち、低解像度クラスタの低解像度画像６３０、各クラスタの重心のリンク・グラフ６４０、及びこのリンク・グラフからの、単一の他の重心のみに接続された重心の末端局所化及び識別６５０が存在する。リンク・グラフ６４０は、ｎ次元リンク・グラフを含み、ｎ＝３である。

図７（ａ）は、画素深度値を備える低解像度画像を示し、その画像は、たとえば制約付きＫＭＬＦアルゴリズム６２０（図６）で、クラスタ化される必要がある。１１×１配列を備える低解像度画像７００が示される。その配列内の各画素は、図示するように１、２、３、４又は５の深度値を有する。各クラスタがほぼ同じ深度値を有するクラスタへの画素のグループ化が、図７（ｂ）に示される。

図７（ｂ）では、クラスタ７０１、７０７、７０８及び７１０が同じ深度値を有することが容易に理解され得る。クラスタ７０２、７０３、７０４、７０５、７０６及び７０９について、それらのクラスタ内の画素の大多数は同じ深度値を有するが、異なる深度値を有する画素も少数存在し得る。周囲の又は隣接する画素に対する異なる深度値を有するこれらの画素は各々、同じ深度値を有する別のクラスタから効果的に排除されることが理解されよう。加えて、処理を容易にするために許容されるクラスタの最大サイズの制限が存在する。

図７（ｃ）には、各クラスタ７０１、７０２、７０３、７０４、７０５、７０６、７０７、７０８、７０９、７１０のそれぞれの重心７５１、７５２、７５３、７５４、７５６、７５７、７５８、７５９、７６０が示される。重心は、図７（ｄ）に示すように、二次元空間並びに三次元空間でリンクされ得る。

図７（ｄ）では、重心７５２、７５３、７５４、７５５、７５６、７５８、７６０が、図示するように互いに接続され得る。重心７５１、７５７及び７０９は、それらのクラスタがそれらの周囲のクラスタのものと大幅に異なる深度値を有するので、それらは接続することができない。これは、これらのクラスタが３Ｄ接続されず２Ｄ接続され得るためである。２Ｄ接続は重心が二次元でのみ接続されることを意味し、３Ｄ接続は重心が三次元で接続されることを意味する。結果として、重心７５８及び７６０は、隣接するクラスタ内の１つの隣接する重心、すなわち図示するように重心７５４及び重心７５６に３Ｄ接続のみされる。したがって、クラスタ７０８及び７１０とそれらの関連重心７５８及び７６０は、末端を各々示す。

ここで図６に戻ると、図７を参照して説明されるように、低解像度クラスタの低解像度画像６３０、重心及び位置を特定された末端６５０のリンク・グラフ６４０が判定される。低解像度クラスタの低解像度画像６３０から、低及び高解像度クラスタの高解像度画像６７０が、リファイナリ・プロセス６６０を使用して取得される。

リファイナリ・プロセス６６０は、その中に少なくとも１つのＰＯＩが置かれた三次元ＲＯＩによって定義されるＲＯＩ（図示せず）に属するクラスタにのみ適用され得る。開始時に、すなわち、フレーム１は、又は、ＲＯＩが１つもアクティブ化若しくは作成されていない場合に、高解像度画像６７０は、低解像度クラスタの低解像度画像６３０と同一である。少なくともＲＯＩが定義された後は、ＲＯＩの外のクラスタは、精密化することができず、ＲＯＩ内のクラスタのみが精密化され得る。しかしながら、少なくともＲＯＩの外のコヒーレントな動きをする末端クラスタは、別の実施例では、精密化され得る。

図８は、リファイナリ・プロセス６６０から取得された入力及び出力を示す。図８には、流れ図８００が示され、そこで異なる解像度クラスタ化された入力データ８１０は、高解像度クラスタ化された出力データ８３０の出力を提供するためにリファイナリ・プロセス８２０へ入力される。リファイナリ・プロセス８２０の目的は、画像が解像度を上げるとき、たとえば、低解像度から始まり中解像度に、次に高解像度になるときに、クラスタ間の境界をはっきりとさせることである。ピラミッドの各レベルで、各画素について、リファイナリ・プロセスが、どのクラスタに画素が実際に付加されるかを定義し、それによってそのクラスタの識別をその画素にリンクさせる。各画素について、それは、たとえばユークリッド距離に関してそれに最も近いクラスタに割り当てられる。画素とクラスタの間の「近さ」を判定する他の方法もまた使用され得ることが、理解されよう。リファイナリ・プロセス８２０は、図９により詳細に示される。

図９（ａ）では、より低い解像度配列９００が、時間ｔでのクラスタ識別について示される（ＬＲ（ｔ））。５つの画素、「Ａ」から「Ｅ」が示される。画素「Ｅ」は、ここで対象の画素である。より低い解像度配列９００がやはり時間ｔに図９（ｂ）の配列９３０によって示すようにより高い解像度にアップサンプルされるとき（ＨＲ（ｔ））、画素Ｅはもはや画素「Ｅ」ではなく、画素「ａ」として考えることができる。しかし、画素「ａ」のアイデンティティは、時間ｔ−１での図９（ｃ）の配列９６０に示すようないくつかの値のうちの１つでもよい（ＨＲ（ｔ−１））。

しかし、各画素について、それは、それが比較されているクラスタの画素と重心の間のユークリッド距離に関して最も近いクラスタに割り当てられる。前述の図９に示すように、画素「ａ」のクラスタ候補は、以下のうちの１つとして表すことができる：
ＩＤ（ａ）ＨＲ（ｔ）＝ＩＤ（Ｄ_ｍｉｎ（Ｖ（Ｅ）；Ｖ（｛Ａ，Ｂ，Ｃ，Ｄ｝ＬＲ（ｔ））；
Ｖ（｛０，１，２，３，４，５，６，７，８，９，１０，１１｝ＨＲ（ｔ−１）））
但し、
ＩＤ（ａ）は、画素「ａ」の識別タグであり、
ＬＲ（ｔ）は、時間ｔでのより低い解像度画像であり、
ＨＲ（ｔ）は、時間ｔでのより高い解像度画像であり、
ＨＲ（ｔ−１）は、時間ｔ−１でのより高い解像度画像であり、
Ｄ_ｍｉｎ（Ｖ；Ｘ）は、画素「Ｅ」とＸの間の最小ユークリッド距離であり、但し、Ｘは最も近いクラスタの重心の位置であり、
Ｖ（ｘ）は、対応する画素の三次元値であり、そのＩＤはｘであり、
｛Ａ，Ｂ，Ｃ，Ｄ｝は、より低い解像度配列９００内の画素クラスタ識別候補リストであり、
｛０，１，２，３，４，５，６，７，８，９，１０，１１｝は、ｔ−１でのより高い解像度配列９６０内の画素クラスタ識別候補リストである。

言い換えれば、より高い解像度配列９３０内の時間ｔでの画素「ａ」のクラスタ識別は、それが割り当てられると考えられ得るクラスタの画素「ａ」と重心の間の最小ユークリッド距離によって判定される。前述のように、画素「ａ」のクラスタ識別は、以下によって定義されるような最小距離である：
（ｉ）時間ｔでのより低い解像度配列９００内の対応する画素「Ｅ」の三次元値（Ｖ（Ｅ））、
（ｉｉ）時間ｔでのより低い解像度配列９００内の対応する画素「Ａ」、「Β」、「Ｃ」又は「Ｄ」のうちのいずれか１つの三次元値（Ｖ（｛Ａ，Ｂ，Ｃ，Ｄ｝ＬＲ（ｔ））、或いは、
（ｉｉｉ）時間ｔ−１でのより高い解像度配列９６０内の対応する画素「０」から「１１」のうちのいずれか１つの三次元値１Ｖ（｛０，１，２，３，４，５，６，７，８，９，１０，１１｝ＨＲ（ｔ−１））。

図１０は、リファイナリ・プロセスの結果の単純な図解である。図１０（ａ）には、２つのクラスタ１０１０、１０２０がより低い解像度画像１０００内に示される。図１０（ｂ）は、リファイナリ・プロセス８２０が実行された後のより高い解像度画像１０５０内の同じ２つのクラスタ１０６０、１０７０を示す。

前述したものなどのリファイナリ・プロセスの実施例では、画素は、それらが認証されていない場合には、処理は考慮されない。たとえば、その画素を照射するカメラからの赤外線ビームが所定の閾値を下回る場合、不良照明勾配がある場合、その画素が背景の部分であるとしてフラグを立てられた場合、又は、その画素が何らかのクリップ面の仮想限界の外側にある場合、画素を認証することができず、そのクリップ面は、処理される三次元空間を限定する。

図１１は、ユーザ・インターフェースの実施例、より特別には、制御及び／又は対話をサポートすることになるＰＯＩの検出及び識別に関する流れ図１１００を示している。その実施例では、ユーザ・インターフェースアクティブ化ジェス・チャプロセス検出器への２つの主要な入力が存在し、典型的には、低解像度及び高解像度のクラスタ画像１１１０のうちの少なくとも高解像度（図６を参照して前述したようなシーン・クラスタリングの１つの出力として作り出された）とそのクラスタが、末端１１２０（図６及び７を参照して前述したようなシーン・クラスタリングの間接出力としてやはり作り出された）であるとして識別される。クラスタ化された画像１１１０及びクラスタ末端リスト１１２０は、図６のリンク・グラフ６４０内で末端であるとしてタグ付けされ、且つコヒーレントな動きを示す、クラスタのすべての重心を見るアクティブ化ジェスチャ検出器１１３０へ入力される。移動する重心のコヒーレンシは、それが属するクラスタの経時によって判定され、それが所定の閾値を下回る制限された量のノイズを有する動作（すなわち、痙攣性の軌道ではない）を示すという事実によって判定される。移動する物体のコヒーレンシ、この場合クラスタの重心は、たとえば、ＰＯＩ、すなわち重心自体の方向の連続的変化を検出すること、及び軌道局在化での各変化のそれぞれの位置、並びに（軌道変化位置で）見つけられた準シード・ポイントの順序付けに関するいくらかのデータ演算及び統計値を計算することによって判定される。一実例では、各フレームでＰＯＩの方向の変化を示す軌道は、コヒーレントではなく無用な方法によると考えることができる。別の他の実例では、フレームからフレームへの反対方向での高速の動作を示す軌道はまた、無用であり、コヒーレントな動きをするポイントではないと考えることができる。概して、ＰＯＩ動作コヒーレンシは、その動作がある一定の範囲の速度及び加速内にあり、ある一定量の時間に亘って既存のＰＯＩによって実行され、同方向の連続的軌道間のある一定の量の方向ベクトル共直線性を示すことを必要とする。

ステップ１１３０でのアクティブ化ジェスチャ検出は、ＰＯＩ軌道分析を実行することを含み、したがって、ＰＯＩの方向の変化の検出に依存する（制御ジェスチャ・プロセスは同プロセスに依存し、ＰＯＩのリストはアクティブ化ジェスチャ・クラスタ候補リストに対して限定されるので、それは入力によってのみ異なる）。見つけられた軌道方向の各変化について、基準シード・ポイントが、前述のように定義される。すべての基準シード・ポイント位置が、システムに記憶される。連続的アクティブ化ジェスチャ認識は、軌道の連続的分析を意味する。画像化システムによって取り込まれた各フレームで、最後の知られている基準シード位置への少なくともＰＯＩ距離、Ｄ、が計算され、そのジェスチャの検出以降の、ある一定の数のサンプル内のその軌道の全長Ｌもまた判定される。連続的基準シード・ポイント間の順序付け、時間的、幾何学的及び統計的特性がジェスチャを定義するものと対応する場合、そのジェスチャは次いで、即座に認識され、基準シード・ポイントを記憶するメモリがリフレッシュされる。

アクティブ化ジェスチャ検出器１１３０は、それらが期待されるアクティブ化ジェスチャと一致するかを判断するために、末端であり、コヒーレントな動きにおいて基準に合ったＰＯＩ候補の軌道の実時間分析を行う。アクティブ化ジェスチャのそのようなタイプが、以下にさらに詳しく説明される。アクティブ化検出器１１３０は、期待されるアクティブ化ジェスチャが検出可能になるように、視界内の少なくとも末端であると考えられる重心の軌道分析を実行する。期待されるアクティブ化ジェスチャが検出された後は、ＲＯＩがその視界内に作成される。そのアクティブ化ジェスチャを形成するＰＯＩ候補（たとえば、クラスタ重心）は次いで、作成されたＲＯＩ内のマスタＰＯＩになる。追加として、アクティブ化ジェスチャ検出器は、事前定義されたリストのアクティブ化ジェスチャのうちの少なくとも１つを行った少なくとも１つのクラスタ（ＰＯＩ候補）について、対話を実行するＰＯＩであるとして識別されたクラスタのリストを作り出す（ステップ１１４０）。

コントローラ・ボックスマネージャ（ＲＯＩマネージャ）１１５０は、クラスタリスト内の識別されたＰＯＩ、すなわち各ケースでの対応する重心の識別を使用して、その重心の三次元位置が既存のＲＯＩから十分に離れていること、複数のＲＯＩが特定のユーザ・インターフェース・アプリケーションで許可されているか、及び／又はＲＯＩの再作成が許可されているかをチェックする。再作成は、単一のＲＯＩインスタンスのためにアクティブ化され得、且つ現在存在するＲＯＩがポインタを有さない場合に及びその場合にのみ、並びにアクティブ化ジェスチャが既存のＲＯＩ外で行われた場合に、適用されるパラメータである。ポインタは、アクティブ化ジェスチャから又はアクティブ化ジェスチャの後に識別された対象ポイントと考えられるが、その位置はＲＯＩ内である。

加えて、アクティブ化ジェスチャを行った重心は、ＲＯＩマネージャ１１５０の制御の下で作成されたＲＯＩ内のマスタ・ポインタになり得る。次のコヒーレントな動きをする末端がＲＯＩに入る場合、それは、そのＲＯＩ内で許可されたＰＯＩの数に従って、別のＰＯＩになり得る。ＲＯＩマネージャ９５０は、ＲＯＩのリスト及び各ＲＯＩのＰＯＩのリストを出力する。ＰＯＩは、マスタＰＯＩである又はないとしてフラグを立てられ得る。ＲＯＩマネージャは、対応するＲＯＩに属する各ＰＯＩの識別を使用して、時間に関してＲＯＩを管理する。

ＲＯＩはｎ次元空間であり、その次元は個々のシステムによりあらかじめ定められていることに留意されたい。別の実施例では、その次元は、たとえば、ＰＯＩがＲＯＩの外に出ようと試みる場合に、動的に変更可能である。ＲＯＩ内の少なくとも２つのＰＯＩで対角線の末端を定義することも可能である。加えて、所定の継続期間Ｄ１に亘ってその中でアクティブ化されたＰＯＩを有さないＲＯＩは、非アクティブ化され、次いで、それがさらなる所定の継続期間Ｄ２に亘って非アクティブ化されたままである場合には、破棄される。

アクティブ化されたＰＯＩは、ＲＡＧの末端であり、コヒーレントな動きを示すものである。

所定の継続期間Ｄ３に亘って動かないアクティブ化されたＰＯＩは、非アクティブ化される。それがさらなる所定の継続期間Ｄ４に亘って非活動されたままである場合、それは次いで破棄される。

ＲＯＩの外に出たＰＯＩは、それがＲＯＩへの境界線を横断した後には、非アクティブ化される。それが所定の継続期間Ｄ５に亘ってまだ非活動されている場合、それは破棄される。しかし、そのＰＯＩは、コヒーレントな動きをする末端（重心）が、前のＰＯＩが離れたのと近い位置で、Ｄ５期間が満了する前に再びそのＲＯＩに入った（バックドア領域を介して）場合には、再アクティブ化され得る。バックドア領域は、ＰＯＩが閾値タイマによって制御される所定の継続期間に亘ってＲＯＩを離れた場所に近い位置でそのＰＯＩがＲＯＩに再度入る領域である。

ここでジェスチャ制御を見ると、制御信号として使用される多数のジェスチャが存在し得るが、「円形」、「ウェーブ」、「スーパー・ウェーブ」、「スワイプ」、「押す」、「引く」、「静止」、「クリック」及び「ポインティング」のみが記載されることが理解されよう。

視界内でＰＯＩとして機能することができるユーザ又は物体の末端の存在を判定して、「円形」が、たとえば、画像化システムにそのインターフェースがアクティブ化される又はスイッチを入れられることになることを指示するために、アクティブ化ジェスチャとして使用される。しかし、アクティブ化ジェスチャは、本発明に従って、ユーザ・インターフェースを必ずしも立ち上げ又はアクティブ化しないことがあり、どのＰＯＩがインターフェースと対話することになるかのみを判定することがあることに留意されたい。図１２は、軌道に基づく「円形」ジェスチャ認識を示す。

図１２では、ＰＯＩの軌道は、重心位置によって示されるようにフレームからフレームで判定される。Ａ、Ｂ、Ｃ又はＤを含むポイントのうちのいずれか１つで開始し、図示するように時計回りで移動して、重心の軌道は、それが「円形」の周りを移動するものとして示される。重心は「円形」の周りを移動するとき、Ｘ軸及びＹ軸に関する軌道方向の以下の変化が検出される：
（ｉ）ポイントＤからポイントＡに、＋Ｙ軸の方向で変化がある。
（ｉｉ）ポイントＡからポイントＢに、＋Ｘ軸の方向で変化がある。
（ｉｉｉ）ポイントＢからポイントＣに、−Ｙ軸の方向で変化がある。及び、
（ｉｖ）ポイントＣからポイントＤに、−Ｘ軸の方向で変化がある。

「円形」は、重心の＋Ｙ軸、＋Ｘ軸、−Ｙ軸及び−Ｘ軸の方向での軌道変化の離散的読取り値ポイントの代替変化によって検出されて、検出された四分円の数を判定する。少なくとも４つの四分円を実行するＰＯＩは円形を実行していると見なされ、循環係数が、そこで方向の変化が検出された少なくとも４つの基準シード・ポイントを使用することによって、判定され得る。「円形」は、少なくとも４つの連続的四分円が重心の単一の軌道で検出されるときに、検出される。前述の重心の方向の変化は、ポイントＡとＣの間の距離ＤｅＶと、ポイントＢとＤの間の距離ＤｅＨとともに検出されて、重心が「円形」のアクティブ化ジェスチャを実行したかどうかを判定する。「円形」を定義するパラメータは、同方向、たとえば、時計回り又は反時計回り、で検出された少なくとも４つの連続的四分円と、所定の次元の円形サイズと、ある一定の継続期間に亘って実行された円形と、前述のようなある特定の循環係数を有する円形とを含む。

図１３は、軌道に基づく「ウェーブ」ジェスチャ認識を示す。ＰＯＩの軌道は、ＰＯＩ位置によって示されるようにフレームからフレームで判定される。ここで、ポイントＡ、Ｂ、Ｃ及びＤは、それが「ウェーブ」を実行するとき、ＰＯＩの軌道の基準シード・ポイント（その場合にはウェーブ・ジェスチャ軌道の末端）に相当する。ポイントＡで開始して、ＰＯＩは、ポイントＢまでの距離、ポイントＣに戻るほぼ同様の距離、及び、ポイントＤまでのほぼ同様の距離を進む。図示するように、Ｄｘ、ＤＹ及びＤｚのそれぞれＸ軸、Ｙ軸及びＺ軸に関して重心が進む距離には変化がある。基準シード・ポイントＡ、Ｂ、Ｃ及びＤと進んだ距離の検出は、「ウェーブ」ジェスチャが行われたという指示を提供する。

「ウェーブ」は、軌道の２つの連続的基準シード・ポイント間の方向の逆の変化によって検出される。２つの連続的基準シード・ポイント間の距離Ｄ１は、ウェーブの半分に相当する。いくつかの種類の基準シード・ポイントが、方向の変化の特性により判定され得る。各ジェスチャは、いくつかの種類の基準シード・ポイントの時間に関する組合せでもよい。たとえば、Ｙ方向での変化は、「種類Ａ」と称される基準シード・ポイントでもよく、Ｘ方向での変化は、「種類Ｂ」と称される基準シード・ポイントでもよいなどである。別の距離Ｄ２は、それが半分のウェーブの数を増やす限り、累積される。この他の距離Ｄ２は所定の範囲に入り、任意選択で、重心の動きが所定の速度範囲内である場合には、連続する半分のウェーブの数もまた他の所定の値、すなわち少なくとも２つの半分のウェーブ、より大きい場合には及びその場合にのみ、「ウェーブ」が検出されると判定される。

「スーパー・ウェーブ」は、２つの連続する終点間の距離が「ウェーブ」に関する距離よりも大きいことがあり、重心の速度もまた「ウェーブ」に関する速度よりも速いことがあり、たとえば、連続する半分のウェーブの数が「ウェーブ」に関する数よりも大きいという点で、「ウェーブ」とは異なる。

図１４は、軌道に基づく「スワイプ」ジェスチャ認識を示す。ＰＯＩは、「スワイプ」ジェスチャの実行で左から右に移動し、そのＰＯＩの軌道は、ＰＡＴ１、ＰＡＴ２、ＰＡＴ３、ＰＡＴ４及びＰＡＴ５にある重心位置によって示されるようにフレームからフレームで判定される。各フレームでのＰＯＩの位置は、ＰＡＴ１、ＰＡＴ２、ＰＡＴ３、ＰＡＴ４、ＰＡＴ５として示され、各フレームでのＰＯＩの速度ベクトルは、それぞれ、Ｖ１、Ｖ２、Ｖ３及びＶ４として示される。たとえば、ＰＡＴ１は、Ｔ０でのポイントＡに相当する。図示するように、ＰＯＩが第１の位置ＰＡＴ１から最後の位置ＰＡＴ５に移動するとき、Ｘ軸、Ｙ軸及びＺ軸に関する距離Ｄｘ、ＤＹ及びＤｚはまた、フレームからフレームで変化し得る。

ＰＯＩの速度が所定の閾値を超え、重心が線形の軌道を有する場合、「スワイプ」が検出される。その線形の軌道内のＰＯＩによってカバーされる距離もまた、所定の閾値を超える必要がある。

図１５は、軌道に基づく「押す」又は「引く」ジェスチャ（互いに反対の）を示す。ＰＯＩは、「押す」ジェスチャでは位置ＰＡＴ１からＰＡＴ４に移動し、「引く」ジェスチャではＰＡＴ４からＰＡＴ１に移動し、そのＰＯＩの軌道は、ＰＡＴ１、ＰＡＴ２、ＰＡＴ３及びＰＡＴ４にあるＰＯＩの位置によって示すようにフレームからフレームで判定される。各フレームでのＰＯＩの速度ベクトルは、それぞれＶ１、Ｖ２及びＶ３として示される。前述のように、ＰＡＴ１は、Ｔ０でのポイントＡに相当する。

「押す」は、事実上「スワイプ」の一種であるが、深度又はＺ軸で、カメラの方向にある。具体的には、Ｘ軸及びＹ軸に関してＰＯＩの位置は、実質的には変化しない。

「引く」は、実際には「押す」と同じであるが、カメラから離れる方向にある。

図１６は、軌道に基づく「クリック」ジェスチャ認識を示し、ＰＯＩの軌道はＰＡＴ１、ＰＡＴ２、ＰＡＴ３、ＰＡＴ４及びＰＡＴ５の重心位置によって示すようにフレームからフレームで判定される。ＰＡＴ１は、Ｔ０でのポイントＡに相当する。この場合、ＰＯＩは、Ｚ軸に沿ってＰＡＴ１からＰＡＴ５まで移動し、次いでＰＡＴ６に戻る。速度及び／又は加速は、いつでもＰＯＩについてフレームからフレームで計算される特性であるので、速度ベクトルＶ１のみが図１６に示される。

「ポインティング」ジェスチャは、それが関連付けられたＲＯＩの次元に少なくとも関するＰＯＩの相対的位置に対応する。そのＰＯＩは、マスタＰＯＩ又は次のＰＯＩでもよい。

さらなるジェスチャは、ＰＯＩが少なくとも所定の継続期間中、対応するＲＯＩ内の所定の位置にとどまる、「静止」である。

概して、ジェスチャは、連続的基準シード・ポイント間での基本的幾何学的、時間的及びＰＯＩ軌道特性を計算することによって検出され、各基準シード・ポイントは、前述のように、異なる種類の軌道特性が検出された位置である。ジェスチャはまた、基準シード・ポイント順序付け分析を使用して判定される。

図１７は、ユーザ・インターフェース・ナビゲーション・システムの流れ図１７００である。本システムは、２つのモード、すなわち、ボックス１７２０によって示すようなパッシブ制御モードとボックス１７６０によって示すようなアクティブ制御モードで動作することができる。入力データ、ボックス１７１０は、図示するようにパッシブ及びアクティブ制御モードの両方で使用され、その入力データは、動き検出、ユーザ識別、ユーザ局所化及びＰＯＩ検出モジュール１７２５と、ジェスチャ制御、音声制御及びハードウェア制御モジュール１７６５とについての入力を形成する。

パッシブ制御モードでは、入力データ及びステップ１７２５でのプロセスが、本システムをアクティブ制御モードにする事象として何らトリガされない場合、ナビゲーション・システムは、スタンバイ・モード、ボックス１７３０で動作することができる。三次元シーン文脈解析器モジュール１７３５は、本システムがアクティブ化されるかスタンバイ・モードにとどまるかを判定することができる。モジュール１７３５は、典型的には「スタンバイ・モードを継続する、又はそれに切り替える」、或いは「アクティブ化されたモードを継続する、又はそれに切り替える」、入力制御をモジュール１７２５から受信する。たとえば、部屋に入るユーザは、カメラの視界にも入ることができ（ステップ１７２５）で識別されることになる動きを生成することができる。識別された動きは、実際に、本システムのアクティブ化されたモードの文脈メニュ及び／又は文脈アプリケーション・モジュール１７７０と対話するモジュール１７３５内の三次元シーン文脈解析器を経由して、スタンバイ・モードにあったナビゲーション・システムをアクティブ化されるモードに切り替えることを要求する。たとえば、アクティブ化されたモードに切り替えるとき、本システムは、グラフィカル・マルチメディア・インターフェースの画面メイン・メニュを画面上に表示することができる。モジュール１７７０は、順に、文脈ユーザ制御モジュール１７７５と対話する。モジュール１７７５が、典型的にはＧＵＩと対話することを許される自然なジェスチャ制御である入力制御の信号をモジュール１７６５から受信する。文脈メニュ及び／又は文脈アプリケーション・モジュール１７７０は、様々な形態をとることができ、ユーザのためのインターフェース・フィードバックを提供する。たとえば、アニメーションの人物が、使用されて、文脈メニュ及び／又は文脈アプリケーション・モジュール１７７０と対話するために必要とされるジェスチャを指示することができる。

図１８は、図１７のモジュール１７７０によって立ち上げられた文脈アプリケーションでもよい、仮想キーボード・メイン・フレーム１８００を示す。メイン・フレーム１８００は、事前選択エリア１８１０、選択エリア１８２０、選択シーケンス・ビュー・エリア１８３０、及び提案エリア１８４０を含む。事前選択エリア１８１０は、ユーザによって選択されることになる様々なカテゴリ内にアイコン又は要素が置かれた副事前選択エリア１８１２、１８１４、…、１８１８を含む。典型的には、その要素は、文字の性質に従ってグループ化される。選択エリア１８２０は、事前選択エリア内でユーザによって選択された個々のカテゴリに関連するアイコン又は要素の選択がその中に置かれるｎ副選択エリア１８２２、１８２４、…、１８２８を含む。選択シーケンス・ビュー・エリア１８３０には、ユーザによって行われた選択が表示される。提案エリア１８４０は、選択されたシーケンス・ビュー・エリア１８３０に置かれた最後に選択されたシーケンスについて、提案がユーザに出されるｎ副提案エリア１８４２、１８４４、…、１８４８を含む。仮想キーボードの実装形態が、図１９に示される。

図１９では、仮想キーボード１９００の特定の配置が示される。キーボード１９００は、文字のグループが表示されるエリア１９１０を含む。文字１９１２、１９１４、１９１６、１９１８、１９２０、１９２２の各グループは、個々に選択可能であり、文字のグループの数は変化し得る。エリア１９１０の左手側には、エリア１９３０が、中央事前選択エリア１９１０内に数字を表示可能にするために提供され、エリア１９１０の右手側には、特殊文字のためのエリア１９４０が提供される。エリア１９１０、１９３０及び１９４０は、図１８を参照して前述した事前選択エリア１８１２、１８１４、…、１８１８に対応する。

エリア１９５０は、図１８の選択エリア１８２０に対応し、選択のオプションとして文字Ｋ、Ｌ、Ｍ、Ｎ、Ｏでここでは示され、各文字Ｋは副選択エリア１８２２、１８２４、…、１８２８（図１８）のうちの１つに対応する。エリア１９６０は、図１８の選択シーケンス・ビュー・エリア１８３０に対応し、エリア１９７０は、副提案エリア１８４２、１８４４、…、１８４８に対応するエリア１９７２、１９７４、１９７６、１９７８、１９８０を有する提案エリア１８４０に対応する。文字の数は、何らかの所定の規則に従って変わり得ることが、理解されよう。

図１９では、エリア１９１６が、選択されて選択エリア１９５０内に文字Ｋ、Ｌ、Ｍ、Ｎ、Ｏを提供する。文字Ｋは、選択され、選択シーケンス・ビュー・エリア１９６０内に存在する。文字Ｋが選択されたとき、様々なオプションが提案エリア１９７０内で提案される。別の文字が、選択エリア１９５０内の現在の文字、又は事前選択エリア１９１０から選択された文字の新しいセットのいずれかから選択され、選択エリア１９５０内に存在するとき、提案エリア１９７０内の提案がそれに応じて更新されることになる。

数字エリア１９３０又は特殊文字エリア１９４０が選択された場合、数字又は特殊文字が選択のための選択エリア１９５０（図示せず）内に表示されることになることが理解されよう。

英数字及び特殊文字を有するキーボードが図１９に示されるが、キーボードは、それらの英数字及び特殊文字の代わりに又はそれらに加えて他の記号若しくは文字を有し得ることが、理解されよう。

前述の個々の実施例では、実行されるべき必要なジェスチャは自然で、直観的で、苦痛がないので、ユーザ体験が改善される。たとえば、１９３０又は１９４０の副事前選択にジェスチャ制御されたポインタの位置を合わせることで、自動的に１９１０のビューを更新し、次いで１９７０の副事前選択に位置を合わせることで、１９５０のビューを自動的に更新し、次いで、１９５０の副選択に位置を合わせることで、自動的に選択ビュー１９６０を更新する。同様に、ポインタを使用したスクロールダウン、及び任意選択で提案要素１９７０のうちの１つをポイントするとき、そのような仮想キーボードの使用は、単一のジェスチャ（すなわち、ポインティング）が実行されること、及びユーザによって実行されるほぼ上下のみ（前後のみ）の動作を必要とする。

より効率的ではない一実施例では、要素事前選択若しくは選択又は提案妥当性検証が、タイマによって管理される所定の期間に亘って所定の要素をポイントすること、又は、所望の要素をポイントし、前述の「クリック」ジェスチャなどの少なくとも１つの他の自然なジェスチャを実行することによって、実行され得る。

図２０は、ＲＯＩ管理のための流れ図２０００を示している。ＲＯＩ候補のリスト及びＰＯＩ候補のリスト（すなわち、アクティブ化ジェスチャを行ったクラスタ）を含む入力２０１０が提供される。入力２０１０がチェックされて、許可された複数の対象領域が存在するかを判定する（ステップ２０２０）。１つのみのＲＯＩが許可される場合、そのとき本システムは、ＲＯＩが既に本システム内に存在するかをチェックする（ステップ２０３０）。ＲＯＩが既に存在しない場合、新しいＲＯＩが、少なくとも第１のＲＯＩ候補に基づいて作成され（ステップ２０４０）、その新しいＲＯＩについて関連マスタＰＯＩがセットされる（ステップ２０５０）。出力２０６０は、その場合、フラグを立てられたマスタＰＯＩを少なくとも潜在的に有する対象領域及び対象ポイントの精密化されたリストを含む。

複数対象領域が許可される場合、そのとき本システムは、許される対象領域の数及び各ＲＯＩの少なくとも次元を含む入力パラメータ２０１５を使用し、ＲＯＩ候補が有効であるかをチェックする（ステップ２０２５）。モジュール２０２５の入力パラメータ２０１５が満たされる場合、及び、ＲＯＩ候補が既存のものと重複しない場合、次いで、新しいＲＯＩが、少なくとも第１のＲＯＩ候補から作成される。関連マスタＰＯＩもまたセットされる（ステップ２０５０）。

加えて、単一のＲＯＩが許可され、既に存在する場合、次いで、チェックが行われて、そのＲＯＩ内のマスタＰＯＩの状態がアクティブであるかを判定する（ステップ２０３５）。マスタＰＯＩがアクティブでない場合、既存のＲＯＩは破棄することができ（ステップ２０４５）、新しいＲＯＩが、ＲＯＩ候補及びその関連マスタＰＯＩに関連して作成される（ステップ２０４０）。

図２１は、ＰＯＩ管理の流れ図２１００である。入力データ２１１０及び入力パラメータ２１２０が提供されて、マスタＰＯＩ（ステップ２１３０）及びスレーブＰＯＩ（ステップ２１４０）を管理する。典型的には、これに限定されないが、マスタＰＯＩは、アクティブ化ジェスチャを実行したものとしての及びＲＯＩが付加されたＰＯＩである。いくつかの他の実施例では、マスタＰＯＩ及びスレーブＰＯＩ状態は、何らかの所定の規則に従って交換され得る。たとえば、マスタＰＯＩが失われた場合、スレーブＰＯＩは、マスタＰＯＩの状態を取得することができる。ステップ２１３０及び２１４０の各々からの出力は、対象マスタ及びスレーブポイントを相互に関連付けるために使用され（ステップ２１５０）、この結果は、識別された対象ポイントの新しいリスト及び識別された対象領域の新しいリストを含む出力２１６０を提供することになる。対象マスタ及びスレーブポイントの相関関係は、もはやアクティブではない又は有用ではない対象ポイントを非アクティブ化することを含み得る。

図２２は、ＰＯＩ管理プロセスの流れ図２２００を示している。入力データ２２１０、すなわちＰＯＩが、ＰＯＩ状態分析プロセス２２２０に適用され、この場合、出力は、ＰＯＩ紛失２２２５、ＰＯＩアクティブ２２３０又はＰＯＩパッシブ２２３５のいずれかである。これらの出力は、たとえばいくつかのタイマ値に関して含む入力パラメータ２２１５とともにＰＯＩ特性分析プロセス２２４０に適用される。特性分析２２４０は、タイマ（現在の状態での時間の長さ）、位置、末端、及びＰＯＩがマスタ又はスレーブかどうかなどの特性を評価する。特性分析２２４０から、以下の出力のうちの１つ又は複数が提供される：更新ＰＯＩ状態２２５０、バックドア管理２２６０、更新ＰＯＩ位置２２７０、ＰＯＩマスタ／スレーブ相関関係２２８０、及びＰＯＩブラック・リスト２２９０。ＰＯＩブラック・リストは、個々のＲＯＩにおいて使用可能ではない対象ポイントの識別を含むリストである。たとえば、別のＲＯＩを出たＰＯＩは、非アクティブ化され、次いでブラック・リストに入れることができる。そのようなＰＯＩは、それが所定の継続期間の後に他方のＲＯＩから分離した場合に、そのブラック・リストから外すことができ、次いで、それが現在のＲＯＩに関連するパラメータを満たす場合に、現在のＲＯＩと潜在的に関連付けられ得る。

図２３では、ＲＯＩ及び対象ポイントの表現２３００が示される。表現２３００では、ユーザ２３１０である人の表現が提供され、その上に２つの対象ポイント２３２０及び２３３０がＲＯＩ２３４０内に示される。典型的には、対象ポイントは、これに限定されないが、人間について、手の表現である。ＲＯＩ２３４０は、対象ポイント２３２０、２３３０の両方を包含する三次元空間内に点で描かれたボックスとして示される。これらの対象ポイントの各々は、重心に対応し、そのシーンの対応するクラスタ化された画像の領域隣接グラフの三次元末端に置かれ、この場合には、手は、腕の端部に位置するので、人体の末端である。１つのＰＯＩ、ＰＯＩ２３２０が、マスタＰＯＩとして選択され、他方のＰＯＩ、ＰＯＩ２３３０はスレーブＰＯＩである。この特定の実施例では、マスタＰＯＩ及びスレーブＰＯＩの両方が、制御ジェスチャ、たとえば、選択、妥当性検証などのために使用され得る。

アクティブ化及び制御ジェスチャ・インターフェース・フィードバックが、図２４に示される。図２４（ａ）は、「ウェーブ」ジェスチャを示す手の周期的に振動する動作２４２０を有するユーザのユーザ／コントローラ表現２４１０を示す。同様に、図２４（ｂ）では、ユーザ／コントローラ表現２４１０が、「円形」ジェスチャを示す手の円形の動作２４３０とともに示される。ユーザ／コントローラ表現２４１０は、図２４（ａ）及び（ｂ）に示されるものに限定されないが、ユーザによって容易に認識されることになる任意の適切な形で表され得る。

図２４（ａ）及び（ｂ）に示すようなユーザ／コントローラ表現を、典型的には、フィードバック情報として使用して、どのジェスチャが本発明によるユーザ・インターフェースとのユーザの対話中の特定の時間に必要とされるかをユーザに指示することができる。

図２５は、ユーザとの対話（図示せず）に続くインターフェース要素フィードバック２５００の１つの非限定的実施例を示す。省略時制御要素表現又はアイコンが２５１０に示される。アイコン２５１０とのユーザ対話中及び／又はその後、本アイコンは、以下のうちの１つとして表示され得る：２５２０に示すような周囲の変化、２５３０に示すような形の変化、２５４０に示すような内容の変化、２５５０に示すような現状維持、２５６０に示すような位置及び向きの変化、又は２５７０に示すような形、周囲及び内容の変化などの変化の組合せ。

図２６は、本発明によるインターフェース要素フィードバック・プロセス２６００の第１の好ましい実施例を示す。手の形で、システムとの対話を制御するＰＯＩの表現２６１０が示される。その上に「アイコン」を有する円形のボタンの形でグラフィカル・ユーザ・インターフェース（ＧＵＩ）制御要素表現２６２０もまた示される。「アイコン」は、何が必要とされているか、又はどの対話とその対応する要素が関連付けられているかをユーザが理解できるようにする任意の他の適切な標章、専門用語、又は色と置換え可能であることが理解されよう。たとえば、「アイコン」は、「ゲーム開始」と置き換えることができる。ボタン２６２０が選択されるとき、その外見が変化し、たとえば、そのボタンは、ユーザとそのボタンの対話の状態の指示として、図示するように埋められる又は強調表示される。これは、それが所望の動作及び／又は選択を開始する位置２６６０に到達するまで、２６３０、２６４０、２６５０で進行的に示される。ボタンが、そのボタンのアクティブ化を指示する正しい外見に達した後は、ユーザは、２６７０に示すようにそれを解除する若しくは非選択状態にすることができ、又はユーザ・インターフェースの新しい表現での対話を直接開始することができる。対話がユーザ・インターフェース要素変化を起こさない場合、本ボタンは、次のアクティブ化の準備を整えてその最初の外見に戻ることができる。

図２７は、本発明による別の好ましいインターフェース要素フィードバック・プロセス２７００を示す。インターフェース要素フィードバック２７００は、前述の図２６を参照して説明したフィードバック・プロセスと同じ方法で動作する。この場合、ボタン２７２０が選択されるとき、その外見は変化するが、今度は、所望の動作及び／又は選択が開始されるまで、ユーザとボタンの対話の状態の指示として、２７４０、２７５０、２７６０に示すように、時間に対する段階で、輪の形のアニメーション２７３０が形成される。ボタンがそのボタンのアクティブ化を指示する正しい外見に達した後は、対応する要素に関連する制御がグラフィカル・ユーザ・インターフェースの変更を行った場合に、ユーザは、２７４０に示すようにそれを解除又は非選択状態にする、或いは、別のインターフェースとの対話を開始することができる。本ボタンは、グラフィカル・ユーザ・インターフェースが変化しない場合には、次のアクティブ化の準備を整えてその最初の外見に戻ることができる。

インターフェース・ユーザ表現フィードバックはまた、インターフェース要素フィードバックについて図２５を参照して説明したのと同様の方法で提供され得る。ユーザの表現が、対話状態に従って変化するものとして示される。この対話状態は、メニュ要素で又はユーザ・ジェスチャ制御で文脈的に定義され得る。たとえば、カーソル／ポインタ表現は、その可用性、その状態（活動状態若しくは非活動状態）、その位置（指定されたＲＯＩ内若しくはその指定されたＲＯＩの外）、又はその対話状態（文脈インターフェース制御要素と対話する、若しくは対話しない）に従って変化し得る。前述のように、要素とのユーザ対話中及び／又はその後に、その要素は、以下のうちの１つとして表示され得る：周囲の変化、形の変化、内容の変化、現状維持、位置及び向きの変化、又は形、周囲及び内容の変化などの変化の組合せ。追加として、図２６及び図２７を参照して説明された実施例もまた、ユーザ・インターフェース表現フィードバックのために実装され得る。

さらに、カーソルの向きは、動作の方向に従って変化し得る。たとえば、カーソルは、前述のように手によって表すことができ、手の表現は、時間に対して開いたままであり、要素がインターフェース内で選択／確認／つかまれたときにのみ、手が閉じられた表現に変化する。

図２８は、流れ図２８００の形でインターフェース制御後対話プロセスを示す。図２８００では、ジェスチャ認識に基づく制御プロセス２８２０への入力を提供する第１のインターフェース状態２８１０が示される。このプロセスは、第２のインターフェース状態の出力２８４０として提供する制御後ジェスチャに基づく妥当性検証プロセス２８３０への入力を提供する。

このプロセスは、ジェスチャ制御妥当性検証プロセスを導入するための説明である。ジェスチャ制御妥当性検証プロセスの目的は、望まない制御／命令／動作を実行する、さらなるジェスチャ又は誤ったジェスチャを防ぐために、単純な制御後対話で実行され認識されたジェスチャ制御を確認することである。たとえば、ユーザは、映画を見ながら、円形ジェスチャを実行することができ、円形ジェスチャは、システムのメイン・メニュを画面上に出現させるシステムのプロセスに関連付けられる。制御後プロセスは、ユーザが確かに映画を終了させて、メイン・メニュにアクセスしたいのかをそのユーザに尋ねる「はい／いいえ」妥当性検証ボックスを出現させることができる。「はい」／「いいえ」妥当性検証ボックスを使用するために、制御後は、別の自然なジェスチャ制御、たとえば、「はい」を示す右スワイプ及び「いいえ」を示す左スワイプを使用する入力を必要とする。さらに、別の実施例では、この妥当性検証ボックスの制御は、ジェスチャを実行するＰＯＩが所定の期間に亘って所定の位置に維持される場合にのみ、アクティブ化され得る。妥当性検証インターフェースは、次いで、アクティブ化された制御に従ってその外見を変更することができ、たとえば、本インターフェースは、妥当性検証インターフェースが使用の準備ができ得た後には、赤から緑に変わることができる。

追加として、本発明の方法及びシステムは、以下の利点を有する：
（ｉ）取込みデバイス入力データへのスケーラビリティ、すなわち、任意の解像度の画像に対応、
（ｉｉ）実時間クロスプラットフォーム動作、すなわち、任意のハードウェア及び／又はオペレーティング・システムに対応、
（ｉｉｉ）事前のユーザ／物体検出及び／又は識別を必要としない、
（ｉｖ）事前のユーザ部分／物体部分検出及び／又は識別を必要としない、
（ｖ）ジェスチャ分類子を必要としない、
（ｖｉ）多重コントローラが許可され得る、すなわち、複数ＲＯＩ及び／又は複数ユーザ／物体、
（ｖｉｉ）多重ＰＯＩが許可され得る、すなわち、いくつかのＰＯＩが各単一のＲＯＩ内で許可される、
（ｖｉｉｉ）特定の追跡／動き推定アルゴリズムを必要としない、
（ｉｘ）最小限の身体的努力インターフェース、すなわち、インターフェースレイアウト編成での改良されたユーザ体験、
（ｘ）直観的及び効率的なインターフェース、すなわち、制御のための少しの自然なジェスチャの使用、並びに、
（ｘｉ）インターフェースからのインテリジェント文脈情報フィードバック。

本発明のユーザ・インターフェースが個々の実施例に関して説明されたが、本発明は他の実施例を使用して実装可能であることが理解されよう。

Claims

ユーザ・インターフェース・システムが接続されたコンピュータ化されたシステムとユーザとの対話を提供するユーザ・インターフェース・システムであって、
少なくとも１つの多次元の画像化システムであって、シーンの少なくとも１つの多次元の表現を、前記少なくとも１つの多次元の画像化システムの視界内に形成する、前記少なくとも１つの多次元の画像化システムと、
前記多次元の表現において多次元の制約付きクラスタリング動作を実行して、前記シーンのクラスタ化された表現を生成し、該クラスタ化された表現から対象ポイント候補を識別するように動作する、前記少なくとも１つの多次元の画像化システムに接続されたプロセッサであって、各対象ポイント候補は、前記クラスタ化された表現内で、他の１つのクラスタのみに接続されたクラスタであって、コヒーレントな動きを示す前記クラスタとして識別される、前記プロセッサと、
前記少なくとも１つの多次元の画像化システムおよび前記プロセッサに接続され、前記少なくとも１つの多次元の画像化システムの視界内の少なくとも１つの対象ポイント候補によって実行されたジェスチャを認識し、認識されたジェスチャを用いて前記コンピュータ化されたシステムを制御する、ジェスチャ認識システムと、
を含む、前記ユーザ・インターフェース・システム。
前記ジェスチャ認識システムは、アクティブ化ジェスチャ検出器を含み、該アクティブ化ジェスチャ検出器は、少なくとも連続的軌道分析を使用して、
少なくとも１つの識別された対象ポイント候補の軌道に沿って軌道ポイントを識別し、
基準シード識別オーダを有する少なくとも１つの基準シード・ポイントを形成する少なくとも１つの多次元の変化を、前記少なくとも１つの識別された対象ポイント候補の軌道方向で識別し、
前記基準シード・ポイント及び前記軌道ポイントを使用してジェスチャを認識する、請求項１に記載のユーザ・インターフェース・システム。
少なくとも前記基準シード・ポイントを記憶するメモリを更に含む、請求項２に記載のユーザ・インターフェース・システム。
前記アクティブ化ジェスチャ検出器は、少なくとも１つの所定の対象ポイント候補によって実行された所定のジェスチャを認識し、各所定の対象ポイント候補をアクティブ化する信号を前記プロセッサに提供する、請求項２又は３に記載のユーザ・インターフェース・システム。
前記プロセッサは、前記ジェスチャ認識システムから受信した前記信号に基づいて、アクティブ化された対象ポイントとして対象ポイント候補をアクティブ化し、各アクティブ化された対象ポイントが対象ポイント候補状態をなお有する、請求項４に記載のユーザ・インターフェース・システム。
前記アクティブ化された対象ポイントを管理する対象ポイント（ＰＯＩ）マネージャを更に含む、請求項５に記載のユーザ・インターフェース・システム。
前記ジェスチャ認識システムは、前記アクティブ化された対象ポイントの前記軌道ポイント及びシード・ポイントの少なくともいずれか１つを分析して、前記コンピュータ化されたシステムを制御するジェスチャを判定する、請求項６に記載のユーザ・インターフェース・システム。
前記プロセッサは、各アクティブ化された対象ポイントに関連する対象領域を判定する、請求項５から７までのいずれか一項に記載のユーザ・インターフェース・システム。
各アクティブ化された対象ポイントに関連する前記対象領域を管理する、対象領域（ＲＯＩ）マネージャを更に含む、請求項７に記載のユーザ・インターフェース・システム。
前記ジェスチャ認識システムは、対象領域内に配置された、複数のアクティブ化された対象ポイントから前記コンピュータ化されたシステムを制御するためのジェスチャを判定する、請求項５から９までのいずれか一項に記載のユーザ・インターフェース・システム。
アクティブ化された対象ポイントが前記コンピュータ化されたシステムを制御するように対話可能なグラフィカル・ユーザ・インターフェースを更に含む、請求項５から１０までのいずれか一項に記載のユーザ・インターフェース・システム。
前記グラフィカル・ユーザ・インターフェースは、最小限の自然なジェスチャのみを使用して選択するための要素の所定の配置を有する、請求項１１に記載のユーザ・インターフェース・システム。
前記プロセッサが、対象ポイント候補を判定するための隣接グラフ・ビルダを更に含む、請求項１から１２までのいずれか一項に記載のユーザ・インターフェース・システム。
視覚的フィードバックを提供するディスプレイを更に含む、請求項１から１３までのいずれか一項に記載のユーザ・インターフェース・システム。
音声フィードバック・システムを更に含む、請求項１から１４までのいずれか一項に記載のユーザ・インターフェース・システム。
前記多次元の画像化システムは、三次元画像化システムを含む、請求項１から１５までのいずれか一項に記載のユーザ・インターフェース・システム。