JP6571108B2

JP6571108B2 - モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム

Info

Publication number: JP6571108B2
Application number: JP2016562725A
Authority: JP
Inventors: ユセフィシャホーズ; リハイボ; アベダンコンドリファリード
Original assignee: マノモーションアーベー
Priority date: 2014-01-05
Filing date: 2014-12-22
Publication date: 2019-09-04
Anticipated expiration: 2034-12-22
Also published as: KR20160129000A; JP2017505965A; CN106030610A; EP3090382A1; WO2015102527A1; EP3090382B1; US20160334877A1; KR102285915B1; US10108270B2; CN106030610B

Description

本開示はジェスチャ認識に関し、より具体的には、三次元ジェスチャを認識する機器及び方法に関する。

人間の手は、２７の自由度（ＤｏＦ：degree of freedom）を有する。つまり、伸縮と屈曲のために３つ、及び外転と内転のために１つで、各指に４つの自由度がある。親指は更に複雑であって、５つの自由度を有する。手首の回転及び並進のためには、６つの自由度が残されている。手指の動きをビデオシーケンスでキャプチャすることは、手のキネマティクスにおいて極めて多数の自由度が存在するため、高度に挑戦的な課題である。こうした過程は、手で持つスマート機器においては、電力が限られ、かつ計算コストが高いため、更により複雑になる。

基本的に、一般的に存在する解決策においては、図１に示すステップに従う。センサによりキャプチャされた画像シークエンスは、ユーザの手／指をセグメント化すべく、分析される。背景除去、分類、特徴検出等の画像分析アルゴリズムは、手／指を検出するために使用される。実際には、手の追跡及びジェスチャ認識のために存在するアルゴリズムは、２つのカテゴリーにグループ分け可能である。つまり、外観に基づくアプローチと三次元ハンドモデルに基づくアプローチ（米国特許出願公開第２０１００５３１５１Ａ１号明細書、米国特許出願公開第２０１０１５９９８１Ａ１号明細書、国際公開第２０１２１３５５４５Ａ１号パンフレット、及び米国特許出願公開第２０１２０６２５５８Ａ１号明細書）である。前者は、手のジェスチャを、二次元画像特徴と直接に比較することに基づいている。人間のジェスチャを検出するのに使用される、定評のある画像特徴には、手の色及び形状、局所的な手の特徴等が含まれる。特徴に基づくアプローチの欠点は、手の特徴を抽出するために、一般的には、鮮明な画像セグメンテーションが要求されることである。これは、例えばクラッタ背景の場合には簡単な課題ではない。さらに、人間の手は関節により高度に結ばれており、自己遮蔽のために、局所的な手の特徴を見出すことが困難であることが多く、多種多様な手のジェスチャを処理するには、ある種のヒューリスティックスが必要である。手を直接に表示するために、二次元画像特徴を使用するのに替えて、三次元ハンドモデルに基づくアプローチにおいては、ハンドポーズをレンダリングするために、三次元キネマティックハンドモデルを使用する。合成による分析（ＡＢＳ：Analysis-by-synthesis）戦略を使用して、手の動きのパラメータを回復するために、三次元ハンドモデルによって投影された外観を、カメラからの観察画像に位置合わせする。一般に、二次元画像特徴がより単純であるために、外観に基づくアプローチによってリアルタイムに実行する方が、より容易である。しかしながらこの種のアプローチが処理可能なのは、指先の検出や追跡というような単純な手のジェスチャのみである。それとは対照的に、三次元ハンドモデルに基づくアプローチによっては豊かな描写が提供され、潜在的に、広範なクラスの手のジェスチャを扱うことが可能である。主たる挑戦的課題は、三次元の手が、２７の自由度を有する複雑なモデルだということである。従って、手の画像の全ての特徴を異なる視野で網羅するためには、極めて大きいデータベースが必要となる。ビデオ入力からのクエリ画像を、データベース内の全ての手の画像とマッチングするのは、時間がかかり、かつ計算コストも高い。こうしたことから、三次元ハンドモデルに基づく既存のアプローチの多くは、照明及び背景状態を制限しつつ、汎用的な手の動きをリアルタイムで追跡することに注力している。

米国特許出願公開第２０１００５３１５１Ａ１号明細書米国特許出願公開第２０１０１５９９８１Ａ１号明細書国際公開第２０１２１３５５４５Ａ１号パンフレット米国特許出願公開第２０１２０６２５５８Ａ１号明細書

課題は、上記に概略的に述べた問題のいくつかに対処し、及びリアルタイムのジェスチャ認識を計算的に効率化する解決策を提供することである。この課題等は、独立請求項に記載の方法及び装置、ならびに従属請求項に記載の実施形態により解決される。

第１の態様により、三次元ジェスチャのリアルタイム認識方法が提供される。方法は、ジェスチャ画像のデータベースへのアクセスを有する機器において実行する。機器は、三次元ジェスチャの画像をキャプチャするよう構成されたセンサと通信する。ジェスチャ画像のデータベースは、正規化されたジェスチャ画像の、インデクス可能な特徴を備える。インデクス可能な特徴は、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。方法は、センサを介して三次元ジェスチャの画像をキャプチャするステップ、及びキャプチャされた画像を、データベースの正規化されたジェスチャ画像に従って正規化するステップを含む。方法はまた、キャプチャされ、正規化された画像からインデクス可能な特徴を得るステップを含む。インデクス可能な特徴は、キャプチャされ、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。方法は更に、得られたインデクス可能な特徴を、データベースのインデクス可能な特徴と、相似機能を使用して比較するステップ、及びデータベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定するステップを含む。

第２の態様により、三次元ジェスチャを認識する機器が提供される。機器は、正規化されたジェスチャ画像の、インデクス可能な特徴を備えるジェスチャ画像のデータベースへのアクセスを有するよう構成される。インデクス可能な特徴は、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。機器は、三次元ジェスチャの画像をキャプチャするよう構成されたセンサに接続可能である。機器は、処理ユニットを備える。処理ユニットは、センサを介して三次元ジェスチャの画像をキャプチャし、キャプチャされた画像を、データベースの正規化されたジェスチャ画像に従って正規化し、及びキャプチャされ、正規化された画像から、インデクス可能な特徴を得るよう構成される。インデクス可能な特徴は、キャプチャされ、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。処理ユニットはまた、得られたインデクス可能な特徴を、データベースのインデクス可能な特徴と、相似機能を使用して比較するよう構成される。さらに処理ユニットは、データベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定するよう構成される。

実施形態の効果により、高解像度のジェスチャ認識を、計算的なリソースを低減しつつ、リアルタイムで可能である。

実施形態に関する、他の目的、効果及び特徴は、別添の図面及び請求項に関連する考察において、以下に詳述される。

従来技術によるジェスチャ追跡及び認識方法を示す、概略的なフローチャートである。本発明の実施形態による、モバイルプラットフォームにおける三次元ユーザインタフェースシステムの概略図である。本発明の実施形態による、ウエアラブル機器を使用した三次元ユーザインタフェースの概略図である。本発明の実施形態による、固定プラットフォームにおける三次元ユーザインタフェースの概略図である。本発明の実施形態による方法及びシステムの概略図である。本発明の実施形態による、ジェスチャエントリーのデータベースへの記憶方法を示す、概略的なフローチャートである。本発明の実施形態による、ジェスチャエントリーを検索し、クエリ入力に対するマッチを見出す方法を示す、概略的なフローチャートである。本発明の実施形態による、画像クエリの処理方法を示す概略的なフローチャートである。本発明の実施形態による、インタフェースレベルの方法を示す、概略図である。本発明の実施形態による、図２Ａに示すモバイル機器２０の概略図である。本発明の実施形態による、図２Ｂに示すウエアラブル機器２０の概略図である。本発明の実施形態による、図２Ｃに示す固定機器２０の概略図である。本発明の実施形態による機器が実行する方法を概略的に示す、フローチャートである。本発明の実施形態による機器が実行する方法を概略的に示す、フローチャートである。本発明の実施形態による機器の概略図である。

人間と未来のモバイル機器の間のインタラクションを設計する上で、三次元ジェスチャ認識は、要求度合いが極めて高い特徴である。具体的には、仮想現実環境又は拡張現実環境において、物質世界との直感的なインタラクションが不可避であり、及び三次元ジェスチャによるインタラクションは、軌道パッド及びタッチスクリーンのような現在の入力装置に対して、最も効果的な代替装置となり得るだろう。本発明の実施形態において、三次元ジェスチャ認識及び追跡のための解決策が提供される。提供される方法論及びシステムは、極めて大きいジェスチャデータベースにおいて、マッチを見出すことに基づくものである。このデータベースは、回転及び位置において可能な全てのバリエーションと、対応する位置／方向パラメータを含む、多様な種類の手のジェスチャをキャプチャしたエントリーを含む。クエリ入力とデータベースエントリーの間の属性に関して、相似分析を行なう。システムは、取得されたクエリ入力に対して、データベースエントリーと注釈付情報を含む、マッチをリトリーブする。

大量の電力、計算及びメモリを必要とする古典的なコンピュータビジョンアプローチと異なり、新たなフレームワークは、同一の問題ではあるが、それを全く異なるアプローチを使用して解決するよう定義される。提案される技術は、例えば自由度の高い複雑な手の動きを、大規模検索フレームワークによって処理可能である。一方で現在の技術は、低解像度のジェスチャ認識及び追跡に限定される。

一般的なモバイル機器へ適用するには、手のジェスチャ／体のジェスチャの全ての範囲をカバーする必要がある、人間のジェスチャが存在する高次元空間を包括的に検索するという挑戦的な問題を処理するために、ジェスチャ画像を大規模に検索するための、効果的なインデキシングアルゴリズムを提案する。開示するシステムの利点は、自由度の高い手の動きを、多様な照明条件においてノイズやクラッタの存在を許容しつつ処理可能な、膨大な個数のデータベース画像を、極めて迅速にリトリーブ可能なことである。解決策は、リアルタイム、低複雑性及び頑強性を有すると同時に、高解像度での追跡と精度を有する等の、モバイル機器への適用に関する特殊要件に対して適合している。

本発明の実施形態により、ビジョンセンサ、又はモバイルカメラ、ウェブカメラ、深度センサ又は超音波センサのような他のタイプのセンサを装備した、任意のモバイル機器、ウエアラブル機器、又は固定機器によっても、例えば手、頭又は体のジェスチャといった人間のジェスチャを、三次元空間において決定可能、又は認識可能である。ジェスチャ追跡は、クエリ入力のシークエンスにおいて決定又は認識されたジェスチャを使用して実行する。認識及び追跡は、注釈付ジェスチャエントリーの極めて大きいデータベース（ＤＢ）を検索する、高度な検索システムに基づいている。データベースは、三次元空間における全ての変形とバリエーションを取り込んだ、可能な全ての手のジェスチャを含むものであり、それは数百万エントリーに対応するかもしれない。提案するシステムは常に、任意のクエリジェスチャに対して自動的にデータベースを検索し、ベストマッチをリトリーブする。この結果、リアルタイムの三次元ジェスチャ追跡が実行される。この技術により、直感的な三次元インタラクションを使用可能であろうリアルタイムの適用において、ユーザデバイスでのインタラクションが促進される。本発明の実施形態は、スマートフォン及び拡張現実メガネのような、モバイル機器／ウエアラブル機器でのインタラクションを補助するよう設計され、固定機器、モバイル機器及び他のデジタル機器に対しても使用可能である。

図３は、スマートフォン、モバイル機器、ウエアラブルスマート機器、固定システム及びデジタルガジェットに適用可能な方法論及びシステムを含む、本発明の実施形態を示す。図３の実施形態は、４つの主たる部品を含む。つまり、前処理済の注釈付及びインデクス付ジェスチャデータベース５０、クエリジェスチャを受信する、画像クエリ処理ユニット３０、クエリジェスチャを受信し、ジェスチャのデータベースから自動的にベストマッチをリトリーブする、リアルタイムのジェスチャ検索エンジン７０、そして最後に、検索エンジンからの出力を受信し、それを継続中のアプリケーションに適用する、インタフェースレベル９０である。必要とされるハードウエアのプラットフォームは、任意のデジタル機器とする。

（システムに関する説明）
図２Ａは、本発明の実施形態による、三次元ユーザインタフェースシステム２００Ａの概略図である。ユーザインタフェースは、任意の種類のセンサ３４（例えば二次元／三次元カメラ、超音波、三次元深度カメラ、ＩＲカメラ）を装備した、任意の種類（モバイル、固定型、ウエラブル等）のスマート機器２０に基づく。センサ３４は、機器２０の後ろ、正面、及び／又は機器２０の周囲の三次元シーン情報をキャプチャする。この三次元シーン情報は、人間であるユーザ１０の、例えば手、頭又は体のジェスチャであるジェスチャ３２を含む。このジェスチャ３２（手／頭／体のジェスチャ）を検出／認識すべく、スマート機器２０は、充分な解像度でジェスチャ画像をキャプチャし、ジェスチャ３２（手／頭／体のジェスチャ）、ならびにその特定の位置及び方向の抽出を可能にする。位置は、画像におけるジェスチャ中心（ｘ，ｙ）の空間的座標に、ジェスチャスケール（ｚ方向のセンサからの距離）を加えて表す。そして方向は、手のジェスチャの、センサの三次元座標（ｘ，ｙ，ｚ）に対する相対的な方向である。ジェスチャ３２（手／頭／体のジェスチャ）加え、キャプチャされた画像又はクエリ画像３３は通常、体の他の部分、及び／又はクラッタ背景を含む。

図２Ａにおいて、システム２００Ａは、ユーザのジェスチャ３２（手／頭／体のジェスチャ）を含むクエリ画像３３のシークエンスをキャプチャして処理する。ユーザ１０がジェスチャ３２（手／頭／体のジェスチャ）を実行する間、システム２００Ａはユーザのジェスチャ３２（手／頭／体のジェスチャ）を、クエリ画像３３のシークエンスに亘って追跡する。機器２０における処理ユニット２４上で動作するソフトウエア、及び／又はキャプチャリングセンサ３４は、画像シークエンスを処理し、各クエリ画像３３におけるユーザのジェスチャ３２の、インデクス可能な特徴３６をリトリーブする。詳細は以下に説明する。ソフトウエアは、クエリ画像３３に対するベストマッチを見出すために、抽出されたインデクス可能な特徴３６を、インデクス付特徴の大規模語彙テーブル７２とマッチさせる。詳細は以下に説明する。大規模語彙テーブルは、データベース画像からの、インデクス可能な特徴の大規模マトリクスである。

データベース５２は、手のジェスチャの数百万の画像から構成される。手のジェスチャの画像は、特定の三次元の動きのパラメータ（３つの位置及び３つの方向のパラメータ）５８を注釈付けされる。詳細は以下に説明する。クエリ入力３３に対して、データベース５２におけるベストの手のジェスチャを見出すことで、クエリ入力３３の三次元の動きのパラメータが供給される。

また図５の方法では、検索プロセスを最適化し、及びそのスピードを増すために、シークエンスにおける複数のフレームに亘ってジェスチャマップ７３を分析する。詳細は以下に説明する。

システムは、ユーザのジェスチャ３２をクエリ入力３３のシークエンスに亘って追跡する、モーション追跡機能をも含むため、図５の方法は任意に、各２つ（以上）のフレームにおいて、一度のみの実行としてもよい。

検出／認識された出力（アクション／ジェスチャ／三次元の動き、注釈付画像等）９２は、アプリケーションプログラミングインターフェイス（ＡＰＩ）を介して、機器２０上で動作するアプリケーションプログラムに供給される。このプログラムにより、ディスプレイ１００に提示された画像、三次元オブジェクト、又は他の二次元／三次元ビジュアルコンテンツ９４を、実行されたジェスチャ３２に反応して、例えば移動及び変更できる。

代替案として、これらの処理機能の全て、又はいくつかを、ゲーム機器、メディアプレーヤ、スマートテレビ等の、任意の他のコンピュータ化デバイスと一体化した適切なプロセッサにより実行してもよい。キャプチャセンサ３４（二次元／三次元カメラ、ＩＲセンサ、超音波等）を装備した任意のコンピュータ化装置、記憶ユニット２２及び処理ユニット２４は、上述の機能のうちの少なくともいくつかにおいて使用可能であり、より良好なユーザインタフェースシステムを供給可能である。

（ジェスチャ画像のデータベースの提供）
図４は、注釈付ジェスチャ画像のデータベース５２の、インデクス可能な特徴５４の形成方法５０を示すフローチャートである。データベースは、方向、位置及びスケーリングにおける全ての潜在的バリエーションを有する手のジェスチャエントリーの、異なる実像５６の大きなセットを含んでいる。データベースはまた、関節で結ばれた三次元ハンドモデル／三次元図形モデル等により合成し、既知の位置及び方向パラメータを有する、全ての手のジェスチャ図形５７を含む。

クエリ入力３３とデータベースの間のマッチングに加えて、達成すべき重要な特徴の一つは、クエリ入力３３から三次元の動きのパラメータ（三次元に対応する３つの位置及び３つの方向のパラメータ）をリトリーブすることである。クエリ入力３３は三次元の動きのパラメータ（３つの位置及び３つの方向のパラメータ）を含まないため、最善の解決策は、クエリ入力３３の三次元の動きのパラメータ（３つの位置及び３つの方向のパラメータ）を、データベースからリトリーブされたベストマッチと関連付けることである。このために、データベースエントリーに、そのグランドトゥルースな三次元の動きのパラメータ（３つの位置及び３つの方向のパラメータ）５８をタグ付けする。これは、ビジョンベースのシステム、磁気センサ、ＩＭＵ等、任意のモーションキャプチャシステムにより実行可能である。ジェスチャエントリーの他のソース５９もまた、データベースを拡張するために使用する。手のジェスチャ画像、注釈付ジェスチャ画像のデータベース５２に対して、三次元の動きのパラメータ（３つの位置及び３つの方向のパラメータ）のタグを形成する。注釈付ジェスチャ画像のデータベース５２における各エントリーは、純粋なジェスチャエントリー（背景及びノイズフリー）を表す。方法５０において、注釈付ジェスチャ画像のデータベース５２における各エントリーに対して、インデクス可能な特徴５４を抽出する。インデクス可能な特徴５４は、注釈付ジェスチャ画像のデータベース５２におけるエントリーから得られたエッジ画素の、正確な位置及び方向を含んだ低レベルのエッジ方向属性を含む。単一のエッジ画素の各々を、二次元画像座標における短線とみなした場合、エッジ画素の方向は、この短線の、画像座標の原点に対する角度となる。技術的には、エッジ画素の方向を、ｘ及びｙ方向に対する画像の傾斜から算出可能である。

インデクス可能な特徴５４を抽出するために、注釈付ジェスチャ画像のデータベース５２における全てのエントリーを正規化し、及びそれらのエントリーの対応するエッジ画像を計算する。エッジ画像は、ジェスチャ画像をフィルタリングすることで計算してよい。コンピュータヴィジョンの分野では、異なるエッジ検出器が知られており、それも同様に使用可能である。単一のエッジ画素の各々は、その位置及び方向によって表される。低レベルのエッジ方向特徴用の汎用的構成を作成するために、各々のエッジ特徴が起こりうる可能な全てのケースを表すよう、大規模語彙テーブル７２を形成する。データベース全体を、エッジの位置及び方向に関して考慮すると、大規模語彙テーブル７２は、ジェスチャの語彙全体をエッジ画素フォーマットで表現可能である。エッジ画素フォーマットは、その位置及び方向の観点から、エッジ画像の各画素を表す。

（画像クエリの処理）
図６は、画像クエリの処理方法３０を概略的に示すフローチャートである。クエリ入力３３は、ユーザ１０のジェスチャ３２（手／頭／体のジェスチャ）を、センサ３４（二次元／三次元カメラ、ＩＲセンサ、超音波等）によりキャプチャされた、ジェスチャ３２の特定の３つの位置及び３つの方向のパラメータで特徴付けする。センサ３４は、機器２０の後ろ、又は正面の三次元シーン情報をキャプチャする。スマート機器２０は、クエリ入力３３のシークエンスをキャプチャし、及びそれらを処理して、インデクス可能な特徴３６をリトリーブする。方法３０は、クエリ入力３３から、インデクス可能な特徴３６を抽出する。インデクス可能な特徴３６は、クエリ入力３３から得られたエッジ画素の、正確な位置及び方向を含む低レベルのエッジ方向属性を含む。

インデクス可能な特徴３６を抽出するために、クエリ入力３３を正規化し、及びそれらのエントリーの対応するエッジ画素を計算する。単一のエッジ画素の各々は、その位置及び方向によって表される。

基本的に、ユーザのジェスチャ３２（手／頭／体のジェスチャ）をキャプチャするクエリ入力３３は、無関係のオブジェクト、環境騒音等に起因するクラッタ背景を含んでいる。従って、クエリ入力３３からリトリーブしたインデクス可能な特徴３６は、ジェスチャ３２及びノイジーな背景からの、双方の特徴を含む。一方、注釈付ジェスチャ画像のデータベース５２における各エントリーは、純粋なジェスチャエントリー（背景及びノイズフリー）を表すため、注釈付ジェスチャ画像のデータベース５２における各エントリーからリトリーブしたインデクス可能な特徴５４は、純粋なジェスチャからの特徴のみを表す。従って、クエリ画像のエッジ画像は、データベース画像のエッジ画像のように正確には定義できない。

（ジェスチャ検索エンジン）
図５は、ジェスチャ検索エンジン７０の方法を示す。注釈付ジェスチャ画像のデータベース５２における各エントリーの、抽出されたインデクス可能な特徴５４は、インデクス可能な特徴７２の大規模語彙テーブル７２を、ジェスチャ検索エンジン７０において構築する。

インデクス付特徴の大規模語彙テーブル７２は、各エッジ特徴が起こりうる可能な全てのケースを表すよう形成する。データベース全体を、エッジの位置及び方向に関して考慮すると、大規模語彙テーブル７２は、ジェスチャの語彙全体をエッジ画素フォーマットで表現可能である。例えば、ｐ×ｑ画素の画像サイズ、及びＬエッジ方向表示、ジェスチャ画像Ｎのデータベースに対して、語彙テーブル７２は、ｐ×ｑ×Ｌコラム及びＮロウを有する。従って、語彙テーブル７２は、特定のロウ及びコラムにおける特徴を有する、全てのデータベース画像５２のインデクスで満たされている。語彙テーブル７２は、要求される情報を全データベース５２から収集するものであり、これはジェスチャ検索エンジン７０ための方法において、必須の機能である。

直接相似分析機能７５は、クエリ画像３３においてユーザのジェスチャ３２を検出／認識するために、大規模検索テーブル７２、及び各クエリ画像３３に対してリトリーブされたインデクス可能な特徴３６を用いて、注釈付ジェスチ画像のデータベース５２におけるトップｍ第１レベルのマッチを選択する。

エッジ画素フォーマットの各クエリ入力３３は、エッジポイントのセットを含む。エッジポイントのセットは、ロウ‐コラム位置及び特定の方向により表現可能である。直接相似機能分析７５は、クエリ入力３３に関して、リトリーブしたインデクス可能な特徴３６の相似性を、インデクス付特徴の大規模語彙テーブル７２を使用し、全てのエッジ特徴の位置及び特定の方向に基づいて計算する。直接相似分析機能は、対となったデータ値にスコアを割り当てる機能である。スコアは、クエリのインデクス付特徴の、データベースにおける各エントリーのインデクス付特徴に対する相似性を示す。もし、ある状態がクエリ入力３３においてリトリーブしたインデクス可能な特徴３６、及び注釈付ジェスチャ画像のデータベース５２においてリトリーブしたインデクス可能な特徴５４の双方に対して満たされた場合、直接相似分析機能７５は、＋Ｋ１ポイントを、そうした特定のロウ‐コラムポイントにおいて類似の方向を有するエッジを持つ、全てのデータベース画像５２に対して割り当てる。直接相似分析機能７５は、クエリ入力３３の単一のエッジ画素フォーマットの各々に対して、上記のプロセスを実行する。

直接相似分析機能７５の第１ステップは、クエリ入力３３及びデータベース画像５２からの２つのエッジパターンが、互いに正確に重なり合ったケースを満たすものである。一方、実際の多くのケースでは、２つの類似したパターンは、位置においては互いに極めて近いが、これらパターンの間の重複は大きくない。直接相似分析機能７５は、通常起こるこうしたケースに対して、第１及び第２レベルの近接画素に基づいてエクストラポイントを割り当てる。

極めて蓋然性が高いのは、２つの極めて類似したパターンが、重なり合いはしないが、互いに近接する画素に該当するケースである。これらのケースについて考慮するために、直接相似分析機能７５の第１ステップの他に、任意の単一画素に対して、データベース画像における第１レベルの８近接画素及び第２レベルの１６近接画素をも考慮し、エクストラポイントを割り当てるべきである。任意の単一画素の第１レベルの８近接画素とは、単一画素を包囲する画素である。第２レベルの近接画素は、第１レベルの８近接画素を包囲する１６画素を含む。第１レベル及び第２レベルの近接画素のうち、類似の方向を有するエッジを持つ全てのデータベース画像５２は、各々＋Ｋ２及び＋Ｋ３ポイントを受け取る（Ｋ１＞Ｋ２＞Ｋ３）。要するに、データベース画像の類似性に関して、重みの異なる３つのレベルで、クエリにおける全てのエッジ画素に対して直接相似分析７５を実行するのである。最後に、各データベース画像の蓄積されたスコアを計算及び正規化し、そして最高スコアを、トップｍ第１レベルのマッチとして選択する。

トップｍ第１レベルのマッチのうちで最も近いマッチを見出すために、逆相似分析７６を実行する。逆相似分析７６とは、注釈付ジェスチャ画像のデータベース５２のエントリーに対して、クエリジェスチャ３２の相似性を見出すことの他に、注釈付ジェスチャ画像のデータベース５２において選択したトップｍエントリーの、クエリジェスチャ３２に対する逆相似性を計算すべきであることを意味する。逆相似機能は、精度向上を理由として使用する。逆相似分析を使用しない場合、リトリーブの精度は低下するが、複雑性が低減される。

逆相似分析７６は、与えられたユーザのジェスチャ３２に対して、注釈付ジェスチャ画像のデータベース５２からベストｎマッチ（ｎ＜ｍ）を返す。直接相似分析７５及び逆相似分析７６の組み合わせは、クエリ入力３３に対して、注釈付ジェスチャ画像のデータベース５２からベストマッチを返すものである。

ジェスチャ検索エンジン７０における別の任意のステップは、ジェスチャ近接性分析機能７７を使用する、ジェスチャ検索のスムーズ度である。スムーズ度とは、三次元ジェスチャインタラクションのシークエンスにおいてリトリーブしたベストマッチが、スムーズな動きを表すべきであることを意味する。スムーズにリトリーブするために、注釈付ジェスチャ画像のデータベース５２におけるエントリーを分析し、及びジェスチャマップ７３を検出すべく、高次元空間に位置を割り当てる。ジェスチャマップ７３は、どのジェスチャが互いに近いか、及びどのジェスチャが高次元において同一の近接位置に該当するかを示すものである。従って、シークエンスにおけるクエリ入力３３に対して、直接相似分析機能７５を実行した後に、逆相似分析機能７６によって逆相似性を計算し、トップマッチを選択する。その後、方法７０がジェスチャマップ７３を検索し、これらのトップマッチのうちの何れが以前のフレームマッチにより近いかを確認する。そして、最も近いエントリーを、注釈付画像のデータベース５２から最後のベストマッチとして選択する。その後、ベストマッチに対してタグ付けされた三次元の動きのパラメータ５８（３つの位置及び３つの方向のパラメータ）を、ディスプレイ１００上で動作する様々なアプリケーションのシナリオを促進させるために、即座に使用可能である。

（インタフェース）
図７は、検索エンジン７０の検出／認識の出力（アクション／ジェスチャ／三次元の動き、注釈付画像等）９２を受信する、インタフェースレベル９０の方法を示す概略図である。検出／認識されたパラメータ（アクション／ジェスチャ／三次元の動き、注釈付画像等）９２は、アプリケーションプログラミングインターフェイス（ＡＰＩ）を介して、機器２０上で動作するアプリケーションプログラムに供給される。アプリケーションは、ディスプレイ１００上に提示された二次元／三次元ビデオゲーム、二次元／三次元オブジェクトモデリング／レンダリング、フォトブラウジング、マップ、ナビゲーション等を含んでよい。ユーザ１０は、ディスプレイ１００上に提示されたビジュアルコンテンツの出力（二次元／三次元）９４を知覚する。この出力は、ユーザの実行するジェスチャ３２に反応して、連続的に修正される。

（機器の詳細な説明）
図８は、図２Ａのモバイル機器２０を示す。モバイル機器２０は、記憶ユニット２２、処理ユニット２４、センサ３４（例えば二次元／三次元カメラ、ＩＲセンサ、超音波等）及びディスプレイ１００からなる。センサ３４は、機器２０の正面の三次元のシーン情報をキャプチャする。機器２０は、機器２０の後ろの三次元のシーン情報をキャプチャする、リアセンサ３４（例えば二次元／三次元カメラ、ＩＲセンサ、超音波等）を含んでもよい。モバイル機器２０は、クエリ入力３３のシークエンスをキャプチャし、及びそれらを処理して、インデクス可能な特徴３６をリトリーブする。記憶ユニット２２は、注釈付ジェスチャ画像のデータベース５２、インデクス付特徴の大規模語彙テーブル７２及びジェスチャマップ７３を記憶する。処理ユニット２４は、画像クエリの処理方法３０及び検索エンジン７０の方法を実行する。処理ユニット２４はまた、ディスプレイ１００上に提示されたビジュアルコンテンツの出力（二次元／三次元）９４を、ユーザの実行するジェスチャ３２に反応して修正する。ディスプレイ１００は、機器２０上で動作するアプリケーションを表示する。アプリケーションは、ディスプレイ１００上に提示された二次元／三次元ビデオゲーム、二次元／三次元オブジェクトモデリング／レンダリング、フォトブラウジング、マップ、ナビゲーション等を含んでよい。ユーザ１０は、ディスプレイ１００上に提示されたビジュアルコンテンツの出力（二次元／三次元）９４を知覚する。この出力は、ユーザの実行するジェスチャ３２に反応して、連続的に修正されている。

図９は、図２Ｂのウエアラブル機器２０を示す。ウエアラブル機器２０は、記憶ユニット２２、処理ユニット２４、センサ３４（例えば二次元／三次元カメラ、ＩＲセンサ、超音波等）及びディスプレイ１００からなる。センサ３４は、ウエアラブル機器２０の正面の三次元のシーン情報をキャプチャする。ウエアラブル機器２０は、クエリ入力３３のシークエンスをキャプチャし、及びそれらを処理して、インデクス可能な特徴３６をリトリーブする。記憶ユニット２２は、注釈付ジェスチャ画像のデータベース５２、インデクス付特徴の大規模語彙テーブル７２及びジェスチャマップ７３を記憶する。処理ユニット２４は、画像クエリの処理方法３０及び検索エンジン７０の方法を実行する。処理ユニット２４はまた、ディスプレイ１００上に提示されたビジュアルコンテンツの出力（二次元／三次元）９４を、ユーザの実行するジェスチャ３２に反応して修正する。ディスプレイ１００は、ウエアラブル機器２０上で動作するアプリケーションを表示する。アプリケーションは、ディスプレイ１００上に提示された二次元／三次元ビデオゲーム、二次元／三次元オブジェクトモデリング／レンダリング、フォトブラウジング、マップ、ナビゲーション等を含んでよい。ユーザ１０は、ディスプレイ１００上に提示されたビジュアルコンテンツの出力（二次元／三次元）９４を知覚する。この出力は、ユーザの実行するジェスチャ３２に反応して、連続的に修正されている。

図１０は、図２Ｃの固定機器２０を示す。固定機器２０は、記憶ユニット２２、処理ユニット２４、センサ３４（二次元／三次元カメラ、ＩＲセンサ、超音波等）及びディスプレイ１００からなる。センサ３４は、固定機器２０の正面の三次元のシーン情報をキャプチャする。固定機器２０は、クエリ入力３３のシークエンスをキャプチャし、及びそれらを処理して、インデクス可能な特徴３６をリトリーブする。記憶ユニット２２は、注釈付ジェスチャ画像のデータベース５２、インデクス付特徴の大規模語彙テーブル７２及びジェスチャマップ７３を記憶する。処理ユニット２４は、画像クエリの処理方法３０及び検索エンジン７０の方法を実行する。処理ユニット２４はまた、ディスプレイ１００上に提示されたビジュアルコンテンツの出力（二次元／三次元）９４を、ユーザの実行するジェスチャ３２に反応して修正する。ディスプレイ１００は、固定機器２０上で動作するアプリケーションを表示する。アプリケーションは、ディスプレイ１００上に提示された二次元／三次元ビデオゲーム、二次元／三次元オブジェクトモデリング／レンダリング、フォトブラウジング、マップ、ナビゲーション等を含んでよい。ユーザ１０は、ディスプレイ１００上に提示されたビジュアルコンテンツの出力（二次元／三次元）９４を知覚する。この出力は、ユーザの実行するジェスチャ３２に反応して、連続的に修正されている。

（本発明の実施形態による方法及び機器）
本発明の実施形態は、リアルタイムのジェスチャ認識に使用される機器において、電力が限られる状況下で、リソースを消費する計算を強いられるという問題解決に向けたものである。図１１ａは、本発明の実施形態による、三次元ジェスチャの認識方法を示すフローチャートである。方法は、ジェスチャ画像のデータベース５２へのアクセスを有し、センサ３４と通信する機器２０において実行する。センサ３４は、三次元のジェスチャの画像３３をキャプチャするよう構成される。センサは、機器と一体型の部品とするか、又はセンサに連結可能な独立センサとしてもよい。ジェスチャ画像のデータベース５２は、正規化されたジェスチャ画像のインデクス可能な特徴５４を備える。インデクス可能な特徴は、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。機器はデータベース５２を記憶する記憶ユニット２２を備えてよい。又は、機器はインタフェースユニットを備えてよく、インタフェースユニットは、例えばインターネットを介してデータベース５２を記憶する、リモートデータベースノードを介して通信する。方法は以下のステップを含む。

ステップ１１０では、三次元ジェスチャの画像３３を、センサ３４を介してキャプチャする。本発明の実施形態において、画像をキャプチャするステップは、三次元ジェスチャの画像のシークエンスをキャプチャするステップを含んでよい。データベース画像のマッチングの決定をより正確にするために、画像のシークエンスを使用してよい。詳細は以下に説明する。

ステップ１２０では、キャプチャされた画像を正規化する。正規化するステップは、比較を可能とするために、データベースの正規化されたジェスチャ画像に従って実行してよい。正規化は、キャプチャされた画像を、データベース画像のサイズにサイズ変更するステップを含んでよい。データベースエントリーは通常、３２０×２４０画素又は６４０×４８０画素のような標準画像サイズに正規化する。従ってキャプチャされた画像を、データベースエントリーの特定サイズに正規化してよい。

ステップ１３０では、キャプチャされ、正規化された画像３３から、インデクス可能な特徴３６を得る。インデクス可能な特徴３６は、キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備える。

ステップ１４０では、得られたインデクス可能な特徴３６を、得られたデータベースのインデクス可能な特徴５４と、相似機能を使用して比較する。

ステップ１５０では、データベース５２において、三次元ジェスチャとマッチングするジェスチャ画像を、比較に基づいて決定する。

キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備えるインデクス可能な特徴を使用することの一つの利点は、それによって、三次元ジェスチャを認識する方法が、計算的に効率化されることにある。

図１１ｂは、本発明の別の実施形態による機器における方法を示す、フローチャートである。方法は、図１１ａに関して上述したステップを含む。しかしながら、得られたインデクス可能な特徴３６を比較するステップ１４０は更に、以下のステップを含む。

ステップ１４１では、データベースにおいて、キャプチャされた画像とマッチする、複数のジェスチャ画像を決定するために、直接相似分析を使用する。

ステップ１４２では、キャプチャされた画像とマッチする、複数のジェスチャ画像のサブセットを決定するために、複数のジェスチャ画像に対して逆相似分析を使用する。

この実施形態は、複数のジェスチャ画像のサブセットの１つとするために、データベース５２において、三次元ジェスチャとマッチするジェスチャ画像を決定するステップ１５０を含む。しかしながら、逆相似分析を使用するステップ１４２は、既述したように任意のステップである。逆相似分析を実行しない場合、ステップ１５０で、直接相似分析により決定された、複数のジェスチャ画像の１つとするために、データベース５２において、三次元ジェスチャとマッチするジェスチャ画像を決定する。直接相似分析及び逆相似分析に関しては、上記「ジェスチャ検索エンジン」の部分で詳述している。逆相似機能７６は、精度向上を理由として使用してよい。しかしながら逆相似分析を使用しない場合、リトリーブの精度は低下するが、利点としては複雑性が低減される。

また図１１ｂのフローチャートにより、方法は更に、ディスプレイ上に提示されたビジュアルコンテンツを修正するために、三次元ジェスチャとマッチする、決定されたジェスチャ画像を使用するステップ１６０を含んでよい。これに関しては、例えば上記「インタフェース」の部分で、例を挙げて説明している。

２つの非常に類似したジェスチャ画像は、重なり合うエッジ画素を有することはないかもしれないが、互いに近接する画素に該当する可能性がある。これらのケースについて考慮するために、キャプチャされた画像を比較する際に、直接相似分析機能７５の他に、データベース画像において、第１レベルの８近接画素及び第２レベルの１６近接画素を考慮してもよい。従って本発明の実施形態においては、機器が実行する方法は更に、キャプチャされ、正規化された画像から、エッジ画像の各画素の近接画素に対して位置及び方向を備える追加的なインデクス可能な特徴を得るステップと、得られた追加的なインデクス可能な特徴を、データベースの追加的なインデクス可能な特徴と、相似機能を使用して比較するステップと、を含んでもよい。

その後、データベース５２において、三次元ジェスチャとマッチするジェスチャ画像を、追加的なインデクス可能な特徴との比較にも基づいて決定してよい。

さらに、三次元ジェスチャとマッチするジェスチャ画像を、ジェスチャ画像のシークエンスにおいて、互いに近いジェスチャ画像を示すジェスチャマップに基づいて決定してよい。機器における方法は更に、ユーザのジェスチャを、画像のシークエンスに基づいて追跡するステップを含む。そして、データベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、追跡されたユーザのジェスチャにも基づいて決定してよい。

上述の任意の実施形態において、ジェスチャ画像のデータベース５２における各エントリーに、３つの方向及び３つの位置のパラメータを備える、関連する三次元の動きのパラメータをタグ付けしてよい。従って方法は更に、三次元ジェスチャとマッチする、決定されたジェスチャ画像に関連する三次元の動きのパラメータを、データベースからリトリーブするステップを含む。

図１２は、本発明の実施形態による、三次元ジェスチャを認識する機器２０を示す、概略的なブロック図である。機器２０は、正規化されたジェスチャ画像の、インデクス可能な特徴５４を備えるジェスチャ画像のデータベース５２へのアクセスを有するよう構成される。インデクス可能な特徴は、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。機器は、三次元ジェスチャの画像３３をキャプチャするよう構成されたセンサ３４に接続可能である。センサ３４は、機器２０内に備えられるか、又は機器から独立してもよい。機器２０は処理ユニット２４を備える。処理ユニット２４は、センサを介して三次元ジェスチャの画像３３をキャプチャし、キャプチャされた画像を正規化し、及びキャプチャされ、正規化された画像３３から、インデクス可能な特徴３６を取得するよう構成される。インデクス可能な特徴は、キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備える。処理ユニット２４はまた、得られたインデクス可能な特徴３６を、データベースのインデクス可能な特徴５４と、相似機能を使用して比較し、及びデータベース５２において、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定するよう構成される。

さらに処理ユニット２４は、データベースにおいて、キャプチャされた画像とマッチする複数のジェスチャ画像を決定し、及び複数のジェスチャ画像の一つとすべく、データベース５２において、三次元ジェスチャとマッチするジェスチャ画像を決定するために、得られたインデクス可能な特徴を、直接相似分析を使用して比較するよう構成されてよい。

さらに処理ユニット２４は、キャプチャされた画像とマッチする複数のジェスチャ画像のサブセットを決定し、及び複数のジェスチャ画像のサブセットの１つとすべく、データベース５２において、三次元ジェスチャとマッチするジェスチャ画像を決定するために、得られたインデクス可能な特徴を、ジェスチャ画像の複数に対する逆相似分析を使用して比較するよう構成されてよい。

実施形態において、さらに処理ユニット２４は、キャプチャされ、正規化された画像から、エッジ画像の各画素の近接画素に対して位置及び方向を備える追加的なインデクス可能な特徴を得るよう構成されてよい。さらに処理ユニット２４は、得られた追加的なインデクス可能な特徴を、データベースの追加的なインデクス可能な特徴と、相似機能を使用して比較し、及び追加的なインデクス可能な特徴との比較にも基づいて、データベース５２において、三次元ジェスチャとマッチするジェスチャ画像を決定するよう構成されてよい。

さらに処理ユニット２４は、三次元ジェスチャとマッチするジェスチャ画像を、ジェスチャ画像のシークエンスにおいて、互いに近いジェスチャ画像を示すジェスチャマップに基づいて決定するよう構成されてよい。処理ユニット２４は、三次元ジェスチャの画像のシークエンスを、センサ３４を介してキャプチャするよう構成されてよい。この実施形態において処理ユニットは、ユーザのジェスチャを、画像のシークエンスに基づいて追跡し、及びデータベース５２において、三次元ジェスチャとマッチするジェスチャ画像もまた、追跡されたユーザのジェスチャに基づいて決定するよう構成されてよい。

さらに処理ユニット２４は、ディスプレイ上に提示されたビジュアルコンテンツを修正するために、三次元ジェスチャとマッチする、決定されたジェスチャ画像を使用するよう構成されてよい。さらに、ジェスチャ画像のデータベース５２における各エントリーは、３つの方向及び３つの位置のパラメータを備える、関連する三次元の動きのパレメータをタグ付けされてよい。そしてさらに処理ユニット２４は、三次元ジェスチャとマッチする、決定されたジェスチャ画像に関連する三次元の動きのパラメータを、データベース５２からリトリーブするよう構成されてよい。

機器２０は、実施形態において、既述の処理ユニット２４により実行可能な指示を含むメモリを備えてよい。これにより機器は、センサを介して三次元ジェスチャの画像をキャプチャし、キャプチャされた画像を、データベースの正規化されたジェスチャ画像に従って正規化し、キャプチャされ、正規化された画像からインデクス可能な特徴を得て、得られたインデクス可能な特徴を、データベースのインデクス可能な特徴と、相似機能を使用して比較し、及びデータベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定するよう動作する。機器２０はまた、処理ユニット２４に接続され、及びセンサ３４及び／又はデータベース５３と通信するよう構成されたインタフェース回路を備えてよい。

図１２の実施形態を代替的に説明すると、機器２０は、センサを介して三次元ジェスチャの画像をキャプチャする手段、キャプチャされた画像を、データベースの正規化されたジェスチャ画像に従って正規化する手段、キャプチャされ、正規化された画像からインデクス可能な特徴を得る手段、得られたインデクス可能な特徴を、データベースのインデクス可能な特徴と、相似機能を使用して比較する手段、及びデータベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定する手段を備えてよい。上述の手段は、ハードウエア、ソフトウエア、ファームウエア又はそれらの任意の組み合わせにおいて実装される、機能性ユニットである。一実施形態においては、手段はプロセッサ上で動作するコンピュータプログラムとして実現される。

図１２の実施形態を、また別の方法で説明すると、機器２０は、単一ユニット又は複数のユニットである中央処理装置（ＣＰＵ：Central Processing Unit）を備えてよい。さらに機器２０は、例えばＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、フラッシュメモリ又はディスクドライブ等の不揮発性メモリの形状である、少なくとも１つのコンピュータプログラムプロダクト（ＣＰＰ：computer program product）を備えてよい。ＣＰＰはコンピュータプログラムを備えてよく、このコンピュータプログラムは、機器２０のＣＰＵ上で動作する場合、機器２０に、図１１ａ及び図１１ｂに関連して既述した方法を実行させる、コード手段を備える。換言すれば、上述のコード手段がCPU上で動作する場合、それらのコード手段は、図１２の処理ユニット２４に該当する。

上記に詳述した実施形態は、例としてのみ挙げたものであり、限定的なものではない。別添の請求項の範囲内においては、他の解決策、使用、目的及び機能が可能である。

Claims

三次元ジェスチャの認識方法であって、ジェスチャ画像のデータベース（５２）へのアクセスを有する機器（２０）において実行する方法において、前記機器は、前記三次元ジェスチャの画像（３３）をキャプチャするよう構成されたセンサ（３４）と通信し、前記ジェスチャ画像のデータベース（５２）は、正規化されたジェスチャ画像のインデクス可能な特徴（５４）を備え、該インデクス可能な特徴は、前記正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備え、該方法は、
前記三次元ジェスチャの前記画像（３３）を、前記センサを介してキャプチャするステップ（１１０）と、
比較を可能とするために、前記データベース（５２）の前記正規化されたジェスチャ画像に従って、キャプチャされた画像を正規化するステップ（１２０）と、
キャプチャされ、正規化された前記画像（３３）から、インデクス可能な特徴（３６）を得るステップ（１３０）であって、該インデクス可能な特徴（３６）は、前記キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備えるステップ（１３０）と、
得られた前記インデクス可能な特徴（３６）を、前記データベースの前記インデクス可能な特徴（５４）と、相似機能を使用して比較するステップ（１４０）と、
前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を、前記比較に基づいて決定するステップ（１５０）であって、前記ジェスチャ画像のデータベース（５２）における各エントリーに、３つの方向及び３つの位置のパラメータを備える、関連する三次元の動きのパラメータをタグ付けするステップと、
前記三次元ジェスチャとマッチする、決定されたジェスチャ画像に関連する三次元の動きのパラメータを、前記データベース（５２）からリトリーブするステップと、
を含む方法。
請求項１に記載の方法であって、
得られた前記インデクス可能な特徴を比較する前記ステップ（１４０）は、更に、
前記データベースにおいて、前記キャプチャされた画像とマッチする複数のジェスチャ画像を決定するために、直接相似分析を使用するステップ（１４１）と、
前記複数のジェスチャ画像の１つとするために、前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を決定するステップ（１５０）と、を含む方法。
請求項２に記載の方法であって、
得られた前記インデクス可能な特徴を比較する前記ステップ（１４０）は、
前記キャプチャされた画像とマッチする、前記複数のジェスチャ画像のサブセットを決定するために、前記複数のジェスチャ画像に対して逆相似分析を使用するステップ（１４２）と、
前記複数のジェスチャ画像の前記サブセットの１つとするために、前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を決定するステップ（１５０）と、
を含む方法。
請求項１〜３の何れか一項に記載の方法であって、更に、
前記キャプチャされ、正規化された画像から、前記エッジ画像の各画素の近接画素に対して位置及び方向を備える追加的なインデクス可能な特徴を得るステップと、
得られた前記追加的なインデクス可能な特徴を、前記データベースの追加的なインデクス可能な特徴と、前記相似機能を使用して比較するステップと、
を含み、
前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を、前記追加的なインデクス可能な特徴との比較にも基づいて決定する方法。
請求項１〜４の何れか一項に記載の方法であって、
前記三次元ジェスチャとマッチするジェスチャ画像を、ジェスチャ画像のシークエンスにおいて、互いに近いジェスチャ画像を示すジェスチャマップに基づいて決定する方法。
請求項１〜５の何れか一項に記載の方法であって、
前記画像をキャプチャする前記ステップ（１１０）は、前記三次元ジェスチャの画像のシークエンスをキャプチャするステップを含む方法。
請求項６に記載の方法であって、更に、
ユーザのジェスチャを、前記画像のシークエンスに基づいて追跡するステップを含み、
前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を、追跡された前記ユーザのジェスチャにも基づいて、決定する方法。
請求項１〜７の何れか一項に記載の方法であって、更に、
ディスプレイ上に提示されたビジュアルコンテンツを修正するために、前記三次元ジェスチャとマッチする、決定されたジェスチャ画像を使用するステップ（１６０）を含む方法。
三次元ジェスチャを認識する機器（２０）であって、正規化されたジェスチャ画像の、インデクス可能な特徴（５４）を備えるジェスチャ画像のデータベース（５２）へのアクセスを有するよう構成される機器（２０）において、
前記インデクス可能な特徴は、前記正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備え、前記機器（２０）は、前記三次元ジェスチャの画像（３３）をキャプチャするよう構成されたセンサ（３４）に接続可能であり、及び処理ユニット（２４）を備え、
前記処理ユニット（２４）は、
前記センサ（３４）を介して前記三次元ジェスチャの前記画像（３３）をキャプチャし、
比較を可能とするために、前記データベース（５２）の前記正規化されたジェスチャ画像に従って、キャプチャされた画像を正規化し、
キャプチャされ、正規化された前記画像（３３）から、インデクス可能な特徴（３６）を得て、前記インデクス可能な特徴（３６）は、前記キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備え、
得られた前記インデクス可能な特徴（３６）を、前記データベースの前記インデクス可能な特徴（５４）と、相似機能を使用して比較し、及び
前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を、前記比較に基づいて決定し、前記ジェスチャ画像のデータベース（５２）における各エントリーは、３つの方向及び３つの位置のパラメータを備える、関連する三次元の動きのパラメータをタグ付けされ、
前記三次元ジェスチャとマッチする、決定されたジェスチャ画像に関連する三次元の動きのパラメータを、前記データベース（５２）からリトリーブする、よう構成される機器（２０）。
請求項９に記載の機器（２０）であって、
前記処理ユニット（２４）は更に、前記データベースにおいて、前記キャプチャされた画像とマッチする、複数のジェスチャ画像を決定するために、得られた前記インデクス可能な特徴を、直接相似分析を使用して比較するよう構成され、
前記処理ユニット（２４）は更に、前記複数のジェスチャ画像の１つとするために、前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を決定する、よう構成される機器（２０）。
請求項１０に記載の機器（２０）であって、
前記処理ユニット（２４）は更に、前記キャプチャされた画像とマッチする、前記複数のジェスチャ画像のサブセットを決定するために、得られた前記インデクス可能な特徴を、前記複数のジェスチャ画像に対する逆相似分析を使用して比較するよう構成され、
前記処理ユニット（２４）は更に、前記複数のジェスチャ画像のサブセットの１つとするために、前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を決定する、よう構成される機器（２０）。
請求項９〜１１の何れか一項に記載の機器（２０）であって、
前記処理ユニット（２４）は、更に、
前記キャプチャされ、正規化された画像から、前記エッジ画像の各画素の近接画素に対して位置及び方向を備える追加的なインデクス可能な特徴を得て、
得られた前記追加的なインデクス可能な特徴を、前記データベースの追加的なインデクス可能な特徴と、前記相似機能を使用して比較し、
前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を、前記追加的なインデクス可能な特徴との比較にも基づいて決定する、よう構成される機器（２０）。
請求項９〜１２の何れか一項に記載の機器（２０）であって、
前記処理ユニット（２４）は更に、前記三次元ジェスチャとマッチするジェスチャ画像を、ジェスチャ画像のシークエンスにおいて、互いに近いジェスチャ画像を示すジェスチャマップに基づいて決定する、よう構成される機器（２０）。
請求項９〜１３の何れか一項に記載の機器（２０）であって、
前記処理ユニット（２４）は更に、前記三次元ジェスチャの画像のシークエンスを、前記センサ（３４）を介してキャプチャする、よう構成される機器（２０）。
請求項１４に記載の機器（２０）であって、
前記処理ユニット（２４）は、更に、
ユーザのジェスチャを、前記画像のシークエンスに基づいて追跡し、
前記データベース（５２）において、前記三次元ジェスチャとマッチするジェスチャ画像を、追跡された前記ユーザのジェスチャにも基づいて決定する、よう構成される機器（２０）。
請求項９〜１５の何れか一項に記載の機器（２０）であって、
前記処理ユニット（２４）は更に、ディスプレイ上に提示されたビジュアルコンテンツを修正するために、前記三次元ジェスチャとマッチする、決定されたジェスチャ画像を使用する、よう構成される機器（２０）。