JP6571108B2 - モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム - Google Patents

モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム Download PDF

Info

Publication number
JP6571108B2
JP6571108B2 JP2016562725A JP2016562725A JP6571108B2 JP 6571108 B2 JP6571108 B2 JP 6571108B2 JP 2016562725 A JP2016562725 A JP 2016562725A JP 2016562725 A JP2016562725 A JP 2016562725A JP 6571108 B2 JP6571108 B2 JP 6571108B2
Authority
JP
Japan
Prior art keywords
gesture
image
database
dimensional
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016562725A
Other languages
English (en)
Other versions
JP2017505965A (ja
Inventor
ユセフィ シャホーズ
ユセフィ シャホーズ
リ ハイボ
リ ハイボ
アベダン コンドリ ファリード
アベダン コンドリ ファリード
Original Assignee
マノモーション アーベー
マノモーション アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マノモーション アーベー, マノモーション アーベー filed Critical マノモーション アーベー
Publication of JP2017505965A publication Critical patent/JP2017505965A/ja
Application granted granted Critical
Publication of JP6571108B2 publication Critical patent/JP6571108B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本開示はジェスチャ認識に関し、より具体的には、三次元ジェスチャを認識する機器及び方法に関する。
人間の手は、27の自由度(DoF:degree of freedom)を有する。つまり、伸縮と屈曲のために3つ、及び外転と内転のために1つで、各指に4つの自由度がある。親指は更に複雑であって、5つの自由度を有する。手首の回転及び並進のためには、6つの自由度が残されている。手指の動きをビデオシーケンスでキャプチャすることは、手のキネマティクスにおいて極めて多数の自由度が存在するため、高度に挑戦的な課題である。こうした過程は、手で持つスマート機器においては、電力が限られ、かつ計算コストが高いため、更により複雑になる。
基本的に、一般的に存在する解決策においては、図1に示すステップに従う。センサによりキャプチャされた画像シークエンスは、ユーザの手/指をセグメント化すべく、分析される。背景除去、分類、特徴検出等の画像分析アルゴリズムは、手/指を検出するために使用される。実際には、手の追跡及びジェスチャ認識のために存在するアルゴリズムは、2つのカテゴリーにグループ分け可能である。つまり、外観に基づくアプローチと三次元ハンドモデルに基づくアプローチ(米国特許出願公開第2010053151A1号明細書、米国特許出願公開第2010159981A1号明細書、国際公開第2012135545A1号パンフレット、及び米国特許出願公開第2012062558A1号明細書)である。前者は、手のジェスチャを、二次元画像特徴と直接に比較することに基づいている。人間のジェスチャを検出するのに使用される、定評のある画像特徴には、手の色及び形状、局所的な手の特徴等が含まれる。特徴に基づくアプローチの欠点は、手の特徴を抽出するために、一般的には、鮮明な画像セグメンテーションが要求されることである。これは、例えばクラッタ背景の場合には簡単な課題ではない。さらに、人間の手は関節により高度に結ばれており、自己遮蔽のために、局所的な手の特徴を見出すことが困難であることが多く、多種多様な手のジェスチャを処理するには、ある種のヒューリスティックスが必要である。手を直接に表示するために、二次元画像特徴を使用するのに替えて、三次元ハンドモデルに基づくアプローチにおいては、ハンドポーズをレンダリングするために、三次元キネマティックハンドモデルを使用する。合成による分析(ABS:Analysis-by-synthesis)戦略を使用して、手の動きのパラメータを回復するために、三次元ハンドモデルによって投影された外観を、カメラからの観察画像に位置合わせする。一般に、二次元画像特徴がより単純であるために、外観に基づくアプローチによってリアルタイムに実行する方が、より容易である。しかしながらこの種のアプローチが処理可能なのは、指先の検出や追跡というような単純な手のジェスチャのみである。それとは対照的に、三次元ハンドモデルに基づくアプローチによっては豊かな描写が提供され、潜在的に、広範なクラスの手のジェスチャを扱うことが可能である。主たる挑戦的課題は、三次元の手が、27の自由度を有する複雑なモデルだということである。従って、手の画像の全ての特徴を異なる視野で網羅するためには、極めて大きいデータベースが必要となる。ビデオ入力からのクエリ画像を、データベース内の全ての手の画像とマッチングするのは、時間がかかり、かつ計算コストも高い。こうしたことから、三次元ハンドモデルに基づく既存のアプローチの多くは、照明及び背景状態を制限しつつ、汎用的な手の動きをリアルタイムで追跡することに注力している。
米国特許出願公開第2010053151A1号明細書 米国特許出願公開第2010159981A1号明細書 国際公開第2012135545A1号パンフレット 米国特許出願公開第2012062558A1号明細書
課題は、上記に概略的に述べた問題のいくつかに対処し、及びリアルタイムのジェスチャ認識を計算的に効率化する解決策を提供することである。この課題等は、独立請求項に記載の方法及び装置、ならびに従属請求項に記載の実施形態により解決される。
第1の態様により、三次元ジェスチャのリアルタイム認識方法が提供される。方法は、ジェスチャ画像のデータベースへのアクセスを有する機器において実行する。機器は、三次元ジェスチャの画像をキャプチャするよう構成されたセンサと通信する。ジェスチャ画像のデータベースは、正規化されたジェスチャ画像の、インデクス可能な特徴を備える。インデクス可能な特徴は、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。方法は、センサを介して三次元ジェスチャの画像をキャプチャするステップ、及びキャプチャされた画像を、データベースの正規化されたジェスチャ画像に従って正規化するステップを含む。方法はまた、キャプチャされ、正規化された画像からインデクス可能な特徴を得るステップを含む。インデクス可能な特徴は、キャプチャされ、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。方法は更に、得られたインデクス可能な特徴を、データベースのインデクス可能な特徴と、相似機能を使用して比較するステップ、及びデータベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定するステップを含む。
第2の態様により、三次元ジェスチャを認識する機器が提供される。機器は、正規化されたジェスチャ画像の、インデクス可能な特徴を備えるジェスチャ画像のデータベースへのアクセスを有するよう構成される。インデクス可能な特徴は、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。機器は、三次元ジェスチャの画像をキャプチャするよう構成されたセンサに接続可能である。機器は、処理ユニットを備える。処理ユニットは、センサを介して三次元ジェスチャの画像をキャプチャし、キャプチャされた画像を、データベースの正規化されたジェスチャ画像に従って正規化し、及びキャプチャされ、正規化された画像から、インデクス可能な特徴を得るよう構成される。インデクス可能な特徴は、キャプチャされ、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。処理ユニットはまた、得られたインデクス可能な特徴を、データベースのインデクス可能な特徴と、相似機能を使用して比較するよう構成される。さらに処理ユニットは、データベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定するよう構成される。
実施形態の効果により、高解像度のジェスチャ認識を、計算的なリソースを低減しつつ、リアルタイムで可能である。
実施形態に関する、他の目的、効果及び特徴は、別添の図面及び請求項に関連する考察において、以下に詳述される。
従来技術によるジェスチャ追跡及び認識方法を示す、概略的なフローチャートである。 本発明の実施形態による、モバイルプラットフォームにおける三次元ユーザインタフェースシステムの概略図である。 本発明の実施形態による、ウエアラブル機器を使用した三次元ユーザインタフェースの概略図である。 本発明の実施形態による、固定プラットフォームにおける三次元ユーザインタフェースの概略図である。 本発明の実施形態による方法及びシステムの概略図である。 本発明の実施形態による、ジェスチャエントリーのデータベースへの記憶方法を示す、概略的なフローチャートである。 本発明の実施形態による、ジェスチャエントリーを検索し、クエリ入力に対するマッチを見出す方法を示す、概略的なフローチャートである。 本発明の実施形態による、画像クエリの処理方法を示す概略的なフローチャートである。 本発明の実施形態による、インタフェースレベルの方法を示す、概略図である。 本発明の実施形態による、図2Aに示すモバイル機器20の概略図である。 本発明の実施形態による、図2Bに示すウエアラブル機器20の概略図である。 本発明の実施形態による、図2Cに示す固定機器20の概略図である。 本発明の実施形態による機器が実行する方法を概略的に示す、フローチャートである。 本発明の実施形態による機器が実行する方法を概略的に示す、フローチャートである。 本発明の実施形態による機器の概略図である。
人間と未来のモバイル機器の間のインタラクションを設計する上で、三次元ジェスチャ認識は、要求度合いが極めて高い特徴である。具体的には、仮想現実環境又は拡張現実環境において、物質世界との直感的なインタラクションが不可避であり、及び三次元ジェスチャによるインタラクションは、軌道パッド及びタッチスクリーンのような現在の入力装置に対して、最も効果的な代替装置となり得るだろう。本発明の実施形態において、三次元ジェスチャ認識及び追跡のための解決策が提供される。提供される方法論及びシステムは、極めて大きいジェスチャデータベースにおいて、マッチを見出すことに基づくものである。このデータベースは、回転及び位置において可能な全てのバリエーションと、対応する位置/方向パラメータを含む、多様な種類の手のジェスチャをキャプチャしたエントリーを含む。クエリ入力とデータベースエントリーの間の属性に関して、相似分析を行なう。システムは、取得されたクエリ入力に対して、データベースエントリーと注釈付情報を含む、マッチをリトリーブする。
大量の電力、計算及びメモリを必要とする古典的なコンピュータビジョンアプローチと異なり、新たなフレームワークは、同一の問題ではあるが、それを全く異なるアプローチを使用して解決するよう定義される。提案される技術は、例えば自由度の高い複雑な手の動きを、大規模検索フレームワークによって処理可能である。一方で現在の技術は、低解像度のジェスチャ認識及び追跡に限定される。
一般的なモバイル機器へ適用するには、手のジェスチャ/体のジェスチャの全ての範囲をカバーする必要がある、人間のジェスチャが存在する高次元空間を包括的に検索するという挑戦的な問題を処理するために、ジェスチャ画像を大規模に検索するための、効果的なインデキシングアルゴリズムを提案する。開示するシステムの利点は、自由度の高い手の動きを、多様な照明条件においてノイズやクラッタの存在を許容しつつ処理可能な、膨大な個数のデータベース画像を、極めて迅速にリトリーブ可能なことである。解決策は、リアルタイム、低複雑性及び頑強性を有すると同時に、高解像度での追跡と精度を有する等の、モバイル機器への適用に関する特殊要件に対して適合している。
本発明の実施形態により、ビジョンセンサ、又はモバイルカメラ、ウェブカメラ、深度センサ又は超音波センサのような他のタイプのセンサを装備した、任意のモバイル機器、ウエアラブル機器、又は固定機器によっても、例えば手、頭又は体のジェスチャといった人間のジェスチャを、三次元空間において決定可能、又は認識可能である。ジェスチャ追跡は、クエリ入力のシークエンスにおいて決定又は認識されたジェスチャを使用して実行する。認識及び追跡は、注釈付ジェスチャエントリーの極めて大きいデータベース(DB)を検索する、高度な検索システムに基づいている。データベースは、三次元空間における全ての変形とバリエーションを取り込んだ、可能な全ての手のジェスチャを含むものであり、それは数百万エントリーに対応するかもしれない。提案するシステムは常に、任意のクエリジェスチャに対して自動的にデータベースを検索し、ベストマッチをリトリーブする。この結果、リアルタイムの三次元ジェスチャ追跡が実行される。この技術により、直感的な三次元インタラクションを使用可能であろうリアルタイムの適用において、ユーザデバイスでのインタラクションが促進される。本発明の実施形態は、スマートフォン及び拡張現実メガネのような、モバイル機器/ウエアラブル機器でのインタラクションを補助するよう設計され、固定機器、モバイル機器及び他のデジタル機器に対しても使用可能である。
図3は、スマートフォン、モバイル機器、ウエアラブルスマート機器、固定システム及びデジタルガジェットに適用可能な方法論及びシステムを含む、本発明の実施形態を示す。図3の実施形態は、4つの主たる部品を含む。つまり、前処理済の注釈付及びインデクス付ジェスチャデータベース50、クエリジェスチャを受信する、画像クエリ処理ユニット30、クエリジェスチャを受信し、ジェスチャのデータベースから自動的にベストマッチをリトリーブする、リアルタイムのジェスチャ検索エンジン70、そして最後に、検索エンジンからの出力を受信し、それを継続中のアプリケーションに適用する、インタフェースレベル90である。必要とされるハードウエアのプラットフォームは、任意のデジタル機器とする。
(システムに関する説明)
図2Aは、本発明の実施形態による、三次元ユーザインタフェースシステム200Aの概略図である。ユーザインタフェースは、任意の種類のセンサ34(例えば二次元/三次元カメラ、超音波、三次元深度カメラ、IRカメラ)を装備した、任意の種類(モバイル、固定型、ウエラブル等)のスマート機器20に基づく。センサ34は、機器20の後ろ、正面、及び/又は機器20の周囲の三次元シーン情報をキャプチャする。この三次元シーン情報は、人間であるユーザ10の、例えば手、頭又は体のジェスチャであるジェスチャ32を含む。このジェスチャ32(手/頭/体のジェスチャ)を検出/認識すべく、スマート機器20は、充分な解像度でジェスチャ画像をキャプチャし、ジェスチャ32(手/頭/体のジェスチャ)、ならびにその特定の位置及び方向の抽出を可能にする。位置は、画像におけるジェスチャ中心(x,y)の空間的座標に、ジェスチャスケール(z方向のセンサからの距離)を加えて表す。そして方向は、手のジェスチャの、センサの三次元座標(x,y,z)に対する相対的な方向である。ジェスチャ32(手/頭/体のジェスチャ)加え、キャプチャされた画像又はクエリ画像33は通常、体の他の部分、及び/又はクラッタ背景を含む。
図2Aにおいて、システム200Aは、ユーザのジェスチャ32(手/頭/体のジェスチャ)を含むクエリ画像33のシークエンスをキャプチャして処理する。ユーザ10がジェスチャ32(手/頭/体のジェスチャ)を実行する間、システム200Aはユーザのジェスチャ32(手/頭/体のジェスチャ)を、クエリ画像33のシークエンスに亘って追跡する。機器20における処理ユニット24上で動作するソフトウエア、及び/又はキャプチャリングセンサ34は、画像シークエンスを処理し、各クエリ画像33におけるユーザのジェスチャ32の、インデクス可能な特徴36をリトリーブする。詳細は以下に説明する。ソフトウエアは、クエリ画像33に対するベストマッチを見出すために、抽出されたインデクス可能な特徴36を、インデクス付特徴の大規模語彙テーブル72とマッチさせる。詳細は以下に説明する。大規模語彙テーブルは、データベース画像からの、インデクス可能な特徴の大規模マトリクスである。
データベース52は、手のジェスチャの数百万の画像から構成される。手のジェスチャの画像は、特定の三次元の動きのパラメータ(3つの位置及び3つの方向のパラメータ)58を注釈付けされる。詳細は以下に説明する。クエリ入力33に対して、データベース52におけるベストの手のジェスチャを見出すことで、クエリ入力33の三次元の動きのパラメータが供給される。
また図5の方法では、検索プロセスを最適化し、及びそのスピードを増すために、シークエンスにおける複数のフレームに亘ってジェスチャマップ73を分析する。詳細は以下に説明する。
システムは、ユーザのジェスチャ32をクエリ入力33のシークエンスに亘って追跡する、モーション追跡機能をも含むため、図5の方法は任意に、各2つ(以上)のフレームにおいて、一度のみの実行としてもよい。
検出/認識された出力(アクション/ジェスチャ/三次元の動き、注釈付画像等)92は、アプリケーションプログラミングインターフェイス(API)を介して、機器20上で動作するアプリケーションプログラムに供給される。このプログラムにより、ディスプレイ100に提示された画像、三次元オブジェクト、又は他の二次元/三次元ビジュアルコンテンツ94を、実行されたジェスチャ32に反応して、例えば移動及び変更できる。
代替案として、これらの処理機能の全て、又はいくつかを、ゲーム機器、メディアプレーヤ、スマートテレビ等の、任意の他のコンピュータ化デバイスと一体化した適切なプロセッサにより実行してもよい。キャプチャセンサ34(二次元/三次元カメラ、IRセンサ、超音波等)を装備した任意のコンピュータ化装置、記憶ユニット22及び処理ユニット24は、上述の機能のうちの少なくともいくつかにおいて使用可能であり、より良好なユーザインタフェースシステムを供給可能である。
(ジェスチャ画像のデータベースの提供)
図4は、注釈付ジェスチャ画像のデータベース52の、インデクス可能な特徴54の形成方法50を示すフローチャートである。データベースは、方向、位置及びスケーリングにおける全ての潜在的バリエーションを有する手のジェスチャエントリーの、異なる実像56の大きなセットを含んでいる。データベースはまた、関節で結ばれた三次元ハンドモデル/三次元図形モデル等により合成し、既知の位置及び方向パラメータを有する、全ての手のジェスチャ図形57を含む。
クエリ入力33とデータベースの間のマッチングに加えて、達成すべき重要な特徴の一つは、クエリ入力33から三次元の動きのパラメータ(三次元に対応する3つの位置及び3つの方向のパラメータ)をリトリーブすることである。クエリ入力33は三次元の動きのパラメータ(3つの位置及び3つの方向のパラメータ)を含まないため、最善の解決策は、クエリ入力33の三次元の動きのパラメータ(3つの位置及び3つの方向のパラメータ)を、データベースからリトリーブされたベストマッチと関連付けることである。このために、データベースエントリーに、そのグランドトゥルースな三次元の動きのパラメータ(3つの位置及び3つの方向のパラメータ)58をタグ付けする。これは、ビジョンベースのシステム、磁気センサ、IMU等、任意のモーションキャプチャシステムにより実行可能である。ジェスチャエントリーの他のソース59もまた、データベースを拡張するために使用する。手のジェスチャ画像、注釈付ジェスチャ画像のデータベース52に対して、三次元の動きのパラメータ(3つの位置及び3つの方向のパラメータ)のタグを形成する。注釈付ジェスチャ画像のデータベース52における各エントリーは、純粋なジェスチャエントリー(背景及びノイズフリー)を表す。方法50において、注釈付ジェスチャ画像のデータベース52における各エントリーに対して、インデクス可能な特徴54を抽出する。インデクス可能な特徴54は、注釈付ジェスチャ画像のデータベース52におけるエントリーから得られたエッジ画素の、正確な位置及び方向を含んだ低レベルのエッジ方向属性を含む。単一のエッジ画素の各々を、二次元画像座標における短線とみなした場合、エッジ画素の方向は、この短線の、画像座標の原点に対する角度となる。技術的には、エッジ画素の方向を、x及びy方向に対する画像の傾斜から算出可能である。
インデクス可能な特徴54を抽出するために、注釈付ジェスチャ画像のデータベース52における全てのエントリーを正規化し、及びそれらのエントリーの対応するエッジ画像を計算する。エッジ画像は、ジェスチャ画像をフィルタリングすることで計算してよい。コンピュータヴィジョンの分野では、異なるエッジ検出器が知られており、それも同様に使用可能である。単一のエッジ画素の各々は、その位置及び方向によって表される。低レベルのエッジ方向特徴用の汎用的構成を作成するために、各々のエッジ特徴が起こりうる可能な全てのケースを表すよう、大規模語彙テーブル72を形成する。データベース全体を、エッジの位置及び方向に関して考慮すると、大規模語彙テーブル72は、ジェスチャの語彙全体をエッジ画素フォーマットで表現可能である。エッジ画素フォーマットは、その位置及び方向の観点から、エッジ画像の各画素を表す。
(画像クエリの処理)
図6は、画像クエリの処理方法30を概略的に示すフローチャートである。クエリ入力33は、ユーザ10のジェスチャ32(手/頭/体のジェスチャ)を、センサ34(二次元/三次元カメラ、IRセンサ、超音波等)によりキャプチャされた、ジェスチャ32の特定の3つの位置及び3つの方向のパラメータで特徴付けする。センサ34は、機器20の後ろ、又は正面の三次元シーン情報をキャプチャする。スマート機器20は、クエリ入力33のシークエンスをキャプチャし、及びそれらを処理して、インデクス可能な特徴36をリトリーブする。方法30は、クエリ入力33から、インデクス可能な特徴36を抽出する。インデクス可能な特徴36は、クエリ入力33から得られたエッジ画素の、正確な位置及び方向を含む低レベルのエッジ方向属性を含む。
インデクス可能な特徴36を抽出するために、クエリ入力33を正規化し、及びそれらのエントリーの対応するエッジ画素を計算する。単一のエッジ画素の各々は、その位置及び方向によって表される。
基本的に、ユーザのジェスチャ32(手/頭/体のジェスチャ)をキャプチャするクエリ入力33は、無関係のオブジェクト、環境騒音等に起因するクラッタ背景を含んでいる。従って、クエリ入力33からリトリーブしたインデクス可能な特徴36は、ジェスチャ32及びノイジーな背景からの、双方の特徴を含む。一方、注釈付ジェスチャ画像のデータベース52における各エントリーは、純粋なジェスチャエントリー(背景及びノイズフリー)を表すため、注釈付ジェスチャ画像のデータベース52における各エントリーからリトリーブしたインデクス可能な特徴54は、純粋なジェスチャからの特徴のみを表す。従って、クエリ画像のエッジ画像は、データベース画像のエッジ画像のように正確には定義できない。
(ジェスチャ検索エンジン)
図5は、ジェスチャ検索エンジン70の方法を示す。注釈付ジェスチャ画像のデータベース52における各エントリーの、抽出されたインデクス可能な特徴54は、インデクス可能な特徴72の大規模語彙テーブル72を、ジェスチャ検索エンジン70において構築する。
インデクス付特徴の大規模語彙テーブル72は、各エッジ特徴が起こりうる可能な全てのケースを表すよう形成する。データベース全体を、エッジの位置及び方向に関して考慮すると、大規模語彙テーブル72は、ジェスチャの語彙全体をエッジ画素フォーマットで表現可能である。例えば、p×q画素の画像サイズ、及びLエッジ方向表示、ジェスチャ画像Nのデータベースに対して、語彙テーブル72は、p×q×Lコラム及びNロウを有する。従って、語彙テーブル72は、特定のロウ及びコラムにおける特徴を有する、全てのデータベース画像52のインデクスで満たされている。語彙テーブル72は、要求される情報を全データベース52から収集するものであり、これはジェスチャ検索エンジン70ための方法において、必須の機能である。
直接相似分析機能75は、クエリ画像33においてユーザのジェスチャ32を検出/認識するために、大規模検索テーブル72、及び各クエリ画像33に対してリトリーブされたインデクス可能な特徴36を用いて、注釈付ジェスチ画像のデータベース52におけるトップm第1レベルのマッチを選択する。
エッジ画素フォーマットの各クエリ入力33は、エッジポイントのセットを含む。エッジポイントのセットは、ロウ‐コラム位置及び特定の方向により表現可能である。直接相似機能分析75は、クエリ入力33に関して、リトリーブしたインデクス可能な特徴36の相似性を、インデクス付特徴の大規模語彙テーブル72を使用し、全てのエッジ特徴の位置及び特定の方向に基づいて計算する。直接相似分析機能は、対となったデータ値にスコアを割り当てる機能である。スコアは、クエリのインデクス付特徴の、データベースにおける各エントリーのインデクス付特徴に対する相似性を示す。もし、ある状態がクエリ入力33においてリトリーブしたインデクス可能な特徴36、及び注釈付ジェスチャ画像のデータベース52においてリトリーブしたインデクス可能な特徴54の双方に対して満たされた場合、直接相似分析機能75は、+K1ポイントを、そうした特定のロウ‐コラムポイントにおいて類似の方向を有するエッジを持つ、全てのデータベース画像52に対して割り当てる。直接相似分析機能75は、クエリ入力33の単一のエッジ画素フォーマットの各々に対して、上記のプロセスを実行する。
直接相似分析機能75の第1ステップは、クエリ入力33及びデータベース画像52からの2つのエッジパターンが、互いに正確に重なり合ったケースを満たすものである。一方、実際の多くのケースでは、2つの類似したパターンは、位置においては互いに極めて近いが、これらパターンの間の重複は大きくない。直接相似分析機能75は、通常起こるこうしたケースに対して、第1及び第2レベルの近接画素に基づいてエクストラポイントを割り当てる。
極めて蓋然性が高いのは、2つの極めて類似したパターンが、重なり合いはしないが、互いに近接する画素に該当するケースである。これらのケースについて考慮するために、直接相似分析機能75の第1ステップの他に、任意の単一画素に対して、データベース画像における第1レベルの8近接画素及び第2レベルの16近接画素をも考慮し、エクストラポイントを割り当てるべきである。任意の単一画素の第1レベルの8近接画素とは、単一画素を包囲する画素である。第2レベルの近接画素は、第1レベルの8近接画素を包囲する16画素を含む。第1レベル及び第2レベルの近接画素のうち、類似の方向を有するエッジを持つ全てのデータベース画像52は、各々+K2及び+K3ポイントを受け取る(K1>K2>K3)。要するに、データベース画像の類似性に関して、重みの異なる3つのレベルで、クエリにおける全てのエッジ画素に対して直接相似分析75を実行するのである。最後に、各データベース画像の蓄積されたスコアを計算及び正規化し、そして最高スコアを、トップm第1レベルのマッチとして選択する。
トップm第1レベルのマッチのうちで最も近いマッチを見出すために、逆相似分析76を実行する。逆相似分析76とは、注釈付ジェスチャ画像のデータベース52のエントリーに対して、クエリジェスチャ32の相似性を見出すことの他に、注釈付ジェスチャ画像のデータベース52において選択したトップmエントリーの、クエリジェスチャ32に対する逆相似性を計算すべきであることを意味する。逆相似機能は、精度向上を理由として使用する。逆相似分析を使用しない場合、リトリーブの精度は低下するが、複雑性が低減される。
逆相似分析76は、与えられたユーザのジェスチャ32に対して、注釈付ジェスチャ画像のデータベース52からベストnマッチ(n<m)を返す。直接相似分析75及び逆相似分析76の組み合わせは、クエリ入力33に対して、注釈付ジェスチャ画像のデータベース52からベストマッチを返すものである。
ジェスチャ検索エンジン70における別の任意のステップは、ジェスチャ近接性分析機能77を使用する、ジェスチャ検索のスムーズ度である。スムーズ度とは、三次元ジェスチャインタラクションのシークエンスにおいてリトリーブしたベストマッチが、スムーズな動きを表すべきであることを意味する。スムーズにリトリーブするために、注釈付ジェスチャ画像のデータベース52におけるエントリーを分析し、及びジェスチャマップ73を検出すべく、高次元空間に位置を割り当てる。ジェスチャマップ73は、どのジェスチャが互いに近いか、及びどのジェスチャが高次元において同一の近接位置に該当するかを示すものである。従って、シークエンスにおけるクエリ入力33に対して、直接相似分析機能75を実行した後に、逆相似分析機能76によって逆相似性を計算し、トップマッチを選択する。その後、方法70がジェスチャマップ73を検索し、これらのトップマッチのうちの何れが以前のフレームマッチにより近いかを確認する。そして、最も近いエントリーを、注釈付画像のデータベース52から最後のベストマッチとして選択する。その後、ベストマッチに対してタグ付けされた三次元の動きのパラメータ58(3つの位置及び3つの方向のパラメータ)を、ディスプレイ100上で動作する様々なアプリケーションのシナリオを促進させるために、即座に使用可能である。
(インタフェース)
図7は、検索エンジン70の検出/認識の出力(アクション/ジェスチャ/三次元の動き、注釈付画像等)92を受信する、インタフェースレベル90の方法を示す概略図である。検出/認識されたパラメータ(アクション/ジェスチャ/三次元の動き、注釈付画像等)92は、アプリケーションプログラミングインターフェイス(API)を介して、機器20上で動作するアプリケーションプログラムに供給される。アプリケーションは、ディスプレイ100上に提示された二次元/三次元ビデオゲーム、二次元/三次元オブジェクトモデリング/レンダリング、フォトブラウジング、マップ、ナビゲーション等を含んでよい。ユーザ10は、ディスプレイ100上に提示されたビジュアルコンテンツの出力(二次元/三次元)94を知覚する。この出力は、ユーザの実行するジェスチャ32に反応して、連続的に修正される。
(機器の詳細な説明)
図8は、図2Aのモバイル機器20を示す。モバイル機器20は、記憶ユニット22、処理ユニット24、センサ34(例えば二次元/三次元カメラ、IRセンサ、超音波等)及びディスプレイ100からなる。センサ34は、機器20の正面の三次元のシーン情報をキャプチャする。機器20は、機器20の後ろの三次元のシーン情報をキャプチャする、リアセンサ34(例えば二次元/三次元カメラ、IRセンサ、超音波等)を含んでもよい。モバイル機器20は、クエリ入力33のシークエンスをキャプチャし、及びそれらを処理して、インデクス可能な特徴36をリトリーブする。記憶ユニット22は、注釈付ジェスチャ画像のデータベース52、インデクス付特徴の大規模語彙テーブル72及びジェスチャマップ73を記憶する。処理ユニット24は、画像クエリの処理方法30及び検索エンジン70の方法を実行する。処理ユニット24はまた、ディスプレイ100上に提示されたビジュアルコンテンツの出力(二次元/三次元)94を、ユーザの実行するジェスチャ32に反応して修正する。ディスプレイ100は、機器20上で動作するアプリケーションを表示する。アプリケーションは、ディスプレイ100上に提示された二次元/三次元ビデオゲーム、二次元/三次元オブジェクトモデリング/レンダリング、フォトブラウジング、マップ、ナビゲーション等を含んでよい。ユーザ10は、ディスプレイ100上に提示されたビジュアルコンテンツの出力(二次元/三次元)94を知覚する。この出力は、ユーザの実行するジェスチャ32に反応して、連続的に修正されている。
図9は、図2Bのウエアラブル機器20を示す。ウエアラブル機器20は、記憶ユニット22、処理ユニット24、センサ34(例えば二次元/三次元カメラ、IRセンサ、超音波等)及びディスプレイ100からなる。センサ34は、ウエアラブル機器20の正面の三次元のシーン情報をキャプチャする。ウエアラブル機器20は、クエリ入力33のシークエンスをキャプチャし、及びそれらを処理して、インデクス可能な特徴36をリトリーブする。記憶ユニット22は、注釈付ジェスチャ画像のデータベース52、インデクス付特徴の大規模語彙テーブル72及びジェスチャマップ73を記憶する。処理ユニット24は、画像クエリの処理方法30及び検索エンジン70の方法を実行する。処理ユニット24はまた、ディスプレイ100上に提示されたビジュアルコンテンツの出力(二次元/三次元)94を、ユーザの実行するジェスチャ32に反応して修正する。ディスプレイ100は、ウエアラブル機器20上で動作するアプリケーションを表示する。アプリケーションは、ディスプレイ100上に提示された二次元/三次元ビデオゲーム、二次元/三次元オブジェクトモデリング/レンダリング、フォトブラウジング、マップ、ナビゲーション等を含んでよい。ユーザ10は、ディスプレイ100上に提示されたビジュアルコンテンツの出力(二次元/三次元)94を知覚する。この出力は、ユーザの実行するジェスチャ32に反応して、連続的に修正されている。
図10は、図2Cの固定機器20を示す。固定機器20は、記憶ユニット22、処理ユニット24、センサ34(二次元/三次元カメラ、IRセンサ、超音波等)及びディスプレイ100からなる。センサ34は、固定機器20の正面の三次元のシーン情報をキャプチャする。固定機器20は、クエリ入力33のシークエンスをキャプチャし、及びそれらを処理して、インデクス可能な特徴36をリトリーブする。記憶ユニット22は、注釈付ジェスチャ画像のデータベース52、インデクス付特徴の大規模語彙テーブル72及びジェスチャマップ73を記憶する。処理ユニット24は、画像クエリの処理方法30及び検索エンジン70の方法を実行する。処理ユニット24はまた、ディスプレイ100上に提示されたビジュアルコンテンツの出力(二次元/三次元)94を、ユーザの実行するジェスチャ32に反応して修正する。ディスプレイ100は、固定機器20上で動作するアプリケーションを表示する。アプリケーションは、ディスプレイ100上に提示された二次元/三次元ビデオゲーム、二次元/三次元オブジェクトモデリング/レンダリング、フォトブラウジング、マップ、ナビゲーション等を含んでよい。ユーザ10は、ディスプレイ100上に提示されたビジュアルコンテンツの出力(二次元/三次元)94を知覚する。この出力は、ユーザの実行するジェスチャ32に反応して、連続的に修正されている。
(本発明の実施形態による方法及び機器)
本発明の実施形態は、リアルタイムのジェスチャ認識に使用される機器において、電力が限られる状況下で、リソースを消費する計算を強いられるという問題解決に向けたものである。図11aは、本発明の実施形態による、三次元ジェスチャの認識方法を示すフローチャートである。方法は、ジェスチャ画像のデータベース52へのアクセスを有し、センサ34と通信する機器20において実行する。センサ34は、三次元のジェスチャの画像33をキャプチャするよう構成される。センサは、機器と一体型の部品とするか、又はセンサに連結可能な独立センサとしてもよい。ジェスチャ画像のデータベース52は、正規化されたジェスチャ画像のインデクス可能な特徴54を備える。インデクス可能な特徴は、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。機器はデータベース52を記憶する記憶ユニット22を備えてよい。又は、機器はインタフェースユニットを備えてよく、インタフェースユニットは、例えばインターネットを介してデータベース52を記憶する、リモートデータベースノードを介して通信する。方法は以下のステップを含む。
ステップ110では、三次元ジェスチャの画像33を、センサ34を介してキャプチャする。本発明の実施形態において、画像をキャプチャするステップは、三次元ジェスチャの画像のシークエンスをキャプチャするステップを含んでよい。データベース画像のマッチングの決定をより正確にするために、画像のシークエンスを使用してよい。詳細は以下に説明する。
ステップ120では、キャプチャされた画像を正規化する。正規化するステップは、比較を可能とするために、データベースの正規化されたジェスチャ画像に従って実行してよい。正規化は、キャプチャされた画像を、データベース画像のサイズにサイズ変更するステップを含んでよい。データベースエントリーは通常、320×240画素又は640×480画素のような標準画像サイズに正規化する。従ってキャプチャされた画像を、データベースエントリーの特定サイズに正規化してよい。
ステップ130では、キャプチャされ、正規化された画像33から、インデクス可能な特徴36を得る。インデクス可能な特徴36は、キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備える。
ステップ140では、得られたインデクス可能な特徴36を、得られたデータベースのインデクス可能な特徴54と、相似機能を使用して比較する。
ステップ150では、データベース52において、三次元ジェスチャとマッチングするジェスチャ画像を、比較に基づいて決定する。
キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備えるインデクス可能な特徴を使用することの一つの利点は、それによって、三次元ジェスチャを認識する方法が、計算的に効率化されることにある。
図11bは、本発明の別の実施形態による機器における方法を示す、フローチャートである。方法は、図11aに関して上述したステップを含む。しかしながら、得られたインデクス可能な特徴36を比較するステップ140は更に、以下のステップを含む。
ステップ141では、データベースにおいて、キャプチャされた画像とマッチする、複数のジェスチャ画像を決定するために、直接相似分析を使用する。
ステップ142では、キャプチャされた画像とマッチする、複数のジェスチャ画像のサブセットを決定するために、複数のジェスチャ画像に対して逆相似分析を使用する。
この実施形態は、複数のジェスチャ画像のサブセットの1つとするために、データベース52において、三次元ジェスチャとマッチするジェスチャ画像を決定するステップ150を含む。しかしながら、逆相似分析を使用するステップ142は、既述したように任意のステップである。逆相似分析を実行しない場合、ステップ150で、直接相似分析により決定された、複数のジェスチャ画像の1つとするために、データベース52において、三次元ジェスチャとマッチするジェスチャ画像を決定する。直接相似分析及び逆相似分析に関しては、上記「ジェスチャ検索エンジン」の部分で詳述している。逆相似機能76は、精度向上を理由として使用してよい。しかしながら逆相似分析を使用しない場合、リトリーブの精度は低下するが、利点としては複雑性が低減される。
また図11bのフローチャートにより、方法は更に、ディスプレイ上に提示されたビジュアルコンテンツを修正するために、三次元ジェスチャとマッチする、決定されたジェスチャ画像を使用するステップ160を含んでよい。これに関しては、例えば上記「インタフェース」の部分で、例を挙げて説明している。
2つの非常に類似したジェスチャ画像は、重なり合うエッジ画素を有することはないかもしれないが、互いに近接する画素に該当する可能性がある。これらのケースについて考慮するために、キャプチャされた画像を比較する際に、直接相似分析機能75の他に、データベース画像において、第1レベルの8近接画素及び第2レベルの16近接画素を考慮してもよい。従って本発明の実施形態においては、機器が実行する方法は更に、キャプチャされ、正規化された画像から、エッジ画像の各画素の近接画素に対して位置及び方向を備える追加的なインデクス可能な特徴を得るステップと、得られた追加的なインデクス可能な特徴を、データベースの追加的なインデクス可能な特徴と、相似機能を使用して比較するステップと、を含んでもよい。
その後、データベース52において、三次元ジェスチャとマッチするジェスチャ画像を、追加的なインデクス可能な特徴との比較にも基づいて決定してよい。
さらに、三次元ジェスチャとマッチするジェスチャ画像を、ジェスチャ画像のシークエンスにおいて、互いに近いジェスチャ画像を示すジェスチャマップに基づいて決定してよい。機器における方法は更に、ユーザのジェスチャを、画像のシークエンスに基づいて追跡するステップを含む。そして、データベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、追跡されたユーザのジェスチャにも基づいて決定してよい。
上述の任意の実施形態において、ジェスチャ画像のデータベース52における各エントリーに、3つの方向及び3つの位置のパラメータを備える、関連する三次元の動きのパラメータをタグ付けしてよい。従って方法は更に、三次元ジェスチャとマッチする、決定されたジェスチャ画像に関連する三次元の動きのパラメータを、データベースからリトリーブするステップを含む。
図12は、本発明の実施形態による、三次元ジェスチャを認識する機器20を示す、概略的なブロック図である。機器20は、正規化されたジェスチャ画像の、インデクス可能な特徴54を備えるジェスチャ画像のデータベース52へのアクセスを有するよう構成される。インデクス可能な特徴は、正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備える。機器は、三次元ジェスチャの画像33をキャプチャするよう構成されたセンサ34に接続可能である。センサ34は、機器20内に備えられるか、又は機器から独立してもよい。機器20は処理ユニット24を備える。処理ユニット24は、センサを介して三次元ジェスチャの画像33をキャプチャし、キャプチャされた画像を正規化し、及びキャプチャされ、正規化された画像33から、インデクス可能な特徴36を取得するよう構成される。インデクス可能な特徴は、キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備える。処理ユニット24はまた、得られたインデクス可能な特徴36を、データベースのインデクス可能な特徴54と、相似機能を使用して比較し、及びデータベース52において、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定するよう構成される。
さらに処理ユニット24は、データベースにおいて、キャプチャされた画像とマッチする複数のジェスチャ画像を決定し、及び複数のジェスチャ画像の一つとすべく、データベース52において、三次元ジェスチャとマッチするジェスチャ画像を決定するために、得られたインデクス可能な特徴を、直接相似分析を使用して比較するよう構成されてよい。
さらに処理ユニット24は、キャプチャされた画像とマッチする複数のジェスチャ画像のサブセットを決定し、及び複数のジェスチャ画像のサブセットの1つとすべく、データベース52において、三次元ジェスチャとマッチするジェスチャ画像を決定するために、得られたインデクス可能な特徴を、ジェスチャ画像の複数に対する逆相似分析を使用して比較するよう構成されてよい。
実施形態において、さらに処理ユニット24は、キャプチャされ、正規化された画像から、エッジ画像の各画素の近接画素に対して位置及び方向を備える追加的なインデクス可能な特徴を得るよう構成されてよい。さらに処理ユニット24は、得られた追加的なインデクス可能な特徴を、データベースの追加的なインデクス可能な特徴と、相似機能を使用して比較し、及び追加的なインデクス可能な特徴との比較にも基づいて、データベース52において、三次元ジェスチャとマッチするジェスチャ画像を決定するよう構成されてよい。
さらに処理ユニット24は、三次元ジェスチャとマッチするジェスチャ画像を、ジェスチャ画像のシークエンスにおいて、互いに近いジェスチャ画像を示すジェスチャマップに基づいて決定するよう構成されてよい。処理ユニット24は、三次元ジェスチャの画像のシークエンスを、センサ34を介してキャプチャするよう構成されてよい。この実施形態において処理ユニットは、ユーザのジェスチャを、画像のシークエンスに基づいて追跡し、及びデータベース52において、三次元ジェスチャとマッチするジェスチャ画像もまた、追跡されたユーザのジェスチャに基づいて決定するよう構成されてよい。
さらに処理ユニット24は、ディスプレイ上に提示されたビジュアルコンテンツを修正するために、三次元ジェスチャとマッチする、決定されたジェスチャ画像を使用するよう構成されてよい。さらに、ジェスチャ画像のデータベース52における各エントリーは、3つの方向及び3つの位置のパラメータを備える、関連する三次元の動きのパレメータをタグ付けされてよい。そしてさらに処理ユニット24は、三次元ジェスチャとマッチする、決定されたジェスチャ画像に関連する三次元の動きのパラメータを、データベース52からリトリーブするよう構成されてよい。
機器20は、実施形態において、既述の処理ユニット24により実行可能な指示を含むメモリを備えてよい。これにより機器は、センサを介して三次元ジェスチャの画像をキャプチャし、キャプチャされた画像を、データベースの正規化されたジェスチャ画像に従って正規化し、キャプチャされ、正規化された画像からインデクス可能な特徴を得て、得られたインデクス可能な特徴を、データベースのインデクス可能な特徴と、相似機能を使用して比較し、及びデータベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定するよう動作する。機器20はまた、処理ユニット24に接続され、及びセンサ34及び/又はデータベース53と通信するよう構成されたインタフェース回路を備えてよい。
図12の実施形態を代替的に説明すると、機器20は、センサを介して三次元ジェスチャの画像をキャプチャする手段、キャプチャされた画像を、データベースの正規化されたジェスチャ画像に従って正規化する手段、キャプチャされ、正規化された画像からインデクス可能な特徴を得る手段、得られたインデクス可能な特徴を、データベースのインデクス可能な特徴と、相似機能を使用して比較する手段、及びデータベースにおいて、三次元ジェスチャとマッチするジェスチャ画像を、比較に基づいて決定する手段を備えてよい。上述の手段は、ハードウエア、ソフトウエア、ファームウエア又はそれらの任意の組み合わせにおいて実装される、機能性ユニットである。一実施形態においては、手段はプロセッサ上で動作するコンピュータプログラムとして実現される。
図12の実施形態を、また別の方法で説明すると、機器20は、単一ユニット又は複数のユニットである中央処理装置(CPU:Central Processing Unit)を備えてよい。さらに機器20は、例えばEEPROM(Electrically Erasable Programmable Read-Only Memory)、フラッシュメモリ又はディスクドライブ等の不揮発性メモリの形状である、少なくとも1つのコンピュータプログラムプロダクト(CPP:computer program product)を備えてよい。CPPはコンピュータプログラムを備えてよく、このコンピュータプログラムは、機器20のCPU上で動作する場合、機器20に、図11a及び図11bに関連して既述した方法を実行させる、コード手段を備える。換言すれば、上述のコード手段がCPU上で動作する場合、それらのコード手段は、図12の処理ユニット24に該当する。
上記に詳述した実施形態は、例としてのみ挙げたものであり、限定的なものではない。別添の請求項の範囲内においては、他の解決策、使用、目的及び機能が可能である。

Claims (16)

  1. 三次元ジェスチャの認識方法であって、ジェスチャ画像のデータベース(52)へのアクセスを有する機器(20)において実行する方法において、前記機器は、前記三次元ジェスチャの画像(33)をキャプチャするよう構成されたセンサ(34)と通信し、前記ジェスチャ画像のデータベース(52)は、正規化されたジェスチャ画像のインデクス可能な特徴(54)を備え、該インデクス可能な特徴は、前記正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備え、該方法は、
    前記三次元ジェスチャの前記画像(33)を、前記センサを介してキャプチャするステップ(110)と、
    比較を可能とするために、前記データベース(52)の前記正規化されたジェスチャ画像に従って、キャプチャされた画像を正規化するステップ(120)と、
    キャプチャされ、正規化された前記画像(33)から、インデクス可能な特徴(36)を得るステップ(130)であって、該インデクス可能な特徴(36)は、前記キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備えるステップ(130)と、
    得られた前記インデクス可能な特徴(36)を、前記データベースの前記インデクス可能な特徴(54)と、相似機能を使用して比較するステップ(140)と、
    前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を、前記比較に基づいて決定するステップ(150)であって、前記ジェスチャ画像のデータベース(52)における各エントリーに、3つの方向及び3つの位置のパラメータを備える、関連する三次元の動きのパラメータをタグ付けするステップと、
    前記三次元ジェスチャとマッチする、決定されたジェスチャ画像に関連する三次元の動きのパラメータを、前記データベース(52)からリトリーブするステップと、
    を含む方法。
  2. 請求項1に記載の方法であって、
    得られた前記インデクス可能な特徴を比較する前記ステップ(140)は、更に、
    前記データベースにおいて、前記キャプチャされた画像とマッチする複数のジェスチャ画像を決定するために、直接相似分析を使用するステップ(141)と、
    前記複数のジェスチャ画像の1つとするために、前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を決定するステップ(150)と、を含む方法。
  3. 請求項2に記載の方法であって、
    得られた前記インデクス可能な特徴を比較する前記ステップ(140)は、
    前記キャプチャされた画像とマッチする、前記複数のジェスチャ画像のサブセットを決定するために、前記複数のジェスチャ画像に対して逆相似分析を使用するステップ(142)と、
    前記複数のジェスチャ画像の前記サブセットの1つとするために、前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を決定するステップ(150)と、
    を含む方法。
  4. 請求項1〜3の何れか一項に記載の方法であって、更に、
    前記キャプチャされ、正規化された画像から、前記エッジ画像の各画素の近接画素に対して位置及び方向を備える追加的なインデクス可能な特徴を得るステップと、
    得られた前記追加的なインデクス可能な特徴を、前記データベースの追加的なインデクス可能な特徴と、前記相似機能を使用して比較するステップと、
    を含み、
    前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を、前記追加的なインデクス可能な特徴との比較にも基づいて決定する方法。
  5. 請求項1〜4の何れか一項に記載の方法であって、
    前記三次元ジェスチャとマッチするジェスチャ画像を、ジェスチャ画像のシークエンスにおいて、互いに近いジェスチャ画像を示すジェスチャマップに基づいて決定する方法。
  6. 請求項1〜5の何れか一項に記載の方法であって、
    前記画像をキャプチャする前記ステップ(110)は、前記三次元ジェスチャの画像のシークエンスをキャプチャするステップを含む方法。
  7. 請求項6に記載の方法であって、更に、
    ユーザのジェスチャを、前記画像のシークエンスに基づいて追跡するステップを含み、
    前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を、追跡された前記ユーザのジェスチャにも基づいて、決定する方法。
  8. 請求項1〜7の何れか一項に記載の方法であって、更に、
    ディスプレイ上に提示されたビジュアルコンテンツを修正するために、前記三次元ジェスチャとマッチする、決定されたジェスチャ画像を使用するステップ(160)を含む方法。
  9. 三次元ジェスチャを認識する機器(20)であって、正規化されたジェスチャ画像の、インデクス可能な特徴(54)を備えるジェスチャ画像のデータベース(52)へのアクセスを有するよう構成される機器(20)において、
    前記インデクス可能な特徴は、前記正規化されたジェスチャ画像のエッジ画像の各画素に対して位置及び方向を備え、前記機器(20)は、前記三次元ジェスチャの画像(33)をキャプチャするよう構成されたセンサ(34)に接続可能であり、及び処理ユニット(24)を備え、
    前記処理ユニット(24)は、
    前記センサ(34)を介して前記三次元ジェスチャの前記画像(33)をキャプチャし、
    比較を可能とするために、前記データベース(52)の前記正規化されたジェスチャ画像に従って、キャプチャされた画像を正規化し、
    キャプチャされ、正規化された前記画像(33)から、インデクス可能な特徴(36)を得て、前記インデクス可能な特徴(36)は、前記キャプチャされ、正規化された画像のエッジ画像の各画素に対して位置及び方向を備え、
    得られた前記インデクス可能な特徴(36)を、前記データベースの前記インデクス可能な特徴(54)と、相似機能を使用して比較し、及び
    前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を、前記比較に基づいて決定し、前記ジェスチャ画像のデータベース(52)における各エントリーは、3つの方向及び3つの位置のパラメータを備える、関連する三次元の動きのパラメータをタグ付けされ、
    前記三次元ジェスチャとマッチする、決定されたジェスチャ画像に関連する三次元の動きのパラメータを、前記データベース(52)からリトリーブする、よう構成される機器(20)。
  10. 請求項9に記載の機器(20)であって、
    前記処理ユニット(24)は更に、前記データベースにおいて、前記キャプチャされた画像とマッチする、複数のジェスチャ画像を決定するために、得られた前記インデクス可能な特徴を、直接相似分析を使用して比較するよう構成され、
    前記処理ユニット(24)は更に、前記複数のジェスチャ画像の1つとするために、前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を決定する、よう構成される機器(20)。
  11. 請求項10に記載の機器(20)であって、
    前記処理ユニット(24)は更に、前記キャプチャされた画像とマッチする、前記複数のジェスチャ画像のサブセットを決定するために、得られた前記インデクス可能な特徴を、前記複数のジェスチャ画像に対する逆相似分析を使用して比較するよう構成され、
    前記処理ユニット(24)は更に、前記複数のジェスチャ画像のサブセットの1つとするために、前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を決定する、よう構成される機器(20)。
  12. 請求項9〜11の何れか一項に記載の機器(20)であって、
    前記処理ユニット(24)は、更に、
    前記キャプチャされ、正規化された画像から、前記エッジ画像の各画素の近接画素に対して位置及び方向を備える追加的なインデクス可能な特徴を得て、
    得られた前記追加的なインデクス可能な特徴を、前記データベースの追加的なインデクス可能な特徴と、前記相似機能を使用して比較し、
    前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を、前記追加的なインデクス可能な特徴との比較にも基づいて決定する、よう構成される機器(20)。
  13. 請求項9〜12の何れか一項に記載の機器(20)であって、
    前記処理ユニット(24)は更に、前記三次元ジェスチャとマッチするジェスチャ画像を、ジェスチャ画像のシークエンスにおいて、互いに近いジェスチャ画像を示すジェスチャマップに基づいて決定する、よう構成される機器(20)。
  14. 請求項9〜13の何れか一項に記載の機器(20)であって、
    前記処理ユニット(24)は更に、前記三次元ジェスチャの画像のシークエンスを、前記センサ(34)を介してキャプチャする、よう構成される機器(20)。
  15. 請求項14に記載の機器(20)であって、
    前記処理ユニット(24)は、更に、
    ユーザのジェスチャを、前記画像のシークエンスに基づいて追跡し、
    前記データベース(52)において、前記三次元ジェスチャとマッチするジェスチャ画像を、追跡された前記ユーザのジェスチャにも基づいて決定する、よう構成される機器(20)。
  16. 請求項9〜15の何れか一項に記載の機器(20)であって、
    前記処理ユニット(24)は更に、ディスプレイ上に提示されたビジュアルコンテンツを修正するために、前記三次元ジェスチャとマッチする、決定されたジェスチャ画像を使用する、よう構成される機器(20)。
JP2016562725A 2014-01-05 2014-12-22 モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム Active JP6571108B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461923687P 2014-01-05 2014-01-05
US61/923,687 2014-01-05
PCT/SE2014/051562 WO2015102527A1 (en) 2014-01-05 2014-12-22 Real-time 3d gesture recognition and tracking system for mobile devices

Publications (2)

Publication Number Publication Date
JP2017505965A JP2017505965A (ja) 2017-02-23
JP6571108B2 true JP6571108B2 (ja) 2019-09-04

Family

ID=52392189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016562725A Active JP6571108B2 (ja) 2014-01-05 2014-12-22 モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム

Country Status (6)

Country Link
US (1) US10108270B2 (ja)
EP (1) EP3090382B1 (ja)
JP (1) JP6571108B2 (ja)
KR (1) KR102285915B1 (ja)
CN (1) CN106030610B (ja)
WO (1) WO2015102527A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10015402B2 (en) * 2014-09-08 2018-07-03 Nintendo Co., Ltd. Electronic apparatus
US10147243B2 (en) * 2016-12-05 2018-12-04 Google Llc Generating virtual notation surfaces with gestures in an augmented and/or virtual reality environment
US10107767B1 (en) * 2017-06-14 2018-10-23 The Boeing Company Aircraft inspection system with visualization and recording
CN107316025B (zh) * 2017-06-27 2021-04-06 北京康邦科技有限公司 一种手部姿态识别方法及识别系统
CN107479715A (zh) * 2017-09-29 2017-12-15 广州云友网络科技有限公司 利用手势控制实现虚拟现实交互的方法和装置
CN107918488B (zh) * 2017-10-27 2020-08-11 杭州电子科技大学 一种基于特征选择的各向同性三维手势识别方法
US10528133B2 (en) 2018-03-13 2020-01-07 Facebook Technologies, Llc Bracelet in a distributed artificial reality system
US10572002B2 (en) * 2018-03-13 2020-02-25 Facebook Technologies, Llc Distributed artificial reality system with contextualized hand tracking
SE542978C2 (en) 2019-03-20 2020-09-22 Manomotion Ab A method and device for recognizing a gesture in real-time
CN110276292B (zh) * 2019-06-19 2021-09-10 上海商汤智能科技有限公司 智能车运动控制方法及装置、设备和存储介质
US11232582B2 (en) * 2020-04-21 2022-01-25 Here Global B.V. Visual localization using a three-dimensional model and image segmentation
US11340707B2 (en) * 2020-05-29 2022-05-24 Microsoft Technology Licensing, Llc Hand gesture-based emojis
CN115836270A (zh) * 2020-06-26 2023-03-21 交互数字Ce专利控股有限公司 用户界面方法和系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69626208T2 (de) * 1996-12-20 2003-11-13 Hitachi Europ Ltd Verfahren und System zur Erkennung von Handgesten
US6072494A (en) * 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
US7050606B2 (en) * 1999-08-10 2006-05-23 Cybernet Systems Corporation Tracking and gesture recognition system particularly suited to vehicular control applications
US6788809B1 (en) * 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
SE519733C2 (sv) * 2000-07-05 2003-04-01 Olof Lindahl System och förfarande för tolkning av visuell information överför till en person genom taktil inverkan på känselorgan på personens kropp
US7620205B2 (en) * 2005-08-31 2009-11-17 Siemens Medical Solutions Usa, Inc. Method for characterizing shape, appearance and motion of an object that is being tracked
US7681796B2 (en) * 2006-01-05 2010-03-23 International Business Machines Corporation Mobile device tracking
US7725547B2 (en) * 2006-09-06 2010-05-25 International Business Machines Corporation Informing a user of gestures made by others out of the user's line of sight
KR100978929B1 (ko) * 2008-06-24 2010-08-30 한국전자통신연구원 기준 제스처 데이터 등록방법, 이동단말의 구동방법 및이를 수행하는 이동단말
US20100053151A1 (en) 2008-09-02 2010-03-04 Samsung Electronics Co., Ltd In-line mediation for manipulating three-dimensional content on a display device
DE102008052928A1 (de) * 2008-10-23 2010-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zur Erkennung einer Geste in einem Bild, sowie Vorrichtung, Verfahren und Computerprogramm zur Steuerung eines Geräts
US9417699B2 (en) 2008-12-23 2016-08-16 Htc Corporation Method and apparatus for controlling a mobile device using a camera
TWI395145B (zh) * 2009-02-02 2013-05-01 Ind Tech Res Inst 手勢辨識系統及其方法
CN101599177B (zh) * 2009-07-01 2011-07-27 北京邮电大学 一种基于视频的人体肢体运动的跟踪方法
JP5553141B2 (ja) * 2009-11-11 2014-07-16 ソニー株式会社 画像処理システム、画像処理装置、画像処理方法、およびプログラム
JP2011253292A (ja) * 2010-06-01 2011-12-15 Sony Corp 情報処理装置および方法、並びにプログラム
US8649575B2 (en) * 2010-08-24 2014-02-11 Samsung Electronics Co., Ltd. Method and apparatus of a gesture based biometric system
KR101708696B1 (ko) 2010-09-15 2017-02-21 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
US8582867B2 (en) * 2010-09-16 2013-11-12 Primesense Ltd Learning-based pose estimation from depth maps
US9002099B2 (en) * 2011-09-11 2015-04-07 Apple Inc. Learning-based estimation of hand and finger pose
US9734393B2 (en) * 2012-03-20 2017-08-15 Facebook, Inc. Gesture-based control system
US9122916B2 (en) * 2013-03-14 2015-09-01 Honda Motor Co., Ltd. Three dimensional fingertip tracking

Also Published As

Publication number Publication date
KR20160129000A (ko) 2016-11-08
JP2017505965A (ja) 2017-02-23
CN106030610A (zh) 2016-10-12
EP3090382A1 (en) 2016-11-09
WO2015102527A1 (en) 2015-07-09
EP3090382B1 (en) 2023-08-30
US20160334877A1 (en) 2016-11-17
KR102285915B1 (ko) 2021-08-03
US10108270B2 (en) 2018-10-23
CN106030610B (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
JP6571108B2 (ja) モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム
Yao et al. Contour model-based hand-gesture recognition using the Kinect sensor
Sharp et al. Accurate, robust, and flexible real-time hand tracking
US9912874B2 (en) Real-time visual effects for a live camera view
US8994652B2 (en) Model-based multi-hypothesis target tracker
TWI682326B (zh) 追蹤系統及其方法
US11842514B1 (en) Determining a pose of an object from rgb-d images
CN104487915A (zh) 维持扩增的连续性
CN110986969B (zh) 地图融合方法及装置、设备、存储介质
CN113034652A (zh) 虚拟形象驱动方法、装置、设备及存储介质
Yousefi et al. 3D gesture-based interaction for immersive experience in mobile VR
Dhore et al. Human Pose Estimation And Classification: A Review
JP6393495B2 (ja) 画像処理装置および物体認識方法
Thabet et al. Algorithm of local features fusion and modified covariance-matrix technique for hand motion position estimation and hand gesture trajectory tracking approach
Yousefi et al. 3D hand gesture analysis through a real-time gesture search engine
Mesbahi et al. Hand gesture recognition based on various deep learning YOLO models
Jain et al. [POSTER] AirGestAR: Leveraging Deep Learning for Complex Hand Gestural Interaction with Frugal AR Devices
Kim et al. Pointing gesture-based unknown object extraction for learning objects with robot
Uke et al. Optimal video processing and soft computing algorithms for human hand gesture recognition from real-time video
Augustauskas et al. Implementation of artificial intelligence methods for virtual reality solutions: a review of the literature
Zholshiyeva et al. A Real-Time Approach to Recognition of Kazakh Sign Language
Sharma Hand Gesture Recognition System: As Assistive Technology to Control Machines
Cardona López Hand recognition using depth cameras
Yousefi et al. 3D Interaction through a Real-time Gesture Search Engine
Yousefi et al. 3D Gesture Analysis Using a Large-Scale Gesture Database

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20160727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161216

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20161221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190807

R150 Certificate of patent or registration of utility model

Ref document number: 6571108

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250