JP2011523112A - 拡張した被写体深度から抽出した三次元情報を用いたジェスチャ・ベース制御 - Google Patents

拡張した被写体深度から抽出した三次元情報を用いたジェスチャ・ベース制御 Download PDF

Info

Publication number
JP2011523112A
JP2011523112A JP2011503166A JP2011503166A JP2011523112A JP 2011523112 A JP2011523112 A JP 2011523112A JP 2011503166 A JP2011503166 A JP 2011503166A JP 2011503166 A JP2011503166 A JP 2011503166A JP 2011523112 A JP2011523112 A JP 2011523112A
Authority
JP
Japan
Prior art keywords
gesture
detecting
controlling
depth
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011503166A
Other languages
English (en)
Other versions
JP2011523112A5 (ja
JP5697590B2 (ja
Inventor
セント・ヒレア,ピア
アンダーコフラー,ジョン・エス
Original Assignee
オブロング・インダストリーズ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/109,263 external-priority patent/US8407725B2/en
Application filed by オブロング・インダストリーズ・インコーポレーテッド filed Critical オブロング・インダストリーズ・インコーポレーテッド
Publication of JP2011523112A publication Critical patent/JP2011523112A/ja
Publication of JP2011523112A5 publication Critical patent/JP2011523112A5/ja
Application granted granted Critical
Publication of JP5697590B2 publication Critical patent/JP5697590B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0075Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for altering, e.g. increasing, the depth of field or depth of focus
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/50Optics for phase object visualisation
    • G02B27/52Phase contrast optics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • G06F3/0325Detection arrangements using opto-electronic means using a plurality of light emitters or reflectors or a plurality of detectors forming a reference frame from which to derive the orientation of the object, e.g. by triangulation or on the basis of reference deformation in the picked up image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Studio Devices (AREA)
  • Processing Or Creating Images (AREA)
  • Position Input By Displaying (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

拡張被写体深度において抽出した三次元情報を用いたジェスチャ・ベース制御のためのシステムおよび方法について記載する。本システムは、少なくとも1つのプロセッサに結合されている複数の光検出器を備えている。光検出器は、本体を撮像する。複数の光検出器の内少なくとも2つの光検出器は、波面コーディング・カメラを構成する。プロセッサは、自動的に本体のジェスチャを検出する。このジェスチャは、本体の瞬時的状態を含む。検出は、1時点におけるジェスチャのジェスチャ・データを集計することを含む。ジェスチャ・データは、撮像システムの被写体深度以内における本体の焦点解明データを含む。プロセッサは、ジェスチャをジェスチャ信号に変換し、このジェスチャ信号を用いて、プロセッサに結合されているコンポーネントを制御する。
【選択図】図9

Description

関連出願
本願は、2006年2月8日に出願した米国(US)特許出願第11/350,697号の一部継続出願である。
本願は、2008年4月2日に出願したUS特許出願第61/041,892号の優先権を主張する。
本出願は、2008年4月24日に出願したUS特許出願第12/109,263号の一部継続出願である。
本願は、2008年10月14日に出願したUS特許出願第61/105,243号の優先権を主張する。
本願は、2008年10月14日に出願したUS特許出願第61/105,253号の優先権を主張する。
発明の分野
本発明は、一般的にはコンピュータ・システムの分野に関し、更に特定すれば、拡張した被写体深度における三次元情報の抽出を用いた、ジェスチャ・ベース制御システム(gesture based control system)のためのシステムおよび方法に関する。
従来技術
撮像システムにおいて、拡張した被写体深度における三次元情報を抽出するとき、ある場面における一点までの距離は、同時に取りこんだ2つ以上の画像におけるその位置から推定することができる。この一点の三次元(3D)位置は、撮像装置間の3D関係が分かれば、基本的な幾何学的関係から計算することができる。ステレオ相関またはステレオ深度計算と呼ばれることが多い、多数の画像から空間的位置を計算する際の課題は、1つの画像における地点のマッピングを他方の画像におけるそのマッピングと自動的かつ高精度に関連付けることである。これは、殆どの場合、1つの画像から1つ以上の他の画像に画像の特徴を相関付けることによって行われている。しかしながら、全てのステレオ照合方法における基礎的な前提は、画像内に何らかの識別可能な局所的コントラストまたは特徴があって、その地点を別の画像におけるその位置に一致させられなければならないということである。したがって、焦点ずれ(misfocus)のために画像に何の局所的コントラストや特徴もない場合に問題が生ずる。ステレオ照合は、焦点が合っていない画像の領域においては高精度の結果が得られない。
画像の被写体深度を拡張する従来の手段は、カメラのレンズの瞳の直径を縮小することであった(「ストッピング・ダウン」(stopping down))。しかしながら、2つの副作用によって、この技法の有用性が損なわれる。第1に、撮像システムの感度が、瞳直径率の二乗分の1に低下する。第2に、最大空間周波数応答が、瞳直径率分の1に低下し、画像における分解能およびコントラストに制限が生ずる。つまり、従来の撮像システムでは、被写体深度、露出時間、および全体的なコントラストの間にはトレードオフがある。多重カメラ測距システムの場合、最終的な影響は、立体深度の精度(stereoscopic depth accuracy)と作業範囲との間における妥協である。
引用による包含
本明細書において述べる各特許、特許出願、および/または刊行物は、本願において引用することにより、個々の特許、特許出願、および/または刊行物の各々が具体的にそして個々に、引用することにより本願に含まれることを示した場合と同程度にその全体が本願にも含まれるものとする。
図1は、本発明のシステムの一実施形態の図である。 図2は、本発明のマーキング・タグの一実施形態の図である。 図3は、本発明の一実施形態におけるジェスチャ・ボキャブラリ(gesture vocabulary)におけるポーズの図である。 図4は、本発明の一実施形態におけるジェスチャ・ボキャブラリにおける方位の図である。 図5は、本発明の一実施形態におけるジェスチャ・ボキャブラリにおける2つの手の組み合わせの図である。 図6は、本発明の一実施形態におけるジェスチャ・ボキャブラリにおける方位配合の図である。 図7は、本発明のシステムの一実施形態の動作を示すフロー図である。 図8−1は、本システムの一実施形態におけるコマンドの一例である。 図8−2は、本システムの一実施形態におけるコマンドの一例である。 図9は、一実施形態の下において、拡張した被写体深度において三次元情報を抽出するジェスチャ。ベース制御システムのブロック図である。 図10は、一実施形態の下において、ジェスチャ・ベース制御システムにおいて用いられる波面コーディング撮像システムのブロック図である。 図11は、一実施形態の下において、2つの波面コーディング・カメラを含む波面コーディング撮像システムを用いて、拡張した被写体深度において三次元情報を抽出するジェスチャ・ベース制御システムのブロック図である。 図12は、一実施形態の下において、拡張被写体深度において抽出した三次元情報を用いたジェスチャ・ベース制御のフロー図である。 図13は、一実施形態の下において、ジェスチャ・ベース制御システムにおいて用いられる波面コーディング設計プロセスのブロック図である。
以下に、拡張被写体深度において抽出した三次元情報を用いたジェスチャ・ベース制御のためのシステムおよび方法について説明する。一実施形態のシステムは、少なくとも1つのプロセッサに結合されている複数の光検出器を備えている。これらの光検出器は、本体(body)を撮像する。複数の光検出器の内少なくとも2つの光検出器は、波面コーディング・カメラを構成する。プロセッサは、自動的に、本体のジェスチャを検出する。ジェスチャは、本体の瞬時的状態を構成する。検出は、一時点におけるジェスチャのジェスチャ・データを集計することを含む。ジェスチャ・データは、撮像システムの被写体深度内における本体の焦点解明データ(focus-resolved data)を含む。プロセッサは、ジェスチャをジェスチャ信号に変換し、このジェスチャ信号を用いて、プロセッサに結合されているコンポーネントを制御する。
一実施形態の方法は、撮像システムによって本体を撮像することを含み、この撮像は、本体の波面コーディング画像を発生することを含む。本方法は、自動的に本体のジェスチャを検出し、このジェスチャは本体の瞬時的状態を構成する。検出は、一時点におけるジェスチャのジェスチャ・データを集計することを含む。ジェスチャ・データは、撮像システムの被写体深度内における本体の焦点解明データを含む。本方法は、ジェスチャをジェスチャ信号に変換し、ジェスチャ信号に応答して、コンピュータに結合されているコンポーネントを制御することを含む。
以下の説明では、本明細書に記載する実施形態の完全な理解を更に深めるために、多数の特徴について説明する。本発明は、これらの具体的な詳細がなくても実用化できることは明白である。その他の場合、周知の機構については、詳細に説明していない。
システム
本発明の一実施形態のブロック図を図1に示す。ユーザは、彼の手101および102を、カメラ104A〜104Dのアレイの視野に置く。これらのカメラは、指ならびに手101および102の位置、方位、および移動を検出し、出力信号をプリプロセッサ105に発生する。プリプロセッサ105は、カメラ出力をジェスチャ信号に変換し、このジェスチャ信号をシステムのコンピュータ演算装置107に供給する。コンピュータ107は、入力情報を用いて、1つ以上の画面上カーソルを制御するコマンドを発生し、ビデオ出力をディスプレイ103に供給する。
このシステムでは、一人のユーザの手を入力として示すが、本発明は、多数のユーザを用いても実施することができる。加えて、手の代わりにまたは手に加えて、本システムはユーザの身体の任意の1つ以上の部分を追跡することができ、その部分とは、頭部、足、脚部、腕、肘、膝等を含む。
図示の実施形態では、4台のカメラを用いて、ユーザの手101および102の位置、方位、および移動を検出する。尚、本発明の範囲や主旨から逸脱することなく、本発明はこれらよりも多いカメラまたは少ないカメラとでも用いることができることは言うまでもない。加えて、実施形態例では、カメラは対称的に配置されているが、本発明にはこのような対称性の要件はない。ユーザの手の位置、方位、および移動を許容するのであれば、カメラの任意の数および位置付けでも、本発明において用いることができる。
本発明の一実施形態では、用いられるカメラは、グレー・スケール画像を取り込むことができるモーション・キャプチャ・カメラである。一実施形態では、用いられるカメラは、Vicon MX40カメラのような、Vicon社が製造するカメラである。このカメラは、カメラ内部処理を含み、毎秒1000フレームの画像取り込みが可能である。モーション・キャプチャ・カメラは、マーカを検出し位置を突き止めることができる。
記載している実施形態では、カメラは光学的検出に用いられる。他の実施形態では、カメラまたは他の検出器は、電磁、静磁気、RFID、またはその他の任意の適した種類の検出に用いることができる。
プリプロセッサ105は、三次元空間点再現および骨格点ラベリングを発生するために用いられる。ジェスチャ変換器106は、3D空間情報およびマーカ・モーション情報をコマンド言語に変換するために用いられる。コマンド言語は、コンピュータ・プロセッサによって解釈され、ディスプレイ上におけるカーソルの位置、形状、および動作(action)を更新することができる。本発明の代替実施形態では、プリプロセッサ105およびジェスチャ変換器106を組み合わせて1つのデバイスにすることもできる。
コンピュータ107は、Apple社、Dell社、または任意のその他の適した製造業者によって製造されるような、任意の汎用コンピュータとすればよい。コンピュータ107は、アプリケーションを実行し、表示出力を供給する。カーソル情報は、他の場合にはマウスまたはその他の先行技術の入力デバイスから得られるが、ここではジェスチャ・システムから得られる。
マーカ・タグ
本発明は、ユーザの1つ以上の指においてマーカ・タグの使用を想定し、本システムがユーザの手を突き止め、ユーザが左または右のどちらの手を見ているのか特定し、どの指が見えるか特定することができるようにする。これによって、本システムは、ユーザの手の位置、方位、および移動を検出することが可能になる。この情報によって、本システムは多数のジェスチャを認識することが可能となり、これらのジェスチャは、ユーザによってコマンドとして用いることが可能になる。
一実施形態では、マーカ・タグは基板(本実施形態では、人の手の上の種々の位置に装着するのに適している)と、基板の表面上に一意識別パターンで配列された離散マーカとを備えている物理的タグである。
マーカおよび連携する外部検知システムは、それらの三空間位置の高精度、正確、ならびに迅速および連続的捕獲が可能である任意のドメイン(光学、電磁、静磁気ドメイン等)において動作することができる。マーカ自体は、能動的(例えば、構造化した電磁パルスを放出することによって)、または受動的(例えば、本実施形態におけるように光学的に逆反射型とすることによって)のいずれでも動作することができる。
各捕獲フレームにおいて、検出システムは、器具を備え付けた作業空間立体(カメラまたはその他の検出器の可視範囲内)において現在タグからの全てのマーカを含む三空間位置を再現した、粒団状「クラウド」を受ける。各タグ上のマーカは、十分に多数であり、一意のパターンに配列されているので、検出システムは以下のタスクを行うことができる。(1)再現した各マーカ位置を、1つのタグを形成する点の1つのみの副集合体(subcollection)に割り当てるセグメント化、(2)セグメント化した点の各副集合体を特定のタグとして識別するラベリング、(3)識別したタグの三空間位置を再現する位置突き止め、および(4)識別したタグの三空間方位を再現する方位決定(orientation)。タスク(1)および(2)は、マーカ・パターンの具体的な本質によって可能となる。これについては、図2の一実施形態において以下で説明し例示する。
一実施形態では、タグ上のマーカは、規則的な格子位置の部分集合に装着されている。この基礎となる格子は、本実施形態のように、従来からのデカルト型であってもよいし、代わりに、他の何らかの規則的平面碁盤目状(regular plane tessellation; 例えば、三角形/六角形タイリング配列)であってもよい。格子の目盛りおよび空間は、隣接する格子位置が混乱する可能性がないように、マーカ検知システムの既知の空間分解能に関して確定する。全てのタグについてのマーカ・パターンの選択は、次の制約を満たさなければならない。タグのパターンは、回転、平行移動、または鏡像のいずれの組み合わせによる他のいずれのタグ・パターンとも一致してはならない。更に、ある指定した数のコンポーネント・マーカの損失(または隠蔽(occlusion)が許容されるように、多数のマーカおよびその配列を選択するとよい。いずれの任意の変換後であっても、損なったモジュール(compromised module)を他のいずれとも混同させることが起こりそうにないようにしなければならない。
これより図2を参照すると、多数のタグ201A〜201E(左手)および202A〜202E(右手)が示されている。各タグは、矩形であり、本実施形態では、5×7の格子アレイで構成されている。矩形形状が選択されたのは、タグの方位を決定し易いため、そして鏡面複製(mirror duplicate)の可能性を低減するためである。図示の実施形態では、各手の指毎にタグがある。実施形態によっては、手毎に1つ、2つ、3つ、または4つのタグを用いることが適当である場合もある。各タグは、異なるグレー・スケールまたは色調の境界を有する。この境界の内部には、3×5格子アレイがある。マーカ(図2の黒いドットで表す)は、情報を提供するために、この格子のある点に配置されている。
各パターンを「共通」および「一意」のサブパターンにセグメント化することにより、タグのマーカ・パターンにおいて、認定情報(qualifying information)をエンコードすることができる。例えば、本実施形態は、2つの可能な「境界パターン」、矩形境界線(boundary)を中心としたマーカの分布を指定する。つまり、タグの「ファミリー」を確立する。このため、左手を意図したタグは、タグ201A〜201Eにおいて示されるような同じ境界パターンを全て用いることができ、一方右手の指に取り付けられているタグには、タグ202A〜202Eに示すように異なるパターンを割り当てることができる。タグの全ての方位において、左パターンを右パターンから区別できるように、このサブパターンを選択する。図示した例では、左手パターンは、各角に1つのマーカ、そして角格子位置から2番目に1つのマーカを含む。右手パターンは、2つの角のみにマーカを有し、角でない格子位置に2つのマーカを有する。このパターンを検査することによって、4つのマーカの内いずれか3つが見ることができる限り、左手パターンを右手パターンから明確に区別することができることが明らかとなった。一実施形態では、境界の色または色調も、利き手(handedness)のインディケータとして用いることができる。
各タグは、勿論、一意の内部パターンを採用し続けなければならず、マーカはそのファミリの共通境界以内に分散されている。図示の実施形態では、内部格子アレイにおける2つのマーカが、10本の指の各々を一意に特定するのに十分であり、指の回転または方位による複製が生じないことが分かる。マーカの1つが隠蔽されたとしても、タグのパターンおよび利き手の組み合わせから、一意の識別子が得られる。
本実施形態では、格子の位置は、各逆反射マーカをその意図する位置に装着する(手作業の)タスクに対する補助として、視覚的に剛性基板上に存在する。これらの格子および意図するマーカ位置は、カラー・インクジェット・プリンタによって基板上にそっくりそのまま印刷される。ここでは、基板はシート状の(初期状態では)可撓性の「収縮フィルム」である。各モジュールがこのシートから切り離され、炉で焼成される。この熱処理の間に、各モジュールには正確で繰り返し可能な収縮が起こる。この手順に続く短い間隔において、冷却するタグには、例えば、指の長手方向曲線にしたがって、僅かに形状を付けることができる。その後、基板は適度に剛性となり、マーカを、指示された格子点に装着することができる。
一実施形態では、マーカ自体は、接着剤または何らかのその他のしかるべき手段によって基板に装着された小さな反射球体のように、三次元である。このマーカが三次元であることは、二次元マーカ上における検出および位置突き止めに役立つことができる。しかしながら、いずれも、本発明の主旨や範囲から逸脱することなく用いることができる。
現在では、タグはベルクロ(Velcro)またはその他のしかるべき手段によって、操作者が身に付けている手袋に装着されるか、あるいは、柔らかな両面テープを用いて操作者の指に直接装着される。第3実施形態では、剛性基板と共に分与し、操作者の指および手に直接個々のマーカを装着するまたは「描く」することができる。
ジェスチャ・ボキャブラリ
本発明は、手のポーズ、方位、手の組み合わせ、および方位の配合(orientation blends)で構成されるジェスチャ・ボキャブラリ(gesture vocabulary)を想定する。本発明のジェスチャ・ボキャブラリにおいてポーズおよびジェスチャを立案および伝達するために、表記言語(notation language)も実施する。ジェスチャ・ボキャブラリとは、力学的連結の瞬時的な「ポーズ状態」を簡潔なテキスト形態で表すシステムである。対象となる連結は、生物(例えば、人の手、または人の身体全体、あるいはバッタの足、あるいはキツネザルの関節脊柱)であってもよく、あるいは代わりに非生物であってもよい(例えば、ロボットのアーム)。いずれの場合でも、この連結は、単純(脊柱)でもまたは分岐(手)でもよい。本発明のジェスチャ・ボキャブラリ・システムは、いずれの特定的な連結についても、一定長のストリングを確立する。こうして、列(string)の「キャラクタ位置」を占める特定のASCIIキャラクタの集合体が、連結の瞬時的状態、即ち、「ポーズ」の一意の記述となる。
手のポーズ
図3は、本発明を用いたジェスチャ・ボキャブラリの一実施形態における手のポーズを示す。本発明は、1本の手における5本の指の各々を用いることを仮定する。これらの指には、p−小指、r−薬指、m−中指、i−人差し指、およびt−親指とコーディングする。指および親指のポーズ数を、図3に定義し更に例示する。ジェスチャ・ボキャブラリ・ストリングは、連結(この場合指)の表現可能な自由度毎に1つのキャラクタ位置を確定する。更に、このような各自由度は、離散化(または「量子化」)されていることが分かるので、その最大運動範囲は、当該ストリング位置における有限数の標準的ASCIIキャラクタの内の1つの割り当てによって表現することができる。これらの自由度は、本体特定の原点および座標系(手の裏、バッタの身体の中心、ロボット・アームの底辺等)に関して表現される。したがって、連結の位置および方位を「全体的に」更に大域的な座標系において表現するために、少数の追加のジェスチャ・ボキャブラリ・キャラクタ位置が用いられる。
引き続き図3を参照すると、多数のポーズが定義されており、ASCIIキャラクタを用いて識別されている。これらのポーズの一部は、親指およびそれ以外の指の間で分けられている。この実施形態では、本発明は、ASCIIキャラクタ自体がポーズを示唆するようなコーディングを用いる。しかしながら、示唆的であろうがなかろうが、ポーズを表すには、いずれのキャラクタでも用いることができる。加えて、本発明では、表記ストリングにASCIIキャラクタを用いる必要性はない。本発明の範囲や主旨から逸脱することなく、適したシンボル、数値、またはその他の表現であればいずれでも用いることができる。例えば、望ましければ、表記は指毎に2ビットを用いることもでき、あるいは所望に応じて、他の何らかの数のビットを用いることもできる。
巻き込んだ指(curled finger)は、キャラクタ「^」によって表され、一方巻き込んだ親指は「>」で表される。真っ直ぐな指または上を向いた親指は、「l」によって示され、角度をなす場合は「\」または「/」で示される。「−」は、真っ直ぐに横を向いた親指を表し、「x」は平面内に向いた親指を表す。
これら個々の指および親指の記述を用いると、確固不動の数の手のポーズを、本発明の方式を用いて、定義し記述することができる。各ポーズは、5つのキャラクタによって表され、その順序は、前述したように、p−r−m−i−tとなる。図3は、多数のポーズを例示し、ここでは一例として数個について説明する。手を平らにして地面に平行に保持する場合、「lllll」で表される。握り拳は「^^^^>」によって表される。「OK」の合図は、「lll^>」によって表される。
キャラクタ・ストリングは、示唆的キャラクタを用いる場合、単純な「人間可読性」(human readabiity)の機会を与える。各自由度を記述する1組の可能なキャラクタは、総じて、素早い認識および明白な類似性に着目して選択することができる。例えば、垂直線(「|」)は、連結エレメントが「直線状」であることを意味するように思われ、エル(「L」)は、90度の屈曲を意味することもでき、曲折アクセント記号(「^」)は、鋭角の屈曲を示すことができる。先に注記したように、所望に応じて、いずれのキャラクタまたはコーディングでも用いることができる。
本明細書に記載するようなジェスチャ・ボキャブラリ・ストリングを採用するシステムはいずれも、ストリング比較の高い計算効率の恩恵を享受する。指定されたいずれのポーズについても、その識別または検索は、キャラクタどおり、所望のポーズ・ストリングと瞬時的な実際のストリングとの間における「ストリング・コンペア」(例えば、UNIX(登録商標)の「stremp()」関数)となる。更に、「ワイルドカード・キャラクタ」の使用によって、プログラマやシステム設計者には、一層分かりやすく効率的かつ効果的となる。自由度の瞬時状態が一致とは関わりがない場合、疑問符(「?」)として指定することができ、追加のワイルドカードの意味を割り当てることができる。
方位(Orientation)
指および親指のポーズに加えて、手の方位が情報を表すことができる。地球空間(global-space)方位を記述するキャラクタも、透過的に選択するっことができる。キャラクタ「<」、「>」、「^」、および「v」は、方位キャラクタ位置において遭遇した場合、左、右、上、および下の考えを示すために用いることができる。図4は、手方位記述子、ならびにポーズおよび方位を組み合わせるコーディングの例を示す。本発明の一実施形態では、2つのキャラクタ位置が、最初に手の平の方向を指定し、次いで指の方向を指定する(指が真っ直ぐになっている場合、指の実際の屈曲には関係なく)。これら2つの位置に可能なキャラクタは、方位の「本体中心」観念(body-centric notion)を表現し、「−」、「+」、「x」、「*」、「^」、および「v」は、中間、側方、前方(順方向、本体から離れる側)、後方(逆方向、本体から離れる側)、頭上(上方)、および後端(下方)を記述する。
本発明の表示方式および実施形態では、キャラクタを示す5本指のポーズに続いて、コロン、次いで完全なコマンド・ポーズを定義するために2つの方位キャラクタがある。一実施形態では、開始位置は「xyz」ポーズと呼ばれ、親指は真っ直ぐ上を指し示し、人差し指は前方を指し示し、中指は人差し指に対して垂直であり、右手によってこのポーズが作られる場合、左を指し示す。これは、ストリング「^^xl−:−x」によって表される。
「XYZ−手」は、視覚的に提示された三次元構造の最大6自由度のナビゲーションを可能にするために、人の手の幾何学的形状を利用する技法である。この技法は操作者の手の全体的(bulk)平行移動および回転のみに依存し、したがってその指は原則として、いずれの所望のポーズに保持することができるが、本実施形態は、人差し指が本体から離れる方向を指し、親指が天井を指し、中指が左−右を指す、静止構成(static configuration)を優先する。つまり、これら3本の指は、三空間座標系、つまり、「XYZ−手」の3本の相互に直交する軸を記述する(大まかであるが、明白な歴然とした趣旨がある)。
次いで、XYZ−手ナビゲーションは、操作者の身体の前において所定の「中立位置」に保持された、前述のようなポーズの手、指に進む。三空間物体(またはカメラ)の三平行移動および三回転自由度へのアクセス(access)は以下の自然な方法で行われる。手の右−左移動(身体の自然座標系に対して)により、計算的コンテキストのx−軸に沿った移動が生じ、手の上下移動により、被制御コンテキストのy−軸に沿った移動が生じ、前後の手の移動(操作者の身体に向かう方向/から離れる方向)によって、このコンテキストにおけるz−軸運動が生ずる。同様に、人差し指を中心とする操作者の手の回転により、計算的コンテキストの方位の「転動」(roll)変化が生じ、操作者の手の中指および親指をそれぞれ中心とする回転によって、「縦方向」および「横方向」変化が類似的に生ずる。
尚、「計算的コンテキスト」は、本明細書では、XYZ−手方法によって制御される全体に言及するために用いられており、合成三空間物体またはカメラのいずれかを示唆するように思われるが、この技法は実世界物体の種々の自由度を制御するため、例えば、しかるべき回転アクチュエータを装備したビデオまたはモーション・ピクチャ・カメラのパン/ティルト/ロール制御にも等しく有用であることは言うまでもないことを注記しておく。更に、XYZ−手の姿勢によって得られる物理的自由度は、仮想ドメインであっても、ありのままにマッピングされ難い場合もある。本実施形態では、XYZ−手は、大きな全景的表示画像に対してナビゲーション的アクセスを提供するためにも用いられるので、操作者の手の左−右および上−下の運動が、画像を中心とする予期された左−右または上−下「パンニング」に繋がるが、操作者の手の前−後運動は「ズーミング」制御にマッピングする。
あらゆる場合において、手の運動と誘発される計算的平行移動/回転との間の結合は、直接的(即ち、操作者の手の位置的または回転オフセットが、一対一で、何らかの線形または非線形関数によって、計算的コンテキストにおける物体またはカメラの位置的または回転オフセットにマッピングする)、または間接的(即ち、操作者の手の位置的または回転オフセットが、一対一で、何らかの線形または非線形関数によって、計算的コンテキストにおける位置/方位の第1導関数またはより上位の導関数にマッピングし、実行中の積分が、計算的コンテキストの実際のゼロ次位置/方位における被静的変化を生み出す)のいずれかであることができる。この後者の制御手段は、自動車の「アクセル・ペダル」の使用に類似しており、ペダルの一定のオフセットによって、ほぼ一定の車速が得られる。
実世界のXYZ−手の局所的六自由度座標原点としての役割を果たす「中立位置」は、(1)空間における絶対位置および方位として(例えば、密閉室に対する)、(2)操作者の全体的な位置および「方向」(heading)には関係なく、操作者自身に対する固定位置および方位(例えば、身体の前方8インチ、顎の下10インチ、横方向に肩の平面と一直線状)として、あるいは(3)操作者の故意の二次的行動によって、対話的に(例えば、操作者の「別の」手によって演じられるジェスチャ・コマンドを用いて。前記コマンドは、XYZ−手の現在の位置および方位が今後平行移動および回転の原点として用いられるべきことを示す)確立することができる。
更に、XYZ−手の中立位置の周囲に「戻り止め」(detent)領域(または「死角」)を設けて、この立体空間における移動が被制御コンテキストにおける移動にマッピングしないようにすると便利である。
他のポーズも含むことができる。
[|||||:vx]は、手を平らにして(親指が他の指と平行)、手のひらが下を向き、指が前方に突き出している。
[|||||:x^]は、手を平らにして、手のひらが前を向き、指が天井を向いている。
[|||||:-x]は、手を平らにして、手のひらが身体の中心に向いており(左手の場合は右、右手の場合は左)、指が前方に突き出している。
[^^^^-:-x]は、手を1つにして親指を合わしている(親指は天井を向いている)。
[^^^|-:-x]は、銃を前方に構える真似である。
二手組み合わせ
本発明は、1つの手のコマンドおよびポーズだけでなく、2つの手によるコマンドおよびポーズも想定している。図5は、本発明の一実施形態における二手組み合わせおよび関連付けた表記の例を示す。第1の例の表記を検討すると、「完全停止」とは2つの拳を閉じていることを示す。「スナップショット」の例では、各手の親指および人差し指が広げられ、親指が互いに向き合って、ゴール・ポストの形状の枠を定めている。「舵およびスロットル開始位置」は、指および親指が上を向いており、手のひらが画面に面している。
方位配合(Orientation Blends)
図6は、本発明の一実施形態における方位配合の一例を示す。図示の例では、配合は、指ポーズ・ストリングの後ろにある括弧の中に囲まれた方位表記の対によって表されている。例えば、第1コマンドは、全て真っ直ぐに伸ばした指の位置を示す。方位コマンドの第1対により、手のひらをディスプレイに向かって平らにして、第2対によって、手を画面に向けて45度縦に回転させる。この例では、配合の対を示したが、本発明ではいずれの数の配合でも考えられる。
コマンドの例
図8は、本発明と共に用いることができる、多数の可能なコマンドを示す。本明細書における論述の一部は、ディスプレイ上におけるカーソルの制御についてであったが、本発明はその行動に限定されるのではない。実際に、本発明は、画面上における全てのデータおよびデータの一部、更にはディスプレイの状態を操作する際に、様々に応用することができる。例えば、ビデオ・メディアの再生中に、これらのコマンドをビデオ制御に代わって用いることができる。これらのコマンドは、一時停止、早送り、巻き戻しなどを行うために用いることができる。加えて、画像のズーム・インおよびズーム・アウトを行うため、画像の方位を変化させるため、いずれかの方向にパンニングするため等に実施することができる。また、本発明は、開く、閉じる、保存する等のような、メニュー・コマンドの代わりに用いることもできる。言い換えると、想像することができるいずれのコマンドまたは活動でも、手のジェスチャによって実施することができる。
動作
図7は、一実施形態における本発明の動作を示すフロー図である。ステップ701において、検出システムはマーカおよびタグを検出する。判断ブロック702において、タグおよびマーカが検出されたか否か判断を行う。検出されていない場合、システムはステップ701に戻る。ステップ702においてタグおよびマーカが検出された場合、システムはステップ703に進む。ステップ703において、システムは、検出されたタグおよびマーカから、手、指、およびポーズを特定する。ステップ704において、システムは、ポーズの方位を特定する。ステップ705において、システムは、検出された1つまたは双方の手の三次元空間位置を特定する。(ステップ703、704、および705の内任意のものまたは全てを1つのステップとして組み合わせてもよいことに注意されたい)。
ステップ706において、以上の情報を、前述したジェスチャ表記に変換する。判断ブロック707において、ポーズが有効か否か判断を行う。これは、発生した表記ストリングを用いた単純なストリング比較によって行うことができる。ポーズが有効でない場合、システムはステップ701に戻る。ポーズが有効である場合、ステップ708において、システムは表記および位置情報をコンピュータに送る。ステップ709において、コンピュータは、ジェスチャに応答して、取るべきしかるべき行為を決定し、ステップ710においてそれに応じてディスプレイを更新する。
本発明の一実施形態では、ステップ701〜705は、カメラ内蔵プロセッサによって実行する。他の実施形態では、望ましければ、この処理をシステム・コンピュータによって実行することもできる。
解析(Parsing)および変換(Translating)
本システムは、基礎となるシステムによって再現された低レベルのジェスチャの流れを「解析」および「変換」し、これら解析し変換したジェスチャを、コマンドまたはイベント・データの流れに変換することができる。このデータは、広範囲のコンピュータ・アプリケーションおよびシステムを制御するために用いることができる。これらの技法およびアルゴリズムは、これらの技法を実現するエンジン、およびエンジンの能力を利用するコンピュータ・アプリケーションを構築するプラットフォームの双方を提供するコンピュータ・コードから成るシステムにおいて具体化することができる。
一実施形態は、コンピュータ・インターフェースにおいて、人の手の豊富なジェスチャの使用を可能にすることを中心に据えるが、他の身体部分によって行われるジェスチャ(限定ではなく、腕、胴体、脚部、および頭部を含む)や、手ではない種々の器具によって行われるジェスチャを認識することもできる。これらの器具は、静止および連結式(articulating)双方であり、限定ではないが、キャリパ、コンパス、可撓性曲線近似器(curve approximator)、および種々の形状のポインティング・デバイスが含まれる。マーカおよびタグは、操作者によって所望に応じて携行および使用することができる品目および器具に被着することができる。
本明細書において記載するシステムは、認識し反応することができるジェスチャの範囲が豊富なジェスチャ・システムを構築することを可能にしつつ、同時にアプリケーションへの容易な統合にも備えた、多数の改革を組み込む。
一実施形態では、ジェスチャ解析および変換システムは、以下のものを備えている。
1)様々な異なる集計レベルにおいて、ジェスチャを指定する(コンピュータ・プログラムにおいて用いるためのエンコード)緻密かつ効率的な方法。
a.1本の手の「ポーズ」(手の部分の外形および互いに対する方位)。三次元空間における1つの手の方位および位置。
b.2つの手の組み合わせ。いずれかの手がポーズ、位置、または双方を考慮に入れる。
c.多数の人物の組み合わせ。本システムは2つよりも多い手を追跡することができ、したがって、一人よりも多い事物が協同して(ゲーム・アプリケーションの場合には競合して)目標システムを制御することができる。
d.ポーズが連続して組み合わされる順次ジェスチャ。これらを「動画」ジェスチャと呼ぶ。
e.操作者が空間内の形状を追跡する「書記素」ジェスチャ(grapheme gesture)。
2)所与のアプリケーション・コンテキストに関連があるものの上で、各カテゴリから特定のジェスチャを登録するプログラム技法。
3)登録されているジェスチャを特定することができ、これらのジェスチャをカプセル化するイベントを関連するアプリケーション・コンテキストに配信することができるように、ジェスチャの流れを解析するアルゴリズム。
指定システム(1)は、構成エレメント(1a)から(1f)と共に、本明細書に記載するシステムのジェスチャ解析および変換能力を利用するための基礎を提供する。
1本の手の「ポーズ」は、
i)手の指と甲との間の相対的方位、
ii)少数の離散状態への量子化、
のストリングとして表される。
相対的接合方位を用いることにより、本明細書に記載するシステムは、手のサイズおよび外形形状が異なることに伴う問題を回避することができる。このシステムでは、「操作者較正」を必要としない。加えて、ポーズをストリングまたは相対的方位の集合体として指定することにより、ポーズ表現を更に別のフィルタおよび指定と組み合わせることによって、一層複雑なジェスチャ指定(specification)を容易に作成することが可能になる。
ポーズ指定に少数の離散状態を用いることによって、ポーズを簡潔に指定することができ、更に種々の基礎となる追跡技術(例えば、カメラを用いた受動的光学追跡、点灯ドットおよびカメラを用いた能動的光学追跡、電磁場追跡等)を用いて、精度の高いポーズ認識を確実に行うことができる。
各カテゴリ(1a)から(1f)におけるジェスチャは、部分的に(または最小限に)指定することができるので、重大でないデータは無視される。例えば、2本の指の位置が明確であり他の指の位置は重要でないジェスチャは、2本の関連のある指の動作位置が与えられ、同じストリング内において、「ワイルドカード」または包括的「無視」インディケータが他の指に対して掲示されている1つの指定によって表すことができる。
本明細書において記載するジェスチャ認識のための改革の全ては、限定ではなく、多層指定技法、相対的方位の使用、データの量子化、および各レベルにおける部分的または最小指定の許容を含み、手のジェスチャの指定を超えて、他の身体部分や「製造した」器具および物体を用いたジェスチャの指定に一般化する。
「ジェスチャを登録する」プログラム技法(2)は、どのジェスチャをエンジンが実行システムの他の部分に入手可能にすべきか定めることをプログラマに可能にする、定められた1組のアプリケーション・プログラミング・インターフェース・コールによって構成されている。
これらのAPIルーチンは、アプリケーション設定時に用いることができ、実行アプリケーションの寿命の間用いることができる静止インターフェース定義を作成する。また、これらは、実行中にも用いることができ、インターフェース特性を動作中に変更することができる。このリアル・タイムでのインターフェース変更により、
i)複雑なコンテキストおよび条件付き制御状態を構築すること、
ii)動的にヒステリシスを制御環境に追加すること、および
iii)ユーザが実行システム自体のインターフェース・ボキャブラリを変更または拡張することができるアプリケーションを作成すること、
が可能となる。
ジェスチャの流れを解析するアルゴリズム(3)は、(1)におけるように指定され(2)におけるように登録されたジェスチャを、入来する低レベルのジェスチャ・データと比較する。登録されているジェスチャに対する一致が認識された場合、一致したジェスチャを表すイベント・データが積層され実行アプリケーションに配信される。
このシステムの設計においては、効率的なリアル・タイムでの照合が望まれ、指定されたジェスチャは、できるだけ素早く処理される可能性のツリーとして扱われる。
加えて、指定されたジェスチャを認識するために内部で使用されている原始的比較演算子は、アプリケーション・プログラマが用いるためにも露出されるので、アプリケーション・コンテキスト内部からでも、より多くの比較(例えば、複雑なジェスチャまたは複合ジェスチャにおける柔軟な状態の検査)を行うことができる。
認識「ロッキング」セマンティクス(recognition locking semantics)は、本明細書に記載するシステムの改革の1つである。これらのセマンティクスは、登録API(2)(および、より狭い範囲で、指定ボキャブラリ(1)内に埋め込まれる)によって暗示される(imply)。登録APIコールは、
i)「エントリ」状態通知部および「連続」状態通知部、ならびに
ii)ジェスチャ優先度指定部
を含む。
ジェスチャが認識されている場合、その「連続」状態は、同じまたは低い優先度のジェスチャの全ての「エントリ」状態よりも優先される。このエントリ状態と連続状態との間の区別は、認められるシステム使用可能性に大きくプラスになる。
本明細書において記載するシステムは、実世界のデータ・エラーおよび不確実性をものともせずに、ロバストな動作のためのアルゴリズムを含む。低レベル追跡システムからのデータは不完全である場合もある(光追跡におけるマーカの隠蔽、ネットワーク・ドロップアウト、処理の遅れ等を含む、種々の理由による)。
欠損データは、解析システムによって印が付けられ、その欠損データの量およびコンテキストに応じて、「最後に分かっていた」状態または「最もあり得る」状態のいずれかに組み込まれる。
特定のジェスチャ・コンポーネント(例えば、特定の関節の方位)についての状態が見つからないが、その特定のコンポーネントの「最後に分かっていた」状態を、物理的に可能であると分析することができる場合、本システムはこの最後に分かっていた状態をそのリアル・タイム照合において用いる。
逆に、最後に分かっていた状態が、物理的に不可能であると分析された場合、本システムはそのコンポーネントにとって「最良のジェスチャ範囲」に後退し、この合成データをそのリアル・タイム照合において用いる。
本明細書において記載する指定および解析システムは、「利き手不可知論」をサポートするように注意深く設計されているので、多数の手のジェスチャについて、いずれの手でもポーズの要件を満たすことができる。
仮想/ディスプレイおよび物理空間の一致
本システムは、1つ以上のディスプレイ・デバイス(「画面」)上に描かれた仮想空間を、当該システムの一人または複数の操作者によって占められる物理空間と一致するものとして扱う環境を提供することができる。このような環境の一実施形態についてここで説明する。この現実施形態は、固定位置に3つのプロジェクタ駆動画面を含み、1つのデスクトップ・コンピュータによって駆動され、本明細書に記載したジェスチャ・ボキャブラリおよびインターフェース・システムを用いて制御される。しかしながら、記載する技法は、いかなる数の画面でもサポートすること、これらの画面は移動可能であってもよいこと(固定ではなく)、画面は多くの独立したコンピュータによって同時に駆動してもよいこと、そしてシステム全体はいずれの入力デバイスまたは技法によっても制御できることを注記しておく。
本開示において記載するインターフェース・システムは、物理空間における画面の寸法、方位、および位置を決定する手段を有していなければならない。この情報を仮定して、本システムは、これらの画面が配置されている(そして、本システムの操作者が占める)物理空間を、本システム上で実行しているコンピュータ・アプリケーションの仮想空間への投影として動的にマッピングすることができる。この自動マッピングの一部として、本システムは、システムによってホストされているアプリケーションの必要性に応じて、種々の方法で2つの空間の規模、角度、深さ、寸法、およびその他の空間特性も変換する。
この物理空間と仮想空間との間における連続変換によって、既存のアプリケーション・プラットフォームでは達成が困難である、または既存のプラットフォーム上で実行するアプリケーション毎に1つ1つ実装しなければならない多数のインターフェース技法の一貫性があり普及する使用が可能となる。これらの技法は、(限定ではないが)以下を含む。
1)「リテラル・ポインティング」(literal pointing)の広く行き渡る自然なインターフェース技法としての使用。ジェスチャ・インターフェース環境において手を用いるか、あるいは物理的ポインティング・ツールまたはデバイスを用いる。
2)画面の移動または再位置決めに対する自動補償。
3)操作者の位置に応じて変化するグラフィクス・レンダリング。例えば、深度の知覚を高めるためにパララックス・シフトをシミュレーションする。
4)実世界位置、方位、状態等を考慮に入れた、画面上表示への物理的オブジェクトの含入。例えば、大きく不透明な画面の前に立っている操作者は、アプリケーションのグラフィクスと、画面の背後にある(そして、恐らく移動しているか、または方位を変えている)スケール・モデル(scale model)の真の位置の表現との双方を見ることができる。
リテラル・ポインティングは、マウスに基づくウィンドーイング・インターフェースや殆どのその他の現在のシステムにおいて用いられている絶対ポインティングとは異なることを注記するのは重要である。これらのシステムでは、操作者は仮想ポインタと物理ポインティング・デバイスとの間の変換を管理することを学習しなければならず、更にこれら2つの間で経験的知識に基づいてマッピングしなければならない。
対照的に、本開示において記載するシステムでは、アプリケーションまたはユーザの観点のいずれからでも、仮想空間と物理空間との間に差がないので(仮想空間の方が数学的操作がし易いことを除く)、操作者に経験的知識に基づく変換は必要とされない。
本明細書において記載する実施形態によって提供されるリテラル・ポインティングに最も近い類似性は、接触感応画面(例えば、多くのATMマシン上で見られる)である。接触感応画面は、画面上の二次元表示空間と画面表面の二次元入力空間との間に1対1のマッピングを規定する。同様に、本明細書において記載するシステムは、1つ以上の画面上に表示される仮想空間と、操作者によって占められる物理空間との間に柔軟なマッピング(1対1のマッピングも可能であるが、その必要性はない)を規定する。この類似性の有益さ(usefulness of the analogy)にも拘わらず、この「マッピング手法」の三次元、任意に大きなアーキテクチャ環境、および多数の画面への拡張は重要である。
本明細書において記載するコンポーネントに加えて、本システムは、環境の物理空間と各画面上の表示空間との間に連続的なシステム・レベルのマッピング(恐らく回転、平行移動、倍率調整、またはその他の幾何学的変換によって変更される)を実現するアルゴリズムも実装することができる。
計算オブジェクトおよびマッピングを取り込み、仮想空間のグラフィック表現を出力するレンダリング・スタック。
イベント・データ(現実施形態では、システムおよびマウス入力からのジェスチャ・データおよびポインティング・データの双方)を制御システムから取り込み、入力イベントからの空間データを仮想空間における座標にマッピングする入力イベント処理スタック。変換されたイベントは、次に、実行アプリケーションに配信される。
本システムがローカル・エリア・ネットワーク上にある数台のコンピュータに跨って実行するアプリケーションをホストすることを可能にする「グルー・レイヤ」。
拡張被写体深度において抽出した三次元情報を用いるジェスチャ・ベース制御
図9は、一実施形態の下において、拡張被写体深度において三次元情報を抽出する撮像システムを含むジェスチャ・ベース制御システム900のブロック図である。ユーザは、彼の手101および102をカメラ904A〜904Dのアレイの視野に置く。アレイ904A〜904Dの内少なくとも2台のカメラが、波面コーディング・カメラとなり、その各々は、以下で詳細に説明するように、波面コーディングマスク(ここでは、「光学非球面エレメント」または「光学エレメント」とも呼ぶ)を含む波面コーディング撮像システムのエレメントを備えている。ユーザの手および/または指は、先に述べたマーカ・タグを含んでいてもいなくてもよい。
カメラ904A〜904Dは、指ならびに手101および102の位置、方位、移動を含む、指ならびに手101および102の画像を検出するまたは取り込み、出力信号をプリプロセッサ905に発生する。プリプロセッサ905は、以下で説明する波面コーディングディジタル信号処理908を含むこと、またはこれに結合することができる。あるいは、波面コーディングディジタル信号処理は、システム900の1つ以上の他のコンポーネントに含めること、結合すること、これらの間で分散することもできる。波面コーディングディジタル信号処理908は、撮像システムの被写体深度を大きく拡大するように構成されている。
プリプロセッサ905は、カメラ出力をジェスチャ信号に変換し、このジェスチャ信号をシステムのコンピュータ演算装置907に供給する。このようにする際に、プリプロセッサ905は三次元空間点再現および骨格点ラベリングを発生する。ジェスチャ変換器906は、3D空間情報およびマーカ・モーション情報をコマンド言語に変換し、このコマンド言語は、コンピュータ・プロセッサによって、ディスプレイ上の位置、形状、および動作を更新するために解釈することができる。コンピュータ907は、この入力情報を用いて、1つ以上の画面上カーソルを制御するコマンドを発生し、ビデオ出力をディスプレイ903に供給する。
代替実施形態のプリプロセッサ905、ジェスチャ変換器906、およびコンピュータ907の内1つ以上を組み合わせて1つのデバイスにすることができる。システム構成には関係なく、プリプロセッサ905、ジェスチャ変換器906、およびコンピュータ907の各々の機能および/または機能性は、図1から図8を参照して説明した通りであり、そして本明細書の他のところに記載されている通りである。
更に、この例は、ユーザの手101および102の位置、方位、および移動を検出するために用いられる4台のカメラを示すが、本実施形態はそのように限定されるのではない。このシステム構成は、システムまたはワークステーションの構成に合わせて適宜2台以上のカメラを含むことができる。加えて、実施形態例ではカメラは対称的に配置されているが、このような対称性の要件はない。つまり、ユーザの手の位置、方位、および移動を可能にするのであればどのような位置付けでも、少なくとも2台のカメラを以後用いることができる。
本システムでは、一人のユーザの手を入力として示すが、本システムは、いずれの数の多数のユーザの手でも追跡することができる。加えて、手の代わりにまたは手に加えて、本システムは、頭部、足、脚部、腕、肘、膝等を含む、ユーザの身体であればいずれの1つまたは複数の部分でも追跡することができる。更に、本システムはいずれの数の生物オブジェクトまたは非生物オブジェクトでも追跡することができ、身体の部分の追跡に限定されるのではない。
特に、操作者の手(または同等に追跡される器具)に故意にまたは潜在的に近接するように光センサを配置するジェスチャ分析システムでは、このように理解されるエレメントは、通例、操作者の運動の自然なシーケンス全体にわたって、相対的距離規模(distance magnitude)の数桁(order)または多数桁の範囲を取る。このような距離の範囲を横断するイベントを一貫して焦点を解明して記録することは、従前の光学撮像システムの容量を超えている。しかしながら、これらの中距離幾何学(medium-distance geometries)は、巨視的デバイスおよび製品の設計に限って言えば、物体または操作者追跡のコンテキストでは望ましいことが多い。つまり、予期される操作者の活動範囲において局所的なコントラストまたは突出する特徴の安定性を確保する技法(従前の光学素子は、その目的には適していない)を提供することには価値がある。
本明細書におけるシステムにおいて用いられるような拡張被写体深度における三次元情報の抽出を記載する際、ある場面における1点までの距離は、同時に取り込んだ2つ以上の画像におけるその位置から推定することができる。この点の三次元(3D)位置は、撮像装置間の3D関係が分かっていれば、基本的幾何学的関係から計算することができる。ステレオ相関またはステレオ深度計算と呼ばれることが多い、多数の画像から空間的位置を計算する際の課題は、1つの画像における地点のマッピングを他方の画像におけるそのマッピングと自動的かつ高精度に関連付けることである。これは、殆どの場合、1つの画像から1つ以上の他の画像に画像の特徴を相関付けることによって行われている。しかしながら、全てのステレオ照合方法における基礎的な前提は、画像内に何らかの識別可能な局所的コントラストまたは特徴があって、その地点を別の画像におけるその位置に一致させられなければならないということである。したがって、焦点ずれ(misfocus)のために画像に何の局所的コントラストや特徴もない場合に問題が生ずる。ステレオ照合は、焦点が合っていない画像の領域においては高精度の結果が得られない。
画像の被写体深度を拡張する従来の手段は、カメラのレンズの瞳の直径を縮小することであった(「ストッピング・ダウン」(stopping down))。しかしながら、2つの副作用によって、この技法の有用性が損なわれる。第1に、撮像システムの感度が、瞳直径率の二乗分の1に低下する。第2に、最大空間周波数応答が、瞳直径率分の1に低下し、画像における分解能およびコントラストに制限が生ずる。つまり、従来の撮像システムでは、被写体深度、露出時間、および全体的なコントラストの間にはトレードオフがある。多重カメラ測距システムの場合、正味の影響は、立体深度精度(stereoscopic depth accuracy)と作業範囲との間における妥協となる。
レンズを停止させずに被写体深度を増大させる代わりの手法は、カメラ・レンズの瞳に、指定した処方の位相マスク(phase mask)を導入することである。適正に選択した位相関数によって、センサ上で取り込んだ画像の後続の電子処理によって、拡張した被写体深度を再現することができる。この技法は、波面コーディングとして知られており、一般に、被写体深度、カメラのダイナミック・レンジ、および信号対ノイズ比の間のトレードオフを提供する。波面コーディングは、特定の用途に合わせてカメラのパラメータを最適化することを可能にする。非常に高いダイナミック・レンジを必要とせず、本明細書において記載するジェスチャ認識のように、照明がユーザ制御下にある用途であれば、波面コーディングから利益を得て、規定の立体空間において高精度を達成することができる。
前述のように、一実施形態のシステムは、複数の波面コーディング・カメラからの出力を処理し、これらを用いて場面内部にて選択した物体の距離および位置を決定する。波面コーディングによって得られる拡張被写体深度は、ジェスチャ認識、およびその他の多種多様なタスク主体撮像作業多数の用途において用いることができ、その性能を大幅に向上させることができる。最少で2つのカメラが必要になるが、本実施形態において用いることができるカメラ数に上限はない。場面抽出は、2つ以上のカメラによる距離抽出に用いられる複数の処理技法(相関のような)の内いずれでも含むことができる。本明細書において記載する実施形態は、全ての波面コーディング位相関数、処理後に拡張被写体深度が得られる、それらの対応するデコーディング・カーネルを含む。
波面コーディング撮像システムにおいて用いるような波面コーディングは、一般化した非球面光学素子およびディジタル信号処理を用いて、撮像システムの性能を大幅に向上させる、および/またはコストを低減することができる一般的な技法である。採用する非球面光学素子の形式によって、焦点ずれに関する収差に非常に不感応な光学撮像特性が得られる。光学素子からは鋭く明確な画像が直接得られないが、サンプリングした画像にディジタル信号処理を適用すると、鋭く明確な最終画像が得られる。この画像も焦点ずれに関する収差には不感応である。
波面コーディングは、撮像性能を大幅に向上させつつ、撮像システムのサイズ、重量、およびコストを低減するために用いられる。波面コーディングは、非回転対称非球面光学エレメントおよびディジタル信号処理を基本的な態様で組み合わせて、撮像システムの被写体深度を大幅に拡張する。波面コーディングを用いると、撮像システムの被写体深度または焦点深度は、例えば、所与のアパーチャ・サイズ即ちF/#に対して、従来の撮像システムと比較して10倍以上増大させることができる。一実施形態の波面コーディング光学エレメントは、位相面であり、したがって光を吸収せず、露出または照明要件が高くなることもない。このような拡張被写体深度の挙動(performance)は、ストップ・ダウン・アパーチャによって必然的に発生するような、光学パワーの劇的な損失なしでは従前の撮像技法では不可能である。また、被写体深度/焦点深度の増大によって、撮像システムは、レンズ・エレメントを追加するかまたはレンズの複雑度を高めることによってこれまで制御していた焦点ずれに関する収差を制御することによって、物理的に安価となり、小型化、または軽量化が可能となる。波面コーディングによって制御することができる焦点ずれに関する収差には、色収差、ペッツヴァル湾曲、非点主査、球面収差、および温度に関する焦点ずれが含まれる。
波面コーディングは、混成撮像手法として、光学素子および電子素子を組み合わせて、被写体深度を増大させ、光学エレメントの数、製造許容度、および全体的なシステム・コストを低減する。図10は、一実施形態の下において、ジェスチャ・ベース制御システムに用いられる波面コーディング撮像システム1000のブロック図である。波面コーディング撮像システム1000の光学セクション1001は、従来の光学システムまたはカメラであり、アパーチャ・ストップの近くに波面コーディング光学エレメント1002を配置することによって変更されている。コーディング光学エレメントを追加することによって、焦点ずれに不感応な、特殊化された明確なぼけまたは点拡散機能を有する画像が得られる。サンプリングされた画像にディジタル処理1003を適用することによって、焦点ずれの影響に非常に不感応な鮮明で明確な画像1004が得られる。
図11は、一実施形態の下において、2つの波面コーディング・カメラを含む波面コーディング撮像システムを用いて、拡張被写体深度において三次元情報を抽出するジェスチャ・ベース制御システム1100のブロック図である。システム1100は、先に図10を参照して述べたように、少なくとも2台の波面コーディング・カメラ1101および1102を含む。プロセッサが、波面コーディング・カメラ1101および1102の出力を受けるように、そしてカメラ出力に対してデータ処理を実行するように結合されている。データ処理は、ディコンボリューション1120および距離抽出1130、その他を含み、拡張焦点距離マップ1140を発生する。
波面コーディング・システム1100では、このシステムの光学部分(例えば、波面コーディング・カメラ1101および1102)が、得られた画像を「コーディング」して中間画像1110を生成する。波面コーディング・エレメント(例えば、図10のエレメント1002)は、いずれの画像においても全ての点をわざとぼかすので、中間画像1110は焦点ずれのように見える。このような中間画像1110において、被写体深度内にあるほぼ全ての物体がぼやけているが、これらは同一にぼやけている。対照的に、従前の光学素子は、通例、場面における各物体までの距離に依存する可変ぼけ関数を有する画像を形成する。
中間波面コーディング画像1110から鮮明で明確な画像を生成するために、電子素子(例えば、波面コーディングディジタル信号処理)を用いて、システム依存画像ぼけを除去することによって、ぼけた中間画像を処理即ち「デコード」する(1120および1130)。ソフトウェアまたは特殊化したハードウェア解決策によって、リアル・タイムでディジタル・フィルタリングを実行することができる。
一実施形態のシステム光学素子は、従来のコンポーネントを含み、図10を参照して先に説明したように、波面コーディング機能を実行する少なくとも1つの追加光学エレメントがある。このエレメントは、けられを最少に抑えるために、光路内に、通例システムのアパーチャ・ストップの近くに置かれる。検出した画像に対して実行する信号処理は、光学素子、波面コーディング・エレメント、およびディジタル検出器の一次特性によって異なる。
一般的な波面コーディング・エレメントは、非回転対称で滑らかであるが、屈折面を用いることもできる。このエレメントは、別個のコンポーネントとすることができ、または一般化した非球面の追加によって、従前のレンズ・エレメント上に一体化することもできる。全てのコーディング・エレメントは、軸上光線を除いて、従前の幾何学的焦点に向かって進行する光がなくなるように、光の方向を変える。実際、光軸に沿って2本の光線が同じ点に向かって進行することはない。本システムは、いずれの画像面においても明確な画像を形成しない。
波面コーディング撮像システムの光学部分の主な効果は、脱焦、球面収差、非点収差、または場の湾曲というような、焦点に関する収差に対して、得られる画像を不感応にすることである。中間のぼやけた画像は、脱焦収差を構成する物体または撮像システムの変化に対して不感応または不変である。システム分析の視点からは、波面コーディング・システムの変調伝達関数(MTF)および点拡散関数(PSF)は、脱焦に対して不変である。
波面コーディング・システムからの中間画像のMTFが脱焦に対して殆ど変化を示さないが、このようなMTFは、焦点を合わせる(in-focus)従前のシステムと比較すると、パワーを低減させている。アポディゼーションを用いないので、全光学パワーが保存される。明確な画像を形成するために、ディジタル・フィルタリングまたは画像再生プロセスを用いる。これらの最終的MTFは、脱焦に対して非常に不感応である。つまり、本波面コーディング撮像システムは、非常に大きな被写体深度を有することになる。同様に、波面コーディング・システムからの中間PSFは、従前のシステムのPSFとは異なるが、これらは焦点ずれの変化に対して殆ど変化しない。
再度図10を参照すると、特殊目的の光学非球面エレメントが、従来の撮像システムのアパーチャ・ストップまたはその近くに置かれて、波面コーディング撮像システムを形成する。この光学エレメントは、得られるPSFおよび光学伝達関数(OTF)がある範囲の焦点ずれおよび焦点ずれに関する収差に不感応となるように、撮像システムを変更する。しかしながら、PSFおよびOTFは、高品質の合焦撮像システム(in-focus imaging system)によって得られるものとは同一ではない。撮像システムを焦点ずれ収差に不感応にするプロセスにより、特殊化された明確なぼけのある画像が得られ、このぼけは、波面コーディングディジタル信号処理によって除去される。
従来の撮像システムからのPSFは、例えば、焦点ずれによって劇的に変化するが、一方波面コーディング撮像システムからのPSFは、焦点ずれに対して目に付く変化を殆ど何も示さない。焦点ずれのある従前の撮像システムに適用して焦点ずれのぼけを除去するディジタル処理は、画像の異なる区域にある焦点ずれの量に応じた処理を用いる。多くの状況において、焦点ずれの量は未知であり、計算するのは困難である。加えて、焦点ずれのある従前の撮像システムのMTFは、ゼロまたはヌルを含む可能性が高く、このためにディジタル処理の難しさが増大する。対照的に、波面コーディング・システムからの焦点ずれのあるPSFの一定の性質は、ディジタル処理の焦点ずれに対する依存性を解消するために必要なものである。電荷結合デバイス(CCD)または最近の金属酸化物半導体(CMOS)−検出画像に適用されるディジタル処理は、焦点ずれや実際に撮像される場面には依存しない。加えて、波面コーディング撮像システムのMTFは、合焦および脱焦双方とも、ゼロまたはヌルを含まず、高品質の最終画像を可能にする。
被写体深度を拡張するための波面コーディングは、従前の方法(即ち、アパーチャのストップ・ダウン)が一般に受け入れられない撮像用途に、価値をつけ加えることができる。照明レベル、露出時間、または空間分解能に対する制約によって、以前の光学方法の用途が狭められることが多い。波面コーディングを用いることによって、露出時間を犠牲にしたり、大量の照明を必要としたりすることなく、焦点ずれに関する問題を低減することができる用途がある。
波面コーディング撮像システムは、前述のように、従来とは異なる光学設計、および得られた画像のディジタル信号処理を備えている。用いられる信号処理は、特定の光学システムによって異なる。波面コーディング光学素子は、用いられる信号処理の種類および量によって異なる。光学素子および信号処理は密接に結合されているので、設計においてシステムの光学コンポーネントおよびディジタル・コンポーネントが合体して最適化されれば、システムから最高の性能を期待するのは当然である。光学コンポーネントは、焦点ずれの影響に対する光学素子の変化または感度を最少に抑え、効率的な信号処理を可能にするように構成されている。ディジタル・コンポーネントは、アルゴリズムの複雑さ、処理時間、および画像ノイズに対するディジタル処理の影響を最少に抑えるように設計されている。
図12は、一実施形態の下において、拡張被写体深度から抽出した三次元情報を用いるジェスチャ・ベース制御のフロー図である。一実施形態のジェスチャ・ベース制御は、撮像システムによって本体を撮像すること1202を含む。撮像1202は、本体の波面コーディング画像を発生することを含む。一実施形態のジェスチャ・ベース制御は、本体のジェスチャを自動的に検出すること1204を含む。ジェスチャは、本体の瞬時的状態を含む。検出1204は、1時点においてジェスチャのジェスチャ・データを集計することを含む。ジェスチャ・データは、撮像システムの被写体深度内における本体の焦点解明データを備えている。一実施形態のジェスチャ・ベース制御は、ジェスチャをジェスチャ信号に変換すること1206を含む。一実施形態のジェスチャ・ベース制御は、ジェスチャ信号に応答して、コンピュータに結合されているコンポーネントを制御すること1208を含む。
一実施形態の波面コーディングのための基本ルーチンは、典型的な球面および非球面ならびに一般の波面コーディング表面形態を透して光線を追跡する光線追跡プログラムを含むことができる。光線追跡プログラムは、射出瞳(exit pupil)を計算し、所与の1組の光学およびディジタル・メリット関数またはオペランドを最適化するために用いられる。図13は、一実施形態の下において、ジェスチャ・ベース制御システムにおいて用いられる波面コーディング設計プロセス1300のブロック図である。この設計の出力は、限定ではなく、以下のように、従前の光学表面、材料、厚さ、および間隔、波面コーディング表面のパラメータ、ならびにディジタル・フィルタ係数を含む。
これより、図13を参照しながら、一般的な光学/ディジタル設計ループについて説明する。光線追跡プログラム1302は、光学表面を通過する光線を追跡して、射出瞳の光路差(OPD)1304を計算し、所与の1組の光学およびディジタル・メリット関数またはオペランドを最適化する。光線追跡プログラム1302への入力には、光学表面、厚さ、および動作条件(波長、視野、温度範囲、サンプル物体画像等)その他が含まれる。OTFを計算または発生し(1306)、検出器の幾何学的形状に関する画素OTFを追加する(1308)。サンプリングされたOTFおよびPSFを計算する(1310)。サンプリングしたPSFに基づいて、選択した処理アルゴリズムに合ったディジタル・フィルタ係数を発生する(1312)。処理は継続し、温度変化、エリアシング等による、サンプリングしたPSFおよびMTFの焦点を通過する際の視野角や色の変化を最小に抑えることに基づく、フィルタの評価点数(例えば、波面コーディングオペランド)、処理量、処理形態、処理に関する画像ノイズ、ディジタル・フィルタ・ノイズ利得等のようなディジタル処理パラメータを形成する。最適化ルーチンによって波面コーディングオペランドを従前の光学オペランド(サイデル波面収差、RMS波面誤差等)と組み合わせて、光学表面を変更する。動作は、従前の光線追跡による射出瞳光路差(OPD)の発生(1302)に戻る。
理論的に計算した波面コーディング表面形態は、光学最適化の開始点として用いられる。矩形に分離可能な表面形態の1つの一般的なファミリが、正規化座標において次のように示される。
指数パラメータαは、焦点ずれの範囲におけるMTFの高さを制御し、パラメータβは、焦点ずれに対する感度を制御する。一般に、パラメータβを増大させると、焦点ずれに対する感度は低下し、一方MTFの高さが減少し、結果的に得られるPSFの長さは増大する。
中間画像を再生し最終画像を生成するために用いられるフィルタリング・プロセスは、計算上の負担を強いる可能性がある。画像再生に必要とされるフィルタ・カーネルのサイズは、光学システムおよびコーディングプロセスによって導入される被写体深度の拡張(enhancement)に応じて、70×70係数程にもなる場合がある。一般に、被写体深度の拡張が大きい程、フィルタ・カーネルも大きくなり、ノイズによる不利益またはノイズ利得も大きくなる。更に、画像における角画素が波面コーディングによってぼやけるので、角画素をフィルタリングする必要がある。つまり、大きな画像程、小さな画像よりも多くの計算が必要となる可能性がある。画素が数千万に近い画像サイズでは、実用的で経済的なシステムのために、効率的な計算解決策が用いられる。矩形に分離可能なフィルタ近似のような計算の実施態様が、カーネルの寸法を縮小するのに役立つことができる。例えば、用いられる波面コーディング・エレメントは、次のように記述される、矩形に分離可能な立方体位相形態を有することができる。
ぼけを除去するためにぼやけた画像をフィルタリングすると、空間周波数として増幅および位相ずれが必ず生ずる。この増幅は、最終画像において信号だけでなくノイズも増大させる。非常に大きな被写体深度の拡張では、例えば、10倍以上では、波面コーディング・システムにおけるノイズ利得は、4倍または5倍になる可能性がある。2から4倍のもっと穏やかな被写体深度拡張では、ノイズ利得は2倍以下であるのが通例である。
相関付けられていないガウス・ノイズ(殆どの画像にとって正しい仮定)については、ノイズ利得はフィルタ係数のRMS値となる。適した小さなノイズ−利得値が得られない程に大きな被写体深度拡張を有するシステムでは、ディジタル・フィルタの分解能または空間帯域幅を減少させると、ノイズ利得を低減することができる。また、最終画像におけるコントラストを低下させても、ノイズ増大の全体的な影響を低減することができる。特殊化した非線形フィルタが、波面コーディング画像においてノイズを除去するための最良の解決策である。
一実施形態においてMTFおよびPSFを形成するために用いられる波面コーディング光学エレメントは矩形に分離可能であるので、用いられる信号処理も矩形に分離可能であることができる。矩形に分離可能な処理は、必要な計算数を1桁以上減少させることができる。ディジタル・フィルタリングは空間畳み込みによって実行されるという事実により、一実施形態の計算方法は、フィルタ係数によってデータを倍率調整するための一連の乗算と、倍率調整した全てのデータ値を一緒にカーネル全体に跨って加算するための加算とを備えている。このような計算の基礎的単位は、積和演算(multiply-accumulate operation)である。大きな被写体深度増大に対する典型的な2−D波面コーディング・フィルタ・カーネルは、30×30係数となることもある。このフィルタの矩形分離可能バージョンは、30係数長の行フィルタと、30係数高の列フィルタとを含み、合計60の係数を含む。波面コーディング・エレメントは設計上矩形に分離可能とすることができるが、これらはそのように限定されるのではなく、大きく常軌を逸したシステムは分離不可能なフィルタリングを用いてもよい。
光学撮像技法を電子フィルタリングと組み合わせることによって、波面コーディング技術は、広範囲の撮像システムの性能を向上させることができる。高性能撮像システムにおける性能利得(performance gain)は、光集合または空間分解能を犠牲にすることなく、非常に大きな被写体深度を含むことができる。低コストの撮像システムにおける性能利得は、従前に必要としたよりも少ない物理的コンポーネントによる、高い画像品質を含むことができる。
本明細書に記載した実施形態は、システムを含む。このシステムは、複数の光検出器であって、複数の光検出器の内少なくとも2つが波面コーディング(coding)またはコード化(coded))カメラを構成し、本体を撮像する、複数の光検出器と、複数の光検出器に結合されているプロセッサであって、このプロセッサは身体のジェスチャを自動的に検出し、ジェスチャは本体の瞬時的状態を含み、検出は、1時点におけるジェスチャのジェスチャ・データを集計することを含み、ジェスチャ・データは、撮像システムの被写体深度内における本体の焦点解明データを含み、プロセッサは、ジェスチャをジェスチャ信号に変換し、このジェスチャ信号を用いて、プロセッサに結合されているコンポーネントを制御する、プロセッサとを備えている。
一実施形態の波面コーディング・カメラは、波面コーディング光学エレメントを含む。
一実施形態の撮像は、本体の波面コーディング画像を発生することを含む。
一実施形態の波面コーディング・カメラは、撮像の被写体深度を増大させる位相マスクを含む。
一実施形態のジェスチャ・データは、被写体深度内における本体の焦点解明範囲データを含む。
一実施形態の被写体深度内における本体の焦点解明範囲データは、波面コーディング・カメラの出力から得られる。
一実施形態のジェスチャ・データは、被写体深度内における本体の焦点解明位置データを含む。
一実施形態の被写体深度内における本体の焦点解明位置データは、波面コーディング・カメラの出力から得られる。
一実施形態のシステムは、本体と撮像システムとの間の距離に対して不変である、変調伝達関数および点拡散関数を備えている。
一実施形態のシステムは、脱焦に対して不変である変調伝達関数および点拡散関数を備えている。
一実施形態のプロセッサは、波面コーディング・カメラによって収集された画像をコーディングすることによって、中間画像を発生する。
一実施形態の中間画像はぼやけている。
一実施形態の中間画像は、脱焦収差を含む、本体または複数の光検出器の変化に対して不感応である。
一実施形態のジェスチャ・データは、ジェスチャを表す三空間位置データである。
一実施形態の検出は、本体の位置を検出すること、本体の方位を検出すること、および本体の運動を検出することの内少なくとも1つである。
一実施形態の検出は、ジェスチャを特定することを含み、この特定は、本体の一部のポーズおよび方位を特定することを含む。
一実施形態の検出は、本体の第1組の付加物および第2組の付加物の内少なくとも1つを検出することを含む。
一実施形態の検出は、少なくとも1つのタグの位置を動的に検出することを含む。
一実施形態の検出は、本体の一部に結合されている1組のタグの位置を検出することを含む。
一実施形態の1組のタグの各タグはパターンを含み、1組のタグの各タグの各パターンは、複数のタグの内いずれの残りのタグのいずれのパターンとも異なる。
一実施形態の検出は、本体上にあるマーカを動的に検出し位置を突き止めることを含む。
一実施形態の検出は、本体の一部に結合されている1組のマーカの位置を検出することを含む。
一実施形態の1組のマーカは、本体上に複数のパターンを形成する。
一実施形態の検出は、本体の複数の付加物の位置を、この付加物の各々に結合されている1組のマーカを用いて、検出することを含む。
一実施形態の変換は、ジェスチャの情報をジェスチャ表記に変換することを含む。
一実施形態のジェスチャ表記は、ジェスチャ・ボキャブラリを表し、ジェスチャ信号はジェスチャ・ボキャブラリの通信を含む。
一実施形態のジェスチャ・ボキャブラリは、本体の力学的連結の瞬時的ポーズ状態をテキスト形態で表す。
一実施形態のジェスチャ・ボキャブラリは、本体の力学的連結の方位をテキスト形態で表す。
一実施形態のジェスチャ・ボキャブラリは、本体の力学的連結の方位の組み合わせを、テキスト形態で表す。
一実施形態のジェスチャ・ボキャブラリは、本体の力学的連結の状態を表す、キャラクタ・ストリングを含む。
一実施形態の力学的連結は、本体の少なくとも1つの第1付加物である。
一実施形態のシステムは、ストリングにおける各位置を第2付加物に割り当てることを含み、第2付加物が第1付加物に接続されている。
一実施形態のシステムは、複数のキャラクタのキャラクタを、第2付加物の複数の位置の各々に割り当てることを含む。
一実施形態の複数の位置は、座標原点に対して確定される。
一実施形態のシステムは、空間における絶対位置および方位、本体の全体的位置および方位とは無関係の本体に対する固定位置および方位から成る1群から選択した位置を用いて、ならびに本体の動作に応答して対話的に座標原点を確定することを含む。
一実施形態のシステムは、複数のキャラクタのキャラクタを、第1付加物の複数の方位の各々に割り当てることを含む。
一実施形態の検出は、本体の外挿補間位置が仮想空間と交差するときを検出することを含み、仮想空間は、コンピュータに結合されているディスプレイ・デバイス上に図示される空間を含む。
一実施形態のコンポーネントの制御は、外挿補間位置が仮想空間における仮想物体と交差するときに、仮想物体を制御することを含む。
一実施形態のコンポーネントの制御は、仮想空間における外挿補間位置に応答して、仮想空間における仮想物体の位置を制御することを含む。
一実施形態のコンポーネントの制御は、ジェスチャに応答して仮想空間における仮想物体の姿勢を制御することを含む。
一実施形態のシステムは、仮想空間と物理空間との間で一致を得るために、検出および制御のスケーリング(scaling)を制御することを含み、仮想空間は、プロセッサに結合されているディスプレイ・デバイス上に描画された空間を含み、物理空間は本体が占める空間を含む。
一実施形態のシステムは、物理空間における少なくとも1つの物理物体の移動に応答して、仮想空間において少なくとも1つの仮想物体を制御することを含む。
一実施形態の制御は、プロセッサ上にホストされているアプリケーションの機能を制御すること、およびプロセッサ上に表示されているコンポーネントを制御することの内少なくとも1つを含む。
本明細書に記載した実施形態は、方法を含む。この方法は、撮像システムを用いて本体を撮像するステップであって、撮像が、本体の波面コーディング画像を発生することを含む、ステップと、本体のジェスチャを自動的に検出するステップであって、ジェスチャが、本体の瞬時的状態を含み、検出が1時点におけるジェスチャのジェスチャ・データを集計することを含み、ジェスチャ・データが、撮像システムの被写体深度内における本体の焦点解明データを含む、ステップと、ジェスチャをジェスチャ信号に変換するステップと、ジェスチャ信号に応答して、コンピュータに結合されているコンポーネントを制御するステップとを備えている。
一実施形態の撮像システムは複数の光検出器を備えており、複数の光検出器の内少なくとも2つが、波面コーディング光学エレメントを備えている、波面コーディング・カメラを構成する。
一実施形態の撮像するステップは、本体の波面コーディング画像を発生することを含む。
一実施形態の撮像システムは複数の光検出器を備えており、これらの光検出器の少なくとも2つは、撮像焦点深度を増大させる位相マスクを備えている波面コーディング・カメラである。
一実施形態のジェスチャ・データは、被写体深度内における本体の焦点解明範囲データを含む。
一実施形態の被写体深度内における本体の焦点解明範囲データは、撮像システムの出力から得られる。
一実施形態のジェスチャ・データは、被写体深度内における本体の焦点解明位置データを含む。
一実施形態の被写体深度内における本体の焦点解明位置データは、撮像システムの出力から得られる。
一実施形態の方法は、本体と撮像システムとの間の距離に対して不変である、変調伝達関数および点拡散関数を発生するステップを備えている。
一実施形態の方法は、脱焦に対して不変である変調伝達関数および点拡散関数を発生するステップ備えている。
一実施形態の方法は、波面コーディング・カメラによって収集された画像をコーディングすることによって、中間画像を発生するステップを備えている。
一実施形態の中間画像はぼやけている。
一実施形態の中間画像は、脱焦収差を含む、本体または撮像システムの複数の光検出器の変化に対して不感応である。
一実施形態のジェスチャ・データは、ジェスチャを表す三空間位置データである。
一実施形態の検出するステップは、本体の位置を検出することを含む。
一実施形態の検出するステップは、本体の方位を検出することを含む。
一実施形態の検出するステップは、本体の運動を検出することを含む。
一実施形態の検出するステップは、ジェスチャを特定することを含み、この特定は、本体の一部のポーズおよび方位を特定することを含む。
一実施形態の検出するステップは、本体の第1組の付加物および第2組の付加物の内少なくとも1つを検出することを含む。
一実施形態の検出するステップは、少なくとも1つのタグの位置を動的に検出することを含む。
検出するステップは、本体の一部に結合されている1組のタグの位置を検出することを含む。
一実施形態の1組のタグの各タグはパターンを含み、1組のタグの各タグの各パターンは、複数のタグの内いずれの残りのタグのいずれのパターンとも異なる。
一実施形態の検出するステップは、本体上にあるマーカを動的に検出し位置を突き止めることを含む。
一実施形態の検出するステップは、本体の一部に結合されている1組のマーカの位置を検出することを含む。
一実施形態の1組のマーカは、本体上に複数のパターンを形成する。
一実施形態の検出するステップは、本体の複数の付加物の位置を、これらの付加物の各々に結合されている1組のマーカを用いて、検出することを含む。
一実施形態の変換するステップは、ジェスチャの情報をジェスチャ表記に変換することを含む。
一実施形態のジェスチャ表記は、ジェスチャ・ボキャブラリを表し、ジェスチャ信号はジェスチャ・ボキャブラリの通信を含む。
一実施形態のジェスチャ・ボキャブラリは、本体の力学的連結の瞬時的ポーズ状態をテキスト形態で表す。
一実施形態のジェスチャ・ボキャブラリは、本体の力学的連結の方位をテキスト形態で表す。
一実施形態のジェスチャ・ボキャブラリは、本体の力学的連結の方位の組み合わせを、テキスト形態で表す。
一実施形態のジェスチャ・ボキャブラリは、本体の力学的連結の状態を表す、キャラクタ・ストリングを含む。
一実施形態の力学的連結は、本体の少なくとも1つの第1付加物である。
一実施形態の方法は、ストリングにおける各位置を第2付加物に割り当てるステップを備えており、第2付加物が第1付加物に接続されている。
一実施形態の方法は、複数のキャラクタのキャラクタを、第2付加物の複数の位置の各々に割り当てるステップを備えている。
一実施形態の複数の位置は、座標原点に対して確定される。
一実施形態の方法は、空間における絶対位置および方位、本体の全体的位置および方位とは無関係の本体に対する固定位置および方位から成る1群から選択した位置を用いて、ならびに本体の動作に応答して対話的に座標原点を確定するステップを備えている。
一実施形態の方法は、複数のキャラクタのキャラクタを、第1付加物の複数の方位の各々に割り当てるステップを備えている。
一実施形態の検出するステップは、本体の外挿補間位置が仮想空間と交差するときを検出することを含み、仮想空間は、コンピュータに結合されているディスプレイ・デバイス上に図示される空間を含む。
一実施形態のコンポーネントを制御するステップは、外挿補間位置が仮想空間における仮想物体と交差するときに、仮想物体を制御することを含む。
一実施形態のコンポーネントを制御するステップは、仮想空間における外挿補間位置に応答して、仮想空間における仮想物体の位置を制御することを含む。
一実施形態のコンポーネントを制御するステップは、ジェスチャに応答して仮想空間における仮想物体の姿勢を制御することを含む。
一実施形態の方法は、仮想空間と物理空間との間で一致を得るために、検出および制御のスケーリングを制御するステップを備えており、仮想空間は、プロセッサに結合されているディスプレイ・デバイス上に描画された空間を含み、物理空間は本体が占める空間を含む。
一実施形態の方法は、仮想空間と物理空間との間において、倍率、角度、深度、および寸法を、プロセッサに結合されている少なくとも1つのアプリケーションに応じて変換するステップを備えている。
一実施形態の方法は、物理空間における少なくとも1つの物理物体の移動に応答して、仮想空間において少なくとも1つの仮想物体を制御するステップを備えている。
一実施形態の制御するステップは、プロセッサ上にホストされているアプリケーションの機能を制御することを含む。
一実施形態の制御するステップは、プロセッサ上に表示されているコンポーネントを制御することを含む。
本明細書において記載したシステムおよび方法は、処理システムを含む、および/または処理システムの下で実行する、および/または処理システムと連動して実行する。処理システムは、当技術分野では周知のように、互いに動作するプロセッサ主体デバイスまたは計算デバイスのあらゆる集合体、あるいは処理システムまたはデバイスのコンポーネントを含む。例えば、処理システムは、携帯用コンピュータ、通信ネットワークにおいて動作する携帯用通信デバイス、および/またはネットワーク・サーバの1つ以上を含むことができる。携帯用コンピュータは、パーソナル・コンピュータ、セルラ電話機、パーソナル・ディジタル・アシスタント、携帯用計算デバイス、および携帯用通信デバイスの中から選択した多数のデバイスおよび/またはデバイスの組み合わせのいずれとすることもできるが、そのように限定されるのではない。処理システムは、それよりも大きなコンピュータ・システムの中にあるコンポーネントを含むことができる。
一実施形態の処理システムは、少なくとも1つのプロセッサと、少なくとも1つのメモリ・デバイスまたはサブシステムとを含む。また、処理システムは、少なくとも1つのデータベースを含むか、またはこれに結合することができる。「プロセッサ」という用語は、本明細書において一般に用いる場合、1つ以上の中央演算装置(CPU)、ディジタル信号プロセッサ(DSP)、特定用途集積回路(ASIC)等のような、あらゆる論理演算装置を指す。プロセッサおよびメモリは、1つのチップ上にモノリシックに集積することができ、多数のチップまたはホスト・システムのコンポーネント間で分散することができ、および/またはアルゴリズムの何らかの組み合わせによって提供することができる。本明細書において記載した方法は、ソフトウェア・アルゴリズム(1つまたは複数)、プログラム、ファームウェア、ハードウェア、コンポーネント、回路の1つ以上で、いずれの組み合わせでも実現することができる。
本明細書において記載したシステムおよび方法を具体化するシステム・コンポーネントは、一緒に配置すること、または別個の位置に配置することができる。したがって、本明細書において記載したシステムおよび方法を具現化するシステム・コンポーネントは、単一のシステム、多数のシステム、および/または地理的に離れたシステムのコンポーネントとすることができる。また、これらのコンポーネントは、単一のシステム、多数のシステム、および/または地理的に離れたシステムのサブコンポーネントまたはサブシステムとすることもできる。これらのコンポーネントは、ホスト・システムの1つ以上のその他のコンポーネント、またはホスト・システムに結合されているシステムに結合することができる。
通信経路は、システム・コンポーネントを結合し、コンポーネント間においてファイルを伝達または転送する媒体であればいずれでも含む。通信経路は、ワイヤレス接続、有線接続、混成ワイヤレス/有線接続を含む。また、通信経路は、ローカル・エリア・ネットワーク(LAN)、都市エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、企業固有ネットワーク、事務所間またはバックエンド・ネットワーク、およびインターネットを含むネットワークへの結合または接続も含む。更に、通信経路は、フロッピ・ディスク、ハード・ディスク・ドライブ、およびCD−ROMディスクのような、リムーバブル固定媒体、ならびにフラッシュRAM、ユニバーサル・シリアル・バス(USB)接続、RS−232接続、電話回線、バス、および電子メール・メッセージを含む。
文脈が特に明確に要求しない限り、説明全体を通じて、「備える」(comprise)、「備えている」(comprising)等の単語は、排他的または網羅的な意味とは逆に、包含的意味で解釈することとする。即ち、「含むがそれに限定されない」という意味である。また、単数または複数を用いる単語は、それぞれ、複数または単数も含むこととする。加えて、「ここでは」、「以下では」、「以上」、「以下」および同様の趣旨の単語は、本願のいずれかの特定部分ではなく、本願全体を指すこととする。「または」という単語が2つ以上の項目のリストに関して用いられる場合、その単語は以下の単語の解釈全てに及ぶこととする。リストにおける項目のいずれか、リストにおける項目全て、およびリストにおける項目のあらゆる組み合わせ。
以上における処理環境の実施形態の説明は、網羅的であることも、記載したシステムおよび方法を、開示した形態そのものに限定することも意図していない。処理環境の具体的な実施形態およびその例は、本明細書では例示の目的で記載したが、その他のシステムおよび方法の範囲内において、種々の同等な修正も可能であることは、当業者であれば認められよう。本明細書において提案した処理環境の教示は、前述のシステムおよび方法だけでなく、他の処理システムおよび方法にも適用することができる。
以上で説明した種々の実施形態の要素および行為(act)を組み合わせて、更に別の実施形態を提案することができる。これらおよびその他の変更は、以上に詳細に記載した説明を参照すれば、プログラミング環境に対して行うことができる。

Claims (90)

  1. システムであって、
    複数の光検出器であって、該複数の光検出器の内少なくとも2つが波面コーディング・カメラを構成し、本体を撮像する、複数の光検出器と、
    前記複数の光検出器に結合されているプロセッサであって、該プロセッサは身体のジェスチャを自動的に検出し、前記ジェスチャは前記本体の瞬時的状態を含み、前記検出は、1時点における前記ジェスチャのジェスチャ・データを集計することを含み、前記ジェスチャ・データは、前記撮像システムの被写体深度内における前記本体の焦点解明データを含み、前記プロセッサは、前記ジェスチャをジェスチャ信号に変換し、該ジェスチャ信号を用いて、前記プロセッサに結合されているコンポーネントを制御する、プロセッサと、
    を備えている、システム。
  2. 請求項1記載のシステムにおいて、前記波面コーディング・カメラは、波面コーディング光学エレメントを含む、システム。
  3. 請求項1記載のシステムにおいて、前記撮像は、前記本体の波面コーディング画像を発生することを含む、システム。
  4. 請求項1記載のシステムにおいて、前記波面コーディング・カメラは、前記撮像の被写体深度を増大させる位相マスクを含む、システム。
  5. 請求項1記載のシステムにおいて、前記ジェスチャ・データは、前記被写体深度内における前記本体の焦点解明範囲データを含む、システム。
  6. 請求項5記載のシステムにおいて、前記被写体深度内における前記本体の焦点解明範囲データは、前記波面コーディング・カメラの出力から得られる、システム。
  7. 請求項1記載のシステムにおいて、前記ジェスチャ・データは、前記被写体深度内における前記本体の焦点解明位置データを含む、システム。
  8. 請求項7記載のシステムにおいて、前記被写体深度内における前記本体の焦点解明位置データは、前記波面コーディング・カメラの出力から得られる、システム。
  9. 請求項1記載のシステムであって、前記本体と前記撮像システムとの間の距離に対して不変である、変調伝達関数および点拡散関数を備えている、システム。
  10. 請求項1記載のシステムであって、脱焦に対して不変である変調伝達関数および点拡散関数を備えている、システム。
  11. 請求項1記載のシステムにおいて、前記プロセッサは、前記波面コーディング・カメラによって収集された画像をコーディングすることによって、中間画像を発生する、システム。
  12. 請求項11記載のシステムにおいて、前記中間画像はぼやけている、システム。
  13. 請求項11記載のシステムにおいて、前記中間画像は、脱焦収差を含む、前記本体または前記複数の光検出器の変化に対して不感応である、システム。
  14. 請求項1記載のシステムにおいて、前記ジェスチャ・データは、前記ジェスチャを表す三空間位置データである、システム。
  15. 請求項1記載のシステムにおいて、前記検出は、前記本体の位置を検出すること、前記本体の方位を検出すること、および前記本体の運動を検出することの内少なくとも1つである、システム。
  16. 請求項1記載のシステムにおいて、前記検出は、前記ジェスチャを特定することを含み、該特定は、前記本体の一部のポーズおよび方位を特定することを含む、システム。
  17. 請求項1記載のシステムにおいて、前記検出は、前記本体の第1組の付加物および第2組の付加物の内少なくとも1つを検出することを含む、システム。
  18. 請求項1記載のシステムにおいて、前記検出は、少なくとも1つのタグの位置を動的に検出することを含む、システム。
  19. 請求項18記載のシステムにおいて、前記検出は、前記本体の一部に結合されている1組のタグの位置を検出することを含む、システム。
  20. 請求項19記載のシステムにおいて、前記1組のタグの各タグはパターンを含み、前記1組のタグの各タグの各パターンは、前記複数のタグの内いずれの残りのタグのいずれのパターンとも異なる、システム。
  21. 請求項1記載のシステムにおいて、前記検出は、前記本体上にあるマーカを動的に検出し位置を突き止めることを含む、システム。
  22. 請求項21記載のシステムにおいて、前記検出は、前記本体の一部に結合されている1組のマーカの位置を検出することを含む、システム。
  23. 請求項21記載のシステムにおいて、前記1組のマーカは、前記本体上に複数のパターンを形成する、システム。
  24. 請求項21記載のシステムにおいて、前記検出は、前記本体の複数の付加物の位置を、該付加物の各々に結合されている1組のマーカを用いて、検出することを含む、システム。
  25. 請求項1記載のシステムにおいて、前記変換は、前記ジェスチャの情報をジェスチャ表記に変換することを含む、システム。
  26. 請求項25記載のシステムにおいて、前記ジェスチャ表記は、ジェスチャ・ボキャブラリを表し、前記ジェスチャ信号は前記ジェスチャ・ボキャブラリの通信を含む、システム。
  27. 請求項26記載のシステムにおいて、前記ジェスチャ・ボキャブラリは、前記本体の力学的連結の瞬時的ポーズ状態をテキスト形態で表す、システム。
  28. 請求項26記載のシステムにおいて、前記ジェスチャ・ボキャブラリは、前記本体の力学的連結の方位をテキスト形態で表す、システム。
  29. 請求項26記載のシステムにおいて、前記ジェスチャ・ボキャブラリは、前記本体の力学的連結の方位の組み合わせを、テキスト形態で表す、システム。
  30. 請求項26記載のシステムにおいて、前記ジェスチャ・ボキャブラリは、前記本体の力学的連結の状態を表す、キャラクタのストリングを含む、システム。
  31. 請求項30記載のシステムにおいて、前記力学的連結は、前記本体の少なくとも1つの第1付加物である、システム。
  32. 請求項31記載のシステムであって、前記ストリングにおける各位置を第2付加物に割り当てることを含み、該第2付加物が前記第1付加物に接続されている、システム。
  33. 請求項32記載のシステムであって、複数のキャラクタのキャラクタを、前記第2付加物の複数の位置の各々に割り当てることを含む、システム。
  34. 請求項33記載のシステムにおいて、前記複数の位置は、座標原点に対して確定される、システム。
  35. 請求項34記載のシステムであって、空間における絶対位置および方位、前記本体の全体的位置および方位とは無関係の前記本体に対する固定位置および方位から成る1群から選択した位置を用いて、ならびに前記本体の動作に応答して対話的に前記座標原点を確定することを含む、システム。
  36. 請求項33記載のシステムであって、前記複数のキャラクタのキャラクタを、前記第1付加物の複数の方位の各々に割り当てることを含む、システム。
  37. 請求項31記載のシステムにおいて、前記検出は、前記本体の外挿補間位置が仮想空間と交差するときを検出することを含み、前記仮想空間は、前記コンピュータに結合されているディスプレイ・デバイス上に図示される空間を含む、システム。
  38. 請求項37記載のシステムにおいて、前記コンポーネントの制御は、前記外挿補間位置が前記仮想空間における仮想物体と交差するときに、前記仮想物体を制御することを含む、システム。
  39. 請求項38記載のシステムにおいて、前記コンポーネントの制御は、前記仮想空間における前記外挿補間位置に応答して、前記仮想空間における前記仮想物体の位置を制御することを含む、システム。
  40. 請求項38記載のシステムにおいて、前記コンポーネントの制御は、前記ジェスチャに応答して前記仮想空間における前記仮想物体の姿勢を制御することを含む、システム。
  41. 請求項1記載のシステムであって、仮想空間と物理空間との間で一致を得るために、前記検出および制御のスケーリングを制御することを含み、前記仮想空間は、前記プロセッサに結合されているディスプレイ・デバイス上に描画された空間を含み、前記物理空間は前記本体が占める空間を含む、システム。
  42. 請求項41記載のシステムであって、前記物理空間における少なくとも1つの物理物体の移動に応答して、前記仮想空間において少なくとも1つの仮想物体を制御することを含む、システム。
  43. 請求項1記載のシステムにおいて、前記制御は、前記プロセッサ上にホストされているアプリケーションの機能を制御すること、および前記プロセッサ上に表示されているコンポーネントを制御することの内少なくとも1つを含む、システム。
  44. 方法であって、
    撮像システムを用いて本体を撮像するステップであって、該撮像が、前記本体の波面コーディング画像を発生することを含む、ステップと、
    本体のジェスチャを自動的に検出するステップであって、前記ジェスチャが、前記本体の瞬時的状態を含み、前記検出が1時点における前記ジェスチャのジェスチャ・データを集計することを含み、前記ジェスチャ・データが、前記撮像システムの被写体深度内における前記本体の焦点解明データを含む、ステップと、
    前記ジェスチャをジェスチャ信号に変換するステップと、
    前記ジェスチャ信号に応答して、コンピュータに結合されているコンポーネントを制御するステップと、
    を備えている、方法。
  45. 請求項44記載の方法において、前記撮像システムは複数の光検出器を備えており、該複数の光検出器の内少なくとも2つが、波面コーディング光学素子を備えている波面コーディング・カメラを構成する、方法。
  46. 請求項44記載の方法において、前記撮像するステップは、前記本体の波面コーディング画像を発生することを含む、方法。
  47. 請求項44記載の方法において、前記撮像システムは複数の光検出器を備えており、該光検出器の少なくとも2つは、前記撮像焦点深度を増大させる位相マスクを備えている波面コーディング・カメラである、方法。
  48. 請求項44記載の方法において、前記ジェスチャ・データは、前記被写体深度内における前記本体の焦点解明範囲データを含む、方法。
  49. 請求項48記載の方法において、前記被写体深度内における前記本体の焦点解明範囲データは、前記撮像システムの出力から得られる、方法。
  50. 請求項44記載の方法において、前記ジェスチャ・データは、前記被写体深度内における前記本体の焦点解明位置データを含む、方法。
  51. 請求項50記載の方法において、前記被写体深度内における前記本体の焦点解明位置データは、前記撮像システムの出力から得られる、方法。
  52. 請求項44記載の方法であって、前記本体と前記撮像システムとの間の距離に対して不変である、変調伝達関数および点拡散関数を発生するステップを備えている、方法。
  53. 請求項44記載の方法であって、脱焦に対して不変である変調伝達関数および点拡散関数を発生するステップ備えている、方法。
  54. 請求項44記載の方法であって、前記波面コーディング・カメラによって収集された画像をコーディングすることによって、中間画像を発生するステップを備えている、方法。
  55. 請求項54記載の方法において、前記中間画像はぼやけている、方法。
  56. 請求項54記載の方法において、前記中間画像は、脱焦収差を含む、前記本体または前記撮像システムの前記複数の光検出器の変化に対して不感応である、方法。
  57. 請求項44記載の方法において、前記ジェスチャ・データは、前記ジェスチャを表す三空間位置データである、方法。
  58. 請求項44記載の方法において、前記検出するステップは、前記本体の位置を検出することを含む、方法。
  59. 請求項44記載の方法において、前記検出するステップは、前記本体の方位を検出することを含む、方法。
  60. 請求項44記載の方法において、前記検出するステップは、前記本体の運動を検出することを含む、方法。
  61. 請求項44記載の方法において、前記検出するステップは、前記ジェスチャを特定することを含み、該特定は、前記本体の一部のポーズおよび方位を特定することを含む、方法。
  62. 請求項44記載の方法において、前記検出するステップは、前記本体の第1組の付加物および第2組の付加物の内少なくとも1つを検出することを含む、方法。
  63. 請求項44記載の方法において、前記検出するステップは、少なくとも1つのタグの位置を動的に検出することを含む、方法。
  64. 請求項63記載の方法において、前記検出するステップは、前記本体の一部に結合されている1組のタグの位置を検出することを含む、方法。
  65. 請求項64記載の方法において、前記1組のタグの各タグはパターンを含み、前記1組のタグの各タグの各パターンは、前記複数のタグの内いずれの残りのタグのいずれのパターンとも異なる、方法。
  66. 請求項44記載の方法において、前記検出するステップは、前記本体上にあるマーカを動的に検出し位置を突き止めることを含む、方法。
  67. 請求項66記載の方法において、前記検出するステップは、前記本体の一部に結合されている1組のマーカの位置を検出することを含む、方法。
  68. 請求項66記載の方法において、前記1組のマーカは、前記本体上に複数のパターンを形成する、方法。
  69. 請求項66記載の方法において、前記検出するステップは、前記本体の複数の付加物の位置を、該付加物の各々に結合されている1組のマーカを用いて、検出することを含む、方法。
  70. 請求項44記載の方法において、前記変換するステップは、前記ジェスチャの情報をジェスチャ表記に変換することを含む、方法。
  71. 請求項70記載の方法において、前記ジェスチャ表記は、ジェスチャ・ボキャブラリを表し、前記ジェスチャ信号は前記ジェスチャ・ボキャブラリの通信を含む、方法。
  72. 請求項71記載の方法において、前記ジェスチャ・ボキャブラリは、前記本体の力学的連結の瞬時的ポーズ状態をテキスト形態で表す、方法。
  73. 請求項71記載の方法において、前記ジェスチャ・ボキャブラリは、前記本体の力学的連結の方位をテキスト形態で表す、方法。
  74. 請求項71記載の方法において、前記ジェスチャ・ボキャブラリは、前記本体の力学的連結の方位の組み合わせを、テキスト形態で表す、方法。
  75. 請求項71記載の方法において、前記ジェスチャ・ボキャブラリは、前記本体の力学的連結の状態を表す、キャラクタのストリングを含む、方法。
  76. 請求項75記載の方法において、前記力学的連結は、前記本体の少なくとも1つの第1付加物である、方法。
  77. 請求項76記載の方法であって、前記ストリングにおける各位置を第2付加物に割り当てるステップを備えており、該第2付加物が前記第1付加物に接続されている、方法。
  78. 請求項77記載の方法であって、複数のキャラクタのキャラクタを、前記第2付加物の複数の位置の各々に割り当てるステップを備えている、方法。
  79. 請求項78記載の方法において、前記複数の位置は、座標原点に対して確定される、方法。
  80. 請求項79記載の方法であって、空間における絶対位置および方位、前記本体の全体的位置および方位とは無関係の前記本体に対する固定位置および方位から成る1群から選択した位置を用いて、ならびに前記本体の動作に応答して対話的に前記座標原点を確定するステップを備えている、方法。
  81. 請求項78記載の方法であって、前記複数のキャラクタのキャラクタを、前記第1付加物の複数の方位の各々に割り当てるステップを備えている、方法。
  82. 請求項76記載の方法において、前記検出するステップは、前記本体の外挿補間位置が仮想空間と交差するときを検出することを含み、前記仮想空間は、前記コンピュータに結合されているディスプレイ・デバイス上に図示される空間を含む、方法。
  83. 請求項82記載の方法において、前記コンポーネントを制御するステップは、前記外挿補間位置が前記仮想空間における仮想物体と交差するときに、前記仮想物体を制御することを含む、方法。
  84. 請求項83記載の方法において、前記コンポーネントを制御するステップは、前記仮想空間における前記外挿補間位置に応答して、前記仮想空間における前記仮想物体の位置を制御することを含む、方法。
  85. 請求項83記載の方法において、前記コンポーネントを制御するステップは、前記ジェスチャに応答して前記仮想空間における前記仮想物体の姿勢を制御することを含む、方法。
  86. 請求項44記載の方法であって、仮想空間と物理空間との間で一致を得るために、前記検出および制御のスケーリングを制御するステップを備えており、前記仮想空間は、前記プロセッサに結合されているディスプレイ・デバイス上に描画された空間を含み、前記物理空間は前記本体が占める空間を含む、方法。
  87. 請求項86記載の方法であって、前記仮想空間と前記物理空間との間において、倍率、角度、深度、および寸法を、前記プロセッサに結合されている少なくとも1つのアプリケーションに応じて変換するステップを備えている、方法。
  88. 請求項86記載の方法であって、前記物理空間における少なくとも1つの物理物体の移動に応答して、前記仮想空間において少なくとも1つの仮想物体を制御するステップを備えている、方法。
  89. 請求項44記載の方法において、前記制御するステップは、前記プロセッサ上にホストされているアプリケーションの機能を制御することを含む、方法。
  90. 請求項44記載の方法において、前記制御するステップは、前記プロセッサ上に表示されているコンポーネントを制御することを含む、方法。
JP2011503166A 2008-04-02 2009-04-02 拡張した被写体深度から抽出した三次元情報を用いたジェスチャ・ベース制御 Expired - Fee Related JP5697590B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US4189208P 2008-04-02 2008-04-02
US61/041,892 2008-04-02
US12/109,263 2008-04-24
US12/109,263 US8407725B2 (en) 2007-04-24 2008-04-24 Proteins, pools, and slawx in processing environments
US10524308P 2008-10-14 2008-10-14
US10525308P 2008-10-14 2008-10-14
US61/105,253 2008-10-14
US61/105,243 2008-10-14
PCT/US2009/039285 WO2009124181A2 (en) 2008-04-02 2009-04-02 Gesture based control using three-dimensional information extracted over an extended depth of field

Publications (3)

Publication Number Publication Date
JP2011523112A true JP2011523112A (ja) 2011-08-04
JP2011523112A5 JP2011523112A5 (ja) 2012-05-24
JP5697590B2 JP5697590B2 (ja) 2015-04-08

Family

ID=41136111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011503166A Expired - Fee Related JP5697590B2 (ja) 2008-04-02 2009-04-02 拡張した被写体深度から抽出した三次元情報を用いたジェスチャ・ベース制御

Country Status (5)

Country Link
EP (1) EP2266016A4 (ja)
JP (1) JP5697590B2 (ja)
KR (1) KR101550478B1 (ja)
CN (1) CN102047203B (ja)
WO (1) WO2009124181A2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011059404A2 (en) * 2009-11-12 2011-05-19 Nanyang Polytechnic Method and system for interactive gesture-based control
US9171200B2 (en) 2011-03-04 2015-10-27 Hewlett-Packard Development Company, L.P. Gestural interaction identification
CN103135754B (zh) * 2011-12-02 2016-05-11 深圳泰山体育科技股份有限公司 采用交互设备实现交互的方法
JP5917125B2 (ja) 2011-12-16 2016-05-11 キヤノン株式会社 画像処理装置、画像処理方法、撮像装置および表示装置
TWI451344B (zh) * 2012-08-27 2014-09-01 Pixart Imaging Inc 手勢辨識系統及手勢辨識方法
CN104007819B (zh) * 2014-05-06 2017-05-24 清华大学 手势识别方法、装置及Leap Motion体感控制系统
CA3064764A1 (en) 2017-05-24 2018-11-29 The Trustees Of Columbia University In The City Of New York Broadband achromatic flat optical components by dispersion-engineered dielectric metasurfaces
CN107515454B (zh) * 2017-08-29 2019-12-20 宁夏巨能机器人股份有限公司 一种3d视觉定位的焦距自动调节装置及其调节方法
EP3676973A4 (en) 2017-08-31 2021-05-05 Metalenz, Inc. INTEGRATION OF LENS WITH PERMEABLE METAL SURFACE
KR20220035971A (ko) 2019-07-26 2022-03-22 메탈렌츠 인코포레이티드 개구-메타 표면 및 하이브리드 굴절-메타 표면 이미징 시스템
CN110609039B (zh) * 2019-09-23 2021-09-28 上海御微半导体技术有限公司 一种光学检测装置及其方法
US11927769B2 (en) 2022-03-31 2024-03-12 Metalenz, Inc. Polarization sorting metasurface microlens array device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000275582A (ja) * 1999-03-24 2000-10-06 Olympus Optical Co Ltd 被写界深度拡大システム
JP2003527708A (ja) * 2000-03-13 2003-09-16 アーベー イン クレデブル ジェスチャ認識システム
JP2005502084A (ja) * 2001-08-31 2005-01-20 ザ・リージエンツ・オブ・ザ・ユニバーシテイ・オブ・コロラド 中心領域で位相が不変の位相マスクを使用するmtf改良型の光学システム
WO2006086508A2 (en) * 2005-02-08 2006-08-17 Oblong Industries, Inc. System and method for genture based control system
WO2008008084A2 (en) * 2005-09-19 2008-01-17 Cdm Optics, Inc. Task-based imaging systems
JP2008070319A (ja) * 2006-09-15 2008-03-27 Canon Inc 物体計測装置および方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7164117B2 (en) * 1992-05-05 2007-01-16 Automotive Technologies International, Inc. Vehicular restraint system control system and method using multiple optical imagers
US7218448B1 (en) * 1997-03-17 2007-05-15 The Regents Of The University Of Colorado Extended depth of field optical systems
US7227526B2 (en) * 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
US7151246B2 (en) * 2001-07-06 2006-12-19 Palantyr Research, Llc Imaging system and methodology

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000275582A (ja) * 1999-03-24 2000-10-06 Olympus Optical Co Ltd 被写界深度拡大システム
JP2003527708A (ja) * 2000-03-13 2003-09-16 アーベー イン クレデブル ジェスチャ認識システム
JP2005502084A (ja) * 2001-08-31 2005-01-20 ザ・リージエンツ・オブ・ザ・ユニバーシテイ・オブ・コロラド 中心領域で位相が不変の位相マスクを使用するmtf改良型の光学システム
WO2006086508A2 (en) * 2005-02-08 2006-08-17 Oblong Industries, Inc. System and method for genture based control system
WO2008008084A2 (en) * 2005-09-19 2008-01-17 Cdm Optics, Inc. Task-based imaging systems
JP2008070319A (ja) * 2006-09-15 2008-03-27 Canon Inc 物体計測装置および方法

Also Published As

Publication number Publication date
WO2009124181A3 (en) 2009-12-30
KR101550478B1 (ko) 2015-09-04
JP5697590B2 (ja) 2015-04-08
EP2266016A2 (en) 2010-12-29
WO2009124181A2 (en) 2009-10-08
CN102047203A (zh) 2011-05-04
EP2266016A4 (en) 2014-10-29
CN102047203B (zh) 2016-08-17
KR20100136993A (ko) 2010-12-29

Similar Documents

Publication Publication Date Title
US9778751B2 (en) Gesture based control using three-dimensional information extracted over an extended depth of field
JP5697590B2 (ja) 拡張した被写体深度から抽出した三次元情報を用いたジェスチャ・ベース制御
US10061392B2 (en) Control system for navigating a principal dimension of a data space
US9471149B2 (en) Control system for navigating a principal dimension of a data space
US8537112B2 (en) Control system for navigating a principal dimension of a data space
JP5806615B2 (ja) データ空間の主要次元をナビゲートするための制御システム
US9910497B2 (en) Gestural control of autonomous and semi-autonomous systems
JP6116064B2 (ja) 車両インターフェース用ジェスチャ基準制御システム
Neumann et al. Natural feature tracking for augmented reality
WO2010030822A1 (en) Gestural control of autonomous and semi-autonomous systems
CN103988150A (zh) 用于初始化基于视觉的手跟踪器的快速指尖检测
Son Vision based natural assistive technologies with gesture recognition using Kinect
Shintani et al. Evaluation of a pointing interface for a large screen based on regression model with image features
Mogol 3D hand reconstruction with binocular view

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120402

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130416

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130712

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130722

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130816

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130823

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130917

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131015

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140731

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150210

R150 Certificate of patent or registration of utility model

Ref document number: 5697590

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees