JP2016186793A

JP2016186793A - 物体検出のためのコントラストの改善及び光学画像化による特徴評価

Info

Publication number: JP2016186793A
Application number: JP2016104145A
Authority: JP
Inventors: デイビッドホルツ，; Holz David; フアヤン，; Hua Yang
Original assignee: Leap Motion Inc
Current assignee: Leap Motion Inc
Priority date: 2012-01-17
Filing date: 2016-05-25
Publication date: 2016-10-27
Also published as: CN107066962A; CN107066962B; WO2013109609A2; DE112013000590B4; JP2015510169A; WO2013109609A3; CN104145276B; DE112013000590T5; CN104145276A

Abstract

【課題】画像内において見えている背景面と物体との間のコントラストの改善により、物体認識を向上させる撮像システムを提供する。【解決手段】画像シーン１１２の中から対象物体を識別するための画像撮像解析システム１００は、視野に向けられた少なくとも１つのカメラ１０２、１０４と、カメラと同じ視野側に配置されて、視野を照明するように向けられた少なくとも１つの光源１０８、１１０と、カメラ及び少なくとも１つの光源と結合された画像解析装置１０６とを備える。画像解析装置は、少なくとも１つの光源が視野を照明すると同時に撮像される第１画像を含む、一連の画像を撮像するために少なくとも1つのカメラを動作させ、背景ではなく対象物体１１４に対応する画素を識別し、識別された画素に基づき、対象物体の位置、形状及び断面を含む対象物体の３Ｄモデルを構築して、それが対象物体に対応するか否かを幾何学的に決定する。【選択図】図１

Description

本出願は、２０１２年１１月８日に出願された米国シリアル番号第６１／７２４０６８について優先権を主張するともに利益を得るものであり、当該出願の開示全体が参照として本明細書に援用される。さらに、本出願は、米国特許出願番号第１３／４１４４８５（２０１２年３月７日出願）及び第１３／７２４３５７（２０１２年１２月２１日出願）の優先権を主張し、米国仮特許出願番号第６１／７２４０９１（２０１２年１１月８日出願）及び第６１／５８７５５４（２０１２年１月１７日出願）についても優先権及び利益を主張するものである。これらの出願は、その全体が参照として本明細書に援用される。

本出願は、撮像システム、特に、三次元（３Ｄ）物体検出、追跡及び光学画像化を用いた特徴評価に関する。

モーションキャプチャシステムは、人間の手や人体などの関節部を有する物体を含む様々な物体の動きや構造に関する情報を取得するための、様々な場面で使用されている。このようなシステムには、一般的に、物体の体積、位置及び動きの再構成を成すための画像を解析するコンピュータや、動体の一連の画像を撮像するためのカメラが含まれる。３Ｄモーションキャプチャには、少なくとも２つのカメラが典型的に使用される。

画像によるモーションキャプチャシステムは、背景から対象の物体を区別する能力に依存する。これは、しばしば、エッジを検出する（典型的には、画素の比較によって色及び／または輝度の急激な変化を検出する）画像解析アルゴリズムを用いることで、実現される。しかしながら、このような従来のシステムは、例えば、背景における対象の物体と背景及び／または背景のパターンとの間のコントラストが低く物体のエッジとして誤って検出され得る場合など、多くの一般的な状況下において性能が低下する。

場合によっては、例えば、動きの実行中において人が反射材や発光源のメッシュ等を着ているようにするなど、対象の物体の「道具化（instrumenting）」によって、物体と背景との区別を促進することができる。特別な照明条件（例えば、微光）は、画像内における反射材や光源を目立たせるために使用することができる。しかしながら、対象の道具化は、必ずしも便利または望ましい選択肢ではない。

本発明のある実施形態は、使用する画像内において見えている背景面と物体との間のコントラストの改善により、物体認識を向上させる撮像システムに関する。これは、例えば、物体に向けられる照明の制御手段によって達成され得る。例えば、どの背景面よりもカメラに著しく近い人の手などを対象の物体とするモーションキャプチャシステムでは、距離に対する光強度の減衰（点状光源では１／ｒ^２）が、（複数の）カメラまたは他の（複数の）撮像装置の近くの光源（または複数の光源）の配置及び物体上の光の照射によって生かされる。対象の物体の近くで反射された光源光は、より遠くの背景面及び（物体と比較して）より遠くの背景からの反射光よりも非常に明るくなると予測することができ、より顕著な効果が生じ得る。したがって、いくつかの実施形態において、撮像画像内の画素の輝度に対するカットオフ閾値を、「背景」画素から「物体」画素を区別するために用いることができる。広帯域の環境光源を用いることができるが、様々な実施形態では、限定的な波長範囲の光と、そのような光を検出するよう適合したカメラが用いられる。例えば、赤外光源の光は、赤外周波数を感知する１以上のカメラとともに使用され得る。

したがって、第１の態様において、本発明は、デジタルで表示された画像シーンの中から対象の物体を識別するための画像撮像解析システムに関する。様々な実施形態において、前記システムは、視野に向けられた少なくとも１つのカメラと、前記カメラと同じ前記視野側に配置されて前記視野を照明するように向けられた少なくとも１つの光源と、前記カメラ及び（複数の）前記光源と結合された画像解析装置と、を備える。前記画像解析装置は、（複数の）前記光源が前記視野を照明すると同時に撮像される第１画像を含む、一連の画像を撮像するために（複数の）前記カメラを動作させ、背景ではなく前記物体に対応する画素を識別し、識別された画素に基づき、前記物体の位置及び形状を含む前記物体の３Ｄモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定するように構成され得る。ある実施形態では、前記画像解析装置は、（i）前記視野の近接領域内に位置する前記物体に対応する前景画像成分と、（ii）前記視野の遠隔領域内に位置する前記物体に対応する背景画像成分と、を区別するものであり、前記近接領域は、（複数の）前記カメラから広がるとともに、（複数の）前記カメラと前記前景画像成分に対応する前記物体との間の予測最大距離の少なくとも２倍となる奥行を有し、前記遠隔領域は、少なくとも１つの前記カメラに対して前記近接領域を越えた位置に存在している。例えば、前記近接領域が前記予測最大距離の少なくとも４倍となる奥行を有していてもよい。

他の実施形態では、前記画像解析装置は、（複数の）前記光源が前記視野を照明していない時に（複数の）前記カメラを動作させて第２及び第３画像を撮像するとともに、前記第１及び第２画像の差分と前記第１及び第３画像の差分とに基づいて前記物体に対応する画素を識別するものであり、前記第２画像は前記第１画像の前に撮像され、前記第３画像は前記第２画像の後に撮像される。

例えば、（複数の）前記光源は、拡散出射体（例えば、赤外発光ダイオードであって、この場合は（複数の）前記カメラは赤外感知カメラである）であってもよい。２以上の前記光源が、（複数の）前記カメラに隣接し、これらが実質的に同一平面内に存在してもよい。様々な実施形態において、（複数の）前記カメラと（複数の）前記光源とが鉛直上方を向いている。コントラストを改善するために、前記カメラは、露光時間が１００マイクロ秒と同程度となるように動作し、（複数の）前記光源は、露光時間の間に少なくとも５ワットの電力レベルで駆動されるようにしてもよい。ある実装では、ホログラフィック回折格子が、それぞれの前記カメラのレンズと前記視野との間（即ち、前記カメラのレンズの前）に配置される。

画像解析装置は、候補物体を容量分析的に定義する楕円の識別と、楕円に基づく定義に対して幾何学的に矛盾する物体セグメントの破棄と、候補物体が対象の物体に対応するか否かについての楕円に基づく決定と、によって、ある物体が対象の物体に対応するか否かを幾何学的に決定し得る。

別の態様において、本発明は、画像撮像解析方法に関する。様々な実施形態において、前記方法は、対象の物体を含む視野を照明する少なくとも１つの光源の駆動と、（複数の）前記光源の駆動と同時にカメラ（または、複数のカメラ）を使用することによる、前記視野の一連のデジタル画像の撮像と、背景ではなく前記物体に対応する画素の識別と、のステップを備え、識別された画素に基づき、前記物体の位置及び形状を含む前記物体の３Ｄモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定する。

（複数の）前記光源は、対象の前記物体が近接領域内に位置するように配置してもよく、前記近接領域は、前記カメラから、前記カメラと対象の前記物体との間の予測最大距離の少なくとも２倍となる距離まで広がる。例えば、前記近接領域が前記予測最大距離の少なくとも４倍となる奥行を有していてもよい。（複数の）前記光源は、例えば、拡散出射体（例えば、赤外発光ダイオード）としてもよく、この場合、前記カメラは赤外感知カメラである。少なくとも２以上の前記光源が、前記カメラに隣接し、これらが実質的に同一平面内に存在してもよい。様々な実施形態において、前記カメラと（複数の）前記光源とが鉛直上方を向いている。コントラストを改善するために、前記カメラは、露光時間が１００マイクロ秒と同程度となるように動作し、（複数の）前記光源は、露光時間の間に少なくとも５ワットの電力レベルで駆動されるようにしてもよい。

また、物体画素は、（複数の）前記光源が駆動していない時の第１画像と、（複数の）前記光源が駆動している時の第２画像と、（複数の）前記光源が駆動していない時の第３画像と、の撮像によって識別してもよく、前記第２及び第１画像の差分と、前記第２及び第３画像の差分と、に基づいて前記物体に対応する画素が識別される。

ある物体が対象の物体に対応するか否かについての幾何学的な決定は、候補物体を容量分析的に定義する楕円の識別と、楕円に基づく定義に対して幾何学的に矛盾する物体セグメントの破棄と、候補物体が対象の物体に対応するか否かについての楕円に基づく決定と、から成り得るかこれらを含み得る。

さらに別の態様において、本発明は、デジタル画像内における丸形物体の位置決め方法に関する。様々な実施形態において、前記方法は、対象の物体を含む視野を照明する少なくとも１つの光源の駆動と、少なくとも１つの前記光源が前記視野を照明すると同時に撮像される第１画像を含む、一連の画像を撮像するための前記カメラの動作と、前記視野内における丸形物体を示すガウシアン輝度減衰パターンを検出するための前記画像の解析と、のステップを備える。いくつかの実施形態において、前記丸形物体が、そのエッジの識別をすることなく検出される。この方法は、複数の撮像画像を通じて検出された前記丸形物体の動きの追跡を、さらに備えてもよい。

別の態様において、本発明は、視野内における丸形物体の位置決めをするための画像撮像解析システムに関する。様々な実施形態において、前記システムは、視野に向けられた少なくとも１つのカメラと、前記カメラと同じ前記視野側に配置されて前記視野を照明するように向けられた少なくとも１つの光源と、前記カメラ及び前記光源と結合された画像解析装置と、を備える。前記画像解析装置は、少なくとも１つの前記光源が前記視野を照明すると同時に撮像される第１画像を含む、一連の画像を撮像するために少なくとも1つの前記カメラを動作させ、前記視野内における丸形物体を示すガウシアン輝度減衰パターンを検出するために前記画像を解析するように、構成され得る。丸形物体は、いくつかの実施形態において、そのエッジの識別をすることなく検出され得る。前記システムは、複数の撮像画像を通じて検出された前記丸形物体の動きを追跡し得る。

本明細書において使用される語句「実質的に」または「およそ」は、±１０％（例えば、重量や体積）を意味し、いくつかの実施形態では±５％である。語句「基本的に〜から構成される」は、本明細書において他に定義しない限り、機能に寄与する他の材料を含まないことを意味する。本明細書を通じて、「一実施例（one example）」、「実施例（an example）」、「一実施形態（one embodiment）」または「実施形態（an embodiment）」の言及は、その例に関して記載された特定の特徴、構造または特徴が、本技術の少なくとも一例に含まれることを意味する。そのため、本明細書を通じた様々な場所における語句「一実施例では（in one example）」、「実施例では（in an example）」、「一実施形態（one embodiment）」または「実施形態（an embodiment）」の記載は、必ずしも全て同じ例について言及するものではない。さらに、特定の特性、構造、ルーチン、ステップまたは特徴は、本技術の１以上の例において任意の適切な方法で組み合わせることができる。本明細書で定義されている見出しは、単なる便宜上のものであって、特許請求する技術の範囲または意味を限定または解釈を意図したものではない。

添付の図面と共に以下の詳細な説明は、本発明の性質及び利点のより良い理解を提供するであろう。

本発明の実施形態に係る画像データを撮像するシステムを示す。本発明の実施形態に係る画像解析装置を実現するコンピュータシステムの簡略ブロック図。本発明の実施形態に係る得られ得る画素行の輝度データのグラフ。本発明の実施形態に係る得られ得る画素行の輝度データのグラフ。本発明の実施形態に係る得られ得る画素行の輝度データのグラフ。本発明の実施形態に係る画像内の物体の位置を識別するための処理のフロー図。本発明の実施形態に係る一定の間隔でオンになるパルス状の光源の時系列を示す。本発明の実施形態に係る光源のパルス駆動と画像の撮像の時系列を示す。本発明の実施形態に係る一連の画像を用いて物体のエッジを識別する処理のフロー図。本発明の実施形態に係るユーザ入力装置である動き検出器を含むコンピュータシステムの上面図。本発明の実施形態に係る動き検出器を含むコンピュータシステムの別の例を示すタブレットコンピュータの正面図。本発明の実施形態に係る動き検出器を含むゴーグルシステムを示す。本発明の実施形態に係るコンピュータシステムまたは他のシステムを制御するためのユーザ入力として動き情報を使用する処理のフロー図。本発明の別の実施形態に係る画像データを撮像するシステムを示す。本発明のさらに別の実施形態に係る画像データを撮像するシステムを示す。

本発明の実施形態に係る画像データを撮像するシステム１００を示す図１を、最初に参照する。システム１００は、画像解析システム１０６に結合された一対のカメラ１０２，１０４を備える。カメラ１０２，１０４は、可視スペクトルの全域を感知するカメラや、より典型的には、限定的な波長帯域（例えば、赤外（ＩＲ）や紫外帯域）の感度が強化されたカメラを含む、どのようなタイプのカメラであってもよい。より一般的に、本明細書における語句「カメラ」は、物体の画像を撮像して当該画像をデジタルデータの形式で表示することが可能な任意の装置（または装置の組み合わせ）を指す。例えば、二次元（２Ｄ）画像を撮像する従来の装置ではなく、ラインセンサやラインカメラを用いてもよい。語句「光」は、可視スペクトルの範囲内であってもそうでなくてもよく、広帯域（例えば、白色光）または狭帯域（例えば、単一波長または狭い波長帯）であってもよい、いかなる電磁的な出射をも含意するものとして、一般的に使用される。

デジタルカメラの心臓部は、感光性画像素子（画素）のグリッドを含むイメージセンサである。レンズがイメージセンサの表面に光を集光し、画素に様々な強度の光が当たることで画像が形成される。各画素は、検出された光の強度を反映した大きさの電荷へと光を変換するとともに、測定可能なように当該電荷を収集する。ＣＣＤ及びＣＭＯＳイメージセンサのいずれもがこれと同じ機能を果たすが、信号の測定及び伝達方法が異なる。

ＣＣＤでは、各画素からの電荷が、測定可能な電圧へと電荷を変換する単一の構造へと搬送される。これは、測定構造に到達するまで、行毎及び列毎の「バケツリレー」方式により、各画素がその隣接する画素に電荷を順次移動させることによって行われる。これとは対照的に、ＣＭＯＳセンサは、各画素の位置に測定構造を配置される。測定結果は、それぞれの位置からセンサの出力へと直接的に転送される。

カメラ１０２，１０４は、ビデオ画像（即ち、少なくとも毎秒１５フレームの一定レートである一連の画像フレーム）の撮像が可能であると好ましいが、特定のフレームレートが必要というわけではない。カメラ１０２，１０４の機能は本発明にとって重要ではなく、当該カメラは、フレームレート、画像解像度（例えば、画像あたりの画素数）、色または強度分解能（例えば、画素当たりの強度データのビット数）、レンズの焦点距離、被写界深度などについて様々であり得る。一般的に、特定の用途のために、対象の空間体積内の物体に焦点を合わせることが可能な任意のカメラが使用され得る。例えば、他の部分が静止している人の手の動きを撮像するために、対象の体積は、一辺がおよそ１メートルの立方体であると定義され得る。

システム１００は、カメラ１０２，１０４の両側に配置されるとともに画像解析システム１０６に制御される一対の光源１０８，１１０を、さらに備える。光源１０８，１１０は、一般的な従来の設計である赤外光源、例えば赤外発光ダイオード（ＬＥＤ）であってもよく、カメラ１０２，１０４は赤外光を感知可能であってもよい。フィルタ１２０、１２２は、可視光を除去して赤外光のみがカメラ１０２，１０４によって撮像された画像内に記録されるように、カメラ１０２，１０４の前に配置され得る。対象の物体が人の手や体であるいくつかの実施形態では、赤外光の使用によって、モーションキャプチャシステムを広範囲の照明条件下で動作させることを可能にするとともに、様々な不便や人が動く領域内に可視光が入射することに関連し得る妨害を回避することができる。しかし、特定の波長や電磁スペクトルの領域が必要となる。

上述の構成は、代表的なものであって限定的なものではないことが、強調されるべきである。例えば、レーザや他の光源を、ＬＥＤの代わりに使用することができる。レーザの設定のために、レーザビームを広げる（及びカメラの視野に似た視野を作る）ための追加の光学系（例えば、レンズまたは拡散器）を用いてもよい。有用な構成は、異なる範囲のための短広角照明器をさらに含み得る。光源は、典型的には、鏡面反射性ではなく拡散性の点光源である。例えば、光拡散カプセル化によってパッケージ化されたＬＥＤが適している。

動作時において、カメラ１０２、１０４は、対象の物体１１４（本例では、手）及び１以上の背景物体１１６が存在し得る対象の領域１１２に対して向けられる。光源１０８，１１０は、領域１１２を照射するように配置されている。いくつかの実施形態において、１以上の光源及び１以上のカメラ１０２，１０４は、検出される動きの下方（例えば、手の動きが検出される場合、その動きが行われる空間領域の直下）に配置される。手について記録される情報量は、それがカメラ画像内に占める画素数に比例し、手の「指示方向」に対するカメラの角度が可能な限り垂直であれば、当該手がより多くの画素を占めることになるため、上記の位置が最適である。ユーザにとって、スクリーンに対して手のひらを向けることは窮屈であるため、下面から見上げる、上面から見下ろすまたはスクリーンのベゼルから対角線上に見上げるあるいは見下ろす、のいずれかが最適な位置である。見上げる場合、背景物体（例えば、ユーザの机の上の散乱物）との混同の可能性が低くなり、真っすぐに見上げるようにすれば、視野外における他の人との混同の可能性が低くなる（さらには、顔を撮像しないことによってプライバシーが改善される）。例えば、コンピュータシステム等であり得る画像解析システム１０６は、領域１１２の画像を撮像するために、光源１０８，１１０及びカメラ１０２，１０４の動作を制御し得る。この撮像画像に基づいて、画像解析システム１０６は、物体１１４の位置及び／または動きを決定する。

例えば、物体１１４の位置を決定する際のステップとして、画像解析システム１０６は、物体１１４の一部を含むカメラ１０２，１０４によって撮像された様々な画像の画素を決定し得る。いくつかの実施形態では、画像内の任意の画素が、物体１１４の一部を含む画素であるか否かに基づいて、「物体」画素または「背景」画素として分類され得る。光源１０８、１１０を使用する、物体または背景画素の分類は、画素の輝度に基づいて行われ得る。例えば、対象の物体１１４及びカメラ１０２，１０４の間の距離（ｒ_Ｏ）は、（複数の）背景物体１１６及びカメラ１０２，１０４の間の距離（ｒ_Ｂ）よりも小さいことが予想される。光源１０８、１１０からの光の強度が１／ｒ^２で減少するため、物体１１４は背景１１６と比較してより明るく照明され、物体１１４の一部を含む画素（即ち、物体画素）は、これに対応して背景１１６の一部を含む画素（即ち、背景画素）よりも明るくなる。例えば、ｒ_Ｂ／ｒ_Ｏ＝２の場合、物体１１４及び背景１１６が光源１０８，１１０からの光を同様に反射すると仮定し、さらに領域１１２の照明全体（少なくともカメラ１０２，１０４によって撮像される周波数帯域内）が光源１０８，１１０によって支配されていると仮定すると、物体画素は背景画素よりもおよそ４倍明るくなる。これらの仮定は、一般的に、カメラ１０２、１０４、光源１０８、１１０、フィルタ１２０，１２２及び通常遭遇する物体の適切な選択においても保持される。例えば、光源１０８，１１０が狭い周波数帯域で放射線の強い出射が可能な赤外ＬＥＤになり得るとともに、フィルタ１２０，１２２が光源１０８，１１０の周波数帯域に合致したものとなり得る。このように、人間の手や体、または背景内における熱源あるいは他の物体が赤外線を出射し得るが、それでもカメラ１０２，１０４の反応は、光源１０８、１１０に由来するとともに物体１１４及び／または背景１１６によって反射された光に支配されたものとなり得る。

この構成では、画像解析システム１０６は、各画素に輝度閾値を適用することによって、迅速かつ正確に背景画素から対象画素を区別することができる。例えば、ＣＭＯＳセンサや類似の装置における画素の輝度は、センサ設計に基づいて０．０（暗）から１．０（完全飽和）の間にいくつかの階調を有する範囲で測定され得る。カメラ画素によって符号化される輝度は、典型的には蓄積される電荷またはダイオード電圧に起因しており、被写体の明るさに対して標準的（線形的）に対応する。いくつかの実施形態では、光源１０８，１１０は、距離ｒ_Ｏの物体から反射された光が１．０の輝度レベルを生じさせ、その一方で距離ｒ_Ｂ＝２ｒ_Ｏの物体から反射された光が０．２５の輝度レベルを生じさせるほど、十分に明るい。対象画素は、このように容易に、輝度に基づいて背景画素から区別され得る。さらに、物体のエッジもまた、隣接する画素の間における輝度の差に基づいて容易に検出され得るものであり、各画像内の物体の位置の決定を可能にする。カメラ１０２，１０４からの画像間における物体の位置の関連付けは、画像解析システム１０６における物体１１４の３Ｄ空間内の位置の決定を可能にするものであり、一連の画像の解析は、画像解析システム１０６における従来の動きアルゴリズムを用いた物体１１４の３Ｄ動きの再構成を可能にする。

当然であるが、システム１００は例示であって、変更や修正は可能である。例えば、光源１０８、１１０は、カメラ１０２，１０４の両側に配置されるものとして示している。これは、両方のカメラの視点から見た物体１１４のエッジに対する照明を、容易にし得る。しかし、カメラ及びライトの特定の配置は必要ない。（他の構成の例については、以下で説明される。）物体が背景よりもカメラに著しく近い限り、本明細書に記載のような改善されたコントラストが達成され得る。

画像解析システム１０６（画像解析装置とも言う）は、例えば本明細書に記載の技術を用いた撮像及び画像データの処理が可能な任意の装置または装置の構成要素に含まれ得るあるいはこれを成し得る。図２は、本発明の実施形態に係る画像解析装置１０６を実現するコンピュータシステム２００の簡略ブロック図である。コンピュータシステム２００は、プロセッサ２０２、メモリ２０４、カメラインタフェース２０６、ディスプレイ２０８、スピーカ２０９、キーボード２１０及びマウス２１１を含む。

メモリ２０４は、プロセッサ２０２によって実行される命令だけでなく、当該命令の実行に関連付けられている入力及び／または出力データを記憶するために使用され得る。特に、メモリ２０４は、以下で詳細に説明するモジュールのグループとして概念的に図示される、プロセッサ２０２の動作及び他のハードウェアコンポーネントとのやりとりを制御する命令を格納している。オペレーティングシステムは、メモリ割り当て、ファイル管理及び大容量記憶装置の操作などの基本システム機能である低レベルの実行を指示する。オペレーティングシステムは、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）オペレーティングシステム、Ｕｎｉｘ（登録商標）オペレーティングシステム、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、Ｘｅｎｉｘオペレーティング・システム、ＩＢＭＡＩＸオペレーティングシステム、ヒューレットパッカードＵＸオペレーティングシステム、ＮｏｖｅｌｌＮＥＴＷＡＲＥオペレーティング・システム、ＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓＳＯＬＡＲＩＳオペレーティングシステム、ＯＳ／２オペレーティング・システム、ＢｅＯＳオペレーティングシステム、ＭＡＣＩＮＴＯＳＨオペレーティングシステム、ＡＰＡＣＨＥオペレーティングシステム、ＯＰＥＮＳＴＥＰオペレーティングシステムまたはプラットフォームの別のオペレーティングシステムなど、様々なオペレーティングシステムから成り得るまたは含み得る。

コンピュータ環境は、他のリムーバブル／非リムーバブル、揮発性／不揮発性のコンピュータ記憶媒体を含み得る。例えば、ハードディスクドライブは、非リムーバブルであり不揮発性の磁気媒体に読み取りまたは書き込みを行い得る。磁気ディスクドライブは、リムーバブルであり不揮発性の磁気ディスクに読み取りまたは書き込みを行い得るとともに、光ディスクドライブは、リムーバブルであり不揮発性のＣＤ−ＲＯＭや他の光媒体などの光ディスクに読み取りまたは書き込みを行い得る。他のリムーバブル／非リムーバブル、揮発性／不揮発性のコンピュータ記憶媒体は、例示の動作環境で使用されるものを含むが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク（Digital Versatile Disk）、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなど、これらに限定されない。記憶媒体は、典型的には、リムーバブルまたは非リムーバブルのメモリインタフェースを介してシステムバスに接続されている。

プロセッサ２０２は、汎用マイクロプロセッサであってもよいが、実装に応じてその代わりに、マイクロコントローラ、周辺集積回路素子、ＣＳＩＣ（Customer Specific Integrated Circuit）、ＡＳＩＣ（Application-Specific Integrated Circuit）、論理回路、デジタル信号プロセッサ、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイス、ＰＬＤ（Programmable Logic Device）、ＰＬＡ（Programmable Logic Array）、ＲＦＩＤプロセッサ、スマートチップまたは本発明の処理のステップを実行することが可能な他の任意の装置あるいは装置の構成、とすることができる。

カメラインタフェース２０６は、図１に示すカメラ１０２，１０４などのカメラとコンピュータシステム２００との間の通信を可能にするハードウェア及び／またはソフトウェアだけでなく、図１に示す光源１０８，１１０などの関連した光源も含み得る。したがって、例えば、カメラインタフェース２０６は、カメラが接続された１以上のデータポート２１６、２１８だけでなく、カメラから受信したデータ信号をプロセッサ２０２上で実行される従来のモーションキャプチャ（「モーキャプ」）プログラム２１４の入力として与える前に修正する（例えば、ノイズの減少やデータの再フォーマットをする）ためのハードウェア及び／またはソフトウェアシグナルプロセッサも含み得る。いくつかの実施形態では、カメラインタフェース２０６は、例えば、カメラを駆動または停止させるためや、カメラ設定（フレームレート、画質、感度等）の制御などのために、カメラへの信号の送信も行い得る。このような信号は、ユーザ入力または他の検出されたイベントに応じて順番に生成され得るものであり、例えばプロセッサ２０２からの制御信号に応じて送信され得る。

カメラインタフェース２０６は、光源（例えば、光源１０８、１１０）に接続可能なコントローラ２１７、２１９も含み得る。いくつかの実施形態において、コントローラ２１７，２１９は、例えばモーキャププログラム２１４を実行するプロセッサ２０２からの指示に応じて、動作電流を光源に供給する。他の実施形態では、光源が外部電源（不図示）から動作電流を引き込み得るとともに、コントローラ２１７，２１９が例えば光源のオンあるいはオフまたは輝度の変化を指示する光源のための制御信号を生成し得る。いくつかの実施形態では、１つのコントローラが複数の光源を制御するために使用され得る。

モーキャププログラム２１４を定義する命令は、メモリ２０４に格納され、これらの命令が実行されると、カメラインタフェース２０６に接続されたカメラから与えられる画像に対するモーションキャプチャ解析が実行される。一実施形態では、モーキャププログラム２１４は、物体検出モジュール２２２及び物体解析モジュール２２４などの様々なモジュールを含む。さらに、これらのモジュールの両方は、従来のものであって当技術分野において十分に特徴付けられているものである。物体検出モジュール２２２は、画像中の物体のエッジ及び／または物体の位置に関する他の情報を検出するために、画像（例えば、カメラインタフェース２０６を介して撮像された画像）を解析し得る。物体解析モジュール２２４は、物体の３Ｄ位置及び／または動きを決定するために、物体検出モジュール２２２によって与えられる物体情報を解析し得る。モーキャププログラム２１４のコードモジュールで実行され得る動作の例については、以下に記載する。メモリ２０４は、他の情報及び／またはモーキャププログラム２１４によって使用されるコードモジュールも含み得る。

ディスプレイ２０８、スピーカ２０９、キーボード２１０及びマウス２１１は、コンピュータシステム２００とのユーザのやりとりを容易にし得る。これらの構成要素は、一般的な従来設計のものや、ユーザのやりとりの任意のタイプを与えることが望ましくなるように変更したものであり得る。いくつかの実施形態では、カメラインタフェース２０６及びモーキャププログラム２１４を使用したモーションキャプチャの結果が、ユーザ入力として解釈され得る。例えば、ユーザは、モーキャププログラム２１４を用いて解析される手のジェスチャを行うことが可能であり、この解析の結果は、プロセッサ２００（例えば、ウェブブラウザ、ワードプロセッサまたは他のアプリケーション）上で実行される他のプログラムへの指示として解釈され得る。そのため、例として、ユーザは、ディスプレイ２０８上に表示される現在のウェブページを「スクロール」するための上側または下側スワイプジェスチャや、スピーカ２０９からのオーディオ出力の音量を増大または減少するための回転ジェスチャなどを使用し得る、

当然であるが、コンピュータシステム２００は例示であって、変更や修正は可能である。コンピュータシステムは、サーバシステム、デスクトップシステム、ラップトップシステム、タブレット、スマートフォンまたはパーソナルデジタルアシスタントなどを含む様々なフォームファクタで実現され得る。特定の実現態様は、例えば有線及び／または無線ネットワークインタフェース、メディアの再生及び／または記録機能など、本明細書に記載されていない他の機能を含み得る。いくつかの実施形態では、１以上のカメラが、分離した構成要素として与えられるのではなく、コンピュータ内に組み入れられ得る。さらに、画像解析装置は、コンピュータシステムの構成要素（例えば、プログラムコードを実行するプロセッサ、ＡＳＩＣまたは画像データと出力解析結果を受信するための適切なＩ／Ｏインタフェースを備えた固定機能デジタル信号プロセッサ）のサブセットのみを使用して実現され得る。

コンピュータシステム２００は、特定のブロックを参照して本明細書に記載されているが、当該ブロックは説明の便宜のために定義されているものであって、構成部品の特定の物理的配置を意味することを意図するものではないと理解されるべきである。さらに、当該ブロックは、物理的に別個の構成要素に対応する必要はない。物理的に別個の構成要素が使用される場合、必要に応じて、構成要素間の接続（例えば、データ通信用など）が有線及び／または無線と成り得る。

プロセッサ２０２による物体検出モジュール２２２の実行は、プロセッサ２０２に、物体の画像を撮像するためにカメラインタフェース２０６を動作させたり、画像データの解析によって背景画素から対象画素を区別させたりする。図３Ａ〜図３Ｃは、本発明の様々な実施形態に係る得られ得る画素行の輝度データの３つの異なるグラフである。各グラフは１つの画素行について例示しているが、画像が典型的には多数の画素行を含むとともに、行が任意の数の画素を含み得ると理解されるべきである。例えば、ＨＤビデオ画像は、それぞれ１９２０画素を有する１０８０行を含み得る。

図３Ａは、手のひらの断面など、単一な断面を有する物体の画素行の輝度データ３００を示している。物体に対応する領域３０２内の画素は高輝度を有しているが、背景に対応する領域３０４及び３０６内の画素は著しく低い輝度を有する。図から分かるように、物体の位置は見てすぐに分かるものであり、物体のエッジの位置（位置３０８、位置３１０）は容易に識別される。例えば、０．５を上回る輝度を持つ画素は対象画素であると見なすことが可能であり、反対に０．５を下回る輝度を持つ画素は背景画素であると見なすことが可能である。

図３Ｂは、開いた手の指の断面など、複数の異なる断面を有する物体の画素行の輝度データ３２０を示している。物体に対応する領域３２２，３２３及び３２４は高輝度を有しているが、背景に対応する領域３２６〜３２９内の画素は低い輝度を有するこの場合も、輝度に対する単純なカットオフ閾値（例えば、０．５）は、対象画素を背景画素と区別するために十分であり、物体のエッジを容易に確定することができる。

図３Ｃは、広げた２本指をカメラに向けた手の断面など、物体までの距離が行の所々で変化する画素行の輝度データ３４０を示している。開いた指に対応する領域３４２及び３４３は最も高い輝度を有する。手の他の部分に対応する領域３４４及び３４５はわずかに少ない輝度を有する。これは、１つはより遠くにあるということ、１つは開いた指による影が掛かること、に起因し得る。背景に対応する領域３４８及び３４９は、背景領域であり、手が含まれる領域３４２〜３４５よりも著しく暗い。輝度に対するカットオフ閾値（例えば、０．５）は、この場合でも対象画素を背景画素と区別するために十分である。対象画素のさらなる解析は、領域３４２及び３４３のエッジを検出するためにも行われ得るものであり、物体の形状に関する追加の情報を与える。

当然であるが、図３Ａ〜３Ｃに示すデータは例示である。いくつかの実施形態では、予測される距離（例えば、図１のｒ_Ｏ）にある物体が露出オーバーになる（即ち、全てではないにしても多くの対象画素が完全に１．０の輝度レベルで飽和してしまう）ことがあるなど、光源１０８，１１０の強度を調整することが望ましくなり得る。（物体の現実の輝度が、実際には高くなり得る。）背景画素も多少明るくし得るが、背景画素も飽和レベルに近づくほど強度が高く設定されない限り、依然として距離に対する光強度の減衰１／ｒ^２によって物体及び背景画素を区別することができる状態である。図３Ａ〜３Ｃに示したように、物体と背景との間に強いコントラストを作り出すために物体に向けられた照明の使用は、背景画素と対象画素を区別するための簡単で高速なアルゴリズムの使用を可能にするものであり、リアルタイムモーションキャプチャシステムにおいて特に有用となり得る。背景及び物体画素を区別するタスクの簡素化は、他のモーションキャプチャタスク（例えば、物体の位置、形状及び／または動きの再構築）のためのコンピュータ資源を開放し得る。

本発明の実施形態に係る画像内の物体の位置を識別するための処理のフロー図を示す図４を参照する。処理４００は、例えば図１のシステム１００において実現され得る。ブロック４０２において、光源１０８，１１０がオンする。ブロック４０４において、１以上の画像がカメラ１０２，１０４を用いて撮像される。いくつかの実施形態では、各カメラからの１つの画像が撮像される。他の実施形態では、各カメラから一連の画像が撮像される。２つのカメラからの２つの画像は、２つのカメラからの相関画像が物体の３Ｄ位置の決定に使用され得るように、時間において厳密に相関させられ得る（例えば、数ミリ秒以内となる同時）。

ブロック４０６において、背景画素から対象画素を区別するために、画素の輝度の閾値が適用される。ブロック４０６は、背景及び物体画素の間の遷移点に基づいた物体のエッジの位置の特定をも含み得る。いくつかの実施形態において、各画素は、最初に、輝度カットオフ閾値を超えているか否かに基づいて物体または背景のいずれかに分類される。例えば、図３Ａ〜３Ｃに示すように、０．５の飽和レベルにおけるカットオフが使用され得る。画素が分類されると、背景画素が画素物体に隣接している位置を見つけることによって、エッジが検出され得る。いくつかの実施形態では、ノイズ欠陥を回避するために、エッジの両側となる背景及び物体画素の領域が、特定の最小の大きさ（例えば、２、４または８画素）を有することを必要とし得る。

他の実施形態では、エッジが、画素が物体であるか背景であるかの最初の分類をすることなく検出され得る。例えば、Δβは、隣接する画素間の輝度の差として定義され得るものであり、｜Δβ｜が閾値を上回る（例えば、飽和範囲の単位で０．３または０．５）ことが、隣接する画素間における背景から物体または物体から背景への遷移を示し得る。（Δβの符号は、遷移の方向を示し得る。）物体のエッジが、実際には画素の中央である場合、境界において中間値を有する画素が存在し得る。これは、例えば画素ｉについて２つの輝度値（βＬ＝（β_ｉ＋β_ｉ−１）／２及びβＲ＝（β_ｉ＋β_ｉ＋１）／２、画素（ｉ−１）は画素ｉの左側、画素（ｉ＋１）は画素ｉの右側）を算出することによって、検出され得る。画素ｉがエッジの近くにない場合は一般的に｜βＬ−βＲ｜がゼロに近くなり、画素がエッジの近くにある場合は｜βＬ−βＲ｜が１に近くなり、｜βＬ−βＲ｜の閾値がエッジを検出するために使用され得る。

いくつかの例では、物体の一部が画像内の別の物体を部分的に遮蔽してもよい。例えば手の場合、指が、手のひらや別の指を部分的に遮蔽してもよい。物体の一部が別の物体を部分的に遮蔽して生じる遮蔽エッジも、背景画素が除去されれば、小さいが明らかである輝度の変化に基づいて検出され得る。図３Ｃは、そのような部分的な遮蔽の例を示しており、遮蔽エッジの位置は明らかである。

検出されたエッジは、多くの目的に使用され得る。例えば、前述のように、２つのカメラから見た物体のエッジは、３Ｄ空間内の物体のおよその位置を決定するために使用され得る。カメラの光軸を横断する２Ｄ平面内の物体の位置は、１つの画像から決定され得るとともに、２つの異なるカメラからの時間相関画像における物体の位置の間のオフセット（視差）は、カメラ間の間隔が既知であれば、物体までの距離を決定するために使用され得る。

さらに、物体の位置及び形状は、２つの異なるカメラからの時間相関画像におけるそのエッジの位置に基づいて決定され得るとともに、物体の動き（関節を含む）は、一連となる一対の画像の解析から決定され得る。物体のエッジの位置に基づいた物体の位置、形状及び動き動きの決定に使用され得る技術例として、同時係属中のシリアル番号第１３／４１４４８５（２０１２年３月７日米国出願）の開示全体が、参照として本明細書に援用される。本開示にアクセスする当業者は、物体のエッジの位置に関する情報に基づいた物体の位置、形状及び動きを決定するものとしても使用され得る他の技術を認識するであろう。

上記第１３／４１４４８５出願に基づいて、物体の動き及び／または位置は、少量の情報を使用して再構成される。例えば、特定の視点から見た、物体の形状またはシルエットの外形は、様々な面内における当該視点から物体に対する接線を定義するために使用され得る（本明細書では「スライス」という）。わずか２つの異なった視点を用いると、当該視点から物体への４つ（またはそれ以上）の接線が、所定のスライス内で得られ得る。これらの４つ（またはそれ以上）の接線から、スライス内の物体の位置を決定することが可能であるとともに、スライス内のその断面を例えば１以上の楕円または他の単純閉曲線を用いて近似することが可能である。別の例として、特定のスライス内の物体の表面上の点の位置は、直接的に決定され得る（例えば、タイムオブフライトカメラを使用）とともに、当該スライス内の物体の断面の位置及び形状は、当該点に対する楕円や他の単純閉曲線のフィッティングにより近似され得る。異なるスライスについての位置及び断面決定は、その位置及び形状を含む物体の３Ｄモデルを構築するために相関させられ得る。一連の画像は、物体の動きをモデル化するものと同じ技術を用いて解析され得る。複数の独立した関節部を持つ複雑な物体（例えば、人間の手）の動きは、これらの技術を使用してモデル化され得る。

より具体的に、ｘｙ平面内の楕円は、中心のｘ及びｙ座標（Ｘ_Ｃ、Ｙ_Ｃ）、長半径、短半径及び回転角度（例えば、ｘ軸に対する長半径の角度）、の５つのパラメータで特徴付けられ得る。４つの接線だけでは、楕円は未決定である。しかし、この事実にもかかわらず、楕円を推定するための効率的な処理は、パラメータの１つに関する初期の作業仮説（または「推測」）の定立と、解析中に収集される追加情報としての仮説の再検討と、を含む。この追加情報は、例えば、カメラ及び／または物体の性質に基づく物理的な制約を含み得る。いくつかの状況では、例えば２以上の視点が利用可能であるため、スライスの一部または全部について、物体に対する４以上の接線が利用可能となり得る。楕円形断面は、依然として決定可能であり、いくつかの例における処理では、パラメータの値を仮定する必要がないように若干簡略化されている。いくつかの例では、追加の接線は、追加の複雑さを生じ得る。いくつかの状況では、例えば１つのカメラの視野の範囲外に物体のエッジがあるためまたはエッジが検出されなかったため、スライスの一部または全部について、物体に対する４以上の接線が利用可能となり得る。３つの接線を有するスライスが解析され得る。例えば、隣接するスライス（例えば、少なくとも４つの接線を有していたスライス）にフィットする楕円からの２つのパラメータを使用することで、当該楕円及び３つの接線についての連立方程式が解かれ得るものであると十分に断定される。別の選択肢として、３つの接線にフィットし得る円がある。平面内で円を決定する３つのパラメータ（中心座標と半径）のみが必要であるため、３つの接線は十分に円にフィットする。３未満の接線を有するスライスは、破棄されるか隣接するスライスと組み合わせられ得る。

ある物体が対象の物体に対応するか否かを幾何学的に決定するための１つの方法は、一連の楕円の体積を求めることで、物体を定義するとともに、楕円に基づく物体の定義に対して幾何学的に矛盾する物体セグメントを破棄すること（例えば、過度に円筒状、過度に直線状、過度に薄い、過度に小さいまたは過度に遠いセグメントの破棄）である。物体を特徴づけるために十分な数の楕円が残り、それが対象の物体に整合している場合、そのように識別されて、フレームからフレームへと追跡され得る。

いくつかの実施形態では、複数のスライスのそれぞれは、そのスライス内の物体の楕円形断面の大きさ及び位置を決定するために個別に解析される。これは、異なるスライスにわたって断面を相関させることにより改善され得る初期の３Ｄモデル（具体的には、楕円形断面の積み重ね）を与える。例えば、物体の表面は連続性を有するものとなることが予想され、不連続な楕円は結果的に無視され得る。例えば、動きや変形の継続性に関連した予想に基づいて、時間を越えて自身の３Ｄモデルを相関させることによって、さらなる改善が得られ得る。図１及び図２を改めて参照すると、いくつかの実施形態において、光源１０８，１１０は、継続的にオンにされるのではなく、パルスモードで動作され得る。例えば、光源１０８，１１０が、定常状態動作よりもパルスで明るい光を生成する能力を有する場合、これは有用となり得る。図５は、５０２に示すように光源１０８，１１０が一定の間隔でオンになるパルス状である時系列を示している。５０４に示すように、カメラ１０２，１０４のシャッタは、光パルスと一致するタイミングで画像を撮像するために開き得る。このように、画像が撮像される時間中、対象の物体は明るく照明され得る。いくつかの実施形態では、物体のシルエットが、異なる視点から見た物体に関する情報を示す１以上の物体の画像から抽出される。シルエットは複数の異なる技術を用いて得られ得るが、いくつかの実施形態では、当該シルエットは、物体の画像を撮像するカメラの使用及び物体のエッジを検出するための画像の解析によって得られる。

いくつかの実施形態では、光源１０８，１１０のパルス駆動が、対象の物体及び背景の間のコントラストをさらに改善するために使用され得る。特に、自身が光を出射するまたは反射性が高い物体が含まれているシーンの場合、シーン内の関連及び非関連（例えば、背景）の物体を区別するための能力が損なわれ得る。この問題は、カメラの露光時間を非常に短い時間（例えば、１００マイクロ秒以下）に設定するとともに、非常に高い電力（即ち、５〜２０ワット、または、場合によっては、例えば４０ワットなどのより高いレベル）で照明をパルス駆動することによって、対処され得る。このとき、最も一般的な環境照明の光源（例えば、蛍光灯）は、そのような明るい短時間の照明と比較して非常に暗い。即ち、マイクロ秒では、非パルス光源は、それらがミリ秒以上の露出時間に表れたとしても薄暗いものである。実際、この方法では、これらが同じ一般的な帯域で発光しても、他の物体に対する対象の物体のコントラストを増大させる。したがって、このような条件下における輝度による判別は、画像の再構成及び処理の目的のための無関連の物体の無視を可能にする。平均消費電力も低減される。２０ワットで１００マイクロ秒の場合、平均消費電力は１０ミリワットを下回る。一般的に、光源１０８，１１０は、カメラ全体の露光時間中にオンになるように動作させられる（即ち、パルス幅が、露光時間と等しくかつこれに揃っている）。

光源１０８，１１０をオンにして撮像された画像と光源１０８，１１０をオフにして撮像された画像との比較をする目的のために、光源１０８，１１０のパルスを調整することも可能である。図６は、６０４に示すようにカメラ１０２，１０４のシャッタが画像を撮像するために開いている間に、６０２に示すように光源１０８，１１０が一定の間隔でオンになるパルス状である時系列を示す。この場合、光源１０８，１１０は、１つおきの画像に対して「オン」になる。対象の物体が、背景領域よりも光源１０８，１１０に対して著しく近い場合、背景画素に対する光強度の差よりも、対象画素に対する光強度の差の方が、が強くなる。したがって、一連の画像内の画素の比較が、物体及び背景画素の区別に役立ち得る。

図７は、本発明の実施形態に係る一連の画像を用いて物体のエッジを識別する処理７００のフロー図である。ブロック７０２において、光源がオフにされ、ブロック７０４において、第１画像（Ａ）が撮像される。次に、ブロック７０６において、光源がオンにされ、ブロック７０８において、第２画像（Ｂ）が撮像される。ブロック７１０において、「差分」画像Ｂ−Ａは、例えば、画像Ａの各画素の輝度値を、画像Ｂの対応する画素の輝度値から減算することによって、算出される。画像Ｂは、光がオンの状態で撮像されたものであるため、Ｂ−Ａはほとんどの画素で正になることが予想される。

差分画像は、閾値または他の画素毎の基準の適用によって背景及び前景を区別するために、使用される。ブロック７１２において、物体画素を識別するために差分画像に対して閾値が適用され、閾値を上回る（Ｂ−Ａ）は対象画素に関連付けられるとともに、閾値を下回る（Ｂ−Ａ）は背景画素に関連付けられる。物体のエッジは、その後で、上述のように背景画素に隣接する対象画素の識別によって定義され得る。物体のエッジは、上述のように位置及び／または動き検出などの目的のために使用され得る。

代替的な実施形態では、物体のエッジが、一対ではなく三つ組の画像フレームを使用して識別される。例えば、１つの実装では、第１画像（画像１）が光源をオフとした状態で得られ、第２画像（画像２）が光源をオンにした状態で得られ、さらに第３画像（画像３）が光源を再びオフにした状態で撮像される。２つの差分画像
画像４＝ａｂｓ（画像２−画像１）及び
画像５＝ａｂｓ（画像２−画像３）
は、画素の輝度値を減算することによって定義される。最終的な画像、画像６は、画像４及び画像５の２つの画像に基づいて定義される。特に、画像６における各画素の値は、画像４及び画像５における２つの対応する画素値の小さい方である。換言すると、各画素について、画像６＝ｍｉｎ（画像４，画像５）である。画像６は、精度が改善された差分画像を表し、そのほとんどの画素は正となる。再度、前景及び背景画素を区別するために、閾値または他の基準が画素毎に使用され得る。

本明細書に記載のコントラストに基づく物体検出は、対象の物体が背景物体よりも（複数の）光源に対して大幅に近づく（例えば、半分の距離）ことが予想される任意の状況に対して適用され得る。動き検出の使用に関するそのような適用の一つとして、コンピュータシステムとやりとりするためのユーザ入力がある。例えば、ユーザが画面を指し示すまたは他の手でジェスチャをすると、それが入力としてコンピュータシステムに解釈され得る。

本発明の実施形態に係るユーザ入力装置である動き検出器を含むコンピュータシステム８００が、図８に示されている。コンピュータシステム８００は、プロセッサ、メモリ、固定またはリムーバブルディスクドライブ、ビデオドライバ、オーディオドライバ、ネットワークインタフェースコンポーネントなど、様々なコンピュータシステムの構成要素を収容し得るデスクトップボックス８０２を含む。ディスプレイ８０４は、デスクトップボックス８０２に接続されるとともにユーザが閲覧可能となるように配置されている。キーボード８０６は、ユーザの手が簡単に届く範囲内に配置される。動き検出器ユニット８０８は、キーボード８０６の近くに配置され（例えば、図示のような後方または片側）、その中でユーザがディスプレイ８０４に向かってジェスチャをすることが自然となる領域（例えば、キーボードの上側の空間であってモニタの前）に対して向けられている。カメラ８１０，８１２（例えば、上述のカメラ１０２，１０４と同様または同一であり得るもの）は、一般的には上側を向くように配置され、光源８１４，８１６（上述の光源１０８，１１０と同様または同一であり得るもの）は、動き検出器ユニット８０８の上の領域を照明するために、カメラ８１０，８１２の両側に配置される。典型的な実装では、カメラ８１０，８１２及び光源８１４，８１６は、実質的に同一平面内にある。この構成は、例えばエッジ検出を妨害し得る影の出現（光源がカメラに隣接せずに間に位置する場合と同様になり得る）を防止する。不図示のフィルタは、光源８１４，８１６のピーク周波数付近の帯域の外側となるすべての光を除去するために、動き検出器ユニット８０８の上面の上（または、カメラ８１０，８１２の開口のちょうど上）に配置され得る。

図示の構成では、カメラ８１０，８１２の視野内でユーザが手または他の物体（例えば、鉛筆）を動かすと、背景はおそらく天井及び／または天井に設けられた様々な定着物から成り得る。ユーザの手が、動き検出器ユニット８０８の上側１０〜２０センチメートルになり得るのに対して、天井はその距離の５〜１０倍（またはそれ以上）となり得る。光源８１４，８１６からの照明は、それ故に天井と比較してユーザの手に対してはるかに強くなり、本明細書に記載の技術が、カメラ８１０，８１２によって撮像された画像内の背景画素から物体画素を確実に区別するために使用され得る。赤外光が使用される場合は、ユーザの気が散ったり光によって妨害されたりすることがない。

コンピュータシステム８００は、図１に示した構造を利用し得る。例えば、動き検出器ユニット８０８のカメラ８１０，８１２がデスクトップボックス８０２に対して画像データを与え得るとともに、画像解析及びその後の解釈がデスクトップボックス８０２に収容されているプロセッサ及び他の構成要素を使用して行われ得る。また、動き検出器ユニット８０８は、画像解析及び解釈の一部または全部の段階を実行するためのプロセッサまたは他の構成要素を含み得る。例えば、動き検出器ユニット８０８は、物体画素及び背景画素を区別するための上述の処理の１以上を実行するプロセッサ（プログラム可能なまたは固定機能）を含み得る。この場合、動き検出器ユニット８０８は、さらなる解析及び解釈のために、撮像画像の減少表示（例えば、すべての背景画素をゼロにした表示）を、デスクトップボックス８０２に対して送信し得る。動き検出器ユニット８０８内部のプロセッサ及びデスクトップボックス８０２内のプロセッサの間における計算タスクの特別な分割は不要である。

絶対的な輝度レベルによる物体画素及び背景画素の区別は、必ずしも必要ではない。例えば、物体形状の知見があれば、物体のエッジの明らかな検出もなく画像内の物体を検出するために、輝度減衰のパターンが利用され得る。丸みを帯びた物体（手や指など）では、例えば、１／ｒ^２の関係が、物体の中心付近にガウシアンまたは近ガウシアン輝度分布（near-Gaussian brightness distributions）を生じさせる。ＬＥＤによって照明されるとともにカメラに対して垂直に配置された円筒を撮像すると、円筒軸に対応する明るい中心線を有するとともに各側（円筒の周囲）で明るさが減衰する画像になる。指はおよそ円筒形であり、これらのガウシアンピークを識別することによって、背景が近く背景の相対輝度に起因してエッジが見えない（近接のためか、それとも積極的に赤外光が出射され得るということのため）という状況であっても指を配置することができる。語句「ガウシアン」は、負の二次導関数の曲線を含意するように、本明細書で広義に使用される。多くの場合、そのような曲線はベル型かつ対称形になるが、必ずしもそうではない。例えば、物体の鏡面反射性がより高い状況または物体が極端な角度である場合、曲線が特定の方向にずれ得る。したがって、本明細書で使用する用語「ガウシアン」は、明らかにガウシアン関数に適合する曲線のみに限定されるものではない。

図９は、本発明の実施形態に係る動き検出器を含むタブレットコンピュータ９００を示す。タブレットコンピュータ９００は、前面にベゼル９０４に囲まれた表示画面９０２を含む筐体を有する。１以上の制御ボタン９０６は、ベゼル９０４に含まれ得る。タブレットコンピュータ９００は、ハウジング内（例えば、表示画面９０２の背後）に、様々な従来のコンピュータの構成要素（プロセッサ、メモリ、ネットワークインタフェースなど）を有し得る。動き検出器ユニット９１０は、ベゼル９０４内に設けられるとともにタブレットコンピュータ９００の前方に位置するユーザの動きをキャプチャするように前面に向けられたカメラ９１２，９１４（例えば、図１のカメラ１０２，１０４と類似または同一）及び光源９１６，９１８（例えば、図１の光源１０８，１１０と類似または同一）を使用した実装になり得る。

カメラ９１２，９１４の視野内でユーザが手または他の物体を動かすと、上述のように、動きが検出される。この場合、背景は、おそらくユーザ自身の体であり、タブレット・コンピュータ９００から大体２５〜３０センチメートルの距離となる。ユーザは、ディスプレイ９０２から例えば５〜１０センチメートルという短い距離で、手または他の物体を保持し得る。ユーザの手がユーザの体よりも光源９１６，９１８に著しく近い（例えば、半分の距離）限り、本明細書に記載の照明に基づいたコントラストの改善技術が、背景画素から対象画素を区別するために使用され得る。画像解析とその後の入力ジェスチャとしての解釈は、タブレットコンピュータ９００内（例えば、オペレーティングシステムまたはカメラ９１２，９１４から得られるデータを解析するための他のソフトウェアを実行するためのメインプロセッサの活用）で行われ得る。ユーザは、これにより、３Ｄ空間内のジェスチャを用いてタブレット９００とやりとりし得る。

図１０に示すゴーグルシステム１０００も、本発明の実施形態に係る動き検出器を含み得る。ゴーグルシステム１０００は、例えば、仮想現実及び／または拡張現実環境に関連して使用され得る。ゴーグルシステム１０００は、従来の眼鏡と同様に、ユーザが着用可能なゴーグル１００２を含む。ゴーグル１００２は、ユーザの左右の目に画像（例えば、仮想現実環境の画像）を与える小型の表示画面を含み得る接眼レンズ１００４，１００６を含む。これらの画像は、ゴーグル１００２と有線または無線チャネルのいずれかを介して通信するベースユニット１００８（例えば、コンピュータシステム）によって与えられ得る。カメラ１０１０，１０１２（例えば、図１のカメラ１０２，１０４と類似または同一）は、それらがユーザの視界を不明瞭にしないように、ゴーグル１００２のフレーム部に設けられ得る。光源１０１４，１０１６は、ゴーグル１００２のフレーム部におけるカメラ１０１０，１０１２の両側に設けられ得る。カメラ１０１０，１０１２によって収集された画像は、解析及び仮想または拡張環境とのユーザのやりとりを示すジェスチャとしての解釈のために、ベースユニット１００８に送信され得る。（いくつかの実施形態では、接眼レンズ１００４，１００６を介して提示される仮想または拡張環境は、ユーザの手の表示を含み得るとともに、その表示はカメラ１０１０，１０１２によって収集された画像に基づき得る。）

カメラ１０１０，１０１２の視野内でユーザが手または他の物体を使用してジェスチャをすると、上述のように動きが検出される。この場合、背景は、おそらくユーザが居る部屋の壁であり、ユーザは、きっと壁から多少の距離のところで座るまたは立っている。ユーザの手がユーザの体よりも光源１０１４，１０１６に著しく近い（例えば、半分の距離）限り、本明細書に記載の照明に基づいたコントラストの改善技術が、背景画素からの対象画素の区別を容易にする。画像解析とその後の入力ジェスチャとしての解釈は、ベースユニット１００８内で行われ得る。

当然であるが、図８〜１０に示した動き検出器の実装は例示であって、変更や修正は可能である。例えば、動き検出器またはその構成要素は、キーボードやトラックパッドなどの他のユーザ入力デバイスを有する単一のハウジング内に組み込まれ得る。別の例では、動き検出器は、例えば、上向きのカメラ及び光源がラップトップキーボードと同一の平面に組み入れられた（例えば、キーボードの一方側、または前、または背後）または前向きのカメラ及び光源がラップトップの表示画面を囲むベゼルに組み入れられたラップトップコンピュータに含まれる。さらに別の例では、着用可能な動き検出器は、例えば、アクティブディスプレイや光学部品が含まれていないヘッドバンドやヘッドセットなどとして実装され得る。

図１１に示すように、動き情報は、本発明の実施形態に係るコンピュータシステムまたは他のシステムを制御するためのユーザ入力として使用され得る。処理１１００は、例えば図８〜１０に示すようなコンピュータシステムで実行され得る。ブロック１１０２において、動き検出器の光源及びカメラを使用して画像が撮像される。上述のように、画像の撮像は、光源（及びカメラ）に近い物体がさらに遠くの物体よりもより明るく照明されるようなカメラの視野を照明するための光源の使用を含み得る。

ブロック１１０４において、撮像された画像は、輝度の変化に基づいて物体のエッジを検出するために解析される。例えば、上述のように、この解析には、各画素の輝度と閾値との比較、隣接する画素におけるローレベルからハイレベルへの輝度の遷移の検出及び／または光源による照明がある状態及びない状態で撮像された一連の画像の比較が、含まれ得る。ブロック１１０６において、エッジベースアルゴリズムは、物体の位置及び／または動きを決定するために使用される。このアルゴリズムは、例えば、上述の第１３／４１４４８５出願に記載の任意の接線ベースアルゴリズムであり得る。他のアルゴリズムも使用され得る。

ブロック１１０８において、ジェスチャは、物体の位置及び／または動きに基づいて識別される。例えば、ジェスチャのライブラリが、ユーザの指の位置及び／または動きに基づいて定義され得る。「タップ」は、表示画面に向かって伸びた指の速い動きに基づいて定義され得る。「トレース」は、表示画面に対して大体平行な平面内における伸びた指の動きとして定義され得る。内側ピンチは、互いに近づくように動く２本の伸びた指として定義され得るとともに、外側ピンチは、さらに開くように動く２本の伸びた指として定義され得る。スワイプジェスチャは、特定の方向（例えば、上、下、左、右）に対する手全体の動きに基づいて定義され得るとともに、別のスワイプジェスチャは、伸びた指の本数（例えば、１本、２本、すべて）に基づいてさらに定義され得る。他のジェスチャも定義され得る。ライブラリに検出された動きを比較することによって、検出された位置及び／または動きに関連付けられた特定のジェスチャが決定され得る。

ブロック１１１０において、ジェスチャは、コンピュータシステムが処理し得るユーザ入力として解釈される。特定の処理は、一般的にコンピュータシステム上で現在実行されているアプリケーションプログラム及びこれらのプログラムの特定の入力に対する応答の構成方法によって決まる。例えば、ブラウザプログラム内のタップは、指が指示するリンクの選択として解釈され得る。文書処理プログラム内のタップは、指が指示する位置へのカーソルの設置としてまたはメニュー項目あるいは画面上に見え得る他のグラフィック制御要素の選択として解釈され得る。特定のジェスチャ及び解釈は、オペレーティングシステム及び／または必要なアプリケーションのレベルで決定され得るものであり、任意のジェスチャの特定の解釈は不要である。

全身の動きが、キャプチャされるとともに同様の目的に使用され得る。このような実施形態では、解析及び再構成が、およそリアルタイム（例えば、人の反応時間に匹敵する時間）で都合良く行われることで、ユーザは機器との自然なやりとりを体験する。他の用途では、モーションキャプチャは、リアルタイムで行われないデジタルレンダリング（例えば、コンピュータアニメーションムービーなど）のために使用され得る。このような場合、解析は必要な長さをとり得る。

本明細書で説明する実施形態は、距離に応じた光強度の減少を利用することによって、撮像された画像内の物体及び背景の効率的な区別を与える。背景よりも物体に著しく近い（例えば、２倍以上）１以上の光源を用いて物体を明るく照明することで、物体及び背景の間のコントラストが増大し得る。いくつかの例では、フィルタが、意図した光源以外の光源からの光を除去するために使用され得る。赤外光を使用することで、不要な「ノイズ」やおそらく画像が撮像される環境内に存在する見える光源からの輝点を低減し得るとともに、ユーザ（赤外線を見ることが不可能であろう人）の気が散ることをも低減し得る。

上述の実施形態は、対象の物体の画像を撮像するために使用されるカメラの両側に１つ配置された、２つの光源を備える。この配置は、位置及び動きの解析がそれぞれのカメラから見た物体のエッジの情報に依拠しており、光源がそれらのエッジを照明する場合において、特に有用になり得る。しかしながら、他の配置も使用され得る。例えば、図１２は、単一のカメラ１２０２及びカメラ１２０２の両側に配置される２つの光源１２０４，１２０６を有するシステム１２００を示している。この配置は、物体１２０８の画像を撮像するために使用され得るものであり、平坦な背景領域１２１０に対して物体１２０８の影が掛かかる。この実施形態では、対象画素及び背景画素が容易に区別され得る。さらに、背景１２１０は物体１２０８からそれほど遠くないが、依然として、影の掛かっている背景領域の画素及び影の掛かっていない背景領域の画素の両者の区別を可能にするために十分なコントラストが与えられている。物体及びその影の画像を用いて位置及び動きを検出するアルゴリズムは、上述の第１３／４１４４８５出願に記載されており、システム１２００は、物体とその影のエッジの位置を含む入力情報を、そのようなアルゴリズムへ与え得る。

単一のカメラの実装１２００では、カメラ１２０２のレンズの前に配置されたホログラフィック回折格子１２１５を含めることから効果が得られ得る。格子１２１５は、ゴーストシルエット及び／または物体１２０８の接線として現れる干渉縞パターンを作出する。特に、分離可能な場合（即ち、オーバーラップが過剰ではない場合）、これらのパターンは、背景からの物体の区別を容易にする高いコントラストを有する。例えば、回折格子ハンドブック（ニューポートコーポレーション、２００５年１月、http://gratings.newport.com/library/handbook/handbook.aspで利用可能)を参照し、その開示全体は参照として本明細書に援用される。

図１３は、２つのカメラ１３０２，１３０４及びカメラの間に配置された１つの光源１３０６を有する別のシステム１３００を示す。システム１３００は、背景１３１０に対して、物体１３０８の画像を撮像し得る。システム１３００は、一般的には図１のシステム１００よりもエッジの照明について信頼性が低い。しかしながら、すべての位置及び動きを決定するためのアルゴリズムが、物体のエッジの正確な情報に依拠するのではない。したがって、システム１３００は、例えば、あまり精度が必要ではない状況でエッジベースアルゴリズムが使用され得る。システム１３００では、非エッジベースアルゴリズムも使用され得る。

特定の実施形態に関して本発明を説明してきたが、当業者は多数の変更が可能であることを認識するであろう。カメラ及び光源の数及び配置は変更され得る。フレームレート、空間分解能及び強度分解能を含むカメラの能力も、必要に応じて変更され得る。光源は、連続またはパルスモードで動作し得る。本明細書で説明するシステムは、物体及び背景の区別を容易にするために両者の間のコントラストを改善した画像を与え、この情報は多数の目的に使用され得るものであり、位置及び／または動き検出は多数の可能性の中の１つに過ぎない。

背景から物体を識別するためのカットオフ閾値及び他の具体的な基準は、特定のカメラ及び特定の環境に適合され得る。上述のように、比ｒ_Ｂ／ｒ_Ｏが増大するについて、コントラストが増大すると予想される。いくつかの実施形態において、システムは、例えば光源の輝度、閾値基準などの調整により、特定の環境に較正され得る。高速アルゴリズムに実装され得る単純な基準の使用は、他の用途のための所定のシステムにおける処理能力を解放し得る。

任意のタイプの物体が、これらの技術を用いてモーションキャプチャの対象となり得るとともに、特定の物体に対して実装の様々な面が最適化され得る。例えば、カメラ及び／または光源のタイプ及び位置は、動きがキャプチャされるべき物体の大きさ及び／または動きがキャプチャされるべき空間の大きさに基づいて最適化され得る。本発明の実施形態に係る解析技術は、任意の適切なコンピュータ言語のアルゴリズムとして実装され得るとともに、プログラム可能なプロセッサ上で実行される。あるいは、アルゴリズムの一部または全部は、固定機能のロジック回路に実装され得るとともに、このような回路が従来のまたは他のツールを使用して設計及び製造され得る。

本発明の様々な特徴を含むコンピュータプログラムは、様々なコンピュータ可読記憶媒体で符号化され得る。適切な媒体は、磁気ディスクまたはテープ、コンパクトディスク（ＣＤ）またはＤＶＤ（デジタル多用途ディスク）などの光学記憶媒体、フラッシュメモリ及びコンピュータが読取可能な形式でデータを保持する任意の他の非一時媒体などを含む。プログラムコードで符号化されるコンピュータが読取可能な記憶媒体は、互換性のある装置と共にパッケージまたは他の装置とは別に備えられ得る。さらに、プログラムコードは、符号化されて光学の有線及び／または様々なプロトコルに準拠する無線ネットワーク（例えば、インターネットダウンロードを介して配信が可能なインターネットを含む）を介して送信され得る。

以上のように、本発明を特定の実施形態について説明したが、当然ながら、本発明は、以下の請求項の範囲内での変更及び均等物の全てを網羅することを意図したものである。

Claims

デジタルで表示された画像シーンの中から対象物体を識別するための画像撮像解析システムであって、
視野に向けられた少なくとも１つのカメラと、
前記カメラと同じ前記視野側に配置されて前記視野を照明するように向けられた少なくとも１つの光源と、
前記カメラ及び少なくとも１つの前記光源と結合された画像解析装置と、を備え、
前記画像解析装置は、
少なくとも１つの前記光源が前記視野を照明すると同時に撮像される第１画像を含む、一連の画像を撮像するために少なくとも1つの前記カメラを動作させ、
背景ではなく前記対象物体に対応する画素を識別し、
識別された画素に基づき、前記対象物体の位置、形状及び断面を含む前記対象物体の３Ｄモデルを構築して、それが前記対象物体に対応するか否かを幾何学的に決定するように構成されており、
前記画像解析装置は、（i）前記視野の近接領域内に位置する物体に対応する前景画像成分と、（ii）前記視野の遠隔領域内に位置する物体に対応する背景画像成分と、を区別することで、前記対象物体と前記背景との境界である第１エッジを検出するとともに、前記前景画像成分における輝度の変化に基づいて、前記カメラに対して前記対象物体の第１部分が当該対象物体の第２部分を遮蔽して第３部分を遮蔽しない場合における前記第１部分と前記第３部分との境界である第２エッジを検出するものであり、
前記近接領域は、少なくとも１つの前記カメラから広がるとともに、少なく１つの前記カメラと前記前景画像成分に対応する物体との間の予測最大距離の少なくとも２倍となる奥行を有し、
前記遠隔領域は、少なくとも１つの前記カメラに対して前記近接領域を越えた位置に存在しているシステム。
前記画像解析装置は、所定の閾値を超える輝度を有する画素を前記前景画像成分、当該閾値を超えない輝度を有する画素を前記背景画素成分として区別することで前記第１エッジを検出するとともに、前記前景画素成分内において輝度が大きい部分ほど前記対象物体の前記カメラに近い部分であると識別することで前記第２エッジを検出する請求項１に記載のシステム。
前記近接領域が前記予測最大距離の少なくとも４倍となる奥行を有する請求項１に記載のシステム。
少なくとも１つの前記光源が拡散出射体である請求項１に記載のシステム。
少なくとも１つの前記光源が赤外発光ダイオードであり、少なくとも１つの前記カメラが赤外感知カメラである請求項３に記載のシステム。
少なくとも２つの前記光源が、少なくとも１つの前記カメラに隣接し、これらが実質的に同一平面内に存在する請求項１に記載のシステム。
少なくとも１つの前記カメラと少なくとも１つの前記光源とが鉛直上方を向いている請求項１に記載のシステム。
少なくとも１つの前記カメラは、露光時間が１００マイクロ秒と同程度となるように動作し、少なくとも１つの前記光源は、露光時間の間に少なくとも５ワットの電力レベルで駆動される請求項１に記載のシステム。
少なくとも１つの前記カメラのレンズと前記視野との間に配置されるホログラフィック回折格子を、さらに備える請求項１に記載のシステム。
前記画像解析装置は、少なくとも１つの前記光源が前記視野を照明していない時に少なくとも１つの前記カメラを動作させて第２及び第３画像を撮像するとともに、前記第１及び第２画像の差分と前記第１及び第３画像の差分とに基づいて前記対象物体に対応する画素を識別するものであり、
前記第２画像は前記第１画像の前に撮像され、前記第３画像は前記第２画像の後に撮像される請求項１に記載のシステム。
画像撮像解析方法であって
対象物体を含む視野を照明する少なくとも１つの光源の駆動と、
少なくとも１つの前記光源の駆動と同時にカメラを使用することによる、前記視野の一連のデジタル画像の撮像と、
背景ではなく前記対象物体に対応する画素の識別と、
識別された画素に基づき、前記対象物体の位置、形状及び断面を含む前記対象物体の３Ｄモデルを構築して、それが前記対象物体に対応するか否かを幾何学的に決定することと、のそれぞれのステップを備え、
前記対象物体に対応する画素を識別するステップでは、（i）前記視野の近接領域内に位置する物体に対応する前景画像成分と、（ii）前記視野の遠隔領域内に位置する物体に対応する背景画像成分と、を区別することで、前記対象物体と前記背景との境界である第１エッジを検出するとともに、前記前景画像成分における輝度の変化に基づいて、前記カメラに対して前記対象物体の第１部分が当該対象物体の第２部分を遮蔽して第３部分を遮蔽しない場合における前記第１部分と前記第３部分との境界である第２エッジを検出し、
少なくとも１つの前記光源は、前記対象物体が近接領域内に位置するように配置され、
前記近接領域は、前記カメラから、前記カメラと前記対象物体との間の予測最大距離の少なくとも２倍となる距離まで広がる方法。
前記対象物体に対応する画素を識別するステップでは、所定の閾値を超える輝度を有する画素を前記前景画像成分、当該閾値を超えない輝度を有する画素を前記背景画素成分として区別することで前記第１エッジを検出するとともに、前記前景画素成分内において輝度が大きい部分ほど前記対象物体の前記カメラに近い部分であると識別することで前記第２エッジを検出する請求項１１に記載の方法。
前記近接領域が前記予測最大距離の少なくとも４倍となる奥行を有する請求項１１に記載の方法。
少なくとも１つの前記光源が拡散出射体である請求項１１に記載の方法。
少なくとも１つの前記光源が赤外発光ダイオードであり、前記カメラが赤外感知カメラである請求項１１に記載の方法。
前記カメラに隣接してこれと実質的に同一平面内に存在する２つの前記光源が駆動される請求項１１に記載の方法。
前記カメラと少なくとも１つの前記光源とが鉛直上方を向いている請求項１１に記載の方法。
前記デジタル画像を撮像するステップでは、少なくとも１つの前記光源が駆動していない時の第１画像と、少なくとも１つの前記光源が駆動している時の第２画像と、少なくとも１つの前記光源が駆動していない時の第３画像と、のそれぞれを撮像し、
前記第２及び第１画像の差分と、前記第２及び第３画像の差分と、に基づいて前記対象物体に対応する画素が識別される請求項１１に記載の方法。
デジタルで表示された画像シーンの中から対象の物体を識別するための画像撮像解析システムであって、
視野に向けられた少なくとも１つのカメラと、
前記カメラと同じ前記視野側に配置されて前記視野を照明するように向けられた少なくとも１つの光源と、
前記カメラ及び少なくとも１つの前記光源と結合された画像解析装置と、を備え、
前記画像解析装置は、
少なくとも１つの前記光源が前記視野を照明すると同時に撮像される第１画像を含む、一連の画像を撮像するために少なくとも1つの前記カメラを動作させ、
背景ではなく前記物体に対応する画素を識別し、
識別された画素に基づき、前記物体の位置、形状及び断面を含む前記物体の３Ｄモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定するように構成されており、
前記画像解析装置は、（i）前記視野の近接領域内に位置する前記物体に対応する前景画像成分と、（ii）前記視野の遠隔領域内に位置する前記物体に対応する背景画像成分と、を区別するものであり、
前記近接領域は、少なくとも１つの前記カメラから広がるとともに、少なく１つの前記カメラと前記前景画像成分に対応する前記物体との間の予測最大距離の少なくとも２倍となる奥行を有し、
前記遠隔領域は、少なくとも１つの前記カメラに対して前記近接領域を越えた位置に存在しているシステム。
前記近接領域が前記予測最大距離の少なくとも４倍となる奥行を有する請求項１９に記載のシステム。
少なくとも１つの前記光源が拡散出射体である請求項１９に記載のシステム。
少なくとも１つの前記光源が赤外発光ダイオードであり、少なくとも１つの前記カメラが赤外感知カメラである請求項２１に記載のシステム。
少なくとも２つの前記光源が、少なくとも１つの前記カメラに隣接し、これらが実質的に同一平面内に存在する請求項１９に記載のシステム。
少なくとも１つの前記カメラと少なくとも１つの前記光源とが鉛直上方を向いている請求項１９に記載のシステム。
少なくとも１つの前記カメラは、露光時間が１００マイクロ秒と同程度となるように動作し、少なくとも１つの前記光源は、露光時間の間に少なくとも５ワットの電力レベルで駆動される請求項１９に記載のシステム。
少なくとも１つの前記カメラのレンズと前記視野との間に配置されるホログラフィック回折格子を、さらに備える請求項１９に記載のシステム。
前記画像解析装置は、少なくとも１つの前記光源が前記視野を照明していない時に少なくとも１つの前記カメラを動作させて第２及び第３画像を撮像するとともに、前記第１及び第２画像の差分と前記第１及び第３画像の差分とに基づいて前記物体に対応する画素を識別するものであり、
前記第２画像は前記第１画像の前に撮像され、前記第３画像は前記第２画像の後に撮像される請求項１９に記載のシステム。
画像撮像解析方法であって
対象の物体を含む視野を照明する少なくとも１つの光源の駆動と、
少なくとも１つの前記光源の駆動と同時にカメラを使用することによる、前記視野の一連のデジタル画像の撮像と、
背景ではなく前記物体に対応する画素の識別と、
識別された画素に基づき、前記物体の位置、形状及び断面を含む前記物体の３Ｄモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定することと、のステップを備え、
少なくとも１つの前記光源は、対象の前記物体が近接領域内に位置するように配置され、
前記近接領域は、前記カメラから、前記カメラと対象の前記物体との間の予測最大距離の少なくとも２倍となる距離まで広がる方法。
前記近接領域が前記予測最大距離の少なくとも４倍となる奥行を有する請求項２８に記載の方法。
少なくとも１つの前記光源が拡散出射体である請求項２８に記載の方法。
少なくとも１つの前記光源が赤外発光ダイオードであり、前記カメラが赤外感知カメラである請求項２８に記載の方法。
前記カメラに隣接してこれと実質的に同一平面内に存在する２つの前記光源が駆動される請求項２８に記載の方法。
前記カメラと少なくとも１つの前記光源とが鉛直上方を向いている請求項２８に記載の方法。
画像撮像解析方法であって
対象の物体を含む視野を照明する少なくとも１つの光源の駆動と、
少なくとも１つの前記光源の駆動と同時にカメラを使用することによる、前記視野の一連のデジタル画像の撮像と、
背景ではなく前記物体に対応する画素の識別と、
識別された画素に基づき、前記物体の位置、形状及び断面を含む前記物体の３Ｄモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定することと、
少なくとも１つの前記光源が駆動していない時の第１画像と、少なくとも１つの前記光源が駆動している時の第２画像と、少なくとも１つの前記光源が駆動していない時の第３画像と、の撮像と、のステップを備え、
前記第２及び第１画像の差分と、前記第２及び第３画像の差分と、に基づいて前記物体に対応する画素が識別される方法。