JP2016186793A - 物体検出のためのコントラストの改善及び光学画像化による特徴評価 - Google Patents

物体検出のためのコントラストの改善及び光学画像化による特徴評価 Download PDF

Info

Publication number
JP2016186793A
JP2016186793A JP2016104145A JP2016104145A JP2016186793A JP 2016186793 A JP2016186793 A JP 2016186793A JP 2016104145 A JP2016104145 A JP 2016104145A JP 2016104145 A JP2016104145 A JP 2016104145A JP 2016186793 A JP2016186793 A JP 2016186793A
Authority
JP
Japan
Prior art keywords
image
camera
light sources
target object
cameras
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016104145A
Other languages
English (en)
Inventor
デイビッド ホルツ,
Holz David
デイビッド ホルツ,
フア ヤン,
Hua Yang
フア ヤン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leap Motion Inc
Original Assignee
Leap Motion Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/414,485 external-priority patent/US20130182079A1/en
Priority claimed from US13/724,357 external-priority patent/US9070019B2/en
Application filed by Leap Motion Inc filed Critical Leap Motion Inc
Publication of JP2016186793A publication Critical patent/JP2016186793A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/145Illumination specially adapted for pattern recognition, e.g. using gratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Studio Devices (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Image Processing (AREA)

Abstract

【課題】画像内において見えている背景面と物体との間のコントラストの改善により、物体認識を向上させる撮像システムを提供する。【解決手段】画像シーン112の中から対象物体を識別するための画像撮像解析システム100は、視野に向けられた少なくとも1つのカメラ102、104と、カメラと同じ視野側に配置されて、視野を照明するように向けられた少なくとも1つの光源108、110と、カメラ及び少なくとも1つの光源と結合された画像解析装置106とを備える。画像解析装置は、少なくとも1つの光源が視野を照明すると同時に撮像される第1画像を含む、一連の画像を撮像するために少なくとも1つのカメラを動作させ、背景ではなく対象物体114に対応する画素を識別し、識別された画素に基づき、対象物体の位置、形状及び断面を含む対象物体の3Dモデルを構築して、それが対象物体に対応するか否かを幾何学的に決定する。【選択図】図1

Description

本出願は、2012年11月8日に出願された米国シリアル番号第61/724068について優先権を主張するともに利益を得るものであり、当該出願の開示全体が参照として本明細書に援用される。さらに、本出願は、米国特許出願番号第13/414485(2012年3月7日出願)及び第13/724357(2012年12月21日出願)の優先権を主張し、米国仮特許出願番号第61/724091(2012年11月8日出願)及び第61/587554(2012年1月17日出願)についても優先権及び利益を主張するものである。これらの出願は、その全体が参照として本明細書に援用される。
本出願は、撮像システム、特に、三次元(3D)物体検出、追跡及び光学画像化を用いた特徴評価に関する。
モーションキャプチャシステムは、人間の手や人体などの関節部を有する物体を含む様々な物体の動きや構造に関する情報を取得するための、様々な場面で使用されている。このようなシステムには、一般的に、物体の体積、位置及び動きの再構成を成すための画像を解析するコンピュータや、動体の一連の画像を撮像するためのカメラが含まれる。3Dモーションキャプチャには、少なくとも2つのカメラが典型的に使用される。
画像によるモーションキャプチャシステムは、背景から対象の物体を区別する能力に依存する。これは、しばしば、エッジを検出する(典型的には、画素の比較によって色及び/または輝度の急激な変化を検出する)画像解析アルゴリズムを用いることで、実現される。しかしながら、このような従来のシステムは、例えば、背景における対象の物体と背景及び/または背景のパターンとの間のコントラストが低く物体のエッジとして誤って検出され得る場合など、多くの一般的な状況下において性能が低下する。
場合によっては、例えば、動きの実行中において人が反射材や発光源のメッシュ等を着ているようにするなど、対象の物体の「道具化(instrumenting)」によって、物体と背景との区別を促進することができる。特別な照明条件(例えば、微光)は、画像内における反射材や光源を目立たせるために使用することができる。しかしながら、対象の道具化は、必ずしも便利または望ましい選択肢ではない。
本発明のある実施形態は、使用する画像内において見えている背景面と物体との間のコントラストの改善により、物体認識を向上させる撮像システムに関する。これは、例えば、物体に向けられる照明の制御手段によって達成され得る。例えば、どの背景面よりもカメラに著しく近い人の手などを対象の物体とするモーションキャプチャシステムでは、距離に対する光強度の減衰(点状光源では1/r)が、(複数の)カメラまたは他の(複数の)撮像装置の近くの光源(または複数の光源)の配置及び物体上の光の照射によって生かされる。対象の物体の近くで反射された光源光は、より遠くの背景面及び(物体と比較して)より遠くの背景からの反射光よりも非常に明るくなると予測することができ、より顕著な効果が生じ得る。したがって、いくつかの実施形態において、撮像画像内の画素の輝度に対するカットオフ閾値を、「背景」画素から「物体」画素を区別するために用いることができる。広帯域の環境光源を用いることができるが、様々な実施形態では、限定的な波長範囲の光と、そのような光を検出するよう適合したカメラが用いられる。例えば、赤外光源の光は、赤外周波数を感知する1以上のカメラとともに使用され得る。
したがって、第1の態様において、本発明は、デジタルで表示された画像シーンの中から対象の物体を識別するための画像撮像解析システムに関する。様々な実施形態において、前記システムは、視野に向けられた少なくとも1つのカメラと、前記カメラと同じ前記視野側に配置されて前記視野を照明するように向けられた少なくとも1つの光源と、前記カメラ及び(複数の)前記光源と結合された画像解析装置と、を備える。前記画像解析装置は、(複数の)前記光源が前記視野を照明すると同時に撮像される第1画像を含む、一連の画像を撮像するために(複数の)前記カメラを動作させ、背景ではなく前記物体に対応する画素を識別し、識別された画素に基づき、前記物体の位置及び形状を含む前記物体の3Dモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定するように構成され得る。ある実施形態では、前記画像解析装置は、(i)前記視野の近接領域内に位置する前記物体に対応する前景画像成分と、(ii)前記視野の遠隔領域内に位置する前記物体に対応する背景画像成分と、を区別するものであり、前記近接領域は、(複数の)前記カメラから広がるとともに、(複数の)前記カメラと前記前景画像成分に対応する前記物体との間の予測最大距離の少なくとも2倍となる奥行を有し、前記遠隔領域は、少なくとも1つの前記カメラに対して前記近接領域を越えた位置に存在している。例えば、前記近接領域が前記予測最大距離の少なくとも4倍となる奥行を有していてもよい。
他の実施形態では、前記画像解析装置は、(複数の)前記光源が前記視野を照明していない時に(複数の)前記カメラを動作させて第2及び第3画像を撮像するとともに、前記第1及び第2画像の差分と前記第1及び第3画像の差分とに基づいて前記物体に対応する画素を識別するものであり、前記第2画像は前記第1画像の前に撮像され、前記第3画像は前記第2画像の後に撮像される。
例えば、(複数の)前記光源は、拡散出射体(例えば、赤外発光ダイオードであって、この場合は(複数の)前記カメラは赤外感知カメラである)であってもよい。2以上の前記光源が、(複数の)前記カメラに隣接し、これらが実質的に同一平面内に存在してもよい。様々な実施形態において、(複数の)前記カメラと(複数の)前記光源とが鉛直上方を向いている。コントラストを改善するために、前記カメラは、露光時間が100マイクロ秒と同程度となるように動作し、(複数の)前記光源は、露光時間の間に少なくとも5ワットの電力レベルで駆動されるようにしてもよい。ある実装では、ホログラフィック回折格子が、それぞれの前記カメラのレンズと前記視野との間(即ち、前記カメラのレンズの前)に配置される。
画像解析装置は、候補物体を容量分析的に定義する楕円の識別と、楕円に基づく定義に対して幾何学的に矛盾する物体セグメントの破棄と、候補物体が対象の物体に対応するか否かについての楕円に基づく決定と、によって、ある物体が対象の物体に対応するか否かを幾何学的に決定し得る。
別の態様において、本発明は、画像撮像解析方法に関する。様々な実施形態において、前記方法は、対象の物体を含む視野を照明する少なくとも1つの光源の駆動と、(複数の)前記光源の駆動と同時にカメラ(または、複数のカメラ)を使用することによる、前記視野の一連のデジタル画像の撮像と、背景ではなく前記物体に対応する画素の識別と、のステップを備え、識別された画素に基づき、前記物体の位置及び形状を含む前記物体の3Dモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定する。
(複数の)前記光源は、対象の前記物体が近接領域内に位置するように配置してもよく、前記近接領域は、前記カメラから、前記カメラと対象の前記物体との間の予測最大距離の少なくとも2倍となる距離まで広がる。例えば、前記近接領域が前記予測最大距離の少なくとも4倍となる奥行を有していてもよい。(複数の)前記光源は、例えば、拡散出射体(例えば、赤外発光ダイオード)としてもよく、この場合、前記カメラは赤外感知カメラである。少なくとも2以上の前記光源が、前記カメラに隣接し、これらが実質的に同一平面内に存在してもよい。様々な実施形態において、前記カメラと(複数の)前記光源とが鉛直上方を向いている。コントラストを改善するために、前記カメラは、露光時間が100マイクロ秒と同程度となるように動作し、(複数の)前記光源は、露光時間の間に少なくとも5ワットの電力レベルで駆動されるようにしてもよい。
また、物体画素は、(複数の)前記光源が駆動していない時の第1画像と、(複数の)前記光源が駆動している時の第2画像と、(複数の)前記光源が駆動していない時の第3画像と、の撮像によって識別してもよく、前記第2及び第1画像の差分と、前記第2及び第3画像の差分と、に基づいて前記物体に対応する画素が識別される。
ある物体が対象の物体に対応するか否かについての幾何学的な決定は、候補物体を容量分析的に定義する楕円の識別と、楕円に基づく定義に対して幾何学的に矛盾する物体セグメントの破棄と、候補物体が対象の物体に対応するか否かについての楕円に基づく決定と、から成り得るかこれらを含み得る。
さらに別の態様において、本発明は、デジタル画像内における丸形物体の位置決め方法に関する。様々な実施形態において、前記方法は、対象の物体を含む視野を照明する少なくとも1つの光源の駆動と、少なくとも1つの前記光源が前記視野を照明すると同時に撮像される第1画像を含む、一連の画像を撮像するための前記カメラの動作と、前記視野内における丸形物体を示すガウシアン輝度減衰パターンを検出するための前記画像の解析と、のステップを備える。いくつかの実施形態において、前記丸形物体が、そのエッジの識別をすることなく検出される。この方法は、複数の撮像画像を通じて検出された前記丸形物体の動きの追跡を、さらに備えてもよい。
別の態様において、本発明は、視野内における丸形物体の位置決めをするための画像撮像解析システムに関する。様々な実施形態において、前記システムは、視野に向けられた少なくとも1つのカメラと、前記カメラと同じ前記視野側に配置されて前記視野を照明するように向けられた少なくとも1つの光源と、前記カメラ及び前記光源と結合された画像解析装置と、を備える。前記画像解析装置は、少なくとも1つの前記光源が前記視野を照明すると同時に撮像される第1画像を含む、一連の画像を撮像するために少なくとも1つの前記カメラを動作させ、前記視野内における丸形物体を示すガウシアン輝度減衰パターンを検出するために前記画像を解析するように、構成され得る。丸形物体は、いくつかの実施形態において、そのエッジの識別をすることなく検出され得る。前記システムは、複数の撮像画像を通じて検出された前記丸形物体の動きを追跡し得る。
本明細書において使用される語句「実質的に」または「およそ」は、±10%(例えば、重量や体積)を意味し、いくつかの実施形態では±5%である。語句「基本的に〜から構成される」は、本明細書において他に定義しない限り、機能に寄与する他の材料を含まないことを意味する。本明細書を通じて、「一実施例(one example)」、「実施例(an example)」、「一実施形態(one embodiment)」または「実施形態(an embodiment)」の言及は、その例に関して記載された特定の特徴、構造または特徴が、本技術の少なくとも一例に含まれることを意味する。そのため、本明細書を通じた様々な場所における語句「一実施例では(in one example)」、「実施例では(in an example)」、「一実施形態(one embodiment)」または「実施形態(an embodiment)」の記載は、必ずしも全て同じ例について言及するものではない。さらに、特定の特性、構造、ルーチン、ステップまたは特徴は、本技術の1以上の例において任意の適切な方法で組み合わせることができる。本明細書で定義されている見出しは、単なる便宜上のものであって、特許請求する技術の範囲または意味を限定または解釈を意図したものではない。
添付の図面と共に以下の詳細な説明は、本発明の性質及び利点のより良い理解を提供するであろう。
本発明の実施形態に係る画像データを撮像するシステムを示す。 本発明の実施形態に係る画像解析装置を実現するコンピュータシステムの簡略ブロック図。 本発明の実施形態に係る得られ得る画素行の輝度データのグラフ。 本発明の実施形態に係る得られ得る画素行の輝度データのグラフ。 本発明の実施形態に係る得られ得る画素行の輝度データのグラフ。 本発明の実施形態に係る画像内の物体の位置を識別するための処理のフロー図。 本発明の実施形態に係る一定の間隔でオンになるパルス状の光源の時系列を示す。 本発明の実施形態に係る光源のパルス駆動と画像の撮像の時系列を示す。 本発明の実施形態に係る一連の画像を用いて物体のエッジを識別する処理のフロー図。 本発明の実施形態に係るユーザ入力装置である動き検出器を含むコンピュータシステムの上面図。 本発明の実施形態に係る動き検出器を含むコンピュータシステムの別の例を示すタブレットコンピュータの正面図。 本発明の実施形態に係る動き検出器を含むゴーグルシステムを示す。 本発明の実施形態に係るコンピュータシステムまたは他のシステムを制御するためのユーザ入力として動き情報を使用する処理のフロー図。 本発明の別の実施形態に係る画像データを撮像するシステムを示す。 本発明のさらに別の実施形態に係る画像データを撮像するシステムを示す。
本発明の実施形態に係る画像データを撮像するシステム100を示す図1を、最初に参照する。システム100は、画像解析システム106に結合された一対のカメラ102,104を備える。カメラ102,104は、可視スペクトルの全域を感知するカメラや、より典型的には、限定的な波長帯域(例えば、赤外(IR)や紫外帯域)の感度が強化されたカメラを含む、どのようなタイプのカメラであってもよい。より一般的に、本明細書における語句「カメラ」は、物体の画像を撮像して当該画像をデジタルデータの形式で表示することが可能な任意の装置(または装置の組み合わせ)を指す。例えば、二次元(2D)画像を撮像する従来の装置ではなく、ラインセンサやラインカメラを用いてもよい。語句「光」は、可視スペクトルの範囲内であってもそうでなくてもよく、広帯域(例えば、白色光)または狭帯域(例えば、単一波長または狭い波長帯)であってもよい、いかなる電磁的な出射をも含意するものとして、一般的に使用される。
デジタルカメラの心臓部は、感光性画像素子(画素)のグリッドを含むイメージセンサである。レンズがイメージセンサの表面に光を集光し、画素に様々な強度の光が当たることで画像が形成される。各画素は、検出された光の強度を反映した大きさの電荷へと光を変換するとともに、測定可能なように当該電荷を収集する。CCD及びCMOSイメージセンサのいずれもがこれと同じ機能を果たすが、信号の測定及び伝達方法が異なる。
CCDでは、各画素からの電荷が、測定可能な電圧へと電荷を変換する単一の構造へと搬送される。これは、測定構造に到達するまで、行毎及び列毎の「バケツリレー」方式により、各画素がその隣接する画素に電荷を順次移動させることによって行われる。これとは対照的に、CMOSセンサは、各画素の位置に測定構造を配置される。測定結果は、それぞれの位置からセンサの出力へと直接的に転送される。
カメラ102,104は、ビデオ画像(即ち、少なくとも毎秒15フレームの一定レートである一連の画像フレーム)の撮像が可能であると好ましいが、特定のフレームレートが必要というわけではない。カメラ102,104の機能は本発明にとって重要ではなく、当該カメラは、フレームレート、画像解像度(例えば、画像あたりの画素数)、色または強度分解能(例えば、画素当たりの強度データのビット数)、レンズの焦点距離、被写界深度などについて様々であり得る。一般的に、特定の用途のために、対象の空間体積内の物体に焦点を合わせることが可能な任意のカメラが使用され得る。例えば、他の部分が静止している人の手の動きを撮像するために、対象の体積は、一辺がおよそ1メートルの立方体であると定義され得る。
システム100は、カメラ102,104の両側に配置されるとともに画像解析システム106に制御される一対の光源108,110を、さらに備える。光源108,110は、一般的な従来の設計である赤外光源、例えば赤外発光ダイオード(LED)であってもよく、カメラ102,104は赤外光を感知可能であってもよい。フィルタ120、122は、可視光を除去して赤外光のみがカメラ102,104によって撮像された画像内に記録されるように、カメラ102,104の前に配置され得る。対象の物体が人の手や体であるいくつかの実施形態では、赤外光の使用によって、モーションキャプチャシステムを広範囲の照明条件下で動作させることを可能にするとともに、様々な不便や人が動く領域内に可視光が入射することに関連し得る妨害を回避することができる。しかし、特定の波長や電磁スペクトルの領域が必要となる。
上述の構成は、代表的なものであって限定的なものではないことが、強調されるべきである。例えば、レーザや他の光源を、LEDの代わりに使用することができる。レーザの設定のために、レーザビームを広げる(及びカメラの視野に似た視野を作る)ための追加の光学系(例えば、レンズまたは拡散器)を用いてもよい。有用な構成は、異なる範囲のための短広角照明器をさらに含み得る。光源は、典型的には、鏡面反射性ではなく拡散性の点光源である。例えば、光拡散カプセル化によってパッケージ化されたLEDが適している。
動作時において、カメラ102、104は、対象の物体114(本例では、手)及び1以上の背景物体116が存在し得る対象の領域112に対して向けられる。光源108,110は、領域112を照射するように配置されている。いくつかの実施形態において、1以上の光源及び1以上のカメラ102,104は、検出される動きの下方(例えば、手の動きが検出される場合、その動きが行われる空間領域の直下)に配置される。手について記録される情報量は、それがカメラ画像内に占める画素数に比例し、手の「指示方向」に対するカメラの角度が可能な限り垂直であれば、当該手がより多くの画素を占めることになるため、上記の位置が最適である。ユーザにとって、スクリーンに対して手のひらを向けることは窮屈であるため、下面から見上げる、上面から見下ろすまたはスクリーンのベゼルから対角線上に見上げるあるいは見下ろす、のいずれかが最適な位置である。見上げる場合、背景物体(例えば、ユーザの机の上の散乱物)との混同の可能性が低くなり、真っすぐに見上げるようにすれば、視野外における他の人との混同の可能性が低くなる(さらには、顔を撮像しないことによってプライバシーが改善される)。例えば、コンピュータシステム等であり得る画像解析システム106は、領域112の画像を撮像するために、光源108,110及びカメラ102,104の動作を制御し得る。この撮像画像に基づいて、画像解析システム106は、物体114の位置及び/または動きを決定する。
例えば、物体114の位置を決定する際のステップとして、画像解析システム106は、物体114の一部を含むカメラ102,104によって撮像された様々な画像の画素を決定し得る。いくつかの実施形態では、画像内の任意の画素が、物体114の一部を含む画素であるか否かに基づいて、「物体」画素または「背景」画素として分類され得る。光源108、110を使用する、物体または背景画素の分類は、画素の輝度に基づいて行われ得る。例えば、対象の物体114及びカメラ102,104の間の距離(r)は、(複数の)背景物体116及びカメラ102,104の間の距離(r)よりも小さいことが予想される。光源108、110からの光の強度が1/rで減少するため、物体114は背景116と比較してより明るく照明され、物体114の一部を含む画素(即ち、物体画素)は、これに対応して背景116の一部を含む画素(即ち、背景画素)よりも明るくなる。例えば、r/r=2の場合、物体114及び背景116が光源108,110からの光を同様に反射すると仮定し、さらに領域112の照明全体(少なくともカメラ102,104によって撮像される周波数帯域内)が光源108,110によって支配されていると仮定すると、物体画素は背景画素よりもおよそ4倍明るくなる。これらの仮定は、一般的に、カメラ102、104、光源108、110、フィルタ120,122及び通常遭遇する物体の適切な選択においても保持される。例えば、光源108,110が狭い周波数帯域で放射線の強い出射が可能な赤外LEDになり得るとともに、フィルタ120,122が光源108,110の周波数帯域に合致したものとなり得る。このように、人間の手や体、または背景内における熱源あるいは他の物体が赤外線を出射し得るが、それでもカメラ102,104の反応は、光源108、110に由来するとともに物体114及び/または背景116によって反射された光に支配されたものとなり得る。
この構成では、画像解析システム106は、各画素に輝度閾値を適用することによって、迅速かつ正確に背景画素から対象画素を区別することができる。例えば、CMOSセンサや類似の装置における画素の輝度は、センサ設計に基づいて0.0(暗)から1.0(完全飽和)の間にいくつかの階調を有する範囲で測定され得る。カメラ画素によって符号化される輝度は、典型的には蓄積される電荷またはダイオード電圧に起因しており、被写体の明るさに対して標準的(線形的)に対応する。いくつかの実施形態では、光源108,110は、距離rの物体から反射された光が1.0の輝度レベルを生じさせ、その一方で距離r=2rの物体から反射された光が0.25の輝度レベルを生じさせるほど、十分に明るい。対象画素は、このように容易に、輝度に基づいて背景画素から区別され得る。さらに、物体のエッジもまた、隣接する画素の間における輝度の差に基づいて容易に検出され得るものであり、各画像内の物体の位置の決定を可能にする。カメラ102,104からの画像間における物体の位置の関連付けは、画像解析システム106における物体114の3D空間内の位置の決定を可能にするものであり、一連の画像の解析は、画像解析システム106における従来の動きアルゴリズムを用いた物体114の3D動きの再構成を可能にする。
当然であるが、システム100は例示であって、変更や修正は可能である。例えば、光源108、110は、カメラ102,104の両側に配置されるものとして示している。これは、両方のカメラの視点から見た物体114のエッジに対する照明を、容易にし得る。しかし、カメラ及びライトの特定の配置は必要ない。(他の構成の例については、以下で説明される。)物体が背景よりもカメラに著しく近い限り、本明細書に記載のような改善されたコントラストが達成され得る。
画像解析システム106(画像解析装置とも言う)は、例えば本明細書に記載の技術を用いた撮像及び画像データの処理が可能な任意の装置または装置の構成要素に含まれ得るあるいはこれを成し得る。図2は、本発明の実施形態に係る画像解析装置106を実現するコンピュータシステム200の簡略ブロック図である。コンピュータシステム200は、プロセッサ202、メモリ204、カメラインタフェース206、ディスプレイ208、スピーカ209、キーボード210及びマウス211を含む。
メモリ204は、プロセッサ202によって実行される命令だけでなく、当該命令の実行に関連付けられている入力及び/または出力データを記憶するために使用され得る。特に、メモリ204は、以下で詳細に説明するモジュールのグループとして概念的に図示される、プロセッサ202の動作及び他のハードウェアコンポーネントとのやりとりを制御する命令を格納している。オペレーティングシステムは、メモリ割り当て、ファイル管理及び大容量記憶装置の操作などの基本システム機能である低レベルの実行を指示する。オペレーティングシステムは、Microsoft Windows(登録商標)オペレーティングシステム、Unix(登録商標)オペレーティングシステム、Linux(登録商標)オペレーティングシステム、Xenixオペレーティング・システム、IBM AIXオペレーティングシステム、ヒューレットパッカードUXオペレーティングシステム、Novell NETWAREオペレーティング・システム、Sun Microsystems SOLARISオペレーティングシステム、OS/2オペレーティング・システム、BeOSオペレーティングシステム、MACINTOSHオペレーティングシステム、APACHEオペレーティングシステム、OPENSTEPオペレーティングシステムまたはプラットフォームの別のオペレーティングシステムなど、様々なオペレーティングシステムから成り得るまたは含み得る。
コンピュータ環境は、他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体を含み得る。例えば、ハードディスクドライブは、非リムーバブルであり不揮発性の磁気媒体に読み取りまたは書き込みを行い得る。磁気ディスクドライブは、リムーバブルであり不揮発性の磁気ディスクに読み取りまたは書き込みを行い得るとともに、光ディスクドライブは、リムーバブルであり不揮発性のCD−ROMや他の光媒体などの光ディスクに読み取りまたは書き込みを行い得る。他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体は、例示の動作環境で使用されるものを含むが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク(Digital Versatile Disk)、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなど、これらに限定されない。記憶媒体は、典型的には、リムーバブルまたは非リムーバブルのメモリインタフェースを介してシステムバスに接続されている。
プロセッサ202は、汎用マイクロプロセッサであってもよいが、実装に応じてその代わりに、マイクロコントローラ、周辺集積回路素子、CSIC(Customer Specific Integrated Circuit)、ASIC(Application-Specific Integrated Circuit)、論理回路、デジタル信号プロセッサ、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイス、PLD(Programmable Logic Device)、PLA(Programmable Logic Array)、RFIDプロセッサ、スマートチップまたは本発明の処理のステップを実行することが可能な他の任意の装置あるいは装置の構成、とすることができる。
カメラインタフェース206は、図1に示すカメラ102,104などのカメラとコンピュータシステム200との間の通信を可能にするハードウェア及び/またはソフトウェアだけでなく、図1に示す光源108,110などの関連した光源も含み得る。したがって、例えば、カメラインタフェース206は、カメラが接続された1以上のデータポート216、218だけでなく、カメラから受信したデータ信号をプロセッサ202上で実行される従来のモーションキャプチャ(「モーキャプ」)プログラム214の入力として与える前に修正する(例えば、ノイズの減少やデータの再フォーマットをする)ためのハードウェア及び/またはソフトウェアシグナルプロセッサも含み得る。いくつかの実施形態では、カメラインタフェース206は、例えば、カメラを駆動または停止させるためや、カメラ設定(フレームレート、画質、感度等)の制御などのために、カメラへの信号の送信も行い得る。このような信号は、ユーザ入力または他の検出されたイベントに応じて順番に生成され得るものであり、例えばプロセッサ202からの制御信号に応じて送信され得る。
カメラインタフェース206は、光源(例えば、光源108、110)に接続可能なコントローラ217、219も含み得る。いくつかの実施形態において、コントローラ217,219は、例えばモーキャププログラム214を実行するプロセッサ202からの指示に応じて、動作電流を光源に供給する。他の実施形態では、光源が外部電源(不図示)から動作電流を引き込み得るとともに、コントローラ217,219が例えば光源のオンあるいはオフまたは輝度の変化を指示する光源のための制御信号を生成し得る。いくつかの実施形態では、1つのコントローラが複数の光源を制御するために使用され得る。
モーキャププログラム214を定義する命令は、メモリ204に格納され、これらの命令が実行されると、カメラインタフェース206に接続されたカメラから与えられる画像に対するモーションキャプチャ解析が実行される。一実施形態では、モーキャププログラム214は、物体検出モジュール222及び物体解析モジュール224などの様々なモジュールを含む。さらに、これらのモジュールの両方は、従来のものであって当技術分野において十分に特徴付けられているものである。物体検出モジュール222は、画像中の物体のエッジ及び/または物体の位置に関する他の情報を検出するために、画像(例えば、カメラインタフェース206を介して撮像された画像)を解析し得る。物体解析モジュール224は、物体の3D位置及び/または動きを決定するために、物体検出モジュール222によって与えられる物体情報を解析し得る。モーキャププログラム214のコードモジュールで実行され得る動作の例については、以下に記載する。メモリ204は、他の情報及び/またはモーキャププログラム214によって使用されるコードモジュールも含み得る。
ディスプレイ208、スピーカ209、キーボード210及びマウス211は、コンピュータシステム200とのユーザのやりとりを容易にし得る。これらの構成要素は、一般的な従来設計のものや、ユーザのやりとりの任意のタイプを与えることが望ましくなるように変更したものであり得る。いくつかの実施形態では、カメラインタフェース206及びモーキャププログラム214を使用したモーションキャプチャの結果が、ユーザ入力として解釈され得る。例えば、ユーザは、モーキャププログラム214を用いて解析される手のジェスチャを行うことが可能であり、この解析の結果は、プロセッサ200(例えば、ウェブブラウザ、ワードプロセッサまたは他のアプリケーション)上で実行される他のプログラムへの指示として解釈され得る。そのため、例として、ユーザは、ディスプレイ208上に表示される現在のウェブページを「スクロール」するための上側または下側スワイプジェスチャや、スピーカ209からのオーディオ出力の音量を増大または減少するための回転ジェスチャなどを使用し得る、
当然であるが、コンピュータシステム200は例示であって、変更や修正は可能である。コンピュータシステムは、サーバシステム、デスクトップシステム、ラップトップシステム、タブレット、スマートフォンまたはパーソナルデジタルアシスタントなどを含む様々なフォームファクタで実現され得る。特定の実現態様は、例えば有線及び/または無線ネットワークインタフェース、メディアの再生及び/または記録機能など、本明細書に記載されていない他の機能を含み得る。いくつかの実施形態では、1以上のカメラが、分離した構成要素として与えられるのではなく、コンピュータ内に組み入れられ得る。さらに、画像解析装置は、コンピュータシステムの構成要素(例えば、プログラムコードを実行するプロセッサ、ASICまたは画像データと出力解析結果を受信するための適切なI/Oインタフェースを備えた固定機能デジタル信号プロセッサ)のサブセットのみを使用して実現され得る。
コンピュータシステム200は、特定のブロックを参照して本明細書に記載されているが、当該ブロックは説明の便宜のために定義されているものであって、構成部品の特定の物理的配置を意味することを意図するものではないと理解されるべきである。さらに、当該ブロックは、物理的に別個の構成要素に対応する必要はない。物理的に別個の構成要素が使用される場合、必要に応じて、構成要素間の接続(例えば、データ通信用など)が有線及び/または無線と成り得る。
プロセッサ202による物体検出モジュール222の実行は、プロセッサ202に、物体の画像を撮像するためにカメラインタフェース206を動作させたり、画像データの解析によって背景画素から対象画素を区別させたりする。図3A〜図3Cは、本発明の様々な実施形態に係る得られ得る画素行の輝度データの3つの異なるグラフである。各グラフは1つの画素行について例示しているが、画像が典型的には多数の画素行を含むとともに、行が任意の数の画素を含み得ると理解されるべきである。例えば、HDビデオ画像は、それぞれ1920画素を有する1080行を含み得る。
図3Aは、手のひらの断面など、単一な断面を有する物体の画素行の輝度データ300を示している。物体に対応する領域302内の画素は高輝度を有しているが、背景に対応する領域304及び306内の画素は著しく低い輝度を有する。図から分かるように、物体の位置は見てすぐに分かるものであり、物体のエッジの位置(位置308、位置310)は容易に識別される。例えば、0.5を上回る輝度を持つ画素は対象画素であると見なすことが可能であり、反対に0.5を下回る輝度を持つ画素は背景画素であると見なすことが可能である。
図3Bは、開いた手の指の断面など、複数の異なる断面を有する物体の画素行の輝度データ320を示している。物体に対応する領域322,323及び324は高輝度を有しているが、背景に対応する領域326〜329内の画素は低い輝度を有するこの場合も、輝度に対する単純なカットオフ閾値(例えば、0.5)は、対象画素を背景画素と区別するために十分であり、物体のエッジを容易に確定することができる。
図3Cは、広げた2本指をカメラに向けた手の断面など、物体までの距離が行の所々で変化する画素行の輝度データ340を示している。開いた指に対応する領域342及び343は最も高い輝度を有する。手の他の部分に対応する領域344及び345はわずかに少ない輝度を有する。これは、1つはより遠くにあるということ、1つは開いた指による影が掛かること、に起因し得る。背景に対応する領域348及び349は、背景領域であり、手が含まれる領域342〜345よりも著しく暗い。輝度に対するカットオフ閾値(例えば、0.5)は、この場合でも対象画素を背景画素と区別するために十分である。対象画素のさらなる解析は、領域342及び343のエッジを検出するためにも行われ得るものであり、物体の形状に関する追加の情報を与える。
当然であるが、図3A〜3Cに示すデータは例示である。いくつかの実施形態では、予測される距離(例えば、図1のr)にある物体が露出オーバーになる(即ち、全てではないにしても多くの対象画素が完全に1.0の輝度レベルで飽和してしまう)ことがあるなど、光源108,110の強度を調整することが望ましくなり得る。(物体の現実の輝度が、実際には高くなり得る。)背景画素も多少明るくし得るが、背景画素も飽和レベルに近づくほど強度が高く設定されない限り、依然として距離に対する光強度の減衰1/rによって物体及び背景画素を区別することができる状態である。図3A〜3Cに示したように、物体と背景との間に強いコントラストを作り出すために物体に向けられた照明の使用は、背景画素と対象画素を区別するための簡単で高速なアルゴリズムの使用を可能にするものであり、リアルタイムモーションキャプチャシステムにおいて特に有用となり得る。背景及び物体画素を区別するタスクの簡素化は、他のモーションキャプチャタスク(例えば、物体の位置、形状及び/または動きの再構築)のためのコンピュータ資源を開放し得る。
本発明の実施形態に係る画像内の物体の位置を識別するための処理のフロー図を示す図4を参照する。処理400は、例えば図1のシステム100において実現され得る。ブロック402において、光源108,110がオンする。ブロック404において、1以上の画像がカメラ102,104を用いて撮像される。いくつかの実施形態では、各カメラからの1つの画像が撮像される。他の実施形態では、各カメラから一連の画像が撮像される。2つのカメラからの2つの画像は、2つのカメラからの相関画像が物体の3D位置の決定に使用され得るように、時間において厳密に相関させられ得る(例えば、数ミリ秒以内となる同時)。
ブロック406において、背景画素から対象画素を区別するために、画素の輝度の閾値が適用される。ブロック406は、背景及び物体画素の間の遷移点に基づいた物体のエッジの位置の特定をも含み得る。いくつかの実施形態において、各画素は、最初に、輝度カットオフ閾値を超えているか否かに基づいて物体または背景のいずれかに分類される。例えば、図3A〜3Cに示すように、0.5の飽和レベルにおけるカットオフが使用され得る。画素が分類されると、背景画素が画素物体に隣接している位置を見つけることによって、エッジが検出され得る。いくつかの実施形態では、ノイズ欠陥を回避するために、エッジの両側となる背景及び物体画素の領域が、特定の最小の大きさ(例えば、2、4または8画素)を有することを必要とし得る。
他の実施形態では、エッジが、画素が物体であるか背景であるかの最初の分類をすることなく検出され得る。例えば、Δβは、隣接する画素間の輝度の差として定義され得るものであり、|Δβ|が閾値を上回る(例えば、飽和範囲の単位で0.3または0.5)ことが、隣接する画素間における背景から物体または物体から背景への遷移を示し得る。(Δβの符号は、遷移の方向を示し得る。)物体のエッジが、実際には画素の中央である場合、境界において中間値を有する画素が存在し得る。これは、例えば画素iについて2つの輝度値(βL=(β+βi−1)/2及びβR=(β+βi+1)/2、画素(i−1)は画素iの左側、画素(i+1)は画素iの右側)を算出することによって、検出され得る。画素iがエッジの近くにない場合は一般的に|βL−βR|がゼロに近くなり、画素がエッジの近くにある場合は|βL−βR|が1に近くなり、|βL−βR|の閾値がエッジを検出するために使用され得る。
いくつかの例では、物体の一部が画像内の別の物体を部分的に遮蔽してもよい。例えば手の場合、指が、手のひらや別の指を部分的に遮蔽してもよい。物体の一部が別の物体を部分的に遮蔽して生じる遮蔽エッジも、背景画素が除去されれば、小さいが明らかである輝度の変化に基づいて検出され得る。図3Cは、そのような部分的な遮蔽の例を示しており、遮蔽エッジの位置は明らかである。
検出されたエッジは、多くの目的に使用され得る。例えば、前述のように、2つのカメラから見た物体のエッジは、3D空間内の物体のおよその位置を決定するために使用され得る。カメラの光軸を横断する2D平面内の物体の位置は、1つの画像から決定され得るとともに、2つの異なるカメラからの時間相関画像における物体の位置の間のオフセット(視差)は、カメラ間の間隔が既知であれば、物体までの距離を決定するために使用され得る。
さらに、物体の位置及び形状は、2つの異なるカメラからの時間相関画像におけるそのエッジの位置に基づいて決定され得るとともに、物体の動き(関節を含む)は、一連となる一対の画像の解析から決定され得る。物体のエッジの位置に基づいた物体の位置、形状及び動き動きの決定に使用され得る技術例として、同時係属中のシリアル番号第13/414485(2012年3月7日米国出願)の開示全体が、参照として本明細書に援用される。本開示にアクセスする当業者は、物体のエッジの位置に関する情報に基づいた物体の位置、形状及び動きを決定するものとしても使用され得る他の技術を認識するであろう。
上記第13/414485出願に基づいて、物体の動き及び/または位置は、少量の情報を使用して再構成される。例えば、特定の視点から見た、物体の形状またはシルエットの外形は、様々な面内における当該視点から物体に対する接線を定義するために使用され得る(本明細書では「スライス」という)。わずか2つの異なった視点を用いると、当該視点から物体への4つ(またはそれ以上)の接線が、所定のスライス内で得られ得る。これらの4つ(またはそれ以上)の接線から、スライス内の物体の位置を決定することが可能であるとともに、スライス内のその断面を例えば1以上の楕円または他の単純閉曲線を用いて近似することが可能である。別の例として、特定のスライス内の物体の表面上の点の位置は、直接的に決定され得る(例えば、タイムオブフライトカメラを使用)とともに、当該スライス内の物体の断面の位置及び形状は、当該点に対する楕円や他の単純閉曲線のフィッティングにより近似され得る。異なるスライスについての位置及び断面決定は、その位置及び形状を含む物体の3Dモデルを構築するために相関させられ得る。一連の画像は、物体の動きをモデル化するものと同じ技術を用いて解析され得る。複数の独立した関節部を持つ複雑な物体(例えば、人間の手)の動きは、これらの技術を使用してモデル化され得る。
より具体的に、xy平面内の楕円は、中心のx及びy座標(X、Y)、長半径、短半径及び回転角度(例えば、x軸に対する長半径の角度)、の5つのパラメータで特徴付けられ得る。4つの接線だけでは、楕円は未決定である。しかし、この事実にもかかわらず、楕円を推定するための効率的な処理は、パラメータの1つに関する初期の作業仮説(または「推測」)の定立と、解析中に収集される追加情報としての仮説の再検討と、を含む。この追加情報は、例えば、カメラ及び/または物体の性質に基づく物理的な制約を含み得る。いくつかの状況では、例えば2以上の視点が利用可能であるため、スライスの一部または全部について、物体に対する4以上の接線が利用可能となり得る。楕円形断面は、依然として決定可能であり、いくつかの例における処理では、パラメータの値を仮定する必要がないように若干簡略化されている。いくつかの例では、追加の接線は、追加の複雑さを生じ得る。いくつかの状況では、例えば1つのカメラの視野の範囲外に物体のエッジがあるためまたはエッジが検出されなかったため、スライスの一部または全部について、物体に対する4以上の接線が利用可能となり得る。3つの接線を有するスライスが解析され得る。例えば、隣接するスライス(例えば、少なくとも4つの接線を有していたスライス)にフィットする楕円からの2つのパラメータを使用することで、当該楕円及び3つの接線についての連立方程式が解かれ得るものであると十分に断定される。別の選択肢として、3つの接線にフィットし得る円がある。平面内で円を決定する3つのパラメータ(中心座標と半径)のみが必要であるため、3つの接線は十分に円にフィットする。3未満の接線を有するスライスは、破棄されるか隣接するスライスと組み合わせられ得る。
ある物体が対象の物体に対応するか否かを幾何学的に決定するための1つの方法は、一連の楕円の体積を求めることで、物体を定義するとともに、楕円に基づく物体の定義に対して幾何学的に矛盾する物体セグメントを破棄すること(例えば、過度に円筒状、過度に直線状、過度に薄い、過度に小さいまたは過度に遠いセグメントの破棄)である。物体を特徴づけるために十分な数の楕円が残り、それが対象の物体に整合している場合、そのように識別されて、フレームからフレームへと追跡され得る。
いくつかの実施形態では、複数のスライスのそれぞれは、そのスライス内の物体の楕円形断面の大きさ及び位置を決定するために個別に解析される。これは、異なるスライスにわたって断面を相関させることにより改善され得る初期の3Dモデル(具体的には、楕円形断面の積み重ね)を与える。例えば、物体の表面は連続性を有するものとなることが予想され、不連続な楕円は結果的に無視され得る。例えば、動きや変形の継続性に関連した予想に基づいて、時間を越えて自身の3Dモデルを相関させることによって、さらなる改善が得られ得る。図1及び図2を改めて参照すると、いくつかの実施形態において、光源108,110は、継続的にオンにされるのではなく、パルスモードで動作され得る。例えば、光源108,110が、定常状態動作よりもパルスで明るい光を生成する能力を有する場合、これは有用となり得る。図5は、502に示すように光源108,110が一定の間隔でオンになるパルス状である時系列を示している。504に示すように、カメラ102,104のシャッタは、光パルスと一致するタイミングで画像を撮像するために開き得る。このように、画像が撮像される時間中、対象の物体は明るく照明され得る。いくつかの実施形態では、物体のシルエットが、異なる視点から見た物体に関する情報を示す1以上の物体の画像から抽出される。シルエットは複数の異なる技術を用いて得られ得るが、いくつかの実施形態では、当該シルエットは、物体の画像を撮像するカメラの使用及び物体のエッジを検出するための画像の解析によって得られる。
いくつかの実施形態では、光源108,110のパルス駆動が、対象の物体及び背景の間のコントラストをさらに改善するために使用され得る。特に、自身が光を出射するまたは反射性が高い物体が含まれているシーンの場合、シーン内の関連及び非関連(例えば、背景)の物体を区別するための能力が損なわれ得る。この問題は、カメラの露光時間を非常に短い時間(例えば、100マイクロ秒以下)に設定するとともに、非常に高い電力(即ち、5〜20ワット、または、場合によっては、例えば40ワットなどのより高いレベル)で照明をパルス駆動することによって、対処され得る。このとき、最も一般的な環境照明の光源(例えば、蛍光灯)は、そのような明るい短時間の照明と比較して非常に暗い。即ち、マイクロ秒では、非パルス光源は、それらがミリ秒以上の露出時間に表れたとしても薄暗いものである。実際、この方法では、これらが同じ一般的な帯域で発光しても、他の物体に対する対象の物体のコントラストを増大させる。したがって、このような条件下における輝度による判別は、画像の再構成及び処理の目的のための無関連の物体の無視を可能にする。平均消費電力も低減される。20ワットで100マイクロ秒の場合、平均消費電力は10ミリワットを下回る。一般的に、光源108,110は、カメラ全体の露光時間中にオンになるように動作させられる(即ち、パルス幅が、露光時間と等しくかつこれに揃っている)。
光源108,110をオンにして撮像された画像と光源108,110をオフにして撮像された画像との比較をする目的のために、光源108,110のパルスを調整することも可能である。図6は、604に示すようにカメラ102,104のシャッタが画像を撮像するために開いている間に、602に示すように光源108,110が一定の間隔でオンになるパルス状である時系列を示す。この場合、光源108,110は、1つおきの画像に対して「オン」になる。対象の物体が、背景領域よりも光源108,110に対して著しく近い場合、背景画素に対する光強度の差よりも、対象画素に対する光強度の差の方が、が強くなる。したがって、一連の画像内の画素の比較が、物体及び背景画素の区別に役立ち得る。
図7は、本発明の実施形態に係る一連の画像を用いて物体のエッジを識別する処理700のフロー図である。ブロック702において、光源がオフにされ、ブロック704において、第1画像(A)が撮像される。次に、ブロック706において、光源がオンにされ、ブロック708において、第2画像(B)が撮像される。ブロック710において、「差分」画像B−Aは、例えば、画像Aの各画素の輝度値を、画像Bの対応する画素の輝度値から減算することによって、算出される。画像Bは、光がオンの状態で撮像されたものであるため、B−Aはほとんどの画素で正になることが予想される。
差分画像は、閾値または他の画素毎の基準の適用によって背景及び前景を区別するために、使用される。ブロック712において、物体画素を識別するために差分画像に対して閾値が適用され、閾値を上回る(B−A)は対象画素に関連付けられるとともに、閾値を下回る(B−A)は背景画素に関連付けられる。物体のエッジは、その後で、上述のように背景画素に隣接する対象画素の識別によって定義され得る。物体のエッジは、上述のように位置及び/または動き検出などの目的のために使用され得る。
代替的な実施形態では、物体のエッジが、一対ではなく三つ組の画像フレームを使用して識別される。例えば、1つの実装では、第1画像(画像1)が光源をオフとした状態で得られ、第2画像(画像2)が光源をオンにした状態で得られ、さらに第3画像(画像3)が光源を再びオフにした状態で撮像される。2つの差分画像
画像4=abs(画像2−画像1)及び
画像5=abs(画像2−画像3)
は、画素の輝度値を減算することによって定義される。最終的な画像、画像6は、画像4及び画像5の2つの画像に基づいて定義される。特に、画像6における各画素の値は、画像4及び画像5における2つの対応する画素値の小さい方である。換言すると、各画素について、画像6=min(画像4,画像5)である。画像6は、精度が改善された差分画像を表し、そのほとんどの画素は正となる。再度、前景及び背景画素を区別するために、閾値または他の基準が画素毎に使用され得る。
本明細書に記載のコントラストに基づく物体検出は、対象の物体が背景物体よりも(複数の)光源に対して大幅に近づく(例えば、半分の距離)ことが予想される任意の状況に対して適用され得る。動き検出の使用に関するそのような適用の一つとして、コンピュータシステムとやりとりするためのユーザ入力がある。例えば、ユーザが画面を指し示すまたは他の手でジェスチャをすると、それが入力としてコンピュータシステムに解釈され得る。
本発明の実施形態に係るユーザ入力装置である動き検出器を含むコンピュータシステム800が、図8に示されている。コンピュータシステム800は、プロセッサ、メモリ、固定またはリムーバブルディスクドライブ、ビデオドライバ、オーディオドライバ、ネットワークインタフェースコンポーネントなど、様々なコンピュータシステムの構成要素を収容し得るデスクトップボックス802を含む。ディスプレイ804は、デスクトップボックス802に接続されるとともにユーザが閲覧可能となるように配置されている。キーボード806は、ユーザの手が簡単に届く範囲内に配置される。動き検出器ユニット808は、キーボード806の近くに配置され(例えば、図示のような後方または片側)、その中でユーザがディスプレイ804に向かってジェスチャをすることが自然となる領域(例えば、キーボードの上側の空間であってモニタの前)に対して向けられている。カメラ810,812(例えば、上述のカメラ102,104と同様または同一であり得るもの)は、一般的には上側を向くように配置され、光源814,816(上述の光源108,110と同様または同一であり得るもの)は、動き検出器ユニット808の上の領域を照明するために、カメラ810,812の両側に配置される。典型的な実装では、カメラ810,812及び光源814,816は、実質的に同一平面内にある。この構成は、例えばエッジ検出を妨害し得る影の出現(光源がカメラに隣接せずに間に位置する場合と同様になり得る)を防止する。不図示のフィルタは、光源814,816のピーク周波数付近の帯域の外側となるすべての光を除去するために、動き検出器ユニット808の上面の上(または、カメラ810,812の開口のちょうど上)に配置され得る。
図示の構成では、カメラ810,812の視野内でユーザが手または他の物体(例えば、鉛筆)を動かすと、背景はおそらく天井及び/または天井に設けられた様々な定着物から成り得る。ユーザの手が、動き検出器ユニット808の上側10〜20センチメートルになり得るのに対して、天井はその距離の5〜10倍(またはそれ以上)となり得る。光源814,816からの照明は、それ故に天井と比較してユーザの手に対してはるかに強くなり、本明細書に記載の技術が、カメラ810,812によって撮像された画像内の背景画素から物体画素を確実に区別するために使用され得る。赤外光が使用される場合は、ユーザの気が散ったり光によって妨害されたりすることがない。
コンピュータシステム800は、図1に示した構造を利用し得る。例えば、動き検出器ユニット808のカメラ810,812がデスクトップボックス802に対して画像データを与え得るとともに、画像解析及びその後の解釈がデスクトップボックス802に収容されているプロセッサ及び他の構成要素を使用して行われ得る。また、動き検出器ユニット808は、画像解析及び解釈の一部または全部の段階を実行するためのプロセッサまたは他の構成要素を含み得る。例えば、動き検出器ユニット808は、物体画素及び背景画素を区別するための上述の処理の1以上を実行するプロセッサ(プログラム可能なまたは固定機能)を含み得る。この場合、動き検出器ユニット808は、さらなる解析及び解釈のために、撮像画像の減少表示(例えば、すべての背景画素をゼロにした表示)を、デスクトップボックス802に対して送信し得る。動き検出器ユニット808内部のプロセッサ及びデスクトップボックス802内のプロセッサの間における計算タスクの特別な分割は不要である。
絶対的な輝度レベルによる物体画素及び背景画素の区別は、必ずしも必要ではない。例えば、物体形状の知見があれば、物体のエッジの明らかな検出もなく画像内の物体を検出するために、輝度減衰のパターンが利用され得る。丸みを帯びた物体(手や指など)では、例えば、1/rの関係が、物体の中心付近にガウシアンまたは近ガウシアン輝度分布(near-Gaussian brightness distributions)を生じさせる。LEDによって照明されるとともにカメラに対して垂直に配置された円筒を撮像すると、円筒軸に対応する明るい中心線を有するとともに各側(円筒の周囲)で明るさが減衰する画像になる。指はおよそ円筒形であり、これらのガウシアンピークを識別することによって、背景が近く背景の相対輝度に起因してエッジが見えない(近接のためか、それとも積極的に赤外光が出射され得るということのため)という状況であっても指を配置することができる。語句「ガウシアン」は、負の二次導関数の曲線を含意するように、本明細書で広義に使用される。多くの場合、そのような曲線はベル型かつ対称形になるが、必ずしもそうではない。例えば、物体の鏡面反射性がより高い状況または物体が極端な角度である場合、曲線が特定の方向にずれ得る。したがって、本明細書で使用する用語「ガウシアン」は、明らかにガウシアン関数に適合する曲線のみに限定されるものではない。
図9は、本発明の実施形態に係る動き検出器を含むタブレットコンピュータ900を示す。タブレットコンピュータ900は、前面にベゼル904に囲まれた表示画面902を含む筐体を有する。1以上の制御ボタン906は、ベゼル904に含まれ得る。タブレットコンピュータ900は、ハウジング内(例えば、表示画面902の背後)に、様々な従来のコンピュータの構成要素(プロセッサ、メモリ、ネットワークインタフェースなど)を有し得る。動き検出器ユニット910は、ベゼル904内に設けられるとともにタブレットコンピュータ900の前方に位置するユーザの動きをキャプチャするように前面に向けられたカメラ912,914(例えば、図1のカメラ102,104と類似または同一)及び光源916,918(例えば、図1の光源108,110と類似または同一)を使用した実装になり得る。
カメラ912,914の視野内でユーザが手または他の物体を動かすと、上述のように、動きが検出される。この場合、背景は、おそらくユーザ自身の体であり、タブレット・コンピュータ900から大体25〜30センチメートルの距離となる。ユーザは、ディスプレイ902から例えば5〜10センチメートルという短い距離で、手または他の物体を保持し得る。ユーザの手がユーザの体よりも光源916,918に著しく近い(例えば、半分の距離)限り、本明細書に記載の照明に基づいたコントラストの改善技術が、背景画素から対象画素を区別するために使用され得る。画像解析とその後の入力ジェスチャとしての解釈は、タブレットコンピュータ900内(例えば、オペレーティングシステムまたはカメラ912,914から得られるデータを解析するための他のソフトウェアを実行するためのメインプロセッサの活用)で行われ得る。ユーザは、これにより、3D空間内のジェスチャを用いてタブレット900とやりとりし得る。
図10に示すゴーグルシステム1000も、本発明の実施形態に係る動き検出器を含み得る。ゴーグルシステム1000は、例えば、仮想現実及び/または拡張現実環境に関連して使用され得る。ゴーグルシステム1000は、従来の眼鏡と同様に、ユーザが着用可能なゴーグル1002を含む。ゴーグル1002は、ユーザの左右の目に画像(例えば、仮想現実環境の画像)を与える小型の表示画面を含み得る接眼レンズ1004,1006を含む。これらの画像は、ゴーグル1002と有線または無線チャネルのいずれかを介して通信するベースユニット1008(例えば、コンピュータシステム)によって与えられ得る。カメラ1010,1012(例えば、図1のカメラ102,104と類似または同一)は、それらがユーザの視界を不明瞭にしないように、ゴーグル1002のフレーム部に設けられ得る。光源1014,1016は、ゴーグル1002のフレーム部におけるカメラ1010,1012の両側に設けられ得る。カメラ1010,1012によって収集された画像は、解析及び仮想または拡張環境とのユーザのやりとりを示すジェスチャとしての解釈のために、ベースユニット1008に送信され得る。(いくつかの実施形態では、接眼レンズ1004,1006を介して提示される仮想または拡張環境は、ユーザの手の表示を含み得るとともに、その表示はカメラ1010,1012によって収集された画像に基づき得る。)
カメラ1010,1012の視野内でユーザが手または他の物体を使用してジェスチャをすると、上述のように動きが検出される。この場合、背景は、おそらくユーザが居る部屋の壁であり、ユーザは、きっと壁から多少の距離のところで座るまたは立っている。ユーザの手がユーザの体よりも光源1014,1016に著しく近い(例えば、半分の距離)限り、本明細書に記載の照明に基づいたコントラストの改善技術が、背景画素からの対象画素の区別を容易にする。画像解析とその後の入力ジェスチャとしての解釈は、ベースユニット1008内で行われ得る。
当然であるが、図8〜10に示した動き検出器の実装は例示であって、変更や修正は可能である。例えば、動き検出器またはその構成要素は、キーボードやトラックパッドなどの他のユーザ入力デバイスを有する単一のハウジング内に組み込まれ得る。別の例では、動き検出器は、例えば、上向きのカメラ及び光源がラップトップキーボードと同一の平面に組み入れられた(例えば、キーボードの一方側、または前、または背後)または前向きのカメラ及び光源がラップトップの表示画面を囲むベゼルに組み入れられたラップトップコンピュータに含まれる。さらに別の例では、着用可能な動き検出器は、例えば、アクティブディスプレイや光学部品が含まれていないヘッドバンドやヘッドセットなどとして実装され得る。
図11に示すように、動き情報は、本発明の実施形態に係るコンピュータシステムまたは他のシステムを制御するためのユーザ入力として使用され得る。処理1100は、例えば図8〜10に示すようなコンピュータシステムで実行され得る。ブロック1102において、動き検出器の光源及びカメラを使用して画像が撮像される。上述のように、画像の撮像は、光源(及びカメラ)に近い物体がさらに遠くの物体よりもより明るく照明されるようなカメラの視野を照明するための光源の使用を含み得る。
ブロック1104において、撮像された画像は、輝度の変化に基づいて物体のエッジを検出するために解析される。例えば、上述のように、この解析には、各画素の輝度と閾値との比較、隣接する画素におけるローレベルからハイレベルへの輝度の遷移の検出及び/または光源による照明がある状態及びない状態で撮像された一連の画像の比較が、含まれ得る。ブロック1106において、エッジベースアルゴリズムは、物体の位置及び/または動きを決定するために使用される。このアルゴリズムは、例えば、上述の第13/414485出願に記載の任意の接線ベースアルゴリズムであり得る。他のアルゴリズムも使用され得る。
ブロック1108において、ジェスチャは、物体の位置及び/または動きに基づいて識別される。例えば、ジェスチャのライブラリが、ユーザの指の位置及び/または動きに基づいて定義され得る。「タップ」は、表示画面に向かって伸びた指の速い動きに基づいて定義され得る。「トレース」は、表示画面に対して大体平行な平面内における伸びた指の動きとして定義され得る。内側ピンチは、互いに近づくように動く2本の伸びた指として定義され得るとともに、外側ピンチは、さらに開くように動く2本の伸びた指として定義され得る。スワイプジェスチャは、特定の方向(例えば、上、下、左、右)に対する手全体の動きに基づいて定義され得るとともに、別のスワイプジェスチャは、伸びた指の本数(例えば、1本、2本、すべて)に基づいてさらに定義され得る。他のジェスチャも定義され得る。ライブラリに検出された動きを比較することによって、検出された位置及び/または動きに関連付けられた特定のジェスチャが決定され得る。
ブロック1110において、ジェスチャは、コンピュータシステムが処理し得るユーザ入力として解釈される。特定の処理は、一般的にコンピュータシステム上で現在実行されているアプリケーションプログラム及びこれらのプログラムの特定の入力に対する応答の構成方法によって決まる。例えば、ブラウザプログラム内のタップは、指が指示するリンクの選択として解釈され得る。文書処理プログラム内のタップは、指が指示する位置へのカーソルの設置としてまたはメニュー項目あるいは画面上に見え得る他のグラフィック制御要素の選択として解釈され得る。特定のジェスチャ及び解釈は、オペレーティングシステム及び/または必要なアプリケーションのレベルで決定され得るものであり、任意のジェスチャの特定の解釈は不要である。
全身の動きが、キャプチャされるとともに同様の目的に使用され得る。このような実施形態では、解析及び再構成が、およそリアルタイム(例えば、人の反応時間に匹敵する時間)で都合良く行われることで、ユーザは機器との自然なやりとりを体験する。他の用途では、モーションキャプチャは、リアルタイムで行われないデジタルレンダリング(例えば、コンピュータアニメーションムービーなど)のために使用され得る。このような場合、解析は必要な長さをとり得る。
本明細書で説明する実施形態は、距離に応じた光強度の減少を利用することによって、撮像された画像内の物体及び背景の効率的な区別を与える。背景よりも物体に著しく近い(例えば、2倍以上)1以上の光源を用いて物体を明るく照明することで、物体及び背景の間のコントラストが増大し得る。いくつかの例では、フィルタが、意図した光源以外の光源からの光を除去するために使用され得る。赤外光を使用することで、不要な「ノイズ」やおそらく画像が撮像される環境内に存在する見える光源からの輝点を低減し得るとともに、ユーザ(赤外線を見ることが不可能であろう人)の気が散ることをも低減し得る。
上述の実施形態は、対象の物体の画像を撮像するために使用されるカメラの両側に1つ配置された、2つの光源を備える。この配置は、位置及び動きの解析がそれぞれのカメラから見た物体のエッジの情報に依拠しており、光源がそれらのエッジを照明する場合において、特に有用になり得る。しかしながら、他の配置も使用され得る。例えば、図12は、単一のカメラ1202及びカメラ1202の両側に配置される2つの光源1204,1206を有するシステム1200を示している。この配置は、物体1208の画像を撮像するために使用され得るものであり、平坦な背景領域1210に対して物体1208の影が掛かかる。この実施形態では、対象画素及び背景画素が容易に区別され得る。さらに、背景1210は物体1208からそれほど遠くないが、依然として、影の掛かっている背景領域の画素及び影の掛かっていない背景領域の画素の両者の区別を可能にするために十分なコントラストが与えられている。物体及びその影の画像を用いて位置及び動きを検出するアルゴリズムは、上述の第13/414485出願に記載されており、システム1200は、物体とその影のエッジの位置を含む入力情報を、そのようなアルゴリズムへ与え得る。
単一のカメラの実装1200では、カメラ1202のレンズの前に配置されたホログラフィック回折格子1215を含めることから効果が得られ得る。格子1215は、ゴーストシルエット及び/または物体1208の接線として現れる干渉縞パターンを作出する。特に、分離可能な場合(即ち、オーバーラップが過剰ではない場合)、これらのパターンは、背景からの物体の区別を容易にする高いコントラストを有する。例えば、回折格子ハンドブック(ニューポートコーポレーション、2005年1月、http://gratings.newport.com/library/handbook/handbook.aspで利用可能)を参照し、その開示全体は参照として本明細書に援用される。
図13は、2つのカメラ1302,1304及びカメラの間に配置された1つの光源1306を有する別のシステム1300を示す。システム1300は、背景1310に対して、物体1308の画像を撮像し得る。システム1300は、一般的には図1のシステム100よりもエッジの照明について信頼性が低い。しかしながら、すべての位置及び動きを決定するためのアルゴリズムが、物体のエッジの正確な情報に依拠するのではない。したがって、システム1300は、例えば、あまり精度が必要ではない状況でエッジベースアルゴリズムが使用され得る。システム1300では、非エッジベースアルゴリズムも使用され得る。
特定の実施形態に関して本発明を説明してきたが、当業者は多数の変更が可能であることを認識するであろう。カメラ及び光源の数及び配置は変更され得る。フレームレート、空間分解能及び強度分解能を含むカメラの能力も、必要に応じて変更され得る。光源は、連続またはパルスモードで動作し得る。本明細書で説明するシステムは、物体及び背景の区別を容易にするために両者の間のコントラストを改善した画像を与え、この情報は多数の目的に使用され得るものであり、位置及び/または動き検出は多数の可能性の中の1つに過ぎない。
背景から物体を識別するためのカットオフ閾値及び他の具体的な基準は、特定のカメラ及び特定の環境に適合され得る。上述のように、比r/rが増大するについて、コントラストが増大すると予想される。いくつかの実施形態において、システムは、例えば光源の輝度、閾値基準などの調整により、特定の環境に較正され得る。高速アルゴリズムに実装され得る単純な基準の使用は、他の用途のための所定のシステムにおける処理能力を解放し得る。
任意のタイプの物体が、これらの技術を用いてモーションキャプチャの対象となり得るとともに、特定の物体に対して実装の様々な面が最適化され得る。例えば、カメラ及び/または光源のタイプ及び位置は、動きがキャプチャされるべき物体の大きさ及び/または動きがキャプチャされるべき空間の大きさに基づいて最適化され得る。本発明の実施形態に係る解析技術は、任意の適切なコンピュータ言語のアルゴリズムとして実装され得るとともに、プログラム可能なプロセッサ上で実行される。あるいは、アルゴリズムの一部または全部は、固定機能のロジック回路に実装され得るとともに、このような回路が従来のまたは他のツールを使用して設計及び製造され得る。
本発明の様々な特徴を含むコンピュータプログラムは、様々なコンピュータ可読記憶媒体で符号化され得る。適切な媒体は、磁気ディスクまたはテープ、コンパクトディスク(CD)またはDVD(デジタル多用途ディスク)などの光学記憶媒体、フラッシュメモリ及びコンピュータが読取可能な形式でデータを保持する任意の他の非一時媒体などを含む。プログラムコードで符号化されるコンピュータが読取可能な記憶媒体は、互換性のある装置と共にパッケージまたは他の装置とは別に備えられ得る。さらに、プログラムコードは、符号化されて光学の有線及び/または様々なプロトコルに準拠する無線ネットワーク(例えば、インターネットダウンロードを介して配信が可能なインターネットを含む)を介して送信され得る。
以上のように、本発明を特定の実施形態について説明したが、当然ながら、本発明は、以下の請求項の範囲内での変更及び均等物の全てを網羅することを意図したものである。

Claims (34)

  1. デジタルで表示された画像シーンの中から対象物体を識別するための画像撮像解析システムであって、
    視野に向けられた少なくとも1つのカメラと、
    前記カメラと同じ前記視野側に配置されて前記視野を照明するように向けられた少なくとも1つの光源と、
    前記カメラ及び少なくとも1つの前記光源と結合された画像解析装置と、を備え、
    前記画像解析装置は、
    少なくとも1つの前記光源が前記視野を照明すると同時に撮像される第1画像を含む、一連の画像を撮像するために少なくとも1つの前記カメラを動作させ、
    背景ではなく前記対象物体に対応する画素を識別し、
    識別された画素に基づき、前記対象物体の位置、形状及び断面を含む前記対象物体の3Dモデルを構築して、それが前記対象物体に対応するか否かを幾何学的に決定するように構成されており、
    前記画像解析装置は、(i)前記視野の近接領域内に位置する物体に対応する前景画像成分と、(ii)前記視野の遠隔領域内に位置する物体に対応する背景画像成分と、を区別することで、前記対象物体と前記背景との境界である第1エッジを検出するとともに、前記前景画像成分における輝度の変化に基づいて、前記カメラに対して前記対象物体の第1部分が当該対象物体の第2部分を遮蔽して第3部分を遮蔽しない場合における前記第1部分と前記第3部分との境界である第2エッジを検出するものであり、
    前記近接領域は、少なくとも1つの前記カメラから広がるとともに、少なく1つの前記カメラと前記前景画像成分に対応する物体との間の予測最大距離の少なくとも2倍となる奥行を有し、
    前記遠隔領域は、少なくとも1つの前記カメラに対して前記近接領域を越えた位置に存在しているシステム。
  2. 前記画像解析装置は、所定の閾値を超える輝度を有する画素を前記前景画像成分、当該閾値を超えない輝度を有する画素を前記背景画素成分として区別することで前記第1エッジを検出するとともに、前記前景画素成分内において輝度が大きい部分ほど前記対象物体の前記カメラに近い部分であると識別することで前記第2エッジを検出する請求項1に記載のシステム。
  3. 前記近接領域が前記予測最大距離の少なくとも4倍となる奥行を有する請求項1に記載のシステム。
  4. 少なくとも1つの前記光源が拡散出射体である請求項1に記載のシステム。
  5. 少なくとも1つの前記光源が赤外発光ダイオードであり、少なくとも1つの前記カメラが赤外感知カメラである請求項3に記載のシステム。
  6. 少なくとも2つの前記光源が、少なくとも1つの前記カメラに隣接し、これらが実質的に同一平面内に存在する請求項1に記載のシステム。
  7. 少なくとも1つの前記カメラと少なくとも1つの前記光源とが鉛直上方を向いている請求項1に記載のシステム。
  8. 少なくとも1つの前記カメラは、露光時間が100マイクロ秒と同程度となるように動作し、少なくとも1つの前記光源は、露光時間の間に少なくとも5ワットの電力レベルで駆動される請求項1に記載のシステム。
  9. 少なくとも1つの前記カメラのレンズと前記視野との間に配置されるホログラフィック回折格子を、さらに備える請求項1に記載のシステム。
  10. 前記画像解析装置は、少なくとも1つの前記光源が前記視野を照明していない時に少なくとも1つの前記カメラを動作させて第2及び第3画像を撮像するとともに、前記第1及び第2画像の差分と前記第1及び第3画像の差分とに基づいて前記対象物体に対応する画素を識別するものであり、
    前記第2画像は前記第1画像の前に撮像され、前記第3画像は前記第2画像の後に撮像される請求項1に記載のシステム。
  11. 画像撮像解析方法であって
    対象物体を含む視野を照明する少なくとも1つの光源の駆動と、
    少なくとも1つの前記光源の駆動と同時にカメラを使用することによる、前記視野の一連のデジタル画像の撮像と、
    背景ではなく前記対象物体に対応する画素の識別と、
    識別された画素に基づき、前記対象物体の位置、形状及び断面を含む前記対象物体の3Dモデルを構築して、それが前記対象物体に対応するか否かを幾何学的に決定することと、のそれぞれのステップを備え、
    前記対象物体に対応する画素を識別するステップでは、(i)前記視野の近接領域内に位置する物体に対応する前景画像成分と、(ii)前記視野の遠隔領域内に位置する物体に対応する背景画像成分と、を区別することで、前記対象物体と前記背景との境界である第1エッジを検出するとともに、前記前景画像成分における輝度の変化に基づいて、前記カメラに対して前記対象物体の第1部分が当該対象物体の第2部分を遮蔽して第3部分を遮蔽しない場合における前記第1部分と前記第3部分との境界である第2エッジを検出し、
    少なくとも1つの前記光源は、前記対象物体が近接領域内に位置するように配置され、
    前記近接領域は、前記カメラから、前記カメラと前記対象物体との間の予測最大距離の少なくとも2倍となる距離まで広がる方法。
  12. 前記対象物体に対応する画素を識別するステップでは、所定の閾値を超える輝度を有する画素を前記前景画像成分、当該閾値を超えない輝度を有する画素を前記背景画素成分として区別することで前記第1エッジを検出するとともに、前記前景画素成分内において輝度が大きい部分ほど前記対象物体の前記カメラに近い部分であると識別することで前記第2エッジを検出する請求項11に記載の方法。
  13. 前記近接領域が前記予測最大距離の少なくとも4倍となる奥行を有する請求項11に記載の方法。
  14. 少なくとも1つの前記光源が拡散出射体である請求項11に記載の方法。
  15. 少なくとも1つの前記光源が赤外発光ダイオードであり、前記カメラが赤外感知カメラである請求項11に記載の方法。
  16. 前記カメラに隣接してこれと実質的に同一平面内に存在する2つの前記光源が駆動される請求項11に記載の方法。
  17. 前記カメラと少なくとも1つの前記光源とが鉛直上方を向いている請求項11に記載の方法。
  18. 前記デジタル画像を撮像するステップでは、少なくとも1つの前記光源が駆動していない時の第1画像と、少なくとも1つの前記光源が駆動している時の第2画像と、少なくとも1つの前記光源が駆動していない時の第3画像と、のそれぞれを撮像し、
    前記第2及び第1画像の差分と、前記第2及び第3画像の差分と、に基づいて前記対象物体に対応する画素が識別される請求項11に記載の方法。
  19. デジタルで表示された画像シーンの中から対象の物体を識別するための画像撮像解析システムであって、
    視野に向けられた少なくとも1つのカメラと、
    前記カメラと同じ前記視野側に配置されて前記視野を照明するように向けられた少なくとも1つの光源と、
    前記カメラ及び少なくとも1つの前記光源と結合された画像解析装置と、を備え、
    前記画像解析装置は、
    少なくとも1つの前記光源が前記視野を照明すると同時に撮像される第1画像を含む、一連の画像を撮像するために少なくとも1つの前記カメラを動作させ、
    背景ではなく前記物体に対応する画素を識別し、
    識別された画素に基づき、前記物体の位置、形状及び断面を含む前記物体の3Dモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定するように構成されており、
    前記画像解析装置は、(i)前記視野の近接領域内に位置する前記物体に対応する前景画像成分と、(ii)前記視野の遠隔領域内に位置する前記物体に対応する背景画像成分と、を区別するものであり、
    前記近接領域は、少なくとも1つの前記カメラから広がるとともに、少なく1つの前記カメラと前記前景画像成分に対応する前記物体との間の予測最大距離の少なくとも2倍となる奥行を有し、
    前記遠隔領域は、少なくとも1つの前記カメラに対して前記近接領域を越えた位置に存在しているシステム。
  20. 前記近接領域が前記予測最大距離の少なくとも4倍となる奥行を有する請求項19に記載のシステム。
  21. 少なくとも1つの前記光源が拡散出射体である請求項19に記載のシステム。
  22. 少なくとも1つの前記光源が赤外発光ダイオードであり、少なくとも1つの前記カメラが赤外感知カメラである請求項21に記載のシステム。
  23. 少なくとも2つの前記光源が、少なくとも1つの前記カメラに隣接し、これらが実質的に同一平面内に存在する請求項19に記載のシステム。
  24. 少なくとも1つの前記カメラと少なくとも1つの前記光源とが鉛直上方を向いている請求項19に記載のシステム。
  25. 少なくとも1つの前記カメラは、露光時間が100マイクロ秒と同程度となるように動作し、少なくとも1つの前記光源は、露光時間の間に少なくとも5ワットの電力レベルで駆動される請求項19に記載のシステム。
  26. 少なくとも1つの前記カメラのレンズと前記視野との間に配置されるホログラフィック回折格子を、さらに備える請求項19に記載のシステム。
  27. 前記画像解析装置は、少なくとも1つの前記光源が前記視野を照明していない時に少なくとも1つの前記カメラを動作させて第2及び第3画像を撮像するとともに、前記第1及び第2画像の差分と前記第1及び第3画像の差分とに基づいて前記物体に対応する画素を識別するものであり、
    前記第2画像は前記第1画像の前に撮像され、前記第3画像は前記第2画像の後に撮像される請求項19に記載のシステム。
  28. 画像撮像解析方法であって
    対象の物体を含む視野を照明する少なくとも1つの光源の駆動と、
    少なくとも1つの前記光源の駆動と同時にカメラを使用することによる、前記視野の一連のデジタル画像の撮像と、
    背景ではなく前記物体に対応する画素の識別と、
    識別された画素に基づき、前記物体の位置、形状及び断面を含む前記物体の3Dモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定することと、のステップを備え、
    少なくとも1つの前記光源は、対象の前記物体が近接領域内に位置するように配置され、
    前記近接領域は、前記カメラから、前記カメラと対象の前記物体との間の予測最大距離の少なくとも2倍となる距離まで広がる方法。
  29. 前記近接領域が前記予測最大距離の少なくとも4倍となる奥行を有する請求項28に記載の方法。
  30. 少なくとも1つの前記光源が拡散出射体である請求項28に記載の方法。
  31. 少なくとも1つの前記光源が赤外発光ダイオードであり、前記カメラが赤外感知カメラである請求項28に記載の方法。
  32. 前記カメラに隣接してこれと実質的に同一平面内に存在する2つの前記光源が駆動される請求項28に記載の方法。
  33. 前記カメラと少なくとも1つの前記光源とが鉛直上方を向いている請求項28に記載の方法。
  34. 画像撮像解析方法であって
    対象の物体を含む視野を照明する少なくとも1つの光源の駆動と、
    少なくとも1つの前記光源の駆動と同時にカメラを使用することによる、前記視野の一連のデジタル画像の撮像と、
    背景ではなく前記物体に対応する画素の識別と、
    識別された画素に基づき、前記物体の位置、形状及び断面を含む前記物体の3Dモデルを構築して、それが対象の前記物体に対応するか否かを幾何学的に決定することと、
    少なくとも1つの前記光源が駆動していない時の第1画像と、少なくとも1つの前記光源が駆動している時の第2画像と、少なくとも1つの前記光源が駆動していない時の第3画像と、の撮像と、のステップを備え、
    前記第2及び第1画像の差分と、前記第2及び第3画像の差分と、に基づいて前記物体に対応する画素が識別される方法。
JP2016104145A 2012-01-17 2016-05-25 物体検出のためのコントラストの改善及び光学画像化による特徴評価 Pending JP2016186793A (ja)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US201261587554P 2012-01-17 2012-01-17
US61/587,554 2012-01-17
US13/414,485 2012-03-07
US13/414,485 US20130182079A1 (en) 2012-01-17 2012-03-07 Motion capture using cross-sections of an object
US201261724068P 2012-11-08 2012-11-08
US201261724091P 2012-11-08 2012-11-08
US61/724,091 2012-11-08
US61/724,068 2012-11-08
US13/724,357 US9070019B2 (en) 2012-01-17 2012-12-21 Systems and methods for capturing motion in three-dimensional space
US13/724,357 2012-12-21

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014552391A Division JP2015510169A (ja) 2012-01-17 2013-01-16 物体検出のためのコントラストの改善及び光学画像化による特徴評価

Publications (1)

Publication Number Publication Date
JP2016186793A true JP2016186793A (ja) 2016-10-27

Family

ID=48799803

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014552391A Pending JP2015510169A (ja) 2012-01-17 2013-01-16 物体検出のためのコントラストの改善及び光学画像化による特徴評価
JP2016104145A Pending JP2016186793A (ja) 2012-01-17 2016-05-25 物体検出のためのコントラストの改善及び光学画像化による特徴評価

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014552391A Pending JP2015510169A (ja) 2012-01-17 2013-01-16 物体検出のためのコントラストの改善及び光学画像化による特徴評価

Country Status (4)

Country Link
JP (2) JP2015510169A (ja)
CN (2) CN104145276B (ja)
DE (1) DE112013000590B4 (ja)
WO (1) WO2013109609A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671881B2 (en) 2017-04-11 2020-06-02 Microsoft Technology Licensing, Llc Image processing system with discriminative control
WO2021059735A1 (ja) * 2019-09-26 2021-04-01 ソニーセミコンダクタソリューションズ株式会社 画像処理装置、電子機器、画像処理方法及びプログラム
JP7401129B1 (ja) 2022-11-15 2023-12-19 株式会社SEtech 商品陳列棚

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11493998B2 (en) 2012-01-17 2022-11-08 Ultrahaptics IP Two Limited Systems and methods for machine control
US10691219B2 (en) 2012-01-17 2020-06-23 Ultrahaptics IP Two Limited Systems and methods for machine control
US9501152B2 (en) 2013-01-15 2016-11-22 Leap Motion, Inc. Free-space user interface and control using virtual constructs
US9679215B2 (en) 2012-01-17 2017-06-13 Leap Motion, Inc. Systems and methods for machine control
US9070019B2 (en) 2012-01-17 2015-06-30 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US8638989B2 (en) 2012-01-17 2014-01-28 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US8693731B2 (en) 2012-01-17 2014-04-08 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging
CA2864719C (en) 2012-02-24 2019-09-24 Thomas J. Moscarillo Gesture recognition devices and methods
US9285893B2 (en) 2012-11-08 2016-03-15 Leap Motion, Inc. Object detection and tracking with variable-field illumination devices
US10609285B2 (en) 2013-01-07 2020-03-31 Ultrahaptics IP Two Limited Power consumption in motion-capture systems
US9465461B2 (en) 2013-01-08 2016-10-11 Leap Motion, Inc. Object detection and tracking with audio and optical signals
US9459697B2 (en) 2013-01-15 2016-10-04 Leap Motion, Inc. Dynamic, free-space user interactions for machine control
WO2014200589A2 (en) 2013-03-15 2014-12-18 Leap Motion, Inc. Determining positional information for an object in space
US9916009B2 (en) 2013-04-26 2018-03-13 Leap Motion, Inc. Non-tactile interface systems and methods
US9721383B1 (en) 2013-08-29 2017-08-01 Leap Motion, Inc. Predictive information for free space gesture control and communication
US9632572B2 (en) 2013-10-03 2017-04-25 Leap Motion, Inc. Enhanced field of view to augment three-dimensional (3D) sensory space for free-space gesture interpretation
US9996638B1 (en) 2013-10-31 2018-06-12 Leap Motion, Inc. Predictive information for free space gesture control and communication
US9613262B2 (en) 2014-01-15 2017-04-04 Leap Motion, Inc. Object detection and tracking for providing a virtual device experience
DE102014201313A1 (de) * 2014-01-24 2015-07-30 Myestro Interactive Gmbh Verfahren zur Erkennung einer Bewegungsbahn mindestens eines bewegten Objektes innerhalb eines Erfassungsbereiches, Verfahren zur Gestikerkennung unter Einsatz eines derartigen Erkennungsverfahrens sowie Vorrichtung zur Durchführung eines derartigen Erkennungsverfahrens
WO2015139750A1 (en) 2014-03-20 2015-09-24 Telecom Italia S.P.A. System and method for motion capture
DE202014103729U1 (de) 2014-08-08 2014-09-09 Leap Motion, Inc. Augmented-Reality mit Bewegungserfassung
US9652653B2 (en) * 2014-12-27 2017-05-16 Hand Held Products, Inc. Acceleration-based motion tolerance and predictive coding
CN104586404A (zh) * 2015-01-27 2015-05-06 深圳泰山在线科技有限公司 体质监测的姿态识别方法及系统
KR101954855B1 (ko) * 2015-02-25 2019-03-06 페이스북, 인크. 볼륨 내 물체의 심도 맵핑을 위한 광 패턴의 강도 변화의 사용
DE102015207768B4 (de) 2015-04-28 2020-03-12 Volkswagen Aktiengesellschaft Verbesserte Gestenerkennung für ein Fahrzeug
WO2017080875A1 (en) 2015-11-10 2017-05-18 Koninklijke Philips N.V. Adaptive light source
FR3046519B1 (fr) 2016-01-04 2022-11-04 Netatmo Dispositif d'eclairage automatique
DE102016201704A1 (de) 2016-02-04 2017-08-10 Bayerische Motoren Werke Aktiengesellschaft Gestenerkennungsvorrichtung und Verfahren zum Erkennen einer Geste eines Insassen eines Fahrzeuges
DE102017125799A1 (de) 2017-11-06 2019-05-09 Carl Zeiss Industrielle Messtechnik Gmbh Reduktion von Bildstörungen in Bildern
TWI672957B (zh) * 2018-03-29 2019-09-21 瑞昱半導體股份有限公司 影像處理裝置及影像處理方法
US10616550B1 (en) * 2018-09-14 2020-04-07 Facebook Technologies, Llc Generating a representation of an object from depth information determined in parallel from images captured by multiple cameras
CN113168515A (zh) * 2018-12-10 2021-07-23 金泰克斯公司 用于减小视场搜索空间的扫描设备
US11418742B2 (en) * 2020-01-16 2022-08-16 GM Global Technology Operations LLC System and method for analyzing camera performance degradation due to lens abrasion

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02236407A (ja) * 1989-03-10 1990-09-19 Agency Of Ind Science & Technol 物体の形状測定方法及び装置
JPH08261721A (ja) * 1995-03-22 1996-10-11 Teijin Ltd 画像処理用照明手段の劣化検出方法
JPH09259278A (ja) * 1996-03-25 1997-10-03 Matsushita Electric Ind Co Ltd 画像処理装置
JP2000023038A (ja) * 1998-06-30 2000-01-21 Toshiba Corp 画像抽出装置
JP2002133400A (ja) * 2000-10-24 2002-05-10 Oki Electric Ind Co Ltd 対象物体抽出画像処理装置
JP2003256814A (ja) * 2002-02-27 2003-09-12 Olympus Optical Co Ltd 基板検査装置
JP2004246252A (ja) * 2003-02-17 2004-09-02 Takenaka Komuten Co Ltd 画像情報収集装置及び方法
JP2006259829A (ja) * 2005-03-15 2006-09-28 Omron Corp 画像処理システム、画像処理装置および方法、記録媒体、並びにプログラム
JP2007272596A (ja) * 2006-03-31 2007-10-18 Denso Corp 移動体用操作物体抽出装置
JP2008227569A (ja) * 2007-03-08 2008-09-25 Seiko Epson Corp 撮影装置、電子機器、撮影制御方法、及び、撮影制御プログラム
US20090103780A1 (en) * 2006-07-13 2009-04-23 Nishihara H Keith Hand-Gesture Recognition Method
JP2011010258A (ja) * 2009-05-27 2011-01-13 Seiko Epson Corp 画像処理装置、画像表示システム、画像抽出装置
US8059153B1 (en) * 2004-06-21 2011-11-15 Wyse Technology Inc. Three-dimensional object tracking using distributed thin-client cameras
US8059894B1 (en) * 2006-12-19 2011-11-15 Playvision Technologies, Inc. System and associated methods of calibration and use for an interactive imaging environment
JP2011248376A (ja) * 2011-07-22 2011-12-08 Casio Comput Co Ltd 撮像装置、合焦方法及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5282067A (en) * 1991-10-07 1994-01-25 California Institute Of Technology Self-amplified optical pattern recognition system
DE10326035B4 (de) * 2003-06-10 2005-12-22 Hema Electronic Gmbh Verfahren zur adaptiven Fehlererkennung auf einer strukturierten Oberfläche
WO2004114220A1 (en) * 2003-06-17 2004-12-29 Brown University Method and apparatus for model-based detection of structure in projection data
US8180114B2 (en) * 2006-07-13 2012-05-15 Northrop Grumman Systems Corporation Gesture recognition interface system with vertical display
US20100027845A1 (en) * 2008-07-31 2010-02-04 Samsung Electronics Co., Ltd. System and method for motion detection based on object trajectory
US8199248B2 (en) * 2009-01-30 2012-06-12 Sony Corporation Two-dimensional polynomial model for depth estimation based on two-picture matching
KR101307341B1 (ko) * 2009-12-18 2013-09-11 한국전자통신연구원 동적 개체 모션 캡쳐 방법 및 그 장치
CN102044151B (zh) * 2010-10-14 2012-10-17 吉林大学 基于光照可见度辨识的夜间车辆视频检测方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02236407A (ja) * 1989-03-10 1990-09-19 Agency Of Ind Science & Technol 物体の形状測定方法及び装置
JPH08261721A (ja) * 1995-03-22 1996-10-11 Teijin Ltd 画像処理用照明手段の劣化検出方法
JPH09259278A (ja) * 1996-03-25 1997-10-03 Matsushita Electric Ind Co Ltd 画像処理装置
JP2000023038A (ja) * 1998-06-30 2000-01-21 Toshiba Corp 画像抽出装置
JP2002133400A (ja) * 2000-10-24 2002-05-10 Oki Electric Ind Co Ltd 対象物体抽出画像処理装置
JP2003256814A (ja) * 2002-02-27 2003-09-12 Olympus Optical Co Ltd 基板検査装置
JP2004246252A (ja) * 2003-02-17 2004-09-02 Takenaka Komuten Co Ltd 画像情報収集装置及び方法
US8059153B1 (en) * 2004-06-21 2011-11-15 Wyse Technology Inc. Three-dimensional object tracking using distributed thin-client cameras
JP2006259829A (ja) * 2005-03-15 2006-09-28 Omron Corp 画像処理システム、画像処理装置および方法、記録媒体、並びにプログラム
JP2007272596A (ja) * 2006-03-31 2007-10-18 Denso Corp 移動体用操作物体抽出装置
US20090103780A1 (en) * 2006-07-13 2009-04-23 Nishihara H Keith Hand-Gesture Recognition Method
US8059894B1 (en) * 2006-12-19 2011-11-15 Playvision Technologies, Inc. System and associated methods of calibration and use for an interactive imaging environment
JP2008227569A (ja) * 2007-03-08 2008-09-25 Seiko Epson Corp 撮影装置、電子機器、撮影制御方法、及び、撮影制御プログラム
JP2011010258A (ja) * 2009-05-27 2011-01-13 Seiko Epson Corp 画像処理装置、画像表示システム、画像抽出装置
JP2011248376A (ja) * 2011-07-22 2011-12-08 Casio Comput Co Ltd 撮像装置、合焦方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671881B2 (en) 2017-04-11 2020-06-02 Microsoft Technology Licensing, Llc Image processing system with discriminative control
WO2021059735A1 (ja) * 2019-09-26 2021-04-01 ソニーセミコンダクタソリューションズ株式会社 画像処理装置、電子機器、画像処理方法及びプログラム
JP7401129B1 (ja) 2022-11-15 2023-12-19 株式会社SEtech 商品陳列棚

Also Published As

Publication number Publication date
CN107066962A (zh) 2017-08-18
CN107066962B (zh) 2020-08-07
WO2013109609A2 (en) 2013-07-25
DE112013000590B4 (de) 2016-05-04
JP2015510169A (ja) 2015-04-02
WO2013109609A3 (en) 2013-10-31
CN104145276B (zh) 2017-05-03
DE112013000590T5 (de) 2014-11-06
CN104145276A (zh) 2014-11-12

Similar Documents

Publication Publication Date Title
US11782516B2 (en) Differentiating a detected object from a background using a gaussian brightness falloff pattern
JP2016186793A (ja) 物体検出のためのコントラストの改善及び光学画像化による特徴評価
US9285893B2 (en) Object detection and tracking with variable-field illumination devices
US20140028861A1 (en) Object detection and tracking
US20210181810A1 (en) Enhanced Field of View to Augment Three-Dimensional (3D) Sensory Space for Free-Space Gesture Interpretation
US10609285B2 (en) Power consumption in motion-capture systems
JP6240609B2 (ja) 視覚ベースの対話式投影システム
US9392196B2 (en) Object detection and tracking with reduced error due to background illumination
KR20130015488A (ko) 인터페이스 시스템 및 방법
Danciu et al. Shadow removal in depth images morphology-based for kinect cameras
US20210302529A1 (en) Determining Imperfections in an Imaging Camera for Determining the Orientation of Objects in Space

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170518

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180109