JP6270157B2

JP6270157B2 - 画像処理システムおよび画像処理方法

Info

Publication number: JP6270157B2
Application number: JP2014527960A
Authority: JP
Inventors: 立昌佐川; 洋川崎; 亮古川
Original assignee: Kagoshima University NUC; National Institute of Advanced Industrial Science and Technology AIST; Hiroshima City University
Current assignee: Kagoshima University NUC; National Institute of Advanced Industrial Science and Technology AIST; Hiroshima City University
Priority date: 2012-07-30
Filing date: 2013-06-28
Publication date: 2018-01-31
Anticipated expiration: 2033-06-28
Also published as: US20150221093A1; ES2696198T3; WO2014020823A1; EP2881702A4; EP2881702A1; EP2881702B1; CN104541127A; JPWO2014020823A1; CN104541127B; US9633439B2

Description

本発明は、画像処理システムおよび画像処理方法に関し、より詳細には、単色パターンによるワンショット三次元計測による高密度な形状復元を行う画像処理システムおよび画像処理方法に関する。

最近、動く３次元シーンの復元が注目されている。例えば、人体を実時間計測してその動きを解析することにより、デバイスの装着が不要なインタフェースを実現するゲーム用製品が大きな成功を納めている（例えば、非特許文献１参照）。さらに、そのような製品を自律移動するロボットの目として利用する研究も進められており、動物体計測の重要性が強く認識されている。現在利用可能な動物体スキャナは、静的シーンを計測する３次元スキャナほど高精度・高密度な計測ができない。しかし、もう一段の精度および密度の向上が実現できれば、医療応用や流体解析など、応用範囲が格段に拡がると考えられる。

動いている対象の形状計測を行う方法は、カメラのみを用いるステレオ手法からTime-of-Flight（ＴＯＦ）方式によるレーザスキャンまで多数存在する。このうち、プロジェクタとカメラを用いるシステムによって構造化された光線を投影する手法は、動いている物体の形状データを得るのに適しているので、最近熱心に開発・研究されている（例えば、非特許文献１−４参照）。

構造化された光線を投影する手法は、大まかに時間符号化法と空間符号化法に分類される。空間符号化法は、単一画像から形状復元する（ワンショットスキャン）手法のため、動物体を高フレームレートで計測するのに適している。このため盛んに研究されている。空間符号化法においては、投影パターン全体の中から一意に特定可能な対応点情報を、２次元パターンに直接埋め込む。このためには、ある程度大きな領域が必要なため、復元密度が低くなりがちである。また、表面形状変化によるパターンのひずみ等による復号化誤りなども起きやすい。

効率的に対応点情報を２次元パターンに埋め込む方法として、色情報を使うことが考えられる。複数の色を用いて、複数のビット情報を各点に埋め込む方法は、広く利用されてきた（例えば、非特許文献３，５−８参照）。しかし、色情報を利用する場合、目標物体の表面はＲＧＢの各色要素を十分に反射する必要がある。また、市販のプロジェクタでは各色要素間のスペクトル分布が干渉するため、各画素の色の決定には誤差が生じやすい。このため、色を利用しない空間符号化手法として、点線パターンやグリッドパターンなどを利用する方法が提案されている。しかしながら、これまでのところ曖昧性や密度低下の問題を完全には解決できていない。

能動計測手法としては、ＴＯＦスキャナや能動ステレオによるシステムが一般に良く知られている。動物体の能動計測手法も、様々な手法が研究されている。多くのＴＯＦレーザスキャナでは、計測したい対象に向けて点レーザ光が照射され、このレーザ光が検出器に戻るまでの時間が計測される。このため、一度に一点のみが計測され、広い範囲を短時間で計測することには適さない。そこで、動物体などを計測するために、広範囲に対して時間的に変調された光を照射し、二次元センサーの各画素でその変調を観測することにより、距離画像の計測を実現する装置がある（例えば、非特許文献９，１０参照）。しかし、現状では他の光源による外乱に弱く、解像度も通常のカメラと比較して低い。

一方、能動ステレオによる計測手法では、多くの場合、点レーザ光あるいはラインレーザ光を照射し、これを走査することにより対象を計測する。このため、計測に時間がかかることから、動物体の計測には向いていなかった。ビデオプロジェクタなどの面状光源を利用することにより、計測時間を短縮することができるが、対応点問題を解く必要がある。その解決方法としては、大きく時間符号化方式と空間符号化方式とがある（例えば、非特許文献５参照）。

時間符号化方式では、複数のパターンを投影し、パターンの各点の時間変化の中に情報が符号化される。このため、動物体計測には適さないと言える。この欠点を補うためにいくつかの方法が提案されている。例えば、パターンを高速に切り替える方法（例えば、非特許文献１１参照）、位相パターンを用いて必要な枚数を減らす方法（例えば、非特許文献１２参照）、またはＤＭＤパターンを使う方法（例えば、非特許文献１３参照）等である。

また、通常の能動ステレオとは少し異なるアプローチとして、カメラを２台以上用いて、時間変化するパターンを照射する時空間ステレオ法（例えば、非特許文献１４参照）等も提案されている。現在、動き推定を組み合わせて、１００ｆｐｓ程度での計測に成功した例も紹介されている。しかしながら、複数フレームの情報を必要とするため、高速な物体の計測には本質的に適さない。

一方、空間符号化方式は、静的パターンを用いて、一枚のみの入力画像から形状を復元するため、動物体計測に向いている。しかし、パターンの空間的な領域に情報を埋め込む必要性から、解像度が低く。加えて、対象物体表面のテクスチャや形状によりパターンが歪むため、不安定になりやすい。このため、これを軽減する方法が多数提案されている。例えば、同じ組み合わせの無いように複数の色の帯を用いる方法（例えば、非特許文献１５，１６参照）、特異な点線を利用する手法（例えば、非特許文献１７，１８参照）、二次元的なパターンに情報を埋め込む手法（例えば、非特許文献１，１９参照）等がある。しかしながら、精度・解像度および安定性の全てにおいて十分な性能を満たしている手法は未だ存在していない。

Microsoft, "Xbox 360 Kinect," 2010. http://www.xbox.com/en-US/kinect. H. Kawasaki, R. Furukawa, R. Sagawa and Y. Yagi, "Dynamic scene shape reconstruction using a single structured light pattern," CVPR, pp.1-8, June 23-28 2008. R. Sagawa, Y. Ota, Y. Yagi, R. Furukawa, N. Asada and H. Kawasaki, "Dense 3d reconstruction method using a single pattern for fast moving object," ICCV, 2009. A. O. Ulusoy, F. Calakli and G. Taubin, "One-shot scanning using de bruijn spaced grids," The 7th IEEE Conf. 3DIM, 2009. J. Salvi, J. Batlle and E. M. Mouaddib, "A robust coded pattern projection for dynamic 3D scene measurement," Pattern Recognition, vol.19, no.11, pp.1055-1065, 1998. C. Je, S. W. Lee and R. H. Park, "High-contrast color stripe pattern for rapid structured-light range imaging," ECCV, vol.1, pp.95-107, 2004. L. Zhang, B. Curless and S. Seitz, "Rapid shape acquisition using color structured light and multi-pass dynamic programming," 3DPVT, pp.24-36, 2002. R. Sagawa, H. Kawasaki, R. Furukawa and S. Kiyota, "Dense one-shot 3d reconstruction by detecting continuous regions with parallel line projection," ICCV, 2011. Canesta, Inc., "Canesta Vision EP Development Kit," 2010. http://www.canesta.com/devkit.htm. Mesa Imaging AG., "Swiss Ranger SR-4000," 2011. http://www.swissranger.ch/index.php. S. Rusinkiewicz, O. Hall-Holt and M. Levoy, "Realtime 3D model acquisition," Proc. SIGGRAPH, pp.438-446, 2002. T. Weise, B. Leibe and L. V. Gool, "Fast 3D scanning with automatic motion compensation," CVPR, 2007. S. G. Narasimhan, S. J. Koppal, and S. Yamazaki, "Temporal dithering of illumination for fast active vision," Proc. European Conference on Computer Vision, pp.830-844, October 2008. L. Zhang, B. Curless and S. M. Seitz, "Space time stereo: Shape recovery for dynamic scenes," IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.367-374, June 2003. J. Tajima and M. Iwakawa, "3-D data acquisition by rainbow range finder," ICPR, pp.309-313, 1990. S. Zhang and P. Huang, "High-resolution, real-time 3D shape acquisition," Proc. Conference on Computer Vision and Pattern Recognition Workshop, p.28, 2004. M. Maruyama and S. Abe, "Range sensing by projecting multiple slits with random cuts," SPIE Optics, Illumination, and Image Sensing for Machine Vision IV, vol.1194, pp.216-224, 1989. Artec, "United States Patent Application 2009005924," 2007j. P. Vuylsteke and A. Oosterlinck, "Range image acquisition with a single binary-encoded light pattern,"IEEE Trans. on PAMI, vol.12, no.2, pp.148-164, 1990. P. Felzenszwalb and D. Huttenlocher, "Efficient belief propagation for early vision," IJCV, vol.70, pp.41-54, 2006. "The Stanford 3D Scanning Repository," http://wwwgraphics.stanford.edu/data/3Dscanrep/, 2012. Persistence of Vision Pty. Ltd., "POV-Ray," 2004.

本発明の目的は、単色パターンによるワンショット三次元計測による形状復元であって、動物体の計測においても高密度な形状復元を行うことができる画像処理システムおよび画像処理方法を提供することにある。

このような目的を達成するために、本発明の一実施態様は、１つの投影装置により観測対象上に投影された投影パターンを、１つの撮影装置により撮影し、前記１つの投影装置および前記１つの撮影装置に接続された画像処理装置において、該投影パターンを含む入力画像から形状復元を行う画像処理システムにおいて、前記画像処理装置が、前記１つの撮影装置により撮影された入力画像を取り込み、前記１つの投影装置により投影された投影パターンの線検出を行う手段であって、該投影パターンは、波線によるグリッドパターンであり、前記波線は、一定の周期性を持つ波状の曲線であり、前記波線によるグリッドパターンは、一定の間隔に配置された複数の波線からなり、互いに交差する２方向の波線の集合であって、一方の波線の間隔が他方の波線の波長の整数倍でないことと、前記線検出により抽出された縦横線の交点を、前記投影パターンと対応付けることにより形状復元を行う手段とを備えたことを特徴とする。

本発明の他の実施態様は、１つの投影装置により観測対象上に投影された投影パターンを、１つの撮影装置により撮影し、前記１つの投影装置および前記１つの撮影装置に接続された画像処理装置において、該投影パターンを含む入力画像から形状復元を行う画像処理方法であって、前記画像処理装置が、前記１つの撮影装置により撮影された入力画像を取り込み、前記１つの投影装置により投影された投影パターンの線検出を行うステップであって、該投影パターンは、波線によるグリッドパターンであり、前記波線は、一定の周期性を持つ波状の曲線であり、前記波線によるグリッドパターンは、一定の間隔に配置された複数の波線からなり、互いに交差する２方向の波線の集合であって、一方の波線の間隔が他方の波線の波長の整数倍でないことと、前記画像処理装置が、前記線検出により抽出された縦横線の交点を、前記投影パターンと対応付けることにより形状復元を行い、復元された画像を表示するステップとを備えたことを特徴とする。

以上説明したように、本発明によれば、波線によるグリッドパターンを用いて、単色パターンによるワンショット三次元計測による形状復元を行うので、動物体の計測においても高密度な形状復元を行うことが可能となる。

本発明の第１の実施形態にかかる画像処理システムを示す構成図である。本発明の第１の実施形態にかかる形状復元アルゴリズムを示すフローチャートである。波線によるグリッドパターンの一例を示す図である。プロジェクタが投影する静的パターンを示す図である。観測対象に対して波線によるグリッドパターンを投影して取得された画像を示す図である。波線によるグリッドパターンから線検出を行った結果を示す図である。格子点の接平面で近似したパッチを示す図である。準画素単位の深さ推定を説明するための図である。本発明の第２の実施形態にかかる画像処理システムを示す構成図である。２つのグリッドグラフ間でどのようにエッジを生成するかを説明するための図である。プロジェクタパターンの格子点とカメラの格子点との対応を示す図である。本発明の第３の実施形態にかかる画像処理システムを示す構成図である。三原色の波線によるグリッドパターンを投影して取得された画像を示す図である。図１１Ａの画像から赤色のパターンを検出した結果を示す図である。図１１Ａの画像から青色のパターンを検出した結果を示す図である。青色のパターンに緑色のパターンが検出された結果を示す図である。緑色のパターンの影響を抑制した結果を示す図である。複数のグリッドパターンが重なったカメラ画像を示す図である。２台のプロジェクタの２つの範囲の画像を重ね合わせた状態を示す図である。交点比較法の別の実施形態を説明するための図である。波線によるグリッドパターンのパラメータ決定法を説明するための図である。波線によるグリッドパターンのパラメータ決定法を説明するための図である。第１の実施形態のシミュレーション結果を示す図である。第１の実施形態のシミュレーション結果を示す図である。第１の実施形態のシミュレーション結果を示す図である。第１の実施形態のシミュレーション結果を示す図である。第１の実施形態のシミュレーション結果を示す図である。第１の実施形態のシミュレーション結果を示す図である。従来技術の手法によるシミュレーション結果を示す図である。従来技術の手法によるシミュレーション結果を示す図である。従来技術の手法によるシミュレーション結果を示す図である。従来技術の手法によるシミュレーション結果を示す図である。図１６Ｂに示した画像を入力した復元結果と、真値との誤差を画像化した図である。図１７Ｂに示した画像を入力した復元結果と、真値との誤差を画像化した図である。図１８Ａに示した画像を入力した復元結果と、真値との誤差を画像化した図である。第１の実施形態によって復元された図１６Ｂの入力画像に対応するポリゴンメッシュを示す図である。第１の実施形態によって復元された図１７Ｂの入力画像に対応するポリゴンメッシュを示す図である。波線によるグリッドパターンにより再構成された結果を示すための入力画像を示す図である。図２２Ａの入力画像をステレオ法により復元した結果を示す図である。第１の実施形態によって復元された結果を示す図である。補間手法により生成された密な形状を示す図である。第１の実施形態の精度を評価した結果を示すための入力画像を示す図である。図２３Ａの入力画像から補間手法により生成された形状を示す図である。図２３Ｂの誤差を画像化した図である。環境光の影響下において再構成された結果を示すための実験環境を示す図である。バンドパスフィルタによる効果を示す図である。第１の実施形態によって３次元復元された結果を示す図である。手の開閉の運動を計測するための入力画像の第１例を示す図である。手の開閉の運動の計測結果の第１例を示す図である。運動する物体の計測結果の第２例を示す図である。運動する物体の計測結果の第２例を示す図である。

以下、図面を参照しながら本発明の実施形態について詳細に説明する。本実施形態は、グリッドパターンの接続性を利用した空間符号化による手法である。この方法は、対応点の曖昧性と、検出された線の接続判定の誤りによる誤復元の問題があることが知られている（例えば、非特許文献２−４参照）。従来の方法では、この問題を解決するために複数の色を用いたグリッドパターンの利用が提案されている。しかしながら、従来の手法では、対象物体表面の反射率やテクスチャに影響されるため、計測が安定しない。本実施形態では、単色のグリッドを用いることにより、グリッドパターンと多色パターンの両方の問題を同時に解決することができる。

（第１の実施形態）
図１に、本発明の第１の実施形態にかかる画像処理システムを示す。１台のカメラ１０１（撮影装置）と１台のプロジェクタ１０２（投影装置）を用いる。プロジェクタ１０２は、観測対象１０３に対して、波線によるグリッドパターンを投影する。投影パターンは静的であるため、撮影に同期は必要ない。そのため、非常に高いＦＰＳ（Flames Per Second）での計測が可能となる。カメラ１０１とプロジェクタ１０２とは、パーソナルコンピュータからなる画像処理装置１０４に接続されている。

画像処理装置１０４は、予め記憶媒体に波線によるグリッドパターンなどの投影パターンを格納しており、投影パターンデータをプロジェクタ１０２に送信して、観測対象１０３に投影することができる。また、画像処理装置１０４は、カメラ１０１により撮影された入力画像を取り込み、記憶媒体に格納しておき、入力画像から形状復元を行う画像処理を実行する。

図２に、本発明の第１の実施形態にかかる形状復元アルゴリズムを示す。最初に、観測対象に対して波線によるグリッドパターンを投影して画像を取得する（Ｓ２０２）。次に、非特許文献３に記載された手法を用いて、撮影した画像から線検出を行う。Belief Propagation（ＢＰ）による最適化により、単色のグリッド状の線を、縦と横に安定して別々に検出することができる。検出された縦横の線から交点を算出し、交点をノードとしたグラフを作成する（Ｓ２０４）。

各ノードに対応するエピポーラ線の位置をプロジェクタパターン上で計算し、そのライン上にグリッドの交点がある場合、これを対応候補とする（Ｓ２０６）。このとき、複数の対応候補が見つかるので、ＢＰを利用して各点における対応候補の最適な組み合わせを求める（Ｓ２０８）。このままでは復元結果は疎であるので、各画素での深さを、補間と、パターンと観測画像の画素単位のマッチングを利用して求めることにより（Ｓ２１０）、密な三次元復元形状を得る（Ｓ２１２）。

空間符号化によって、カメラ画像（カメラ画像面で撮像される画像）とプロジェクタ画像（プロジェクタ画像面から投影するパターン）間で一意な対応付けを得るために、従来の方法では、大きな窓サイズを持つ複雑なパターンが必要であった。さらに、精度の向上には広い基線長が望ましいが、観測されるパターンは大きく歪むため、現実的には復号化が困難になる。したがって、検出と復号化が簡単な、単純でありながら一意性の高いパターンが望ましい。本実施形態では、画像処理によって一意に対応が決まるパターンではなく、対応の優先順位に関する情報を与えるパターンを用いる。具体的には、縦・横の波線からなるグリッドパターンを用いる。

図３Ａに、波線によるグリッドパターンの一例を示す。波線パターンは、単純なパターンであるため、画像中での曲線として検出しやすく、輝度値のピークを計算することにより、その位置をサブピクセル精度で得ることができる。縦波線、横波線ともに一定の周期性を持つ波状の曲線、例えば周期的な正弦波パターンを用いる。縦波線、横波線ともに一定の間隔に配置された複数の波線からなり、波線によるグリッドパターンは、互いに交差する２方向の波線の集合からなる。

波線によるグリッドパターンは、対応点検出に有効な情報を持つ。本実施形態では、縦・横の波線の交点を特徴点として用いる。交点の配置は、波線の間隔と波長で決定される。一定の間隔と波長を持つ波線を用いるが、下記に述べるように、縦波線の間隔が横波線の波長の整数倍でない場合（または横波線の間隔が縦波線の波長の整数倍でない場合）、交点位置の位相にずれが生じる。そのため、局所的なパターンが周囲の交点と相違することになり、対応付けのための特徴量として用いることができる。

交点周囲の局所的パターンは、投影パターン全体の中で一意性を持つものではない。図３Ａにおいて、Ｓｘ，Ｓｙは隣接する波線の間隔、Ｗｘ，Ｗｙは波長とすると、
Ｎｘ＝ｌｃｍ（Ｓｘ，Ｗｘ）／Ｓｘ
Ｎｙ＝ｌｃｍ（Ｓｙ，Ｗｙ）／Ｓｙ
を用いて、同一パターンが、縦・横軸に沿ってそれぞれＮｘ，Ｎｙ本の波線ごとに起こる。ここでｌｃｍ（ａ，ｂ）はａとｂの最小公倍数であり、添字ｘ，ｙはそれぞれ縦・横軸に沿った値を表すものとする。しかしながら、局所パターンは、各サイクルにおいて識別可能なパターンである。

図３Ｂに、プロジェクタ１０２が投影する静的パターンを示す。このパターンは、単色で、正弦波形状の縦横の曲線をグリッド状に配置したものである。図３Ｂは、
Ｓｘ＝１０，Ｓｙ＝１１，Ｗｘ＝Ｗｙ＝１４，Ａｘ＝Ａｙ＝１
からなるパターンの例である（単位は画素）。この例では、１周期は縦線７本、横線１４本となる。よって、９８（＝７×１４）種類の交点が１周期で構成される矩形の中に存在する。

ステレオマッチングでは、対応点候補はエピポーラ線上の点に限られている。あるプロジェクタ画像の交点とエピポーラ線が適当な距離以内に位置している場合、そのプロジェクタ画像の交点は、対応点候補の１つとして選ばれる。候補の数は、カメラ画像の交点位置に依存する。対応点候補は、プロジェクタ画像において疎に分布するため、画素単位で候補点を探索する通常のステレオ視と比べて、対応候補の数は劇的に少なくなる。

図４Ａ，Ｂを参照して、対応点の最適な組み合わせを見つけるために、局所的なマッチングと正則化を利用した手法を説明する。図４Ａは、観測対象に対して波線によるグリッドパターンを投影して、取得された画像である。図４Ｂは、線検出を行った結果を示している。カメラ画像上での波線によるグリッドパターンにおける縦横線の交点を、以後「格子点」と呼ぶ。もし、複数の格子点がグリッド線で接続されていれば、それらはプロジェクタ画像上で同一の波線の上にある。このことは、対応点を決定する際の正則化に利用される。格子点の接続性は、線検出によって得る。ただし、線検出による接続性の判定は誤る場合がある。特に、形状の不連続な境界付近では、このような誤りが多くなる。そこで、各格子点に対応点を割り当てるために、グリッド上に定義したエネルギーの最小化を利用する。

最初に、すべての対応候補についてマッチングコストを計算し、これをエネルギー最小化におけるデータ項として利用する。コストは、カメラ画像とプロジェクタ画像（パターン画像）とのＳＳＤ（Sum of Squared Difference）として計算する。ただし、検出された格子点位置には誤差が存在し、カメラで観測された画像は、対象物体の形状によって歪むので、四角形の領域に対する単純なＳＳＤは、データ項には適さない。そこで、対象物体における格子点において、その周辺の領域を格子点の接平面で近似したパッチを考える。これにより、高精度なマッチングコストを計算し、対応点をサブピクセル精度で計算することができる。

図５に、格子点の接平面で近似したパッチを示す。観測対象の表面５０３における格子点の周辺の形状（四角パッチ５１３）が局所的に平面であると仮定する。その平面は、
ａｘ＋ｂｙ＋ｃｚ＋１＝０
と表される。ただし、ａ，ｂ，ｃは平面パラメータである。このパラメータを画像のひずみを考慮してＳＳＤ最小化により求める。

そのアルゴリズムを以下に示す。
（１）カメラ画像５０１における格子点ｐ周辺の四角パッチＲ（ｐ）５１１を、３次元接平面に投影し、プロジェクタ画像５０２に再投影する。
（２）再投影された四角パッチ５１２とプロジェクタ画像５０２との輝度値ＳＳＤを計算する。
（３）ａ，ｂ，ｃを変数としてＳＳＤを最小化する。
（４）上記のステップを数回繰り返す。
ａ，ｂ，ｃの初期値は、接平面が、視差によって計算される格子点の三次元位置を含み、カメラの画像面に対して平行になるように設定され、ＳＳＤは以下の式で表される。

ただし、Ｒ（ｐ）はｐ周辺の四角パッチであり、Ｈ_{ａ，ｂ，ｃ}（ｐ′）はｐ′をプロジェクタ画像面に再投影した場合の変形を表す。Ｉ_ｃ（・）とＩ_ｐ（・）とはそれぞれカメラ画像とプロジェクタ画像における輝度値を表す。

ここで、グリッドパターンは、格子点から成るノードｐ∈Ｖと、格子点の接続を表すエッジ（ｐ，ｑ）∈Ｕから成る。ただし、ｐ，ｑは格子点であり、Ｖは格子点の集合であり、Ｕはグリッドグラフのエッジ集合である。格子点ｐは、対応点の候補ｔｐ∈Ｔ_ｐを持つ。ここでＴ_ｐは格子点ｐの対応点候補の集合である。対応の集合をパラメータとして、ステレオマッチングのエネルギーを以下のように定義する。

ただし、Ｔ＝｛ｔ_ｐ｜ｐ∈Ｖ｝であり、Ｄ_ｐ（ｔ_ｐ）はｐの対応点をｔ_ｐに割り当てる場合のデータ項である。Ｗ_ｐｑ（ｔ_ｐ，ｔ_ｑ）はｔ_ｐとｔ_ｑを隣り合う格子点に割り当てるための正規化項である。

上記データ項は、上述した方法により計算されたＳＳＤの値を取る。正規化項は、以下の式で定義される。

ただし、λはユーザが決める定数である。定義されたエネルギーは、ＢＰによって最小化される。

エネルギー最小化を利用する利点として、上記の隣接による正規化項が、「ソフトな条件」となる点が挙げられる。実際のデータでは、線検出の誤りなどにより、誤った接続が生成される場合があるので、上記の点は重要である。非特許文献３においては、誤った接続を、３次元再構成の前の線検出段階で排除する必要があるが、本実施形態では、誤った接続の除去と３次元再構成が同時に実行されるため、より高密度、高精度な復元が可能となる。

グリッドベースドステレオ法により、疎な格子点における対応が得られる。次のステップとして、全ての画素の情報を利用して密な対応を求める。このために、高密度に再標本化された標本画素について、グリッド点の補間により深さを求める。次に、これらの標本画素の深さを変数として、カメラ画像とプロジェクタ画像の輝度の差を最小化する。

非特許文献８には、検出されたグリッド線間の補間に基づく方法が記載されている。本実施形態では、（準）画素それぞれに独立した深さ推定が、photo-consistencyに基づく最適化によって実現される。

カメラ中心から画素ｘへ向かう方向ベクトルを（ｕ，ｖ，１）と表すと、その画素の深さｄｘは、

で計算される。ここで、パラメータａ_ｘ，ｂ_ｘ，ｃ_ｘは画素ごとに計算される。各画素におけるａ_ｘは、以下のように補間される。

ただし、ｐは格子点、Ｇ（・）はガウス関数、｜ｐ−ｘ｜はｐとｘの距離である。ｂ_ｘとｃ_ｘは同様な加重平均で求められる。

最適化において、全ての画素の深さを独立変数として扱い、全画素の深さを推定することは可能である（画素単位の深さ推定）。しかし、本実施形態では、３つの標本画素からなる三角メッシュを再標本化し、標本画素について深さを推定する（準画素単位の深さ推定）。これにより、得られる三角メッシュの解像度は、より適切なものになる。なぜなら、投影するパターンの解像度は、画像解像度より低いので、単純に全ての画素について深さ推定を行うと、かえって精度低下を招くことがある。これを解決するためには、受動ステレオ法で行われているように、ある程度の範囲を持つマッチング窓を利用する等の方法が考えられるが、計算コストが増大する。

これに対して、本実施形態では、以下の手法により精度を犠牲にせずに、点と変数の数を減らし、効率的な計算を実現する。図６を参照して、準画素単位の深さ推定を説明する。まず、観測対象の画像の中から３つの標本画素を頂点として、三角メッシュを作成する。標本画素以外の画素における深さは線形補間される。繰り返し計算による最適化のために、深さを、ｄ_ｘの微小変位Δｄ_ｘを変数として近似する。図６における画素ｘの深さは以下のように表される。

ただし、ｗ_ｘ２とｗ_ｘ３は線形補間の重みである。ここで、Ｄ＋ΔＤを、ｄ_ｘ＋Δｄ_ｘを全ての標本画素について集めたベクトルとする。プロジェクタ画像（パターン画像）に対する再投影誤差は、標本画素ばかりでなく、全ての画素について以下の式で求められる。

ここで、Ｐ_Ｄ＋ΔＤ（ｘ）は、プロジェクタ画像への再投影位置を表す。各画素の再投影には、Ｄ＋ΔＤの一部が利用される。ｘとｘ’は隣接する頂点である。γは利用者が決める正規化パラメータである。パラメータΔＤは、上記誤差を最小化するように決定される。再投影と最小化を、解の収束まで交互に繰り返すことによりＤを決定する。

（第２の実施形態）
図７に、本発明の第２の実施形態にかかる画像処理システムを示す。２台のカメラ１１０１，１１０２（撮影装置）と１台のプロジェクタ１１０３（投影装置）を用いる。プロジェクタ１１０３は、観測対象１１０４に対して、波線によるグリッドパターンを投影する。投影パターンは静的であるため、撮影に同期は必要ない。そのため、非常に高いＦＰＳ（Flames Per Second）での計測が可能となる。カメラ１１０１，１１０２とプロジェクタ１１０３とは、パーソナルコンピュータからなる画像処理装置１１０５に接続されている。

画像処理装置１１０５は、予め記憶媒体に波線によるグリッドパターンなどの投影パターンを格納しており、投影パターンデータをプロジェクタ１１０３に送信して、観測対象１１０４に投影することができる。また、画像処理装置１１０５は、カメラ１１０１，１１０２により撮影された入力画像を取り込み、記憶媒体に格納しておき、入力画像から形状復元を行う画像処理を実行する。

第２の実施形態においては、対応候補を見つけるための付加的な情報として、２台のカメラの間の制約条件を用いる。以下、グリッド上のエネルギー最小化に基づいて、対応点を割り当てる方法を説明する。２台のカメラの間のグラフを接続するエッジとして、付加的な制約条件を導く。図８を参照して、２つのグリッドグラフ間でどのようにエッジを生成するかを説明する。最初に、観測対象に対して波線によるグリッドパターンを投影して画像を取得する。次に、撮影した画像から線検出を行い、検出された縦横の線から交点を算出し、交点をノードとしたグリッドグラフを作成する。

カメラ１１０１の格子点ｐ_０の投影パターン１２０１における対応点を考える。対応点の候補ｔ_ｐ０∈Ｔ_ｐ０は、プロジェクタパターン１２０４上の格子点ｐ_０のエピポーラ線１２１１上の交点であり、Ｔ_ｐ０は格子点ｐ_０の対応点候補の集合である。格子点ｐ_０の対応点候補ｔ_ｐ０とすると、格子点ｐ_０の観測対象１１０４の表面１２０３上の座標Ｐ_３Ｄ（ｔ_Ｐ０）は、カメラ１１０１とプロジェクタ１１０３との間の三角測量で計算される。座標Ｐ_３Ｄ（ｔ_Ｐ０）のカメラ１１０２のグリッドパターン１２０２への射影は、Ｐ_１（ｔ_Ｐ０）である。カメラ１１０２の格子点ｐ_１が下式を満たすと、格子点ｐ_０と格子点ｐ_１とが対応する（直線Ｌ１）。
Ｄ（ｐ_１，Ｐ_１（ｔ_Ｐ０））＜θ ａｎｄｔ_ｐ０∈Ｔ_ｐ１
ここで、Ｄ（ａ，ｂ）は二点ａｂ間の距離であり、θはＰ_１（ｔ_Ｐ０）に近い格子点の検索範囲の半径であり、Ｔ_ｐ１は対応点候補ｔ_ｐ１の集合である。

図８においては、４つのＰ_３Ｄ（ｔ_Ｐ０）が投影されており、最も左のＰ_３Ｄ（ｔ_Ｐ０）１２２１は、グリッドパターン１２０２上の検索範囲に格子点が無く、対応点候補が無い。最も右のＰ_３Ｄ（ｔ_Ｐ０）１２２２は、グリッドパターン１２０２上の検索範囲に格子点ｐ_１を有するが、格子点ｐ_１のエピポーラ線１２１２の対応点候補の集合Ｔ_ｐ１に同じ対応点候補ｔ_Ｐ０が無い。中央の２つのＰ_３Ｄ（ｔ_Ｐ０）は、上記の条件を満たし、格子点ｐ_０と結ばれる。２台のカメラの間のエッジがグラフ上で接続される（直線Ｌ１）と、２台のカメラの対応点の検索を容易にする単一のグラフになる。

この方法では、誤ったエッジが生成される場合（直線Ｌ２）がある。図８の２番目の投影１２２３は、誤ったエッジであり、観測対象１１０４の表面１２０３上にない。ただし、格子点が正しいエッジと誤ったエッジの双方を有していても、ＢＰのトータルコストは、誤ったエッジにより影響を受けない。格子点が誤ったエッジのみ有する場合、誤ったエッジの数が少なければ、対応点候補は、ＢＰプロセスでなかったと判定される。

線検出と他のカメラへの投影により、２台のカメラに対して単一のグリッドグラフが得られた。次に、グリッドグラフ上でエネルギー最小化によって、対応点の最良の組合せを見つける。グリッドグラフは、格子点ｐ_０∈Ｖ_０、ｐ_１∈Ｖ_１、線検出（ｐ_０，ｑ_０）∈Ｕ_０、（ｐ_１，ｑ_１）∈Ｕ_１によるエッジ、カメラ間（ｐ_０，ｐ_１）∈Ｓのエッジからなる。カメラ１１０１について、ｐ_０，ｑ_０は格子点、Ｖ_０は格子点の集合、Ｕ_０はエッジの集合である。カメラ１１０２について、ｐ_１，ｑ_１は格子点、Ｖ_１は格子点の集合、Ｕ_１はエッジの集合である。Ｓはカメラ間のエッジの集合である。格子点ｐ_０は、プロジェクタパターン上の対応点候補ｔｐ_０∈Ｔ_ｐ０を有する。

第１の実施形態の１−カメラ／１−プロジェクタのシステムでは、対応点ｔｐ_０を各格子点ｔ_ｐに割り当てるエネルギーは、上述した式（２）で定義される。この定義を、本実施形態の２−カメラ／１−プロジェクタに拡張すると、

となる。ただし、Ｘ_{ｐ０，ｐ１}（ｔ_ｐ０，ｔ_ｐ１）はカメラ間（ｐ_０，ｐ_１）のエッジの正規化項である。この項は、

となる。ただし、μはユーザが決める定数である。格子点ｐがカメラ間のエッジを有していれば、格子点に対するｔ_ｐの割当は、カメラ間のエッジの１つから選択される。これは、カメラ間のエッジ以外の割当が選択されると、エネルギーが大きくなるからである。

第１の実施形態では、カメラ画像のグリッドグラフを補間することにより、高密度な画像を得た。本実施形態の２−カメラ／１−プロジェクタでは、２組のグリッドグラフがある。カメラ画像上でグラフを作成すると、グラフの一部が他方のカメラから見えない場合が起こり、一方のカメラの座標系を用いて、グリッドグラフの統合と復元の高密度化はできない。そこで、双方のカメラからのグラフを再投影することにより、プロジェクタの座標系において画素の情報を結合する。

図９に、プロジェクタパターンの格子点ｔ_ｐが、双方のカメラの格子点ｐ_０，ｐ_１と対応している場合を示す。カメラ１１０１のグリッドパターン１３０１と、カメラ１１０２のグリッドパターン１３０２との間にプロジェクタ１１０３のグリッドパターン１３０４を導入し、観測対象１１０４の表面１３０３上の座標Ｐ_３Ｄを求める。しかし、２つの座標点ｐ_３Ｄ０，ｐ_３Ｄ１は、２つの対応点により計算されるが、画像処理上の誤差により、通常一致しない。そこで、プロジェクタの視点からの深さｄ_０，ｄ_１を、画素ｒが格子点ｔ_ｐの近傍（Ｒ）の範囲にあるとき、深さｄ_０，ｄ_１の平均により統合する。高密度な画像を生成するために、画素ｒにおける深さｄ_ｒを下記のように定義する。

ここで、ｄ（ｔ_ｐ，ｐ）は、ｔ_ｐ，ｐより算出された座標系の深さである。また、Ｄ（ｒ，ｔ_ｐｋ）は二点ｒ，ｔ_ｐｋ間の距離であり、τは、ユーザが決めるパラメータであり、格子点の近傍を決定する。座標点ｐ_３Ｄは、プロジェクタから見ることができるので、深さの情報を結合することができる。ｄ（ｔ_ｐ，ｐ）の計算方法としては、例えば、格子点ｔ_ｐとその近傍格子点の組みから、ｐへの距離に応じた線形補間（例えば、バイリニア補間など）を行うことが考えられる。また、式（９）の平均の計算の際に、重み付き平均としても良い。重みとしては、例えば、カメラとプロジェクタとのなす角などを用いることができる。

（第３の実施形態）
図１０に、本発明の第３の実施形態にかかる画像処理システムを示す。６台のカメラ２１０１−２１０６（撮影装置）と６台のプロジェクタ２２０１−２２０６（投影装置）を用いる。プロジェクタ２２０１−２２０６は、観測対象２３０１に対して、波線によるグリッドパターンを投影する。投影パターンは静的であるため、撮影に同期は必要ない。そのため、非常に高いＦＰＳ（Flames Per Second）での計測が可能となる。カメラ２１０１−２１０６とプロジェクタ２２０１−２２０６とは、パーソナルコンピュータからなる画像処理装置２４０１に接続されている。

画像処理装置２４０１は、予め記憶媒体に波線によるグリッドパターンなどの投影パターンを格納しており、投影パターンデータをプロジェクタ２２０１−２２０６に送信して、観測対象２３０１に投影することができる。また、画像処理装置２４０１は、カメラ２１０１−２１０６により撮影された入力画像を取り込み、記憶媒体に格納しておき、入力画像から形状復元を行う画像処理を実行する。

第３の実施形態においては、カメラから得られる画像には、複数のパターンが含まれるので、どのプロジェクタから投影されたパターンか識別することが必要である。そこで、色を用いて識別する。ここでは、光の三原色、赤、緑、青をそれぞれ２台のプロジェクタから観測対象に投影する。

図１１Ａに、三原色の波線によるグリッドパターンを投影して取得された画像を示す。図１１Ｂは、この画像から赤色のパターンを検出した結果であり、図１１Ｃは、青色のパターンを検出した結果である。ここでは、緑色のパターンを用いずに、対応点を見つける。赤色のパターンと青色のパターンとを用いて線検出を行うと、緑色のパターンの影響を受ける。このとき、図１１Ｄに示したように、青色のパターンに緑色のパターンが検出されてしまう場合（図１１Ｄの頭部側面）がある。そこで、線検出の前に、以下のようにして飽和色（純色）に変換する。
（ｈ，ｓ，ｖ）＝ＲＧＢ２ＨＳＶ（ｒ，ｇ，ｂ）
（r’，ｇ’，ｂ’）＝ＨＳＶ２ＲＧＢ（h，1，ｖ）（１１）
ただし、ＲＧＢ２ＨＳＶとＨＳＶ２ＲＧＢとは、それぞれ色空間の間の変換を表し、色は［０，１］の範囲で表される。飽和色に変換することによって、図１１Ｅに示したように、緑色のパターンの影響を抑制することができる。

次に、赤色のパターンと青色のパターンのそれぞれにおいて、対応点候補を見つける方法は、第２の実施形態で示した２カメラ＋１プロジェクタの場合と同様に行えばよい。第２の実施形態では、さらに複数のプロジェクタを用いているので、カメラ画像を用いて、プロジェクタ間の対応点を検出する。

図１２に、複数のグリッドパターンが重なったカメラ画像を示す。プロジェクタｋのパターンＧＰ_ｋとプロジェクタｌのパターンＧＰ_ｌの異なるパターンの２つの格子点を、カメラの同一の画素に投影すると、プロジェクタの２つの点が互いに対応することを意味する。この２つの点は、カメラから同じ深さである。２つの点が正確に同じ画素に投影されることはまれなので、プロジェクタｋに対するカメラｉの対応点ｐ_ｉｋ∈Ｖ_ｉｋを、以下の式を満たすプロジェクタｌに対するカメラｉの対応点ｐ_ｉｌ∈Ｖ_ｉｌを見つけることによって決定する。
Ｄ（ｐ_ｉｋ，ｐ_ｉｌ）＜φ （１２）
ここで、Ｄ（ａ，ｂ）は二点ａｂ間の距離であり、φはｐ_ｉｋの検索範囲の半径である。

図１２に示したように、２つのグラフの対応する点を点線（図中、点ｐ_ｉｋと点ｐ_ｉｌの間）で接続する。２つのグラフを１つにするのと同時に、対応点の割当は、エネルギー最小化により最適化される。対応するプロジェクタ間のエッジのエネルギーは、

ただし、ｄ_ｉ（Ｐ_３Ｄ）は、カメラｉの座標点Ｐ_３Ｄの深さであり、τは、ユーザが決める重みである。複数のカメラと複数のプロジェクタの総エネルギーを下記のように定義する。

ただし、Ａ_ｐ（ｉ）は、カメラｉの視点を共有するプロジェクタの集合であり、Ａ_ｃ（ｋ）は、プロジェクタｋの視点を共有するカメラの集合である。Ｓ_ｉｊｋは、プロジェクタｋのパターンにより与えられるカメラｉ，ｊ間のエッジの集合であり、Ｑ_ｉｋｌは、カメラｉの画像におけるプロジェクタｋ，ｌ間のエッジの集合である。

なお、画像の高密度化は、第２の実施形態において、図９を参照して説明した方法を用いることができる。

次に、エネルギー最小化により全ての範囲の画像を最適化する。第２の実施形態では、エネルギーをデータ項と正規化項とに分けた。データ項は、カメラとプロジェクタとの間の強度差から算出され、正規化項は、グリッドグラフの各頂点の曲率を用いて定義される。２つの範囲の画像を重ね合わせると、形状が一致し、付加的な制約条件を用いて、深さを最適化する。

図１３に、２台のプロジェクタの２つの範囲の画像を重ね合わせた状態を示す。座標点ｐ_３Ｄｋは、プロジェクタｋ（２５０３）の点ｒ_ｋから算出される。座標点ｐ_３Ｄｋの投影がカメラ（２５０１）のマスクにあれば、点ｒ_ｋはプロジェクタｌ（２５０２）と重なる。座標点ｐ_３Ｄｋをプロジェクタｌの画像に投影したとき、座標点ｐ_３Ｄｋが３つの点ｒ_ｌ０，ｒ_ｌ１，ｒ_ｌ２からなる三角形の中にあるとき、これらは、対応点となる。

点ｒの深さをｄ_ｒとし、ｄ_ｒの微小変化Δｄ_ｒとすると、Δｄ_ｒを用いて反復して最小化し、深さを更新する。Δｄ_ｒを用いてエネルギーを以下のように定義する。

ただし、ΔＤはΔｄ_ｒの集合であり、Ｅ_Ｉはデータ項、Ｅ_Ｓは正規化項である。Ｅ_Ｐは２つの範囲の画像の間の制約を表す。Ｇ（ｒ_ｋ）は、点ｒ_ｋの対応点ｒ_ｌｎを見つける関数である。Ｐ_３Ｄ（Δｄ_ｒ）は視線に沿って座標点ｐ_３ＤをΔｄ_ｒだけ移動したことを示す。各画素のｄ_ｒは、非線形最小化法により誤差Ｅ（ΔＤ）を最小化するΔｄ_ｒを加えることにより、反復的に更新される。

第３の実施形態では、例えば、６−カメラ／６−プロジェクタを円周上に、交互に配置した場合を考える。１台のプロジェクタの両側には２台のカメラがあるので、第２の実施形態で説明した２−カメラ／１−プロジェクタのセットが６通り得られる。各プロジェクタが投影するパターンの色は、ＲＧＢＲＧＢのように隣り合う色が同じにならないようにすれば、１台のカメラには、両側の２台のプロジェクタから２種類のパターンが投影される。従って、ＲＧ、ＧＢ、ＢＲの２色の組み合わせのいずれかについて、上述した方法により区別することになる。

以上の実施形態をまとめると、第１の実施形態では、カメラ−プロジェクタ間の情報、第２の実施形態では、カメラ−カメラ間の情報、第３の実施形態ではプロジェクタ−プロジェクタ間の情報を加えて対応を見つける形態となる。

（第４の実施形態）
第１〜３の実施形態において、マッチングコストを、カメラ画像とプロジェクタ画像（パターン画像）とのＳＳＤとして計算していた。四角形の領域に対する単純なＳＳＤは、データ項には適さないので、対象物体における格子点において、その周辺の領域を格子点の接平面で近似したパッチを用いた。第４の実施形態では、このような画像そのものの比較ではなく、線検出した結果を比較する。

図１４を参照して、交点比較法の別の実施形態を説明する。線検出の結果、交点の周りの局所的な線検出誤差（線特徴と呼ぶ）を用いる。図１４の実線は、線検出の結果であり、破線は、プロジェクタパターンであり、それぞれの位置の差の和（＝誤差）を計算し、ＢＰに与えるコストとして用いる。誤差が小さい場合には、格子点が対応する可能性が高いことになる。この方法によれば、第１の実施形態で説明したＳＳＤの計算と比較して、計算量を削減することができる。

また、ＳＳＤの計算では、カメラとプロジェクタの画像そのものを比較するため、物体に模様がある場合、カメラ画像はその模様に影響される。すなわち、模様によって画像の輝度値が変化して、比較した結果の差が大きくなる。一方、線特徴の場合、検出された線の位置を比較し、画像そのものを比較しないため、画像の輝度値の変化に影響されない。従って、物体の反射率の影響を軽減することができる。

（第５の実施形態）
図３Ａ，３Ｂを参照して説明したように、投影するパターンのパラメータは、経験的に決定していた。そこで、形状計測結果が最も良くなるパターンを、事前に予測して、パラメータを決定する。

図１５Ａに示したように、ステレオマッチングでは、あるカメラ画像の格子点２６０３に対応するプロジェクタ画像の対応点２６０２は、エピポーラ線（直線）２６０１上に存在する。同じエピポーラ線上に乗っている交点同士は、誤った対応点候補である（誤対応）可能性がある（例えば、図１５Ｂの交点２６０２，２６０４）。そこで、同じエピポーラ線上の交点に対し、ＳＳＤ、または第４の実施形態で説明した線特徴の比較を行う。その差がなるべく大きくなるようにパラメータを選択すればよい。隣接する交点の情報を含めて比較を行うため、式２で表すエネルギーをＢＰによって繰り返し計算する。各交点について、誤対応のうちもっともＢＰで計算するエネルギーが小さいものをその交点の評価値とし、全ての交点を考慮した評価値を計算する。全体の評価値が最も小さくなるパラメータを最適なパラメータとして決定する。

同じエピポーラ線上の任意の２つの交点についての類似度を比較して、最も類似度が低くなるようにパラメータを選択することになる。全体の評価値として、全ての交点の評価値の平均を用いるが、任意の交点のみを考慮した平均評価値、または全ての交点の評価値の中の最小あるいは最大の値を全体の評価値として用いることもできる。これら評価値が最も小さくなるパラメータを最適なパラメータとして決定する。

なお、最適パラメータの決定においては、プロジェクタ画像のみを用いて、プロジェクタ画像のエピポーラ線上の交点同士で比較を行う。カメラとプロジェクタは校正（キャリブレーション）済みであると仮定すると、グリッドパターンのパラメータを変えても、エピポーラ線は不変であり、同じエピポーラ線上に乗る交点は変化する。同じエピポーラ線上に乗っている交点を用いて計算した評価値が最も小さいパラメータを選ぶことになる。

グリッドパターンのパラメータとして波線の間隔、波線の波長、波線の振幅を変更し、またはパターンの回転を行って、それぞれの場合についてエネルギー計算を行い、全体の評価値が最も小さくなるパラメータを最適なパラメータとして決定する。なお、パラメータとしては、この他にも、波線の太さ、色（波長）などを含めてもよい。

図１７〜１８に、第１の実施形態のシミュレーション結果を示す。ここでは、スタンフォード大学の形状データ集（非特許文献２１）のｂｕｎｎｙデータを目標形状として利用した。図１６Ａは、テクスチャの無い観測対象の画像であり、図１７Ａは、格子模様がマッピングされている画像である。これら入力画像を、非特許文献２２に記載されているレイトレーシングソフトで生成した画像を、図１６Ｂ、図１７Ｂにそれぞれ示す。図１６Ｃ、図１７Ｃは、頭部における第１の実施形態のグリッド検出結果である。頭部、耳、胴体の境界において、グリッドの接続性が誤って検出された所があるが、これらは、ステレオマッチングの処理において正しく切断されている。

図１８Ａは、非特許文献８に記載されている２色を利用する手法の入力画像であり、テクスチャの無い観測対象の画像である。図１９Ａは、テクスチャがある観測対象の画像である。それぞれ、２色の線を３本用いて８周期の局所的ＩＤ情報が符号化されている。この手法は、観測対象にテクスチャが無い場合には、図１８Ｂに示すように成功する。しかし、図１９Ｂに示すように、テクスチャがある場合には、パターンの色情報が乱され、ＩＤ情報の復号化と３次元復元に失敗している。

上記実験の定量的な評価を行うために、図１６Ｂ、図１７Ｂ、図１８Ａの対応の誤差を計算した。カメラ画像の各画素に対応するプロジェクタ画像の座標は既知であるので、復元結果において推定された対応点と正解の対応点との誤差を、画像面上での距離で算出した。図２０Ａ−Ｃは、それぞれ順に、図１６Ｂ、図１７Ｂ、図１８Ａの誤差をそれぞれ画像化したものである。明るい画素は、誤差が大きいことを示す。

画素を単位とした二乗誤差の平方根（ＲＭＳＥ）を、下表に示す。

ＲＭＳＥの値は、復元された全ての対応点について計算されたＲＭＳＥ１と、１画素を超える外れ値を除いた対応点について計算されたＲＭＳＥ２とを示す。この表から、テクスチャが無い場合、全ての画素についてのＲＭＳＥ１は、第１の実施形態の方法が非特許文献８の方法よりも良いのに対し、外れ値を除いたＲＭＳＥ２は、非特許文献８の方法が第１の実施形態の方法よりも良かったことがわかる。

この理由は以下のように考えられる。非特許文献８の方法では、周期的に現れる線パターンの局所ＩＤ（位相）から対応点を求めるので、局所ＩＤ情報が正確に計算されれば精度が高い。しかし、局所ＩＤの復号に失敗すると、大きな誤差が生じる。このような誤差は、図２０Ｃのごま塩状の雑音として観測される。また、格子模様がマッピングされている場合、非特許文献８の方法では、復元そのものが失敗したのに対し、第１の実施形態の方法では、誤差が少し大きくなったものの形状復元に成功した。したがって、第１の実施形態の方法は、特にテクスチャがある場合、非特許文献８の方法よりも頑健で精度が高いと言える。

図２１Ａ，Ｂに、第１の実施形態によって復元されたポリゴンメッシュを示す。図２１Ａは、図１６Ｂの入力画像に対応し、図２１Ｂは、図１７Ｂの入力画像に対応する。図２１Ａ，Ｂの形状は、補間による密な復元の結果である。本実験の条件では、カメラ、プロジェクタ間のベースラインが大きく、例えば、１００画素程度の視差が存在するが、ステレオ復元では探索範囲を指定することなく正しく対応が得られる。さらに、補間と最適化により密な対応点を得ることができる。

実データによる実験結果について述べる。１６００×１２００画素のカメラと、１０２４×７６８画素のプロジェクタとを使用した。画像系列は３０ＦＰＳで撮影され、Intel Core i7 2.93GHzとNVIDIA GeForce 580GTXを備えたＰＣを利用した。上述したアルゴリズムは、ＣＵＤＡ（Compute Unified Device Architecture）により実装された。線検出は、ＣＰＵ上にシングルスレッドで実装された。最初に、波線によるグリッドパターンの効果を示すために、波線によるグリッドパターンと直線パターンとを比較する。

図２２Ａ−Ｄに、波線によるグリッドパターンにより再構成された結果を示す。図３Ｂに示した波状パターンで復元された３次元再構成結果である。図２２Ａに入力画像を、図２２Ｂに、プロジェクタ・カメラ系ステレオ法による復元結果を示す。物体の不連続部分（マネキンの頭部と首の境界）におけるグリッド線は、ステレオ処理の過程において正しく切断されている。

図２２Ｃに、本実施形態による３次元復元の結果を示す。グリッド点の数は９４３であり、各グリッド点における対応点候補数の平均値は４１であった。ステレオ処理にかかった時間は０．２２秒であった。探索範囲は、画像全体に設定したにも関わらず、グリッドパターンが画素数と比べて疎であることにより、計算コストは小さかった。

図２２Ｄに、上述の補間手法により生成された密な形状を示す。三次元モデルの頂点数は２５，９３８であった。最適化における繰り返し回数は５であり、補間処理にかかった時間は０．５９秒であった。線検出を含めた総計算時間は４．８７秒であった。
図２３Ａ−Ｃに、第１の実施形態の精度を評価した結果を示す。図２３Ａに入力画像を、図２３Ｂに、上述の補間手法により生成された形状を示し、図２３Ｃに、誤差を画像化したものを示す。立方体形状の計測により評価する。立方体の大きさは一辺０．２ｍであり、カメラからの距離は１．０ｍである。復元された立方体の各面に平面を当てはめ、各平面からの誤差をＲＭＳＥで算出した。２個の面のＲＭＳＥの平均値は０．３６ｍｍであり、面の間の角度は８８．８度（正解は９０．０度）であった。この誤差は、実用的に十分小さいと考えられる。

図２４Ａ−Ｃに、環境光の影響下において再構成された結果を示す図である。単色の静的パターンの重要な利点として、パターンを照射するデバイス選択の幅が広がることが挙げられる。そこで、単一波長の光を投影するレーザプロジェクタを利用した復元実験を行った。投影される光のエネルギーが狭帯域に集中しているので、適当なバンドパスフィルタを用いることにより、環境光の影響下においても、投影パターンを観測することができる。図２４Ａは実験環境であり、目標が外部光源から強く照らされていることがわかる。しかし、図２４Ｂに示すように、バンドパスフィルタにより、照射されたパターンが明確にされ、図２４Ｃに示すように、３次元復元を正しく行うことができる。

図２５及び２６に、手の開閉の運動の計測結果を示す。図２５（ａ）−（ｄ）の順に手のひらを閉じた動きを計測した。図２６（ａ）−（ｄ）は、それぞれの計測結果である。第１の実施形態によれば、ワンショット復元であるため、対象物体が高速に動いていても、フレームごとに独立して３次元復元を行うことができる。

図２７及び２８に、パンチ動作中の人体の動きの計測結果を示す。図２７（ａ）−（ｄ）の順に右手を繰り出した動きを計測した。図２８（ａ）−（ｄ）は、それぞれの計測結果である。第１の実施形態によれば、ワンショット復元であるため、対象物体が高速に動いていても、フレームごとに独立して３次元復元を行うことができる。

単色かつ静的なパターンの照射による単一画像からの三次元形状復元（ワンショット復元）方法について述べた。波線のグリッドパターンにおける各交点のパターンの違いにより、対応情報を暗黙的に表現する。そこで、パターンの規則性を乱すことにより、パターンの特異性が大きくなり、安定した解が得られる。また、ステレオ法による形状復元を、グリッドの接続性を考慮しながらプロジェクタ・カメラ系に拡張する方法について述べた。復元の最終段階では、グリッドによる復元を補間して、画素単位の深さ推定が行われる。従来の方法と比較して、より安定した結果が得られること、移動物体の計測が効果的に行われることを示した。

Claims

１つの投影装置により観測対象上に投影された投影パターンを、１つの撮影装置により撮影し、前記１つの投影装置および前記１つの撮影装置に接続された画像処理装置において、該投影パターンを含む入力画像から形状復元を行う画像処理システムにおいて、前記画像処理装置が、
前記１つの撮影装置により撮影された入力画像を取り込み、前記１つの投影装置により投影された投影パターンの線検出を行う手段であって、該投影パターンは、波線によるグリッドパターンであり、前記波線は、一定の周期性を持つ波状の曲線であり、前記波線によるグリッドパターンは、一定の間隔に配置された複数の波線からなり、互いに交差する２方向の波線の集合であって、一方の波線の間隔が他方の波線の波長の整数倍でないことと、
前記線検出により抽出された縦横線の交点を、前記投影パターンと対応付けることにより形状復元を行う手段と
を備えたことを特徴とする画像処理システム。
前記形状復元を行う手段は、
前記１つの撮影装置により撮影された入力画像における各々の格子点周辺の領域を接平面で近似したパッチを、前記１つの投影装置における出力画像に再投影する手段と、
前記再投影されたパッチと前記１つの投影装置により投影された投影パターンの格子点の対応候補とのステレオマッチングのエネルギーを、格子点に割り当てるデータ項と隣接格子点との間で得られる正規化項との和により計算する手段と、
前記対応候補のステレオマッチングのエネルギーが、最小の対応候補である格子点を、前記投影パターンと対応付けることにより形状復元を行う手段と
を含むことを特徴とする請求項１に記載の画像処理システム。
前記形状復元を行う手段は、
３つの標本画素からなる三角メッシュを作成し、準画素単位の深さを計算する手段と、
前記三角メッシュを前記１つの投影装置における出力画像に再投影したときの誤差を、全ての標本画素について計算し、前記計算された誤差を最小化し、前記標本画素以外の画素における深さを線形補間する手段と
を含むことを特徴とする請求項１に記載の画像処理システム。
前記１つの撮影装置とは異なる第２の撮影装置をさらに備え、
前記形状復元を行う手段は、前記格子点についての前記１つの撮影装置および前記第２の撮影装置の間で得られる正規化項を、前記対応候補のステレオマッチングのエネルギーに加算して、前記対応候補を取捨選択する手段を含むことを特徴とする請求項２に記載の画像処理システム。
前記形状復元を行う手段は、前記格子点について、前記１つの撮影装置および前記第２の撮影装置で得られた画素単位の深さを、平均により統合する手段を含むことを特徴とする請求項４に記載の画像処理システム。
前記１つの投影装置とは異なる第２の投影装置をさらに備え、
前記形状復元を行う手段は、前記１つの投影装置から投影された第１の投影パターンと、前記第２の投影装置から投影された第２の投影パターンとで一致する格子点について、画素単位の深さを最適化する手段を含むことを特徴とする請求項１に記載の画像処理システム。
前記形状復元を行う手段は、
前記格子点についての前記投影パターンと、前記線検出により得られた結果との差を、前記格子点の周囲の複数の位置で計算し、該計算された結果を前記対応候補のマッチングコストとして、最小の対応候補である格子点を、前記投影パターンと対応付けることにより形状復元を行う手段を含むことを特徴とする請求項２に記載の画像処理システム。
前記投影パターンを前記観測対象に投影したときに、同じエピポーラ線上の任意の２つの交点についての類似度を比較し、最も類似度が低くなるように、前記投影パターンのパラメータが選択されていることを特徴とする請求項１に記載の画像処理システム。
１つの投影装置により観測対象上に投影された投影パターンを、１つの撮影装置により撮影し、前記１つの投影装置および前記１つの撮影装置に接続された画像処理装置において、該投影パターンを含む入力画像から形状復元を行う画像処理方法であって、
前記画像処理装置が、前記１つの撮影装置により撮影された入力画像を取り込み、前記１つの投影装置により投影された投影パターンの線検出を行うステップであって、該投影パターンは、波線によるグリッドパターンであり、前記波線は、一定の周期性を持つ波状の曲線であり、前記波線によるグリッドパターンは、一定の間隔に配置された複数の波線からなり、互いに交差する２方向の波線の集合であって、一方の波線の間隔が他方の波線の波長の整数倍でないことと、
前記画像処理装置が、前記線検出により抽出された縦横線の交点を、前記投影パターンと対応付けることにより形状復元を行い、復元された画像を表示するステップと
を備えたことを特徴とする画像処理方法。
１つの投影装置により観測対象上に投影された投影パターンを、１つの撮影装置により撮影し、前記１つの投影装置および前記１つの撮影装置に接続された画像処理装置に、該投影パターンを含む入力画像から形状復元を行わせるコンピュータ実行可能命令からなるコンピュータプログラムにおいて、
前記１つの撮影装置により撮影された入力画像を取り込み、前記１つの投影装置により投影された投影パターンの線検出を行うステップであって、該投影パターンは、波線によるグリッドパターンであり、前記波線は、一定の周期性を持つ波状の曲線であり、前記波線によるグリッドパターンは、一定の間隔に配置された複数の波線からなり、互いに交差する２方向の波線の集合であって、一方の波線の間隔が他方の波線の波長の整数倍でないことと、
前記線検出により抽出された縦横線の交点を、前記投影パターンと対応付けることにより形状復元を行い、復元された画像を表示するステップと
を実行させることを特徴とするコンピュータプログラム。