JP7489253B2

JP7489253B2 - デプスマップ生成装置及びそのプログラム、並びに、デプスマップ生成システム

Info

Publication number: JP7489253B2
Application number: JP2020127411A
Authority: JP
Inventors: 正規加納; 真宏河北
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2024-05-23
Anticipated expiration: 2040-07-28
Also published as: JP2022024688A

Description

本発明は、デプスマップを生成するデプスマップ生成装置及びそのプログラム、並びに、デプスマップ生成システムに関する。

近年、空間中に存在する被写体の三次元形状（デプスマップ）を取得する技術が盛んに研究されている。この技術は、三次元映像制作、ＡＲ（Augmented Reality）、ＶＲ（Virtual Reality）、ロボティクスなど様々な分野への適用が期待されている。被写体の三次元形状を取得するアプローチとしては、能動的な手法と受動的な手法に大別される（非特許文献１）。

能動的な手法は、計測装置が光源を有し、被写体からの反射光を利用して奥行き（デプス）を計測するものである。具体的な手法としては、パターン光投影、光飛行時間法（ＴｏＦ:Time of Flight）、照度差ステレオ法がある。これらの中で近年注目されているのが、ＴｏＦカメラを用いた手法である。ＴｏＦカメラは、光源から照射した光が被写体で反射して戻るまでの時間を計測することで、ＴｏＦカメラから被写体までの距離を求める。能動的な手法のメリットは、高度な計算処理を行うことなくリアルタイムで高精度な距離が得られることである。一方、能動的な手法のデメリットは、外乱光に弱い、被写体の反射率や距離によっては測定誤差が生じる、スケールの校正が必要な場合があることである。

受動的な手法は、複数台のカラーカメラ（以降、「ＲＧＢカメラ」）、又は１台のＲＧＢカメラを移動させて、その視差から奥行き距離を計測するものである。具体的な手法としては、ステレオ法（多眼ステレオ）、モーションステレオがある。これらの原理はステレオ法であり、２台以上のカメラの視差からデプスを計算する。受動的な手法のメリットは、被写体に特殊な光を照射する必要がない、外乱光の影響を受けない、一般的なカラーカメラとコンピュータだけで実現できることである。一方、受動的な手法のデメリットは、得られるデプスに曖昧さが残る（テクスチャレス、オクルージョン領域）、計算コストが高くなることである。

その他、ＲＧＢカメラとデプスカメラを同一光軸上に配置し、レンズアレイを用いて、複数視点分のＲＧＢ画像及びデプス画像を取得できるＲＧＢ－Ｄカメラが知られている（特許文献１）。この手法では、カメラレンズから入射した光線をミラー（例えば、ハーフミラーやダイクロイックミラー）で分光し、ＲＧＢカメラとデプスカメラで受光する。

特開２００９－３００２６８号公報

ディジタル画像処理（改訂新版）、ＣＧ－ＡＲＴＳ協会、２０１５年

前記したように、三次元形状の取得は、その応用できる分野が広いため、様々な手法が提案されているが、未だ確立されていない。汎用的な目的を考えると、１視点のカラー画像（以降、ＲＧＢ画像）とデプスマップのみでなく、様々な視点のＲＧＢ画像とデプスマップがあると使い勝手がよい。つまり、複数視点のＲＧＢ画像及びデプスマップのセットがあると、汎用性が向上する。

また、デプスマップの精度も重要である。ＲＧＢ－Ｄカメラで得られるデプス画像は、画素値（輝度値）で表されているため、この画素値を実スケールのデプスマップに変換する必要がある。しかし、実スケールへの変換関数が、デプスマップの精度に大きな影響を与える。さらに、デプスマップの精度は、撮影環境や被写体の種類によっても影響される。なお、実スケールとは、実空間上の距離（奥行き）のことである。

本発明は、前記した問題を解決し、複数視点の撮影画像及び高精度なデプスマップを容易に取得できるデプスマップ生成装置及びそのプログラム、並びに、デプスマップ生成システムを提供することを課題とする。

前記課題を解決するため、本発明に係るデプスマップ生成装置は、同一光軸の撮影カメラ及びデプスカメラと光学素子アレイとで構成された撮影装置が各視点で被写体を撮影した撮影画像及びデプス画像を用いて、各視点の撮影画像に対応したデプスマップを生成するデプスマップ生成装置であって、コストボリューム生成手段と、奥行き変換手段と、コストウェイト算出手段と、ビジビリティウェイト算出手段と、ウェイト適用手段と、最終デプスマップ生成手段と、を備える構成とした。

かかる構成によれば、コストボリューム生成手段は、奥行き方向で所定間隔の奥行きレイヤ及び撮影画像の画素位置毎に、奥行きレイヤに投影された撮影画像間の類似度を表すコストを算出し、コストを奥行きレイヤ及び画素位置で三次元配列したコストボリュームを生成する。
奥行き変換手段は、デプス画像の各画素の画素値を奥行きに変換する奥行き変換関数により、デプス画像を中間デプスマップに変換する。
コストウェイト算出手段は、中間デプスマップの重みを正規分布関数で表したコストウェイトを算出する。

また、ビジビリティウェイト算出手段は、中間デプスマップから、オクルージョン発生時にコストを低下させるビジビリティウェイトを算出する。
ウェイト適用手段は、コストボリュームにコストウェイト及びビジビリティウェイトを適用する。
最終デプスマップ生成手段は、ウェイト適用後のコストボリュームで同一画素位置のコスト列において、コストが最小となる奥行きレイヤのデプスを示す最終デプスマップを生成する。

すなわち、デプスマップ生成装置は、デプス画像から生成したデプスマップに基づいて、撮影画像から生成したコストボリュームを２つのウェイトで制約するリファインメント処理を行う。このリファインメント処理によって、デプスマップ生成装置は、各視点の撮影画像に対応した高精度なデプスマップを生成できる。

なお、本発明は、コンピュータを、前記したデプスマップ生成装置として機能させるためのプログラムで実現することができる。

また、本発明は、同一光軸の撮影カメラ及びデプスカメラと光学素子アレイとで構成された撮影装置と、前記したデプスマップ生成装置と、を備えることを特徴とするデプスマップ生成システムで実現することもできる。

本発明によれば、複数視点の撮影画像及び高精度なデプスマップを容易に取得できる。

実施形態に係る三次元形状取得システムの全体構成図である。実施形態に係る三次元形状取得装置の構成を示すブロック図である。ＲＧＢ－Ｄカメラによる校正パターンの撮影を説明する説明図であり、（ａ）は校正データＡを示し、（ｂ）は校正データＢを示す。校正パターンを撮影した画像の分割を説明する説明図であり、（ａ）はＲＧＢ画像を示し、（ｂ）はデプス画像を示す。スケール変換関数の算出を説明する説明図であり、（ａ）は仮想カメラから校正パターンまでの距離を示し、（ｂ）はスケール変換関数の一例を示す。被写体を撮影した画像の分割を説明する説明図であり、（ａ）はＲＧＢ画像を示し、（ｂ）はデプス画像を示す。奥行きレイヤの一例を説明する説明図である。コストボリュームを説明する説明図である。正規分布関数を説明する説明図である。（ａ）はコストウェイト関数の一例を説明する説明図であり、（ｂ）はビジビリティ関数の一例を説明する説明図である。実施形態において、カメラ校正処理を示すフローチャートである。実施形態において、リファインメント手理を示すフローチャートである。

以下、本発明の実施形態について図面を参照して説明する。但し、以下に説明する実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。

［三次元形状取得システムの概要］
図１を参照し、実施形態に係る三次元形状取得システム（デプスマップ生成システム）１の概要について説明する。
三次元形状取得システム１は、被写体９について、複数視点のＲＧＢ画像（撮影画像）及びデプスマップと、仮想カメラＣのカメラパラメータとを取得するものである。図１に示すように、三次元形状取得システム１は、ＲＧＢ－Ｄカメラ（撮影装置）２と、三次元形状取得装置（デプスマップ生成装置）３とを備える。

複数視点で撮影するために多数のＲＧＢカメラ及びデプスカメラを配置した場合、システムが大規模となり、コストが高くなる。そこで、三次元形状取得システム１では、後記する１台のＲＧＢ－Ｄカメラ（撮影装置）２により、多数のＲＧＢカメラ及びデプスカメラを配置したのと同等の構成を実現し、システム構成を簡略化できる。

三次元映像制作などの分野では、仮想カメラＣのカメラパラメータが必要となる。さらに、デプス画像は画素値（輝度値）で表されているため、この画素値を実スケールのデプスマップに変換するスケール変換関数も必要となる。そこで、三次元形状取得システム１では、三次元形状取得装置３によって、校正パターンを用いたカメラ校正処理を行って、仮想カメラＣのカメラパラメータとスケール変換関数を算出する。

デプスマップの精度も重要である。前記したように、スケール変換関数が、デプスマップの精度に大きな影響を与えてしまう。さらに、デプスマップの精度は、撮影環境や被写体の種類によって大きく低下する。そこで、三次元形状取得システム１では、後記する三次元形状取得装置３によって、複数視点のＲＧＢ画像及びデプス画像を用いて、デプスマップの精度を改善する（リファインメント処理）。このとき、三次元形状取得装置３では、１台のＲＧＢ－Ｄカメラ２で撮影した１枚のＲＧＢ画像を視点毎に分割してマッチングするため、複数台のＲＧＢカメラで撮影した画像をマッチングする場合に比べ、色の差に起因するエラーを抑制できる。

最初に、ＲＧＢ－Ｄカメラ２の構成について説明する。次に、三次元形状取得装置３によるカメラ校正処理について説明する。このカメラ校正処理は、各仮想カメラＣのカメラパラメータ、及び、スケール変換関数を算出する処理である。最後に、三次元形状取得装置３による、デプスマップの精度を改善するリファインメント処理について説明する。

［ＲＧＢ－Ｄカメラの構成］
図１に示すように、ＲＧＢ－Ｄカメラ２は、カメラ本体２０と、レンズ系２１とを備える撮像装置である。本実施形態では、カメラ本体２０は、図示を省略したＲＧＢカメラ及びデプスカメラを同一光軸上に配置したものである。また、カメラ本体２０は、被写体９からの光線を分光素子（不図示）で分光し、分光した光線をＲＧＢカメラ及びデプスカメラでそれぞれ受光する。例えば、ＲＧＢカメラとしては、一般的なカラーカメラがあげられる。また、分光素子としては、ハーフミラー又はダイクロイックミラーがあげられる。

本実施形態では、デプスカメラとして、ＴｏＦカメラを用いる。このＴｏＦカメラは、距離計測時、被写体９に赤外線を照射するための赤外線ＬＥＤアレイ２５を備える。ＴｏＦカメラが撮影した赤外線画像のフレーム間差分を求めることにより、デプス画像を取得できる。

レンズ系２１は、フレネルレンズ２２と、レンズアレイ（光学素子アレイ）２３とを備える。レンズアレイ２３は、Ｎ_Ｘ×Ｎ_Ｙ個の要素レンズ２４を２次元状に配列したものである。ＲＧＢ－Ｄカメラ２は、このレンズアレイ２３を介することで、Ｎ_Ｘ×Ｎ_Ｙ視点分のＲＧＢ画像及びデプス画像を取得できる。すなわち、ＲＧＢ－Ｄカメラ２は、Ｎ_Ｘ×Ｎ_Ｙ個の仮想カメラＣを配置したのと同等の構成を実現している。本実施形態では、２×２個の要素レンズ２４に対応した４視点（４台の仮想カメラＣ）であることとする。

なお、カメラ本体２０とレンズ系２１との位置関係を調整すると、仮想カメラＣの画角を調整できる。また、図１では、４台の仮想カメラＣのうち、２台の仮想カメラＣのみを図示した。

［三次元形状取得装置の構成］
図２を参照し、三次元形状取得装置３の構成について説明する。
三次元形状取得装置３は、ＲＧＢ－Ｄカメラ２が各視点で被写体９を撮影したＲＧＢ画像及びデプス画像を用いて、各視点のＲＧＢ画像に対応したデプスマップを生成するものである。図２に示すように、三次元形状取得装置３は、カメラ校正処理を行うカメラ校正手段４と、リファインメント処理を行うリファインメント手段５とを備える。

＜カメラ校正手段＞
カメラ校正手段４は、２種類のパラメータを推定する。一つ目は、仮想カメラＣのカメラパラメータである。仮想カメラＣのカメラパラメータは、レンズの焦点距離、レンズ歪み、仮想カメラＣの位置や姿勢など表す。二つ目は、各仮想カメラＣのスケール変換関数である。さらに、カメラ校正手段４は、必要に応じて、ＲＧＢ画像及びデプス画像の画角補正を行う。なお、カメラ校正手段４は、撮影の都度、カメラ校正処理を行う必要がなく、ＲＧＢ－Ｄカメラ２の焦点距離やＲＧＢ－Ｄカメラ２とフレネルレンズ２２とレンズアレイ２３との位置・姿勢の関係が変化したときにカメラ校正処理を行えばよい。

図３（ａ）に示すように、カメラ校正手段４には、ＲＧＢ－Ｄカメラ２で校正パターン９０を撮影したＲＧＢ画像及びデプス画像が入力される。校正パターン９０は、平面状で特徴点の配置が既知のパターンである（例えば、チェスボードパターン）。このとき、ＲＧＢ－Ｄカメラ２は、校正パターン９０の姿勢を２回以上変更して撮影する（破線で図示）。なお、ＲＧＢ－Ｄカメラ２は、内部パラメータのスキューを０以外とする場合、校正パターン９０の姿勢を３回以上変更して撮影する。図３（ａ）に示すように、レンズ系２１を配置して撮影したＲＧＢ画像及びデプス画像を校正データＡと呼ぶ。前記した画角補正を行う場合、図３（ｂ）に示すように、レンズ系２１を外して校正パターン９０を撮影する。このように、レンズ系２１を外して撮影したＲＧＢ画像及びデプス画像を校正データＢと呼ぶ。

図２に示すように、カメラ校正手段４は、画角補正手段４０と、画像分割手段４１と、初期カメラパラメータ算出手段４２と、カメラパラメータ最適化手段４３と、スケール変換関数算出手段（奥行き変換関数算出手段）４４とを備える。

画角補正手段４０は、ＲＧＢ－Ｄカメラ２から入力されたデプス画像の画角がＲＧＢ画像の画角に一致するように、デプス画像を射影変換するものである。ＲＧＢ－Ｄカメラ２の取り付け精度に起因して、ＲＧＢカメラで撮影したＲＧＢ画像とデプスカメラで撮影したデプス画像との画角が微妙にずれることがある。このため、画角補正手段４０は、校正データＢを用いて、この微妙な画角のずれを補正する。具体的には、画角補正手段４０は、ＲＧＢ画像及びデプス画像の間で４点以上の対応点（校正パターン９０の特徴点）を基準として、ホモグラフィ行列を算出する（参考文献１）。そして、画角補正手段４０は、このホモグラフィ行列によりデプス画像を射影変換することで、デプス画像の画角をＲＧＢ画像の画角に一致させる。
なお、画角補正手段４０は、ＲＧＢカメラ及びデプスカメラの画角が一致している場合、前記した画角補正処理を行う必要がない。

参考文献１：“ＯｐｅｎＣＶ”,［online］、［令和２年６月２４日検索］、インターネット〈URL：https://opencv.org/〉

また、画角補正手段４０は、校正データＢを用いて、レンズ歪みを除去できる。例えば、画角補正手段４０は、Ｚｈａｎｇの手法により、ＲＧＢ－Ｄカメラ２のレンズ歪み係数を算出し、ＲＧＢ画像及びデプス画像からレンズ歪みを除去する（参考文献２）。

参考文献２：Z. Zhang, “A flexible new technique for camera calibration”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 11, pp. 1330-1334 (2000)

画像分割手段４１は、画角補正手段４０から入力されたＲＧＢ画像及びデプス画像を視点（要素レンズ２４）毎に分割するものである。つまり、画像分割手段４１は、ＲＧＢ画像及びデプス画像を仮想カメラＣ毎に分割することで、仮想カメラＣで仮想的に撮影したＲＧＢ画像及びデプス画像を生成する。本実施形態では、画像分割手段４１は、図４（ａ）及び（ｂ）に示すように、ＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄを４分割する。

なお、ＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄを分割する領域αは、手動で設定する。このとき、分割後のＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄでは、レンズアレイ２３の外側や要素レンズ２４同士の隙間が不要なので、これら不要領域を分割せずともよい。以後の説明を簡易にするため、分割後のＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄは、同一の画像サイズであることとする。

初期カメラパラメータ算出手段４２は、画像分割手段４１から入力された各視点のＲＧＢ画像Ｐ_Ｃにカメラ校正処理を施すことで、各視点に対応した仮想カメラＣの初期カメラパラメータを算出するものである。例えば、初期カメラパラメータ算出手段４２は、各視点のＲＧＢ画像Ｐ_ＣにＺｈａｎｇの手法を適用し、各仮想カメラＣのカメラパラメータ及び各校正パターン９０の位置・姿勢が含まれる初期カメラパラメータを算出する。

カメラパラメータ最適化手段４３は、初期カメラパラメータ算出手段４２から入力された初期カメラパラメータを初期値としたカメラ校正処理により、各仮想カメラＣの間でカメラパラメータを最適化するものである。前記した初期カメラパラメータ算出手段４２では、各仮想カメラＣのカメラパラメータを個別に算出していたが、全ての仮想カメラＣの間でカメラパラメータを最適化することで、カメラパラメータの精度が向上する。

ここで、校正パターン９０の位置・姿勢を共通のパラメータとする。最適化するカメラパラメータは、各仮想カメラＣのカメラパラメータと、共通化した校正パターン９０の位置・姿勢が含まれる。具体的には、カメラパラメータ最適化手段４３は、各仮想カメラＣのカメラパラメータ及び校正パターン９０の位置・姿勢の平均値を初期値として、初期カメラパラメータに含まれる仮想カメラＣの位置・姿勢を使用する。そして、カメラパラメータ最適化手段４３は、これら初期値をバンドル調整することでカメラパラメータを最適化する。

スケール変換関数算出手段４４は、カメラパラメータ最適化手段４３より入力されたカメラパラメータが示す仮想カメラＣの位置から校正パターン９０までの距離をデプス画像Ｐ_Ｄの各画素の画素値に対応させることで、スケール変換関数を算出するものである。すなわち、スケール変換関数算出手段４４は、デプス画像Ｐ_Ｄを実スケールのデプスマップに変換するためのスケール変換関数を算出する。前記したように、カメラパラメータにおいて、仮想カメラＣの位置・姿勢と校正パターン９０の位置・姿勢とが既知のため、仮想カメラＣから校正パターン９０までの距離ｒが実スケールで算出できる。

具体的には、スケール変換関数算出手段４４は、図５（ａ）に示すように、仮想カメラＣから校正パターン９０までの距離ｒと、デプス画像Ｐ_Ｄの各画素の輝度値ｑ（画素値）とを対応づける。このとき、デプス画像Ｐ_Ｄに含まれる校正パターン９０では、黒色模様の部分で反射率が低下するため、正確な対応付けが困難である。このため、スケール変換関数算出手段４４は、デプス画像Ｐ_Ｄに含まれる校正パターン９０の白色部分のみで対応付けを行うことが好ましい。ここで、スケール変換関数算出手段４４は、校正パターン９０を撮影した全てのデプス画像Ｐ_Ｄで対応付けを行うことで、図５（ｂ）に示すようにグラフが得られる。そして、スケール変換関数算出手段４４は、このグラフを関数（例えば、５次関数）で近似することで、スケール変換関数ｈ（ｑ）を算出できる。なお、スケール変換関数算出手段４４は、このグラフをスケール変換関数で近似せず、ルックアップデーブルとしてもよい。

その後、カメラ校正手段４は、算出したスケール変換関数をスケール変換手段５４に出力し、仮想カメラＣのカメラパラメータをコストボリューム生成手段５１及びウェイト適用手段５９に出力する。

＜リファインメント手段＞
リファインメント手段５は、ＲＧＢ－Ｄカメラ２で被写体９を撮影したＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄが入力される。そして、リファインメント手段５は、デプス画像Ｐ_Ｄから生成したデプスマップに基づいて、ＲＧＢ画像Ｐ_Ｃから生成したコストボリュームを２つのウェイトで制約することで、デプスマップの精度を向上させる。なお、リファインメント手段５は、撮影の都度、リファインメント処理を行う。

図２に示すように、リファインメント手段５は、画像分割手段５０と、コストボリューム生成手段５１と、初期デプスマップ生成手段５２と、平滑化手段５３と、スケール変換手段（奥行き変換手段）５４と、レイヤ化処理手段５５と、スケール補正手段（中間デプスマップ補正手段）５６と、コストウェイト算出手段５７と、ビジビリティウェイト算出手段５８と、ウェイト適用手段５９と、最終デプスマップ生成手段６０とを備える。

画像分割手段５０は、ＲＧＢ－Ｄカメラ２から入力されたＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄを視点毎に分割するものである。図６（ａ）及び（ｂ）に示すように、画像分割手段５０は、画像分割手段４１と同様、被写体９が撮影されたＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄを分割する。

なお、図６では、レンズ系２１を介しているため、ＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄで被写体９が逆立像になっている。この場合、被写体９が正立像となるようにＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄに反転処理を施してもよい。

コストボリューム生成手段５１は、後記する奥行きレイヤ及びＲＧＢ画像Ｐ_Ｃの画素位置毎にコストを算出し、コストを奥行きレイヤ及び画素位置で三次元配列したコストボリュームを生成するものである。本実施形態では、コストボリューム生成手段５１は、コストボリュームを推定する手法の一つであるプレーンスイープ法を用いることとする（参考文献３）。

参考文献３：David Gallup, et al. , "Real-time plane-sweeping stereo with multiple sweeping directions", IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-8 (2007)

まず、コストボリューム生成手段５１は、図７に示すように、被写体９が配置された空間中に、奥行き方向で所定間隔の奥行きレイヤＮ_Ｄを複数設定する。図７の例では、５つの奥行きレイヤＮ_Ｄが設定されている（Ｄ＝１，…，５）。なお、図７では、ｘ軸が水平方向、ｙ軸が垂直方向、ｚ軸が奥行方向を示す。次に、コストボリューム生成手段５１は、全ての仮想カメラＣのうち何れか１台をリファレンスカメラとして、このリファレンスカメラと、別のもう１台の仮想カメラＣとでカメラペアを設定する。そして、コストボリューム生成手段５１は、カメラペアを構成する各仮想カメラＣのＲＧＢ画像Ｐ_Ｃを射影変換により奥行きレイヤＮ_Ｄに投影する。さらに、コストボリューム生成手段５１は、奥行きレイヤＮ_Ｄに投影した２つのＲＧＢ画像Ｐ_Ｃの各画素の画素値の差分（例えば、ＳＡＤ：Sum of Absolute Difference）を求めることで、コストを算出する。このコストは、その奥行きレイヤＮ_Ｄに投影された２つのＲＧＢ画像Ｐ_Ｃの類似度を表し、その値が小さくなる程、その奥行きレイヤＮ_Ｄに被写体９の奥行きが存在する可能性が高いことを表す。

コストボリューム生成手段５１は、前記した処理を全ての奥行きレイヤＮ_Ｄで行うことで、コストボリュームを生成できる。図８に示すように、ＲＧＢ画像Ｐ_ＣのサイズをＵ×Ｖ画素とすると、コストボリューム９１は、Ｕ×Ｖ×Ｎ_Ｄのコストの３次元配列となる。また、コストボリューム９１では、同一画素位置で奥行方向に配列されたコストをコスト列９２とする。つまり、コスト列９２は、１×１×Ｎ_Ｄのコストの３次元配列となる。そして、コストボリューム生成手段５１は、リファレンスカメラのＲＧＢ画像Ｐ_Ｃをガイドとして、ガイデッドフィルタをコストボリューム９１に適用する（参考文献４）。これにより、エッジを保持したままコストボリューム９１を平滑化できるため、コストボリューム９１のノイズを低減できる。

参考文献４：Kaiming He, Sun Jian, and Tang Xiaoou, "Guided image filtering", European conference on computer vision. Springer, pp. 1-10, (2010)

リファレンスカメラの周辺にある仮想カメラＣの集合をＳとすると、集合の要素数｜Ｓ｜だけカメラペアを設定できる。このとき、コストボリューム９１もカメラペアと同数できる。例えば、仮想カメラＣが４台の場合、１台のリファレンスカメラに対して、カメラペアが３つとなり、コストボリューム９１も３つとなる。例えば、仮想カメラＣ_１がリファレンスカメラの場合、カメラペアが（Ｃ_１，Ｃ_２）、（Ｃ_１，Ｃ_３）、（Ｃ_１，Ｃ_４）となる。

初期デプスマップ生成手段５２は、コストボリューム生成手段５１から入力されたコストボリューム９１で同一画素位置のコスト列９２において、コストが最小となる奥行きレイヤＮ_Ｄのデプスを示す初期デプスマップを生成するものである。

ここで、初期デプスマップ生成手段５２は、１台のリファレンスカメラに対して複数のコストボリューム９１が存在するため、各コストボリューム９１の総和をリファレンスカメラの最終的なコストボリューム９１として求める。そして、初期デプスマップ生成手段５２は、各コスト列９２で最小のコストを有する奥行きレイヤＮ_Ｄを正しいデプスとして求め、リファレンスカメラの初期デプスマップＤ^Ｃを生成する。

その後、初期デプスマップ生成手段５２は、初期デプスマップＤ^Ｃをスケール補正手段５６に出力し、最終的なコストボリューム９１をウェイト適用手段５９に出力する。

平滑化手段５３は、画像分割手段５０から入力したデプス画像Ｐ_Ｄを平滑化するものである。ここで、平滑化手段５３は、デプスカメラのショットノイズなどのノイズがデプス画像Ｐ_Ｄに含まれるため、このデプス画像Ｐ_Ｄをフィルタ処理により平滑化する。例えば、フィルタ処理として、ガイデッドフィルタがあげられる。このガイデッドフィルタは、平滑化フィルタの一種であり、ガイド画像を用いて対象の画像を平滑化する。ここでは、ガイド画像として、ＲＧＢ画像Ｐ_Ｃを用いる。

なお、フィルタ処理によりノイズを除去できる一方、過度な平滑化によりデプス画像Ｐ_Ｄの精度が低下する可能性がある。このため、平滑化手段５３は、必要に応じでフィルタ処理を実行すればよい。

スケール変換手段５４は、デプス画像Ｐ_Ｄの各画素の画素値を実スケールのデプスに変換するスケール変換関数により、デプス画像Ｐ_Ｄを中間デプスマップに変換するものである。本実施形態では、スケール変換手段５４は、スケール変換関数算出手段４４から入力されたスケール変換関数により、平滑化手段５３から入力されたデプス画像Ｐ_Ｄを実スケールのデプスマップへと変換する。なお、スケール変換手段５４は、ＲＧＢ－Ｄカメラ２のメーカからスケール変換関数が提供される場合、これを使用してもよい。

レイヤ化処理手段５５は、スケール変換手段５４から入力された中間デプスマップのデプスを最も近い奥行きレイヤＮ_Ｄのデプスに置き換えるレイヤ化処理を施すものである。具体的には、レイヤ化処理手段５５は、カメラパラメータが既知のため、実スケールの中間デプスマップを３次元点群化できる。ここで、レイヤ化処理手段５５は、中間デプスマップがカメラ座標系における光軸方向（一般的にはz方向）の距離ではなく、光学中心からの距離を表している場合、その距離を考慮して３次元点群化する。そして、レイヤ化処理手段５５は、各点のデプスを最も近い奥行きレイヤＮ_Ｄの所属とすることで、中間デプスマップを奥行きレイヤＮ_Ｄで表現する。以後、レイヤ化処理を施した中間デプスマップをＤ^Ｄとする。

スケール補正手段５６は、初期デプスマップＤ^Ｃと中間デプスマップＤ^Ｄとのデプス差が閾値以下の画素について、各奥行きレイヤＮ_Ｄでデプス差の平均を補正値として求め、中間デプスマップＤ^Ｄのデプスを補正値で補正するものである。つまり、スケール補正手段５６は、スケール変換関数の精度が低い場合、デプス画像Ｐ_Ｄから生成した中間デプスマップＤ^ＤをＲＧＢ画像Ｐ_Ｃから生成した初期デプスマップＤ^Ｃに合わせるように補正する。

具体的には、スケール補正手段５６は、初期デプスマップＤ^Ｃと中間デプスマップＤ^Ｄとの各画素のデプス差Ｄ^Ｓｕｂ＝Ｄ^Ｃ－Ｄ^Ｄを算出する。次に、スケール補正手段５６は、｜Ｄ^Ｓｕｂ｜≦ｔｈｒｅｓｏｌｄを満たす画素のみを対象として、初期デプスマップＤ^Ｃの各デプスｄ（ｄ＝１，２，・・・，Ｎ_Ｄ）でデプス差Ｄ^Ｓｕｂの平均を算出し、補正値とする。なお、閾値ｔｈｒｅｓｏｌｄは手動で設定する。そして、スケール補正手段５６は、Ｄ^Ｄ _Ｎｅｗ＝Ｄ^Ｄ _Ｏｌｄ＋Ｄ^Ｃｏｒのように、補正前の中間デプスマップＤ^Ｄ _Ｏｌｄに補正デプス値Ｄ^Ｃｏｒを適用し、補正後の中間デプスマップＤ^Ｄ _Ｎｅｗを求める（以後、中間デプスマップＤ^Ｄ）。
なお、スケール補正手段５６は、スケール変換関数の精度が高い場合、処理を行わなくともよい。

コストウェイト算出手段５７は、スケール補正手段５６から入力された中間デプスマップＤ^Ｄの重みを正規分布関数で表したコストウェイトＷ^Ｃを算出するものである。前記したように、コストボリューム９１は、ＲＧＢ画像Ｐ_Ｃのみから生成されており、デプスマップを考慮していない。そこで、中間デプスマップＤ^Ｄから算出したコストウェイトＷ^Ｃをコストボリューム９１に適用することで、ＲＧＢ画像Ｐ_Ｃとデプスマップとの両方が考慮されたコストボリューム９１となる。

コストウェイトＷ^Ｃは、中間デプスマップＤ^Ｄが正しいデプス値を有する可能性が高いとして、そのデプスのウェイトを最小値とした正規分布で表す。図９に示すように、正規分布の最大値を１とし、奥行きレイヤｄの正規分布関数ｇ（ｄ）を以下の式（１）で定義する。

ここで、μは平均、σ^２は分散、σは標準偏差を表す。この正規分布関数ｇ（ｄ）を用いてコストウェイト関数ｆ_Ｃ（ｄ）を以下の式（２）で定義する。なお、ａ_ｃは、コストウェイトＷ^Ｃを決めるパラメータである。また、図１０（ａ）に示すように、式（２）の正規分布関数ｇ（ｄ）において、平均μが中間デプスマップＤ^Ｄの画素（ｕ，ｖ)のデプス値Ｄ^Ｄ（ｕ，ｖ)の平均を表し、分散σ^２がコストウェイト関数ｆ_Ｃ（ｄ）の設計方針に応じて予め設定される（例えば、σ^２＝Ｎ_Ｄ／３）。

コストウェイトＷ^Ｃは、コストボリューム９１と同一サイズの３次元配列となる。そして、コストウェイトＷ^Ｃの各要素には、以下の式（３）に示すように、コストウェイト関数ｆ_Ｃ（ｄ）の値が入る。以上より、コストウェイト算出手段５７は、式（３）を用いて、コストウェイトＷ^Ｃを算出する。

ビジビリティウェイト算出手段５８は、コストウェイト算出手段５７から入力された中間デプスマップＤ^Ｄから、オクルージョン発生時にコストを低下させるビジビリティウェイトＷ^Ｖを算出するものである。

ここで、コストボリューム９１を生成したときにオクルージョンが考慮されておらず、オクルージョンが発生した部分のコストがノイズとなり、前記したレイヤ化処理でもエラーが発生している。複数のカメラペアでコストボリューム９１の総和を求めた場合でも、このエラーは同様に発生する。なお、オクルージョンとは、一方の仮想カメラＣで見え、かつ、他方の仮想カメラＣで見えない領域が発生することである。

その一方、中間デプスマップＤ^Ｄは、１台のデプスカメラから生成されているため、オクルージョンの影響を受けない。そこで、ビジビリティウェイト算出手段５８は、オクルージョンの影響を緩和する（オクルージョンが発生した部分のコストを低下させる）ため、中間デプスマップＤ^ＤからビジビリティウェイトＷ^Ｖを算出する。

図１０（ｂ）に示すように、ビジビリティウェイト関数ｆ_Ｖ（ｄ）を以下の式（４）で定義する。なお、ａ_Ｖは、ビジビリティウェイトＷ^Ｖを決めるパラメータである。式（４）の正規分布関数ｇ（ｄ）において、平均μは、デプス値Ｄ^Ｄ（ｕ，ｖ)の平均に定数ｓｈｉｆｔを加えた値Ｄ^Ｄ（ｕ，ｖ)＋ｓｈｉｆｔを表す（但し、ｓｈｉｆｔ≧０）。また、分散σ^２は、ビジビリティウェイト関数ｆ_Ｖ（ｄ）の設計方針に応じて予め設定される（例えば、σ^２＝Ｎ_Ｄ／１０）。定数ｓｈｉｆｔの値を大きくすることで、中間デプスマップＤ^Ｄに誤差が存在しても許容される一方、ビジビリティウェイトＷ^Ｖの効果が小さくなる。

ビジビリティウェイトＷ^Ｖは、コストボリューム９１と同一サイズの３次元配列となる。そして、ビジビリティウェイトＷ^Ｖの各要素には、以下の式（５）に示すように、ビジビリティウェイト関数ｆ_Ｖ（ｄ）の値が入る。以上より、ビジビリティウェイト算出手段５８は、式（５）のビジビリティウェイトＷ^Ｖを算出する。

ウェイト適用手段５９は、初期デプスマップ生成手段５２から入力されたコストボリューム９１にコストウェイトＷ^Ｃ及びビジビリティウェイトＷ^Ｖを適用するものである。ここで、最終的なコストボリュームＥ^Ｓは、リファレンスカメラＣとして、全てのカメラペアで統合したコストボリューム９１である。つまり、ウェイト適用手段５９は、以下の式（６）に示すように、リファレンスカメラのコストウェイトＷ^Ｃ（ｘ，ｙ，ｚ）、コストボリュームＥ_ｊ、ビジビリティウェイトＷ^Ｖにより、最終的なコストボリュームＥ^Ｓを算出する。

なお、コストボリュームＥ_ｊは、リファレンスカメラＣと周囲のカメラ集合Ｓに含まれる仮想カメラＣ_ｊ（ｊ∈Ｓ）とのコストボリューム９１である。また、ｗａｒｐは、仮想カメラＣ_ｊからリファレンスカメラＣへの各奥行きレイヤＮ_Ｄを平面とした射影変換を表す。

最終デプスマップ生成手段６０は、ウェイト適用手段５９から入力されたコストボリューム９１で同一画素位置のコスト列９２において、コストが最小となる奥行きレイヤＮ_Ｄのデプスを示す最終デプスマップを生成するものである。つまり、最終デプスマップ生成手段６０は、各コスト列９２で最小のコストを有する奥行きレイヤＮ_Ｄを正しいデプスとして求め、最終的なデプスマップを生成する。
なお、最終デプスマップ生成手段６０は、初期デプスマップ生成手段５２と同様の手法で最終的なデプスマップを生成するため、これ以上の説明を省略する。

その後、リファインメント手段５は、各視点のＲＧＢ画像Ｐ_Ｃ及び最終的なデプスマップと、カメラ校正手段４から入力された仮想カメラＣのカメラパラメータとをセットで出力する。

［カメラ校正処理］
図１１を参照し、カメラ校正処理について説明する。
図１１に示すように、ステップＳ１において、画角補正手段４０は、ＲＧＢ－Ｄカメラ２から入力されたデプス画像Ｐ_Ｄの画角がＲＧＢ画像Ｐ_Ｃの画角に一致するように、デプス画像Ｐ_Ｄを射影変換する。なお、ステップＳ１の処理は、必須でないため破線で図示した。

ステップＳ２において、画像分割手段４１は、ＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄを視点毎に分割する。
ステップＳ３において、初期カメラパラメータ算出手段４２は、各視点のＲＧＢ画像Ｐ_Ｃにカメラ校正処理を施すことで、各視点に対応した仮想カメラＣの初期カメラパラメータを算出する。
ステップＳ４において、カメラパラメータ最適化手段４３は、初期カメラパラメータを初期値としたカメラ校正処理により、各仮想カメラＣの間でカメラパラメータを最適化する。
ステップＳ５において、スケール変換関数算出手段４４は、カメラパラメータが示す仮想カメラＣの位置から校正パターンまでの距離をデプス画像Ｐ_Ｄの各画素の画素値に対応させることで、スケール変換関数を算出する。

［リファインメント処理］
図１２を参照し、リファインメント処理について説明する。
図１２に示すように、ステップＳ１０において、画像分割手段５０は、ＲＧＢ画像Ｐ_Ｃ及びデプス画像Ｐ_Ｄを仮想カメラＣ毎に分割する。
ステップＳ１１において、コストボリューム生成手段５１は、奥行きレイヤ及びＲＧＢ画像Ｐ_Ｃの画素毎にコストを算出し、コストの三次元配列であるコストボリューム９１を生成する。

ステップＳ１２において、初期デプスマップ生成手段５２は、コストボリューム９１で同一画素位置のコスト列９２において、コストが最小となる奥行きレイヤのデプスを示す初期デプスマップを生成する。
なお、ステップＳ１１，Ｓ１２の処理と、後記するステップＳ１３～Ｓ１８の処理は、並列で実行できる。

ステップＳ１３において、平滑化手段５３は、デプス画像Ｐ_Ｄを平滑化する。
ステップＳ１４において、スケール変換手段５４は、デプス画像Ｐ_Ｄの各画素の画素値を実スケールのデプスに変換するスケール変換関数により、デプス画像Ｐ_Ｄを中間デプスマップに変換する。
ステップＳ１５において、レイヤ化処理手段５５は、中間デプスマップのデプスを最も近い奥行きレイヤのデプスに置き換えるレイヤ化処理を施す。

ステップＳ１６において、スケール補正手段５６は、初期デプスマップＤ^Ｃと中間デプスマップＤ^Ｄとのデプス差が閾値以下の画素について、各奥行きレイヤＮ_Ｄでデプス差の平均を補正値として求め、中間デプスマップＤ^Ｄのデプスを補正値で補正する。なお、ステップＳ１６の処理は、必須でないため破線で図示した。
ステップＳ１７において、コストウェイト算出手段５７は、中間デプスマップＤ^Ｄの重みを正規分布関数で表したコストウェイトＷ^Ｃを算出する。
ステップＳ１８において、ビジビリティウェイト算出手段５８は、中間デプスマップＤ^Ｄから、オクルージョン発生時にコストを低下させるビジビリティウェイトＷ^Ｖを算出する。

ステップＳ１９において、ウェイト適用手段５９は、コストウェイトＷ^Ｃ及びビジビリティウェイトＷ^Ｖをコストボリューム９１に適用する。
ステップＳ２０において、最終デプスマップ生成手段６０は、コストボリューム９１で同一画素位置のコスト列９２において、コストが最小となる奥行きレイヤＮ_Ｄのデプスを示す最終デプスマップを生成する。

［作用・効果］
以上のように、三次元形状取得システム１は、複数視点のＲＧＢ画像Ｐ_Ｃ及び高精度なデプスマップと、仮想カメラＣのカメラパラメータとを容易に取得できる。すなわち、三次元形状取得システム１は、簡易なシステム構成を実現し、複数視点分のＲＧＢ画像Ｐ_Ｃ及び高精度なデプスマップと、仮想カメラＣのカメラパラメータとを提供できる。これらデータは、様々なアプリケーションで利用可能である。例えば、三次元画像を生成する場合、密な多視点ＲＧＢ画像が必要になる。三次元形状取得システム１が提供するデータは、仮想カメラＣのカメラパラメータや高精度なデプスマップを含んでいるため、簡単な処理で三次元画像を生成できる。

以上、本発明の実施形態を詳述してきたが、本発明はこれに限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

前記した実施形態では、デプスカメラがＴｏＦカメラであることとして説明したが、これに限定されない。例えば、デプスカメラがステレオカメラであってもよい。

本発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、前記した三次元形状取得装置として動作させるプログラムで実現することもできる。これらのプログラムは、通信回線を介して配布してもよく、ＣＤ－ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

１三次元形状取得システム（デプスマップ生成システム）
２ＲＧＢ－Ｄカメラ（撮影装置）
２０カメラ本体
２１レンズ系
２２フレネルレンズ
２３レンズアレイ
２４要素レンズ
２５赤外線ＬＥＤアレイ
３三次元形状取得装置（デプスマップ生成装置）
４カメラ校正手段
４０画角補正手段
４１画像分割手段
４２初期カメラパラメータ算出手段
４３カメラパラメータ最適化手段
４４スケール変換関数算出手段（奥行き変換関数算出手段）
５リファインメント手段
５０画像分割手段
５１コストボリューム生成手段
５２初期デプスマップ生成手段
５３平滑化手段
５４スケール変換手段（奥行き変換手段）
５５レイヤ化処理手段
５６スケール補正手段（中間デプスマップ補正手段）
５７コストウェイト算出手段
５８ビジビリティウェイト算出手段
５９ウェイト適用手段
６０最終デプスマップ生成手段
９被写体
９０校正パターン
９１コストボリューム
９２コスト列
Ｃ仮想カメラ
Ｄ^Ｃ初期デプスマップ
Ｄ^Ｄ中間デプスマップ
Ｎ_Ｄ奥行きレイヤ

Claims

同一光軸の撮影カメラ及びデプスカメラと光学素子アレイとで構成された撮影装置が各視点で被写体を撮影した撮影画像及びデプス画像を用いて、各視点の前記撮影画像に対応したデプスマップを生成するデプスマップ生成装置であって、
奥行き方向で所定間隔の奥行きレイヤ及び前記撮影画像の画素位置毎に、前記奥行きレイヤに投影された前記撮影画像間の類似度を表すコストを算出し、当該コストを前記奥行きレイヤ及び前記画素位置で三次元配列したコストボリュームを生成するコストボリューム生成手段と、
前記デプス画像の各画素の画素値を奥行きに変換する奥行き変換関数により、前記デプス画像を中間デプスマップに変換する奥行き変換手段と、
前記中間デプスマップの重みを正規分布関数で表したコストウェイトを算出するコストウェイト算出手段と、
前記中間デプスマップから、オクルージョン発生時に前記コストを低下させるビジビリティウェイトを算出するビジビリティウェイト算出手段と、
前記コストボリュームに前記コストウェイト及び前記ビジビリティウェイトを適用するウェイト適用手段と、
ウェイト適用後の前記コストボリュームで同一画素位置のコスト列において、前記コストが最小となる前記奥行きレイヤのデプスを示す最終デプスマップを生成する最終デプスマップ生成手段と、
を備えることを特徴とするデプスマップ生成装置。
前記デプス画像を平滑化する平滑化手段、をさらに備え、
前記奥行き変換手段は、前記奥行き変換関数により、前記平滑化手段が平滑化したデプス画像を前記中間デプスマップに変換することを特徴とする請求項１に記載のデプスマップ生成装置。
前記コストボリューム生成手段が生成したコストボリュームで同一画素位置のコスト列において、前記コストが最小となる前記奥行きレイヤのデプスを示す初期デプスマップを生成する初期デプスマップ生成手段と、
前記初期デプスマップと前記中間デプスマップとのデプス差が閾値以下の画素について、前記奥行きレイヤ間でデプス差の平均を補正値として求め、前記中間デプスマップのデプスを前記補正値で補正する中間デプスマップ補正手段と、
をさらに備えることを特徴とする請求項１又は請求項２に記載のデプスマップ生成装置。
前記中間デプスマップのデプスを最も近い前記奥行きレイヤのデプスに置き換えるレイヤ化処理を施すレイヤ化処理手段、をさらに備え、
前記中間デプスマップ補正手段は、前記レイヤ化処理手段がレイヤ化処理を施した中間デプスマップのデプスを前記補正値で補正することを特徴とする請求項３に記載のデプスマップ生成装置。
前記撮影装置が各視点で校正パターンを撮影した撮影画像にカメラ校正処理を施すことで、各視点に対応した仮想カメラの初期カメラパラメータを算出する初期カメラパラメータ算出手段と、
前記初期カメラパラメータを初期値とした前記カメラ校正処理により、各仮想カメラの間でカメラパラメータを最適化するカメラパラメータ最適化手段と、
最適化した前記カメラパラメータが示す仮想カメラの位置から前記校正パターンまでの距離を前記デプス画像の各画素の画素値に対応させることで、前記奥行き変換関数を算出する奥行き変換関数算出手段と、
をさらに備えることを特徴とする請求項１から請求項４の何れか一項に記載のデプスマップ生成装置。
前記撮影装置が各視点で前記校正パターンを撮影したデプス画像の画角が前記撮影画像の画角に一致するように、当該デプス画像を射影変換する画角補正手段、をさらに備え、
前記奥行き変換関数算出手段は、前記仮想カメラの位置から前記校正パターンまでの奥行きを、前記画角補正手段が射影変換した前記デプス画像の各画素の画素値に対応させることで、前記奥行き変換関数を算出することを特徴とする請求項５に記載のデプスマップ生成装置。
コンピュータを、請求項１から請求項６の何れか一項に記載のデプスマップ生成装置として機能させるためのプログラム。
同一光軸の撮影カメラ及びデプスカメラと光学素子アレイとで構成された撮影装置と、
請求項１から請求項６の何れか一項に記載のデプスマップ生成装置と、
を備えることを特徴とするデプスマップ生成システム。