JP2019184308A

JP2019184308A - 奥行推定装置およびそのプログラム、ならびに、仮想視点映像生成装置およびそのプログラム

Info

Publication number: JP2019184308A
Application number: JP2018072424A
Authority: JP
Inventors: 妹尾　孝憲; Takanori Senoo; 孝憲妹尾; 一宏原; Kazuhiro Hara; 河北　真宏; Masahiro Kawakita; 真宏河北
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2019-10-24
Anticipated expiration: 2038-04-04
Also published as: JP7233150B2

Abstract

【課題】多視点カメラの多視点映像から、分解能を高めた奥行マップを推定することが可能な奥行推定装置を提供する。【解決手段】奥行推定装置１は、奥行マップを生成する対象となる対象視点映像を撮影したカメラの水平方向および垂直方向に近接するカメラで撮影した周辺視点映像をアップサンプルするアップサンプル手段１２と、対象視点映像とアップサンプルした周辺視点映像との間で、画素ごとに最小仮定奥行値から最大仮定奥行値までの範囲で画素値のマッチング誤差を算出するマッチング誤差算出手段１３と、マッチング誤差と仮定奥行値の連続性重みとの和によって、仮定奥行値の正しさを評価する評価関数の評価値が最小になるように、仮定奥行値を平滑化して画素ごとの奥行値を求め、奥行マップとして生成する奥行平滑化手段１５と、を備える。【選択図】図３

Description

本発明は、奥行推定装置およびそのプログラム、ならびに、仮想視点映像生成装置およびそのプログラムに関する。

従来、眼鏡の要らない裸眼立体映像として、水平方向および垂直方向に視差のあるインテグラル映像方式の実用化が進められている。インテグラル映像は、水平方向および垂直方向に２次元配列されたカメラで撮影したカメラ映像から生成することができる。しかし、インテグラル映像は、それぞれのカメラ映像以外のカメラ間の視点位置における映像を生成しておく必要があるためデータ量が膨大となり、データ伝送において、実用化の妨げとなっている。

そこで、生成したインテグラル映像をそのまま伝送するのではなく、カメラ映像の画素位置のずれ量を奥行マップとして、カメラ映像とともに伝送し、表示装置側でインテグラル映像を生成する手法が開示されている（特許文献１，２参照）。
例えば、特許文献１には、水平方向に配置された複数のカメラで撮影された多視点映像内で、対応する画素位置のずれ量を探索して、奥行マップとして出力する手法が開示されている。
また、特許文献２には、奥行マップを用いて、基準となる視点映像とオクルージョンホールとなる残差映像とを射影して、両映像の間の仮想視点映像を合成する手法が開示されている。

特開２０１２−０７３８１３号公報国際公開第２０１３−０７３３１６号

従来の手法は、水平方向から推定される奥行マップしか生成しないため、この手法を水平方向および垂直方向に配列された多視点映像に適用すると、水平方向の対応点が前景の被写体に隠れて、どの水平視点からも見えないオクルージョン部の奥行きを正しく推定することができない。そのため、従来のように水平方向に並んだ視点映像からだけでは、オクルージョン部が多く発生し、仮想視点映像を正しく合成することができないという問題がある。
また、従来の手法は、画素単位で奥行きを推定するため、インテグラル映像用の多視点映像のように、視点間隔が狭い多視点映像では、対応画素のずれ量である視差量が小さくなり、奥行マップの分解能が不足してしまう。そのため、従来の手法では、生成したインテグラル映像の画質が悪いという問題がある。

本発明は、このような問題に鑑みてなされたものであり、多視点映像から、従来よりもオクルージョン部を減らすとともに、分解能を高めた奥行マップを推定することが可能な奥行推定装置およびそのプログラム、ならびに、その奥行マップを用いて任意の仮想視点映像を生成することが可能な仮想視点映像生成装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る奥行推定装置は、多視点カメラで被写体を撮影した複数の視点映像から、前記視点映像における前記被写体の奥行マップを推定する奥行推定装置であって、対象視点映像入力手段と、周辺視点映像入力手段と、周辺視点映像アップサンプル手段と、奥行・方向別マッチング誤差算出手段と、方向別信頼度重み算出手段と、マッチング誤差選択手段と、マッチング誤差記憶手段と、奥行平滑化手段と、を備える構成とした。

かかる構成において、奥行推定装置は、対象視点映像入力手段によって、奥行マップを推定する対象となる対象視点映像を入力する。また、奥行推定装置は、周辺視点映像入力手段によって、対象視点映像の視点位置の水平方向および垂直方向に近接する視点位置の映像を、対象視点映像に対する方向別の周辺視点映像として入力する。

そして、奥行推定装置は、周辺視点映像アップサンプル手段によって、複数の周辺視点映像を水平方向および垂直方向に予め定めたアップサンプル倍率でアップサンプルする。これによって、周辺視点映像の画素ごとの画素値がサブ画素単位に割り当てられることになる。

そして、奥行推定装置は、奥行・方向別マッチング誤差算出手段によって、アップサンプルしたサブ画素に対応する位置を順次ずらしたずれ量を仮定奥行値とし、仮定奥行値ごとに、アップサンプルされた方向別の周辺視点映像と、対象視点映像との対応する画素値の差を方向別のマッチング誤差として算出する。
また、奥行推定装置は、方向別信頼度重み算出手段によって、対象視点映像の画素ごとに、水平方向および垂直方向の画素値の変化に基づいて、マッチング誤差の方向別の信頼度重みを算出する。この信頼度重みは、テキスチャの変化が少なく画素値の差が小さい場合、正しくない奥行値であってもマッチング誤差が小さくなってしまうことを防止するための重みである。

そして、奥行推定装置は、マッチング誤差選択手段によって、方向別のマッチング誤差と信頼度重みとを乗算した信頼度重み付きマッチング誤差の中で最小の信頼度重み付きマッチング誤差を、当該画素におけるマッチング誤差として選択し、マッチング誤差記憶手段に記憶する。これによって、画素位置および仮定奥行値に対応したマッチング誤差が選定されることになる。

そして、奥行推定装置は、奥行平滑化手段によって、マッチング誤差と、隣接する画素間での奥行きの連続性重みとの和によって、仮定奥行値の正しさを評価する予め定めた評価関数を用いて、マッチング誤差記憶手段に記憶されている画素位置および仮定奥行値に対する評価関数の値が最も小さくなる仮定奥行値を画素ごとに選択する。これによって、画素ごとに最適化された奥行値が選定されて、奥行マップが生成されることになる。
なお、奥行推定装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。

また、前記課題を解決するため、本発明に係る仮想視点映像生成装置は、多視点カメラで被写体を撮影した複数の視点映像と、当該視点映像の画素ごとにサブ画素単位の奥行値を有する奥行マップとから、仮想の視点位置における仮想視点映像を生成する仮想視点映像生成装置であって、参照視点映像入力手段と、奥行マップ入力手段と、参照視点映像アップサンプル手段と、映像合成手段と、オクルージョン穴補填手段と、を備える構成とした。

かかる構成において、仮想視点映像生成装置は、参照視点映像入力手段によって、指定された仮想視点位置の水平方向および垂直方向に近接する視点位置に対応する視点映像を参照視点映像として入力する。また、仮想視点映像生成装置は、奥行マップ入力手段によって、複数の参照視点映像に対応して奥行マップを入力する。

そして、仮想視点映像生成装置は、参照視点映像アップサンプル手段によって、参照視点映像入力手段で入力された複数の参照視点映像を、外部から指定される所定のアップサンプル倍率でアップサンプルする。これによって、参照視点映像の画素ごとの画素値がサブ画素単位に割り当てられることになる。
そして、仮想視点映像生成装置は、映像合成手段によって、アップサンプルした複数の参照視点映像を奥行マップで特定される奥行値に応じてサブ画素単位でシフトした位置の画素を用いて仮想視点映像の画素値を合成する。これによって、映像合成手段は、仮想視点位置における仮想視点映像を生成することができる。

さらに、仮想視点映像生成装置は、オクルージョン穴補填手段によって、映像合成手段で合成された仮想視点映像のオクルージョン穴を、オクルージョン穴に隣接する画素のうちで、最も奥行値が小さい画素の画素値で補填する。これによって、オクルージョン穴補填手段は、どの参照視点映像からも画素値が得られなかった画素に、オクルージョンとなっている背景被写体の類似画素値を割り当てた仮想視点映像を生成することができる。
なお、仮想視点映像生成装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、水平方向および垂直方向に視差を有するカメラ映像から奥行マップを生成するため、従来よりもオクルージョン部を減らすことができる。また、本発明によれば、視点映像に対してサブ画素単位で奥行きを推定することができる。
これによって、本発明は、分解能の高い奥行マップを推定することができる。
また、本発明によれば、分解能の高い奥行マップを用いて、仮想視点映像を生成するため、従来よりも高解像度の視点映像を生成することができる。
これによって、本発明は、インテグラル映像に適した多視点映像を生成することができる。

本発明の実施形態に係る多視点映像生成システムの構成を説明するための構成図である。多視点映像生成システムの多視点カメラの配置を示すカメラ配置図である。本発明の実施形態に係る奥行推定装置の構成を示すブロック図である。対象視点映像と周辺視点映像との関係を説明するための説明図であって、（ａ）〜（ｉ）に対象視点映像と周辺視点映像との対応パターンを示す。アップサンプル係数を説明するため説明図である。８倍のアップサンプル係数を算出する手法を説明するための説明図であって、サブ画素位置と係数との関係を示す。テキスチャの傾きと信頼度重みとの関係を示すグラフ図である。奥行推定装置のマッチング誤差記憶手段に記憶されるデータの記憶内容を説明するための説明図である。エッジ検出の手法を説明するための説明図である。本発明の実施形態に係る奥行推定装置の動作を示すフローチャートである。本発明の実施形態に係る仮想視点映像生成装置の構成を示すブロック図である。仮想視点映像と参照視点映像との関係を説明するための説明図であって、（ａ）〜（ｃ）に仮想視点映像と参照視点映像との対応パターンを示す。本発明の実施形態に係る仮想視点映像生成装置の動作を示すフローチャートである。本発明の実施形態に係る奥行推定装置が、奥行マップを生成する対象となる視点映像として、多視点カメラの視点映像の一部を使用する例を説明するための説明図である。仮想視点を被写体に近づけたときに発生する画素サイズの拡大を説明するための説明図であって、（ａ）は多視点カメラと同じ視点位置の参照視点映像、（ｂ）は被写体に近い視点位置の仮想視点映像、（ｃ）は画素を拡大した様子を示す仮想視点映像を示す。

以下、本発明の実施形態について図面を参照して説明する。
〔多視点映像生成システムの構成〕
図１を参照して、本発明の実施形態に係る多視点映像生成システムＳの構成について説明する。
多視点映像生成システムＳは、多視点カメラＣで被写体Ｏを撮影した多視点映像から、仮想視点の映像（仮想視点映像）を生成するものである。
多視点映像生成システムＳは、多視点カメラＣと、奥行推定装置１と、仮想視点映像生成装置２と、を備える。

多視点カメラＣは、背景Ｏ_Ａと前景Ｏ_Ｂとを含んだ被写体Ｏを撮影するものである。この多視点カメラＣは、水平方向および垂直方向に予め定めた間隔で２次元配列した複数のカメラＣ_１１，Ｃ_１２，Ｃ_１３，…で構成される。
すなわち、多視点カメラＣは、図２に示すように、水平ｎ個（ｎは２以上の整数）、垂直ｍ個（ｍは２以上の整数）のカメラＣ_１１〜Ｃ_ｍｎを、水平方向および垂直方向に配列したものである。
多視点カメラＣは、それぞれのカメラＣ_１１〜Ｃ_ｍｎで撮影した映像を、カメラ位置における視点映像として、奥行推定装置１に出力する。
なお、多視点カメラＣは、１台または２次元配列した複数台のライトフィールドカメラであってもよい。ライトフィールドカメラで撮影された映像は、複数の多視点映像に変換され、多視点カメラＣのカメラＣ_１１〜Ｃ_ｍｎが撮影された映像と同様の多視点映像となる。

多視点カメラＣが撮影する視点映像は、静止画であっても動画であっても構わない。動画である場合、多視点カメラＣは、互いにフレーム同期を行うことで、順次、静止画のフレーム画像として奥行推定装置１に映像を出力する。あるいは、フレーム画像ごとにタイムコードを付加し、奥行推定装置１で同期をとることとしてもよい。

奥行推定装置１は、多視点カメラＣで撮影されたそれぞれの視点映像について、周辺の視点映像から、奥行きを推定し奥行マップを生成するものである。
奥行推定装置１は、奥行きを推定する対象となる視点映像の各画素に、最大４方向の周辺の視点映像から推定したサブ画素単位の奥行値を対応付けた奥行マップを生成する。
奥行推定装置１は、視点映像と、当該視点映像に対応付けた奥行マップとを、仮想視点映像生成装置２に出力する。

仮想視点映像生成装置２は、多視点カメラＣで撮影された視点映像と、当該視点映像に対して奥行推定装置１で推定されたサブ画素単位の奥行マップとから、任意の仮想視点位置の映像（仮想視点映像）を生成するものである。
これによって、多視点映像生成システムＳは、前景Ｏ_Ｂに隠れた背景Ｏ_Ａの領域を水平方向および垂直方向に配列されたカメラで撮影するため、従来に比べてオクルージョン部を減らすことができる。また、多視点映像生成システムＳは、サブ画素単位で奥行マップを生成するため、奥行きの精度を高めた高画質の仮想視点映像を生成することができる。
以下、奥行推定装置１および仮想視点映像生成装置２の構成および動作について、詳細に説明する。

〔奥行推定装置の構成〕
まず、図３を参照して（適宜図１参照）、本発明の実施形態に係る奥行推定装置１の構成について説明する。
図３に示すように、奥行推定装置１は、対象視点映像入力手段１０と、周辺視点映像入力手段１１と、アップサンプル手段１２と、マッチング誤差算出手段１３と、マッチング誤差記憶手段１４と、奥行平滑化手段１５と、奥行マップ出力手段１６と、を備える。

対象視点映像入力手段１０は、多視点カメラＣから、奥行マップを推定する対象となる視点映像を対象視点映像として入力するものである。
対象視点映像入力手段１０は、多視点カメラＣの個々のカメラＣ_１１〜Ｃ_ｍｎから、順次、視点映像を入力し、マッチング誤差算出手段１３および奥行マップ出力手段１６に出力する。また、対象視点映像入力手段１０は、入力した視点映像を特定する位置情報（例えば、カメラＣ_１１〜Ｃ_ｍｎの識別情報）を、周辺視点映像入力手段１１に出力する。

周辺視点映像入力手段１１は、多視点カメラＣから、対象視点映像入力手段１０で入力した対象視点映像を撮影したカメラの水平方向および垂直方向に近接するカメラで撮影した周辺の視点映像（周辺視点映像）を入力するものである。周辺視点映像は、対象視点映像に対して、水平方向および垂直方向の最大４方向の周辺の視点映像である。

ここで、図４を参照（適宜図２参照）して、周辺視点映像について説明する。
周辺視点映像は、図４に示すように、対象視点映像Ｉ_Ｃに対して、上下左右の最大で４方向の視点映像（上視点映像Ｉ_Ｔ、下視点映像Ｉ_Ｂ、左視点映像Ｉ_Ｌ、右視点映像Ｉ_Ｒ）である。

例えば、カメラＣ_１１が撮影した視点映像を対象視点映像Ｉ_Ｃとする場合、図４（ａ）に示すように、周辺視点映像は、カメラＣ_２１が撮影した下視点映像Ｉ_ＢおよびカメラＣ_１２が撮影した右視点映像Ｉ_Ｒの２つとなる（以下、周辺視点映像の対応するカメラの記載は省略する）。
また、例えば、カメラＣ_１２が撮影した視点映像を対象視点映像Ｉ_Ｃとする場合、図４（ｂ）に示すように、周辺視点映像は、下視点映像Ｉ_Ｂ、左視点映像Ｉ_Ｌおよび右視点映像Ｉ_Ｒの３つとなる。
また、例えば、カメラＣ_１ｎが撮影した視点映像を対象視点映像Ｉ_Ｃとする場合、図４（ｃ）に示すように、周辺視点映像は、下視点映像Ｉ_Ｂおよび左視点映像Ｉ_Ｌの２つとなる。

また、例えば、カメラＣ_２１が撮影した視点映像を対象視点映像Ｉ_Ｃとする場合、図４（ｄ）に示すように、周辺視点映像は、上視点映像Ｉ_Ｔ、下視点映像Ｉ_Ｂおよび右視点映像Ｉ_Ｒの３つとなる。
また、例えば、カメラＣ_２２が撮影した視点映像を対象視点映像Ｉ_Ｃとする場合、図４（ｅ）に示すように、周辺視点映像は、上視点映像Ｉ_Ｔ、下視点映像Ｉ_Ｂ、左視点映像Ｉ_Ｌおよび右視点映像Ｉ_Ｒの４つとなる。
また、例えば、カメラＣ_２ｎが撮影した視点映像を対象視点映像Ｉ_Ｃとする場合、図４（ｆ）に示すように、周辺視点映像は、上視点映像Ｉ_Ｔ、下視点映像Ｉ_Ｂおよび左視点映像Ｉ_Ｌの３つとなる。

また、例えば、カメラＣ_ｍ１が撮影した視点映像を対象視点映像Ｉ_Ｃとする場合、図４（ｇ）に示すように、周辺視点映像は、上視点映像Ｉ_Ｔおよび右視点映像Ｉ_Ｒの２つとなる。
また、例えば、カメラＣ_ｍ２が撮影した視点映像を対象視点映像Ｉ_Ｃとする場合、図４（ｈ）に示すように、周辺視点映像は、上視点映像Ｉ_Ｔ、左視点映像Ｉ_Ｌおよび右視点映像Ｉ_Ｒの３つとなる。
また、例えば、カメラＣ_ｍｎが撮影した視点映像を対象視点映像Ｉ_Ｃとする場合、図４（ｉ）に示すように、周辺視点映像は、上視点映像Ｉ_Ｔおよび左視点映像Ｉ_Ｌの２つとなる。
以上のように、周辺視点映像入力手段１１は、対象視点映像Ｉ_Ｃを撮影したカメラＣ_１１〜Ｃ_ｍｎの位置に応じて、入力する周辺視点映像の数が異なる。
図３に戻って、奥行推定装置１の構成について説明を続ける。

周辺視点映像入力手段１１は、対象視点映像入力手段１０から通知される対象視点映像の位置情報に対応する最大４つの周辺視点映像を、対象視点映像に対する方向とともに、アップサンプル手段１２に出力する。

アップサンプル手段（周辺視点映像アップサンプル手段）１２は、周辺視点映像入力手段１１で入力した周辺視点画像をアップサンプルするものである。
アップサンプル手段１２は、周辺視点映像の画素を水平方向および垂直方向にサブ画素化する。具体的には、アップサンプル手段１２は、２倍、４倍、８倍等、予め定めたアップサンプル倍率のフィルタを用いて周辺視点映像をアップサンプルする。

例えば、４倍にアップサンプルする場合、図５に示すように、水平方向の画素位置（ｘ_−１，ｘ_０，ｘ_１，ｘ_２）の画素値を（Ｐ_−１，Ｐ_０，Ｐ_１，Ｐ_２）としたとき、アップサンプル手段１２は、画素位置ｘ_０−ｘ_１間を４等分した座標位置（サブ画素位置）に、画素値ｉ_１，ｉ_２，ｉ_３を割り当てる。この画素値ｉ_１，ｉ_２，ｉ_３は、以下の式（１）に示すように、バイキュービックフィルタのアップサンプル係数を用いて計算することができる。式（１）中、ｉ_０は、画素位置ｘ_０の画素値Ｐ_０と同じである。

なお、視点映像が、ＲＧＢ、ＹＣｂＣｒ等のカラー映像の場合、アップサンプル手段１２は、ＲＧＢ等の各チャンネルに対して、式（１）を適用する。
アップサンプル手段１２は、垂直方向においても、前記式（１）と同様にアップサンプルを行う。
なお、アップサンプルの倍率を２倍とする場合、アップサンプル手段１２は、前記式（１）のｉ_０（＝Ｐ_０）とｉ_２のみを用いればよい。

また、アップサンプルの倍率を８倍とする場合、図６に示すように、前記式（１）のｉ_０〜ｉ_３までの係数をスプライン曲線等で滑らかにつなぎ、各係数の間の値を、補間した８倍のアップサンプル係数とすればよい。
具体的には、アップサンプル手段１２は、以下の式（２）により、図５の画素位置ｘ_０−ｘ_１間を８等分した座標位置（サブ画素位置）の画素値ｉ_１〜ｉ_７を割り当てる。式（２）中、ｉ_０は、画素位置ｘ_０の画素値Ｐ_０と同じである。

アップサンプル手段１２は、サブ画素（例えば、１／８画素）精度にアップサンプルした周辺視点映像を、マッチング誤差算出手段１３に出力する。同様にして、８倍以上のアップサンプルのフィルタも容易に求めることができるため、アップサンプル倍率は８倍以上であってもよい。

マッチング誤差算出手段１３は、対象視点映像と周辺視点映像との間の対応する画素のずれ（マッチング誤差）を仮想の奥行値ごとに算出するものである。なお、マッチング誤差算出手段１３は、マッチング誤差を、１画素のマッチングではなく、３×３画素等のブロック単位で算出することで、より正確にマッチング誤差を算出する。ここでは、マッチング誤差算出手段１３は、方向別信頼度重み算出手段１３０と、奥行・方向別マッチング誤差算出手段１３１と、マッチング誤差選択手段１３２と、を備える。

方向別信頼度重み算出手段１３０は、対象視点映像の画素ごとに、水平方向および垂直方向別にマッチング誤差の信頼度重みを算出するものである。信頼度重みは、マッチング誤差の信頼度を上げるための重みである。
通常、テキスチャの変化が少なく、ブロック内の画素値の差が小さい場合、正しくない奥行値であってもマッチング誤差が小さくなる。そこで、奥行き推定の誤りを防ぐため、方向別信頼度重み算出手段１３０は、対象視点映像の画素ごとに、隣接する画素との画素値の変化（テクスチャの傾き）が大きいときには値を小さく、小さいときには値を大きくした信頼度重みを算出する。

具体的には、方向別信頼度重み算出手段１３０は、対象視点映像入力手段１０で入力された対象視点映像の画素位置（ｘ，ｙ）において、以下の式（３）に示すように、上下の画素値Ｐ（ｘ，ｙ−１），Ｐ（ｘ，ｙ＋１）の差分の絶対値から、テキスチャの垂直方向の傾きＳ_ＴＢを算出する。

また、方向別信頼度重み算出手段１３０は、対象視点映像の画素位置（ｘ，ｙ）において、以下の式（４）に示すように、左右の画素値Ｐ（ｘ−１，ｙ），Ｐ（ｘ＋１，ｙ）の差分の絶対値から、テキスチャの水平方向の傾きＳ_ＬＲを算出する。

そして、方向別信頼度重み算出手段１３０は、ブロック内の画素において、傾きＳ_ＴＢ，Ｓ_ＬＲをそれぞれ算出し、中心位置ほど大きな重みを付加して、方向別に平均化することで、画素位置（ｘ，ｙ）における水平方向のテキスチャの傾きＳ_Ｈおよび垂直方向のテキスチャの傾きＳ_Ｖを算出する。重みは、例えば、ブロックが３×３画素の場合、中心位置の傾きの重みを２／４とし、両端位置の傾きの重みをそれぞれ１／４とする。
そして、方向別信頼度重み算出手段１３０は、方向別にテキスチャの傾きＳ（Ｓ_ＨおよびＳ_Ｖ）に対応した信頼度重みＷ（Ｗ_ＨおよびＷ_Ｖ）を以下の式（５）により算出する。

ここで、ｍｉｎおよびｔｈは予め定めた定数で、ｍｉｎは傾きの許容最小値を示し、ｔｈは信頼度重みを“１”とする最小の傾きの閾値（信頼度閾値）を示す。
この式（５）で計算される傾きＳと信頼度重みＷのグラフを図７に示す。なお、信頼度重みＷは、テキスチャの傾きＳが大きければ小さく、テキスチャの傾きＳが小さければ大きいものであればよく、必ずしも式（５）で算出されたものに限らない。
方向別信頼度重み算出手段１３０は、算出した方向（水平方向および垂直方向）別の信頼度重みＷ（Ｗ_ＨおよびＷ_Ｖ）を、マッチング誤差選択手段１３２に出力する。

奥行・方向別マッチング誤差算出手段１３１は、対象視点映像入力手段１０で入力された対象視点映像と、アップサンプル手段１２でアップサンプルされた周辺視点映像との間で、奥行（仮定奥行値）別、かつ、方向（上下左右）別に、画素のマッチング誤差を算出するものである。
仮定奥行値は、被写体Ｏの奥行値を仮に設定する値であって、最小視差量に対応する奥行値から最大視差量に対応する奥行値までの値をとる。例えば、奥行値を８ビットのデータで表す場合、仮定奥行値は、“０”（最小奥行値ｄ_ｍｉｎ）から“２５５” （最大奥行値ｄ_ｍａｘ）の範囲の値をとる。

対象視点映像に対応する方向別の周辺視点映像は、図４で説明したように、最大４方向（上下左右）となる。
例えば、図４（ｅ）のように、対象視点映像Ｉ_Ｃに対して、４方向すべてに周辺視点映像が存在する場合、奥行・方向別マッチング誤差算出手段１３１は、以下の式（６）に示すように、すべての方向でマッチング誤差Ｅ（Ｅ_Ｔ，Ｅ_Ｂ，Ｅ_Ｌ，Ｅ_Ｒ）を算出する。

ここで、Ｅ_Ｔ（ｘ，ｙ，ｄ）は、対象視点映像Ｉ_Ｃの画素位置（ｘ，ｙ）の仮定奥行値をｄとしたときの上視点映像Ｉ_Ｔの画素位置（ｘ，ｙ−ｄ）との画素値の差（絶対値）である。仮定奥行値ｄは、上視点映像内の画素位置のずれ量を表している。Ｅ_Ｂ，Ｅ_Ｌ，Ｅ_Ｒについても、方向が異なるだけで、Ｅ_Ｔと同様の仮定奥行値ｄに対応する画素値の差である。
仮定奥行値ｄは、最小奥行値ｄ_ｍｉｎから最大奥行値ｄ_ｍａｘまで、単位ずらし量Δだけ順次ずらした値である。
単位ずらし量Δは、アップサンプル手段１２で用いた倍率の逆数であって、サブ画素に相当する。例えば、アップサンプル手段１２で用いた倍率が“８”であれば、単位ずらし量Δは１／８とする。

なお、前記式（６）は、すべての方向（上下左右）について、マッチング誤差を算出する式であるが、図４に示したように、存在しない方向の周辺視点映像については、奥行・方向別マッチング誤差算出手段１３１は、マッチング誤差の算出を行わないこととする。
これによって、奥行・方向別マッチング誤差算出手段１３１は、奥行別かつ方向別に、画素のマッチング誤差をサブ画素レベルで算出することができる。
奥行・方向別マッチング誤差算出手段１３１は、対象視点映像の画素および奥行きごとに、対応する最大４方向のマッチング誤差を、マッチング誤差選択手段１３２に出力する。

マッチング誤差選択手段１３２は、方向別信頼度重み算出手段１３０で算出された方向別の信頼度重みを、奥行・方向別マッチング誤差算出手段１３１で算出された画素および奥行きごとの最大４方向のマッチング誤差Ｅ_Ｔ，Ｅ_Ｂ，Ｅ_Ｌ，Ｅ_Ｒに適宜掛けたものを新たなマッチング誤差として、その中から、最小のマッチング誤差を選択するものである。マッチング誤差選択手段１３２は、信頼度重み付きマッチング誤差の最小値を選択することで、周辺視点映像の画素の中で、最も対象視点映像の画素に類似する画素を選ぶことができ、精度の高い奥行きを推定することを可能にしている。

具体的には、マッチング誤差選択手段１３２は、仮定奥行値ｄごとに、対象視点映像の画素位置（ｘ，ｙ）について、上方向のマッチング誤差Ｅ_Ｔおよび下方向のマッチング誤差Ｅ_Ｂについては垂直方向の信頼度重みＷ_Ｖを乗算し、左方向のマッチング誤差Ｅ_Ｌおよび右方向のマッチング誤差Ｅ_Ｒについては水平方向の信頼度重みＷ_Ｈを乗算する。そして、マッチング誤差選択手段１３２は、重みを付加（乗算）した最大４つのマッチング誤差（信頼度重み付きマッチング誤差）の最小値を、画素位置（ｘ，ｙ）の仮定奥行値ｄにおけるマッチング誤差とする。
これによって、テキスチャの変化が少なく、ブロック内の画素値の差が小さい場合に、誤ってマッチング誤差が小さくなることを防止することができる。

マッチング誤差選択手段１３２は、仮定奥行値ｄごとに、対象視点映像の画素位置（ｘ，ｙ）について選択した最小の信頼度重み付きマッチング誤差Ｅ（ｘ，ｙ、ｄ）をマッチング誤差記憶手段１４に記憶する。

マッチング誤差記憶手段１４は、マッチング誤差算出手段１３で算出された信頼度重み付きマッチング誤差Ｅ（ｘ，ｙ、ｄ）を記憶するものである。マッチング誤差記憶手段１４は、一般的な半導体メモリ等の記憶媒体で構成することができる。
このマッチング誤差記憶手段１４には、マッチング誤差算出手段１３によって、図８に示すように、対象視点映像の映像幅Ｘと映像高Ｙとに対応する各画素位置（０，０）〜（Ｘ，Ｙ）と仮定奥行値ｄ（ｄ_ｍｉｎ〜ｄ_ｍａｘ）に対応付けて、マッチング誤差Ｅが記憶される。

なお、マッチング誤差記憶手段１４に記憶されている仮定奥行値ごとのマッチング誤差は、後記する奥行平滑化手段１５によって、仮定奥行値を平滑化するために用いられ、画素ごとの最適な仮定奥行値、すなわち、画素ごとの視差量が設定された奥行マップが得られることになる。

奥行平滑化手段１５は、マッチング誤差記憶手段１４に記憶されている仮定奥行値ごとのマッチング誤差により、仮定奥行値を平滑化し、対象視点映像に対する奥行マップを生成するものである。
奥行平滑化手段１５は、マッチング誤差と隣接する画素間での画素値の奥行きの連続性重みとから、仮定奥行値の正しさを評価する予め定めた評価関数を用いて、評価値が最も小さい奥行値を画素ごとに選択することで、奥行マップを生成するものである。
具体的には、奥行平滑化手段１５は、マッチング誤差記憶手段１４に記憶されているすべてのマッチング誤差Ｅ（ｘ，ｙ，ｄ）に対して、以下の式（７）に示す評価関数により、仮定奥行値ｄごとの評価値Ｇを算出する。

ここで、ｄ_Ｒは画素位置（ｘ，ｙ）に隣接する右側の画素の仮定奥行値であり、ｄ_Ｄは画素位置（ｘ，ｙ）に隣接する下側の画素の仮定奥行値である。
λ_Ｒは水平方向の連続性重みであり、λ_Ｄは垂直方向の連続性重みである。
この評価値Ｇは、隣接する画素（右、下）との奥行値の差が大きければ、連続性が小さいため大きな値となり、奥行値の差が小さければ、連続性が高いため小さな値となる。

奥行平滑化手段１５は、すべての画素における前記式（７）で算出した評価値Ｇの和が最小となる画素ごとの仮定奥行値ｄを選択することで、対象視点映像に対する奥行マップを生成する。すなわち、奥行平滑化手段１５は、仮定奥行値ｄごとに、すべての画素における前記式（７）で算出した評価値Ｇの和が最小となるように、画素ごとに与えられている仮定奥行値ｄを新たな仮定奥行値ｄで置き換えるか否かを決定していき、すべての仮定奥行値の評価が終了した段階で残った仮定奥行値を、画素に対応する奥行値として決定する。この評価値（エネルギー）を最小化する手法は、グラフカット手法として一般的であるため、ここでは、詳細な説明は省略する。

なお、連続性重みλ_Ｒは、対象視点映像において、水平方向にテキスチャのエッジがある場合、エッジがない場合に比べて小さな値（例えば、エッジがない場合のλ_Ｒの１／２等）としてもよい。また、連続性重みλ_Ｄは、対象視点映像において、垂直方向にテキスチャのエッジがある場合、エッジがない場合に比べて小さな値（例えば、エッジがない場合のλ_Ｄの１／２等）としてもよい。その場合、奥行平滑化手段１５は、対象視点映像入力手段１０を介して、エッジ検出の対象となる対象視点映像を入力することとする。

エッジがある場合に、連続性重みを小さくすることで、評価値Ｇの値は小さくなり、当該画素の仮定奥行値が隣接画素の奥行値から大きく異なっていても、選択される確率を高めることになる。これによって、背景Ｏ_Ａと前景Ｏ_Ｂ（図１参照）とが非連続である場合に、当該画素の仮定奥行値が、隣接する別の被写体の奥行値とは独立に選択されることで、前景Ｏ_Ｂと背景Ｏ_Ａとの境界で同じ奥行値となってしまうことを防止することができる。
例えば、奥行平滑化手段１５は、対象視点映像の画素位置（ｘ，ｙ）にテキスチャのエッジがある場合、外部から与えられる定数である平滑係数λに、外部から与えられる重みρ（０〜１）を掛けた値を、連続性重みλ_Ｒ，λ_Ｄとする。また、奥行平滑化手段１５は、画素位置（ｘ，ｙ）にテキスチャのエッジがない場合、平滑係数λをそのまま連続性重みλ_Ｒ，λ_Ｄとする。これによって、テキスチャのエッジがない、すなわち同じ被写体の中の画素は、隣接する画素の奥行値に近い奥行値が選択されることとなる。

なお、テキスチャのエッジは、図９に示すように、画素位置（ｘ，ｙ）の水平方向および垂直方向のそれぞれ４画素の画素値で検出することができる。
例えば、画素位置（ｘ，ｙ）の水平方向におけるエッジを検出する場合、奥行平滑化手段１５は、画素値Ｐ（ｘ−３，ｙ），Ｐ（ｘ−１，ｙ），Ｐ（ｘ＋１，ｙ），Ｐ（ｘ＋３，ｙ）から得られる３個の傾きＳ１，Ｓ２，Ｓ３を、以下の式（８）で算出する。

そして、奥行平滑化手段１５は、以下の式（９）の条件を満たす場合に、画素位置（ｘ，ｙ）の水平方向にエッジがある（Ｅｄｇｅ＝１）と検出する。

また、画素位置（ｘ，ｙ）の垂直方向におけるエッジを検出する場合、奥行平滑化手段１５は、画素値Ｐ（ｘ，ｙ−３），Ｐ（ｘ，ｙ−１），Ｐ（ｘ，ｙ＋１），Ｐ（ｘ，ｙ＋３）からエッジを検出する。これは、ｘとｙとを置き換えて、前記式（８），式（９）を適用すればよい。
奥行平滑化手段１５は、対象視点映像に対して生成した奥行マップを、奥行マップ出力手段１６に出力する。

奥行マップ出力手段１６は、奥行平滑化手段１５で生成された奥行マップを視点映像（対象視点映像）と対応付けて外部に出力するものである。例えば、奥行マップ出力手段１６は、対象視点映像と奥行マップとを、視点映像を特定する位置情報（例えば、カメラＣ_１１〜Ｃ_ｍｎの識別情報）で対応付けて出力する。

以上説明したように奥行推定装置１を構成することで、奥行推定装置１は、水平方向および垂直方向の視差により奥行マップを推定するため、従来よりもオクルージョン部を減らすことができる。また、奥行推定装置１は、奥行マップを生成する対象となる視点映像の周辺の視点映像をアップサンプルすることで、サブ画素単位で奥行きを推定することができる。これによって、奥行推定装置１は、分解能を高めた高品質な奥行マップを生成することができる。なお、奥行推定装置１は、コンピュータを、前記した各手段として機能させるためのプログラム（奥行推定プログラム）で動作させることができる。

〔奥行推定装置の動作〕
次に、図１０を参照して（構成については適宜図３参照）、本発明の実施形態に係る奥行推定装置１の動作について説明する。

ステップＳ１において、奥行推定装置１は、奥行きを推定する対象となる視点映像（対象視点映像）、および、その周辺の視点映像（周辺視点映像）を入力する。このとき、対象視点映像入力手段１０は、多視点カメラＣから、順次、対象視点映像を入力し、周辺視点映像入力手段１１は、対象視点映像の最大４方向の周辺視点映像を入力する。

ステップＳ２において、アップサンプル手段１２は、ステップＳ１で入力された周辺視点映像を、アップサンプルする。このとき、アップサンプル手段１２は、バイキュービックフィルタのアップサンプル係数を用いてアップサンプルすることで、サブ画素単位の画素値をより正確に表現することができる。

ステップＳ３において、マッチング誤差算出手段１３の方向別信頼度重み算出手段１３０は、ステップＳ１で入力した対象視点映像において、画素ごとに、水平方向および垂直方向別のテキスチャの傾きによりマッチング誤差の信頼度重みを算出する（式（３）〜式（５）参照）。

ステップＳ４において、奥行・方向別マッチング誤差算出手段１３１は、ステップＳ１で入力した対象視点映像の画素ごとに、ステップＳ２でアップサンプルされた周辺視点映像との間で、奥行（仮定奥行値）別、かつ、方向（上下左右）別に、画素のマッチング誤差を算出する（前記式（６）参照）。

ステップＳ５において、マッチング誤差選択手段１３２は、奥行きごとに、ステップＳ３で算出された方向別の信頼度重みを、ステップＳ４で算出された方向別のマッチング誤差に乗算し、最小値となるマッチング誤差を選択し、マッチング誤差記憶手段１４に記憶する。

ステップＳ６において、マッチング誤差算出手段１３は、対象視点映像のすべての画素において、奥行別のマッチング誤差をマッチング誤差記憶手段１４に記憶したか否かを判定する。
ここで、対象視点映像のすべての画素において処理が完了していない場合（ステップＳ６でＮｏ）、マッチング誤差算出手段１３は、ステップＳ３に戻って、対象視点映像の画素ごとの処理を継続する。

一方、対象視点映像のすべての画素において処理が完了した場合（ステップＳ６でＹｅｓ）、ステップＳ７において、奥行平滑化手段１５は、マッチング誤差記憶手段１４に記憶されている仮定奥行値ごとのマッチング誤差を用いて、仮定奥行値を平滑化して、奥行マップを生成する。

ステップＳ８において、奥行マップ出力手段１６は、ステップＳ７で生成した奥行マップを、ステップＳ１で入力した視点映像（対象視点映像）と対応付けて、外部に出力する。
以上の動作によって、奥行推定装置１は、水平方向および垂直方向のサブ画素単位の視差により奥行マップを推定するため、分解能を高めた高品質な奥行きマップを生成することができる。

〔仮想視点映像生成装置の構成〕
次に、図１１を参照して（適宜図１参照）、本発明の実施形態に係る仮想視点映像生成装置２の構成について説明する。
図１１に示すように、仮想視点映像生成装置２は、参照視点映像入力手段２０と、奥行マップ入力手段２１と、アップサンプル手段２２と、映像合成手段２３と、オクルージョン穴補填手段２４と、仮想視点映像出力手段２５と、を備える。

参照視点映像入力手段２０は、仮想視点位置を指定されることで、仮想視点位置の水平方向および垂直方向が近接する視点位置に対応する視点映像を参照視点映像として入力するものである。
仮想視点位置は、多視点カメラＣのカメラＣ_１１〜Ｃ_ｍｎのカメラ間の任意の位置を仮想視点として指定する位置情報である。
参照視点映像は、仮想視点位置を囲む視点位置（参照視点位置）の視点映像である。
参照視点映像入力手段２０は、仮想視点位置において、参照すべき参照視点映像として、最大４つの視点映像を入力する。

ここで、図１２を参照（適宜図２参照）して、参照視点映像について説明する。
参照視点映像は、図１２（ａ）に示すように、仮想視点映像Ｉ_Ｖを生成するために、左上参照視点映像Ｒ_ＴＬ、右上参照視点映像Ｒ_ＴＲ、左下参照視点映像Ｒ_ＢＬおよび右下参照視点映像Ｒ_ＢＲの４つとする。
例えば、カメラＣ_１１，Ｃ_１２，Ｃ_２１，Ｃ_２２の間に仮想視点を設定する場合、カメラＣ_１１が撮影した視点映像を左上参照視点映像Ｒ_ＴＬとし、カメラＣ_１２が撮影した視点映像を右上参照視点映像Ｒ_ＴＲとし、カメラＣ_２１が撮影した視点映像を左下参照視点映像Ｒ_ＢＬとし、カメラＣ_２２が撮影した視点映像を右下参照視点映像Ｒ_ＢＲとする。

なお、撮影された視点映像と同じ水平位置に仮想視点が設定された場合、例えば、カメラＣ_１１，Ｃ_１２の間に、カメラＣ_１１，Ｃ_１２と同じ水平位置に仮想視点が設定された場合、参照視点映像は、図１２（ｂ）に示すように、左参照視点映像Ｒ_Ｌおよび右参照視点映像Ｒ_Ｒの２つとする。この場合、カメラＣ_１１が撮影した視点映像を、左参照視点映像Ｒ_Ｌとし、カメラＣ_１２が撮影した視点映像を右参照視点映像Ｒ_Ｒとする。
また、撮影された視点映像と同じ垂直位置に仮想視点が設定された場合、例えば、カメラＣ_１１，Ｃ_２１の間に、カメラＣ_１１，Ｃ_２１と同じ垂直位置に仮想視点が設定された場合、参照視点映像は、図１２（ｃ）に示すように、上参照視点映像Ｒ_Ｔおよび下参照視点映像Ｒ_Ｂの２つとする。この場合、カメラＣ_１１が撮影した視点映像を、上参照視点映像Ｒ_Ｔとし、カメラＣ_２１が撮影した視点映像を下参照視点映像Ｒ_Ｂとする。
図１１に戻って、仮想視点映像生成装置２の構成について説明を続ける。

参照視点映像入力手段２０は、入力した参照視点映像をアップサンプル手段２２に出力する。また、参照視点映像入力手段２０は、入力した参照視点映像を特定する位置情報（例えば、カメラＣ_１１〜Ｃ_ｍｎの識別情報）を、奥行マップ入力手段２１に出力する。

奥行マップ入力手段２１は、参照視点映像入力手段２０が入力した参照視点映像に対応する奥行マップを入力するものである。すなわち、奥行マップ入力手段２１は、参照視点映像に対応した最大４つの奥行マップを入力する。
奥行マップ入力手段２１は、入力した奥行マップを、対応する参照視点映像を特定する位置情報（例えば、カメラＣ_１１〜Ｃ_ｍｎの識別情報）とともに、映像合成手段２３およびオクルージョン穴補填手段２４に出力する。

アップサンプル手段（参照視点映像アップサンプル手段）２２は、参照視点映像入力手段２０で入力した参照視点映像をアップサンプルするものである。なお、アップサンプル手段２２は、奥行きマップの精度、すなわち、図３で説明した奥行推定装置１のアップサンプル手段１２と同じ倍率のフィルタを用いて参照視点映像をアップサンプルする。例えば、奥行推定装置１のアップサンプル手段１２において８倍のアップサンプルを行った場合、アップサンプル手段２２も、８倍のアップサンプルを行う。なお、アップサンプル手段２２におけるフィルタの係数は、アップサンプル手段１２と同じであるため、説明を省略する。また、アップサンプル手段２２は、奥行推定装置１で行った倍率以下のアップサンプルを行ってもよい。その場合、与えられた奥行値を、存在するサブ画素の分解能に合わせて丸めればよい。
アップサンプル手段２２は、アップサンプルした参照視点映像を、映像合成手段２３に出力する。

映像合成手段２３は、アップサンプル手段２２でアップサンプルされた複数の参照視点映像と、参照視点映像に対応して奥行マップ入力手段２１で入力した奥行マップとから、仮想視点位置の視点映像を合成するものである。
映像合成手段２３は、まず、それぞれの参照視点映像において、対応する奥行マップで特定される奥行値の視差分だけ画素位置をシフトする。
例えば、図１２（ａ）の左上参照視点映像Ｒ_ＴＬから仮想視点映像Ｉ_Ｖを生成する場合、左上参照視点映像Ｒ_ＴＬの画素を、当該画素に対応する奥行マップのサブ画素単位の奥行値に応じて、左上方向にシフトさせることで、仮想視点映像Ｉ_Ｖを生成する。

シフト量は、水平方向（ここでは、左方向）については、左上参照視点映像Ｒ_ＴＬの視点位置と仮想視点映像Ｉ_Ｖの視点位置との水平距離を、奥行値を求めたときに使った参照視点位置までの距離の値で割った値で、奥行値を割った値とし、垂直方向（ここでは、上方向）については、左上参照視点映像Ｒ_ＴＬの視点位置と仮想視点映像Ｉ_Ｖの視点位置との垂直距離を、奥行値を求めたときに使った参照視点位置までの距離の値で割った値で、奥行値を割った値とする。
なお、他の参照視点映像から仮想視点映像Ｉ_Ｖを生成する場合、シフトする方向が異なるだけで、前記した左上参照視点映像Ｒ_ＴＬと同様にしてシフト量を算出することができる。

そして、映像合成手段２３は、それぞれの参照視点映像から生成した最大４つの仮想視点映像の各画素値に、元となる参照視点映像と仮想視点映像との距離の逆数、または、距離の２乗の逆数に比例する重みを付けて、当該画素を構成するサブ画素全体で加算平均化する。これによって、映像合成手段２３は、最大４つの参照視点映像から、１つの仮想視点映像を生成する。
映像合成手段２３は、生成した仮想視点映像をオクルージョン穴補填手段２４に出力する。

オクルージョン穴補填手段２４は、映像合成手段２３で生成された仮想視点映像において、どの参照視点映像からも画素値が得られなかった共通のオクルージョン穴の画素を補填するものである。
具体的には、オクルージョン穴補填手段２４は、オクルージョン穴について、隣接する縦横斜めの最大１６方向に存在する画素のうちで、仮想視点映像に対応する奥行マップの奥行値が最も小さい画素の画素値を使って補填する。仮想視点映像に対応する奥行マップは、参照視点映像の各画素の奥行値を、仮想視点映像内の対応する画素位置にコピーすることで得られる。参照視点映像が複数ある場合は、各参照視点位置の奥行マップから得られた仮想視点位置の奥行マップの重み付き加算平均とすればよい。
これによって、オクルージョン穴は、背景側の類似の画素で補填されることになり、画質の劣化を抑えることができる。

さらに、オクルージョン穴補填手段２４は、オクルージョン穴の境界について、低域フィルタをかけることとしてもよい。例えば、オクルージョン穴の境界が水平方向に隣接する画素の画素値をＰ（ｘ，ｙ）、Ｐ（ｘ＋１，ｙ）としたとき、新たな画素値Ｐ（ｘ，ｙ）とその近傍の画素値Ｐ（ｘ−１，ｙ）、Ｐ（ｘ＋１，ｙ）を、以下の式（１０）に示す順番で求める。

なお、オクルージョン穴の境界が垂直方向に隣接する画素については、ｘとｙとを置き換えて、前記式（１０）を適用すればよい。
これによって、オクルージョン穴補填手段２４は、一部の参照視点映像からはオクルージョンとなるが、他の参照視点映像からはオクルージョンとならないオクルージョン穴の境界が、参照視点映像の対応する画素値の色の違いによって目立ってしまう症状を防止することができる。このように、オクルージョン穴補填手段２４は、簡易な演算で、オクルージョン穴境界の画素値の変化を滑らかにして、境界を目立たなくすることができる。

オクルージョン穴補填手段２４は、各参照視点映像から得られた各仮想視点映像ごとのすべてのオクルージョン穴の境界に低域フィルタをかけることとしてもよい。ただし、この場合、見た目は滑らかになるが、生成された仮想視点映像の信号対雑音比が低下し、映像がぼけてしまうため、すべての参照視点映像に共通するオクルージョン穴の境界にのみフィルタをかけることが好ましい。
オクルージョン穴補填手段２４は、オクルージョン穴を補填した仮想視点映像を、仮想視点映像出力手段２５に出力する。

仮想視点映像出力手段２５は、オクルージョン穴補填手段２４で生成された仮想視点映像を外部に出力するものである。
以上説明したように仮想視点映像生成装置２を構成することで、仮想視点映像生成装置２は、参照視点映像をアップサンプルして、奥行推定装置１で生成された分解能の高い高品質の奥行マップを用いるため、高解像度の仮想視点映像を生成することができる。なお、仮想視点映像生成装置２は、コンピュータを、前記した各手段として機能させるためのプログラム（仮想視点映像生成プログラム）で動作させることができる。

〔仮想視点映像生成装置の動作〕
次に、図１３を参照して（適宜図１１参照）、本発明の実施形態に係る仮想視点映像生成装置２の動作について説明する。

ステップＳ１０において、仮想視点映像生成装置２の参照視点映像入力手段２０は、仮想視点位置の指定を受け付ける。
ステップＳ１１において、参照視点映像入力手段２０は、ステップＳ１０で指定された仮想視点位置において、参照すべき参照視点映像として、最大４つの視点映像を入力する。
ステップＳ１２において、奥行マップ入力手段２１は、ステップＳ１１で入力した参照視点映像に対応する奥行マップを入力する。

ステップＳ１３において、アップサンプル手段２２は、ステップＳ１１で入力された参照視点映像を、アップサンプルする。このとき、アップサンプル手段２２は、奥行推定装置１のアップサンプル手段１２（図３参照）と同じバイキュービックフィルタのアップサンプル係数（前記式（１），式（２）参照）を用いてアップサンプルする。
ステップＳ１４において、映像合成手段２３は、ステップＳ１３でアップサンプルされた複数の参照視点映像と、ステップＳ１２で仮想視点位置に対応する参照視点映像として入力した奥行マップとから、仮想視点位置の視点映像を合成する。

ステップＳ１５において、オクルージョン穴補填手段２４は、ステップＳ１４で合成された仮想視点映像のオクルージョン穴を、当該穴に隣接する画素のうちで、仮想視点映像に対応する奥行マップの奥行値が最も小さい画素の画素値で補填する。
ステップＳ１６において、仮想視点映像出力手段２５は、ステップＳ１５でオクルージョン穴が補填された仮想視点理想を外部に出力する。

以上の動作によって、仮想視点映像生成装置２は、奥行推定装置１で推定された分解能の高い高品質な奥行きマップを用いて、任意の視点位置における高解像度の仮想視点映像を生成することができる。

以上、本発明の実施形態について説明したが、本発明はこの実施形態に限定されるものではない。
ここでは、奥行推定装置１は、多視点カメラＣのすべてのカメラＣ_１１〜Ｃ_ｍｎで撮影されたそれぞれの視点映像の奥行マップを推定することとした。しかし、奥行推定装置１は、アップサンプルされた高品質な奥行マップを推定し、仮想視点映像生成装置２では、任意の視点の仮想視点映像を生成することができるため、必ずしもすべてのカメラＣ_１１〜Ｃ_ｍｎの視点映像に対応する奥行マップを推定する必要はない。

例えば、多視点カメラＣを構成するカメラを水平方向９台×垂直方向９台としたときの８１視点の視点映像を図１４で示す。このとき、例えば、奥行推定装置１は、４視点おきに、視点映像Ｉ_１１，Ｉ_１５，Ｉ_１９，Ｉ_５１，Ｉ_５５，Ｉ_５９，Ｉ_９１，Ｉ_９５，Ｉ_９９の９つの視点映像について、奥行マップを推定する。
この場合でも、仮想視点映像生成装置２は、取得していない視点映像、例えば、視点映像Ｉ_３３については、視点映像Ｉ_１１，Ｉ_１５，Ｉ_５１，Ｉ_５５とその奥行マップとから生成することができる。
これによって、使用する多視点カメラのカメラ台数を削減することが可能である。また、奥行推定装置１から仮想視点映像生成装置２に伝送する視点映像および奥行マップのデータ量を大幅に削減することができる。

また、ここでは、仮想視点映像生成装置２は、多視点カメラＣの視点位置を含んだ仮想カメラ平面上での任意位置で仮想視点映像を生成することとした。しかし、仮想視点は、仮想カメラ平面よりも被写体に近い視点、あるいは、遠い視点を仮想視点としても構わない。
この場合、例えば、仮想視点映像生成装置２は、映像合成手段２３において、参照視点映像内の各画素位置を、参照視点位置と仮想視点位置との間の水平方向と垂直方向の距離に加えて、奥行方向の距離に相当する視差量のシフトを行って、仮想視点映像内の画素位置を決めることで、仮想視点映像を合成すればよい。なお、仮想視点位置の奥行マップを合成する場合、参照視点位置の奥行マップの各画素を、上記と同じ視差量だけシフトした位置を、仮想視点位置の奥行マップの各画素位置とし、その画素位置の奥行値（視差量）は、上記視差量に対応する値だけ、増減させることとする。この視差量に対応する奥行値の増減量は、参照視点位置と仮想視点位置間の射影変換によって得られることが知られている。

このように、多視点カメラＣの仮想カメラ平面に対して視点位置を前後させる場合、仮想視点が被写体に近い位置に設定されると、参照視点映像では隣接していた画素が離れてしまう場合がある。
例えば、図１５（ａ）の参照視点映像Ｉから、図１５（ｂ）の仮想視点映像Ｉ_Ｖを合成する場合、図１５（ａ）で同じ奥行値ｄが設定されている隣接する画素が、図１５（ｂ）のように離れてしまう場合がある。その場合、映像合成手段２３は、ある画素から水平方向に離れた距離Ｄ_Ｘ、垂直方向に離れた距離Ｄ_Ｙとしたとき、大きい方の距離をＤとして、水平Ｄ／２画素の距離以内、垂直Ｄ／２画素の距離以内の画素について、中心画素と同じ画素値を割り当てることで画素のサイズを拡大する。これによって、仮想視点が被写体に近い場合でも、合成した仮想視点映像に小さな穴が開くことを防止することができる。

また、この場合、仮想視点位置が参照視点位置より、被写体により近い場合、仮想視点位置の奥行マップの奥行値が、参照視点位置の奥行マップに与えられている奥行値の許容範囲よりも値が大きくなる（視差が広がる）ことがある。そこで、映像合成手段２３においては、多視点カメラＣの視点位置における被写体の予め想定される奥行値よりも大きい奥行値を演算可能な演算器を使用することとする。例えば、多視点カメラＣの参照視点位置における被写体の奥行値の語長が８ビットである場合、映像合成手段２３においては、例えば、１６ビットの演算器を用いることとする。これによって、仮想視点位置が参照視点位置よりも被写体に近い場合であっても、正しく仮想視点映像を生成することができる。

１奥行推定装置
１０対象視点映像入力手段
１１周辺視点映像入力手段
１２アップサンプル手段（周辺視点映像アップサンプル手段）
１３マッチング誤差算出手段
１３０方向別信頼度重み算出手段
１３１奥行・方向別マッチング誤差算出手段
１３２マッチング誤差選択手段
１４マッチング誤差記憶手段
１５奥行平滑化手段
１６奥行マップ出力手段
２仮想視点映像生成装置
２０参照視点映像入力手段
２１奥行マップ入力手段
２２アップサンプル手段（参照視点映像アップサンプル手段）
２３映像合成手段
２４オクルージョン穴補填手段
２５仮想視点映像出力手段
Ｓ多視点映像生成システム
Ｃ多視点カメラ

Claims

多視点カメラで被写体を撮影した複数の視点映像から、前記視点映像における前記被写体の奥行マップを推定する奥行推定装置であって、
前記奥行マップを推定する対象となる対象視点映像を入力する対象視点映像入力手段と、
前記対象視点映像の視点位置の水平方向および垂直方向に近接する視点位置の映像を、前記対象視点映像に対する方向別の周辺視点映像として入力する周辺視点映像入力手段と、
複数の前記周辺視点映像を水平方向および垂直方向に予め定めたアップサンプル倍率でアップサンプルする周辺視点映像アップサンプル手段と、
アップサンプルしたサブ画素に対応する位置を順次ずらしたずれ量を仮定奥行値とし、前記仮定奥行値ごとに、前記アップサンプルされた方向別の周辺視点映像と、前記対象視点映像との対応する画素値の差を方向別のマッチング誤差として算出する奥行・方向別マッチング誤差算出手段と、
前記対象視点映像の画素ごとに、水平方向および垂直方向の画素値の変化に基づいて、前記マッチング誤差の方向別の信頼度重みを算出する方向別信頼度重み算出手段と、
方向別の前記マッチング誤差と前記信頼度重みとを乗算した信頼度重み付きマッチング誤差の中で最小の信頼度重み付きマッチング誤差を、前記画素におけるマッチング誤差として選択するマッチング誤差選択手段と、
前記マッチング誤差選択手段で選択されたマッチング誤差を、前記対象視点映像の画素位置と前記仮定奥行値とに対応付けて記憶するマッチング誤差記憶手段と、
前記マッチング誤差と、隣接する画素間での奥行きの連続性重みとの和によって、仮定奥行値の正しさを評価する予め定めた評価関数を用いて、前記マッチング誤差記憶手段に記憶されている前記画素位置および前記仮定奥行値から、前記評価関数の値が最も小さい仮定奥行値を画素ごとに選択することで、奥行マップを生成する奥行平滑化手段と、
を備えることを特徴とする奥行推定装置。
前記周辺視点映像アップサンプル手段は、４倍のバイキュービックフィルタのアップサンプル係数を補間したアップサンプル係数を用いることで、前記アップサンプル倍率を８倍とすることを特徴とする請求項１に記載の奥行推定装置。
前記方向別信頼度重み算出手段は、水平方向および垂直方向の画素値の変化が大きいほど小さい重みを前記信頼度重みとすることを特徴とする請求項１または請求項２に記載の奥行推定装置。
前記奥行平滑化手段が用いる前記評価関数は、画素ごとの前記マッチング誤差に、水平方向および垂直方向にそれぞれ隣接する画素との奥行値の差に所定の重みを乗算した値を前記連続性重みとして加算するものであって、前記所定の重みは、水平方向または垂直方向においてエッジが存在する場合に、前記エッジが存在しない場合と比べて小さい重みとすることを特徴とする請求項１から請求項３のいずれか一項に記載の奥行推定装置。
コンピュータを、請求項１から請求項４のいずれか一項に記載の奥行推定装置として機能させるための奥行推定プログラム。
多視点カメラで被写体を撮影した複数の視点映像と、当該視点映像の画素ごとにサブ画素単位の奥行値を有する奥行マップとから、仮想の視点位置における仮想視点映像を生成する仮想視点映像生成装置であって、
指定された仮想視点位置の水平方向および垂直方向に近接する視点位置に対応する前記視点映像を参照視点映像として入力する参照視点映像入力手段と、
複数の前記参照視点映像に対応して前記奥行マップを入力する奥行マップ入力手段と、
前記参照視点映像入力手段で入力された複数の参照視点映像を、所定のアップサンプル倍率でアップサンプルする参照視点映像アップサンプル手段と、
アップサンプルした複数の前記参照視点映像を前記奥行マップで特定される奥行値に応じてサブ画素単位でシフトして画素内の画素値を合成することで、前記仮想視点映像を生成する映像合成手段と、
前記映像合成手段で合成された仮想視点映像のオクルージョン穴を、前記オクルージョン穴に隣接する画素のうちで、最も奥行値が小さい画素の画素値で補填するオクルージョン穴補填手段と、
を備えることを特徴とする仮想視点映像生成装置。
前記映像合成手段は、前記アップサンプルした複数の参照視点映像から得られた複数の仮想視点映像を画素ごとに平均化する際に、各画素値を、前記参照視点映像の視点位置と前記仮想視点映像の視点位置との距離の逆数、または、前記距離の２乗の逆数に比例する重みを付けて平均化することを特徴とする請求項６に記載の仮想視点映像生成装置。
前記映像合成手段は、前記仮想視点位置が、前記参照視点映像の視点位置よりも被写体に近い場合に、前記参照視点映像および対応する前記奥行マップの画素位置を、参照視点位置と仮想視点位置との間の距離に応じてシフトし、前記仮想視点位置の奥行マップの各画素の奥行値を、前記参照視点位置の奥行マップ内の対応する画素位置の奥行値に、前記シフトした量に対応する値を加えた値とし、同じ奥行値をもって互いに隣接する画素が離れた位置に射影される場合に、離れた距離に応じて画素のサイズを拡大させることを特徴とする請求項６または請求項７に記載の仮想視点映像生成装置。
前記オクルージョン穴補填手段は、前記オクルージョン穴の境界に対して低域フィルタをかけることを特徴とする請求項６から請求項８のいずれか一項に記載の仮想視点映像生成装置。
コンピュータを、請求項６から請求項９のいずれか一項に記載の仮想視点映像生成装置として機能させるための仮想視点映像生成推定プログラム。