JP4600993B2

JP4600993B2 - 自由視点映像生成システム

Info

Publication number: JP4600993B2
Application number: JP2005237427A
Authority: JP
Inventors: 彰夫石川; 亮一川田; 淳小池
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2005-08-18
Filing date: 2005-08-18
Publication date: 2010-12-22
Anticipated expiration: 2025-08-18
Also published as: JP2007052644A

Description

本発明は自由視点映像生成システムに関し、特に２次元映像とその奥行き映像を用いて任意の仮想視点から見た映像を生成する場合に好適な自由視点映像生成システムに関する。

２次元映像と対応する奥行き情報から、任意の仮想視点から見た画像を生成する、自由視点映像生成に関しては、従来、動的に更新される背景バッファを用いる下記のようなものがある（特許文献１，２）。

これらの方法は、動画像であることを利用し、仮想視点から見て物体の陰に隠れている背景部（隠蔽領域）であっても、過去のフレームにある背景情報を持ってくることによって、隠蔽領域のより少ない任意視点映像を生成する。
下記の非特許文献１のものでは、背景の抽出は、背景マスクを用いて行う。
特開２００５−６３３００公報特開２００５−２１５８４８号公報石川彰夫、川田亮一、小池淳、"自由視点ＶｏＤ映像の高画質化のための奥行き情報の伝送方式"、信学技報ＩＥ２００５−４，ｐｐ．１９〜２４、２００５年４月、

しかしながら、上記特許文献１，２の発明では、２次元映像とその奥行き映像のデータ量が多く、携帯端末などの比較的狭帯域な通信では実時間の伝送が困難である。そこで、２次元映像と奥行き映像をＨ．２６４により圧縮し、背景マスクを一連の動画像とみなして１フレームを１個の動きベクトルで予測する簡易な動き補償とＪＢＩＧにより可逆圧縮して伝送することとした。

しかし、これらの圧縮率を高めると、奥行き映像内の輪郭部分（物体と背景の境界など）の周辺にモスキート雑音やブロック雑音などの誤差が多く生じるので、仮想視点が正面以外にある場合、針状の誤差が生じ、合成した自由視点映像の画質が著しく劣化するという課題があることが分かった。

本発明の目的は、前記した従来技術の課題に鑑み、奥行き情報の圧縮率を高めても、高精度に自由視点映像を生成できる自由視点映像生成装置を提供することにある。

前記目的を達成するために、本発明は、２次元映像と、その奥行き値を表す奥行き映像と、該２次元画像の背景領域を抽出する背景マスクとを用いて、任意の視点から見た映像を生成する自由視点映像生成システムにおいて、前記２次元画像および奥行き映像の各画素が、前景領域と背景領域のいずれに属しているかを２値で表した背景マスクと、前記背景マスクを適用して、前記奥行き映像の前記前景領域と背景領域の境界を把握し、該奥行き映像の前景領域又は背景領域の映像に該境界をまたがないように施される平滑化フィルタと、前記２次元画像と前記平滑化フィルタを施された奥行き映像とから、各画素の３次元的な位置情報を求める手段と、選ばれた任意の視点位置情報を基に、前記各画素の３次元的な位置情報から仮の自由視点画像を生成する手段と、前記背景マスクを参照して、前記２次元画像と前記平滑化フィルタを施された奥行き映像とから背景画像と奥行き値を抽出する手段と、該背景画像と奥行き値を用いて、前記２次元画像における前景領域で隠蔽されていた背景領域を補完し、自由視点映像を生成する手段とを具備した点に第１の特徴がある。

また、本発明は、前記平滑化フィルタとして、中央値フィルタまたは平均値フィルタを用いる点に第２の特徴がある。

本発明によれば、背景マスクを用いて過不足の無い正確な背景領域を抽出するので、奥行データを圧縮しても、自由視点映像を高精度に生成できるようになる。

また、物体と背景の境界をまたがずに平滑化フィルタを施すことにより、奥行き情報の圧縮率を高めても、該平滑化フィルタを施さない場合に比べて、自由視点映像の画質を良好にすることができる。

以下に、図面を参照して、本発明を詳細に説明する。この発明は、本発明者による特許出願、特願２００５−１２３５８０号「自由視点映像生成システム」（以下、先願発明）の改良に係るものであるので、まずこの先願発明についてその概略を説明する。

先願発明は、背景マスクを用いて過不足の無い正確な背景領域を抽出することにより、２次元映像と奥行データを圧縮しても、自由視点映像を高精度に生成できるようにするものである。また、背景マスクを簡易な動き補償とＪＢＩＧで圧縮することにより、再構成した自由視点映像の精度を損なうことなく必要なデータ伝送量を低減し、ネットワークの負荷を軽減できるようにするものである。

背景マスクは、グレイスケール映像であり、２次元映像および奥行データの各画素が前景領域と背景領域とのどちらに属しているかという情報を示している。図６に背景マスクの例を示す。２次元映像および奥行データを背景マスクと照らし合わせて、背景マスク上の画素値が「背景」を示す領域を抽出すれば、それが背景領域となる。従って、閾値と奥行値を比較することで背景領域を抽出する従来技術とは異なり、過不足の無い正確な背景領域を抽出することが可能となる。そのため、ユーザが視点を移動した場合も、図１１にあるような不自然な領域が、再構成された映像中に生じることが避けられる。

また、背景マスクのデータ圧縮によりデータ伝送量の増加を最小限に留める一方で、背景マスクのデータ圧縮手法にＪＢＩＧという可逆的な圧縮手法を用いることにより、前景と背景の境界に破綻を生じる可能性を無くし、奥行データを圧縮して必要なデータ伝送量を低減しても、再構成した自由視点映像の精度を損なわない。

次に、先願発明の実施形態を図５を参照して説明する。図５は、自由視点画像の隠蔽領域補完方式における処理手順を示すフロー図である。この処理手順の各ステップはハードウエアあるいはソフトウエアで実現できる。

図５に示すように、まず、１視点のみからの映像である２次元映像（参照画像）と、該２次元映像の各点の奥行き情報である奥行データ（奥行きマップ）とを圧縮し、また背景マスク映像を簡易な動き補償とＪＢＩＧにより圧縮する（Ｓ１Ａ〜Ｓ１Ｃ）。次に、前記２次元映像の圧縮データと奥行データの圧縮データとから、各画素の３次元的な位置情報を把握する（Ｓ２）。続いて、ユーザが選んだ任意の視点位置情報（Ｘ）を基に、前記２次元映像と奥行データから各フレームの仮の自由視点画像を生成する（Ｓ３）。

同時に、前記背景マスクを参照して２次元映像と奥行データから背景領域を抽出する（Ｓ４）。この背景領域の抽出では、背景バッファに保存する背景画像とその奥行値とを背景領域として抽出する。

ここで、図７は前記２次元映像の一例、図８は該２次元映像の背景画像の奥行の概念図を示す。該奥行の概念図では、白黒の濃淡で奥行値の大きさを示し、濃度が濃いほど奥行値が大きいことを示している。

次に、抽出された背景画像とその奥行値とを、背景バッファに保存する。ここに保存される背景画像とその奥行値は、後続のフレームごとに抽出した最新の背景画像とその奥行値で更新される。すなわち、背景画像とその奥行値は背景バッファに動的に生成・更新される（Ｓ５）。
ここで、図９は背景バッファの概念図を示す。奥行のある背景画像が示されている。

このように動的に生成・更新された背景画像とその奥行値を用いることにより、２次元映像における前景領域で隠蔽されていた背景領域に対する画素をより完全に補完できる。なお、１フレーム分前の画像から抽出される背景画像とその奥行値あるいは数フレーム前以降の画像から抽出される背景画像とその奥行値により生成、更新される背景画像とその奥行値を用いてもある程度の画素補完は可能である。

ここで、サーバ上で背景マスクを生成する方法の一例を説明する。サーバには、未圧縮の２次元映像と奥行きデータがある。まず、式（１）を用いて２次元画像Ｉの奥行分布の統計をとる。式（１）の右辺は、２次元画像Ｉにおける奥行値がｎＳ以上、（ｎ＋１）Ｓ未満である画素の個数を意味し、Ｓは統計をとる際のステップ幅を表す。また、ｎは整数である。

次に、式（１）で求められたＶ（ｎ）をガウスフィルタで平滑化し、Ｖ’（ｎ）を算出する。ここで、Ｖ’（ｎ）が極小値をとる際の奥行きを分割指標（Ｓの整数倍数とする）として定義し、値が小さい順に分割指標min１，min２，・・・，minＭを生成する。最後に、minｍ≦ＤＩ（ｕ，ｖ）≦min（ｍ＋１）を満たす場合は、背景マスクＧ上の（ｕ，ｖ）の点にｍを代入する。すなわち、Ｇ（ｕ，ｖ）＝０とする。なお、min０＝−∞、min（Ｍ＋１）＝∞とする。

再度、図５に戻ると、次に、前記Ｓ３で生成された仮の自由視点画像を、前記Ｓ５の背景バッファに保存した背景画像とその奥行値で補完する（Ｓ６）。以上の手順により背景バッファを用いた広範囲かつ高精度の補完を行い、出力画像を得ることができる（Ｓ７）。

図１０に、背景マスクを用いた場合（本先願発明）の任意視点画像（映像）の具体例を示す。また、図１１に、該背景マスクを用いない従来の任意視点画像（映像）の具体例を示す。

なお、前記ステップＳ１Ａ〜１Ｃ，Ｓ２〜Ｓ７の処理の詳細については、前記先願発明の明細書に記されているが、本明細書では説明を省略する。

以上のように、先願発明では、背景マスクを用いて背景領域を抽出するので、過不足のない背景領域を抽出することができるが、本発明者の研究により、奥行きデータの圧縮率を高めると、奥行き映像内の輪郭部分（物体と背景の境界など）の周辺にモスキート雑音やブロック雑音などの誤差が多く生じ、仮想視点が正面以外にある場合、針状の誤差が生じ、合成した自由視点映像の画質が著しく劣化するという課題があることが分かった。

以下に、本発明の一実施形態を説明する。図１は、本発明の一実施形態の構成を示すブロック図である。図１において、図５と同一の符号は、同一または同等の機能を示すので、説明を省略する。

ステップＳ１Ａ〜Ｓ１Ｃで圧縮されたデータは伝送路を経て伝送され、受信側で、展開する処理（Ｓ１１，Ｓ１２，Ｓ１３）を受ける。次いで、展開された奥行き情報は背景マスク映像を参照して平滑フィルタ（Ｓ１４）を施される。該背景マスク映像を参照するのは、後述するように、物体と背景の境界Ｐを把握するためである。平滑化フィルタを施された奥行き情報は、ステップＳ２，Ｓ４へ送られる。

本発明の要点は、奥行き情報にこの平滑フィルタ（Ｓ１４）を施すことにある。該平滑フィルタを施すにあたって、物体と背景の境界をまたいで平滑化フィルタを施すと、両者の奥行き値が連続に変化するようになって両領域が連結してしまい、かえって誤った映像が合成されてしまう可能性がある。そこで、本実施形態では、図２に示されているように、背景マスクに基づき物体と背景の境界Ｐを把握し、該境界Ｐにまたがって前記平滑フィルタを施さないようにする。

図２は、前記物体と背景の境界Ｐを含む画像の一部の拡大図であり、碁盤状の升目は画素Ａを示す。図示の例では、左右方向の５個の画素の大きさからなる平滑化ウィンドウ１ａ、１ｂ、・・・を定義し、該平滑化ウィンドウ１ａ、１ｂ、・・・内の画素に平滑化フィルタを施して目標画素の値を決定する。この時、平滑化ウィンドウ１ａ、１ｂ、・・・が、前記境界Ｐをまたがないように、前記物体の内部または背景の内部に設定する。なお、平滑化ウィンドウは上下方向にも定義することができる。平滑化ウィンドウを左右方向と上下方向とに定義し、それぞれに平滑化フィルタを施すことにより、斜めや左右方向の境界Ｐに対しても、平滑化処理ができる。また、平滑化ウィンドウの大きさは、前記５個の画素に限定されず、３個の画素の大きさ、あるいは７個の画素の大きさであっても良い。平滑化フィルタとしては、中央値フィルタ、平均値フィルタなどを用いることができる。

本発明者が、本発明を適用して、２種類のコンテンツ（図７の「ゴルフ２」画像および不図示の「フラメンコ２」画像）に対して行った実験結果を図３（ａ）、（ｂ）、図４（ａ），（ｂ）に示す。図３、図４は、具体的には、２次元映像と奥行き映像に施すＨ．２６４のＱＰ値を変えて圧縮し、出力画像のＰＳＮＲを調べたものであり、横軸にＱＰ値、縦軸にＰＳＮＲが取られている。

図３（ａ）、（ｂ）は、同じタップ数３で、平滑化フィルタとして、中央値フィルタと平均値フィルタを用いた場合、および平滑化フィルタを用いない場合のＰＳＮＲを示したグラフである。図３（ａ）のグラフでは、ＱＰ値が１５以上になると、平滑化フィルタを用いた方が用いない場合よりもＰＳＮＲが高くなり、図３（ｂ）のグラフでは、ＱＰ値が３０以上になると、平滑化フィルタを用いた方が用いない場合よりもＰＳＮＲが高くなることが分かる。また、平均値フィルタを用いるよりも、中央値フィルタを用いた方が高いＰＳＮＲを示すことが分かる。なお、タップ数は平滑化フィルタが施される画素数（前記平滑化ウィンドウの大きさ）を示し、タップ数３であれば３画素を示す。

図４（ａ）、（ｂ）は、中央値フィルタのタップ数を変えた場合のＰＳＮＲを示す。図４（ａ）、（ｂ）の両方において、タップ数が小さい方が高いＰＳＮＲを示した。また、最もＰＳＮＲが高いタップ数３の中央値フィルタを用いた場合で比較すると、ＱＰ値が１５〜３０以上で、フィルタを用いない場合に対してＰＳＮＲが約２〜３ｄＢ上回った。

以上のことから、奥行き情報の圧縮率を高めた場合でも、物体と背景の境界をまたがずに平滑化フィルタを施すと、該平滑化フィルタを施さない場合に比べて、自由視点映像の画質が良好になることが分かった。

以上、実施形態を説明したが、本発明は種々の形態で実施できる。例えば、送信側から２次元映像と奥行データを送信し、送信された２次元映像と奥行データを用いて受信側で自由視点画像を生成することができ、本発明は、放送受信機、映像受信機としての携帯端末などに適用できる。

本発明の一実施形態の自由視点映像生成システムの処理手順を示すフローチャートである。本発明に使用する平滑化フィルタの説明図である。タップ数３で、平滑化フィルタとして、中央値フィルタと平均値フィルタを用いた場合、および平滑化フィルタを用いない場合のＰＳＮＲを示したグラフである。中央値フィルタのタップ数を変えた場合のＰＳＮＲを示すグラフである。本発明の一実施形態の自由視点映像生成システムの処理手順を示すフローチャート図である。背景マスクの一具体例を示す図である。２次元映像の一具体例を示す図である。図７に対応する奥行データの概念図である。本発明手法による背景バッファの一具体例を示す図である。背景マスクを用いた自由視点映像の一具体例を示す図である。従来システムによる自由視点映像の一具体例を示す図である。

符号の説明

Ｓ１・・・圧縮、Ｓ３・・・仮の自由視点画像の生成、Ｓ４・・・背景領域の抽出、Ｓ５・・・背景バッファの生成と更新、Ｓ６・・・仮の自由視点画像の補完、Ｓ７・・・出力画像Ｓ１１、Ｓ１２、Ｓ１３・・・展開、Ｓ１４・・・平滑化フィルタ。

Claims

２次元映像と、その奥行き値を表す奥行き映像と、該２次元画像の背景領域を抽出する背景マスクとを用いて、任意の視点から見た映像を生成する自由視点映像生成システムにおいて、
前記２次元画像および奥行き映像の各画素が、前景領域と背景領域のいずれに属しているかを２値で表した背景マスクと、
前記背景マスクを適用して、前記奥行き映像の前記前景領域と背景領域の境界を把握し、該奥行き映像の前景領域又は背景領域の映像に該境界をまたがないように施される平滑化フィルタと、
前記２次元画像と前記平滑化フィルタを施された奥行き映像とから、各画素の３次元的な位置情報を求める手段と、
選ばれた任意の視点位置情報を基に、前記各画素の３次元的な位置情報から仮の自由視点画像を生成する手段と、
前記背景マスクを参照して、前記２次元画像と前記平滑化フィルタを施された奥行き映像とから背景画像と奥行き値を抽出する手段と、
該背景画像と奥行き値を用いて、前記２次元画像における前景領域で隠蔽されていた背景領域を補完し、自由視点映像を生成する手段と、
を具備したことを特徴とする自由視点映像生成システム。
請求項１に記載の自由視点映像生成システムにおいて、
前記平滑化フィルタは、中央値フィルタまたは平均値フィルタであることを特徴とする自由視点映像生成システム。
請求項２に記載の自由視点映像生成システムにおいて、
前記平滑化フィルタは、前記奥行き映像に、左右方向または上下方向に平滑化フィルタを施すことを特徴とする自由視点映像生成システム。
請求項３に記載の自由視点映像生成システムにおいて、
前記平滑化フィルタは、３，５または７画素に対して施すことを特徴とする自由視点映像生成システム。
請求項１ないし４のいずれかに記載の自由視点映像生成システムにおいて、
前記奥行き映像は、非可逆圧縮されていることを特徴とする自由視点映像生成システム。