JP2015041796A

JP2015041796A - 画像処理方法、画像処理装置、画像処理プログラム、およびデータ構造

Info

Publication number: JP2015041796A
Application number: JP2013170522A
Authority: JP
Inventors: テヘラニメヒルダドパナヒプル; Tehrani Mehrdad Panahpour; 彰夫石川; Akio Ishikawa; 河北　真宏; Masahiro Kawakita; 真宏河北; 奥井　誠人; Masato Okui; 誠人奥井; 直己井ノ上; Naoki Inoue; 藤井　俊彰; Toshiaki Fujii; 俊彰藤井; 桂太高橋; Keita Takahashi
Original assignee: Nagoya University NUC; National Institute of Information and Communications Technology
Current assignee: Nagoya University NUC; National Institute of Information and Communications Technology
Priority date: 2013-08-20
Filing date: 2013-08-20
Publication date: 2015-03-02

Abstract

【課題】生成される距離画像の時間領域における安定性を高める技術が要求されている。
【解決手段】多視点映像を再構成するための距離画像を生成する画像処理方法は、被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出した上で、隣接する映像フレーム間で内容が変化しているエリアを第１の精度で検出して第１のエリアとして決定するステップと、第１のエリアのうち、隣接するフレーム間で内容が変化しているエリアを第１の精度より高い第２の精度で検出して第２のエリアとして決定するステップと、フレーム内の第２のエリアを除く第３のエリアについて、他のフレームと共通の距離画像を適用するとともに、第２のエリアについて、対応する映像フレームから生成された距離画像を適用することで、各フレームの距離画像を生成するステップとを含む。
【選択図】図８

Description

本発明は、多視点映像を処理する画像処理方法、画像処理装置および画像処理プログラム、ならびに多視点映像を再構成するための距離画像に適したデータ構造に関する。

現在、超臨場感コミュニケーション（Ultra-Realistic Communications）を実現する各種の技術について研究が進められている。このような技術の一つとして、多視点画像（multi-view images）を用いて高精細な立体映像を提供する三次元映像技術がある。このような立体映像は、非常に多数の視点（例えば、２００視点）から被写体を撮像して得られる視差画像によって実現される。多視点映像は、一般的には、輝度画像および距離情報（以下、「距離画像」または「Depthマップ」とも称す。）で構成される。

距離画像は、複数の視点から被写体をそれぞれ撮像して得られた情報から推定されることが一般的である。そのため、画像間のステレオマッチング精度などに起因して誤差を生じ得る。このような誤差を含む距離画像を用いて動画像を再構成すると、被写体の時間的に変化していない部分であっても、距離画像が時間的に変動することになり、再現性が低下する。

このような距離画像の時間軸方向で生じるゆらぎを安定化するための技術がいくつか提案されている。

非特許文献１および非特許文献２は、距離画像の安定化に係る一つのアプローチを開示する。具体的には、非特許文献１は、ステレオマッチングの前にノイズを除去することで、距離画像のノイズを各フレームで個別に除去するというアプローチを開示する。非特許文献２は、前フレームの推定された距離画像を現フレームの距離画像の推定のための初期値として連係させることで、距離画像のノイズを各フレームで個別に除去するというアプローチを開示する。より具体的には、非特許文献２は、ＤＥＲＳ（Depth Estimation Reference Software）において採用されているのと同様の推定方法を用いている。

一方、非特許文献３は、距離画像の安定化に係る別のアプローチを開示する。具体的には、非特許文献３は、映像は静的エリア(static areas)の画像を有しているという仮定の下、先に、当該静的エリアについての距離画像を一旦生成するアプローチを開示する。後続のフレームにおけるフォワグランド（foreground）およびバックグランド（background）の距離情報を組み合わせることで、現フレームの距離画像が生成される。

K. Yamamoto, M. Kitahara, H. Kimata, T. Yendo, T. Fujii, M. Tanimoto, S. Shimizu, K. Kamikura, Y. Yashima, "Multiview Video Coding Using View Interpolation and Color Correction", IEEE Trans. CSVT, 17(11), pp. 1436-1449, Nov. 2007. "Description of Exploration Experiments in 3D Video Coding", MPEG 2008/W10173, Busan, Korea, October 2008. K. Suzuki, N. Fukushima, T. Yendo, M. Panahpour Tehrani, T. Fujii, and M. Tanimoto, "Free-viewpoint Image Generation using Moving Object Detection", Proc. of IWAIT 2011, Jan 2011

非特許文献１および２に開示されるアプローチは、時間領域（time domain）において距離画像をいくらかは安定化するものの、フレーム毎に生成される距離画像の間では、時間領域において不連続になる部分が存在し、これによって、合成された仮想的な像（synthesized virtual view）の品質が劣化するとともに、距離画像についての圧縮効率が低下する。

また、非特許文献３では、静的エリアを検出するためにどのような方法が適しているのかについて検討されておらず、かつ、フォワグランドオブジェクトの検出についても追究されることなく、コンピューターによって生成されたシーケンスについての実験結果を示すにすぎない。

そのため、生成される距離画像の時間領域における安定性を高める技術が要求されている。

本発明のある局面に従えば、多視点映像を再構成するための距離画像を生成する画像処理方法が提供される。画像処理方法は、被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出するとともに、隣接する映像フレーム間で内容が変化しているエリアを第１の精度で検出して第１のエリアとして決定するステップと、第１のエリアのうち、隣接するフレーム間で内容が変化しているエリアを第１の精度より高い第２の精度で検出して第２のエリアとして決定するステップと、フレーム内の第２のエリアを除く第３のエリアについて、他のフレームと共通の距離画像を適用するとともに、第２のエリアについて、対応する映像フレームから生成された距離画像を適用することで、各フレームの距離画像を生成するステップとを含む。

好ましくは、第１のエリアとして決定するステップは、算出された差分画像に対してダウンサンプリングするステップと、ダウンサンプリング後の画像に対して複数種類のフィルタを適用するステップと、複数種類のフィルタを適用後の画像に対してアップサンプリングするステップと、アップサンプリング後の画像に対してしきい値処理を実行するステップとをさらに含む。また、第２のエリアとして決定するステップは、第１のエリアに対応する画像に対して複数種類のフィルタを適用するステップを含む。

好ましくは、画像処理方法は、映像フレーム列を複数のフレームからなるフレームグループに分割するステップと、映像フレーム列に含まれる複数の映像フレームから基準フレームを生成するステップをさらに含む。設定するステップは、各フレームグループの先頭フレームを基準フレームとして設定するステップを含む。

好ましくは、距離画像を生成するステップは、基準フレームに対応する距離画像を、他のフレームの第３のエリアに適用するステップを含む。

好ましくは、画像処理方法は、映像フレーム列に含まれる特定のフレームを基準フレームとして設定するステップをさらに含む。

本発明の別の局面に従えば、多視点映像を再構成するための距離画像を生成する画像処理装置が提供される。画像処理装置は、被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出するとともに、隣接する映像フレーム間で内容が変化しているエリアを第１の精度で検出して第１のエリアとして決定するための手段と、第１のエリアのうち、隣接するフレーム間で内容が変化しているエリアを第１の精度より高い第２の精度で検出して第２のエリアとして決定するための手段と、フレーム内の第２のエリアを除く第３のエリアについて、他のフレームと共通の距離画像を適用するとともに、第２のエリアについて、対応する映像フレームから生成された距離画像を適用することで、各フレームの距離画像を生成するための手段とを含む。

本発明のさらに別の局面に従えば、多視点映像を再構成するための距離画像を生成するための画像処理プログラムが提供される。当該画像処理プログラムはコンピューターに、被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出するとともに、隣接する映像フレーム間で内容が変化しているエリアを第１の精度で検出して第１のエリアとして決定するステップと、第１のエリアのうち、隣接するフレーム間で内容が変化しているエリアを第１の精度より高い第２の精度で検出して第２のエリアとして決定するステップと、フレーム内の第２のエリアを除く第３のエリアについて、他のフレームと共通の距離画像を適用するとともに、第２のエリアについて、対応する映像フレームから生成された距離画像を適用することで、各フレームの距離画像を生成するステップとを実行させる。

本発明のさらに別の局面に従えば、多視点映像を再構成するための距離画像のデータ構造が提供される。ここで、距離画像は、他のフレームと共通の距離画像が用いられる第１のエリアと、対応する映像フレームから生成された距離画像が用いられる第２のエリアとが組み合わせて定義される。第２のエリアは、被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出した上で、隣接する映像フレーム間で内容が変化していると検出されたエリアに相当し、第１のエリアは、第２のエリアを除く残りのエリアに相当する。

本発明によれば、生成される距離画像の時間領域における安定性を高めることができる。

本実施の形態に従う立体映像再生システムを示す図である。本実施の形態に従う輝度画像および距離画像の生成処理の一例を説明するための図である。本実施の形態に従う画像処理アルゴリズムの概要を説明するための模式図である。本実施の形態に従う画像処理方法の概要の処理手順を示すフローチャートである。送信機として機能する情報処理装置のハードウェア構成例を示す模式図である。受信機として機能する情報処理装置のハードウェア構成例を示す模式図である。実施の形態１に従うフォワグランドを特定する処理を説明するための図である。実施の形態１に従う画像処理方法の処理手順を示すフローチャートである。実施の形態１に従うフォワグランドフレームとバックグランドフレームとの間の差分画像の生成例を示す図である。実施の形態１に従うフォワグランドマスクの生成例を示す図である。実施の形態１に従う距離画像シーケンスを生成する処理を説明するための図である。実施の形態１に従う安定化された距離画像の生成例を示す図である。フレーム個別に推定された距離画像、およびそれぞれ推定された距離画像から合成された仮想的な像の例（３フレーム分）を示す。実施の形態１に従う画像処理アルゴリズムによって生成された安定化された距離画像、およびそれぞれ生成された距離画像から合成された仮想的な像の一例（３フレーム分）を示す。実施の形態２に従う映像シーケンスのフレームグループへの分割処理を説明するための図である。実施の形態２に従う画像処理方法の処理手順を示すフローチャートである。実施の形態３に従うバックグランドフレームの生成処理を概説するための図である。実施の形態３に従うバックグランドフレームの生成処理の具体的な手順の一例を説明するための図である。実施の形態４に従うフォワグランドマスクの生成処理を説明するための図である。実施の形態４に従うバックグランドの生成処理を説明するための図である。

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

［Ａ．応用例］
まず、本実施の形態に従う画像処理装置などについての理解を容易化するために、典型的な応用例について説明する。本実施の形態に従う画像処理装置の応用先としては、以下に示す構成に限定されるものではなく、任意の構成に応用できる。また、画像処理方法、その画像処理方法を実現するためのプログラム、およびそのプログラムを格納する記憶媒体などについても、本願発明の技術的範囲に含まれる。

図１は、本実施の形態に従う立体映像再生システム１を示す図である。図１を参照して、立体映像再生システム１では、複数のカメラ１０からなるカメラアレイを用いて被写体２を撮像することで多視点映像が生成される。この多視点映像は、送信機として機能する情報処理装置１００においてエンコーディングされた上で伝送される。そして、受信機として機能する情報処理装置２００においてエンコーディングによって生成されたデータがデコーディングされて、立体表示装置３００でその被写体２が再現される。すなわち、立体表示装置３００は、被写体２の立体映像を再構成する。なお、送信機から受信機へのデータ伝送については、有線および無線を問わず任意の媒体を用いることができる。

送信機として機能する情報処理装置１００は、入力画像に対して前処理を実行するプリプロセッサー１１０と、エンコーディングを実行するエンコーダー１２０とを含む。エンコーダー１２０は、データフォーマット変換やデータ圧縮の処理を実行する。

一方、受信機として機能する情報処理装置２００は、受信データをデコーディングするデコーダー２１０と、後処理を実行するポストプロセッサー２２０とを含む。デコーダー２１０は、データフォーマット逆変換やデータ復元の処理を実行する。

立体表示装置３００は、主として拡散フィルム３１２および集光レンズ３１４で構成される表示スクリーン３１０と、表示スクリーン３１０に多視点映像を投影するプロジェクターアレイ３０２とを含む。プロジェクターアレイ３０２を構成する各プロジェクターは、情報処理装置２００から出力される多視点映像の対応する視点の像を表示スクリーン３１０へ投影する。

立体映像再生システム１によれば、表示スクリーン３１０の前にいる観察者には被写体２の再生立体像が提供される。このとき、表示スクリーン３１０と観察者との相対的な位置に応じて、観察者の視野に入る視点の画像が変化するようになっており、観察者は、あたかも被写体２の前にいるような体験が得られる。

立体映像再生システム１は、一般用途としては、映画館やアミューズメント施設などで利用され、産業用途としては、遠隔医療システム、工業デザイン設計システム、パブリックビューイング等の電子広告システムとして利用されることが期待されている。

［Ｂ．概要］
次に、本実施の形態に従う画像処理アルゴリズムの本質的な処理について概説する。

図２は、本実施の形態に従う輝度画像および距離画像の生成処理の一例を説明するための図である。図２を参照して、複数の視点から被写体を撮像することで輝度画像Ｖ_１，…，Ｖ_ｎ−１，Ｖ_ｎ，Ｖ_ｎ＋１，…が取得されるとする。以下の説明においては、例えば、輝度画像Ｖ_１の添え字（カッコ無し）である「１」は、視点の位置を示すものとする。本実施の形態においては、動画像、つまり時間領域において連続する視点別のフレーム列（シーケンス）からなる多視点映像を対象とするので、時間領域の変数を導入する。具体的には、時刻Ｔ_ｎにおける輝度画像をＶ_１（Ｔ_ｎ），…，Ｖ_ｎ−１（Ｔ_ｎ），Ｖ_ｎ（Ｔ_ｎ），Ｖ_ｎ＋１（Ｔ_ｎ），…と表現する。例えば、輝度画像Ｖ_１（Ｔ_ｎ）のカッコ内の添え字である「Ｔ_ｎ」は、時間領域における位置（時刻）を示すものとする。

例えば、輝度画像Ｖ_１，…，Ｖ_ｎ−１，Ｖ_ｎ，Ｖ_ｎ＋１，…に対応付けて、距離画像Ｄ_１，…，Ｄ_ｎ−１，Ｄ_ｎ，Ｄ_ｎ＋１，…がそれぞれ生成されるものとする。距離画像Ｄ_１，…，Ｄ_ｎ−１，Ｄ_ｎ，Ｄ_ｎ＋１，…の各々は、同一視点および同一時刻の輝度画像から推定することもできるし、隣接する視点の輝度画像から推定することもできる。

図２には、一例として、同一視点および同一時刻において撮像された輝度画像、および、隣接する２つの視点について同一時刻に撮像された輝度画像から、距離画像を推定する処理を示す。これに限られるものではないが、例えば、視点ｎの時刻Ｔ_ｎにおける距離画像Ｄ_ｎ（Ｔ_ｎ）は、輝度画像Ｖ_ｎ（Ｔ_ｎ）ならびに輝度画像Ｖ_ｎ−１（Ｔ_ｎ）およびＶ_ｎ＋１（Ｔ_ｎ）の情報から推定されるものとする。

本実施の形態に従う画像処理アルゴリズムは、多視点映像を再構成するための距離画像を生成する。より具体的には、本実施の形態に従う画像処理アルゴリズムでは、各視点の距離画像について、時間領域での変動量を算出するとともに、その算出した変動量に基づいて、フォワグランド(foreground)とバックグランド(background)とに分離する。ここで、「フォワグランド」は、時間領域において移動する被写体、またはその一部（以下、「移動オブジェクト(moving object)」とも称す。）が含まれるエリアであり、何らかの基準像(reference view)との比較において変化しているエリアを意味する。「バックグランド」は、基本的には、「フォワグランド」以外のエリアを意味する。なお、「フォワグランド」および「バックグランド」の用語は、対応するエリアを指し示す意味で用いる場合もあるし、対応するエリアに含まれる画像情報（距離画像や輝度画像）を指し示す意味で用いる場合もある。

バックグランドと判断されたエリアについては、時間領域のある範囲に亘って共通の距離画像を用いることで、時間領域における連続性を維持する。一方、フォワグランドと判断されたエリアについては、対応する距離画像を各時刻（フレーム毎）について算出する。

図３は、本実施の形態に従う画像処理アルゴリズムの概要を説明するための模式図である。図３を参照して、時間領域上のシーケンスとしての距離画像Ｄ_ｎ（Ｔ_ｎ），Ｄ_ｎ（Ｔ_ｎ＋１），Ｄ_ｎ（Ｔ_ｎ＋２）を考える。例えば、距離画像Ｄ_ｎ（Ｔ_ｎ）を基準とすると、距離画像Ｄ_ｎ（Ｔ_ｎ＋１）の一部に変化が生じており、この変化が生じている部分をバックグランドＢＧとする。さらに、距離画像Ｄ_ｎ（Ｔ_ｎ）を基準とすると、距離画像Ｄ_ｎ（Ｔ_ｎ＋２）には、距離画像Ｄ_ｎ（Ｔ_ｎ＋１）に比較してより大きなエリアに変化が生じたとする。この変化が生じている部分がフォワグランドＦＧとなる。フォワグランドＦＧ以外のエリアは、バックグランドＢＧと判断され、バックグランドＢＧについては、距離画像Ｄ_ｎ（Ｔ_ｎ），Ｄ_ｎ（Ｔ_ｎ＋１），Ｄ_ｎ（Ｔ_ｎ＋２）の間で共通の距離画像が用いられる。

このように、時間領域において、バックグランドＢＧとフォワグランドＦＧとを区分することで、少なくともバックグランドＢＧについては、時間領域における連続性を維持することができる。さらに、基準とされなかった距離画像については、基準とされた距離画像の一部と、各時刻のフォワグランドＦＧについての距離画像とから合成できるので、各時刻の距離画像を構成するために必要な情報を低減できる。つまり、多視点映像の伝送に係る情報量を低減できる。

図４は、本実施の形態に従う画像処理方法の概要の処理手順を示すフローチャートである。図４を参照して、まず、入力された映像シーケンスを各フレームに分割する処理が実行され、続いて、時間領域においてフレーム同士を比較することで、バックグランドおよびフォワグランドを特定する処理が実行される（ステップＳ１）。続いて、特定されたバックグランドおよびフォワグランドのエリア別の情報に基づいて、距離画像シーケンス（距離画像のフレーム列）が生成される（ステップＳ２）。そして、生成された距離画像シーケンス（距離画像のフレーム列）を圧縮およびエンコーディングすることで、伝送に適したビットストリームを出力する処理が実行される（ステップＳ３）。

なお、伝送されたビットストリームは、デコーディングおよび伸張されて、距離画像シーケンスに復元される。

上述したように、本実施の形態に従うアルゴリズムでは、映像フレーム列を用いて、移動オブジェクトや変化エリアに相当するフォワグランドを検出する。フォワグランドは、基準像（すなわち、バックグランド）と比較されることで、フォワグランドマスクとして検出される。後続のフレームのフォワグランドのオブジェクトについて、それを示すフォワグランドマスクおよび距離画像が生成された後、フォワグランドおよびバックグランドの距離画像を組み合わせることで、現フレームの距離画像を生成する。

なお、基準像（バックグランド）については、典型的には、（１）バックグランドシーンそのものである１または複数のバックグランドフレームが存在する場合と、（２）撮像によって得られた映像フレーム列には、バックグランドシーンが存在しない場合とが想定される。（１）のケースでは、いずれかのフレームからフォワグランドマスクが後述するような手順で生成される。また、（２）のケースでは、いくつかの連続するフレームからフォワグランドが生成される。

また、本実施の形態に従う画像処理アルゴリズムでは、すべてのフォワグランドのエリアを含み、かつ、可能な限り誤って検出されるエリアを削減することのできる粗マスクを検出し、続いて、粗マスクをブラッシュアップして精密マスクを生成する。

上述した処理についてのいくつかの実装例について説明する。
［Ｃ．ハードウェア構成］
まず、図１に示す立体映像再生システム１を構成する装置のハードウェア構成例について説明する。図５は、送信機として機能する情報処理装置１００のハードウェア構成例を示す模式図である。図６は、受信機として機能する情報処理装置２００のハードウェア構成例を示す模式図である。

図５を参照して、情報処理装置１００は、プロセッサ１０４と、メモリ１０６と、カメラインターフェイス１０８と、通信インターフェイス１１２と、ハードディスク１１４と、入力部１１６と、表示部１１８とを含む。これらの各コンポーネントは、バス１２２を介して互いにデータ通信可能に構成されている。

プロセッサ１０４は、ハードディスク１１４などに格納されているプログラムを読出してメモリ１０６に展開して実行することで、本実施の形態に係る画像処理アルゴリズム（広義のエンコーディング処理）を実現する。メモリ１０６は、プロセッサ１０４が処理を実行するためのワーキングメモリとして機能する。

カメラインターフェイス１０８は、複数のカメラ１０と接続され、それぞれのカメラ１０が撮像した画像を取得する。取得された画像は、ハードディスク１１４やメモリ１０６に格納されてもよい。ハードディスク１１４は、上述した画像処理アルゴリズムを実現するためのエンコーディングプログラム１１４ａを不揮発的に保持している。

入力部１１６は、典型的には、マウスやキーボードなどを含み、ユーザからの操作を受付ける。表示部１１８は、処理結果などをユーザへ通知する。

通信インターフェイス１１２は、無線伝送装置１０２などと接続され、プロセッサ１０４による処理の結果出力されるデータを無線伝送装置１０２へ出力する。

図６を参照して、情報処理装置２００は、プロセッサ２０４と、メモリ２０６と、プロジェクタインターフェイス２０８と、通信インターフェイス２１２と、ハードディスク２１４と、入力部２１６と、表示部２１８とを含む。これらの各コンポーネントは、バス２２２を介して互いにデータ通信可能に構成されている。

プロセッサ２０４、メモリ２０６と、入力部２１６、および、表示部２１８は、図５に示すプロセッサ１０４、メモリ１０６と、入力部１１６、および、表示部１１８とそれぞれ同様であるので、詳細な説明は繰り返さない。

プロジェクタインターフェイス２０８は、立体表示装置３００と接続され、プロセッサ２０４によって復元された多視点映像などを立体表示装置３００へ出力する。

通信インターフェイス２１２は、無線伝送装置２０２などと接続され、情報処理装置１００から伝送されるビットストリームを受信し、プロセッサ２０４へ出力する。

ハードディスク２１４は、デコーディングを実現するためのデコーディングプログラム２１４ａと、復元されたオリジナル画像を含む画像データ２１４ｂとを不揮発的に保持している。

図５および図６にそれぞれ示す情報処理装置１００および２００のハードウェア自体およびその動作原理は一般的なものであり、本実施の形態に係る画像処理を実現するための本質的な部分は、ハードディスクなどの記憶媒体に格納されたエンコーディングプログラム１１４ａやデコーディングプログラム２１４ａといったソフトウェア（命令コード列から構成されたプログラム）である。このようなエンコーディングプログラム１１４ａやデコーディングプログラム２１４ａは、光学記憶媒体、磁気記憶媒体、半導体記憶媒体といった記憶媒体に格納されて流通する。このようなプログラムを格納する記憶媒体についても本願発明の技術的範囲に含まれる。

エンコーディングプログラム１１４ａおよび／またはデコーディングプログラム２１４ａは、ＯＳ（Operating System）が提供するモジュールを用いて処理を実行するように構成してもよい。この場合には、エンコーディングプログラム１１４ａおよび／またはデコーディングプログラム２１４ａは、一部のモジュールを含まないことになるが、このような場合であっても、本願発明の技術的範囲に含まれる。

情報処理装置１００および／または情報処理装置２００の全部または一部の機能をＡＳＩＣ（Application Specific Integrated Circuit）などの専用の集積回路を用いて実現してもよいし、ＦＰＧＡ（Field-Programmable Gate Array）やＤＳＰ（Digital Signal Processor）などのプログラム可能なハードウェアを用いて実現してもよい。

［Ｄ．実施の形態１］
実施の形態１として、典型的には、撮像する装置（カメラ）を固定設置して風景などを撮像するような場合に適した画像処理アルゴリズムについて説明する。この場合には、カメラから入力される映像シーケンスを構成するフレームの間では、共通のバックグランドを有しており、これを用いることで、移動オブジェクトを容易に検出し、フォワグランドを容易に特定できる。

また、実施の形態１においては、２段階の処理（粗マスク生成処理および精密マスク生成処理）を用いて、各フレームのフォワグランドを特定する。画像内の各画素は、バックグランドおよびフォワグランドのいずれかに属することになる。例えば、フォワグランドに属するエリアのみを特定するマップ（すなわち、マスク）を生成すれば、マスクされてないエリアがバックグランドに相当することが自動的に判断できる。実施の形態１においては、処理の簡素化の観点から、画像内のフォワグランドに相当するエリアを特定するマップ、すなわちフォワグランドマスクを生成することとする。このフォワグランドマスクは、対象の画像と同じ画素サイズを有しており、画素毎にフォワグランドに相当するか否かを「０」または「１」のフラグ値（バイナリ値）で示すマップである。

但し、フォワグランドマスクの生成は、処理の便宜上のためのものであり、フォワグランドマスクを用いることなく本発明を実装することもできる。このような実装例についても、本発明の技術的範囲に含まれる。

（ｄ１：フォワグランドの特定処理）
図７は、実施の形態１に従うフォワグランドを特定する処理を説明するための図である。図７に示すように、映像シーケンスが共通のバックグランドを有している場合には、当該バックグランドは、映像シーケンス内で変化しない（すなわち、一定である）といえる。このような場合には、映像シーケンス内のあるフレーム（典型的には、先頭フレーム）が基準フレーム（フォワグランドフレームＦＧＦ）として決定され、基準フレーム以外のフレームがバックグランドフレームＢＧＦとして決定される。つまり、映像フレーム列に含まれる特定のフレームを基準フレームとして設定する処理が実行される。

フォワグランドフレームＦＧＦとバックグランドフレームＢＧＦの各々とを比較することで、各フレームについて、フォワグランドおよびバックグランドに相当するエリアが決定される。

（ｄ２：全体処理手順）
図８は、実施の形態１に従う画像処理方法の処理手順を示すフローチャートである。図８を参照して、バックグランドおよびフォワグランドを特定する処理（ステップＳ１）として、ステップＳ１１〜Ｓ１４が実行される。

より具体的には、まず、映像シーケンスの入力を受付けるとともに、入力された映像シーケンスをフレーム毎に分割する処理が実行される（ステップＳ１１）。入力される映像シーケンスは、複数のカラー映像フレームから構成される。続いて、入力された映像フレームの先頭フレームをフォワグランドフレームＦＧＦとして設定し、残りのフレームをバックグランドフレームＢＧＦとして設定する処理が実行される（ステップＳ１２）。そして、ステップＳ１３およびＳ１４に示す、フォワグランドマスクの生成処理が実行される。ステップＳ１３においては、フォワグランドマスクの大まかなエリアを検出するための粗マスク生成処理が実行され、ステップＳ１４においては、粗マスク生成処理を用いて、フォワグランドマスクのより詳細なエリアを検出するための精密マスク生成処理が実行される。ステップＳ１３およびＳ１４の実行によって、フォワグランドマスクが生成される。

より具体的には、ステップＳ１３の粗マスク生成処理では、フォワグランドフレームＦＧＦと対象のバックグランドフレームＢＧＦに対してフィルタリング処理が実行される（ステップＳ１３１）。続いて、フィルタリング処理後のフォワグランドフレームＦＧＦと対象のバックグランドフレームＢＧＦとの間の差分画像を算出するとともに、しきい値処理が実行される（ステップＳ１３２）。ステップＳ１３２において、２値化画像（マスク）が生成される。そして、生成されたマスクに対してダウンサンプリング処理が実行される（ステップＳ１３３）。

さらに、ダウンサンプリング後の画像に対して、検出処理(detection process)が実行される（ステップＳ１３４）。検出処理後の画像に対してアップサンプリング処理が実行され（ステップＳ１３５）、さらにしきい値処理が実行される（ステップＳ１３６）。これらの一連の処理によって、２値化画像（粗マスク）が生成される。

このように、ステップＳ１３においては、被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出するとともに、隣接する映像フレーム間で内容が変化しているエリア（フォワグランド）を第１の精度で検出して第１のエリア（粗マスク）として決定する処理が実行される。

また、ステップＳ１４の精密マスク生成処理では、生成された粗マスクに対して検出処理が実行される（ステップＳ１４１）。そして、検出処理後の粗マスクに対してしきい値処理が実行される（ステップＳ１４２）。これらの一連の処理によって、２値化画像（精密マスク）、つまりフォワグランドマスクが生成される。このフォワグランドマスクは、フレーム毎に生成される。

このように、ステップＳ１４においては、第１のエリア（粗マスク）のうち、隣接するフレーム間で内容が変化しているエリアを第１の精度より高い第２の精度で検出して第２のエリア（精密マスク／フォワグランド）として決定する処理が実行される。

フォワグランドマスクが生成されると、距離画像シーケンス（距離画像のフレーム列）が生成される（ステップＳ２）。より具体的には、距離画像シーケンス（距離画像のフレーム列）の入力を受付け（ステップＳ２１）、各フレームについて、バックグランドフレームＢＧＦの距離画像のうちフォワグランドマスクでマスクされないエリア（つまり、各フレームにおいてバックグランドと判断されたエリア）の情報と、各フォワグランドフレームＦＧＦの距離画像のうちフォワグランドマスクでマスクされたエリア（つまり、各フレームにおいてフォワグランドと判断されたエリア）の情報とを組み合わせることで、安定化された距離画像シーケンス（距離画像のフレーム列）を生成する処理が実行される（ステップＳ２２）。

このように、ステップＳ２においては、フレーム内の第２のエリア（精密マスク／フォワグランド）を除く第３のエリア（バックグランド）について、他のフレームと共通の距離画像を適用するとともに、第２のエリア（精密マスク／フォワグランド）について、対応する映像フレームから生成された距離画像を適用することで、各フレームの距離画像を生成する処理が実行される。

その後、生成された距離画像シーケンス（距離画像のフレーム列）を圧縮およびエンコーディングすることで、伝送に適したビットストリームを出力する処理が実行される（ステップＳ３）。

以下、上述の主要な処理について、より詳細にその内容を説明する。
（ｄ３：粗マスク生成処理（ステップＳ１３））
粗マスク生成処理では、フォワグランドマスクを生成するための粗マスクが生成される。粗マスクは、移動オブジェクトのすべてのエリアを含まなければならず、かつ、フォワグランドとして誤って検出されるエリアを除かなければならない。

上述のステップＳ１３１においては、フォワグランドフレームＦＧＦと対象のバックグランドフレームＢＧＦとに対してフィルタリング処理が実行される。このフィルタリング処理としては、任意のフィルタを用いることができるが、実施の形態１においては、ガウシアンを適用する。このフィルタリング処理は、画像に含まれるノイズの除去、および、画像内照度の微小変動を低減することを目的としている。

続いて、上述のステップＳ１３２において、フィルタリング処理後のフォワグランドフレームＦＧＦと対象のバックグランドフレームＢＧＦとの間の差分画像が算出されるとともに、しきい値処理が実行される。これによって、２値化画像（マスク）が生成される。つまり、第１のエリア（粗マスク）を決定する処理は、映像フレーム間の差分画像を算出する処理を含む。

図９は、実施の形態１に従うフォワグランドフレームＦＧＦとバックグランドフレームＢＧＦとの間の差分画像の生成例を示す図である。図９に示すように、フォワグランドフレームＦＧＦとバックグランドフレームＢＧＦとの間で対応する画素同士での画素値の差をそれぞれ算出することで、差分画像ＤＦＦが生成される。この差分画像ＤＦＦは、フレーム間に現われる移動オブジェクトを含む。

上述のステップＳ１３３においては、ステップＳ１３２の処理によって生成されたマスクに対してダウンサンプリング処理が実行される。ダウンサンプリング処理としては、任意の補間アルゴリズムを用いることができるが、実施の形態１においては、バイリニア補間を用いて、Ｎのオーダー（１／Ｎ）までダウンサンプリングする。このダウンサンプリング処理によって、マスクとして不適切であるが誤って検出されたエリアをさらに抑制することができる。なお、このダウンサンプリング処理では、画素値の補間処理を行なうため、処理の結果生成される画像は、２値化画像ではないことに注意されたい。

上述のステップＳ１３４においては、ダウンサンプリング後の画像に対して、検出処理が実行される。この検出処理としては、モフォロジカルフィルタおよびメディアンフィルタが何回かに亘って適用される。このフィルタの適用回数や種類などは、対象の画像の特徴などに応じて適宜設計すればよいが、実施の形態１においては、以下のような３段階のフィルタリング処理を採用した。

（エロージョン（収縮）フィルタ＋メディアン（中間）フィルタ）×ｎ回
（ダイレーション（膨脹）フィルタ＋メディアンフィルタ）×ｍ回
（エロージョンフィルタ＋メディアンフィルタ）×ｐ回
なお、上述のｎ，ｍ，ｐについては、それぞれ任意の値を設定できる。

このフィルタリング処理、およびその後のしきい値処理は、誤って検出されたよりマスクを除外するともに、フォワグランドオブジェクトのすべてのエリアをカバーするより大きなマスクを生成する。

このように、第１のエリア（粗マスク）を決定する処理は、算出された差分画像に対してダウンサンプリングする処理と、ダウンサンプリング後の画像に対して複数種類のフィルタを適用する処理とを含む。

上述のステップＳ１３４においては、ステップＳ１３３の処理によって生成されたマスクに対して、Ｎのオーダー（１／Ｎ）までアップサンプリング処理が実行される。さらにしきい値処理が実行される。以上までの処理によって、２値化画像（粗マスク）が生成される。

このように、第１のエリア（粗マスク）を決定する処理は、複数種類のフィルタを適用後の画像に対してアップサンプリングする処理と、アップサンプリング後の画像に対してしきい値処理を実行する処理とをさらに含む。

（ｄ４：精密マスク生成処理（ステップＳ１４））
精密マスク生成処理では、粗マスクから精密マスクが生成される。以下の処理は、粗マスクとして検出されたエリアに対して適用される。

上述のステップＳ１４１においては、粗マスクに対して検出処理が実行される。この検出処理としては、モフォロジカルフィルタおよびメディアンフィルタが何回かに亘って適用される。このフィルタの適用回数や種類などは、対象の画像の特徴などに応じて適宜設計すればよいが、実施の形態１においては、上述のステップＳ１３４において実行された検出処理と同一のフィルタリング処理を実行する。

上述のステップＳ１４２においては、検出処理後の粗マスクに対してしきい値処理が実行される。これによって、最終的なマスクである精密マスク、すなわちフォワグランドマスクが生成される。

このように、第２のエリア（精密マスク／フォワグランドマスク）を決定する処理は、第１のエリア（粗マスク）に対応する画像に対して複数種類のフィルタを適用する処理を含む。

図１０は、実施の形態１に従うフォワグランドマスクの生成例を示す図である。図１０に示す生成例は、図９に示す差分画像に対して上述の処理を行なった結果に相当する。図１０（ａ）には、図９に示す差分画像に対してしきい値処理を行なうことで生成された２値化画像（マスク）の例を示す。図１０（ｂ）には、図１０（ａ）の２値化画像（マスク）から生成された粗マスクの例を示す。図１０（ｃ）には、図１０（ｂ）の粗マスクから生成された精密マスク（フォワグランドマスク）の例を示す。

（ｄ５：距離画像シーケンス生成処理（ステップＳ２））
上述したように、与えられたバックグランドのシーン／フレームの下、距離画像が生成される。

図１１は、実施の形態１に従う距離画像シーケンスを生成する処理を説明するための図である。図１１に示すように、バックグランドフレームＢＧＦの距離画像ＢＤＭのうちフォワグランドマスクＦＧＭでマスクされないエリア（つまり、各フレームにおいてバックグランドと判断されたエリア）の情報と、各フォワグランドフレームＦＧＦの距離画像ＦＤＭのうちフォワグランドマスクＦＧＭでマスクされたエリア（つまり、各フレームにおいてフォワグランドと判断されたエリア）の情報とを組み合わせることで、安定化された距離画像ＳＤＭが生成される。ここで、各フレームのフォワグランドのエリアには、基準フレームに対応する距離画像が適用される。

図１１に示すように、本実施の形態に従う距離画像シーケンスでは、多視点映像を再構成するための特有のデータ構造を有する距離画像が生成される。この距離画像は、他のフレームと共通の距離画像が用いられる第１のエリア（バックグランド）と、対応する映像フレームから生成された距離画像が用いられる第２のエリア（フォワグランド）とが組み合わせて定義されている。ここで、第２のエリアは、被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出した上で、隣接する映像フレーム間で内容が変化していると検出されたエリアに相当する。一方、第１のエリアは、第２のエリアを除く残りのエリアに相当する。

図１２は、実施の形態１に従う安定化された距離画像の生成例を示す図である。図１２に示す生成例は、図９および図１０に示す処理結果から生成されたものである。図１２（ａ）には、フォワグランドフレームＦＧＦの距離画像の例を示す。図１２（ｂ）には、バックグランドフレームＢＧＦの距離画像の例を示す。図１２（ｃ）には、フォワグランドフレームＦＧＦの距離画像とバックグランドフレームＢＧＦの距離画像とを合成して得られた、安定化された距離画像の例を示す。

（ｄ６：ビットストリーム出力処理（ステップＳ３））
上述したように、バックグランドフレームＢＧＦの距離画像は、バックグランドおよびフォワードの組み合わせによって定義されるので、バックグランドフレームＢＧＦの距離画像については、フォワグランドの情報のみを圧縮およびエンコーディングするようにしてもよい。つまり、バックグランドフレームＢＧＦの距離画像については、すべての情報を圧縮およびエンコーディングの対象にするとともに、後続の各バックグランドフレームＢＧＦの距離画像については、バックグランドと判断されたエリアの情報および当該エリアにおける距離の情報のみを圧縮およびエンコーディングの対象にすればよい。

このような圧縮およびエンコーディングの方法を採用することで、より効率的な伝送を実現できる。

（ｄ７：シミュレーション例）
上述した実施の形態１に従う画像処理アルゴリズムの有効性を評価するために実施したシミュレーション結果の一例について説明する。

図１３は、フレーム個別に推定された距離画像、およびそれぞれ推定された距離画像から合成された仮想的な像の例（３フレーム分）を示す。図１４は、実施の形態１に従う画像処理アルゴリズムによって生成された安定化された距離画像、およびそれぞれ生成された距離画像から合成された仮想的な像の一例（３フレーム分）を示す。

図１３の距離画像に示すように、フレーム個別に推定するアルゴリズムを採用した場合には、同一の被写体であるにもかかわらず、時間領域において不連続になっているエリアが発生していることがわかる。これに対して、実施の形態１に従う画像処理アルゴリズムによれば、距離画像について、時間領域における連続性の度合いが高まっていることがわかる。すなわち、距離画像が時間領域において滑らかになっているといえる。これによって合成される像についてもより安定化される。

（ｄ８：利点）
実施の形態１によれば、時間領域において、より安定的に距離画像を再構成できる。つまり、実施の形態１に従って生成されるフォワグランドマスクは、距離画像の安定的な再構成により適している。

実施の形態１においては、粗マスクの生成および精密マスクの生成といった２段階の処理を採用するので、処理の高速化および生成されるフォワグランドマスクの精密化の両方を実現できる。

また、実施の形態１において再構成される距離画像を時間領域において安定化できるので、ビットストリームへのデータフォーマット変換やデータ圧縮をより効率的に行なうことができる。

さらに、再構成される距離画像を時間領域において安定化できるので、フレーム個別に距離画像を再構成する場合に比較して、合成される仮想的な像についても時間領域において安定化できる。つまり、仮想的な像に生じるフリッカ（ちらつき）などを低減できる。

［Ｅ．実施の形態２］
上述の実施の形態１において、入力される映像シーケンスを構成するフレームの間で共通のバックグランドを有しているような場合に適した画像処理アルゴリズムについて説明した。しかしながら、入力される映像シーケンスを構成するフレームの間で共通のバックグランドを有していないような場合もある。

そこで、実施の形態２として、入力された映像シーケンスをシーン毎などにグループ分けし、各グループ内に属するフレームの間では共通のバックグランドを有しているとみなして処理する画像処理アルゴリズムについて説明する。

（ｅ１：フォワグランドの特定処理）
図１５は、実施の形態２に従う映像シーケンスのフレームグループへの分割処理を説明するための図である。図１５に示すように、映像シーケンスを各々が１つ以上のフレームからなるフレームグループ（ＧｏＦ：Group of Frames）へ分割する処理が実行される。このフレームグループへの分割は、典型的には、シーンの切り替わりなどの検出結果に基づいて実行される。例えば、動画圧縮規格の一つであるＨ．２６４（ＭＰＥＧ−４ＡＶＣ）などで採用されているシーンに基づくグループ分けのアルゴリズムを採用することができる。映像シーケンスの全体を見れば、共通のバックグランドは存在しないが、比較的短時間の個々のシーンについて見れば、その中に含まれるフレーム間には共通のバックグランドが存在しているとみなすことができる。

このように分割されたフレームグループの各々において、基準フレーム（フォワグランドフレームＦＧＦ）が決定され、基準フレーム以外のフレームがバックグランドフレームＢＧＦとして決定される。典型的には、各フレームグループ内の先頭フレームが基準フレームとして決定される。以下の説明では、フレームグループの各々において、１つのフレームのみが基準フレームとして選択される例を示すが、複数のフレームを基準フレームとして選択してもよい。

このように、実施の形態２においては、入力された映像シーケンスをシーン毎などにグループ分けし、各フレームグループに含まれる一部のフレームを基準フレームに設定し、当該基準フレームを基準としてバックグランドを特定する。基準フレームに設定されたフレームは、その全体がフォワグランドになる。

つまり、実施の形態２に従う画像処理アルゴリズムは、映像フレーム列を複数のフレームからなるフレームグループに分割する処理を含む。そして、各フレームグループの先頭フレームを基準フレームとして設定する処理が実行される。

（ｅ２：全体処理手順）
図１６は、実施の形態２に従う画像処理方法の処理手順を示すフローチャートである。図１６に示すフローチャートは、図８に示すフローチャートに比較して、ステップＳ１の処理として、ステップＳ１２〜Ｓ１４に代えて、ステップＳ１２Ａ〜Ｓ１４Ａが実行される点が異なっている。これらの変更点は、図１５に示すようなフレームグループ単位でフォワグランドフレームＦＧＦが決定される処理に起因するものである。以下、主として、図８からの相違点について説明する。

より具体的には、まず、映像シーケンスの入力を受付けるとともに、入力された映像シーケンスをフレーム毎に分割する処理が実行される（ステップＳ１１）。各フレームは、連続する複数のフレームから構成される。

続いて、分割された複数の映像フレームのコンテンツを解析して、いくつかのフレームグループへ分割する処理が実行される。典型的には、図１５に示すような時系列に配置された複数のフレームを、シーン切替えなどの位置に基づいて、各々に１つ以上のフレームを含むようなフレームグループに分割する処理が実行される。分割によって生成されたフレームグループの各々において、先頭フレームをフォワグランドフレームＦＧＦとして設定し、残りのフレームグループをバックグランドフレームＢＧＦとして設定する処理が実行される（ステップＳ１２Ａ）。なお、各フレームグループにおいて、連続するフレーム間の変化はそれほど大きくないと予想されるので、このようなフォワグランドフレームＦＧＦの設定は有効である。

そして、ステップＳ１３ＡおよびＳ１４Ａに示す、フォワグランドマスクの生成処理が、フレームグループの単位で繰り返し実行される。つまり、各フレームグループにおいて設定されたフォワグランドフレームＦＧＦとバックグランドフレームＢＧＦの各々とを比較することで、フォワグランドマスクが生成される。このフォワグランドマスクの生成は、上述の実施の形態１において説明したアルゴリズムと同様であるので、詳細な説明は繰り返さない。

各フレームについてのフォワグランドマスクが生成されると、フレームグループ単位で、当該フレームグループにおいて設定されたフォワグランドフレームＦＧＦの距離画像と、各バックグランドフレームＢＧＦの距離画像とを組み合わせることで、安定化された距離画像が生成される。

上述した以外の処理は、実施の形態１に係る画像処理方法の処理手順と同様であるので、詳細な説明は繰り返さない。

（ｅ３：エンコーディングおよびビットストリーム出力（ステップＳ３））
なお、上述のフレームグループへの分割をＨ．２６４（ＭＰＥＧ−４ＡＶＣ）で採用されているものと同じアルゴリズムを利用する場合には、生成された距離画像のフレーム列に対するエンコーディングをより効率的に行なうこともできる。以下、このような効率的なエンコーディングについて説明する。

公知の技術であるＨ．２６４規格に従って安定化された距離画像のフレーム列を圧縮するために、多視点映像シーケンスの圧縮処理前に映像グループ（ＧｏＰ：Group of Pictures）が設定される。フレームグループに分割されたシーケンスに対する圧縮効率を最適化するために、この設定される映像グループのサイズ（Ｘ）をフレームグループのサイズ（Ｙ）の整数倍、すなわち、Ｘ＝ｎ×Ｙ（但し、ｎ＝１，２，３，…）の関係が成立するように、設定することが好ましい。

このような映像グループとフレームグループとの間の関係を維持することで、映像フレームおよび距離画像フレームとを併せてエンコーディングおよび圧縮できるので、圧縮効率を高めることができる。

その他の処理については、上述の実施の形態１と同様であるので、詳細な説明は繰り返さない。

（ｅ４：利点）
実施の形態２によれば、カメラや被写体が時間的に変化して、映像フレーム間に共通のバックグランドが存在しない場合であっても、より安定的に距離画像を再構成できる。また、実施の形態２において再構成される距離画像を時間領域において安定化できるので、ビットストリームへのデータフォーマット変換やデータ圧縮をより効率的に行なうことができる。

実施の形態２においても、粗マスクの生成および精密マスクの生成といった２段階の処理を採用するので、処理の高速化および生成されるフォワグランドマスクの精密化の両方を実現できる。

［Ｆ．実施の形態３］
上述の実施の形態１および２においては、フレーム列に含まれる特定のフレームをフォワグランドとして設定する処理例について説明したが、これに限られず、複数のフレームに対する統計的な処理を用いてフォワグランドを動的に生成するような処理を用いてもよい。実施の形態３においては、フォワグランドマスクを検出するための基準となるフォワグランドフレームＦＧＦを動的に生成する場合の処理例について説明する。

（ｆ１：処理概要）
図１７は、実施の形態３に従うバックグランドフレームＢＧＦの生成処理を概説するための図である。図１７に示すように、時間的に連続するいくつかのまとまった映像フレーム列に対して、統計処理を実行することで、バックグランドフレームＢＧＦが生成される。各バックグランドフレームＢＧＦを生成するための映像フレーム列は、基本的には、共通のオブジェクトを含んでいる必要がある。このようなバックグランドフレームＢＧＦの生成対象となる映像フレーム列は、どのような方法を用いて決定してもよいが、典型的には、上述の実施の形態２において説明したような、そのコンテンツ（例えば、シーン）に応じて区分されたフレームグループなどを用いることができる。あるいは、予め定められたフレーム数（例えば、８フレームや１６フレーム）毎にバックグランドフレームＢＧＦを生成するようにしてもよい。

なお、実施の形態３においては、距離画像の生成対象となるフレームより時間領域において前（直近）のフレームを複数用いて、バックグランドフレームＢＧＦが生成されてもよい。つまり、上述の実施の形態１および２においては、フレーム列の先頭フレームをフォワグランドフレームＦＧＦとして設定し、その後のフレームをこのフォワグランドフレームＦＧＦと比較したが、実施の形態３においては、時間領域において対象のフレームより前のフレームからフォワグランドフレームＦＧＦを生成しておくことで、同様の効果を奏する。

但し、対象のフレームを含む複数のフレームから比較対象となるフォワグランドフレームＦＧＦを生成するようにしてもよい。つまり、時間領域において対象のフレームより後のフレームを含む複数のフレームからフォワグランドフレームＦＧＦを生成するようにしてもよい。

つまり、実施の形態３に従う画像処理アルゴリズムは、映像フレーム列に含まれる複数の映像フレームから基準フレームを生成する処理を含む。

（ｆ２：全体処理手順）
実施の形態３に従う画像処理方法の処理手順としては、上述の実施の形態２に従う画像処理方法の処理手順（図１６に示すフローチャート）において、フレームグループの各々において、先頭フレームをフォワグランドフレームＦＧＦとして設定する処理（ステップＳ１２Ａ）に代えて、設定されたフレームグループに含まれるフレーム列からバックグランドフレームＢＧＦを動的に生成する処理が実行される点が異なっている。

その他の処理については、実質的に、図１６に示す処理手順と同様であるので、詳細な説明は繰り返さない。

（ｆ３：バックグランドフレームの生成処理）
次に、実施の形態３に従うバックグランドフレームＢＧＦの生成処理について説明する。実施の形態３においては、共通のバックグランドを有しているとみなすことができる複数のフレーム列からバックグランドフレームＢＧＦを生成する。つまり、共通のバックグランドフレームＢＧＦを生成するフレーム列の間では、バックグランドとなる像の画面内の相対位置は変化しないと仮定する。このような仮定の下、図１７に示すように、フレーム列を構成する各フレームの同一の座標における画素値を用いて、バックグランドフレームＢＧＦの各座標の画素値を決定する。

このとき、複数の画素値に対して、例えば、中間値、平均値、最大値、最小値のいずれかを算出するといった統計処理を用いることで、バックグランドフレームＢＧＦの各画素値を算出する。このような統計処理の他、以下のような統計処理を採用することもできる。

図１８は、実施の形態３に従うバックグランドフレームＢＧＦの生成処理の具体的な手順の一例を説明するための図である。図１８を参照して、フレーム列に含まれるフレームｆ１，ｆ２，ｆ３，ｆ４，…の座標（ｘ，ｙ）における画素値をｐ１，ｐ２，ｐ３，ｐ４，…とする。この画素値としては、典型的には、輝度値や濃淡値である。

図１８に示す座標系は、画素値と強度とによって定義されており、この座標系上において、各フレームの画素値の大きさをピークとするガウシアン分布をそれぞれ規定する。その上で、それぞれのガウシアン分布を統合したカーネルＫＮＬを規定する。このカーネルＫＮＬにおけるピークを対応する座標の画素値の代表値として決定する。このような統計処理を採用することで、各フレームの画素値にゆらぎがあっても、その確率に応じた代表値を決定できる。

統計処理としては、上述したものに限られず、任意の処理を採用することができる。
その他の処理については、上述の実施の形態１または２と同様であるので、詳細な説明は繰り返さない。

（ｆ４：利点）
実施の形態３によれば、カメラや被写体が時間的に変化して、映像フレーム間に共通のバックグランドが存在しない場合であっても、より安定的に距離画像を再構成できる。また、実施の形態３において再構成される距離画像を時間領域において安定化できるので、ビットストリームへのデータフォーマット変換やデータ圧縮をより効率的に行なうことができる。

［Ｇ．実施の形態４］
上述の実施の形態１および２においては、バックグランドフレームＢＧＦを基準としてフレームを比較することで、フォワグランドとバックグランドとに分離する処理を例示した。このような差分を用いる処理に代えて、モーションベクトルを用いてもよい。

実施の形態４においては、モーションベクトルを用いる処理例について説明する。
（ｇ１：フォワグランドマスクの生成）
図１９は、実施の形態４に従うフォワグランドマスクの生成処理を説明するための図である。図１９（ａ）には、モーションベクトルの算出例を示し、図１９（ｂ）には、図１９（ａ）に示すモーションベクトルの算出例から決定されるフォワグランドマスクの例を示す。

典型的なモーションベクトルの検出アルゴリズムとしては、映像シーケンスに含まれるフレーム間の差分などを用いて、ブロック毎にモーションベクトルの大きさが検出される。相対的に大きなモーションベクトルを示しているブロックは、移動オブジェクトが存在しているエリアと判断できる。そのため、各フレームについて検出されたモーションベクトルの大きさが予め定められたしきい値より大きなエリア（ブロック）をフォワグランドとして決定し、それ以外のエリアをバックグランドとして決定することができる。

図１９（ｂ）には、比較的大きなモーションベクトルを示しているエリアからフォワグランドマスクを生成する例を示している。

なお、モーションベクトルを用いる場合であっても、２段階の処理を用いてフォワグランドマスクを生成するようにしてもよい。例えば、フレームをマクロブロックに分割し、各マクロブロックについてのモーションベクトルを算出することで、粗マスクを生成する。続いて、粗マスクに含まれるマクロブロックをより細かなブロックに分割し、各ブロックについてのモーションベクトルを算出することで、精密マスクを生成する。

このような手順でフォワグランドマスクを生成することで、処理量を低減しつつ、より詳細なフォワグランドマスクを決定できる。

（ｇ２：バックグランドの生成）
図２０は、実施の形態４に従うバックグランドの生成処理を説明するための図である。図２０（ａ）を参照して、例えば、カメラ自体が移動しており、フレーム列の間でバックグランドＢＧの画面内の相対位置が時間的に変化しているとする。同時に、移動オブジェクトも存在し、その一部にはフォワグランドのエリアが生じているとする。

このような場合であっても、モーションベクトルを用いることで、バックグランドおよびフォワグランドの両方を検出することもできる。

図２０（ｂ）には、フレーム列に含まれるフレームｆ１，ｆ２，ｆ３から検出されたモーションベクトルの一例を示す。各ブロックについて検出されるモーションベクトルのグローバル成分を行なうことで、バックグランドＢＧの全体的な動きを検出することができる。図２０（ｂ）に示される例では、紙面左下側へ向かうモーションベクトルがグローバル成分であり、バックグランドＢＧが紙面左下側へ向かっていると判断できる。

このようなグローバル成分のモーションベクトルの他、紙面右上へ向かうモーションベクトルが存在している。このような特異的な特徴を示す、つまりローカル成分のモーションベクトルが存在するエリアをフォワグランドとして決定することができる。

このようなローカル成分のモーションベクトルを用いることで、フレームｆ１，ｆ２，ｆ３からバックグランドを生成することもできる。具体的には、図２０（ｃ）に示すように、モーションベクトルを参照することで、フレームｆ１の座標（ｘ，ｙ）と、フレームｆ２の座標（ｘ＋Δｘ１，ｙ＋Δｙ１）と、フレームｆ２の座標（ｘ＋Δｘ２，ｙ＋Δｙ２）とが対応することを検出できる。それぞれのフレームの対応する座標における画素値Ｐ１，Ｐ２，Ｐ３を収集するとともに、これらの画素値に対して統計的な処理を行なうことで、バックグランドＢＧを生成することもできる。

その他の処理については、上述の実施の形態１〜３と同様であるので、詳細な説明は繰り返さない。

（ｇ３：利点）
実施の形態４によれば、モーションベクトルを用いて、フォワグランドの検出や、バックグランドの生成を行なうため、差分画像を用いる場合に比較して、より自由度の高い処理を実現することができる。

また、粗マスクの生成および精密マスクの生成といった２段階の処理を採用することで、処理の高速化および生成されるフォワグランドマスクの精密化の両方を実現することもできる。

［Ｈ．その他の実施の形態］
上述の実施の形態においては、入力された多視点画像から距離画像を合成する場合の処理について例示したが、同様のアルゴリズムに従って、合成された距離画像を用いて、耐視点映像を再構成することもできる。

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１立体映像再生システム、２被写体、１０カメラ、１００，２００情報処理装置、１０２，２０２無線伝送装置、１０４，２０４プロセッサ、１０６，２０６メモリ、１０８カメラインターフェイス、１１０プリプロセッサー、１１２，２１２通信インターフェイス、１１４，２１４ハードディスク、１１４ａエンコーディングプログラム、１１６，２１６入力部、１１８，２１８表示部、１２０エンコーダー、１２２，２２２バス、２０８プロジェクタインターフェイス、２１０デコーダー、２１４ａデコーディングプログラム、２１４ｂ画像データ、２２０ポストプロセッサー、３００立体表示装置、３０２プロジェクターアレイ、３１０表示スクリーン、３１２拡散フィルム、３１４集光レンズ。

Claims

多視点映像を再構成するための距離画像を生成する画像処理方法であって、
被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出するとともに、隣接する映像フレーム間で内容が変化しているエリアを第１の精度で検出して第１のエリアとして決定するステップと、
前記第１のエリアのうち、隣接するフレーム間で内容が変化しているエリアを前記第１の精度より高い第２の精度で検出して第２のエリアとして決定するステップと、
フレーム内の前記第２のエリアを除く第３のエリアについて、他のフレームと共通の距離画像を適用するとともに、前記第２のエリアについて、対応する映像フレームから生成された距離画像を適用することで、各フレームの距離画像を生成するステップとを備える、画像処理方法。
前記第１のエリアとして決定するステップは、
前記算出された差分画像に対してダウンサンプリングするステップと、
ダウンサンプリング後の画像に対して複数種類のフィルタを適用するステップと、
前記複数種類のフィルタを適用後の画像に対してアップサンプリングするステップと、
アップサンプリング後の画像に対してしきい値処理を実行するステップとを含み、
前記第２のエリアとして決定するステップは、
前記第１のエリアに対応する画像に対して複数種類のフィルタを適用するステップを含む、請求項１に記載の画像処理方法。
前記映像フレーム列に含まれる特定のフレームを前記基準フレームとして設定するステップと、
前記映像フレーム列を複数のフレームからなるフレームグループに分割するステップとをさらに備え、
前記設定するステップは、各フレームグループの先頭フレームを前記基準フレームとして設定するステップを含む、請求項１または２に記載の画像処理方法。
多視点映像を再構成するための距離画像を生成する画像処理装置であって、
被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出するとともに、隣接する映像フレーム間で内容が変化しているエリアを第１の精度で検出して第１のエリアとして決定するための手段と、
前記第１のエリアのうち、隣接するフレーム間で内容が変化しているエリアを前記第１の精度より高い第２の精度で検出して第２のエリアとして決定するための手段と、
フレーム内の前記第２のエリアを除く第３のエリアについて、他のフレームと共通の距離画像を適用するとともに、前記第２のエリアについて、対応する映像フレームから生成された距離画像を適用することで、各フレームの距離画像を生成するための手段とを備える、画像処理装置。
多視点映像を再構成するための距離画像を生成するための画像処理プログラムであって、前記画像処理プログラムはコンピューターに、
被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出するとともに、隣接する映像フレーム間で内容が変化しているエリアを第１の精度で検出して第１のエリアとして決定するステップと、
前記第１のエリアのうち、隣接するフレーム間で内容が変化しているエリアを前記第１の精度より高い第２の精度で検出して第２のエリアとして決定するステップと、
フレーム内の前記第２のエリアを除く第３のエリアについて、他のフレームと共通の距離画像を適用するとともに、前記第２のエリアについて、対応する映像フレームから生成された距離画像を適用することで、各フレームの距離画像を生成するステップとを実行させる、画像処理プログラム。
多視点映像を再構成するための距離画像のデータ構造であって、
前記距離画像は、他のフレームと共通の距離画像が用いられる第１のエリアと、対応する映像フレームから生成された距離画像が用いられる第２のエリアとが組み合わせて定義されており、
前記第２のエリアは、被写体を撮像して得られる映像フレーム列について、映像フレーム同士の比較、または、映像フレームと他の基準フレームとの比較によって、映像フレーム間の差分画像を算出した上で、隣接する映像フレーム間で内容が変化していると検出されたエリアに相当し、
前記第１のエリアは、前記第２のエリアを除く残りのエリアに相当する、データ構造。