JP2019121196A

JP2019121196A - 映像生成プログラム、映像生成方法及び映像生成装置

Info

Publication number: JP2019121196A
Application number: JP2018000808A
Authority: JP
Inventors: 恵近野; Megumi Konno
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2019-07-22

Abstract

【課題】前景と背景との分離に用いるグラフカットの処理量を低減すること。【解決手段】サーバ装置１０は、複数の視点からそれぞれ撮影された複数の画像における各画素について、複数の視点それぞれでの背景または前景らしさを示す第一の尤度を算出し、各画素についての各視点における第一の尤度を総合した、各画素を複数視点から見たときの総合尤度を算出し、総合尤度および第一の尤度に基づき、複数の視点それぞれにおける各画素の第二の尤度をそれぞれ算出し、第二の尤度に基づき、各画素が、前景または背景のいずれに相当するかを判定する。【選択図】図１１

Description

本発明は、映像生成プログラム、映像生成方法及び映像生成装置に関する。

自由視点映像という技術が知られている。例えば、視点が異なる複数のカメラが撮像する多視点のカメラ画像から３次元情報を復元する。このような３次元形状を用いることにより、実際にはカメラが存在しない仮想的な視点から３次元の被写体が観測される仮想視点の画像を生成できる。

被写体の３次元形状を推定するためには、まず各カメラが撮影した画像それぞれにおいて被写体（前景）と背景とを分離したうえで、多視点で撮影されたカメラ画像を統合して被写体の３次元形状を推定する。

例えば、各視点に対応するカメラが撮影したカメラ画像に２次元のグラフカットを適用することにより、当該カメラ画像に含まれる画素ごとに割り当てる前景または背景のラベルを最適化することができる。すなわち、カメラ画像の画素ごとに算出された前景または背景の尤もらしさにしたがって、エネルギー関数として定式化されたデータ項および平滑化項のコストが設定される。このエネルギー関数を最小化する問題を解決する２次元のグラフカットのアルゴリズムにしたがって各画素に最適なラベルが割り当てられる。

このようにカメラ画像に２次元のグラフカットを適用する場合、当該カメラ画像において前景と背景の色が類似することなどが一因となって被写体と背景との分離が困難な場合がある。

また、多視点で撮影されたカメラ画像を総合的に利用して３次元のグラフカットおよび２次元のグラフカットを併用することにより、他の視点から見たときにカメラ画像において前景および背景を分離できる可能性が高くなることも知られている。

特開２０１２−３２３７２号公報

Nicholas R. Howe, Alexandra Deschamps "Better Foreground Segmentation Through Graph Cuts" Computer Science Smith College Northampton, MA 01063, 21 Jan 2004

しかしながら、上記の技術では、前景と背景との分離精度を向上させるために、３次元のグラフカット及び２次元のグラフカットが併用される。このように３次元のグラフカットが用いられる場合、ボクセルの単位で処理が実行されるので、画素の単位で処理が実行される２次元のグラフカットに比べて、処理単位とする要素の数が増加する。さらに、ボクセルは、要素同士が隣接する数も画素よりも多いので、グラフカットに用いるエネルギー関数の平滑化項の数も増加する。このような３次元のグラフカットが２次元のグラフカットと併用される場合、グラフカットの処理量が増大する。

１つの側面では、本発明は、前景と背景とを分離する処理量を低減できる映像生成プログラム、映像生成方法及び映像生成装置を提供することを目的とする。

一態様では、映像生成プログラムは、複数の視点からそれぞれ撮影された複数の画像における各画素について、前記複数の視点それぞれでの背景または前景らしさを示す第一の尤度を算出し、前記各画素についての各視点における前記第一の尤度を総合した、前記各画素を複数視点から見たときの総合尤度を算出し、総合尤度および前記第一の尤度に基づき、前記複数の視点それぞれにおける前記各画素の第二の尤度をそれぞれ算出し、前記第二の尤度に基づき、前記各画素が、前記前景または前記背景のいずれに相当するかを判定する、処理をコンピュータに実行させる。

前景と背景とを分離する処理量を低減できる。

図１は、実施例１に係る映像生成システムの構成例を示す図である。図２は、画像の一例を示す図である。図３は、ＶｉｓｕａｌＨｕｌｌの一例を示す図である。図４は、レンダリングの一例を示す図である。図５は、フローネットワークの一例を示す図である。図６は、前景および背景の分離の一例を示す図である。図７は、前景および背景の分離の一例を示す図である。図８は、ボクセル空間の一例を示す図である。図９は、シルエット画像の修復方法の一例を示す図である。図１０Ａは、第二の尤度の算出方法の一例を示す図である。図１０Ｂは、第二の尤度の算出方法の一例を示す図である。図１１は、実施例１に係るサーバ装置の機能的構成を示すブロック図である。図１２は、実施例１に係る分離処理の手順を示すフローチャートである。図１３は、実施例１及び実施例２に係る映像生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。

以下に添付図面を参照して本願に係る映像生成プログラム、映像生成方法及び映像生成装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

［システム構成］
図１は、実施例１に係る映像生成システムの構成例を示す図である。図１に示す映像生成システム１は、一側面として、視点が異なる複数のカメラ５Ａ〜５Ｎが撮像する多視点のカメラ画像を組み合わせることにより自由視点映像を生成する映像生成サービスを提供するものである。

図１に示すように、映像生成システム１には、カメラ５Ａ〜５Ｎと、サーバ装置１０と、クライアント端末３０とが含まれる。以下では、カメラ５Ａ〜５Ｎのことを「カメラ５」と記載する場合がある。なお、図１には、あくまで一例として、１つのクライアント端末３０を図示したが、任意の数のクライアント端末３０が映像生成システム１に含まれることとしてもかまわない。

カメラ５は、サーバ装置１０に接続される。また、サーバ装置１０及びクライアント端末３０の間は、所定のネットワークＮＷを介して接続される。例えば、ネットワークＮＷは、有線または無線を問わず、インターネット、ＬＡＮ（Local Area Network）やＶＰＮ（Virtual Private Network）などの任意の種類の通信網により構築することができる。あくまで一例として、図１には、自由視点映像がネットワークＮＷを経由して提供される場合を例示するが、これはあくまで映像提供形態の一例であり、サーバ装置１０及びクライアント端末３０の間で必ずしも双方向に通信が行われずともかまわない。例えば、ネットワークＮＷを経由せず、自由視点映像が放送波を介してサーバ装置１０からクライアント端末３０へ提供されることとしてもかまわない。

カメラ５は、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を搭載する撮像装置である。

例えば、複数のカメラ５の撮影範囲が組み合わさることにより自由視点映像の生成対象とする３次元空間の全域が複数のカメラ５の撮影範囲に収まる配置で各カメラ５が設置される。さらに、２つ以上のカメラ５により撮像されたカメラ画像から３次元空間上に存在する被写体３の３次元形状を推定するために、各カメラ５は、他のカメラ５との間で撮影範囲の一部が重複する状態で配置される。このような配置の下、複数のカメラ５がフレームごとに同期して撮影することにより、異なる視点ごとに同一のタイミングで撮影された複数の画像、すなわち多視点のカメラ画像がフレーム単位で得られる。

サーバ装置１０は、上記の映像生成サービスを提供するコンピュータである。このサーバ装置１０は、映像生成装置の一例に対応する。

一実施形態として、サーバ装置１０は、パッケージソフトウェア又はオンラインソフトウェアとして、上記の映像生成サービスを実現する映像生成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、サーバ装置１０は、上記の映像生成サービスを提供するＷｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の映像生成サービスを提供するクラウドとして実装することとしてもかまわない。

クライアント端末３０は、上記の映像生成サービスの提供を受けるコンピュータである。

一実施形態として、上記の映像生成サービスの提供を受けるユーザにより使用される任意のコンピュータがクライアント端末３０に対応する。例えば、クライアント端末３０は、パーソナルコンピュータやワークステーションなどのデスクトップ型のコンピュータなどが対応する。このようなデスクトップ型のコンピュータに限定されず、ラックトップ型のコンピュータや携帯端末装置、ウェアラブル端末などの任意のコンピュータであってかまわない。

［映像生成］
上記の自由視点映像は、一側面として、（１）前景背景分離、（２）３次元形状推定、（３）レンダリングの３つの処理を実行することによって生成される。

（１）前景背景分離
上記の「前景背景分離」とは、各視点に対応するカメラ画像ごとに当該カメラ画像から前景と背景とを分離する処理を指す。ここで言う「前景」とは、カメラ５の撮影範囲内の３次元空間に存在する物体の中でも人や人に用いられる道具や乗り物などの被写体３に対応する一方で、「背景」とは、被写体の背後に存在する光景に対応する。この前景背景分離は、同一のフレームのカメラ画像ごとに並列して実行することもできれば、所定数ずつ順番に実行することもできる。

図２は、画像の一例を示す図である。図２の左側には、ある視点ｐ１に対応するカメラ画像２００が示されると共に、図２の右側には、視点ｐ１のカメラ画像２００から生成されたシルエット画像２１０が示されている。詳細は後述するが、カメラ画像２００に２次元のグラフカットが適用されることにより、各画素が画素値を持つカメラ画像２００から各画素に前景または背景の２値のラベルが割り当てられたシルエット画像２１０が生成される。このシルエット画像２１０では、図２に示すように、カメラ画像２００に含まれる被写体３のシルエットおよび背景が分離される。

（２）３次元形状推定
上記の「３次元形状推定」には、一例として、Ｖｉｓｕａｌ−Ｈｕｌｌという技術が用いられる。このＶｉｓｕａｌＨｕｌｌでは、カメラ５の光学中心とシルエット画像上のシルエットとを結んでできるＣｏｎｅ（視体積）が生成された上で、Ｃｏｎｅ同士が重なる３次元空間上の領域が被写体３の３次元形状として推定される。

図３は、ＶｉｓｕａｌＨｕｌｌの一例を示す図である。図３には、カメラ５Ａ〜５Ｃの３つのカメラ５のシルエット画像２１０Ａ〜２１０ＣがＶｉｓｕａｌＨｕｌｌの算出に用いられる場合が示されている。図３に示すように、カメラ５Ａ〜５Ｃの各視点に対応するシルエット画像２１０Ａ〜２１０ＣごとにシルエットＳＡ〜ＳＣが３次元空間に投影される。すなわち、シルエットＳＡが投影された場合、カメラ５Ａの光学中心およびシルエット画像２１０Ａ上のシルエットＳＡを結ぶ視体積ＣＡが得られる。さらに、シルエットＳＢが投影された場合、カメラ５Ｂの光学中心およびシルエット画像２１０Ｂ上のシルエットＳＢを結ぶ視体積ＣＢが得られる。さらに、シルエットＳＣが投影された場合、カメラ５Ｃの光学中心およびシルエット画像２１０Ｃ上のシルエットＳＣを結ぶ視体積ＣＣが得られる。これら視体積ＣＡ〜ＣＣが重複するＶｉｓｕａｌＨｕｌｌ領域、すなわち図３に示す黒の塗り潰しの３次元モデルが被写体３の３次元形状として推定される。

（３）レンダリング
上記の「レンダリング」とは、仮想視点に対応するカメラ画像、いわゆる自由視点映像を多視点のカメラ画像を用いて生成する処理を指す。ここで言う「仮想視点」とは、仮想カメラに与えられる視点を指し、例えば、仮想カメラが３次元空間上に配置される位置や姿勢を指す。この仮想視点は、クライアント端末３０からユーザ入力を受け付けることにより指定されることとしてもよいし、また、クライアント端末３０を介するユーザ設定またはサーバ装置１０に登録されたシステム設定により指定されることとしてもかまわない。

図４は、レンダリングの一例を示す図である。図４には、仮想カメラＶｃの位置がカメラ５Ｂおよびカメラ５Ｃの間に設定される場合が示されている。図４に示すように、仮想カメラＶｃに対応するカメラ画像の画素ごとに、仮想カメラＶｃの光学中心および画素を通る直線と、３次元形状が推定された３次元モデルとの交点の３次元空間上の位置が求められる（Ｓ１）。続いて、カメラ５の位置や姿勢などの外部パラメータ及びカメラ５の画角やレンズの歪みなどの内部パラメータが設定されたカメラパラメータにしたがって、上記の交点が各視点に対応するカメラ画像に投影される。ここでは、一例として、仮想カメラＶｃからの距離が近い所定数のカメラ５のカメラ画像、すなわちカメラ５ＢおよびカメラＣの２つのカメラ画像２００Ｂおよび２００Ｃに上記の交点が投影される（Ｓ２Ｂ及びＳ２Ｃ）。これによって、仮想カメラＶｃの画素に対応するカメラ５Ｂの画素およびカメラ５Ｃの画素が特定される。

その後、カメラ５Ｂにより撮像されたカメラ画像のうち仮想カメラＶｃの画素に対応するカメラ５Ｂの画素が有する画素値と、カメラ５Ｃにより撮像されたカメラ画像のうちカメラ５Ｃの画素が有する画素値とが参照される（Ｓ３Ｂ及びＳ３Ｃ）。例えば、仮想カメラＶｃの画素に対応するカメラ５Ｂの画素の画素値と、仮想カメラＶｃの画素に対応するカメラ５Ｃの画素の画素値との統計値、例えば相加平均または仮想カメラＶｃとの距離を用いる加重平均などが仮想カメラＶｃの画素の画素値として決定される。

このように仮想カメラＶｃの画素ごとに画素値を決定することで、仮想視点に対応する自由視点映像がレンダリングされる。なお、ここでは、複数のカメラ５のカメラ画像を用いて自由視点映像がレンダリングされる場合を例示したが、仮想カメラＶｃとの距離が最も近い最寄りのカメラ５のカメラ画像に絞って自由視点映像のレンダリングに用いることもできる。

［グラフカット］
次に、前景と背景との分離に用いるグラフカットについて説明する。ここでは、２次元のグラフカットを単独で用いる従来技術１について説明した後に、２次元のグラフカット及び３次元のグラフカットを併用する従来技術２について説明する。

（１）従来技術１
２次元のグラフカットでは、一例として、カメラ画像に含まれる画素に前景または背景のラベルを割り当てるラベル付け問題が下記の式（１）に示すエネルギー関数を最小化する問題として定式化される。

グラフカットのアルゴリズムでは、カメラ画像から最小カットの計算に用いるフローネットワークが生成される。図５は、フローネットワークの一例を示す図である。図５に示すように、フローネットワークには、カメラ画像に含まれる画素に対応するノードと、ターミナルとも呼ばれるラベルに対応するＳｏｕｒｃｅ（ｓ）のノードおよびＳｉｎｋ（ｔ）のノードとが含まれる。図５に示すノード間を接続するエッジのうち、カメラ画像の平面上で互いが隣接する画素のノード間を接続するエッジが「ｎ−ｌｉｎｋ」と呼ばれることがある。また、各ノードからＳｏｕｒｃｅ（ｓ）のノードおよびＳｉｎｋ（ｔ）のノードを接続するエッジが「ｔ−ｌｉｎｋ」と呼ばれることがある。

このようなフローネットワークに含まれるノード群は、フローの始点のＳｏｕｒｃｅ（ｓ）のノードを含む集合Ｓおよびフローの終点のＳｉｎｋ（ｔ）のノードを含む集合Ｔへ分割するカット、いわゆるｓ−ｔカットが実行される。このｓ−ｔカットによって集合Ｓと集合Ｔとの境界となるエッジのうち集合Ｓから集合Ｔへ接続されるエッジのコストの総和、いわゆるｓ−ｔカットの容量が最小となるｓ−ｔカットが算出される。このようにｓ−ｔカットの容量が最小となるｓ−ｔカットは「最小カット」とも呼ばれる。この最小カットを算出するアルゴリズムは、最大フロー最小カットの定理にしたがって上記の式（１）に示すエネルギー関数Ｅ（Ｌ）に定式化できる。

上記の式（１）に示すエネルギー関数Ｅ（Ｌ）には、右辺第一項の「データ項」と右辺第二項の「平滑化項」とが含まれる。上記の式（１）における「ｉ」は、ラベルＬが付与される場所（サイト）を指し、２次元のグラフカットが前景と背景との分離に適用される場合、カメラ画像の画素に対応する。これと対比して、上記の式（１）における「ｊ」は、サイトｉに隣接する隣接サイトを指す。例えば、サイトｉに対応する画素の周囲に位置する８近傍、あるいは４近傍の画素を隣接サイトとして定義することができる。また、上記の式（１）における「Ｐ」は、サイトｉの集合を指す。また、上記の式（１）における「Ｌ」は、集合Ｐの各サイトｉに割り当てるラベルを指す。例えば、あるサイトｉのラベルＬに前景が割り当てられる場合、Ｌ_ｉの値が「０」に設定される一方で、背景が割り当てられる場合、Ｌ_ｉの値が「１」に設定される。また、上記の式（１）における「α」および「λ」は、データ項および平滑化項に付与する重みの係数を指す。

このようにエネルギー関数Ｅ（Ｌ）として定式化される多項式のうち、「データ項」は、上記のフローネットワークのｔ−ｌｉｎｋのコストに対応し、サイトｉとそのサイトｉに割り当てられるラベルＬ_ｉとによってコストが定められる。例えば、集合Ｐの一要素であるサイトｉに関するデータ項のコストＥｄ（Ｌ_ｉ）は、前景らしさを表す前景尤度または背景らしさを表す背景尤度のいずれかを示す第一の尤度によって定義することができる。このようにデータ項のコストを定義する尤度は、「第一の尤度」の一例に対応する。

例えば、従来技術１では、第一の尤度の一例として、背景らしいほど小さい値をとる背景尤度Ｐｂｇ_ｉを用いてデータ項のコストが計算される。この背景尤度Ｐｂｇ_ｉの算出には、カメラ画像が撮像されたカメラ５と同一のカメラ５により背景に絞って事前に撮影が行われた背景画像が用いられる。例えば、カメラ画像に含まれる画素ｉの背景尤度を算出する場合、カメラ画像および背景画像の間で画素ｉおよび画素ｉの周辺に位置する８近傍の画素ｊを含む９個の画素ごとに画素値、例えばＲＧＢ値や輝度値の差分を求める。その上で、９個の画素ごとに求められた差分に統計処理、例えば平均処理等を実行する。このように得られた差分の平均値が画素ｉの背景尤度Ｐｂｇ_ｉとして用いられる。

このような背景尤度Ｐｂｇ_ｉがカメラ画像の画素ごとに算出された状況の下、例えば、あるサイトｉに前景のラベルＬ_ｉ（＝０）が割り当てられる場合、データ項のコストのうち当該サイトｉに対応する要素のコスト「Ｅｄ（Ｌ_ｉ＝０）＝ｆ（Ｌ_ｉ＝０）」の計算には「１−Ｐｂｇ_ｉ」が用いられる。また、あるサイトｉに背景のラベルＬ_ｉ（＝１）が割り当てられる場合、データ項のコストのうち当該サイトｉに対応する要素のコスト「ｆ（Ｌ_ｉ＝１）」の計算には「Ｐｂｇ_ｉ」が用いられる。

また、「平滑化項」は、上記のフローネットワークのｎ−ｌｉｎｋのコストに対応し、隣接するサイト間でラベルを滑らかにするペナルティ関数が定められる。例えば、平滑化項のコストのうちサイトｉに対応する要素のコストＥｓ（Ｌ_ｉ，Ｌ_ｊ）は、ｅｘｐ（−｜Ｃ_ｉ−Ｃ_ｊ｜）によって定義することができる。ここで言う「Ｃ_ｉ」及び「Ｃ_ｊ」には、サイトｉまたはサイトｉの隣接サイトｊに対応する画素の画素値、例えばＲＧＢ値や輝度値などを用いることができる。

これらのデータ項および平滑化項を含むエネルギー関数Ｅ（Ｌ）を最小化するラベルの集合が最大フロー最小カットの定理にしたがって算出される。

このような従来技術１では、前景と背景との分離精度が背景尤度の精度に依存する。このため、従来技術１では、２次元のグラフカットに用いる背景尤度の精度が低下すると、前景と背景との分離精度も低下する。

図６は、前景および背景の分離の一例を示す図である。図６には、被写体３および背景４がカメラ５Ｃを用いて撮影される様子が模式的に示されている。さらに、図６には、左の端から見て、カメラ５Ｃにより撮像されたカメラ画像２００Ｃ、カメラ５Ｃにより背景４に絞って事前に撮影が行われた背景画像３００Ｃ、従来技術１により前景および背景が分離されたシルエット画像２１０Ｃの順に並べて示されている。

図６に示すように、被写体３と被写体３の背後にある背景４の壁との間で色が類似する場合、カメラ画像２００Ｃ上で被写体３が映る領域と、当該被写体３と同一の位置に対応する背景画像３００Ｃ上の領域との間で画素値に差が出にくい。このため、カメラ画像２００Ｃ及び背景画像３００Ｃの間で画素値の差分が算出されたとしても、被写体３の領域に含まれる画素の背景尤度はゼロに近い値となるので、画素値等の観測データから背景尤度を評価する精度が低下する。このような状況下で２次元のグラフカットが実行されたとしても、被写体３の領域に背景のラベルが割り当てられたラベルの集合で算出されるデータ項のコストが、被写体３の領域に前景のラベルが割り当てられたラベルの集合で算出されるデータ項のコストよりも相対的に低くなる。このため、被写体３の領域のうち背景４の色と類似する部分が背景と誤判定され易くなる。例えば、図６に示す例で言えば、シルエット画像２１０Ｃに示すように、被写体３に対応する領域のうち背景４の壁と重複する部分を前景として分離することができない。

（２）従来技術２
従来技術２では、前景と背景との分離に多視点のカメラ画像が用いられる。図７は、前景および背景の分離の一例を示す図である。図７には、被写体３および背景４がカメラ５Ｂおよびカメラ５Ｃを用いて撮影される様子が模式的に示されている。さらに、図７の右側の下段には、左の端から見て、カメラ５Ｃにより撮像されたカメラ画像２００Ｃ、カメラ画像２００Ｃから前景および背景が分離されたシルエット画像２１０Ｃの順に並べて示されている。さらに、図７の右側の下段には、左の端から見て、カメラ５Ｂにより撮像されたカメラ画像２００Ｂ、カメラ画像２００Ｂから前景および背景が分離されたシルエット画像２１０Ｂの順に並べて示される。

図７に示すように、カメラ５Ｃにより撮像されたカメラ画像２００Ｃでは、図６に示す例と同様、被写体３と被写体３の背後にある背景４の壁との間で色が類似する。その一方で、カメラ５Ｂにより撮像されたカメラ画像２００Ｂでは、被写体３に重なる背景４の色が異なる。このように、ある視点では、被写体３と背景４とが重なる状態でカメラ画像が撮像されたとしても、他の視点では、被写体３と背景４とが重ならない状態でカメラ画像が撮像されることが多い。そして、多くの視点で前景に分離される領域ほど前景である可能性が高く、多くの視点で背景に分離される領域ほど背景である可能性も高い。

これら多視点のカメラ画像の特性が従来技術２で利用される。すなわち、従来技術２では、カメラ画像２００Ｃ単独では背景尤度が低い領域、すなわち背景らしい領域であっても、当該領域と同一の位置に対応するカメラ画像２００Ｂ上の領域で背景尤度が高い場合、当該領域の背景尤度を補正する。この背景尤度の補正によって、シルエット画像２１０Ｃでは、被写体３に対応する領域のうち背景４の壁と重複する部分も前景として分離できる可能性が高まる。このような多視点のカメラ画像を用いる背景尤度の補正は、３次元のグラフカットを用いることにより実現される。

より詳細には、従来技術２では、カメラ５の視点ごとに尤度付きのシルエット画像が生成される。この尤度付きのシルエット画像は、上述の通り、カメラ５により撮像されるカメラ画像と、カメラ５により背景に絞って事前に撮影が行われた背景画像とから、背景尤度が画素ごとに算出されることによって生成される。

続いて、従来技術２では、尤度付きのボクセル空間が構築される。すなわち、ボクセル空間中の各ボクセルを視点ごとに投影する。図８は、ボクセル空間の一例を示す図である。図８にハッチングで示されたボクセルｖ１は、カメラ５Ａ〜５Ｃの３つのカメラ５のカメラパラメータを参照して、カメラ５Ａ〜５Ｃの３つの視点に投影される。これにより、各視点のシルエット画像２１０Ａ〜２１０Ｃ上でボクセルｖ１に対応する画素の背景尤度が参照される。これら各視点のシルエット画像２１０Ａ〜２１０Ｃ上でボクセルに対応する画素から参照された背景尤度を総合することで、当該ボクセルで背景尤度が総合された総合尤度が算出される。このように総合尤度がボクセルごとに算出されることにより、尤度付きのボクセル空間が構築される。なお、図８には、各ボクセルのサイズが一定である場合を例示したが、前景となる被写体の境界部に位置するボクセルを対象に当該ボクセルを所定数に分割し、分割後のボクセルのいずれかに被写体を含まないボクセルが発生するまで境界部のボクセルのサイズを細かく設定することができる。

その後、従来技術２では、尤度付きのボクセル空間の２値化が行われる。すなわち、ボクセル空間の隣接関係、すなわちボクセル間のユークリッド距離および総合尤度の差を考慮したエネルギー関数を定義して、該エネルギー値が最小になるように、ボクセル空間中の各ボクセルに前景または背景のラベルを割り当てることにより、ボクセル空間の２値化を行う。このエネルギー値の最小化に３次元のグラフカットが適用される。

その上で、従来技術２では、３次元のグラフカットを適用することにより前景または背景のラベルが割り当てられたボクセル空間の結果にしたがって各視点のシルエット画像が修復される。すなわち、３次元のグラフカットで前景のラベルが割り当てられたボクセルは、上記の従来技術１のように、１つのシルエット画像単体で前景のラベルが割り当てられたのではなく、多視点のシルエット画像の背景尤度を総合することにより前景のラベルが割り当てられている。このため、前景のラベルが割り当てられたボクセルに対応するシルエット画像上の画素の背景尤度が低い場合、当該背景尤度を高める補正を実行することにより、被写体と背景との間で色が類似する部分を２次元のグラフカットで分離しやすくできる。

図９は、シルエット画像の修復方法の一例を示す図である。図９には、ボクセルに対応する立方体が模式的に示されると共に、ボクセルのうち前景のラベルが割り当てられたボクセルがハッチングで示されている。さらに、図９には、前景のラベルが割り当てられたボクセルのうちボクセルｖ１に対応するシルエット画像上の画素が持つ背景尤度を補正する例が示されている。

図９に濃いハッチングで示されたボクセルｖ１は、カメラ５Ａ〜５Ｃの３つのカメラ５のカメラパラメータを参照して、カメラ５Ａ〜５Ｃの３つの視点に投影される。これにより、各視点のシルエット画像２１０Ａ〜２１０Ｃ上でボクセルｖ１に対応する画素が識別される。そして、各視点のシルエット画像２１０Ａ〜２１０Ｃごとにボクセルｖ１に対応する画素が持つ背景尤度が補正される。このとき、ボクセルｖ１に対応する画素の背景尤度が所定の閾値Ｔｈ１、例えば０．５未満である場合、当該画素の背景尤度が「Ｐｂｇ」から「１−Ｐｂｇ」へ補正される。一方、ボクセルｖ１に対応する画素の背景尤度が上記の閾値Ｔｈ１以上である場合、当該画素の背景尤度の補正は実行されず、背景尤度は元の背景尤度「Ｐｂｇ」のままとされる。

このように背景尤度を補正することで各視点のシルエット画像が修復された後に、上記の従来技術１と同様、上記の式（１）に示すエネルギー関数Ｅ（Ｌ）を最小化するラベルの集合が２次元のグラフカットを適用することにより算出される。

［課題の一側面］
上記の従来技術１については、既に説明した通り、被写体と背景との色が類似する場合等の状況下で背景尤度の精度が低下する。このような背景尤度を用いて２次元のグラフカットを行ったとしても、被写体の領域に背景のラベルが割り当てられたラベルの集合で算出されるデータ項のコストが、被写体の領域に前景のラベルが割り当てられたラベルの集合で算出されるデータ項のコストよりも相対的に低くなる。このため、従来技術１では、２次元のグラフカットにより被写体と背景と重複する部分を前景として分離することができず、前景と背景との分離精度が低下する。

一方、上記の従来技術２では、各ボクセルに割り当てられた前景または背景のラベルを参照して、ボクセルに対応するシルエット画像上の画素の背景尤度が補正される。ところが、上記の従来技術２では、２次元のグラフカットに用いる背景尤度を補正するために、ボクセルに対する前景または背景のラベルの割り当てに３次元のグラフカットが適用される。このように３次元のグラフカットを適用したのでは、グラフカットに関する処理量が増大する。

このように３次元のグラフカットが用いられる場合、ボクセルの単位で処理が実行される。このため、画素の単位で処理が実行される２次元のグラフカットに比べて、処理単位とする要素の数が増加するので、エネルギー関数のデータ項のコスト計算で総和を求める要素の数が増加する。さらに、ボクセルは、要素同士が隣接する数も画素よりも多いので、エネルギー関数の平滑化項でサイトｉとの間で差分を計算する隣接サイトの数も増加する。例えば、画素の場合、画素ｉに隣接する画素ｊの数は最大でも８個であるが、ボクセルの場合、ボクセルｉに隣接するボクセルｊの数は最大で２６個に増加するので、１つのボクセルにつき差分を計算する回数も１８回増加することになる。このように３次元のグラフカットが２次元のグラフカットと併用される場合、前景と背景との分離に用いるグラフカットの処理量が増大する。加えて、グラフカットの処理量が増大すると、処理時間やメモリ容量も増大する。

これらのことから、前景と背景との分離精度を低下させずに、グラフカットの処理量が増大するのを抑制する仕組みの実装に創作の困難性がある。

［課題解決のアプローチの一面］
そこで、本実施例では、各視点における画素の背景尤度を補正するための処理量を３次元のグラフカットが用いられる場合よりも低減する仕組みを実現する。これを実現するアプローチの１つとして、本実施例では、多視点からの前景または背景の第一の尤度を総合した総合尤度を３次元空間上の要素ごとに求め、視点から画素を通る光軸が貫く要素の中で最も前景らしい要素の総合尤度を当該画素の第二の尤度として前景および背景の分離に用いる。

図１０Ａ及び図１０Ｂは、第二の尤度の算出方法の一例を示す図である。図１０Ａには、カメラ５により被写体３が撮影される構図を斜め方向から見た様子を模式的に示す斜視図が示されると共に、図１０Ｂには、カメラ５により被写体３が撮影される構図を上方向から見た様子を模式的に示す上面図が示されている。図１０Ａ及び図１０Ｂの例では、カメラ５が撮像するカメラ画像２００に含まれる画素のうち画素Ｐ１の第二の尤度が算出される場合が示されている。なお、図１０Ｂには、総合尤度が高いボクセルほど、すなわち前景らしいボクセルほど濃いハッチングで示されている。

図１０Ａに示すように、画素Ｐ１の第二の尤度を算出する場合、カメラ５の光学中心から画素Ｐ１を通る光軸Ｌ１が貫くボクセルが特定される。この光軸Ｌ１は、図１０Ｂに示すように、４つのボクセル、すなわち図中の上から２行目の列に並ぶ４つのボクセルを通過する。このように光軸Ｌ１が貫くボクセルのうち、最も前景らしいボクセルの総合尤度が当該画素Ｐ１の第二の尤度として算出される。すなわち、図１０Ｂの上から２行目に並ぶ４つのボクセルのうち最もハッチングが濃いボクセル、すなわち図１０Ｂの上から２行目左から３列目のボクセルが持つ総合尤度が第二の尤度として算出される。

このような第二の尤度が画素ごとに算出されることにより、カメラ５の視点に対応するカメラ画像の画素ごとに第二の尤度が得られる。このように得られた第二の尤度を用いて、上記の式（１）に示すエネルギー関数Ｅ（Ｌ）を最小化するラベルの集合が２次元のグラフカットを適用することにより算出される。この結果、画素ごとに前景または背景のラベルが割り当てられたシルエット画像が生成される。

上述してきたように、本実施例では、２次元のグラフカットに用いる第一の尤度の精度を向上させるために、ボクセルの総合尤度の算出および各視点の画素の第二の尤度の算出が実行される。これらの処理は、カメラパラメータを用いた投影によるボクセル及び画素の対応関係の探索および統計処理によって実装できるので、上記の３次元のグラフカットを併用せずともよい。それ故、本実施例によれば、上記の従来技術２に比べて、グラフカットの処理量が増大するのを抑制できる。さらに、本実施例では、画素に対応するボクセルの中で最も前景らしいボクセルの総合尤度を当該画素の第二の尤度として算出する。この総合尤度には、第二の尤度を求める視点の第一の尤度以外にも他の視点の第一の尤度も総合される。このため、１つの視点単独で算出される第一の尤度の代わりに多視点で算出される第二の尤度を用いて２次元のグラフカットを実行することができる。したがって、本実施例によれば、上記の従来技術１に比べて、前景と背景との分離精度を向上させることができる。

［サーバ装置１０の構成］
次に、本実施例に係るサーバ装置１０の機能的構成について説明する。図１１は、実施例１に係るサーバ装置１０の機能的構成を示すブロック図である。図１１に示すように、サーバ装置１０は、通信Ｉ／Ｆ（InterFace）部１１と、記憶部１３と、制御部１５とを有する。なお、図１１には、上記の映像生成サービスに関連するサーバ装置１０の機能部が抜粋して示されているに過ぎず、図示以外の機能部、例えば既存のコンピュータがデフォルトまたはオプションで装備する機能部がサーバ装置１０に備わることを妨げない。例えば、多視点のカメラ画像がカメラ５からサーバ装置１０へ放送波や衛星波を介して伝搬される場合、放送波や衛星波の受信部をさらに有することとしてもかまわない。

通信Ｉ／Ｆ部１１は、他の装置との間で通信制御を行うインタフェースである。

一実施形態として、通信Ｉ／Ｆ部１１には、ＬＡＮカードなどのネットワークインタフェースカードが対応する。例えば、通信Ｉ／Ｆ部１１は、各カメラ５からカメラ画像を受信したり、また、撮像制御に関する指示、例えば電源ＯＮ／電源ＯＦＦの他、パンやチルトなどの指示をカメラ５へ送信したりする。

記憶部１３は、制御部１５で実行されるＯＳ（Operating System）を始め、上記の映像生成プログラムなどの各種プログラムに用いられるデータを記憶するハードウェアに対応する。

一実施形態として、記憶部１３は、サーバ装置１０における補助記憶装置に対応する。例えば、ＨＤＤ（Hard Disk Drive）、光ディスクやＳＳＤ（Solid State Drive）などが補助記憶装置に対応する。この他、ＥＰＲＯＭ（Erasable Programmable Read Only Memory)などのフラッシュメモリも補助記憶装置に対応する。

記憶部１３は、制御部１５で実行されるプログラムに用いられるデータの一例として、背景画像１３ａと、ボクセル１３ｂとを記憶する。これら背景画像１３ａ及びボクセル１３ｂ以外にも、記憶部１３は、自由視点映像の技術に関連する各種のデータを記憶することができる。例えば、記憶部１３は、カメラ５の位置や向きなどの外部パラメータ及びカメラ５の画角やレンズの歪みなどの内部パラメータを含むカメラパラメータの他、カメラ５から伝送されたカメラ画像の時系列データなどを視点ごとに保存することができる。なお、背景画像１３ａ及びボクセル１３ｂの説明は、各データの登録または参照が行われる制御部１５の説明と合わせて行うこととする。

制御部１５は、サーバ装置１０の全体制御を行う処理部である。

一実施形態として、制御部１５は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などのハードウェアプロセッサにより実装することができる。ここでは、プロセッサの一例として、ＣＰＵやＭＰＵを例示したが、汎用型および特化型を問わず、任意のプロセッサにより実装することができる。この他、制御部１５は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによって実現されることとしてもかまわない。

制御部１５は、図示しない主記憶装置として実装されるＤＲＡＭ（Dynamic Random Access Memory）などのＲＡＭのワークエリア上に、上記の映像生成プログラムを展開することにより、下記の処理部を仮想的に実現する。

制御部１５は、図１１に示すように、取得部１５ａと、第１の算出部１５ｂと、総合尤度算出部１５ｃと、第二の算出部１５ｄと、判定部１５ｅと、推定部１５ｆと、生成部１５ｇとを有する。

取得部１５ａは、多視点のカメラ画像を取得する処理部である。

一実施形態として、取得部１５ａは、各カメラ５から伝送されるカメラ画像をフレーム単位で取得することができる。ここで、取得部１５ａがカメラ画像を取得するソースは任意であってよく、カメラ５に限定されない。例えば、取得部１５ａは、各視点のカメラ画像を蓄積するハードディスクや光ディスクなどの補助記憶装置またはメモリカードやＵＳＢ（Universal Serial Bus）メモリなどのリムーバブルメディアから読み出すことにより多視点のカメラ画像を取得することもできる。この他、取得部１５ａは、外部装置からネットワークＮＷを介して受信することによって多視点のカメラ画像を取得することもできる。

第一の算出部１５ｂは、複数の視点からそれぞれ撮影された複数の画像における各画素について、複数の視点それぞれでの背景または前景らしさを示す第一の尤度を算出する処理部である。

一実施形態として、第一の算出部１５ｂは、カメラ５の視点ごとにカメラ画像に含まれる画素の第一の尤度を算出する。この第一の尤度を算出する処理は、同一のフレームのカメラ画像ごとに並列して実行することもできれば、カメラ画像を順番に選択して実行することもできる。

例えば、第一の算出部１５ｂは、前景らしさを表す前景尤度または背景らしさを表す背景尤度のいずれかを第一の尤度として算出することができる。以下では、あくまで第一の尤度の一例として、背景らしいほど小さい値をとる背景尤度Ｐｂｇ_ｉを算出する例を挙げて説明を行う。この背景尤度Ｐｂｇ_ｉの算出には、一例として、記憶部１３に記憶された背景画像１３ａが用いられる。このような背景画像１３ａの一例として、記憶部１３には、各視点のカメラ５ごとに当該カメラ５により背景に絞って事前に撮影が行われた画像、例えばフレーム間の差分で動体が検出されない画像が登録される。例えば、ある視点のカメラ画像に含まれる画素ｉの背景尤度を算出する場合、第一の算出部１５ｂは、取得部１５ａにより取得されたカメラ画像と、記憶部１３に記憶された背景画像１３ａのうち当該カメラ画像が撮影されたカメラ５の視点に対応する背景画像との間で画素ｉおよび画素ｉの周辺に位置する８近傍の画素ｊを含む９個の画素ごとに画素値、例えばＲＧＢ値や輝度値の差分を求める。その上で、第一の算出部１５ｂは、９個の画素ごとに求められた差分に統計処理、例えば平均処理等を実行する。このように得られた差分の平均値が画素ｉの背景尤度Ｐｂｇ_ｉとして用いられる。

ここでは、あくまで一例として、第一の尤度の算出に背景尤度Ｐｂｇ_ｉを用いる例を挙げたが、下記の式（２）の通り、背景尤度Ｐｂｇ_ｉの項に加えて前景尤度Ｐｆｇ_ｉの項を加味して第一の尤度Ｐ１_ｉを算出することもできる。

Ｐ１_ｉ＝Ｐｂｇ_ｉ−ω＊Ｐｆｇ_ｉ・・・（２）

上記の前景尤度Ｐｆｇ_ｉの一例として、第一の算出部１５ｂは、画素ｉが前景である確率を次の手順で算出することができる。例えば、第一の算出部１５ｂは、過去に実行された前景および背景の分離で前景に分離された領域に含まれる画素が持つ色の分布、例えばヒストグラムを生成する。このような色のヒストグラムを参照して、第一の算出部１５ｂは、画素ｉが持つ色、例えばＲＧＢ値または輝度に対応する度数をヒストグラムのサンプルの総数で除算する計算により算出される割合を前景尤度Ｐｆｇ_ｉとして用いることができる。

このように背景尤度Ｐｂｇ_ｉに前景尤度Ｐｆｇ_ｉが加味された第一の尤度Ｐ１_ｉを算出することで、前景部分と背景部分の尤度に有意差が付きやすくすることができる結果、第一の尤度の算出精度が向上する。

総合尤度算出部１５ｃは、各画素についての各視点における第一の尤度を総合した、各画素を複数視点から見たときの総合尤度を算出する処理部である。

一実施形態として、総合尤度算出部１５ｃは、記憶部１３に記憶されたボクセル１３ｂに含まれるボクセルごとに総合尤度を算出する処理を実行する。この総合尤度を算出する処理は、ボクセル間で並列して実行することもできれば、ボクセルを順番に選択して実行することもできる。

このようなボクセル１３ｂは、映像生成プログラムの設計関係者、あるいは自由視点映像の提供者や閲覧者等の関係者などにより、ユーザインタフェース等を介して、サイズ、例えば５ｃｍ×５ｃｍや１ｃｍ×１ｃｍが指定される。このサイズの指定にしたがって３次元形状を推定する対象とする３次元空間にボクセルが定義される。このようにボクセルが定義されたデータがボクセル１３ｂとして記憶部１３に保存される。なお、各ボクセルのサイズは、一定であってもよいし、前景となる被写体の境界部に位置するボクセルを対象に当該ボクセルを所定数に分割し、分割後のボクセルのいずれかに被写体を含まないボクセルが発生するまで境界部のボクセルのサイズを細かく設定することもできる。

例えば、総合尤度算出部１５ｃは、あくまで一例として、従来技術２と同様の方法で総合尤度を算出することができる。すなわち、総合尤度算出部１５ｃは、各カメラ５のカメラパラメータを参照して、ボクセル１３ｂに定義されたボクセル空間中のボクセルをカメラ５の各視点に投影する。これにより、各視点のカメラ画像上で当該ボクセルに対応する画素を識別できる。そして、総合尤度算出部１５ｃは、各視点のカメラ画像上でボクセルに対応する画素が持つ第一の尤度を総合することで、当該ボクセルで第一の尤度が総合された総合尤度を算出する。例えば、総合尤度算出部１５ｃは、各視点のカメラ画像上でボクセルに対応する画素が持つ第一の尤度に所定の統計処理、例えば平均処理を実行することにより、各視点の第一の尤度の統計値、例えば平均値を当該ボクセルの総合尤度として算出することができる。このように総合尤度がボクセルごとに算出されることにより、尤度付きのボクセル空間が構築される。

このように第一の尤度の統計値をボクセルの総合尤度とする他、総合尤度算出部１５ｃは、他の方法によりボクセルの総合尤度を算出することができる。例えば、総合尤度算出部１５ｃは、視点ごとにボクセルに対応する画素が持つ第一の尤度を２値化する。すなわち、総合尤度算出部１５ｃは、第一の尤度が所定の閾値、例えば０．５以下である場合には値を「０」に設定する一方で、第一の尤度が閾値を超える場合には値を「１」に設定する。その上で、総合尤度算出部１５ｃは、２値化により前景に分類される視点の数の割合、例えば値が「１」に設定された視点数／視点の総数を総合尤度として算出することもできる。

第二の算出部１５ｄは、総合尤度および第一の尤度に基づき、複数の視点それぞれにおける各画素の第二の尤度をそれぞれ算出する処理部である。この第二の尤度を算出する処理は、視点ごとに並列して実行することもできれば、視点を順番に選択して実行することもできる。さらに、ある視点に対応するカメラ５の画素ごとに並列して第二の尤度を算出することもできれば、画素を順番に選択して第二の尤度を算出することもできる。

一実施形態として、第二の算出部１５ｄは、カメラ５Ａ〜５Ｎに対応する視点のうち１つの視点を選択する。さらに、第二の算出部１５ｄは、選択中の視点に対応するカメラ５に含まれる画素のうち１つの画素を選択する。その上で、第二の算出部１５ｄは、図１０Ａ及び図１０Ｂを用いて説明した通りに選択中の画素の第二の尤度を算出する。例えば、図１０Ａに示す画素Ｐ１が選択されたとしたとき、第二の算出部１５ｄは、カメラ５の光学中心から選択中の画素Ｐ１を通る光軸Ｌ１が貫くボクセルを特定する。この光軸Ｌ１は、図１０Ｂに示すように、４つのボクセル、すなわち図中の上から２行目の列に並ぶ４つのボクセルを通過する。このように光軸Ｌ１が貫くボクセルのうち、第二の算出部１５ｄは、最も前景らしいボクセルの総合尤度、すなわち最も値が高い総合尤度を当該画素Ｐ１の第二の尤度Ｐ２_ｉとして算出する。図１０Ｂの例で言えば、上から２行目に並ぶ４つのボクセルのうち最もハッチングが濃いボクセル、すなわち上から２行目左から３列目のボクセルが持つ総合尤度が第二の尤度Ｐ２_ｉとして算出される。なお、ここでは、選択中の画素が複数のボクセルに対応する例を示したが、選択中の画素とボクセルとが一対一に対応する場合、当該ボクセルの総合尤度を第二の尤度として算出することとすればよい。このように選択中の視点に対応するカメラ５の全ての画素が選択されるまで第二の尤度の算出が繰り返し実行された後、全ての視点が選択されるまで第二の尤度の算出が繰り返し実行される。

判定部１５ｅは、第二の尤度に基づき、各画素が、前景または背景のいずれに相当するかを判定する処理部である。

一実施形態として、判定部１５ｅは、第二の算出部１５ｄにより算出される第二の尤度を用いて、上記の式（１）に示すエネルギー関数Ｅ（Ｌ）を最小化するラベルの集合を２次元のグラフカットを適用することにより算出する。この結果、画素ごとに前景または背景のラベルが割り当てられたシルエット画像が生成される。

ここで、上記の式（１）において集合Ｐの一要素であるサイトｉに関するデータ項のコストＥｄ（Ｌ_ｉ）は、一例として、第二の算出部１５ｄにより画素ごとに算出される第二の尤度Ｐ２_ｉを用いて計算を行うことができる。例えば、あるサイトｉに前景のラベルＬ_ｉ（＝０）が割り当てられる場合、データ項のコストのうち当該サイトｉに対応する要素のコスト「Ｅｄ（Ｌ_ｉ＝０）＝ｆ（Ｌ_ｉ＝０）」の計算には「１−Ｐ２_ｉ」が用いられる。また、あるサイトｉに背景のラベルＬ_ｉ（＝１）が割り当てられる場合、データ項のコストのうち当該サイトｉに対応する要素のコスト「ｆ（Ｌ_ｉ＝１）」の計算には「Ｐ２_ｉ」が用いられる。一方、平滑化項のコスト計算は、上記の従来技術１と同様の計算で実現できる。すなわち、平滑化項のコストのうちサイトｉに対応する要素のコストＥｓ（Ｌ_ｉ，Ｌ_ｊ）は、ｅｘｐ（−｜Ｃ_ｉ−Ｃ_ｊ｜）によって計算することができる。繰り返しになるが、「Ｃ_ｉ」及び「Ｃ_ｊ」には、サイトｉまたはサイトｉの隣接サイトｊに対応する画素の画素値、例えばＲＧＢ値や輝度値などに対応する。

このように第二の尤度Ｐ２_ｉだけでなく、さらに第一の尤度Ｐ１_ｉをさらに用いて、データ項のコストを計算することもできる。例えば、判定部１５ｅは、上記の式（１）におけるデータ項の「Ｅｄ（Ｌ_ｉ）」を下記の式（３）として、データ項のコスト計算を実行することもできる。下記の式（３）における「α」は、第二の尤度Ｐ２_ｉに付与する重みを指す。この場合も、平滑化項のコスト計算は、上記の従来技術１と同様の計算で実現できる。

Ｅｄ（Ｌ_ｉ）＝ｅｘｐ（−（Ｐ１_ｉ−α＊Ｐ２_ｉ））・・・（３）

推定部１５ｆは、各画素が前景または背景のいずれに相当するかが判定された複数の視点の画像を統合することにより被写体の３次元形状を推定する処理部である。

一実施形態として、推定部１５ｆは、Ｖｉｓｕａｌ−Ｈｕｌｌという技術が用いて３次元形状を推定することができる。このＶｉｓｕａｌＨｕｌｌでは、カメラ５の光学中心とシルエット画像上のシルエットとを結んでできるＣｏｎｅ（視体積）が生成された上で、Ｃｏｎｅ同士が重なる３次元空間上の領域が被写体３の３次元形状として推定される。例えば、図３に示すように、推定部１５ｆは、カメラ５Ａ〜５Ｃの各視点に対応するシルエット画像２１０Ａ〜２１０ＣごとにシルエットＳＡ〜ＳＣを３次元空間に投影する。すなわち、シルエットＳＡが投影された場合、カメラ５Ａの光学中心およびシルエット画像２１０Ａ上のシルエットＳＡを結ぶ視体積ＣＡが得られる。さらに、シルエットＳＢが投影された場合、カメラ５Ｂの光学中心およびシルエット画像２１０Ｂ上のシルエットＳＢを結ぶ視体積ＣＢが得られる。さらに、シルエットＳＣが投影された場合、カメラ５Ｃの光学中心およびシルエット画像２１０Ｃ上のシルエットＳＣを結ぶ視体積ＣＣが得られる。これら視体積ＣＡ〜ＣＣが重複するＶｉｓｕａｌＨｕｌｌ領域、すなわち図３に示す黒の塗り潰しの３次元モデルを被写体３の３次元形状として推定する。

生成部１５ｇは、複数の視点の画像と、被写体の３次元形状とに基づき、仮想カメラの位置および姿勢の指定により定まる仮想視点における画像、いわゆる自由視点映像を生成する処理部である。

一実施形態として、生成部１５ｇは、クライアント端末３０からユーザ入力を受け付けることにより仮想視点を指定させることができる。この他、生成部１５ｇは、クライアント端末３０を介するユーザ設定またはサーバ装置１０に登録されたシステム設定により仮想視点を指定させることができる。このように仮想視点が指定された上で、生成部１５ｇは、図４を用いて説明した通り、仮想視点に対応する自由視点映像をレンダリングする。すなわち、生成部１５ｇは、仮想カメラＶｃに対応するカメラ画像の画素ごとに、仮想カメラＶｃの光学中心および画素を通る直線と、３次元形状が推定された３次元モデルとの交点の３次元空間上の位置を算出する（Ｓ１）。続いて、生成部１５ｇは、カメラ５の位置や姿勢などの外部パラメータ及びカメラ５の画角やレンズの歪みなどの内部パラメータが設定されたカメラパラメータにしたがって、上記の交点を各視点に対応するカメラ画像に投影する。図４に示す例では、仮想カメラＶｃからの距離が近い所定数のカメラ５のカメラ画像、すなわちカメラ５ＢおよびカメラＣの２つのカメラ画像２００Ｂおよび２００Ｃに上記の交点が投影される（Ｓ２Ｂ及びＳ２Ｃ）。これによって、仮想カメラＶｃの画素に対応するカメラ５Ｂの画素およびカメラ５Ｃの画素が特定される。その後、生成部１５ｇは、カメラ５Ｂにより撮像されたカメラ画像のうち仮想カメラＶｃの画素に対応するカメラ５Ｂの画素が有する画素値と、カメラ５Ｃにより撮像されたカメラ画像のうちカメラ５Ｃの画素が有する画素値とを参照する（Ｓ３Ｂ及びＳ３Ｃ）。例えば、仮想カメラＶｃの画素に対応するカメラ５Ｂの画素の画素値と、仮想カメラＶｃの画素に対応するカメラ５Ｃの画素の画素値との統計値、例えば相加平均または仮想カメラＶｃとの距離を用いる加重平均などが仮想カメラＶｃの画素の画素値として決定される。

［処理の流れ］
図１２は、実施例１に係る分離処理の手順を示すフローチャートである。この処理は、一例として、各カメラ５からカメラ画像が取得される度、すなわち多視点のカメラ画像が得られる度に実行される。

図１２に示すように、各カメラ５からカメラ画像が取得されると（ステップＳ１０１）、第一の算出部１５ｂは、カメラ５Ａ〜５Ｎに対応する視点のうち視点を１つ選択する（ステップＳ１０２）。さらに、第一の算出部１５ｂは、ステップＳ１０２で選択された視点に対応するカメラ画像に含まれる画素のうち画素を１つ選択する（ステップＳ１０３）。

そして、第一の算出部１５ｂは、あくまで一例として、ステップＳ１０２で選択された視点に対応するカメラ画像と、ステップＳ１０２で選択された視点に対応する背景画像との間でステップＳ１０３で選択された画素ｉおよび画素ｉの周辺に位置する８近傍の画素ｊを含む９個の画素ごとに得られる画素値の差分に統計処理を実行し、その統計値を当該画素ｉの第一の尤度Ｐ１_ｉとして算出する（ステップＳ１０４）。

その後、カメラ画像に含まれる全ての画素が選択されるまで（ステップＳ１０５Ｎｏ）、上記のステップＳ１０３及び上記のステップＳ１０４の処理が繰り返し実行される。そして、カメラ画像に含まれる全ての画素が選択された場合（ステップＳ１０５Ｙｅｓ）、カメラ５Ａ〜５Ｎに対応する全ての視点が選択されるまで（ステップＳ１０６Ｎｏ）、上記のステップＳ１０２〜上記のステップＳ１０５の処理が繰り返し実行される。

続いて、カメラ５Ａ〜５Ｎに対応する全ての視点が選択された場合（ステップＳ１０６Ｙｅｓ）、総合尤度算出部１５ｃは、各カメラ５のカメラパラメータを参照して、ボクセル１３ｂに定義されたボクセル空間中のボクセルをカメラ５の各視点に投影し、各視点のカメラ画像上でボクセルに対応する画素が持つ第一の尤度を総合することで、当該ボクセルで第一の尤度が総合された総合尤度をボクセルごとに算出する（ステップＳ１０７）。

そして、第二の算出部１５ｄは、カメラ５Ａ〜５Ｎに対応する視点のうち１つの視点を選択する（ステップＳ１０８）。さらに、第二の算出部１５ｄは、選択中の視点に対応するカメラ５に含まれる画素のうち１つの画素を選択する（ステップＳ１０９）。

その上で、第二の算出部１５ｄは、ステップＳ１０８で選択されたカメラ５の光学中心からステップＳ１０９で選択された画素を通る光軸が貫くボクセルを特定する（ステップＳ１１０）。続いて、第二の算出部１５ｄは、光軸が貫くボクセルのうち最も前景らしいボクセルの総合尤度を当該画素の第二の尤度Ｐ２_ｉとして算出する（ステップＳ１１１）。

その後、カメラ画像に含まれる全ての画素が選択されるまで（ステップＳ１１２Ｎｏ）、上記のステップＳ１０９〜上記のステップＳ１１１の処理が繰り返し実行される。そして、カメラ画像に含まれる全ての画素が選択された場合（ステップＳ１１２Ｙｅｓ）、カメラ５Ａ〜５Ｎに対応する全ての視点が選択されるまで（ステップＳ１１３Ｎｏ）、上記のステップＳ１０８〜上記のステップＳ１１２の処理が繰り返し実行される。

その後、カメラ５Ａ〜５Ｎに対応する全ての視点が選択された場合（ステップＳ１１３Ｙｅｓ）、判定部１５ｅは、ステップＳ１１１で算出された第二の尤度を用いて、各画素が前景または背景のいずれに相当するかを視点ごとに判定し（ステップＳ１１４）、処理を終了する。例えば、判定部１５ｅは、ステップＳ１１１で算出された第二の尤度を用いて、上記の式（１）に示すエネルギー関数Ｅ（Ｌ）を最小化するラベルの集合を２次元のグラフカットを適用することにより算出する。これによって、各画素に前景または背景のラベルが割り当てられたシルエット画像が視点ごとに生成される。

［効果の一側面］
上述してきたように、本実施例に係るサーバ装置１０は、多視点からの前景または背景の第一の尤度を総合した総合尤度を３次元空間上の要素ごとに求め、視点から画素を通る光軸が貫く要素の中で最も前景らしい要素の総合尤度を当該画素の第二の尤度として前景および背景の分離に用いる。したがって、本実施例に係るサーバ装置１０によれば、前景と背景とを分離する処理量を低減することが可能になる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

［第一の尤度］
上記の実施例１では、第一の尤度の一例として、背景らしさを示す背景尤度を用いる場合を例示したが、前景らしさを示す前景尤度を用いることとしてもかまわない。この場合、背景尤度Ｐｂｇ_ｉからの逆算、例えば「１−Ｐｂｇ_ｉ」の計算により前景尤度Ｐｆｇ_ｉを第一の尤度として導出することができる他、上述の通り、色の分布等から前景である確率を算出することにより、前景尤度Ｐｆｇ_ｉを第一の尤度として算出することもできる。このように値が低いほど前景らしい前景尤度を第一の尤度として用いる場合、第二の尤度を算出する場合、画素に対応するボクセルのうち最も前景らしいボクセルの総合尤度として、最も値が低い総合尤度を第二の尤度として算出する等の処理の置換を行うことができる。

［３次元要素］
上記の実施例１では、３次元要素の一例として、ボクセルを例示したが、必ずしも立方体を要素とせずともかまわない。例えば、他の６面体要素であってもよいし、４面体要素であってもかまわない。

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、取得部１５ａ、第１の算出部１５ｂ、総合尤度算出部１５ｃ、第二の算出部１５ｄ、判定部１５ｅ、推定部１５ｆまたは生成部１５ｇをサーバ装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、取得部１５ａ、第１の算出部１５ｂ、総合尤度算出部１５ｃ、第二の算出部１５ｄ、判定部１５ｅ、推定部１５ｆまたは生成部１５ｇを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のサーバ装置１０の機能を実現するようにしてもよい。この他、取得部１５ａ、第１の算出部１５ｂ、総合尤度算出部１５ｃ、第二の算出部１５ｄ、判定部１５ｅ、推定部１５ｆおよび生成部１５ｇなどの機能がクライアント端末３０に実装されることとしてもかまわない。

［映像生成プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１３を用いて、上記の実施例と同様の機能を有する映像生成プログラムを実行するコンピュータの一例について説明する。

図１３は、実施例１及び実施例２に係る映像生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。図１３に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０〜１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１３に示すように、上記の実施例１で示した取得部１５ａ、第１の算出部１５ｂ、総合尤度算出部１５ｃ、第二の算出部１５ｄ、判定部１５ｅ、推定部１５ｆおよび生成部１５ｇと同様の機能を発揮する映像生成プログラム１７０ａが記憶される。この映像生成プログラム１７０ａは、図１１に示した取得部１５ａ、第１の算出部１５ｂ、総合尤度算出部１５ｃ、第二の算出部１５ｄ、判定部１５ｅ、推定部１５ｆおよび生成部１５ｇの各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０から映像生成プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、映像生成プログラム１７０ａは、図１３に示すように、映像生成プロセス１８０ａとして機能する。この映像生成プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうち映像生成プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、映像生成プロセス１８０ａが実行する処理の一例として、図１２に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

なお、上記の映像生成プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に映像生成プログラム１７０ａを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から映像生成プログラム１７０ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに映像生成プログラム１７０ａを記憶させておき、コンピュータ１００がこれらから映像生成プログラム１７０ａを取得して実行するようにしてもよい。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）複数の視点からそれぞれ撮影された複数の画像における各画素について、前記複数の視点それぞれでの背景または前景らしさを示す第一の尤度を算出し、
前記各画素についての各視点における前記第一の尤度を総合した、前記各画素を複数視点から見たときの総合尤度を算出し、
総合尤度および前記第一の尤度に基づき、前記複数の視点それぞれにおける前記各画素の第二の尤度をそれぞれ算出し、
前記第二の尤度に基づき、前記各画素が、前記前景または前記背景のいずれに相当するかを判定する、
処理をコンピュータに実行させることを特徴とする映像生成プログラム。

（付記２）前記各画素が前記前景または前記背景のいずれに相当するかが判定された前記複数の視点の前記画像を統合することにより被写体の３次元形状を推定する処理と、
前記複数の視点の画像と、前記被写体の３次元形状とに基づき、仮想カメラの位置および姿勢の指定により定まる仮想視点における画像を生成する処理とをさらに前記コンピュータに実行させることを特徴とする付記１に記載の映像生成プログラム。

（付記３）前記総合尤度を算出する処理は、３次元空間上に設定された３次元要素ごとに前記総合尤度を算出し、
前記第二の尤度を算出する処理は、前記複数の視点それぞれにおける前記各画素について、前記複数の視点それぞれに対応するカメラの光学中心から前記各画素を通る光軸が貫く３次元要素の総合尤度のうち最も前景らしい総合尤度を前記第二の尤度として算出することを特徴とする付記１に記載の映像生成プログラム。

（付記４）前記判定する処理は、前記第二の尤度によりデータ項が定義されたエネルギー関数を最小化するラベルの集合を２次元のグラフカットで算出することにより、前記各画素が、前記前景または前記背景のいずれに相当するかを判定することを特徴とする付記１に記載の映像生成プログラム。

（付記５）複数の視点からそれぞれ撮影された複数の画像における各画素について、前記複数の視点それぞれでの背景または前景らしさを示す第一の尤度を算出し、
前記各画素についての各視点における前記第一の尤度を総合した、前記各画素を複数視点から見たときの総合尤度を算出し、
総合尤度および前記第一の尤度に基づき、前記複数の視点それぞれにおける前記各画素の第二の尤度をそれぞれ算出し、
前記第二の尤度に基づき、前記各画素が、前記前景または前記背景のいずれに相当するかを判定する、
処理をコンピュータが実行することを特徴とする映像生成方法。

（付記６）前記各画素が前記前景または前記背景のいずれに相当するかが判定された前記複数の視点の前記画像を統合することにより被写体の３次元形状を推定する処理と、
前記複数の視点の画像と、前記被写体の３次元形状とに基づき、仮想カメラの位置および姿勢の指定により定まる仮想視点における画像を生成する処理とをさらに前記コンピュータが実行することを特徴とする付記５に記載の映像生成方法。

（付記７）前記総合尤度を算出する処理は、３次元空間上に設定された３次元要素ごとに前記総合尤度を算出し、
前記第二の尤度を算出する処理は、前記複数の視点それぞれにおける前記各画素について、前記複数の視点それぞれに対応するカメラの光学中心から前記各画素を通る光軸が貫く３次元要素の総合尤度のうち最も前景らしい総合尤度を前記第二の尤度として算出することを特徴とする付記５に記載の映像生成方法。

（付記８）前記判定する処理は、前記第二の尤度によりデータ項が定義されたエネルギー関数を最小化するラベルの集合を２次元のグラフカットで算出することにより、前記各画素が、前記前景または前記背景のいずれに相当するかを判定することを特徴とする付記５に記載の映像生成方法。

（付記９）複数の視点からそれぞれ撮影された複数の画像における各画素について、前記複数の視点それぞれでの背景または前景らしさを示す第一の尤度を算出する第一の算出部と、
前記各画素についての各視点における前記第一の尤度を総合した、前記各画素を複数視点から見たときの総合尤度を算出する総合尤度算出部と、
総合尤度および前記第一の尤度に基づき、前記複数の視点それぞれにおける前記各画素の第二の尤度をそれぞれ算出する第二の算出部と、
前記第二の尤度に基づき、前記各画素が、前記前景または前記背景のいずれに相当するかを判定する判定部と、
を有することを特徴とする映像生成装置。

（付記１０）前記各画素が前記前景または前記背景のいずれに相当するかが判定された前記複数の視点の前記画像を統合することにより被写体の３次元形状を推定する推定部と、
前記複数の視点の画像と、前記被写体の３次元形状とに基づき、仮想カメラの位置および姿勢の指定により定まる仮想視点における画像を生成する生成部とをさらに有することを特徴とする付記９に記載の映像生成装置。

（付記１１）前記総合尤度算出部は、３次元空間上に設定された３次元要素ごとに前記総合尤度を算出し、
前記第二の算出部は、前記複数の視点それぞれにおける前記各画素について、前記複数の視点それぞれに対応するカメラの光学中心から前記各画素を通る光軸が貫く３次元要素の総合尤度のうち最も前景らしい総合尤度を前記第二の尤度として算出することを特徴とする付記９に記載の映像生成装置。

（付記１２）前記判定部は、前記第二の尤度によりデータ項が定義されたエネルギー関数を最小化するラベルの集合を２次元のグラフカットで算出することにより、前記各画素が、前記前景または前記背景のいずれに相当するかを判定することを特徴とする付記９に記載の映像生成装置。

１映像生成システム
３被写体
５Ａ〜５Ｎカメラ
１０サーバ装置
１１通信Ｉ／Ｆ部
１３記憶部
１３ａ背景画像
１３ｂボクセル
１５制御部
１５ａ取得部
１５ｂ第一の算出部
１５ｃ総合尤度算出部
１５ｄ第二の算出部
１５ｅ判定部
１５ｆ推定部
１５ｇ生成部
３０クライアント端末

Claims

複数の視点からそれぞれ撮影された複数の画像における各画素について、前記複数の視点それぞれでの背景または前景らしさを示す第一の尤度を算出し、
前記各画素についての各視点における前記第一の尤度を総合した、前記各画素を複数視点から見たときの総合尤度を算出し、
総合尤度および前記第一の尤度に基づき、前記複数の視点それぞれにおける前記各画素の第二の尤度をそれぞれ算出し、
前記第二の尤度に基づき、前記各画素が、前記前景または前記背景のいずれに相当するかを判定する、
処理をコンピュータに実行させることを特徴とする映像生成プログラム。
前記各画素が前記前景または前記背景のいずれに相当するかが判定された前記複数の視点の前記画像を統合することにより被写体の３次元形状を推定する処理と、
前記複数の視点の画像と、前記被写体の３次元形状とに基づき、仮想カメラの位置および姿勢の指定により定まる仮想視点における画像を生成する処理とをさらに前記コンピュータに実行させることを特徴とする請求項１に記載の映像生成プログラム。
前記総合尤度を算出する処理は、３次元空間上に設定された３次元要素ごとに前記総合尤度を算出し、
前記第二の尤度を算出する処理は、前記複数の視点それぞれにおける前記各画素について、前記複数の視点それぞれに対応するカメラの光学中心から前記各画素を通る光軸が貫く３次元要素の総合尤度のうち最も前景らしい総合尤度を前記第二の尤度として算出することを特徴とする請求項１または請求項２に記載の映像生成プログラム。
前記判定する処理は、前記第二の尤度によりデータ項が定義されたエネルギー関数を最小化するラベルの集合を２次元のグラフカットで算出することにより、前記各画素が、前記前景または前記背景のいずれに相当するかを判定することを特徴とする請求項１〜請求項３のいずれか１つに記載の映像生成プログラム。
複数の視点からそれぞれ撮影された複数の画像における各画素について、前記複数の視点それぞれでの背景または前景らしさを示す第一の尤度を算出し、
前記各画素についての各視点における前記第一の尤度を総合した、前記各画素を複数視点から見たときの総合尤度を算出し、
総合尤度および前記第一の尤度に基づき、前記複数の視点それぞれにおける前記各画素の第二の尤度をそれぞれ算出し、
前記第二の尤度に基づき、前記各画素が、前記前景または前記背景のいずれに相当するかを判定する、
処理をコンピュータが実行することを特徴とする映像生成方法。
複数の視点からそれぞれ撮影された複数の画像における各画素について、前記複数の視点それぞれでの背景または前景らしさを示す第一の尤度を算出する第一の算出部と、
前記各画素についての各視点における前記第一の尤度を総合した、前記各画素を複数視点から見たときの総合尤度を算出する総合尤度算出部と、
総合尤度および前記第一の尤度に基づき、前記複数の視点それぞれにおける前記各画素の第二の尤度をそれぞれ算出する第二の算出部と、
前記第二の尤度に基づき、前記各画素が、前記前景または前記背景のいずれに相当するかを判定する判定部と、
を有することを特徴とする映像生成装置。