JP7277372B2

JP7277372B2 - 三次元モデル符号化装置、三次元モデル復号装置、三次元モデル符号化方法、および、三次元モデル復号方法

Info

Publication number: JP7277372B2
Application number: JP2019551230A
Authority: JP
Inventors: ポンサクラサン; チーワン; 敏康杉尾; 達也小山
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2017-10-27
Filing date: 2018-10-25
Publication date: 2023-05-18
Anticipated expiration: 2038-10-25
Also published as: KR20200073229A; CN111316650B; JP2023087116A; EP3703375A1; EP3703375A4; JPWO2019082958A1; US20200250798A1; CN111316650A; JP7522259B2; JP2024133690A; WO2019082958A1

Description

本開示は、三次元モデル符号化装置、三次元モデル復号装置、三次元モデル符号化方法、および、三次元モデル復号方法に関する。

特許文献１には、三次元形状データを転送する方法について開示されている。特許文献１では、三次元形状のデータが、例えば、ポリゴンやボクセルなどの要素毎に、ネットワークに送り出される。そして、受信側では、その三次元形状のデータが取り込まれ、受け取った要素毎に画像展開して表示される。

特開平９－２３７３５４号公報

しかしながら、上記特許文献に係る技術には、更なる改善が必要とされていた。

上記目的を達成するために、本開示の一態様に係る三次元モデル符号化装置は、三次元モデルを少なくとも１つ以上の二次元平面に投影することで二次元画像を生成する投影部と、前記二次元画像を用いて、前記二次元画像に含まれる、前記三次元モデルが投影されていない無効領域を構成する１以上の画素を補正することで補正画像を生成する補正部と、前記補正画像を二次元符号化することで符号化データを生成する符号化部と、を備える。

また、本開示の一態様に係る三次元モデル復号装置は、三次元モデルが少なくとも１つの二次元平面に投影されることで生成された二次元画像が補正された補正画像であって、前記二次元画像に含まれる、前記三次元モデルが投影されなかった無効領域における１以上の画素が補正された画像である補正画像が符号化された符号化データをし、取得した前記符号化データを復号することで得られた三次元モデルを出力する復号部と、を備える。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示は、配信されるデータ量を削減できる三次元モデル符号化装置、三次元モデル復号装置、三次元モデル符号化方法、および、三次元モデル復号方法を提供できる。

図１は、実施の形態１に係る自由視点映像生成システムの概要を示す図である。図２は、実施の形態１に係る三次元空間認識システムの構成を示すブロック図である。図３は、実施の形態１に係る三次元空間認識システムの動作の概要を示す図である。図４は、実施の形態１に係る自由視点映像生成システムの構成を示すブロック図である。図５は、実施の形態１に係る自由視点映像生成システムの動作の概要を示す図である。図６は、実施の形態１に係る自由視点映像生成システムの動作を示すフローチャートである。図７は、実施の形態１に係る前景モデルの生成方法を示す図である。図８は、実施の形態２に係る次世代監視システムの構成を示すブロック図である。図９は、実施の形態２に係る次世代監視システムの動作の概要を示す図である。図１０は、実施の形態２に係る次世代監視システムの動作を示すフローチャートである。図１１は、実施の形態３に係る自由視点映像生成システムの構成を示すブロック図である。図１２は、実施の形態３に係る自由視点映像生成システムの動作を示すフローチャートである。図１３は、実施の形態３に係る前景モデルと背景モデルの配信例を示す図である。図１４は、実施の形態３に係る前景モデルと背景モデルの配信例を示す図である。図１５は、実施の形態４に係る次世代監視システムの構成を示すブロック図である。図１６は、実施の形態４に係る次世代監視システムの動作を示すフローチャートである。図１７は、実施の形態５に係る自由視点映像生成システムの構成を示すブロック図である。図１８は、実施の形態５に係る次世代監視システムの構成を示すブロック図である。図１９は、実施の形態６に係る自由視点映像生成システムの構成を示すブロック図である。図２０は、実施の形態６に係る自由視点映像生成システムの動作を示すフローチャートである。図２１は、実施の形態６に係る三次元モデルの生成及び復元処理を説明するための図である。図２２は、実施の形態６に係るデプス画像の一例を示す図である。図２３Ａは、実施の形態６に係るデプス画像における画像値の割り当て例を示す図である。図２３Ｂは、実施の形態６に係るデプス画像における画像値の割り当て例を示す図である。図２３Ｃは、実施の形態６に係るデプス画像における画像値の割り当て例を示す図である。図２４は、三次元データを符号化する三次元データ符号化方法の概略を示す図である。図２５Ａは、ホール領域を含む二次元画像の一例を示す図である。図２５Ｂは、ホール領域が補正された補正画像の一例を示す図である。図２６Ａは、線形補間によるホール領域の補正の例を示す図である。図２６Ｂは、線形補間によるホール領域の補正の例を示す図である。図２７Ａは、非線形補間によるホール領域の補正の例を示す図である。図２７Ｂは、非線形補間によるホール領域の補正の例を示す図である。図２８Ａは、他の補正の例を示す図である。図２８Ｂは、他の補正の例を示す図である。図２８Ｃは、図２８Ｂの補正を二次元画像で表現した例を示す図である。図２８Ｄは、他の補正の例を示す図である。図２８Ｅは、他の補正の例を示す図である。図２８Ｆは、他の補正の例を示す図である。図２９は、実施の形態に係る三次元モデル符号化装置の機能構成の一例を示すブロック図である。図３０は、実施の形態に係る三次元モデル復号装置の機能構成の一例を示すブロック図である。図３１は、実施の形態に係る三次元モデル符号化装置による三次元モデル符号化方法の一例を示すフローチャートである。図３２は、実施の形態に係る三次元モデル復号装置による三次元モデル復号方法の一例を示すフローチャートである。

三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法では、配信されるデータ量を削減できることが望まれている。このため、三次元データを符号化する三次元符号化装置および三次元符号化方法において、三次元データの圧縮効率を向上させることが必要とされていた。

本開示は、三次元データを符号化する三次元符号化装置および三次元符号化方法において、三次元データの圧縮効率を向上させることができる、三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法を提供することを目的とする。

本開示の一態様に係る三次元モデル符号化装置は、三次元モデルを少なくとも１つ以上の二次元平面に投影することで二次元画像を生成する投影部と、前記二次元画像を用いて、前記二次元画像に含まれる、前記三次元モデルが投影されていない無効領域を構成する１以上の画素を補正することで補正画像を生成する補正部と、前記補正画像を二次元符号化することで符号化データを生成する符号化部と、を備える。

これによれば、無効領域を補正することで生成した補正画像を二次元符号化するため、符号化効率を向上させることができる。

また、前記補正部は、前記無効領域に隣接する、前記三次元モデルが投影されている有効領域である第一有効領域における第一画素の第一画素値を用いて、前記無効領域を補正してもよい。

これによれば、第一有効領域と無効領域との間の画素値の差を低減することができるため、効果的に符号化効率を向上させることができる。

また、前記補正部は、前記無効領域を構成する前記１以上の画素の全ての画素値を前記第一画素値とすることで、前記無効領域を補正してもよい。

これによれば、第一有効領域と無効領域との間の画素値の差を容易に低減することができる。

また、前記補正部は、前記二次元画像上において、前記無効領域を挟んで前記第一有効領域とは反対側の有効領域である第二有効領域における第二画素の第二画素値をさらに用いて、前記無効領域を補正してもよい。

これによれば、第一有効領域および第二有効領域と無効領域との間の画素値の差を低減することができるため、効果的に符号化効率を向上させることができる。

また、前記補正部は、前記第一画素値と、前記第二画素値とを用いて、前記第一画素から前記無効領域を跨いで前記第二画素までの間の複数の画素それぞれの画素値を、前記複数の画素それぞれの位置および画素値の関係において、前記第一画素値から前記第二画素値まで線形に変化させた関係を満たす画素値に変更することで、前記無効領域を補正してもよい。

これによれば、無効領域を線形補間するため、補間のための画素値の決定に係る処理負荷を低減することができる。

また、前記二次元符号化は、前記補正画像を複数のブロック単位で符号化する処理であり、前記補正部は、前記二次元符号化における前記複数のブロックの境界が前記無効領域上にある場合、前記第一画素から前記境界までの間の複数の第一無効画素を前記第一画素値に変更し、かつ、前記第二画素から前記境界までの間の複数の第二無効画素を前記第二画素値に変更することで、前記無効領域を補正してもよい。

これによれば、二次元符号化における複数のブロックの境界を考慮して無効領域を補正するため、処理負荷を効果的に低減でき、符号化効率を効果的に向上させることができる。

また、前記補正部は、前記第一画素における第一画素値と、前記第二画素における第二画素値とを用いて、前記第一画素から前記無効領域を跨いで前記第二画素までの間の複数の画素それぞれの画素値を、前記複数の画素それぞれの位置および画素値の関係において、前記第一画素値から前記第二画素値まで滑らかな曲線で変化させた関係を満たす画素値に変更することで、前記無効領域を補正してもよい。

これによれば、第一有効領域および第二有効領域と無効領域との間の画素値の差を効果的に低減することができるため、符号化効率を向上させることができる。

また、前記第一画素は、前記第一有効領域において前記無効領域に隣接する画素であり、前記第二画素は、前記第二有効領域において前記無効領域に隣接する画素であってもよい。

また、さらに、前記二次元画像に対応する二次元領域を構成する複数の領域のそれぞれが、前記無効領域であるか前記有効領域であるかを示す二次元バイナリマップを生成する生成部を備え、前記符号化部は、前記補正画像および前記二次元バイナリマップを符号化することで前記符号化データを生成してもよい。

このため、復号時に、二次元バイナリマップを用いて、有効領域および無効領域のうち有効領域のみを復号することができるため、復号時の処理量を低減することができる。

本開示の一態様に係る三次元モデル復号装置は、三次元モデルが少なくとも１つの二次元平面に投影されることで生成された二次元画像が補正された補正画像であって、前記二次元画像に含まれる、前記三次元モデルが投影されなかった無効領域における１以上の画素が補正された画像である補正画像が符号化された符号化データをし、取得した前記符号化データを復号することで得られた三次元モデルを出力する復号部と、を備える。

このため、三次元モデル復号装置３１０は、少ないデータ量の符号化データを取得することで、三次元モデルを再構成することができる。

本開示の一態様に係る三次元モデル配信方法は、対象時間帯における対象空間の三次元モデルである第１モデルを第１配信方式で配信し、前記対象時間帯における前記対象空間の三次元モデルであって、前記第１モデルより時間当たりの変化が小さい第２モデルを、前記第１配信方式と異なる第２配信方式で配信する。

これによれば、当該三次元モデル配信方法は、時間当たりの変化が異なる第１モデルと第２モデルを、それぞれに適した配信方式で配信できる。これにより、当該三次元モデル配信方法は、要求に応じた適切な配信を実現できる。

例えば、前記第１配信方式の配信周期は、前記第２配信方式の配信周期より短くてもよい。

これによれば、当該三次元モデル配信方法は、時間当たりの変化が異なる第１モデルと第２モデルを、それぞれに適した配信方式で配信できる。

例えば、前記第１配信方式では、第１符号化方式が用いられ、前記第２配信方式では、前記第１符号化方式よりも処理遅延が大きい第２符号化方法が用いられてもよい。

これによれば、当該三次元モデル配信方法は、第１モデルの処理遅延を低減できる。

例えば、前記第１配信方式では、第１符号化方式が用いられ、前記第２配信方式では、前記第１符号化方式と符号化効率が異なる第２符号化方法が用いられてもよい。

これによれば、当該三次元モデル配信方法は、時間当たりの変化が異なる第１モデル及び第２モデルに、それぞれに適した符号化方式を用いることができる。

例えば、前記第１配信方式は、前記第２配信方式より低遅延であってもよい。

これによれば、当該三次元モデル配信方法は、第１モデルの遅延を低減できる。

例えば、前記三次元モデル配信方法は、さらに、前記第１モデルを第１生成方法で生成し、前記第２モデルを前記第１生成方法と精度が異なる第２生成方法で生成してもよい。

これによれば、当該三次元モデル配信方法は、時間当たりの変化が異なる第１モデルと第２モデルを、それぞれに適した方法で生成できる。

例えば、前記第１モデルの生成では、前記対象時間帯における前記対象空間に含まれる複数の対象物の三次元モデルである第３モデルと、前記対象時間帯における前記対象空間に含まれる前記複数の対象物のうちの一部の対象物の三次元モデルである前記第２モデルとから、前記第３モデルと前記第２モデルとの差分である前記第１モデルを生成してもよい。

これによれば、当該三次元モデル配信方法は、第１モデルを容易に生成できる。

例えば、前記第１モデルの生成では、前記対象時間帯における前記対象空間に含まれる複数の対象物が撮影された第１多視点画像と、前記複数の対象物のうちの一部の対象物が撮影された前記第２多視点画像との差分である第３多視点画像を生成し、前記第３多視点画像を用いて、前記第１モデルを生成してもよい。

例えば、前記第１モデル及び前記第２モデルの配信先の端末は、前記第１モデル及び前記第２モデルを用いて、選択視点から見た映像である自由視点映像を生成し、前記三次元モデル配信方法は、前記第１モデルのうち、前記自由視点映像の生成に必要なモデルを優先して配信してもよい。

これによれば、当該三次元モデル配信方法は、自由視点映像の生成に必要な情報を効率的に配信できる。

本開示の一態様に係る三次元モデル配信方法は、対象時間帯における対象空間に含まれる複数の対象物の三次元モデルである第１モデルと、前記対象時間帯における前記対象空間に含まれる前記複数の対象物のうちの一部の対象物の三次元モデルである第２モデルとから、前記第１モデルと前記第２モデルとの差分である第３モデルを生成し、前記第２モデルを第１配信方式で配信し、前記第３モデルを、前記第１配信方式と異なる第２配信方式で配信する。

これによれば、当該三次元モデル配信方法は、第２モデルと第３モデルを、それぞれに適した配信方式で配信できる。これにより、当該三次元モデル配信方法は、要求に応じた適切な配信を実現できる。

本開示の一態様に係る三次元モデル配信装置は、対象時間帯における対象空間の三次元モデルである第１モデルを第１配信方式で配信する第１配信部と、前記対象時間帯における前記対象空間の三次元モデルであって、前記第１モデルより時間当たりの変化が小さい第２モデルを、前記第１配信方式と異なる第２配信方式で配信する第２配信部とを備える。

これによれば、当該三次元モデル配信装置は、時間当たりの変化が異なる第１モデルと第２モデルを、それぞれに適した配信方式で配信できる。これにより、当該三次元モデル配信装置は、要求に応じた適切な配信を実現できる。

本開示の一態様に係る三次元モデル配信装置は、対象時間帯における対象空間に含まれる複数の対象物の三次元モデルである第１モデルと、前記対象時間帯における前記対象空間に含まれる前記複数の対象物のうちの一部の対象物の三次元モデルである第２モデルとから、前記第１モデルと前記第２モデルとの差分である第３モデルを生成する三次元モデル生成部と、前記第２モデルを第１配信方式で配信し、前記第３モデルを、前記第１配信方式と異なる第２配信方式で配信する配信部とを備える。

これによれば、当該三次元モデル配信装置は、第２モデルと第３モデルを、それぞれに適した配信方式で配信できる。これにより、当該三次元モデル配信装置は、要求に応じた適切な配信を実現できる。

本開示の一態様に係る三次元モデル配信方法は、三次元モデルからデプス画像を生成し、前記デプス画像と前記デプス画像から前記三次元モデルを復元するための情報とを配信する。

これによれば、三次元モデルをそのまま配信するのではなく、三次元モデルから生成されたデプス画像が配信される。よって、配信されるデータ量を抑制できる。

例えば、前記三次元モデル配信方法は、さらに、前記デプス画像を、二次元画像圧縮方式を用いて圧縮し、前記配信では、圧縮された前記デプス画像を配信してもよい。

これによれば、三次元モデルの配信において、二次元画像圧縮方式を用いてデータを圧縮することができる。よって、新たに三次元モデル用の圧縮方式を構築する必要がないので、容易にデータ量を削減できる。

例えば、前記デプス画像の生成では、前記三次元モデルから、異なる視点の複数のデプス画像を生成し、前記圧縮では、前記複数のデプス画像間の関係を用いて、前記複数のデプス画像を圧縮してもよい。

これによれば、複数のデプス画像のデータ量をさらに削減できる。

例えば、前記三次元モデル配信方法は、さらに、複数の撮像装置で撮影された複数の画像を用いて前記三次元モデルを生成し、前記複数の画像を配信し、前記デプス画像の視点は、前記複数の画像のいずれかの視点であってもよい。

これによれば、デプス画像の視点を撮影画像の視点と一致されることで、例えば、撮影画像をマルチビュー符号化で圧縮する場合に、デプス画像を用いて撮影画像間の視差情報を算出し、視差情報を用いて視点間の予測画像を生成することができる。これにより、撮影画像の符号量を削減できる。

例えば、前記デプス画像の生成では、前記三次元モデルを所定の視点の撮像面に投影することで、前記デプス画像を生成し、前記情報は、前記三次元モデルを前記所定の視点の撮像面に投影するパラメータを含んでもよい。

例えば、前記三次元モデル配信方法は、さらに、前記デプス画像に含まれる各画素のビット長を決定し、前記ビット長を示す情報を配信してもよい。

これによれば、被写体又は使用目的等に応じてビット長を切り替えることができるので、適切にデータ量を削減できる。

例えば、前記ビット長の決定では、前記ビット長を被写体までの距離に応じて決定してもよい。

例えば、前記三次元モデル配信方法は、さらに、前記デプス画像で示さる画素値と距離との関係を決定し、決定された前記関係を示す情報を配信してもよい。

これによれば、被写体又は使用目的等に応じて画素値と距離との関係を切り替えることができるので、復元される三次元モデルの精度を向上できる。

例えば、前記三次元モデルは、第１モデルと、前記第１モデルより時間当たりの変化が小さい第２モデルとを含み、前記デプス画像は、第１デプス画像と、第２デプス画像とを含み、前記デプス画像の生成では、前記第１モデルから前記第１デプス画像を生成し、前記第２モデルから前記第２デプス画像を生成し、前記関係の決定では、前記第１デプス画像で示される画素値と距離との第１の関係と、前記第２デプス画像で示される画素値と距離との第２の関係とを決定し、前記第１の関係では、第１距離範囲における距離分解能は、前記第１距離範囲より遠い第２距離範囲における距離分解能より高く、前記第２の関係では、前記第１距離範囲における距離分解能は、前記第２距離範囲における距離分解能より低くてもよい。

例えば、前記三次元モデルには色情報が付加されており、前記三次元モデル配信方法は、さらに、前記三次元モデルからテクスチャ画像を生成し、前記テクスチャ画像を、二次元画像圧縮方式を用いて圧縮し、前記配信では、さらに、圧縮された前記テクスチャ画像を配信してもよい。

本開示の一態様に係る三次元モデル受信方法は、三次元モデルから生成されたデプス画像と、前記デプス画像から前記三次元モデルを復元するための情報とを受信し、前記情報を用いて前記デプス画像から前記三次元モデルを復元する。

例えば、前記デプス画像は二次元画像圧縮方式を用いて圧縮されており、前記三次元モデル受信方法は、さらに、圧縮されている前記デプス画像を復号してもよい。

例えば、前記受信では、複数のデプス画像を受信し、前記復号では、前記複数のデプス画像間の関係を用いて、前記複数のデプス画像を復号してもよい。

例えば、前記三次元モデル受信方法は、さらに、前記三次元モデルと、複数の画像とを用いてレンダリング画像を生成し、前記デプス画像の視点は、前記複数の画像のいずれかの視点であってもよい。

例えば、前記情報は、前記三次元モデルを前記デプス画像の撮像面に投影するパラメータを含み、前記復元では、前記パラメータを用いて前記デプス画像から前記三次元モデルを復元してもよい。

例えば、前記三次元モデル受信方法は、さらに、前記デプス画像に含まれる各画素のビット長を示す情報を受信してもよい。

例えば、前記三次元モデル受信方法は、さらに、前記デプス画像で示さる画素値と距離との関係を示す情報を受信してもよい。

例えば、前記三次元モデル受信方法は、さらに、二次元画像圧縮方式を用いて圧縮されているテクスチャ画像を受信し、前記圧縮されているテクスチャ画像を復号し、前記復元では、復号された前記デプス画像及び復号された前記テクスチャ画像を用いて、色情報が付加された前記三次元モデルを復元してもよい。

本開示の一態様に係る三次元モデル配信装置は、三次元モデルからデプス画像を生成するデプス画像生成部と、前記デプス画像と前記デプス画像から前記三次元モデルを復元するための情報とを配信する配信部とを備える。

本開示の一態様に係る三次元モデル受信装置は、三次元モデルから生成されたデプス画像と、前記デプス画像から前記三次元モデルを復元するための情報とを受信する受信部と、前記情報を用いて前記デプス画像から前記三次元モデルを復元する復元部とを備える。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態１）
まず、本実施の形態の概要を説明する。本実施の形態では、次世代広域監視システム又は自由視点映像生成システムなど三次元空間認識システムにおける三次元モデル生成及び配信方法について説明する。

図１は、自由視点映像生成システムの概要を示す図である。例えば、校正済みのカメラ（例えば固定カメラ）を用いて同一空間を多視点から撮影することにより撮影する空間を三次元再構成できる（三次元空間再構成）。この三次元再構成されたデータを用いて、トラッキング、シーン解析、及び映像レンダリングを行うことで、任意の視点（自由視点カメラ）から見た映像を生成できる。これにより、次世代広域監視システム、及び自由視点映像生成システムを実現できる。

このようなシステムでは、三次元再構成によって生成された三次元モデルを、ネットワーク等を介して配信し、受信端末側でトラッキング、シーン解析及び映像レンダリングなどを行うことが考えられる。しかしながら、三次元モデルのデータ量が膨大なため、ネットワーク帯域が不足し、受信に時間を要するという課題がある。

これに対して、本実施の形態では、三次元モデルを構成する前景モデルと背景モデルを別々に異なる配信方式で配信する。例えば、更新頻度が少ない背景モデルの配信回数を抑制することで、配信時のネットワーク帯域を抑制できる。これにより端末側の受信時間を短縮できる。

次に、本実施の形態に係る三次元空間認識システム１００の構成を説明する。図２は、三次元空間認識システム１００の構成を示すブロック図である。三次元空間認識システム１００は、多視点映像撮像装置１１１と、制御装置１１２と、イベント検出装置１１３と、校正指示装置１１４と、三次元空間再構成装置１１５と、三次元空間認識装置１１６とを含む。

図３は、三次元空間認識システム１００の動作の概要を示す図である。

多視点映像撮像装置１１１は、同一空間を撮影することで多視点映像を生成する（Ｓ１０１）。

また、撮影環境中の点と映像上の点の対応及び映像間の点の対応を手動又は自動で検出することにより、各カメラの姿勢（カメラパラメータ）が推定されるカメラ校正が行われる（Ｓ１０２）。

三次元空間再構成装置１１５は、多視点映像とカメラパラメータとを用いて、撮影空間を三次元再構成する三次元空間再構成を行うことで三次元モデルを生成する（Ｓ１０３）。例えば、三次元モデルとして前景モデルと背景モデルとが生成される。

最後に、三次元空間認識装置１１６は、三次元モデルを用いて三次元空間認識を行う（Ｓ１０４）。具体的には、三次元空間認識装置１１６は、三次元モデルを用いた、トラッキング、シーン解析及び映像レンダリングを行う。

次に、三次元空間認識システム１００を含む自由視点映像生成システム１０１について説明する。図４は、本実施の形態に係る自由視点映像生成システム１０１構成を示すブロック図である。自由視点映像生成システム１０１は、三次元空間認識システム１００の構成に加え、ユーザ端末である複数の映像表示端末１１７を含む。また、三次元空間再構成装置１１５は、前景モデル生成部１３１と、背景モデル生成部１３２とを備える。三次元空間認識装置１１６は、視点決定部１４１と、レンダリング部１４２と、データ転送部１４３とを備える。

図５は、自由視点映像生成システム１０１の動作の概要を示す図である。図６は、自由視点映像生成システム１０１の動作を示すフローチャートである。

まず、多視点映像撮像装置１１１は、多視点撮影を行うことで多視点映像を生成する（Ｓ１０１）。多視点映像撮像装置１１１は、複数の撮像装置１２１を含む。各撮像装置１２１は、カメラ１２２と、雲台１２３と、メモリ１２４と、センサ１２５とを含む。

多視点映像撮像装置１１１は、制御装置１１２による撮影開始又は停止信号を受け、当該信号に応じて、撮像装置１２１間で同期した撮影の開始又は停止を行う。

各撮像装置１２１はカメラ１２２で映像を撮影すると同時に映像を撮影した時のタイムスタンプを記録する。また、撮像装置１２１は、撮影と同時にセンサ１２５（振動センサ、加速度センサ、地磁気センサ又はマイク）を用いて撮影環境をセンシングし、映像、タイムスタンプ及びセンシングデータをイベント検出装置１１３に出力する。

また、多視点映像撮像装置１１１は校正指示装置１１４から校正指示情報を受け取ると、校正指示情報に従い撮像装置１２１を調整し、カメラ１２２を校正し、校正により得られるカメラパラメータをイベント検出装置１１３に出力する。

各撮像装置１２１内のメモリ１２４は、映像、タイムスタンプ、センシングデータ、及びカメラパラメータ、を一時的に保存したり、撮影設定（フレームレート及び解像度など）を記憶したりする。

また、任意のタイミングでカメラ校正が行われる（Ｓ１０２）。具体的には、イベント検出装置１１３は、多視点映像撮像装置１１１から得られる映像、タイムスタンプ、センシング情報、三次元空間再構成装置１１５から得られる三次元モデル、レンダリング部１４２から得られる自由視点映像、映像表示端末１１７から得られる端末情報、及び制御装置１１２から得られる制御情報のうち少なくとも一つから校正イベントを検出し、校正イベントを含む校正イベント情報を校正指示装置１１４に出力する。校正イベント情報は、校正イベント、校正イベントの重要度、及び校正する撮像装置１２１を示す情報を含む。

校正イベントとは、撮像装置１２１を校正するきっかけである。例えば、カメラ１２２のずれを検知したとき、予め定められた時間になったとき、カメラ校正の精度が高くなるとき、モデル或いは自由視点映像の精度が悪くなったとき、自由視点映像が必要ないとき、ある撮像装置１２１の映像が自由視点映像の生成に利用できないとき、又は、システム管理者或いはユーザからの指示があったときに、イベント検出装置１１３は、校正イベント情報を出力する。

具体的には、イベント検出装置１１３は、センシング情報が閾値を越えた場合、映像中の背景領域が閾値以上変化した場合、又は、歓声が上がった場合に、カメラ１２２がずれたと検知する。予め定められた時間とは、ハーフタイム又は５回裏などプレーが中断したとき、前回の校正から一定時間経過したとき、又はシステム起動時、等である。カメラ校正の精度が高くなるときとは、映像から抽出した特徴点が一定数以上あるとき等である。また、イベント検出装置１１３は、モデル又は自由視点映像の精度の悪化を、モデル又は自由視点映像内の壁又は地面のゆがみ等から判断する。

自由視点映像が必要ないときとは、いずれの映像表示端末１１７も使用されていないとき、又は、音或いは映像からシーン認識し、重要なシーンでないと識別されるときである。ある撮像装置１２１の映像が自由視点映像の生成に利用できないときとは、十分な通信帯域が得られず映像の解像度或いはフレームレートが落ちているとき、同期ズレが発生しているとき、又は、撮像装置１２１が撮影している領域が選手がいない等の理由で注目されていないとき、等である。

校正イベントの重要度は、校正イベント又は校正イベントを検出した際に観測されたデータにより算出される。例えば、カメラのずれイベントは他のイベントよりも重要度が高い。また、例えば、カメラのずれが大きいほど重要度が高く設定される。

また、イベント検出装置１１３は、校正イベント情報を映像表示端末１１７に送り、ユーザに校正中の撮像装置１２１を知らせてもよい。

校正指示装置１１４は、イベント検出装置１１３から校正イベント情報を受け取ると、校正イベント情報に基づいて校正指示情報を生成し、生成した校正指示情報を多視点映像撮像装置１１１に出力する。

校正指示情報は、校正するカメラ１２２、校正するカメラ１２２の順番、雲台１２３の制御情報、カメラ１２２のズーム倍率変更情報、及び校正方法等を含む。雲台１２３の制御情報とは、例えば、振動等でずれたカメラ姿勢を元の姿勢に戻すための雲台１２３の回転量を示す。カメラのズーム倍率変更情報とは、例えば、振動等でずれたカメラ１２２の撮影領域をカバーするために必要なズームアウト量を示す。

校正方法としては、特定の点、線或いは面の三次元座標と映像上の二次元座標とを対応付ける方法と、特定の点、線又は面の映像上の二次元座標を２以上の映像間で対応付ける方法とがある。これらの対応付けは手動又は自動又はその両方で行われる。また、距離が既知の２以上の点、線或いは面、又は１以上のステレオカメラを用いて、カメラ校正の精度を向上してもよい。

次に、三次元空間再構成装置１１５は、多視点映像を用いて三次元空間再構成を行う（Ｓ１０３）。具体的には、イベント検出装置１１３は、多視点映像撮像装置１１１から得られる映像、タイムスタンプ及びセンシング情報、映像表示端末１１７から得られる端末情報、並びに制御装置から得られる制御情報のうち少なくも一つからモデル生成イベントを検出し、モデル生成イベントを含むモデル生成情報を三次元空間再構成装置１１５に出力する。

モデル生成情報は、モデル生成イベント及び撮像装置情報を含む。撮像装置情報は、映像、背景画像、カメラパラメータ、カメラパラメータの信頼度、及びカメラの校正状況を含む。モデル生成イベントとは、撮影環境の三次元モデルを生成するきっかけである。具体的には、イベント検出装置１１３は、一定数以上のカメラが校正されているとき、予め定められた時間になったとき、又は自由視点映像が必要であるとき等に、モデル生成情報を出力する。

予め定められた時間とは、プレーが行われているとき、又は、前回のモデル生成から一定時間経過したとき等、である。自由視点映像が必要であるときは、映像表示端末１１７が使用されているとき、音或いは映像からシーン認識し重要なシーンであると識別されるとき、又は、システム管理者からの指示或いはユーザからの視聴要求があったとき等、である。カメラパラメータの信頼度は、カメラ校正時の結果、カメラ校正を行った時間、映像、又はセンシング情報から決定される。例えば、カメラ校正時の再投影誤差が低いほど信頼度が高く設定される。また、直前にカメラ校正を行ったカメラほど信頼度が高く設定される。また、特徴点を多く使いカメラ校正を起こったカメラほど信頼度が高く設定される。

三次元空間再構成装置１１５は、イベント検出装置１１３から得られるモデル生成情報を用いて撮影環境の三次元モデルを生成し、生成した三次元モデルを記憶する。三次元空間再構成装置１１５は、モデル生成の際、カメラの校正状況及びカメラパラメータの信頼度から、校正済みであり信頼度の高いカメラで撮影された映像を優先的に利用する。また、三次元空間再構成装置１１５は、撮影環境の三次元モデルの生成を完了した時、モデル生成完了情報をイベント検出装置１１３に出力する。

三次元空間再構成装置１１５は、自由視点映像生成装置である三次元空間認識装置１１６が自由視点映像を生成する際、撮影環境の三次元モデルをレンダリング部１４２に出力する。

前景モデル生成部１３１は、人物又はボール等の時間毎に動きの変化がある（変化が大きい）前景のモデルである前景モデルを生成する。背景モデル生成部１３２は、会場又はゴール等の時間毎に動きの変化がない（変化が少ない）背景のモデルである背景モデルを生成する。以降、三次元モデルとは前景モデルと背景モデルとを含むモデルを表す。

前景モデル生成部１３１は、撮像装置１２１が記録するフレームレートに合わせて前景モデルを生成する。例えば、記録フレームレートが３０フレーム／秒の場合は、前景モデル生成部１３１は、前景モデルを１／３０秒毎に生成する。

背景モデル生成部１３２は、人物又はボール等の時間毎に動きの変化がある前景を含まない背景画像を用いて背景モデルを生成する。背景モデル生成部１３２は、一度生成した背景モデルをある一定期間内で使いまわすようにしても構わない。また、背景モデル生成部１３２は、ある一定期間を過ぎると新たな背景モデルを生成して、背景モデルを更新してもよい。これにより、動きの少ない背景モデルを生成する処理量を削減できるので、ＣＰＵ使用率及びメモリ量を削減することができる。

以下、背景モデル及び前景モデルの生成方法について説明する。図７は、この処理を説明するための図である。

まず、背景モデル生成部１３２は、背景モデルを生成する（Ｓ１１１）。例えば、多視点映像撮像装置１１１に含まれる複数の撮像装置１２１は、背景を撮影することで背景画像を生成し、当該背景画像を記録する。背景モデル生成部１３２は、この背景画像を用いて背景モデルを生成する。背景モデル生成方法として、例えば、マルチビューステレオ方式のように、複数のステレオカメラペアから背景画像に含まれるオブジェクトの各画素の深度を算出することで、背景に含まれるオブジェクトの三次元位置を特定する方法を用いることができる。または、背景モデル生成部１３２は、背景画像の特徴量を抽出し、カメラ間の特徴量のマッチング結果から三角測量による原理により背景画像の特徴量の三次元位置を特定する方法を用いても構わない。これ以外にも、背景に含まれるオブジェクトの三次元モデルを算出する方法であれば、どのような方式を用いても構わない。

また、背景モデルは一部、または全てを手動で作成しても構わない。例えば、ゴールなどの競技によって形状が決まっているものは事前にＣＧ等を用いて三次元モデルを生成することが考えられる。つまり、背景モデル生成部１３２は、予め定め生成された背景モデルを取得してもよい。

また、背景モデル生成部１３２は、前景及び背景を含む撮影画像を複数枚用いて背景画像を生成してもよい。例えば、背景モデル生成部１３２は、複数の撮影画像の平均値画像を用いて背景画像を算出してもよい。これにより、事前に前景を含まない背景画像が撮影できない状況でも背景画像を生成することができ、背景モデルを生成することが可能となる。

次に、多視点映像撮像装置１１１に含まれる複数の撮像装置１２１は、人物（前景）と背景を撮影することで撮影画像を生成し、当該撮影画像を記録する（Ｓ１１２）。

次に、前景モデル生成部１３１は、前景モデルを生成する（Ｓ１１３）。具体的には、前景モデル生成部１３１は、同一の撮像装置１２１で撮影された同一視点の撮影画像から背景画像を差引くことで背景差分画像を生成する。前景モデル生成部１３１は、複数の視点の背景差分画像を用いて前景モデルを生成する。前景モデルの生成方法には、例えば、視体積交差法方式のように複数の背景差分画像を用いて空間に存在する前景オブジェクトの三次元モデルを特定する方法を用いることができる。または、前景モデル生成部１３１は、前景画像（背景差分画像）の特徴量を抽出し、カメラ間の特徴量のマッチング結果から三角測量による原理により前景画像の特徴量の三次元位置を特定する方法を用いても構わない。これ以外にも、前景に含まれるオブジェクトの三次元モデルを算出する方法であれば、どのような方式を用いても構わない。

以上により、前景モデルと背景モデルとが生成される。

次に、三次元モデルを用いた三次元空間認識が行われる（Ｓ１０４Ａ）。まず、視点決定部１４１は、仮想視点を決定する（Ｓ１０５）。

具体的には、イベント検出装置１１３は、三次元空間再構成装置１１５から得られるモデル生成完了情報、映像表示端末１１７から得られる端末情報、及び制御装置１１２から得られる制御情報から自由視点生成イベントを検出し、自由視点生成イベントを含む自由視点情報を視点決定部１４１に出力する。

自由視点生成情報は、自由視点生成イベント、要求視点、及び撮像装置情報を含む。要求視点とは、映像表示端末１１７から得られるユーザが希望する視点、又は制御装置から得られるシステム管理者が指定する視点、等である。視点は三次元空間上の一点でもよいし、線分でもよい。自由視点生成イベントとは、撮影環境の自由視点映像を生成するきっかけである。具体的には、イベント検出装置１１３は、撮影環境の三次元モデルが生成されたとき、又は、既に生成された三次元モデルが存在する時刻の自由視点映像を視聴又は配信したいというユーザのリクエスト或いはシステム管理者の指示があったとき等に、自由視点情報を出力する。

視点決定部１４１は、イベント検出装置１１３から得られる自由視点情報を基に、自由視点映像を生成する際の視点を決定し、視点情報として自由視点情報と共にレンダリング部１４２に出力する。視点決定部１４１は、視点の決定を要求視点に基づき実施する。視点決定部１４１は、要求視点がない場合は、選手を正面から見ることができる視点等を映像から自動的に検出してもよいし、カメラパラメータの信頼度、又はカメラの校正状況から校正済みで信頼度の高い撮像装置１２１が近くにある視点を自動的に検出してもよい。

仮想視点が設定されると、三次元モデル（前景モデルと背景モデルを含む）から、仮想視点から見える撮影環境の構造及び距離情報が決まる。レンダリング部１４２は、三次元モデルを用いてレンダリングを行うことで、仮想視点から見た映像である自由視点映像を生成する（Ｓ１０６）。

具体的には、レンダリング部１４２は、視点決定部１４１から得られる視点情報及び自由視点情報と、三次元空間再構成装置１１５から得られる撮影環境の三次元モデルとを用いて、視点情報に沿った視点の映像を生成し、生成した映像を自由視点映像としてデータ転送部１４３に出力する。

つまり、レンダリング部１４２は、自由視点映像を、視点情報が示す仮想視点位置に三次元モデルを投影することにより生成する。この際、レンダリング部１４２は、例えば、映像上の色及びテクスチャ情報を、例えば仮想視点位置から距離が近い撮像装置１２１で得られた映像から優先的に取得する。ただし、距離が近い撮像装置１２１が校正中であったり、カメラパラメータの信頼度が低い場合は、レンダリング部１４２は、距離が近い撮像装置１２１とは異なる撮像装置１２１の映像から優先的に色情報を取得しても良い。また、レンダリング部１４２は、仮想視点位置から距離が近い撮像装置１２１が校正中であったり、カメラパラメータの信頼度が低い場合は、映像をぼかしたり、再生速度をあげたりすることにより、画質の低下をユーザに意識させにくくしてもよい。このように、レンダリング部１４２は、必ずしも距離が近い撮像装置１２１の映像から優先的に取得する必要はなく、どのような手法を用いて映像上の色及びテクスチャを取得してもよい。また、三次元モデル自体に事前に色情報を付加されてもよい。

次に、データ転送部１４３は、レンダリング部１４２から得られる自由視点映像を映像表示端末１１７に配信する（Ｓ１０７）。データ転送部１４３は、各ユーザが要求した視点に基づき、映像表示端末１１７毎に異なる自由視点映像を配信してもよいし、システム管理者が指定した視点又は視点決定部１４１が自動的に決定した視点に基づき生成した同じ自由視点映像を複数の映像表示端末１１７に配信しても良い。また、データ転送部１４３は、自由視点映像を圧縮し、圧縮後の自由視点映像を配信してもよい。

次に、各映像表示端末１１７は、配信された自由視点映像を表示する（Ｓ１０８）。ここで、映像表示端末１１７は、ディスプレイ、無線通信機器、及びユーザ入力インターフェースを備えている。ユーザは映像表示端末１１７を利用し、撮影環境の任意時刻の任意領域を任意視点で見たいという視聴要求をイベント検出装置１１３に送る。映像表示端末１１７は、視聴要求に基づいた自由視点映像をデータ転送部１４３から受信し、ユーザに表示する。

また、映像表示端末１１７はイベント検出装置１１３から得られる校正イベント情報を受信し、ディスプレイ上に校正中のカメラを強調表示する。これにより、この撮像装置の近くの視点からの自由視点映像は生成できない、又は画質が悪くなることをユーザに知らせることができる。

また、システム管理者は制御装置１１２から撮影開始又は停止信号を多視点映像撮像装置１１１に送り、多視点映像撮像装置１１１に同期撮影を開始又は停止させる。

また、システム管理者はカメラの校正が必要と判断した場合は制御装置１１２から制御情報をイベント検出装置１１３に送り、任意のカメラを校正できる。

また、システム管理者は撮影環境の三次元モデルが必要と判断した場合は制御装置１１２から制御情報をイベント検出装置１１３に送り、任意の撮像装置１２１を用いて任意の時刻における撮影環境の三次元モデルを生成できる。

また、システム管理者は自由視点映像が必要と判断した場合は制御装置１１２から制御情報をイベント検出装置１１３に送り、任意の時刻における自由視点映像を生成し、映像表示端末１１７に配信することができる。

（実施の形態２）
上述した自由視点映像生成の機能は監視システムで利用されてもよい。この場合は、現実のカメラでは捉えていない視点から見た不審者の推定外観を警備員に提示して警戒にあたらせることができる。

図８は、本実施の形態に係る次世代監視システム１０２の構成を示すブロック図である。図８に示す次世代監視システム１０２は、図４に示す自由視点映像生成システム１０１に対して、三次元空間認識装置１１６Ａの構成が、三次元空間認識装置１１６と異なる。また、次世代監視システム１０２は、映像表示端末１１７の代わりに、監視員１１８Ａ、警備員１１８Ｂ及び映像撮像装置１１８Ｃを含む。

三次元空間認識装置１１６Ａは、トラッキング部１４４と、シーン解析部１４５と、データ転送部１４６とを備える。

図９は、次世代監視システム１０２の動作の概要を示す図である。図１０は、次世代監視システム１０２の動作を示すフローチャートである。なお、多視点撮影（Ｓ１０１）、カメラ校正（Ｓ１０２）及び三次元空間再構成（Ｓ１０３）は、図５及び図６と同様である。

次に、三次元空間認識装置１１６Ａは、三次元モデルを用いた三次元空間認識を行う（Ｓ１０４Ｂ）。具体的には、トラッキング部１４４は、三次元空間上で人物をトラッキングする（Ｓ１０５Ｂ）。また、トラッキング部１４４は、人物が写りこむ映像を自動抽出する。

また、シーン解析部１４５は、シーン解析を行う（Ｓ１０６Ｂ）。具体的には、シーン解析部１４５は、三次元空間又は多視点映像から人物又はシーンの状況認識及び異常検出を行う。

次に、データ転送部１４６は、三次元空間認識の結果を、監視員１１８Ａ或いは警備員１１８Ｂが所持する端末等、又は映像撮像装置１１８Ｃに転送する（Ｓ１０７Ｂ）。そして、三次元空間認識の結果が、監視員１１８Ａ或いは警備員１１８Ｂが所持する端末等、又は映像撮像装置１１８Ｃが有する表示部等に、表示される（Ｓ１０８Ｂ）。

以下、上記動作の詳細を説明する。シーン解析部１４５及びトラッキング部１４４は、自由視点映像の生成と同じく、三次元空間再構成装置１１５で生成された三次元モデルに基づいて、撮影領域内の各被写体の仮想視点から見た構造、及び仮想視点からの距離を算出する。また、シーン解析部１４５及びトラッキング部１４４は、仮想視点から近い距離にある撮像装置１２１の映像から優先的に各被写体の色及びテクスチャを取得し、取得した情報を利用することも可能である。

二次元映像を用いたシーン解析は、撮影領域内の各被写体、例えば、人又は物のある瞬間の様子を示す映像を、ソフトウェアで、又は人が画面で見て解析することで実行される。このシーン解析をシーン解析部１４５が、三次元モデルデータに基づき行うことで、撮影領域内の人の三次元姿勢又は物の三次元形状を観察することができるので、二次元映像を用いるよりも高精度な状況認識及び予測が可能である。

二次元映像を用いたトラッキングでは、例えば、まず、撮像装置１２１が撮影した映像のシーン解析によって撮影領域内の被写体が特定される。また、異なる瞬間に撮像装置１２１が撮影した映像上で特定された同一の被写体が、ソフトウェア又は人手で対応付けされる。そして、このような被写体の特定及び対応付けが時間軸に沿って行われることでトラッキングが実行される。しかし、例えば、撮像装置１２１による二次元映像では、注目していた被写体が他の被写体に一時的に隠れたために、その被写体の特定の継続が不可能になる場合がある。このような場合においても、三次元モデルを用いることで被写体それぞれの三次元位置情報又は三次元形状情報を用いて被写体の特定を継続することができる。

このような三次元モデルを用いたシーン解析及びトラッキングの機能を、次世代監視システム１０２で利用する。これにより、不審な現場の早期発見及び発見の精度向上を実現できる。また、設置可能なカメラの台数が制限されている場所でも、二次元映像を用いる場合に比べてセキュリティの強化を図ることができる。

シーン解析部１４５は、三次元モデルのデータを解析して、例えば被写体の特定を行う。解析の結果は、トラッキング部１４４に渡されてもよいし、自由視点映像と共に端末等のディスプレイに表示されてもよい。また、端末等が備える記憶装置又は外部の記憶装置に自由視点映像の解析結果のデータが保存されてもよい。また、解析の結果に応じて、他の時刻又は他の位置における仮想視点の決定がシーン解析部１４５から端末経由でユーザに要求されてもよい。

トラッキング部１４４は、三次元モデルのデータに基づいて特定の被写体の追跡をする。追跡の結果は、自由視点映像と共に端末等のディスプレイに表示されてもよい。また、例えば特定の被写体の追跡が不可能な場合に、他の時刻又は他の位置における仮想視点の決定がトラッキング部１４４から端末経由でユーザに要求されてもよい。

（実施の形態３）
本実施の形態では、実施の形態１に係る自由視点映像生成システム１０１の変形例を説明する。図１１は、本実施の形態に係る自由視点映像生成システム１０３の構成を示すブロック図である。図１１に示す自由視点映像生成システム１０３は、図４に示す自由視点映像生成システム１０１に対して、視点決定部１５１及びレンダリング部１５２が映像表示端末１１７Ａ内に設けられている点が異なる。

データ転送装置１１９は、三次元空間再構成装置１１５で生成された三次元モデル（前景モデルと背景モデル）を映像表示端末１１７Ａに配信する。なお、データ転送装置１１９は、さらに、多視点映像撮像装置１１１で得られた撮影映像とカメラパラメータとを映像表示端末１１７Ａに送信してもよい。また、三次元空間再構成装置１１５は、三次元モデルを生成する際に、撮像映像等を用いて三次元モデルに色情報を付加し、データ転送装置１１９は、映像表示端末１１７Ａに色情報が付加された三次元モデルを配信してもよい。また、この場合は、データ転送装置１１９は、撮影映像を映像表示端末１１７Ａに配信しなくてもよい。

映像表示端末１１７Ａは、ディスプレイ、無線通信機器、及びユーザ入力インターフェースを備えている。ユーザは映像表示端末１１７Ａを利用し、撮影環境の任意時刻の任意領域を見たいという視聴要求をイベント検出装置１１３に送り、視聴要求に基づいた三次元モデル、撮影映像、及びカメラパラメータをデータ転送装置１１９から受信する。そして映像表示端末１１７Ａは、ユーザが見たいと指定した視点情報と受信した三次元モデルとを用いて、視点情報に沿った視点の映像を生成し、生成した映像を自由視点映像としてディスプレイに出力する。

図１２は、自由視点映像生成システム１０３の動作を示すフローチャートである。なお、ステップＳ１０１及びＳ１０３は、図６に示す実施の形態１の処理と同様である。

次に、データ転送装置１１９は、三次元空間再構成装置１１５で生成された三次元モデル（前景モデルと背景モデル）を映像表示端末１１７Ａに配信する（Ｓ１０７Ｃ）。このとき、データ転送装置１１９は、前景モデルと背景モデルとを異なる配信方式で配信する。

例えば、データ転送装置１１９は、映像表示端末１１７Ａに三次元モデルを配信する際に、前景モデルと背景モデルとを分けて配信する。その際、データ転送装置１１９は、例えば、各モデルが前景モデルであるか背景モデルであるかを区別するためのフラグ又は識別子を配信データに含まれるヘッダ情報等に付加する。

例えば、前景モデルと背景モデルの配信周期が異なってもよい。また、前景モデルの配信周期は背景モデルの配信周期未満であってもよい。例えば、撮像装置１２１の記録フレームレートが３０フレーム／秒の場合には、データ転送装置１１９は、撮像装置１２１の記録フレームレートに合わせて前景モデルを３０モデル／秒で配信する。また、データ転送装置１１９は、例えば、背景モデルとして１つのモデルを配信する。

また、データ転送装置１１９は、前景モデルを配信する際、現在時刻の前景モデルと前時刻の前景モデルとの差分である差分モデルを生成し、生成した差分モデルを配信してもよい。また、データ転送装置１１９は、前景モデルの動きを予測して前時刻の前景モデルから予測モデルを生成し、現時刻の前景モデルと予測モデルとの差分である差分モデルを生成し、生成した差分モデルと、動き予測の結果を示す動き情報とを配信してもよい。これにより前景モデルの情報量を削減することができるので、ネットワークの帯域を抑制することができる。さらに、データ転送装置１１９は、差分モデルと動き情報に可変長符号化又は算術符号化を行うことで、送信データの情報量を圧縮してもよい。

また、データ転送装置１１９は、背景モデルを配信する際、ユーザの視聴開始時に１つの背景モデルを配信してもよい。または、データ転送装置１１９、予め定められた一定間隔毎に背景モデルを送信してもよい。この際、データ転送装置１１９は、現在の背景モデルと前回配信した背景モデルとの差分である差分モデルを生成し、生成した差分モデルを送信してもよい。これにより、配信する背景モデルの情報量を削減することができるので、ネットワーク帯域を抑制することができる。

また、データ転送装置１１９は、ランダムアクセスポイントでは、前景モデルと背景モデルの両方を送信してもよい。これにより、映像表示端末１１７Ａは、ユーザが視聴したい時刻を切り替えた際に常に適切な前景モデルと背景モデルを用いて自由視点映像を生成することができる。

図１３は、ユーザの視聴開始時に１つの背景モデルを配信される場合の前景モデルと背景モデルの配信例を示す図である。図１３に示すように、データ転送装置１１９はユーザの視聴開始時に１つの背景モデルを配信する。映像表示端末１１７Ａはその背景モデルと、時刻毎に受信した前景モデルとを用いて自由視点映像を生成する。

図１４は、一定間隔毎に背景モデルが配信される場合の前景モデルと背景モデルの配信例を示す図である。図１４に示すように、データ転送装置１１９は、予め定められた一定間隔で背景モデルを配信する。ここで、当該一定間隔は、前景モデルの配信間隔より長い。映像表示端末１１７Ａは、直前に受信した背景モデルと、時刻毎に受信した前景モデルとを用いて自由視点映像を生成する。

また、データ転送装置１１９は、前景モデルと背景モデルとを符号化して配信する場合に、モデル毎に符号化方法を切り替えてもよい。つまり、データ転送装置１１９は、前景モデルと背景モデルとに異なる符号化方法を用いてもよい。例えば、データ転送装置１１９は、前景モデルに対しては、映像表示端末１１７Ａ側での即時再生を目的とし、低遅延を優先した符号化方法を適用する。また、データ転送装置１１９は、背景モデルに対しては、できるだけ情報量を削減するために高効率を優先した符号化方式を適用する。これにより、各モデルの使用用途に応じた適切な符号化方法を選択することで、データ量を削減しつつ、システムの機能性を高めることができる。

なお、データ転送装置１１９は、前景モデルに対して高効率な符号化方式を用い、背景モデルに対しては前景モデルよりも低効率な符号化方式を用いてもよい。例えば、背景モデルは配信頻度が少ないため、低効率な符号化方式を用いることでデータ量が増えてもネットワーク負荷は増えにくい。一方で、処理の軽い低効率な符号化方式を用いることで、サーバ又は端末における背景モデルに対する処理負荷を抑制できる。また、前景モデルは更新頻度が多い。よって、サーバ又は端末の処理負荷が高くでも、できるだけ前景モデルを高効率に符号化することでネットワーク負荷を削減することができる。なお、データ転送装置１１９は、低効率な符号化方式を行う代わりに、符号化を行わず、そのままモデルを送ってもよい。

また、データ転送装置１１９は、前景モデルと背景モデルとを異なる特性を持つネットワーク又はプロトコルを用いて配信してもよい。例えば、データ転送装置１１９は、前景モデルに対しては、映像表示端末１１７Ａ側での即時再生を目的とし、パケットロスの少なく、信頼度が高い高速ネットワークを用いるとともに、ＵＤＰ（ＵｓｅｒＤａｔａｇｒａｍＰｒｏｔｏｃｏｌ）等の低遅延な配信プロトコルを用いる。また、データ転送装置１１９は、背景モデルに対しては、前景モデルの送信帯域を確保しつつ確実に背景モデルを配信するために、低速度のネットワークを用いるとともに、ＴＣＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）等のエラー耐性が高いプロトコルを用いる。また、背景モデルにはＨＴＴＰ（ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）等を用いたダウンロード配信を適用し、前景モデルにはＲＴＰ（Ｒｅａｌ－ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）等を用いたストリーム配信を適用することで、前景モデルの低遅延化を実現してもよい。

また、データ転送装置１１９は、映像表示端末１１７Ａからユーザが視聴中の視点位置情報を取得し、その情報を用いて配信する三次元モデルを切り替えてもよい。例えば、データ転送装置１１９は、ユーザが視聴中の視点から見た映像の生成に必要な前景モデルと背景モデルを優先して配信してもよい。また、データ転送装置１１９は、ユーザが視聴中の視点から見た映像の生成に必要な前景モデルは高精度（高密度）に配信して、その他のモデルには間引き処理等を行うことでモデルの精度（密度）を落として配信してもよい。これにより、配信データ量を削減できる。なお、背景モデルに関しては、このような切り替えを行わなくてもよい。

また、データ転送装置１１９は、利用可能なネットワーク帯域に応じて配信する三次元モデルの密度又は配信周期を変えてもよい。例えば、データ転送装置１１９は、ネットワーク帯域が狭いほど、三次元モデルの密度を疎にし、又は配信周期を長くしてもよい。また、データ転送装置１１９が配信する三次元モデルの密度に応じて、映像表示端末１１７Ａは、レンダリングの解像度を切り替えてもよい。例えば、ネットワーク帯域が狭い場合は、データ転送装置１１９は、三次元モデルの密度を間引き処理等によって疎にして配信する。また、映像表示端末１１７Ａは、レンダリング解像度を小さくして映像を表示する。

また、三次元モデルの密度の削減方法として、均一に間引き処理を行う方法、又は対象物体によって間引きの有無或いは方法を切り替える方法等を用いることができる。例えば、データ転送装置１１９は、重要な被写体は密な三次元モデルで配信し、その他の被写体は疎な三次元モデルで配信する。これにより、重要な被写体の画質を維持しつつ、配信データ量を削減できる。また、データ転送装置１１９は、ネットワーク帯域が狭くなった場合には、前景モデルの配信周期を長くするなど、配信する三次元モデルの時間的な解像度を下げてもよい。

再度、図１２を参照する。次に、映像表示端末１１７Ａは、配信された三次元モデルを用いた三次元空間認識を行う。まず、視点決定部１５１は、仮想視点を決定する（Ｓ１０５Ｃ）。次に、レンダリング部１５２は、三次元モデルを用いてレンダリングを行うことで、仮想視点から見た映像である自由視点映像を生成する（Ｓ１０６Ｃ）。なお、これらの処理は、実施の形態１におけるステップＳ１０５及びＳ１０６の処理と同様である。次に、映像表示部１５３は、生成された自由視点映像を表示する（Ｓ１０８Ｃ）。

映像表示端末１１７Ａはデータ転送装置１１９から三次元モデルを受信する際に、前景モデルと背景モデルを分けて受信してもよい。その際、映像表示端末１１７Ａは、各モデルが前景モデルであるか背景モデルであるかを区別するためのフラグ又は識別子を、ヘッダ情報等を解析して取得してもよい。

前景モデルと背景モデルの受信周期は異なってもよい。また、前景モデルの受信周期は背景モデルの受信周期未満であってもよい。例えば、前景モデルは撮像装置１２１の記録フレームレートが３０フレーム／秒の場合には、映像表示端末１１７Ａは、撮像装置１２１の記録フレームレートに合わせて３０モデル／秒で前景モデルを受信する。また、映像表示端末１１７Ａは、背景モデルとして１つのモデルを受信する。

映像表示端末１１７Ａは、前景モデルを受信する際、現在時刻の前景モデルと前時刻の前景モデルとの差分である差分モデルを受信し、前時刻の前景モデルと差分モデルとを加算することで現時刻の前景モデルを生成してもよい。また、映像表示端末１１７Ａは、差分モデルと、動き予測の結果を示す動き情報とを受信し、受信した動き情報と前時刻の前景モデルから予測モデルを生成し、差分モデルと予測モデルとを加算することで現時刻の前景モデルを生成してもよい。これにより受信する前景モデルの情報量を削減することができるので、ネットワークの帯域を抑制することができる。さらに、差分モデルと動き情報が可変長符号化又は算術符号化によって圧縮されている場合には、映像表示端末１１７Ａは、受信したデータを可変長復号又は算術復号することにより差分モデル及び動き情報を復号してもよい。

また、映像表示端末１１７Ａは、背景モデルを受信する際、ユーザの視聴開始時に１つの背景モデルを受信し、全ての時刻において１つの背景モデルを使いまわしてもよい。または、映像表示端末１１７Ａは、予め定められた定間隔毎に背景モデルを受信してもよい。この際、映像表示端末１１７は、前回受信した背景モデルと現在の背景モデルとの差分である差分モデルを受信し、前回の背景モデルと差分モデルとを加算することで現在の背景モデルを生成してもよい。これにより、受信する背景モデルの情報量を削減することができるのでネットワーク帯域を抑制することができる。

また、映像表示端末１１７Ａは、ランダムアクセスポイントでは、前景モデルと背景モデルの両方を受信してもよい。これにより、映像表示端末１１７Ａは、ユーザが視聴したい時刻を切り替えた際に常に適切な前景モデルと背景モデルを用いて自由視点映像を生成することができる。

また、映像表示端末１１７Ａは、三次元モデルをネットワークエラー等で受信できない場合は、既に受信済の三次元モデルを利用してレンダリング処理を行ってもよい。例えば、映像表示端末１１７Ａは、前景モデルを受信できない場合は、既に受信した前景モデルから動きを予測により予測モデルを生成し、生成した予測モデルを現時刻の前景モデルとして利用してもよい。また、映像表示端末１１７Ａは、背景モデルを受信できない場合は、既に受信した背景モデルを利用してもよいし、ＣＧモデルを利用してもよい。また、映像表示端末１１７Ａは、背景モデル又は前景モデルを受信できない場合、ＣＧ画像等、事前に準備したモデル又はレンダリング画像を利用してもよい。これにより、三次元モデルが受信できない場合でも、映像表示端末１１７Ａはレンダリング画像をユーザに提供することができる。

また、データ転送装置１１９は、カメラパラメータ、多視点映像撮像装置１１１で得られた撮影映像、背景画像、背景差分画像、各撮影映像又は三次元モデル生成時の時刻情報、レンダリング開始時の視点位置情報、及びレンダリング用の時刻情報のうち少なくとも一つを映像表示端末１１７Ａに配信してもよい。

また、データ転送装置１１９は、撮像装置１２１が固定されたカメラである場合、視聴開始時にのみカメラパラメータを映像表示端末１１７Ａに配信してもよい。また、データ転送装置１１９は、校正指示装置１１４によって校正が行われたタイミングにおいてカメラパラメータを映像表示端末１１７Ａに配信してもよい。また、撮像装置１２１が非固定である場合、データ転送装置１１９は、カメラパラメータが更新される毎に当該カメラパラメータを映像表示端末１１７Ａに配信してもよい。

また、データ転送装置１１９は、多視点映像撮像装置１１１で得られた撮影映像、背景画像、又は背景差分画像を符号化したうえで配信してもよい。これにより、送信データのデータ量を削減できる。例えば、データ転送装置１１９は、多視点画像間の相関を利用したＨ．２６４又はＨ．２６５のマルチビューコーデック（ＭＶＣ）を利用してもよい。また、データ転送装置１１９は、各撮像装置１２１の映像を各々独立にＨ．２６４又はＨ．２６５で符号化したうえで配信してもよい。これにより映像表示端末１１７Ａに配信するデータのデータ量を削減できる。

レンダリング開始時の視点位置情報は、ユーザが開始時に映像表示端末１１７Ａを介して指定してもよい。また、視点決定部１５１は、映像表示端末１１７Ａを用いた視聴のスタイル又は映像表示端末１１７Ａの種類によって視点位置を切り替えてもよい。例えば、テレビでの視聴の場合には、視点決定部１５１は、システム側が指定したお勧め視点、ボールに近い撮像装置１２１からの視点、フィールドの中心を撮影している撮像装置１２１からの視点、又は視聴率が高い視点等を、開始視点として決定する。また、ユーザのタブレット又はスマートフォン等の個人端末での視聴の場合には、視点決定部１５１は、ユーザのお気に入り選手が写っている視点等を開始視点として決定する。また、ヘッドマンウトディスプレイでの視聴の場合には、視点決定部１５１は、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）用のお勧め視点、例えばフィールド上の選手視点、又はベンチからの視点などを開始視点として決定する。

（実施の形態４）
本実施の形態では、実施の形態２に係る次世代監視システム１０２の変形例を説明する。図１５は、本実施の形態に係る次世代監視システム１０４の構成を示すブロック図である。図１５に示す次世代監視システム１０４は、図８に示す次世代監視システム１０２に対して、トラッキング部１５４及びシーン解析部１５５が映像表示端末１１７Ｂ内に設けられている点が異なる。

図１６は、次世代監視システム１０４の動作を示すフローチャートである。なお、ステップＳ１０１、Ｓ１０３及びＳ１０７Ｃは、図１２に示す実施の形態３の処理と同様である。

次に、映像表示端末１１７Ｂは、三次元モデルを用いた三次元空間認識を行う。具体的には、トラッキング部１５４は、三次元空間上で人物をトラッキングする（Ｓ１０５Ｄ）。シーン解析部１５５は、シーン解析を行う（Ｓ１０６Ｄ）。そして、映像表示端末１１７Ｂは、三次元空間認識の結果を表示する（Ｓ１０８Ｄ）。なお、これらの処理は、実施の形態２におけるステップＳ１０５Ｂ、Ｓ１０６Ｂ及びＳ１０８Ｂの処理と同様である。

（実施の形態５）
上記実施の形態では、三次元モデルに前景モデルと背景モデルとが含まれる例を述べたが、三次元モデルに含まれるモデルは、前景モデルと背景モデルとの２つのモデルに限定しなくともよい。

図１７は、本実施の形態に係る自由視点映像生成システム１０５の構成を示すブロック図である。図１７に示す自由視点映像生成システム１０５は、図１１に示す自由視点映像生成システム１０３に対して、三次元空間再構成装置１１５Ａの構成が異なる。この三次元空間再構成装置１１５Ａは、第１モデルを生成する第１モデル生成部１３３と、第２モデルを生成する第２モデル生成部１３４と、第３モデルを生成する第３モデル生成部１３５とを備える。

三次元空間再構成装置１１５Ａは、第１モデル、第２モデル及び第３モデルを含む三次元モデルを生成する。データ転送装置１１９は第１～第３モデルを映像表示端末１１７Ａに別々に異なる配信方式で配信する。三次元空間再構成装置１１５Ａは、異なる頻度で各モデルを更新する。データ転送装置１１９は、異なる周期で各モデルを映像表示端末１１７Ａに配信する。例えば、第１モデルが前景モデルであり、第２モデルが背景モデルの一部であり、第３モデルが第２モデル以外の背景モデルである。この場合において、撮像装置１２１の記録フレームレートが３０フレーム／秒の場合には、データ転送装置１１９は、撮像装置１２１の記録フレームレートに合わせて第１モデルを３０モデル／秒で配信する。また、データ転送装置１１９は、第２モデルを１モデル／秒で配信し、第３モデルとして視聴開始時に１つのモデルを配信する。これにより、背景モデルのうち更新頻度の異なる領域を別モデルとして別周期で配信することができるので、ネットワーク帯域を抑制することができる。

また、データ転送装置１１９は、三次元モデルに、２つ以上のモデルを識別するための識別子を付加してもよい。これにより、映像表示端末１１７Ａは識別子を解析することにより、受信した三次元モデルがどのモデルに該当するかを判定できる。

なお、ここでは、３つのモデルが用いられる例を述べたが、４以上のモデルが用いられてもよい。

また、２つのモデルが用いられる場合において、当該２つのモデルは、前景モデル及び背景モデル以外であってもよい。例えば、三次元データは、更新頻度が多くデータ量が多い第１モデルと、更新頻度が少なくデータ量が少ない第２モデルを含んでもよい。また、データ転送装置１１９は、各モデルを映像表示端末１１７Ａに別々に異なる配信方式で配信してもよい。この際、モデル毎に更新頻度が異なるため、データ転送装置１１９は、異なる周期で各モデルを映像表示端末１１７Ａに配信する。例えば、撮像装置１２１の記録フレームレートが３０フレーム／秒の場合には、データ転送装置１１９は、撮像装置１２１の記録フレームレートに合わせて第１モデルを３０モデル／秒で配信する。また、データ転送装置１１９は、第２モデルとして視聴開始時に１つのモデルを配信する。これにより、データ量が異なる三次元モデルを異なる周期で配信することができるので、ネットワーク帯域を抑制することができる。

また、第１モデル及び第２モデルは重要度が異なるモデルであってもよい。また、データ転送装置１１９は、各モデルを映像表示端末１１７Ａに別々に異なる配信方式で配信してもよい。この際、モデル毎に重要度が異なるため、データ転送装置１１９は、異なる周期で各モデルを映像表示端末１１７Ａに配信する。例えば、第１モデルが重要度が高いモデルであり、第２モデルが重要度が低いモデルであるとする。この場合において、撮像装置１２１の記録フレームレートが３０フレーム／秒の場合には、データ転送装置１１９は、撮像装置１２１の記録フレームレートに合わせて第１モデルを３０モデル／秒で配信し、第２モデルを１５モデル／秒で配信する。これにより、重要度が高い三次元モデルを優先的に配信することができるので、ネットワーク帯域を抑制しつつ、映像表示端末１１７Ａを利用するユーザへ適切なレンダリング映像を提供することが可能となる。

また、データ転送装置１１９は、重要度によって配信周期以外を切り替えてもよい。例えば、データ転送装置１１９は、優先度に応じてモデルの密度を切り替えてもよい。例えば、データ転送装置１１９は、サッカー試合における三次元モデルを配信する場合には、一方のゴール前で争っている選手の三次元モデルは重要度が高いと判定し、他方のゴール付近にいるゴールキーパーの三次元モデルは重要度が低いと判断する。そして、データ転送装置１１９は、ゴールキーパーの三次元モデルの密度を重要度が高い三次元モデルよりも下げて配信する。なお、データ転送装置１１９は、重要度が低い三次元モデルを配信しなくてもよい。また、データ転送装置１１９は、重要度の高低の判断を、例えば、判断対象とするモデルが、ボールなどの特定の特徴点又は対象物に近いかどうか、又は、視聴者が多く見ている視点位置に近いかどうかなどに基づき行う。例えば、特定の特徴点又は対象物に近いモデルの重要度は高く、視聴者が多く見ている視点位置に近いモデルの重要度は高く設定される。

なお、各モデルは、例えば、オブジェクト認識等で判別される１以上のオブジェクト（例えば、人、ボール、車等）の集合であってもよいし、背景及び前景等、動きに基づき判別される領域又はオブジェクトの集合であってもよい。

また、実施の形態４で説明した次世代監視システム１０４に対しても同様の変形例を適用できる。図１８は、本実施の形態に係る次世代監視システム１０６の構成を示すブロック図である。図１８に示す次世代監視システム１０６は、図１５に示す次世代監視システム１０４に対して、三次元空間再構成装置１１５Ａの構成が異なる。なお、三次元空間再構成装置１１５Ａの機能等は、図１７と同様である。

以上、実施の形態１～４で説明したように、三次元モデル配信装置（例えばデータ転送装置１１９）は、対象時間帯における対象空間の三次元モデルである第１モデル（例えば前景モデル）を第１配信方式で配信し、対象時間帯における対象空間の三次元モデルであって、第１モデルより時間当たりの変化が小さい第２モデル（例えば背景モデル）を、第１配信方式と異なる第２配信方式で配信する。つまり、三次元モデル配信装置は、前景モデルと背景モデルを別々に送信する。

例えば、第１モデルと第２モデルの送信周期は異なる。例えば、第１配信方式の配信周期は、第２配信方式の配信周期より短い。また、三次元モデル配信装置は、第１モデルを予め定められた一定間隔毎に送信する。このとき、三次元モデル配信装置は、現在時刻の第１モデルと前時刻の第１モデルとの差分である差分モデルを送信してもよい。また、三次元モデル配信装置は、現在時刻の第１モデルの、前時刻の第１モデルからの動き情報を送信してもよい。

例えば、三次元モデル配信装置は、第２モデルを視聴開始時に送信する。または、三次元モデル配信装置は、予め定められた一定間隔毎に第２モデルを送信する。また、三次元モデル配信装置は、現在の第２モデルと、前回送信した第２モデルとの差分である差分モデルを送信してもよい。また、三次元モデル配信装置は、ランダムアクセスポイント毎に第２モデルを送信してもよい。

また、三次元モデル配信装置は、各モデルが第１モデルか第２モデルかを区別するためのフラグ等の情報を送信してもよい。

また、三次元モデル配信装置は、ランダムアクセスポイントでは、第１モデルと第２モデルの両方を送信してもよい。

また、三次元モデル配信装置は、第１モデルと第２モデルとを異なる方法で生成してもよい。具体的には、三次元モデル配信装置は、第１モデルを第１生成方法で生成し、第２モデルを第１生成方法と精度が異なる第２生成方法で生成する。例えば、三次元モデル配信装置は、第１モデルを第１生成方法で生成し、第２モデルを第１生成方法より精度が高い第２生成方法で生成する。または、三次元モデル配信装置は、第１モデルを第１生成方法で生成し、第２モデルを第１生成方法より精度が低い第２生成方法で生成する。例えば、三次元モデル配信装置は、プレーヤ又は犯人などの第１モデル（前景モデル）をできるだけ高画質にレンダリングする必要がある場合はデータ量が増えても第１モデルを高精度に生成する。一方、三次元モデル配信装置は、観客又は背景画像等の、前景よりも重要でない領域の第２モデルは精度を落とすことでデータ量を抑制する。

例えば、三次元モデル配信装置は、対象時間帯における対象空間に含まれる複数の対象物の三次元モデルである第３モデルと、対象時間帯における対象空間に含まれる複数の対象物のうちの一部の対象物の三次元モデルである第２モデル（背景モデル）とから、第３モデルと第２モデルとの差分である第１モデル（前景モデル）を生成する。

例えば、三次元モデル配信装置は、対象時間帯における対象空間に含まれる複数の対象物が撮影された第１多視点画像（撮影画像）と、当該複数の対象物のうちの一部の対象物が撮影された第２多視点画像（背景画像）との差分である第３多視点画像（背景差分画像）を生成し、第３多視点画像（背景差分画像）を用いて、第１モデル（前景モデル）を生成する。

また、三次元モデル配信装置は、第１モデルを、第２多視点画像（撮影画像）又は第３多視点画像（背景差分画像）を用いた視体積交差法方式により生成し、第２モデルをカメラ間の特徴点のマッチング結果を用いて生成してもよい。これにより、第１モデルの生成の処理量を減らすことができるとともに、第２モデルの精度を向上できる。なお、三次元モデル配信装置は、第２モデルを手動で作成してもよい。

三次元モデル配信装置は、三次元モデル以外のデータを配信してもよい。例えば、三次元モデル以外のデータとは、カメラパラメータ、多視点画像、背景差分画像、時刻情報、及び開始時の視点位置の少なくとも一つを含む。

また、三次元モデル配信装置は、固定カメラのカメラパラメータを視聴開始時に配信し、非固定カメラのカメラパラメータを当該カメラパラメータが変化する毎に配信してもよい。

また、視聴開始時の視点位置は、ユーザが視聴開始時に指定してもよい。または、視聴開始時の視点位置は、視聴スタイル又は端末の種類によって切り替えられてもよい。例えば、テレビでの視聴の場合には、お勧め視点、固定カメラのどれか（例えば、ボールに近い、或いはフィールドの中心）、又は視聴率が高い視点が選択される。また、個人のタブレット端末又はスマートフォンでの視聴の場合は、お気に入り選手の写る視点が選択される。また、ヘッドマウントディスプレイでの視聴の場合には、ＶＲ用のお勧め視点（例えばフィールド上の視点）が選択される。

また、第１モデル及び第２モデルは、前景モデルと背景モデルとの２つのモデルに限定されない。また、２つ以上の複数モデルが生成され、別々に異なる配信方式で配信されてもよい。この場合、モデル毎に更新頻度が異なる（背景でも領域によって更新頻度が異なる）ため、三次元モデル配信装置は、異なる周期で各モデルを配信する。また、三次元モデル配信装置は、２つ以上のモデルを識別するための識別子を付加する。

また、三次元モデル配信装置は、モデル毎に符号化方法を切り替える。

例えば、第１モデルに用いられる第１配信方式では、第１符号化方式が用いられる。第２モデルに用いられる第２配信方式では、第２符号化方式が用いられる。第１符号化方式と第２符号化方式とは、処理遅延及び符号化効率の少なくとも一方が異なる。例えば、第２符号化方式は、第１符号化方式よりも処理遅延が大きい。または、第２符号化方式は、第１符号化方式よりも符号化効率が高い。または、第２符号化方式は、第１符号化方式よりも符号化効率が低い。

また、第１配信方式は、第２配信方式より低遅延であってもよい。例えば、三次元モデル配信装置は、第１モデルを信頼度が高い回線を用いて低遅延配信する（例えばＵＤＰを利用する）。また、三次元モデル配信装置は、第２モデルを低速度回線で配信する（例えばＴＣＰを利用する）。または、三次元モデル配信装置は、第２モデルをダウンロード配信し（例えばＨＴＴＰ）、第１モデルをストリーム配信（例えばＲＴＰ）してもよい。

また、三次元モデル受信装置（例えば映像表示端末１１７Ａ）は、三次元モデルをネットワークエラー等で受信できない場合、既に受信済の三次元モデルを利用してもよい。例えば、三次元モデル受信装置は、第１モデルを受信できない場合は、既に受信した第１モデルから動きの予測を行うことで予測モデルを生成し、生成した予測モデルを現時刻の第１モデルとして利用する。

また、三次元モデル受信装置は、第２モデルを受信できない場合は、既に受信した第２モデルを利用する。もしくは、三次元モデル受信装置は、ＣＧモデル又はＣＧ画像等、事前に準備したモデル又はレンダリング画像を利用する。つまり、三次元モデル受信装置は、第１モデルと第２モデルとで異なるエラーコンシールメント処理を行ってもよい。

また、三次元モデル配信装置は、ユーザが見ている視点の映像に生成に必要な第１モデルと第２モデルとを優先して配信してもよい。例えば、三次元モデル配信装置は、ユーザが見ている視点の映像の生成に必要な第１モデルを高精度に配信して、その他の第１モデルを間引いてもよい。つまり、第１モデル及び第２モデルの配信先の端末（例えば映像表示端末１１７Ａ）は、第１モデル及び第２モデルを用いて、選択視点から見た映像である自由視点映像を生成する。三次元モデル配信装置は、第１モデルのうち、自由視点映像の生成に必要なモデルを優先して配信する。

また、三次元モデル配信装置は、利用可能なネットワーク帯域に応じて配信する三次元モデルの質を変えてもよい。例えば、三次元モデル配信装置は、ネットワーク帯域に応じて三次元モデルの密度又はレンダリング解像度を切り替える。三次元モデル配信装置は、帯域が厳しい場合は三次元モデルの密度を疎にしてレンダリング解像度を小さくする。また、三次元モデルの密度切り替えは、均一に間引く、又は対象物体によって切り替える等の方法を用いることができる。また、三次元モデル配信装置は、帯域が厳しい場合には、第１モデルの配信周期を長くするなど、配信する三次元モデルの時間的解像度を下げる処理を行う。

また、上記説明では、多視点映像撮像装置１１１で得られた多視点映像を用いて三次元モデルが生成される例を述べたが、三次元モデル（前景モデル及び背景モデル）の生成方法は上記に限定されない。例えば、三次元モデルは、カメラ以外の手段、例えば、ＬＩＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）又はＴＯＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）等で得られた情報を用いて生成されてもよい。また、これらの情報を用いて、三次元モデルの生成に用いる多視点映像が生成されてもよい。

また、三次元モデルは、対象物体の三次元位置を表す情報であればどのような形態でも構わない。例えば、三次元モデルは、ポイントクラウド、ボクセル、メッシュ、ポリゴン、又は深度情報などの形態であってもよい。

（実施の形態６）
本実施の形態では、三次元空間再構成装置１１５Ｃは、三次元モデルから１つ以上のデプス画像を生成し、生成したデプス画像を圧縮して映像表示端末１１７Ｃに配信する。映像表示端末１１７Ｃは、受信したデプス画像から三次元モデルを復元する。このように、デプス画像を効率的に圧縮して配信することで、配信時のネットワーク帯域を抑制できる。

図１９は、本実施の形態に係る自由視点映像生成システム１０７の構成を示すブロック図である。図１９に示す自由視点映像生成システム１０７は、図１７に示す自由視点映像生成システム１０５に対して、三次元空間再構成装置１１５Ｃ、データ転送装置１１９Ｃ及び映像表示端末１１７Ｃの構成が異なる。三次元空間再構成装置１１５Ｃは、三次元空間再構成装置１１５Ａの構成に加え、第１デプス画像生成部１３６と、第２デプス画像生成部１３７と、第３デプス画像生成部１３８とを備える。映像表示端末１１７Ｃは、映像表示端末１１７Ａの構成に加え、モデル復元部１５６を備える。

三次元空間再構成装置１１５Ｃは、三次元モデルを配信する代わりに、作成した三次元モデルから１つ以上のデプス画像（距離画像）を生成する。データ転送装置１１９Ｃは、生成された１つ以上のデプス画像を映像表示端末１１７Ｃに配信する。この場合、映像表示端末１１７Ｃは、１つ以上のデプス画像を受信して三次元モデルを復元（生成）し、復元した三次元モデルと、受信した撮影画像とを用いてレンダリング画像を生成する。

図２０は、自由視点映像生成システム１０７の動作を示すフローチャートである。図２０に示す処理は、図１２に示す処理に対して、ステップＳ１０７Ｃの代わりにステップＳ１２１～Ｓ１２３を含む。

ステップＳ１０１及びＳ１０３は、実施の形態５と同様あり、第１モデル生成部１３３、第２モデル生成部１３４及び第３モデル生成部１３５により第１モデル、第２モデル及び第３モデルが生成される。

次に、第１デプス画像生成部１３６は第１モデルから１つ以上の第１デプス画像を生成し、第２デプス画像生成部１３７は第２モデルから１つ以上の第２デプス画像を生成し、第３デプス画像生成部１３８は第３モデルから１つ以上の第３デプス画像を生成する（Ｓ１２１）。

次にデータ転送装置１１９Ｃは、生成された第１デプス画像、第２デプス画像及び第３デプス画像に、二次元の画像圧縮処理等を行うことでこれらのデプス画像のデータ量を削減する。そして、データ転送装置１１９Ｃは、圧縮後の第１デプス画像、第２デプス画像及び第３デプス画像を映像表示端末１１７Ｃへ配信する（Ｓ１２２）。

次に、映像表示端末１１７Ｃのモデル復元部１５６は、受信した第１デプス画像、第２デプス画像及び第３デプス画像を復号し、第１デプス画像を用いて第１モデルを復元（生成）し、第２デプス画像を用いて第２モデルを復元（生成）し、第３デプス画像を用いて第３モデルを復元（生成）する（Ｓ１２３）。

そして、実施の形態５と同様に、視点決定部１５１は、ユーザが見たい視点を決定する（Ｓ１０５Ｃ）。レンダリング部１５２は、復元した第１～第３モデルと、受信した撮影画像とを用いて、決定された視点から見た画像であるレンダリング画像を生成する（Ｓ１０６Ｃ）。映像表示部１５３は、レンダリング画像を表示する（Ｓ１０８Ｃ）。

このように、データ転送装置１１９Ｃは、三次元モデルを配信する代わりに、二次元画像であるデプス画像を配信する。これにより、データ転送装置１１９Ｃは、Ｈ．２６４又はＨ．２６５といった標準的な画像圧縮方式を用いてデプス画像を圧縮したうえで送信できるので、データ転送量を抑制できる。

なお、第１～第３モデルは、点群（ポイントクラウド）、メッシュ、又はポリゴンで構成されてもよい。

また、ここでは、実施の形態５と同様に、第１～第３モデルが生成される場合を例に説明を行ったが、実施の形態１～４と同様に、前景モデル及び背景モデルが生成される場合にも同様の手法を適用できる。また、一つの三次元モデルを生成する場合にも同様の手法を適用できる。

また、ここでは、自由視点映像生成システムを例に説明したが、次世代監視システムに対しても同様の手法を適用できる。

また、三次元空間再構成装置１１５Ｃは、デプス画像に加え、デプス画像に対応するカメラパラメータを配信してもよい。例えば、このカメラパラメータはデプス画像の視点におけるカメラパラメータである。カメラパラメータは、カメラの焦点距離、及び画像中心等を示す内部パラメータと、カメラの姿勢（三次元位置及び向き）等を示す外部パラメータとを含む。三次元空間再構成装置１１５Ｃは、このカメラパラメータを用いて三次元モデルからデプス画像を生成する。

なお、送信される情報はカメラパラメータに限らず、三次元モデルからデプス画像を生成する際に使用されたパラメータであればよい。つまり、当該パラメータは、三次元モデルを所定の視点（デプス画像の視点）撮像面に投影するパラメータであればよい。例えば、当該パラメータは、カメラパラメータを用いて算出された投影行列であってもよい。

また、映像表示端末１１７Ｃは、１つ以上のデプス画像の各画素を、受信したカメラパラメータを用いて三次元空間に投影することで三次元モデルを生成する。

また、三次元空間再構成装置１１５Ｃは、三次元モデルを各撮像装置１２１の撮像面と同一平面に投影した複数のデプス画像を生成してもよい。これにより、撮影画像とデプス画像の視点位置が同じになる。よって、例えば、データ転送装置１１９Ｃが、多視点映像撮像装置１１１の複数視点の撮影画像をＨ．２６４又はＨ．２６５の拡張規格であるマルチビュー符号化で圧縮する場合に、デプス画像を用いて撮影画像間の視差情報を算出し、視差情報を用いて視点間の予測画像を生成することができる。これにより、撮影画像の符号量を削減できる。

また、三次元空間再構成装置１１５Ｃは、三次元モデルを撮像装置１２１の視点とは別のある視点の撮像面と同一平面に投影してデプス画像を生成してもよい。つまり、デプス画像の視点は、撮影画像の視点と異なってもよい。例えば、三次元空間再構成装置１１５Ｃは、映像表示端末１１７Ｃが三次元モデルを復元しやすい視点位置に三次元モデルを投影することでデプス画像を生成する。これにより、映像表示端末１１７Ｃはエラーの少ない三次元モデルを生成することが可能となる。また、映像表示端末１１７Ｃが三次元モデルを復元しやすい視点とは、例えば、より多くの対象物が映る視点である。

また、データ転送装置１１９Ｃは、デプス画像を圧縮して送信してもよい。例えば、データ転送装置１１９Ｃは、Ｈ．２６４、又はＨ．２６５等の二次元画像圧縮方式を用いてデプス画像を圧縮（符号化）してもよい。また、データ転送装置１１９Ｃは、マルチビュー符号化方式のように、異なる視点のデプス画像間の依存関係を用いて圧縮を行ってもよい。例えば、データ転送装置１１９Ｃは、カメラパラメータから算出された視差情報を利用して視点間の予測画像を生成してもよい。

また、三次元空間再構成装置１１５Ｃは、デプス画像の各画素の値を表現するビット長を、三次元空間再構成装置１１５Ｃで生成する三次元モデルと、映像表示端末１１７Ｃで復元する三次元モデルの誤差がある一定値以下になるように決定してもよい。例えば、三次元空間再構成装置１１５Ｃは、デプス画像のビット長を、被写体までの距離が近い場合は第１ビット長（例えば８ビット）に設定し、被写体までの距離が遠い場合は第１ビット長より長い第２ビット長（例えば１６ビット）に設定してもよい。または、三次元空間再構成装置１１５Ｃは、被写体までの距離に応じて適応的にビット長を切り替えてもよい。例えば、三次元空間再構成装置１１５Ｃは、被写体までの距離が遠いほどビット長を短くしてもよい。

このように、三次元空間再構成装置１１５Ｃは、配信するデプス画像のビット長を、映像表示端末１１７Ｃで復元される三次元モデルの誤差に応じて制御する。これにより、映像表示端末１１７Ｃで復元される三次元モデルの誤差を許容範囲に抑えつつ、配信するデプス画像の情報量削減によってネットワーク負荷を削減することが可能となる。例えば、デプス画像のビット長を８ビットにすると、ビット長を１６ビットにした場合と比較し、映像表示端末１１７Ｃで復元される三次元モデルの誤差は増加する一方、配信するネットワーク負荷を削減することができる。

また、三次元モデルを構成する各点群に色情報が付属している場合、三次元空間再構成装置１１５Ｃは、各点群と色情報とを１つ以上の視点の撮像面と同一平面に投影することで、デプス画像と色情報を含むテクスチャ画像とを生成してもよい。この場合、データ転送装置１１９Ｃは、デプス画像とテクスチャ画像とを圧縮して配信してもよい。また、映像表示端末１１７Ｃは、圧縮されたデプス画像とテクスチャ画像とを復号し、得られた１つ以上のデプス画像とテクスチャ画像とを用いて、三次元モデルと、三次元モデルに含まれる点群の色情報とを生成する。そして、映像表示端末１１７Ｃは、生成された三次元モデルと色情報とを用いてレンダリング画像を生成する。

なお、デプス画像とテクスチャ画像との圧縮は、データ転送装置１１９Ｃで行われてもよいし、三次元空間再構成装置１１５Ｃで行われてもよい。

三次元空間再構成装置１１５Ｃ又はデータ転送装置１１９Ｃは、撮影画像から背景画像を差引くことで生成される、上述した背景差分画像を配信してもよい。この場合、映像表示端末１１７Ｃは、背景差分画像を用いて三次元モデルを生成し、生成された三次元モデルを用いてレンダリング画像を生成してもよい。

三次元空間再構成装置１１５Ｃ又はデータ転送装置１１９Ｃは、各モデルが三次元空間上のどの位置にあるかを示す位置情報を配信してもよい。これにより、映像表示端末１１７Ｃは、各モデルを生成した後に、受信した位置情報を用いて各モデルを簡単に統合できる。例えば、三次元空間再構成装置１１５Ｃは、モデル生成時に三次元空間上で点群等を検出することで各モデルの位置情報を算出する。また、三次元空間再構成装置１１５Ｃは、二次元の撮影画像上で予め選手等の特定の被写体を検出し、複数の撮影画像と被写体検出情報とを用いて被写体（モデル）の三次元位置を特定してもよい。

デプス画像は、ある視点から被写体までの距離を表す二次元画像情報であり、デプス画像の各画素には、各画素に投影された三次元モデルの点群までの距離情報を表す値が格納される。なお、デプスを表す情報は必ずしも画像である必要はなく、三次元モデルを構成する各点群までの距離情報を表すものであれば、どのようなものでも構わない。

また、上記説明では、三次元空間再構成装置１１５Ｃは、背景差分画像等から一旦三次元モデルを生成し、その三次元モデルを各視点に投影することでデプス画像を生成する例を示したが、必ずしもこれには限らない。例えば、三次元空間再構成装置１１５Ｃは、ＬＩＤＡＲ等を用いて画像以外から三次元モデルを生成し、その三次元モデルからデプス画像を生成してもよい。また、三次元空間再構成装置１１５Ｃは、例えば、予め生成された三次元モデルを外部から取得し、取得した三次元モデルからデプス画像を生成してもよい。

また、三次元空間再構成装置１１５Ｃは、デプス画像におけるビット長をモデル毎に異なる値に設定してもよい。例えば、三次元空間再構成装置１１５Ｃは、第１デプス画像と第２デプス画像とのビット長をそれぞれ異なる値に設定してもよい。また、データ転送装置１１９Ｃは、第１デプス画像と第２デプス画像とのそれぞれのビット長を示す情報を、映像表示端末１１７Ｃに配信してもよい。例えば、第１モデルが前景モデルであり、第２モデルが背景モデルである場合、三次元空間再構成装置１１５Ｃは、より高精細なモデル精度を必要とする前景モデルの第１デプス画像のビット長を１６ビットに設定し、粗いモデル精度で問題のない背景モデルの第２デプス画像のビット長を８ビットに設定する。これにより、配信するデプス画像の情報量を抑制しつつ、前景モデルなど映像表示端末１１７Ｃで高精度なモデルの復元が必要となる部分のデプス画像に優先的にビット長を割り当てることができる。

また、データ転送装置１１９Ｃは、高精度が求められるモデルのデプス画像を映像表示端末１１７Ｃに配信し、高精度が求められないモデルのデプス画像を映像表示端末１１７Ｃに配信しなくてもよい。例えば、データ転送装置１１９Ｃは、前景モデルの第１デプス画像を映像表示端末１１７Ｃに配信し、背景モデルの第２デプス画像を映像表示端末１１７Ｃに配信しない。この場合、映像表示端末１１７Ｃは、予め準備しておいた背景モデルを用いる。これにより配信されるデプス画像の情報量を削減でき、ネットワーク負荷を抑制することができる。

また、映像表示端末１１７Ｃが、配信されたデプス画像から復元した三次元モデルを使用するか、予め準備しておいた三次元モデルを使用するかどうかを判断してもよい。例えば、映像表示端末１１７Ｃが高性能な処理能力を持つ端末である場合は、映像表示端末１１７Ｃは、配信された前景モデルのデプス画像と背景モデルのデプス画像とからそれぞれの三次元モデルを復元し、得られた三次元モデルをレンダリングに使用することで、前景と背景とが共に高品質なレンダリング画像を生成できる。一方、映像表示端末１１７Ｃがスマートフォン端末のように処理能力が低く消費電力等を抑制する必要がある端末の場合には、映像表示端末１１７Ｃは、前景モデルを配信されたデプス画像から復元し、背景モデルとして配信されたデプス画像を使用せずに予め準備された背景モデルを使用する。これにより、処理量を抑えつつ、前景が高品質なレンダリング画像を生成できる。このように、映像表示端末１１７Ｃの処理能力に応じて使用する三次元モデルを切り替えることにより、レンダリング画像の品質と処理量低減による消費電力のバランスをとることが可能となる。

以下、三次元モデルの生成及び復元方法の具体例を説明する。図２１は、三次元モデルとして背景モデルを生成及び復元する処理を説明するための図である。

まず、三次元空間再構成装置１１５Ｃは、背景画像から背景モデルを生成する（Ｓ１０１、Ｓ１０３）。なお、この処理の詳細は、例えば、図７に示すステップＳ１１１と同様である。

次に、三次元空間再構成装置１１５Ｃは、背景モデルの点群から視点Ａのデプス画像を生成する（Ｓ１２１）。具体的には、三次元空間再構成装置１１５Ｃは、視点Ａのカメラパラメータを用いて投影行列Ａを算出する。次に、三次元空間再構成装置１１５Ｃは、背景モデルの点群を、投影行列Ａを用いて視点Ａの投影面に投影することでデプス画像（距離画像）を作成する。

この際、複数の点群がデプス画像における同一画素に投影される場合がある。この場合、例えば、三次元空間再構成装置１１５Ｃは、最も視点Ａの投影面に距離が近い値をデプス画像の画素値として用いる。これにより、視点Ａからは被写体の影になって見えない被写体のデプス値が混入することを防ぐことができるので、正しくデプス画像を生成できる。

また、データ転送装置１１９Ｃは、生成されたデプス画像を配信する（Ｓ１２２）。この際に、データ転送装置１１９Ｃは、Ｈ．２６４又はＨ．２６５などの標準的な二次元画像圧縮をデプス画像に適用することでデータ量を削減する。または、データ転送装置１１９Ｃは、視点間の視差を利用したマルチビュー符号化方式を用いてデプス画像を圧縮してもよい。

また、データ転送装置１１９Ｃは、三次元モデルからデプス画像を生成する際に用いられたカメラパラメータをデプス画像と合わせて配信する。なお、データ転送装置１１９Ｃは、カメラパラメータの代わりに、又は、カメラパラメータに加えて、カメラパラメータを用いて算出された上記投影行列Ａを配信してもよい。

次に、映像表示端末１１７Ｃは、複数視点のデプス画像を三次元空間に投影することで、背景モデルの点群を復元する（Ｓ１２３）。このとき、映像表示端末１１７Ｃは、復元した各点群と各視点が幾何学的な位置関係上、問題がないかを確認し、必要に応じて点群の位置を再調整してもよい。例えば、映像表示端末１１７Ｃは、視点間の画像を用いて特徴点のマッチングを行い、マッチングした各特徴点に対応する各点群が三次元空間上で一致するように各点群の位置を調整する。これにより、映像表示端末１１７Ｃは、高精度に三次元モデルを復元できる。

なお、ここでは背景モデルを生成及び復元する例を説明したが、前景モデルなど他のモデルにも同様の手法を適用できる。

次に、デプス画像の例を説明する。図２２は、デプス画像の一例を示す図である。デプス画像の各画素は、被写体までの距離情報を表す。例えば、デプス画像は、８ビット長のモノクロ画像で表現される。この場合、視点Ａに距離が近いほど明るい値（２５５に近い値）が割り当てられ、視点Ａに距離が遠いほど暗い値（０に近い値）が割り当てられる。図２２に示す例の場合は、被写体Ａは視点Ａに近いため明るい値が割り当てられ、被写体Ｂは視点Ａから遠いためより暗い値が割り当てられる。背景は被写体Ｂより更に遠いため、被写体Ｂより暗い値が割り当てられる。

なお、デプス画像において、視点Ａに距離が遠いほど明るい値（２５５に近い値）が割り当てられ、視点Ａに距離が近いほど暗い値（０に近い値）が割り当てられてもよい。また、図２２に示す例では被写体までの距離情報をデプス画像で表現したが、送信される情報は、必ずしもこれには限らず、被写体までの距離が表現できるものであれば、どのような形式でも構わない。例えば、被写体Ａ及びＢまでの距離情報は、画像ではなくテキスト情報等で表現されてもよい。また、ここではデプス画像のビット長を８ビットとしたが、ビット長は、必ずしもこれに限らず、８ビットより大きい値又は小さい値が用いられてもよい。８ビットより大きい値、例えば１６ビットが用いられる場合、被写体までの距離情報をより細かく再現できるため、映像表示端末１１７Ｃにおける三次元モデルの復元精度を向上できる。よって、映像表示端末１１７Ｃにおいて、三次元空間再構成装置１１５Ｃで生成した三次元モデルに近い三次元モデルを復元できる。一方で、配信するデプス画像の情報量が増加することで、ネットワーク負荷は増加する。

逆に８ビットより小さい値、例えば４ビットが用いられる場合、被写体までの距離情報が粗くなるため、映像表示端末１１７Ｃにおける三次元モデルの復元精度が低下する。これにより、復元された三次元モデルと、三次元空間再構成装置１１５Ｃで生成した三次元モデルとの誤差は増える。一方で、配信するデプス画像の情報量を削減できるため、ネットワーク負荷を抑制できる。

三次元空間再構成装置１１５Ｃは、このようなデプス画像のビット長を、対象とするアプリケーションにおいて映像表示端末１１７Ｃで高精度な三次元モデルが必要かどうかに基づき決定してもよい。例えば、三次元空間再構成装置１１５Ｃは、対象とするアプリケーションがレンダリング後の映像の品質に拘らないものであれば、デプス画像のビット長を小さくし、配信するネットワーク負荷抑制を優先する。また、三次元空間再構成装置１１５Ｃは、対象とするアプリケーションが映像の品質に拘るものであれば、デプス画像のビット長を大きくし、配信するネットワークの負荷は増えてもレンダリング後の画像の高画質化を優先する。

また、三次元空間再構成装置１１５Ｃは、配信するネットワークの負荷に応じてデプス画像のビット長を適応的に切り替えてもよい。例えばネットワーク負荷が高い場合には、三次元空間再構成装置１１５Ｃは、ビット長を小さく設定することで三次元モデルの精度を落としつつネットワーク負荷を抑制する。また、三次元空間再構成装置１１５Ｃは、ネットワーク負荷が低い場合には、ビット長を大きくすることでより詳細な三次元モデルを映像表示端末１１７Ｃで生成できるようにする。なお、この際、三次元空間再構成装置１１５Ｃは、デプス画像のビット長に関する情報をヘッダ情報等に格納し、デプス画像と合わせて映像表示端末１１７Ｃに配信してもよい。これにより、映像表示端末１１７Ｃにデプス画像のビット長を通知できる。また、三次元空間再構成装置１１５Ｃは、デプス画像のビット長の情報を、デプス画像毎に付加してもよいし、ビット長が変化した場合に付加してもよいし、ある周期毎、例えばランダムアクセスポイント毎に付加してもよいし、最初のデプス画像にのみ付加してもよいし、その他のタイミングで配信してもよい。

次に、デプス画像における画素値の割り当ての例を説明する。図２３Ａ、図２３Ｂ及び図２３Ｃは、デプス画像における画像値の割り当ての第１～第３の例を示す図である。

図２３Ａに示す第１の割り当て方法では、ビット長が８ビットのデプス画像の画素値（デプス画素値）に、距離に応じて線形に値が割り当てられる。

図２３Ｂに示す第２の割り当て方法では、ビット長が８ビットのデプス画像の画素値に、距離が近い被写体に優先的に値が割り当てられる。これにより、距離が近い被写体の距離分解能を高めることができる。よって、前景モデルのデプス画像に第２の割り当て方法を用いることにより、前景モデルの精度を高めることが可能となる。三次元空間再構成装置１１５Ｃは、この第２の割り当て方法の情報（つまり、どの画素値がどの距離に対応するかを示す情報）をヘッダ情報等に含めて配信してもよい。または、当該情報が規格等で予め決定され、送信側及び受信側で同じ情報が用いられてもよい。

図２３Ｃに示す第３の割り当て方法では、ビット長が８ビットのデプス画像の画素値に、距離が遠い被写体に優先的に値が割り当てられる。これにより、距離が遠い被写体の距離分解能を高めることができる。よって、背景モデルのデプス画像に第３の割り当て方法を用いることにより、背景モデルの精度を高めることが可能となる。三次元空間再構成装置１１５Ｃは、この第３の割り当て方法の情報（つまり、どの画素値がどの距離に対応するかを示す情報）をヘッダ情報等に含めて配信してもよい。または、当該情報が規格等で予め決定され、送信側及び受信側で同じ情報が用いられてもよい。

また、三次元空間再構成装置１１５Ｃは、上記割り当て方法を、モデル毎に切り替えてもよい。例えば、三次元空間再構成装置１１５Ｃは、前景モデルには第２の割り当て方法を適用し、背景モデルには第３の割り当て方法を適用してもよい。

この際、三次元空間再構成装置１１５Ｃは、第１～第３の割り当て方法のうち、どの割り当て方法を用いるかを、配信するモデル毎のヘッダ情報等に付加してもよい。または、どのモデルにどの割り当て方法が適用されるかが規格等で予め決定されていてもよい。

また、三次元空間再構成装置１１５Ｃは、予め規格で定められた複数の割り当て方法のうち、どの方法が用いられるかを示す情報をヘッダ情報等に付加してもよい。

以上のように、三次元空間再構成装置１１５Ｃ又はデータ転送装置１１９Ｃは、三次元モデルからデプス画像を生成し、デプス画像と、デプス画像から三次元モデルを復元するための情報とを映像表示端末１１７Ｃに配信する。

また、映像表示端末１１７Ｃは、三次元モデルから生成されたデプス画像と、デプス画像から三次元モデルを復元するための情報とを受信し、当該情報を用いてデプス画像から三次元モデルを復元する。

このように、三次元モデルをそのまま配信するのではなく、三次元モデルから生成されたデプス画像を配信することで、配信されるデータ量を抑制できる。

また、三次元空間再構成装置１１５Ｃは、前記デプス画像の生成では、三次元モデルを所定の視点の撮像面に投影することでデプス画像を生成する。例えば、デプス画像から三次元モデルを復元するための情報は、三次元モデルを所定の視点の撮像面に投影するパラメータを含む。

例えば、デプス画像から三次元モデルを復元するための情報は、カメラパラメータである。つまり、三次元空間再構成装置１１５Ｃは、デプス画像の生成では、所定の視点のカメラパラメータを用いて、三次元モデルを当該視点の撮像面に投影することでデプス画像を生成し、前記情報は、前記カメラパラメータを含む。

また、前記情報は、三次元モデルをデプス画像の撮像面に投影するパラメータを含み、映像表示端末１１７Ｃは、前記復元では、パラメータを用いてデプス画像から三次元モデルを復元する。

例えば、前記情報は、デプス画像の視点のカメラパラメータを含み、映像表示端末１１７Ｃは、前記復元では、カメラパラメータを用いてデプス画像から三次元モデルを復元する。

または、デプス画像から三次元モデルを復元するための情報は、投影行列であってもよい。つまり、三次元空間再構成装置１１５Ｃは、デプス画像の生成では、所定の視点のカメラパラメータを用いて投影行列を算出し、当該投影行列を用いて三次元モデルを当該視点の撮像面に投影することでデプス画像を生成し、前記情報は、前記投影行列を含む。

また、前記情報は、投影行列を含み、映像表示端末１１７Ｃは、前記復元では、投影行列を用いてデプス画像から三次元モデルを復元する。

例えば、三次元空間再構成装置１１５Ｃは、さらに、デプス画像を、二次元画像圧縮方式を用いて圧縮し、前記配信では、圧縮されたデプス画像を配信する。

また、デプス画像は二次元画像圧縮方式を用いて圧縮されており、映像表示端末１１７Ｃは、さらに、圧縮されているデプス画像を復号する。

これにより、三次元モデルの配信において、二次元画像圧縮方式を用いてデータを圧縮することができる。よって、新たに三次元モデル用の圧縮方式を構築する必要がないので、容易にデータ量を削減できる。

例えば、三次元空間再構成装置１１５Ｃは、前記デプス画像の生成では、三次元モデルから、異なる視点の複数のデプス画像を生成し、前記圧縮では、複数のデプス画像間の関係を用いて、複数のデプス画像を圧縮する。

また、映像表示端末１１７Ｃは、前記受信では、複数のデプス画像を受信し、前記復号では、複数のデプス画像間の関係を用いて、複数のデプス画像を復号する。

これにより、例えば、二次元画像圧縮方式におけるマルチビュー符号化方式等を用いて、複数のデプス画像のデータ量をさらに削減できる。

例えば、三次元空間再構成装置１１５Ｃは、さらに、複数の撮像装置１２１で撮影された複数の画像を用いて三次元モデルを生成し、複数の画像を映像表示端末１１７Ｃに配信し、デプス画像の視点は、前記複数の画像のいずれかの視点である。

また、映像表示端末１１７Ｃは、さらに、複数の画像を受信し、三次元モデルと、複数の画像とを用いてレンダリング画像を生成し、デプス画像の視点は、複数の画像のいずれかの視点である。

このように、デプス画像の視点を撮影画像の視点と一致されることで、三次元空間再構成装置１１５Ｃは、例えば、撮影画像をマルチビュー符号化で圧縮する場合に、デプス画像を用いて撮影画像間の視差情報を算出し、視差情報を用いて視点間の予測画像を生成することができる。これにより、撮影画像の符号量を削減できる。

例えば、三次元空間再構成装置１１５Ｃは、さらに、デプス画像に含まれる各画素のビット長を決定し、ビット長を示す情報を配信する。

また、映像表示端末１１７Ｃは、さらに、デプス画像に含まれる各画素のビット長を示す情報を受信する。

例えば、三次元空間再構成装置１１５Ｃは、前記ビット長の決定では、ビット長を被写体までの距離に応じて決定する。

例えば、三次元空間再構成装置１１５Ｃは、さらに、デプス画像で示さる画素値と距離との関係を決定し、決定された関係を示す情報を映像表示端末１１７Ｃに配信する。

また、映像表示端末１１７Ｃは、さらに、デプス画像で示さる画素値と距離との関係を示す情報を受信する。

例えば、三次元モデルは、第１モデル（例えば前景モデル）と、第１モデルより時間当たりの変化が小さい第２モデル（例えば背景モデル）とを含む。デプス画像は、第１デプス画像と、第２デプス画像とを含む。三次元空間再構成装置１１５Ｃは、前記デプス画像の生成では、第１モデルから第１デプス画像を生成し、第２モデルから第２デプス画像を生成し、前記関係の決定では、第１デプス画像で示される画素値と距離との第１の関係と、第２デプス画像で示される画素値と距離との第２の関係とを決定する。第１の関係では、第１距離範囲（距離が近い領域）における距離分解能は、前記第１距離範囲より遠い第２距離範囲（距離が遠い領域）における距離分解能より高い（図２３Ｂ）。第２の関係では、第１距離範囲（距離が近い領域）における距離分解能は、第２距離範囲（距離が遠い領域）における距離分解能より低い（図２３Ｃ）。

例えば、三次元モデルには色情報が付加されている。三次元空間再構成装置１１５Ｃは、さらに、三次元モデルからテクスチャ画像を生成し、テクスチャ画像を、二次元画像圧縮方式を用いて圧縮し、配信では、さらに、圧縮されたテクスチャ画像を配信する。

また、映像表示端末１１７Ｃは、さらに、二次元画像圧縮方式を用いて圧縮されているテクスチャ画像を受信し、圧縮されているテクスチャ画像を復号し、前記復元では、復号されたデプス画像及び復号されたテクスチャ画像を用いて、色情報が付加された三次元モデルを復元する。

（実施の形態７）
本実施の形態では、三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法について説明する。

図２４は、三次元データを符号化する三次元データ符号化方法の概略を示す図である。

三次元点群（三次元ポイントクラウドまたは三次元モデル）などのような三次元データ２００を符号化する三次元符号化方法では、三次元データ２００が二次元平面に投影されることで得られた二次元画像２０１に、画像符号化または動画像符号化のような二次元圧縮が適用される。投影により得られた二次元画像２０１には、テクスチャまたは色を示すテクスチャ情報２０２、および、投影方向における三次元点群までの距離を示すデプス情報（距離情報）２０３が含まれる。

このような、投影により得られた二次元画像には、オクルージョン領域により、テクスチャ情報またはデプス情報がないホール領域（hole area）が含まれる可能性がある。ホール領域とは、三次元データを二次元平面に投影して得られた二次元画像を構成する複数の画素のうち、三次元データが投影されなかった画素、または、三次元データが投影されなかった画素の集合を示す。このようなホール領域は、投影により得られた二次元画像に不連続、鋭いエッジなどを生じさせる。このような不連続、鋭いエッジなどを含む二次元画像は、高い空間周波数成分が大きくなるため、符号化するために高いビットレートとなってしまう。そこで、符号化効率を向上させるために、ホール領域の周りの鋭いエッジを最小限に抑えることが必要となる。

例えば、ホール領域の周りに鋭いエッジが発生しないように、ホール領域の画素値を変更する補正を行うことが考えられる。次に、ホール領域の画素値を変更する補正について説明する。

図２５Ａは、ホール領域を含む二次元画像の一例を示す図である。図２５Ｂは、ホール領域が補正された補正画像の一例を示す図である。

図２５Ａに示す二次元画像２１０は、三次元データが所定の二次元平面に投影されることで得られた二次元画像である。二次元画像２１０には、三次元データが投影されていない無効領域であるホール領域２１４、２１５が含まれる。また、二次元画像２１０には、三次元データが投影されている有効領域であるテクスチャ領域２１１、２１２、２１３が含まれる。

このような二次元画像２１０の符号化効率を向上させるために、上述したように、ホール領域２１４、２１５を別の画素値を用いて適切に充填する必要がある。符号化効率を向上させるためには、例えば、ホール領域２１４、２１５と、テクスチャ領域２１１、２１２、２１３との間のテクスチャ（またはデプス）の不連続を最小限に抑える必要がある。本開示の一態様に係る三次元モデル符号化方法では、ホール領域２１４、２１５をテクスチャ領域２１１～２１３の画素の画素値を用いて補間することで、ホール領域２１４、２１５とテクスチャ領域２１１、２１２、２１３との差を小さくし、これらの複数の領域２１１～２１５間の鋭いエッジを最小にする補正が行われる。ホール領域２１４、２１５の補正には、例えば、線形補間および非線形補間の少なくとも一方を用いることができる。

このような補正には、線形補間、非線形補間として、１次元フィルタが用いられてもよいし、２次元フィルタが用いられてもよい。

補正では、例えば、二次元画像２１０においてテクスチャ領域２１１～２１３のいずれかにおけるホール領域２１４、２１５との境界上における画素値（第一画素値）を、当該ホール領域２１４、２１５の画素の画素値に割り当てる（変更する）ことで、ホール領域２１４、２１５を補間してもよい。このように、補正では、無効領域を構成する１以上の画素を補正する。補正では、無効領域に隣接する、有効領域の１つである第一有効領域における第一画素の第一画素値を用いて、無効領域を補正してもよい。また、補正では、二次元画像上において、無効領域を挟んで第一有効領域とは反対側の有効領域である第二有効領域における第二画素の第二画素値をさらに用いて、無効領域を補正してもよい。例えば、第一画素は、第一有効領域において無効領域に隣接する画素であってもよい。同様に、第二画素は、第二有効領域において無効領域に隣接する画素であってもよい。

これにより、図２５Ｂに示すように、画素値がテクスチャ領域２１１～２１３における画素（例えば、画素２２６）の画素値に変更されたホール領域２２４、２２５を有する二次元画像２２０が生成される。二次元画像２２０は、補正画像の一例である。

ホール領域２１４、２１５に割り当てるための画素値は、複数のテクスチャ領域２１１～２１３のうちの、当該ホール領域２１４、２１５と隣接する境界上の画素を最も多く有するテクスチャ領域における当該境界上の画素の画素値に決定してもよい。例えば、ホール領域が複数のテクスチャ領域に囲まれている領域である場合、複数のテクスチャ領域にそれぞれ対応する複数の境界線のうち、最も長い境界線に対応するテクスチャ領域における画素の画素値で、当該ホール領域を構成する複数の画素の画素値を置き換えてもよい。なお、ホール領域を補間するためにホール領域には、当該ホール領域と隣接するテクスチャ領域における画素の画素値をそのまま適用することに限らずに、当該テクスチャにおけるホール領域との境界上の複数の画素の画素値の平均値または中間値を適用してもよい。

また、ホール領域の値をテクスチャ領域に近い値に設定できれば上記で示した手法に限らずに、どのような手法を用いても構わない。例えば、テクスチャ領域を構成する複数の画素全ての画素値の平均値または中間値を、ホール領域を構成する複数の画素の画素値として決定してもよい。

図２６Ａおよび図２６Ｂは、線形補間によるホール領域の補正の例を示す図である。図２６Ａおよび図２６Ｂでは、縦軸が画素値を示し、横軸が画素の位置を示している。図２６Ａおよび図２６Ｂは、一次元的な例を示しているが、二次元に適用してもよい。画素値は、例えば、輝度値、色差値、ＲＧＢ値、デプス値などである。

線形補間は、ホール領域に隣接する２つのテクスチャ領域Ａ、Ｂそれぞれの第一画素および第二画素を用いて無効領域を補正する補正方法の一つである。ここで、ホール領域は、無効領域の一例であり、テクスチャ領域Ａは、第一有効領域の一例であり、テクスチャ領域Ｂは、第二有効領域の一例である。

線形補間による補正では、テクスチャ領域Ａにおける第一画素Ｐ１の第一画素値Ｖ１と、テクスチャ領域Ｂにおける第二画素Ｐ２の第二画素値Ｖ２とを用いて、第一画素Ｐ１からホール領域を跨いで第二画素Ｐ２までの間の複数の画素それぞれの画素値を、当該複数の画素それぞれの位置および画素値の関係において、第一画素値Ｖ１から第二画素値Ｖ２まで線形に変化させた関係を満たす画素値に変更することで、ホール領域を補正する。つまり、線形補間による補正では、テクスチャ領域Ａおよびテクスチャ領域Ｂの間のホール領域を構成する複数の画素にそれぞれ対応する複数の画素値を、各画素の位置および画素値の関係において、第一画素Ｐ１の位置および第一画素値Ｖ１で示される第一の点と、第二画素Ｐ２の位置および第二画素値Ｖ２で示される第二の点とを直線で結んだ場合に、当該複数の画素それぞれの位置に対応する上記直線上の点で特定される画素値に変更する。

なお、線形補間による補正では、図２６Ｂに示すように、第一画素Ｐ１１の第一画素値Ｖ１１と第二画素Ｐ１２の第二画素値Ｖ１２との差ΔＶ２が所定値より大きい場合のように、ホール領域を第一画素値Ｖ１１および第二画素値Ｖ１２で置き換えても、テクスチャ領域Ａ、Ｂとホール領域との間に不連続が残り、ホール領域の周囲に高い空間周波数成分が含まれることとなるため、符号化効率がそれほど向上しない場合がある。このため、例えば、図２７Ａおよび図２７Ｂに示すような非線形補間による補正を行ってもよい。これにより、テクスチャ領域Ａ、Ｂとホール領域との間の不連続を低減することができる。

図２７Ａおよび図２７Ｂは、非線形補間によるホール領域の補正の例を示す図である。図２７Ａおよび図２７Ｂでは、縦軸が画素値を示し、横軸が画素の位置を示している。図２７Ａおよび図２７Ｂは、一次元的な例を示しているが、二次元に適用してもよい。

非線形補間による補正では、テクスチャ領域Ａにおける第一画素Ｐ１の第一画素値Ｖ１と、テクスチャ領域Ｂにおける第二画素Ｐ２の第二画素値Ｖ２とを用いて、第一画素Ｐ１からホール領域を跨いで第二画素Ｐ２までの間の複数の画素それぞれの画素値を、当該複数の画素それぞれの位置および画素値の関係において、第一画素値Ｖ１から第二画素値Ｖ２まで滑らかな曲線で変化させた関係を満たす画素値に変更することで、ホール領域を補正する。ここで、滑らかな曲線とは、テクスチャ領域Ａの位置において画素値が第一画素値Ｖ１である第一直線と第一画素Ｐ１の位置で滑らかに接続され、かつ、テクスチャ領域Ｂの位置において画素値が第二画素値Ｖ２である第二直線と第二画素Ｐ２の位置で滑らかに接続される曲線である。例えば、滑らかな曲線は、２つの変曲点を有し、第一画素値Ｖ１から第二画素値Ｖ２に向かって画素値が画素の位置に応じて単調変化する曲線である。例えば、図２７Ａに示すように、第一画素値Ｖ１が第二画素値Ｖ２よりも大きい値の場合、滑らかな曲線は、第一画素値Ｖ１から第二画素値Ｖ２に向かって画素値が位置に応じて単調減少する曲線である。

非線形補間による補正では、図２６Ｂに対応するテクスチャ領域Ａ、Ｂおよびホール領域の場合であっても、図２７Ｂに示すように、第一画素Ｐ１１の第一画素値Ｖ１１と第二画素Ｐ１２の第二画素値Ｖ１２との差ΔＶ２が所定値より大きい場合であっても、ホール領域を構成する複数の画素の画素値が滑らかな曲線に対応する画素値に置き換わるため、テクスチャ領域Ａ、Ｂとホール領域との間の不連続を効果的に低減することができる。このため、符号化効率を向上させることができる。

また、図２６Ａ～図２７Ｂを用いて説明した、上記の補正方法に限らずに、他の補正方法を用いて補正してもよい。

図２８Ａ～図２８Ｆは、他の補正の例を示す図である。

図２８Ａで示す補正のように、テクスチャ領域Ａおよびテクスチャ領域Ｂの間のホール領域を構成する複数の画素にそれぞれ対応する複数の画素値を、テクスチャ領域Ａの第一画素Ｐ２１の第一画素値Ｖ２１からテクスチャ領域Ｂの第二画素Ｐ２２の第二画素値Ｖ２２まで段階的に変化させた画素値でホール領域を補正してもよい。

図２８Ｂで示す補正のように、テクスチャ領域Ａおよびテクスチャ領域Ｂの間のホール領域を構成する複数の画素にそれぞれ対応する複数の画素値を、テクスチャ領域Ａまたはテクスチャ領域Ｂのホール領域との境界上における画素値でホール領域を補正してもよい。これにより、ホール領域を構成する複数の画素の画素値の全ては、テクスチャ領域Ａまたはテクスチャ領域Ｂにおける画素の画素値に統一される。この補正では、例えば、ホール領域を構成する複数の画素の全ての画素値を、テクスチャ領域Ａのホール領域との境界上の第一画素Ｐ３１の第一画素値Ｖ３１とすることで、ホール領域を補正する。

ここで、図２８Ｃは、図２８Ｂの補正を二次元画像で表現した例を示す図である。図２８Ｃの（ａ）に示すように、テクスチャ領域Ａのホール領域との境界上の第一画素Ｐ３１ａ～Ｐ３１ｅがそれぞれ画素値Ａ～Ｅを有する場合、ホール領域の各画素は、図２８Ｃの（ｂ）に示すように、垂直方向において当該画素と同じ位置に位置する第一画素の第一画素値が割り当てられることで、補正される。つまり、補正では、第一画素Ｐ３１ａの画素値Ａは、第一画素Ｐ３１ａの水平方向側に位置するホール領域の画素に割り当てられる。同様に、補正では、第一画素Ｐ３１ｂ～Ｐ３１ｅの画素値Ｂ～Ｅは、それぞれ、第一画素Ｐ３１ｂ～Ｐ３１ｅそれぞれの水平方向側に位置するホール領域の画素に割り当てられる。

なお、図２８Ｃでは、垂直方向を水平方向に、水平方向を垂直方向に読み替えてもよい。つまり、ホール領域の各画素は、図２８Ｃの（ｂ）に示すように、第一方向において同じ位置に位置する第一画素の第一画素値が割り当てられることで、補正される。言い換えると、補正では、第一画素の画素値は、第一画素の第一方向に直交する第二方向側に位置するホール領域の画素に割り当てられる。

また、図２８Ｂ以外の図２６Ａ～図２７Ｂ、図２８Ａ、図２８Ｄ～図２８Ｆの方法においても、垂直方向において同じ位置に位置する第一画素の第一画素値を基準として各方法において算出された画素値が割り当てられることで、補正される。

図２８Ｄで示す補正のように、二次元符号化における複数の符号化ブロックの境界がホール領域上にある場合、ホール領域のうち符号化ブロックの境界よりもテクスチャ領域Ａ側の領域に、テクスチャ領域Ａのホール領域との境界上における画素値で補正する。つまり、この補正では、第一画素Ｐ４１から境界までの間の複数の第一無効画素を第一画素値Ｖ４１に変更する。また、ホール領域のうち符号化ブロックの境界よりもテクスチャ領域Ｂ側の領域に、テクスチャ領域Ｂのホール領域との境界上における画素値で補正する。つまり、この補正では、第二画素Ｐ４２から境界までの間の複数の第二無効画素を第二画素値Ｖ４２に変更する。これにより、ホール領域を補正してもよい。ここで、符号化ブロックとは、例えば、符号化方式がＨ．２６４の場合はマクロブロックであり、符号化方式がＨ．２６５の場合はＣＴＵ（Coding Tree Unit）またはＣＵ（Coding Unit）などである。

図２８Ｅの（ａ）に示すように、テクスチャ領域Ａおよびテクスチャ領域Ｂの間にホール領域が無く、かつ、テクスチャ領域Ａおよびテクスチャ領域Ｂ間の画素値の差が所定値よりも大きい場合、テクスチャ領域Ａおよびテクスチャ領域Ｂの境界上に仮想的なホール領域があると想定し、仮想的なホール領域に対して図２６Ａ～図２８Ｄの方法を用いて補正を行ってもよい。例えば、図２８Ｅの（ｂ）は、図２７Ａおよび図２７Ｂで説明した非線形補間による補正を適用した例である。これにより、ホール領域が無い場合であっても、テクスチャ領域Ａおよびテクスチャ領域Ｂの間に急峻なエッジがある場合には、上記の補正を行うことで、テクスチャ領域Ａ、Ｂ間の急峻なエッジを低減することができ、符号量を効果的に低減することができる。

図２８Ｆは、図２８Ｅの（ａ）と同様の場合で、異なる方法でエッジを補正する場合の例である。

図２８Ｆの（ａ）は、図２８Ｅの（ａ）と同様の図である。このように、テクスチャ領域Ａおよびテクスチャ領域Ｂの間にホール領域が無く、かつ、テクスチャ領域Ａおよびテクスチャ領域Ｂ間の画素値の差が所定値よりも大きい場合、図２８Ｆの（ｂ）に示すように、テクスチャ領域Ｂをテクスチャ領域Ａから離れる方向にシフトさせることで仮想的なホール領域を生成し、生成した仮想的なホール領域に対して、図２６Ａ～図２８Ｄの方法を用いて補正を行ってもよい。例えば、図２８Ｆの（ｂ）は、図２７Ａおよび図２７Ｂで説明した非線形補間による補正を適用した例である。これにより、図２８Ｅの場合と同様に、ホール領域が無い場合であっても、テクスチャ領域Ａおよびテクスチャ領域Ｂの間に急峻なエッジがある場合には、上記の補正を行うことで、テクスチャ領域Ａ、Ｂ間の急峻なエッジを低減することができ、符号量を効果的に低減することができる。

なお、補正では、三次元モデルの投影によって得られた二次元画像に対し、テクスチャ領域またはホール領域にかかわらず、ガウシアンフィルタなどの平滑フィルタ、または、メディアンフィルタなどを適用し、適用後の画像にテクスチャ領域を再度割り当ててホール領域の値をテクスチャ領域の値に近づけるようにしてもよい。これによりフィルタ適用領域を識別する必要がなくなり、低処理量でホール領域の値を補正することができる。

また、図２８Ｆの補正におけるテクスチャ領域のシフト処理では、投影によって得られた二次元画像を作成後に、複数のテクスチャ領域のそれぞれを二次元画像内で左右上下に画素を動かしてホール領域を生成するようにしてもよい。また、三次元点群を二次元平面に投影して二次元画像を生成する過程で複数のテクスチャ領域の間にホール領域ができるようにしてもよい。

図２９は、実施の形態に係る三次元モデル符号化装置の機能構成の一例を示すブロック図である。図３０は、実施の形態に係る三次元モデル復号装置の機能構成の一例を示すブロック図である。図３１は、実施の形態に係る三次元モデル符号化装置による三次元モデル符号化方法の一例を示すフローチャートである。図３２は、実施の形態に係る三次元モデル復号装置による三次元モデル復号方法の一例を示すフローチャートである。

図２９および図３１を用いて、三次元モデル符号化装置３００および三次元モデル符号化方法について説明する。

三次元モデル符号化装置３００は、投影部３０１と、補正部３０２と、符号化部３０４とを備える。三次元モデル符号化装置３００は、さらに、生成部３０３を備えていてもよい。

まず、投影部３０１は、三次元モデルを少なくとも１つ以上の二次元平面に投影することで二次元画像を生成する（Ｓ１１）。生成された二次元画像は、テクスチャ情報およびデプス情報を含む。

補正部３０２は、二次元画像を用いて、二次元画像に含まれる、三次元モデルが投影されていない無効領域（つまり、ホール領域）を構成する１以上の画素を補正することで補正画像を生成する（Ｓ１２）。補正部３０２は、補正として、上記の図２５Ａ～図２８Ｆで説明した補正のいずれかを行う。

一方で、生成部３０３は、二次元画像に対応する二次元領域を構成する複数の領域のそれぞれが、無効領域であるか有効領域であるかを示す二次元バイナリマップを生成する（Ｓ１３）。二次元バイナリマップにより、符号化データを受信した三次元モデル復号装置３１０は、二次元画像のうちの無効領域および有効領域を容易に判別できる。

符号化部３０４は、補正画像を二次元符号化することで符号化データとして符号化ストリームを生成する（Ｓ１４）。符号化部３０４は、補正画像と共にさらに、二次元バイナリマップを符号化することで符号化データを生成してもよい。ここで、符号化部３０４は、二次元画像を生成したときの投影に関する投影情報およびパラメータも符号化し、符号化データを生成してもよい。

なお、投影部３０１、補正部３０２、生成部３０３および符号化部３０４のそれぞれは、プロセッサおよびメモリにより実現されてもよいし、専用回路により実現されてもよい。つまり、これらの処理部は、ソフトウェアにより実現されてもよいし、ハードウェアにより実現されてもよい。

次に、図３０および図３２を用いて、三次元モデル復号装置３１０および三次元モデル復号方法について説明する。

三次元モデル復号装置３１０は、復号部３１１と、マップ再構成部３１２と、三次元再構成部３１３とを備える。

まず、復号部３１１は、符号化データを取得し、取得した符号化データを復号することで、補正画像および二次元バイナリマップを取得する（Ｓ２１）。符号化データは、三次元モデル符号化装置３００により出力された符号化データである。つまり、符号化データは、三次元モデルが少なくとも１つの二次元平面に投影されることで生成された二次元画像が補正された補正画像であって、前記二次元画像に含まれる、前記三次元モデルが投影されなかった無効領域における１以上の画素が補正された画像である補正画像が符号化されたデータである。

マップ再構成部３１２は、復号された二次元バイナリマップを再構成することで、有効画素および無効画素を示す元のマップを取得する（Ｓ２２）。

三次元再構成部３１３は、投影情報および再構成された二次元バイナリマップを用いて、補正画像から三次元データを再構成する（Ｓ２３）。なお、三次元再構成部３１３は、二次元バイナリマップにおいて示される有効領域の有効画素について、復号されたデプス情報を用いて三次元空間に再投影することで三次元点を取得し、デコードされたテクスチャ情報から三次元点の色を取得する。このため、三次元再構成部３１３は、二次元バイナリマップにおいて示される無効領域の無効画素を再投影しない。デプス情報は、二次元画像の各画素に対応する距離を示す距離画像である。また、テクスチャ情報は、二次元画像の各画素に対応するテクスチャまたは色を示す二次元カラー画像である。このように、三次元再構成部３１３は、補正画像における有効領域から三次元点を再構成するため、デコーダにおいて、補正画像における有効領域における画素は、補正画像における無効領域の画素による影響を受けない。

なお、三次元モデル復号方法では、マップ再構成部３１２によるステップＳ２２の処理を必ずしも行われなくてもよい。つまり、三次元モデル復号装置３１０は、マップ再構成部３１２を備えていなくてもよい。

なお、復号部３１１、マップ再構成部３１２、および、三次元再構成部３１３のそれぞれは、プロセッサおよびメモリにより実現されてもよいし、専用回路により実現されてもよい。つまり、これらの処理部は、ソフトウェアにより実現されてもよいし、ハードウェアにより実現されてもよい。

本実施の形態に係る三次元モデル符号化装置３００では、補正部３０２が無効領域を補正することで生成した補正画像を二次元符号化するため、符号化効率を向上させることができる。

また、補正部３０２は、無効領域に隣接する、三次元モデルが投影されている有効領域である第一有効領域における第一画素の第一画素値を用いて、無効領域を補正する。このため、第一有効領域と無効領域との間の画素値の差を低減することができ、効果的に符号化効率を向上させることができる。

また、補正部３０２は、二次元画像上において、無効領域を挟んで第一有効領域とは反対側の有効領域である第二有効領域における第二画素の第二画素値をさらに用いて、無効領域を補正する。このため、第一有効領域および第二有効領域と無効領域との間の画素値の差を低減することができ、効果的に符号化効率を向上させることができる。

また、補正部３０２は、無効領域を線形補間するため、補間のための画素値の決定に係る処理負荷を低減することができる。

また、補正部３０２は、二次元符号化における複数のブロックの境界を考慮して無効領域を補正するため、処理負荷を効果的に低減でき、符号化効率を効果的に向上させることができる。

また、補正部３０２は、非線形補間による補正を行うため、第一有効領域および第二有効領域と無効領域との間の画素値の差を効果的に低減することができ、符号化効率を向上させることができる。

また、三次元モデル符号化装置３００は、二次元バイナリマップを生成し、補正画像と共に二次元バイナリマップを符号化することで得られた符号化データを出力する。このため、三次元モデル復号装置３１０の復号時に、二次元バイナリマップを用いて、有効領域および無効領域のうち有効領域のみを復号することができるため、復号時の処理量を低減することができる。

本実施の形態に係る三次元モデル復号装置３１０は、少ないデータ量の符号化データを取得することで、三次元モデルを再構成することができる。

三次元モデル符号化装置３００は、三次元モデルが二次元平面に投影されることで生成された二次元画像（Ｐｒｏｊｅｃｔｅｄ２Ｄｉｍａｇｅ）に適用したフィルタ情報（フィルタ適用のオン／オフ情報、フィルタの種類、フィルタの係数、などを含む）を符号化データに付加してもよい。これにより、三次元モデル復号装置３１０は、復号した二次元画像に適用されたフィルタ情報を知ることができる。これらフィルタ情報は、三次元モデル復号装置３１０が三次元モデルを復号後に、再度、三次元モデルを本実施の形態に記載した方法で符号化する際に、再利用することができる。

本実施の形態では、復号した二次元画像の有効領域と無効領域とを区別するために、二次元バイナリマップを三次元モデル符号化装置３００が符号化データに付加して三次元モデル復号装置３１０に送信するとしたが、必ずしも二次元バイナリマップを符号化データに付加しなくてもよい。三次元モデル符号化装置３００は、例えば、二次元バイナリマップを生成する代わりに、ホール領域にテクスチャ領域では使用されない値Ａを割り当ててもよい。これにより、三次元モデル復号装置３１０は、復号した二次元画像の各画素値が値Ａであれば、当該画素がホール領域に含まれる画素であると判断でき、当該画素が無効領域における無効画素であるとして三次元空間に再投影しないと決定してもよい。値Ａとしては、ＲＧＢ色空間の場合、（０，０，０）や（２５５，２５５，２５５）等の値を使用してもよい。これにより、二次元バイナリマップを符号化データに付加する必要がなくなり、符号量を削減できる。

以上、本開示の実施の形態に係る三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法について説明したが、本開示は、この実施の形態に限定されるものではない。

また、上記実施の形態に係る三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、本開示は、三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法により実行される各種方法として実現されてもよい。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

以上、一つまたは複数の態様に係る三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

本開示は、三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法等に適用できる。

１００三次元空間認識システム
１０１、１０３、１０５、１０７自由視点映像生成システム
１０２、１０４、１０６次世代監視システム
１１１多視点映像撮像装置
１１２制御装置
１１３イベント検出装置
１１４校正指示装置
１１５、１１５Ａ、１１５Ｃ三次元空間再構成装置
１１６、１１６Ａ三次元空間認識装置
１１７、１１７Ａ、１１７Ｂ、１１７Ｃ映像表示端末
１１８Ａ監視員
１１８Ｂ警備員
１１８Ｃ映像撮像装置
１１９、１１９Ｃデータ転送装置
１２１撮像装置
１２２カメラ
１２３雲台
１２４メモリ
１２５センサ
１３１前景モデル生成部
１３２背景モデル生成部
１３３第１モデル生成部
１３４第２モデル生成部
１３５第３モデル生成部
１３６第１デプス画像生成部
１３７第２デプス画像生成部
１３８第３デプス画像生成部
１４１、１５１視点決定部
１４２、１５２レンダリング部
１４３、１４６データ転送部
１４４、１５４トラッキング部
１４５、１５５シーン解析部
１５３映像表示部
１５６モデル復元部
２００三次元データ
２０１、２１０、２２０二次元画像
２０２テクスチャ情報
２０３デプス情報
２１１～２１３テクスチャ領域
２１４、２１５、２２４、２２５ホール領域
３００三次元モデル符号化装置
３０１投影部
３０２補正部
３０３生成部
３０４符号化部
３１０三次元モデル復号装置
３１１復号部
３１２マップ再構成部
３１３三次元再構成部

Claims

三次元モデルを少なくとも１つ以上の二次元平面に投影することで二次元画像を生成する投影部と、
前記二次元画像を用いて、前記二次元画像に含まれる、前記三次元モデルが投影されていない無効領域を構成する１以上の画素を補正することで補正画像を生成する補正部と、
前記補正画像を二次元符号化することで符号化データを生成する符号化部と、を備え、
前記補正部は、前記無効領域に隣接する、前記三次元モデルが投影されている有効領域である第一有効領域における第一画素の第一画素値および第二有効領域における第二画素の第二画素値を用いて、前記無効領域を補正する
三次元モデル符号化装置。
前記補正部は、前記無効領域を構成する前記１以上の画素の全ての画素値を前記第一画素値とすることで、前記無効領域を補正する
請求項１に記載の三次元モデル符号化装置。
前記第一有効領域および前記第二有効領域は、前記無効領域に対し異なる位置に隣接する
請求項１に記載の三次元モデル符号化装置。
前記第二有効領域は、前記無効領域を挟んで前記第一有効領域とは反対側の有効領域である
請求項１に記載の三次元モデル符号化装置。
前記補正部は、前記第一画素値と、前記第二画素値とを用いて、前記第一画素から前記無効領域を跨いで前記第二画素までの間の複数の画素それぞれの画素値を、前記複数の画素それぞれの位置および画素値の関係において、前記第一画素値から前記第二画素値まで線形に変化させた関係を満たす画素値に変更することで、前記無効領域を補正する
請求項１に記載の三次元モデル符号化装置。
前記二次元符号化は、前記補正画像を複数のブロック単位で符号化する処理であり、
前記補正部は、前記二次元符号化における前記複数のブロックの境界が前記無効領域上にある場合、前記第一画素から前記境界までの間の複数の第一無効画素を前記第一画素値に変更し、かつ、前記第二画素から前記境界までの間の複数の第二無効画素を前記第二画素値に変更することで、前記無効領域を補正する
請求項１に記載の三次元モデル符号化装置。
前記補正部は、前記第一画素における第一画素値と、前記第二画素における第二画素値とを用いて、前記第一画素から前記無効領域を跨いで前記第二画素までの間の複数の画素それぞれの画素値を、前記複数の画素それぞれの位置および画素値の関係において、前記第一画素値から前記第二画素値まで滑らかな曲線で変化させた関係を満たす画素値に変更することで、前記無効領域を補正する
請求項１に記載の三次元モデル符号化装置。
前記第一画素は、前記第一有効領域において前記無効領域に隣接する画素であり、
前記第二画素は、前記第二有効領域において前記無効領域に隣接する画素である
請求項１から７のいずれか１項に記載の三次元モデル符号化装置。
さらに、
前記二次元画像に対応する二次元領域を構成する複数の領域のそれぞれが、前記無効領域であるか前記有効領域であるかを示す二次元バイナリマップを生成する生成部を備え、
前記符号化部は、前記補正画像および前記二次元バイナリマップを符号化することで前記符号化データを生成する
請求項３から８のいずれか１項に記載の三次元モデル符号化装置。
三次元モデルが少なくとも１つの二次元平面に投影されることで生成された二次元画像が補正された補正画像であって、前記二次元画像に含まれる、前記三次元モデルが投影されなかった無効領域における１以上の画素が補正された画像である補正画像が符号化された符号化データをし、取得した前記符号化データを復号することで得られた三次元モデルを出力する復号部と、を備え、
前記補正画像は、前記無効領域に隣接する、前記三次元モデルが投影されている有効領域である第一有効領域における第一画素の第一画素値および第二有効領域における第二画素の第二画素値を用いて、前記無効領域が補正された画像である
三次元モデル復号装置。
三次元モデルを少なくとも１つ以上の二次元平面に投影することで二次元画像を生成し、
前記二次元画像を用いて、前記二次元画像に含まれる、前記三次元モデルが投影されなかった無効領域における１以上の画素を補正することで補正画像を生成し、
前記補正画像を二次元符号化することで符号化データを生成し、
前記生成では、前記無効領域に隣接する、前記三次元モデルが投影されている有効領域である第一有効領域における第一画素の第一画素値および第二有効領域における第二画素の第二画素値を用いて、前記無効領域を補正する
三次元モデル符号化方法。
三次元モデルが少なくとも１つの二次元平面に投影されることで生成された二次元画像が補正された補正画像であって、前記二次元画像に含まれる、前記三次元モデルが投影されなかった無効領域における１以上の画素が補正された画像である補正画像が符号化された符号化データを取得し、
取得した前記符号化データを復号することで得られた三次元モデルを出力し、
前記補正画像は、前記無効領域に隣接する、前記三次元モデルが投影されている有効領域である第一有効領域における第一画素の第一画素値および第二有効領域における第二画素の第二画素値を用いて、前記無効領域が補正された画像である
三次元モデル復号方法。