三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法では、配信されるデータ量を削減できることが望まれている。このため、三次元データを符号化する三次元符号化装置および三次元符号化方法において、三次元データの圧縮効率を向上させることが必要とされていた。
本開示は、三次元データを符号化する三次元符号化装置および三次元符号化方法において、三次元データの圧縮効率を向上させることができる、三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法を提供することを目的とする。
本開示の一態様に係る三次元モデル符号化装置は、三次元モデルを少なくとも1つ以上の二次元平面に投影することで二次元画像を生成する投影部と、前記二次元画像を用いて、前記二次元画像に含まれる、前記三次元モデルが投影されていない無効領域を構成する1以上の画素を補正することで補正画像を生成する補正部と、前記補正画像を二次元符号化することで符号化データを生成する符号化部と、を備える。
これによれば、無効領域を補正することで生成した補正画像を二次元符号化するため、符号化効率を向上させることができる。
また、前記補正部は、前記無効領域に隣接する、前記三次元モデルが投影されている有効領域である第一有効領域における第一画素の第一画素値を用いて、前記無効領域を補正してもよい。
これによれば、第一有効領域と無効領域との間の画素値の差を低減することができるため、効果的に符号化効率を向上させることができる。
また、前記補正部は、前記無効領域を構成する前記1以上の画素の全ての画素値を前記第一画素値とすることで、前記無効領域を補正してもよい。
これによれば、第一有効領域と無効領域との間の画素値の差を容易に低減することができる。
また、前記補正部は、前記二次元画像上において、前記無効領域を挟んで前記第一有効領域とは反対側の有効領域である第二有効領域における第二画素の第二画素値をさらに用いて、前記無効領域を補正してもよい。
これによれば、第一有効領域および第二有効領域と無効領域との間の画素値の差を低減することができるため、効果的に符号化効率を向上させることができる。
また、前記補正部は、前記第一画素値と、前記第二画素値とを用いて、前記第一画素から前記無効領域を跨いで前記第二画素までの間の複数の画素それぞれの画素値を、前記複数の画素それぞれの位置および画素値の関係において、前記第一画素値から前記第二画素値まで線形に変化させた関係を満たす画素値に変更することで、前記無効領域を補正してもよい。
これによれば、無効領域を線形補間するため、補間のための画素値の決定に係る処理負荷を低減することができる。
また、前記二次元符号化は、前記補正画像を複数のブロック単位で符号化する処理であり、前記補正部は、前記二次元符号化における前記複数のブロックの境界が前記無効領域上にある場合、前記第一画素から前記境界までの間の複数の第一無効画素を前記第一画素値に変更し、かつ、前記第二画素から前記境界までの間の複数の第二無効画素を前記第二画素値に変更することで、前記無効領域を補正してもよい。
これによれば、二次元符号化における複数のブロックの境界を考慮して無効領域を補正するため、処理負荷を効果的に低減でき、符号化効率を効果的に向上させることができる。
また、前記補正部は、前記第一画素における第一画素値と、前記第二画素における第二画素値とを用いて、前記第一画素から前記無効領域を跨いで前記第二画素までの間の複数の画素それぞれの画素値を、前記複数の画素それぞれの位置および画素値の関係において、前記第一画素値から前記第二画素値まで滑らかな曲線で変化させた関係を満たす画素値に変更することで、前記無効領域を補正してもよい。
これによれば、第一有効領域および第二有効領域と無効領域との間の画素値の差を効果的に低減することができるため、符号化効率を向上させることができる。
また、前記第一画素は、前記第一有効領域において前記無効領域に隣接する画素であり、前記第二画素は、前記第二有効領域において前記無効領域に隣接する画素であってもよい。
また、さらに、前記二次元画像に対応する二次元領域を構成する複数の領域のそれぞれが、前記無効領域であるか前記有効領域であるかを示す二次元バイナリマップを生成する生成部を備え、前記符号化部は、前記補正画像および前記二次元バイナリマップを符号化することで前記符号化データを生成してもよい。
このため、復号時に、二次元バイナリマップを用いて、有効領域および無効領域のうち有効領域のみを復号することができるため、復号時の処理量を低減することができる。
本開示の一態様に係る三次元モデル復号装置は、三次元モデルが少なくとも1つの二次元平面に投影されることで生成された二次元画像が補正された補正画像であって、前記二次元画像に含まれる、前記三次元モデルが投影されなかった無効領域における1以上の画素が補正された画像である補正画像が符号化された符号化データをし、取得した前記符号化データを復号することで得られた三次元モデルを出力する復号部と、を備える。
このため、三次元モデル復号装置310は、少ないデータ量の符号化データを取得することで、三次元モデルを再構成することができる。
本開示の一態様に係る三次元モデル配信方法は、対象時間帯における対象空間の三次元モデルである第1モデルを第1配信方式で配信し、前記対象時間帯における前記対象空間の三次元モデルであって、前記第1モデルより時間当たりの変化が小さい第2モデルを、前記第1配信方式と異なる第2配信方式で配信する。
これによれば、当該三次元モデル配信方法は、時間当たりの変化が異なる第1モデルと第2モデルを、それぞれに適した配信方式で配信できる。これにより、当該三次元モデル配信方法は、要求に応じた適切な配信を実現できる。
例えば、前記第1配信方式の配信周期は、前記第2配信方式の配信周期より短くてもよい。
これによれば、当該三次元モデル配信方法は、時間当たりの変化が異なる第1モデルと第2モデルを、それぞれに適した配信方式で配信できる。
例えば、前記第1配信方式では、第1符号化方式が用いられ、前記第2配信方式では、前記第1符号化方式よりも処理遅延が大きい第2符号化方法が用いられてもよい。
これによれば、当該三次元モデル配信方法は、第1モデルの処理遅延を低減できる。
例えば、前記第1配信方式では、第1符号化方式が用いられ、前記第2配信方式では、前記第1符号化方式と符号化効率が異なる第2符号化方法が用いられてもよい。
これによれば、当該三次元モデル配信方法は、時間当たりの変化が異なる第1モデル及び第2モデルに、それぞれに適した符号化方式を用いることができる。
例えば、前記第1配信方式は、前記第2配信方式より低遅延であってもよい。
これによれば、当該三次元モデル配信方法は、第1モデルの遅延を低減できる。
例えば、前記三次元モデル配信方法は、さらに、前記第1モデルを第1生成方法で生成し、前記第2モデルを前記第1生成方法と精度が異なる第2生成方法で生成してもよい。
これによれば、当該三次元モデル配信方法は、時間当たりの変化が異なる第1モデルと第2モデルを、それぞれに適した方法で生成できる。
例えば、前記第1モデルの生成では、前記対象時間帯における前記対象空間に含まれる複数の対象物の三次元モデルである第3モデルと、前記対象時間帯における前記対象空間に含まれる前記複数の対象物のうちの一部の対象物の三次元モデルである前記第2モデルとから、前記第3モデルと前記第2モデルとの差分である前記第1モデルを生成してもよい。
これによれば、当該三次元モデル配信方法は、第1モデルを容易に生成できる。
例えば、前記第1モデルの生成では、前記対象時間帯における前記対象空間に含まれる複数の対象物が撮影された第1多視点画像と、前記複数の対象物のうちの一部の対象物が撮影された前記第2多視点画像との差分である第3多視点画像を生成し、前記第3多視点画像を用いて、前記第1モデルを生成してもよい。
例えば、前記第1モデル及び前記第2モデルの配信先の端末は、前記第1モデル及び前記第2モデルを用いて、選択視点から見た映像である自由視点映像を生成し、前記三次元モデル配信方法は、前記第1モデルのうち、前記自由視点映像の生成に必要なモデルを優先して配信してもよい。
これによれば、当該三次元モデル配信方法は、自由視点映像の生成に必要な情報を効率的に配信できる。
本開示の一態様に係る三次元モデル配信方法は、対象時間帯における対象空間に含まれる複数の対象物の三次元モデルである第1モデルと、前記対象時間帯における前記対象空間に含まれる前記複数の対象物のうちの一部の対象物の三次元モデルである第2モデルとから、前記第1モデルと前記第2モデルとの差分である第3モデルを生成し、前記第2モデルを第1配信方式で配信し、前記第3モデルを、前記第1配信方式と異なる第2配信方式で配信する。
これによれば、当該三次元モデル配信方法は、第2モデルと第3モデルを、それぞれに適した配信方式で配信できる。これにより、当該三次元モデル配信方法は、要求に応じた適切な配信を実現できる。
本開示の一態様に係る三次元モデル配信装置は、対象時間帯における対象空間の三次元モデルである第1モデルを第1配信方式で配信する第1配信部と、前記対象時間帯における前記対象空間の三次元モデルであって、前記第1モデルより時間当たりの変化が小さい第2モデルを、前記第1配信方式と異なる第2配信方式で配信する第2配信部とを備える。
これによれば、当該三次元モデル配信装置は、時間当たりの変化が異なる第1モデルと第2モデルを、それぞれに適した配信方式で配信できる。これにより、当該三次元モデル配信装置は、要求に応じた適切な配信を実現できる。
本開示の一態様に係る三次元モデル配信装置は、対象時間帯における対象空間に含まれる複数の対象物の三次元モデルである第1モデルと、前記対象時間帯における前記対象空間に含まれる前記複数の対象物のうちの一部の対象物の三次元モデルである第2モデルとから、前記第1モデルと前記第2モデルとの差分である第3モデルを生成する三次元モデル生成部と、前記第2モデルを第1配信方式で配信し、前記第3モデルを、前記第1配信方式と異なる第2配信方式で配信する配信部とを備える。
これによれば、当該三次元モデル配信装置は、第2モデルと第3モデルを、それぞれに適した配信方式で配信できる。これにより、当該三次元モデル配信装置は、要求に応じた適切な配信を実現できる。
本開示の一態様に係る三次元モデル配信方法は、三次元モデルからデプス画像を生成し、前記デプス画像と前記デプス画像から前記三次元モデルを復元するための情報とを配信する。
これによれば、三次元モデルをそのまま配信するのではなく、三次元モデルから生成されたデプス画像が配信される。よって、配信されるデータ量を抑制できる。
例えば、前記三次元モデル配信方法は、さらに、前記デプス画像を、二次元画像圧縮方式を用いて圧縮し、前記配信では、圧縮された前記デプス画像を配信してもよい。
これによれば、三次元モデルの配信において、二次元画像圧縮方式を用いてデータを圧縮することができる。よって、新たに三次元モデル用の圧縮方式を構築する必要がないので、容易にデータ量を削減できる。
例えば、前記デプス画像の生成では、前記三次元モデルから、異なる視点の複数のデプス画像を生成し、前記圧縮では、前記複数のデプス画像間の関係を用いて、前記複数のデプス画像を圧縮してもよい。
これによれば、複数のデプス画像のデータ量をさらに削減できる。
例えば、前記三次元モデル配信方法は、さらに、複数の撮像装置で撮影された複数の画像を用いて前記三次元モデルを生成し、前記複数の画像を配信し、前記デプス画像の視点は、前記複数の画像のいずれかの視点であってもよい。
これによれば、デプス画像の視点を撮影画像の視点と一致されることで、例えば、撮影画像をマルチビュー符号化で圧縮する場合に、デプス画像を用いて撮影画像間の視差情報を算出し、視差情報を用いて視点間の予測画像を生成することができる。これにより、撮影画像の符号量を削減できる。
例えば、前記デプス画像の生成では、前記三次元モデルを所定の視点の撮像面に投影することで、前記デプス画像を生成し、前記情報は、前記三次元モデルを前記所定の視点の撮像面に投影するパラメータを含んでもよい。
例えば、前記三次元モデル配信方法は、さらに、前記デプス画像に含まれる各画素のビット長を決定し、前記ビット長を示す情報を配信してもよい。
これによれば、被写体又は使用目的等に応じてビット長を切り替えることができるので、適切にデータ量を削減できる。
例えば、前記ビット長の決定では、前記ビット長を被写体までの距離に応じて決定してもよい。
例えば、前記三次元モデル配信方法は、さらに、前記デプス画像で示さる画素値と距離との関係を決定し、決定された前記関係を示す情報を配信してもよい。
これによれば、被写体又は使用目的等に応じて画素値と距離との関係を切り替えることができるので、復元される三次元モデルの精度を向上できる。
例えば、前記三次元モデルは、第1モデルと、前記第1モデルより時間当たりの変化が小さい第2モデルとを含み、前記デプス画像は、第1デプス画像と、第2デプス画像とを含み、前記デプス画像の生成では、前記第1モデルから前記第1デプス画像を生成し、前記第2モデルから前記第2デプス画像を生成し、前記関係の決定では、前記第1デプス画像で示される画素値と距離との第1の関係と、前記第2デプス画像で示される画素値と距離との第2の関係とを決定し、前記第1の関係では、第1距離範囲における距離分解能は、前記第1距離範囲より遠い第2距離範囲における距離分解能より高く、前記第2の関係では、前記第1距離範囲における距離分解能は、前記第2距離範囲における距離分解能より低くてもよい。
例えば、前記三次元モデルには色情報が付加されており、前記三次元モデル配信方法は、さらに、前記三次元モデルからテクスチャ画像を生成し、前記テクスチャ画像を、二次元画像圧縮方式を用いて圧縮し、前記配信では、さらに、圧縮された前記テクスチャ画像を配信してもよい。
本開示の一態様に係る三次元モデル受信方法は、三次元モデルから生成されたデプス画像と、前記デプス画像から前記三次元モデルを復元するための情報とを受信し、前記情報を用いて前記デプス画像から前記三次元モデルを復元する。
これによれば、三次元モデルをそのまま配信するのではなく、三次元モデルから生成されたデプス画像が配信される。よって、配信されるデータ量を抑制できる。
例えば、前記デプス画像は二次元画像圧縮方式を用いて圧縮されており、前記三次元モデル受信方法は、さらに、圧縮されている前記デプス画像を復号してもよい。
これによれば、三次元モデルの配信において、二次元画像圧縮方式を用いてデータを圧縮することができる。よって、新たに三次元モデル用の圧縮方式を構築する必要がないので、容易にデータ量を削減できる。
例えば、前記受信では、複数のデプス画像を受信し、前記復号では、前記複数のデプス画像間の関係を用いて、前記複数のデプス画像を復号してもよい。
これによれば、複数のデプス画像のデータ量をさらに削減できる。
例えば、前記三次元モデル受信方法は、さらに、前記三次元モデルと、複数の画像とを用いてレンダリング画像を生成し、前記デプス画像の視点は、前記複数の画像のいずれかの視点であってもよい。
これによれば、デプス画像の視点を撮影画像の視点と一致されることで、例えば、撮影画像をマルチビュー符号化で圧縮する場合に、デプス画像を用いて撮影画像間の視差情報を算出し、視差情報を用いて視点間の予測画像を生成することができる。これにより、撮影画像の符号量を削減できる。
例えば、前記情報は、前記三次元モデルを前記デプス画像の撮像面に投影するパラメータを含み、前記復元では、前記パラメータを用いて前記デプス画像から前記三次元モデルを復元してもよい。
例えば、前記三次元モデル受信方法は、さらに、前記デプス画像に含まれる各画素のビット長を示す情報を受信してもよい。
これによれば、被写体又は使用目的等に応じてビット長を切り替えることができるので、適切にデータ量を削減できる。
例えば、前記三次元モデル受信方法は、さらに、前記デプス画像で示さる画素値と距離との関係を示す情報を受信してもよい。
これによれば、被写体又は使用目的等に応じて画素値と距離との関係を切り替えることができるので、復元される三次元モデルの精度を向上できる。
例えば、前記三次元モデル受信方法は、さらに、二次元画像圧縮方式を用いて圧縮されているテクスチャ画像を受信し、前記圧縮されているテクスチャ画像を復号し、前記復元では、復号された前記デプス画像及び復号された前記テクスチャ画像を用いて、色情報が付加された前記三次元モデルを復元してもよい。
本開示の一態様に係る三次元モデル配信装置は、三次元モデルからデプス画像を生成するデプス画像生成部と、前記デプス画像と前記デプス画像から前記三次元モデルを復元するための情報とを配信する配信部とを備える。
これによれば、三次元モデルをそのまま配信するのではなく、三次元モデルから生成されたデプス画像が配信される。よって、配信されるデータ量を抑制できる。
本開示の一態様に係る三次元モデル受信装置は、三次元モデルから生成されたデプス画像と、前記デプス画像から前記三次元モデルを復元するための情報とを受信する受信部と、前記情報を用いて前記デプス画像から前記三次元モデルを復元する復元部とを備える。
これによれば、三次元モデルをそのまま配信するのではなく、三次元モデルから生成されたデプス画像が配信される。よって、配信されるデータ量を抑制できる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
まず、本実施の形態の概要を説明する。本実施の形態では、次世代広域監視システム又は自由視点映像生成システムなど三次元空間認識システムにおける三次元モデル生成及び配信方法について説明する。
図1は、自由視点映像生成システムの概要を示す図である。例えば、校正済みのカメラ(例えば固定カメラ)を用いて同一空間を多視点から撮影することにより撮影する空間を三次元再構成できる(三次元空間再構成)。この三次元再構成されたデータを用いて、トラッキング、シーン解析、及び映像レンダリングを行うことで、任意の視点(自由視点カメラ)から見た映像を生成できる。これにより、次世代広域監視システム、及び自由視点映像生成システムを実現できる。
このようなシステムでは、三次元再構成によって生成された三次元モデルを、ネットワーク等を介して配信し、受信端末側でトラッキング、シーン解析及び映像レンダリングなどを行うことが考えられる。しかしながら、三次元モデルのデータ量が膨大なため、ネットワーク帯域が不足し、受信に時間を要するという課題がある。
これに対して、本実施の形態では、三次元モデルを構成する前景モデルと背景モデルを別々に異なる配信方式で配信する。例えば、更新頻度が少ない背景モデルの配信回数を抑制することで、配信時のネットワーク帯域を抑制できる。これにより端末側の受信時間を短縮できる。
次に、本実施の形態に係る三次元空間認識システム100の構成を説明する。図2は、三次元空間認識システム100の構成を示すブロック図である。三次元空間認識システム100は、多視点映像撮像装置111と、制御装置112と、イベント検出装置113と、校正指示装置114と、三次元空間再構成装置115と、三次元空間認識装置116とを含む。
図3は、三次元空間認識システム100の動作の概要を示す図である。
多視点映像撮像装置111は、同一空間を撮影することで多視点映像を生成する(S101)。
また、撮影環境中の点と映像上の点の対応及び映像間の点の対応を手動又は自動で検出することにより、各カメラの姿勢(カメラパラメータ)が推定されるカメラ校正が行われる(S102)。
三次元空間再構成装置115は、多視点映像とカメラパラメータとを用いて、撮影空間を三次元再構成する三次元空間再構成を行うことで三次元モデルを生成する(S103)。例えば、三次元モデルとして前景モデルと背景モデルとが生成される。
最後に、三次元空間認識装置116は、三次元モデルを用いて三次元空間認識を行う(S104)。具体的には、三次元空間認識装置116は、三次元モデルを用いた、トラッキング、シーン解析及び映像レンダリングを行う。
次に、三次元空間認識システム100を含む自由視点映像生成システム101について説明する。図4は、本実施の形態に係る自由視点映像生成システム101構成を示すブロック図である。自由視点映像生成システム101は、三次元空間認識システム100の構成に加え、ユーザ端末である複数の映像表示端末117を含む。また、三次元空間再構成装置115は、前景モデル生成部131と、背景モデル生成部132とを備える。三次元空間認識装置116は、視点決定部141と、レンダリング部142と、データ転送部143とを備える。
図5は、自由視点映像生成システム101の動作の概要を示す図である。図6は、自由視点映像生成システム101の動作を示すフローチャートである。
まず、多視点映像撮像装置111は、多視点撮影を行うことで多視点映像を生成する(S101)。多視点映像撮像装置111は、複数の撮像装置121を含む。各撮像装置121は、カメラ122と、雲台123と、メモリ124と、センサ125とを含む。
多視点映像撮像装置111は、制御装置112による撮影開始又は停止信号を受け、当該信号に応じて、撮像装置121間で同期した撮影の開始又は停止を行う。
各撮像装置121はカメラ122で映像を撮影すると同時に映像を撮影した時のタイムスタンプを記録する。また、撮像装置121は、撮影と同時にセンサ125(振動センサ、加速度センサ、地磁気センサ又はマイク)を用いて撮影環境をセンシングし、映像、タイムスタンプ及びセンシングデータをイベント検出装置113に出力する。
また、多視点映像撮像装置111は校正指示装置114から校正指示情報を受け取ると、校正指示情報に従い撮像装置121を調整し、カメラ122を校正し、校正により得られるカメラパラメータをイベント検出装置113に出力する。
各撮像装置121内のメモリ124は、映像、タイムスタンプ、センシングデータ、及びカメラパラメータ、を一時的に保存したり、撮影設定(フレームレート及び解像度など)を記憶したりする。
また、任意のタイミングでカメラ校正が行われる(S102)。具体的には、イベント検出装置113は、多視点映像撮像装置111から得られる映像、タイムスタンプ、センシング情報、三次元空間再構成装置115から得られる三次元モデル、レンダリング部142から得られる自由視点映像、映像表示端末117から得られる端末情報、及び制御装置112から得られる制御情報のうち少なくとも一つから校正イベントを検出し、校正イベントを含む校正イベント情報を校正指示装置114に出力する。校正イベント情報は、校正イベント、校正イベントの重要度、及び校正する撮像装置121を示す情報を含む。
校正イベントとは、撮像装置121を校正するきっかけである。例えば、カメラ122のずれを検知したとき、予め定められた時間になったとき、カメラ校正の精度が高くなるとき、モデル或いは自由視点映像の精度が悪くなったとき、自由視点映像が必要ないとき、ある撮像装置121の映像が自由視点映像の生成に利用できないとき、又は、システム管理者或いはユーザからの指示があったときに、イベント検出装置113は、校正イベント情報を出力する。
具体的には、イベント検出装置113は、センシング情報が閾値を越えた場合、映像中の背景領域が閾値以上変化した場合、又は、歓声が上がった場合に、カメラ122がずれたと検知する。予め定められた時間とは、ハーフタイム又は5回裏などプレーが中断したとき、前回の校正から一定時間経過したとき、又はシステム起動時、等である。カメラ校正の精度が高くなるときとは、映像から抽出した特徴点が一定数以上あるとき等である。また、イベント検出装置113は、モデル又は自由視点映像の精度の悪化を、モデル又は自由視点映像内の壁又は地面のゆがみ等から判断する。
自由視点映像が必要ないときとは、いずれの映像表示端末117も使用されていないとき、又は、音或いは映像からシーン認識し、重要なシーンでないと識別されるときである。ある撮像装置121の映像が自由視点映像の生成に利用できないときとは、十分な通信帯域が得られず映像の解像度或いはフレームレートが落ちているとき、同期ズレが発生しているとき、又は、撮像装置121が撮影している領域が選手がいない等の理由で注目されていないとき、等である。
校正イベントの重要度は、校正イベント又は校正イベントを検出した際に観測されたデータにより算出される。例えば、カメラのずれイベントは他のイベントよりも重要度が高い。また、例えば、カメラのずれが大きいほど重要度が高く設定される。
また、イベント検出装置113は、校正イベント情報を映像表示端末117に送り、ユーザに校正中の撮像装置121を知らせてもよい。
校正指示装置114は、イベント検出装置113から校正イベント情報を受け取ると、校正イベント情報に基づいて校正指示情報を生成し、生成した校正指示情報を多視点映像撮像装置111に出力する。
校正指示情報は、校正するカメラ122、校正するカメラ122の順番、雲台123の制御情報、カメラ122のズーム倍率変更情報、及び校正方法等を含む。雲台123の制御情報とは、例えば、振動等でずれたカメラ姿勢を元の姿勢に戻すための雲台123の回転量を示す。カメラのズーム倍率変更情報とは、例えば、振動等でずれたカメラ122の撮影領域をカバーするために必要なズームアウト量を示す。
校正方法としては、特定の点、線或いは面の三次元座標と映像上の二次元座標とを対応付ける方法と、特定の点、線又は面の映像上の二次元座標を2以上の映像間で対応付ける方法とがある。これらの対応付けは手動又は自動又はその両方で行われる。また、距離が既知の2以上の点、線或いは面、又は1以上のステレオカメラを用いて、カメラ校正の精度を向上してもよい。
次に、三次元空間再構成装置115は、多視点映像を用いて三次元空間再構成を行う(S103)。具体的には、イベント検出装置113は、多視点映像撮像装置111から得られる映像、タイムスタンプ及びセンシング情報、映像表示端末117から得られる端末情報、並びに制御装置から得られる制御情報のうち少なくも一つからモデル生成イベントを検出し、モデル生成イベントを含むモデル生成情報を三次元空間再構成装置115に出力する。
モデル生成情報は、モデル生成イベント及び撮像装置情報を含む。撮像装置情報は、映像、背景画像、カメラパラメータ、カメラパラメータの信頼度、及びカメラの校正状況を含む。モデル生成イベントとは、撮影環境の三次元モデルを生成するきっかけである。具体的には、イベント検出装置113は、一定数以上のカメラが校正されているとき、予め定められた時間になったとき、又は自由視点映像が必要であるとき等に、モデル生成情報を出力する。
予め定められた時間とは、プレーが行われているとき、又は、前回のモデル生成から一定時間経過したとき等、である。自由視点映像が必要であるときは、映像表示端末117が使用されているとき、音或いは映像からシーン認識し重要なシーンであると識別されるとき、又は、システム管理者からの指示或いはユーザからの視聴要求があったとき等、である。カメラパラメータの信頼度は、カメラ校正時の結果、カメラ校正を行った時間、映像、又はセンシング情報から決定される。例えば、カメラ校正時の再投影誤差が低いほど信頼度が高く設定される。また、直前にカメラ校正を行ったカメラほど信頼度が高く設定される。また、特徴点を多く使いカメラ校正を起こったカメラほど信頼度が高く設定される。
三次元空間再構成装置115は、イベント検出装置113から得られるモデル生成情報を用いて撮影環境の三次元モデルを生成し、生成した三次元モデルを記憶する。三次元空間再構成装置115は、モデル生成の際、カメラの校正状況及びカメラパラメータの信頼度から、校正済みであり信頼度の高いカメラで撮影された映像を優先的に利用する。また、三次元空間再構成装置115は、撮影環境の三次元モデルの生成を完了した時、モデル生成完了情報をイベント検出装置113に出力する。
三次元空間再構成装置115は、自由視点映像生成装置である三次元空間認識装置116が自由視点映像を生成する際、撮影環境の三次元モデルをレンダリング部142に出力する。
前景モデル生成部131は、人物又はボール等の時間毎に動きの変化がある(変化が大きい)前景のモデルである前景モデルを生成する。背景モデル生成部132は、会場又はゴール等の時間毎に動きの変化がない(変化が少ない)背景のモデルである背景モデルを生成する。以降、三次元モデルとは前景モデルと背景モデルとを含むモデルを表す。
前景モデル生成部131は、撮像装置121が記録するフレームレートに合わせて前景モデルを生成する。例えば、記録フレームレートが30フレーム/秒の場合は、前景モデル生成部131は、前景モデルを1/30秒毎に生成する。
背景モデル生成部132は、人物又はボール等の時間毎に動きの変化がある前景を含まない背景画像を用いて背景モデルを生成する。背景モデル生成部132は、一度生成した背景モデルをある一定期間内で使いまわすようにしても構わない。また、背景モデル生成部132は、ある一定期間を過ぎると新たな背景モデルを生成して、背景モデルを更新してもよい。これにより、動きの少ない背景モデルを生成する処理量を削減できるので、CPU使用率及びメモリ量を削減することができる。
以下、背景モデル及び前景モデルの生成方法について説明する。図7は、この処理を説明するための図である。
まず、背景モデル生成部132は、背景モデルを生成する(S111)。例えば、多視点映像撮像装置111に含まれる複数の撮像装置121は、背景を撮影することで背景画像を生成し、当該背景画像を記録する。背景モデル生成部132は、この背景画像を用いて背景モデルを生成する。背景モデル生成方法として、例えば、マルチビューステレオ方式のように、複数のステレオカメラペアから背景画像に含まれるオブジェクトの各画素の深度を算出することで、背景に含まれるオブジェクトの三次元位置を特定する方法を用いることができる。または、背景モデル生成部132は、背景画像の特徴量を抽出し、カメラ間の特徴量のマッチング結果から三角測量による原理により背景画像の特徴量の三次元位置を特定する方法を用いても構わない。これ以外にも、背景に含まれるオブジェクトの三次元モデルを算出する方法であれば、どのような方式を用いても構わない。
また、背景モデルは一部、または全てを手動で作成しても構わない。例えば、ゴールなどの競技によって形状が決まっているものは事前にCG等を用いて三次元モデルを生成することが考えられる。つまり、背景モデル生成部132は、予め定め生成された背景モデルを取得してもよい。
また、背景モデル生成部132は、前景及び背景を含む撮影画像を複数枚用いて背景画像を生成してもよい。例えば、背景モデル生成部132は、複数の撮影画像の平均値画像を用いて背景画像を算出してもよい。これにより、事前に前景を含まない背景画像が撮影できない状況でも背景画像を生成することができ、背景モデルを生成することが可能となる。
次に、多視点映像撮像装置111に含まれる複数の撮像装置121は、人物(前景)と背景を撮影することで撮影画像を生成し、当該撮影画像を記録する(S112)。
次に、前景モデル生成部131は、前景モデルを生成する(S113)。具体的には、前景モデル生成部131は、同一の撮像装置121で撮影された同一視点の撮影画像から背景画像を差引くことで背景差分画像を生成する。前景モデル生成部131は、複数の視点の背景差分画像を用いて前景モデルを生成する。前景モデルの生成方法には、例えば、視体積交差法方式のように複数の背景差分画像を用いて空間に存在する前景オブジェクトの三次元モデルを特定する方法を用いることができる。または、前景モデル生成部131は、前景画像(背景差分画像)の特徴量を抽出し、カメラ間の特徴量のマッチング結果から三角測量による原理により前景画像の特徴量の三次元位置を特定する方法を用いても構わない。これ以外にも、前景に含まれるオブジェクトの三次元モデルを算出する方法であれば、どのような方式を用いても構わない。
以上により、前景モデルと背景モデルとが生成される。
次に、三次元モデルを用いた三次元空間認識が行われる(S104A)。まず、視点決定部141は、仮想視点を決定する(S105)。
具体的には、イベント検出装置113は、三次元空間再構成装置115から得られるモデル生成完了情報、映像表示端末117から得られる端末情報、及び制御装置112から得られる制御情報から自由視点生成イベントを検出し、自由視点生成イベントを含む自由視点情報を視点決定部141に出力する。
自由視点生成情報は、自由視点生成イベント、要求視点、及び撮像装置情報を含む。要求視点とは、映像表示端末117から得られるユーザが希望する視点、又は制御装置から得られるシステム管理者が指定する視点、等である。視点は三次元空間上の一点でもよいし、線分でもよい。自由視点生成イベントとは、撮影環境の自由視点映像を生成するきっかけである。具体的には、イベント検出装置113は、撮影環境の三次元モデルが生成されたとき、又は、既に生成された三次元モデルが存在する時刻の自由視点映像を視聴又は配信したいというユーザのリクエスト或いはシステム管理者の指示があったとき等に、自由視点情報を出力する。
視点決定部141は、イベント検出装置113から得られる自由視点情報を基に、自由視点映像を生成する際の視点を決定し、視点情報として自由視点情報と共にレンダリング部142に出力する。視点決定部141は、視点の決定を要求視点に基づき実施する。視点決定部141は、要求視点がない場合は、選手を正面から見ることができる視点等を映像から自動的に検出してもよいし、カメラパラメータの信頼度、又はカメラの校正状況から校正済みで信頼度の高い撮像装置121が近くにある視点を自動的に検出してもよい。
仮想視点が設定されると、三次元モデル(前景モデルと背景モデルを含む)から、仮想視点から見える撮影環境の構造及び距離情報が決まる。レンダリング部142は、三次元モデルを用いてレンダリングを行うことで、仮想視点から見た映像である自由視点映像を生成する(S106)。
具体的には、レンダリング部142は、視点決定部141から得られる視点情報及び自由視点情報と、三次元空間再構成装置115から得られる撮影環境の三次元モデルとを用いて、視点情報に沿った視点の映像を生成し、生成した映像を自由視点映像としてデータ転送部143に出力する。
つまり、レンダリング部142は、自由視点映像を、視点情報が示す仮想視点位置に三次元モデルを投影することにより生成する。この際、レンダリング部142は、例えば、映像上の色及びテクスチャ情報を、例えば仮想視点位置から距離が近い撮像装置121で得られた映像から優先的に取得する。ただし、距離が近い撮像装置121が校正中であったり、カメラパラメータの信頼度が低い場合は、レンダリング部142は、距離が近い撮像装置121とは異なる撮像装置121の映像から優先的に色情報を取得しても良い。また、レンダリング部142は、仮想視点位置から距離が近い撮像装置121が校正中であったり、カメラパラメータの信頼度が低い場合は、映像をぼかしたり、再生速度をあげたりすることにより、画質の低下をユーザに意識させにくくしてもよい。このように、レンダリング部142は、必ずしも距離が近い撮像装置121の映像から優先的に取得する必要はなく、どのような手法を用いて映像上の色及びテクスチャを取得してもよい。また、三次元モデル自体に事前に色情報を付加されてもよい。
次に、データ転送部143は、レンダリング部142から得られる自由視点映像を映像表示端末117に配信する(S107)。データ転送部143は、各ユーザが要求した視点に基づき、映像表示端末117毎に異なる自由視点映像を配信してもよいし、システム管理者が指定した視点又は視点決定部141が自動的に決定した視点に基づき生成した同じ自由視点映像を複数の映像表示端末117に配信しても良い。また、データ転送部143は、自由視点映像を圧縮し、圧縮後の自由視点映像を配信してもよい。
次に、各映像表示端末117は、配信された自由視点映像を表示する(S108)。ここで、映像表示端末117は、ディスプレイ、無線通信機器、及びユーザ入力インターフェースを備えている。ユーザは映像表示端末117を利用し、撮影環境の任意時刻の任意領域を任意視点で見たいという視聴要求をイベント検出装置113に送る。映像表示端末117は、視聴要求に基づいた自由視点映像をデータ転送部143から受信し、ユーザに表示する。
また、映像表示端末117はイベント検出装置113から得られる校正イベント情報を受信し、ディスプレイ上に校正中のカメラを強調表示する。これにより、この撮像装置の近くの視点からの自由視点映像は生成できない、又は画質が悪くなることをユーザに知らせることができる。
また、システム管理者は制御装置112から撮影開始又は停止信号を多視点映像撮像装置111に送り、多視点映像撮像装置111に同期撮影を開始又は停止させる。
また、システム管理者はカメラの校正が必要と判断した場合は制御装置112から制御情報をイベント検出装置113に送り、任意のカメラを校正できる。
また、システム管理者は撮影環境の三次元モデルが必要と判断した場合は制御装置112から制御情報をイベント検出装置113に送り、任意の撮像装置121を用いて任意の時刻における撮影環境の三次元モデルを生成できる。
また、システム管理者は自由視点映像が必要と判断した場合は制御装置112から制御情報をイベント検出装置113に送り、任意の時刻における自由視点映像を生成し、映像表示端末117に配信することができる。
(実施の形態2)
上述した自由視点映像生成の機能は監視システムで利用されてもよい。この場合は、現実のカメラでは捉えていない視点から見た不審者の推定外観を警備員に提示して警戒にあたらせることができる。
図8は、本実施の形態に係る次世代監視システム102の構成を示すブロック図である。図8に示す次世代監視システム102は、図4に示す自由視点映像生成システム101に対して、三次元空間認識装置116Aの構成が、三次元空間認識装置116と異なる。また、次世代監視システム102は、映像表示端末117の代わりに、監視員118A、警備員118B及び映像撮像装置118Cを含む。
三次元空間認識装置116Aは、トラッキング部144と、シーン解析部145と、データ転送部146とを備える。
図9は、次世代監視システム102の動作の概要を示す図である。図10は、次世代監視システム102の動作を示すフローチャートである。なお、多視点撮影(S101)、カメラ校正(S102)及び三次元空間再構成(S103)は、図5及び図6と同様である。
次に、三次元空間認識装置116Aは、三次元モデルを用いた三次元空間認識を行う(S104B)。具体的には、トラッキング部144は、三次元空間上で人物をトラッキングする(S105B)。また、トラッキング部144は、人物が写りこむ映像を自動抽出する。
また、シーン解析部145は、シーン解析を行う(S106B)。具体的には、シーン解析部145は、三次元空間又は多視点映像から人物又はシーンの状況認識及び異常検出を行う。
次に、データ転送部146は、三次元空間認識の結果を、監視員118A或いは警備員118Bが所持する端末等、又は映像撮像装置118Cに転送する(S107B)。そして、三次元空間認識の結果が、監視員118A或いは警備員118Bが所持する端末等、又は映像撮像装置118Cが有する表示部等に、表示される(S108B)。
以下、上記動作の詳細を説明する。シーン解析部145及びトラッキング部144は、自由視点映像の生成と同じく、三次元空間再構成装置115で生成された三次元モデルに基づいて、撮影領域内の各被写体の仮想視点から見た構造、及び仮想視点からの距離を算出する。また、シーン解析部145及びトラッキング部144は、仮想視点から近い距離にある撮像装置121の映像から優先的に各被写体の色及びテクスチャを取得し、取得した情報を利用することも可能である。
二次元映像を用いたシーン解析は、撮影領域内の各被写体、例えば、人又は物のある瞬間の様子を示す映像を、ソフトウェアで、又は人が画面で見て解析することで実行される。このシーン解析をシーン解析部145が、三次元モデルデータに基づき行うことで、撮影領域内の人の三次元姿勢又は物の三次元形状を観察することができるので、二次元映像を用いるよりも高精度な状況認識及び予測が可能である。
二次元映像を用いたトラッキングでは、例えば、まず、撮像装置121が撮影した映像のシーン解析によって撮影領域内の被写体が特定される。また、異なる瞬間に撮像装置121が撮影した映像上で特定された同一の被写体が、ソフトウェア又は人手で対応付けされる。そして、このような被写体の特定及び対応付けが時間軸に沿って行われることでトラッキングが実行される。しかし、例えば、撮像装置121による二次元映像では、注目していた被写体が他の被写体に一時的に隠れたために、その被写体の特定の継続が不可能になる場合がある。このような場合においても、三次元モデルを用いることで被写体それぞれの三次元位置情報又は三次元形状情報を用いて被写体の特定を継続することができる。
このような三次元モデルを用いたシーン解析及びトラッキングの機能を、次世代監視システム102で利用する。これにより、不審な現場の早期発見及び発見の精度向上を実現できる。また、設置可能なカメラの台数が制限されている場所でも、二次元映像を用いる場合に比べてセキュリティの強化を図ることができる。
シーン解析部145は、三次元モデルのデータを解析して、例えば被写体の特定を行う。解析の結果は、トラッキング部144に渡されてもよいし、自由視点映像と共に端末等のディスプレイに表示されてもよい。また、端末等が備える記憶装置又は外部の記憶装置に自由視点映像の解析結果のデータが保存されてもよい。また、解析の結果に応じて、他の時刻又は他の位置における仮想視点の決定がシーン解析部145から端末経由でユーザに要求されてもよい。
トラッキング部144は、三次元モデルのデータに基づいて特定の被写体の追跡をする。追跡の結果は、自由視点映像と共に端末等のディスプレイに表示されてもよい。また、例えば特定の被写体の追跡が不可能な場合に、他の時刻又は他の位置における仮想視点の決定がトラッキング部144から端末経由でユーザに要求されてもよい。
(実施の形態3)
本実施の形態では、実施の形態1に係る自由視点映像生成システム101の変形例を説明する。図11は、本実施の形態に係る自由視点映像生成システム103の構成を示すブロック図である。図11に示す自由視点映像生成システム103は、図4に示す自由視点映像生成システム101に対して、視点決定部151及びレンダリング部152が映像表示端末117A内に設けられている点が異なる。
データ転送装置119は、三次元空間再構成装置115で生成された三次元モデル(前景モデルと背景モデル)を映像表示端末117Aに配信する。なお、データ転送装置119は、さらに、多視点映像撮像装置111で得られた撮影映像とカメラパラメータとを映像表示端末117Aに送信してもよい。また、三次元空間再構成装置115は、三次元モデルを生成する際に、撮像映像等を用いて三次元モデルに色情報を付加し、データ転送装置119は、映像表示端末117Aに色情報が付加された三次元モデルを配信してもよい。また、この場合は、データ転送装置119は、撮影映像を映像表示端末117Aに配信しなくてもよい。
映像表示端末117Aは、ディスプレイ、無線通信機器、及びユーザ入力インターフェースを備えている。ユーザは映像表示端末117Aを利用し、撮影環境の任意時刻の任意領域を見たいという視聴要求をイベント検出装置113に送り、視聴要求に基づいた三次元モデル、撮影映像、及びカメラパラメータをデータ転送装置119から受信する。そして映像表示端末117Aは、ユーザが見たいと指定した視点情報と受信した三次元モデルとを用いて、視点情報に沿った視点の映像を生成し、生成した映像を自由視点映像としてディスプレイに出力する。
図12は、自由視点映像生成システム103の動作を示すフローチャートである。なお、ステップS101及びS103は、図6に示す実施の形態1の処理と同様である。
次に、データ転送装置119は、三次元空間再構成装置115で生成された三次元モデル(前景モデルと背景モデル)を映像表示端末117Aに配信する(S107C)。このとき、データ転送装置119は、前景モデルと背景モデルとを異なる配信方式で配信する。
例えば、データ転送装置119は、映像表示端末117Aに三次元モデルを配信する際に、前景モデルと背景モデルとを分けて配信する。その際、データ転送装置119は、例えば、各モデルが前景モデルであるか背景モデルであるかを区別するためのフラグ又は識別子を配信データに含まれるヘッダ情報等に付加する。
例えば、前景モデルと背景モデルの配信周期が異なってもよい。また、前景モデルの配信周期は背景モデルの配信周期未満であってもよい。例えば、撮像装置121の記録フレームレートが30フレーム/秒の場合には、データ転送装置119は、撮像装置121の記録フレームレートに合わせて前景モデルを30モデル/秒で配信する。また、データ転送装置119は、例えば、背景モデルとして1つのモデルを配信する。
また、データ転送装置119は、前景モデルを配信する際、現在時刻の前景モデルと前時刻の前景モデルとの差分である差分モデルを生成し、生成した差分モデルを配信してもよい。また、データ転送装置119は、前景モデルの動きを予測して前時刻の前景モデルから予測モデルを生成し、現時刻の前景モデルと予測モデルとの差分である差分モデルを生成し、生成した差分モデルと、動き予測の結果を示す動き情報とを配信してもよい。これにより前景モデルの情報量を削減することができるので、ネットワークの帯域を抑制することができる。さらに、データ転送装置119は、差分モデルと動き情報に可変長符号化又は算術符号化を行うことで、送信データの情報量を圧縮してもよい。
また、データ転送装置119は、背景モデルを配信する際、ユーザの視聴開始時に1つの背景モデルを配信してもよい。または、データ転送装置119、予め定められた一定間隔毎に背景モデルを送信してもよい。この際、データ転送装置119は、現在の背景モデルと前回配信した背景モデルとの差分である差分モデルを生成し、生成した差分モデルを送信してもよい。これにより、配信する背景モデルの情報量を削減することができるので、ネットワーク帯域を抑制することができる。
また、データ転送装置119は、ランダムアクセスポイントでは、前景モデルと背景モデルの両方を送信してもよい。これにより、映像表示端末117Aは、ユーザが視聴したい時刻を切り替えた際に常に適切な前景モデルと背景モデルを用いて自由視点映像を生成することができる。
図13は、ユーザの視聴開始時に1つの背景モデルを配信される場合の前景モデルと背景モデルの配信例を示す図である。図13に示すように、データ転送装置119はユーザの視聴開始時に1つの背景モデルを配信する。映像表示端末117Aはその背景モデルと、時刻毎に受信した前景モデルとを用いて自由視点映像を生成する。
図14は、一定間隔毎に背景モデルが配信される場合の前景モデルと背景モデルの配信例を示す図である。図14に示すように、データ転送装置119は、予め定められた一定間隔で背景モデルを配信する。ここで、当該一定間隔は、前景モデルの配信間隔より長い。映像表示端末117Aは、直前に受信した背景モデルと、時刻毎に受信した前景モデルとを用いて自由視点映像を生成する。
また、データ転送装置119は、前景モデルと背景モデルとを符号化して配信する場合に、モデル毎に符号化方法を切り替えてもよい。つまり、データ転送装置119は、前景モデルと背景モデルとに異なる符号化方法を用いてもよい。例えば、データ転送装置119は、前景モデルに対しては、映像表示端末117A側での即時再生を目的とし、低遅延を優先した符号化方法を適用する。また、データ転送装置119は、背景モデルに対しては、できるだけ情報量を削減するために高効率を優先した符号化方式を適用する。これにより、各モデルの使用用途に応じた適切な符号化方法を選択することで、データ量を削減しつつ、システムの機能性を高めることができる。
なお、データ転送装置119は、前景モデルに対して高効率な符号化方式を用い、背景モデルに対しては前景モデルよりも低効率な符号化方式を用いてもよい。例えば、背景モデルは配信頻度が少ないため、低効率な符号化方式を用いることでデータ量が増えてもネットワーク負荷は増えにくい。一方で、処理の軽い低効率な符号化方式を用いることで、サーバ又は端末における背景モデルに対する処理負荷を抑制できる。また、前景モデルは更新頻度が多い。よって、サーバ又は端末の処理負荷が高くでも、できるだけ前景モデルを高効率に符号化することでネットワーク負荷を削減することができる。なお、データ転送装置119は、低効率な符号化方式を行う代わりに、符号化を行わず、そのままモデルを送ってもよい。
また、データ転送装置119は、前景モデルと背景モデルとを異なる特性を持つネットワーク又はプロトコルを用いて配信してもよい。例えば、データ転送装置119は、前景モデルに対しては、映像表示端末117A側での即時再生を目的とし、パケットロスの少なく、信頼度が高い高速ネットワークを用いるとともに、UDP(User Datagram Protocol)等の低遅延な配信プロトコルを用いる。また、データ転送装置119は、背景モデルに対しては、前景モデルの送信帯域を確保しつつ確実に背景モデルを配信するために、低速度のネットワークを用いるとともに、TCP(Transmission Control Protocol)等のエラー耐性が高いプロトコルを用いる。また、背景モデルにはHTTP(Hypertext Transfer Protocol)等を用いたダウンロード配信を適用し、前景モデルにはRTP(Real-time Transport Protocol)等を用いたストリーム配信を適用することで、前景モデルの低遅延化を実現してもよい。
また、データ転送装置119は、映像表示端末117Aからユーザが視聴中の視点位置情報を取得し、その情報を用いて配信する三次元モデルを切り替えてもよい。例えば、データ転送装置119は、ユーザが視聴中の視点から見た映像の生成に必要な前景モデルと背景モデルを優先して配信してもよい。また、データ転送装置119は、ユーザが視聴中の視点から見た映像の生成に必要な前景モデルは高精度(高密度)に配信して、その他のモデルには間引き処理等を行うことでモデルの精度(密度)を落として配信してもよい。これにより、配信データ量を削減できる。なお、背景モデルに関しては、このような切り替えを行わなくてもよい。
また、データ転送装置119は、利用可能なネットワーク帯域に応じて配信する三次元モデルの密度又は配信周期を変えてもよい。例えば、データ転送装置119は、ネットワーク帯域が狭いほど、三次元モデルの密度を疎にし、又は配信周期を長くしてもよい。また、データ転送装置119が配信する三次元モデルの密度に応じて、映像表示端末117Aは、レンダリングの解像度を切り替えてもよい。例えば、ネットワーク帯域が狭い場合は、データ転送装置119は、三次元モデルの密度を間引き処理等によって疎にして配信する。また、映像表示端末117Aは、レンダリング解像度を小さくして映像を表示する。
また、三次元モデルの密度の削減方法として、均一に間引き処理を行う方法、又は対象物体によって間引きの有無或いは方法を切り替える方法等を用いることができる。例えば、データ転送装置119は、重要な被写体は密な三次元モデルで配信し、その他の被写体は疎な三次元モデルで配信する。これにより、重要な被写体の画質を維持しつつ、配信データ量を削減できる。また、データ転送装置119は、ネットワーク帯域が狭くなった場合には、前景モデルの配信周期を長くするなど、配信する三次元モデルの時間的な解像度を下げてもよい。
再度、図12を参照する。次に、映像表示端末117Aは、配信された三次元モデルを用いた三次元空間認識を行う。まず、視点決定部151は、仮想視点を決定する(S105C)。次に、レンダリング部152は、三次元モデルを用いてレンダリングを行うことで、仮想視点から見た映像である自由視点映像を生成する(S106C)。なお、これらの処理は、実施の形態1におけるステップS105及びS106の処理と同様である。次に、映像表示部153は、生成された自由視点映像を表示する(S108C)。
映像表示端末117Aはデータ転送装置119から三次元モデルを受信する際に、前景モデルと背景モデルを分けて受信してもよい。その際、映像表示端末117Aは、各モデルが前景モデルであるか背景モデルであるかを区別するためのフラグ又は識別子を、ヘッダ情報等を解析して取得してもよい。
前景モデルと背景モデルの受信周期は異なってもよい。また、前景モデルの受信周期は背景モデルの受信周期未満であってもよい。例えば、前景モデルは撮像装置121の記録フレームレートが30フレーム/秒の場合には、映像表示端末117Aは、撮像装置121の記録フレームレートに合わせて30モデル/秒で前景モデルを受信する。また、映像表示端末117Aは、背景モデルとして1つのモデルを受信する。
映像表示端末117Aは、前景モデルを受信する際、現在時刻の前景モデルと前時刻の前景モデルとの差分である差分モデルを受信し、前時刻の前景モデルと差分モデルとを加算することで現時刻の前景モデルを生成してもよい。また、映像表示端末117Aは、差分モデルと、動き予測の結果を示す動き情報とを受信し、受信した動き情報と前時刻の前景モデルから予測モデルを生成し、差分モデルと予測モデルとを加算することで現時刻の前景モデルを生成してもよい。これにより受信する前景モデルの情報量を削減することができるので、ネットワークの帯域を抑制することができる。さらに、差分モデルと動き情報が可変長符号化又は算術符号化によって圧縮されている場合には、映像表示端末117Aは、受信したデータを可変長復号又は算術復号することにより差分モデル及び動き情報を復号してもよい。
また、映像表示端末117Aは、背景モデルを受信する際、ユーザの視聴開始時に1つの背景モデルを受信し、全ての時刻において1つの背景モデルを使いまわしてもよい。または、映像表示端末117Aは、予め定められた定間隔毎に背景モデルを受信してもよい。この際、映像表示端末117は、前回受信した背景モデルと現在の背景モデルとの差分である差分モデルを受信し、前回の背景モデルと差分モデルとを加算することで現在の背景モデルを生成してもよい。これにより、受信する背景モデルの情報量を削減することができるのでネットワーク帯域を抑制することができる。
また、映像表示端末117Aは、ランダムアクセスポイントでは、前景モデルと背景モデルの両方を受信してもよい。これにより、映像表示端末117Aは、ユーザが視聴したい時刻を切り替えた際に常に適切な前景モデルと背景モデルを用いて自由視点映像を生成することができる。
また、映像表示端末117Aは、三次元モデルをネットワークエラー等で受信できない場合は、既に受信済の三次元モデルを利用してレンダリング処理を行ってもよい。例えば、映像表示端末117Aは、前景モデルを受信できない場合は、既に受信した前景モデルから動きを予測により予測モデルを生成し、生成した予測モデルを現時刻の前景モデルとして利用してもよい。また、映像表示端末117Aは、背景モデルを受信できない場合は、既に受信した背景モデルを利用してもよいし、CGモデルを利用してもよい。また、映像表示端末117Aは、背景モデル又は前景モデルを受信できない場合、CG画像等、事前に準備したモデル又はレンダリング画像を利用してもよい。これにより、三次元モデルが受信できない場合でも、映像表示端末117Aはレンダリング画像をユーザに提供することができる。
また、データ転送装置119は、カメラパラメータ、多視点映像撮像装置111で得られた撮影映像、背景画像、背景差分画像、各撮影映像又は三次元モデル生成時の時刻情報、レンダリング開始時の視点位置情報、及びレンダリング用の時刻情報のうち少なくとも一つを映像表示端末117Aに配信してもよい。
また、データ転送装置119は、撮像装置121が固定されたカメラである場合、視聴開始時にのみカメラパラメータを映像表示端末117Aに配信してもよい。また、データ転送装置119は、校正指示装置114によって校正が行われたタイミングにおいてカメラパラメータを映像表示端末117Aに配信してもよい。また、撮像装置121が非固定である場合、データ転送装置119は、カメラパラメータが更新される毎に当該カメラパラメータを映像表示端末117Aに配信してもよい。
また、データ転送装置119は、多視点映像撮像装置111で得られた撮影映像、背景画像、又は背景差分画像を符号化したうえで配信してもよい。これにより、送信データのデータ量を削減できる。例えば、データ転送装置119は、多視点画像間の相関を利用したH.264又はH.265のマルチビューコーデック(MVC)を利用してもよい。また、データ転送装置119は、各撮像装置121の映像を各々独立にH.264又はH.265で符号化したうえで配信してもよい。これにより映像表示端末117Aに配信するデータのデータ量を削減できる。
レンダリング開始時の視点位置情報は、ユーザが開始時に映像表示端末117Aを介して指定してもよい。また、視点決定部151は、映像表示端末117Aを用いた視聴のスタイル又は映像表示端末117Aの種類によって視点位置を切り替えてもよい。例えば、テレビでの視聴の場合には、視点決定部151は、システム側が指定したお勧め視点、ボールに近い撮像装置121からの視点、フィールドの中心を撮影している撮像装置121からの視点、又は視聴率が高い視点等を、開始視点として決定する。また、ユーザのタブレット又はスマートフォン等の個人端末での視聴の場合には、視点決定部151は、ユーザのお気に入り選手が写っている視点等を開始視点として決定する。また、ヘッドマンウトディスプレイでの視聴の場合には、視点決定部151は、VR(Virtual Reality)用のお勧め視点、例えばフィールド上の選手視点、又はベンチからの視点などを開始視点として決定する。
(実施の形態4)
本実施の形態では、実施の形態2に係る次世代監視システム102の変形例を説明する。図15は、本実施の形態に係る次世代監視システム104の構成を示すブロック図である。図15に示す次世代監視システム104は、図8に示す次世代監視システム102に対して、トラッキング部154及びシーン解析部155が映像表示端末117B内に設けられている点が異なる。
図16は、次世代監視システム104の動作を示すフローチャートである。なお、ステップS101、S103及びS107Cは、図12に示す実施の形態3の処理と同様である。
次に、映像表示端末117Bは、三次元モデルを用いた三次元空間認識を行う。具体的には、トラッキング部154は、三次元空間上で人物をトラッキングする(S105D)。シーン解析部155は、シーン解析を行う(S106D)。そして、映像表示端末117Bは、三次元空間認識の結果を表示する(S108D)。なお、これらの処理は、実施の形態2におけるステップS105B、S106B及びS108Bの処理と同様である。
(実施の形態5)
上記実施の形態では、三次元モデルに前景モデルと背景モデルとが含まれる例を述べたが、三次元モデルに含まれるモデルは、前景モデルと背景モデルとの2つのモデルに限定しなくともよい。
図17は、本実施の形態に係る自由視点映像生成システム105の構成を示すブロック図である。図17に示す自由視点映像生成システム105は、図11に示す自由視点映像生成システム103に対して、三次元空間再構成装置115Aの構成が異なる。この三次元空間再構成装置115Aは、第1モデルを生成する第1モデル生成部133と、第2モデルを生成する第2モデル生成部134と、第3モデルを生成する第3モデル生成部135とを備える。
三次元空間再構成装置115Aは、第1モデル、第2モデル及び第3モデルを含む三次元モデルを生成する。データ転送装置119は第1~第3モデルを映像表示端末117Aに別々に異なる配信方式で配信する。三次元空間再構成装置115Aは、異なる頻度で各モデルを更新する。データ転送装置119は、異なる周期で各モデルを映像表示端末117Aに配信する。例えば、第1モデルが前景モデルであり、第2モデルが背景モデルの一部であり、第3モデルが第2モデル以外の背景モデルである。この場合において、撮像装置121の記録フレームレートが30フレーム/秒の場合には、データ転送装置119は、撮像装置121の記録フレームレートに合わせて第1モデルを30モデル/秒で配信する。また、データ転送装置119は、第2モデルを1モデル/秒で配信し、第3モデルとして視聴開始時に1つのモデルを配信する。これにより、背景モデルのうち更新頻度の異なる領域を別モデルとして別周期で配信することができるので、ネットワーク帯域を抑制することができる。
また、データ転送装置119は、三次元モデルに、2つ以上のモデルを識別するための識別子を付加してもよい。これにより、映像表示端末117Aは識別子を解析することにより、受信した三次元モデルがどのモデルに該当するかを判定できる。
なお、ここでは、3つのモデルが用いられる例を述べたが、4以上のモデルが用いられてもよい。
また、2つのモデルが用いられる場合において、当該2つのモデルは、前景モデル及び背景モデル以外であってもよい。例えば、三次元データは、更新頻度が多くデータ量が多い第1モデルと、更新頻度が少なくデータ量が少ない第2モデルを含んでもよい。また、データ転送装置119は、各モデルを映像表示端末117Aに別々に異なる配信方式で配信してもよい。この際、モデル毎に更新頻度が異なるため、データ転送装置119は、異なる周期で各モデルを映像表示端末117Aに配信する。例えば、撮像装置121の記録フレームレートが30フレーム/秒の場合には、データ転送装置119は、撮像装置121の記録フレームレートに合わせて第1モデルを30モデル/秒で配信する。また、データ転送装置119は、第2モデルとして視聴開始時に1つのモデルを配信する。これにより、データ量が異なる三次元モデルを異なる周期で配信することができるので、ネットワーク帯域を抑制することができる。
また、第1モデル及び第2モデルは重要度が異なるモデルであってもよい。また、データ転送装置119は、各モデルを映像表示端末117Aに別々に異なる配信方式で配信してもよい。この際、モデル毎に重要度が異なるため、データ転送装置119は、異なる周期で各モデルを映像表示端末117Aに配信する。例えば、第1モデルが重要度が高いモデルであり、第2モデルが重要度が低いモデルであるとする。この場合において、撮像装置121の記録フレームレートが30フレーム/秒の場合には、データ転送装置119は、撮像装置121の記録フレームレートに合わせて第1モデルを30モデル/秒で配信し、第2モデルを15モデル/秒で配信する。これにより、重要度が高い三次元モデルを優先的に配信することができるので、ネットワーク帯域を抑制しつつ、映像表示端末117Aを利用するユーザへ適切なレンダリング映像を提供することが可能となる。
また、データ転送装置119は、重要度によって配信周期以外を切り替えてもよい。例えば、データ転送装置119は、優先度に応じてモデルの密度を切り替えてもよい。例えば、データ転送装置119は、サッカー試合における三次元モデルを配信する場合には、一方のゴール前で争っている選手の三次元モデルは重要度が高いと判定し、他方のゴール付近にいるゴールキーパーの三次元モデルは重要度が低いと判断する。そして、データ転送装置119は、ゴールキーパーの三次元モデルの密度を重要度が高い三次元モデルよりも下げて配信する。なお、データ転送装置119は、重要度が低い三次元モデルを配信しなくてもよい。また、データ転送装置119は、重要度の高低の判断を、例えば、判断対象とするモデルが、ボールなどの特定の特徴点又は対象物に近いかどうか、又は、視聴者が多く見ている視点位置に近いかどうかなどに基づき行う。例えば、特定の特徴点又は対象物に近いモデルの重要度は高く、視聴者が多く見ている視点位置に近いモデルの重要度は高く設定される。
なお、各モデルは、例えば、オブジェクト認識等で判別される1以上のオブジェクト(例えば、人、ボール、車等)の集合であってもよいし、背景及び前景等、動きに基づき判別される領域又はオブジェクトの集合であってもよい。
また、実施の形態4で説明した次世代監視システム104に対しても同様の変形例を適用できる。図18は、本実施の形態に係る次世代監視システム106の構成を示すブロック図である。図18に示す次世代監視システム106は、図15に示す次世代監視システム104に対して、三次元空間再構成装置115Aの構成が異なる。なお、三次元空間再構成装置115Aの機能等は、図17と同様である。
以上、実施の形態1~4で説明したように、三次元モデル配信装置(例えばデータ転送装置119)は、対象時間帯における対象空間の三次元モデルである第1モデル(例えば前景モデル)を第1配信方式で配信し、対象時間帯における対象空間の三次元モデルであって、第1モデルより時間当たりの変化が小さい第2モデル(例えば背景モデル)を、第1配信方式と異なる第2配信方式で配信する。つまり、三次元モデル配信装置は、前景モデルと背景モデルを別々に送信する。
例えば、第1モデルと第2モデルの送信周期は異なる。例えば、第1配信方式の配信周期は、第2配信方式の配信周期より短い。また、三次元モデル配信装置は、第1モデルを予め定められた一定間隔毎に送信する。このとき、三次元モデル配信装置は、現在時刻の第1モデルと前時刻の第1モデルとの差分である差分モデルを送信してもよい。また、三次元モデル配信装置は、現在時刻の第1モデルの、前時刻の第1モデルからの動き情報を送信してもよい。
例えば、三次元モデル配信装置は、第2モデルを視聴開始時に送信する。または、三次元モデル配信装置は、予め定められた一定間隔毎に第2モデルを送信する。また、三次元モデル配信装置は、現在の第2モデルと、前回送信した第2モデルとの差分である差分モデルを送信してもよい。また、三次元モデル配信装置は、ランダムアクセスポイント毎に第2モデルを送信してもよい。
また、三次元モデル配信装置は、各モデルが第1モデルか第2モデルかを区別するためのフラグ等の情報を送信してもよい。
また、三次元モデル配信装置は、ランダムアクセスポイントでは、第1モデルと第2モデルの両方を送信してもよい。
また、三次元モデル配信装置は、第1モデルと第2モデルとを異なる方法で生成してもよい。具体的には、三次元モデル配信装置は、第1モデルを第1生成方法で生成し、第2モデルを第1生成方法と精度が異なる第2生成方法で生成する。例えば、三次元モデル配信装置は、第1モデルを第1生成方法で生成し、第2モデルを第1生成方法より精度が高い第2生成方法で生成する。または、三次元モデル配信装置は、第1モデルを第1生成方法で生成し、第2モデルを第1生成方法より精度が低い第2生成方法で生成する。例えば、三次元モデル配信装置は、プレーヤ又は犯人などの第1モデル(前景モデル)をできるだけ高画質にレンダリングする必要がある場合はデータ量が増えても第1モデルを高精度に生成する。一方、三次元モデル配信装置は、観客又は背景画像等の、前景よりも重要でない領域の第2モデルは精度を落とすことでデータ量を抑制する。
例えば、三次元モデル配信装置は、対象時間帯における対象空間に含まれる複数の対象物の三次元モデルである第3モデルと、対象時間帯における対象空間に含まれる複数の対象物のうちの一部の対象物の三次元モデルである第2モデル(背景モデル)とから、第3モデルと第2モデルとの差分である第1モデル(前景モデル)を生成する。
例えば、三次元モデル配信装置は、対象時間帯における対象空間に含まれる複数の対象物が撮影された第1多視点画像(撮影画像)と、当該複数の対象物のうちの一部の対象物が撮影された第2多視点画像(背景画像)との差分である第3多視点画像(背景差分画像)を生成し、第3多視点画像(背景差分画像)を用いて、第1モデル(前景モデル)を生成する。
また、三次元モデル配信装置は、第1モデルを、第2多視点画像(撮影画像)又は第3多視点画像(背景差分画像)を用いた視体積交差法方式により生成し、第2モデルをカメラ間の特徴点のマッチング結果を用いて生成してもよい。これにより、第1モデルの生成の処理量を減らすことができるとともに、第2モデルの精度を向上できる。なお、三次元モデル配信装置は、第2モデルを手動で作成してもよい。
三次元モデル配信装置は、三次元モデル以外のデータを配信してもよい。例えば、三次元モデル以外のデータとは、カメラパラメータ、多視点画像、背景差分画像、時刻情報、及び開始時の視点位置の少なくとも一つを含む。
また、三次元モデル配信装置は、固定カメラのカメラパラメータを視聴開始時に配信し、非固定カメラのカメラパラメータを当該カメラパラメータが変化する毎に配信してもよい。
また、視聴開始時の視点位置は、ユーザが視聴開始時に指定してもよい。または、視聴開始時の視点位置は、視聴スタイル又は端末の種類によって切り替えられてもよい。例えば、テレビでの視聴の場合には、お勧め視点、固定カメラのどれか(例えば、ボールに近い、或いはフィールドの中心)、又は視聴率が高い視点が選択される。また、個人のタブレット端末又はスマートフォンでの視聴の場合は、お気に入り選手の写る視点が選択される。また、ヘッドマウントディスプレイでの視聴の場合には、VR用のお勧め視点(例えばフィールド上の視点)が選択される。
また、第1モデル及び第2モデルは、前景モデルと背景モデルとの2つのモデルに限定されない。また、2つ以上の複数モデルが生成され、別々に異なる配信方式で配信されてもよい。この場合、モデル毎に更新頻度が異なる(背景でも領域によって更新頻度が異なる)ため、三次元モデル配信装置は、異なる周期で各モデルを配信する。また、三次元モデル配信装置は、2つ以上のモデルを識別するための識別子を付加する。
また、三次元モデル配信装置は、モデル毎に符号化方法を切り替える。
例えば、第1モデルに用いられる第1配信方式では、第1符号化方式が用いられる。第2モデルに用いられる第2配信方式では、第2符号化方式が用いられる。第1符号化方式と第2符号化方式とは、処理遅延及び符号化効率の少なくとも一方が異なる。例えば、第2符号化方式は、第1符号化方式よりも処理遅延が大きい。または、第2符号化方式は、第1符号化方式よりも符号化効率が高い。または、第2符号化方式は、第1符号化方式よりも符号化効率が低い。
また、第1配信方式は、第2配信方式より低遅延であってもよい。例えば、三次元モデル配信装置は、第1モデルを信頼度が高い回線を用いて低遅延配信する(例えばUDPを利用する)。また、三次元モデル配信装置は、第2モデルを低速度回線で配信する(例えばTCPを利用する)。または、三次元モデル配信装置は、第2モデルをダウンロード配信し(例えばHTTP)、第1モデルをストリーム配信(例えばRTP)してもよい。
また、三次元モデル受信装置(例えば映像表示端末117A)は、三次元モデルをネットワークエラー等で受信できない場合、既に受信済の三次元モデルを利用してもよい。例えば、三次元モデル受信装置は、第1モデルを受信できない場合は、既に受信した第1モデルから動きの予測を行うことで予測モデルを生成し、生成した予測モデルを現時刻の第1モデルとして利用する。
また、三次元モデル受信装置は、第2モデルを受信できない場合は、既に受信した第2モデルを利用する。もしくは、三次元モデル受信装置は、CGモデル又はCG画像等、事前に準備したモデル又はレンダリング画像を利用する。つまり、三次元モデル受信装置は、第1モデルと第2モデルとで異なるエラーコンシールメント処理を行ってもよい。
また、三次元モデル配信装置は、ユーザが見ている視点の映像に生成に必要な第1モデルと第2モデルとを優先して配信してもよい。例えば、三次元モデル配信装置は、ユーザが見ている視点の映像の生成に必要な第1モデルを高精度に配信して、その他の第1モデルを間引いてもよい。つまり、第1モデル及び第2モデルの配信先の端末(例えば映像表示端末117A)は、第1モデル及び第2モデルを用いて、選択視点から見た映像である自由視点映像を生成する。三次元モデル配信装置は、第1モデルのうち、自由視点映像の生成に必要なモデルを優先して配信する。
また、三次元モデル配信装置は、利用可能なネットワーク帯域に応じて配信する三次元モデルの質を変えてもよい。例えば、三次元モデル配信装置は、ネットワーク帯域に応じて三次元モデルの密度又はレンダリング解像度を切り替える。三次元モデル配信装置は、帯域が厳しい場合は三次元モデルの密度を疎にしてレンダリング解像度を小さくする。また、三次元モデルの密度切り替えは、均一に間引く、又は対象物体によって切り替える等の方法を用いることができる。また、三次元モデル配信装置は、帯域が厳しい場合には、第1モデルの配信周期を長くするなど、配信する三次元モデルの時間的解像度を下げる処理を行う。
また、上記説明では、多視点映像撮像装置111で得られた多視点映像を用いて三次元モデルが生成される例を述べたが、三次元モデル(前景モデル及び背景モデル)の生成方法は上記に限定されない。例えば、三次元モデルは、カメラ以外の手段、例えば、LIDAR(Light Detection and Ranging)又はTOF(Time of Flight)等で得られた情報を用いて生成されてもよい。また、これらの情報を用いて、三次元モデルの生成に用いる多視点映像が生成されてもよい。
また、三次元モデルは、対象物体の三次元位置を表す情報であればどのような形態でも構わない。例えば、三次元モデルは、ポイントクラウド、ボクセル、メッシュ、ポリゴン、又は深度情報などの形態であってもよい。
(実施の形態6)
本実施の形態では、三次元空間再構成装置115Cは、三次元モデルから1つ以上のデプス画像を生成し、生成したデプス画像を圧縮して映像表示端末117Cに配信する。映像表示端末117Cは、受信したデプス画像から三次元モデルを復元する。このように、デプス画像を効率的に圧縮して配信することで、配信時のネットワーク帯域を抑制できる。
図19は、本実施の形態に係る自由視点映像生成システム107の構成を示すブロック図である。図19に示す自由視点映像生成システム107は、図17に示す自由視点映像生成システム105に対して、三次元空間再構成装置115C、データ転送装置119C及び映像表示端末117Cの構成が異なる。三次元空間再構成装置115Cは、三次元空間再構成装置115Aの構成に加え、第1デプス画像生成部136と、第2デプス画像生成部137と、第3デプス画像生成部138とを備える。映像表示端末117Cは、映像表示端末117Aの構成に加え、モデル復元部156を備える。
三次元空間再構成装置115Cは、三次元モデルを配信する代わりに、作成した三次元モデルから1つ以上のデプス画像(距離画像)を生成する。データ転送装置119Cは、生成された1つ以上のデプス画像を映像表示端末117Cに配信する。この場合、映像表示端末117Cは、1つ以上のデプス画像を受信して三次元モデルを復元(生成)し、復元した三次元モデルと、受信した撮影画像とを用いてレンダリング画像を生成する。
図20は、自由視点映像生成システム107の動作を示すフローチャートである。図20に示す処理は、図12に示す処理に対して、ステップS107Cの代わりにステップS121~S123を含む。
ステップS101及びS103は、実施の形態5と同様あり、第1モデル生成部133、第2モデル生成部134及び第3モデル生成部135により第1モデル、第2モデル及び第3モデルが生成される。
次に、第1デプス画像生成部136は第1モデルから1つ以上の第1デプス画像を生成し、第2デプス画像生成部137は第2モデルから1つ以上の第2デプス画像を生成し、第3デプス画像生成部138は第3モデルから1つ以上の第3デプス画像を生成する(S121)。
次にデータ転送装置119Cは、生成された第1デプス画像、第2デプス画像及び第3デプス画像に、二次元の画像圧縮処理等を行うことでこれらのデプス画像のデータ量を削減する。そして、データ転送装置119Cは、圧縮後の第1デプス画像、第2デプス画像及び第3デプス画像を映像表示端末117Cへ配信する(S122)。
次に、映像表示端末117Cのモデル復元部156は、受信した第1デプス画像、第2デプス画像及び第3デプス画像を復号し、第1デプス画像を用いて第1モデルを復元(生成)し、第2デプス画像を用いて第2モデルを復元(生成)し、第3デプス画像を用いて第3モデルを復元(生成)する(S123)。
そして、実施の形態5と同様に、視点決定部151は、ユーザが見たい視点を決定する(S105C)。レンダリング部152は、復元した第1~第3モデルと、受信した撮影画像とを用いて、決定された視点から見た画像であるレンダリング画像を生成する(S106C)。映像表示部153は、レンダリング画像を表示する(S108C)。
このように、データ転送装置119Cは、三次元モデルを配信する代わりに、二次元画像であるデプス画像を配信する。これにより、データ転送装置119Cは、H.264又はH.265といった標準的な画像圧縮方式を用いてデプス画像を圧縮したうえで送信できるので、データ転送量を抑制できる。
なお、第1~第3モデルは、点群(ポイントクラウド)、メッシュ、又はポリゴンで構成されてもよい。
また、ここでは、実施の形態5と同様に、第1~第3モデルが生成される場合を例に説明を行ったが、実施の形態1~4と同様に、前景モデル及び背景モデルが生成される場合にも同様の手法を適用できる。また、一つの三次元モデルを生成する場合にも同様の手法を適用できる。
また、ここでは、自由視点映像生成システムを例に説明したが、次世代監視システムに対しても同様の手法を適用できる。
また、三次元空間再構成装置115Cは、デプス画像に加え、デプス画像に対応するカメラパラメータを配信してもよい。例えば、このカメラパラメータはデプス画像の視点におけるカメラパラメータである。カメラパラメータは、カメラの焦点距離、及び画像中心等を示す内部パラメータと、カメラの姿勢(三次元位置及び向き)等を示す外部パラメータとを含む。三次元空間再構成装置115Cは、このカメラパラメータを用いて三次元モデルからデプス画像を生成する。
なお、送信される情報はカメラパラメータに限らず、三次元モデルからデプス画像を生成する際に使用されたパラメータであればよい。つまり、当該パラメータは、三次元モデルを所定の視点(デプス画像の視点)撮像面に投影するパラメータであればよい。例えば、当該パラメータは、カメラパラメータを用いて算出された投影行列であってもよい。
また、映像表示端末117Cは、1つ以上のデプス画像の各画素を、受信したカメラパラメータを用いて三次元空間に投影することで三次元モデルを生成する。
また、三次元空間再構成装置115Cは、三次元モデルを各撮像装置121の撮像面と同一平面に投影した複数のデプス画像を生成してもよい。これにより、撮影画像とデプス画像の視点位置が同じになる。よって、例えば、データ転送装置119Cが、多視点映像撮像装置111の複数視点の撮影画像をH.264又はH.265の拡張規格であるマルチビュー符号化で圧縮する場合に、デプス画像を用いて撮影画像間の視差情報を算出し、視差情報を用いて視点間の予測画像を生成することができる。これにより、撮影画像の符号量を削減できる。
また、三次元空間再構成装置115Cは、三次元モデルを撮像装置121の視点とは別のある視点の撮像面と同一平面に投影してデプス画像を生成してもよい。つまり、デプス画像の視点は、撮影画像の視点と異なってもよい。例えば、三次元空間再構成装置115Cは、映像表示端末117Cが三次元モデルを復元しやすい視点位置に三次元モデルを投影することでデプス画像を生成する。これにより、映像表示端末117Cはエラーの少ない三次元モデルを生成することが可能となる。また、映像表示端末117Cが三次元モデルを復元しやすい視点とは、例えば、より多くの対象物が映る視点である。
また、データ転送装置119Cは、デプス画像を圧縮して送信してもよい。例えば、データ転送装置119Cは、H.264、又はH.265等の二次元画像圧縮方式を用いてデプス画像を圧縮(符号化)してもよい。また、データ転送装置119Cは、マルチビュー符号化方式のように、異なる視点のデプス画像間の依存関係を用いて圧縮を行ってもよい。例えば、データ転送装置119Cは、カメラパラメータから算出された視差情報を利用して視点間の予測画像を生成してもよい。
また、三次元空間再構成装置115Cは、デプス画像の各画素の値を表現するビット長を、三次元空間再構成装置115Cで生成する三次元モデルと、映像表示端末117Cで復元する三次元モデルの誤差がある一定値以下になるように決定してもよい。例えば、三次元空間再構成装置115Cは、デプス画像のビット長を、被写体までの距離が近い場合は第1ビット長(例えば8ビット)に設定し、被写体までの距離が遠い場合は第1ビット長より長い第2ビット長(例えば16ビット)に設定してもよい。または、三次元空間再構成装置115Cは、被写体までの距離に応じて適応的にビット長を切り替えてもよい。例えば、三次元空間再構成装置115Cは、被写体までの距離が遠いほどビット長を短くしてもよい。
このように、三次元空間再構成装置115Cは、配信するデプス画像のビット長を、映像表示端末117Cで復元される三次元モデルの誤差に応じて制御する。これにより、映像表示端末117Cで復元される三次元モデルの誤差を許容範囲に抑えつつ、配信するデプス画像の情報量削減によってネットワーク負荷を削減することが可能となる。例えば、デプス画像のビット長を8ビットにすると、ビット長を16ビットにした場合と比較し、映像表示端末117Cで復元される三次元モデルの誤差は増加する一方、配信するネットワーク負荷を削減することができる。
また、三次元モデルを構成する各点群に色情報が付属している場合、三次元空間再構成装置115Cは、各点群と色情報とを1つ以上の視点の撮像面と同一平面に投影することで、デプス画像と色情報を含むテクスチャ画像とを生成してもよい。この場合、データ転送装置119Cは、デプス画像とテクスチャ画像とを圧縮して配信してもよい。また、映像表示端末117Cは、圧縮されたデプス画像とテクスチャ画像とを復号し、得られた1つ以上のデプス画像とテクスチャ画像とを用いて、三次元モデルと、三次元モデルに含まれる点群の色情報とを生成する。そして、映像表示端末117Cは、生成された三次元モデルと色情報とを用いてレンダリング画像を生成する。
なお、デプス画像とテクスチャ画像との圧縮は、データ転送装置119Cで行われてもよいし、三次元空間再構成装置115Cで行われてもよい。
三次元空間再構成装置115C又はデータ転送装置119Cは、撮影画像から背景画像を差引くことで生成される、上述した背景差分画像を配信してもよい。この場合、映像表示端末117Cは、背景差分画像を用いて三次元モデルを生成し、生成された三次元モデルを用いてレンダリング画像を生成してもよい。
三次元空間再構成装置115C又はデータ転送装置119Cは、各モデルが三次元空間上のどの位置にあるかを示す位置情報を配信してもよい。これにより、映像表示端末117Cは、各モデルを生成した後に、受信した位置情報を用いて各モデルを簡単に統合できる。例えば、三次元空間再構成装置115Cは、モデル生成時に三次元空間上で点群等を検出することで各モデルの位置情報を算出する。また、三次元空間再構成装置115Cは、二次元の撮影画像上で予め選手等の特定の被写体を検出し、複数の撮影画像と被写体検出情報とを用いて被写体(モデル)の三次元位置を特定してもよい。
デプス画像は、ある視点から被写体までの距離を表す二次元画像情報であり、デプス画像の各画素には、各画素に投影された三次元モデルの点群までの距離情報を表す値が格納される。なお、デプスを表す情報は必ずしも画像である必要はなく、三次元モデルを構成する各点群までの距離情報を表すものであれば、どのようなものでも構わない。
また、上記説明では、三次元空間再構成装置115Cは、背景差分画像等から一旦三次元モデルを生成し、その三次元モデルを各視点に投影することでデプス画像を生成する例を示したが、必ずしもこれには限らない。例えば、三次元空間再構成装置115Cは、LIDAR等を用いて画像以外から三次元モデルを生成し、その三次元モデルからデプス画像を生成してもよい。また、三次元空間再構成装置115Cは、例えば、予め生成された三次元モデルを外部から取得し、取得した三次元モデルからデプス画像を生成してもよい。
また、三次元空間再構成装置115Cは、デプス画像におけるビット長をモデル毎に異なる値に設定してもよい。例えば、三次元空間再構成装置115Cは、第1デプス画像と第2デプス画像とのビット長をそれぞれ異なる値に設定してもよい。また、データ転送装置119Cは、第1デプス画像と第2デプス画像とのそれぞれのビット長を示す情報を、映像表示端末117Cに配信してもよい。例えば、第1モデルが前景モデルであり、第2モデルが背景モデルである場合、三次元空間再構成装置115Cは、より高精細なモデル精度を必要とする前景モデルの第1デプス画像のビット長を16ビットに設定し、粗いモデル精度で問題のない背景モデルの第2デプス画像のビット長を8ビットに設定する。これにより、配信するデプス画像の情報量を抑制しつつ、前景モデルなど映像表示端末117Cで高精度なモデルの復元が必要となる部分のデプス画像に優先的にビット長を割り当てることができる。
また、データ転送装置119Cは、高精度が求められるモデルのデプス画像を映像表示端末117Cに配信し、高精度が求められないモデルのデプス画像を映像表示端末117Cに配信しなくてもよい。例えば、データ転送装置119Cは、前景モデルの第1デプス画像を映像表示端末117Cに配信し、背景モデルの第2デプス画像を映像表示端末117Cに配信しない。この場合、映像表示端末117Cは、予め準備しておいた背景モデルを用いる。これにより配信されるデプス画像の情報量を削減でき、ネットワーク負荷を抑制することができる。
また、映像表示端末117Cが、配信されたデプス画像から復元した三次元モデルを使用するか、予め準備しておいた三次元モデルを使用するかどうかを判断してもよい。例えば、映像表示端末117Cが高性能な処理能力を持つ端末である場合は、映像表示端末117Cは、配信された前景モデルのデプス画像と背景モデルのデプス画像とからそれぞれの三次元モデルを復元し、得られた三次元モデルをレンダリングに使用することで、前景と背景とが共に高品質なレンダリング画像を生成できる。一方、映像表示端末117Cがスマートフォン端末のように処理能力が低く消費電力等を抑制する必要がある端末の場合には、映像表示端末117Cは、前景モデルを配信されたデプス画像から復元し、背景モデルとして配信されたデプス画像を使用せずに予め準備された背景モデルを使用する。これにより、処理量を抑えつつ、前景が高品質なレンダリング画像を生成できる。このように、映像表示端末117Cの処理能力に応じて使用する三次元モデルを切り替えることにより、レンダリング画像の品質と処理量低減による消費電力のバランスをとることが可能となる。
以下、三次元モデルの生成及び復元方法の具体例を説明する。図21は、三次元モデルとして背景モデルを生成及び復元する処理を説明するための図である。
まず、三次元空間再構成装置115Cは、背景画像から背景モデルを生成する(S101、S103)。なお、この処理の詳細は、例えば、図7に示すステップS111と同様である。
次に、三次元空間再構成装置115Cは、背景モデルの点群から視点Aのデプス画像を生成する(S121)。具体的には、三次元空間再構成装置115Cは、視点Aのカメラパラメータを用いて投影行列Aを算出する。次に、三次元空間再構成装置115Cは、背景モデルの点群を、投影行列Aを用いて視点Aの投影面に投影することでデプス画像(距離画像)を作成する。
この際、複数の点群がデプス画像における同一画素に投影される場合がある。この場合、例えば、三次元空間再構成装置115Cは、最も視点Aの投影面に距離が近い値をデプス画像の画素値として用いる。これにより、視点Aからは被写体の影になって見えない被写体のデプス値が混入することを防ぐことができるので、正しくデプス画像を生成できる。
また、データ転送装置119Cは、生成されたデプス画像を配信する(S122)。この際に、データ転送装置119Cは、H.264又はH.265などの標準的な二次元画像圧縮をデプス画像に適用することでデータ量を削減する。または、データ転送装置119Cは、視点間の視差を利用したマルチビュー符号化方式を用いてデプス画像を圧縮してもよい。
また、データ転送装置119Cは、三次元モデルからデプス画像を生成する際に用いられたカメラパラメータをデプス画像と合わせて配信する。なお、データ転送装置119Cは、カメラパラメータの代わりに、又は、カメラパラメータに加えて、カメラパラメータを用いて算出された上記投影行列Aを配信してもよい。
次に、映像表示端末117Cは、複数視点のデプス画像を三次元空間に投影することで、背景モデルの点群を復元する(S123)。このとき、映像表示端末117Cは、復元した各点群と各視点が幾何学的な位置関係上、問題がないかを確認し、必要に応じて点群の位置を再調整してもよい。例えば、映像表示端末117Cは、視点間の画像を用いて特徴点のマッチングを行い、マッチングした各特徴点に対応する各点群が三次元空間上で一致するように各点群の位置を調整する。これにより、映像表示端末117Cは、高精度に三次元モデルを復元できる。
なお、ここでは背景モデルを生成及び復元する例を説明したが、前景モデルなど他のモデルにも同様の手法を適用できる。
次に、デプス画像の例を説明する。図22は、デプス画像の一例を示す図である。デプス画像の各画素は、被写体までの距離情報を表す。例えば、デプス画像は、8ビット長のモノクロ画像で表現される。この場合、視点Aに距離が近いほど明るい値(255に近い値)が割り当てられ、視点Aに距離が遠いほど暗い値(0に近い値)が割り当てられる。図22に示す例の場合は、被写体Aは視点Aに近いため明るい値が割り当てられ、被写体Bは視点Aから遠いためより暗い値が割り当てられる。背景は被写体Bより更に遠いため、被写体Bより暗い値が割り当てられる。
なお、デプス画像において、視点Aに距離が遠いほど明るい値(255に近い値)が割り当てられ、視点Aに距離が近いほど暗い値(0に近い値)が割り当てられてもよい。また、図22に示す例では被写体までの距離情報をデプス画像で表現したが、送信される情報は、必ずしもこれには限らず、被写体までの距離が表現できるものであれば、どのような形式でも構わない。例えば、被写体A及びBまでの距離情報は、画像ではなくテキスト情報等で表現されてもよい。また、ここではデプス画像のビット長を8ビットとしたが、ビット長は、必ずしもこれに限らず、8ビットより大きい値又は小さい値が用いられてもよい。8ビットより大きい値、例えば16ビットが用いられる場合、被写体までの距離情報をより細かく再現できるため、映像表示端末117Cにおける三次元モデルの復元精度を向上できる。よって、映像表示端末117Cにおいて、三次元空間再構成装置115Cで生成した三次元モデルに近い三次元モデルを復元できる。一方で、配信するデプス画像の情報量が増加することで、ネットワーク負荷は増加する。
逆に8ビットより小さい値、例えば4ビットが用いられる場合、被写体までの距離情報が粗くなるため、映像表示端末117Cにおける三次元モデルの復元精度が低下する。これにより、復元された三次元モデルと、三次元空間再構成装置115Cで生成した三次元モデルとの誤差は増える。一方で、配信するデプス画像の情報量を削減できるため、ネットワーク負荷を抑制できる。
三次元空間再構成装置115Cは、このようなデプス画像のビット長を、対象とするアプリケーションにおいて映像表示端末117Cで高精度な三次元モデルが必要かどうかに基づき決定してもよい。例えば、三次元空間再構成装置115Cは、対象とするアプリケーションがレンダリング後の映像の品質に拘らないものであれば、デプス画像のビット長を小さくし、配信するネットワーク負荷抑制を優先する。また、三次元空間再構成装置115Cは、対象とするアプリケーションが映像の品質に拘るものであれば、デプス画像のビット長を大きくし、配信するネットワークの負荷は増えてもレンダリング後の画像の高画質化を優先する。
また、三次元空間再構成装置115Cは、配信するネットワークの負荷に応じてデプス画像のビット長を適応的に切り替えてもよい。例えばネットワーク負荷が高い場合には、三次元空間再構成装置115Cは、ビット長を小さく設定することで三次元モデルの精度を落としつつネットワーク負荷を抑制する。また、三次元空間再構成装置115Cは、ネットワーク負荷が低い場合には、ビット長を大きくすることでより詳細な三次元モデルを映像表示端末117Cで生成できるようにする。なお、この際、三次元空間再構成装置115Cは、デプス画像のビット長に関する情報をヘッダ情報等に格納し、デプス画像と合わせて映像表示端末117Cに配信してもよい。これにより、映像表示端末117Cにデプス画像のビット長を通知できる。また、三次元空間再構成装置115Cは、デプス画像のビット長の情報を、デプス画像毎に付加してもよいし、ビット長が変化した場合に付加してもよいし、ある周期毎、例えばランダムアクセスポイント毎に付加してもよいし、最初のデプス画像にのみ付加してもよいし、その他のタイミングで配信してもよい。
次に、デプス画像における画素値の割り当ての例を説明する。図23A、図23B及び図23Cは、デプス画像における画像値の割り当ての第1~第3の例を示す図である。
図23Aに示す第1の割り当て方法では、ビット長が8ビットのデプス画像の画素値(デプス画素値)に、距離に応じて線形に値が割り当てられる。
図23Bに示す第2の割り当て方法では、ビット長が8ビットのデプス画像の画素値に、距離が近い被写体に優先的に値が割り当てられる。これにより、距離が近い被写体の距離分解能を高めることができる。よって、前景モデルのデプス画像に第2の割り当て方法を用いることにより、前景モデルの精度を高めることが可能となる。三次元空間再構成装置115Cは、この第2の割り当て方法の情報(つまり、どの画素値がどの距離に対応するかを示す情報)をヘッダ情報等に含めて配信してもよい。または、当該情報が規格等で予め決定され、送信側及び受信側で同じ情報が用いられてもよい。
図23Cに示す第3の割り当て方法では、ビット長が8ビットのデプス画像の画素値に、距離が遠い被写体に優先的に値が割り当てられる。これにより、距離が遠い被写体の距離分解能を高めることができる。よって、背景モデルのデプス画像に第3の割り当て方法を用いることにより、背景モデルの精度を高めることが可能となる。三次元空間再構成装置115Cは、この第3の割り当て方法の情報(つまり、どの画素値がどの距離に対応するかを示す情報)をヘッダ情報等に含めて配信してもよい。または、当該情報が規格等で予め決定され、送信側及び受信側で同じ情報が用いられてもよい。
また、三次元空間再構成装置115Cは、上記割り当て方法を、モデル毎に切り替えてもよい。例えば、三次元空間再構成装置115Cは、前景モデルには第2の割り当て方法を適用し、背景モデルには第3の割り当て方法を適用してもよい。
この際、三次元空間再構成装置115Cは、第1~第3の割り当て方法のうち、どの割り当て方法を用いるかを、配信するモデル毎のヘッダ情報等に付加してもよい。または、どのモデルにどの割り当て方法が適用されるかが規格等で予め決定されていてもよい。
また、三次元空間再構成装置115Cは、予め規格で定められた複数の割り当て方法のうち、どの方法が用いられるかを示す情報をヘッダ情報等に付加してもよい。
以上のように、三次元空間再構成装置115C又はデータ転送装置119Cは、三次元モデルからデプス画像を生成し、デプス画像と、デプス画像から三次元モデルを復元するための情報とを映像表示端末117Cに配信する。
また、映像表示端末117Cは、三次元モデルから生成されたデプス画像と、デプス画像から三次元モデルを復元するための情報とを受信し、当該情報を用いてデプス画像から三次元モデルを復元する。
このように、三次元モデルをそのまま配信するのではなく、三次元モデルから生成されたデプス画像を配信することで、配信されるデータ量を抑制できる。
また、三次元空間再構成装置115Cは、前記デプス画像の生成では、三次元モデルを所定の視点の撮像面に投影することでデプス画像を生成する。例えば、デプス画像から三次元モデルを復元するための情報は、三次元モデルを所定の視点の撮像面に投影するパラメータを含む。
例えば、デプス画像から三次元モデルを復元するための情報は、カメラパラメータである。つまり、三次元空間再構成装置115Cは、デプス画像の生成では、所定の視点のカメラパラメータを用いて、三次元モデルを当該視点の撮像面に投影することでデプス画像を生成し、前記情報は、前記カメラパラメータを含む。
また、前記情報は、三次元モデルをデプス画像の撮像面に投影するパラメータを含み、映像表示端末117Cは、前記復元では、パラメータを用いてデプス画像から三次元モデルを復元する。
例えば、前記情報は、デプス画像の視点のカメラパラメータを含み、映像表示端末117Cは、前記復元では、カメラパラメータを用いてデプス画像から三次元モデルを復元する。
または、デプス画像から三次元モデルを復元するための情報は、投影行列であってもよい。つまり、三次元空間再構成装置115Cは、デプス画像の生成では、所定の視点のカメラパラメータを用いて投影行列を算出し、当該投影行列を用いて三次元モデルを当該視点の撮像面に投影することでデプス画像を生成し、前記情報は、前記投影行列を含む。
また、前記情報は、投影行列を含み、映像表示端末117Cは、前記復元では、投影行列を用いてデプス画像から三次元モデルを復元する。
例えば、三次元空間再構成装置115Cは、さらに、デプス画像を、二次元画像圧縮方式を用いて圧縮し、前記配信では、圧縮されたデプス画像を配信する。
また、デプス画像は二次元画像圧縮方式を用いて圧縮されており、映像表示端末117Cは、さらに、圧縮されているデプス画像を復号する。
これにより、三次元モデルの配信において、二次元画像圧縮方式を用いてデータを圧縮することができる。よって、新たに三次元モデル用の圧縮方式を構築する必要がないので、容易にデータ量を削減できる。
例えば、三次元空間再構成装置115Cは、前記デプス画像の生成では、三次元モデルから、異なる視点の複数のデプス画像を生成し、前記圧縮では、複数のデプス画像間の関係を用いて、複数のデプス画像を圧縮する。
また、映像表示端末117Cは、前記受信では、複数のデプス画像を受信し、前記復号では、複数のデプス画像間の関係を用いて、複数のデプス画像を復号する。
これにより、例えば、二次元画像圧縮方式におけるマルチビュー符号化方式等を用いて、複数のデプス画像のデータ量をさらに削減できる。
例えば、三次元空間再構成装置115Cは、さらに、複数の撮像装置121で撮影された複数の画像を用いて三次元モデルを生成し、複数の画像を映像表示端末117Cに配信し、デプス画像の視点は、前記複数の画像のいずれかの視点である。
また、映像表示端末117Cは、さらに、複数の画像を受信し、三次元モデルと、複数の画像とを用いてレンダリング画像を生成し、デプス画像の視点は、複数の画像のいずれかの視点である。
このように、デプス画像の視点を撮影画像の視点と一致されることで、三次元空間再構成装置115Cは、例えば、撮影画像をマルチビュー符号化で圧縮する場合に、デプス画像を用いて撮影画像間の視差情報を算出し、視差情報を用いて視点間の予測画像を生成することができる。これにより、撮影画像の符号量を削減できる。
例えば、三次元空間再構成装置115Cは、さらに、デプス画像に含まれる各画素のビット長を決定し、ビット長を示す情報を配信する。
また、映像表示端末117Cは、さらに、デプス画像に含まれる各画素のビット長を示す情報を受信する。
これによれば、被写体又は使用目的等に応じてビット長を切り替えることができるので、適切にデータ量を削減できる。
例えば、三次元空間再構成装置115Cは、前記ビット長の決定では、ビット長を被写体までの距離に応じて決定する。
例えば、三次元空間再構成装置115Cは、さらに、デプス画像で示さる画素値と距離との関係を決定し、決定された関係を示す情報を映像表示端末117Cに配信する。
また、映像表示端末117Cは、さらに、デプス画像で示さる画素値と距離との関係を示す情報を受信する。
これによれば、被写体又は使用目的等に応じて画素値と距離との関係を切り替えることができるので、復元される三次元モデルの精度を向上できる。
例えば、三次元モデルは、第1モデル(例えば前景モデル)と、第1モデルより時間当たりの変化が小さい第2モデル(例えば背景モデル)とを含む。デプス画像は、第1デプス画像と、第2デプス画像とを含む。三次元空間再構成装置115Cは、前記デプス画像の生成では、第1モデルから第1デプス画像を生成し、第2モデルから第2デプス画像を生成し、前記関係の決定では、第1デプス画像で示される画素値と距離との第1の関係と、第2デプス画像で示される画素値と距離との第2の関係とを決定する。第1の関係では、第1距離範囲(距離が近い領域)における距離分解能は、前記第1距離範囲より遠い第2距離範囲(距離が遠い領域)における距離分解能より高い(図23B)。第2の関係では、第1距離範囲(距離が近い領域)における距離分解能は、第2距離範囲(距離が遠い領域)における距離分解能より低い(図23C)。
例えば、三次元モデルには色情報が付加されている。三次元空間再構成装置115Cは、さらに、三次元モデルからテクスチャ画像を生成し、テクスチャ画像を、二次元画像圧縮方式を用いて圧縮し、配信では、さらに、圧縮されたテクスチャ画像を配信する。
また、映像表示端末117Cは、さらに、二次元画像圧縮方式を用いて圧縮されているテクスチャ画像を受信し、圧縮されているテクスチャ画像を復号し、前記復元では、復号されたデプス画像及び復号されたテクスチャ画像を用いて、色情報が付加された三次元モデルを復元する。
(実施の形態7)
本実施の形態では、三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法について説明する。
図24は、三次元データを符号化する三次元データ符号化方法の概略を示す図である。
三次元点群(三次元ポイントクラウドまたは三次元モデル)などのような三次元データ200を符号化する三次元符号化方法では、三次元データ200が二次元平面に投影されることで得られた二次元画像201に、画像符号化または動画像符号化のような二次元圧縮が適用される。投影により得られた二次元画像201には、テクスチャまたは色を示すテクスチャ情報202、および、投影方向における三次元点群までの距離を示すデプス情報(距離情報)203が含まれる。
このような、投影により得られた二次元画像には、オクルージョン領域により、テクスチャ情報またはデプス情報がないホール領域(hole area)が含まれる可能性がある。ホール領域とは、三次元データを二次元平面に投影して得られた二次元画像を構成する複数の画素のうち、三次元データが投影されなかった画素、または、三次元データが投影されなかった画素の集合を示す。このようなホール領域は、投影により得られた二次元画像に不連続、鋭いエッジなどを生じさせる。このような不連続、鋭いエッジなどを含む二次元画像は、高い空間周波数成分が大きくなるため、符号化するために高いビットレートとなってしまう。そこで、符号化効率を向上させるために、ホール領域の周りの鋭いエッジを最小限に抑えることが必要となる。
例えば、ホール領域の周りに鋭いエッジが発生しないように、ホール領域の画素値を変更する補正を行うことが考えられる。次に、ホール領域の画素値を変更する補正について説明する。
図25Aは、ホール領域を含む二次元画像の一例を示す図である。図25Bは、ホール領域が補正された補正画像の一例を示す図である。
図25Aに示す二次元画像210は、三次元データが所定の二次元平面に投影されることで得られた二次元画像である。二次元画像210には、三次元データが投影されていない無効領域であるホール領域214、215が含まれる。また、二次元画像210には、三次元データが投影されている有効領域であるテクスチャ領域211、212、213が含まれる。
このような二次元画像210の符号化効率を向上させるために、上述したように、ホール領域214、215を別の画素値を用いて適切に充填する必要がある。符号化効率を向上させるためには、例えば、ホール領域214、215と、テクスチャ領域211、212、213との間のテクスチャ(またはデプス)の不連続を最小限に抑える必要がある。本開示の一態様に係る三次元モデル符号化方法では、ホール領域214、215をテクスチャ領域211~213の画素の画素値を用いて補間することで、ホール領域214、215とテクスチャ領域211、212、213との差を小さくし、これらの複数の領域211~215間の鋭いエッジを最小にする補正が行われる。ホール領域214、215の補正には、例えば、線形補間および非線形補間の少なくとも一方を用いることができる。
このような補正には、線形補間、非線形補間として、1次元フィルタが用いられてもよいし、2次元フィルタが用いられてもよい。
補正では、例えば、二次元画像210においてテクスチャ領域211~213のいずれかにおけるホール領域214、215との境界上における画素値(第一画素値)を、当該ホール領域214、215の画素の画素値に割り当てる(変更する)ことで、ホール領域214、215を補間してもよい。このように、補正では、無効領域を構成する1以上の画素を補正する。補正では、無効領域に隣接する、有効領域の1つである第一有効領域における第一画素の第一画素値を用いて、無効領域を補正してもよい。また、補正では、二次元画像上において、無効領域を挟んで第一有効領域とは反対側の有効領域である第二有効領域における第二画素の第二画素値をさらに用いて、無効領域を補正してもよい。例えば、第一画素は、第一有効領域において無効領域に隣接する画素であってもよい。同様に、第二画素は、第二有効領域において無効領域に隣接する画素であってもよい。
これにより、図25Bに示すように、画素値がテクスチャ領域211~213における画素(例えば、画素226)の画素値に変更されたホール領域224、225を有する二次元画像220が生成される。二次元画像220は、補正画像の一例である。
ホール領域214、215に割り当てるための画素値は、複数のテクスチャ領域211~213のうちの、当該ホール領域214、215と隣接する境界上の画素を最も多く有するテクスチャ領域における当該境界上の画素の画素値に決定してもよい。例えば、ホール領域が複数のテクスチャ領域に囲まれている領域である場合、複数のテクスチャ領域にそれぞれ対応する複数の境界線のうち、最も長い境界線に対応するテクスチャ領域における画素の画素値で、当該ホール領域を構成する複数の画素の画素値を置き換えてもよい。なお、ホール領域を補間するためにホール領域には、当該ホール領域と隣接するテクスチャ領域における画素の画素値をそのまま適用することに限らずに、当該テクスチャにおけるホール領域との境界上の複数の画素の画素値の平均値または中間値を適用してもよい。
また、ホール領域の値をテクスチャ領域に近い値に設定できれば上記で示した手法に限らずに、どのような手法を用いても構わない。例えば、テクスチャ領域を構成する複数の画素全ての画素値の平均値または中間値を、ホール領域を構成する複数の画素の画素値として決定してもよい。
図26Aおよび図26Bは、線形補間によるホール領域の補正の例を示す図である。図26Aおよび図26Bでは、縦軸が画素値を示し、横軸が画素の位置を示している。図26Aおよび図26Bは、一次元的な例を示しているが、二次元に適用してもよい。画素値は、例えば、輝度値、色差値、RGB値、デプス値などである。
線形補間は、ホール領域に隣接する2つのテクスチャ領域A、Bそれぞれの第一画素および第二画素を用いて無効領域を補正する補正方法の一つである。ここで、ホール領域は、無効領域の一例であり、テクスチャ領域Aは、第一有効領域の一例であり、テクスチャ領域Bは、第二有効領域の一例である。
線形補間による補正では、テクスチャ領域Aにおける第一画素P1の第一画素値V1と、テクスチャ領域Bにおける第二画素P2の第二画素値V2とを用いて、第一画素P1からホール領域を跨いで第二画素P2までの間の複数の画素それぞれの画素値を、当該複数の画素それぞれの位置および画素値の関係において、第一画素値V1から第二画素値V2まで線形に変化させた関係を満たす画素値に変更することで、ホール領域を補正する。つまり、線形補間による補正では、テクスチャ領域Aおよびテクスチャ領域Bの間のホール領域を構成する複数の画素にそれぞれ対応する複数の画素値を、各画素の位置および画素値の関係において、第一画素P1の位置および第一画素値V1で示される第一の点と、第二画素P2の位置および第二画素値V2で示される第二の点とを直線で結んだ場合に、当該複数の画素それぞれの位置に対応する上記直線上の点で特定される画素値に変更する。
なお、線形補間による補正では、図26Bに示すように、第一画素P11の第一画素値V11と第二画素P12の第二画素値V12との差ΔV2が所定値より大きい場合のように、ホール領域を第一画素値V11および第二画素値V12で置き換えても、テクスチャ領域A、Bとホール領域との間に不連続が残り、ホール領域の周囲に高い空間周波数成分が含まれることとなるため、符号化効率がそれほど向上しない場合がある。このため、例えば、図27Aおよび図27Bに示すような非線形補間による補正を行ってもよい。これにより、テクスチャ領域A、Bとホール領域との間の不連続を低減することができる。
図27Aおよび図27Bは、非線形補間によるホール領域の補正の例を示す図である。図27Aおよび図27Bでは、縦軸が画素値を示し、横軸が画素の位置を示している。図27Aおよび図27Bは、一次元的な例を示しているが、二次元に適用してもよい。
非線形補間による補正では、テクスチャ領域Aにおける第一画素P1の第一画素値V1と、テクスチャ領域Bにおける第二画素P2の第二画素値V2とを用いて、第一画素P1からホール領域を跨いで第二画素P2までの間の複数の画素それぞれの画素値を、当該複数の画素それぞれの位置および画素値の関係において、第一画素値V1から第二画素値V2まで滑らかな曲線で変化させた関係を満たす画素値に変更することで、ホール領域を補正する。ここで、滑らかな曲線とは、テクスチャ領域Aの位置において画素値が第一画素値V1である第一直線と第一画素P1の位置で滑らかに接続され、かつ、テクスチャ領域Bの位置において画素値が第二画素値V2である第二直線と第二画素P2の位置で滑らかに接続される曲線である。例えば、滑らかな曲線は、2つの変曲点を有し、第一画素値V1から第二画素値V2に向かって画素値が画素の位置に応じて単調変化する曲線である。例えば、図27Aに示すように、第一画素値V1が第二画素値V2よりも大きい値の場合、滑らかな曲線は、第一画素値V1から第二画素値V2に向かって画素値が位置に応じて単調減少する曲線である。
非線形補間による補正では、図26Bに対応するテクスチャ領域A、Bおよびホール領域の場合であっても、図27Bに示すように、第一画素P11の第一画素値V11と第二画素P12の第二画素値V12との差ΔV2が所定値より大きい場合であっても、ホール領域を構成する複数の画素の画素値が滑らかな曲線に対応する画素値に置き換わるため、テクスチャ領域A、Bとホール領域との間の不連続を効果的に低減することができる。このため、符号化効率を向上させることができる。
また、図26A~図27Bを用いて説明した、上記の補正方法に限らずに、他の補正方法を用いて補正してもよい。
図28A~図28Fは、他の補正の例を示す図である。
図28Aで示す補正のように、テクスチャ領域Aおよびテクスチャ領域Bの間のホール領域を構成する複数の画素にそれぞれ対応する複数の画素値を、テクスチャ領域Aの第一画素P21の第一画素値V21からテクスチャ領域Bの第二画素P22の第二画素値V22まで段階的に変化させた画素値でホール領域を補正してもよい。
図28Bで示す補正のように、テクスチャ領域Aおよびテクスチャ領域Bの間のホール領域を構成する複数の画素にそれぞれ対応する複数の画素値を、テクスチャ領域Aまたはテクスチャ領域Bのホール領域との境界上における画素値でホール領域を補正してもよい。これにより、ホール領域を構成する複数の画素の画素値の全ては、テクスチャ領域Aまたはテクスチャ領域Bにおける画素の画素値に統一される。この補正では、例えば、ホール領域を構成する複数の画素の全ての画素値を、テクスチャ領域Aのホール領域との境界上の第一画素P31の第一画素値V31とすることで、ホール領域を補正する。
ここで、図28Cは、図28Bの補正を二次元画像で表現した例を示す図である。図28Cの(a)に示すように、テクスチャ領域Aのホール領域との境界上の第一画素P31a~P31eがそれぞれ画素値A~Eを有する場合、ホール領域の各画素は、図28Cの(b)に示すように、垂直方向において当該画素と同じ位置に位置する第一画素の第一画素値が割り当てられることで、補正される。つまり、補正では、第一画素P31aの画素値Aは、第一画素P31aの水平方向側に位置するホール領域の画素に割り当てられる。同様に、補正では、第一画素P31b~P31eの画素値B~Eは、それぞれ、第一画素P31b~P31eそれぞれの水平方向側に位置するホール領域の画素に割り当てられる。
なお、図28Cでは、垂直方向を水平方向に、水平方向を垂直方向に読み替えてもよい。つまり、ホール領域の各画素は、図28Cの(b)に示すように、第一方向において同じ位置に位置する第一画素の第一画素値が割り当てられることで、補正される。言い換えると、補正では、第一画素の画素値は、第一画素の第一方向に直交する第二方向側に位置するホール領域の画素に割り当てられる。
また、図28B以外の図26A~図27B、図28A、図28D~図28Fの方法においても、垂直方向において同じ位置に位置する第一画素の第一画素値を基準として各方法において算出された画素値が割り当てられることで、補正される。
図28Dで示す補正のように、二次元符号化における複数の符号化ブロックの境界がホール領域上にある場合、ホール領域のうち符号化ブロックの境界よりもテクスチャ領域A側の領域に、テクスチャ領域Aのホール領域との境界上における画素値で補正する。つまり、この補正では、第一画素P41から境界までの間の複数の第一無効画素を第一画素値V41に変更する。また、ホール領域のうち符号化ブロックの境界よりもテクスチャ領域B側の領域に、テクスチャ領域Bのホール領域との境界上における画素値で補正する。つまり、この補正では、第二画素P42から境界までの間の複数の第二無効画素を第二画素値V42に変更する。これにより、ホール領域を補正してもよい。ここで、符号化ブロックとは、例えば、符号化方式がH.264の場合はマクロブロックであり、符号化方式がH.265の場合はCTU(Coding Tree Unit)またはCU(Coding Unit)などである。
図28Eの(a)に示すように、テクスチャ領域Aおよびテクスチャ領域Bの間にホール領域が無く、かつ、テクスチャ領域Aおよびテクスチャ領域B間の画素値の差が所定値よりも大きい場合、テクスチャ領域Aおよびテクスチャ領域Bの境界上に仮想的なホール領域があると想定し、仮想的なホール領域に対して図26A~図28Dの方法を用いて補正を行ってもよい。例えば、図28Eの(b)は、図27Aおよび図27Bで説明した非線形補間による補正を適用した例である。これにより、ホール領域が無い場合であっても、テクスチャ領域Aおよびテクスチャ領域Bの間に急峻なエッジがある場合には、上記の補正を行うことで、テクスチャ領域A、B間の急峻なエッジを低減することができ、符号量を効果的に低減することができる。
図28Fは、図28Eの(a)と同様の場合で、異なる方法でエッジを補正する場合の例である。
図28Fの(a)は、図28Eの(a)と同様の図である。このように、テクスチャ領域Aおよびテクスチャ領域Bの間にホール領域が無く、かつ、テクスチャ領域Aおよびテクスチャ領域B間の画素値の差が所定値よりも大きい場合、図28Fの(b)に示すように、テクスチャ領域Bをテクスチャ領域Aから離れる方向にシフトさせることで仮想的なホール領域を生成し、生成した仮想的なホール領域に対して、図26A~図28Dの方法を用いて補正を行ってもよい。例えば、図28Fの(b)は、図27Aおよび図27Bで説明した非線形補間による補正を適用した例である。これにより、図28Eの場合と同様に、ホール領域が無い場合であっても、テクスチャ領域Aおよびテクスチャ領域Bの間に急峻なエッジがある場合には、上記の補正を行うことで、テクスチャ領域A、B間の急峻なエッジを低減することができ、符号量を効果的に低減することができる。
なお、補正では、三次元モデルの投影によって得られた二次元画像に対し、テクスチャ領域またはホール領域にかかわらず、ガウシアンフィルタなどの平滑フィルタ、または、メディアンフィルタなどを適用し、適用後の画像にテクスチャ領域を再度割り当ててホール領域の値をテクスチャ領域の値に近づけるようにしてもよい。これによりフィルタ適用領域を識別する必要がなくなり、低処理量でホール領域の値を補正することができる。
また、図28Fの補正におけるテクスチャ領域のシフト処理では、投影によって得られた二次元画像を作成後に、複数のテクスチャ領域のそれぞれを二次元画像内で左右上下に画素を動かしてホール領域を生成するようにしてもよい。また、三次元点群を二次元平面に投影して二次元画像を生成する過程で複数のテクスチャ領域の間にホール領域ができるようにしてもよい。
図29は、実施の形態に係る三次元モデル符号化装置の機能構成の一例を示すブロック図である。図30は、実施の形態に係る三次元モデル復号装置の機能構成の一例を示すブロック図である。図31は、実施の形態に係る三次元モデル符号化装置による三次元モデル符号化方法の一例を示すフローチャートである。図32は、実施の形態に係る三次元モデル復号装置による三次元モデル復号方法の一例を示すフローチャートである。
図29および図31を用いて、三次元モデル符号化装置300および三次元モデル符号化方法について説明する。
三次元モデル符号化装置300は、投影部301と、補正部302と、符号化部304とを備える。三次元モデル符号化装置300は、さらに、生成部303を備えていてもよい。
まず、投影部301は、三次元モデルを少なくとも1つ以上の二次元平面に投影することで二次元画像を生成する(S11)。生成された二次元画像は、テクスチャ情報およびデプス情報を含む。
補正部302は、二次元画像を用いて、二次元画像に含まれる、三次元モデルが投影されていない無効領域(つまり、ホール領域)を構成する1以上の画素を補正することで補正画像を生成する(S12)。補正部302は、補正として、上記の図25A~図28Fで説明した補正のいずれかを行う。
一方で、生成部303は、二次元画像に対応する二次元領域を構成する複数の領域のそれぞれが、無効領域であるか有効領域であるかを示す二次元バイナリマップを生成する(S13)。二次元バイナリマップにより、符号化データを受信した三次元モデル復号装置310は、二次元画像のうちの無効領域および有効領域を容易に判別できる。
符号化部304は、補正画像を二次元符号化することで符号化データとして符号化ストリームを生成する(S14)。符号化部304は、補正画像と共にさらに、二次元バイナリマップを符号化することで符号化データを生成してもよい。ここで、符号化部304は、二次元画像を生成したときの投影に関する投影情報およびパラメータも符号化し、符号化データを生成してもよい。
なお、投影部301、補正部302、生成部303および符号化部304のそれぞれは、プロセッサおよびメモリにより実現されてもよいし、専用回路により実現されてもよい。つまり、これらの処理部は、ソフトウェアにより実現されてもよいし、ハードウェアにより実現されてもよい。
次に、図30および図32を用いて、三次元モデル復号装置310および三次元モデル復号方法について説明する。
三次元モデル復号装置310は、復号部311と、マップ再構成部312と、三次元再構成部313とを備える。
まず、復号部311は、符号化データを取得し、取得した符号化データを復号することで、補正画像および二次元バイナリマップを取得する(S21)。符号化データは、三次元モデル符号化装置300により出力された符号化データである。つまり、符号化データは、三次元モデルが少なくとも1つの二次元平面に投影されることで生成された二次元画像が補正された補正画像であって、前記二次元画像に含まれる、前記三次元モデルが投影されなかった無効領域における1以上の画素が補正された画像である補正画像が符号化されたデータである。
マップ再構成部312は、復号された二次元バイナリマップを再構成することで、有効画素および無効画素を示す元のマップを取得する(S22)。
三次元再構成部313は、投影情報および再構成された二次元バイナリマップを用いて、補正画像から三次元データを再構成する(S23)。なお、三次元再構成部313は、二次元バイナリマップにおいて示される有効領域の有効画素について、復号されたデプス情報を用いて三次元空間に再投影することで三次元点を取得し、デコードされたテクスチャ情報から三次元点の色を取得する。このため、三次元再構成部313は、二次元バイナリマップにおいて示される無効領域の無効画素を再投影しない。デプス情報は、二次元画像の各画素に対応する距離を示す距離画像である。また、テクスチャ情報は、二次元画像の各画素に対応するテクスチャまたは色を示す二次元カラー画像である。このように、三次元再構成部313は、補正画像における有効領域から三次元点を再構成するため、デコーダにおいて、補正画像における有効領域における画素は、補正画像における無効領域の画素による影響を受けない。
なお、三次元モデル復号方法では、マップ再構成部312によるステップS22の処理を必ずしも行われなくてもよい。つまり、三次元モデル復号装置310は、マップ再構成部312を備えていなくてもよい。
なお、復号部311、マップ再構成部312、および、三次元再構成部313のそれぞれは、プロセッサおよびメモリにより実現されてもよいし、専用回路により実現されてもよい。つまり、これらの処理部は、ソフトウェアにより実現されてもよいし、ハードウェアにより実現されてもよい。
本実施の形態に係る三次元モデル符号化装置300では、補正部302が無効領域を補正することで生成した補正画像を二次元符号化するため、符号化効率を向上させることができる。
また、補正部302は、無効領域に隣接する、三次元モデルが投影されている有効領域である第一有効領域における第一画素の第一画素値を用いて、無効領域を補正する。このため、第一有効領域と無効領域との間の画素値の差を低減することができ、効果的に符号化効率を向上させることができる。
また、補正部302は、二次元画像上において、無効領域を挟んで第一有効領域とは反対側の有効領域である第二有効領域における第二画素の第二画素値をさらに用いて、無効領域を補正する。このため、第一有効領域および第二有効領域と無効領域との間の画素値の差を低減することができ、効果的に符号化効率を向上させることができる。
また、補正部302は、無効領域を線形補間するため、補間のための画素値の決定に係る処理負荷を低減することができる。
また、補正部302は、二次元符号化における複数のブロックの境界を考慮して無効領域を補正するため、処理負荷を効果的に低減でき、符号化効率を効果的に向上させることができる。
また、補正部302は、非線形補間による補正を行うため、第一有効領域および第二有効領域と無効領域との間の画素値の差を効果的に低減することができ、符号化効率を向上させることができる。
また、三次元モデル符号化装置300は、二次元バイナリマップを生成し、補正画像と共に二次元バイナリマップを符号化することで得られた符号化データを出力する。このため、三次元モデル復号装置310の復号時に、二次元バイナリマップを用いて、有効領域および無効領域のうち有効領域のみを復号することができるため、復号時の処理量を低減することができる。
本実施の形態に係る三次元モデル復号装置310は、少ないデータ量の符号化データを取得することで、三次元モデルを再構成することができる。
三次元モデル符号化装置300は、三次元モデルが二次元平面に投影されることで生成された二次元画像(Projected 2D image)に適用したフィルタ情報(フィルタ適用のオン/オフ情報、フィルタの種類、フィルタの係数、などを含む)を符号化データに付加してもよい。これにより、三次元モデル復号装置310は、復号した二次元画像に適用されたフィルタ情報を知ることができる。これらフィルタ情報は、三次元モデル復号装置310が三次元モデルを復号後に、再度、三次元モデルを本実施の形態に記載した方法で符号化する際に、再利用することができる。
本実施の形態では、復号した二次元画像の有効領域と無効領域とを区別するために、二次元バイナリマップを三次元モデル符号化装置300が符号化データに付加して三次元モデル復号装置310に送信するとしたが、必ずしも二次元バイナリマップを符号化データに付加しなくてもよい。三次元モデル符号化装置300は、例えば、二次元バイナリマップを生成する代わりに、ホール領域にテクスチャ領域では使用されない値Aを割り当ててもよい。これにより、三次元モデル復号装置310は、復号した二次元画像の各画素値が値Aであれば、当該画素がホール領域に含まれる画素であると判断でき、当該画素が無効領域における無効画素であるとして三次元空間に再投影しないと決定してもよい。値Aとしては、RGB色空間の場合、(0,0,0)や(255,255,255)等の値を使用してもよい。これにより、二次元バイナリマップを符号化データに付加する必要がなくなり、符号量を削減できる。
以上、本開示の実施の形態に係る三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法について説明したが、本開示は、この実施の形態に限定されるものではない。
また、上記実施の形態に係る三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、本開示は、三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法により実行される各種方法として実現されてもよい。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
以上、一つまたは複数の態様に係る三次元データを符号化する三次元符号化装置および三次元符号化方法、並びに、符号化された符号化データを三次元データに復号する三次元復号装置および三次元復号方法について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。