JP2023504097A

JP2023504097A - マルチビュービデオ処理方法および装置

Info

Publication number: JP2023504097A
Application number: JP2022531493A
Authority: JP
Inventors: チウティンリー，; チェンフアン，
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-02-01
Also published as: EP4066513A1; CN114556962B; EP4066513A4; WO2021102953A1; KR20220101169A; US20220286659A1; CN114556962A; KR102647019B1

Abstract

メディアコンテンツ伝送を効果的に低減させ、没入型メディアコンテンツを効率的にレンダリングするための方法、装置、およびシステムが、開示される。一例示的側面では、本方法は、ユーザによって、ユーザの現在の視認位置および視認方向に従って、メディアファイルをサーバから要求するステップと、ユーザによって、ユーザの現在の視認位置および視認方向に従って、メディアファイルをサーバから受信するステップと、アトラスのパッチを抽出するステップと、ユーザの現在のウィンドウエリア内の視覚的コンテンツを合成するステップと、ユーザによって、ユーザの現在の視認位置および視認方向に従って、３次元立体視ビデオコンテンツを取得するステップとを含む。

Description

本特許文書は、概して、没入型技術に関する。

人間とコンピュータの相互作用および人工知能技術の最近の発展に伴って、没入型技術が、我々の労働および生活方法に革命を起こしている。没入型技術は、マーケティングおよび広告、保健医療、教育、およびゲームを含む、いくつかの分野に適用されている。新しい没入型技術の高速発展は、ビデオおよび画像データを効果的に処理することを要求する。

開示されるものは、メディアコンテンツ伝送を効果的に低減させ、没入型メディアコンテンツを効率的にレンダリングする、Ｘ、Ｙ、およびＺ軸に沿った、付加的な限定された平行移動（典型的には、頭部移動）を伴う、３ＤＯＦをサポートする、メディアデータの表現に関する、方法、デバイス、およびアプリケーションである。

開示される技術の例示的実施形態では、本方法は、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、メディアファイルをサーバから要求するステップと、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、メディアファイルをサーバから受信するステップと、１つまたはそれを上回るアトラスのパッチを抽出するステップと、ユーザの現在のビューポート内の視覚的コンテンツを合成するステップと、ユーザによって、ユーザの現在のビューポート内の３次元立体視ビデオコンテンツを取得するステップとを含む。

開示される技術の別の例示的実施形態では、メディアコンテンツを構築する方法は、各メディアサンプルが、複数のビューのうちの１つまたはそれを上回るものに対応し、対応するビューのテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも１つを含むように、複数のメディアサンプルを、１つまたはそれを上回る基本ビューおよび１つまたはそれを上回る付加的ビューを含む、複数のビューと関連付けられる、メディアファイルの中に（またはそこから）設置する（または抽出する）ステップと、各メディアトラックが、対応するビューについての情報を説明するための１つまたはそれを上回るインジケータを含むように、１つまたはそれを上回る基本ビューに対応する、基本ビューメディアトラック、および１つまたはそれを上回る付加的ビューメディアトラックを決定するステップと、複数のメディアサンプルを、そのそれぞれが、１つの基本ビューと関連付けられる、１つまたはそれを上回るサンプルグループにグループ化することによって、１つまたはそれを上回るインジケータに基づいて、メディアコンテンツを複数のメディアサンプルから構築するステップ、またはその中に複数のメディアサンプルが設置される、複数のメディアトラックをグループ化することによって、１つまたはそれを上回るインジケータに基づいて、メディアコンテンツを複数のメディアサンプルから構築するステップとを含む。

開示される技術のさらに別の例示的実施形態では、メディアコンテンツを構築する方法は、各メディアサンプルが、複数のビューのうちの１つに対応し、対応するビューと関連付けられる、テクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも１つを含むように、複数のメディアサンプルを複数の基本ビューおよび複数の付加的ビューを含む、複数のビューと関連付けられる、メディアファイルの中に（またはそこから）設置する（または抽出する）ステップと、各メディアトラックが、対応するビューについての情報を説明するための１つまたはそれを上回るインジケータを含むように、それぞれ、複数の基本ビューに対応する、複数の基本ビューメディアトラック、およびそれぞれ、複数の付加的ビューに対応する、複数の付加的ビューメディアトラックを決定するステップと、複数のメディアサンプルを、そのそれぞれが少なくとも１つの基本ビューと関連付けられる、１つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、１つまたはそれを上回るインジケータに基づいて、メディアコンテンツを複数のメディアサンプルから構築するステップとを含む。

開示される技術のさらに別の例示的実施形態では、メディアコンテンツを構築する方法は、複数のビューと関連付けられる、メディアファイルの中に（またはそこから）、視認方向、視認位置、および視認ウィンドウに従って、複数のビューに対応する、カメラパラメータを含む、カメラ情報を設置する（または抽出する）ステップと、カメラパラメータ情報に基づいて、メディアメタデータをメディアファイルから選択するステップと、メディアメタデータに基づいて、メディアコンテンツを構築するステップとを含む。

いくつかの実施形態は、好ましくは、以下のように、これらの方法を実装してもよい。

上記の方法では、ベースビューは、他のビューを予測するためのビューを含む。

上記の方法では、各基本ビューは、基本ビューアトラスに対応する。

上記の方法では、パッチは、基本ビューアトラスに基づいて入手される。

上記の方法では、メディアコンテンツは、１つまたはそれを上回る基本ビューと１つまたはそれを上回る付加的ビューの組み合わせに基づいて構築される。

上記の方法では、１つまたはそれを上回るインジケータは、サンプルグループの中に、２つまたはそれを上回る基本ビューのアトラスに対応する、複数のサンプルをグループ化するためのインジケータを含む。

上記の方法では、１つまたはそれを上回るインジケータは、各メディアトラックが、テクスチャコンポーネントまたは深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む。

上記の方法では、１つまたはそれを上回るインジケータは、メディアトラック内に含有される、テクスチャコンポーネントおよび深度コンポーネントの部分を定義するためのアトラス属性インジケータを含む。

上記の方法では、１つまたはそれを上回るインジケータは、対応するビューを説明するためのビュー識別子を含む。ある実装では、各メディアトラックは、アトラスモードとして記憶される、１つまたはそれを上回るビューを含む。

上記の方法では、メディアコンテンツの構築は、異なるビューからのパッチを組み合わせるステップを含む。ある実装では、アトラスは、１つまたはそれを上回るビューからの１つまたはそれを上回るパッチの集約を含有する。

上記の方法では、１つまたはそれを上回るインジケータは、各アトラス内のパッチの数を説明する、インジケータを含む。

上記の方法では、１つまたはそれを上回るインジケータは、パッチが、アトラスから、対応するビューにマッピングする、回転角度に対するパッチ回転インジケータを含む。

上記の方法では、１つまたはそれを上回るインジケータは、異なるビューを含有する異なるメディアトラックをグループ化するためのグループ化タイプを説明する、ファイルレベルグループ化インジケータを含む。

上記の方法では、ファイルレベルグループ化インジケータは、基本ビューと１つまたはそれを上回る付加的ビューとの間のグループ化情報を含む。

上記の方法では、ファイルレベルグループ化インジケータは、グループ内のエンティティの数を含む。

上記の方法では、各メディアトラックは、複数のビューを基本ビューまたは付加的ビューとして識別するためのインジケータを含む。

上記の方法では、カメラ情報は、メディアファイルベースで抽出される。

上記の方法では、カメラ情報は、メディアトラックベースで抽出される。

上記の方法では、複数のメディアトラックはそれぞれ、複数のビューのパッチからのものであって、各ビューは、１つのカメラに対応する。

上記の方法では、ユーザの複数のビューは、少なくとも１つの基本ビューと、少なくとも１つの基本ビューと関連付けられる、少なくとも１つの付加的ビューとを含む。

上記の方法では、少なくとも１つの基本ビューのメディアデータは、少なくとも１つの基本ビューと関連付けられる、少なくとも１つの付加的ビューのベース画像として使用される。

上記の方法では、ユーザの複数のビューは、それぞれ、異なるメディアトラック内に記憶される、２つまたはそれを上回る基本ビューを含む。

上記の方法では、カメラ情報は、メディアトラックグループ内のメディアデータが、メディアトラックグループに対応する、ある空間範囲内の画像をデコーディングするために使用されるべきであることを示す、メディアトラックグループを含む。

開示される技術のさらに別の例示的実施形態では、上記に説明される方法は、プロセッサ実行可能コードの形態で具現化され、コンピュータ可読プログラム媒体内に記憶される。

開示される技術のさらに別の例示的実施形態では、上記に説明される方法を実施するように構成される、または動作可能である、デバイスが、開示される。

上記および他の側面およびその実装は、図面、説明、および請求項において、より詳細に説明される。

図１は、開示される技術のいくつかの実施形態に基づく、３ＤＯＦ＋のコンテンツ集合の実施例を示す、略図である。

図２は、開示される技術のいくつかの実施形態に基づく、ビデオデータ処理システムの実施例を示す、略図である。

図３は、開示される技術のいくつかの実施形態に基づく、ビデオデータ処理方法の実施例を示す、フローチャートである。

図４Ａは、開示される技術のいくつかの実施形態に基づく、メディアファイルの基本構造の実施例を示す、略図である。

図４Ｂは、開示される技術のいくつかの実施形態に基づく、メディアファイルの基本構造の別の実施例を示す、略図である。

図５は、開示される技術のいくつかの実施形態に基づく、メディアファイル内の多層構造の実施例を示す、略図であって、１つのみのメディアトラックが、１つまたはそれを上回る基本ビューを含む。

図６は、開示される技術のいくつかの実施形態に基づく、メディアファイル内の多層トラック構造の実施例を示す、略図である。

詳細な説明
没入型メディアは、ユーザが、オーディオおよびビデオ技術を通した視覚的およびオーディオ体験を通して、高度に現実的な仮想空間環境を体験することを可能にする。現在、没入型体験は、主に、パノラマビデオをサポートする。例えば、ユーザは、頭部ディスプレイデバイスを通した頭部の自由回転を通して、３６０度ビデオ、すなわち、３自由度（３ＤＯＦ）没入型体験を視聴することができる。向上された３自由度（３ＤＯＦ＋）および部分的６自由度（６ＤＯＦ）をサポートする、ビデオに関して、ユーザの頭部はまた、限定された範囲内で移動し、オクルードされた視覚的コンテンツ等のさらなる詳細を視認することができる。

３ＤＯＦ＋ビデオのためのサポートは、空間内で異なる形状に配列される複数のカメラを通して使用され、オリジナルビデオを捕捉し、次いで、３次元パノラマビデオのアルゴリズム合成によって、ユーザの頭部を没入型メディア限定移動内に合わせることができる。マルチカメラ展開に基づいて、マルチビュービデオは、典型的には、大量の冗長データを有し、記憶およびコンピューティングリソースの無駄をもたらす。現在、コンテンツ生産位相では、同時に、複数のビューの重複部分の視覚的コンテンツを除去することによって、冗長性を低減させ、テクスチャおよび深度コンポーネントを伴うビューによって、ステレオ－ビデオをビューポート内に表すことが可能である。ユーザの端末デバイスが、没入型メディアコンテンツを受信すると、特に、ユーザのための最良没入体験を確実にするように、移動のプロセスにおいてレンダリングするために、ユーザの視認位置、視認方向、入手デバイスの性質、および他の情報に従って、コンテンツをレンダリングする必要がある。現在、３ＤＯＦ＋のメディアコンテンツのための対応するメディア表現の欠如が存在し、これは、メディアコンテンツの効果的レンダリングおよび再生に影響を及ぼすであろう。

図１は、開示される技術のいくつかの実施形態に基づく、３ＤＯＦ＋のビデオ捕捉の実施例を示す、略図である。３ＤＯＦ＋シナリオをサポートするために、複数のカメラが、空間内の異なる場所に展開される。例えば、複数のカメラは、湾曲構成または矩形構成において、並列に配列され、画像が、同時に、複数のカメラによって捕捉される。カメラ展開の場所および配向に応じて、異なるカメラによって捕捉されたビデオは、類似コンテンツを有することができる。

マルチビュービデオから収集されたコンテンツは、３次元パノラマビデオを生産するように合成される。マルチビュー入手コンテンツの類似性および差異に従って、ユーザは、没入型メディアを視認するプロセスにおいて、限定された範囲内で移動し、オクルードされた視覚的コンテンツ等のさらなる詳細を見ることができる。

図２は、開示される技術のいくつかの実施形態に基づく、ビデオデータ処理システムの実施例を示す、略図である。開示される技術のいくつかの実施形態、ビデオデータ処理システムは、メディアサーバ１０と、ユーザ端末２０とを含む。

いくつかの実装では、メディアサーバ１０は、メディアファイルを記憶するためのメモリモジュール１０１と、ユーザ端末２０と通信するための送受信機モジュール１０２とを含む。メモリモジュール１０１は、メディアファイルを記憶するために使用される。いくつかの実装では、送受信機モジュール１０２は、要求メッセージをユーザ端末２０から受信し、および／または記憶されたメディアファイルをユーザに端末２０に送信するように構成される。一実施例では、送受信機モジュール１０２は、無線ネットワークおよび／または有線ネットワークを通して、要求メッセージを受信し、メディアファイルを伝送してもよい。

いくつかの実装では、ユーザ端末２０は、送受信機モジュール２０１と、カプセル化解除およびデコーディングモジュール２０２と、メディア処理モジュール２０３と、メディア再生モジュール２０４とを含む。いくつかの実装では、送受信機モジュール２０１は、メディアファイルをメディアサーバ１０から受信し、メディアファイル要求等の要求をメディアサーバ１０に送信するように構成される。カプセル化解除およびデコーディングモジュール２０２は、送受信機モジュール２０１によって受信されたメディアファイルをアンパックおよびデコーディングするために使用される。いくつかの実装では、メディア処理モジュール２０３は、ユーザの現在の視認状態（例えば、ユーザの位置、視認方向、ユーザのビューポート）に従って、デコーディングモジュール２０２によってデコーディングされたマルチビューのアトラスのセット上において、ビデオ合成およびレンダリング等のビデオ処理を実施する。メディア再生モジュール２０４は、ユーザの現在の視認状態に対応する、視覚的コンテンツを再生するために使用される。

開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ステップＳ３０１において、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、メディアファイルをサーバから要求するステップを含む。一実施例では、対応するメディアファイルのための要求は、ユーザによって所望されるビューを視聴するためのユーザのリアルタイムフィードバックを含んでもよい。一実施例では、ユーザ端末内に実装されるメディア処理モジュールは、１つまたはそれを上回るセンサと、関連付けられる信号処理デバイスとを使用して、ユーザのリアルタイムフィードバックをユーザの要求に変換してもよい。

開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ステップＳ３０２において、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、メディアファイルをサーバから受信するステップと、ユーザの現在の視認位置、視認方向、およびビューポートに従って、１つまたはそれを上回るアトラスのパッチを抽出するステップと、視覚的コンテンツをユーザの現在のビューポート内に合成するステップとを含む。一実施例では、メディア処理モジュールは、ユーザのリアルタイム視認位置および方向に従って、ビデオをユーザのビューポート内に再構築し、再構築されたビデオをメディア再生モジュールまたはディスプレイ端末に伝送してもよい。

開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ステップＳ３０３において、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、再構築された３次元立体視ビデオコンテンツを取得するステップを含む。一実施例では、ユーザは、ディスプレイ端末またはメディア再生モジュールを使用して、再構築されたビデオを視認する。

開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ＩＳＯ（国際標準化機構）基本メディアファイルフォーマットに基づいて、ファイル内の３ＤＯＦ＋ビデオデータに対して実装されてもよい。ＩＳＯ基本メディアファイルフォーマットは、とりわけ、制限されたスキーム情報ボックス、トラック参照ボックス、およびトラックグループボックスを含んでもよく、これは、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）ＭＰＥＧ－４．Ｐａｒｔ１２ＩＳＯＢａｓｅＭｅｄｉａＦｉｌｅＦｏｒｍａｔに定義される。全方向性ビデオの投影、パッケージングステップ、および基本フォーマットは、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１のＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）によって開発されたＭＰＥＧ－ＩＰａｒｔ２ＯＭＡＦ（全方向性メディアフォーマット）に基づいて動作されることができる。

開示される技術のいくつかの実施形態では、ＩＳＯ基本ファイルフォーマット内の全てのデータが、ボックス（Ｂｏｘ）内に含有される。一実施例では、ｍｐ４ファイルによって表されるＩＳＯ基本ファイルフォーマットは、複数のボックスを含み、そのそれぞれが、特定のタイプおよび長さを有し、データオブジェクトと見なされ得る。ボックスは、コンテナボックスと呼ばれる、別のボックスを含有することができる。一実施例では、「ｆｔｙｐ」タイプボックスは、ファイルの先頭に設置される。一実施例では、「ｆｔｙｐ」タイプボックスは、ファイルフォーマットを示すためのフラグとして使用され、ファイルについてのある情報を含有する。

開示される技術のいくつかの実施形態では、「ｆｔｙｐ」タイプボックス後には、「ＭＯＯＶ」タイプボックスが続き、これは、メディアに関するメタデータ情報を伴う、コンテナボックスである。ある実装では、ＭＰ４ファイルのためのメディアデータは、１つまたはそれを上回る「ｍｄａｔ」タイプボックス内に含有され、そのそれぞれが、コンテナボックスである。別の実装では、ＭＰ４ファイルは、メディアデータが、その全体として、他のファイルを参照するとき、そのような「ｍｄａｔ」タイプボックスを含有しない。開示される技術のいくつかの実施形態では、メディアデータの構造は、メタデータによって説明される。いくつかの実装では、メディアに関するさらなるメタデータ説明のために、ＭＰ４ファイルは、「メタ」タイプボックスを含有してもよく、これもまた、ある汎用または付加的非時限メタデータを説明する、コンテナボックスである。

開示される技術のいくつかの実施形態では、時限メタデータトラック（例えば、ＩＳＯＢａｓｉｃＭｅｄｉａＦｉｌｅＦｏｒｍａｔ（ＩＳＯＢＭＦＦ）における機構）が、特定のサンプルと関連付けられる時限メタデータを確立するために使用される。時限メタデータは、メディアデータと殆ど結合されることはなく、通常、記述的である。

図４Ａは、開示される技術のいくつかの実施形態に基づく、アトラスのテクスチャコンポーネントおよび深度コンポーネントが同一メディアトラックの中に設置される、メディアファイルの基本構造の実施例を示す、略図である。

図４Ｂは、開示される技術のいくつかの実施形態に基づく、アトラスのテクスチャコンポーネントおよび深度コンポーネントが異なるメディアトラックの中に設置される、メディアファイルの基本構造の別の実施例を示す、略図である。

開示される技術のいくつかの実施形態では、複数のビューが、ベース層と、１つまたはそれを上回る付加的層とを含む、層化構造を使用することによって、説明され得る。メディアファイルは、複数のビューのメディアメタデータを説明するための１つまたはそれを上回るメディアトラックを含んでもよく、１つのメディアトラックは、１つの層に対応する。

図４Ｂに示されるように、ビデオのビューは、テクスチャコンポーネントと、深度コンポーネントとに分割される、１つまたはそれを上回るアトラスによって表されてもよく、テクスチャコンポーネントおよび／または深度コンポーネントは、アトラスに対応する、１つまたはそれを上回る（例えば、１または２つの）メディアトラック内に含有される。アトラスは、完全ビューまたはビューからトリミングされた断片の一部のいずれかである、１つまたはそれを上回るビューからのパッチをまとめる。パッチのコンテンツ、サイズ、および量が、変化する場合、パッチに関する情報は、時限メタデータを使用して、説明される。

ある実装では、カメラパラメータリスト等の複数のビューに関連する静的情報が、メディアトラック内のボックスまたはメディアファイル内のボックスに説明される。

別の実装では、ボックスを「メタ」タイプボックスとして定義し、各カメラを１つずつ説明することによって、各カメラは、各ビューに対応する。

別の実装では、１つのメディアトラック内のアトラスが、１つまたはそれを上回るビューに対応する場合、ビューに対応する、カメラパラメータのリストは、メディアトラックに説明される。

アトラス内の各パッチは、カメラによって捕捉されたビデオ内のビューから導出される。ユーザの視認位置および視認方向に従って、ユーザの視野内のパッチは、１つまたはそれを上回る選択されたパッチを合成することによって、ユーザに現在のビューポートのメディアコンテンツが見え得るように、メディアトラックに説明される各パッチの性質に基づいて選択される。

開示される技術のいくつかの実施形態では、ビデオデータを処理するための方法は、ユーザによって選択されたビューポート内のマルチビュービデオのビューに対応する、１つまたはそれを上回るメディアトラック内の１つまたはそれを上回るアトラスを決定するステップであって、１つまたはそれを上回るアトラスは、１つまたはそれを上回るビューのテクスチャコンポーネントおよび深度コンポーネントを含む、ステップと、ユーザが視認するために、アトラスおよびマルチビュービデオを撮影するためのカメラパラメータに基づいて、マルチビュービデオをビューポート内に生成するステップとを含むことを特徴とする。

開示される技術のいくつかの実施形態では、ユーザによって選択されたマルチビュービデオのビューに対応する、１つまたはそれを上回るメディアトラック内の１つまたはそれを上回るアトラスの決定は、マルチビュービデオの基本ビューと、ユーザによって選択されたマルチビュービデオのビューに関連する、１つまたはそれを上回る付加的ビューとを決定するステップと、メディアトラック内のマルチビュービデオの基本ビューおよび１つまたはそれを上回る付加的ビューに対応する、１つまたはそれを上回るアトラスに基づいて、メディアトラック内のユーザによって選択されたマルチビュービデオのビューに対応する、１つまたはそれを上回るアトラスを決定するステップとを含む。

図５は、開示される技術のいくつかの実施形態に基づく、メディアファイル内の多層構造の実施例を示す、略図であって、１つのみのメディアトラックは、ベース層であって、１つまたはそれを上回る基本ビューを含有する。

開示される技術のいくつかの実施形態では、異なるビュー間の相関は、ビュー予測のために使用されることができる。同一空間内の複数のカメラによって入手されたビューは、異なる相関度を有し得る。高度に相関するビューに関して、ビューは、その近隣のビューを予測するために使用されることができる。しかしながら、低相関を伴うビューに関して、ビューのコンテンツは、独立し（または相関せず）、相互から予測されることができないが、基本ビューのフレーム間予測は、可能である。

開示される技術のいくつかの実施形態では、メディアファイルは、１つまたはそれを上回る基本ビューと関連付けられる、メディアデータを含み、各基本ビューは、アトラスに対応する。その点に関して、開示される技術は、種々の実施形態において、あるメディアトラックを、１つまたはそれを上回る基本ビューに対応する、１つまたはそれを上回るアトラスを説明および記憶するために使用される、ベース層として定義する、階層メディア説明構造を提供するために実装されることができる。他の関連付加的ビューに対応する、アトラスは、付加的層のメディアトラック等の１つまたはそれを上回る他のメディアトラック内に説明および記憶され、ユーザのビューポートのビューは、ベース層および付加的層内のアトラス内のパッチの組み合わせから合成される。

多層アトラスを通して、３次元パノラマビデオが、合成され、ユーザが、頭部セットの位置および配向を変化させることによって、部分的にオクルードされた視覚的コンテンツを見ることを可能にすることができる。

ベース層のメディアトラックでは、サンプルグループのタイプ「ｏｉｎｆ」（動作点情報）は、ベース層内の基本ビューのアトラスを示し、ビューのアトラスは、他のアトラスを参照せず、付加的層内の他のアトラスによって参照され得る。付加的ビューのアトラスを含む、付加的層に対応する、１つまたはそれを上回るメディアトラックでは、グループタイプ「ｏｉｎｆ」を伴うサンプルグループは、メディアトラック参照タイプ「ｏｒｅｆ」を伴うメディアトラックによって参照され得る。

ベース層のメディアトラック名には、異なる基本ビューに基づいて、サンプルをグループ化し、サンプルグループタイプを「ｉｎｖｗ」として定義し、グループ化サンプルが基本ビューに属することを示す、複数の基本ビューが存在する。

具体的構文は、以下の通りである。
「ｖｅｒｓｉｏｎ」は、ボックのバージョンを示す。
「ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ」は、サンプルグループ化のタイプを示し、それをｇｒｏｕｐｉｎｇ＿ｔｙｐｅに関する同一値を伴うそのサンプルグループ説明エントリにリンクする。
「ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ＿ｐａｒａｍｅｔｅｒ」は、グループ化のサブタイプを示す。
「ｅｎｔｒｙ＿ｃｏｕｎｔ」は、以下のテーブル内のサンプリングエントリの数を示す。
「ｓａｍｐｌｅ＿ｃｏｕｎｔ」は、同一サンプルグループに属する、連続サンプルの数を示す。
「ｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘ」は、本グループ内のサンプルを説明するサンプルグループエントリのインデックスを示す。

基本ビューベースのサンプルに基づくグループ化のために、タイプ「ｂｓｖｗ」（基本ビュー）のサンプルグループエントリを定義し、グループ内のこれらのサンプルが対応する、基本ビューの識別子、基本ビューに対応するカメラの識別子、および基本ビューと関連付けられる他の付加的ビューを説明するステップが、説明される。

実施例として、これらの識別子は、以下のように説明されることができる。

構文は、以下のように定義される。
「ｇｒｏｕｐ＿ｉｄ」は、それに対して現在のサンプルが属する、グループ識別子を示す。
「ｖｉｅｗ＿ｉｄｘ」は、現在のサンプルに対応する、基本ビューインデックス識別子、すなわち、それに対してサンプルが対応する、ビューを示す。
「ｃａｍｅｒａ＿ｉｄｘ」は、基本ビューに対応する、カメラインデックス識別子を示す。
「ｎｕｍ＿ｒｅｆ＿ｖｉｅｗｓ」は、基本ビューアトラスのセットを参照する、他の付加的ビューの数を示す。
「ａｄｄｉｔｉｏｎａｌ＿ｖｉｅｗ＿ｉｄｘ」は、グループ内の基本ビューと関連付けられる、付加的ビューのインデックス識別子を示す。
「ｔｒａｃｋ＿ｉｄ」は、関連付けられる付加的ビューが対応するサンプルが位置する、メディアトラックＩＤを示す。
「ｔｅｘｔｕｒｅ＿ｏｒ＿ｄｅｐｔｈ＿ｆｌａｇ」は、関連付けられる付加的ビューが対応する、サンプルを含有する、メディアトラックが、テクスチャコンポーネントおよび／または深度コンポーネントを含むかどうかを示す。それが０に等しいとき、両方を含み、それが１に等しいとき、テクスチャコンポーネントのみを含む。
「ｄｅｐｔｈ＿ｔｒａｃｋ＿ｉｄ」は、関連付けられる付加的ビューが対応する深度コンポーネントが位置する、メディアトラックＩＤを示す。

開示される技術のいくつかの実施形態では、メディアトラック内のサンプルは、１つまたはそれを上回るビューからのパッチを含有する、アトラスである。一実施例では、各ビューは、１つのアトラスに対応し得る。別の実施例では、１つまたはそれを上回るビューは、１つのアトラスに対応し得る。アトラスは、テクスチャコンポーネントと、深度コンポーネントとを含む。ある例示的階層構造では、アトラスのテクスチャコンポーネントおよび深度コンポーネントは、それぞれ、２つのメディアトラック内に設置されてもよい。別の例示的階層構造では、アトラスのテクスチャコンポーネントおよび深度コンポーネントは、同一メディアトラック内に設置されてもよい。「ＡｔｌａｓＡｔｔｒｉｂｕｔｅＢｏｘ」は、メディアトラック内に含有される、アトラスのコンポーネントを説明する。

構文は、以下のように定義される。
「ｔｅｘｔｕｒｅ＿ｉｎ＿ｔｒａｃｋ」は、メディアトラックがテクスチャコンポーネントを含有するかどうかを示す。
「ｄｅｐｔｈ＿ｉｎ＿ｔｒａｃｋ」は、メディアトラックが深度コンポーネントを含有するかどうかを示す。
「ａｔｌａｓ＿ｉｄ」は、テクスチャコンポーネントおよび／または深度コンポーネントがメディアトラック内で属する、アトラスの識別子を示す。

開示される技術のある実施形態では、アトラスのテクスチャコンポーネントおよび深度コンポーネントが、２つのメディアトラック内に設置されるとき、１つのメディアトラックグループ、例えば、トラック１に属する、２つのメディアトラックは、アトラス１のテクスチャコンポーネントを有し、トラック２は、アトラス１の深度コンポーネントを有し、トラック１およびトラック２のコンポーネントは、同一アトラスに属する。一実施例では、２つのメディアトラックが、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅを有する、ＴｒａｃｋＧｒｏｕｐｔｙｐｅＢｏｘが、「ａｔｌｓ」であって、メディアトラックグループが、アトラスのアトラス識別インデックス（ａｔｌａｓ＿ｉｄ）と同一であり得る、「ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄ」によって識別されると定義することによって、１つのメディアトラックグループに属する。

開示される技術の別の実施形態では、テクスチャおよび深度コンポーネントの両方が、メディアトラック内に設置されるとき、テクスチャおよび深度コンポーネントサンプルは、グループ化され、タイプ「テクスチャおよび深度グループ」は、各サンプルがテクスチャコンポーネントまたは深度コンポーネントに属するかどうかを説明する、テクスチャおよび深度サンプルグループとして定義される。

具体的構文は、以下のように定義される。
「ｔｅｘｔｕｒｅ＿ｏｒ＿ｄｅｐｔｈ」は、グループのサンプルが、テクスチャまたは深度コンポーネントにグループ化されることを示す。ｔｅｘｔｕｒｅ＿ｏｒ＿ｄｅｐｔｈが、０に等しいとき、サンプルは、テクスチャコンポーネントにグループ化され、ｔｅｘｔｕｒｅ＿ｏｒ＿ｄｅｐｔｈが、１に等しいとき、サンプルは、深度コンポーネントにグループ化される。
「ｎｕｍ＿ｂａｓｉｃｖｉｅｗ＿ｆｌａｇ」は、メディアトラック内のサンプルが、複数の基本ビューに対応するかどうかを示し、それが、０に等しいとき、１つのみの基本ビューに対応し、これらのサンプルは、基本ビューによってグループ化されず、それが、１に等しいとき、２つを上回る基本ビューに対応する。
「ｇｒｏｕｐ＿ｉｄ」は、メディアトラック内の複数の基本ビューのためのサンプルに関して、基本ビューに基づいて、サンプルグループのグループ化識別子を示す。

開示される技術のいくつかの実施形態では、ＩＳＯ基本ファイルフォーマットに定義される、ビュー識別子ボックス（ＶｉｅｗＩｄｅｎｔｉｆｉｅｒＢｏｘ）は、「ｖｗｉｄ」であって、各メディアトラック内に含有されるビューを説明し、ビューの識別、ビューに対応する他の参照ビュー等を含む。これは、メディアトラックが、テクスチャコンポーネントまたは深度コンポーネントまたは両方を含有するかどうかを示すことができる。

メディアトラック内のサンプルである、アトラスに基づいて、ユーザは、現在の視認位置、視認方向、およびビューポートに従って、１つまたはそれを上回るメディアトラック内のアトラスを選択し、ユーザが視認することを所望する、画像を合成する。セット内のパッチは、１つまたはそれを上回るビューに対応する、１つまたはそれを上回るカメラによって捕捉されたビデオからのものである。いくつかの実装では、それに対して各パッチが属するビューおよびビュー内の各パッチの位置が、メディアトラックおよびその対応するアトラスの選択を促進するために説明される。ＩＳＯ基本ファイルフォーマットに従って、アトラスに対してボックスのパラメータを定義することは、随意に、以下の方法のうちの１つにおいて行われる。

開示される技術のいくつかの実施形態では、各フレームサンプル内に、パッチが、異なるビューから収集され、ビュー内の位置は、異なり、かつ可変であって、全てのアトラスに関するパッチ情報は、時限メタデータによって動的に説明される。

アトラス情報リストが、サンプルエントリタイプに従って、時限メタデータトラックから識別され、アトラス情報リスト時限メタデータトラックは、アトラス内の各パッチに対応する場所情報および対応するビューおよび対応するビュー情報を示すために使用される。

具体的には、アトラス情報リスト時限メタデータトラックの目的は、下記に定義されるように、「ａｔｐｌ」である、トラックサンプルエントリタイプによって示される。

具体的構文は、以下のように定義される。
「ｎｕｍ＿ａｔｌａｓｅｓ」は、アトラスの数を示す。
「ｎｕｍ＿ｖｉｅｗｓ」は、ビューの数を示す。

時限メタデータトラック内の各サンプルは、ある時点における全てのアトラスに関する情報に対応する。以下の実施例は、アトラス情報のサンプルフォーマットが、上記のトラックサンプルエントリタイプ「ａｔｐｌ」を参照することを図示し、サンプル毎に、アトラス情報を示す。

具体的構文は、以下のように定義される。
「ａｔｌａｓ＿ｉｄ」は、アトラスの識別子を示す。
「ｎｕｍ＿ｐａｔｃｈｅｓ」は、アトラス内に含有されるパッチの数を示す。
「ｖｉｅｗ＿ｉｄ」は、パッチが属する、ビュー識別子を示す。
「ｇｒｏｕｐ＿ｉｄ」は、基本ビューおよびその関連付けられる付加的ビューに基づいて、グループ化のグループ識別子を示し、ｇｒｏｕｐ＿ｉｄが、０に等しいとき、１つのみの基本ビューであって、ビューは、グループ化される必要がない。
「ｐａｔｃｈ＿ｗｉｄｔｈ＿ｉｎ＿ｖｉｅｗ」および「ｐａｔｃｈ＿ｈｅｉｇｈｔ＿ｉｎ＿ｖｉｅｗ」は、それぞれ、輝度サンプル内のパッチの幅および高さを示す。
「ｐａｔｃｈ＿ｐｏｓ＿ｉｎ＿ａｔｌａｓ＿ｘ」および「ｐａｔｃｈ＿ｐｏｓ＿ｉｎ＿ａｔｌａｓ＿ｙ」は、それぞれ、アトラス内のＸ－軸およびＹ－軸の座標を示す。
「ｐａｔｃｈ＿ｐｏｓ＿ｉｎ＿ｖｉｅｗ＿ｘ」および「ｐａｔｃｈ＿ｐｏｓ＿ｉｎ＿ｖｉｅｗ＿ｙ」は、それぞれ、輝度サンプリング内のパッチのＸ－軸およびＹ－軸の座標を示す。

「ｐａｔｃｈ＿ｒｏｔａｔｉｏｎ」は、パッチがアトラスからビューにマッピングする、回転角度を示す。ｐａｔｃｈ＿ｒｏｔａｔｉｏｎが、０であるとき、これは、回転が存在しないことを示し、ｐａｔｃｈ＿ｒｏｔａｔｉｏｎが、１であるとき、これは、時計回りに９０度回転を示し、１を上回る他の値は、一時的に留保される。

開示される技術のいくつかの実施形態では、アトラス情報は、他のメディアトラック内のアトラス設置を説明し、上記で定義された時限メタデータトラックは、「ｃｄｓｃ」ｒｅｆｅｒｅｎｃｅＴｙｐｅを伴うＴｒａｃｋＲｅｆｅｒｅｎｃｅＢｏｘを使用することによって、１つまたはそれを上回る他のメディアトラックにリンクすることができる。

開示される技術のいくつかの実施形態では、サンプルテーブルボックス（ＳａｍｐｌｅＴａｂｌｅＢｏｘ）は、新しい定義されたボックス（ＡｔｌａｓＰａｒａｍｅｔｅｒｓＢｏｘ）を含み、メディアトラック内のサンプルのアトラス情報を１つずつ示す。

具体的構文は、以下のように定義される。
「ｓａｍｐｌｅ＿ｃｏｕｎｔ」は、ある時間周期にわたる連続サンプルの数を示す。
「ｎｕｍ＿ｐａｔｃｈｅｓ」は、アトラス内に含まれるパッチの数を示す。
「ｖｉｅｗ＿ｉｄ」は、本パッチが属する、ビュー識別子を示す。
「ｐａｔｃｈ＿ｗｉｄｔｈ＿ｉｎ＿ｖｉｅｗ」および「ｐａｔｃｈ＿ｈｅｉｇｈｔ＿ｉｎ＿ｖｉｅｗ」は、それぞれ、輝度サンプル内のパッチの幅および高さを示す。
「ｐａｔｃｈ＿ｐｏｓ＿ｉｎ＿ａｔｌａｓ＿ｘ」および「ｐａｔｃｈ＿ｐｏｓ＿ｉｎ＿ａｔｌａｓ＿ｙ」は、それぞれ、アトラス内のパッチのＸ－軸およびＹ－軸の座標を示す。
「ｐａｔｃｈ＿ｐｏｓ＿ｉｎ＿ｖｉｅｗ＿ｘ」および「ｐａｔｃｈ＿ｐｏｓ＿ｉｎ＿ｖｉｅｗ＿ｙ」は、それぞれ、輝度サンプル内のＸ－軸およびＹ－軸の座標を示す。
「ｐａｔｃｈ＿ｒｏｔａｔｉｏｎ」は、アトラスからビュー画像までのパッチの回転角度を示す。それが、０に等しいとき、回転が存在しないことを示し、それが、１に等しいとき、時計回りに９０度の回転を示し、１を上回る他の値は、一時的に留保される。

図６は、開示される技術のいくつかの実施形態に基づく、メディアファイル内の多層トラック構造の実施例を示す、略図であって、メディアファイル内には、複数の基本ビューが存在し、基本ビューは、ベースビューとして使用され、他のビューを予測することができる。層化ｔｒａｃｋｄｅｓｃｒｉｐｔｉｏｎ構造に基づいて、メディアトラックは、１つの基本ビューの記憶のためのベース層として定義され、全ての基本ビューの動作点情報を説明する。他の基本ビューおよび付加的ビューの対応するビューは、１つまたはそれを上回る他のメディアトラック内に記憶される。複数のビューを通して、３次元立体視ビデオが、ユーザに頭部の変位を通して部分的にオクルードされた視覚的コンテンツを見え得るように、合成されることができる。

ベース層のメディアトラック内のタイプ「ｏｉｎｆ」（動作点情報）サンプルグループは、全ての基本ビュー内の動作点情報を説明するように定義される。全ての付加的層メディアトラックは、メディアトラックタイプインジケータ「ｏｒｅｆ」を参照することによって、ベース層メディアトラックを参照する。

基本ビューは、メディアトラックレベルまたはファイルレベルにおいて、インジケーションを含むことによって、他の基本ビューおよびその関連付けられる付加的ビューから区別されることができる。

開示される技術のいくつかの実施形態では、基本ビューと付加的ビューとの間の特異性は、メディアトラックレベルで説明される。基本ビューに属するアトラスを含有する、メディアトラックでは、メディアトラックは、タイプ「ｉｎｖｗ」のボックスをメディア情報ボックス内に定義することによって、基本ビューを含有する、メディアトラックとして説明される。

具体的構文は、以下のように定義される。
「ｂａｓｉｃ＿ｖｉｅｗ＿ｉｄｘ」は、メディアトラック内のアトラスに対応する、基本ビューの識別子である。
「ｃａｍｅｒａ＿ｉｄｘ」は、基本ビューに対応する、カメラの識別子を示す。
「ａｄｄｉｔｉｏｎａｌ＿ｖｉｅｗ＿ｉｄｘ」は、基本ビューを参照する、付加的ビューの識別子を示す。
「ｔｒａｃｋ＿ｉｄ」は、基本ビューと関連付けられる付加的ビューに対応する、アトラスを含有する、メディアトラックの識別子を示す。
「ｔｅｘｔｕｒｅ＿ｏｒ＿ｄｅｐｔｈ＿ｆｌａｇ」は、サンプルに対応する付加的ビューと関連付けられる、サンプルを含有する、メディアトラックが、テクスチャコンポーネントおよび／または深度コンポーネントを含むかどうかを示し、それが、０である場合、両方を含み、それが、１である場合、テクスチャコンポーネントのみを含む。
「ｄｅｐｔｈ＿ｔｒａｃｋ＿ｉｄ」は、関連付けられる付加的ビューが対応する、深度コンポーネントが位置する、メディアトラックＩＤを示す。

基本ビューおよび基本ビューを参照するその関連付けられる付加的ビューに対応する、アトラスに関して、「ｃｓｔｇ」のトラックグループタイプ（ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅ）を伴う、トラックグループボックスが、定義され、基本ビューおよびその関連付けられる付加的ビューに対応する、アトラス間の関係を説明する。

開示される技術のいくつかの実施形態では、グループ説明は、基本ビューが位置する、メディアトラックに関して、ファイルレベルで提供され、付加的ビューを有する、メディアトラックは、関連付けられる基本ビューを参照する。

拡張ＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘが、ＩＳＯベースファイルフォーマットにおいて、グループ化タイプ（ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ）を「ａｓｖｗ」（関連付けられるビューグループ）として定義し、アトラス形態の関連付けられるビューを含有する、メディアトラックをグループするために使用される。グループメンバーは、その中に基本ビューが位置する、メディアトラックを区別するために説明され、トラックは、アトラスのテクスチャコンポーネントおよび／または深度コンポーネントを含有すると言える。１つのグループでは、１つのみの基本ビューが、メディアトラック内に存在し、他のビューは、基本ビューと関連付けられる。

構文は、以下の通りである。
「ｇｒｏｕｐ＿ｉｄ」は、各ボックスに説明されるグループ化のためのグループ識別子を示す。
「ｎｕｍ＿ｅｎｔｉｔｉｅｓ＿ｉｎ＿ｇｒｏｕｐ」は、グループ内のエンティティの数を示す。
「ｅｎｔｉｔｙ＿ｉｄ」は、ｔｒａｃｋ＿ｉｄに等しい、その中にそれが属するアトラスが設置される、メディアトラックのエンティティ識別子を示す。
「ｉｓ＿ｂａｓｉｃ＿ｖｉｅｗ」は、グループ内のグループメンバーメディアトラックが基本ビューを含むかどうかを示す。それが、１に等しいとき、グループ内のグループメンバーメディアトラックは、基本ビューを含有する、またはそれが、０であるとき、グループ内のグループメンバーメディアトラックは、基本ビューを含有せず、１つのみのグループメンバーが、１の値を有する。
「ｉｓ＿ｔｅｘｔｕｒｅ＿ｉｎ＿ｅｎｔｉｔｙ」は、グループ内のあるグループメンバーのメディアトラックが、ビューが属する、アトラスのテクスチャコンポーネントを含有するかどうかを示す。
「ｉｓ＿ｄｅｐｔｈ＿ｉｎ＿ｅｎｔｉｔｙ」は、グループ内のグループメンバーのメディアトラックが、ビューが属する、アトラスの深度コンポーネントを含有するかどうかを示す。

いくつかの実装では、複数の基本ビューのアトラスは、別個のビットストリーム内に記憶される。例えば、１ビットストリームは、１つの基本ビューに対応する、１つのみのアトラスと、その基本ビューと関連付けられる、他のビューに対応する、アトラスとを含有する。この場合、層化構造は、依然として、使用されることができる。

開示される技術のいくつかの実施形態では、メディアストリームファイルを受信およびデコーディング後、ユーザは、ユーザの視認方向、視認位置、およびビューポートに従って、基本ビューおよびその関連付けられる付加的ビューに対応する、メディアコンテンツを選択する。対応するカメラ情報は、選択されたコンテンツのレンダリングを完了するためのプロセスにおいて考慮される。

開示される技術のいくつかの実施形態では、カメラパラメータの情報を説明する、ボックスを定義することによって、複数のビューのためのカメラが、詳細に説明される。

開示される技術のいくつかの実施形態では、カメラパラメータ情報は、固有の情報および位置情報であって、データボックスは、説明のために、ファイルレベルで定義される。カメラパラメータリストボックスは、ボックスタイプに従って識別され、メディアファイル内の全てのパッチに対応する、カメラパラメータが、説明され、ボックスは、「メタ」タイプボックス内に含まれる。

具体的構文は、以下のように定義される。
「ｎｕｍ＿ｃａｍｅｒａｓ」は、カメラの数を示す。
「ｖｉｅｗ＿ｉｄｘ」は、カメラによって捕捉されたビューの識別子であって、それによってビューに対応する、カメラが、見出されることができる。
「ｃａｍｅｒａ＿ｐｏｓ＿ｘ」、「ｃａｍｅｒａ＿ｐｏｓ＿ｙ」、および「ｃａｍｅｒａ＿ｐｏｓ＿ｚ」は、グローバル参照座標系内のカメラの位置を示す。
「ｐｒｏｊｅｃｔｉｏｎ＿ｔｙｐｅ」は、カメラの投影方法を示す。それが、０に等しいとき、インジケーションは、ＥＲＰ投影モードであって、それが、１に等しいとき、インジケーションは、ＣＭＰ投影モードであって、それが、２に等しいとき、インジケーションは、透視投影であって、値は、０～２５５に及び、そのうちの３～２５５は、必要に応じて、将来的に定義され得る。
「ｐｒｏｊｅｃｔｉｏｎ＿ｐｌａｎｅ＿ｗｉｄｔｈ」および「ｐｒｏｊｅｃｔｉｏｎ＿ｐｌａｎｅ＿ｈｅｉｇｈｔ」はカメラ投影平面の水平および垂直分解能を示し、これは、エンコーディングされた明度サンプリングの水平および垂直分解能によって示される。
「ｅｒｐ＿ｐｈｉ＿ｍｉｎ」および「ｅｒｐ＿ｐｈｉ＿ｍａｘ」は、ＥＲＰ投影の緯度範囲（最小および最大）を示す。
「ｅｒｐ＿ｔｈｅｔａ＿ｍｉｎ」および「ｅｒｐ＿ｔｈｅｔａ＿ｍａｘ」は、ＥＲＰ投影の経度範囲（最小および最大）を示す。
「ｐｅｒｓｐｅｃｔｉｖｅ＿ｆｏｃａｌ＿ｈｏｒ」および「ｐｅｒｓｐｅｃｔｉｖｅ＿ｆｏｃａｌ＿ｖｅｒ」は、輝度サンプル位置単位における、それぞれ、透視投影の焦点の水平および垂直コンポーネントを示す。
「ｐｅｒｓｐｅｃｔｉｖｅ＿ｃｅｎｔｅｒ＿ｈｏｒ」および「ｐｅｒｓｐｅｃｔｉｖｅ＿ｃｅｎｔｅｒ＿ｖｅｒ」は、輝度サンプル位置における、それぞれ、透視投影の主点の水平および垂直座標を示す。
「ｑｕａｎｔｉｚａｔｉｏｎ＿ｌａｗ」は、カメラの深度数値化方法のタイプを示す。
「ｄｅｐｔｈ＿ｎｅａｒ，ｄｅｐｔｈ＿ｆａｒ」は、それぞれ、最小および最大正規化視差値を示す。
「ｃｕｂｉｃ＿ｍａｐ＿ｔｙｐｅ」は、ＣＭＰ投影のタイプを示す。それが、０に等しいとき、インジケーションは、完全投影モード（６パッケージ面）であって、それが、０を上回るとき、一時的に留保される。
「ｒｏｔａｔｉｏｎ＿ｙａｗ」および「ｒｏｔａｔｉｏｎ＿ｐｉｔｃｈ」および「ｒｏｔａｔｉｏｎ＿ｒｏｌｌ」は、カメラが、それぞれ、Ｘ、Ｙ、およびＺ軸に沿って回転するためのヨー角度、ピッチ角、およびロール角度を規定する。

開示される技術のいくつかの実施形態では、メディアトラックはそれぞれ、１つまたはそれを上回るビューのパッチからのものであって、各ビューは、１つのカメラに対応し、各メディアトラック内のビューに対応する、カメラが、説明される。

カメラパラメータリストボックスは、「ｓｃｈｉ」タイプボックス内に含有されるボックスタイプに従って識別され、これは、スキーム情報ボックスであって、ボックスがスキームタイプにある、制限されたスキーム情報を説明する（ｓｃｈｅｍｅ＿ｔｙｐｅが、「ａｌｔｖ」であるとき、アトラスモードをサポートする）。カメラパラメータボックスの実施例は、下記に説明される。

開示される技術のいくつかの実施形態では、カメラの展開モードに基づいて、２つまたはそれを上回る基本ビューが存在し、基本ビューのアトラスは、異なるメディアトラック内に記憶され、各基本ビューのアトラスは、ベースビューとして使用され、関連付けられる付加的ビューのビューは、付加的ビューとしての役割を果たす。基本ビューが位置する、メディアトラックでは、基本ビューおよびその関連付けられる他のビューに対応する、カメラは、アトラスカメラパラメータボックス（ＡｌｔａｌｓＣａｍｅｒａＰａｒａｍｅｔｅｒｓＬｉｓｔＢｏｘ）を使用して説明されることができ、これは、「ｓｃｈｉ」タイプボックス内に含まれ、これは、ソリューション情報である。スキーム情報ボックスは、制限された情報を説明するために使用される。その中に他の関連ビューのアトラスが位置する、メディアトラックは、トラック参照タイプ「ｓｂａｓ」を伴うトラックを定義し、基本ビューのメディアトラックと関連する付加的ビューの他のメディアトラックを関連付ける。

開示される技術のいくつかの実施形態では、基本ビューおよびそれらに関連する他のビューと関連付けられる、メディアトラックは、トラックグループタイプ「ｃｓｔｇ」を使用して定義されてもよい。

開示される技術は、いくつかの実施形態では、複数の基本ビューが存在する状況では、ビューのアトラスをメディアトラックの中に入れるために実装されることができる。ある実装では、テクスチャコンポーネントおよび深度コンポーネントは、１つのメディアトラックの中に入れられる、または別の実装では、テクスチャコンポーネントおよび深度コンポーネントは、異なるメディアトラックの中に入れられる。開示される技術のいくつかの実施形態に基づいて実装される、マルチビュービデオ処理方法は、メディアトラックおよび関連メタデータの構造を定義するステップと、データのメタデータおよびメディアトラック内に入れられたビューのアトラス情報を説明するステップとを含んでもよい。開示される技術のいくつかの実施形態に基づいて実装される、マルチビュービデオ処理方法は、複数のビューに基づいて、ビデオを捕捉するステップと、ビデオをコーディングするステップと、コーディングされたビデオをそのメタデータとともにメディアファイルの中にパッキングするステップと、メディアファイルを、直接、またはユーザの選択に従って、送信するステップとを含んでもよい。ユーザは、メディアファイルを承認し、メタデータおよび必要とされるサンプルを抽出し、メディアファイル内の写真をデコーディングし、デコーディングされた写真を合成し、合成されたコンテンツをそのビューポート内で見ることができる。

開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ユーザの視点内の多視点ビデオのビューに対応する、メディアトラック内の１つまたはそれを上回るアトラスを決定するステップを含んでもよい。１つまたはそれを上回るアトラスは、ビューのテクスチャ情報および深度情報を含む。

開示される技術のいくつかの実施形態では、ビデオデータ処理方法はまた、マルチビュービデオに対応する、アトラスおよびカメラパラメータに基づいて、ユーザの視点内の多視点ビデオを生成するステップを含んでもよい。

開示される技術のいくつかの実施形態では、ユーザの視点内の多視点ビデオのビューに対応する、メディアトラック内の１つまたはそれを上回るアトラスを決定するステップは、多視点ビデオのベースビューおよびユーザによって選択された多視点ビデオのベースビューに関連する付加的ビューを決定するステップと、メディアトラック内の多視点ビデオのベースビューおよび付加的ビューに対応する、アトラスに基づいて、メディアトラック内のユーザによって選択されたマルチビュービデオのビューに対応する、１つまたはそれを上回るアトラスを決定するステップとを含む。

一実施例では、ユーザの視点内の多視点ビデオのビューに対応する、メディアトラック内の１つまたはそれを上回るアトラスの決定はさらに、第２のグループタイプに基づいて、メディアトラック内のエンティティグループデータボックスを識別するステップを含み、エンティティグループデータボックスは、多視点ビデオのベースビューを示す。一実施例では、エンティティグループデータボックスは、エンティティグループのグループ識別を示す。

一実施例では、ユーザの視点内の多視点ビデオのビューに対応する、メディアトラック内の１つまたはそれを上回るアトラスの決定はさらに、ビデオトラックサンプルのエントリ内の基本ビューデータボックスを識別するステップを含み、および基本ビューデータボックスは、多視点ビデオのベースビュー識別を示す。

開示される技術のいくつかの実施形態では、サンプルグループデータボックスは、メディアトラック内にあって、その対応するサンプルグループ説明データボックスは、第１のグループタイプに基づいて識別され、サンプルグループ説明データボックス内のサンプルグループエントリは、多視点ビデオベースビューＩＤを示す。一実施例では、サンプルグループエントリは、サンプルグループのグループ化識別子を示す。

開示される技術のいくつかの実施形態では、ビデオデータ処理方法はさらに、サンプルグループ説明データボックスまたはエンティティグループデータボックスまたは基本ビューデータボックスに示される、多視点ビデオのベースビュー識別子と関連付けられる、１つまたはそれを上回る付加的ビューの識別子を示すステップを含む。一実施例では、ビデオデータ処理方法はさらに、ビューに対応するアトラスが位置する、メディアトラックの識別子を使用するステップを含む。

開示される技術のいくつかの実施形態では、基本ビューデータボックスによって示されるベースビューと、基本ビューデータボックスによって示される多視点ビデオのベースビュー識別子によって識別される付加的ビューに対応する、アトラスとが、位置特定される。一実施例では、メディアトラックは、メディアトラックのタイプに従って、その中でチャートセットがベースビューに対応する、メディアトラックのグループ化と、その中に付加的ビューに対応するアトラスが位置する、メディアトラックとを識別することによって、特性評価される。

開示される技術のいくつかの実施形態では、アトラスリスト時限メタデータトラックが、第１のサンプルエントリタイプに従って識別され、アトラスリスト時限メタデータトラックは、メディアトラック内のアトラスの画像ブロック情報を示すために使用される。

開示される技術のいくつかの実施形態では、メディアトラック内のアトラスのパッチ情報は、以下、すなわち、アトラスの識別、アトラスのパッチの数、アトラスのパッチソースのビュー識別、アトラスに対応するビュー内のアトラスのパッチの幅および高さ、アトラスＸ－軸およびＹ－軸内のパッチの座標、Ｘ－軸およびＹ－軸のアトラスに対応する、ビュー内のアトラスのパッチの座標のうちの少なくとも１つを含み、アトラスのパッチは、アトラスからビューの対応する回転角度にマッピングされる。

開示される技術のいくつかの実施形態では、ビデオデータ処理方法はさらに、アトラス属性データボックスを識別するステップを含み、これは、アトラスが、テクスチャ情報および／または深度情報を含有するかどうかを示し、かつアトラスの識別を示す。代替として、アトラスを含有するテクスチャ情報に属する、ビデオトラックと、アトラスの深度情報を含有する、ビデオトラックは、第３のトラックグループタイプに基づいて識別される。

開示される技術のいくつかの実施形態では、カメラパラメータは、ファイルレベルカメラパラメータリストデータボックスを識別し、多視点ビューを撮影するためのカメラパラメータ情報を示すために使用されてもよい。代替として、制限されたソリューション情報を識別するためのアトラスカメラパラメータリストデータボックスが、メディアトラック内のアトラスに対応する、ビューのカメラパラメータ情報を示すために使用される。

開示される技術のいくつかの実施形態では、カメラパラメータは、以下、すなわち、カメラ場所に関する座標情報、カメラ場所に関する座標回転情報、カメラマッピングフォーマット情報、カメラ深度定量化情報のうちの少なくとも１つを含んでもよい。

本明細書に説明される実施形態のうちのいくつかは、方法またはプロセスの一般的文脈で説明され、これは、一実施形態では、ネットワーク化された環境内でコンピュータによって実行される、プログラムコード等のコンピュータ実行可能命令を含む、コンピュータ可読媒体で具現化されるコンピュータプログラム製品によって実装され得る。コンピュータ可読媒体は、限定ではないが、読取専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）等を含む、リムーバブルおよび非リムーバブル記憶デバイスを含んでもよい。したがって、コンピュータ可読媒体は、非一過性の記憶媒体を含むことができる。概して、プログラムモジュールは、特定のタスクを実施する、または特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含んでもよい。コンピュータまたはプロセッサ実行可能命令、関連付けられるデータ構造、およびプログラムモジュールは、本明細書に開示される方法のステップを実行するためのプログラムコードの実施例を表す。そのような実行可能命令または関連付けられるデータ構造の特定のシーケンスは、そのようなステップまたはプロセスで説明される機能を実装するための対応する行為の実施例を表す。

開示される実施形態のうちのいくつかは、ハードウェア回路、ソフトウェア、またはそれらの組み合わせを使用する、デバイスまたはモジュールとして実装されることができる。例えば、ハードウェア回路実装は、例えば、プリント回路基板の一部として統合される、離散アナログおよび／またはデジタルコンポーネントを含むことができる。代替として、または加えて、開示されるコンポーネントまたはモジュールは、特定用途向け集積回路（ＡＳＩＣ）として、および／またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスとして実装されることができる。いくつかの実装は、加えて、または代替として、本願の開示される機能性と関連付けられるデジタル信号処理の動作の必要性のために最適化されるアーキテクチャを伴う特殊マイクロプロセッサである、デジタル信号プロセッサ（ＤＳＰ）を含んでもよい。同様に、各モジュール内の種々のコンポーネントまたはサブコンポーネントが、ソフトウェア、ハードウェア、またはファームウェアで実装されてもよい。モジュールおよび／またはモジュール内のコンポーネントの間のコネクティビティは、限定ではないが、適切なプロトコルを使用する、インターネット、有線、または無線ネットワークを経由した通信を含む、当技術分野で公知であるコネクティビティ方法および媒体のうちのいずれか１つを使用して、提供され得る。

本書は、多くの詳細を含有するが、これらは、請求される発明または請求され得るものの範囲への限定としてではなく、むしろ、特定の実施形態に特有の特徴の説明として解釈されるべきである。別個の実施形態との関連で本書に説明されるある特徴もまた、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴もまた、複数の実施形態において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴が、ある組み合わせにおいて作用するものとして上記に説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの１つまたはそれを上回る特徴は、ある場合には、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施されること、または全ての図示される動作が実施されることを要求するものとして理解されるべきではない。

いくつかの実装および実施例のみが、説明され、他の実装、向上、および変形例も、本開示に説明および図示されるものに基づいて成されることができる。

上記および他の側面およびその実装は、図面、説明、および請求項において、より詳細に説明される。
本発明は、例えば、以下を提供する。
（項目１）
メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの１つまたはそれを上回るものに対応し、上記対応するビューのテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも１つを含むように、複数のメディアサンプルを、１つまたはそれを上回る基本ビューおよび１つまたはそれを上回る付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、上記対応するビューについての情報を説明するための１つまたはそれを上回るインジケータを含むように、上記１つまたはそれを上回る基本ビューおよび１つまたはそれを上回る付加的ビューメディアトラックに対応する基本ビューメディアトラックを決定することと、
上記複数のメディアサンプルを、そのそれぞれが１つの基本ビューと関連付けられる１つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、またはその中に上記複数のメディアサンプルが設置される複数のメディアトラックをグループ化することによって、上記１つまたはそれを上回るインジケータに基づいて、上記メディアコンテンツを上記複数のメディアサンプルから構築することと
を含む、方法。
（項目２）
各基本ビューは、ｎ個の基本ビューアトラスに対応する、項目１に記載の方法。
（項目３）
パッチは、上記基本ビューアトラスに基づいて入手される、項目２に記載の方法。
（項目４）
上記メディアコンテンツは、１つまたはそれを上回る基本ビューと１つまたはそれを上回る付加的ビューの組み合わせに基づいて構築される、項目２に記載の方法。
（項目５）
上記１つまたはそれを上回るインジケータは、サンプルグループの中に、２つまたはそれを上回る基本ビューに対応する上記複数のメディアサンプルをグループ化するためのインジケータを含む、項目４に記載の方法。
（項目６）
上記１つまたはそれを上回るインジケータは、各メディアトラックが、上記テクスチャコンポーネントまたは上記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、項目１に記載の方法。
（項目７）
上記１つまたはそれを上回るインジケータは、各メディアトラックが、上記テクスチャコンポーネントまたは上記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、項目１に記載の方法。
（項目８）
上記１つまたはそれを上回るインジケータは、上記メディアトラック内に含有される上記テクスチャコンポーネントおよび上記深度コンポーネントの部分を定義するためのアトラス属性インジケータを含む、項目１に記載の方法。
（項目９）
上記１つまたはそれを上回るインジケータは、上記対応するビューを説明するためのビュー識別子を含む、項目１に記載の方法。
（項目１０）
上記メディアコンテンツの構築は、異なるメディアサンプルからのパッチを組み合わせることを含む、項目１に記載の方法。
（項目１１）
上記１つまたはそれを上回るインジケータは、各メディアサンプル内のパッチの数を説明するインジケータを含む、項目１０に記載の方法。
（項目１２）
上記１つまたはそれを上回るインジケータは、パッチが、ビューアトラスから、上記複数のビューと関連付けられるメディアサンプルにマッピングする回転角度に対するパッチ回転インジケータを含む、項目１０に記載の方法。
（項目１３）
メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの１つに対応し、上記対応するビューと関連付けられるテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも１つを含むように、複数のメディアサンプルを、複数の基本ビューおよび複数の付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、上記対応するビューについての情報を説明するための１つまたはそれを上回るインジケータを含むように、それぞれ、上記複数の基本ビューに対応する複数の基本ビューメディアトラック、およびそれぞれ、上記複数の付加的ビューに対応する複数の付加的ビューメディアトラックを決定することと、
上記複数のメディアサンプルを、そのそれぞれが少なくとも１つの基本ビューと関連付けられる１つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、上記１つまたはそれを上回るインジケータに基づいて、上記メディアコンテンツを上記複数のメディアサンプルから構築することと
を含む、方法。
（項目１４）
上記１つまたはそれを上回る基本ビューに基づいて入手された画像は、他の画像を予測するためのベース画像として使用される、項目１３に記載の方法。
（項目１５）
各基本ビューは、基本ビューアトラスに対応する、項目１４に記載の方法。
（項目１６）
上記画像は、上記基本ビューアトラスに基づいて入手される、項目１５に記載の方法。
（項目１７）
各基本ビューアトラスは、別個のコードストリーム内に記憶される、項目１５に記載の方法。
（項目１８）
上記１つまたはそれを上回るインジケータは、異なるビューを含有する異なるメディアトラックをグループ化するためのグループ化タイプを説明するエンティティレベルグループ化インジケータを含む、項目１３に記載の方法。
（項目１９）
上記エンティティレベルグループ化インジケータは、基本ビューと付加的ビューとの間のグループ化情報を含む、項目１８に記載の方法。
（項目２０）
上記エンティティレベルグループ化インジケータは、グループ内のエンティティの数を含む、項目１８に記載の方法。
（項目２１）
各メディアトラックは、上記複数のビューを基本ビューまたは付加的ビューとして識別するためのインジケータを含む、項目１３に記載の方法。
（項目２２）
メディアコンテンツを構築する方法であって、
複数のビューと関連付けられるメディアファイルの中に、視認方向、視認位置、および視認ウィンドウに従って、上記複数のビューに対応する、カメラパラメータを含むカメラ情報を設置することと、
上記カメラパラメータ情報に基づいて、メディアメタデータを上記メディアファイルから選択することと、
上記メディアメタデータに基づいて、上記メディアコンテンツを構築することと
を含む、方法。
（項目２３）
上記カメラ情報は、メディアファイルベースで抽出される、項目２２に記載の方法。
（項目２４）
上記カメラ情報は、メディアトラックベースで抽出される、項目２２に記載の方法。
（項目２５）
上記複数のメディアトラックはそれぞれ、上記複数のビューのパッチからのものであり、各ビューは、１つのカメラに対応する、項目２２－２４のいずれかに記載の方法。
（項目２６）
上記ユーザの複数のビューは、少なくとも１つの基本ビューと、上記少なくとも１つの基本ビューと関連付けられる少なくとも１つの付加的ビューとを含む、項目２２－２４のいずれかに記載の方法。
（項目２７）
上記少なくとも１つの基本ビューのメディアメタデータは、上記少なくとも１つの基本ビューと関連付けられる少なくとも１つの付加的ビューのベース画像として使用される、項目２６に記載の方法。
（項目２８）
上記ユーザの複数のビューは、それぞれ、異なるメディアトラック内に記憶される２つまたはそれを上回る基本ビューを含む、項目２２－２４のいずれかに記載の方法。
（項目２９）
上記カメラ情報は、上記メディアトラックグループ内のメディアデータが、上記メディアトラックグループに対応するある空間範囲内の画像をデコーディングするために使用されるべきであることを示すメディアトラックグループを含む、項目２２－２４のいずれかに記載の方法。
（項目３０）
メモリと、プロセッサとを備える無線通信のための装置であって、上記プロセッサは、コードを上記メモリから読み取り、項目１－２９のいずれかに記載の方法を実装する、装置。
（項目３１）
コンピュータ可読プログラム記憶媒体であって、上記コンピュータ可読プログラム記憶媒体は、その上に記憶されるコードを有し、上記コードは、プロセッサによって実行されると、上記プロセッサに、項目１－２９のいずれかに記載の方法を実装させる、コンピュータ可読プログラム記憶媒体。

Claims

メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの１つまたはそれを上回るものに対応し、前記対応するビューのテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも１つを含むように、複数のメディアサンプルを、１つまたはそれを上回る基本ビューおよび１つまたはそれを上回る付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、前記対応するビューについての情報を説明するための１つまたはそれを上回るインジケータを含むように、前記１つまたはそれを上回る基本ビューおよび１つまたはそれを上回る付加的ビューメディアトラックに対応する基本ビューメディアトラックを決定することと、
前記複数のメディアサンプルを、そのそれぞれが１つの基本ビューと関連付けられる１つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、またはその中に前記複数のメディアサンプルが設置される複数のメディアトラックをグループ化することによって、前記１つまたはそれを上回るインジケータに基づいて、前記メディアコンテンツを前記複数のメディアサンプルから構築することと
を含む、方法。
各基本ビューは、ｎ個の基本ビューアトラスに対応する、請求項１に記載の方法。
パッチは、前記基本ビューアトラスに基づいて入手される、請求項２に記載の方法。
前記メディアコンテンツは、１つまたはそれを上回る基本ビューと１つまたはそれを上回る付加的ビューの組み合わせに基づいて構築される、請求項２に記載の方法。
前記１つまたはそれを上回るインジケータは、サンプルグループの中に、２つまたはそれを上回る基本ビューに対応する前記複数のメディアサンプルをグループ化するためのインジケータを含む、請求項４に記載の方法。
前記１つまたはそれを上回るインジケータは、各メディアトラックが、前記テクスチャコンポーネントまたは前記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、請求項１に記載の方法。
前記１つまたはそれを上回るインジケータは、各メディアトラックが、前記テクスチャコンポーネントまたは前記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、請求項１に記載の方法。
前記１つまたはそれを上回るインジケータは、前記メディアトラック内に含有される前記テクスチャコンポーネントおよび前記深度コンポーネントの部分を定義するためのアトラス属性インジケータを含む、請求項１に記載の方法。
前記１つまたはそれを上回るインジケータは、前記対応するビューを説明するためのビュー識別子を含む、請求項１に記載の方法。
前記メディアコンテンツの構築は、異なるメディアサンプルからのパッチを組み合わせることを含む、請求項１に記載の方法。
前記１つまたはそれを上回るインジケータは、各メディアサンプル内のパッチの数を説明するインジケータを含む、請求項１０に記載の方法。
前記１つまたはそれを上回るインジケータは、パッチが、ビューアトラスから、前記複数のビューと関連付けられるメディアサンプルにマッピングする回転角度に対するパッチ回転インジケータを含む、請求項１０に記載の方法。
メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの１つに対応し、前記対応するビューと関連付けられるテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも１つを含むように、複数のメディアサンプルを、複数の基本ビューおよび複数の付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、前記対応するビューについての情報を説明するための１つまたはそれを上回るインジケータを含むように、それぞれ、前記複数の基本ビューに対応する複数の基本ビューメディアトラック、およびそれぞれ、前記複数の付加的ビューに対応する複数の付加的ビューメディアトラックを決定することと、
前記複数のメディアサンプルを、そのそれぞれが少なくとも１つの基本ビューと関連付けられる１つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、前記１つまたはそれを上回るインジケータに基づいて、前記メディアコンテンツを前記複数のメディアサンプルから構築することと
を含む、方法。
前記１つまたはそれを上回る基本ビューに基づいて入手された画像は、他の画像を予測するためのベース画像として使用される、請求項１３に記載の方法。
各基本ビューは、基本ビューアトラスに対応する、請求項１４に記載の方法。
前記画像は、前記基本ビューアトラスに基づいて入手される、請求項１５に記載の方法。
各基本ビューアトラスは、別個のコードストリーム内に記憶される、請求項１５に記載の方法。
前記１つまたはそれを上回るインジケータは、異なるビューを含有する異なるメディアトラックをグループ化するためのグループ化タイプを説明するエンティティレベルグループ化インジケータを含む、請求項１３に記載の方法。
前記エンティティレベルグループ化インジケータは、基本ビューと付加的ビューとの間のグループ化情報を含む、請求項１８に記載の方法。
前記エンティティレベルグループ化インジケータは、グループ内のエンティティの数を含む、請求項１８に記載の方法。
各メディアトラックは、前記複数のビューを基本ビューまたは付加的ビューとして識別するためのインジケータを含む、請求項１３に記載の方法。
メディアコンテンツを構築する方法であって、
複数のビューと関連付けられるメディアファイルの中に、視認方向、視認位置、および視認ウィンドウに従って、前記複数のビューに対応する、カメラパラメータを含むカメラ情報を設置することと、
前記カメラパラメータ情報に基づいて、メディアメタデータを前記メディアファイルから選択することと、
前記メディアメタデータに基づいて、前記メディアコンテンツを構築することと
を含む、方法。
前記カメラ情報は、メディアファイルベースで抽出される、請求項２２に記載の方法。
前記カメラ情報は、メディアトラックベースで抽出される、請求項２２に記載の方法。
前記複数のメディアトラックはそれぞれ、前記複数のビューのパッチからのものであり、各ビューは、１つのカメラに対応する、請求項２２－２４のいずれかに記載の方法。
前記ユーザの複数のビューは、少なくとも１つの基本ビューと、前記少なくとも１つの基本ビューと関連付けられる少なくとも１つの付加的ビューとを含む、請求項２２－２４のいずれかに記載の方法。
前記少なくとも１つの基本ビューのメディアメタデータは、前記少なくとも１つの基本ビューと関連付けられる少なくとも１つの付加的ビューのベース画像として使用される、請求項２６に記載の方法。
前記ユーザの複数のビューは、それぞれ、異なるメディアトラック内に記憶される２つまたはそれを上回る基本ビューを含む、請求項２２－２４のいずれかに記載の方法。
前記カメラ情報は、前記メディアトラックグループ内のメディアデータが、前記メディアトラックグループに対応するある空間範囲内の画像をデコーディングするために使用されるべきであることを示すメディアトラックグループを含む、請求項２２－２４のいずれかに記載の方法。
メモリと、プロセッサとを備える無線通信のための装置であって、前記プロセッサは、コードを前記メモリから読み取り、請求項１－２９のいずれかに記載の方法を実装する、装置。
コンピュータ可読プログラム記憶媒体であって、前記コンピュータ可読プログラム記憶媒体は、その上に記憶されるコードを有し、前記コードは、プロセッサによって実行されると、前記プロセッサに、請求項１－２９のいずれかに記載の方法を実装させる、コンピュータ可読プログラム記憶媒体。