JP7399224B2

JP7399224B2 - メディアコンテンツを送信するための方法、装置及びコンピュータプログラム

Info

Publication number: JP7399224B2
Application number: JP2022109984A
Authority: JP
Inventors: フレデリックマゼ，; フランクドゥヌアル，; ナエルウエドラオゴ，; ジョナサンタケ，; 智哉酒井
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-06-27
Filing date: 2022-07-07
Publication date: 2023-12-15
Anticipated expiration: 2038-06-20
Also published as: US11582496B2; TWI727180B; WO2019002055A1; GB2594899B; GB2563865A; EP3646612A1; GB2563920B; GB201710463D0; JP2022133439A; CN110800311A; CN110800311B; JP2020526057A; KR20200019881A; GB2563920A; TW201906411A; GB2594899A; GB202111969D0; GB201710264D0; KR102320455B1; US20210409798A1

Description

本発明は、メディアデータを送信するための方法及び装置に関する。

本発明は仮想現実（バーチャルリアリティ）メディアコンテンツの交換、管理、編集、およびプレゼンテーションを容易にし、適応httpストリーミングプロトコルを使用して、例えばインターネットなどのIPネットワークを介したその配信を改善する柔軟かつ拡張可能なフォーマットを提供するために、例えばMPEG標準化機構によって定義されるISOベースメディアファイルフォーマットに従って、仮想現実メディアコンテンツをカプセル化し、構文解析（parse）し、ストリーミングすることに関する。

国際標準化機構ベースメディアファイルフォーマット(ISO BMFF、ISO/IEC 14496-12)は、ローカル記憶またはネットワークを介するかまたは別のビットストリーム配信メカニズムを介する伝送のいずれかのための符号化された時限メディアデータビットストリームを記述する、周知のフレキシブルかつ拡張可能なフォーマットである。このファイルフォーマットはオブジェクト指向である。これは、順次または階層的に編成され、タイミングおよび構造パラメータなどの符号化された時限メディアデータビットストリームのパラメータを定義するボックスと呼ばれるビルディング・ブロックから構成される。ファイル形式では、プレゼンテーション全体をムービーと呼ぶ。それは論理的にトラックに分割される。各トラックはメディアデータ(例えば、ビデオのフレーム)の時限シーケンスを表す。各トラック内で、データの各時間単位はサンプルと呼ばれ、これはビデオまたはオーディオのフレームとすることができる。サンプルは、暗黙のうちに順番に番号付けされる。ムービーは、ムービーおよびトラックフラグメントのリストとして編成することができる。実際のサンプルは、MediaDataBoxesと呼ばれるボックス内にある。ムービーフラグメント内には、トラック毎に0以上のトラックフラグメントのセットがある。トラックフラグメントは次に、0個以上のトラック・ランを含み、各トラック・ランは、そのトラックに対するサンプルの連続したランを文書化する。

ユーザ体験を改善し、特に没入型のある体験を提供するために、時限メディアデータビットストリーム（ビデオおよびオーディオ）は、全方向性（または多方向性または多方向性）であってもよい。360°パノラマビデオとしても知られるビデオに適用されると、ユーザは、表示されるシーン内に位置するように感じる。

全方向性ビデオは360°カメラから、および／または、例えば、全てのカメラが共通の節点を有するように特別なリグに取り付けられたいくつかのカメラから得られたビデオストリームの画像を組み合わせることによって、得ることができる。このような画像の組み合わせは、画像ステッチングまたはカメラステッチングとして知られている。

このような全方向性ビデオは、ユーザの視線方向に従ってヘッドマウントディスプレイを介して、またはユーザを取り囲む湾曲した画面上への投影（投射）によってレンダリングすることができる。また、ナビゲーションユーザインターフェースを有する従来の2D画面上に表示して、全方向性ビデオのユーザの所望の部分（ビューポートとしても知られる）に従って全方向性ビデオにパンすることもできる。これは、ユーザが仮想世界にいるように感じるので、仮想現実（VR）と呼ばれることが多い。仮想オブジェクトが全方位ビデオに追加される場合、これは拡張現実（AR）と呼ばれる。

図1は、サーバ装置101からクライアント装置170（170'としても示される）への全方向性メディアをキャプチャ（捕捉）し、送信し、レンダリングするためのデータフローの例を示す。

図示されるように、このメディアは、カメラシステム100から取得され、ヘッドマウントディスプレイ（HMD）170および170'に配信されるビデオコンテンツを有する。配信160は例えば、ストリーミングサーバ161およびストリーミングクライアント162を介して、適応（アダプティブ）httpストリーミングプロトコルを使用して、インターネットなどのIPネットワーク163上で実行され得る。

例示のために、使用されるカメラシステム100は、立方体の各面に関連付けられた6つの標準カメラの設定に基づいている。これは、カメラシステムを取り囲む実際の場面を表す画像をキャプチャする（ステップ110）ために使用される。この構成によれば、1つのカメラが前面画像を提供し、1つのカメラが背面画像を提供し、1つのカメラが左画像を提供し、1つのカメラが右画像を提供し、1つのカメラが底面画像を提供し、1つのカメラが上面画像を提供する。

カメラシステム100から得られた画像は、サーバ101において処理され（ステップ120）、360ビデオストリームまたは仮想現実メディアデータストリームとも呼ばれる全方向性ビデオストリームを形成する360画像を生成する。

処理ステップ120は、同じ時間インスタンスのキャプチャされた画像をステッチし、投影することからなる。画像は、最初にステッチされ、球121を表す3次元投影構造上に投影され、水平および垂直の両方の次元で360°のビューを形成する。投影構造上の360個の画像データは、例えば正距円筒図法（https://en.wikipedia.org/wiki/equirectangular_projection））を使用して、2次元投影画像122（キャプチャ投影とも呼ばれる）にさらに変換される。投影された画像は、球全体をカバーする。

代替的に、全方向性メディアが立体視（stereoscopic）360度ビデオである場合、カメラシステム100は、ステップ110において、3次元360度シーンをレンダリングするためにクライアントによって後で使用され得る左ビューおよび右ビューを表す画像シーケンスをキャプチャする複数のカメラから構成され得る。このような場合、上述の処理ステップ120は、左ビュー画像シーケンスと右ビュー画像シーケンスの両方に別々に適用される。任意選択（オプション）で、ステップ125で、フレームパッキングを適用して、同じ時間インスタンスの各左ビュー画像および右ビュー画像を、1つの単一の左+右投影画像シーケンス上に結果として生じる同じ投影画像パックすることができる。いくつかの立体視フレームパッキング配置（構成）、例えば、横並び、上下、列ベースのインターリーブ、行ベースのインターリーブ、交互に左右のビューの時間インターリーブが可能であるあるいは、立体視フレームパッキング構成が符号化ステップ140の後に独立したビデオビットストリームをもたらす、別々の独立した投影画像シーケンスに左右のビューを保持することからなってもよい。例えば、一方のビデオビットストリームは左ビュー画像を表し、他方は、右ビュー画像を表す。

任意選択で、次に、領域ごとのパッキング130を適用して、投影画像122をパック画像131にマッピングする。領域ごとのパッキングは例えば、ユーザにとって最も有用な球の部分に関する信号情報を最大化するために、投影画像の領域の変換、サイズ変更、および再配置を適用することからなる。パックされた画像は、球全体の一部のみをカバーすることができることに留意されたい。領域ごとのパッキングが適用されない場合、パック画像131は投影画像された画像122と同一である。立体的視全方向性メディア（媒体）の場合、領域ごとのパッキングは、ステップ125で選択されたフレームパッキング配置に応じて、左+右投影画像シーケンスに適用されるか、または左ビューおよび右ビュー投影画像シーケンスに別々に適用される。

投影画像122は、ステップ140において、1つ又は複数のビデオビットストリームに符号化される。立体的視全方向性媒体の場合、符号化ステップは、ステップ125で選択されたフレームパッキング配置に応じて、左+右パッキング画像シーケンスに適用されるか、または左ビューおよび右ビューパッキング画像シーケンスに別々に適用される。あるいは、マルチビュー符号化が左ビューおよび右ビューのパック画像シーケンス上で使用することができる。

符号化フォーマットの例は、AVC（Advanced Video Coding）、SVC（Scalable Video Coding）、HEVC（High Efficiency Video Coding）、またはL-HEVC（Layered HEVC）である。以下では、HEVCがHEVCおよびその階層化拡張（L-HEVC）の両方を指すために使用される。

HEVCおよび同様のビデオ符号化フォーマットは、サンプルの異なる空間的細分、例えば、ピクチャ、すなわちタイル、スライス、およびスライスセグメントを定義する。タイルは水平および垂直境界（すなわち、行および列）によって定義され、整数個の符号化ツリーユニット（CTU）または符号化ブロックを含むピクチャの矩形領域を定義し、これらはすべて、以下で符号化ユニットと呼ばれる。したがって、タイルは、ピクチャの空間サブパートを表す良好な候補である。しかしながら、シンタックスおよびNALユニット(またはNALU)へのそのカプセル化に関する符号化ビデオデータ(ビットストリーム)編成は、(AVCにおけるように)むしろスライスおよびスライスセグメントに基づく。

HEVC内のスライスはスライスセグメントのセットであり、少なくとも第1のスライスセグメントは独立したスライスセグメントであり、もしあれば、他のスライスセグメントは従属スライスセグメントである。スライスセグメントは、整数個の連続する(ラスタスキャン順の)CTUを含む。スライスは、必ずしも矩形である必要はない（したがって、空間サブパート表現のためのタイルよりも適切ではない）。スライスセグメントは、HEVCビットストリームにおいて、slice_segment_headerの後にslice_segment_dataが続くように符号化される。非依存スライスセグメント(ISS)および従属スライスセグメント(DSS)はそれらのヘッダによって異なり、従属スライスセグメントは、非依存スライスセグメントのヘッダからの情報を再利用するため、より短いヘッダを有する。非依存スライスセグメントと従属スライスセグメントの両方は、ビットストリーム内のエントリポイントのリストを含む。

ビデオビットストリームがタイルで符号化されるとき、タイルは同じピクチャ内の近傍タイル（空間依存性）及び前の参照ピクチャ内の近傍タイル（時間依存性）からタイルが依存しないことを保証するために、動き（モーション）を制約することができる。このように、動きが制約されたタイルは、独立して復号可能である。

あるいは、パックされた画像が符号化の前にいくつかの空間サブピクチャに分割することができ、各サブピクチャは独立して符号化され、例えば、独立して符号化されたHEVCビットストリームを形成する。

したがって、符号化ステップ140の結果として、パック画像131は、1つまたは複数の独立して符号化されたビットストリームによって、または1つまたは複数の独立して符号化されたサブビットストリームから構成される少なくとも1つの符号化されたビットストリームによって表すことができる。

これらの符号化されたビットストリームおよびサブビットストリームは次に、ステップ150において、例えばMPEG標準化機構によって定義されたISOベースメディアファイルフォーマットおよびOMAF（Omnidirectional Media format）に従って、カプセル化ファイルフォーマットに従って、ファイルまたは小さい時間セグメントファイル165にカプセル化される。結果として得られるファイルまたはセグメントファイルは、mp4ファイルまたはmp4セグメントとすることができる。カプセル化の間、オーディオストリームはビデオまたはオーディオストリームに関する情報を提供するメタデータトラックと同様に、ビデオビットストリームに追加されてもよい。

カプセル化されたファイルまたはセグメントファイルは次に、例えば、http（HyperText Transfer Protocol）プロトコルを使用してインターネットを介して、または、例えば、ディスクなどの取り外し可能なデジタル媒体上で、配信メカニズム160を介してクライアント170に配信される。例示のために、配信160は、MPEG標準化委員会（「ISO/IEC 23009-1、Dynamic Adaptive Streaming over HTTP（DASH）、Part1: Media presentation description and segment formats」）からのDASH（Dynamic adaptive streaming over HTTP）などのHTTPを介した適応ストリーミングを使用して実行される。

この規格は、メディアプレゼンテーションのメディアコンテンツのコンパクトな記述とHTTPユニフォームリソースロケーション（URL）との関連付けを可能にする。このような関連付けは、典型的にはマニフェストファイルまたは記述ファイル164と呼ばれるファイルに記述される。DASHの文脈では、このマニフェストファイルがMPDファイル（メディアプレゼンテーション記述）とも呼ばれるXMLファイルである。

MPDファイルを受信することによって、クライアント装置170は、各メディアコンテンツコンポーネントの記述を取得する。したがって、メディアプレゼンテーションにおいて提案されるメディアコンテンツコンポーネントの種類を認識し、ストリーミングクライアント162を介してストリーミングサーバ161から関連するメディアセグメント165をダウンロードするために使用されるHTTP URLを認識する。したがって、クライアント170はどのメディアコンテンツコンポーネントを（HTTP要求を介して）ダウンロードし、再生する（すなわち、メディアセグメントの受信後に復号し、再生する）かを決定することができる。

クライアント装置は、ユーザのビューポート（すなわち、ユーザによって現在表示され、視聴されている球面ビデオの一部）に応じて、シーンの広いビューを表すフルパック画像の空間部分に対応するメディアセグメントのみを取得することができることに留意されたい。シーンのワイドビューは、フルパック画像によって表されるフルビューを表すことができる。

受信すると、カプセル化された仮想現実メディアファイルまたはメディアセグメントはステップ141で復号されるデータストリームを抽出するために、ステップ151の間に構文解析（parse）される。ステップ151で受信されたISOBMFFファイルまたはセグメントの場合、構文解析は典型的には記述メタデータから、カプセル化されたビデオビットストリームおよび／またはビデオサブビットストリームを抽出することができるmp4リーダまたはmp4パーサによって処理される。

次に、任意選択で、復号ステップ141から得られたパック画像をアンパックして、投影画像を取得し、次いで、投影画像をビデオレンダリングのために処理し（ステップ121）、表示する（ステップ111）。ビデオレンダリングはいくつかのパラメータに依存し、その中には、ユーザの視点（point of view）、視点（point of sight）、および投影画像を生成するために使用される投影（複数可）があることに留意されたい。図示のように、ビデオをレンダリングするステップは、復号された投影画像を球上に再投影するステップを含む。このような再投影から得られた画像は、ヘッドマウントディスプレイ170'に表示される。

立体視ビューを処理するために、図1を参照して説明される処理は、複製されてもよく、または部分的に複製されてもよい。

UHD （Ultra High Definition）ビデオストリームのいくつかの画像を仮想現実メディアデータストリームのパノラマ画像にステッチすることは、非常に高いビットレートおよび非常に高い解像度の仮想現実メディアデータストリームをもたらすことが観察されている。したがって、システムの観点から、帯域幅の浪費を回避し、クライアントプレーヤの処理能力に準拠したままにするために、仮想現実メディアデータへのアクセスを最適化する必要がある。

このような必要性は、図1を参照して説明した以外の目的で仮想現実メディアデータストリームを使用できることがさらに重要である。特に、仮想現実メディアデータストリームを使用して、360°プロジェクターのような特定のディスプレイで360°画像を表示できる。また、特定の視野を表示し、および／または視点、視野、および視点を変更するために使用することもできる。

本発明者らは図1を参照して説明した処理に沿って、送信すべきメディアデータに関する情報を説明し、シグナリングする際に、いくつかの問題に気付いた。

一例はクライアントから特定の構文解析処理を要求するトラックの信号を含み、これはオーバーヘッドを生成し、複雑である。

別の例は、ステレオビューの信号が特定のカプセル化処理に限定され、比較的高価であることに関する。

別の例は、トラック内の符号化されたデータ内のカバレージのシグナリングを含む。サブピクチャトラックがいくつかの異なるトラックにカプセル化される場合、既存の解決策は複雑であり、マルチトラックカプセル化処理に完全に準拠しない。

本発明は、前述の問題のうちの1つまたは複数に対処するように考案された。

これに関連して、例えば、httpプロトコルを使用するインターネットなどのIPネットワークを介して、メディアコンテンツ（例えば、全方向性メディアコンテンツ）をストリーミングするためのソリューションが提供される。

本発明の一実施形態によれば、シーンのワイドビューの投影に対応する符号化メディアデータをサーバからクライアントに送信する方法が提供される。当該方法は、
符号化されたデータ（符号化データ）をトラックにカプセル化することを含み、
クライアントが所与のトラックにカプセル化された符号化データを少なくとも表示するために他の符号化データを構文解析する必要があることをシグナリングするための情報が提供される。
本発明の一実施形態は、特定のトラック、特に、OMAFにおける「単独で提示されることを意図しない」トラックとして定義されるトラックに対して、より単純な信号を提供する。これは、OMAFコンテンツがサブピクチャトラックに分割されるとき、シグナリングオーバーヘッドおよび構文解析の複雑さを低減し、これは1つまたは複数の期間の間、ピクチャの一部に対応するデータを含むトラックを意味する。

本発明の別の実施形態によれば、クライアントによってメディアファイルを構文解析するための方法が提供され、当該メディアファイルは、シーンのワイドビューの投影に対応する符号化されたメディアデータ（符号化メディアデータ）を含み、当該方法は、
メディアファイルから、符号化データをカプセル化するトラックを取得することを含み、
当該方法は、クライアントが所定のトラックにカプセル化された符号化データを少なくとも表示するために、他の符号化データを構文解析する必要があることをシグナリングするための情報を取得することを含む。

本発明の別の実施形態によれば、シーンのワイドビューの投影に対応する符号化メディアデータをサーバからクライアントに送信するための装置が提供される。当該装置は、
符号化データをトラックにカプセル化する手段を有し、
当該装置は、クライアントが所定のトラックにカプセル化された符号化データを少なくとも表示するために他の符号化データを構文解析する必要があることをシグナリングするための情報を提供する手段をさらに有する。

本発明の別の実施形態によれば、クライアントによってメディアファイルを構文解析するための装置が提供され、当該メディアファイルは、シーンのワイドビューの投影に対応する符号化メディアデータを含み、当該装置は、
メディアファイルから、符号化データをカプセル化するトラックを取得する手段を有し、
当該装置は、クライアントが、所定のトラックにカプセル化された符号化データを少なくとも表示するために他の符号化データを構文解析する必要があることをシグナリングするための情報を取得する手段をさらに有する。

本発明の別の実施形態によれば、シーンのワイドビューの投影に対応する符号化メディアデータをサーバからクライアントに送信する方法が提供される。当該方法は、
複数の部分画像を含むワイド画像の符号化メディアデータを取得することと、
前記符号化メディアデータを、メディアファイルの複数のトラックにカプセル化することと、を含み、
前記カプセル化することは、
前記複数のトラックの各々に対応するトラックコンテナであって、１つのトラックについて記述する第１のボックスと、複数のトラックの共通セットについて記述する第２のボックスとを含むトラックコンテナに格納される記述メタデータを生成することと、
１つまたは複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示すカバレージ情報を含む第１のデータ構造を生成することと、
前記カバレージ情報が、前記共通セットに属する前記複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す場合は、前記第１のデータ構造を前記第２のボックスに格納し、
前記カバレージ情報が、１つのトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す場合は、前記第１のデータ構造を前記第１のボックスに格納することと、を含む。
本発明の他の実施形態は、ワイドビューのカバレージを示す情報、特にメディアデータとしてのマルチトラックOMAFコンテンツに対して、より単純なシグナリングを採用することを可能にする。

本発明の別の実施形態によれば、クライアントによってメディアファイルを構文解析するための方法が提供され、当該メディアファイルは、シーンのワイドビューの投影に対応する符号化メディアデータに対応し、当該方法は、
複数の部分画像を含むワイド画像の符号化メディアデータが複数のトラックにカプセル化されたメディアファイルから、前記複数のトラックを取得することと、
前記複数のトラックの各々に対応するトラックコンテナであって、１つのトラックについて記述する第１のボックスと、複数のトラックの共通セットについて記述する第２のボックスとを含むトラックコンテナから記述メタデータを取得することを含み、
前記記述メタデータは、１つまたは複数のトラックにカプセル化された符号化メディアデータによってカバーされる範囲を示すカバレージ情報を含む第１のデータ構造を含み、
前記第１のデータ構造が前記第２のボックスに格納されている場合は、前記カバレージ情報は、前記共通セットに属する前記複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示し、
前記第１のデータ構造が前記第１のボックスに格納されている場合は、前記カバレージ情報が、１つのトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す。

本発明の別の実施形態によれば、シーンのワイドビューの投影に対応する符号化メディアデータをサーバからクライアントに送信するための装置が提供される。当該装置は、
プロセッサを備え、前記プロセッサは、
複数の部分画像を含むワイド画像の符号化メディアデータを取得し、
前記符号化メディアデータを、メディアファイルの複数のトラックにカプセル化し、
前記カプセル化することは、
前記複数のトラックの各々に対応するトラックコンテナであって、１つのトラックについて記述する第１のボックスと、複数のトラックの共通セットについて記述する第２のボックスとを含むトラックコンテナに格納される記述メタデータを生成することと、
１つまたは複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示すカバレージ情報を含む第１のデータ構造を生成することと、
前記カバレージ情報が、前記共通セットに属する前記複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す場合は、前記第１のデータ構造を前記第２のボックスに格納し、
前記カバレージ情報が、１つのトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す場合は、前記第１のデータ構造を前記第１のボックスに格納することと、を含む、ように構成される。

本発明の別の実施形態によれば、クライアントによってメディアファイルを構文解析するための装置が提供され、当該メディアファイルは、シーンのワイドビューの投影に対応する符号化メディアデータに対応し、当該装置は、
プロセッサを備え、前記プロセッサは、
複数の部分画像を含むワイド画像の符号化メディアデータが複数のトラックにカプセル化されたメディアファイルから、前記複数のトラックを取得し、
前記複数のトラックの各々に対応するトラックコンテナであって、１つのトラックについて記述する第１のボックスと、複数のトラックの共通セットについて記述する第２のボックスとを含むトラックコンテナから記述メタデータを取得し、
前記記述メタデータは、１つまたは複数のトラックにカプセル化された符号化メディアデータによってカバーされる範囲を示すカバレージ情報を含む第１のデータ構造を含み、
前記第１のデータ構造が前記第２のボックスに格納されている場合は、前記カバレージ情報は、前記共通セットに属する前記複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示し、
前記第１のデータ構造が前記第１のボックスに格納されている場合は、前記カバレージ情報が、１つのトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す、ように構成される。

本発明の別の実施形態によれば、シーンのワイドビューの投影に対応する符号化ビデオデータをサーバからクライアントに送信する方法が提供される。当該方法は、
立体視ビデオコンテンツに対応する符号化ビデオデータを、互いに関連する少なくとも第1および第2のトラックにカプセル化することと、
各トラックに対する記述メタデータを取得することであって、当該記述メタデータはトラックに関連するトラックコンテナに編成されている、ことを含み、
当該方法は、さらに、
第1のトラックおよび第2のトラックに、トラックコンテナごとに1つのボックスで、考慮されるトラックにそれぞれカプセル化された立体的なビデオコンテンツに関する情報を提供することを含む。
本発明のこの他の実施形態は、特にISOBMFFからの既存のボックスを再使用し、重複した信号を回避するときに、非常に単純な信号を維持することを可能にする。

本発明の別の実施形態によれば、クライアントによってメディアファイルを構文解析するための方法が提供され、当該メディアファイルは、シーンのワイドビューの投影に対応する符号化ビデオデータに対応し、当該方法は、
メディアファイルから、互いに関連する少なくとも第1および第2のトラックから、立体視ビデオコンテンツに対応する符号化ビデオデータを取得することと、
各トラックに対する記述メタデータを取得することであって、当該記述メタデータはトラックに関連するトラックコンテナに編成されている、ことを含み、
当該方法はさらに、
第1のトラックおよび第2のトラックに、トラックコンテナごとに1つのボックスで、考慮されるトラックにそれぞれカプセル化された立体的ビデオコンテンツに関する情報を提供することを含む。

本発明の別の実施形態によれば、シーンのワイドビューの投影に対応する符号化ビデオデータをサーバからクライアントに送信するための装置が提供される。当該装置は、
立体視ビデオコンテンツに対応する符号化ビデオデータを、互いに関連する少なくとも第1および第2のトラックにカプセル化する手段と、
各トラックに対する記述メタデータを取得する手段であって、記述メタデータはトラックに関連するトラックコンテナに編成されている、手段と、を有し、
当該装置はさらに、
第1のトラック及び第2のトラックに、トラックコンテナ毎に1つのボックスで、考慮されたトラックにそれぞれカプセル化された立体的ビデオコンテンツに関する情報を提供する手段を有する。

本発明の別の実施形態によれば、クライアントによってメディアファイルを解析するための装置が提供され、当該メディアファイルは、シーンのワイドビューの投影に対応する符号化ビデオデータに対応し、当該装置は、
メディアファイルから、互いに関連する少なくとも第1および第2のトラックから、立体視ビデオコンテンツに対応する符号化ビデオデータを取得する手段と、
各トラックに対する記述メタデータを取得する手段であって、記述メタデータはトラックに関連するトラックコンテナに編成されている、手段と、を有し、
当該装置はさらに、
第1のトラック及び第2のトラックに、トラックコンテナ毎に1つのボックスで、考慮されたトラックにそれぞれカプセル化された立体的ビデオコンテンツに関する情報を取得する手段を有する。

本発明のさらなる利点は図面および詳細な説明を検討することにより、当業者に明らかになるのであろう。任意の追加の利点が本明細書に組み込まれることが意図される。
本発明の実施形態は、単に例として、以下の図面を参照して以下に記載される。
図1は、サーバからクライアントへの全方向性ビデオをキャプチャし、処理し、カプセル化し、送信し、レンダリングするためのデータフローの例を示す。図2は、本発明の実施形態によるカプセル化の例を示すブロック図を示す。図3は、本発明の1つまたは複数の実施形態を実施するためのコンピューティングデバイスの概略ブロック図である。

特定の実施形態によれば、パック画像131の符号化（図1のステップ140）から生じる符号化されたビットストリーム及びサブビットストリームは、カプセル化ファイルフォーマット、例えば、ISOベースメディアファイルフォーマット（ISO/IEC 14496-12及びISO/IEC 14496-15）、Omnidirectional MediAフォーマット（OMAF）（ISO/IEC 23090-2）、及びMPEG標準化機構によって定義される関連仕様に従って、ファイル又は小さい時間セグメントファイルにカプセル化される。

符号化されたビットストリーム（例えば、HEVC）、および場合によってはそのサブビットストリーム（例えば、タイル化されたHEVC、MV-HEVC、スケーラブルなHEVC）は、1つの単一トラックとしてカプセル化することができる。あるいは、空間的に関連する（すなわち、投影画像のサブ空間部分）複数の符号化ビットストリームを、いくつかのサブピクチャトラックとしてカプセル化することができる。あるいは、いくつかのサブビットストリーム（タイル、ビュー、レイヤ）を含む符号化されたビットストリーム（例えば、タイル型HEVC、MV-HEVC、スケーラブルHEVC）は、複数のサブピクチャトラックとしてカプセル化されることができる。

サブピクチャトラックは、ピクチャまたは画像のサブ部分のためのデータを埋め込むトラックである。サブピクチャトラックは、他のサブピクチャトラック、またはサブピクチャが抽出されるフルピクチャを記述するトラックに関連付けられてもよい。例えば、サブピクチャトラックは、タイルトラックとすることができる。これは、AVCトラック、HEVCトラック、HEVCタイルトラック、又はサンプルのシーケンスとしてカプセル化された任意の圧縮ビデオビットストリームによって表すことができる。

タイルトラックは、画像の空間部分、又は画像又はピクチャのサブピクチャに対応する時間調整されたビデオサンプルのシーケンスである。これは、例えば、画像内の関心領域又は画像内の任意の領域とすることができる。タイルトラックに対応するデータは、ビデオビットストリームから取得することができ、又はビデオビットストリームのサブ部分から取得することができる。例えば、タイルトラックは、AVC又はHEVCに準拠したビットストリームとすることができ、或いはAVC又はHEVCのサブパート又は例えばHEVCタイルのような任意の符号化されたビットストリームとすることができる。好ましい実施形態では、タイルトラックが独立して復号可能である（エンコーダが他のタイルから動き予測を除去するように注意を払った）。タイルトラックがタイルを有するHEVCで符号化されたビデオビットストリームに対応する場合、ISO/IEC 14496-15 4th editionに記載されているように、'hvt1'トラックとして示されるHEVCタイルトラックにカプセル化することができる。次に、タイルベーストラックを参照して、パラメータセット、ビデオデコーダをセットアップするための高レベル情報を取得することができる。HEVCトラック'hvc1’または'hev1'トラックにカプセル化することもできる。タイルトラックは、サブピクチャをより大きな画像又はピクチャに空間的な合成（composition）ために使用することができる。

タイルベーストラックは、これらの1つまたは複数のトラック間で共有されるデータまたはメタデータを含む1つまたは複数のタイルトラックに共通のトラックである。タイルベーストラックは、1つまたは複数のタイルトラックから画像を構成するための命令を含むことができる。タイルトラックは、完了復号化またはレンダリングのためにタイルベーストラックに依存し得る。タイルベーストラックがタイルを有するHEVCで符号化されたビデオビットストリームから得られるとき、それは、'hvc2'または'hvc2’トラックとして示されるHEVCトラックにカプセル化される。さらに、これは、トラック基準（参照）'tbas'を介してHEVCタイルトラックによって参照され、ISO/IEC 14496-15 4th editionに記載されているように、HEVCタイルトラックに対する'sabt'トラック基準を使用してタイル順序付けを示すものとする。

合成（composite）（複合）トラック（基準トラックとも呼ばれる）は、画像を構成するために他のトラックを参照するトラックである。合成トラックの一例は、ビデオトラックの場合、サブピクチャトラックをより大きな画像に構成するトラックである。これは、例えば、各ビデオトラックからの画像をより大きな画像に構成するための変換パラメータ及び変換パラメータを提供するビデオトラックから導出されるトラックにおいて、ポストデコーディング動作によって行うことができる。合成トラックは、サブビットストリーム連結から生じるビットストリームを復号する前に形成するために、他のビデオトラックまたはタイルトラックからNAL部を抽出する命令を提供するエクストラクタ（extractor）NAL部を有するトラックであってもよい。合成トラックは例えば、他のトラックへのトラック基準を介して、合成命令を暗黙的に提供するトラックであってもよい。

ISO/IEC 14496-12は、トラックのグループを記述するためにトラックレベルに配置されたボックスを提供し、各グループは特定の特性を共有するか、またはグループ内のトラックは特定の関係を有する。特定の特性または関係は、含まれるボックスのボックスタイプ（track_group_type）によって示される。含まれるボックスは識別子（track_group_id）を含み、これを使用して、同じトラックグループに属するトラックを決定することができる。同じtrack_group_typeおよびtrack_group_id値を有するトラックグループボックスを有するすべてのトラックは、同じトラックグループの一部である。MPEG OMAF規格は、タイプ'spco’のTrackGroupTypeBoxとして、空間合成のための特定のトラックグループ（群）を提案している。'spco’トラックグループ内の各トラックのサンプルはより大きな画像を生成するために、この同じグループ内の他のトラックからのサンプルで（同じ合成または復号化時間で）空間的に構成することができる。

パック画像131の符号化（図1のステップ140）から生じる符号化されたビットストリームおよびサブビットストリームに応じて、ファイルフォーマットにおけるカプセル化のいくつかの変形が可能である。

図2は、本発明の一実施形態によるファイル／セグメントカプセル化（図1のステップ150）の一例を示すブロック図である。

ステップ200において、サーバは、トラックにカプセル化される符号化メディアデータを取得する。サーバはいくつかの空間的に関連するビデオビットストリームがあるかどうか（すなわち、パックされた画像の空間的サブパートを表し、空間的合成がより大きな画像を生成することができるかどうか）、または、複数のサブピクチャトラックとしてクライアントに公開することができる、動きが制約されたタイルまたは複数のビューのいずれかを表すビデオサブビットストリームを含むビデオビットストリームがあるかどうかを判定する。符号化されたパック画像が単一のビデオビットストリームとして符号化されるために複数のトラックとして公開できない場合、またはコンテンツ作成者が符号化されたパック画像を複数のトラックとして公開することを望まない場合、ビデオビットストリームまたはビデオサブビットストリームは、1つの単一のトラックにカプセル化される（ステップ210）。そうでない場合、ステップ220において、カプセル化されるメディアコンテンツが、動き制約タイルを表すビデオサブビットストリームから構成されるかどうかが判定される。yesの場合、複数のタイルトラックの少なくとも1つの合成を表すために、少なくとも1つの合成トラックが提供される必要があり得る。合成は、完全にパックされた画像、または完全にパックされた画像のサブパートのみを表すことができる。タイルトラックを有する合成トラックを使用することにより、クライアント側でのストリームの別々のレンダリング及び復号を必要とすることが回避される。クライアントに公開される可能な組み合わせの数は、コンテンツ作成者の選択に依存する。例えば、コンテンツ作成者は、現在のユーザのビューポートに応じて、異なる視覚的品質を有するタイルを組み合わせたい場合がある。このために、本発明は異なる視覚品質を有するパック画像を数回符号化し、視覚品質に関してタイルの異なる組み合わせを含む完全パック画像を表すいくつかの合成トラックを提案することができる。ユーザのビューポートに応じて異なる品質のタイルを組み合わせることによって、コンテンツ作成者は、ネットワークリソースの消費を低減することができる。

ステップ220において、合成トラックが提供されなければならないと判定された場合、次に、合成トラックに対して暗黙的な再構成を使用することができるか否かが判定される（ステップ240）。

暗黙的な再構成とは、例えば、ISO/IEC 14496-15 4th editionに定義されているような、タイルベース及びタイルトラックからのビットストリーム再構成を指す。合成トラックのサンプル中のエクストラクタを、それらがタイルトラックのサンプル中で参照するデータで置き換えることによって、タイルトラックのサンプルから合成トラックのサンプルを再構築するためにエクストラクタのようなストリーム内構造を使用するのではなく、暗黙の再構築は合成トラックのサンプルとタイルトラックのサンプルをトラック基準の順序で連結することによって合成トラックのサンプルを再構築することを可能にする（例えば、HEVC暗黙の再構築における'sabt’トラック基準）。

暗黙的な再構成の使用は、使用のシナリオに依存する。いくつかのタイルトラックの構成が、符号化時のタイルの順序と比較して、復号時にタイルの再配置を必要とする場合、いくつかのスライス宛先（アドレス）を書き換えなければならない。このような場合、暗黙的な再構成は不可能であり、エクストラクタを用いた明示的な再構成を選択しなければならない。

暗黙的な再構成が可能である場合、タイルベーストラックが生成され（ステップ241）、ビデオサブビットストリームは独立して復号可能でないタイルトラックとして（例えば、HEVC'hvt1’トラックとして）カプセル化される。

さもなければ、エクストラクタトラックが生成され（ステップ242）、ビデオサブビットストリームは独立して復号可能なタイルトラックとして（例えば、HEVC'hvc1' 又は'hev1’トラックとして）カプセル化される。

ステップ220に戻ると、メディアコンテンツがタイルサブビットストリームを含まない場合、またはコンテンツ作成者が合成トラックを作成し、公開することを望まない場合、空間的に関連するビデオビットストリームまたはビデオサブビットストリーム（例えば、タイルまたは複数のビュー）は、個別のサブピクチャトラックにカプセル化される（ステップ230）。そのような特定の場合には、タイルサブビットストリームがHEVCタイルである場合にはそれらはHEVCトラック 'hvc1' 又は 'hev1’ トラックとしてカプセル化される。

ステップ250では、空間合成のためのシグナリングが空間的に関連するビデオビットストリームまたはビデオサブビットストリームを一緒にグループ化するために追加される。空間合成シグナリングは、グループを構成する各トラック（サブピクチャトラック、タイルトラック、合成トラック）内の特定のTrackGroupTypeBox、例えば、MPEG OMAFで定義され、以下に示すように、同じグループに関係するすべてのトラックに対して同じtrack_group_idを有するタイプ'spco’ のトラックグループを定義することによって提供することができる。

このトラックグループボックスは、合成内のトラックの相対的な2次元座標と、合成によって形成される画像の全体的なサイズとを提供する。合成は、パックされた画像全体、またはパックされた画像のサブパートのみを表すことができる。例えば、コンテンツ作成者は、複数の合成トラックを公開して、パックされた画像全体またはパックされた画像のサブパートのみを構築することを可能にしたい場合がある。

代替処理として、SubPictureCompositionBox（'spco'）は以下のように、合成ピクチャの幅および高さを表すパラメータcomposition_widthおよびcomposition_heightのみを定義することができる。

そして、合成内のトラックの2次元座標は、VisualSampleEntryで定義された新しいfullBoxとして、以下のように与えることができる。

または、以下のような新しい汎用サンプルグループ記述入力である。

track_group_idは、関連するトラックグループの識別子を提供する。したがって、トラックは、各トラックグループ内の異なる位置にある複数のトラックグループに関連付けることができる。track_subgroup_idは、サブグループ識別子を提供する。トラックグループ内のtrack_subgroup_idを有するすべてのトラックは、同じトラックサブグループに関係する。
track_x、track_yは、合成（composition）内のこのトラックのサンプルの左上隅の水平および垂直位置を提供する。
track_width、track_heightは、合成内のこのトラックのサンプルの幅および高さを提供する。
これらのパラメータは、これらのトラックを表す適応（adaptive）セットの空間的関係を記述するためにDASHマニフェストで使用することができるDASH空間関係記述（SRD）記述子（ISO/IEC 23009-1 3rd editionで定義される）のパラメータに直接的に整合する。
track_group_idは、DASH SRD source_idパラメータに整合（一致）する。
track_subgroup_idは、DASH SRD spatial_set_idパラメータに整合する。
track_x、track_y、track_width、track_heightは、DASH SRDパラメータobject_x、object_y、object_width、object_heightパラメータに整合する。
最後に、（track_group_idを介して）関連するトラックグループからのcomposition_widthおよびcomposition_heightは、DASH SRD total_width、total_heightパラメータに整合する。

代替処理として、合成トラックがある場合、空間合成信号は、この合成トラックによって暗黙的に提供することができる。実際、合成トラックがタイルベーストラックである場合、タイルベーストラックは、タイプ'sabt’のトラック基準（参照）を介してタイルトラックのセットを参照する。このタイルベーストラックおよびタイルトラックのセットは、合成グループを形成する。同様に、合成トラックが抽出トラックである場合、抽出トラックは、タイプ'scal’のトラック基準を介してタイルトラックのセットを参照する。この抽出トラックおよびタイルトラックのセットは、合成グループも形成する。どちらの場合も、ISO/IEC 14496-15 4th editionに定義されているように、タイプ 'trif' のサンプルグループ化またはデフォルトサンプルグループ化を定義することによって、合成内のそれぞれのタイルトラックの相対的な2次元座標を提供することができる。

別の代替処理として、新しいエンティティグループを定義することによって、空間合成シグナリングを提供することができる。エンティティグループは、アイテムまたはトラックのグループである。エンティティグループは、MetaBox内のGroupsListBox内に示される。トラックを参照するエンティティグループは、ファイルレベルのMetaBoxのGroupsListBoxまたはムービーレベルのMetaBoxのGroupsListBoxで指定することができる。GroupListBox （'grpl'）はそれぞれがEntityToGroupBoxと呼ばれるフルボックスのセットを含み、関連する4文字コードは、定義されたグループ化タイプを示す。EntityToGroupBoxは、以下のように定義される。

通常、group_idはグループのidを提供し、entity_idのセットは、エンティティグループに関係するトラックのtrack_idを提供する。entity_idのセットに続いて、特定のgrouping_typeのための追加データを定義することによって、EntityToGroupBoxの定義を拡張することが可能である。一実施形態によれば、（エンティティグループ合成のための）'egco' に等しい、例えばgrouping_typeを有する新しいEntityToGroupBoxは、空間的に関連するビデオビットストリームまたはビデオサブビットストリームの構成を記述するように定義することができる。entity_idのセットは、グループを構成するトラック（サブピクチャ、タイルトラック、合成トラック）のtrack_IDのセットを含む。合成によって形成される画像の全体サイズは、この新しいgrouping_type 'egco'に関連する追加データの一部として提供することができる。

EntityToGroupBox（'egco'）は、以下のように定義される。

タイプ'egco' のエンティティグルーピングによって定義される構成内の各トラックの相対的な2次元座標はISO/IEC 14496-15 4th editionに定義されるように、各タイルトラック内のタイプ 'trif' のサンプルグルーピングまたはデフォールトサンプルグルーピングを定義することによって提供することができる。代替処理として、相対的な2次元座標は、グループに関係する各タイルトラック内のVisualSampleEntry内に位置する新しい汎用フルボックス2DCoordinateForEntityGroupBox（'2dco'）として定義することができる。

entity_group_idは、グループを定義する関連するEntityToGroupBox（'egco'）の識別子を提供する。
track_x、track_yは、合成内のこのトラックのサンプルの左上隅の水平および垂直位置を提供する。
track_width、track_heightは、合成内のこのトラックのサンプルの幅および高さを提供する。

代替処理として、この新しい汎用ボックス2DCoordinateForEntityGroupBox（'2dco'）は、次のように新しいサンプルグループとして定義することができる。

ステップ260では、所与のトラックにカプセル化された符号化メディアデータを復号するためのデータの必要性に関する情報が取得される。この情報に基づく追加のシグナリングは、トラックに関連付けられる。トラックが提示（プレゼンテーション）に十分でない、または単独で提示されることが意図されていないかどうかをクライアントに知らせるために、シグナリングが追加される。

実際、いくつかのトラックは、単独では復号できない部分ビットストリームのみを含むことができる。例えば、これは、タイプ'hvt1’の幾つかのタイルトラックであって、それらの関連するタイルベーストラックなしでは復号することができないタイルトラックの場合である。

さらに、コンテンツ作成者は、いくつかのトラックが単独で提示されることを意図されておらず、メディアプレゼンテーションにおけるエントリポイントを構成しないことをクライアントに通知することを望む場合がある。

符号化されたメディアデータ（符号化メディアデータ）と、所与のトラックにカプセル化された符号化されたメディアデータを復号するためのデータの必要性に関する情報とは、1つまたは複数のメディアファイル内にカプセル化される。実際に、ISOBMFFファイルが複数のビデオトラックを含むとき、メイン（主）トラックとしてシグナリングされるこれらのビデオトラックのうちの1つまたは複数を有することは、メディアプレーヤがトラックを選択する際に、ユーザに公開する、またはストリーミングマニフェストに公開するのに役立つ。メイントラックシグナリングは、メディアファイルへのメディアプレーヤのためのエントリポイントを提供する。実際、同じレベルの重要度を有するトラックの長いリストを有する代わりに、いくつかは、より重要度が高く、一種の主要アイテムとしてプレーヤによって優先的に処理されるものとして注釈付けされるか、または記述される。

第1の実施形態では、トラックが単独で表示されるように意図されていないという情報がトラックヘッダ内でシグナリングすることができる。各トラックは、いくつかのトラックの特性を指定するトラックヘッダボックス'tkhd’（必須）を有する。ISOBMFFフルボックスとして、このトラックヘッダボックスは、ボックスに関連する特定の信号に使用することができる24ビットのフラグパラメータを有する。メディアトラックに対するトラックヘッダのフラグの値はプレゼンテーションにおいてトラックがどのように使用されるかに関する情報（例えば、track_enabled、Trak_in_movie、track_in_preview）を提供するために既に使用されている。ビデオトラックが「単独で提示されるように意図されている」か否かを示すために、フラグの新しい特定の値"Track_non_displayable_alone」をトラックヘッダボックスに定義することができる。この新しいフラグは、以下のように定義される。
"Track_non_displayable_alone": = 0x000010は、トラックが単独で表示されることを意図しておらず、プレビューに使用できないことを示す（track_in_previewフラグ値をオーバーライドする）。デフォルトでは、このフラグ値はセット（設定）されない。トラックヘッダフラグのデフォルト値は、依然として7（track_enabled 0x1、track_in_movie 0x2、track_in_preview 0x4）に等しいままであることに留意されたい。

第2の実施形態では、単独で表示されることが意図されていないトラックを補助（auxiliary）トラックとして定義することができる。補助トラックはビデオトラックと同じように符号化されるが、MediaBoxのHandlerBox内の'vide' の代わりにハンドラタイプ値'auxv'を使用し、視覚的に表示されることは意図されていない。代替処理として、ビデオのための新しいハンドラタイプ'subv'およびオーディオのための'suba'はトラックがそれぞれビデオまたはオーディオトラックと同じであるが、提示には十分ではない、または単独で提示されることを意図されていないことをシグナリングするように定義することができる。

第3の実施形態では、トラックが提示に十分でない、または単独で提示されることを意図していないという情報を、トラックグループ情報の一部としてシグナリングすることができる。実際、サブピクチャ合成トラックグループにマッピングされたトラック（すなわち、'spco'に等しいtrack_group_typeを有するTrackGroupTypeBox内のtrack_group_idの同じ値を有するトラック）は、提示することができるビジュアルコンテンツを集合的に表す。しかし、このグループにマッピングされた個々のトラックの各々は他のトラックなしに単独で提示されるように意図されてもよいし、されなくてもよい。単純な代替処理は、トラックが「単独で提示されるように意図されている」かどうかを示す'spco'ボックス内の新しいパラメータ "not_output_track"を定義することにある。

代替実施形態では、このパラメータが単一ビットで表すことができ、他の7ビットは以下のように将来の使用または他の信号のために予約される。

not_output_trackが1にセットされている場合、トラックが単独で表示されることを意図していないことを示す。デフォルトでは、これはゼロであると仮定され、トラックはユーザに提示するために選択可能である。同様に、トラックがSubPictureCompositionBoxを含まない場合、それは単独で表示可能であると仮定される。

第4の実施形態では、トラックが提示に十分でない、または単独で提示されることを意図していないという情報は他のトラック情報または他のトラック情報の組み合わせから推論することができる。

例えば、トラックの表示可能なステータスは、トラックの依存性を提供するトラック基準ボックス（'tref'）と、トラック内のサンプルに対する共通の定義を提供するサンプルエントリ（ビデオに対するVisualSampleEntry）とに基づいて検出することができる。

例えば、トラックがタイプ'sabt'のトラック基準を有し、タイプ'tbas'のトラック基準を有する他のいくつかのトラックによって基準される場合、トラックは、タイルベーストラックとしてマークされ、再生可能／選択可能トラックとしてマークされる。トラック基準'sabt'を介してこのトラックから参照されるすべてのトラックはタイプ'hvt1'のVisualSampleEntryを有し、再生不能トラックとしてマークされている場合、タイルトラック（'hvt1'）としてマークすることができる。あるいはトラックがタイプ'tbas'のトラック基準およびタイプ'hvt1'のVisualSampleEntryを有する場合、トラックはタイルトラック（'hvt1’）としてマークされ、再生不能トラックとしてマークされる。このトラックからの全ての参照されたトラックは、タイルベーストラックとしてマークされ、再生不能トラックとしてマークされる。あるいは、トラックがタイプ'scal'のトラック基準を有する場合、トラックは抽出トラックであり、再生可能トラックとしてマークされる。このトラックからの全ての参照されたトラックは、再生可能なタイルトラック（'hvc1'）としてマークされる。デフォルトでは、再生可能トラックとしてマークすることができる。しかし、コンテンツ作成者は、デフォルトで再生不能トラックとしてマークすることを好む場合がある。さらに、トラックがトラック基準（'tref'）ボックスを含まず、トラックグループに関係しない場合、SampleEntryがチェックされるべきである。トラックが'hvc1’ 又は 'hev1’として検出された場合、トラックは少なくとも再生可能トラックとしてマークされる。

第5の実施形態では、第3の実施形態の代替処理として、2次元座標（track_x、track_y、track_width、track_weight）がSubPictureCompositionBox（'spco'）で定義されていない場合、パラメータnot_output_trackは以下に示すように、SubPictureCompositionBox（'spco'）において定義することができる。

または、パラメータnot_output_trackは、2DCoordinateInTrackGroupBox（）または2DCoordinateForEntityGroupBox（）またはVisualSampleEntryまたはSample Group Description入力レベルで定義された同様のボックスにおいて定義することができる。

さらにステップ260では、同様に、メイントラックまたは部分トラックを識別するために、明示的にシグナリングを追加することができる。

メディアファイル内のメイントラックは、同じメディアタイプを有するトラック、または異なるメディアタイプを有する関連トラックよりも重要度が高いと考えられるトラックである。例えば、メインビデオトラックは、メディアプレーヤが選択および再生のためにユーザに公開すべきトラックである。同様に、メディアファイルがストリーミングまたは送信されるとき、メイントラックはストリーミングマニフェストに公開されるべきである。例えば、サブピクチャ又はタイルの空間合成の場合には、メイントラックは合成トラックとすることができる。この場合も、空間合成の場合、メイントラックは、（サブピクチャまたはタイルトラックとは反対に）フルピクチャに対応するビデオトラックとすることができる。プレーヤによってレンダリングされるトラックのセットにおいて、メイントラックは、優先的にレンダリングされるトラックとすることができる。送信コンテキストでは、メイントラックは優先的にフェッチするトラックである。例えば、メディアファイル内のメイントラックは、メインメディアコンポーネントとしてストリーミングマニフェストに記述することができる。例えば、MPEG DASHマニフェストでは、メイントラックがプレセレクション要素のメインAdaptationSet、または「メイン（main）」値またはメイントラックであることを示すLabelを有するRole記述子を有するAdaptationSetとすることができる。本発明は、メディアファイルにおけるメイントラックをシグナリングする様々な方法を説明する。

メディアファイルにおける部分トラックは、メイントラックと組み合わせて、またはメイントラックおよび他の部分トラックと組み合わせてのみ処理することができるトラックである。タイプ'hvt1’のタイルトラックは、部分トラックの例である。これらは、タイルベーストラックと組み合わせてのみ処理することができる。

メイン／部分トラック信号は上述の「提示に十分でない、または単独で提示されることを意図しない」シグナリングのシグナリングと同様にシグナリングすることができる。これは、以下に示すように、トラックヘッダフラグ（例えば、 "Is_Main_Track": = 0x000020）内の明示的なフラグ値によって、またはサブピクチャ合成トラックグループ（'spco'）ボックス内の新しい特定のパラメータ"main_track"によってシグナリングすることができる。

このパラメータmain_trackは、トラックグループ内のトラックがメイントラックまたはフルピクチャトラックであることを示すために使用することができる。この場合、パーサは、トラックグループ内のこのメイントラックまたはフルピクチャトラックのみがレンダリングされるべきである（このパラメータが値0にセットされているグループにおける他のトラックではない）と考える。言い換えれば、他のトラックは部分トラックとみなされる。

代替処理として、メイントラックは、トラック内のUserDataBox（'udta'）内のKindBox（'kind'）を使用してシグナリングすることができる。KindBoxは、トラックにその役割または種類をラベル付けすることを可能にする。メイントラックは特定のschemeURI（例えば、"urn:mpeg:14496-12:main"）でKindBoxを定義することによってシグナリングされる。

mp4ライタはメイントラックシグナリングを利用して、メイントラックをDASH Preselection要素内の主適応セットとしてセットし、部分トラックをDASH MPD内の「隠れた」適応セットとしてセットすることができる。「隠れた」適応セットは、ユーザによって選択されることが意図されていない適応セットである。これらは、例えば"urn:mpeg:dash:not-selectable:2016"にセットされた特定の@schemeIdURIを有する関連する補足または必須記述子を定義することによって、DASH MPDにおいて明示的にシグナリングすることができる。

ステップ270において、トラックおよびトラックの合成のためのコンテンツカバレージ情報が、ビデオビットストリームまたはビデオサブビットストリームのカプセル化を記述するメタデータに追加される。

トラックカバレージ情報は、このトラックによって表されるコンテンツによってカバーされる球上のエリアに関する情報を提供する。

合成カバレージ情報は、1つ以上のトラックの組み合わせに関連する球面上の領域に関する情報を提供する。例えば、ムービーファイルが空間的関係を有する複数のビデオトラックを含む場合、合成カバレージ情報は、これらの複数のビデオトラックの空間的合成によってカバーされる球面上のエリアである。別の例では、メディアファイルが複数のビデオトラックと、このトラックのセットをどのようにレンダリングするかを示す変換行列とを含み、合成カバレージ情報は次いで、トラックのアセンブルされたセットによってカバーされるエリアに対応する。「合成カバレージ情報」は、「グローバルカバレージ情報」または「トラックグループ合成情報」と表すこともできる。合成またはグローバルカバレージ情報はまた、これらの複数のビデオトラックのサブセットの合成から生じる球面上のエリアを記述することができる。

第1の実施形態として、トラックカバレージ情報および合成カバレージ情報は、追加のシグナリングなしに、単一の共通カバレージ情報ボックス（CoverageInformationBox）を使用してシグナリングすることができる。そのような場合、CoverageInformationBoxの範囲は、ボックス階層におけるこのボックスの定義の位置に依存する。クライアントは、カバレージ情報がどこで宣言されるかを考慮することによって、トラックコンテンツに関連するか、またはコンテンツ全体に関連するかを判断することができる。この実施形態によれば、CoverageInformationBoxは、以下のように定義される。

ここで、coverage_shape_typeはカバーされる球領域の形状を指定し、SphereRegionStruct（）は、以下のように定義される。

ここで、center_yaw、center_pitch、およびcenter_rollは、グローバル座標軸に対するカバー領域のビューポートの向きを指定し、hor_rangeおよびver_rangeは存在する場合、カバーされる球領域の水平範囲および垂直範囲をそれぞれ指定し、補間は、現在使用されていない。

したがって、CoverageInformationBoxは、コンテンツによってカバーされる球上のエリアに関する情報を提供する。コンテンツの性質は、このボックスのコンテナに依存する。SubPictureCompositionBox 'spco'に存在する場合、コンテンツは同じサブピクチャ合成トラックグループに属するすべてのトラックによって表されるコンテンツ全体を指し、これらのトラックから合成される合成ピクチャは、コンテンツ全体のパックピクチャと呼ばれる。トラックのサンプルエントリ内に存在する場合、コンテンツはこのトラック自体によって表されるコンテンツを参照し、このトラック内のサンプルのピクチャは、コンテンツ全体のパックピクチャと呼ばれる。1つのトラックに対してCoverageInformation Boxが存在しない場合、それは、コンテンツが球全体をカバーすることを示す。

投影全方向ビデオボックス（'povd’）は、MPEG OMAFによって定義され、トラック内のVisualSampleEntry内に位置する中間ボックスであることに留意されたい。

さらに、SubPictureCompositionトラックグループボックス（'spco'）は、以下のように修正される。

ISOBMFF fullBox CoverageInformationBox（）をSubPictureCompositionBoxに追加する代わりに、以下のようにSphereRegionOnStructを直接含めることも可能である。

さらに、代替処理として、合成のためのカバレージ情報の存在は例えば、以下に示されるように、is_coverage_info_is_presentと示される追加のパラメータの値に調整されることができる。

実際に、SubPictureCompositionBoxは、このSubPictureCompositionBoxによって定義されるグループに関係するすべてのトラックにおいて定義されるので、トラックグループ内に合成トラックがある場合、合成カバレージ情報はこの合成トラックについてのみ定義することができ、各タイルトラックについて定義する必要はない。

第2の実施形態として、トラックカバレージ情報および合成カバレージ情報は、ローカルおよびグローバル指示を区別するためにフラグ値を有する単一の共通カバレージ情報ボックス（CoverageInformationBox）を使用してシグナリングすることができる。CoverageInformationBoxは、ISOBMFF FullBoxであるため、トラックカバレージとグローバルカバレージとの区別は、ボックスのフラグパラメータによって表すことができる。

この第2の実施形態によれば、CoverageInformation Boxは、以下のように定義される。

ボックスの構造は、ボックスの複数のインスタンスがローカル及び合成カバレージ情報が同じトラックに定義されなければならない場合に定義されることができることを除いて、前の実施形態とほぼ同じである。

次に、CoverageInformationBoxは、コンテンツによってカバーされる球上の領域に関する情報を提供するものとして定義される。コンテンツの性質は、フラグパラメータによって与えられる。Coverage Informationフラグのデフォルト値は0であり、これは、このボックスがコンテンツ全体のカバレージを記述することを意味する。このトラックがサブピクチャ合成トラックグループに属する場合、コンテンツ全体は同じサブピクチャ合成トラックグループに属するすべてのトラックによって表されるコンテンツを参照し、これらのトラックから合成される合成ピクチャは、コンテンツ全体のパックピクチャと呼ばれる。そうでない場合、コンテンツ全体はこのトラック自体によって表されるコンテンツを参照し、このトラック内のサンプルのピクチャは、コンテンツ全体のパックピクチャと呼ばれる。
Coverage Informationフラグの値が1である場合、このボックスは、このトラックによって表されるコンテンツのパックされたピクチャによってカバーされる球形領域を記述する。
このボックスがないことは、コンテンツが球全体をカバーすることを示す。

また、新たなフラグ値は、次のように定義される。
coverage_local：カバレージ情報がボックスを含むトラックに対してローカルであることを示す。Flag valueは0x000001である。デフォルトでは、この値はセットされない。

第2の実施形態の代替処理として、CoverageInformationBoxの定義はグローバルカバレージ情報を有するCoverageInformationBoxによって表されるトラックグループ（例えば、'spco’ボックスの1つ）を識別するtrack_group_idを含むことができる。
CoverageInformationボックスは、次のように定義される。

代替処理として、第3の実施形態では、2つの異なるボックスが合成カバレージ情報（TrackCoverageInformationBox）またはトラックカバレージ情報（TrackCoverageInformationBox）のいずれかを記述するように定義される。ボックスは、CompositionCoverageInformationBoxがこのトラックが複数のトラックグループに関係する場合に、トラック内で複数回定義することができることを除いて、以前の実施形態と同じ意味論（セマンティクス）で以下のように定義される。パラメータtrack_group_idはCompositionCoverageInformationBoxによって記述されるトラックグループ（例えば、'spco’ボックスの1つ）を識別することを可能にする。

代替処理として、第4の実施形態では、VisualSampleEntry（実施形態1）において、SubPictureCompositionBoxトラックグループ（'spco’）または投影された全方向性ビデオボックス（'povd’）のいずれかにおいて、トラックおよび合成カバレージ情報と、カバレージ情報ボックスを定義する能力とを区別するために、フラグを使用して、CoverageInformationBoxと実施形態を組み合わせることが可能である（実施形態2）。両方のアプローチを可能にすることによって、これは、OMAFコンテンツのためのカプセル化モードに依存するカバレージシグナリングにおける柔軟性を提供する。
- 単一トラックのカプセル化：単一のCoverageInformationBoxは、（Coverage_localフラグ値がセットされていない）トラックの'povd’ボックスで宣言することができる
- 複数トラックのカプセル化
o 合成トラックでは、グローバルカバレージ情報がこの合成トラックの'povd’内のCoverageInformationBoxで宣言される（フラグ値coverage_localはセットされない）。任意選択で、サブピクチャトラックは、（フラグ値Coverage_localセットを有する）CoverageInformationBoxを宣言することができる。
o 合成トラックがない場合、合成カバレージ情報は、フラグ値coverage_localがセットされていない'spco'ボックス内のCoverageInformationBoxで宣言される。任意選択で、サブピクチャトラックは、（フラグ値Coverage_localセットを有する）CoverageInformationBoxを宣言することができる。

代替処理として、第5の実施形態では、トラックグループ（'trgr’）メカニズムを使用するのではなく、新しいエンティティグループを使用して、すなわち、ファイルレベルメタボックスのGroupsListBoxまたはムービーレベルメタボックスのGroupsListBox内で特定のEntityToGroupBoxを定義することによって、トラックの合成が記述される場合、合成カバレージ情報はこの特定のEntityToGroupBoxのプロパティとして直接定義することができ、すなわち、上記の第1の実施形態で説明したCoverageInformationボックスはこの特定のEntityToGroupBox内で直接宣言することができる。トラック関連のカバレージ情報は、トラック内のVisualSampleEntry内のProjected全方向ビデオボックス内で依然として定義される。

この特定のエンティティグループは、（ステップ250に関rんして定義したエンティティグループ'egco'に基づいて）以下のように見える。

または、次のようにSphereRegionOnStructを直接含めることもできる。

代替処理として、第6の実施形態では、トラックハンドラタイプに依存することによって、カバレージ情報がトラックグループボックス'spco’に存在するか否かを決定することも可能である。メイントラックが'vide'ハンドラタイプを有し、サブピクチャトラックが'auxv' または 'subv'トラックを有すると仮定すると、'spco'ボックスのis_coverage_info_is_presentフラグは'auxv'または'subv'トラックに対して0にセットされ（すなわち、カバレージ情報が存在しない）、'vide'トラックに対して1にセットされる（すなわち、カバレージ情報が存在する）。

図2に戻ると、ステップ280で、仮想現実メディアコンテンツが実際に立体視仮想現実メディアコンテンツであるかどうか、すなわち、左ビューおよび右ビューを含むかどうかがチェックされる。
コンテンツが単一視（monoscopic）である場合、処理は直接ステップ290に進む。
コンテンツが立体視である場合、ステップ285で、立体視シグナリングがカプセル化に追加される。

立体視コンテンツの場合、従来、左ビューシーケンスと右ビューシーケンスの両方が立体視カメラから取得され、合成タイプに従ってビデオシーケンスまたは2つのビデオシーケンスに合成される。

立体視コンテンツの2つの異なるビューを表す2つのフレームを1つの単一フレームに結合する処理は、フレームパッキング（frame packing）と呼ばれる（図1のステップ125参照）。

フレームパッキングは、立体的ペアを形成する2つのビューを単一のフレームにパッキングすることからなる。いくつかの周知の使用されているフレームパッキング方式（スキーム）、すなわち、並列、上下、フレームシーケンシャル、垂直ラインインターリーブタイプ…が存在する。例えば、MPEGアプリケーションフォーマットISO/IEC 23000-11 1st edition（「立体視ビデオアプリケーションフォーマット」）またはISO/IEC 23001-8 2nd edition（「符号化独立符号点（CICP）」）は、これらの方式のいくつかを定義する。フレームパッキングは例えば、ISO/IEC 23001-8 2nd edition（"CICP"）で定義されているVideoFramePackingTypeのように、それぞれのビューを別々のフレームに保持することからなることもできる。

例えば、さらに本明細書によれば、値3は各復号化フレームが2つの構成ビューの対応するフレームの側パッキング配列を含むことをシグナリングし、値4は、各復号化フレームが2つの構成ビューの対応するフレームのトップボトム・パッキング配列を含むことをシグナリングする。

トラックが立体視メディアデータを含むかどうかを知らせるために、StereoVideoBoxがトラック内のVisualSampleEntryに定義される。

StereoVideoBoxは、立体視コンテンツを記述するためのISOBMFF構造である。StereoVideoBoxは、ビデオトラック内のデコードされたフレームがステレオペアを形成する2つの空間的にパックされた構成フレームの表現を含むか、またはステレオペアの2つのビューのうちの1つを含むかのいずれかを示すために使用される。StereoVideoBox内のパラメータは、ビューのフレームへの配置又はパッキングに関する情報を提供する。StereoVideoBoxは、メディアファイルを復号してレンダリングすることができるプレーヤに関する要件を提供するメディアファイルのサンプル記述部分に記載されている。

StereoVideoBoxは、（ISO/IEC 14496-12に従って）以下のように定義される。

ここで、single_view_allowedはコンテンツが立体視ディスプレイ上にのみ表示され得ること、または単一視シングルビューディスプレイ上に表示するためにどのビューが使用され得るかを示し、stereo_schemeは使用される立体的配置方式および使用される方式による立体的表示タイプを示す整数であり、stereo_indication_typeは、使用される立体的表示方式による立体的配置タイプを示す。

StereoVideoBoxが1つの単一トラックを形成する共通のパックされたフレーム内に左ビューフレームおよび右ビューフレームをパックするために使用されるフレームパッキング方式を記述することを可能にする場合、ISO/IEC 23090-2（MPEG OMAF）のコンテキストにおいて左ビューおよび右ビューが別々のトラックにパックされるときに、容易な記述を可能にしない。

さらに、MPEG OMAF仕様は立体的ビューの並列側パッキングおよび上下側パッキングのための値3および4のみを許容し、以下のようにStereoVideoBoxを用いて立体的コンテンツを記述することを推奨する。

しかし、本明細書では、別々のトラックで立体的ビューを記述することはできない。

立体視コンテンツの説明を単純化し、異なるOMAF記述子における立体視情報の繰り返しを回避するために、StereoVideoBoxは、単一のフレーム内にパックされるか、または別々のトラックにカプセル化されるビューが何であれ、任意のタイプのビューカプセル化またはパッキングをサポートするように拡張され得る。

第1に、カプセル化処理にいくつかの制約を課すことができ、立体的ビューが異なる特性を有する場合、例えば、領域ごとの品質ランキングでは各ビューがそれ自体のトラックにカプセル化されなければならず、各トラックに対するStereoVideoBoxはstereo_scheme = 4（すなわち、CICP ISO/IEC 23001-8で定義されるフレームパッキングを使用しなければならない）と、stereo_indication_type ={6,0}とを有しなければならず、これは復号されたフレームがフレームパッキングなしに完全な2Dフレームを構成することを意味する。

そうすることによって、SphereRegionQualityRankingBoxまたは2DRegionQualityRankingBoxなどのOMAF記述子内の他のどこかのビュー識別子（view_idc）を繰り返す必要がなくなる。トラックを構文解析することによって、プレーヤは、以下のかどうかを判定することができる。
- トラックには、単一視コンテンツ（StereoVideoBoxなし）が含まれている
- トラックには、立体視コンテンツ（StereoVideoBoxの存在）が含まれている
o 立体的の場合、1 つのビュー（tref = 'svdp' を参照するか、trefによって参照されるか）または両方のビューを含むかどうか
o 立体的で、単一のビューを含む場合、ビュー識別子はStereoVideoBoxを介して（以下に説明するように）表示される

stereo_scheme = 4、stereo_indication_type ={6,0}のステレオビデオボックスを、左ビューまたは右ビューのいずれかを含む各トラックに対して定義することによって、コンテンツが立体視コンテンツの一部であるが、どのトラックが右ビューの左であるかを識別することはできないことをシグナリングすることができる。

次に、タイプ'svdp’のトラック基準を使用して、左ビューおよび右ビューが識別される。基準トラック'svdp'を含むトラックは基準トラックとして識別され、基準トラックに依存し、立体視関連メタ情報も含む。

さらに、トラックがどのビューに対応するかを示すために、パラメータの対（single_view_allowed、stereo_indication_type）が使用される。
single_view_allowedのセマンティクスは、次のように定義される。
"stereo_scheme = 4、stereo_indication_typeが"no-packing"、すなわちstereo_indication_type ={6, 0}を示す場合、1に等しいsingle_view_allowed &1はトラックが右ビューを含むことを示し、2に等しいsingle_view_allowed &2は、トラックが左ビューを含むことを示す。この場合、値0及び3は禁止される。

代替処理として、single_view_allowedパラメータの既存のセマンティックを変更することを回避するために、トラックが左ビュー（is_left_view=1）または右ビュー（is_left_view=0）を含む場合に信号を送るための追加の1ビットパラメータ"is_left_view"を提供する、StereoVideoBoxの新しいバージョンが定義される。

あるいは、追加パラメータが以下の意味を有する2ビットパラメータ"view_idc"（以下に示す）であり、0に等しい場合、トラック内のメディアコンテンツがモノスコピックであることを示し、1はトラック内のメディアコンテンツが立体視コンテンツの左ビューであることを示し、2はトラック内のメディアコンテンツが立体視コンテンツの右ビューであることを示し、3はトラック内のメディアコンテンツが左ビューと右ビューの両方を含むことを示す。

別の代替処理として、新しいパラメータを追加し、ステレオビデオボックスの新しいバージョンを作成するのではなく、新しいフレームパッキング構成がstereo_scheme = 4（CICP ISO/IEC 23001-8の拡張に対応する）について定義され、すなわち、stereo_scheme = 4の場合、パラメータstereo_indication_typeについて、新しい値、例えば7が定義される。この新しい値は、以下のように定義される。
VideoFramePackingType = 7は、復号されたフレームが2つの構成フレーム（すなわち、立体視シーケンスの左ビューまたは右ビュー）の対応する平面の1つの単一平面を含むことを示す。

この新しいVideoFramePackingType値に加えて、また、5分の1サンプリング構造がフレームパックビデオ表現に使用されているかどうかを知らせる既存の関連フラグQuincunxSamplingFlagに加えて、例えば、ViewIdcFlagと示される新しい関連フラグが定義され、フレームパックビデオ表現に存在するビューのタイプを識別することを可能にする。存在しないか、または指定されない場合、またはViewIdcFlagの値0が左ビューおよび右ビューの両方が存在することを示すと推測される場合、値1は立体視コンテンツの左ビューのみが存在することを示し、値2は立体視コンテンツの右ビューのみが存在することを示し、ViewIdcFlagの他のすべての値は、ISO/IECによる将来の使用のために予約される。

StereoVideoBoxのstereo_scheme = 4の定義は、次のように変更される。
"stereo_scheme=4：lengthの値は2であり、stereo_indication_typeは符号なしint（8）の2つの構文要素を含む。第1のシンタックス要素は、ISO/IEC 23001-8からのVideoFramePackingTypeを含む。値0から6までのVideoFramePackingTypeの場合、第2のシンタックス要素の最下位ビットはISO/IEC 23001-8で指定されたQuincunxSamplingFlagの値を含み、他のビットは予約され、0にセットされる。値7を有するVideoFramePackingTypeの場合、第2のシンタックス要素の最下位2ビットは左ビューおよび右ビューを識別し、ViewIdcFlagの値を含むものとし（上記で定義したように）、他のビットは予約され、0にセットされるものとする。"

代替処理として、QuincunxSamplingFlagとViewIdcFlagの両方を、以下のようにStereoVideoBox内でstereo_scheme = 4を定義することによって同時にシグナリングすることができる。
"stereo_scheme=4：lengthの値は3であり、stereo_indication_typeは符号なしint（8）の3つの構文要素を含む。第1のシンタックス要素は、ISO/IEC 23001-8からのVideoFramePackingTypeを含む。第2のシンタックス要素の最下位ビットはISO/IEC 23001-8で指定されたQuincunxSamplingFlagの値を含み、他のビットは予約され、0にセットされる。第3のシンタックス要素の最下位2ビットは左ビューおよび右ビューを識別し、ViewIdcFlagの値（上記で定義したような）を含むものとし、他のビットは予約され、0にセットされるものとする。"

一例として、上記の代替例によれば、StereoVideoBoxは、以下のようにコメントに示される可能な値で変更されないままである。

代替処理として、QuincunxSamplingFlagおよびViewIdcFlagの両方は、以下のようにStereoVideoBoxにおいてstereo_scheme = 4を定義することによって、任意選択でシグナリングすることができる。
"stereo_scheme=4：lengthの値は1、2または3のいずれかであり、stereo_indication_typeは、符号なしint（8）の1、2または3つの構文要素をそれぞれ含む。第1のシンタックス要素は、ISO/IEC 23001-8からのVideoFramePackingTypeを含む。第2のシンタックス要素の最下位ビットは存在する場合、ISO/IEC 23001-8に規定されているQuincunxSamplingFlagの値を含み、他のビットは予約され、0にセットされる。第3のシンタックス要素の最下位2ビットは存在する場合、左ビューおよび右ビューを識別し、ViewIdcFlagの値（上記で定義したような）を含むものとし、他のビットは予約され、0にセットされるものとする。"第3のシンタックス要素が存在する場合、第2のシンタックス要素が存在するものとする。

別の代替処理として、別々のトラックにおける左右のビューを編成する立体視全方向性メディアのためのフレームパッキング構成は4（CICP ISO/IEC 23001-8で定義されるフレームパッキングを使用する）の代わりに、3に等しいstereo_scheme（ISO/IEC 23000-11 1st edition（「立体視ビデオアプリケーションフォーマット」）で定義されるフレームパッキングを使用する）を使用してシグナリングすることができる。ISO/IEC 14496-12 4th editionのStereoVideoBoxの規定によれば、次の通りである。
stereo_schemeが3に等しいことは、lengthの値が2であり、stereo_indication_typeが符号なしint（8）の2つの構文要素を含むことを示す。第1の構文要素は、ISO/IEC 23000-11:2009の表4からの立体視合成タイプを含むものとする。第2のシンタックス要素の最下位ビットはISO/IEC 23000-11:2009の8.4.3で指定されているようにis_left_firstの値を含み、他のビットは予約され、0にセットされる。

したがって、3に等しいstereo_schemeを有するStereoVideoBoxをこのトラックにおいて定義することによって、および値0x3を有するstereo_indication_typeの第1のシンタックス要素を定義することによって（トラックが左/右ビューシーケンスタイプ、すなわち、左ビューまたは右ビューのみのいずれかを表すことを意味する）、および第2のシンタックス要素を0として定義して、左ビューがセカンダリ（二次）ビューであることをシグナリングすることによって、または左ビューがプライマリ（一次）ビューであることをシグナリングすることによって、トラックが立体視コンテンツの左ビューまたは右ビューを含むことをシグナリングすることが可能である。プライマリビューおよびセカンダリビューは、左ビューおよび右ビュートラックをリンクするトラックリファレンス'svdp'のおかげで識別される。type 'svdp' の'tref' ボックスを持つトラックはセカンダリビューシーケンスであり、参照されるトラックはプライマリビューシーケンスである。

StereoVideoBoxの新しいバージョン（バージョン（version）=1と示される）を作成する実施形態におけるStereoVideoBoxのサイズは、stereo_schemeおよびstereo_indication_typeに対して許可された数個の値に、より少ないバイトを割り当てることによって、バージョン0と比較して低減され得ることに留意されたい。

代替処理として、新しいパラメータview_idcを導入する実施形態のためのStereoVideoBoxのよりコンパクトなバージョン1は、以下のように記述することができる（6バイトを節約する）。

同様に、追加パラメータが"view_idc"の代わりに"is_left_view"である場合、同じコンパクトバージョンを定義することができる。

さらに、フレームパッキングの結果、ビュー当たり1つのパッキングされたフレームが得られる場合、DASH多重ビュー方式は立体的ペアを記述するために、適応セットレベルのRole要素において使用され得る。

上記のすべての実施形態によれば、SphereRegionQualityRankingBoxおよび2DRegionQualityRankingBox内のview_idcおよびview_idc_presence_flagパラメータはビューが以下のように異なるトラックに分割されるとき、もはや必要とされないので除去される。

代替処理として、view_idcおよびview_idc_presence_flagパラメータは以下に示すように、SphereRegionQualityRankingBoxまたは2DRegionQualityRankingBoxの特定のバージョンに調整される。

実際、トラックが左ビュー全体または右ビュー全体のいずれかのみを含む場合、このトラック内に定義された各品質ランキング領域についてview_idc（立体視ビューをシグナリングする）を含める必要はない。このような場合、これらのボックスのバージョン（version）==0が使用される。そうではなく、トラックがパックされたビューを含む場合、それらのボックスのバージョン（version）==1が使用される。

本発明の実施形態に従って生成されたメディアファイルを構文解析することであって、メディアファイルはシーンのワイドビューに対応する符号化されたメディアデータを含み、クライアントは、以下のステップを含むことができる。符号化されたメディアデータをカプセル化する少なくとも1つのトラックが、メディアファイル内で識別される。所定のトラックにカプセル化された符号化メディアデータを復号するためのデータの必要性に関する情報は、メディアファイルから取得される。所与のトラックの符号化されたメディアデータは、取得された情報に従って復号される。

図3は、本発明の1つまたは複数の実施形態を実施するためのコンピューティングデバイス300の概略ブロック図である。コンピューティングデバイス300は、マイクロコンピュータ、ワークステーション、またはライトポータブル装置などの装置とすることができる。コンピューティングデバイス300は、以下に接続された通信バスを備える。
- マイクロプロセッサのような中央処理ユニット（CPU）301
- 本発明の実施形態の方法の実行可能コードを記憶するためのランダムアクセスメモリ（RAM）302、ならびにマニフェストの読取りおよび書込み、ならびに/またはビデオの符号化、および／または所与のファイルフォーマットの下でのデータの読取りまたは生成のための方法を実施するために必要な変数およびパラメータを記録するように適合されたレジスタは例えば、拡張ポートに接続された任意選択のRAMによって、そのメモリ容量を拡張することができる。
- 本発明の実施形態を実施するためのコンピュータプログラムを記憶するための読出し専用メモリ（ROM）303
- 次に、通常、処理されるデジタルデータが送信または受信される通信ネットワークに接続されるネットワークインターフェース304。ネットワークインターフェース304は単一のネットワークインターフェースであってもよく、または異なるネットワークインターフェースの設定（例えば、有線インターフェースおよび無線インターフェース、または異なる種類の有線インターフェースまたは無線インターフェース）から構成されてもよい。データは、送信のためにネットワークインターフェースに書き込まれるか、またはCPU 301で実行されるソフトウェアアプリケーションの制御下で受信のためにネットワークインターフェースから読み出される。
- ユーザからの入力を受信するため、またはユーザに情報を表示するためのユーザインターフェース（UI）305
- ハードディスク（HD）306
- ビデオソースやディスプレイなどの外部デバイスとの間でデータを送受信するためのI/Oモジュール307

実行可能コードは読み出し専用メモリ303、ハードディスク306、または例えばディスクのようなリムーバブルデジタル媒体のいずれかに記憶されてもよい。変形例によれば、プログラムの実行可能なコードはハードディスク306のような通信装置300の記憶手段の1つに記憶されてから実行されるために、ネットワークインターフェース304を介して、通信ネットワークの手段によって受信されることができる。

中央処理ユニット301は本発明の実施形態によるプログラムの命令またはソフトウェアコードの一部の実行を制御し、指示するように適合され、命令は、前述の記憶手段のうちの1つに記憶される。電源投入後、CPU 301は、例えばプログラムROM 303またはハードディスク（HD）306からソフトウェアアプリケーションに関する命令をロードした後、メインRAMメモリ302からの命令を実行することができる。このようなソフトウェアアプリケーションは、CPU 301によって実行されると、先の図に示すフローチャートの各ステップを実行する。

本実施形態では、装置が本発明を実施するためにソフトウェアを使用するプログラマブル装置である。しかしながら、代替的に、本発明はハードウェア（例えば、特定用途向け集積回路（ASIC）の形態）で実施されてもよい。

以上、特定の実施形態を参照して本発明を説明したが、本発明は特定の実施形態に限定されるものではなく、本発明の範囲内にある修正は当業者には明らかであろう。

例えば、本発明はカメラ、スマートフォン、ヘッドマウントディスプレイ、または例えば関心のある特定の領域にズームインするためのTVまたはマルチメディアディスプレイのためのリモートコントローラとして機能するタブレットのような装置に組み込まれてもよい。これはまた、関心のある特定の領域を選択することによってマルチメディアプレゼンテーションの個人化されたブラウジング体験を有するために、同じデバイスから使用され得る。ユーザによるこれらの装置および方法からの別の使用は、他の接続されたデバイスと、ユーザの好ましいビデオのいくつかの選択されたサブパートを共有することである。また、監視カメラが本発明によるデータを提供する方法をサポートする場合には、監視下に置かれた建物の特定の領域で何が起こるかを監視するために、スマートフォンまたはタブレットと共に使用することもできる。

多くのさらなる修正および変形は単に例として与えられ、本発明の範囲を限定することを意図されておらず、その範囲は添付の特許請求の範囲によってのみ決定される、前述の例示的な実施形態を参照することにより、当業者に示唆されるのであろう。特に、異なる実施形態からの異なる特徴は、適宜、交換されてもよい。

Claims

複数の部分画像を含むワイド画像の符号化メディアデータを取得することと、
前記符号化メディアデータを、メディアファイルの複数のトラックにカプセル化することと、を含み、
前記カプセル化することは、
前記複数のトラックの各々に対応するトラックコンテナであって、１つのトラックについて記述する第１のボックスと、複数のトラックの共通セットについて記述する第２のボックスとを含むトラックコンテナに格納される記述メタデータを生成することと、
１つまたは複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示すカバレージ情報を含む第１のデータ構造を生成することと、
前記カバレージ情報が、前記共通セットに属する前記複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す場合は、前記第１のデータ構造を前記第２のボックスに格納し、
前記カバレージ情報が、１つのトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す場合は、前記第１のデータ構造を前記第１のボックスに格納することと、を含む方法。
前記共通セットは、ISOBMFF ISO/IEC 14496-12によって定義される'track group'である、請求項１に記載の方法。
前記第２のボックスは、ISOBMFF ISO/IEC 14496-12によって定義される'track group'ボックスである、請求項１または２に記載の方法。
前記第１のボックスは、ISOBMFF ISO/IEC 14496-12によって定義されるProjected omnidirectional video boxである、請求項１から３のいずれか１項に記載の方法。
前記第１のデータ構造は、ISOBMFF ISO/IEC 14496-12によって定義されるCoverage information boxである、請求項１から４のいずれか１項に記載の方法。
複数の部分画像を含むワイド画像の符号化メディアデータが複数のトラックにカプセル化されたメディアファイルから、前記複数のトラックを取得することと、
前記複数のトラックの各々に対応するトラックコンテナであって、１つのトラックについて記述する第１のボックスと、複数のトラックの共通セットについて記述する第２のボックスとを含むトラックコンテナから記述メタデータを取得することを含み、
前記記述メタデータは、１つまたは複数のトラックにカプセル化された符号化メディアデータによってカバーされる範囲を示すカバレージ情報を含む第１のデータ構造を含み、
前記第１のデータ構造が前記第２のボックスに格納されている場合は、前記カバレージ情報は、前記共通セットに属する前記複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示し、
前記第１のデータ構造が前記第１のボックスに格納されている場合は、前記カバレージ情報が、１つのトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す、方法。
前記共通セットは、ISOBMFF ISO/IEC 14496-12によって定義される'track group'である、請求項６に記載の方法。
前記第２のボックスは、ISOBMFF ISO/IEC 14496-12によって定義される'track group'ボックスである、請求項６または７に記載の方法。
前記第１のボックスは、ISOBMFF ISO/IEC 14496-12によって定義されるProjected omnidirectional video boxである、請求項６から８のいずれか１項に記載の方法。
前記第１のデータ構造は、ISOBMFF ISO/IEC 14496-12によって定義されるCoverage information boxである、請求項６から９のいずれか１項に記載の方法。
プロセッサを備え、前記プロセッサは、
複数の部分画像を含むワイド画像の符号化メディアデータを取得し、
前記符号化メディアデータを、メディアファイルの複数のトラックにカプセル化し、
前記カプセル化することは、
前記複数のトラックの各々に対応するトラックコンテナであって、１つのトラックについて記述する第１のボックスと、複数のトラックの共通セットについて記述する第２のボックスとを含むトラックコンテナに格納される記述メタデータを生成することと、
１つまたは複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示すカバレージ情報を含む第１のデータ構造を生成することと、
前記カバレージ情報が、前記共通セットに属する前記複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す場合は、前記第１のデータ構造を前記第２のボックスに格納し、
前記カバレージ情報が、１つのトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す場合は、前記第１のデータ構造を前記第１のボックスに格納することと、を含む、ように構成される装置。
プロセッサを備え、前記プロセッサは、
複数の部分画像を含むワイド画像の符号化メディアデータが複数のトラックにカプセル化されたメディアファイルから、前記複数のトラックを取得し、
前記複数のトラックの各々に対応するトラックコンテナであって、１つのトラックについて記述する第１のボックスと、複数のトラックの共通セットについて記述する第２のボックスとを含むトラックコンテナから記述メタデータを取得し、
前記記述メタデータは、１つまたは複数のトラックにカプセル化された符号化メディアデータによってカバーされる範囲を示すカバレージ情報を含む第１のデータ構造を含み、
前記第１のデータ構造が前記第２のボックスに格納されている場合は、前記カバレージ情報は、前記共通セットに属する前記複数のトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示し、
前記第１のデータ構造が前記第１のボックスに格納されている場合は、前記カバレージ情報が、１つのトラックにカプセル化される符号化メディアデータによってカバーされる範囲を示す、ように構成される装置。