JP2019521584A

JP2019521584A - Ｈｔｔｐを介した動的適応型ストリーミングにおけるバーチャルリアリティビデオのシグナリング

Info

Publication number: JP2019521584A
Application number: JP2018561472A
Authority: JP
Inventors: ワン、イェ−クイ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2016-05-24
Filing date: 2017-05-24
Publication date: 2019-07-25
Also published as: BR112018073902A2; KR20190014500A; WO2017205504A1; EP3466074A1; CN109076238A; CA3021215A1; US10587934B2; US20170347163A1; US20200351572A1; US11375291B2; CN109076238B; KR102534899B1

Abstract

メディアデータを処理するためのデバイスは、バーチャルリアリティ（ＶＲ）ビデオデータを含むメディアデータを受信することと、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を行うように構成される。メディアデータを処理するためのデバイスは、ＶＲビデオデータを含むメディアデータを生成することと、メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、メディアデータに含めることと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを送ることと、を行うように構成される。

Description

[0001] 本出願は、２０１６年５月２４日に出願された米国特許仮出願第６２／３４１，０１２号の利益を主張し、その内容の全体が参照によってここに組み込まれる。
［技術分野］

[0002] 本開示は、符号化されたビデオデータのストレージおよびトランスポートに関する。

[0003] デジタルビデオ性能（capabilities）は、デジタルテレビ、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲーミングデバイス、ビデオゲームコンソール、セルラまたは衛星無線電話、ビデオ電話会議デバイス等を含む、幅広いデバイスに組み込まれることができる。デジタルビデオデバイスは、デジタルビデオ情報をより効率的に送信および受信するために、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３、またはＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４、Ｐａｒｔ１０、アドバンストビデオコーディング（ＡＶＣ）、ＩＴＵ−ＴＨ．２６５−高効率ビデオコーディング（ＨＥＶＣ）によって定義される規格、およびそのような規格の拡張に記述（described）されるもののようなビデオ圧縮技法を、インプリメントする。

[0004] ビデオ圧縮技法は、ビデオシーケンスに内在する冗長性を減少させるまたは取り除くために、空間的予測および／または時間的予測を実施する。ブロックベースのビデオコーディングの場合、ビデオフレームまたはスライスは、複数のマクロブロックに区分され得る。各マクロブロックは、さらに区分されることができる。イントラコーディングされた（Ｉ）フレームまたはスライス中のマクロブロックは、隣接するマクロブロックに対する空間的予測を使用して符号化される。インターコーディングされた（ＰまたはＢ）フレームまたはスライス中のマクロブロックは、同じフレームまたはスライス中の隣接するマクロブロックに対する空間的予測、または他の参照フレームに対する時間的予測を使用し得る。

[0005] ビデオデータが符号化された後、そのビデオデータは、送信またはストレージのためにパケット化され得る。ビデオデータは、多様な規格、例えば国際標準化機構（ＩＳＯ：International Organization for Standardization）ベースのメディアファイルフォーマットおよびその拡張、例えばＨＥＶＣファイルフォーマット、のうちの任意のものに準拠するビデオファイルへと、アセンブル（assembled）され得る。

[0006] 一般に、本開示は、バーチャルリアリティ（ＶＲ）に関する技法を説明する。より具体的には、本開示は、ＨＴＴＰを介した動的適応型ストリーミング（ＤＡＳＨ：dynamic adaptive streaming over HTTP）におけるＶＲビデオのシグナリングのための技法を説明する。

[0007] 本開示の１つの例によれば、メディアデータを処理するための方法は、メディアデータを受信することであって、ここにおいて、メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを備える、受信することと、メディアプレゼンテーション（media presentation）のためのメディアプレゼンテーション記述（media presentation description）の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を含む。

[0008] 本開示の別の例によれば、メディアデータを処理するためのデバイスは、メディアデータを記憶するように構成されるメモリと、１つまたは複数のプロセッサとを含み、１つまたは複数のプロセッサは、メディアデータを受信することであって、ここにおいて、メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを備える、受信することと、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を行うように構成される。

[0009] 本開示の別の例によれば、メディアデータを処理する方法は、メディアデータを生成することであって、ここにおいて、メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを含む、生成することと、メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、メディアデータに含めることと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を含む。

[0010] 本開示の別の例によれば、メディアデータを処理するためのデバイスは、メディアデータを記憶するように構成されるメモリと、１つまたは複数のプロセッサとを含み、１つまたは複数のプロセッサは、メディアデータを生成することであって、ここにおいて、メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを含む、生成することと、メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、メディアデータに含めることと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを送ることと、を行うように構成される。

[0011] １つまたは複数の例の詳細が、添付の図面および以下の説明に記載される。他の特徴、オブジェクト、および利点は、説明、図面から、および特許請求の範囲から、明らかになる。

[0012] 図１は、ネットワークを介してメディアデータをストリーミングするための技法をインプリメントする例示的なシステムを例示するブロック図である。 [0013] 図２は、タイルベースのバーチャルリアリティ（ＶＲ）ビデオの部分的な復号の例を例示する概念図である。 [0014] 図３は、第１のスケーラブルコーディングＶＲビデオの部分的な復号を例示する概念図である。 [0015] 図４は、第２のスケーラブルコーディングＶＲビデオの部分的な復号を例示する概念図である。 [0016] 図５は、第１のサイマルキャストコーディングベースのＶＲビデオの部分的な復号を例示する概念図である。 [0017] 図６は、第２のサイマルキャストコーディングベースのＶＲビデオの部分的な復号を例示する概念図である。 [0018] 図７は、リトリーバルユニットのコンポーネントの例示的なセットをより詳細に例示するブロック図である。 [0019] 図８は、例示的なマルチメディアコンテンツの要素を例示する概念図である。 [0020] 図９は、例示的なビデオファイルの要素を例示するブロック図である。 [0021] 図１０は、本開示の技法による、メディアデータを処理するためのフローチャートである。 [0022] 図１１は、本開示の技法による、メディアデータを処理するためのフローチャートである。

詳細な説明

[0023] 一般に、本開示は、バーチャルリアリティ（ＶＲ）に関する技法を説明する。より具体的には、本開示は、ＨＴＴＰを介した動的適応型ストリーミング（ＤＡＳＨ）におけるＶＲビデオのシグナリングのための技法を説明する。ＤＡＳＨの１つのバージョンは、ＩＳＯ／ＩＥＣ２３００９−１に定められている（specified in）。本開示の技法は、ＩＳＯベースのメディアファイルフォーマット、スケーラブルビデオコーディング（ＳＶＣ）ファイルフォーマット、アドバンストビデオコーディング（ＡＶＣ）ファイルフォーマット、第３世代パートナーシッププロジェクト（３ＧＰＰ（登録商標））ファイルフォーマット、および／またはマルチビュービデオコーディング（ＭＶＣ）ファイルフォーマット、または他の同様のビデオファイルフォーマットのうちの任意のものに従ってカプセル化されたビデオデータに準拠するビデオファイルに適用され得る。

[0024] ＨＴＴＰストリーミングでは、頻繁に使用される動作は、ＨＥＡＤ、ＧＥＴ、および部分的ＧＥＴを含む。ＨＥＡＤ動作は、所与のユニフォームリソースロケータ（ＵＲＬ）またはユニフォームリソースネーム（ＵＲＮ）に関連するファイルのヘッダを、そのＵＲＬまたはＵＲＮに関連するペイロードをリトリーブすることなく、リトリーブする。ＧＥＴ動作は、所与のＵＲＬまたはＵＲＮに関連するファイル全体をリトリーブする。部分的ＧＥＴ動作は、入力パラメータとしてバイト範囲を受け取り、ファイルの、連続した数のバイトをリトリーブし、ここでそのバイトの数は、受け取られたバイト範囲に対応する。したがって、部分的ＧＥＴ動作は１つまたは複数の個々の動画フラグメントを得る（get）ことができるので、動画フラグメントは、ＨＴＴＰストリーミングのために提供され得る。動画フラグメントには、複数の異なるトラックのいくつかのトラックフラグメントが存在することができる。ＨＴＴＰストリーミングでは、メディアプレゼンテーションは、クライアントにとってアクセス可能なデータの構造化されたコレクションであり得る。ＩＳＯ／ＩＥＣ２３００９−１は、メディアプレゼンテーションを、メディアコンテンツの制限のあるまたは制限のないプレゼンテーション（bounded or unbounded presentation）を確立する、データのコレクションと定義する。クライアントは、ストリーミングサービスをユーザに提示（present）するために、メディアデータ情報を要求およびダウンロードし得る。

[0025] ＨＴＴＰストリーミングを使用した３ＧＰＰデータのストリーミングの例では、マルチメディアコンテンツのビデオおよび／またはオーディオデータについて複数の表現（representations）が存在し得る。以下に説明されるように、異なる表現は、異なるコーディング特性（例えば、ビデオコーディング規格の異なるプロファイルまたはレベル）、異なるコーディング規格またはコーディング規格の拡張（マルチビューおよび／またはスケーラブル拡張のような）、または異なるビットレートに対応し得る。そのような表現のマニフェストは、メディアプレゼンテーション記述（ＭＰＤ：Media Presentation Description）データ構造において定義され得る。メディアプレゼンテーションは、ＨＴＴＰストリーミングクライアントデバイスにとってアクセス可能なデータの構造化されたコレクションに対応し得る。ＨＴＴＰストリーミングクライアントデバイスは、クライアントデバイスのユーザにストリーミングサービスを提示するために、メディアデータ情報を要求およびダウンロードし得る。メディアプレゼンテーションは、ＭＰＤデータ構造において記述され得、それは、ＭＰＤの更新を含み得る。

[0026] メディアプレゼンテーションは、１つまたは複数の期間のシーケンス（a sequence of one or more periods）を含み得る。ＩＳＯ／ＩＥＣ２３００９−１は、メディアプレゼンテーション（Media Presentation）のインターバルを定義し、ここですべての期間（Period）の連続的なシーケンスがメディアプレゼンテーション（Media Presentation）を構成する。各期間は、次の期間（Period）の始まりまで、または最後の期間の場合はメディアプレゼンテーションの終わりまで、広がり（extend）得る。各期間は、同じメディアコンテンツについての１つまたは複数の表現を含み得る。表現は、オーディオ、ビデオ、時限のテキスト（timed text）、または他のそのようなデータの、いくつかの代替的な符号化されたバージョンのうちの１つであり得る。表現は、符号化のタイプによって、例えば、ビデオデータについてのビットレート、解像度、および／またはコーデック、およびオーディオデータについてのビットレート、言語、および／またはコーデックによって、異なり得る。表現（representation）という用語は、マルチメディアコンテンツの特定の期間に対応し、かつ特定の方法で符号化された、符号化されたオーディオまたはビデオデータのセクションを指すために使用され得る。

[0027] 特定の期間の複数の表現は、それら表現が属する適応セット（adaptation set）を示すＭＰＤにおける属性によって示されるグループに、割り当てられ得る。ＩＳＯ／ＩＥＣ２３００９−１は、表現を、記述的メタデータに関連しかつ配信フォーマットにおける１つまたは複数のメディアストリームのカプセル化（encapsulation）およびコレクションと定義し、ならびに、適応セットを、１つのまたはいくつかのメディアコンテンツコンポーネントの置き換え可能な符号化されたバージョンのセットと定義する。同じ適応セット中の複数の表現は、一般に、クライアントデバイスが、例えば帯域幅適応を実施するために、これらの表現間で動的におよび途切れなく切り替えることができるという点で、互いに代替的なもの（alternatives to each other）と考えられる。例えば、特定の期間についてのビデオデータの各表現は、対応する期間についてのマルチメディアコンテンツの、ビデオデータまたはオーディオデータのようなメディアデータを提示するための復号のために、それら表現のうちのいずれでも選択され得るように、同じ適応セットに割り当てられ得る。１つの期間内のメディアコンテンツは、存在する場合、グループ０からの１つの表現か、あるいは、いくつかの例では、各非ゼログループからの多くても１つの表現の組合せか、のいずれかで表され得る。ある期間の各表現についてのタイミングデータは、その期間の開始時間（the start time）に対して表され得る。

[0028] 表現は、１つまたは複数のセグメントを含み得る。各表現は、初期化セグメントを含み得るか、または表現の各セグメントは、自己初期化するもの（self-initializing）であり得る。存在する場合、初期化セグメントは、表現にアクセスするための初期化情報を含み得る。一般に、初期化セグメントは、メディアデータを含まない。セグメントは、ユニフォームリソースロケータ（ＵＲＬ）、ユニフォームリソースネーム（ＵＲＮ）、またはユニフォームリソース識別子（ＵＲＩ）のような識別子によって一意に参照され得る。ＭＰＤは、各セグメントについての識別子を提供し得る。いくつかの例では、ＭＰＤはまた、範囲属性の形式でバイト範囲を提供し得、それは、ＵＲＬ、ＵＲＮ、またはＵＲＩによってアクセス可能なファイル内のセグメントについてのデータに対応し得る。ＩＳＯ／ＩＥＣ２３００９−１は、セグメントを、ＭＰＤによって指定（specified）されるＨＴＴＰ−ＵＲＬおよびオプションとしてバイト範囲に関連するデータのユニットと定義し、および初期化セグメントを、メディアセグメント（Media Segments）にカプセル化されたメディアストリームを提示するために必要であるメタデータを含むセグメントと定義する。ＩＳＯ／ＩＥＣ２３００９−１は、メディアセグメントを、初期化セグメント（initialization Segment）（存在する場合）、および、ゼロまたはより先行するセグメント（zero or more preceding segments）と組み合わせたときに再生を可能にし、かつ使用中のメディアフォーマットに準拠するセグメントと定義する。

[0029] 異なるタイプのメディアデータに関する事実上同時のリトリーブ（substantially simultaneous retrieval）のために、複数の異なる表現が選択され得る。例えば、クライアントデバイスは、セグメントをそこからリトリーブする（from which to retrieve segments）オーディオ表現、ビデオ表現、および時限のテキスト表現を選択し得る。いくつかの例では、クライアントデバイスは、帯域幅適応を実施するための特定の適応セットを選択し得る。つまり、クライアントデバイスは、ビデオ表現を含む適応セット、オーディオ表現を含む適応セット、および／または時限のテキストを含む適応セット、を選択し得る。代替的に、クライアントデバイスは、ある特定のタイプのメディア（例えば、ビデオ）についての適応セットを選択し得、および他のタイプのメディア（例えば、オーディオおよび／または時限のテキスト）についての表現を直接的に選択し得る。

[0030] 図１は、ネットワークを介してメディアデータをストリーミングするための技法をインプリメントする例示的なシステム１０を例示するブロック図である。この例では、システム１０は、コンテンツ準備デバイス２０、サーバデバイス６０、およびクライアントデバイス４０を含む。クライアントデバイス４０およびサーバデバイス６０は、ネットワーク７４によって通信的に結合され、それはインターネットを備え得る。いくつかの例では、コンテンツ準備デバイス２０およびサーバデバイス６０もまた、ネットワーク７４または別のネットワークによって結合され得るか、または直接、通信的に結合され得る。いくつかの例では、コンテンツ準備デバイス２０およびサーバデバイス６０は、同じデバイスを備え得る。

[0031] コンテンツ準備デバイス２０は、図１の例では、オーディオソース２２およびビデオソース２４を備える。オーディオソース２２は、例えば、オーディオエンコーダ２６によって符号化されることになるキャプチャされたオーディオデータを表す電気的な信号を生み出す（produces）マイクロフォンを備え得る。代替的に、オーディオソース２２は、前に記録されたオーディオデータを記憶する記憶媒体、コンピュータ化されたシンセサイザのようなオーディオデータジェネレータ、またはオーディオデータの任意の他のソースを備え得る。ビデオソース２４は、ビデオエンコーダ２８によって符号化されることになるビデオデータを生み出すビデオカメラ、前に記録されたビデオデータで符号化された記憶媒体、コンピュータグラフィックスソースのようなビデオデータ生成ユニット、またはビデオデータの任意の他のソースを備え得る。コンテンツ準備デバイス２０は、必ずしもすべての例においてサーバデバイス６０に通信可能に結合されるわけではなく、サーバデバイス６０によって読み出される別個の媒体にマルチメディアコンテンツを記憶し得る。

[0032] 生のオーディオおよびビデオデータは、アナログまたはデジタルデータを備え得る。アナログデータは、オーディオエンコーダ２６および／またはビデオエンコーダ２８によって符号化される前にデジタル化され得る。オーディオソース２２は、話している関係者（a speaking participant）から、その話している関係者が話している間オーディオデータを取得し得、ビデオソース２４は、話している関係者のビデオデータを同時に取得し得る。他の例では、オーディオソース２２は、記憶されたオーディオデータを備えるコンピュータ読み取り可能な記憶媒体を備え得、ビデオソース２４は、記憶されたビデオデータを備えるコンピュータ読み取り可能な記憶媒体を備え得る。このようにして、本開示に説明される技法は、ライブの、ストリーミングの、リアルタイムのオーディオおよびビデオデータに、あるいは、アーカイブされた、事前に記録されたオーディオおよびビデオデータに、適用され得る。

[0033] ビデオフレームに対応するオーディオフレームは、一般に、ビデオフレーム内に含まれる、ビデオソース２４によってキャプチャされた（または生成された）ビデオデータと同時に（contemporaneously）、オーディオソース２２によってキャプチャされた（または生成された）オーディオデータを含む、オーディオフレームである。例えば、話している関係者が、一般に話すことによってオーディオデータを生み出している間、オーディオソース２２はオーディオデータをキャプチャし、ビデオソース２４は同時に、つまり、オーディオソース２２がオーディオデータをキャプチャしている間に、話している関係者のビデオデータをキャプチャする。ゆえに、オーディオフレームは、１つまたは複数の特定のビデオフレームに時間的に対応し得る。したがって、ビデオフレームに対応するオーディオフレームは、一般に、オーディオデータおよびビデオデータが同時にキャプチャされる状況に対応し、それに関し、オーディオフレームおよびビデオフレームはそれぞれ、同時にキャプチャされたオーディオデータおよびビデオデータを備える。

[0034] いくつかの例では、オーディオエンコーダ２６は、各符号化されたオーディオフレームに、その符号化されたオーディオフレームに関するオーディオデータが記録された時間を表すタイムスタンプを符号化し得、同様に、ビデオエンコーダ２８は、各符号化されたビデオフレームに、符号化されたビデオフレームに関するビデオデータが記録された時間を表すタイムスタンプを符号化し得る。そのような例では、あるオーディオフレームがあるビデオフレームに対応することは、あるオーディオフレームがあるタイムスタンプを備え、あるビデオフレームが同じタイムスタンプを備えること、を備え得る。コンテンツ準備デバイス２０は、オーディオエンコーダ２６および／またはビデオエンコーダ２８がタイムスタンプをそこから生成し得る、または、オーディオソース２２およびビデオソース２４がオーディオおよびビデオデータをそれぞれタイムスタンプと関連付けるために使用し得る、内部クロックを含み得る。

[0035] いくつかの例では、オーディオソース２２は、オーディオデータが記録された時間に対応するデータをオーディオエンコーダ２６に送り得、ビデオソース２４は、ビデオデータが記録された時間に対応するデータをビデオエンコーダ２８に送り得る。いくつかの例では、オーディオエンコーダ２６は、必ずしもオーディオデータが記録された絶対時間を示すことなく、符号化されたオーディオデータの相対的な時間的順序を示すために、符号化されたオーディオデータにシーケンス識別子を符号化し得、同様に、ビデオエンコーダ２８もまた、符号化されたビデオデータの相対的な時間的順序を示すために、シーケンス識別子を使用し得る。同様に、いくつかの例では、シーケンス識別子は、マッピングされ得るか、または別の方法でタイムスタンプと互いに関係づけられ得る。

[0036] オーディオエンコーダ２６は一般に、符号化されたオーディオデータのストリームを生み出し、一方でビデオエンコーダ２８は、符号化されたビデオデータのストリームを生み出す。（オーディオであれビデオであれ）データの各個々のストリームは、エレメンタリストリームと呼ばれ得る。エレメンタリストリームは、表現の、単一のデジタル的にコーディングされた（場合によっては圧縮された）コンポーネントである。例えば、表現のコーディングされたビデオまたはオーディオ部分は、エレメンタリストリームであることができる。エレメンタリストリームは、ビデオファイル内でカプセル化される前に、パケット化されたエレメンタリストリーム（ＰＥＳ：packetized elementary stream）に変換され得る。同じ表現内において、１つのエレメンタリストリームに属するＰＥＳパケットを、他のエレメンタリストリームに属するものと区別するために、ストリームＩＤが使用され得る。エレメンタリストリームのデータの基本ユニットは、パケット化されたエレメンタリストリーム（ＰＥＳ）パケットである。したがって、コーディングされたビデオデータは一般に、エレメンタリビデオストリームに対応する。同様に、オーディオデータは、１つまたは複数のそれぞれのエレメンタリストリームに対応する。

[0037] ＩＴＵ−ＴＨ．２６４／ＡＶＣおよび高効率ビデオコーディング（ＨＥＶＣ）規格のような多くのビデオコーディング規格は、エラーのないビットストリームのための復号処理、セマンティクスおよびシンタックスを定義し、それらのいずれもが、ある特定のプロファイルまたはレベルに準拠する。ビデオコーディング規格は、典型的にはエンコーダを指定しないが、エンコーダは、生成されるビットストリームがデコーダに関する規格に準拠することを保証する役割を課せられる。ビデオコーディング規格の文脈では、「プロファイル」は、ツール、特徴、またはアルゴリズムのサブセット、およびこれらに適用される制約条件に対応する。Ｈ．２６４規格に定義されるように、例えば、「プロファイル」は、Ｈ．２６４規格によって指定される全ビットストリームシンタックスのサブセットである。「レベル」は、例えばデコーダメモリおよび計算等のデコーダリソース消費の制限に対応し、それらは、ピクチャの解像度、ビットレート、およびブロック処理レートに関係する。プロファイルは、ｐｒｏｆｉｌｅ＿ｉｄｃ（プロファイルインジケータ）値を用いてシグナリングされ得、一方でレベルは、ｌｅｖｅｌ＿ｉｄｃ（レベルインジケータ）値を用いてシグナリングされ得る。

[0038] 例えば、所与のプロファイルのシンタックスによって課せられる範囲（the bounds）内で、復号されたピクチャの指定されたサイズ等の、ビットストリーム中のシンタックス要素がとる値に応じて、エンコーダおよびデコーダのパフォーマンスにおいて大きな変動を要求することがなおも可能であることを、Ｈ．２６４規格は認識する。多くのアプリケーションにおいて、特定のプロファイル内のシンタックスのすべての仮想的な使用に対処することができるデコーダをインプリメントすることは実用的でも経済的でもないことを、Ｈ．２６４規格はさらに認識する。したがって、Ｈ．２６４規格は、「レベル」を、ビットストリーム中のシンタックス要素の値に課せられた制約条件の指定されたセットと定義する。これらの制約条件は、値に対する単純な制限であり得る。代替的に、これらの制約条件は、（例えば、ピクチャ幅×ピクチャの高さ×１秒あたりに復号されるピクチャの数等の）値の算術的な組合せに対する制約条件の形をとり得る。Ｈ．２６４規格はさらに、個々のインプリメンテーションが、サポートされるプロファイルごとに異なるレベルをサポートし得ることを定める。

[0039] あるプロファイルに準拠するデコーダは通常、そのプロファイルに定義されるすべての特徴をサポートする。例えば、コーディングの特徴として、Ｂピクチャコーディングは、Ｈ．２６４／ＡＶＣのベースラインプロファイルにおいてはサポートされないが、Ｈ．２６４／ＡＶＣの他のプロファイルにおいてはサポートされる。あるレベルに準拠するデコーダは、そのレベルに定義された制限を超えるリソースを要求しない、いかなるビットストリームも、復号することができるべきである。プロファイルおよびレベルの定義は、解釈可能性（interpretability）のために役立ち得る。例えば、ビデオ送信の間に、プロファイルおよびレベルの定義のペアが、送信セッション全体について取り決められ、合意され（negotiated and agreed）得る。より具体的には、Ｈ．２６４／ＡＶＣにおいて、レベルは、処理される必要があるマクロブロックの数、復号されたピクチャバッファ（ＤＰＢ）サイズ、コーディングされたピクチャバッファ（ＣＰＢ）サイズ、垂直動きベクトル範囲、２つの連続するＭＢあたりの動きベクトルの最大数、およびＢブロックが８ｘ８ピクセルに満たないサブマクロブロック区分を有することができるかどうか、に対する制限を定義し得る。このように、デコーダは、そのデコーダがビットストリームを適切に復号することができるかどうかを決定し得る。

[0040] 図１の例では、コンテンツ準備デバイス２０のカプセル化ユニット３０は、ビデオエンコーダ２８からのコーディングされたビデオデータを備えるエレメンタリストリームと、オーディオエンコーダ２６からのコーディングされたオーディオデータを備えるエレメンタリストリームと、を受け取る。いくつかの例では、ビデオエンコーダ２８およびオーディオエンコーダ２６は各々、符号化されたデータからＰＥＳパケットを形成するためのパケタイザを含み得る。他の例では、ビデオエンコーダ２８およびオーディオエンコーダ２６は各々、符号化されたデータからＰＥＳパケットを形成するためのそれぞれのパケタイザとインタフェースし得る。さらに他の例では、カプセル化ユニット３０は、符号化されたオーディオおよびビデオデータからＰＥＳパケットを形成するためのパケタイザを含み得る。

[0041] ビデオエンコーダ２８は、ピクセル解像度、フレームレート、様々なコーディング規格への準拠、様々なコーディング規格についての様々なプロファイルおよび／またはプロファイルのレベルへの準拠、（例えば、２次元または３次元の再生のための）１つのまたは複数のビューを有する表現、または他のそのような特性等の、様々な特性を有する、および様々なビットレートにおける、マルチメディアコンテンツの異なる表現を生み出すために、マルチメディアコンテンツのビデオデータを多様な方法で符号化し得る。本開示で使用される場合、表現は、オーディオデータ、ビデオデータ、テキストデータ（例えば字幕のための）、または他のそのようなデータのうちの１つを備え得る。表現は、オーディオエレメンタリストリームまたはビデオエレメンタリストリームのようなエレメンタリストリームを含み得る。各ＰＥＳパケットは、ＰＥＳパケットが属するエレメンタリストリームを識別するｓｔｒｅａｍ＿ｉｄを含み得る。カプセル化ユニット３０は、エレメンタリストリームを様々な表現のビデオファイル（例えば、セグメント）にアセンブルする役割を担う。

[0042] カプセル化ユニット３０は、オーディオエンコーダ２６およびビデオエンコーダ２８から表現のエレメンタリストリームに関するＰＥＳパケットを受け取り、それらＰＥＳパケットから、対応するネットワーク抽象化レイヤ（ＮＡＬ：network abstraction layer）ユニットを形成する。Ｈ．２６４／ＡＶＣ（Advanced Video Coding）の例では、コーディングされたビデオセグメントは、ＮＡＬユニットへと編成され、それらは、ビデオ電話、ストレージ、ブロードキャスト、またはストリーミングのようなアプリケーション向けの「ネットワークフレンドリーな（network-friendly）」ビデオ表現を提供する。ＮＡＬユニットは、ビデオコーディングレイヤ（ＶＣＬ：Video Coding Layer）ＮＡＬユニットおよび非ＶＣＬＮＡＬユニットに分類されることができる。ＶＣＬユニットは、コア圧縮エンジンを含み得、ブロック、マクロブロック、および／またはスライスレベルのデータを含み得る。他のＮＡＬユニットは、非ＶＣＬＮＡＬユニットであり得る。いくつかの例では、プライマリのコーディングされたピクチャとして通常提示される、１つのタイムインスタンスにおいてコーディングされたピクチャは、アクセスユニットに含まれ得、それは、１つまたは複数のＮＡＬユニットを含み得る。

[0043] 非ＶＣＬＮＡＬユニットは、とりわけ、パラメータセットＮＡＬユニットおよびＳＥＩＮＡＬユニットを含み得る。パラメータセットは、（シーケンスパラメータセット（ＳＰＳ）中に）シーケンスレベルヘッダ情報、および（ピクチャパラメータセット（ＰＰＳ）中に）頻繁には変化しないピクチャレベルヘッダ情報を含み得る。パラメータセット（例えば、ＰＰＳおよびＳＰＳ）を用いることで、頻繁には変化しない情報は、シーケンスまたはピクチャごとに繰り返される必要がなく、よってコーディング効率が改善され得る。さらに、パラメータセットの使用は、重要なヘッダ情報の帯域外送信を可能にし得、それによりエラー耐性（error resilience）のための冗長な送信の必要が無くなる。帯域外送信の例では、パラメータセットＮＡＬユニットは、ＳＥＩＮＡＬユニットのような他のＮＡＬユニットとは異なるチャネル上で送信され得る。

[0044] 加えて、カプセル化ユニット３０は、表現の特性を記述（describes）するメディアプレゼンテーション記述子（ＭＰＤ：media presentation descriptor）のようなマニフェストファイルを形成し得る。カプセル化ユニット３０は、ＸＭＬ（extensible markup language）に従って、ＭＰＤをフォーマット（format）し得る。カプセル化ユニット３０は、出力インタフェース３２へ、マニフェストファイル（例えば、ＭＰＤ）とともにマルチメディアコンテンツの１つまたは複数の表現についてのデータを提供し得る。出力インタフェース３２は、ネットワークインタフェースまたは記憶媒体に書き込みするためのインタフェースを備え得、それは例えば、ユニバーサルシリアルバス（ＵＳＢ）インタフェース、ＣＤまたはＤＶＤライタまたはバーナ、磁気またはフラッシュ記憶媒体へのインタフェース、あるいはメディアデータを記憶または送信するための他のインタフェースである。カプセル化ユニット３０は、マルチメディアコンテンツの複数の表現の各々のもののデータを、出力インタフェース３２に提供し得、それは、そのデータをネットワーク送信または記憶媒体を介してサーバデバイス６０に送り得る。図１の例では、サーバデバイス６０は、それぞれのマニフェストファイル６６および１つまたは複数の表現６８Ａ〜６８Ｎ（表現６８）を各々が含む様々なマルチメディアコンテンツ６４を記憶する、記憶媒体６２を含む。いくつかの例では、出力インタフェース３２はまた、データを直接的にネットワーク７４に送り得る。

[0045] いくつかの例では、表現６８は、複数の適応セットに分けられ得る。つまり、表現６８の様々なサブセットは、特性のそれぞれの共通セット、例えば、コーデック、プロファイルおよびレベル、解像度、ビューの数、セグメントに関するファイルフォーマット、復号され、例えばスピーカによって提示されることになるオーディオデータおよび／または表現を用いて表示されることになるテキストの言語または他の特性を識別し得るテキストタイプ情報、適応セット中の表現に関するシーンの現実世界のカメラの視点（real-world camera perspective）またはカメラアングルを記述し得るカメラアングル情報、特定の視聴者に対するコンテンツの適合性を記述するレーティング情報、または同様のもの、を含み得る。

[0046] マニフェストファイル６６は、適応セットについての共通特性、ならびに特定の適応セットに対応する表現６８のサブセットを示すデータを含み得る。マニフェストファイル６６はまた、適応セットの個々の表現についての、ビットレートのような個々の特性を表すデータを含み得る。このようにして、適応セットは、簡略化されたネットワーク帯域幅適応を提供し得る。適応セット中の表現は、マニフェストファイル６６の適応セット要素の子要素を使用して示され得る。

[0047] サーバデバイス６０は、要求処理ユニット７０およびネットワークインタフェース７２を含む。いくつかの例では、サーバデバイス６０は、複数のネットワークインタフェースを含み得る。さらに、サーバデバイス６０の特徴のうちの任意のものまたはすべては、ルータ、ブリッジ、プロキシデバイス、スイッチ、または他のデバイスのような、コンテンツ配信ネットワークの他のデバイスにおいてインプリメントされ得る。いくつかの例では、コンテンツ配信ネットワークの仲介デバイス（intermediate devices）は、マルチメディアコンテンツ６４のデータをキャッシュし得、およびサーバデバイス６０のコンポーネントに事実上一致（conform substantially to）するコンポーネントを含み得る。一般に、ネットワークインタフェース７２は、ネットワーク７４を介してデータを送るおよび受信するように構成される。

[0048] 要求処理ユニット７０は、クライアントデバイス４０のようなクライアントデバイスから、記憶媒体６２のデータを求めるネットワーク要求を受信するように構成される。例えば、要求処理ユニット７０は、ＲＦＣ２６１６、Ｒ．Ｆｉｅｌｄｉｎｇらによる「ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ−ＨＴＴＰ／１．１」、ＮｅｔｗｏｒｋＷｏｒｋｉｎｇＧｒｏｕｐ、ＩＥＴＦ、１９９９年６月に説明されたようなハイパーテキスト転送プロトコル（ＨＴＴＰ）バージョン１．１をインプリメントし得る。つまり、要求処理ユニット７０は、ＨＴＴＰＧＥＴまたは部分的ＧＥＴ要求を受信し、それら要求に応答して、マルチメディアコンテンツ６４のデータを提供するように構成され得る。それら要求は、例えばセグメントのＵＲＬを使用して、表現６８のうちの１つの表現のセグメントを指定し得る。いくつかの例では、それら要求はまた、セグメントの１つまたは複数のバイト範囲を指定し得、よって部分的ＧＥＴ要求を備える。要求処理ユニット７０はさらに、表現６８のうちの１つの表現のセグメントのヘッダデータを提供するためにＨＴＴＰＨＥＡＤ要求をサービスするように構成され得る。いずれの場合も、要求処理ユニット７０は、要求されたデータをクライアントデバイス４０等の要求しているデバイスに提供するために、それら要求を処理するように構成され得る。

[0049] 追加的に、または代替的に、要求処理ユニット７０は、ｅＭＢＭＳ等のブロードキャストまたはマルチキャストプロトコルを介して、メディアデータを配信するように構成され得る。コンテンツ準備デバイス２０は、説明されたものと事実上同じ方法で、ＤＡＳＨセグメントおよび／またはサブセグメントを作り出し得るが、サーバデバイス６０は、これらのセグメントまたはサブセグメントを、ｅＭＢＭＳまたは別のブロードキャストまたはマルチキャストネットワークトランスポートプロトコルを使用して配信し得る。例えば、要求処理ユニット７０は、クライアントデバイス４０からマルチキャストグループ参加要求（multicast group join request）を受信するように構成され得る。つまり、サーバデバイス６０は、（例えば、ライブイベントのブロードキャスト等の）特定のメディアコンテンツに関連するマルチキャストグループに関連するインターネットプロトコル（ＩＰ：Internet protocol）アドレスを、クライアントデバイス４０を含むクライアントデバイスに、アドバタイズ（advertise）し得る。そして今度は、クライアントデバイス４０が、そのマルチキャストグループに参加するための要求をサブミット（submit）し得る。この要求は、例えばネットワーク７４を構成する複数のルータ等の、ネットワーク７４中に伝播され得、その結果として、それらルータは、そのマルチキャストグループに関連するＩＰアドレスを宛先としたトラフィックを、例えばクライアントデバイス４０のような加入しているクライアントデバイスに向ける（direct）ことになる。

[0050] 図１の例に例示されるように、マルチメディアコンテンツ６４は、マニフェストファイル６６を含み、それは、メディアプレゼンテーション記述（ＭＰＤ）に対応し得る。マニフェストファイル６６は、複数の異なる代替的な表現６８（例えば、複数の異なる品質のビデオサービス）の複数の記述（descriptions）を含み得、記述は、例えば、表現６８のコーデック情報、プロファイル値、レベル値、ビットレート、および他の記述的特性（descriptive characteristics）を含み得る。クライアントデバイス４０は、表現６８のセグメントにどのようにアクセスするかを決定するために、メディアプレゼンテーションのＭＰＤをリトリーブし得る。

[0051] 特に、リトリーバルユニット５２は、ビデオデコーダ４８の復号性能およびビデオ出力４４のレンダリング性能を決定するために、クライアントデバイス４０の構成データ（示されていない）をリトリーブし得る。構成データはまた、クライアントデバイス４０のユーザによって選択される言語の選好、クライアントデバイス４０のユーザによって設定される奥行の選好（depth preferences）に対応する１つまたは複数のカメラの視点、および／またはクライアントデバイス４０のユーザによって選択されるレーティングの選好のうちの任意のものまたはすべてを含み得る。リトリーバルユニット５２は、例えば、ＨＴＴＰＧＥＴおよび部分的ＧＥＴ要求をサブミットするように構成されるメディアクライアントまたはウェブブラウザを備え得る。リトリーバルユニット５２は、クライアントデバイス４０の１つまたは複数のプロセッサまたは処理ユニット（示されていない）によって実行されるソフトウェア命令に対応し得る。いくつかの例では、リトリーバルユニット５２に関して説明される機能性のすべてまたは一部は、ハードウェアにおいてインプリメントされ得るか、あるいは、ハードウェア、ソフトウェア、および／またはファームウェアの組合せにおいてインプリメントされ得、ここで必須ハードウェアが、ソフトウェアまたはファームウェアのための命令を実行するために提供され得る。

[0052] リトリーバルユニット５２は、クライアントデバイス４０の復号およびレンダリング性能を、マニフェストファイル６６の情報によって示される表現６８の特性と比較し得る。リトリーバルユニット５２は、表現６８の特性を決定するために、最初にマニフェストファイル６６の少なくとも一部をリトリーブし得る。例えば、リトリーバルユニット５２は、１つまたは複数の適応セットの特性を記述するマニフェストファイル６６の一部を要求し得る。リトリーバルユニット５２は、クライアントデバイス４０のコーディングおよびレンダリング性能によって満足（satisfied by）されることができる特性を有する（例えば適応セット等の）表現６８のサブセットを選択し得る。リトリーバルユニット５２は次いで、適応セット中の表現についてのビットレートを決定し、ネットワーク帯域幅の現在利用可能な量を決定し、および、ネットワーク帯域幅によって満足されることができるビットレートを有する表現のうちの１つからセグメントをリトリーブし得る。

[0053] 一般に、より高いビットレートの表現は、より高い品質のビデオ再生を生じさせ（yield）得、一方でより低いビットレートの表現は、利用可能なネットワーク帯域幅が減少するときに十分な品質のビデオ再生を提供し得る。したがって、利用可能なネットワーク帯域幅が比較的広い（high）とき、リトリーバルユニット５２は、比較的高いビットレートの表現からデータをリトリーブし得、それに対して、利用可能なネットワーク帯域幅が狭い（low）とき、リトリーバルユニット５２は、比較的低いビットレートの表現からデータをリトリーブし得る。このように、クライアントデバイス４０は、ネットワーク７４のネットワーク帯域幅の利用可能性の変化に適応もしながら、ネットワーク７４を介してマルチメディアデータをストリーミングし得る。

[0054] 追加的に、または代替的に、リトリーバルユニット５２は、ブロードキャストまたはマルチキャストネットワークプロトコル、例えばｅＭＢＭＳまたはＩＰマルチキャスト、に従ってデータを受信するように構成され得る。そのような例では、リトリーバルユニット５２は、特定のメディアコンテンツに関連するマルチキャストネットワークグループに参加するための要求をサブミットし得る。マルチキャストグループに参加した後、リトリーバルユニット５２は、サーバデバイス６０またはコンテンツ準備デバイス２０に対して発行されるさらなる要求なしに、マルチキャストグループのデータを受信し得る。リトリーバルユニット５２は、そのマルチキャストグループのデータがもはや必要ではないとき、例えば、再生を停止するために、または異なるマルチキャストグループにチャネルを変更するために、マルチキャストグループを去るための要求をサブミットし得る。

[0055] ネットワークインタフェース５４は、選択された表現のセグメントのデータを受信し、リトリーバルユニット５２に提供し得、それは今度はそれらセグメントをカプセル化解除ユニット５０に提供し得る。カプセル化解除ユニット５０は、ビデオファイルの要素を、構成成分であるＰＥＳストリーム（constituent PES streams）へとカプセル化解除し、それらＰＥＳストリームをデパケット化（depacketize）して符号化されたデータをリトリーブし、および、例えばストリームのＰＥＳパケットヘッダによって示される、その符号化されたデータがオーディオストリームの一部かまたはビデオストリームの一部かということに応じて、オーディオデコーダ４６あるいはビデオデコーダ４８のいずれかに、その符号化されたデータを送り得る。オーディオデコーダ４６は、符号化されたオーディオデータを復号し、その復号されたオーディオデータをオーディオ出力４２に送り、一方でビデオデコーダ４８は、符号化されたビデオデータを復号し、ビデオ出力４４に、ストリームの複数のビューを含み得るその復号されたビデオデータを送る。

[0056] ビデオエンコーダ２８、ビデオデコーダ４８、オーディオエンコーダ２６、オーディオデコーダ４６、カプセル化ユニット３０、リトリーバルユニット５２、およびカプセル化解除ユニット５０は各々、適用可能な場合、１つまたは複数のマイクロプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理回路構成、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せのような多様な好適な処理回路構成のいずれとしてもインプリメントされ得る。ビデオエンコーダ２８およびビデオデコーダ４８の各々は、１つまたは複数のエンコーダまたはデコーダに含まれ得、それらのいずれも、組み合わせられたビデオエンコーダ／デコーダ（ＣＯＤＥＣ）の一部として、統合され得る。同様に、オーディオエンコーダ２６およびオーディオデコーダ４６の各々は、１つまたは複数のエンコーダまたはデコーダに含まれ得、それらのいずれも、組み合わせられたＣＯＤＥＣの一部として、統合され得る。ビデオエンコーダ２８、ビデオデコーダ４８、オーディオエンコーダ２６、オーディオデコーダ４６、カプセル化ユニット３０、リトリーバルユニット５２、および／またはカプセル化解除ユニット５０を含む装置は、集積回路、マイクロプロセッサ、および／またはワイヤレス通信デバイス、例えばセルラ電話、を備え得る。

[0057] クライアントデバイス４０、サーバデバイス６０、および／またはコンテンツ準備デバイス２０は、本開示の技法に従って動作するように構成され得る。例示の目的のために、本開示は、クライアントデバイス４０およびサーバデバイス６０に関してこれらの技法を説明する。しかしながら、サーバデバイス６０の代わりに（またはサーバデバイス６０に加えて）、コンテンツ準備デバイス２０が、これらの技法を実施するように構成され得ることは、理解されるべきである。

[0058] カプセル化ユニット３０は、ＮＡＬユニットが属するプログラムを識別するヘッダ、ならびに、ペイロード、例えばオーディオデータ、ビデオデータ、またはＮＡＬユニットが対応するトランスポートまたはプログラムストリームを記述するデータ、を備えるＮＡＬユニットを形成し得る。例えば、Ｈ．２６４／ＡＶＣでは、ＮＡＬユニットは、１バイトのヘッダと多様なサイズのペイロードとを含む。それのペイロード中にビデオデータを含むＮＡＬユニットは、様々な粒度レベル（granularity levels）のビデオデータを備え得る。例えば、ＮＡＬユニットは、ビデオデータの１つのブロック、複数のブロック、ビデオデータの１つのスライス、またはビデオデータのピクチャ全体を備え得る。カプセル化ユニット３０は、ビデオエンコーダ２８から、エレメンタリストリームのＰＥＳパケットの形式で、符号化されたビデオデータを受け取り得る。カプセル化ユニット３０は、各エレメンタリストリームを対応するプログラムと関連付け得る。

[0059] カプセル化ユニット３０はまた、複数のＮＡＬユニットからアクセスユニットをアセンブルし得る。一般に、アクセスユニットは、ビデオデータのフレーム、なおそのフレームに対応するオーディオデータが利用可能である場合にはそのようなオーディオデータも、を表すための１つまたは複数のＮＡＬユニットを備え得る。あるアクセスユニットは一般に、１つの出力のタイムインスタンスに関するすべてのＮＡＬユニット、例えば、１つのタイムインスタンスに関するすべてのオーディオおよびビデオデータ、を含む。例えば、各ビューが１秒あたり２０フレームのフレームレート（ｆｐｓ：frames per second）を有する場合、すると各タイムインスタンスは、０．０５秒の時間間隔に対応し得る。この時間間隔の間に、同じアクセスユニット（同じタイムインスタンス）のすべてのビューについての特定のフレームが、同時にレンダリングされ得る。一例では、あるアクセスユニットは、１つのタイムインスタンスにおけるあるコーディングされたピクチャを備え得、それは、プライマリのコーディングされたピクチャとして提示され得る。

[0060] したがって、アクセスユニットは、共通の時間的なインスタンスのすべてのオーディオおよびビデオフレーム、例えば時間Ｘに対応するすべてのビュー、を備え得る。本開示はまた、特定のビューの符号化されたピクチャを「ビューコンポーネント」と称する。つまり、ビューコンポーネントは、特定の時間における特定のビューに関する符号化されたピクチャ（またはフレーム）を備え得る。したがって、あるアクセスユニットは、共通の時間的なインスタンスのすべてのビューコンポーネントを備えるものとして定義され得る。アクセスユニットの復号順序は、出力または表示順序と必ずしも同じである必要はない。

[0061] メディアプレゼンテーションは、メディアプレゼンテーション記述（ＭＰＤ）を含み得、それは、（例えば、複数の異なる品質のビデオサービス等の）複数の異なる代替的な表現の記述を含み得、その記述は、例えばコーデック情報、プロファイル値、およびレベル値を含み得る。ＭＰＤは、マニフェストファイル６６のようなマニフェストファイルの１つの例である。クライアントデバイス４０は、様々なプレゼンテーションの動画フラグメントにどのようにアクセスするかを決定するために、メディアプレゼンテーションのＭＰＤをリトリーブし得る。動画フラグメントは、ビデオファイルの動画フラグメントボックス（ｍｏｏｆｂｏｘ）に位置（located in）し得る。

[0062] マニフェストファイル６６（それは、例えばＭＰＤを備え得る）は、表現６８のセグメントの利用可能性をアドバタイズし得る。つまり、ＭＰＤは、表現６８のうちの１つの表現の最初のセグメントが利用可能になる実時間（the wall-clock time）を示す情報、ならびに表現６８内のセグメントの持続時間を示す情報を含み得る。このように、クライアントデバイス４０のリトリーバルユニット５２は、開始時間（the starting time）、ならびに特定のセグメントに先行するセグメントの持続時間、に基づいて、各セグメントがいつ利用可能であるかを決定し得る。

[0063] カプセル化ユニット３０が、受け取られたデータに基づいて、ＮＡＬユニットおよび／またはアクセスユニットをビデオファイルにアセンブルした後、カプセル化ユニット３０は、そのビデオファイルを出力のために出力インタフェース３２に渡す。いくつかの例では、カプセル化ユニット３０は、ビデオファイルを直接的にクライアントデバイス４０に送るのではなく、出力インタフェース３２を介してビデオファイルをリモートサーバに送り得るか、または、ビデオファイルをローカルに記憶し得る。出力インタフェース３２は、例えば、送信機、トランシーバ、コンピュータ読み取り可能な媒体にデータを書き込みするためのデバイス、例としては例えば、光学式ドライブ、磁気媒体ドライブ（例えば、フロッピー（登録商標）ドライブ）、ユニバーサルシリアルバス（ＵＳＢ）ポート、ネットワークインタフェース、または他の出力インタフェース、を備え得る。出力インタフェース３２は、ビデオファイルを、例えば、送信信号、磁気媒体、光学媒体、メモリ、フラッシュドライブ、または他のコンピュータ読み取り可能な媒体のようなコンピュータ読み取り可能な媒体に出力する。

[0064] ネットワークインタフェース５４は、ネットワーク７４を介してＮＡＬユニットまたはアクセスユニットを受信し、そのＮＡＬユニットまたはアクセスユニットをリトリーバルユニット５２を介してカプセル化解除ユニット５０に提供し得る。カプセル化解除ユニット５０は、ビデオファイルの要素を、構成成分であるＰＥＳストリームへとカプセル化解除し、それらＰＥＳストリームをデパケット化して符号化されたデータをリトリーブし、および、例えばストリームのＰＥＳパケットヘッダによって示される、その符号化されたデータがオーディオストリームの一部かまたはビデオストリームの一部かということに応じて、オーディオデコーダ４６あるいはビデオデコーダ４８のいずれかに、その符号化されたデータを送り得る。オーディオデコーダ４６は、符号化されたオーディオデータを復号し、その復号されたオーディオデータをオーディオ出力４２に送り、一方でビデオデコーダ４８は、符号化されたビデオデータを復号し、ビデオ出力４４に、ストリームの複数のビューを含み得るその復号されたビデオデータを送る。

[0065] ビデオコーディング規格は、ＩＴＵ−ＴＨ．２６１、ＩＳＯ／ＩＥＣＭＰＥＧ−１Ｖｉｓｕａｌ、ＩＴＵ−ＴＨ．２６２またはＩＳＯ／ＩＥＣＭＰＥＧ−２Ｖｉｓｕａｌ、ＩＴＵ−ＴＨ．２６３、ＩＳＯ／ＩＥＣＭＰＥＧ−４Ｖｉｓｕａｌ、ＩＴＵ−ＴＨ．２６４またはＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣを、それのスケーラブルビデオコーディング（ＳＶＣ）およびマルチビュービデオコーディング（ＭＶＣ）拡張を含めて、含み、ならびに、ＩＴＵ−ＴＨ．２６５およびＩＳＯ／ＩＥＣ２３００８−２としても知られる高効率ビデオコーディング（ＨＥＶＣ）を、それのスケーラブルコーディング拡張（すなわち、スケーラブル高効率ビデオコーディング、ＳＨＶＣ）、マルチビュー拡張（すなわち、マルチビュー高効率ビデオコーディング、ＭＶ−ＨＥＶＣ）、および３Ｄ拡張（すなわち、３Ｄ高効率ビデオコーディング、３Ｄ−ＨＥＶＣ）を含めて、含む。

[0066] ファイルフォーマットおよびファイルフォーマット規格がこれより簡潔に説明される。ファイルフォーマット規格は、ＩＳＯベースのメディアファイルフォーマット（ＩＳＯＢＭＦＦ、ＩＳＯ／ＩＥＣ１４４９６−１２、以下「ＩＳＯ／ＩＥＣ１４９９６−１２」）、ならびに、ＩＳＯＢＭＦＦから派生した他のファイルフォーマット規格を含み、それは、ＭＰＥＧ−４ファイルフォーマット（ＩＳＯ／ＩＥＣ１４４９６−１５）、３ＧＰＰファイルフォーマット（３ＧＰＰＴＳ２６．２４４）、および、ＡＶＣのためのファイルフォーマットを含むＩＳＯ／ＩＥＣ１４４９６−１５（ＩＳＯ／ＩＥＣ１４４９６−１５、以下「ＩＳＯ／ＩＥＣ１４９９６−１５」）およびそれの拡張ならびにＨＥＶＣのためのファイルフォーマットおよびそれの拡張を含む。したがって、ＩＳＯ／ＩＥＣ１４４９６−１２は、ＩＳＯベースのメディアファイルフォーマットを指定する。他の文書は、特定のアプリケーションのためにＩＳＯベースのメディアファイルフォーマットを拡張する。例えば、ＩＳＯ／ＩＥＣ１４４９６−１５は、ＩＳＯベースのメディアファイルフォーマットにおけるＮＡＬユニット構造のビデオの搬送（the carriage of NAL unit structured video）を記述する。Ｈ．２６４／ＡＶＣおよびＨＥＶＣならびにそれらの拡張が、ＮＡＬユニット構造のビデオの例である。ＩＳＯ／ＩＥＣ１４４９６−１５は、Ｈ．２６４／ＡＶＣＮＡＬユニットの搬送を記述するセクションを含む。さらに、ＩＳＯ／ＩＥＣ１４４９６−１５のセクション８は、ＨＥＶＣＮＡＬユニットの搬送を記述する。したがって、ＩＳＯ／ＩＥＣ１４４９６−１５のセクション８は、ＨＥＶＣファイルフォーマットを記述するものと考えられる。１１４^ｔｈＭＰＥＧミーティングの後、いくつかの国家的機関から受け取られたコメントに基づいて、ＩＳＯ／ＩＥＣ１４４９６−１５暫定仕様書の新しいバージョンに適用されることになるＩＳＯ／ＩＥＣ１４４９６−１５へのいくつかの変更を含む処理文書（a disposition document）が作成された。この処理文書は、「MPEG output document N15297」と呼ばれる。

[0067] ＩＳＯＢＭＦＦは、ＡＶＣファイルフォーマットのような多くのコーデックカプセル化フォーマットのための、ならびに、ＭＰＥＧ−４ファイルフォーマット、３ＧＰＰファイルフォーマット（３ＧＰ）、およびＤＶＢファイルフォーマットのような多くのマルチメディアコンテナフォーマットのための、基礎として使用される。オーディオおよびビデオのような連続したメディアに加えて、イメージのような静的なメディア、ならびにメタデータが、ＩＳＯＢＭＦＦに準拠するファイルに記憶されることができる。ＩＳＯＢＭＦＦに従って構造されたファイルは、ローカルメディアファイル再生、リモートファイルの漸進的なダウンロード、ＨＴＴＰを介した動的適応型ストリーミング（ＤＡＳＨ）のためのセグメント、ストリーミングされることになるコンテンツおよびそれのパケット化命令のためのコンテナ、および受信されるリアルタイムメディアストリームの記録を含む、多くの目的のために使用され得る。したがって、元々はストレージのために設計されたにも関わらず、ＩＳＯＢＭＦＦは、例えば漸進的なダウンロードまたはＤＡＳＨのためのストリーミングのために有益であることが分かった。ストリーミングの目的のために、ＩＳＯＢＭＦＦにおいて定義された動画フラグメントが使用されることができる。オーディオおよびビデオのような連続したメディアに加えて、イメージのような静的なメディア、ならびにメタデータが、ＩＳＯＢＭＦＦに準拠するファイルに記憶されることができる。

[0068] ＨＥＶＣファイルフォーマットに準拠するファイルは、ボックスと呼ばれる一連のオブジェクトを備え得る。ボックスは、一意のタイプ識別子および長さによって定義されたオブジェクト指向のビルディングブロック（an object-oriented building block）であり得る。ボックスは、ＩＳＯＢＭＦＦにおけるエレメンタリシンタックス構造であり、４文字のコーディングされたボックスタイプ、ボックスのバイトカウント、およびペイロードを含む。言い換えれば、ボックスは、コーディングされたボックスタイプ、ボックスのバイトカウント、およびペイロードを備えるシンタックス構造であり得る。いくつかの事例（instances）では、ＨＥＶＣファイルフォーマットに準拠するファイル中のすべてのデータは、ボックス内に含まれ得、ボックス中に無いファイル中のデータは存在しない可能性がある。したがって、ＩＳＯＢＭＦＦファイルは、ボックスのシーケンス（a sequence of boxes）から構成され、およびボックスは、他のボックスを含み得る。例えば、ボックスのペイロードは、１つまたは複数の追加的なボックスを含み得る。本開示の他の場所に詳細に説明される図９は、本開示の１つまたは複数の技法による、ファイル内の例示的なボックスを示す。

[0069] ＩＳＯＢＭＦＦに準拠するファイルは、様々なタイプのボックスを含み得る。例えば、ＩＳＯＢＭＦＦに準拠するファイルは、ファイルタイプボックス、メディアデータボックス、動画ボックス、動画フラグメントボックス等を含み得る。この例では、ファイルタイプボックスは、ファイルタイプおよび互換性情報を含む。メディアデータボックスは、サンプル（例えば、コーディングされたピクチャ）を含み得る。動画ボックス（Movie box）（「ｍｏｏｖ」）は、ファイル中に存在する連続したメディアストリームについてのメタデータを含む。連続したメディアストリームの各々は、トラックとしてファイル中に表され得る。例えば、動画ボックスは、動画に関するメタデータ（例えば、複数のサンプル間の論理およびタイミング関係、またサンプルのロケーションに対するポインタ）を含み得る。動画ボックスは、いくつかのタイプのサブボックスを含み得る。動画ボックス中のサブボックスは、１つまたは複数のトラックボックスを含み得る。トラックボックスは、動画の個々のトラックについての情報を含み得る。トラックボックスは、単一のトラックの全般的な情報（overall information）を指定するトラックヘッダボックスを含み得る。加えて、トラックボックスは、メディア情報ボックスを含むメディアボックスを含み得る。メディア情報ボックスは、トラック中のメディアサンプルにインデックス付けする（indexing）データを含むサンプルテーブルボックスを含み得る。サンプルテーブルボックス中の情報は、サンプルを、時間的に、およびトラックのサンプルの各々に関して、タイプ、サイズ、コンテナ、およびサンプルのそのコンテナへのオフセットにおいて、位置付けるために使用され得る。したがって、トラックについてのメタデータは、トラックボックス（Track box）（「ｔｒａｋ」）中にエンクローズされ、一方でトラックのメディアコンテンツは、メディアデータボックス（Media Data box）（「ｍｄａｔ」）にエンクローズされるか、直接別個のファイルにエンクローズされるかのいずれかである。トラックについてのメディアコンテンツは、オーディオまたはビデオアクセスユニットのようなサンプルのシーケンスを備えるか、サンプルのシーケンスから構成される。

[0070] ＩＳＯＢＭＦＦは、次のタイプのトラックを指定する：エレメンタリメディアストリームを含むメディアトラック、メディア送信命令を含むか、受信されたパケットストリームを表すか、のいずれかであるヒントトラック、および時間同期されたメタデータ（time-synchronized metadata）を備える時限のメタデータトラック（a timed metadata track）。各トラックについてのメタデータは、サンプル記述エントリのリストを含み、それらの各々は、そのトラック中で使用されるコーディングまたはカプセル化フォーマット、およびそのフォーマットを処理するために使用される初期化データを提供する。各サンプルは、トラックのサンプル記述エントリのうちの１つに関連する。

[0071] ＩＳＯＢＭＦＦは、様々なメカニズムを用いてサンプル固有のメタデータを指定することを可能にする。サンプルテーブルボックス（the Sample Table box）（「ｓｔｂｌ」）内の特定のボックスは、共通のニーズに答えるために標準化されている。例えば、Ｓｙｎｃサンプルボックス（a Sync Sample box）（「ｓｔｓｓ」）は、トラックのランダムアクセスサンプルをリスト化するために使用される。サンプルグルーピングメカニズムは、ファイル中にサンプルグループ記述エントリとして指定された同じプロパティを共有するサンプルのグループへの４文字のグルーピングタイプに従ったサンプルのマッピングを可能にする。いくつかのグルーピングタイプが、ＩＳＯＢＭＦＦに定められている。サンプルテーブルボックス（The Sample Table box）は、トラック中のメディアサンプルの、すべての時間およびデータインデックス付け（indexing）を含むサンプルテーブルを含む。サンプルテーブルボックス（the Sample Table box）中のテーブルを使用して、サンプルを時間的に位置付けること、それらのタイプを決定すること（例えば、Ｉフレームまたはそうでない）、およびそれらのサイズ、コンテナ、およびそのコンテナへのオフセットを決定すること、が可能であり得る。

[0072] 例えば、Ｓｙｎｃサンプルボックス（「ｓｔｓｓ」）は、サンプルテーブルボックス（a Sample Table box）内のボックスである。Ｓｙｎｃサンプルボックスは、トラックのランダムアクセスサンプルをリスト化するために使用される。本開示は、Ｓｙｎｃサンプルボックスによってリスト化されたサンプルを、ｓｙｎｃサンプルと称し得る。別の例では、サンプルグルーピングメカニズムは、ファイル中にサンプルグループ記述エントリとして指定された同じプロパティを共有するサンプルのグループへの４文字のグルーピングタイプに従ったサンプルのマッピングを可能にする。いくつかのグルーピングタイプが、ＩＳＯＢＭＦＦに定められている。

[0073] ＩＳＯＢＭＦＦ仕様書は、ＤＡＳＨとともに使用するための６つのタイプのストリームアクセスポイント（ＳＡＰ）を指定する。第１の２つのＳＡＰタイプ（タイプ１および２）は、Ｈ．２６４／ＡＶＣおよびＨＥＶＣにおけるＩＤＲピクチャに対応する。第３のＳＡＰタイプ（タイプ３）は、オープンＧＯＰランダムアクセスポイント、よってＨＥＶＣにおけるＢＬＡまたはＣＲＡピクチャに対応する。第４のＳＡＰタイプ（タイプ４）は、ＧＤＲランダムアクセスポイントに対応する。

[0074] 動画フラグメントボックスは、トップレベルのボックスである。各動画フラグメントボックスは、動画ボックス中に前に存在したであろう情報を提供する。動画フラグメントボックスは、１つまたは複数のトラックフラグメント（「ｔｒａｆ」）ボックスを含み得る。動画フラグメント内には、トラックあたりゼロまたはそれより多くのトラックフラグメントのセットが存在する。トラックフラグメントは今度は、ゼロまたはそれより多くのトラックラン（track runs）を含み、それらの各々が、そのトラックについてのサンプルの連続的なラン（a contiguous run of samples）を記録（documents）する。例えば、各トラックランは、復号順序等のある特定の順序で連続するピクチャのサンプルを含み得る。トラックフラグメントボックスは、１４９９６−１２仕様書において定義され、１つまたは複数のトラックフラグメントについてのメタデータを備える。例えば、トラックフラグメントボックスは、デフォルトサンプルフラグ、デフォルトサンプルサイズ、デフォルトサンプル持続時間、サンプル記述インデックス、ベースデータオフセット、およびトラックＩＤを示すトラックフラグメントヘッダボックスを含み得る。トラックフラグメントボックスは、１つまたは複数のトラックフラグメントランボックス（track fragment run boxes）を含み得、それらの各々が、トラックについてのサンプルの連続的なセットを記録（documenting）する。例えば、トラックフラグメントボックスは、サンプルカウント、データオフセット、サンプルフラグ、サンプル持続時間、サンプルサイズ、サンプルコンポジション時間オフセット等を示すシンタックス要素を含み得る。これらの構造内では、多くのフィールドはオプションであり、およびデフォルトにされる（defaulted）ことができる。

[0075] サンプルテーブルボックスは、１つまたは複数のＳａｍｐｌｅＴｏＧｒｏｕｐボックスおよび１つまたは複数のサンプルグループ記述ボックス（すなわち、ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎボックス）を含み得る。ＳａｍｐｌｅＴｏＧｒｏｕｐボックスは、サンプルが属するサンプルグループを、そのサンプルグループの関連する記述とともに、決定するために使用され得る。言い換えれば、ＳａｍｐｌｅＴｏＧｒｏｕｐボックスは、サンプルが属するグループを示し得る。ＳａｍｐｌｅＴｏＧｒｏｕｐボックスは、ボックスタイプ「ｓｂｇｐ」を有し得る。ＳａｍｐｌｅＴｏＧｒｏｕｐボックスは、グルーピングタイプ要素（例えば、ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ）を含み得る。本開示においては、いくつかの事例（instances）では、ボックスの要素はまた、シンタックス要素とも呼ばれ得る。グルーピングタイプ要素は、サンプルグルーピングのタイプ（すなわち、サンプルグループを形成するために使用される基準）を識別する整数であり得る。さらに、ＳａｍｐｌｅＴｏＧｒｏｕｐボックスは、１つまたは複数のエントリ（すなわち、サンプルグループエントリ）を含み得る。ＳａｍｐｌｅＴｏＧｒｏｕｐボックス中の各サンプルグループエントリは、トラック中の、異なる、オーバーラップしていない一連の連続するサンプルに関連し得る。各サンプルグループエントリは、サンプルカウント要素（例えば、ｓａｍｐｌｅ＿ｃｏｕｎｔ）およびグループ記述インデックス要素（例えば、ｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘ）を示し得る。サンプルグループエントリのサンプルカウント要素は、そのサンプルグループエントリに関連するサンプルの数（a number of samples）を示し得る。言い換えれば、サンプルグループエントリのサンプルカウント要素は、同じサンプルグループ記述子を有する連続するサンプルの数を示す（gives）整数であり得る。グループ記述インデックス要素は、ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎボックス内で、サンプルグループエントリに関連するサンプルの記述を含むグループ記述エントリを識別し得る。複数のサンプルグループエントリのグループ記述インデックス要素は、同じＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎボックスを識別し得る。

[0076] ＩＳＯ／ＩＥＣ２３００９−１に定められたＨＴＴＰを介した動的適応型ストリーミング（ＤＡＳＨ）は、ＨＴＴＰ（適応型）ストリーミングアプリケーションのための規格である。ＤＡＳＨは、主に、メディアセグメントフォーマット、および、マニフェストとしても知られるメディアプレゼンテーション記述（ＭＰＤ）のフォーマットを指定する。ＭＰＤは、サーバ上で利用可能なメディアを記述し、ＤＡＳＨクライアントに、それが関心を持つメディアの時間におけるメディアのバージョン（the media version at the media time）を自発的にダウンロードすることを許す。

[0077] ＤＡＳＨは、階層データモデルに基づく。プレゼンテーションは、メディアプレゼンテーションを構成する時間における期間のシーケンス（the sequence of periods）を記述するＭＰＤ文書によって記述される。期間は、典型的には、メディアコンテンツの符号化されたバージョンの一貫したセットが利用可能である、例えば利用可能なビットレート、言語、キャプション、サブタイトル等のセットがある期間（a Period）の間に変化しない、メディアコンテンツ期間を表す。

[0078] ある期間内では、材料（material）は複数の適応セットに配列される。適応セットは、１つのまたはいくつかのメディアコンテンツコンポーネントの置き換え可能な符号化されたバージョンのセットを表す。例えば、主要なビデオコンポーネントについての１つの適応セットと、主要なオーディオコンポーネントについての別個の適応セットが存在し得る。キャプションまたはオーディオ記述のような他の利用可能な材料は、各々別個の適応セットを有し得る。材料はまた、多重化された形式（in multiplexed form）で提供され得、その場合にはその多重化の置き換え可能なバージョンは単一の適応セット、例えば、ある期間についての主要なオーディオと主要なビデオとの両方を含む適応セット、として記述され得る。多重化されたコンポーネントの各々は、メディアコンテンツコンポーネント記述によって個々に記述され得る。

[0079] 適応セットは、表現のセットを含む。表現は、１つのまたはいくつかのメディアコンテンツコンポーネントの配信可能な符号化されたバージョンを記述する。表現は、１つまたは複数のメディアストリーム（多重化におけるメディアコンテンツコンポーネントごとに１つ）を含む。適応セット内のいずれの単一の表現も、含まれたメディアコンテンツコンポーネントをレンダリングするために十分である。１つの適応セット中に複数の異なる表現を集めることによって、メディアプレゼンテーションの作成者は、それら表現が知覚的に同等のコンテンツを表すことを表現する。典型的には、これは、クライアントが、ネットワーク条件または他のファクタに適応するために、適応セット内のある表現から別の表現へと動的に切り替え得ることを意味する。切り替えることは、ある特定の時間ｔまでの復号されたデータの提示、および時間ｔからその先への別の表現の復号されたデータの提示を指す。複数の表現が１つの適応セット（Adaptation Set）に含まれ、およびクライアントが適切に切り替える場合、メディアプレゼンテーションは、その切替の間途切れのなく知覚されると予想される。クライアントは、彼らがサポートしないコーデックまたは他のレンダリング技術に頼る表現、または別の理由で不適当である表現を、無視し得る。ある表現内で、コンテンツは、適切なアクセス可能性および配信のために、複数のセグメントへと、時間的に分割され得る。セグメントにアクセスするために、セグメントごとにＵＲＬが提供される。その結果、セグメントは、単一のＨＴＴＰ要求を用いてリトリーブされることができるデータの最も大きなユニットである。

[0080] ＤＡＳＨベースのＨＴＴＰストリーミングのための典型的なプロシージャは、以下のステップを含む：
１）クライアントは、ストリーミングコンテンツ、例えば動画、のＭＰＤを取得する。ＭＰＤは、ストリーミングコンテンツの、例えば、ビットレート、ビデオ解像度、フレームレート、オーディオ言語等の複数の異なる代替的な表現についての情報、ならびにＨＴＴＰリソース（初期化セグメントおよびメディアセグメント）のＵＲＬを含む。
２）ＭＰＤ中の情報およびクライアントのローカル情報、例えばネットワーク帯域幅、復号／表示性能、およびユーザの選好、に基づいて、クライアントは、所望の表現（１つまたは複数）を、一度に１セグメント（またはその一部）要求する。
３）クライアントがネットワーク帯域幅の変更を検出するとき、それは、理想的にはランダムアクセスポイントで始まるセグメントから始まる、より良くマッチするビットレート（a better-matching bitrate）を有する異なる表現のセグメントを要求する。

[0081] ＨＴＴＰストリーミング「セッション」の間に、後方へと過去のポジションを求める、または前方へと将来のポジションを求めるユーザ要求に応答するために、クライアントは、所望のポジションに近くかつ理想的にはランダムアクセスポイントで始まるセグメントから始まる、過去または将来のセグメントを要求する。ユーザはまた、コンテンツを早送りすることを要求し得、それは、ビデオストリームの時間的サブセットのみを、またはイントラコーディングされたビデオピクチャのみを復号するために十分なデータを要求することによって、実現され得る。

[0082] バーチャルリアリティ（ＶＲ）は、非物理世界と相互作用することを可能にする没入したユーザ（the immersed user）のムーブメントによって相互に関連付けられた自然および／または合成のイメージおよびサウンドのレンダリングによって作り出された、非物理世界に、バーチャルに存在する能力（the ability to be virtually present in）である。ヘッドマウントディスプレイ（ＨＭＤ：head mounted displays）およびＶＲビデオ（３６０度ビデオと呼ばれることも多い）生成物等の、レンダリングデバイスにおいて成された最近の進歩によって、著しく高品質なエクスペリエンス（a significant quality of experience）が提供されることができる。ゲーミング、トレーニング、教育、スポーツビデオ、オンラインショッピング、アダルトエントレインメント（adult entrainment）等を含むＶＲアプリケーション。

[0083] 典型的なＶＲシステムは、以下のコンポーネントおよびステップを含み得る：
ａ．カメラセット、それは典型的には、複数の異なる方向を向き、かつ理想的には、集合的にカメラセットの周りのすべてのビューポイントをカバーする複数の個々のカメラから構成される。
ｂ．イメージスティッチング（Image stitching）、そこでは複数の個々のカメラによって撮られたビデオピクチャが時間領域において同期されかつ空間領域において繋ぎ合わせられて（stitched）球状のビデオ（a spherical video）となり、しかし（世界地図のような）エクイレクタングラー（equi-rectangular）またはキューブマップ（cube map）のような長方形フォーマットにマッピングされる。
ｃ．マッピングされた長方形フォーマットのビデオは、ビデオコーデック、例えばＨ．２６５／ＨＥＶＣまたはＨ．２６４／ＡＶＣ、を使用して符号化／圧縮される。
ｄ．圧縮されたビデオビットストリーム（１つまたは複数）は、メディアフォーマットで記憶および／またはカプセル化され得、およびネットワークを通して受信機に送信される（場合によってはユーザによって見られているエリアのみをカバーするサブセットのみ）。
ｅ．受信機は、場合によってはあるフォーマットでカプセル化されたビデオビットストリーム（１つまたは複数）またはその一部を受信し、復号されたビデオ信号またはその一部を、レンダリングデバイスに送る。
ｆ．レンダリングデバイスは、例えばＨＭＤであることができ、それは、頭部のムーブメント、また眼球のムーブモーメント（move moment）ですら、トラックすることができ、没入できるエクスペリエンス（an immersive experience）がユーザに配信されるように、ビデオの対応する部分をレンダリングする。

[0084] 通常のビデオと比較したＶＲビデオの明らかな特徴は、ＶＲでは典型的に、現在のビューのフィールド（ＦＯＶ：field of view）、すなわち、ユーザによって現在見られているエリアに対応する、ビデオピクチャによって表された全ビデオ領域（region）のサブセットのみが表示され、一方、通常のビデオのアプリケーションでは典型的に、全ビデオ領域が表示される点である。ＦＯＶは、時にビューポートとも呼ばれる。この特徴は、例えば、ビューポートに依存したプロジェクションマッピングまたはビューポートに依存したビデオコーディングを使用することによって、ＶＲビデオシステムのパフォーマンスを改善するために利用され得る。パフォーマンスの改善は、ユーザに提示されるビデオパートの、同じ解像度／品質の下での、従来のＶＲビデオシステムに比べてより狭い（lower）送信帯域幅およびより低い復号複雑性のうちのいずれかまたはその両方であることができる。

[0085] ビューポートに依存したプロジェクションマッピングはまた、非対称プロジェクションマッピングとも呼ばれ得る。１つの例は、サブサンプリングされたキューブマップ（sub-sampled cube-map）である。典型的なキューブマップは、６つの等しいサイズの面から構成される。サブサンプリングされたキューブマップの一例では、それら面のうちの１つは変化しないまま保たれることができ、一方反対側の面は、元の面の形状の中心エリアに位置するより小さいサイズにサブサンプリングされるか、またはダウンスケーリングされることができ、および他の面は、（依然として６つの面を保ったまま）それに応じて幾何学的にスケーリングされる。極値（The extreme）は、反対側にある面を単一の点へとダウンスケーリングするものであり、よってキューブはピラミッド型となる。サブサンプリングされたキューブマップの別の例では、いくつかの面は、比例的に、例えば２ｘ２の比率（すなわち、面の端と並行な各方向に２：１）で、ダウンサイズされる。

[0086] そのようなダウンサイズされたスケーリングは、エクイレクタングラーのような他のプロジェクションマッピングのための異なる領域にも適用されることができる。１つの例は、上面および底面領域（the upper and bottom regions）（すなわち、極（the poles））の両方をダウンサイズすることである。

[0087] ビューポートに依存したビデオコーディングはまた、ビューポートに依存した部分的なビデオ復号とも呼ばれ得、それは、現在のＦＯＶまたはビューポートの表示のために十分な情報を提供するために、全符号化されたビデオ領域を部分的にのみ復号することを可能にすることが鍵だからである。

[0088] 従来、ＶＲビデオは、エクイレクタングラーまたはキューブマッププロテクションマッピング（protection mapping）で表される。ビデオピクチャは、時間的インター予測（ＴＩＰ：temporal inter prediction）を使用して単一レイヤビットストリームとして符号化され、全コーディングされたビットストリームが、必要な場合サーバに記憶され、受信機側に送信され、デコーダによって完全に復号され、現在のビューポートに対応する復号されたピクチャの領域が、ユーザにレンダリングされる。

[0089] ＶＲビデオピクチャは、ビューポートをカバーする各潜在的な領域が、独立して、時間を越えて他の領域から復号されることができるように、動き制約タイル（motion-constrained tiles）を使用してコーディングされることができる。特定の現在のビューポートに関して、ビューポートをカバーするタイルの最小セットがクライアントに送られ、復号され、およびレンダリングされる。この方法は、ＳＴＰＤ（Simple Tile based Partial Decoding）と呼ばれ、図２によって示される。

[0090] このアプローチの問題点は、現在送られているタイルによって（完全にまたは部分的に）カバーされていない新しいビューポートに、ユーザが彼または彼女の頭部を素早く振り向けたとき、新しいビューポートをカバーするタイルが到着する（そしてデータがバッファリングタイムラインに従って十分にバッファされる）前には、（新しいビューポートによってカバーされるが古いビューポートによってはカバーされない）新しいエリアにおける何ものも、見られることができない点である。ゆえに、この方法は、ネットワークラウンドトリップタイムが極めて短い、例えば１０ｍｓの長さ（at a magnitude of 10 ms）である場合にのみ機能することができ、それは今日あるいは近い将来には実現不可能であるか、または少なくとも大きな挑戦である。

[0091] ＳＬＰＤ＃１およびＳＬＰＤ＃２と呼ばれる２つのＳＬＰＤ（ScaLable coding based Partial Decoding）スキームが、このセクションに提示される。図３によって示されるように、ＳＬＤＰ＃１では、ＶＲビデオは、複数の解像度を伴うＳＨＶＣ（または別のタイプのスケーラブルビデオコーディング）空間スケーラビリティを使用してスケーラブルコーディングされる。いずれのビューポートについても、少なくとも最も低い解像度のビデオはいつでもレンダリングのために利用可能であるように、最も低い解像度のビデオのビットストリーム、すなわち、ベースレイヤ（ＢＬ）は、常に完全に送られる。最も低い解像度のビデオは、もしそれがタイルまたは動き制約タイルを使用してコーディングされた場合もまた機能するであろうが、タイルを使用してコーディングされる必要は全くない。

[0092] エンハンスメントレイヤ（ＥＬ）は、ビューポートをカバーする各潜在的な領域が、インターレイヤ予測（ＩＬＰ：inter-layer prediction）が有効な状態で、独立して、時間を越えて他の領域から復号されることができるように、動き制約タイルを使用してコーディングされる。特定の現在のビューポートに関して、ビューポートをカバーするタイルの最小セットがクライアントに送られ、復号され、およびレンダリングされる。ストレージの観点からは、すべての解像度／レイヤの完全なストリームが記憶される必要がある。

[0093] ２つより多くのレイヤがコーディングされるとき、複数の異なるビューポートをカバーする複数のタイルは、異なる解像度から選ばれることができる。現在のビューポートについては、タイルは、最も高い解像度から選ばれ、現在のビューポートに隣接するビューポートについては、タイルは、２番目に高い解像度から選ばれ、以降同様である。

[0094] 図４によって示されるように、ＳＬＤＰ＃２では、ＶＲビデオはまた、複数の解像度を伴うＳＨＶＣ空間スケーラビリティを使用してスケーラブルコーディングされる。ＢＬは、ＳＬＰＤ＃１においてと同じようにコーディングされ、一方でＥＬは、ＳＬＰＤ＃１においてと同様に、しかし時間的インター予測（ＴＩＰ：temporal inter prediction）が無効な状態で、コーディングされる。

[0095] ＳＭＰＤ＃１およびＳＭＰＤ＃２と呼ばれる２つのＳＭＰＤ（SiMulcast coding based Partial Decoding）スキームが、このセクションに提示される。ＳＭＰＤ＃１は、図５によって示される。この方法は、インターレイヤ予測が使用されないことを除いて、ＳＬＰＤ＃１と同じである。言い換えれば、最も低い解像度を除いて、他のすべての解像度が、ＳＴＰＤにおいてと同じ方法でコーディングされる。ＳＭＰＤ＃２は、図６によって示される。ＳＭＰＤ＃２とＳＭＰＤ＃１との間には２つの差異が存在する：
ＳＭＰＤ＃２においては、最も低い解像度はまた他の解像度と同じように動き制約タイルを使用してコーディングされる。ＳＭＰＤ＃２が使用されるとき、最も低い解像度はまた完全には送られず、現在のビューポートから幾何学的に最も遠いビューポートおよび他の解像度から送られたタイルによってカバーされない任意の他のビューポートをカバーするタイルのみが送られる。

[0096] 今日現在、ＤＡＳＨにおけるＶＲシグナリングをサポートする設計が不足している。例えば、ＤＡＳＨに基づいたＶＲストリーミングシステムがうまく機能するために、本開示は、すべてのビデオ表現またはいくつかのビデオ表現のいずれかが、通常のビデオ（すなわち、伝統的に、非ＶＲビデオ）の代わりに、ＶＲビデオを含むことを示すためのシグナリングを提案する。一例では、シグナリングメカニズムは、ＶＲビデオのレンダリングをサポートしないレガシーＤＡＳＨクライアントはＶＲビデオ表現を消費（consume）しようとしないという意味で、下位互換性がある。別の例として、ＶＲビデオの基礎的な部分である、使用されるプロジェクションマッピングは、効率的にシグナリングされ得る。さらに、動き制約タイルベースのビューポートに依存したＶＲビデオコーディングスキームが使用されるとき、（クライアント性能およびユーザ選好に基づいて）最初に、および（変化するネットワーク条件等への）ストリーム適応のためのストリーミングセッションの間に、の両方に、ＤＡＳＨクライアントが特定の表現を選択することを可能にするために、ＤＡＳＨにおける何らかのシグナリングが使用され得る。

[0097] 本開示は、ＤＡＳＨにおけるＶＲビデオのシグナリングのためのいくつかの技法を説明する。これらの技法のうちの１つまたは複数は、他の技法から独立して、またはそれらと組み合わせて、適用され得る。これら技法は、異なるレベルにおいてシグナリングされる様々なデータに関して説明され得る。上で紹介されたように、そのようなレベルは、最も高いものから最も低いものへと順に、文書レベル、ＭＰＤレベル、期間レベル、適応セットレベル、および表現レベルを含む。各レベルは、一意のセマンティクス（例えば、要素および属性の一意の組合せ）を有するデータ構造を含む。この文脈では、属性は単一の値を指し得、一方で、要素は１つまたは複数の属性のコレクションを指す。要素はまた、追加的な要素を含み得る。

[0098] （例えば、ＭＰＤレベルの要素または属性を通した）ＭＰＤレベルでのシグナリングは、以下のもののうちの１つまたは複数を示すために提案される：
ａ．メディアプレゼンテーションのすべてのビデオ表現は、ＶＲビデオを含む。この状況が下位互換性がある方法で機能するために、ＶＲビデオだけを対象とした新しいＤＡＳＨプロファイルが定義される。このプロファイルに準拠するメディアプレゼンテーションに関して、メディアプレゼンテーションのすべてのビデオ表現は、ＶＲビデオを含むものとする。このように、レガシーＤＡＳＨクライアントは、メディアプレゼンテーションに決してアクセスしようとしないように構成されることができる。
ｂ．メディアプレゼンテーションのビデオ表現にはＶＲビデオを含むものが少なくとも１つはあり、メディアプレゼンテーションのビデオ表現には通常のビデオを含むものが少なくとも１つはある。このケースでは、通常のビデオ表現を可能にする既存のＤＡＳＨプロファイルが使用され得る。しかしながら、すべての表現がＶＲビデオを含む各ビデオ適応セット、またはＶＲビデオを含む各表現は、すると、レガシーＤＡＳＨクライアントが、ＶＲビデオを含むいずれのビデオ表現を使用しようとすることも禁ずるために、新しいＤＡＳＨプロファイルまたは何か他のインジケーションによってシグナリングされるべきである。

[0099] 例えば、コンテンツ準備デバイス２０のようなデバイスは、メディアプレゼンテーションのＭＰＤデータ構造において、メディアプレゼンテーション中の少なくとも１つのビデオ表現がＶＲビデオを含むことを示すデータをシグナリングし得、デバイスは、メディアプレゼンテーション中のその少なくとも１つのビデオ表現のセグメントを送り得る。クライアントデバイス４０またはサーバデバイス６０のようなデバイスは、メディアプレゼンテーションのＭＰＤデータ構造においてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーション中の少なくとも１つのビデオ表現がＶＲビデオを含むことを決定し得、メディアプレゼンテーション中のその少なくとも１つのビデオ表現のセグメントをリトリーブし得る。セグメントをリトリーブするために、デバイスは、そのデバイスがＶＲビデオを復号するように構成されていることに少なくとも部分的に基づいて、メディアプレゼンテーション中の少なくとも１つのビデオ表現のセグメントをリトリーブし得る。クライアントデバイス４０のようなデバイスは、メディアプレゼンテーション中の少なくとも１つのビデオ表現を復号し得る。サーバデバイス６０のようなデバイスは、少なくとも１つのビデオ表現のセグメントを、クライアントデバイス４０のような別のデバイスに送信し得る。いくつかの例では、メディアプレゼンテーション中の少なくとも１つのビデオ表現がＶＲビデオを含むと決定するために、デバイスは、ＭＰＤデータ構造においてシグナリングされるデータに基づいて、メディアプレゼンテーション中のすべてのビデオ表現がＶＲビデオを含むと決定し得る。

[0100] データは、例えば、ＭＰＤレベルの要素またはＭＰＤレベルの属性であり得る。メディアプレゼンテーションは、メディアプレゼンテーションの１つまたは複数のビデオ表現を含むビデオ適応セットを含み得る。ビデオ適応セットは、ＶＲビデオのための特定のＤＡＳＨプロファイルに準拠し得、ここで、特定のＤＡＳＨプロファイルに準拠するメディアプレゼンテーション中のすべてのビデオ表現は、ＶＲビデオを含む。メディアプレゼンテーション中の少なくとも１つのビデオ表現はまた、非ＶＲビデオを含み得る。

[0101] 使用されるプロジェクションマッピングは、期間レベル（例えば、期間レベルの要素または属性を通して）および適応セットレベル（例えば、適応セットレベルの要素または属性を通して）の両方においてシグナリングされ得るが、しかし、ＶＲビデオ表現と非ＶＲビデオ表現との間のストリーム適応のための表現切替を阻止（discourage）するために、表現レベルにおいてはシグナリングされない可能性がある。
ａ．期間レベルのシグナリングが存在するとき、適応セットレベルにおけるシグナリングはオプションであり、およびこのケースでは、もしシグナリングが適応セットについても存在したとしても、それは期間レベルのシグナリングと矛盾（contradict with）しないものとする。
ｂ．期間レベルのシグナリングが存在しないときには、適応セットレベルのシグナリングは義務的である（すなわち、存在しなければならない）。

[0102] 例えば、コンテンツ準備デバイス２０のようなデバイスは、メディアプレゼンテーション記述の期間レベルまたはメディアプレゼンテーション記述の適応セットレベルのうちの少なくとも１つにおいてデータを送り得、そのデータは、メディアプレゼンテーションで使用されるプロジェクションマッピングを示し得る。デバイスは、メディアプレゼンテーションのビデオ表現のセグメントを送り得る。クライアントデバイス４０またはサーバデバイス６０のようなデバイスは、メディアプレゼンテーション記述の期間レベルまたはメディアプレゼンテーション記述の適応セットレベルのうちの少なくとも１つにおいてシグナリングされるデータに少なくともオンパートに基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定し、その決定に基づいて、メディアプレゼンテーションのビデオ表現のセグメントをリトリーブすることによって、メディアデータをリトリーブし得る。デバイスはまた、メディアプレゼンテーションで使用されるプロジェクションマッピングに少なくとも部分的に基づいて、ビデオ表現のセグメントをリトリーブするかどうかを決定し得る。デバイスはまた、メディアプレゼンテーションで使用されるプロジェクションマッピングに少なくとも部分的に基づいて、ビデオ表現のセグメントをどのように復号するかを決定し得る。プロジェクションマッピングをシグナリングするデータは、メディアプレゼンテーションの表現レベルにおいてはシグナリングされない。

[0103] いくつかの例では、プロジェクションマッピングをシグナリングするデータがメディアプレゼンテーションの期間レベルに存在するとき、メディアプレゼンテーションの適応セットレベルにおけるプロジェクションマッピングのシグナリングは、オプションであり得る。いくつかの例では、プロジェクションマッピングをシグナリングするデータがメディアプレゼンテーションの適応セットレベルに存在するとき、メディアプレゼンテーションの期間レベルにおいてプロジェクションマッピングをシグナリングすることは、義務的であり得る。プロジェクションマッピングをシグナリングするデータは、メディアプレゼンテーションの表現レベルにおいてはシグナリングされない可能性がある。

[0104] （例えば、適応セットレベルの要素または属性を通した）適応セットレベルのシグナリングは、動き制約タイルベースのビューポートに依存したＶＲビデオコーディングスキームが使用されているかどうか、そしてもしそうであるなら、いずれが使用されているか、を示すために使用される。例えば、セクション２．５．２に記述されているような３つのアプローチ、ＳＴＰＤ、ＳＬＰＤ＃１、およびＳＭＰＤ＃２のうちの１つが使用され得ることが定められ得、およびこれらの３つのうちのいずれが使用されているかを示すために属性が使用される、例えば、値１、２または３がそれぞれ、ＳＴＰＤが使用されること、ＳＬＰＤ＃１が使用されること、またはＳＭＰＤ＃２が使用されること、を示す。

[0105] 例えば、コンテンツ準備デバイス２０のようなデバイスは、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいて、動き制約タイルベースのビューポートに依存したＶＲビデオコーディングスキーム（motion-constrained tiles based viewport dependent VR video coding scheme）がそのメディアプレゼンテーションにおいて使用されていることを示すデータを送り得、そのメディアプレゼンテーションのセグメントを送り得る。そのデータは第１のデータであり得、デバイスはまた、いずれの動き制約タイルベースのビューポートに依存したＶＲコーディングスキームがメディアプレゼンテーションにおいて使用されているかを示す、メディアプレゼンテーションの適応セットレベルにおいてシグナリングされる、第２のデータを送り得る。クライアントデバイス４０またはサーバデバイス６０のようなデバイスは、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされる第１のデータに基づいて、動き制約タイルベースのビューポートに依存したＶＲビデオコーディングスキームがそのメディアプレゼンテーションにおいて使用されているかどうかを決定し得、デバイスは、そのメディアプレゼンテーションのセグメントをリトリーブし得る。動き制約タイルベースのビューポートに依存したＶＲコーディングスキームがそのメディアプレゼンテーションにおいて使用されていると決定することに応答して、デバイスは、メディアプレゼンテーションの適応セットレベルにおいてシグナリングされる第２のデータに基づいて、いずれの動き制約タイルベースのビューポートに依存したＶＲコーディングスキームがそのメディアプレゼンテーションにおいて使用されているかを決定し得る。

[0106] 第１の動き制約タイルベースのビューポートに依存したＶＲコーディングスキームに従って、デバイスは、ビューポートをカバーする各潜在的な領域が、独立して、時間を越えて他の領域から復号可能であるように、動き制約タイルを使用してＶＲビデオピクチャを符号化または復号し得る。第２の動き制約タイルベースのビューポートに依存したＶＲコーディングスキームに従って、（１）ＶＲビデオは、複数の解像度を伴うスケーラブルビデオコーディング空間スケーラビリティを使用してスケーラブルコーディングされ得、（２）ベースレイヤは、いずれのビューポートについても、少なくとも最も低い解像度のビデオはいつでもレンダリングのために利用可能であるように、完全に送られ得、（３）エンハンスメントレイヤ（ＥＬ）は、ビューポートをカバーする各潜在的な領域が、インターレイヤ予測が有効な状態で、独立して、時間を越えて他の領域から復号されることができるように、動き制約タイルを使用してコーディングされ、および（４）時間的インター予測はベースレイヤおよびＥｌにおいて有効にされる。第３の動き制約タイルベースのビューポートに依存したＶＲコーディングスキームに従って、（１）ＶＲビデオは、複数の解像度を伴うスケーラブルビデオコーディング空間スケーラビリティを使用してスケーラブルコーディングされ得、（２）ベースレイヤは、いずれのビューポートについても、少なくとも最も低い解像度のビデオはいつでもレンダリングのために利用可能であるように、完全に送られ得、（３）ＥＬは、ビューポートをカバーする各潜在的な領域が、インターレイヤ予測が有効な状態で、独立して、時間を越えて他の領域から復号されることができるように、動き制約タイルを使用してコーディングされ得、および（４）時間的インター予測は、ベースレイヤにおいては有効にされ得るが、ＥＬにおいては無効にされ得る。メディアプレゼンテーションの適応セットレベルにおいてシグナリングされる第２のデータは、第１の、第２の、または第３の動き制約タイルベースのビューポートに依存したＶＲコーディングスキームのうちのいずれが、メディアプレゼンテーションにおいて使用されているかを示し得る。

[0107] ファイルフォーマットレベルにおけるタイルベースのビューポートに依存した部分的なＶＲビデオ符号化および復号スキームのシグナリングは、ＩＳＯ／ＩＥＣ１４４９６−１５の１０節におけるレイヤードＨＥＶＣ（Ｌ−ＨＥＶＣ）およびＨＥＶＣのタイルドストレージ（the tiled storage）を使用することができる。いくつかの例では、タイル領域サンプルグループマッピングが使用されるとき、（１つのトラックに対応する）特定のＤＡＳＨ表現からのあるビューポートをカバーするタイルの要求のために多くのバイト範囲を使用する必要を回避するために、各々が１つの動き制約タイルまたはタイル領域を搬送する（carrying）複数のタイルトラックが使用される。

[0108] 例えば、コンテンツ準備デバイス２０のようなデバイスは、タイルベースのビューポートに依存したＶＲビデオ符号化および復号スキームを示す、メディアプレゼンテーションを含むファイルのファイルフォーマットレベルにおいて記憶されたデータを送り得、およびメディアプレゼンテーションのセグメントを送り得る。クライアントデバイス４０またはサーバデバイス６０のようなデバイスは、メディアプレゼンテーションを含むファイルのファイルフォーマットレベルにおいて記憶されたデータに基づいて、タイルベースのビューポートに依存したＶＲビデオ符号化および復号スキームを決定し得、およびメディアプレゼンテーションのセグメントをリトリーブし得る。ファイルは、例えば、複数のトラックを、それら複数のトラックの各それぞれのトラックが動き制約タイルまたはタイル領域を含む状態で、含み得る。

[0109] ＩＳＯ／ＩＥＣ２３００８−２ビデオは、タイルと呼ばれる長方形領域のコーディングに関するサポートを提供する。ＨＥＶＣタイルは、同じコーディングされたピクチャ内の他のＨＥＶＣタイルとはコーディング依存関係を有しないが前のコーディングされたピクチャからの他のＨＥＶＣタイルとはコーディング依存関係を有し得るか、あるいは、独立して復号され得る。ＩＳＯ／ＩＥＣ１４４９６−１５の１０節では、長方形タイル領域は、他のＨＥＶＣタイルを含まず、復号順序で連続する必要はないが連続している可能性のある、１つまたは複数のスライス中に符号化される長方形領域を形成する任意の整数のＨＥＶＣタイル、と定義される。ＩＳＯ／ＩＥＣ１４４９６−１５の１０節では、制約のないタイル領域（unconstrained tile region）は、１つまたは複数の完全なＨＥＶＣタイルから成り、復号順序で連続する必要はないが連続している可能性のある、任意の数の完全なスライス、と定義される。ＩＳＯ／ＩＥＣ１４４９６−１５の１０節では、制約のないタイル領域はまた、いくつかのＨＥＶＣタイルに及ぶ関心領域（a region of interest）を表すために使用される可能性がある。

[0110] さらに、ＩＳＯ／ＩＥＣ１４４９６−１５の従属節１０．６に記述されるように、

異なるトラックに独立して復号可能なＨＥＶＣ（それぞれＬ−ＨＥＶＣ）タイルを記憶することは、ビデオコンテンツへの速い空間的および時間的アクセスのために有益であり得るケースが存在する。そのようなケースについては、トラックは、ＨＥＶＣＴｉｌｅＳａｍｐｌｅＥｎｔｒｙ（それぞれＬＨＥＶＣＴｉｌｅＳａｍｐｌｅＥｎｔｒｙ）サンプル記述フォーマットを使用して作り出され得る。

ＨＥＶＣ（それぞれＬ−ＨＥＨＣ）タイルトラックは、タイル（１つまたは複数）が属する関連するＨＥＶＣレイヤのＮＡＬＵを搬送するＨＥＶＣ（それぞれＬ−ＨＥＶＣ）トラックへの「ｔｂａｓ」参照が存在するビデオトラックである。ＨＥＶＣタイルトラックのためのサンプル記述タイプは、「ｈｖｔ１」であるものとする。Ｌ−ＨＥＶＣタイルトラックのためのサンプル記述タイプは、「ｌｈｔ１」であるものとする。

タイルトラックにおけるサンプルも、サンプル記述ボックスも、ＶＰＳ、ＳＰＳ、またはＰＰＳＮＡＬユニットを含まないものとし、これらのＮＡＬユニットは、「ｔｂａｓ」トラック参照によって識別されるような、関連するレイヤを含むトラックのサンプル記述ボックスまたはサンプルに存在するものとする。「ｔｂａｓ」トラック参照によって示されるような、関連するレイヤを含むトラックおよびＨＥＶＣ／Ｌ−ＨＥＶＣタイルトラックは両方、元のビットストリームがどのように再構成されるかを示すために、Ａ．７に定義されるような抽出器を使用し得、これらのトラックにおける抽出器の存在は、いくつかのアプリケーション領域では制約され得る。

タイルトラックに記憶されたＨＥＶＣまたはＬ−ＨＥＶＣサンプルは、ＩＳＯ／ＩＥＣ２３００８−２に定義されるような、１つまたは複数のタイルに関するスライスの完全なセットである。典型的には、トラックが単一のＨＥＶＣタイルから構成される場合、このタイルをコーディングするために使用されるスライス（１つまたは複数）のみが、サンプル中に見つけられることになる。タイルトラックは、典型的には、１つのＲｅｃｔＴｉｌｅＲｅｇＧｒｏｕｐＥｎｔｒｙ（単一のタイルトラック）、あるいは、１つのＵｎｃｏｎｓｔｒＴｉｌｅＲｅｇＧｒｏｕｐＥｎｔｒｙおよびこの制約のないタイル領域の材料である１つまたは複数の依存したＲｅｃｔＴｉｌｅＲｅｇＧｒｏｕｐＥｎｔｒｙ（マルチタイルトラック）を含む。

タイルトラックに記憶されたＨＥＶＣサンプルは、サンプルにおけるＶＣＬＮＡＬユニットがＩＤＲ（Instantaneous Decoding Refresh）ＮＡＬユニット、ＣＲＡ（Clean Random Access）ＮＡＬユニット、またはＢＬＡ（Broken Link Access）ＮＡＬユニットである場合、ｓｙｎｃサンプルと考えられる。

タイルトラックに記憶されたＬ−ＨＥＶＣサンプルは、サンプルにおけるＶＣＬＮＡＬユニットがＩＲＡＰＮＡＬユニットであり、および対応するアクセスユニットがＲＡＳＬピクチャを有しない場合、ｓｙｎｃサンプルと考えられる。

レギュラーＨＥＶＣ（それぞれＬ−ＨＥＶＣ）サンプルについて定義されたサブサンプルおよびサンプルグルーピングは、ＨＥＶＣ（それぞれＬ−ＨＥＶＣ）タイルサンプルについてと同じ定義を有する。

注１：インプリメンテーションは、ＨＥＶＣシーケンスの完全なタイルのサブセットのみを復号することを決め得る。このケースでは、それは、ＨＥＶＣシーケンスを復号している間いくつかの抽出器を無視するまたは不必要なトラックを捨てるために、ＲｅｃｔＴｉｌｅＲｅｇＧｒｏｕｐＥｎｔｒｙおよびＵｎｃｏｎｓｔｒＴｉｌｅＲｅｇＧｒｏｕｐＥｎｔｒｙサンプルグループ記述におけるタイル依存関係情報（tile dependency information）を使用し得る。

注２：特定のＨＥＶＣまたはＬ−ＨＥＶＣタイルトラックによって表されるビデオの一部のみが要求されるとき、ファイルパーサ（a file parser）は、ビデオデコーダに与えられることになる出力ビットストリームを生成するために、次の例示的な処理を使用し得る：［Ｅｄ．（ＹＫ）：これはＨＥＶＣまたはＬ−ＨＥＶＣタイルトラックの特定のセットが要求されるケースについて一般化されるべきである］。

− 第一に、サンプルエントリに含まれるＳＥＩＮＡＬユニットおよびパラメータセットは、出力され、リストされる順序で、その後に次のものが続く：（例えば、パラメータセットＮＡＬユニット、プレフィックスＳＥＩＮＡＬユニット等の）ＶＣＬＮＡＬユニットの前に存在しなければならない（「ｔｂａｓ」トラック参照によって示されるような）ベーストラックにおける第１のサンプルのｆｉｒｓｔＳａｍｐｌｅＩｎＢａｓｅＴｒａｃｋにおけるＮＡＬユニット、タイルトラックにおけるｆｉｒｓｔＳａｍｐｌｅＩｎＢａｓｅＴｒａｃｋの対応するサンプルにおけるＮＡＬユニット、（例えば、ＥＯＳＮＡＬユニット、ＥＯＢＮＡＬユニット等の）ＶＬＣＮＡＬユニットの後に存在しなければならないｆｉｒｓｔＳａｍｐｌｅＩｎＢａｓｅＴｒａｃｋにおけるＮＡＬユニット、ＶＬＣＮＡＬユニットの前に存在しなければならないベーストラックにおける第２のサンプルのｓｅｃｏｎｄＳａｍｐｌｅＩｎＢａｓｅＴｒａｃｋにおけるＮＡＬユニット、タイルトラックにおけるｓｅｃｏｎｄＳａｍｐｌｅＩｎＢａｓｅＴｒａｃｋの対応するサンプルにおけるＮＡＬユニット、ＶＬＣＮＡＬユニットの後に存在しなければならないｓｅｃｏｎｄＳａｍｐｌｅＩｎＢａｓｅＴｒａｃｋにおけるＮＡＬユニット等。

− ベーストラックおよびタイルトラックにおけるサンプルは、復号時間によって同期される。言い換えれば、ベーストラックにおけるサンプルおよびタイルトラックにおけるそれの対応するサンプルは、同じ復号時間を有する。

[0111] 動き制約タイルベースのビューポートに依存したＶＲビデオコーディングスキームが使用されており、および１４４９６−１５の１０節に定められたようなタイルトラックが使用されるとき、例えば、各動き制約タイルまたはタイル領域がトラックまたはＤＡＳＨ表現において排他的に搬送されるとき、適応セットレベルの要素が、各動き制約タイルまたはタイル領域とそれを搬送する表現との間のマッピングをシグナリングするために使用される。要素は、エントリカウントとその後に続く｛表現ＩＤ、領域ロケーション、および領域サイズ｝の値のループを含み得る。同じＶＲビデオが（各空間解像度が複数のタイルトラックに対応することになる）複数の空間解像度で表され、すべての表現が１つの適応セットに含まれるとき、各領域ロケーションおよび領域サイズは、最も高い解像度に対して、または代替的に、特定の解像度の全ピクチャ領域に対して指定されている可能性があり、ここで特定の解像度は、その特定の解像度に関連する表現ＩＤに等しい属性によって示される。表現ＩＤは、その表現ＩＤを有する表現において完全にまたは部分的に搬送されるピクチャの解像度である解像度に関連すると言われている。

[0112] 例えば、コンテンツ準備デバイス２０のようなデバイスは、動き制約タイル（motion constrained tile）またはタイル領域とその動き制約タイルまたはタイル領域を搬送する表現との間のマッピングを含むメディアプレゼンテーションの適応セットレベルの要素を送り得、デバイスは、そのメディアプレゼンテーションのセグメントを送り得る。クライアントデバイス４０またはサーバデバイス６０のようなデバイスは、メディアプレゼンテーションの適応セットレベルの要素に基づいて、動き制約タイルまたはタイル領域とその動き制約タイルまたはタイル領域を搬送する表現との間のマッピングを決定し得、デバイスは、そのメディアプレゼンテーションのセグメントをリトリーブし得る。適応セットレベルの要素は、エントリカウントおよびエントリのセットを、エントリのセットにおける各エントリが表現識別子値、領域ロケーション値、および領域サイズ値を含む状態で、含み得る。エントリカウントは、エントリのセットにおけるエントリ数を示し得る。

[0113] 動き制約タイルベースのビューポートに依存したＶＲビデオコーディングスキームが使用されており、および１４４９６−１５の１０節に定められたようなタイルトラックが使用されない、すなわち、各トラックまたはＤＡＳＨ表現が全コーディングされたピクチャを搬送するときには、ＤＡＳＨクライアントが特定の動き制約タイルまたはタイル領域を要求するためにアクセスユニットレベルまたはサンプルレベルのバイト範囲が必要であり、バイト範囲によって参照されるデータは、排他的に特定の動き制約タイルまたはタイル領域のためのものであり得るか、またはすべての動き制約タイルまたはタイル領域のためのものであり得る。ＭＰＤがそのようなバイト範囲を含むことは、負荷が大きすぎる（too heavy）であろう。１つの実行可能であるかもしれない方法は、場合によっては相対的な方法で、そのようなバイト範囲を含むための新しいボックスを定義することであり、例えば、０番目のバイトはその新しいボックスの直後に続くバイトを意味し、そのような新しいボックスのインスタンスは、セグメントインデックスボックスに含まれることができ、そのセグメントにおけるすべてのサンプルまたはアクセスユニットのバイト範囲はその新しいボックスに記録（documented）される。

[0114] 例えば、コンテンツ準備デバイス２０のようなデバイスは、動き補償されたタイルベースのビューポートに依存したＶＲビデオコーディングスキームを使用するメディアプレゼンテーションを記憶するファイル内のボックスにおいて、特定の動き制約タイルまたはタイル領域のバイト範囲を送り得、およびデバイスは、特定の動き制約タイルまたはタイル領域のバイト範囲に基づいて、特定の動き制約タイルまたはタイル領域のデータを送り得る。クライアントデバイス４０またはサーバデバイス６０のようなデバイスは、動き補償されたタイルベースのビューポートに依存したＶＲビデオコーディングスキームを使用するメディアプレゼンテーションを記憶するファイル内のボックスに基づいて、特定の動き制約タイルまたはタイル領域のバイト範囲を決定し得、およびデバイスは、特定の動き制約タイルまたはタイル領域のバイト範囲に基づいて、特定の動き制約タイルまたはタイル領域のデータを取得し得る。ボックスは、例えば、セグメントインデックスボックスであり得る。ボックスは、メディアプレゼンテーションのセグメントにおけるすべてのサンプルまたはアクセスユニットのバイト範囲を記録（documenting）するデータを含み得る。

[0115] 図７は、図１のリトリーバルユニット５２のコンポーネントの例示的なセットをより詳細に例示するブロック図である。この例では、リトリーバルユニット５２は、ｅＭＢＭＳミドルウェアユニット１００、ＤＡＳＨクライアント１１０、およびメディアアプリケーション１１２を含む。

[0116] この例では、ｅＭＢＭＳミドルウェアユニット１００はさらに、ｅＭＢＭＳ受信ユニット１０６、キャッシュ１０４、およびサーバユニット１０２を含む。この例では、ｅＭＢＭＳ受信ユニット１０６は、例えば、ｈｔｔｐ：／／ｔｏｏｌｓ．ｉｅｔｆ．ｏｒｇ／ｈｔｍｌ／ｒｆｃ６７２６で利用可能な、Ｔ．Ｐａｉｌａらによる「ＦＬＵＴＥ−ＦｉｌｅＤｅｌｉｖｅｒｙｏｖｅｒＵｎｉｄｉｒｅｃｔｉｏｎａｌＴｒａｎｓｐｏｒｔ」、ＮｅｔｗｏｒｋＷｏｒｋｉｎｇＧｒｏｕｐ、ＲＦＣ６７２６、２０１２年１１月に記述された、ＦＬＵＴＥ（File Delivery over Unidirectional Transport）に従って、ｅＭＢＭＳを介してデータを受信するように構成される。つまり、ｅＭＢＭＳ受信ユニット１０６は、ＢＭ−ＳＣとして機能し得るサーバデバイス６０等から、ブロードキャストを介してファイルを受信し得る。

[0117] ｅＭＢＭＳミドルウェアユニット１００がファイルに関するデータを受け取るとき、ｅＭＢＭＳミドルウェアユニットは、受け取られたデータをキャッシュ１０４に記憶し得る。キャッシュ１０４は、フラッシュメモリ、ハードディスク、ＲＡＭ、または任意の他の好適な記憶媒体のようなコンピュータ読み取り可能な記憶媒体を備え得る。

[0118] ローカルサーバユニット１０２は、ＤＡＳＨクライアント１１０のためのサーバとして機能し得る。例えば、ローカルサーバユニット１０２は、ＤＡＳＨクライアント１１０に、ＭＰＤファイルまたは他のマニフェストファイルを提供し得る。ローカルサーバユニット１０２は、ＭＰＤファイルにおいて、セグメントについての利用可能性時間（availability times）、ならびにセグメントがそこからリトリーブされることができるハイパーリンクを、アドバタイズし得る。これらのハイパーリンクは、（例えば、ＩＰｖ４に関する１２７．０．０．１等の）クライアントデバイス４０に対応するローカルホストアドレスプレフィックスを含み得る。このように、ＤＡＳＨクライアント１１０は、ＨＴＴＰＧＥＴまたは部分的ＧＥＴ要求を使用して、ローカルサーバユニット１０２に対してセグメントを要求し得る。例えば、リンクｈｔｔｐ：／／１２７．０．０．１／ｒｅｐ１／ｓｅｇ３から利用可能なセグメントについて、ＤＡＳＨクライアント１１０は、ｈｔｔｐ：／／１２７．０．０．１／ｒｅｐ１／ｓｅｇ３を求める要求を含むＨＴＴＰＧＥＴ要求を構築し得、その要求をローカルサーバユニット１０２にサブミットし得る。ローカルサーバユニット１０２は、そのような要求に応答して、要求されたデータをキャッシュ１０４からリトリーブし得、そのデータをＤＡＳＨクライアント１１０に提供し得る。

[0119] 図８は、例示的なマルチメディアコンテンツ１２０の要素を例示する概念図である。マルチメディアコンテンツ１２０は、マルチメディアコンテンツ６４（図１）または記憶媒体６２に記憶された別のマルチメディアコンテンツに対応し得る。図８の例では、マルチメディアコンテンツ１２０は、メディアプレゼンテーション記述（ＭＰＤ）１２２および複数の表現１２４Ａ〜１２４Ｎ（表現１２４）を含む。表現１２４Ａは、オプションのヘッダデータ１２６およびセグメント１２８Ａ〜１２８Ｎ（セグメント１２８）を含み、一方で表現１２４Ｎは、オプションのヘッダデータ１３０およびセグメント１３２Ａ〜１３２Ｎ（セグメント１３２）を含む。文字Ｎが、便宜上、表現１２４の各々における最後の動画フラグメントを指定するために使用される。いくつかの例では、表現１２４間で異なる数の動画フラグメントが存在し得る。

[0120] ＭＰＤ１２２は、表現１２４とは別個のデータ構造を備え得る。ＭＰＤ１２２は、図１のマニフェストファイル６６に対応し得る。同様に、表現１２４は、図１の表現６８に対応し得る。一般に、ＭＰＤ１２２は、例えば、コーディングおよびレンダリング特性、適応セット、ＭＰＤ１２２が対応するプロファイル、テキストタイプ情報、カメラアングル情報、レーティング情報、トリックモード情報（例えば、時間的サブシーケンス（temporal sub-sequences）を含む表現を示す情報）および／または（例えば、再生中のメディアコンテンツへの、的を絞ったアドバタイズメントの挿入のための）遠隔の期間（remote periods）をリトリーブするための情報等の、表現１２４の特性を一般に記述するデータを含み得る。

[0121] ヘッダデータ１２６は、存在するとき、セグメント１２８の特性、例えば、ランダムアクセスポイント（ＲＡＰ、ストリームアクセスポイント（ＳＡＰ）とも呼ばれる）の時間的ロケーションを記述し得、セグメント１２８のそれは、ランダムアクセスポイント、セグメント１２８内のランダムアクセスポイントへのバイトオフセット、セグメント１２８のユニフォームリソースロケータ（ＵＲＬ）、またはセグメント１２８の他の態様を含む。ヘッダデータ１３０は、存在するとき、セグメント１３２についての同様の特性を記述し得る。追加的に、または代替的に、そのような特性は、ＭＰＤ１２２内に完全に含まれ得る。

[0122] セグメント１２８、１３２は、１つまたは複数のコーディングされたビデオサンプルを含み、それらの各々は、ビデオデータのスライスまたはフレームを含み得る。セグメント１２８のコーディングされたビデオサンプルの各々は、同様の特性、例えば、高さ、幅、および帯域幅要件を有し得る。そのような特性は、ＭＰＤ１２２のデータによって記述され得るが、しかしながらそのようなデータは図８の例には例示されていない。ＭＰＤ１２２は、本開示に説明される、シグナリングされる情報のうちの任意のものまたはすべてを追加して、３ＧＰＰ仕様書によって記述されたような特性を含み得る。

[0123] セグメント１２８、１３２の各々は、一意のユニフォームリソースロケータ（ＵＲＬ）に関連し得る。したがって、セグメント１２８、１３２の各々は、ＤＡＳＨのようなストリーミングネットワークプロトコルを使用して、独立してリトリーブ可能であり得る。このように、クライアントデバイス４０のような宛先デバイスは、セグメント１２８または１３２をリトリーブするために、ＨＴＴＰＧＥＴ要求を使用し得る。いくつかの例では、クライアントデバイス４０は、セグメント１２８または１３２の特定のバイト範囲をリトリーブするために、ＨＴＴＰ部分的ＧＥＴ要求を使用し得る。

[0124] 図９は、例示的なビデオファイル１５０の要素を例示するブロック図であり、それは、図８のセグメント１２８、１３２のうちの１つのような、表現のセグメントに対応し得る。セグメント１２８、１３２の各々は、図９の例に例示されるデータの配列に事実上一致（conforms）するデータを含み得る。ビデオファイル１５０は、セグメントをカプセル化すると言われ得る。上述したように、ＩＳＯベースのメディアファイルフォーマットおよびその拡張に従ったビデオファイルは、「ボックス」と呼ばれる一連のオブジェクトにデータを記憶する。図９の例では、ビデオファイル１５０は、ファイルタイプ（ＦＴＹＰ）ボックス１５２、動画（ＭＯＯＶ）ボックス１５４、セグメントインデックス（ｓｉｄｘ）ボックス１６２、動画フラグメント（ＭＯＯＦ）ボックス１６４、および動画フラグメントランダムアクセス（ＭＦＲＡ）ボックス１６６を含む。図９は、ビデオファイルの例を表すが、他のメディアファイルは、ＩＳＯベースのメディアファイルフォーマットおよびそれの拡張に従った、ビデオファイル１５０のデータと同様に構造化（structured）された他のタイプのメディアデータ（例えば、オーディオデータ、時限のテキストデータ、または同様のもの）を含み得ることは、理解されるべきである。

[0125] ファイルタイプ（ＦＴＹＰ）ボックス１５２は、一般に、ビデオファイル１５０についてのファイルタイプを記述する。ファイルタイプボックス１５２は、ビデオファイル１５０のための最善の使用を記述する仕様書を識別するデータを含み得る。ファイルタイプボックス１５２は、代替的に、ＭＯＯＶボックス１５４、動画フラグメントボックス１６４、および／またはＭＦＲＡボックス１６６の前に配置され得る。

[0126] いくつかの例では、ビデオファイル１５０のようなセグメント（Segment）は、ＦＴＹＰボックス１５２の前にＭＰＤ更新ボックス（示されていない）を含み得る。ＭＰＤ更新ボックスは、ビデオファイル１５０を含む表現に対応するＭＰＤが更新されるべきであることを示す情報を、ＭＰＤを更新するための情報とともに、含み得る。例えば、ＭＰＤ更新ボックスは、ＭＰＤを更新するために使用されることになるリソースについてのＵＲＩまたはＵＲＬを提供し得る。別の例として、ＭＰＤ更新ボックスは、ＭＰＤを更新するためのデータを含み得る。いくつかの例では、ＭＰＤ更新ボックスは、ビデオファイル１５０のセグメントタイプ（ＳＴＹＰ）ボックス（示されていない）の直後に続き得、ここでＳＴＹＰボックスは、ビデオファイル１５０についてのセグメントタイプを定義し得る。

[0127] 図９の例では、ＭＯＯＶボックス１５４は、動画ヘッダ（ＭＶＨＤ）ボックス１５６、トラック（ＴＲＡＫ）ボックス１５８、および１つまたは複数の動画拡張（ＭＶＥＸ）ボックス１６０を含む。一般に、ＭＶＨＤボックス１５６は、ビデオファイル１５０の一般的な特性を記述し得る。例えば、ＭＶＨＤボックス１５６は、ビデオファイル１５０が元々作り出されたのはいつか、ビデオファイル１５０が最後に修正されたのはいつか、ビデオファイル１５０についての時間スケール、ビデオファイル１５０についての再生の持続時間、またはビデオファイル１５０を一般的に記述する他のデータ、を記述するデータを含み得る。

[0128] ＴＲＡＫボックス１５８は、ビデオファイル１５０のトラックについてのデータを含み得る。ＴＲＡＫボックス１５８は、ＴＲＡＫボックス１５８に対応するトラックの特性を記述するトラックヘッダ（ＴＫＨＤ）ボックスを含み得る。いくつかの例では、ＴＲＡＫボックス１５８は、コーディングされたビデオピクチャを含み得、一方で他の例では、トラックのコーディングされたビデオピクチャは、動画フラグメント１６４に含まれ得、それは、ＴＲＡＫボックス１５８および／またはｓｉｄｘボックス１６２のデータによって参照され得る。

[0129] いくつかの例では、ビデオファイル１５０は、１つより多くのトラックを含み得る。したがって、ＭＯＯＶボックス１５４は、ビデオファイル１５０中のトラックの数に等しいいくつかのＴＲＡＫボックスを含み得る。ＴＲＡＫボックス１５８は、ビデオファイル１５０の対応するトラックの特性を記述し得る。例えば、ＴＲＡＫボックス１５８は、対応するトラックについての時間および／または空間情報（temporal and/or spatial information）を記述し得る。ＭＯＯＶボックス１５４のＴＲＡＫボックス１５８と同様なＴＲＡＫボックスは、カプセル化ユニット３０（図１）がビデオファイル１５０のようなビデオファイル中にパラメータセットトラックを含めるとき、パラメータセットトラックの特性を記述し得る。カプセル化ユニット３０は、パラメータセットトラックを記述するＴＲＡＫボックス内で、パラメータセットトラック中のシーケンスレベルＳＥＩメッセージの存在をシグナリングし得る。

[0130] ＭＶＥＸボックス１６０は、例えば、もしあれば、ＭＯＯＶボックス１５４内に含まれるビデオデータに加えて、ビデオファイル１５０が動画フラグメント１６４を含むことをシグナリングするために、対応する動画フラグメント１６４の特性を記述し得る。ビデオデータのストリーミングの文脈では、コーディングされたビデオピクチャは、ＭＯＯＶボックス１５４ではなく動画フラグメント１６４に含まれ得る。したがって、すべてのコーディングされたビデオサンプルは、ＭＯＯＶボックス１５４ではなく、動画フラグメント１６４に含まれ得る。

[0131] ＭＯＯＶボックス１５４は、ビデオファイル１５０中の動画フラグメント１６４の数に等しいいくつかのＭＶＥＸボックス１６０を含み得る。ＭＶＥＸボックス１６０の各々は、動画フラグメント１６４のうちの対応するものの特性を記述し得る。例えば、各ＭＶＥＸボックスは、動画フラグメント１６４のうちの対応するものについての時間的な持続時間（a temporal duration）を記述する動画拡張ヘッダボックス（ＭＥＨＤ）ボックスを含み得る。

[0132] 上述したように、カプセル化ユニット３０は、実際のコーディングされたビデオデータを含まないビデオサンプル中にシーケンスデータセットを記憶し得る。ビデオサンプルは一般に、アクセスユニットに対応し得、それは、特定のタイムインスタンスにおけるコーディングされたピクチャの表現である。ＡＶＣおよびＨＥＶＣの文脈では、コーディングされたピクチャは、アクセスユニットの全ピクセルを構築するための情報を含む１つまたは複数のＶＣＬＮＡＬユニットおよびＳＥＩメッセージのような他の関連した非ＶＣＬＮＡＬユニットを含む。したがって、カプセル化ユニット３０は、動画フラグメント１６４のうちの１つに、シーケンスデータセット、なおそれはシーケンスレベルＳＥＩメッセージを含み得る、を含め得る。カプセル化ユニット３０はさらに、動画フラグメント１６４のうちの１つに対応するＭＶＥＸボックス１６０のうちの１つ内で、動画フラグメント１６４のうちの１つに存在するものとして、シーケンスレベルＳＥＩメッセージおよび／またはシーケンスデータセットの存在、をシグナリングし得る。

[0133] ＳＩＤＸボックス１６２は、ビデオファイル１５０のオプションの要素である。つまり、３ＧＰＰファイルフォーマットまたは他のそのようなファイルフォーマットに準拠するビデオファイルは、必ずしもＳＩＤＸボックス１６２を含まない。３ＧＰＰファイルフォーマットの例によると、ＳＩＤＸボックスは、（例えば、ビデオファイル１５０内に含まれるセグメント等の）セグメントのサブセグメントを識別するために使用され得る。３ＧＰＰファイルフォーマットは、サブセグメントを「対応するメディアデータボックス（１つまたは複数）を有する１つまたは複数の連続する動画フラグメントボックスの自己充足型セット（a self-contained set）であり、ある動画フラグメントボックスによって参照されるデータを含むあるメディアデータボックスは、その動画フラグメントボックスの後に続き、かつ同じトラックについての情報を含む次の動画フラグメントボックスに前に来なければならない」と定義する。３ＧＰＰファイルフォーマットはまた、ＳＩＤＸボックスが、「ボックスによって記録（documented）される（サブ）セグメントのサブセグメントへの参照のシーケンスを含む。参照されるサブセグメントは、提示される時間において連続的である。同様に、セグメントインデックスボックス（Segment Index box）によって参照されるバイトは、常にセグメント内で連続的である。参照されるサイズは、参照される材料におけるバイトの数のカウントを与える」ことを示す。

[0134] ＳＩＤＸボックス１６２は一般に、ビデオファイル１５０に含まれるセグメントの１つまたは複数のサブセグメントを表す情報を提供する。例えば、そのような情報は、サブセグメントが始まるおよび／または終わる再生時間、サブセグメントについてのバイトオフセット、サブセグメントがストリームアクセスポイント（ＳＡＰ）を含む（例えば、それで開始する）かどうか、ＳＡＰについてのタイプ（例えば、ＳＡＰがＩＤＲ（instantaneous decoder refresh）ピクチャか、ＣＲＡ（clean random access）ピクチャか、ＢＬＡ（broken link access）ピクチャか、または同様のものか）、サブセグメントにおけるＳＡＰのポジション（再生時間および／またはバイトオフセットの観点から）等、を含み得る。

[0135] 動画フラグメント１６４は、１つまたは複数のコーディングされたビデオピクチャを含み得る。いくつかの例では、動画フラグメント１６４は、１つまたは複数のピクチャのグループ（ＧＯＰ：group of pictures）を含み得、それらの各々は、いくつかのコーディングされたビデオピクチャ、例えばフレームまたはピクチャを含み得る。加えて、上述したように、動画フラグメント１６４は、いくつかの例では、シーケンスデータセットを含み得る。動画フラグメント１６４の各々は、動画フラグメントヘッダボックス（ＭＦＨＤ、図９には示されていない）を含み得る。ＭＦＨＤボックスは、動画フラグメントについてのシーケンスナンバのような対応する動画フラグメントの特性を記述し得る。動画フラグメント１６４は、ビデオファイル１５０にシーケンスナンバの順番で含まれ得る。

[0136] ＭＦＲＡボックス１６６は、ビデオファイル１５０の動画フラグメント１６４内のランダムアクセスポイントを記述し得る。これは、例えば、ビデオファイル１５０によってカプセル化されたセグメント内の特定の時間的ロケーション（すなわち、再生時間）へのシーク（seeks）を実施すること等の、トリックモードを実施することを支援し得る。ＭＦＲＡボックス１６６は一般に、オプションであり、いくつかの例では、ビデオファイルに含まれる必要はない。同様に、クライアントデバイス４０のようなクライアントデバイスは、必ずしも、ビデオファイル１５０のビデオデータを正確に復号および表示するためにＭＦＲＡボックス１６６を参照する必要はない。ＭＦＲＡボックス１６６は、ビデオファイル１５０のトラックの数と等しい、またはいくつかの例では、ビデオファイル１５０の（例えば、非ヒントトラック等の）メディアトラックの数と等しい、いくつかのトラックフラグメントランダムアクセス（ＴＦＲＡ）ボックス（示されていない）を含み得る。

[0137] いくつかの例では、動画フラグメント１６４は、ＩＤＲピクチャのような１つまたは複数のストリームアクセスポイント（ＳＡＰ）を含み得る。同様に、ＭＦＲＡボックス１６６は、ＳＡＰのビデオファイル１５０内のロケーションのインジケーションを提供し得る。したがって、ビデオファイル１５０の時間的サブシーケンスは、ビデオファイル１５０のＳＡＰから形成され得る。時間的サブシーケンスはまた、ＳＡＰに従属する（depend from）Ｂフレームおよび／またはＰフレームのような他のピクチャを含み得る。時間的サブシーケンスのフレームおよび／またはスライスは、サブシーケンスの他のフレーム／スライスに依存する時間的サブシーケンスのフレーム／スライスが適切に復号されることができるように、セグメント内に配列され得る。例えば、データの階層的配列において、他のデータに関する予測のために使用されるデータもまた、時間的サブシーケンスに含まれ得る。

[0138] 図１０は、本開示の技法によるメディアデータを処理するためのフローチャートである。図１０の技法は、一般的なデバイスに関して説明されることになる。デバイスは、例えば、サーバデバイス６０のようなサーバデバイス、クライアントデバイス４０のようなクライアントデバイス、またはメディアデータを処理するように構成される何らかの他のタイプのデバイスに対応し得る。デバイスは、メディアデータを受信する（２００）。メディアデータは、ＶＲビデオデータと非ＶＲビデオデータとの両方を含み得る。デバイスは、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定する（２０２）。適応セットレベルにおいてシグナリングされるデータは、例えば、適応（adaption）セット中の要素であり得、ビデオ表現は、その適応セットに属し得る。

[0139] デバイスは、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理する（２０４）。サーバデバイスは、例えば、メディアプレゼンテーションで使用されるプロジェクションマッピングに少なくとも部分的に基づいて、ビデオ表現のセグメントをリトリーブするかどうかを決定することによって、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいてメディアプレゼンテーションのビデオ表現のセグメントを処理し得る。サーバデバイスは、メディアプレゼンテーションのビデオ表現のセグメントをクライアントデバイスに送り得る。クライアントデバイスは、例えば、メディアプレゼンテーションで使用されるプロジェクションマッピングに少なくとも部分的に基づいて、ビデオ表現のセグメントをどのように復号するかを決定することｂ、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいてメディアプレゼンテーションのビデオ表現のセグメントを処理し得る。クライアントデバイスは、例えば、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいてメディアプレゼンテーションのビデオ表現のセグメントを復号し、メディアプレゼンテーションのビデオ表現のその復号されたセグメントを出力し得る。

[0140] いくつかのインプリメンテーションでは、適応レベルのシグナリングはオプションであり得、期間レベルのシグナリングの存在次第である。いくつかの例では、デバイスはまた、メディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションが、メディアプレゼンテーションの期間レベルに存在するかどうかを決定し、メディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションが、メディアプレゼンテーションの期間レベルに存在しないと決定することに応答して、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定し得る。他の例では、デバイスはまた、メディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションが、メディアプレゼンテーションの期間レベルに存在するかどうかを決定し、メディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションが、メディアプレゼンテーションの期間レベルに存在しないと決定することに応答して、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定し得る。

[0141] デバイスはまた、第２のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ第２のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、第２のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定し、第２のメディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、第２のメディアプレゼンテーションのビデオ表現のセグメントを処理し得る。

[0142] 図１１は、本開示の技法による、メディアデータを処理するためのフローチャートである。図１１の技法は、一般的なデバイスに関して説明されることになる。デバイスは、例えば、コンテンツ準備デバイス２０のようなコンテンツ準備デバイス、またはメディアデータを送るように構成される何らかの他のタイプのデバイスに対応し得る。デバイスは、メディアデータを生成する（２１０）。メディアデータは、例えば、ＶＲビデオデータと非ＶＲビデオデータとの両方を含み得る。デバイスは、メディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、メディアデータに含める（２１２）。適応セットレベルにおいてシグナリングされるデータは、例えば、適応（adaption）セット中の要素であり得、ビデオ表現は、その適応セットに属し得る。デバイスは、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを送る（２１４）。

[0143] いくつかのインプリメンテーションでは、適応レベルのシグナリングはオプションであり得、期間レベルのシグナリングの存在次第である。いくつかの例では、デバイスはまた、メディアプレゼンテーションの期間レベルにおいてメディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションを含めるかどうかを決定し、メディアプレゼンテーションの期間レベルにおいてメディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションを含めないと決定することに応答して、メディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを含め得る。他の例では、デバイスはまた、メディアプレゼンテーションの期間レベルにおいてメディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションを含めるかどうかを決定し、メディアプレゼンテーションの期間レベルにおいてメディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションを含めると決定することに応答して、メディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを含め得る。

[0144] デバイスはまた、第２のメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する第２のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータを、メディアデータに含め、第２のメディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、第２のメディアプレゼンテーションのビデオ表現のセグメントを送り得る。

[0145] １つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せにおいてインプリメントされ得る。ソフトウェアにおいてインプリメントされる場合、これら機能は、コンピュータ読み取り可能な媒体上の１つまたは複数の命令またはコードとして記憶または送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な記憶媒体を含み得、それは、データ記憶媒体のような有形の媒体、または、例えば通信プロトコルに従って１つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体に対応する。このように、コンピュータ読み取り可能な媒体は一般に、（１）非一時的である有形のコンピュータ読み取り可能な記憶媒体、または（２）信号または搬送波のような通信媒体に対応し得る。データ記憶媒体は、本開示に説明された技法のインプリメンテーションのための命令、コードおよび／またはデータ構造をリトリーブするために１つまたは複数のコンピュータまたは１つまたは複数のプロセッサによってアクセスされることができる、任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ読み取り可能な媒体を含み得る。

[0146] 限定ではなく例として、そのようなコンピュータ読み取り可能な記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭまたは他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶デバイス、フラッシュメモリ、あるいは、命令またはデータ構造の形態で所望のプログラムコードを記憶するために使用されることができ、かつコンピュータによってアクセスされることができる任意の他の媒体を備えることができる。また、いかなる接続も、コンピュータ読み取り可能な媒体と適切に称される。例えば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ読み取り可能な記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、代わりに、非一時的な、有形の記憶媒体を対象とすることは、理解されるべきである。本明細書で使用される場合、ディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多目的ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ここで、ディスク（disks）は、通常磁気的にデータを再生し、一方ディスク（discs）は、レーザーを用いて光学的にデータを再生する。上記の組合せもまた、コンピュータ読み取り可能な媒体の範囲内に含まれるべきである。

[0147] 命令は、１つまたは複数のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＧＡ）、または他の同等の集積またはディスクリート論理回路構成のような１つまたは複数のプロセッサによって実行され得る。したがって、「プロセッサ」という用語は、ここで使用される場合、前述の構造のうちの任意のもの、またはここに説明された技法のインプリメンテーションのために適した任意の他の構造を指し得る。加えて、いくつかの態様では、ここに説明された機能性は、組み合わせられたコーデック内に組み込まれるか、または符号化および復号のために構成された専用のハードウェアおよび／またはソフトウェアモジュール内に提供され得る。また、これら技法は、１つまたは複数の回路または論理素子において完全にインプリメントされる可能性がある。

[0148] 本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（例えば、チップセット）を含む、多種多様なデバイスまたは装置においてインプリメントされ得る。開示された技法を実施するように構成されるデバイスの機能的態様を強調するために、様々なコンポーネント、モジュール、またはユニットが、本開示において説明されているが、必ずしも、複数の異なるハードウェアユニットによる実現を必要とするわけではない。むしろ、上述したように、様々なユニットは、好適なソフトウェアおよび／またはファームウェアと併せて、上述したような１つまたは複数のプロセッサを含む相互動作可能な複数のハードウェアユニットのコレクションによって提供され得るか、コーデックハードウェアユニットにおいて組み合わせられ得る。

[0149] 様々な例が説明された。これらのおよび他の例は、以下の特許請求の範囲の適用範囲内にある。

[0149] 様々な例が説明された。これらのおよび他の例は、以下の特許請求の範囲の適用範囲内にある。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[Ｃ１] メディアデータを処理する方法であって、
前記メディアデータを受信することと、ここにおいて、前記メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを備える、
メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を備える、方法。
[Ｃ２] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理することは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをリトリーブするかどうかを決定することと、
前記ビデオ表現の前記セグメントをリトリーブすることと、
を備える、Ｃ１に記載の方法。
[Ｃ３] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理することは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをどのように復号するかを決定すること、
を備える、Ｃ１に記載の方法。
[Ｃ４] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定すること、ここにおいて、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定することは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在しないと決定することに応答して実施される、
をさらに備える、Ｃ１に記載の方法。
[Ｃ５] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定すること、ここにおいて、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定することは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在すると決定することに応答して実施される、
をさらに備える、Ｃ１に記載の方法。
[Ｃ６] 第２のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ前記第２のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、前記第２のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記第２のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第２のメディアプレゼンテーションのビデオ表現のセグメントを処理することと、
をさらに備える、Ｃ１に記載の方法。
[Ｃ７] 前記適応セットレベルにおいてシグナリングされる前記データは、適応（adaption）セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、Ｃ１に記載の方法。
[Ｃ８] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを復号することと、
前記メディアプレゼンテーションの前記ビデオ表現の前記復号されたセグメントを出力することと、
をさらに備える、Ｃ１に記載の方法。
[Ｃ９] 前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントをクライアントデバイスに送ること、
をさらに備える、Ｃ１に記載の方法。
[Ｃ１０] メディアデータを処理するためのデバイスであって、
前記メディアデータを記憶するように構成されるメモリと、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサは、
前記メディアデータを受信することと、ここにおいて、前記メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを備える、
メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を行うように構成される、
を備える、デバイス。
[Ｃ１１] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理するために、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをリトリーブするかどうかを決定することと、前記ビデオ表現の前記セグメントをリトリーブすることと、を行うように構成される、Ｃ１０に記載のデバイス。
[Ｃ１２] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理するために、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをどのように復号するかを決定するように構成される、Ｃ１０に記載のデバイス。
[Ｃ１３] 前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定するようにさらに構成され、ここにおいて、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在しないと決定することに応答して、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定するように構成される、
Ｃ１０に記載のデバイス。
[Ｃ１４] 前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定するようにさらに構成され、ここにおいて、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在すると決定することに応答して、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定するように構成される、
Ｃ１０に記載のデバイス。
[Ｃ１５] 前記１つまたは複数のプロセッサは、
第２のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ前記第２のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、前記第２のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記第２のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第２のメディアプレゼンテーションのビデオ表現のセグメントを処理することと、
を行うようにさらに構成される、Ｃ１０に記載のデバイス。
[Ｃ１６] 前記適応セットレベルにおいてシグナリングされる前記データは、適応（adaption）セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、Ｃ１０に記載のデバイス。
[Ｃ１７] 前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを復号することと、
前記メディアプレゼンテーションの前記ビデオ表現の前記復号されたセグメントを出力することと、
を行うようにさらに構成される、Ｃ１０に記載のデバイス。
[Ｃ１８] 前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントをクライアントデバイスに送るようにさらに構成される、Ｃ１０に記載のデバイス。
[Ｃ１９] 前記メディアデータを受信するように構成される受信機をさらに備える、Ｃ１０に記載のデバイス。
[Ｃ２０] 前記デバイスがワイヤレス通信デバイスを備え、前記受信機が、ワイヤレス通信規格に従って、前記メディアデータを備える信号を復調するように構成される、Ｃ１９に記載のデバイス。
[Ｃ２１] メディアデータを処理する方法であって、
メディアデータを生成することと、ここにおいて、前記メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを含む、
前記メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを送ることと、
を備える、方法。
[Ｃ２２] 前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定すること、ここにおいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを前記メディアデータに含めることは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めないと決定することに応答して実施される、
をさらに備える、Ｃ２１に記載の方法。
[Ｃ２３] 前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定すること、ここにおいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを前記メディアデータに含めることは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めると決定することに応答して実施される、
をさらに備える、Ｃ２１に記載の方法。
[Ｃ２４] 第２のメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する前記第２のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
前記第２のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第２のメディアプレゼンテーションのビデオ表現のセグメントを送ることと、
をさらに備える、Ｃ２１に記載の方法。
[Ｃ２５] 前記適応セットレベルにおいてシグナリングされる前記データは、適応（adaption）セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、Ｃ２１に記載の方法。
[Ｃ２６] メディアデータを処理するためのデバイスであって、
前記メディアデータを記憶するように構成されるメモリと、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサは、
メディアデータを生成することと、ここにおいて、前記メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを含む、
前記メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを送ることと、
を行うように構成される、
を備える、デバイス。
[Ｃ２７] 前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定するようにさらに構成され、ここにおいて、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めないと決定することに応答して、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを、前記メディアデータに含めるように構成される、
Ｃ２６に記載のデバイス。
[Ｃ２８] 前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定するようにさらに構成され、ここにおいて、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めると決定することに応答して、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを、前記メディアデータに含めるように構成される、Ｃ２６に記載のデバイス。
[Ｃ２９] 前記適応セットレベルにおいてシグナリングされる前記データは、適応（adaption）セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、Ｃ２６に記載のデバイス。
[Ｃ３０] 前記デバイスは、送信機を備えるワイヤレス通信デバイスを備え、ここにおいて、前記送信機は、ワイヤレス通信規格に従って、前記メディアデータを備える信号を変調するように構成される、Ｃ２６に記載のデバイス。

Claims

メディアデータを処理する方法であって、
前記メディアデータを受信することと、ここにおいて、前記メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを備える、
メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを処理することと、
を備える、方法。
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理することは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをリトリーブするかどうかを決定することと、
前記ビデオ表現の前記セグメントをリトリーブすることと、
を備える、請求項１に記載の方法。
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理することは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをどのように復号するかを決定すること、
を備える、請求項１に記載の方法。
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定すること、ここにおいて、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定することは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在しないと決定することに応答して実施される、
をさらに備える、請求項１に記載の方法。
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定すること、ここにおいて、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定することは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在すると決定することに応答して実施される、
をさらに備える、請求項１に記載の方法。
第２のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ前記第２のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、前記第２のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記第２のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第２のメディアプレゼンテーションのビデオ表現のセグメントを処理することと、
をさらに備える、請求項１に記載の方法。
前記適応セットレベルにおいてシグナリングされる前記データは、適応（adaption）セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、請求項１に記載の方法。
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを復号することと、
前記メディアプレゼンテーションの前記ビデオ表現の前記復号されたセグメントを出力することと、
をさらに備える、請求項１に記載の方法。
前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントをクライアントデバイスに送ること、
をさらに備える、請求項１に記載の方法。
メディアデータを処理するためのデバイスであって、
前記メディアデータを記憶するように構成されるメモリと、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサは、
前記メディアデータを受信することと、ここにおいて、前記メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを備える、
メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを処理することと、
を行うように構成される、
を備える、デバイス。
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理するために、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをリトリーブするかどうかを決定することと、前記ビデオ表現の前記セグメントをリトリーブすることと、を行うように構成される、請求項１０に記載のデバイス。
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理するために、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをどのように復号するかを決定するように構成される、請求項１０に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定するようにさらに構成され、ここにおいて、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在しないと決定することに応答して、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定するように構成される、
請求項１０に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定するようにさらに構成され、ここにおいて、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在すると決定することに応答して、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定するように構成される、
請求項１０に記載のデバイス。
前記１つまたは複数のプロセッサは、
第２のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ前記第２のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、前記第２のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記第２のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第２のメディアプレゼンテーションのビデオ表現のセグメントを処理することと、
を行うようにさらに構成される、請求項１０に記載のデバイス。
前記適応セットレベルにおいてシグナリングされる前記データは、適応（adaption）セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、請求項１０に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを復号することと、
前記メディアプレゼンテーションの前記ビデオ表現の前記復号されたセグメントを出力することと、
を行うようにさらに構成される、請求項１０に記載のデバイス。
前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントをクライアントデバイスに送るようにさらに構成される、請求項１０に記載のデバイス。
前記メディアデータを受信するように構成される受信機をさらに備える、請求項１０に記載のデバイス。
前記デバイスがワイヤレス通信デバイスを備え、前記受信機が、ワイヤレス通信規格に従って、前記メディアデータを備える信号を復調するように構成される、請求項１９に記載のデバイス。
メディアデータを処理する方法であって、
メディアデータを生成することと、ここにおいて、前記メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを含む、
前記メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを送ることと、
を備える、方法。
前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定すること、ここにおいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを前記メディアデータに含めることは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めないと決定することに応答して実施される、
をさらに備える、請求項２１に記載の方法。
前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定すること、ここにおいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを前記メディアデータに含めることは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めると決定することに応答して実施される、
をさらに備える、請求項２１に記載の方法。
第２のメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する前記第２のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
前記第２のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第２のメディアプレゼンテーションのビデオ表現のセグメントを送ることと、
をさらに備える、請求項２１に記載の方法。
前記適応セットレベルにおいてシグナリングされる前記データは、適応（adaption）セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、請求項２１に記載の方法。
メディアデータを処理するためのデバイスであって、
前記メディアデータを記憶するように構成されるメモリと、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサは、
メディアデータを生成することと、ここにおいて、前記メディアデータは、バーチャルリアリティ（ＶＲ）ビデオデータを含む、
前記メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを送ることと、
を行うように構成される、
を備える、デバイス。
前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定するようにさらに構成され、ここにおいて、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めないと決定することに応答して、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを、前記メディアデータに含めるように構成される、
請求項２６に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定するようにさらに構成され、ここにおいて、前記１つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めると決定することに応答して、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを、前記メディアデータに含めるように構成される、
請求項２６に記載のデバイス。
前記適応セットレベルにおいてシグナリングされる前記データは、適応（adaption）セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、請求項２６に記載のデバイス。
前記デバイスは、送信機を備えるワイヤレス通信デバイスを備え、ここにおいて、前記送信機は、ワイヤレス通信規格に従って、前記メディアデータを備える信号を変調するように構成される、請求項２６に記載のデバイス。