JP2019521583A

JP2019521583A - イメージ中の最も関心のある領域の高度なシグナリング

Info

Publication number: JP2019521583A
Application number: JP2018561468A
Authority: JP
Inventors: ワン、イェ−クイ; ヘンドリー、フヌ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2016-05-24
Filing date: 2017-05-11
Publication date: 2019-07-25
Also published as: US10565463B2; WO2017205069A1; BR112018073956A2; KR102342274B1; CN109155865A; TW201742461A; US20170344843A1; AU2017271981A1; EP3466084A1; KR20190014501A

Abstract

ビデオデータについての情報を決定するためのデバイスは、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定するように構成された、回路中にインプリメントされた１つまたは複数のプロセッサを含む。１つまたは複数のプロセッサは、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定する要求を生成することと、サーバデバイスに要求を出力することとを行うようにさらに構成される。【選択図】図５

Description

[0001]本願は、２０１６年５月２４日に出願された米国仮特許出願第６２／３４１，０１７号の利益を主張し、それは、その全体が参照によってここに組み込まれる。

[0002]この開示は、符号化されたビデオデータの記憶およびトランスポートに関する。

[0003]デジタルビデオ能力は、デジタルテレビ、デジタルディレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲーミングデバイス、ビデオゲームコンソール、セルラまたは衛星無線電話、ビデオテレビ会議デバイス、および同様のものを含む、幅広い範囲のデバイスに組み込まれることができる。デジタルビデオデバイスは、デジタルビデオ情報をより効率的に送信および受信するための、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３またはＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４、Ｐａｒｔ１０、アドバンスドビデオコーディング（ＡＶＣ）、（高効率ビデオコーディング（ＨＥＶＣ）とも呼ばれる）ＩＴＵ−ＴＨ．２６５、およびそのような規格の拡張によって定義される規格において記述されているもののような、ビデオ圧縮技法をインプリメントする。

[0004]ビデオ圧縮技法は、ビデオシーケンスに内在する冗長性を低減または取り除くために、空間的予測および／または時間的予測を遂行する。ブロックベースのビデオコーディングでは、ビデオフレームまたはスライスがマクロブロックまたはコーディングツリー単位（ＣＴＵ：coding tree unit）に区分されうる。この文章の残りの部分では、マクロブロックおよびＣＴＵの２つの用語は、交換可能に使用される。各マクロブロックはさらに区分されることができる。イントラコーディングされた（Ｉ）フレームまたはスライス中のマクロブロックは、近隣のマクロブロックに対して空間的予測を使用して符号化される。インターコーディングされた（ＰまたはＢ）フレームまたはスライス中のマクロブロックは、同じフレームまたはスライス中の近隣のマクロブロックに対して空間的予測を、あるいは他の基準フレームに対して時間的予測を使用しうる。

[0005]ビデオデータが符号化された後に、ビデオデータは、送信または記憶のためにパケット化されうる。ビデオデータは、国際標準化機構（ＩＳＯ）ベースメディアファイルフォーマット、およびＡＶＣファイルフォーマットのようなその拡張のような、多様な規格のうちの任意のものに準ずるビデオファイルへとアセンブルされうる。

[0006]ビデオデータが送信または記憶のためにパケット化された後に、クライアントデバイスは、適した品質のパケット化されたビデオデータを要求しうる。例えば、クライアントデバイスは、クライアントデバイスとパケット化されたビデオを送信するデジタルビデオデバイスとの間の帯域幅が高いときに、比較的高品質のパケット化されたビデオデータを要求し、クライアントデバイスとパケット化されたビデオを送信するデジタルビデオデバイスとの間の帯域幅が低いときに、比較的低品質のパケット化されたビデオデータを要求しうる。

[0007]一般には、この開示は、ビデオデータのイメージの１つまたは複数の最も関心のある領域を表すデータを含むビットストリームを生成および消費するための技法を説明する。これらの技法は、ユーザの視野（ＦＯＶ）がイメージ全体より小さいためにイメージの一部しかユーザに提示されていない状況に特に適用可能でありうる。例えば、これらの技法は、仮想現実（ＶＲ）のシナリオに適用可能でありうる。このことから、イメージの一部しか、例えば、ＶＲヘッドセットを通してユーザに提示されないことがありうる。ユーザのＦＯＶは、イメージの最も関心のある領域のうちの１つまたは複数に部分的にまたは完全に重なり合いうる。このことから、「イメージの最も関心のある領域」というフレーズは概して、イメージの他の領域と比較して、イメージの提示時間においてユーザに提示される可能性がより高いイメージの領域を指す。デバイスは、例えば、イメージの他の領域についてのビデオデータを要求する前にデバイスが１つまたは複数の最も関心のある領域についてのビデオデータを要求するように、１つまたは複数の最も関心のある領域についてのビデオデータをプリフェッチするために、１つまたは複数の最も関心のある領域を使用しえ、ここで、デバイスは、ビデオ復号器を包含するエンティティか、またはコンテンツ配信ネットワーク（ＣＤＮ）ノードのようなネットワーク要素のいずれかでありうる。

[0008]一例では、ビデオデータについての情報を決定する方法は、デバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、プロセッサが、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定する要求を生成することと、プロセッサが、サーバデバイスに要求を出力することとを含む。

[0009]別の例では、ビデオデータについての情報を決定するためのデバイスは、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定する要求を生成することと、サーバデバイスに要求を出力することとを行うように構成された、回路中にインプリメントされた１つまたは複数のプロセッサを含む。

[0010]別の例では、ビデオデータについての情報を決定するためのデバイスは、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定するための手段のための手段と、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定する要求を生成する手段と、サーバデバイスに要求を出力するための手段とを含む。

[0011]別の例では、コンピュータプログラム製品は、実行されると、プロセッサに、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定する要求を生成することと、サーバデバイスに要求を出力することとを行わせる命令を備えるコンピュータ可読記憶媒体を含む。

[0012]別の例では、ビデオデータについての情報をシグナリングする方法は、ソースデバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することを含む。１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される（retrieved）可能性が最も高い１つまたは複数の領域を備える。方法はさらに、プロセッサが、１つまたは複数の最も関心のある領域を表すデータを出力することを含む。１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。方法はさらに、プロセッサが、１つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力することを含む。

[0013]別の例では、ビデオデータについての情報をシグナリングするためのデバイスは、ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定するように構成された、回路中にインプリメントされた１つまたは複数のプロセッサを含む。１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える。１つまたは複数のプロセッサはさらに、１つまたは複数の最も関心のある領域を表すデータを出力するように構成される。１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。１つまたは複数のプロセッサはさらに、１つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力するように構成される。

[0014]別の例では、ビデオデータについての情報をシグナリングするためのデバイスは、ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定するための手段を含む。１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える。デバイスはさらに、１つまたは複数の最も関心のある領域を表すデータを出力するための手段を含む。１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。デバイスはさらに、１つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力するための手段を含む。

[0015]別の例では、コンピュータプログラム製品は、プロセッサに、ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することを行わせる命令を備えるコンピュータ可読記憶媒体を含む。１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える。命令はさらに、プロセッサに、１つまたは複数の最も関心のある領域を表すデータを出力することを行わせる。１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。命令はさらに、プロセッサに、１つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力することを行わせる。

[0016]１つまたは複数の例の詳細は、添付の図面および以下の説明中に記載されている。他の特徴、目的、および利点は、説明および図面から、そして特許請求の範囲から明らかになるであろう。

ネットワークを通してメディアデータをストリーミングするための技法をインプリメントする実例的なシステムを例示するブロック図である。実例的なマルチメディアコンテンツの要素を例示する概念図である。実例的なビデオファイルの要素を例示するブロック図であり、それは、図２のリプレゼンテーション（a representation）に対応しうる。立方体投影（a cuboidal projection）における実例的なタイルコーディングを例示する概念図である。この開示中に説明される１つまたは複数の技法にしたがってビデオデータについての情報を決定するための実例的なアプローチを例示するフローチャートである。この開示中に説明される１つまたは複数の技法にしたがってビデオデータについての情報をシグナリングするための実例的なアプローチを例示するフローチャートである。この開示中に説明される１つまたは複数の技法にしたがってビデオデータをプリフェッチするための実例的なアプローチを例示するフローチャートである。

詳細な説明

[0024]この発明は、仮想現実（ＶＲ）に関する。より具体的には、この発明は、ＶＲビデオ中の１つまたは複数の最も関心のある領域のセットの作成と、最も関心のある領域の情報のシグナリングと、ＶＲビデオコンテンツの符号化、ストリーミング、再生、および管理における情報の使用とのためのいくつかの方法を開示する。

[0025]一般には、この開示は、ビデオデータのイメージの１つまたは複数の最も関心のある領域を表すデータを含むビデオコンテンツを生成するための技法を説明する。ディレクターまたはプロデューサーは、１つまたは複数の最も関心のある領域を選択しうる、あるいは、コンピューティングデバイスは、サービスまたはコンテンツプロバイダによるユーザ統計から、例えば、全方位ビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された／見られたかの統計を通じて、１つまたは複数の最も関心のある領域を導出しうる。いずれのケースでも、クライアントデバイスは、仮想現実ビデオのようなビデオの再生を改善すべく、１つまたは複数の最も関心のある領域についてのビデオデータをプリフェッチするために、１つまたは複数の最も関心のある領域を使用しえ、それはまた、３６０ビデオと呼ばれる。

[0026]具体的には、クライアントデバイスは、例えば、ビットストリームのビデオコーディングレイヤデータを送信するためのヘッダまたはメッセージ中で受信される情報を使用して、１つまたは複数の最も関心のある領域を表すデータを決定しうる。１つまたは複数の最も関心のある領域を表すデータから１つまたは複数の最も関心のある領域を決定すると、クライアントデバイスは、１つまたは複数の最も関心のある領域を指定する要求を生成しうる。１つまたは複数の最も関心のある領域を要求した後に、クライアントデバイスは、ユーザの視野（ＦＯＶ）を使用してイメージの１つまたは複数の他の領域を要求しうる。このように、１つまたは複数の最も関心のある領域についてのビデオデータは、プリフェッチされえ（例えば、ユーザのＦＯＶを受信するより前に要求されえ）、それにより、仮想現実ビデオのようなビデオの再生を改善する。

[0027]この開示の技法は、ＩＳＯベースメディアファイルフォーマット、スケーラブルビデオコーディング（ＳＶＣ）ファイルフォーマット、アドバンスドビデオコーディング（ＡＶＣ）ファイルフォーマット、第３世代パートナーシッププロジェクト（３ＧＰＰ（登録商標））ファイルフォーマット、および／またはマルチビュービデオコーディング（ＭＶＣ）ファイルフォーマット、または他の同様のビデオファイルフォーマットのうちの任意のものにしたがってカプセル化されたビデオデータに準ずるビデオファイルに適用されうる。

[0028]この開示の技法は、ＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ：dynamic adaptive streaming over HTTP）環境のような、メディアデータをストリーミングするための環境に適用されうる。これらの技法は、ＨＴＴＰライブストリーミング（ＨＬＳ）または他のライブストリーミングサービスをサポートするために使用されうる。概してＤＡＳＨおよびＨＬＳに関して論述されるが、この開示の技法は、他のネットワークストリーミングプロトコルに適用可能でありうる。ＤＡＳＨは、http://standards.iso.org/ittf/PubliclyAvailableStandards/c057623_ISO_IEC_23009-1_2012.zipにおいて利用可能である、２０１２年４月１日付けのISO/IEC 23009-1:2012、「Information technology - Dynamic adaptive streaming over HTTP (DASH) - Part 1: Media presentation description and segment formats」中に規定されている。

[0029]ＨＴＴＰストリーミングでは、頻繁に使用される動作は、ＨＥＡＤ、ＧＥＴ、および部分的ＧＥＴを含む。ＨＥＡＤ動作は、所与のユニフォームリソースロケータ（ＵＲＬ）またはユニフォームリソース名（ＵＲＮ）に関連付けられたファイルのヘッダを、そのＵＲＬまたはＵＲＮに関連付けられたペイロードを検索することなしに、検索する。ＧＥＴ動作は、所与のＵＲＬまたはＵＲＮに関連付けられたファイル全体を検索する。部分的ＧＥＴ動作は、入力パラメータとしてバイト範囲を受信し、連続数のバイトのファイルを検索し、ここで、バイトの数は、受信されるバイト範囲に対応する。このことから、ムービーフラグメントは、部分的ＧＥＴ動作が１つまたは複数の１つまたは複数の個々のムービーフラグメントを得ることができることから、ＨＴＴＰストリーミングに提供されうる。ムービーフラグメントでは、異なるトラックのいくつかのトラックフラグメントが存在することができる。ＨＴＴＰストリーミングでは、メディアプレゼンテーション（a media presentation）は、クライアントにとってアクセス可能であるデータの構造化された集合でありうる。クライアントは、ユーザにストリーミングサービスを提示するために、メディアデータ情報を要求およびダウンロードしうる。

[0030]ＨＴＴＰストリーミングを使用して３ＧＰＰデータをストリーミングする例では、マルチメディアコンテンツのビデオおよび／またはオーディオデータについての複数のリプレゼンテーションが存在しうる。以下に説明されるように、異なるリプレゼンテーションは、異なるコーディング特性（例えば、ビデオコーディング規格の異なるプロファイルまたはレベル）、異なるコーディング規格または（マルチビューおよび／またはスケーラブル拡張のような）コーディング規格の拡張、あるいは異なるビットレートに対応しうる。そのようなリプレゼンテーションのマニフェストは、メディアプレゼンテーション記述（ＭＰＤ：Media Presentation Description）データ構造で定義されうる。メディアプレゼンテーションは、ＨＴＴＰストリーミングクライアントデバイスにとってアクセス可能であるデータの構造化された集合に対応しうる。ＨＴＴＰストリーミングクライアントデバイスは、クライアントデバイスのユーザにストリーミングサービスを提示するために、メディアデータ情報を要求およびダウンロードしうる。メディアプレゼンテーションは、ＭＰＤデータ構造で記述されえ、それは、ＭＰＤの更新を含みうる。

[0031]メディアプレゼンテーションは、１つまたは複数の期間のシーケンスを包含しうる。各期間は、最後の期間のケースでは、メディアプレゼンテーションの終了まで、または次の期間の開始まで延長しうる。各期間は、同じメディアコンテンツについての１つまたは複数のリプレゼンテーションを包含しうる。リプレゼンテーションは、オーディオ、ビデオ、時間指定された（timed）テキスト、または他のそのようなデータのいくつかの代替の符号化されたバージョンのうちの１つでありうる。リプレゼンテーションは、符号化タイプによって、例えば、ビデオデータについてのビットレート、解像度、および／またはコーデックと、オーディオデータについてのビットレート、言語、および／またはコーデックとによって異なりうる。リプレゼンテーションという用語は、マルチメディアコンテンツの特定の期間に対応し、且つ特定の方法で符号化された、符号化されたオーディオまたはビデオデータのセクションを指すために使用されうる。

[0032]特定の期間のリプレゼンテーションは、リプレゼンテーションが属する適合セット（an adaptation set）を示すＭＰＤ中の属性によって示されるグループに割り当てられうる。同じ適合セット中のリプレゼンテーションは概して、クライアントデバイスが、例えば、帯域幅適合を遂行するためにこれらのリプレゼンテーション間を動的およびシームレスに切り替えることができるという点において、互いに対して代替であると考えられる。例えば、特定の期間の間のビデオデータの各リプレゼンテーションは、同じ適合セットに割り当てられえ、それにより、リプレゼンテーションのうちの任意のものが、対応する期間の間のマルチメディアコンテンツの、ビデオデータまたはオーディオデータのようなメディアデータを提示するための復号のために選択されうる。１つの期間内のメディアコンテンツは、いくつかの例では、存在する場合には、グループ０からの１つのリプレゼンテーション、または各非ゼログループからの多くとも１つのリプレゼンテーションの組み合わせのいずれかによって表されうる。１つの期間の各リプレゼンテーションについてのタイミングデータは、その期間の開始時間に対して相対的に表されうる。

[0033]リプレゼンテーションは、１つまたは複数のセグメントを含みうる。各リプレゼンテーションは、初期化セグメントを含みうる、またはリプレゼンテーションの各セグメントは、自己初期化しうる。存在するとき、初期化セグメントは、リプレゼンテーションにアクセスするための初期化情報を包含しうる。一般に、初期化セグメントは、メディアデータを包含しない。セグメントは、ユニフォームリソースロケータ（ＵＲＬ）、ユニフォームリソース名（ＵＲＮ）、またはユニフォームリソース識別子（ＵＲＩ）のような識別子によって一意に参照されうる。ＭＰＤは、各セグメントに識別子を提供しうる。いくつかの例では、ＭＰＤはまた、範囲属性の形態でバイト範囲を提供しえ、それは、ＵＲＬ、ＵＲＮ、またはＵＲＩによってアクセス可能であるファイル内のセグメントについてのデータに対応しうる。

[0034]異なるリプレゼンテーションは、異なるタイプのメディアデータについての実質的に同時の検索のために選択されうる。例えば、クライアントデバイスは、それらからセグメントを検索するためのオーディオリプレゼンテーション、ビデオリプレゼンテーション、および時間指定されたテキストリプレゼンテーションを選択しうる。いくつかの例では、クライアントデバイスは、帯域幅適合を遂行するための特定の適合セットを選択しうる。すなわち、クライアントデバイスは、ビデオリプレゼンテーションを含む適合セット、オーディオリプレゼンテーションを含む適合セット、および／または時間指定されたテキストを含む適合セットを選択しうる。代替として、クライアントデバイスは、ある特定のタイプのメディア（例えば、ビデオ）についての適合セットを選択し、および他のタイプのメディア（例えば、オーディオおよび／または時間指定されたテキスト）についてのリプレゼンテーションを直接選択しうる。

[0035]図１は、ネットワークを通してメディアデータをストリーミングするための技法をインプリメントする実例的なシステム１０を例示するブロック図である。この例では、システム１０は、コンテンツ準備デバイス２０、サーバデバイス６０、およびクライアントデバイス４０を含む。クライアントデバイス４０およびサーバデバイス６０は、ネットワーク７４によって通信可能に結合され、それは、インターネットを備えうる。いくつかの例では、コンテンツ準備デバイス２０およびサーバデバイス６０もまた、ネットワーク７４または別のネットワークによって結合されうるか、あるいは直接通信可能に結合されうる。いくつかの例では、コンテンツ準備デバイス２０およびサーバデバイス６０は、同じデバイスを備えうる。

[0036]図１の例におけるコンテンツ準備デバイス２０は、オーディオソース２２およびビデオソース２４を備える。オーディオソース２２は、例えば、オーディオ符号化器２６によって符号化されることになるキャプチャされたオーディオデータを表す電気信号を生じさせるマイクロフォンを備えうる。代替として、オーディオソース２２は、以前に記録されたオーディオデータを記憶する記憶媒体、コンピュータ化されたシンセサイザのようなオーディオデータ生成器、またはオーディオデータの任意の他のソースを備えうる。ビデオソース２４は、ビデオ符号化器２８によって符号化されることになるビデオデータを生じさせるビデオカメラ、以前に記録されたビデオデータで符号化された記憶媒体、コンピュータグラフィックスソースのようなビデオデータ生成ユニット、またはビデオデータの任意の他のソースを備えうる。コンテンツ準備デバイス２０は、必ずしも全ての例においてサーバデバイス６０に通信可能に結合されてはいないが、サーバデバイス６０によって読み取られる別個の媒体にマルチメディアコンテンツを記憶しうる。

[0037]生オーディオおよびビデオデータは、アナログまたはデジタルデータを備えうる。アナログデータは、オーディオ符号化器２６および／またはビデオ符号化器２８によって符号化される前にデジタル化されうる。オーディオソース２２は、話す参加者が話している間にその話す参加者からオーディオデータを取得し、ビデオソース２４は、その話す参加者のビデオデータを同時に取得しうる。他の例では、オーディオソース２２は、記憶されたオーディオデータを備えるコンピュータ可読記憶媒体を備え、ビデオソース２４は、記憶されたビデオデータを備えるコンピュータ可読記憶媒体を備えうる。このように、この開示中で説明される技法は、ライブ、ストリーミング、リアルタイムオーディオおよびビデオデータに、またはアーカイブされ、事前に記録されたオーディオおよびビデオデータに適用されうる。

[0038]ビデオフレームに対応するオーディオフレームは概して、ビデオフレーム内に包含された、ビデオソース２４によってキャプチャされた（または生成された）ビデオデータと同時にオーディオソース２２によってキャプチャされた（または生成された）オーディオデータを包含するオーディオフレームである。例えば、話す参加者が概して話すことによってオーディオデータを生じさせる間、オーディオソース２２は、オーディオデータをキャプチャし、ビデオソース２４は、同時に、すなわち、オーディオソース２２がオーディオデータをキャプチャしている間に、話す参加者のビデオデータをキャプチャする。故に、オーディオフレームは、１つまたは複数の特定のビデオフレームに時間的に対応しうる。それ故に、ビデオフレームに対応するオーディオフレームは概して、オーディオデータとビデオデータとが同時にキャプチャされた、且つオーディオフレームとビデオフレームとが、それぞれ、同時にキャプチャされたオーディオデータとビデオデータとを備える、状況に対応する。

[0039]いくつかの例では、オーディオ符号化器２６は、符号化されたオーディオフレームについてのオーディオデータが記録された時間を表す各符号化されたオーディオフレーム中のタイムスタンプを符号化し、同様に、ビデオ符号化器２８は、符号化されたビデオフレームについてのビデオデータが記録された時間を表す各符号化されたビデオフレーム中のタイムスタンプを符号化しうる。そのような例では、ビデオフレームに対応するオーディオフレームは、タイムスタンプを備えるオーディオフレームと、同じタイムスタンプを備えるビデオフレームとを備えうる。コンテンツ準備デバイス２０は、オーディオ符号化器２６および／またはビデオ符号化器２８がタイムスタンプを生成しうる、あるいは、オーディオソース２２とビデオソース２４とが、それぞれ、オーディオデータとビデオデータとをタイムスタンプに関連付けるために使用しうる、内部クロックを含みうる。

[0040]いくつかの例では、オーディオソース２２は、オーディオデータが記録された時間に対応するデータをオーディオ符号化器２６に送り、ビデオソース２４は、ビデオデータが記録された時間に対応するデータをビデオ符号化器２８に送りうる。いくつかの例では、オーディオ符号化器２６は、符号化されたオーディオデータの相対時間的順序（a relative temporal ordering）を示すために、しかしオーディオデータが記録された絶対時間を必ずしも示すことなしに、符号化されたオーディオデータ中のシーケンス識別子を符号化し、同様に、ビデオ符号化器２８もまた、符号化されたビデオデータの相対時間的順序を示すために、シーケンス識別子を使用しうる。同様に、いくつかの例では、シーケンス識別子は、マッピングされうるか、またはそうでない場合は、タイムスタンプと相関されうる。

[0041]オーディオ符号化器２６は概して、符号化されたオーディオデータのストリームを生じさせ、その一方でビデオ符号化器２８は、符号化されたビデオデータのストリームを生じさせる。（オーディオであれビデオであれ）データの各個々のストリームは、エレメンタリーストリームと呼ばれうる。エレメンタリーストリームは、リプレゼンテーションの単一のデジタルにコーディングされた（ことによると圧縮された）コンポーネントである。例えば、リプレゼンテーションのコーディングされたビデオまたはオーディオ部分は、エレメンタリーストリームであることができる。エレメンタリーストリームは、ビデオファイル内にカプセル化される前に、パケット化されたエレメンタリーストリーム（ＰＥＳ）へと変換されうる。同じリプレゼンテーション内で、ストリームＩＤは、ある１つのエレメンタリーストリームに属するＰＥＳパケットを他のものと区別するために使用されうる。エレメンタリーストリームのデータの基本単位は、パケット化されたエレメンタリーストリーム（ＰＥＳ）パケットである。このことから、コーディングされたビデオデータは概して、エレメンタリービデオストリームに対応する。同様に、オーディオデータは、１つまたは複数のそれぞれのエレメンタリーストリームに対応する。

[0042]ＩＴＵＨ．２６４／ＡＶＣおよび今後の高効率ビデオコーディング（ＨＥＶＣ）規格のような多くのビデオコーディング規格は、誤りのないビットストリームのためのシンタックス（syntax）、セマンティクス（semantics）、および復号処理を定義し、それらのうちのいずれも、ある特定のプロファイルまたはレベルに準ずる。ビデオコーディング規格は典型的に、符号化器を規定しないが、符号化器は、生成されるビットストリームが復号器に対して規格準拠（standard-compliant）であることを保証することを課される。ビデオコーディング規格のコンテキストでは、「プロファイル」は、アルゴリズム、機能（features）、またはツールおよびそれらに適用される制約のサブセットに対応する。Ｈ．２６４規格によって定義されているように、例えば、「プロファイル」は、Ｈ．２６４規格によって規定されているビットストリームシンタックス全体のサブセットである。「レベル」は、例えば、復号器メモリおよび消費のような復号器リソース消費の制限に対応し、それらは、ピクチャの解像度、ビットレート、およびブロック処理レートに関連する。プロファイルは、ｐｒｏｆｉｌｅ＿ｉｄｃ（プロファイルインジケータ）値でシグナリングされえ、その一方でレベルは、ｌｅｖｅｌ＿ｉｄｃ（レベルインジケータ）値でシグナリングされうる。

[0043]Ｈ．２６４規格は、例えば、所与のプロファイルのシンタックスによって課せられる限度（the bounds）内で、復号されたピクチャの規定されたサイズのような、ビットストリーム中のシンタックス要素によって取られる値に依存して、符号化器と復号器との性能において大きなバリエーションを必要とすることは依然として可能であることを認識している。Ｈ．２６４規格はさらに、多くのアプリケーションで、特定のプロファル内のシンタックスの全ての仮定的な使用に対処することが可能である復号器をインプリメントすることは実用的でも経済的でもないことを認識している。それ故に、Ｈ．２６４規格は、ビットストリーム中のシンタックス要素の値に対して課せられる制約の規定されたセットとして「レベル」を定義する。これらの制約は、値に対する単純な限定でありうる。代替として、これらの制約は、値の算術的組み合わせ（例えば、ピクチャ幅にピクチャの高さを乗算したものに、毎秒復号されるピクチャの数を乗算したもの）に対する制約の形態を取りうる。Ｈ．２６４規格はさらに、個々のインプリメンテーションが各サポートされるプロファイルについて異なるレベルをサポートしうることを提供する。

[0044]プロファイルに準ずる復号器は通常、プロファイル中に定義された全ての機能をサポートする。例えば、コーディング機能として、Ｂピクチャコーディングは、Ｈ．２６４／ＡＶＣのベースラインプロファイル中でサポートされていないが、Ｈ．２６４／ＡＶＣの他のプロファイル中でサポートされている。レベルに準ずる復号器は、レベル中で定義された制限を超えてリソースを必要としないあらゆるビットストリームを復号することが可能であるべきである。プロファイルおよびレベルの定義は、解釈可能性（interpretability）に役に立ちうる。例えば、ビデオ送信中に、一対のプロファイルおよびレベル定義がネゴシエートされ、送信セッション全体について同意されうる。より具体的には、Ｈ．２６４／ＡＶＣでは、レベルは、処理される必要があるマクロブロックの数、復号されたピクチャバッファ（ＤＰＢ）サイズ、コーディングされたピクチャバッファ（ＣＰＢ）サイズ、垂直動きベクトル範囲、２つの連続するＭＢあたりの動きベクトルの最大数、およびＢブロックが８ｘ８ピクセル未満のサブマクロブロック区分を有することができるかどうか、に対する制限を定義しうる。このように、復号器は、復号器がビットストリームを適正に復号することが可能であるかどうかを決定しうる。

[0045]図１の例では、コンテンツ準備デバイス２０のカプセル化ユニット３０は、ビデオ符号化器２８からコーディングされたビデオデータを備えるエレメンタリーストリームを、およびオーディオ符号化器２６からコーディングされたオーディオデータを備えるエレメンタリーストリームを受信する。いくつかの例では、ビデオ符号化器２８およびオーディオ符号化器２６は各々、符号化されたデータからＰＥＳパケットを形成するためのパケタイザを含みうる。他の例では、ビデオ符号化器２８およびオーディオ符号化器２６は各々、符号化されたデータからＰＥＳパケットを形成するためのそれぞれのパケタイザとインターフェースしうる。さらに他の例では、カプセル化ユニット３０は、符号化されたオーディオおよびビデオデータからＰＥＳパケットを形成するためのパケタイザを含みうる。

[0046]ビデオ符号化器２８は、様々なビットレートで、および、ピクセル解像度、フレームレート、様々なコーディング規格への準拠、様々なコーディング規格についての様々なプロファイルおよび／またはプロファイルのレベルへの準拠、（例えば、２次元または３次元再生のための）１つまたは複数のビューを有するリプレゼンテーション、あるいは他のそのような特性のような様々な特性で、マルチメディアコンテンツの異なるリプレゼンテーションを生じさせるために、多様な方法でマルチメディアコンテンツのビデオデータを符号化しうる。この開示中で使用されているようなリプレゼンテーションは、オーディオデータ、ビデオデータ、（例えば、クローズドキャプションのための）テキストデータ、または他のそのようなデータのうちの１つを備えうる。リプレゼンテーションは、オーディオエレメンタリーストリームまたはビデオエレメンタリーストリームのようなエレメンタリーストリームを含みうる。各ＰＥＳパケットは、ＰＥＳパケットが属するエレメンタリーストリームを識別するｓｔｒｅａｍ＿ｉｄを含みうる。カプセル化ユニット３０は、エレメンタリーストリームを様々なリプレゼンテーションのビデオファイル（例えば、セグメント）へとアセンブルすることを担う。

[0047]カプセル化ユニット３０は、オーディオ符号化器２６およびビデオ符号化器２８からリプレゼンテーションのエレメンタリーストリームのためのＰＥＳパケットを受信し、ＰＥＳパケットから対応するネットワーク抽象化レイヤ（ＮＡＬ）ユニットを形成する。コーディングされたビデオセグメントは、ＮＡＬユニットへと編成されえ、それは、ビデオ電話通信、記憶、ブロードキャスト、またはストリーミングのようなアプリケーションを扱う「ネットワークフレンドリーな」ビデオリプレゼンテーションを提供する。ＮＡＬユニットは、ビデオコーディングレイヤ（ＶＣＬ）ＮＡＬユニット（例えば、ＶＣＬデータ）と非ＶＣＬＮＡＬユニットとにカテゴリ化されることができる。（ＶＣＬデータとも呼ばれる）ＶＣＬユニットは、コア圧縮エンジンを包含し、ブロック、マクロブロック、および／またはスライスレベルデータを含みうる。他のＮＡＬユニットは、非ＶＣＬＮＡＬユニットでありうる。いくつかの例では、プライマリのコーディングされたピクチャ（a primary coded picture）として通常提示される１つの時間インスタンス中のコーディングされたピクチャは、アクセスユニット中に包含されえ、それは、１つまたは複数のＮＡＬユニットを含みうる。

[0048]非ＶＣＬＮＡＬユニットは、中でもとりわけ、パラメータセットＮＡＬユニットと補足エンハンスメント情報（ＳＥＩ：Supplemental Enhancement Information）ＮＡＬユニットとを含みうる。パラメータセットは、（シーケンスパラメータセット（ＳＰＳ）中に）シーケンスレベルヘッダ情報と、（ピクチャパラメータセット（ＰＰＳ）中に）まれに変化するピクチャレベルヘッダ情報とを包含しうる。パラメータセット（例えば、ＰＰＳおよびＳＰＳ）では、まれに変化する情報は、シーケンスまたはピクチャごとに繰り返される必要がなく、故に、コーディング効率は改善されうる。さらに、パラメータセットの使用は、重要なヘッダ情報の帯域外送信を可能にしえ、誤り耐性のための冗長送信の必要性を避ける。帯域外送信の例では、パラメータセットＮＡＬユニットは、ＳＥＩＮＡＬユニットのような他のＮＡＬユニットとは異なるチャネル上で送信されうる。

[0049]ＳＥＩメッセージは、ＶＣＬＮＡＬユニットからのコーディングされたピクチャサンプルを復号するために必要ではない情報を包含しうるが、復号、表示、誤り耐性、および他の目的に関連したプロセスを支援しうる。ＳＥＩメッセージは、非ＶＣＬＮＡＬユニット中に包含されうる。ＳＥＩメッセージは、いくつかの規格仕様書（standard specifications）の規範的部分であり、このことから、規格準拠の復号器インプリメンテーションのために常に必須な訳ではない。ＳＥＩメッセージは、シーケンスレベルＳＥＩメッセージまたはピクチャレベルＳＥＩメッセージでありうる。何らかのシーケンスレベル情報が、ＳＶＣの例におけるスケーラビリティ情報ＳＥＩメッセージ、およびＭＶＣ中でのビュースケーラビリティ情報ＳＥＩメッセージのようなＳＥＩメッセージ中に包含されうる。これらの実例的なＳＥＩメッセージは、例えば、動作点の抽出および動作点の特性に関する情報を伝達しうる。加えて、カプセル化ユニット３０は、リプレゼンテーションの特性を記述するメディアプレゼンテーション記述子（ＭＰＤ：a media presentation descriptor）のようなマニフェストファイルを形成しうる。カプセル化ユニット３０は、拡張可能マークアップ言語（ＸＭＬ）にしたがってＭＰＤをフォーマットしうる。

[0050]カプセル化ユニット３０は、出力インターフェース３２に、マニフェストファイル（例えば、ＭＰＤ）とともに、マルチメディアコンテンツの１つまたは複数のリプレゼンテーションについてのデータを提供しうる。出力インターフェース３２は、ネットワークインターフェース、あるいは、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、ＣＤまたはＤＶＤライタまたはバーナ（burner）、磁気またはフラッシュ記憶媒体に対するインターフェース、もしくは媒体データを記憶または送信するための他のインターフェースのような、記憶媒体に書き込むためのインターフェースを備えうる。カプセル化ユニット３０は、出力インターフェース３２にマルチメディアコンテンツのリプレゼンテーションの各々のデータを提供しえ、それは、ネットワーク送信または記憶媒体を介してサーバデバイス６０にデータを送りうる。図１の例では、サーバデバイス６０は、様々なマルチメディアコンテンツ６４を記憶する記憶媒体６２を含み、各々は、それぞれのマニフェストファイル６６と１つまたは複数のリプレゼンテーション６８Ａ〜６８Ｎ（リプレゼンテーション６８）とを含む。いくつかの例では、出力インターフェース３２はまた、ネットワーク７４に直接データを送りうる。

[0051]いくつかの例では、リプレゼンテーション６８は、適合セットに分けられうる。すなわち、リプレゼンテーション６８の様々なサブセットは、コーデック、プロファイルおよびレベル、解像度、ビューの数、セグメントのためのファイルフォーマット、言語またはリプレゼンテーションとともに表示されるべきテキストおよび／または、例えば、スピーカによって復号および提示されるべきオーディオデータの他の特性を識別しうるテキストタイプ情報、適合セット中のリプレゼンテーションについてのシーンのカメラアングルまたは実世界カメラパースペクティブ（real-world camera perspective）を記述しうるカメラアングル情報、特定のオーディエンスに対するコンテンツ適性を記述するレーティング情報、または同様のもののような、特性のそれぞれの共通セットを含みうる。

[0052]マニフェストファイル６６は、特定の適合セットに対応するリプレゼンテーション６８のサブセットを示すデータ、ならびに適合セットについての共通特性を含みうる。マニフェストファイル６６はまた、適合セットの個々のリプレゼンテーションについての、ビットレートのような個々の特性を表すデータを含みうる。このように、適合セットは、簡略化されたネットワーク帯域幅適合を提供しうる。適合セット中のリプレゼンテーションは、マニフェストファイル６６の適合セット要素の子要素を使用して示されうる。

[0053]サーバデバイス６０は、要求処理ユニット７０とネットワークインターフェース７２とを含む。いくつかの例では、サーバデバイス６０は、複数のネットワークインターフェースを含みうる。さらに、サーバデバイス６０の機能のうちの任意のものまたは全ては、ルータ、ブリッジ、プロキシデバイス、スイッチ、または他のデバイスのような、コンテンツ配信ネットワークの他のデバイス上でインプリメントされうる。いくつかの例では、コンテンツ配信ネットワークの中間デバイスは、マルチメディアコンテンツ６４のデータをキャッシュしえ、およびサーバデバイス６０のものと実質的に一致するコンポーネントを含みうる。一般に、ネットワークインターフェース７２は、ネットワーク７４を介してデータを送受信するように構成されうる。

[0054]要求処理ユニット７０は、記憶媒体６２のデータを求めるネットワーク要求をクライアントデバイス４０のようなクライアントデバイスから受信するように構成される。例えば、要求処理ユニット７０は、１９９９年６月のR. Fielding et al、Network Working Group、IETFによるRFC 2616、「Hypertext Transfer Protocol - HTTP/1.1」中に説明されているようなハイパーテキスト転送プロトコル（ＨＴＴＰ）バージョン１．１をインプリメントしうる。すなわち、要求処理ユニット７０は、ＨＴＴＰＧＥＴまたは部分的ＧＥＴ要求を受信し、それら要求に応答してマルチメディアコンテンツ６４のデータを提供するように構成されうる。それら要求は、例えば、セグメントのＵＲＬを使用して、リプレゼンテーション６８のうちの１つのセグメントを指定しうる。いくつかの例では、それら要求はまた、セグメントの１つまたは複数のバイト範囲を指定しえ、このことから、部分的ＧＥＴ要求を備える。要求処理ユニット７０はさらに、ＨＴＴＰＨＥＡＤ要求をサービスし、リプレゼンテーション６８のうちの１つのセグメントのヘッダデータを提供するように構成されうる。いずれのケースでも、要求処理ユニット７０は、それら要求を処理し、クライアントデバイス４０のような要求しているデバイスに要求されたデータを提供するように構成されうる。

[0055]加えてまたは代替として、要求処理ユニット７０は、ｅＭＢＭＳのようなブロードキャストまたはマルチキャストプロトコルを介してメディアデータを配信するように構成されうる。コンテンツ準備デバイス２０は、説明されたのと実質的に同じ方法でＤＡＳＨセグメントおよび／またはサブセグメントを作成しうるが、サーバデバイス６０は、ｅＭＢＭＳあるいは別のブロードキャストまたはマルチキャストネットワークトランスポートプロトコルを使用してこれらのセグメントまたはサブセグメントを配信しうる。例えば、要求処理ユニット７０は、クライアントデバイス４０からマルチキャストグループ参加要求（a multicast group join request）を受信するように構成されうる。すなわち、サーバデバイス６０は、特定のメディアコンテンツ（例えば、ライブイベントのブロードキャスト）に関連付けられた、クライアントデバイス４０を含むクライアントデバイスに、マルチキャストグループに関連付けられたインターネットプロトコル（ＩＰ）アドレスをアドバタイズしうる。クライアントデバイス４０は次に、マルチキャストグループに加わるための要求をサブミットしうる。この要求は、ネットワーク７４、例えば、ネットワーク７４を構成するルータを通じて伝搬されえ、それは、それらルータが、クライアントデバイス４０のような加入しているクライアントデバイスに、マルチキャストグループに関連付けられたＩＰアドレスに宛てられたトラフィックを向かわせることを行わされる（caused to direct）からである。

[0056]図１の例において例示されているように、マルチメディアコンテンツ６４は、マニフェストファイル６６を含み、それは、メディアプレゼンテーション記述（ＭＰＤ）に対応しうる。マニフェストファイル６６は、異なる代替のリプレゼンテーション６８の記述を包含し（例えば、異なる品質を有するビデオサービス）、記述は、例えば、コーデック情報、プロファイル値、レベル値、ビットレート、およびリプレゼンテーション６８の他の記述的特性を含みうる。クライアントデバイス４０は、リプレゼンテーション６８のセグメントにどのようにアクセスするかを決定するために、メディアプレゼンテーションのＭＰＤを検索しうる。

[0057]特に、検索ユニット５２は、ビデオ復号器４８の復号能力とビデオ出力４４のレンダリング能力とを決定するために、クライアントデバイス４０の構成データ（図示せず）を検索しうる。構成データはまた、クライアントデバイス４０のユーザによって選択された言語選好、クライアントデバイス４０のユーザによって設定された深度選好に対応する１つまたは複数のカメラパースペクティブ、および／またはクライアントデバイス４０のユーザによって選択されたレーティング選好のうちの任意のものまたは全てを含みうる。検索ユニット５２は、例えば、ＨＴＴＰＧＥＴおよび部分的ＧＥＴ要求をサブミットするように構成されたメディアクライアントまたはウェブブラウザを備えうる。検索ユニット５２は、クライアントデバイス４０の１つまたは複数のプロセッサあるいは処理ユニット（図示せず）によって実行されるソフトウェア命令に対応しうる。いくつかの例では、検索ユニット５２に関して説明された機能のうちの全てまたは一部分は、ハードウェア、あるいはハードウェア、ソフトウェア、および／またはファームウェアの組み合わせにおいてインプリメントされえ、ここで、必須のハードウェアは、ソフトウェアまたはファームウェアのための命令を実行するために提供されうる。

[0058]検索ユニット５２は、クライアントデバイス４０の復号およびレンダリング能力を、マニフェストファイル６６の情報によって示されるリプレゼンテーション６８の特性と比較しうる。検索ユニット５２は初めに、リプレゼンテーション６８の特性を決定するためにマニフェストファイル６６の少なくとも一部分を検索しうる。例えば、検索ユニット５２は、１つまたは複数の適合セットの特性を記述するマニフェストファイル６６の一部分を要求しうる。検索ユニット５２は、クライアントデバイス４０のコーディングおよびレンダリング能力によって満たされることができる特性を有するリプレゼンテーション６８（例えば、適合セット）のサブセットを選択しうる。検索ユニット５２はその後、適合セット中のリプレゼンテーションについてのビットレートを決定し、ネットワーク帯域幅の現在利用可能な量を決定し、ネットワーク帯域幅によって満たされることができるビットレートを有するリプレゼンテーションのうちの１つからセグメントを検索しうる。

[0059]一般に、より高いビットレートリプレゼンテーションは、より高品質のビデオ再生をもたらしえ、その一方でより低いビットレートリプレゼンテーションは、利用可能なネットワーク帯域幅が減少したときに十分な品質のビデオ再生を提供しうる。それ故に、利用可能なネットワーク帯域幅が比較的高いとき、検索ユニット５２は、比較的高いビットレートリプレゼンテーションからデータを検索しうるのに対して、利用可能なネットワーク帯域幅が低いとき、検索ユニット５２は、比較的低いビットレートリプレゼンテーションからデータを検索しうる。このように、クライアントデバイス４０は、ネットワーク７４の変化するネットワーク帯域幅の可用性に適合もしながら、ネットワーク７４を通してマルチメディアデータをストリーミングしうる。

[0060]加えてまたは代替として、検索ユニット５２は、ｅＭＢＭＳまたはＩＰマルチキャストのようなブロードキャストまたはマルチキャストネットワークプロトコルにしたがってデータを受信するように構成されうる。そのような例では、検索ユニット５２は、特定のメディアコンテンツに関連付けられたマルチキャストネットワークグループに加わるための要求をサブミットしうる。マルチキャストグループに加わった後に、検索ユニット５２は、さらなる要求がサーバデバイス６０またはコンテンツ準備デバイス２０に発行されることなしに、マルチキャストグループのデータを受信しうる。検索ユニット５２は、例えば、再生を停止するために、または異なるマルチキャストグループにチャネルを変更するために、マルチキャストグループのデータがもはや必要とされないときにマルチキャストグループを去るための要求をサブミットしうる。

[0061]ネットワークインターフェース５４は、選択されたリプレゼンテーションのセグメントのデータを受信し、それを検索ユニット５２に提供しえ、それは次に、非カプセル化（decapsulation）ユニット５０にセグメントを提供しうる。非カプセル化ユニット５０は、構成要素（constituent）ＰＥＳストリームへとビデオファイルの要素を非カプセル化し、符号化されたデータを検索するためのＰＥＳストリームを非パケット化（depacketize）し、例えば、ストリームのＰＥＳパケットヘッダによって示されているように、符号化されたデータがオーディオストリームの一部であるか、またはビデオストリームの一部であるかに依存して、オーディオ復号器４６またはビデオ復号器４８のいずれかに符号化されたデータを送りうる。オーディオ復号器４６は、符号化されたオーディオデータを復号し、オーディオ出力４２に復号されたオーディオデータを送り、その一方でビデオ復号器４８は、符号化されたビデオデータを復号し、ビデオ出力４４に復号されたビデオデータを送り、それは、ストリームの複数のビューを含みうる。

[0062]ビデオ符号化器２８、ビデオ復号器４８、オーディオ符号化器２６、オーディオ復号器４６、カプセル化ユニット３０、検索ユニット５２、および非カプセル化ユニット５０は各々、適宜、１つまたは複数のマイクロプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリートロジック回路、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせのような、多様な適した処理回路の任意のものとしてインプリメントされうる。ビデオ符号化器２８およびビデオ復号器４８の各々は、１つまたは複数の符号化器または復号器中に含まれえ、それらのうちのいずれも、組み合わされたビデオ符号化器／復号器（ＣＯＤＥＣ）の一部として一体化されうる。同様に、オーディオ符号化器２６およびオーディオ復号器４６の各々は、１つまたは複数の符号化器または復号器中に含まれえ、それらのうちのいずれも、組み合わされたＣＯＤＥＣの一部として一体化されうる。ビデオ符号化器２８、ビデオ復号器４８、オーディオ符号化器２６、オーディオ復号器４６、カプセル化ユニット３０、検索ユニット５２、および／または非カプセル化ユニット５０を含む装置は、集積回路、マイクロプロセッサ、および／またはセルラ電話のようなワイヤレス通信デバイスを備えうる。

[0063]ビデオコーディング規格は、ＩＴＵ−ＴＨ．２６１と、ＩＳＯ／ＩＥＣＭＰＥＧ−１Ｖｉｓｕａｌと、ＩＴＵ−ＴＨ．２６２またはＩＳＯ／ＩＥＣＭＰＥＧ−２Ｖｉｓｕａｌと、ＩＴＵ−ＴＨ．２６３と、ＩＳＯ／ＩＥＣＭＰＥＧ−４Ｖｉｓｕａｌと、そのスケーラブルビデオコーディング（ＳＶＣ）およびマルチビュービデオコーディング（ＭＶＣ）拡張を含むＩＴＵ−ＴＨ．２６４またはＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣと、そのスケーラブルコーディング拡張（すなわち、スケーラブル高効率ビデオコーディング、ＳＨＶＣ）、マルチビュー拡張（すなわち、マルチビュー高効率ビデオコーディング、ＭＶ−ＨＥＶＣ）、および３Ｄ拡張（すなわち、３Ｄ高効率ビデオコーディング、３Ｄ−ＨＥＶＣ）を含む、ＩＴＵ−ＴＨ．２６５およびＩＳＯ／ＩＥＣ２３００８−２としても知られる高効率ビデオコーディング（ＨＥＶＣ）とを含む。

[0064]カプセル化ユニット３０は、イメージの１つまたは複数の最も関心のある領域を決定しうる。ここに使用される場合、最も関心のある領域は、ユーザによって見られる高い可能性を有するイメージの領域を指しうる。例えば、最も関心のある領域は、ディレクターまたはプロデューサーによって選択されるイメージの領域を指しうる。いくつかの例では、最も関心のある領域は、サービスまたはコンテンツプロバイダによるユーザ統計から、例えば、全方位ビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された／見られたかの統計を通じて、コンピューティングデバイスによって導出されるイメージの領域を指しうる。

[0065]カプセル化ユニット３０は、１つまたは複数の最も関心のある領域を表すデータをカプセル化しうる。いくつかの例では、カプセル化ユニット３０は、１つまたは複数の最も関心のある領域を表すデータをカプセル化しうる。例えば、カプセル化ユニット３０は、１つまたは複数の最も関心のある領域を表すデータを含むＳＥＩメッセージをカプセル化しうる。いくつかの例では、カプセル化ユニット３０は、１つまたは複数の最も関心のある領域を表すデータを含むファイルフォーマットデータをカプセル化しうる。例えば、カプセル化ユニット３０は、１つまたは複数の最も関心のある領域を表すデータを含むボックス（例えば、サンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、セグメントインデックスボックス（a sample group box, a sample table box, a track fragment, a segment index box）、等）をカプセル化しうる。

[0066]カプセル化ユニット３０は、１つまたは複数の最も関心のある領域を表すデータが１つまたは複数の最も関心のある領域についてのビデオデータを含むビットストリーム中に含まれるように、１つまたは複数の最も関心のある領域を表すデータをカプセル化しうる。例えば、カプセル化ユニット３０は、特定のイメージについてのビデオデータを出力するより前に、ファイルフォーマットデータ中に特定のイメージについての１つまたは複数の最も関心のある領域を表すデータをカプセル化しうる。この例では、ファイルフォーマットデータ中に特定のイメージについての１つまたは複数の最も関心のある領域を表すデータをカプセル化した後に、カプセル化ユニット３０は、特定のイメージについてのビデオデータをカプセル化しうる。

[0067]最も関心のある領域に関する情報の生成および使用がここで論述されることになる。２０１６年５月１９日に出願され、その全体が参照によってここに組み込まれる米国仮特許出願第６２／３３９，００９号は、サービスまたはコンテンツプロバイダによるユーザ統計による、例えば、ＶＲビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された／見られたかの統計を通じた、最も関心のある領域に関する情報の生成を開示しており、ここにおいて、ＶＲビデオピクチャ中の最も関心のある領域は、統計的にピクチャの提示時間においてユーザにレンダリングされる可能性が最も高い領域のうちの１つである。米国仮特許出願第６２／３３９，００９号中にまた開示されているのは、エッジサーバまたはクライアントによるＶＲ適応型ストリーミング中でのデータプリフェッチング、ＶＲビデオが、例えば、異なるコーデックまたはプロジェクションマッピングにトランスコーディングされたときのトランスコーディング最適化、エッジサーバまたはキャッシュによるキャッシュ管理、およびＶＲビデオストリーミングサーバによるコンテンツ管理のような、様々なＶＲ性能を改善することを目的とした、最も関心のある領域に関する情報の使用である。例えば、ビデオビットストリーム中のＳＥＩメッセージ、メディアファイル中のファイルフォーマットサンプルグループ、またはサンプルグループを使用するＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ）メディアプレゼンテーション記述（ＭＰＤ）要素または属性を使用することによる、最も関心のある領域のシグナリングもまた開示されている。

[0068]ＶＲビデオアプリケーションに関して、最も関心のある領域に関する情報を利用する方法を考えたとき、我々は、以下の問題のうちの少なくともいくつかを特定する。一例として、ＶＲビデオの最も関心のある領域に関する情報が、その情報が関連する（the information is about）ビデオピクチャの前に適応型ストリーミングクライアントまたはエッジサーバによって受信されることができることを確実にするいかなるメカニズムも利用可能ではなかった。米国仮特許出願第６２／３３９，００９号中に説明されているように、ＳＥＩメッセージ中に含まれるとき、情報は、その情報が関連するコーディングされたピクチャと一体になる（come together）であろう。トラックフラグメント中に含まれるとき、ファイルフォーマットサンプルグループは、そのトラックフラグメント中のビデオサンプルについての情報を記述する。別の例として、いくつかのケースでは、例えば、タイルトラックが動き抑制された（motion-constrained）タイルまたはタイル領域を搬送するために使用されるとき、領域の位置およびサイズを通じて最も関心のある領域に関する情報をシグナリングする必要はないが、むしろより単純でより効率的なシグナリングが使用されることができる。

[0069]この開示は、ＶＲビデオ中の１つまたは複数の最も関心のある領域の高度なシグナリングのためのいくつかの技法を説明しており、それにより、ＶＲビデオの最も関心のある領域に関する情報は、その情報が関連するビデオピクチャの前に適応型ストリーミングクライアントまたはエッジサーバによって受信されることができる。言い換えると、ＶＲビデオ中の１つまたは複数の最も関心のある領域の高度なシグナリングは、ＶＲビデオの最も関心のある領域に関する情報が、１つまたは複数の最も関心のある領域についてのビデオデータを含むデータセットとは異なるデータセット中で受信されることを許可しうる。これらの技法のうちの１つまたは複数は、独立して、または他のものと組み合わせて適用されうる。

[0070]一例では、トラックフラグメントボックス中に含まれるとき、サンプルグループが、トラック中にサンプルグループ（グルーピングタイプのＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘおよび対応するサンプルグループ記述ボックス）を包含するものに続く後続のトラックフラグメント中にあるサンプルの情報をドキュメントすることができることが提案される。例えば、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘの新しいバージョンが定義され、および特定のグルーピングタイプのＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘがトラックフラグメント中に含まれるとき、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘの新しいバージョンが使用されることが必要とされ、同じグルーピングタイプの対応するサンプルグループエントリ中に含まれる情報は、トラック中にサンプルグループを包含する後続のトラックフラグメント中のサンプルの情報をドキュメントすることができる。

[0071]別の例では、最も関心のある領域を記述するためのサンプルグループは少なくとも、以下のシンタックス要素のうちの１つまたは複数を包含しうる。

[0072]サンプルグループは、最も関心のある領域の数を示すシンタックス要素を包含しうる。

[0073]サンプルグループは、シンタックス要素のセットのループを包含しえ、各セットは、最も関心のある領域の位置およびサイズを記述する。例えば、各セットは、最も関心のある領域である長方形の四隅の上側、下側、左側および右側オフセットを、ピクチャ全体に対する輝度サンプルの数で示す４つのシンタックス要素を含みうる。最も関心のある領域の各々について、優先度は、シンタックス要素によって示されえ、高い優先度は、領域のより高い関心を示す。

[0074]一例では、各セットは、最も関心のある領域である長方形の左上角の座標を、ピクチャ全体に対する輝度サンプルの数で示す２つのシンタックス要素を含みえ、２つのシンタックス要素は、長方形の幅および高さを示す。

[0075]第２の例では、各セットは、最も関心のある領域の左上角の座標を、ピクチャ全体に対する輝度サンプルの数で示す２つのシンタックス要素を含みうる。そのような座標によって示される最も関心のある領域が、長方形の形状ではないことがありうることに留意されたい。ファイルパーサ（parsers）は、座標をビューポート中の領域と関連付け、およびそのような領域が最も高い解像度／品質でコーディングされるトラック／ＤＡＳＨリプレゼンテーションを見出すことが可能であるべきである。

[0076]第３の例では、最も関心のある領域が幅および高さによって記述される長方形の形状であるかどうかを示すためにフラグが導入される第１および第２の代替は、マージされることができる。

[0077]第４の例では、各セットは、最も関心のある領域である長方形の左上角の座標を、球体に対する輝度サンプルの数で示す３つのシンタックス要素（例えば、ヨー度、ピッチ度および半径長（the yaw degree, pitch degree and radius length））を含みえ、２つのシンタックス要素は、長方形のピッチの幅および高さヨーを示す。ファイルパーサは、球体中の記述された領域をピクチャ全体に対する領域と関連付け、およびそのような領域が最も高い解像度／品質でコーディングされるトラック／ＤＡＳＨリプレゼンテーションを見出すことが可能であるべきである。

[0078]別の例では、最も関心のある領域の位置およびサイズを直接シグナリングする代わりに、最も関心のある領域をカバーするタイルの、ＨＥＶＣ仕様書中に規定されているようなタイルＩＤがシグナリングされうる。

[0079]別の例では、最も関心のある領域の位置およびサイズを直接シグナリングする代わりに、最も関心のある領域をカバーするタイル領域の、ＩＳＯ／ＩＥＣ１４４９６−１５の第１０項中に定義されているようなタイル領域ＩＤまたはグループＩＤがシグナリングされうる。

[0080]別の例では、ＩＳＯ／ＩＥＣ１４４９６−１５の第１０項中に定義されているようなタイルトラックが使用されるとき、最も関心のある領域の位置およびサイズを直接シグナリングする代わりに、最も関心のある領域をカバーする動き抑制されたタイルまたはタイル領域を搬送するトラックのトラックＩＤがシグナリングされうる。

[0081]別の例では、ＤＡＳＨがＶＲビデオをストリーミングするために使用され、ＩＳＯ／ＩＥＣ１４４９６−１５の第１０項中に定義されているようなタイルトラックが使用され、各タイルトラックが１つのＤＡＳＨリプレゼンテーション中にカプセル化されるとき、最も関心のある領域の位置およびサイズを直接シグナリングする代わりに、ＭＰＤまたはＭＰＤの更新中で、最も関心のある領域をカバーする動き抑制されたタイルまたはタイル領域を搬送するトラックに対応するリプレゼンテーションのリプレゼンテーションＩＤがシグナリングされうる。

[0082]別の例では、ＩＳＯ／ＩＥＣ１４４９６−１５の第１０項中に定義され、定義されているようなタイルトラックが使用されるとき、１つまたは複数の最も関心のある領域の情報が、ベースタイルトラックまたは非タイルトラック（すなわち、「ＴＢＡＳ」トラックリファレンス（track reference）を通じて他のトラックによって参照されるトラック）中にシグナリングされうるか、またはベースタイルトラック中にのみシグナリングされうる。このケースでは、サンプルグループがシグナリングのために使用されるとき、サンプル番号は、現在のトラックに関連付けられたタイルトラックのものである。およびこのケースでは、タイルトラックのサンプルの数が同じであり、そしてタイルトラックのサンプル番号が揃えられることが必要とされうる。

[0083]別の例では、サンプルグループを使用する代わりに、最も関心のある領域の情報はまた、サンプルテーブルボックス、トラックフラグメントボックス、および／またはセグメントインデックスボックス中に直接的にまたは間接的に含まれる新しいボックス中にシグナリングされえ、新しいボックスが、トラック中に新しいボックスを包含するものに続く後続のセグメントまたは後続のトラックセグメントのサンプルについての情報をドキュメントすることが可能にされる。

[0084]別の例では、ＶＲビデオビットストリームのピクチャの特定のセットについての最も関心のある領域に関する情報は、ＳＥＩメッセージを使用してシグナリングされうる。このＳＥＩメッセージのインスタンスは、シンタックス、セマンティクスまたは両方によって（１つまたは複数の）ピクチャのセットに適用可能であるように指定される。ＳＥＩメッセージは、以下のシンタックス要素のうちの１つまたは複数を包含しうる。

[0085]ＳＥＩメッセージは、最も関心のある領域の数を示すシンタックス要素を包含しうる。

[0086]ＳＥＩメッセージは、シンタックス要素のセットのループを包含しえ、各セットは、最も関心のある領域の位置およびサイズを記述する。例えば、各セットは、最も関心のある領域である長方形の四隅の上側、下側、左側および右側オフセットを、ピクチャ全体に対する輝度サンプルの数で示す４つのシンタックス要素を含みうる。代替として、各セットは、最も関心のある領域である長方形の左上角の座標を、ピクチャ全体に対する輝度サンプルの数で示す２つのシンタックス要素を含みえ、２つのシンタックス要素は、長方形の幅および高さを示す。

[0087]ＳＥＩメッセージは包含しえ、最も関心のある領域の各々について、優先度は、シンタックス要素によって示されえ、高い優先度は、領域のより高い関心を示す。

[0088]ＳＥＩメッセージは、復号順序でこのＳＥＩメッセージの全てのより前のインスタンスの効果を除去するかどうかを示すシンタックス要素を包含しうる。

[0089]ＳＥＩメッセージは、出力順序で将来のピクチャまたはアクセスユニットを示すシンタックス要素を包含しえ、それから、このＳＥＩメッセージによって記述される最も関心のある領域に関する情報が適用され始める。このインジケーションは、出力時間のデルタ、あるいはＳＥＩメッセージに関連付けられたピクチャまたはアクセスユニットのＰＯＣ（ピクチャ順序カウント）に関連するデルタＰＯＣとしてインプリメントされることができる。

[0090]ＳＥＩメッセージは、このＳＥＩメッセージの現在のインスタンス中の情報が、出力順序における次のピクチャ、または新しいコーディングされたビデオシーケンスの開始、あるいはビットストリームの終了まで、残存するかどうかを示すシンタックス要素を包含しうる。

[0091]クライアントデバイス４０、サーバデバイス６０、および／またはコンテンツ準備デバイス２０は、この開示の技法にしたがって動作するように構成されうる。例を目的として、この開示は、クライアントデバイス４０およびサーバデバイス６０に関するこれらの技法を説明している。しかしながら、コンテンツ準備デバイス２０が、サーバデバイス６０の代わりに（またはそれに加えて）、これらの技法を遂行するように構成されうることが理解されるべきである。

[0092]カプセル化ユニット３０は、ＮＡＬユニットが属するプログラムを識別するヘッダ、ならびにペイロード、例えば、オーディオデータ、ビデオデータ、あるいはＮＡＬユニットが対応するトランスポートまたはプログラムストリームを記述するデータ、を備えるＮＡＬユニットを形成しうる。例えば、Ｈ．２６４／ＡＶＣでは、ＮＡＬユニットは、１バイトのヘッダと変動するサイズのペイロードとを含む。そのペイロード中にビデオデータを含むＮＡＬユニットは、様々な粒状性（granularity）レベルのビデオデータを備えうる。例えば、ＮＡＬユニットは、ビデオデータのブロック、複数のブロック、ビデオデータのスライス、またはビデオデータのピクチャ全体を備えうる。カプセル化ユニット３０は、エレメンタリーストリームのＰＥＳパケットの形状で、ビデオ符号化器２８から符号化されたビデオデータを受信しうる。カプセル化ユニット３０は、各エレメンタリーストリームを対応するプログラムと関連付けうる。

[0093]カプセル化ユニット３０はまた、複数のＮＡＬユニットからアクセスユニットをアセンブルしうる。一般に、アクセスユニットは、ビデオデータのフレーム、ならびにそのようなオーディオデータが利用可能であるときにはそのフレームに対応するオーディオデータ、を表すための１つまたは複数のＮＡＬユニットを備えうる。アクセスユニットは概して、１つの出力時間インスタンスに対して全てのＮＡＬユニットを、例えば、１つの時間インスタンスに対して全てのオーディオおよびビデオデータを、含む。例えば、各ビューが２０フレーム／秒（ｆｐｓ）のフレームレートを有する場合、各時間インスタンスは、０．０５秒の時間間隔に対応しうる。この時間間隔中に、同じアクセスユニット（同じ時間インスタンス）の全てのビューについての特定のフレームは、同時にレンダリングされうる。一例では、アクセスユニットは、１つの時間インスタンス中にコーディングされたピクチャを備えうるものであり、それは、プライマリのコーディングされたピクチャとして提示されうる。

[0094]それ故に、アクセスユニットは、共通の時間的インスタンスの全てのオーディオおよびビデオフレーム、例えば、時間Ｘに対応する全てのビュー、を備えうる。この開示はまた、特定のビューの符号化されたピクチャを「ビューコンポーネント」と呼ぶ。すなわち、ビューコンポーネントは、特定の時間における特定のビューについての符号化されたピクチャ（またはフレーム）を備えうる。それ故に、アクセスユニットは、共通の時間的インスタンスの全てのビューコンポーネントを備えるとして定義されうる。アクセスユニットの復号順序は、出力または表示順序とは必ずしも同じである必要はない。

[0095]メディアプレゼンテーションは、メディアプレゼンテーション記述（ＭＰＤ）を含みえ、それは、異なる代替のリプレゼンテーション（例えば、異なる品質を有するビデオサービス）の記述を包含し、記述は、例えば、コーデック情報、プロファイル値、およびレベル値を含みうる。ＭＰＤは、マニフェストファイル６６のようなマニフェストファイルの一例である。クライアントデバイス４０は、様々なプレゼンテーションのムービーフラグメントにどのようにアクセスするかを決定するために、メディアプレゼンテーションのＭＰＤを検索しうる。ムービーフラグメントは、ビデオファイルのムービーフラグメントボックス（ｍｏｏｆボックス）中にロケートされうる。

[0096]（例えば、ＭＰＤを備えうる）マニフェストファイル６６は、リプレゼンテーション６８のセグメントの可用性をアドバタイズしうる。すなわち、ＭＰＤは、リプレゼンテーション６８のうちの１つの第１のセグメントが利用可能になるウォールクロック時間（the wall-clock time）を示す情報、ならびにリプレゼンテーション６８内のセグメントの持続時間を示す情報を含みうる。このように、クライアントデバイス４０の検索ユニット５２は、特定のセグメントに先行するセグメントの開始時間ならびに持続時間に基づいて、各セグメントがいつ利用可能になるかを決定しうる。いくつかの例では、マニフェストファイル６６は、この開示の技法によると、特定のイメージ中の１つまたは複数の最も関心のある領域を表すデータを含みうる。

[0097]カプセル化ユニット３０が受信されたデータに基づいてＮＡＬユニットおよび／またはアクセスユニットをビデオファイルへとアセンブルした後に、カプセル化ユニット３０は、出力のために出力インターフェース３２にビデオファイルを渡す。いくつかの例では、カプセル化ユニット３０は、直接クライアントデバイス４０にビデオファイルを送るというよりはむしろ、ビデオファイルをローカルに記憶しうるか、または出力インターフェース３２を介してリモートサーバにビデオファイルを送りうる。出力インターフェース３２は、例えば、送信機、トランシーバ、例えば、光学ドライブ、磁気媒体ドライブ（例えば、フロッピー（登録商標）ドライブ）、ユニバーサルシリアルバス（ＵＳＢ）ポート、ネットワークインターフェース、または他の出力インターフェースのような、コンピュータ可読媒体にデータを書き込むためのデバイスを備えうる。出力インターフェース３２は、例えば、送信信号、磁気媒体、光学媒体、メモリ、フラッシュドライブ、または他のコンピュータ可読媒体のようなコンピュータ可読媒体にビデオファイルを出力する。

[0098]ネットワークインターフェース５４は、ネットワーク７４を介してＮＡＬユニットまたはアクセスユニットを受信し、検索ユニット５２を介して非カプセル化ユニット５０にＮＡＬユニットまたはアクセスユニットを提供しうる。非カプセル化ユニット５０は、構成要素ＰＥＳストリームへとビデオファイルの要素を非カプセル化し、符号化されたデータを検索するためのＰＥＳストリームを非パケット化し、例えば、ストリームのＰＥＳパケットヘッダによって示されているように、符号化されたデータがオーディオストリームの一部であるか、またはビデオストリームの一部であるかに依存して、オーディオ復号器４６またはビデオ復号器４８のいずれかに符号化されたデータを送りうる。オーディオ復号器４６は、符号化されたオーディオデータを復号し、オーディオ出力４２に復号されたオーディオデータを送り、その一方でビデオ復号器４８は、符号化されたビデオデータを復号し、ビデオ出力４４に復号されたビデオデータを送り、それは、ストリームの複数のビューを含みうる。

[0099]このように、コンテンツ準備デバイス２０は、ビデオデータについての情報をシグナリングするためのデバイスの例を表し、デバイスは、ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定するように構成されたプロセッサを含む。１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える。プロセッサはさらに、１つまたは複数の最も関心のある領域を表すデータを出力するように構成される。１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。プロセッサはさらに、１つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力するように構成される。

[0100]加えて、クライアントデバイス４０は、ビデオデータについての情報を決定するためのデバイスの例を表し、デバイスは、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定するように構成されたプロセッサを含む。プロセッサは、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定する要求を生成することと、サーバデバイスに要求を出力することとを行うようにさらに構成される。

[0101]図２は、実例的なマルチメディアコンテンツ１２０の要素を例示する概念図である。マルチメディアコンテンツ１２０は、マルチメディアコンテンツ６４（図１）、または記憶媒体６２中に記憶された別のマルチメディアコンテンツに対応しうる。図２の例では、マルチメディアコンテンツ１２０は、メディアプレゼンテーション記述（ＭＰＤ）１２２と複数のリプレゼンテーション１２４Ａ〜１２４Ｎ（リプレゼンテーション１２４）とを含む。リプレゼンテーション１２４Ａは、オプションのヘッダデータ１２６とセグメント１２８Ａ〜１２８Ｎ（セグメント１２８）を含み、その一方でリプレゼンテーション１２４Ｎは、オプションのヘッダデータ１３０とセグメント１３２Ａ〜Ｎ（セグメント１３２）とを含む。Ｎの文字は、便宜上、リプレゼンテーション１２４の各々中の最後のムービーフラグメントを指定するために使用されている。いくつかの例では、リプレゼンテーション１２４間に異なる数のムービーフラグメントが存在しうる。

[0102]図２は、システム１０（図１）がＤＡＳＨのために構成された例を説明しているが、いくつかの例では、システム１０は、他のメディア再生制御プロトコル、例えば、それらに限定されないが、リアルタイムストリーミングプロトコル（ＲＴＳＰ）、リアルタイムトランスポートプロトコル（ＲＴＰ）、ＲＴＰ制御プロトコル（ＲＴＣＰ）、セッション記述プロトコル（ＳＤＰ）、別のメディア再生制御プロトコル、またはそれらの組み合わせのために構成されうる。

[0103]ＭＰＤ１２２は、リプレゼンテーション１２４とは別個のデータ構造を備えうる。ＭＰＤ１２２は、図１のマニフェストファイル６６に対応しうる。同様に、リプレゼンテーション１２４は、図２のリプレゼンテーション６８に対応しうる。一般に、ＭＰＤ１２２は、コーディングおよびレンダリング特性、適合セット、ＭＰＤ１２２が対応するプロファイル、テキストタイプ情報、カメラアングル情報、レーティング情報、トリックモード情報（例えば、時間的サブシーケンスを含むリプレゼンテーションを示す情報）、および／または（例えば、再生中におけるメディアコンテンツへのターゲット広告の挿入のための）リモート期間を検索するための情報のような、リプレゼンテーション１２４の特性を概して説明するデータを含みうる。

[0104]存在するとき、ヘッダデータ１２６は、セグメント１２８の特性、例えば、ランダムアクセスポイント（ＲＡＰ、ストリームアクセスポイント（ＳＡＰ）とも呼ばれる）の時間的ロケーション、セグメント１２８のうちのどれがランダムアクセスポイントを含むか、セグメント１２８内のランダムアクセスポイントに対するバイトオフセット、セグメント１２８のユニフォームリソースロケータ（ＵＲＬ）、またはセグメント１２８の他の態様を記述しうる。存在するとき、ヘッダデータ１３０は、セグメント１３２についての同様の特性を記述しうる。加えて、または代替として、そのような特性は、ＭＰＤ１２２内に完全に含まれうる。

[0105]示されているように、ヘッダデータ１２６は、リプレゼンテーション１２４Ａを識別するために使用されうるリプレゼンテーション識別子（「ＩＤ」）１２７を含みうる。例えば、コンテンツ準備デバイス２０は、リプレゼンテーション１２４Ａにリプレゼンテーション識別子１２７を割り当てうる。この例では、コンテンツ準備デバイス２０は、リプレゼンテーション１２４Ｎにリプレゼンテーション識別子１２７とは異なるリプレゼンテーション識別子１３１を割り当てうる。いくつかの例では、ＩＤ１２７、１３１は、ユニフォームリソースロケータ（ＵＲＬ）プレフィックスに対応しうる。例えば、リプレゼンテーション１２４Ａは、「１」の識別子値を有し、「www.example.com」から利用可能でありえ、それにより、ＩＤ１２７は「www.example.com/1」の値を有しうる。さらに、セグメント１２８、１３２の各々は、ＵＲＬを完成させるための、列挙された識別子のような識別子を含みうる。例えば、「example.com」におけるリプレゼンテーション「１」から利用可能である第１のＭＰ４セグメントは、「example.com/1/1.mp4」のＵＲＬを有しうる。コンテンツ準備デバイス２０は、一意のリプレゼンテーション識別子をリプレゼンテーション１２４のうちの各１つに割り当てうる。

[0106]セグメント１２８、１３２は、１つまたは複数のコーディングされたビデオサンプルを含み、それらの各々は、ビデオデータのフレームまたはスライスを含みうる。セグメント１２８のコーディングされたビデオサンプルの各々は、同様の特性、例えば、高さ、幅、および帯域幅要件を有しうる。そのような特定は、ＭＰＤ１２２のデータによって記述されうるが、そのようなデータは、図２の例には例示されていない。ＭＰＤ１２２は、この開示中に説明されるシグナリングされる情報のうちの任意のものまたは全ての追加とともに、３ＧＰＰ仕様書によって説明されるような特性を含みうる。

[0107]上述されたように、セグメント１２８、１３２の各々は、一意のユニフォームリソースロケータ（ＵＲＬ）に関連付けられうる。このことから、セグメント１２８、１３２の各々は、ＤＡＳＨのようなストリーミングネットワークプロトコルを使用して独立して検索可能でありうるが、他のストリーミングネットワークプロトコルが使用されうる。このように、クライアントデバイス４０のような宛先デバイスは、セグメント１２８または１３２を検索するために、ＨＴＴＰＧＥＴ要求を使用しうる。いくつかの例では、クライアントデバイス４０は、セグメント１２８または１３２の特定のバイト範囲を検索するために、ＨＴＴＰ部分的ＧＥＴ要求を使用しうる。例えば、クライアントデバイス４０は、セグメント１２８、１３２のうちの１つから最も関心のある領域を表すデータを初めに検索するために、第１のＨＴＴＰ部分的ＧＥＴ要求を使用し、１つまたは複数の最も関心のある領域を決定し、その後、セグメント１２８、１３２のうちの１つから１つまた複数の最も関心のある領域についてのビデオデータをプリフェッチするために、第２のＨＴＴＰ部分的ＧＥＴ要求を使用しえ、最も関心のある領域データが、例えば、ファイルフォーマット情報中のセグメント１２８、１３２内に含まれると想定する。

[0108]この開示の技法にしたがって、ＭＰＤ１２２は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。例えば、ＭＰＤ１２２は、セグメント１２８、１３２の各々について、ベース領域に対する最も関心のある領域のそれぞれの位置と、ベース領域に対する最も関心のある領域のそれぞれのサイズとを表す要素または属性を含みうる。

[0109]より具体的には、例えば、ＭＰＤ１２２は、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第３のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第４のシンタックス要素とを、１つまたは複数の最も関心のある領域の各々について、含む要素または属性を、セグメント１２８、１３２（あるいはセグメント１２８、１３２内の１つまたは複数のピクチャ）の各々について、含みうる。

[0110]加えて、または代替として、１つまたは複数の最も関心のある領域の位置およびサイズを直接シグナリングするというよりはむしろ、ＭＰＤ１２２は、１つまたは複数の最も関心のある領域の位置およびサイズを示す識別子を含みうる。例えば、ＭＰＤ１２２は、イメージの１つまたは複数のリプレゼンテーションを表す１つまたは複数のリプレゼンテーション識別子を含みえ、１つまたは複数のリプレゼンテーションの各リプレゼンテーションは、１つまたは複数の最も関心のある領域についてのＶＣＬデータを含む。

[0111]図３は、実例的なビデオファイル１５０の要素を例示するブロック図であり、それは、図２のセグメント１２８、１３２のうちの１つのような、リプレゼンテーションのセグメントに対応しうる。セグメント１２８、１３２の各々は、図３の例において例示されているデータの配列に実質的に一致するデータを含みうる。ビデオファイル１５０は、セグメントをカプセル化すると言われうる。上述されたように、ＩＳＯベースメディアファイルフォーマットおよびその拡張にしたがったビデオファイルは、「ボックス」と呼ばれる一連のオブジェクト中にデータを記憶する。図３の例では、ビデオファイル１５０は、ファイルタイプ（ＦＴＹＰ）ボックス１５２、ムービー（ＭＯＯＶ）ボックス１５４、セグメントインデックス（ＳＩＤＸ）ボックス１６２、ムービーフラグメント（ＭＯＯＦ）ボックス１６４、メディアデータ（ＭＤＡＴ）ボックス１６３、およびムービーフラグメントランダムアクセス（ＭＦＲＡ）ボックス１６６を含む。図３は、ビデオファイルの例を表しているが、他のメディアファイルが、ＩＳＯベースメディアファイルフォーマットおよびその拡張にしたがって、ビデオファイル１５０のデータと同様に構造化された他のタイプのメディアデータ（例えば、オーディオデータ、時間指定されたテキストデータ、または同様のもの）を含みうることが理解されるべきである。

[0112]ＦＴＹＰボックス１５２は概して、ビデオファイル１５０についてのファイルタイプを記述する。ファイルタイプボックス１５２は、ビデオファイル１５０についての最良の使用を記述する仕様を識別するデータを含みうる。ファイルタイプボックス１５２は代替として、ＭＯＯＶボックス１５４、ＭＯＯＦボックス１６４、および／またはＭＦＲＡボックス１６６の前に配置されうる。

[0113]いくつかの例では、ビデオファイル１５０のようなセグメントは、ＦＴＹＰボックス１５２の前にＭＰＤ更新ボックス（図示せず）を含みうる。ＭＰＤ更新ボックスは、ＭＰＤを更新するための情報とともに、ビデオファイル１５０を含むリプレゼンテーションに対応するＭＰＤが更新されるべきであることを示す情報を含みうる。例えば、ＭＰＤ更新ボックスは、ＭＰＤを更新するために使用されるべきリソースにＵＲＩまたはＵＲＬを提供しうる。別の例として、ＭＰＤ更新ボックスは、ＭＰＤを更新するためのデータを含みうる。いくつかの例では、ＭＰＤ更新ボックスは、ビデオファイル１５０のセグメントタイプ（ＳＴＹＰ）ボックス（図示せず）の直後に後続しえ、ここで、ＳＴＹＰボックスは、ビデオファイル１５０についてのセグメントタイプを定義しうる。

[0114]図３の例におけるＭＯＯＶボックス１５４は、ムービーヘッダ（ＭＶＨＤ）ボックス１５６とトラック（ＴＲＡＫ）ボックス１５８とを含む。一般に、ＭＶＨＤボックス１５６は、ビデオファイル１５０の一般の特性を記述しうる。例えば、ＭＶＨＤボックス１５６は、いつビデオファイル１５０が当初に作成されたか、いつビデオファイル１５０が最後に修正されたか、ビデオファイル１５０についての時間スケール、ビデオファイル１５０についての再生の持続時間、を記述するデータ、またはビデオファイル１５０を概して記述する他のデータを含みうる。

[0115]ＴＲＡＫボックス１５８は、ビデオファイル１５０のトラックについてのデータを含みうる。ＴＲＡＫボックス１５８は、ＴＲＡＫボックス１５８に対応するトラックの特性を記述するトラックヘッダ（ＴＫＨＤ）ボックスを含みうる。示されているように、ＴＲＡＫボックス１５８は、トラック識別子（ＩＤ）１６０を含みうる。いくつかの例では、ＴＲＡＫボックス１５８は、コーディングされたビデオピクチャを含みえ、その一方で他の例では、トラックのコーディングされたビデオピクチャは、ＭＤＡＴボックス１６３中に含まれえ、それは、ＴＲＡＫボックス１５８および／またはＳＩＤＸボックス１６２のデータによって参照されうる。

[0116]いくつかの例では、ＴＲＡＫボックス１５８は、トラックベース「ＴＢＡＳ」リファレンス（または単に、ベースリファレンス（base reference））１６１を含みうる。ベースリファレンス１６１は、ＶＣＬＮＡＬユニットを含まないＨＥＶＣまたはＬ−ＨＥＶＣタイルベーストラックを指す。ベースリファレンス１６１がＴＲＡＫボックス１５８のボックス内に含まれうることが理解されるべきである。例えば、ベースリファレンス１６１は、トラック参照ボックス（「ＴＲＥＦ」）中に含まれえ、それは、ＴＲＡＫボックス１５８中に直接含まれる。

[0117]ビデオファイル１５０は、ビデオファイル１５０中に含まれる各それぞれのトラックについて、それぞれの一対のＭＯＯＦボックス１６４とＭＤＡＴボックス１６３とを含みうる。示されているように、図３の例における各ＭＯＯＦボックス１６４は、ビデオファイル１５０中に含まれる各それぞれのトラックについて、トラックフラグメント（ＴＲＡＦ）ボックス１６５を含む。一般に、ＴＲＡＦボックス１６５は、それぞれのトラックについての非ＶＣＬデータとＶＣＬデータとを含みうる。さらに、ＭＯＯＶボックス１５４は、ビデオファイル１５０中のトラックの数に等しい数のＴＲＡＫボックスを含みうる。ＴＲＡＫボックス１５８は、ビデオファイル１５０の対応するトラックの特性を記述しうる。例えば、ＴＲＡＫボックス１５８は、ＴＲＡＦボックス１６５の対応するトラックについての時間的および／または空間的情報を記述しうる。ＴＲＡＦボックス１６５は、カプセル化ユニット３０（図１）がビデオファイル１５０のようなビデオファイル中のパラメータセットトラックを含むときに、パラメータセットトラックの特性を記述しうる。カプセル化ユニット３０は、パラメータセットトラックを記述するＴＲＡＫボックス１５８内のパラメータセットトラック中にシーケンスレベルＳＥＩメッセージの存在をシグナリングしうる。

[0118]図３の例におけるＴＲＡＦボックス１６５は、サンプルテーブルボックス（ＳＴＢＬ）１７６を含む。ＳＴＢＬ１７６は、サンプルグループの特性を指定する情報を含みうる。例えば、示されているように、ＳＴＢＬ１７６は、タイル領域グループエントリ（ＴＲＩＦ）１７７を含みえ、それは、グループ識別子１７４に関連付けられたタイル領域を指定しうる。

[0119]図３の例におけるＭＤＡＴボックス１６３は、ＳＥＩメッセージ１７８とＶＣＬＮＡＬユニット１７０とを含む。ＮＡＬユニット１７０は、１つまたは複数のコーディングされたビデオピクチャを含みうる。ＶＣＬＮＡＬユニット１７０は、１つまたは複数のタイルを含みうる。図３の例では、ＶＣＬＮＡＬユニット１７０は、ＶＣＬＮＡＬユニット１７０中に含まれるタイルを表すタイル識別子１７２を含む。

[0120]いくつかの例では、ＶＣＬＮＡＬユニット１７０は、１つまたは複数のピクチャのグループ（ＧＯＰ）を含みえ、それらの各々は、いくつかのコーディングされたビデオピクチャ、例えば、フレームまたはピクチャ、を含みうる。加えて、上述されたように、ＭＤＡＴボックス１６３は、いくつかの例ではシーケンスデータセットを含みうる。ＴＲＡＦボックス１６５は、ムービーフラグメントヘッダボックス（ＭＦＨＤ、図３中に図示せず）を含みうる。ＭＦＨＤボックスは、対応するムービーフラグメントについてのシーケンス番号のような、ＭＤＡＴボックス１６３の対応するムービーフラグメントの特性を記述しうる。ＭＤＡＴボックス１６３は、ビデオファイル１５０中のシーケンス番号の順序で含まれうる。

[0121]ＳＩＤＸボックス１６２は、ビデオファイル１５０のオプションの要素である。すなわち、３ＧＰＰファイルフォーマット、または他のそのようなファイルフォーマットに準ずるビデオファイルは、必ずしもＳＩＤＸボックス１６２を含まない。３ＧＰＰファイルフォーマットの例にしたがって、ＳＩＤＸボックスは、セグメント（例えば、ビデオファイル１５０内に包含されるセグメント）のサブセグメントを識別するために使用されうる。３ＧＰＰファイルフォーマットは、サブセグメントを、「対応するメディアデータボックス（１つ以上）と、ムービーフラグメントボックスによって参照されるデータを包含するメディアデータボックスとを有する１つまたは複数の連続するムービーフラグメントボックスの内蔵された（self-contained）セットは、そのムービーフラグメントボックスに後続し、および同じトラックについての情報を包含する次のムービーフラグメントボックスに先行しなければならない」として定義している。３ＧＰＰファイルフォーマットはまた、ＳＩＤＸボックスが、「そのボックスによってドキュメントされる（サブ）セグメントのサブセグメントへの参照のシーケンスを包含する。参照されるサブセグメントは、提示時間において連続している。同様に、セグメントインデックスボックスによって参照されるバイトは常に、セグメント内において連続している。参照されるサイズは、参照されるマテリアル中のバイトの数のカウントを示す（gives）」ことを示す。

[0122]ＳＩＤＸボックス１６２は概して、ビデオファイル１５０中に含まれるセグメントの１つまたは複数のサブセグメントを表す情報を提供する。例えば、そのような情報は、サブセグメントが始まるおよび／または終了する再生時間、サブセグメントについてのバイトオフセット、サブセグメントがストリームアクセスポイント（ＳＡＰ）を含む（例えば、それから始まる）かどうか、ＳＡＰについてのタイプ（例えば、ＳＡＰが瞬時復号器リフレッシュ（ＩＤＲ：instantaneous decoder refresh）ピクチャ、クリーンランダムアクセス（ＣＲＡ）ピクチャ、ブロークンリンクアクセス（ＢＬＡ）ピクチャ、または同様のものであるか）、サブセグメント中の（再生時間および／またはバイトオフセットの観点からの）ＳＡＰの位置、および同様のもの、を含みうる。

[0123]上述されたように、カプセル化ユニット３０は、実際のコーディングされたビデオデータを含まないビデオサンプル中にシーケンスデータセットを記憶しうる。ビデオサンプルは概して、アクセスニットに対応しえ、それは、特定の時間インスタンスにおけるコーディングされたピクチャのリプレゼンテーションである。ＡＶＣのコンテキストでは、コーディングされたピクチャは、アクセスニットの全てのピクセルを構築するための情報を包含する少なくとも１つのＶＣＬＮＡＬユニット１７０と、ＳＥＩメッセージ１７８のような他の関連する非ＶＣＬＮＡＬユニットとを含む。それ故に、カプセル化ユニット３０は、ＭＤＡＴボックス１６３中にシーケンスデータセットを含みえ、それは、ＳＥＩメッセージ１７８を含みうる。カプセル化ユニット３０はさらに、ＭＤＡＴボックス１６３中に存在するとして、シーケンスデータセットおよび／またはＳＥＩメッセージ１７８の存在をシグナリングしうる。

[0124]ビデオファイル１５０は、この開示の技法にしたがって、１つまたは複数の最も関心のある領域を表すデータを含みうる。より具体的には、ビデオファイル１５０は、ビデオファイル１５０のファイルフォーマットヘッダ情報中に１つまたは複数の最も関心のある領域を表すデータを含みうる。例えば、ビデオファイル１５０は、１つまたは複数の最も関心のある領域情報をシグナリングするファイルフォーマット情報を含みうる。いくつかの例では、ＳＥＩメッセージ１７８および／または図２のＭＰＤ１２２は、１つまたは複数の最も関心のある領域を表すデータを含みうる。

[0125]ＳＥＩメッセージ１７８は、Ｈ．２６４／ＡＶＣ、Ｈ．２６５／ＨＥＶＣ、または他のビデオコーデック仕様書の一部として含まれることができる。図３の例では、ＳＥＩメッセージ１７８は、例えば、ＶＣＬＮＡＬユニット１７０の対応するピクチャについての最も関心のある領域を表すデータを含みうる。他の例では、そのような最も関心のある領域データは、１）ファイルフォーマットでの情報のシグナリングのためのファイルフォーマットボックスまたは構造、ＤＡＳＨＭＰＤ（例えば、図２のＭＰＤ１２２、中の情報のシグナリングのためのＤＡＳＨＭＰＤ属性または要素中、別のボックスまたは構造、あるいはそれらの組み合わせ中に含まれうる。

[0126]ＭＦＲＡボックス１６６は、ビデオファイル１５０のムービーフラグメント内のランダムアクセスポイントを記述しうる。これは、ビデオファイル１５０によってカプセル化されたセグメント内の特定の時間的ロケーション（すなわち、再生時間）に対してシークを遂行するといったような、トリックモードを遂行することを支援しうる。いくつかの例では、ＭＦＲＡボックス１６６は概してオプションであり、ビデオファイル中に含まれる必要はない。同様に、クライアントデバイス４０のようなクライアントデバイスは、ビデオファイル１５０のビデオデータを正しく復号および表示するために、必ずしもＭＦＲＡボックス１６６を参照する必要はない。ＭＦＲＡボックス１６６は、ビデオファイル１５０のトラックの数に等しい、またはいくつかの例では、ビデオファイル１５０のメディアトラック（例えば、非ヒントトラック（non-hint tracks））の数に等しい、数のトラックフラグメントランダムアクセス（ＴＦＲＡ）ボックス（図示せず）を含みうる。

[0127]いくつかの例では、ムービーフラグメントは、ＩＤＲピクチャのような１つまたは複数のストリームアクセスポイント（ＳＡＰ）を含みうる。同様に、ＭＦＲＡボックス１６６は、ＳＡＰのビデオファイル１５０内のロケーションのインジケーションを提供しうる。それ故に、ビデオファイル１５０の時間的サブシーケンスは、ビデオファイル１５０のＳＡＰから形成されうる。時間的サブシーケンスはまた、ＳＡＰに依存する（depend from）Ｂフレームおよび／またはＰフレームのような他のフレームを含みうる。時間的サブシーケンスのフレームおよび／またはスライスは、サブシーケンスの他のフレーム／スライスに依存する時間的サブシーケンスのフレーム／スライスが適正に復号されることができるように、セグメント内に配列されうる。例えば、データの階層的配列では、他のデータについての予測のために使用されるデータもまた、時間的サブシーケンス中に含まれうる。

[0128]この開示の技法にしたがって、ビデオファイル１５０のファイルフォーマット情報中のデータ構造は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。例えば、ＳＴＢＬ１７６は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。いくつかの例では、ＴＲＡＦボックス１６５は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。いくつかの例では、ＳＩＤＸボックス１６２は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。加えて、または代替として、ＳＥＩメッセージ１７８は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。

[0129]ビデオファイル１５０のファイルフォーマット情報中のデータ構造は、インジケーション、１つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を含みうる。例えば、ＳＴＢＬ１７６は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。いくつかの例では、ＴＲＡＦボックス１６５は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。いくつかの例では、ＳＩＤＸボックス１６２は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。加えて、または代替として、ＳＥＩメッセージ１７８は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。

[0130]いくつかの例では、ビデオファイル１５０は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージ全体に対するそれぞれの最も関心のある領域の上側オフセットを表す第１のシンタックス要素と、イメージ全体に対するそれぞれの最も関心のある領域の下側オフセットを表す第２のシンタックス要素と、イメージ全体に対するそれぞれの最も関心のある領域の左側オフセットを表す第３のシンタックス要素と、イメージ全体に対するそれぞれの最も関心のある領域の右側オフセットを表す第４のシンタックス要素とを含みうる。

[0131]いくつかの例では、ビデオファイル１５０は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域である長方形の左上角の座標を、イメージ全体に対する輝度サンプルで表す２つのシンタックス要素の第１のセットと、それぞれの最も関心のある領域の幅および高さを表す２つのシンタックス要素の第２のセットとを含みうる。

[0132]いくつかの例では、ビデオファイル１５０は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域である長方形の左上角の座標を、イメージ全体に対する輝度サンプルで表す２つのシンタックス要素のセットを含みうる。いくつかの例では、ビデオファイル１５０は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域がそれぞれの最も関心のある領域の幅および高さを表す２つのシンタックス要素のセットを含むかどうかを示すフラグを含みうる。

[0133]いくつかの例では、ビデオファイル１５０は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域である長方形の左上角の座標を、イメージについての球体に対する輝度サンプルで示す３つのシンタックス要素（例えば、ヨー度、ピッチ度、および半径長）のセットと、それぞれの最も関心のある領域のピッチの幅およびヨーの高さを表す２つのシンタックス要素のセットとを含みうる。

[0134]ＴＲＡＦボックス１６５中に含まれうるサンプルグループの詳細な例は、以下の通りである。

[0135]ＶＲビデオの１つまたは複数の最も関心のある領域のシグナリングのために、新しいサンプルグループが設計される。サンプルグルーピングタイプは、「ｍｉｒ」である。

[0136]１つまたは複数の最も関心のある領域のサンプルグループは、ファイル中に表されたＶＲビデオの１つまたは複数の最も関心のある領域をドキュメントする。１つまたは複数の最も関心のある領域は、ディレクターまたはプロデューサーの意図によって、あるいは、サービスまたはコンテンツプロバイダによるユーザ統計によって、例えば、ＶＲビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された／見られたかの統計を通じて、決定されうる。ＶＲビデオピクチャ中の最も関心のある領域は、統計的にピクチャの提示時間においてユーザにレンダリングされる可能性が最も高い領域のうちの１つである。

[0137]注記：最も関心のある領域の情報は、エッジサーバまたはクライアントによるＶＲ適応型ストリーミング中でのデータプリフェッチング、および／またはＶＲビデオが、例えば、異なるコーデック、プロジェクションマッピングにトランスコーディングされたときのトランスコーディング最適化、のために使用されうる。

[0138]この例では、「ｍｉｒ」に等しいｇｒｏｕｐｉｎｇ＿ｔｙｐｅを有するＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘがトラックフラグメントボックス（「ＴＲＡＦ」）中に含まれると、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘのバージョンは、２に等しくなるべきである。

[0139]この例では、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘのバージョン２は、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘ中にドキュメントされたサンプルが、１つまたは複数の後続のトラックフラグメント中に包含されたサンプルを参照することを可能にする。言い換えれば、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘについてのバージョンが２であるとき、このボックス中の総サンプルカウントが現在のトラックフラグメントボックス中のサンプルの総数より大きくなるのは誤りではないが、このボックス中の総サンプルカウントがトラック中の現在のトラックフラグメントから始まる全てのトラックフラグメント中のサンプルの総数より大きくなるのは誤りであり、そのケースでは、リーダの挙動（the reader behavior）は、未定義とされるであろう。

[0140]この例では、サンプルグループエントリのシンタックスは、以下の通りである：
class MostInterestedRegions() extends VisualSampleGroupEntry ('mir ') {
unsigned int(16) entry_count;
for (i=1; i<= entry_count; i++) {
unsigned int(16) left_horizontal_offset;
unsigned int(16) top_vertical_offset;
unsigned int(16) region_width;
unsigned int(16) region_height;
}
}

[0141]この例では、上述された実例的なシンタックスについてのセマンティクスは、以下の通りである：

[0142]ｅｎｔｒｙ＿ｃｏｕｎｔは、サンプルグループエントリ中のエントリの数を指定する。

[0143]ｌｅｆｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｏｆｆｓｅｔ、ｔｏｐ＿ｖｅｒｔｉｃａｌ＿ｏｆｆｓｅｔ、ｒｅｇｉｏｎ＿ｗｉｄｔｈ、およびｒｅｇｉｏｎ＿ｈｅｉｇｈｔは、最も関心のある領域の位置およびサイズを示す整数値である。ｌｅｆｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｏｆｆｓｅｔおよびｔｏｐ＿ｖｅｒｔｉｃａｌ＿ｏｆｆｓｅｔは、それぞれ、このサンプルグループエントリが適用されるコーディングされたピクチャ中の最も関心のある領域の左上角の水平および垂直座標を輝度サンプルで示す。ｒｅｇｉｏｎ＿ｗｉｄｔｈおよびｒｅｇｉｏｎ＿ｈｅｉｇｈｔは、それぞれ、このサンプルグループエントリが適用されるコーディングされたピクチャ中の最も関心のある領域の幅および高さを輝度サンプルで示す。

[0144]代替として、ｌｅｆｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｏｆｆｓｅｔ、ｔｏｐ＿ｖｅｒｔｉｃａｌ＿ｏｆｆｓｅｔ、ｒｅｇｉｏｎ＿ｗｉｄｔｈ、およびｒｅｇｉｏｎ＿ｈｅｉｇｈｔのセマンティクスは、以下の通りである：

[0145]ｌｅｆｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｏｆｆｓｅｔ、ｔｏｐ＿ｖｅｒｔｉｃａｌ＿ｏｆｆｓｅｔ、ｒｅｇｉｏｎ＿ｗｉｄｔｈ、およびｒｅｇｉｏｎ＿ｈｅｉｇｈｔは、最も関心のある領域の位置およびサイズを示す整数値である。ｌｅｆｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｏｆｆｓｅｔおよびｔｏｐ＿ｖｅｒｔｉｃａｌ＿ｏｆｆｓｅｔは、それぞれ、このサンプルグループエントリが適用され、および全ての代替トラックの中で最も高い解像度を有するコーディングされたピクチャ中の最も関心のある領域の左上角の水平および垂直座標を輝度サンプルで示す。ｒｅｇｉｏｎ＿ｗｉｄｔｈおよびｒｅｇｉｏｎ＿ｈｅｉｇｈｔは、それぞれ、このサンプルグループエントリが適用され、および全ての代替トラックの中で最も高い解像度を有するコーディングされたピクチャ中の最も関心のある領域の幅および高さを輝度サンプルで示す。

[0146]ビデオファイル１５０のファイルフォーマット情報中のデータ構造は、インジケーション、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を含みうる。例えば、ＳＴＢＬ１７６は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。いくつかの例では、ＴＲＡＦボックス１６５は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。いくつかの例では、ＳＩＤＸボックス１６２は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。加えて、または代替として、ＳＥＩメッセージ１７８は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。

[0147]より具体的には、例えば、ビデオファイル１５０のファイルフォーマット情報中のデータ構造は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第３のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第４のシンタックス要素とを含みうる。いくつかの例では、ビデオファイル１５０は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の上側オフセットを表す第１のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の下側オフセットを表す第２のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の左側オフセットを表す第３のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の右側オフセットを表す第４のシンタックス要素とを含みうる。

[0148]例えば、ＳＴＢＬ１７６は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第３のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第４のシンタックス要素とを含みうる。

[0149]いくつかの例では、ＴＲＡＦボックス１６５は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第３のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第４のシンタックス要素とを含みうる。

[0150]ＴＲＡＦボックス１６５中に含まれうるサンプルグループの詳細な例は、以下の通りである。

[0151]ＶＲビデオの１つまたは複数の最も関心のある領域のシグナリングのために、新しいサンプルグループが設計される。サンプルグルーピングタイプは、「ｍｉｒ」である。

[0152]１つまたは複数の最も関心のある領域のサンプルグループは、ファイル中に表されたＶＲビデオの１つまたは複数の最も関心のある領域をドキュメントする。１つまたは複数の最も関心のある領域は、ディレクターまたはプロデューサーの意図によって、あるいは、サービスまたはコンテンツプロバイダによるユーザ統計によって、例えば、ＶＲビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された／見られたかの統計を通じて、決定されうる。ＶＲビデオピクチャ中の最も関心のある領域は、統計的にピクチャの提示時間においてユーザにレンダリングされる可能性が最も高い領域のうちの１つである。

[0153]注記：最も関心のある領域の情報は、エッジサーバまたはクライアントによるＶＲ適応型ストリーミング中でのデータプリフェッチング、および／またはＶＲビデオが、例えば、異なるコーデック、プロジェクションマッピングにトランスコーディングされたときのトランスコーディング最適化、のために使用されうる。

[0154]この例では、「ｍｉｒ」に等しいｇｒｏｕｐｉｎｇ＿ｔｙｐｅを有するＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘがトラックフラグメントボックス（「ＴＲＡＦ」）中に含まれると、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘのバージョンは、２に等しくなるべきである。

[0155]この例では、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘのバージョン２は、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘ中にドキュメントされたサンプルが、１つまたは複数の後続のトラックフラグメント中に包含されたサンプルを参照することを可能にする。言い換えれば、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘについてのバージョンが２であるとき、このボックス中の総サンプルカウントが現在のトラックフラグメントボックス中のサンプルの総数より大きくなるのは誤りではないが、このボックス中の総サンプルカウントがトラック中の現在のトラックフラグメントから始まる全てのトラックフラグメント中のサンプルの総数より大きくなるのは誤りであり、そのケースでは、リーダの挙動は、未定義とされるであろう。

[0156]ある例では、サンプルグループエントリのシンタックスは、以下の通りである：
class MostInterestedRegions() extends VisualSampleGroupEntry ('mir ') {
unsigned int(32) regionbase_track_id;
unsigned int(16) entry_count;
for (i=1; i<= entry_count; i++) {
unsigned int(16) left_horizontal_offset;
unsigned int(16) top_vertical_offset;
unsigned int(16) region_width;
unsigned int(16) region_height;
}
}

[0157]およびこの例におけるセマンティクスは、以下の通りである：

[0158]ｒｅｇｉｏｎｂａｓｅ＿ｔｒａｃｋ＿ｉｄは、１つまたは複数の最も関心のある領域の位置およびサイズが指定されるベース領域の指定のためのトラックを指定する。現在のトラック中にあり、およびこのサンプルグループエントリが適用されるサンプルは、ターゲットサンプルであるとする。ｒｅｇｉｏｎｂａｓｅ＿ｔｒａｃｋ＿ｉｄに等しいｔｒａｃｋ＿ｉｄを有するトラック中にあり、およびコロケートされた（collocated）サンプルとしてターゲットサンプルと同じサンプル番号を有するサンプル。ベース領域は、コロケートされたサンプル中で搬送されるコーディングされたビデオデータによって全体的にまたは部分的に表されるピクチャの領域全体である。

[0159]ｅｎｔｒｙ＿ｃｏｕｎｔは、サンプルグループエントリ中のエントリの数を指定する。

[0160]ｌｅｆｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｏｆｆｓｅｔ、ｔｏｐ＿ｖｅｒｔｉｃａｌ＿ｏｆｆｓｅｔ、ｒｅｇｉｏｎ＿ｗｉｄｔｈ、およびｒｅｇｉｏｎ＿ｈｅｉｇｈｔは、最も関心のある領域の位置およびサイズを示す整数値である。ｌｅｆｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｏｆｆｓｅｔおよびｔｏｐ＿ｖｅｒｔｉｃａｌ＿ｏｆｆｓｅｔは、それぞれ、ベース領域に対する最も関心のある領域の左上角の水平および垂直座標を輝度サンプルで示す。ｒｅｇｉｏｎ＿ｗｉｄｔｈおよびｒｅｇｉｏｎ＿ｈｅｉｇｈｔは、それぞれ、ベース領域に対する最も関心のある領域の幅および高さを輝度サンプルで示す。

[0161]いくつかの例では、ＳＩＤＸボックス１６２は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第３のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第４のシンタックス要素とを含みうる。

[0162]加えて、または代替として、ＳＥＩメッセージ１７８は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第３のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第４のシンタックス要素とを含みうる。

[0163]ビデオファイル１５０のファイルフォーマット情報中のデータ構造は、インジケーション、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を含みうる。例えば、ＳＴＢＬ１７６は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を指定する最も関心のある領域データを含みうる。いくつかの例では、ＴＲＡＦボックス１６５は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を指定する最も関心のある領域データを含みうる。いくつかの例では、ＳＩＤＸボックス１６２は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を指定する最も関心のある領域データを含みうる。加えて、または代替として、ＳＥＩメッセージ１７８は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を指定する最も関心のある領域データを含みうる。いくつかの例では、１つまたは複数のタイル識別子によって指定されるイメージの１つまたは複数のタイルは、１つまたは複数の最も関心のある領域と空間的にコロケートされる。このように、１つまたは複数のタイル識別子は、１つまたは複数の最も関心のある領域についての位置およびサイズを直接シグナリングすることなしに、１つまたは複数の最も関心のある領域を識別しうる。

[0164]ビデオファイル１５０のファイルフォーマット情報中のデータ構造は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を含みうる。例えば、ＳＴＢＬ１７６は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を含みうる。いくつかの例では、ＴＲＡＦボックス１６５は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を含みうる。いくつかの例では、ＳＩＤＸボックス１６２は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を含みうる。加えて、または代替として、ＳＥＩメッセージ１７８は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を含みうる。

[0165]ビデオファイル１５０のファイルフォーマット情報中のデータ構造は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を含みうる。例えば、ＳＴＢＬ１７６は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を含みうる。いくつかの例では、ＴＲＡＦボックス１６５は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を含みうる。いくつかの例では、ＳＩＤＸボックス１６２は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を含みうる。加えて、または代替として、ＳＥＩメッセージ１７８は、１つまたは複数の最も関心のある領域の各最も関心のある領域について、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を含みうる。いくつかの例では、１つまたは複数のトラック識別子によって指定される１つまたは複数のトラックは、１つまたは複数の最も関心のある領域についてのＶＣＬデータを含む。このように、１つまたは複数のトラック識別子は、１つまたは複数の最も関心のある領域についての位置およびサイズを直接シグナリングすることなしに、１つまたは複数の最も関心のある領域を識別しうる。

[0166]ビデオファイル１５０のファイルフォーマット情報中のデータ構造は、１つまたは複数のベースタイルトラックを表すベースリファレンス１６１を含みうる。例えば、ＴＲＡＫボックス１５８は、１つまたは複数の最も関心のある領域を指定するベースタイルトラックを表す１つまたは複数のベースタイルトラック識別子を含みうる。

[0167]ＳＥＩメッセージ１７８は、イメージ順序カウントを表す１つまたは複数のシンタックス要素を示すシンタックス要素を含みうる。イメージ順序カウントは、１つまたは複数の最も関心のある領域を表すデータがイメージに適用されることを示しうる。

[0168]図４は、立方体投影２３０における実例的なタイルコーディングを例示する概念図である。立方体投影２３０は、示されているように立方体面２３２Ａ、２３２Ｂ、２３２Ｃを含み、および追加の立方体面を含み、それらは、それらが遮られていることから示されていない。この例では、立方体投影２３０の立方体面の各々は、４つのタイルに分割される：立方体面２３２Ａは、４つのタイル２３４Ａ〜２３４Ｄに分割され、立方体面２３２Ｂは、４つのタイル２３６Ａ〜２３６Ｄに分割され、および立方体面２３２Ｃは、４つのタイル２３８Ａ〜２３８Ｄに分割される。他の示されていない立方体面もまた、４つのそれぞれのタイルに分割され、この例では、合計で２４個の小さいタイルとなるであろう。一般に、コンテンツ準備デバイス２０は、タイル（例えば、タイル２３４Ａ〜２３４Ｄ、２３６Ａ〜２３６Ｄ、２３８Ａ〜２３８Ｄ、および示されていない立方体面のタイル）の各々にビデオデータを提供しうる。

[0169]加えて、コンテンツ準備デバイス２０は、大きいタイルにビデオデータを提供しえ、それらは、立方体面の各々をカバーしうる。例えば、コンテンツ準備デバイス２０は、立方体面２３２Ａをカバーするタイルにビデオデータを、立方体面２３２Ｂをカバーするタイルにビデオデータを、立方体面２３２Ｃをカバーするタイルにビデオデータを、および示されていない立方体面をカバーするタイルにビデオデータを提供しうる。いくつかの例では、ビデオ符号化器２８は、見られる可能性がより高いそれらのビューポイントについてのみ、より大きなタイルサイズを符号化しうる。このことから、ユーザが見上げるか、または見下ろすであろう可能性が低い場合、ビデオ符号化器２８は、立方体面２３２Ｂおよび２３２Ｃをカバーする大きいタイルについてと、立方体面２３２Ｂおよび２３２Ｃに向かい合う立方体面とについてのみ、ビデオデータをコーディングしうるが、例えば、立方体面２３２Ａについてはしないことがありうる。オプションとして、タイルの各々は、ステレオビデオデータについての左側および右側ビューを有しうる。

[0170]ＶＲは、没入したユーザの動きによって相関された自然および／または合成イメージとサウンドとのレンダリングによって作成された非物理的世界の中に仮想的に存在するための能力であり、ユーザがその世界とインタラクトすることを可能にする。ヘッドマウントディスプレイ（ＨＭＤ）のようなレンダリングデバイスと、（３６０度ビデオと呼ばれることも多い）ＶＲビデオ作成とにおいてなされた近年の進歩により、有意な品質のエクスペリエンスが提供されることができる。ＶＲアプリケーションは、ゲーミング、トレーニング、教育、スポーツビデオ、オンラインショッピング、アダルトエンターテインメント、等を含む。

[0171]典型的なＶＲビデオシステムは、以下のコンポーネントおよび技法を含みうる：

[0172]異なる方向に向いており、且つ理想的には集合的にカメラセットの周囲の全てのビューポイントをカバーしている複数の個々のカメラから典型的に成るカメラセット。

[0173]球面ビデオになるが、（世界地図のような）正距円筒図法（equi-rectangular）マップまたは立方体マップのような長方形フォーマットにマッピングされるイメージスティッチングであって、ここで、複数の個々のカメラによって撮られたビデオピクチャは、時間ドメイン中で同期され、空間ドメイン中で繋ぎ合わされる。

[0174]マッピングされた長方形フォーマットのビデオは、ビデオコーデック、例えば、Ｈ．２６５／ＨＥＶＣまたはＨ．２６４／ＡＶＣ、を使用して符号化／圧縮される。

[0175]圧縮されたビデオビットストリーム（１つ以上）は、メディアフォーマットで記憶および／またはカプセル化され、受信機にネットワークを通じて送信されうる（ことによると、ユーザによって見られているエリアのみをカバーするサブセットのみ）。

[0176]受信機は、ことによるとあるフォーマットでカプセル化されたビデオビットストリーム（１つ以上）またはその一部を受信し、レンダリングデバイスに復号されたビデオ信号またはその一部を送る。

[0177]レンダリングデバイスは、例えば、頭の動きおよび目の動きの瞬間さえも追跡することができるＨＭＤであり、および没入型のエクスペリエンスがユーザに配信されるようにビデオの対応する部分をレンダリングすることができる。

[0178]通常のビデオと比較してＶＲビデオの特徴は、ＶＲでは典型的に、ビューポートとも呼ばれる、現在のＦＯＶに対応する、ビデオピクチャによって表されるビデオ領域全体のサブセットのみ、例えば、ユーザによって現在見られているエリア、が表示され、その一方で通常のビデオアプリケーションでは典型的に、ビデオ領域全体が表示される。この特徴は、例えば、ビューポート依存の（viewport dependent）プロジェクションマッピングまたはビューポート依存のビデオコーディングを使用することによって、ＶＲビデオシステムの性能を改善するために利用されうる。性能の改善は、ユーザによって提示されたビデオ部分の同じ解像度／品質の下において、従来のＶＲビデオシステムと比較して、より低い送信帯域幅とより低い復号複雑性とのうちのいずれかまたは両方であることができる。

[0179]ビューポート依存のプロジェクションマッピングはまた、非対称プロジェクションマッピングと呼ばれうる。一例は、サブサンプリングされた立方体マップ、例えば、立方体投影２３０である。典型的な立方体マップは、６つの等しいサイズの面を含みうる。サブサンプリングされた立方体マップの一例では、面のうちの１つは、変更されずに保持されることができ、その一方で反対側上の面は、当初の面の形状の中央エリアにおいてロケートされたより小さいサイズにダウンスケーリングされるか、またはサブサンプリングされることができ、そして他の面は、それにしたがって幾何学的にスケーリングされる（依然として６つの面を保持する）。極端なものは、反対側上の面を単一点になるようにダウンスケーリングすることでありえ、このことから、立方体は、角錐（a pyramid）になる。サブサンプリングされた立方体マップの別の例では、いくつかの面が、例えば、２ｘ２の比率で、比例的にダウンサイジングされる（すなわち、面の端に平行する各方向に２：１）。

[0180]そのようなダウンサイジングされたスケーリングはまた、正距円筒図法のような他のプロジェクションマッピングのための異なる領域に適用されることができる。一例は、上側および下側領域（すなわち、極）の両方をダウンサイジングすることである。

[0181]ビューポート依存のビデオコーディングはまた、現在のＦＯＶまたはビューポートの表示のために十分な情報を提供すべく、符号化されたビデオ領域全体を部分的にのみ復号することを可能にするための、ビューポートベースの部分的ビデオ復号と呼ばれうる。

[0182]ビューポート依存のビデオコーディングの一例では、ＶＲビデオは、ＦＯＶまたはビューポートをカバーする各潜在的領域が他の領域から独立して復号されることができるように、タイルの動き抑制されたセットを使用してコーディングされる。特定の現在のＦＯＶまたはビューポートでは、現在のＦＯＶまたはビューポートをカバーする独立して復号可能なタイルの最小セットのコーディングされたビデオデータは、クライアントに送られ、復号され、そして表示される。このアプローチの欠点は、送られたビデオデータによってカバーされていない新しいＦＯＶにユーザが彼または彼女の頭を素早く向けたとき、ビデオデータのタイルによってカバーされていないエリア中のいずれも、新しいＦＯＶをカバーするデータが届くまで見られることができないということである。これは、例えば、１０ミリ秒の大きさのように、ネットワークのラウンドドリップタイムが極めて低くない限り容易に起こりかねず、それは、実現可能ではない、あるいは少なくとも今日または近い将来においては大きな課題である。

[0183]ビューポート依存のビデオコーディングの別の例は、２０１６年６月２８日に出願された米国特許出願第１５／１９５，４３９号中に提案されており、その内容全体は、ここに参照によって組み込まれ、独立マルチ解像度コーディング（ＩＭＲＣ：independent multi-resolution coding）という名称であり、ここにおいて、球面／パノラマビデオは、互いとは独立した複数の異なる解像度で符号化され、各リプレゼンテーションは、タイルの動き抑制されたセットを使用してコーディングされる。受信機は、異なる解像度で球面／パノラマビデオの異なる一部分を復号することを選ぶ。典型的に、ユーザによって現在観察されている球面ビデオの一部分、すなわち、現在のＦＯＶまたは現在のビューポートは、最も高い解像度でコーディングされたビデオビットストリームの一部である。現在のＦＯＶの周囲の領域は、若干より低い解像度、等を使用してコーディングされたビデオビットストリームの一部である。観察者の頭の真後ろのパノラマの一部分は、最も低い解像度でコーディングされたビデオビットストリームの一部である。ユーザによって頭が動いたケースでは、ユーザエクスペリエンスは、ほとんどのケースにおいて少量だけしか低下せず、品質の低下が最も深刻になるのは、非常に大きく、突然頭が動いたケースにおいてのみであることが主張され、それはまれである。

[0184]ビューポート依存のビデオコーディングのさらに別の例では、多重解像度（multiple-resolutions）のビデオビットストリームは、ＳＨＶＣのようなスケーラブルビデオコーデックを使用してスケーラブルコーディングされる。加えて、最も低い解像度ビデオ（またはベースレイヤ）のビットストリーム全体が常に送られる。最も低い解像度ビデオは、タイルまたはタイルの動き抑制されたセットを使用してコーディングされる必要はないが、それはまた、それがタイルまたはタイルの動き抑制されたセットを使用してコーディングされた場合にも機能する（work）であろう。他の態様では、上述されたものと同じストラテジが適用される。このアプローチは、タイルまたはタイルのタイル動き抑制されたセットのコーディングがコーディング効率を低減することから、最も低い解像度ビデオのより効率的なコーディングを、そしてまた、レイヤ間予測の使用に起因して、より高い解像度のストリームのより効率的なコーディングを、可能にする。さらに、このアプローチはまた、ＦＯＶ切り替え（FOV switching）が始まると、サーバまたはエッジサーバが、（ベースレイヤよりも）より高い解像度のビデオビットストリームからのものであり、および新しいＦＯＶのいかなる領域もカバーしていないビデオデータを送ることを速やかに停止することができることから、より効率的なＦＯＶ切り替えを可能にする。現在のＦＯＶをカバーしている最も低い解像度のビデオデータが送られない（すなわち、現在のＦＯＶをカバーしている最も高い解像度のビデオデータのみが送られる）場合、ＦＯＶ切り替え中に、ユーザが、彼／彼女が古いＦＯＶまたはその一部に向き直った（turns back）ケースであっても、少なくとも最も低い品質のビデオを見ることができるように準備するために、サーバは時として、最も高い解像度のビデオストリームからのものであり、および古いＦＯＶまたはその一部のみをカバーしているビデオデータを送り続けなければならないであろう。

[0185]ＭＰＥＧコントリビューション（contribution）ｍ３７８１９では、ディレクターズカットに関する情報のシグナリングおよび使用に関するユースケース（case was）が論述されており、それにより、ＶＲ再生は、ユーザが彼／彼女の頭を向けていないときであってもディレクターがオーディエンスに注目してもらいたい動的に変化するビューポートを表示しうるか、または他のＵＩを通じてビューポートを変更しうる。そのようなビューポートは、シーン毎に（scene by scene）全方位ビデオを提供されうることが言及された。

[0186]タイル（例えば、タイル２３４Ａ〜２３４Ｄ、２３６Ａ〜２３６Ｄ、２３８Ａ〜２３８Ｄおよび示されていない立方体面のタイル）を要求するための品質を選択するために、ユーザの視野にのみ必ず依拠するというよりはむしろ、ここに説明される１つまたは複数の技法は、１つまたは複数の最も関心のある領域を含む１つまたは複数のタイルについてのビデオデータに対して、クライアントデバイス４０および／またはサーバデバイス６０を許可する。例えば、クライアントデバイス４０は、タイル２３４Ａ〜２３４Ｄが１つまたは複数の最も関心のある領域を含むことを、１つまたは複数の最も関心のある領域を表すデータが示すときに、２３４Ａ〜２３４Ｄについてのビデオデータを含むビデオファイルを受信する前にタイル２３４Ａ〜２３４Ｄを要求しうる。ＦＯＶが１つまたは複数の最も関心のある領域中に含まれていないイメージの領域を含む例では、ユーザのＦＯＶを受信すると、クライアントデバイス４０は、ユーザのＦＯＶを満たすためにさらなるタイル（例えば、２３６Ａ〜２３６Ｄ、２３８Ａ〜２３８Ｄ）を要求しうる。このように、１つまたは複数の最も関心のある領域は、１つまたは複数の最も関心のある領域についてのビデオデータがプリフェッチされることを許可することを（例えば、イメージについてのビデオデータを含むビデオファイルを受信するより前に）要求されえ、それにより、仮想現実ビデオのようなビデオの再生を改善する。

[0187]図５は、この開示中に説明される１つまたは複数の技法にしたがってビデオデータについての情報を決定するための実例的なアプローチを例示するフローチャートである。図５の方法は、図１のクライアントデバイス４０およびサーバデバイス６０に関して説明される。しかしながら、他のデバイスがこれらの技法を遂行するように構成されうることが理解されるべきである。

[0188]初めに、図５中には示されていないが、クライアントデバイス４０は、イメージについての最も関心のある領域データを要求しうる。例えば、クライアントデバイス４０は、メディアプレゼンテーション記述（ＭＰＤ）、ＳＥＩメッセージ、またはイメージに対応する上述された他のタイプのデータのうちの任意のものを要求しうる。この要求に応答して、サーバデバイス６０は、イメージの１つまたは複数の最も関心のある領域を表すデータを送りうる（３００）。１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれうる。例えば、サーバデバイス６０は、最も関心のある領域が静的であるときに、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むＳＥＩメッセージ（例えば、図３のＳＥＩメッセージ１７８）を送りうる。いくつかの例では、サーバデバイス６０は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むファイルフォーマットヘッダ情報（例えば、図３のＳＴＢＬ１７６、図３のＴＲＡＫボックス１５８、図３のＳＩＤＸボックス１６２、等）を送る。いくつかの例では、サーバデバイス６０は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むＭＰＤ（例えば、図２のＭＰＤ１２２）を送る。

[0189]クライアントデバイス４０は、１つまたは複数の最も関心のある領域を表すデータからイメージの１つまたは複数の最も関心のある領域を決定しうる（３０２）。例えば、クライアントデバイス４０は、１つまたは複数の最も関心のある領域の各１つについて、１つまたは複数の最も関心のある領域を表すデータを使用して、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表すシンタックス要素についての値を決定しうる。いくつかの例では、クライアントデバイス４０は、１つまたは複数の最も関心のある領域のうちの各１つについて、１つまたは複数の最も関心のある領域を示す識別子（例えば、図３のタイル識別子１７２、図３のグループ識別子１７４、図３のトラック識別子１６０、等）を決定しうる。

[0190]クライアントデバイス４０は、１つまたは複数の最も関心のある領域についてのビデオデータを求める要求を出力しうる（３０４）。例えば、クライアントデバイス４０は、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定するビデオデータを求める要求を生成し、要求を出力しうる。この例では、クライアントデバイス４０は、ビデオ復号器を包含するエンティティでありうる。他の例では、しかしながら、１つまたは複数の最も関心のある領域を指定するビデオデータを求める要求を生成し、要求を出力するデバイスは、コンテンツ配信ネットワーク（ＣＤＮ）ノードのようなネットワーク要素でありうる。サーバデバイス６０は、１つまたは複数の最も関心のある領域についてのビデオデータを求める要求を受信し（３０６）、１つまたは複数の要求された領域についてのビデオデータを送りうる（３０８）。クライアントデバイス４０は、１つまたは複数の要求された領域についてのビデオデータを受信しうる（３１０）。

[0191]クライアントデバイス４０は、イメージの１つまたは複数の他の領域についてのビデオデータを求める要求を出力しうる（３１２）。例えば、クライアントデバイス４０は、１つまたは複数の最も関心のある領域が図４のイメージ２３８Ａ〜Ｄを含むとき、およびユーザのユーザのＦＯＶが図４のイメージ２３８Ａ〜Ｄと２３４Ｃ〜Ｄとを含むとき、図４のイメージ２３４Ｃ〜Ｄについてのビデオデータを要求しうる。

[0192]サーバデバイス６０は、イメージの１つまたは複数の他の領域についてのビデオデータを求める要求を受信し（３１４）、１つまたは複数の他の要求された領域についてのビデオデータについてのビデオデータを送りうる（３１６）。クライアントデバイス４０は、１つまたは複数の他の要求された領域についてのビデオデータを受信しうる（３１８）。クライアントデバイス４０は、ユーザのＦＯＶを決定し（３２０）、ユーザのＦＯＶ中に含まれた領域についてのデータを出力しうる（３２２）。例えば、クライアントデバイス４０は、ユーザのＦＯＶが図４のイメージ２３８Ａ〜Ｄと２３４Ｃ〜Ｄとを含むと決定し、高いおよび低い品質のビデオデータを使用して表示するために図４のイメージ２３８Ａ〜Ｄと２３４Ｃ〜Ｄとを出力しうる。

[0193]このように、図５の方法は、デバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、プロセッサが、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定する要求を生成することと、プロセッサが、サーバデバイスに要求を出力することとを含む方法の例を表している。

[0194]同様に、図５の方法はまた、ソースデバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備え、プロセッサが、１つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれることを含む方法の例を表している。

[0195]図６は、この開示中に説明される１つまたは複数の技法にしたがってビデオデータについての情報をシグナリングするための実例的なアプローチを例示するフローチャートである。図６の方法は、図１のクライアントデバイス４０およびサーバデバイス６０に関して説明される。しかしながら、他のデバイスがこれらの技法を遂行するように構成されうることが理解されるべきである。

[0196]初めに、図６中には示されていないが、クライアントデバイス４０は、イメージについての最も関心のある領域データを要求しうる。例えば、クライアントデバイス４０は、メディアプレゼンテーション記述（ＭＰＤ）、ＳＥＩメッセージ、またはイメージに対応する上述された他のタイプのデータのうちの任意のものを要求しうる。この要求に応答して、サーバデバイス６０は、イメージの１つまたは複数の最も関心のある領域を決定しうる（３３０）。例えば、サーバデバイス６０は、１つまたは複数の最も関心のある領域のディレクターまたはプロデューサーによる選択のインジケーションを受信しうるか、あるいはサーバデバイス６０（または別のデバイス）は、ユーザ統計から１つまたは複数の最も関心のある領域を導出しうる。いずれのケースでも、サーバデバイス６０は、１つまたは複数の最も関心のある領域を表すデータを生成しうる（３３２）。１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれうる。例えば、サーバデバイス６０は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むＳＥＩメッセージ（例えば、図３のＳＥＩメッセージ１７８）を生成する。いくつかの例では、サーバデバイス６０は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むファイルフォーマットヘッダ情報（例えば、図３のＳＴＢＬ１７６、図３のＴＲＡＫボックス１５８、図３のＳＩＤＸボックス１６２、等）を生成する。いくつかの例では、サーバデバイス６０は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むＭＰＤ（例えば、図２のＭＰＤ１２２）を生成する。いずれのケースでも、サーバデバイス６０は、１つまたは複数の最も関心のある領域を表すデータを送り（３３４）、クライアントデバイス４０は、１つまたは複数の最も関心のある領域を表すデータを受信しうる（３３６）。

[0197]１つまたは複数の最も関心のある領域を表すデータを受信することに応答して、クライアントデバイス４０は、イメージの１つまたは複数の最も関心のある領域についてのビデオデータを求める要求を出力しうる（３３８）。例えば、クライアントデバイス４０は、１つまたは複数の最も関心のある領域を指定する要求を出力しうる。いくつかの例では、しかしながら、１つまたは複数の最も関心のある領域を指定する要求を出力するデバイスは、コンテンツ配信ネットワーク（ＣＤＮ）ノードのようなネットワーク要素でありうる。サーバデバイス６０は、イメージの１つまたは複数の最も関心のある領域についてのビデオデータを求める要求を受信し（３４０）、１つまたは複数の要求された領域についてのビデオデータを送りうる（３４２）。クライアントデバイス４０は、１つまたは複数の要求された領域についてのビデオデータを受信しうる（３４４）。

[0198]クライアントデバイス４０は、イメージの１つまたは複数の他の領域についてのビデオデータを求める要求を出力しうる（３４６）。サーバデバイス６０は、イメージの１つまたは複数の他の領域についてのビデオデータまたは要求を受信しうる（３４８）。イメージの１つまたは複数の他の領域についてのビデオデータを求める要求を受信することに応答して、サーバデバイス６０は、１つまたは複数の他の要求された領域についてのビデオデータを送りうる（３５０）。クライアントデバイス４０は、１つまたは複数の他の要求された領域についてのビデオデータを受信しうる（３５２）。図６の例には示されていないが、クライアントデバイス４０はその後、例えば、ユーザの視野に基づいて、例えば、図５に関して上述されたように、ユーザに受信されたビデオデータの少なくとも一部を提示することへと進みうる。

[0199]このように、図６の方法は、デバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、プロセッサが、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定する要求を生成することと、プロセッサが、サーバデバイスに要求を出力することとを含む方法の例を表している。

[0200]同様に、図６の方法はまた、ソースデバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備え、プロセッサが、１つまたは複数の最も関心のある領域を表すデータを生成することと、ここにおいて、１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれ、プロセッサが、１つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力することとを含む方法の例を表している。

[0201]図７は、この開示中に説明される１つまたは複数の技法にしたがってビデオデータをプリフェッチするための実例的なアプローチを例示するフローチャートである。図７の方法は、図１のクライアントデバイス４０およびサーバデバイス６０に関して説明される。しかしながら、他のデバイスがこれらの技法を遂行するように構成されうることが理解されるべきである。図７の例では、サーバデバイス６０は、初めにオリジンサーバからデータを検索し、およびそのデータを一時的に記憶するＣＤＮサーバとして構成されうる。図７の例は、クライアントデバイス４０およびサーバデバイス６０のうちのいずれかまたは両方が１つまたは複数の最も関心のある領域を表すデータを使用しうることを実証していることが理解されるべきである。

[0202]初めに、図７中には示されていないが、クライアントデバイス４０は、イメージの１つまたは複数の最も関心のある領域を表すデータを要求しうる。例えば、クライアントデバイス４０は、メディアプレゼンテーション記述（ＭＰＤ）、ＳＥＩメッセージ、またはイメージに対応する上述された他のタイプのデータのうちの任意のものを要求しうる。この要求に応答して、サーバデバイス６０は、オリジンデバイスのようなアップストリームデバイスに１つまたは複数の最も関心のある領域を表すデータを求める要求を送り（または転送し）、イメージの１つまたは複数の最も関心のある領域を表すデータを受信しうる（３６０）。例えば、サーバデバイス６０は、アップストリームサーバ（例えば、エッジサーバ）、コンテンツ準備デバイス２０、または別のデバイスからイメージの１つまたは複数の最も関心のある領域を表すデータを受信しうる。

[0203]１つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれうる。例えば、サーバデバイス６０は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むＳＥＩメッセージを受信する。いくつかの例では、サーバデバイス６０は、１つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むファイルフォーマットヘッダ情報（例えば、図３のＳＴＢＬ１７６、図３のＴＲＡＫボックス１５８、図３のＳＩＤＸボックス１６２、等）を受信する。いずれのケースでも、サーバデバイス６０は、１つまたは複数の関心のある領域についてのビデオデータをプリフェッチしうる（３６２）。

[0204]１つまたは複数の関心のある領域についてのビデオデータをプリフェッチすると、サーバデバイス６０は、１つまたは複数の最も関心のある領域についてのプリフェッチされたビデオデータを記憶しうる（３６４）。サーバデバイス６０がビデオデータを記憶（例えば、キャッシュ）するように構成されたエッジサーバである例では、サーバデバイス６０は、１つまたは複数の最も関心のある領域についてのビデオデータを記憶しうる。いくつかの例では、サーバデバイス６０は、イメージの１つまたは複数の最も関心のある領域を表すデータに基づいて、１つまたは複数の最も関心のある領域についてのビデオデータのための記憶の持続時間を決定しうる。例えば、サーバデバイス６０は、サーバデバイス６０が１つまたは複数の最も関心のある領域についてのビデオデータを決定するときに、１つまたは複数の最も関心のある領域についてのビデオデータをより高くランク付けしえ、それにより、１つまたは複数の最も関心のある領域についてのビデオデータは、長期記憶のために保持され、その一方で１つまたは複数の最も関心のある領域についてのビデオデータと同様の時間において検索された（例えば、他の領域についての）他のビデオデータは、取り除かれる。

[0205]図７中には示されていないが、サーバデバイス６０は、クライアントデバイス４０にイメージの１つまたは複数の最も関心のある領域を表すデータを送りうる。例えば、サーバデバイス６０は、メディアプレゼンテーション記述（ＭＰＤ）、ＳＥＩメッセージ、またはイメージに対応する上述された他のタイプのデータのうちの任意のものを送りうる。

[0206]クライアントデバイス４０へのイメージの１つまたは複数の最も関心のある領域を表すデータを受信することに応答して、クライアントデバイス４０は、イメージの１つまたは複数の最も関心のある領域についてのビデオデータを求める要求を出力しうる（３６６）。この例では、クライアントデバイス４０は、ビデオ復号器を包含するエンティティでありうる。他の例では、しかしながら、イメージの１つまたは複数の最も関心のある領域についてのビデオデータを求める要求を出力するデバイスは、コンテンツ配信ネットワーク（ＣＤＮ）ノードのようなネットワーク要素でありうる。サーバデバイス６０は、イメージの１つまたは複数の最も関心のある領域についてのビデオデータを求める要求を受信し（３６８）、１つまたは複数の要求された領域についてのビデオデータを送りうる（３７０）。クライアントデバイス４０は、１つまたは複数の要求された領域についてのビデオデータを受信しうる（３７２）。

[0207]クライアントデバイス４０は、イメージの１つまたは複数の他の領域についてのビデオデータを求める要求を出力しうる（３７４）。サーバデバイス６０は、イメージの１つまたは複数の他の領域についてのビデオデータを求める要求を受信しうる（３７６）。イメージの１つまたは複数の他の領域についてのビデオデータを求める要求を受信することに応答して、サーバデバイス６０は、イメージの１つまたは複数の他の領域についてのビデオデータを検索しうる（３７８）。例えば、サーバデバイス６０は、オリジンデバイスのようなアップストリームデバイスにビデオデータを求める要求を送りうる（または転送しうる）。中間ネットワークデバイスが既に、要求されたビデオデータをキャッシュしている事例では、中間ネットワークデバイスは、キャッシュされたビデオデータを使用して要求に応答しうる。いくつかの事例では、オリジンサーバは、要求されたビデオデータを送ることによって要求に応答しうる。

[0208]イメージの１つまたは複数の他の領域についてのビデオデータを検索すると、サーバデバイス６０は、１つまたは複数の他の要求された領域についてのビデオデータを送りうる（３８０）。クライアントデバイス４０は、１つまたは複数の他の要求された領域についてのビデオデータを受信しうる（３８２）。図７の例には示されていないが、クライアントデバイス４０はその後、例えば、ユーザの視野に基づいて、例えば、図５に関して上述されたように、ユーザに受信されたビデオデータの少なくとも一部を提示することへと進みうる。

[0209]このように、図７の方法は、デバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、プロセッサが、１つまたは複数の最も関心のある領域を表すデータを使用して１つまたは複数の最も関心のある領域を指定する要求を生成することと、プロセッサが、サーバデバイスに要求を出力することとを含む方法の例を表している。

[0210]１つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせにおいてインプリメントされうる。ソフトウェアにおいてインプリメントされる場合、それら機能は、コンピュータ可読媒体上で１つまたは複数の命令またはコードとして記憶あるいは送信され、ハードウェアベースの処理ユニットによって実行されうる。コンピュータ可読媒体は、例えば、通信プロトコルにしたがって、コンピュータプログラムのある場所から別の場所への転送を容易にする任意の媒体を含む通信媒体、またはデータ記憶媒体のような有形媒体に対応するコンピュータ可読記憶媒体を含みうる。このように、コンピュータ可読媒体は概して、（１）非一時的である有形コンピュータ可読記憶媒体、または（２）信号または搬送波のような通信媒体に対応しうる。データ記憶媒体は、この開示中に説明された技法のインプリメンテーションのための命令、コード、および／またはデータ構造を検索するために、１つまたは複数のコンピュータあるいは１つまたは複数のプロセッサによってアクセスされることができる任意の利用可能な媒体でありうる。コンピュータプログラム製品は、コンピュータ可読媒体を含みうる。

[0211]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭまたは他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶デバイス、フラッシュメモリ、あるいはデータ構造もしくは命令の形態で所望されるプログラムコードを記憶するために使用されることができ、且つコンピュータによってアクセスされることができる任意の他の媒体を備えることができる。また、任意の接続は、厳密にはコンピュータ可読媒体と称される。例えば、命令が、ウェブサイト、サーバ、あるいは同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線（ＤＳＬ）、または赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用する他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義中に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、代わりに非一時的、有形記憶媒体を対象にすることが理解されるべきである。ディスク（disk）およびディスク（disc）は、ここに使用される場合、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）、およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ここで、ディスク（disk）は通常、磁気的にデータを再生するが、その一方でディスク（disc）は、レーザーを用いて光学的にデータを再生する。上記の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

[0212]命令は、１つまたは複数のデジタルシグナルプロセッサ(ＤＳＰ)、汎用マイクロプロセッサ、特定用途向け集積回路(ＡＳＩＣ)、フィールドプログラマブルロジックアレイ(ＦＰＧＡ)、あるいは他の同等な集積またはディスクリートロジック回路のような１つまたは複数のプロセッサによって実行されうる。それ故に、ここに使用されるような「プロセッサ」という用語は、前述の構造またはここに説明された技法のインプリメンテーションに適したあらゆる他の構造のうちの任意のものを指しうる。加えて、いくつかの態様では、ここに説明された機能は、符号化および復号のために構成された専用ハードウェアおよび／またはソフトウェアモジュール内で提供されうるか、あるいは組み合わされたコーデック中に組み込まれうる。また、それら技法は、１つまたは複数の回路またはロジック要素において完全にインプリメントされることができる。

[0213]この開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（例えば、チップセット）を含む、幅広い多様なデバイスまたは装置においてインプリメントされうる。様々なコンポーネント、モジュール、またはユニットは、開示された技法を遂行するように構成されたデバイスの機能的な態様を強調するためにこの開示中に説明されているが、必ずしも異なるハードウェアユニットによる実現を必要とはしない。むしろ、上述されたように、様々なユニットは、コーデックハードウェアユニット中で組み合わされうるか、あるいは、適したソフトウェアおよび／またはファームウェアと併せて、上述されたような１つまたは複数のプロセッサを含む、相互動作するハードウェアユニットの集合によって提供されうる。

[0214]様々な例が説明されてきた。これらおよび他の例は、次の特許請求の範囲内にある。

[0214]様々な例が説明されてきた。これらおよび他の例は、次の特許請求の範囲内にある。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
ビデオについての情報を決定する方法であって、前記方法は、
デバイスのプロセッサが、ここで、前記プロセッサは、回路中にインプリメントされ、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記１つまたは複数の最も関心のある領域を決定することと、
前記プロセッサが、前記１つまたは複数の最も関心のある領域を表す前記データを使用して前記１つまたは複数の最も関心のある領域を指定する要求を生成することと、
前記プロセッサが、サーバデバイスに前記要求を出力することと
を備える、方法。
［Ｃ２］
前記プロセッサが、ユーザの視野（ＦＯＶ）を使用して前記イメージの１つまたは複数の他の領域を指定する要求を生成することと、
前記プロセッサが、前記サーバデバイスに前記イメージの前記１つまたは複数の他の領域を指定する前記要求を出力することと
をさらに備える、Ｃ１に記載の方法。
［Ｃ３］
前記１つまたは複数の最も関心のある領域を決定することは、補足エンハンスメント情報（ＳＥＩ）メッセージから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ１に記載の方法。
［Ｃ４］
前記１つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるサンプルグループボックスから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ１に記載の方法。
［Ｃ５］
前記１つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるサンプルテーブルボックスまたはトラックフラグメントから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ１に記載の方法。
［Ｃ６］
前記１つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるセグメントインデックスボックスから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ１に記載の方法。
［Ｃ７］
前記１つまたは複数の最も関心のある領域を決定することは、ＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ）メディアプレゼンテーション記述（ＭＰＤ）から最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ１に記載の方法。
［Ｃ８］
前記１つまたは複数の最も関心のある領域を決定することは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を決定することを備える、Ｃ１に記載の方法。
［Ｃ９］
前記複数のシンタックス要素についての前記複数の値を決定することは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第３のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第４のシンタックス要素についての値を抽出することと
を備える、Ｃ８に記載の方法。
［Ｃ１０］
前記１つまたは複数の最も関心のある領域を決定することは、前記イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を抽出することを備え、前記１つまたは複数のタイルは、前記１つまたは複数の最も関心のある領域と空間的にコロケートされる、Ｃ１に記載の方法。
［Ｃ１１］
前記１つまたは複数の最も関心のある領域を決定することは、前記イメージの前記複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を抽出することを備える、Ｃ１に記載の方法。
［Ｃ１２］
前記１つまたは複数の最も関心のある領域を決定することは、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を抽出することを備え、前記１つまたは複数のトラックの各トラックは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、Ｃ１に記載の方法。
［Ｃ１３］
前記１つまたは複数の最も関心のある領域を決定することは、前記イメージの１つまたは複数のリプレゼンテーションを表す１つまたは複数のリプレゼンテーション識別子を抽出することを備え、前記１つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、Ｃ１に記載の方法。
［Ｃ１４］
前記１つまたは複数の最も関心のある領域を決定することは、
１つまたは複数のベースタイルトラックを表す１つまたは複数のベースタイルトラック識別子を抽出することと、
前記１つまたは複数のベースタイルトラック識別子を使用して前記１つまたは複数のベースタイルトラックから最も関心のある領域データを抽出することと
を備える、Ｃ１に記載の方法。
［Ｃ１５］
前記１つまたは複数の最も関心のある領域を決定することは、イメージ順序カウントを表す１つまたは複数のシンタックス要素を決定することを備え、前記イメージ順序カウントは、前記１つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、Ｃ１に記載の方法。
［Ｃ１６］
ビデオデータについての情報を決定するためのデバイスであって、前記デバイスは、
１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記１つまたは複数の最も関心のある領域を決定することと、
前記１つまたは複数の最も関心のある領域を表す前記データを使用して前記１つまたは複数の最も関心のある領域を指定する要求を生成することと、
サーバデバイスに前記要求を出力することと
を行うように構成された、回路中にインプリメントされた１つまたは複数のプロセッサを備える、デバイス。
［Ｃ１７］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、補足エンハンスメント情報（ＳＥＩ）メッセージから最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ１６に記載のデバイス。
［Ｃ１８］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、ファイルフォーマットヘッダ情報中に含まれるサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスから最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ１６に記載のデバイス。
［Ｃ１９］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、ＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ）メディアプレゼンテーション記述（ＭＰＤ）から最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ１６に記載のデバイス。
［Ｃ２０］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を決定するようにさらに構成される、Ｃ１６に記載のデバイス。
［Ｃ２１］
前記複数のシンタックス要素についての前記複数の値を決定するために、前記１つまたは複数のプロセッサは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第３のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第４のシンタックス要素についての値を抽出することと
を行うようにさらに構成される、Ｃ２０に記載のデバイス。
［Ｃ２２］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、前記イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を抽出するようにさらに構成され、前記１つまたは複数のタイルは、前記１つまたは複数の最も関心のある領域と空間的にコロケートされる、Ｃ１６に記載のデバイス。
［Ｃ２３］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、前記イメージの前記複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を抽出するようにさらに構成される、Ｃ１６に記載のデバイス。
［Ｃ２４］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を抽出するようにさらに構成され、前記１つまたは複数のトラックの各トラックは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、Ｃ１６に記載のデバイス。
［Ｃ２５］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、前記イメージの１つまたは複数のリプレゼンテーションを表す１つまたは複数のリプレゼンテーション識別子を抽出するようにさらに構成され、前記１つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、Ｃ１６に記載のデバイス。
［Ｃ２６］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、
１つまたは複数のベースタイルトラックを表す１つまたは複数のベースタイルトラック識別子を抽出することと、
前記１つまたは複数のベースタイルトラック識別子を使用して前記１つまたは複数のベースタイルトラックから最も関心のある領域データを抽出することと
を行うようにさらに構成される、Ｃ１６に記載のデバイス。
［Ｃ２７］
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、イメージ順序カウントを表す１つまたは複数のシンタックス要素を決定するようにさらに構成され、前記イメージ順序カウントは、前記１つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、Ｃ１６に記載のデバイス。
［Ｃ２８］
ビデオデータについての情報を決定するためのデバイスであって、前記デバイスは、
１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記１つまたは複数の最も関心のある領域を決定するための手段と、
前記１つまたは複数の最も関心のある領域を表す前記データを使用して前記１つまたは複数の最も関心のある領域を指定する要求を生成する手段と、
サーバデバイスに前記要求を出力するための手段と
を備える、デバイス。
［Ｃ２９］
実行されると、プロセッサに、
１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記１つまたは複数の最も関心のある領域を決定することと、
前記１つまたは複数の最も関心のある領域を表す前記データを使用して前記１つまたは複数の最も関心のある領域を指定する要求を生成することと、
サーバデバイスに前記要求を出力することと
を行わせる命令を記憶した、コンピュータ可読記憶媒体。
［Ｃ３０］
ビデオデータについての情報をシグナリングする方法であって、前記方法は、
ソースデバイスのプロセッサが、ここで、前記プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、前記１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える、
前記プロセッサが、前記１つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記１つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記プロセッサが、前記１つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
を備える、方法。
［Ｃ３１］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、最も関心のある領域データを含む補足エンハンスメント情報（ＳＥＩ）メッセージを生成することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ３０に記載の方法。
［Ｃ３２］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、ファイルフォーマットヘッダ情報中で、最も関心のある領域データを含むサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスを生成することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ３０に記載の方法。
［Ｃ３３］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、最も関心のある領域データを含むＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ）メディアプレゼンテーション記述（ＭＰＤ）を生成することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ３０に記載の方法。
［Ｃ３４］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を生成する、Ｃ３０に記載の方法。
［Ｃ３５］
前記複数のシンタックス要素についての前記複数の値を出力することは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第３のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第４のシンタックス要素についての値を生成することと
を備える、Ｃ３４に記載の方法。
［Ｃ３６］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を生成することを備え、前記１つまたは複数のタイルは、前記１つまたは複数の最も関心のある領域と空間的にコロケートされる、Ｃ３０に記載の方法。
［Ｃ３７］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの前記複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を生成することを備える、Ｃ３０に記載の方法。
［Ｃ３８］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を生成することを備え、前記１つまたは複数のトラックの各トラックは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、Ｃ３０に記載の方法。
［Ｃ３９］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの１つまたは複数のリプレゼンテーションを表す１つまたは複数のリプレゼンテーション識別子を生成することを備え、前記１つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、Ｃ３０に記載の方法。
［Ｃ４０］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、
１つまたは複数のベースタイルトラックにおいて最も関心のある領域データを生成することと、
前記１つまたは複数の最も関心のある領域を表す前記データにおいて、前記１つまたは複数のベースタイルトラックを表す１つまたは複数のベースタイルトラック識別子を生成することと
を備える、Ｃ３０に記載の方法。
［Ｃ４１］
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、イメージ順序カウントを表す１つまたは複数のシンタックス要素を生成することを備え、前記イメージ順序カウントは、前記１つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、Ｃ３０に記載の方法。
［Ｃ４２］
前記１つまたは複数の最も関心のある領域を決定することは、ディレクターの意図またはユーザ統計のうちの１つまたは複数を使用して前記１つまたは複数の最も関心のある領域を決定することを備える、Ｃ３０に記載の方法。
［Ｃ４３］
ビデオデータについての情報をシグナリングするためのデバイスであって、前記デバイスは、
ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、前記１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える、
前記１つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記１つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記１つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
を行うように構成された、回路中にインプリメントされた１つまたは複数のプロセッサを備える、デバイス。
［Ｃ４４］
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、最も関心のある領域データを含む補足エンハンスメント情報（ＳＥＩ）メッセージを生成するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ４３に記載のデバイス。
［Ｃ４５］
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、ファイルフォーマットヘッダ情報中で、最も関心のある領域データを含むサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスを生成するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ４３に記載のデバイス。
［Ｃ４６］
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、最も関心のある領域データを含むＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ）メディアプレゼンテーション記述（ＭＰＤ）を生成するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、Ｃ４３に記載のデバイス。
［Ｃ４７］
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を生成するようにさらに構成される、Ｃ４３に記載のデバイス。
［Ｃ４８］
前記複数のシンタックス要素についての前記複数の値を出力するために、前記１つまたは複数のプロセッサは、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第３のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第４のシンタックス要素についての値を生成することと
を行うようにさらに構成される、Ｃ４７に記載のデバイス。
［Ｃ４９］
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、前記イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を生成するようにさらに構成され、前記１つまたは複数のタイルは、前記１つまたは複数の最も関心のある領域と空間的にコロケートされる、Ｃ４３に記載のデバイス。
［Ｃ５０］
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、前記イメージの前記複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を生成するようにさらに構成される、Ｃ４３に記載のデバイス。
［Ｃ５１］
前記１つまたは複数の最も関心のある領域を表す前記データを出力定するために、前記１つまたは複数のプロセッサは、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を生成するようにさらに構成され、前記１つまたは複数のトラックの各トラックは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、Ｃ４３に記載のデバイス。
［Ｃ５２］
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、前記イメージの１つまたは複数のリプレゼンテーションを表す１つまたは複数のリプレゼンテーション識別子を生成するようにさらに構成され、前記１つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、Ｃ４３に記載のデバイス。
［Ｃ５３］
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、
１つまたは複数のベースタイルトラックにおいて最も関心のある領域データを生成することと、
前記１つまたは複数の最も関心のある領域を表す前記データにおいて、前記１つまたは複数のベースタイルトラックを表す１つまたは複数のベースタイルトラック識別子を生成することと
を行うようにさらに構成される、Ｃ４３に記載のデバイス。
［Ｃ５４］
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、イメージ順序カウントを表す１つまたは複数のシンタックス要素を生成するようにさらに構成され、前記イメージ順序カウントは、前記１つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、Ｃ４３に記載のデバイス。
［Ｃ５５］
ビデオデータについての情報をシグナリングするためのデバイスであって、前記デバイスは、
ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定するための手段と、前記１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える、
前記１つまたは複数の最も関心のある領域を表すデータを出力するための手段と、ここにおいて、前記１つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記１つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力するための手段と
を備える、デバイス。
［Ｃ５６］
実行されると、プロセッサに、
ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、前記１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える、
前記１つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記１つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記１つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
を行わせる命令を記憶した、コンピュータ可読記憶媒体。

Claims

ビデオについての情報を決定する方法であって、前記方法は、
デバイスのプロセッサが、ここで、前記プロセッサは、回路中にインプリメントされ、１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記１つまたは複数の最も関心のある領域を決定することと、
前記プロセッサが、前記１つまたは複数の最も関心のある領域を表す前記データを使用して前記１つまたは複数の最も関心のある領域を指定する要求を生成することと、
前記プロセッサが、サーバデバイスに前記要求を出力することと
を備える、方法。
前記プロセッサが、ユーザの視野（ＦＯＶ）を使用して前記イメージの１つまたは複数の他の領域を指定する要求を生成することと、
前記プロセッサが、前記サーバデバイスに前記イメージの前記１つまたは複数の他の領域を指定する前記要求を出力することと
をさらに備える、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、補足エンハンスメント情報（ＳＥＩ）メッセージから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるサンプルグループボックスから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるサンプルテーブルボックスまたはトラックフラグメントから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるセグメントインデックスボックスから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、ＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ）メディアプレゼンテーション記述（ＭＰＤ）から最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を決定することを備える、請求項１に記載の方法。
前記複数のシンタックス要素についての前記複数の値を決定することは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第３のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第４のシンタックス要素についての値を抽出することと
を備える、請求項８に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、前記イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を抽出することを備え、前記１つまたは複数のタイルは、前記１つまたは複数の最も関心のある領域と空間的にコロケートされる、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、前記イメージの前記複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を抽出することを備える、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を抽出することを備え、前記１つまたは複数のトラックの各トラックは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、前記イメージの１つまたは複数のリプレゼンテーションを表す１つまたは複数のリプレゼンテーション識別子を抽出することを備え、前記１つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、
１つまたは複数のベースタイルトラックを表す１つまたは複数のベースタイルトラック識別子を抽出することと、
前記１つまたは複数のベースタイルトラック識別子を使用して前記１つまたは複数のベースタイルトラックから最も関心のある領域データを抽出することと
を備える、請求項１に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、イメージ順序カウントを表す１つまたは複数のシンタックス要素を決定することを備え、前記イメージ順序カウントは、前記１つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、請求項１に記載の方法。
ビデオデータについての情報を決定するためのデバイスであって、前記デバイスは、
１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記１つまたは複数の最も関心のある領域を決定することと、
前記１つまたは複数の最も関心のある領域を表す前記データを使用して前記１つまたは複数の最も関心のある領域を指定する要求を生成することと、
サーバデバイスに前記要求を出力することと
を行うように構成された、回路中にインプリメントされた１つまたは複数のプロセッサを備える、デバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、補足エンハンスメント情報（ＳＥＩ）メッセージから最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項１６に記載のデバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、ファイルフォーマットヘッダ情報中に含まれるサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスから最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項１６に記載のデバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、ＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ）メディアプレゼンテーション記述（ＭＰＤ）から最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項１６に記載のデバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を決定するようにさらに構成される、請求項１６に記載のデバイス。
前記複数のシンタックス要素についての前記複数の値を決定するために、前記１つまたは複数のプロセッサは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第３のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第４のシンタックス要素についての値を抽出することと
を行うようにさらに構成される、請求項２０に記載のデバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、前記イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を抽出するようにさらに構成され、前記１つまたは複数のタイルは、前記１つまたは複数の最も関心のある領域と空間的にコロケートされる、請求項１６に記載のデバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、前記イメージの前記複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を抽出するようにさらに構成される、請求項１６に記載のデバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を抽出するようにさらに構成され、前記１つまたは複数のトラックの各トラックは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、請求項１６に記載のデバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、前記イメージの１つまたは複数のリプレゼンテーションを表す１つまたは複数のリプレゼンテーション識別子を抽出するようにさらに構成され、前記１つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、請求項１６に記載のデバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、
１つまたは複数のベースタイルトラックを表す１つまたは複数のベースタイルトラック識別子を抽出することと、
前記１つまたは複数のベースタイルトラック識別子を使用して前記１つまたは複数のベースタイルトラックから最も関心のある領域データを抽出することと
を行うようにさらに構成される、請求項１６に記載のデバイス。
前記１つまたは複数の最も関心のある領域を決定するために、前記１つまたは複数のプロセッサは、イメージ順序カウントを表す１つまたは複数のシンタックス要素を決定するようにさらに構成され、前記イメージ順序カウントは、前記１つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、請求項１６に記載のデバイス。
ビデオデータについての情報を決定するためのデバイスであって、前記デバイスは、
１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記１つまたは複数の最も関心のある領域を決定するための手段と、
前記１つまたは複数の最も関心のある領域を表す前記データを使用して前記１つまたは複数の最も関心のある領域を指定する要求を生成する手段と、
サーバデバイスに前記要求を出力するための手段と
を備える、デバイス。
実行されると、プロセッサに、
１つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記１つまたは複数の最も関心のある領域を決定することと、
前記１つまたは複数の最も関心のある領域を表す前記データを使用して前記１つまたは複数の最も関心のある領域を指定する要求を生成することと、
サーバデバイスに前記要求を出力することと
を行わせる命令を記憶した、コンピュータ可読記憶媒体。
ビデオデータについての情報をシグナリングする方法であって、前記方法は、
ソースデバイスのプロセッサが、ここで、前記プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、前記１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える、
前記プロセッサが、前記１つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記１つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記プロセッサが、前記１つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
を備える、方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、最も関心のある領域データを含む補足エンハンスメント情報（ＳＥＩ）メッセージを生成することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項３０に記載の方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、ファイルフォーマットヘッダ情報中で、最も関心のある領域データを含むサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスを生成することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項３０に記載の方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、最も関心のある領域データを含むＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ）メディアプレゼンテーション記述（ＭＰＤ）を生成することを備え、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項３０に記載の方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を生成する、請求項３０に記載の方法。
前記複数のシンタックス要素についての前記複数の値を出力することは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第３のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第４のシンタックス要素についての値を生成することと
を備える、請求項３４に記載の方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を生成することを備え、前記１つまたは複数のタイルは、前記１つまたは複数の最も関心のある領域と空間的にコロケートされる、請求項３０に記載の方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの前記複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を生成することを備える、請求項３０に記載の方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を生成することを備え、前記１つまたは複数のトラックの各トラックは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、請求項３０に記載の方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの１つまたは複数のリプレゼンテーションを表す１つまたは複数のリプレゼンテーション識別子を生成することを備え、前記１つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、請求項３０に記載の方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、
１つまたは複数のベースタイルトラックにおいて最も関心のある領域データを生成することと、
前記１つまたは複数の最も関心のある領域を表す前記データにおいて、前記１つまたは複数のベースタイルトラックを表す１つまたは複数のベースタイルトラック識別子を生成することと
を備える、請求項３０に記載の方法。
前記１つまたは複数の最も関心のある領域を表す前記データを出力することは、イメージ順序カウントを表す１つまたは複数のシンタックス要素を生成することを備え、前記イメージ順序カウントは、前記１つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、請求項３０に記載の方法。
前記１つまたは複数の最も関心のある領域を決定することは、ディレクターの意図またはユーザ統計のうちの１つまたは複数を使用して前記１つまたは複数の最も関心のある領域を決定することを備える、請求項３０に記載の方法。
ビデオデータについての情報をシグナリングするためのデバイスであって、前記デバイスは、
ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、前記１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える、
前記１つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記１つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記１つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
を行うように構成された、回路中にインプリメントされた１つまたは複数のプロセッサを備える、デバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、最も関心のある領域データを含む補足エンハンスメント情報（ＳＥＩ）メッセージを生成するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項４３に記載のデバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、ファイルフォーマットヘッダ情報中で、最も関心のある領域データを含むサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスを生成するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項４３に記載のデバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、最も関心のある領域データを含むＨＴＴＰを通した動的適応型ストリーミング（ＤＡＳＨ）メディアプレゼンテーション記述（ＭＰＤ）を生成するようにさらに構成され、前記最も関心のある領域データは、前記１つまたは複数の最も関心のある領域を表す、請求項４３に記載のデバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、前記１つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を生成するようにさらに構成される、請求項４３に記載のデバイス。
前記複数のシンタックス要素についての前記複数の値を出力するために、前記１つまたは複数のプロセッサは、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第１のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第２のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第３のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第４のシンタックス要素についての値を生成することと
を行うようにさらに構成される、請求項４７に記載のデバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、前記イメージの１つまたは複数のタイルを表す１つまたは複数のタイル識別子を生成するようにさらに構成され、前記１つまたは複数のタイルは、前記１つまたは複数の最も関心のある領域と空間的にコロケートされる、請求項４３に記載のデバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、前記イメージの前記複数の領域のうちの１つまたは複数の領域を表す１つまたは複数のグループ識別子を生成するようにさらに構成される、請求項４３に記載のデバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力定するために、前記１つまたは複数のプロセッサは、１つまたは複数のトラックを表す１つまたは複数のトラック識別子を生成するようにさらに構成され、前記１つまたは複数のトラックの各トラックは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、請求項４３に記載のデバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、前記イメージの１つまたは複数のリプレゼンテーションを表す１つまたは複数のリプレゼンテーション識別子を生成するようにさらに構成され、前記１つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記１つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ（ＶＣＬ）データを含む、請求項４３に記載のデバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、
１つまたは複数のベースタイルトラックにおいて最も関心のある領域データを生成することと、
前記１つまたは複数の最も関心のある領域を表す前記データにおいて、前記１つまたは複数のベースタイルトラックを表す１つまたは複数のベースタイルトラック識別子を生成することと
を行うようにさらに構成される、請求項４３に記載のデバイス。
前記１つまたは複数の最も関心のある領域を表す前記データを出力するために、前記１つまたは複数のプロセッサは、イメージ順序カウントを表す１つまたは複数のシンタックス要素を生成するようにさらに構成され、前記イメージ順序カウントは、前記１つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、請求項４３に記載のデバイス。
ビデオデータについての情報をシグナリングするためのデバイスであって、前記デバイスは、
ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定するための手段と、前記１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える、
前記１つまたは複数の最も関心のある領域を表すデータを出力するための手段と、ここにおいて、前記１つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記１つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力するための手段と
を備える、デバイス。
実行されると、プロセッサに、
ビデオデータのイメージの複数の領域のうちの１つまたは複数の最も関心のある領域を決定することと、前記１つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い１つまたは複数の領域を備える、
前記１つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記１つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記１つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
を行わせる命令を記憶した、コンピュータ可読記憶媒体。