JP2019519981A

JP2019519981A - 画像中の最上位関心領域

Info

Publication number: JP2019519981A
Application number: JP2018560070A
Authority: JP
Inventors: イェ−クイ・ワン; フヌ・ヘンドリー
Original assignee: クアルコム，インコーポレイテッド
Priority date: 2016-05-19
Filing date: 2017-05-09
Publication date: 2019-07-11
Also published as: EP3459247B1; KR20190009290A; US10582201B2; BR112018073451A2; CN109076229B; CA3020511A1; TW201810998A; CN109076229A; WO2017200804A1; EP3459247A1; ES2896687T3; KR102252238B1; US20170339415A1

Abstract

ビデオデータに対する情報を決定するためのデバイスは、ビデオデータの画像中の複数の領域のうちの1つまたは複数の最上位関心領域を、1つまたは複数の最上位関心領域を表すデータに基づいて、決定するように構成された回路内に実装された1つまたは複数のプロセッサを含む。1つまたは複数の最上位関心領域を表すデータは、ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある。プロセッサは、画像の1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を出力し、比較的高品質のビデオデータの要求を出力した後、画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を出力する。

Description

本出願は、その全体が参照により本明細書に組み込まれている、2016年5月19日に出願された米国仮出願第62/339,009号の利益を主張するものである。

本開示は、符号化ビデオデータの記憶および転送に関する。

デジタルビデオ機能は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末(PDA)、ラップトップコンピュータまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、セルラー電話または衛星無線電話、ビデオ会議デバイスなどを含む、幅広いデバイスに組み込むことができる。デジタルビデオデバイスは、デジタルビデオ情報をより効率的に送受信するために、MPEG-2、MPEG-4、ITU-T H.263またはITU-T H.264/MPEG-4、Part 10、アドバンストビデオコーディング(AVC)、ITU-T H.265(高効率ビデオコーディング(HEVC)とも呼ばれる)によって定められた規格、および、そのような規格の拡張に記載されているものなどの、ビデオ圧縮技法を実装する。

ビデオ圧縮技法は、空間的予測および/または時間的予測を実行し、ビデオシーケンスに固有の冗長性を低減または除去する。ブロックベースのビデオコーディングの場合、ビデオフレームまたはスライスがマクロブロックまたはコーディングツリーユニット(CTU)に区分され得る。本明細書の後半では、マクロブロックおよびCTUという2つの用語は互換的に使用される。各マクロブロックはさらに区分され得る。イントラコード化(I)フレームまたはスライスにおけるマクロブロックは、近接マクロブロックに関する空間的予測を使用して符号化される。インターコード化(PまたはB)フレームまたはスライスにおけるマクロブロックは、同じフレームまたはスライスにおける近接マクロブロックに関する空間的予測または他の参照フレームに関する時間的予測を使用し得る。

ビデオデータが符号化された後、ビデオデータは送信または記憶のためにパケット化されてもよい。ビデオデータは、AVCファイルフォーマットのような、国際標準化機構(ISO)によるメディアファイルのフォーマットおよびその拡張などの、種々の規格のいずれかに準拠するビデオファイルへと、組み立てられ得る。

ビデオデータが送信または記憶のためにパケット化された後、クライアントデバイスは、適正品質におけるパケット化されたビデオデータを要求し得る。たとえば、クライアントデバイスは、クライアントデバイスとパケット化されたビデオを送信するデジタルビデオデバイスとの間の帯域幅が高いときに比較的高品質におけるパケット化されたビデオデータを要求し、クライアントデバイスとパケット化されたビデオを送信するデジタルビデオデバイスとの間の帯域幅が低いときに比較的低品質におけるパケット化されたビデオデータを要求してもよい。

米国特許出願第15/195,439号

R. Fielding他による、RFC 2616、「Hypertext Transfer Protocol-HTTP/1.1」、Network Working Group、IETF、1999年6月「Advanced video coding for generic audiovisual services」、ITU-T勧告H.264、2010年3月

一般に、本開示は、ビデオデータの画像の1つまたは複数の最上位関心領域(most-interested region)を表すデータを含むビットストリームを生成するための技法を説明する。画像の1つまたは複数の最上位関心領域は、画像の他の領域と比較すると、画像のプレゼンテーション時間においてユーザに対してレンダリングされる可能性がより高い。デバイスは、1つまたは複数の最上位関心領域を使用して、1つまたは複数の最上位関心領域に対するビデオデータをプリフェッチしてもよい。たとえば、デバイスは、画像の他の領域に対するビデオデータより低いレイテンシにおいておよび/またはより高い品質において、1つまたは複数の最上位関心領域に対するビデオデータをフェッチしてもよく、ここでデバイスは、ビデオデコーダ、コンテンツ配信ネットワーク(CDN)ノードなどのネットワーク要素、または別のエンティティを含むエンティティであることを指す場合がある。

一例では、ビデオデータに対する情報を決定する方法は、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を、1つまたは複数の最上位関心領域を表すデータに基づいて、回路内に実装されたプロセッサであるクライアントデバイスのプロセッサによって決定するステップを含む。1つまたは複数の最上位関心領域を表すデータは、ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある。方法は、画像の1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を、クライアントデバイスのプロセッサによって出力するステップと、比較的高品質のビデオデータの要求を出力した後、画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を、クライアントデバイスのプロセッサによって出力するステップをさらに含む。

別の例では、ビデオデータに対する情報を決定するためのデバイスは、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を、1つまたは複数の最上位関心領域を表すデータに基づいて、決定するように構成された回路内に実装された1つまたは複数のプロセッサを含む。1つまたは複数の最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にある。1つまたは複数のプロセッサは、画像の1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を出力することと、比較的高品質のビデオデータの要求を出力した後、画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を出力することとを行うようにさらに構成される。

別の例では、ビデオデータに対する情報を決定するためのデバイスは、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を、1つまたは複数の最上位関心領域を表すデータに基づいて、決定するための手段を含む。1つまたは複数の最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にある。デバイスは、画像の1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を出力するための手段と、比較的高品質のビデオデータの要求を出力した後、画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を出力するための手段とをさらに含む。

別の例では、コンピュータ可読記憶媒体を含むコンピュータプログラム製品は命令を含み、その命令は、実行されたとき、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を、1つまたは複数の最上位関心領域を表すデータに基づいて、決定することを、ビデオデータに対する情報を決定するためのソースデバイスのプロセッサに行わせる。1つまたは複数の最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にある。命令は、さらに、画像の1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を出力することと、比較的高品質のビデオデータの要求を出力した後、画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を出力することとをプロセッサに行わせる。

別の例では、ビデオデータに対する情報をシグナリングする方法は、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を、回路内に実装されたプロセッサであるソースデバイスのプロセッサによって決定するステップを含む。1つまたは複数の最上位関心領域は、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む。方法は、1つまたは複数の最上位関心領域を表すデータを、ソースデバイスのプロセッサによって生成するステップをさらに含む。1つまたは複数の最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にある。

別の例では、ビデオデータに対する情報をシグナリングするためのデバイスは、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を決定するように構成された回路内に実装された1つまたは複数のプロセッサを含む。1つまたは複数の最上位関心領域は、クライアントデバイスによって取り出される可能性が最も高い領域を含む。1つまたは複数のプロセッサは、1つまたは複数の最上位関心領域を表すデータを生成するようにさらに構成される。1つまたは複数の最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にある。

別の例では、ビデオデータに対する情報をシグナリングするためのデバイスは、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を決定するための手段を含む。1つまたは複数の最上位関心領域は、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む。デバイスは、1つまたは複数の最上位関心領域を表すデータを生成するための手段をさらに含む。1つまたは複数の最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にある。

別の例では、コンピュータ可読記憶媒体を含むコンピュータプログラム製品は、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域をプロセッサに決定させる命令を含む。1つまたは複数の最上位関心領域は、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む。命令は、さらに、1つまたは複数の最上位関心領域を表すデータをプロセッサに生成させる。1つまたは複数の最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にある。

1つまたは複数の例の詳細が、添付図面および以下の説明において記載される。他の特徴、目的、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。

ネットワークを介してメディアデータをストリーミングするための技法を実装する例示的なシステムを示すブロック図である。例示的なマルチディアコンテンツの要素を示す概念図である。図2の表現に対応し得る例示的なビデオファイルの要素を示すブロック図である。立方体プロジェクションにおける例示的なタイルコーディングを示す概念図である。本開示で説明する1つまたは複数の技法による、ビデオデータに対する情報を決定するための例示的な手法を示すフローチャートである。本開示で説明する1つまたは複数の技法による、ビデオデータに対する情報をシグナリングするための例示的な手法を示すフローチャートである。本開示で説明する1つまたは複数の技法による、ビデオデータをプリフェッチするための例示的な手法を示すフローチャートである。

本発明はバーチャルリアリティ(VR)に関する。より具体的には、本発明は、VRビデオ内の1つまたは複数の最上位関心領域のセットの作成、最上位関心領域の情報のシグナリング、ならびにVRビデオコンテンツの符号化、ストリーミング、再生および管理における情報の使用のためのいくつかの方法を開示する。

一般に、本開示は、ビデオデータの画像の1つまたは複数の最上位関心領域を表すデータを含むビデオコンテンツを生成するための技法を説明する。ディレクタもしくはプロデューサーが1つまたは複数の最上位関心領域を選択してもよく、またはコンピューティングデバイスが、サービスプロバイダもしくはコンテンツプロバイダによるユーザ統計から、たとえば全方位ビデオコンテンツ(omnidirectional video content)がストリーミングサービスを介して提供されたときにどの領域がユーザによって最も多く要求/閲覧されたかの統計を通して、1つまたは複数の最上位関心領域を導出してもよい。いずれの場合にも、クライアントデバイスは、360度動画とも呼ばれるバーチャルリアリティビデオなどのビデオの再生を改善するために、1つまたは複数の最上位関心領域を使用して1つまたは複数の最上位関心領域に対するビデオデータをプリフェッチしてもよい。

具体的には、クライアントデバイスは、1つまたは複数の最上位関心領域を表すデータを、たとえばビットストリームのビデオコーディング層のデータを送信するためのヘッダまたはメッセージ内で受信された情報を使用して決定してもよい。1つまたは複数の最上位関心領域を表すデータから1つまたは複数の最上位関心領域を決定すると、クライアントデバイスは、1つまたは複数の最上位関心領域を比較的高品質で要求してもよい。1つまたは複数の最上位関心領域を比較的高品質で要求した後、クライアントデバイスは、画像の1つまたは複数の他の領域を、ユーザの視野(FOV)に基づく高品質より比較的低い品質で要求してもよい。このようにして、1つまたは複数の最上位関心領域は、1つまたは複数の最上位関心領域が高品質で受信されることを可能にするためにプリフェッチされ(たとえば、ユーザのFOVを受信する前にフェッチされ)、それによりバーチャルリアリティビデオなどのビデオの再生が改善され得る。すなわち、デバイスは、1つまたは複数の最上位関心領域を使用して、1つまたは複数の最上位関心領域に対するビデオデータをプリフェッチしてもよい。たとえば、デバイスは、画像の他の領域に対するビデオデータより低いレイテンシおよび/または高い品質において、1つまたは複数の最上位関心領域に対するビデオデータをフェッチしてもよく、ここでデバイスは、ビデオデコーダ、コンテンツ配信ネットワーク(CDN)ノードなどのネットワーク要素、または別のエンティティを含むエンティティであることを指す場合がある。

本開示の技法は、ISOベースメディアファイルフォーマット、スケーラブルビデオコーディング(SVC)ファイルフォーマット、アドバンストビデオコーディング(AVC)ファイルフォーマット、第3世代パートナーシッププロジェクト(3GPP)ファイルフォーマット、および/もしくはマルチビュービデオコーディング(MVC)ファイルフォーマット、または他の同様のビデオファイルフォーマットのいずれかに従ってカプセル化されたビデオデータに準拠するビデオファイルに適用され得る。

HTTPストリーミングにおいて、頻繁に使用される動作には、HEAD、GET、および部分GETがある。HEAD動作は、所与のユニフォームリソースロケータ(URL)またはユニフォームリソースネーム(URN)に関連付けられたペイロードを取り出さずに、URLまたはURNに関連付けられたファイルのヘッダを取り出す。GET動作は、所与のURLまたはURNに関連付けられたファイル全体を取り出す。部分GET動作は、入力パラメータとしてバイト範囲を受信し、ファイルの連続した数のバイトを取り出し、この場合、バイトの数は受信されるバイト範囲に対応する。したがって、部分GET動作は1つまたは複数の個々のムービーフラグメントを取得できるので、ムービーフラグメントがHTTPストリーミングのために提供されてよい。ムービーフラグメントでは、異なるトラックのいくつかのトラックフラグメントが存在してよい。HTTPストリーミングでは、メディアプレゼンテーションは、クライアントにとってアクセス可能なデータの構造化された集合体であり得る。クライアントは、メディアデータ情報を要求およびダウンロードして、ユーザにストリーミングサービスを提示することができる。

HTTPストリーミングを使用して3GPPデータをストリーミングする例では、マルチメディアコンテンツのビデオおよび/またはオーディオデータに関して複数の表現が存在し得る。以下で説明するように、異なる表現は、異なるコーディング特性(たとえば、ビデオコーディング規格の異なるプロファイルまたはレベル)、異なるコーディング規格またはコーディング規格の拡張(マルチビューおよび/もしくはスケーラブル拡張など)、あるいは異なるビットレートに対応し得る。そのような表現のマニフェストは、メディアプレゼンテーション記述(MPD)データ構造において定義され得る。メディアプレゼンテーションは、HTTPストリーミングクライアントデバイスにとってアクセス可能なデータの構造化された集合体に対応し得る。HTTPストリーミングクライアントデバイスは、メディアデータ情報を要求およびダウンロードして、クライアントデバイスのユーザにストリーミングサービスを提示することができる。メディアプレゼンテーションは、MPDの更新を含み得るMPDデータ構造で記述され得る。

メディアプレゼンテーションは、1つまたは複数の期間のシーケンスを含んでもよい。各期間は、次の期間の開始まで、または最後の期間の場合にはメディアプレゼンテーションの終了まで及び得る。各期間は、同じメディアコンテンツのための1つまたは複数の表現を含んでもよい。表現は、オーディオ、ビデオ、時限のテキスト(timed text)、または他のそのようなデータのいくつかの代替符号化バージョンのうちの1つであり得る。表現は、符号化のタイプ、たとえば、ビデオデータのビットレート、解像度、および/またはコーデック、ならびにオーディオデータのビットレート、言語、および/またはコーデックによって異なる場合がある。表現という用語は、マルチメディアコンテンツのある特定の期間に対応し、ある特定のやり方で符号化された、符号化オーディオデータまたは符号化ビデオデータのあるセクションを指すために使用される場合がある。

ある特定の期間の表現は、表現が属する適応セットを示すMPD内の属性によって示されるグループに割り当てられてもよい。同じ適応セット内の表現は、概して、クライアントデバイスが、たとえば帯域幅適応を実施するためにこれらの表現の間で動的かつシームレスに切り替わることができる点で、互いに対する代替物と見なされる。たとえば、ある特定の期間のビデオデータの各表現は、同じ適応セットに割り当てられてもよいので、表現のうちのいずれもが、対応する期間のマルチメディアコンテンツの、ビデオデータまたはオーディオデータなど、メディアデータを提示するように復号するために、選択されてもよい。いくつかの例では、1つの期間内のメディアコンテンツは、グループ0が存在する場合にはグループ0からの1つの表現によって表されてもよく、あるいは各々の非ゼロのグループからの最大でも1つの表現の組合せのいずれかによって表されてもよい。ある期間の各表現のタイミングデータは、期間の開始時間に対して表されてもよい。

表現は1つまたは複数のセグメントを含んでもよい。各表現が初期化セグメントを含んでもよく、または表現の各セグメントが自己初期化するものであってもよい。初期化セグメントは、それが存在する場合、表現にアクセスするための初期化情報を含んでもよい。一般に、初期化セグメントは、メディアデータを含まない。セグメントは、ユニフォームリソースロケータ(URL)、ユニフォームリソースネーム(URN)、またはユニフォームリソース識別子(URI)のような、識別子によって一意に参照されてもよい。MPDは、各セグメントのための識別子を提供し得る。いくつかの例では、MPDは、URL、URN、またはURIによってアクセス可能なファイル内のセグメントのためのデータに対応し得る、range属性の形式で、バイト範囲を提示してもよい。

異なるタイプのメディアデータに対して実質的に同時に取出しを行うために異なる表現が選択されてもよい。たとえば、クライアントデバイスは、セグメントを取り出すオーディオ表現、ビデオ表現、および時限のテキスト表現を選択することができる。いくつかの例では、クライアントデバイスは、帯域幅適応を実施するために特定の適応セットを選択することができる。すなわち、クライアントデバイスは、ビデオ表現を含む適応セット、オーディオ表現を含む適応セット、および/または時限のテキストを含む適応セットを選択することができる。代替として、クライアントデバイスは、あるタイプのメディア(たとえば、ビデオ)に関する適応セットを選択し、他のタイプのメディア(たとえば、オーディオおよび/または時限のテキスト)に関する表現を直接選択することができる。

図1は、ネットワークを介してメディアデータをストリーミングするための技法を実装する例示的なシステム10を示すブロック図である。この例では、システム10は、コンテンツ準備デバイス20と、サーバデバイス60と、クライアントデバイス40とを含む。クライアントデバイス40およびサーバデバイス60は、インターネットを含み得るネットワーク74によって通信可能に結合される。いくつかの例では、コンテンツ準備デバイス20およびサーバデバイス60も、ネットワーク74または別のネットワークによって結合されてもよく、または直接通信可能に結合されてもよい。いくつかの例では、コンテンツ準備デバイス20およびサーバデバイス60は、同じデバイスを含み得る。

図1の例では、コンテンツ準備デバイス20は、オーディオソース22とビデオソース24とを備える。オーディオソース22は、たとえば、オーディオエンコーダ26によって符号化されるべきキャプチャされたオーディオデータを表す電気信号を生成するマイクロフォンを含み得る。あるいは、オーディオソース22は、以前に記録されたオーディオデータを記憶する記憶媒体、コンピュータ化されたシンセサイザのようなオーディオデータ生成器、またはオーディオデータの任意の他のソースを備えてもよい。ビデオソース24は、ビデオエンコーダ28によって符号化されるべきビデオデータを生成するビデオカメラ、以前に記録されたビデオデータで符号化された記憶媒体、コンピュータグラフィックスソースのようなビデオデータ生成ユニット、またはビデオデータの任意の他のソースを備えてもよい。コンテンツ準備デバイス20は必ずしも、すべての例において、サーバデバイス60に通信可能に結合されるとは限らないが、サーバデバイス60によって読み取られる別個の媒体にマルチメディアコンテンツを記憶する場合がある。

生のオーディオデータおよびビデオデータは、アナログデータまたはデジタルデータを含んでもよい。アナログデータは、オーディオエンコーダ26および/またはビデオエンコーダ28によって符号化される前にデジタル化されてもよい。オーディオソース22は、話している参加者から、その参加者が話している間にオーディオデータを取得する場合があり、ビデオソース24は、話している参加者のビデオデータを同時に取得する場合がある。他の例では、オーディオソース22は、記憶されたオーディオデータを含むコンピュータ可読記憶媒体を備えてもよく、ビデオソース24は、記憶されたビデオデータを含むコンピュータ可読記憶媒体を備えてもよい。このように、本開示で説明される技術は、ライブ、ストリーミング、リアルタイムオーディオデータ、およびリアルタイムビデオデータに適用され得、または、アーカイブされた事前に記録されたオーディオデータ、およびアーカイブされた事前に記録されたビデオデータに適用され得る。

ビデオフレームに対応するオーディオフレームは、一般に、ビデオフレーム内に含まれるビデオソース24によってキャプチャ(または、生成)されたビデオデータと同時に、オーディオソース22によってキャプチャ(または、生成)されたオーディオデータを含むオーディオフレームである。たとえば、話している参加者が一般に話すことによってオーディオデータを生成している間、オーディオソース22はオーディオデータをキャプチャし、ビデオソース24は同時に、すなわち、オーディオソース22がオーディオデータをキャプチャしている間に、話している参加者のビデオデータをキャプチャする。したがって、オーディオフレームは、1つまたは複数の特定のビデオフレームに時間的に対応する場合がある。したがって、ビデオフレームに対応するオーディオフレームは、一般に、オーディオデータおよびビデオデータが同時にキャプチャされた状況に対応し、その状況に対して、オーディオフレームおよびビデオフレームがそれぞれ、同時にキャプチャされたオーディオデータおよびビデオデータを含む。

いくつかの例では、オーディオエンコーダ26は、符号化された各オーディオフレームにおいて、符号化されたオーディオフレームに関するオーディオデータが記録された時間を表すタイムスタンプを符号化してもよく、同様に、ビデオエンコーダ28は、符号化された各ビデオフレームにおいて、符号化されたビデオフレームに関するビデオデータが記録された時間を表すタイムスタンプを符号化してもよい。そのような例では、ビデオフレームに対応するオーディオフレームは、タイムスタンプを含むオーディオフレームおよび同じタイムスタンプを含むビデオフレームを含んでもよい。コンテンツ準備デバイス20は、オーディオエンコーダ26および/またはビデオエンコーダ28がタイムスタンプを生成する場合がある内部クロック、またはオーディオソース22およびビデオソース24がそれぞれオーディオデータおよびビデオデータをタイムスタンプに関連付けるために使用する場合がある内部クロックを含み得る。

いくつかの例では、オーディオソース22は、オーディオデータが記録された時間に対応するデータをオーディオエンコーダ26に送ってもよく、ビデオソース24は、ビデオデータが記録された時間に対応するデータをビデオエンコーダ28に送ってもよい。いくつかの例では、オーディオエンコーダ26は、符号化されたオーディオデータにおいて、符号化されたオーディオデータの相対的な時間順序を示すために、オーディオデータが記録された絶対的な時間を必ずしも示すとは限らないが、シーケンス識別子を符号化してもよく、同様に、ビデオエンコーダ28も、符号化されたビデオデータの相対的な時間順序を示すためにシーケンス識別子を使用してもよい。同様に、いくつかの例では、シーケンス識別子がタイムスタンプとともにマップされるか、あるいはタイムスタンプと相関することがある。

オーディオエンコーダ26は、一般に、符号化されたオーディオデータのストリームを生成する一方、ビデオエンコーダ28は、符号化されたビデオデータのストリームを生成する。データの個々の各ストリーム(オーディオかビデオかにかかわらず)は、エレメンタリストリームと呼ばれることがある。エレメンタリストリームは、表現の単一のデジタル的にコード化された(場合によっては圧縮された)成分である。たとえば、表現のコード化されたビデオまたはオーディオの部分は、エレメンタリストリームであり得る。エレメンタリストリームは、ビデオファイル内にカプセル化される前に、パケット化エレメンタリストリーム(PES)に変換され得る。同じ表現内で、ストリームIDが、あるエレメンタリストリームに属するPESパケットを他のエレメンタリストリームに属するPESパケットと区別するために使用され得る。エレメンタリストリームのデータの基本単位は、パケット化エレメンタリストリーム(PES)パケットである。したがって、コード化ビデオデータは、一般に、エレメンタリビデオストリームに対応する。同様に、オーディオデータは、1つまたは複数のそれぞれのエレメンタリストリームに対応する。

ITU-T H.264/AVCおよび今度の高効率ビデオコーディング(HEVC)規格など、多くのビデオコーディング規格は、エラーのないビットストリームのためのシンタックス、意味論、および復号プロセスを定義し、それらのいずれもが、一定のプロファイルまたはレベルに準拠する。ビデオコーディング規格は、一般的にエンコーダを規定しないが、エンコーダは、生成されたビットストリームがデコーダのための規格に準拠することを保証する役割を課される。ビデオコーディング規格のコンテキストでは、「プロファイル」は、アルゴリズム、特徴、またはツールのサブセット、およびこれらに適用される制約に対応する。H.264規格によって定義されるように、たとえば、「プロファイル」は、H.264規格によって指定される全体のビットストリームシンタックスのサブセットである。「レベル」は、たとえば、デコーダメモリおよび計算のような、デコーダのリソース消費の制限に対応し、これは、ピクチャの解像度、ビットレート、およびブロック処理速度に関連する。プロファイルは、profile_idc(プロファイルインジケータ)値によってシグナリングされ得るが、レベルは、level_idc(レベルインジケータ)値によってシグナリングされ得る。

たとえば、所与のプロファイルのシンタックスによって課される範囲内で、復号されるピクチャの指定されたサイズのようなビットストリーム内のシンタックス要素のとる値に応じて、エンコーダおよびデコーダの性能に大きい変動を求めることが依然として可能であることを、H.264規格は認める。多くの用途において、特定のプロファイル内のシンタックスのすべての仮想的な使用を扱うことが可能なデコーダを実装するのは、現実的でも経済的でもないことを、H.264規格はさらに認める。したがって、H.264規格は、ビットストリーム内のシンタックス要素の値に課される制約の指定されたセットとして、「レベル」を定義する。これらの制約は、値に対する単純な制限であってもよい。あるいは、これらの制約は、値の算術的な組合せの制約の形式(たとえば、1秒当たりに復号されるピクチャの数と、ピクチャの高さと、ピクチャの幅との積)をとってもよい。個々の実装形態が、サポートされるプロファイルごとに異なるレベルをサポートしてもよいことを、H.264規格はさらに規定する。

プロファイルに準拠するデコーダは、普通、プロファイル内で定義されるすべての特徴をサポートする。たとえば、コーディング特徴として、Bピクチャコーディングは、H.264/AVCのベースラインプロファイルではサポートされないが、H.264/AVCの他のプロファイルではサポートされる。あるレベルに準拠するデコーダは、レベル内で定義された制限を超えるリソースを要求しない、あらゆるビットストリームを復号することが可能であるべきである。プロファイルおよびレベルの定義は、説明可能性のために有用であり得る。たとえば、ビデオ送信中、プロファイルおよびレベルの定義のペアが、送信セッション全体に対して取り決められ合意され得る。より具体的には、H.264/AVCにおいて、レベルは、処理される必要があるマクロブロックの数、復号ピクチャバッファ(DPB)のサイズ、コード化ピクチャバッファ(CPB)のサイズ、垂直方向の運動ベクトルの範囲、2つの連続するMB当たりの運動ベクトルの最大の数に対する制限、および、Bブロックが8×8ピクセルよりも小さいサブマクロブロック区分を有し得るかどうかを定義することができる。このようにして、デコーダは、デコーダが適切にビットストリームを復号できるかどうかを決定することができる。

図1の例では、コンテンツ準備デバイス20のカプセル化ユニット30は、ビデオエンコーダ28からのコード化ビデオデータを含むエレメンタリストリームと、オーディオエンコーダ26からのコード化オーディオデータを含むエレメンタリストリームとを受信する。いくつかの例では、ビデオエンコーダ28およびオーディオエンコーダ26は各々、符号化データからPESパケットを形成するためのパケタイザを含む場合がある。他の例では、ビデオエンコーダ28およびオーディオエンコーダ26は各々、符号化データからPESパケットを形成するためのそれぞれのパケタイザとインターフェースをとる場合がある。さらに他の例では、カプセル化ユニット30は、符号化オーディオデータおよび符号化ビデオデータからPESパケットを形成するためのパケタイザを含む場合がある。

ビデオエンコーダ28は、種々の方法でマルチメディアコンテンツのビデオデータを符号化して、ピクセル解像度、フレームレート、様々な符号化規格に対する準拠、様々な符号化規格のための様々なプロファイルおよび/もしくはプロファイルのレベルに対する準拠、1つもしくは複数の表示を有する表現(たとえば、2次元もしくは3次元の再生のための)、または他のそのような特性のような、様々な特性を有する様々なビットレートのマルチメディアコンテンツの様々な表現を生成することができる。本開示で使用する表現は、オーディオデータ、ビデオデータ、(たとえば、クローズドキャプション用の)テキストデータ、または他のそのようなデータのうちの1つを含み得る。この表現は、オーディオエレメンタリストリームまたはビデオエレメンタリストリームなどのエレメンタリストリームを含み得る。各PESパケットは、PESパケットが属するエレメンタリストリームを特定するstream_idを含み得る。カプセル化ユニット30は、様々な表現のビデオファイル(たとえば、セグメント)へとエレメンタリストリームをアセンブルする役割を担う。

カプセル化ユニット30は、オーディオエンコーダ26およびビデオエンコーダ28から表現のエレメンタリストリームのためのPESパケットを受信し、PESパケットから対応するネットワークアブストラクション層(NAL)ユニットを形成する。コード化ビデオセグメントはNALユニットへと編成され、NALユニットは、ビデオ電話、記憶、ブロードキャスト、またはストリーミングのような、「ネットワークフレンドリ」なビデオ表現のアドレッシング適用を実現する。NALユニットは、ビデオコーディング層(VCL)NALユニット(たとえば、VCLデータ)および非VCL NALユニットに分類されてもよい。VCLユニット(VCLデータとも呼ばれる)は、コア圧縮エンジンを包含し得、ブロック、マクロブロック、および/またはスライスレベルのデータを含み得る。他のNALユニットは、非VCL NALユニットであってもよい。いくつかの例では、1つの時間インスタンスにおけるコード化ピクチャは、通常は一次コード化ピクチャとして提示され、1つまたは複数のNALユニットを含み得るアクセスユニット内に包含され得る。

非VCL NALユニットは、特に、パラメータセットのNALユニットおよびSEI NALユニットを含み得る。パラメータセットは、(シーケンスパラメータセット(SPS)内に)シーケンスレベルヘッダ情報を包含し、(ピクチャパラメータセット(PPS)内に)頻繁には変化しないピクチャレベルヘッダ情報を包含し得る。パラメータセット(たとえば、PPSおよびSPS)があれば、この頻繁には変化しない情報は、各シーケンスまたはピクチャに対して繰り返される必要がなく、したがって、コーディング効率が向上し得る。さらに、パラメータセットの使用が、重要なヘッダ情報の帯域外送信を有効化することができ、エラーの復元のための冗長な送信の必要がなくなる。帯域外送信の例では、パラメータセットのNALユニットが、SEI NALユニットなどの他のNALユニットとは異なるチャネル上で送信され得る。

補足強調情報(SEI)は、VCL NALユニットからコード化ピクチャサンプルを復号するために必要ではない情報を包含し得るが、復号、表示、エラーの復元、および他の目的に関係するプロセスを支援し得る。SEIメッセージは、非VCL NALユニットに包含され得る。SEIメッセージは、いくつかの標準仕様の規範的部分であり、したがって、規格に準拠するデコーダの実装において常に必須であるとは限らない。SEIメッセージは、シーケンスレベルSEIメッセージまたはピクチャレベルSEIメッセージであり得る。いくつかのシーケンスレベル情報は、SVCの例におけるスケーラビリティ情報SEIメッセージおよびMVCにおけるビュースケーラビリティ情報SEIメッセージなどのSEIメッセージ内に包含され得る。これらの例示的なSEIメッセージは、たとえば、動作点の抽出および動作点の特性に関する情報を伝達することができる。加えて、カプセル化ユニット30は、表現の特性を記述するメディアプレゼンテーション記述(MPD)などのマニフェストファイルを形成することができる。カプセル化ユニット30は、拡張可能マークアップ言語(XML)に従ってMPDをフォーマットすることができる。

カプセル化ユニット30は、マニフェストファイル(たとえば、MPD)とともに、マルチメディアコンテンツの1つまたは複数の表現のためのデータを出力インターフェース32に提供し得る。出力インターフェース32は、ネットワークインターフェースもしくはユニバーサルシリアルバス(USB)インターフェース、CDもしくはDVDのライターもしくはバーナー、磁気記憶媒体もしくはフラッシュ記憶媒体へのインターフェースのような記憶媒体へ書き込むためのインターフェース、または、メディアデータを記憶もしくは送信するための他のインターフェースを含み得る。カプセル化ユニット30は、マルチメディアコンテンツの表現のそれぞれの表現のデータを出力インターフェース32に提供することができ、出力インターフェース32は、ネットワーク送信または記憶媒体を介してデータをサーバデバイス60に送ることができる。図1の例では、サーバデバイス60は、各々がそれぞれのマニフェストファイル66と1つまたは複数の表現68A〜68N(表現68)とを含む様々なマルチメディアコンテンツ64を記憶する記憶媒体62を含む。いくつかの例では、出力インターフェース32はネットワーク74にデータを直接送ることもできる。

いくつかの例では、表現68は、適応セットへと分割されてもよい。すなわち、表現68の様々なサブセットは、コーデック、プロファイルおよびレベル、解像度、ビューの数、セグメントのファイルフォーマット、たとえば話者による、復号され提示されるべき表現および/またはオーディオデータとともに表示されるべきテキストの言語または他の特性を識別する場合があるテキストタイプ情報、カメラの角度または適応セット内の表現のシーンの現実世界のカメラの視野を表す場合があるカメラ角度情報、特定の視聴者に対するコンテンツの適切性を表すレーティング情報などのような、特性のそれぞれの共通のセットを含み得る。

マニフェストファイル66は、特定の適応セットに対応する表現68のサブセットを示すデータ、ならびに適応セットの共通の特性を含み得る。マニフェストファイル66はまた、適応セットの個々の表現のための、ビットレートのような個々の特性を表すデータを含み得る。このようにして、適応セットは、簡略化されたネットワーク帯域幅適応を可能にする場合がある。適応セット内の表現は、マニフェストファイル66の適応セット要素の子要素を使用して示されてもよい。

サーバデバイス60は、要求処理ユニット70とネットワークインターフェース72とを含む。いくつかの例では、サーバデバイス60は、複数のネットワークインターフェースを含み得る。さらに、サーバデバイス60の機能のうちのいずれかまたはすべてが、ルータ、ブリッジ、プロキシデバイス、スイッチ、または他のデバイスのような、コンテンツ配信ネットワークの他のデバイス上で実装され得る。いくつかの例では、コンテンツ配信ネットワークの中間デバイスは、マルチメディアコンテンツ64のデータをキャッシュし、サーバデバイス60の構成要素に実質的に準拠する構成要素を含み得る。一般に、ネットワークインターフェース72は、ネットワーク74を介してデータを送受信するように構成される。

要求処理ユニット70は、記憶媒体62のデータに対するネットワーク要求をクライアントデバイス40のようなクライアントデバイスから受信するように構成される。たとえば、要求処理ユニット70は、R. Fielding他による、RFC 2616、「Hypertext Transfer Protocol-HTTP/1.1」、Network Working Group、IETF、1999年6月に記述されるような、ハイパーテキスト転送プロトコル(HTTP)バージョン1.1を実装する場合がある。すなわち、要求処理ユニット70は、HTTP GETまたは部分GET要求を受信して、それらの要求に応答して、マルチメディアコンテンツ64のデータを提供するように構成され得る。要求は、たとえば、セグメントのURLを使用して、表現68のうちの1つのセグメントを指定することができる。いくつかの例では、要求はまた、セグメントの1つまたは複数のバイト範囲を指定することができ、したがって、部分GET要求を含む。要求処理ユニット70はさらに、表現68のうちの1つのセグメントのヘッダデータを提供するために、HTTP HEAD要求に対応するように構成されてよい。いずれの場合でも、要求処理ユニット70は、クライアントデバイス40のような要求デバイスに、要求されたデータを提供するために、要求を処理するように構成され得る。

追加または代替として、要求処理ユニット70は、eMBMSなどのブロードキャストまたはマルチキャストプロトコルを介してメディアデータを配信するように構成され得る。コンテンツ準備デバイス20は、DASHセグメントおよび/またはサブセグメントを、説明したのと実質的に同じ方法で作成することができるが、サーバデバイス60は、これらのセグメントまたはサブセグメントを、eMBMSまたは別のブロードキャストもしくはマルチキャストのネットワークトランスポートプロトコルを使用して配信することができる。たとえば、要求処理ユニット70は、クライアントデバイス40からマルチキャストグループ参加要求を受信するように構成され得る。すなわち、サーバデバイス60は、マルチキャストグループと関連付けられたインターネットプロトコル(IP)アドレスを、クライアントデバイス40を含む、特定のメディアコンテンツ(たとえば、ライブイベントのブロードキャスト)と関連付けられたクライアントデバイスに広告することができる。次に、クライアントデバイス40は、マルチキャストグループに加わるための要求を提出することができる。この要求は、ルータがマルチキャストグループに関連付けられたIPアドレス宛のトラフィックをクライアントデバイス40などの加入クライアントデバイスに向けるように、ネットワーク74中、たとえば、ネットワーク74を構成するルータに伝搬され得る。

要求処理ユニット70は、要求からのデータをアセンブルするように構成され得る。たとえば、要求処理ユニット70は、要求された画像の1つまたは複数の領域の表示を、クライアントデバイスからの各要求から抽出してもよい。たとえば、要求処理ユニット70は、クライアントデバイス40からの要求から特定の画像に対するユーザの視野を抽出してもよい。抽出した後、要求処理ユニット70は、クライアントデバイス(たとえば、クライアントデバイス40)によって要求されたユーザの視野の1つまたは複数の領域を、各画像に対して示すテーブルまたはデータベース内のエントリを生成し得る。

要求処理ユニット70は、アセンブルされたデータから1つまたは複数の最上位関心領域を導出し得る。より具体的には、たとえば、画像の1つまたは複数の領域が画像の他の領域と比較して画像の最も頻繁に要求される領域であると決定したことに応答して、要求処理ユニット70は、その1つまたは複数領域を画像の1つまたは複数の最上位関心領域として選択し得る。いくつかの例では、要求処理ユニット70は、1つまたは複数の領域がしきい値を満足する周波数においてユーザの視野内に含まれているときに、画像の1つまたは複数の最上位関心領域として1つまたは複数の領域を選択してもよい。たとえば、要求処理ユニット70は、ユーザの視野の少なくとも半分が1つまたは複数の領域を含むことをアセンブルされたデータが示すときに、画像の1つまたは複数の最上位関心領域として1つまたは複数の領域を選択してもよい。

図1の例に示すように、マルチメディアコンテンツ64は、メディアプレゼンテーション記述(MPD)に対応する場合があるマニフェストファイル66を含む。マニフェストファイル66は、様々な代替の表現68(たとえば、品質が異なるビデオサービス)の記述を包含してよく、この記述は、たとえば、コーデック情報、プロファイル値、レベル値、ビットレート、および表現68の他の説明のための特性を含み得る。クライアントデバイス40は、メディアプレゼンテーションのMPDを取り出して、表現68のセグメントにどのようにアクセスするかを決定することができる。

具体的には、取出しユニット52は、クライアントデバイス40の構成データ(図示せず)を取り出して、ビデオデコーダ48の復号能力およびビデオ出力部44のレンダリング能力を判定することができる。構成データはまた、クライアントデバイス40のユーザによって選択される言語の選好、クライアントデバイス40のユーザによって設定される深さの選好に対応する1つもしくは複数のカメラ視野、および/または、クライアントデバイス40のユーザによって選択されるレーティングの選好のいずれかまたはすべてを含み得る。取出しユニット52は、たとえば、HTTP GETおよび部分GET要求を提出するように構成されたウェブブラウザまたはメディアクライアントを備え得る。取出しユニット52は、クライアントデバイス40の1つまたは複数のプロセッサまたは処理ユニット(図示せず)によって実行されるソフトウェア命令に対応し得る。いくつかの例では、取出しユニット52に関して説明した機能性のすべてまたは一部は、ハードウェア、または、ハードウェア、ソフトウェア、および/もしくはファームウェアの組合せにおいて実装されてよく、この場合、必須のハードウェアは、ソフトウェアまたはファームウェアのための命令を実行するために提供され得る。

取出しユニット52は、クライアントデバイス40の復号およびレンダリング能力を、マニフェストファイル66の情報によって示される表現68の特性と比較することができる。取出しユニット52は、表現68の特性を決定するために、マニフェストファイル66の少なくとも一部分を最初に取り出し得る。たとえば、取出しユニット52は、1つまたは複数の適応セットの特性について説明する、マニフェストファイル66の一部分を要求する場合がある。取出しユニット52は、クライアントデバイス40のコーディングおよびレンダリング能力によって満たされ得る特性を有する、表現68のサブセット(たとえば、適応セット)を選択することができる。取出しユニット52は、次いで、適応セット内の表現に対するビットレートを決定し、ネットワーク帯域幅の現在利用可能な量を決定し、ネットワーク帯域幅によって満たされ得るビットレートを有する表現のうちの1つからセグメントを取り出すことができる。

概して、表現のビットレートが高くなると、ビデオ再生の品質が高くなる一方、表現のビットレートが低くなると、利用可能なネットワーク帯域幅が縮小したときに、ビデオ再生の品質が十分なものになる場合がある。したがって、利用可能なネットワーク帯域幅が比較的高いときには、取出しユニット52は、ビットレートが比較的高い表現からデータを取り出すことができ、利用可能なネットワーク帯域幅が低いときには、取出しユニット52は、ビットレートが比較的低い表現からデータを取り出すことができる。このようにして、クライアントデバイス40は、ネットワーク74を介してマルチメディアデータをストリーミングすることができる一方、ネットワーク74の変化するネットワーク帯域幅の利用可能性に適応することもできる。

追加または代替として、取出しユニット52は、ブロードキャスト、またはeMBMSもしくはIPマルチキャストなどのマルチキャストネットワークプロトコルに従ってデータを受信するように構成され得る。そのような例では、取出しユニット52は、特定のメディアコンテンツに関連付けられたマルチキャストネットワークグループに加わるための要求を提出することができる。取出しユニット52は、マルチキャストグループに加わった後、サーバデバイス60またはコンテンツ準備デバイス20にさらなる要求を発行することなしに、マルチキャストグループのデータを受信することができる。取出しユニット52は、たとえば、再生を停止するために、または、チャネルを異なるマルチキャストグループに変更するために、マルチキャストグループのデータがもはや必要とされないとき、マルチキャストグループを出るための要求を提出することができる。

ネットワークインターフェース54は、選択された表現のセグメントのデータを受信し、取出しユニット52に提供することができ、次に、取出しユニット52は、セグメントをカプセル化解除ユニット50に提供することができる。カプセル化解除ユニット50は、ビデオファイルの要素を、構成要素であるPESストリームへとカプセル化解除し、PESストリームをパケット化解除して符号化データを取り出し、たとえば、ストリームのPESパケットヘッダによって示されるように、符号化データがオーディオストリームの一部それともビデオストリームの一部であるかに応じて、符号化データをオーディオデコーダ46またはビデオデコーダ48のいずれかに送ることができる。オーディオデコーダ46は、符号化オーディオデータを復号し、復号したオーディオデータをオーディオ出力42に送る一方、ビデオデコーダ48は、符号化ビデオデータを復号し、ストリームの複数のビューを含み得る復号ビデオデータをビデオ出力44に送る。

ビデオエンコーダ28、ビデオデコーダ48、オーディオエンコーダ26、オーディオデコーダ46、カプセル化ユニット30、取出しユニット52、およびカプセル化解除ユニット50は各々、適用できる場合は、1つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、個別論理回路機構、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せなど、様々な適切な処理回路機構のいずれかとして実装され得る。ビデオエンコーダ28およびビデオデコーダ48の各々は、1つまたは複数のエンコーダまたはデコーダ内に含まれてよく、これらのいずれもが、複合ビデオエンコーダ/デコーダ(コーデック)の一部として統合され得る。同様に、オーディオエンコーダ26およびオーディオデコーダ46の各々は、1つまたは複数のエンコーダまたはデコーダ内に含まれてよく、これらのいずれもが、複合コーデックの一部として統合され得る。ビデオエンコーダ28、ビデオデコーダ48、オーディオエンコーダ26、オーディオデコーダ46、カプセル化ユニット30、取出しユニット52、および/またはカプセル化解除ユニット50を含む装置は、集積回路、マイクロプロセッサ、および/またはセルラー電話のようなワイヤレス通信デバイスを含み得る。

ビデオコーディング規格は、ITU-T H.261と、ISO/IEC MPEG-1 Visualと、ITU-T H.262またはISO/IEC MPEG-2 Visualと、ITU-T H.263と、ISO/IEC MPEG-4 Visualと、そのスケーラブルビデオコーディング(SVC:Scalable Video Coding)およびマルチビュービデオコーディング(MVC:Multiview Video Coding)拡張を含むITU-T H.264またはISO/IEC MPEG-4 AVCと、そのスケーラブルコーディング拡張(すなわち、スケーラブル高効率ビデオコーディング、SHVC)を含む、ITU-T H.265およびISO/IEC 23008-2としても知られている高効率ビデオコーディング(HEVC:High-Efficiency Video Coding)と、マルチビュー拡張(すなわち、マルチビュー高効率ビデオコーディング、MV-HEVC)と、3D拡張(すなわち、3D高効率ビデオコーディング、3D-HEVC)とを含む。MVCの1つのジョイントドラフトは、「Advanced video coding for generic audiovisual services」、ITU-T勧告H.264、2010年3月に記載されている。

カプセル化ユニット30は、画像の1つまたは複数の最上位関心領域を決定し得る。本明細書で使用する最上位関心領域は、ユーザによって見られている可能性が高い画像の領域を指す場合がある。たとえば、最上位関心領域は、ディレクタまたはプロデューサーによって選択される画像の領域を指す場合がある。いくつかの例では、最上位関心領域は、サービスプロバイダもしくはコンテンツプロバイダによるユーザ統計から、たとえば全方位ビデオコンテンツがストリーミングサービスを介して提供されたときにどの領域がユーザによって最も多く要求/閲覧されたかの統計を通して、コンピューティングデバイスによって導出される画像の領域を指す場合がある。

カプセル化ユニット30は、1つまたは複数の最上位関心領域を表すデータをカプセル化し得る。いくつかの例では、カプセル化ユニット30は、ビデオコーディングエンジンによって使用される実際のビデオデータを含み得るVCLデータの外部にある1つまたは複数の最上位関心領域を表すデータをカプセル化し得る。いくつかの例では、1つまたは複数の最上位関心領域を表すデータは、ビットストリーム中に含まれる場合がある。たとえば、カプセル化ユニット30は、VCLデータの外部にある1つまたは複数の最上位関心領域を表すデータを含むSEIメッセージをカプセル化し得る。いくつかの例では、カプセル化ユニット30は、ビデオビットストリームの外部にある(および結果として同様にビットストリームのVCLデータの外部にある)1つまたは複数の最上位関心領域を表すデータを含むファイルフォーマットデータをカプセル化し得る。たとえば、カプセル化ユニット30は、VCLデータの外部にある1つまたは複数の最上位関心領域を表すデータを含むボックス(たとえば、サンプルツーグループ)または時限のメタデータトラック(timed metadata track)をカプセル化し得る。

VRビデオアプリケーションに関して、最上位関心領域についての情報を利用する方法を考慮するとき、我々は以下の問題のうちの少なくともいくつかを認識する。
1.ユーザ制御なしに最上位関心領域を表示するために最上位関心領域についての情報を使用することは、ユーザが実際にはVRビデオ内の他の領域に興味がある場合、VRビデオ体験を低下させる場合がある。代わりに、最上位関心領域についての情報は、改善されたVRビデオ体験のために他の方法で使用される場合がある。
2.VRビデオのピクチャの特定のセット内の最上位関心領域は、ディレクタのカット以外の方法によって決定または作成される場合がある。
3.最上位関心領域についての情報をシグナリングする具体的な方法を欠いている。

本開示は、VRビデオ内の1つまたは複数の最上位関心領域のシグナリングおよび再構築、ならびにVRビデオの符号化、復号、ストリーミング、および再生における対応する処理に対するいくつかの技法を説明する。これらの技法の1つまたは複数は、独立に、または他のものと組み合わせて適用されてもよい。

第1の例では、最上位関心領域は、ディレクタもしくはプロデューサーの意図によって、またはサービスプロバイダもしくはコンテンツプロバイダによるユーザ統計によって、たとえばVRビデオコンテンツがストリーミングサービスを介して提供されたときにどの領域がユーザによって最も多く要求/閲覧されたかを通して、決定されてもよい。

第2の例では、ビデオ符号化またはトランスコーディングの間に、最上位関心領域は、他の領域より高い品質(たとえば、より低い量子化パラメータを使用することによって)、より高い解像度(ビデオピクチャの異なる領域がビデオスティッチング(video stitching)またはビデオ符号化の間に異なるサブサンプリング比率でサブサンプリングされる場合)、またはより高い頻度のランダムアクセス可能性によって意図的に符号化される場合がある。

第3の例では、本開示は、ビデオビットストリーム内のSEIメッセージ、メディアファイル内のファイルフォーマットメタデータ、または動的適応ストリーミングオーバーHTTP(DASH)メディアプレゼンテーション記述(MPD)要素もしくは属性を使用する最上位関心領域についての情報のシグナリングを提案する。

VRビデオビットストリームのピクチャの特定のセットに対する最上位関心領域についての情報は、SEIメッセージを使用してシグナリングされ得る。このSEIメッセージの事例は、シンタックス、セマンティクスもしくは両方によって(1つまたは複数の)ピクチャのセットに適用可能であるように規定される。SEIメッセージは、少なくとも以下のシンタックス要素を含み得る。
i.最上位関心領域の数を示すシンタックス要素。
ii.各セットが最上位関心領域の位置およびサイズを記述する、シンタックス要素のセットのループ。たとえば、各セットは、最上位関心領域である長方形の4隅の上、下、左および右のオフセットを、フルピクチャに対するルーマサンプルの数で示す4つのシンタックス要素を含む場合がある。別の例では、各セットは、最上位関心領域である長方形の左上隅の座標を、フルピクチャに対するルーマサンプルの数で示す2つのシンタックス要素を含む場合があり、2つのシンタックス要素は、長方形の幅および高さを示す。
iii.最上位関心領域の各々に対して、優先度がシンタックス要素によって示されてもよく、高い優先度は領域に対するより高い関心を示す。
iv.復号順序におけるこのSEIメッセージのすべての前の事例の影響を削除するかどうかを示すシンタックス要素。
v.このSEIメッセージの現在の事例内の情報が、出力順序における次のピクチャ、または新しいコード化ビデオシーケンスの開始、またはビットストリームの終了まで持続するかどうかを示すシンタックス要素。

SEIメッセージは、H.264/AVC、H.265/HEVC、または任意の他のビデオコーデック仕様の一部として含まれ得る。SEIメッセージを含むNALユニットは、1)ファイルフォーマット内の情報のシグナリングに対するファイルフォーマットボックスまたは構造、2)SDP内の情報のシグナリングに対するSDPフィールド、3)DASH MPD内の情報のシグナリングに対するDASH MPD属性または要素、および4)MPEG-2トランスポートストリーム(TS)内の情報のシグナリングに対するMPEG-2 TS記述子の中に直接含まれ得る。

上記で説明したものと同じ情報が、たとえば新しいサンプルグループを使用することによって、または時限のメタデータトラック内の包有物によって、ファイルフォーマットデータ構造内で直接搬送される場合がある。

上記で説明したものと同じ情報が、DASH MPD内のいくつかの新しい要素、属性、および/または記述子を使用して直接搬送される場合がある。

第4の例では、DASHなどのクライアント制御のビデオストリーミングの間、コンテンツ配信ネットワーク(CDN)が使用されているとき、エッジサーバ(たとえば、サーバデバイス60)またはキャッシュは、最上位関心領域についての情報を使用してより高品質の表現のビデオデータを取得し、ビデオデータがまもなく要求される可能性が最も高いと予測して、クライアントデバイス40から要求を受信する少し前に来るべき画像の最上位関心領域をカバーしてもよい。来るべき画像は、画像の1つまたは複数の領域がクライアントデバイス40に直近に送信された画像、およびクライアントデバイス40によって提示されているかまたはまもなく提示されるべき画像の直後にある画像であり得る。

第5の例では、DASHなどのクライアント制御のビデオストリーミングの間、クライアントデバイス40は、最上位関心領域についての情報を使用してより高品質の表現のビデオデータを要求し、ビデオデータがまもなく要求される可能性が最も高いと予測して、ユーザが彼/彼女の頭を回して要求を送信する少し前に来るべき画像の最上位関心領域をカバーしてもよい。再び、来るべき画像は、画像の1つまたは複数の領域がクライアントデバイス40に直近に送信された画像、およびクライアントデバイス40によって提示されているかまたはまもなく提示されるべき画像の直後にある画像であり得る。

第6の例では、3GPP TS 26.234における3GPPパケット交換ストリーミング(PSS)などのサーバ制御のビデオストリーミングシステム(たとえば、サーバデバイス60)は、送信されるべき最上位関心領域をカバーする適切なビデオデータを選択するために、ストリーミングクライアント(たとえば、クライアントデバイス40)がサーバに対する現在のFOVの方向にフィードバックを送信することを可能にする特性によって構成され得る。そのように構成されたサーバ制御のビデオストリーミングシステムでは、サーバデバイス60は、最上位関心領域についての情報を使用してより高品質の表現のビデオデータを送信し、ビデオデータがまもなく送信される必要性が最も高いと予測して、現在のFOVの方向にストリーミングクライアントのフィードバックを受信する少し前に来るべき画像の最上位関心領域をカバーしてもよい。たとえば、特定のストリーミングクライアントが特定の画像を出力していると決定したことに応答して、サーバデバイス60は、より高品質の表現のビデオデータを特定のストリーミングクライアントに出力し、特定の画像の直後にある、来るべき画像の最上位関心領域をカバーしてもよい。

第7の例では、キャッシュを(たとえば、サーバデバイス60において)伴うコンテンツ(たとえば、VRコンテンツ)の記憶管理に対して、サーバデバイス60は、特定の画像のどの領域を、特定の画像内の1つまたは複数の最上位関心領域を表すデータを使用してキャッシュ内に記憶するかを決定し得る。ディベロッパーはストレージ選択アルゴリズムを設計し、サーバデバイス60は、領域内で選択された関心の度合いに基づいて(たとえば、ディレクタの意見に基づいて)および/または領域内で導出された関心の度合いに基づいて(たとえば、コンテンツが利用可能になった後の暫時の視聴挙動のユーザ統計に基づいて)画像の領域にランクを与えるためのアルゴリズムを実行してもよい。サーバデバイス60は、しきい値を満足する(たとえば、しきい値より大きい)ランク値を有する特定の画像の領域に対するビデオデータをキャッシュ内に記憶してもよい。たとえば、特定の画像の最上位関心領域に対するランク値だけがしきい値を満足するとき、サーバデバイス60は、特定の画像の最上位関心領域に対するビデオデータだけをキャッシュ内に記憶してもよい。この例では、クライアントデバイス40は、特定の画像の最上位関心領域に対するビデオデータをキャッシュから取り出し、特定の画像の他の領域に対するビデオデータをメインサーバストレージから取り出してもよく、メインサーバストレージはキャッシュよりもユーザから遠くに位置する場合がある。追加または代替として、サーバデバイス60は、キャッシュ内の利用可能な空間の量に基づいてしきい値を動的に決定してもよい。

第8の例では、VRコンテンツの長期保存のために、サーバデバイス60は、画像のどの領域を記憶するかを決定するために(たとえば、VRビデオの)特定の画像内の1つまたは複数の最上位関心領域を表すデータを使用してもよい。ディベロッパーはストレージ選択アルゴリズムを設計し、サーバデバイス60は、領域内で選択された関心の度合いに基づいて(たとえば、ディレクタの意見に基づいて)および/または領域内で導出された関心の度合いに基づいて(たとえば、コンテンツが利用可能になった後の暫時の視聴挙動のユーザ統計に基づいて)領域にランクを与えるためのアルゴリズムを実行してもよい。サーバデバイス60は、(たとえば、数週間、数か月、数年などの間、ビデオデータを記憶するように構成された)長期保存内に、しきい値を満足する(たとえば、しきい値より大きい)ランク値を有する特定の画像の領域に対するビデオデータを記憶してもよい。たとえば、特定の画像の最上位関心領域に対するランク値だけがしきい値を満足するとき、サーバデバイス60は、特定の画像の最上位関心領域に対するビデオデータだけを長期保存内に記憶し、特定の画像の他の領域に対するビデオデータを長期保存から除去してもよい。

クライアントデバイス40、サーバデバイス60、および/またはコンテンツ準備デバイス20は、本開示の技法に従って動作するように構成され得る。例として、本開示は、クライアントデバイス40およびサーバデバイス60に関するこれらの技法について説明する。しかしながら、コンテンツ準備デバイス20は、サーバデバイス60の代わりに(または、それに加えて)これらの技法を実施するように構成され得ることを理解されたい。

カプセル化ユニット30は、NALユニットが属するプログラム、ならびにペイロード、たとえばオーディオデータ、ビデオデータ、またはNALユニットが対応するトランスポートもしくはプログラムストリームを記述するデータを特定するヘッダを含むNALユニットを形成してもよい。たとえば、H.264/AVCにおいて、NALユニットは、1バイトのヘッダおよび可変サイズのペイロードを含む。そのペイロード内にビデオデータを含むNALユニットは、ビデオデータの様々な粒度レベルを含み得る。たとえば、NALユニットは、ビデオデータのブロック、複数のブロック、ビデオデータのスライス、またはビデオデータのピクチャ全体を含み得る。カプセル化ユニット30は、ビデオエンコーダ28からの符号化ビデオデータをエレメンタリストリームのPESパケットの形で受信することができる。カプセル化ユニット30は、各エレメンタリストリームを対応するプログラムに関連付けることができる。

カプセル化ユニット30はまた、複数のNALユニットからアクセスユニットをアセンブルすることができる。一般に、アクセスユニットは、ビデオデータのフレームならびにそのようなオーディオデータが利用可能であるときにそのフレームに対応するオーディオデータを表すために1つまたは複数のNALユニットを含むことができる。アクセスユニットは、一般に、1つの出力時間インスタンスに対するすべてのNALユニット、たとえば、1つの時間インスタンスに対するすべてのオーディオデータおよびビデオデータを含む。たとえば、各ビューが毎秒20フレーム(fps)のフレームレートを有する場合、各時間インスタンスは、0.05秒の時間間隔に対応する場合がある。この時間間隔中、同じアクセスユニット(同じ時間インスタンス)のすべてのビューに対する特定のフレームは、同時にレンダリングされ得る。一例では、アクセスユニットは、コーディングされた一次ピクチャとして提示される場合がある、1つの時間インスタンス内のコーディングされたピクチャを含んでもよい。

したがって、アクセスユニットは、共通の時間インスタンスのすべてのオーディオフレームおよびビデオフレーム、たとえば、時間Xに対応するすべてのビューを含むことができる。本開示はまた、特定のビューの符号化されたピクチャを「ビューコンポーネント(view component)」と呼ぶ。すなわち、ビューコンポーネントは、特定の時間における特定のビューに対する符号化されたピクチャ(またはフレーム)を含み得る。したがって、アクセスユニットは、共通の時間インスタンスのすべてのビューコンポーネントを含むものとして定義され得る。アクセスユニットの復号順序は、必ずしも出力または表示の順序と同じである必要はない。

メディアプレゼンテーションは、異なる代替表現(たとえば、異なる品質を有するビデオサービス)の記述を含む場合があるメディアプレゼンテーション記述(MPD)を含んでもよく、記述は、たとえば、コーデック情報、プロファイル値、およびレベル値を含んでもよい。MPDは、マニフェストファイル66など、マニフェストファイルの一例である。クライアントデバイス40は、メディアプレゼンテーションのMPDを取り出して、様々なプレゼンテーションのムービーフラグメントにどのようにアクセスするかを決定することができる。ムービーフラグメントは、ビデオファイルのムービーフラグメントボックス(moofボックス)内に配置され得る。

マニフェストファイル66(たとえば、MPDを含み得る)は、表現68のセグメントの可用性を広告することができる。すなわち、MPDは、表現68のうちの1つの第1のセグメントが利用可能になる壁時計時間を示す情報、ならびに表現68内のセグメントの持続時間を示す情報を含み得る。このようにして、クライアントデバイス40の取出しユニット52は、開始時間ならびに特定のセグメントに先行するセグメントの持続時間に基づいて、各セグメントが利用可能であるときを判断することができる。いくつかの例では、マニフェストファイル66は、本開示の技法を通じて、特定の画像内の1つまたは複数の最上位関心領域を表すデータを含み得る。

カプセル化ユニット30が、受信されたデータに基づいてNALユニットおよび/またはアクセスユニットをビデオファイルにアセンブルした後、カプセル化ユニット30は、ビデオファイルを出力のために出力インターフェース32に渡す。いくつかの例では、カプセル化ユニット30は、ビデオファイルを直接クライアントデバイス40に送る代わりに、ビデオファイルをローカルに記憶するか、または出力インターフェース32を介してビデオファイルをリモートサーバに送ることができる。出力インターフェース32は、たとえば、送信機、トランシーバ、たとえば、オプティカルドライブ、磁気媒体ドライブ(たとえば、フロッピードライブ)などのコンピュータ可読媒体にデータを書き込むためのデバイス、ユニバーサルシリアルバス(USB)ポート、ネットワークインターフェース、または他の出力インターフェースを含み得る。出力インターフェース32は、たとえば、送信信号、磁気媒体、光学媒体、メモリ、フラッシュドライブ、または他のコンピュータ可読媒体など、コンピュータ可読媒体にビデオファイルを出力する。

ネットワークインターフェース54は、ネットワーク74を介してNALユニットまたはアクセスユニットを受信し、NALユニットまたはアクセスユニットを取出しユニット52を介してカプセル化解除ユニット50に提供する。カプセル化解除ユニット50は、ビデオファイルの要素を、構成要素であるPESストリームへとカプセル化解除し、PESストリームをパケット化解除して符号化されたデータを取り出し、たとえば、ストリームのPESパケットヘッダによって示されるように、符号化されたデータがオーディオストリームの一部かビデオストリームの一部かに応じて、符号化されたデータをオーディオデコーダ46またはビデオデコーダ48のいずれかに送ることができる。オーディオデコーダ46は、符号化されたオーディオデータを復号し、復号されたオーディオデータをオーディオ出力部42に送る一方、ビデオデコーダ48は、符号化されたビデオデータを復号し、ストリームの複数のビューを含み得る復号されたビデオデータをビデオ出力部44に送る。

このようにして、コンテンツ準備デバイス20は、ビデオデータに対する情報をシグナリングするためのデバイスの一例を表し、デバイスは、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を決定するように構成されたプロセッサを含む。最上位関心領域は、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む。プロセッサは、最上位関心領域を表すデータを生成するようにさらに構成され得る。最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にある。

加えて、クライアントデバイス40は、ビデオデータに対する情報を決定するためのデバイスの一例を表し、デバイスは、最上位関心領域を表すデータに基づいてビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を決定するように構成されたプロセッサを含む。最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にある。プロセッサは、画像の1つまたは複数の最上位関心領域に対して高品質のビデオデータの要求を出力することと、画像の1つまたは複数の最上位関心領域に対する高品質のビデオデータの要求を出力した後、画像の1つまたは複数の他の領域に対して低品質のビデオデータの要求を出力することとを行うようにさらに構成され得る。

図2は、例示的なマルチメディアコンテンツ120の要素を示す概念図である。マルチメディアコンテンツ120は、マルチメディアコンテンツ64(図1)、または記憶媒体62に記憶された別のマルチメディアコンテンツに対応し得る。図2の例では、マルチメディアコンテンツ120は、メディアプレゼンテーション記述(MPD)122と複数の表現124A〜124N(表現124)とを含む。表現124Aは、任意のヘッダデータ126とセグメント128A〜128N(セグメント128)とを含む一方、表現124Nは、任意のヘッダデータ130とセグメント132A〜132N(セグメント132)とを含む。文字Nが、便宜的に、表現124の各々の最後のムービーフラグメントを指定するために使用される。いくつかの例では、表現124同士の間で異なる数のムービーフラグメントが存在し得る。

図2はシステム10(図1)がDASHに対して構成される一例を説明しているが、いくつかの例では、システム10は、他のメディア再生制御プロトコル、たとえば、限定はしないが、リアルタイムストリーミングプロトコル(RTSP)、リアルタイムトランスポートプロトコル(RTP)、RTP制御プロトコル(RTCP)、セッション記述プロトコル(SDP)、別のメディア再生制御プロトコル、またはそれらの組合せに対して構成され得る。

MPD122は、表現124とは別個のデータ構造を含んでよい。MPD122は、図1のマニフェストファイル66に対応し得る。同様に、表現124は、図2の表現68に対応し得る。一般に、MPD122は、コーディングおよびレンダリングの特性、適応セット、MPD122が対応するプロファイル、テキストタイプ情報、カメラアングル情報、レーティング情報、トリックモード情報(たとえば、時間的なサブシーケンスを含む表現を示す情報)、および/または離れた期間を検索するための情報(たとえば、再生中のメディアコンテンツへのターゲティング広告の挿入)のような、表現124の特性を一般に表すデータを含んでよい。

ヘッダデータ126は、存在するとき、セグメント128の特性、たとえば、ランダムアクセスポイント(RAP、ストリームアクセスポイント(SAP)とも呼ばれる)の時間的ロケーション、セグメント128のうちのどれがランダムアクセスポイントを含むのか、セグメント128内のランダムアクセスポイントへのバイトオフセット、セグメント128のユニフォームリソースロケータ(URL)、またはセグメント128の他の態様を記述し得る。ヘッダデータ130は、存在するとき、セグメント132の同様の特性を記述し得る。追加または代替として、そのような特性はMPD122内に完全に含まれ得る。

セグメント128、132は、1つまたは複数のコード化ビデオサンプルを含み、ビデオサンプルの各々が、ビデオデータのフレームまたはスライスを含み得る。セグメント128のコーディングされたビデオサンプルの各々は、同様の特性、たとえば、高さ、幅、および帯域幅要件を有し得る。そのような特性は、MPD122のデータによって記述され得るが、そのようなデータは図2の例には示されていない。MPD122は、本開示で説明するシグナリングされた情報のいずれかまたはすべてが加えられた、3GPP仕様によって記述されるような特性を含み得る。

セグメント128、132の各々は、固有のユニフォームリソースロケータ(URL)と関連付けられてもよい。したがって、セグメント128、132の各々は、DASHのようなストリーミングネットワークプロトコルを使用して別個に取出し可能であり得るが、他のストリーミングネットワークプロトコルが使用されてもよい。このようにして、クライアントデバイス40のような宛先デバイスは、HTTP GET要求を使用して、セグメント128または132を取り出してもよい。いくつかの例では、クライアントデバイス40は、HTTP部分GET要求を使用して、セグメント128または132の特定のバイト範囲を取り出す場合がある。たとえば、クライアントデバイス40は、第1のHTTP部分GET要求を使用して、最初にセグメント128、132のうちの1つから最上位関心領域を表すデータを取り出して最上位関心領域を決定してもよく、次いで、第2のHTTP部分GET要求を使用して、最上位関心領域データがたとえばファイルフォーマット情報内のセグメント128、132内に含まれると仮定して、最上位関心領域に対するビデオデータの高品質バージョンをセグメント128、132のうちの1つからプリフェッチしてもよい。

追加または代替として、本開示の技法によれば、MPD122は、1つまたは複数の最上位関心領域を示す要素または属性を含み得る。たとえば、MPD122は、セグメント128、132の各々に対して、最上位関心領域のそれぞれの位置および最上位関心領域のそれぞれのサイズを表す要素または属性を含み得る。

より具体的には、たとえば、MPD122は、セグメント128、132の各々(またはセグメント128、132内の1つまたは複数のピクチャ)に対して、最上位関心領域にわたってループする要素または属性を含んでもよく、ループの各反復は、最上位関心領域のうちの1つを表し、最上位関心領域の位置および最上位関心領域のサイズを表すシンタックス要素を含む。いくつかの例では、MPD122は、最上位関心領域の上部を表す第1のシンタックス要素、最上位関心領域の下部を表す第2のシンタックス要素、最上位関心領域の左側を表す第3のシンタックス要素、および最上位関心領域の右側を表す第4のシンタックス要素を、最上位関心領域の各々に対して含む要素または属性を、セグメント128、132の各々に対して含み得る。いくつかの例では、MPD122は、最上位関心領域の左上隅を表す第1のシンタックス要素、および最上位関心領域の右下隅を表す第2のシンタックス要素を、最上位関心領域の各々に対して含む要素または属性を、セグメント128、132の各々に対して含み得る。いくつかの例では、MPD122は、最上位関心領域の左上隅を表す第1のシンタックス要素、最上位関心領域の幅を表す第2のシンタックス要素、および最上位関心領域の高さを表す第3のシンタックス要素を、最上位関心領域の各々に対して含む要素または属性を、セグメント128、132の各々に対して含み得る。いくつかの例では、MPD122は、ルーマサンプル内の最上位関心領域のそれぞれの位置および最上位関心領域のそれぞれのサイズを表し得る。

図3は、図2のセグメント128、132のうちの1つなどの表現のセグメントに対応し得る例示的なビデオファイル150の要素を示すブロック図である。セグメント128、132の各々は、図3の例で示されるデータの構成に実質的に準拠するデータを含み得る。ビデオファイル150は、セグメントをカプセル化すると言われ得る。上記で説明したように、ISOベースのメディアファイルフォーマットおよびその拡張によるビデオファイルは、「ボックス」と呼ばれる一連のオブジェクト内にデータを記憶する。図3の例では、ビデオファイル150は、ファイルタイプ(FTYP)ボックス152と、動画(MOOV)ボックス154と、ムービーフラグメント(MOOF)ボックス164およびメディアデータ(MDAT)ボックス167の1つまたは複数のペアと、ムービーフラグメントランダムアクセス(MFRA)ボックス166とを含む。図3は、ビデオファイルの例を表すが、他のメディアファイルは、ISOベースのメディアファイルフォーマットおよびその拡張に従ってビデオファイル150のデータと同様に構成される他のタイプのメディアデータ(たとえば、オーディオデータ、時限のテキストデータなど)を含み得ることを理解されたい。

ファイルタイプ(FTYP)ボックス152は一般に、ビデオファイル150のファイルタイプを表す。ファイルタイプボックス152は、ビデオファイル150の最良の使用法を表す仕様を特定するデータを含み得る。ファイルタイプボックス152は、代替的には、MOOVボックス154、MOOFボックス164、および/またはMFRAボックス166の前に配置され得る。

MOOVボックス154は、図3の例では、動画ヘッダ(MVHD)ボックス156と、トラック(TRAK)ボックス158とを含む。一般に、MVHDボックス156は、ビデオファイル150の一般的な特性を記述し得る。たとえば、MVHDボックス156は、ビデオファイル150がいつ最初に作成されたかを表すデータ、ビデオファイル150がいつ最後に修正されたかを表すデータ、ビデオファイル150のタイムスケールを表すデータ、ビデオファイル150の再生の長さを表すデータ、または、ビデオファイル150を全般に表す他のデータを含み得る。

MOOVボックス154は、ビデオファイル150中のトラックの数と等しい数のTRAKボックスを含んでもよい。TRAKボックス158は、ビデオファイル150の対応するトラックの特性を記述し得る。たとえば、TRAKボックス158は、対応するトラックの時間情報および/または空間情報を記述し得る。TRAKボックス158は、ビデオファイル150のトラックのデータを含んでもよい。TRAKボックス158は、TRAKボックス158に対応するトラックの特性を記述する、トラックヘッダ(TKHD)ボックスを含んでもよい。いくつかの例では、TRAKボックス158は、コード化ビデオピクチャを含む場合があるが、他の例では、トラックのコード化ビデオピクチャはMDAT167に含まれてもよく、MDAT167はTRAKボックス158のデータによって参照されてもよい。

ビデオファイル150は、時限のメタデータトラックを含み得る。たとえば、ビデオファイル150は、1つまたは複数の時限のメタデータトラックを含む表現に対するものであり得る。たとえば、ビデオファイル150は、1つまたは複数の時限のメタデータトラックを含み、関連するメディアトラックを含まない表現124Nに対するものであり得る。いくつかの例では、ビデオファイル150は、関連するメディアトラックと一緒に多重化された1つまたは複数の時限のメタデータトラックを含む表現に対するものであり得る。たとえば、ビデオファイル150は、関連するメディアトラックと一緒に多重化された1つまたは複数の時限のメタデータトラックを含む表現124Aに対するものであり得る。いずれの場合にも、時限のメタデータトラックは、ビデオファイル150のトラックに対する記述的または注釈的メタデータを含み得る。

ビデオファイル150は、ビデオファイル150内に含まれる各それぞれのトラックに対してMOOFボックス164およびMDATボックス167のそれぞれのペアを含み得る。図示のように、各MOOFボックス164は、トラックフラグメント(TRAF)ボックス165を含み得る。TRAFボックス165は、図3の例では、サンプルツーグループ(SBGP)162を含む。SBGPボックス162は、サンプルまたはトラックが属するグループとそのサンプルグループの関連する記述とを説明し得る。TRAFボックス165は、カプセル化ユニット30(図1)がビデオファイル150などのビデオファイル中にパラメータセットトラックを含むとき、パラメータセットトラックの特性を表し得る。カプセル化ユニット30は、パラメータセットトラック内にシーケンスレベルSEIメッセージが存在することを、パラメータセットトラックを記述するTRAKボックス158内でシグナリングし得る。

MDATボックス167は、それぞれのトラックに対してSEIメッセージ172とVCL NALユニット170とを含み得る。VCL NALユニット170は、1つまたは複数のコード化ビデオピクチャを含み得る。いくつかの例では、VCL NALユニット170は、1つまたは複数のピクチャグループ(GOP)を含んでよく、GOPの各々は、いくつかのコード化ビデオピクチャ、たとえばフレームまたはピクチャを含み得る。

上述したように、カプセル化ユニット30は、実際のコード化ビデオデータを含まないビデオサンプル内にシーケンスデータセットを記憶してもよい。ビデオサンプルは、一般に、アクセスユニットに対応してもよく、アクセスユニットは、特定の時間インスタンスにおけるコード化ピクチャの表現である。AVCのコンテキストでは、アクセスユニットは、アクセスユニットと、SEIメッセージ172など、他の関連する非VCL NALユニットとのすべてのピクセルを構築するための情報を含む少なくとも1つのVCL NALユニット170を含む。したがって、カプセル化ユニット30は、SEIメッセージ172とVCL NALユニット170とを含み得るシーケンスデータセットを含み得る。カプセル化ユニット30は、さらに、シーケンスデータセットおよび/またはSEIメッセージ172の存在を、MDATボックス167中に存在するものとしてシグナリングし得る。

ビデオファイル150は、本開示の技法によって、1つまたは複数の最上位関心領域を表すデータを含み得る。より具体的には、ビデオファイル150は、ビデオファイル150のファイルフォーマットヘッダ情報内の1つまたは複数の最上位関心領域を表すデータを含み得る。たとえば、ビデオファイル150は、最上位関心領域情報をシグナリングするSEIメッセージおよび/またはファイルフォーマット情報を含み得る。たとえば、時限のメタデータトラックは、1つまたは複数の最上位関心領域を表すデータを含み得る。いくつかの例では、SBGPボックス162は、1つまたは複数の最上位関心領域を表すデータを含み得る。いくつかの例では、SEIメッセージ172は、1つまたは複数の最上位関心領域を表すデータを含み得る。

SEIメッセージ172は、H.264/AVC、H.265/HEVC、または他のビデオコーデック仕様の一部として含まれ得る。図3の例では、SEIメッセージは、たとえばVCL NALユニット170の対応するピクチャに対する最上位関心領域を表すデータを含む。他の例では、そのような最上位関心領域のデータは、1)ファイルフォーマット内の情報のシグナリングに対するファイルフォーマットボックスまたは構造、2)SDP内の情報のシグナリングに対するSDPフィールド、3)DASH MPD(たとえば、図2のMPD122)内の情報のシグナリングに対するDASH MPD属性または要素、4)MPEG-2トランスポートストリーム(TS)、別のボックスまたは構造、またはそれらの組合せの中の情報のシグナリングに対するMPEG-2 TS記述子の中に含まれ得る。

MFRAボックス166は、ビデオファイル150のムービーフラグメント内のランダムアクセスポイントを記述し得る。これは、ビデオファイル150によってカプセル化されたセグメント内の特定の時間的ロケーション(すなわち、再生時間)の探索を実施することなど、トリックモードを実施することを支援し得る。MFRAボックス166は、いくつかの例では、一般に任意選択であり、ビデオファイル中に含まれる必要はない。同様に、クライアントデバイス40のようなクライアントデバイスは、ビデオファイル150のビデオデータを正確に復号し表示するために、MFRAボックス166を必ずしも参照する必要はない。MFRAボックス166は、ビデオファイル150のトラックの数と等しい数のトラックフラグメントランダムアクセス(TFRA)ボックス(図示せず)を含んでよく、またはいくつかの例では、ビデオファイル150のメディアトラック(たとえば、非ヒントトラック)の数と等しい数のTFRAボックスを含んでよい。

いくつかの例では、ビデオファイル150のムービーフラグメントは、IDRピクチャなどの1つまたは複数のストリームアクセスポイント(SAP)を含み得る。同様に、MFRAボックス166は、SPAのビデオファイル150内の位置の指標を提供し得る。したがって、ビデオファイル150の時間的サブシーケンスは、ビデオファイル150のSAPから形成され得る。時間的サブシーケンスはまた、SAPに従属するPフレームおよび/またはBフレームなどの他のピクチャを含み得る。時間的サブシーケンスのフレームおよび/またはスライスは、サブシーケンスの他のフレーム/スライスに依存する時間的サブシーケンスのフレーム/スライスが適切に復号され得るように、セグメント内に並べられ得る。たとえば、データの階層的構成において、他のデータのための予測に使用されるデータはまた、時間的サブシーケンス内に含まれ得る。

ビデオファイル150は、最上位関心領域の数を示すシンタックス要素を含み得る。たとえば、時限のメタデータトラックは、最上位関心領域の数を示すシンタックス要素を含み得る。いくつかの例では、SBGPボックス162は、最上位関心領域の数を示すシンタックス要素を含み得る。いくつかの例では、SEIメッセージ172は、最上位関心領域の数を示すシンタックス要素を含み得る。

ビデオファイル150は、現在の事例内の情報が、出力順序における次の画像、または新しいコード化ビデオシーケンスの開始、またはビットストリームの終了まで持続するかどうかを示すシンタックス要素を含み得る。たとえば、時限のメタデータトラックは、時限のメタデータトラックの現在の事例内の情報が、出力順序における次の画像、または新しいコード化ビデオシーケンスの開始、またはビットストリームの終了まで持続するかどうかを示すシンタックス要素を含み得る。いくつかの例では、SBGPボックス162は、SBGPボックス162の現在の事例内の情報が、出力順序における次の画像、または新しいコード化ビデオシーケンスの開始、またはビットストリームの終了まで持続するかどうかを示すシンタックス要素を含み得る。いくつかの例では、SEIメッセージ172は、SEIメッセージ172の現在の事例内の情報が、出力順序における次の画像、または新しいコード化ビデオシーケンスの開始、またはビットストリームの終了まで持続するかどうかを示すシンタックス要素を含み得る。

ビデオファイル150は、復号順序におけるすべての前の事例の影響を削除するかどうかを示すシンタックス要素を含み得る。言い換えると、1つまたは複数の最上位関心領域が出力順序における次の画像、または新しいコード化ビデオシーケンスの開始、またはビットストリームの終了まで持続することを、1つまたは複数の最上位関心領域を表すデータが示す場合、影響を削除するかどうかを示すシンタックス要素は、1つまたは複数の最上位関心領域の持続性を除去し得る。たとえば、時限のメタデータトラックは、復号順序において前のすべての時限のメタデータトラックの事例の影響を削除するかどうかを示すシンタックス要素を含み得る。いくつかの例では、SBGPボックス162は、復号順序において前のすべてのSBGPボックス162の事例の影響を削除するかどうかを示すシンタックス要素を含み得る。いくつかの例では、SEIメッセージ172は、復号順序において前のすべてのSEIメッセージ172の事例の影響を削除するかどうかを示すシンタックス要素を含み得る。

ビデオファイル150は、最上位関心領域の各々に対して、シンタックス要素によって優先度を示してもよく、高い優先度は領域に対するより高い関心を示す。たとえば、時限のメタデータトラックは、最上位関心領域の各々に対して、シンタックス要素によって優先度を示してもよく、高い優先度は領域に対するより高い関心を示す。いくつかの例では、SBGPボックス162は、最上位関心領域の各々に対して、シンタックス要素によって優先度を示してもよく、高い優先度は領域に対するより高い関心を示す。いくつかの例では、SEIメッセージ172は、最上位関心領域の各々に対して、シンタックス要素によって優先度を示してもよく、高い優先度は領域に対するより高い関心を示す。

本開示の技法によれば、VCL NALユニット170内に含まれるビデオデータを含むビデオファイル150のファイルフォーマット情報内のデータ構造は、最上位関心領域のそれぞれの位置および最上位関心領域のそれぞれのサイズの表示を含み得る。

たとえば、時限のメタデータトラックは、最上位関心領域を表すデータを含み得る。たとえば、時限のメタデータトラックは、各ムービーフラグメントに対して、最上位関心領域のそれぞれの位置および最上位関心領域のそれぞれのサイズの表示を含み得る。

より具体的には、いくつかの例では、時限のメタデータトラックは、画像を形成する1つまたは複数のムービーフラグメントの各々に対して、最上位関心領域にわたるループの表示を含んでもよく、ループの各反復は、最上位関心領域のうちの1つを表し、画像に対するいくつかのルーマサンプルにおける位置および画像に対するいくつかのルーマサンプルにおける最上位関心領域のサイズを表すシンタックス要素を含む。

いくつかの例では、時限のメタデータトラックは、画像に対するいくつかのルーマサンプルにおける最上位関心領域の上部を表す第1のシンタックス要素、画像に対するいくつかのルーマサンプルにおける最上位関心領域の下部を表す第2のシンタックス要素、画像に対するいくつかのルーマサンプルにおける最上位関心領域の左側を表す第3のシンタックス要素、および画像に対するいくつかのルーマサンプルにおける最上位関心領域の右側を表す第4のシンタックス要素の表示を、1つまたは複数のムービーフラグメントの各々に対して含み得る。

いくつかの例では、時限のメタデータトラックは、画像に対するいくつかのルーマサンプルにおける最上位関心領域の左上隅を表す第1のシンタックス要素および画像に対するいくつかのルーマサンプルにおける最上位関心領域の右下隅を表す第2のシンタックス要素を、最上位関心領域の各々に対して含む要素または属性を、各ムービーフラグメントに対して含み得る。

いくつかの例では、時限のメタデータトラックは、画像に対するいくつかのルーマサンプルにおける最上位関心領域の左上隅を表す第1のシンタックス要素、画像に対するいくつかのルーマサンプルにおける最上位関心領域の幅を表す第2のシンタックス要素、および画像に対するいくつかのルーマサンプルにおける最上位関心領域の高さを表す第3のシンタックス要素を、最上位関心領域の各々に対して含む要素または属性を、各ムービーフラグメントに対して含み得る。

別の例では、SBGPボックス162は、最上位関心領域を表すデータを含み得る。たとえば、SBGPボックス162は、最上位関心領域のそれぞれの位置および最上位関心領域のそれぞれのサイズの表示を、各ムービーフラグメントに対して含み得る。

より具体的には、いくつかの例では、SBGPボックス162は、最上位関心領域にわたるループの表示を、画像を形成する各ムービーフラグメントに対して含んでもよく、ループの各反復は、最上位関心領域のうちの1つを表し、画像に対するいくつかのルーマサンプルにおける最上位関心領域の位置および画像に対するいくつかのルーマサンプルにおける最上位関心領域のサイズを表すシンタックス要素を含む。

いくつかの例では、SBGPボックス162は、画像に対するいくつかのルーマサンプルにおける最上位関心領域の上部を表す第1のシンタックス要素、画像に対するいくつかのルーマサンプルにおける最上位関心領域の下部を表す第2のシンタックス要素、画像に対するいくつかのルーマサンプルにおける最上位関心領域の左側を表す第3のシンタックス要素、および画像に対するいくつかのルーマサンプルにおける最上位関心領域の右側を表す第4のシンタックス要素の表示を、画像を形成する各ムービーフラグメントに対して含み得る。

いくつかの例では、SBGPボックス162は、画像に対するいくつかのルーマサンプルにおける最上位関心領域の左上隅を表す第1のシンタックス要素および画像に対するいくつかのルーマサンプルにおける最上位関心領域の右下隅を表す第2のシンタックス要素を、最上位関心領域の各々に対して含む要素または属性を、画像を形成する各ムービーフラグメントに対して含み得る。

いくつかの例では、SBGPボックス162は、画像に対するいくつかのルーマサンプルにおける最上位関心領域の左上隅を表す第1のシンタックス要素、画像に対するいくつかのルーマサンプルにおける最上位関心領域の幅を表す第2のシンタックス要素、および画像に対するいくつかのルーマサンプルにおける最上位関心領域の高さを表す第3のシンタックス要素を、最上位関心領域の各々に対して含む要素または属性を、画像を形成する各ムービーフラグメントに対して含み得る。

別の例では、SEIメッセージ172は、最上位関心領域を表すデータを含み得る。たとえば、SEIメッセージ172は、最上位関心領域のそれぞれの位置および最上位関心領域のそれぞれのサイズの表示を、画像を形成する各ムービーフラグメントに対して含み得る。

より具体的には、たとえば、SEIメッセージ172は、最上位関心領域にわたるループの表示を、画像を形成する各ムービーフラグメントに対して含んでもよく、ループの各反復は、最上位関心領域のうちの1つを表し、画像に対するいくつかのルーマサンプルにおける最上位関心領域の位置および画像に対するいくつかのルーマサンプルにおける最上位関心領域のサイズを表すシンタックス要素を含む。

いくつかの例では、SEIメッセージ172は、画像に対するいくつかのルーマサンプルにおける最上位関心領域の上部を表す第1のシンタックス要素、画像に対するいくつかのルーマサンプルにおける最上位関心領域の下部を表す第2のシンタックス要素、画像に対するいくつかのルーマサンプルにおける最上位関心領域の左側を表す第3のシンタックス要素、および画像に対するいくつかのルーマサンプルにおける最上位関心領域の右側を表す第4のシンタックス要素の表示を、画像を形成する各ムービーフラグメントに対して含み得る。

いくつかの例では、SEIメッセージ172は、画像に対するいくつかのルーマサンプルにおける最上位関心領域の左上隅を表す第1のシンタックス要素および画像に対するいくつかのルーマサンプルにおける最上位関心領域の右下隅を表す第2のシンタックス要素を、最上位関心領域の各々に対して含む要素または属性を、画像を形成する各ムービーフラグメントに対して含み得る。

いくつかの例では、SEIメッセージ172は、画像に対するいくつかのルーマサンプルにおける最上位関心領域の左上隅を表す第1のシンタックス要素、画像に対するいくつかのルーマサンプルにおける最上位関心領域の幅を表す第2のシンタックス要素、および画像に対するいくつかのルーマサンプルにおける最上位関心領域の高さを表す第3のシンタックス要素を、最上位関心領域の各々に対して含む要素または属性を、画像を形成する各ムービーフラグメントに対して含み得る。

図4は、立方体プロジェクション230における例示的なタイルコーディングを示す概念図である。立方体プロジェクション230は、図示のように立方体の面232A、232B、232Cを含み、かつ遮られているので見えない追加の立方体の面を含む。この例では、立方体プロジェクション230の立方体の面の各々は4つのタイルに分割され、立方体の面232Aは4つのタイル234A〜234Dに分割され、立方体の面232Bは4つのタイル236A〜236Dに分割され、立方体の面232Cは4つのタイル238A〜238Dに分割される。他の見えない立方体の面も同様に、4つのそれぞれのタイルに分割され、この例では、全部で24の小さいタイルに分割される。一般に、コンテンツ準備デバイス20は、タイルの各々(たとえば、タイル234A〜234D、236A〜236D、238A〜238D、および見えない立方体の面のタイル)に対するビデオデータを供給し得る。

加えて、コンテンツ準備デバイス20は、立方体の面の各々をカバーし得る大きいタイルに対するビデオデータを供給し得る。たとえば、コンテンツ準備デバイス20は、立方体の面232Aをカバーするタイルに対するビデオデータ、立方体の面232Bをカバーするタイルに対するビデオデータ、立方体の面232Cをカバーするタイルに対するビデオデータ、および見えない立方体の面をカバーするタイルに対するビデオデータを供給し得る。いくつかの例では、ビデオエンコーダ28は、見られる可能性がより高いそれらの視点に対してのみ、より大きいタイルサイズを符号化してもよい。したがって、ユーザが上または下を見る可能性が低い場合、ビデオエンコーダ28は、立方体の面232Bおよび232Cをカバーする大きいタイルに対して、ならびに立方体の面232Bおよび232Cに対向する立方体の面に対してのみビデオデータをコーディングしてもよいが、たとえば立方体の面232Aに対してコーディングしなくてもよい。場合によっては、タイルの各々は、ステレオビデオデータに対して左および右のビューを有してもよい。

VRは、自然画像および/または合成画像と、没入するユーザの動きによって相関付けられる音とをレンダリングすることによって作成される非物質世界の中に仮想的に存在する能力であり、ユーザがその世界と対話することを可能にする。ヘッドマウントディスプレイ(HMD)およびVRビデオクリエーション(しばしば、360度ビデオとも呼ばれる)などのレンダリングデバイスにおける最近の進歩によって、体験の顕著な品質が提供され得る。VRアプリケーションは、ゲーミング、トレーニング、教育、スポーツビデオ、オンラインショッピング、アダルトエントレインメント(adult entrainment)などを含む。

典型的なVRシステムは、以下の構成要素および技法を含む場合がある。
1)一般的に、異なる方向を指し、理想的にはカメラセット周りのすべての視点を包括的にカバーする複数の個々のカメラからなるカメラセット。
2)複数の個々のカメラで撮られたビデオピクチャが、時間領域内で同期され空間領域内でスティッチ(stich)されて全天球ビデオになるが、等角長方形(equi-rectangular)(世界地図のような)または立方体マップなどの長方形フォーマットにマッピングされる画像スティッチング(image stitching)。
3)マッピングされた長方形フォーマットにおけるビデオは、ビデオコーデック、たとえばH.265/HEVCまたはH.264/AVCを使用して符号化/圧縮される。
4)圧縮されたビデオビットストリームは、メディアフォーマット内に記憶および/またはカプセル化され、ネットワークを介して受信側に(おそらくはユーザによって見られているエリアのみをカバーするサブセットのみ)送信され得る。
5)受信側は、おそらくはフォーマットにカプセル化されたビデオビットストリーム、またはそれらの一部を受信して、復号されたビデオ信号またはそれらの一部をレンダリングデバイスに送信する。
6)レンダリングデバイスは、たとえばHMDであり得、HMDは、没入体験がユーザに配信されるように、頭の動きおよび眼球運動モーメントさえも追跡してビデオの対応する部分をレンダリングすることができる。

通常のビデオと比較してVRビデオの特徴は、VRにおいては一般的に、ビューポートとも呼ばれる現在のFOV、たとえばユーザによって現在見られているエリアに対応する、ビデオピクチャによって表される全ビデオ領域のうちのサブセットのみが表示される一方で、通常のビデオアプリケーションでは一般的に、全ビデオ領域が表示されることである。この特徴は、VRビデオシステムの性能を、たとえばビューポート依存のプロジェクションマッピングまたはビューポート依存のビデオコーディングを使用することによって改善するために利用され得る。性能改善は、同じ解像度/品質のビデオ部分がユーザに提示される状況で、従来のVRビデオシステムと比較してより低い送信帯域幅およびより低い復号の複雑さの一方または両方であり得る。

ビューポート依存のプロジェクションマッピングはまた、非対称プロジェクションマッピングと呼ばれる場合がある。一例は、サブサンプリングされた立方体マップ、たとえば立方体プロジェクション230である。典型的な立方体マップは、6つの等しいサイズの面を含み得る。サブサンプリングされた立方体マップの一例では、面のうちの1つはそのまま保持され得るが、反対側の面は元の面形状の中心エリアに位置するより小さいサイズにサブサンプリングまたはダウンスケールされ、他の面は適切に幾何学的にスケーリングされ得る(依然として6つの面を保持する)。極端には、反対側の面が一点にまでダウンスケールされ、したがって立方体が角錐になる場合がある。サブサンプリングされた立方体マップの別の例では、いくつかの面が比例的に、たとえば2×2の比によって(すなわち、面の縁に平行な各方向に2:1に)ダウンサイズされる。

そのようなダウンサイズされたスケーリングはまた、等角長方形など、他のプロジェクションマッピングに対して異なる領域に適用され得る。一例は、上部と下部の両領域(すなわち、ポール)をダウンサイズすることである。

ビューポート依存のビデオコーディングはまた、ビューポートベースの部分ビデオ復号と呼ばれる場合があり、符号化されたビデオの全領域を部分的に復号するだけで、現在のFOVまたはビューポートを表示するための十分な情報を供給することが可能になる。

ビューポート依存のビデオコーディングの一例では、VRビデオは、FOVまたはビューポートをカバーする潜在的な各領域が他の領域から単独で復号され得るように、動きを制約されたタイルのセットを使用してコーディングされる。特定の現在のFOVまたはビューポートに対して、現在のFOVまたはビューポートをカバーする単独で復号可能なタイルの最小セットのコード化ビデオデータがクライアントに送信され、復号されて表示される。この手法の欠点は、ユーザが、送信されたビデオデータによってカバーされない新しいFOVの方に迅速に彼または彼女の頭を向けたとき、ビデオデータのタイルによってカバーされないエリアでは、新しいFOVをカバーするデータが到着する前には何も見ることができないことである。これは、ネットワークのラウンドトリップ時間が極端に低い、たとえば10ミリ秒の大きさにおける場合でなければ容易に発生する可能性があり、これは、今日または近い将来において実現不可能なまたは少なくとも大きな課題である。

ビューポート依存のビデオコーディングの別の例が、その内容全体が参照により本明細書に組み込まれており、単独の多重解像度コーディング(IMRC)と名付けられた、2016年6月28日に出願された米国特許出願第15/195,439号において提案されており、そこにおいて、球面/パノラマビデオが、互いに別個の複数の異なる解像度において符号化され、各表現は動きを制約されたタイルのセットを使用してコーディングされる。受信側は、球面/パノラマビデオの異なる部分を異なる解像度で復号するために選択する。一般的には、ユーザによって現在観測されている球面ビデオの部分、すなわち現在のFOVまたは現在のビューポートは、最高の解像度でコーディングされたビデオビットストリームの部分である。現在のFOVを取り巻く領域は、わずかにより低い解像度を使用してコーディングされたビデオビットストリームの部分であり、以下同様である。観測者の頭の真後ろのパノラマの部分は、最低の解像度でコーディングされたビデオビットストリームの部分である。ユーザによる頭の動きがある場合、ユーザ体験は、多くの場合ほんの少し劣化するだけであり、品質劣化は突然、非常に大きく頭が動く場合にのみ最も厳しくなるが、それはまれであることが言及されている。

ビューポート依存のビデオコーディングのまた別の例では、多重解像度のビデオビットストリームは、SHVCなどのスケーラブルビデオコーデックを使用してスケーラブルコーディングされる。加えて、最低解像度ビデオ(またはベース層)の全ビットストリームは、常に送信される。最低解像度ビデオは、タイルまたは動きを制約されたタイルのセットを使用してコーディングされる必要はないが、それは、タイルまたは動きを制約されたタイルのセットを使用してコーディングされた場合でも働く。他の態様に対して、上記で説明したのと同じ方策が適用される。この手法は、最低解像度ビデオのより効率的なコーディングを可能にする。なぜならば、タイルまたは動きを制約されたタイルのセットのコーディングはコーディング効率を低減させ、またより高い解像度のストリームのより効率的なコーディングは、層間予測の使用によるからである。さらに、この手法はまた、より効率的なFOVスイッチングを可能にする。なぜならば、ひとたびFOVスイッチングが開始すると、サーバまたはエッジサーバは、(ベース層より)高い解像度のビデオストリームからの、新しいFOVの任意の領域をカバーしないビデオデータの送信を直ちに停止することができるからである。現在のFOVをカバーする最低解像度のビデオデータが送信されない(すなわち、現在のFOVをカバーする最高解像度のビデオデータだけが送信される)場合、FOVスイッチングの間、サーバは、時々、ユーザが古いFOVまたはそれらの一部の方に振り返る場合に、ユーザが少なくとも最低品質のビデオを見ることができるように備えるために、最高解像度のビデオストリームからの、古いFOVまたはそれらの一部だけをカバーするビデオデータの送信を継続しなければならない。

MPEG寄与文書(MPEG contribution)m37819では、VR再生が、ユーザが自分の頭を回さないときでもディレクタが視聴者に焦点を合わせてもらいたい動的に変化するビューポートを表示し得るか、または他のUIを介してビューポートを変更し得るように、ディレクタのカットについての情報のシグナリングおよび使用に関して、使用事例が議論された。そのようなビューポートは、シーンごとに全方位ビデオによって与えられ得ることが言及された。

タイル(たとえば、タイル234A〜234D、236A〜236D、238A〜238D、および見えない立方体の面のタイル)を要求するために品質を選択するために必ずユーザの視野にのみ依存するのではなく、本明細書で説明する1つまたは複数の技法は、クライアントデバイス40および/またはサーバデバイス60が、1つまたは複数の最上位関心領域を含む1つまたは複数のタイルに対する高品質のデータをプリフェッチすることを可能にする。たとえば、タイル234A〜234Dが1つまたは複数の最上位関心領域を含むことを1つまたは複数の最上位関心領域を表すデータが示すとき、クライアントデバイス40は、ユーザのFOVを受信する前にタイル234A〜234Dを要求してもよい。1つまたは複数の最上位関心領域内に含まれない画像の領域をFOVが含む場合の例では、ユーザのFOVを受信すると、クライアントデバイス40は、ユーザの現在のFOVをより低い品質において満足するためにさらなるタイル(たとえば、236A〜236D、238A〜238D)を要求してもよい。このようにして、1つまたは複数の最上位関心領域は、1つまたは複数の最上位関心領域が高品質で受信されることを可能にするためにプリフェッチ(たとえば、ユーザのFOVを受信する前にフェッチ)されてもよく、それによりバーチャルリアリティビデオなどのビデオの再生が改善され得る。

図5は、本開示で説明する1つまたは複数の技法による、ビデオデータに対する情報を決定するための例示的な手法を示すフローチャートである。図5の方法は、図1のクライアントデバイス40およびサーバデバイス60に関して説明される。しかしながら、他のデバイスがこれらの技法を実行するように構成されてもよいことを理解されたい。

最初に、サーバデバイス60は、画像の最上位関心領域を表すデータを送信し得る(300)。最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にあり得る。たとえば、サーバデバイス60は、最上位関心領域を表すデータを含む補足強調情報(SEI)メッセージを送信する。いくつかの例では、サーバデバイス60は、最上位関心領域を表すデータを含むサンプルグループボックス(たとえば、図3のSBGPボックス162)を送信する。いくつかの例では、サーバデバイス60は、最上位関心領域を表すデータを含む時限のメタデータトラックを送信する。

いずれの場合にも、クライアントデバイス40は、最上位関心領域を表すデータに基づいて画像の最上位関心領域を決定し得る(302)。たとえば、クライアントデバイス40は、最上位関心領域を表すデータを使用してそれぞれの最上位関心領域の位置およびそれぞれの最上位関心領域のサイズを表すシンタックス要素に対する値を、1つまたは複数の最上位関心領域の各々に対して決定し得る。

クライアントデバイス40は、1つまたは複数の最上位関心領域に対する高品質のビデオデータをプリフェッチし得る(304)。たとえば、クライアントデバイス40は、画像の他の領域と比較して比較的高いビットレートを使用する1つまたは複数の最上位関心領域に対するビデオデータを要求し得る。サーバデバイス60は、プリフェッチ要求を受信して(306)、1つまたは複数の最上位関心領域に対する高品質のビデオデータを送信し得る(308)。クライアントデバイス40は、高品質のビデオデータを受信し得る(310)。たとえば、クライアントデバイス40は、画像の他の領域に対するビデオデータより低いレイテンシおよび/または高い品質において1つまたは複数の最上位関心領域に対するビデオデータをフェッチし得る。

クライアントデバイス40は、画像の1つまたは複数の他の領域に対する低品質のビデオデータの要求を出力し得る(314)。たとえば、クライアントデバイス40は、1つまたは複数の最上位関心領域が図4の画像238A〜238Dを含むときならびにユーザのFOVが図4の画像238A〜238Dおよび234C〜234Dを含むとき、1つまたは複数の最上位関心領域に対するビデオ品質と比較して、図4の画像234C〜234Dに対する比較的低品質のビデオデータを要求し得る。FOVの外側の領域(たとえば、図4の画像234A〜234B)は、要求されないか、またはFOVを使用して決定された画像(たとえば、図4の画像238A〜238Dおよび234C〜234D)より比較的低い品質において要求され得ることを理解されたい。

サーバデバイス60は要求を受信し(316)、画像の1つまたは複数の他の領域に対する要求されたデータを送信し得る(318)。クライアントデバイス40は、要求されたデータを受信し得る(320)。クライアントデバイス40はユーザのFOVを決定し(321)、FOV内に含まれる領域に対するデータをユーザに出力し得る(322)。たとえば、クライアントデバイス40は、ユーザのFOVが図4の画像238A〜238Dおよび234C〜234Dを含むと決定し、高品質および低品質のビデオデータを使用して表示するために、図4の画像238A〜238Dおよび234C〜234Dを出力し得る(322)。

このようにして、図5の方法は、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を、ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある1つまたは複数の最上位関心領域を表すデータに基づいて、回路内に実装されたプロセッサであるクライアントデバイスのプロセッサによって決定するステップと、画像の1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を、クライアントデバイスのプロセッサによって出力するステップと、比較的高品質のビデオデータの要求を出力した後、画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を、クライアントデバイスのプロセッサによって出力するステップとを含む方法の一例を表す。

同様に、図5の方法はまた、ビデオデータの一画像の複数の領域の、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む、1つまたは複数の最上位関心領域を、回路内に実装されたプロセッサであるソースデバイスのプロセッサによって決定するステップと、ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある1つまたは複数の最上位関心領域を表すデータを、ソースデバイスのプロセッサによって生成するステップとを含む方法の一例を表す。

図6は、本開示で説明する1つまたは複数の技法による、ビデオデータに対する情報をシグナリングするための例示的な手法を示すフローチャートである。図6の方法は、図1のクライアントデバイス40およびサーバデバイス60に関して説明される。しかしながら、他のデバイスがこれらの技法を実行するように構成されてもよいことを理解されたい。

最初に、サーバデバイス60は、画像の1つまたは複数の最上位関心領域を決定し得る(330)。たとえば、サーバデバイス60は、1つまたは複数の最上位関心領域の、ディレクタまたはプロデューサーによる選択の表示を受信してもよく、またはサーバデバイス60(または別のデバイス)は、ユーザ統計から1つまたは複数の最上位関心領域を導出してもよい。いずれの場合にも、サーバデバイス60は、最上位関心領域を表すデータを生成し得る(332)。最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にあり得る。たとえば、サーバデバイス60は、最上位関心領域を表すデータを含む補足強調情報(SEI)メッセージを生成し得る。いくつかの例では、サーバデバイス60は、最上位関心領域を表すデータを含むサンプルグループボックス(たとえば、図3のSBGPボックス162)などのファイルフォーマットデータを生成し得る。いくつかの例では、サーバデバイス60は、最上位関心領域を表すデータを含む時限のメタデータトラックを生成し得る。

いずれの場合にも、サーバデバイス60は最上位関心領域を表すデータを送信し(334)、クライアントデバイス40は最上位関心領域を表すデータを受信し得る(336)。最上位関心領域を表すデータを受信したことに応答して、クライアントデバイス40は、1つまたは複数の最上位関心領域に対する高品質のビデオデータをプリフェッチするための要求を出力し得る(338)。サーバデバイス60は、1つまたは複数の最上位関心領域に対する高品質のビデオデータをプリフェッチするための要求を受信し(340)、1つまたは複数の最上位関心領域に対する高品質のビデオデータを送信し得る(342)。クライアントデバイス40は、高品質のビデオデータを受信し得る(344)。

クライアントデバイス40は、画像の1つまたは複数の他の領域に対する低品質のビデオデータの要求を出力し得る(346)。サーバデバイス60は、画像の1つまたは複数の他の領域に対する低品質のビデオデータの要求を受信し得る(348)。画像の1つまたは複数の他の領域に対する低品質のビデオデータの要求を受信したことに応答して、サーバデバイス60は、画像の1つまたは複数の他の領域に対する低品質のビデオデータを送信し得る(350)。クライアントデバイス40は、低品質のビデオデータを受信し得る(352)。図6の例には示されていないが、クライアントデバイス40は、次いで、たとえばユーザの視野に基づいて、たとえば図5に関して上記で説明したように、受信されたビデオデータの少なくとも一部をユーザに提示するために進む場合がある。

このようにして、図6の方法は、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を、ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある1つまたは複数の最上位関心領域を表すデータに基づいて、回路内に実装されたプロセッサであるクライアントデバイスのプロセッサによって決定するステップと、画像の1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を、クライアントデバイスのプロセッサによって出力するステップと、比較的高品質のビデオデータの要求を出力した後、画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を、クライアントデバイスのプロセッサによって出力するステップとを含む方法の一例を表す。

同様に、図6の方法はまた、ビデオデータの一画像の複数の領域の、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む、1つまたは複数の最上位関心領域を、回路内に実装されたプロセッサであるソースデバイスのプロセッサによって決定するステップと、ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある1つまたは複数の最上位関心領域を表すデータを、ソースデバイスのプロセッサによって生成するステップとを含む方法の一例を表す。

図7は、本開示で説明する1つまたは複数の技法による、ビデオデータをプリフェッチするための例示的な手法を示すフローチャートである。図7の方法は、図1のクライアントデバイス40およびサーバデバイス60に関して説明される。しかしながら、他のデバイスがこれらの技法を実行するように構成されてもよいことを理解されたい。図7の例では、サーバデバイス60は、最初に元のサーバからデータを取り出して、そのデータを一時的に記憶するCDNサーバとして構成され得る。図7の例は、クライアントデバイス40およびサーバデバイス60の一方または両方が最上位関心領域を表すデータを使用し得ることを示すことを理解されたい。

最初に、サーバデバイス60は、画像の最上位関心領域を表すデータを受信し得る(360)。最上位関心領域を表すデータは、ビデオデータを含むビットストリームのVCLデータの外部にあり得る。たとえば、サーバデバイス60は、最上位関心領域を表すデータを示す補足強調情報(SEI)メッセージを受信する。いくつかの例では、サーバデバイス60は、最上位関心領域を表すデータを含むサンプルグループボックス(たとえば、図3のSBGPボックス162)を受信する。いくつかの例では、サーバデバイス60は、最上位関心領域を表すデータを含む時限のメタデータトラックを受信する。いずれの場合にも、サーバデバイス60は、1つまたは複数の関心領域に対する高品質のビデオデータをプリフェッチし得る(362)。たとえば、サーバデバイス60は、1つまたは複数の最上位関心領域を使用して、1つまたは複数の最上位関心領域に対するビデオデータをプリフェッチし得る。たとえば、サーバデバイス60は、画像の他の領域に対するビデオデータより低いレイテンシおよび/または高い品質における1つまたは複数の最上位関心領域に対するビデオデータをフェッチし得る。

1つまたは複数の関心領域に対する高品質のビデオデータをプリフェッチすると、サーバデバイス60は、プリフェッチされた、1つまたは複数の最上位関心領域に対する高品質のビデオデータを記憶し得る(364)。サーバデバイス60がビデオデータを記憶(たとえば、キャッシュ)するように構成されたエッジサーバである一例では、サーバデバイス60は、高品質ビデオデータを記憶し得る。いくつかの例では、サーバデバイス60は、画像の最上位関心領域を表すデータに基づいて1つまたは複数の最上位関心領域に対する高品質のビデオデータに対する記憶の持続時間を決定し得る。たとえば、高品質のビデオデータが最上位関心領域に対するものであるとサーバデバイス60が決定したとき、サーバデバイス60は、高品質のビデオデータをより高くランク付けてもよく、それにより最上位関心領域に対する高品質のビデオデータは長期保存のために保持される一方で、最上位関心領域に対する高品質のビデオデータと同様の時間において取り出された(たとえば、他の領域に対する)他のビデオデータは除去される。

クライアントデバイス40は、1つまたは複数の最上位関心領域に対する高品質のビデオデータをプリフェッチするための要求を出力し得る(366)。たとえば、クライアントデバイス40は、画像の他の領域と比較して比較的高いビットレートを使用する1つまたは複数の最上位関心領域に対するビデオデータを要求し得る。サーバデバイス60は、プリフェッチ要求を受信して(368)、1つまたは複数の最上位関心領域に対する高品質のビデオデータを送信し得る(370)。クライアントデバイス40は、高品質のビデオデータを受信し得る(372)。

クライアントデバイス40は、画像の1つまたは複数の他の領域に対する低品質のビデオデータの要求を出力し得る(374)。サーバデバイス60は、画像の1つまたは複数の他の領域に対する低品質のビデオデータの要求を受信し得る(376)。画像の1つまたは複数の他の領域に対する低品質のビデオデータの要求を受信したことに応答して、サーバデバイス60は、画像の1つまたは複数の他の領域に対する低品質のビデオデータをフェッチして(378)、画像の1つまたは複数の他の領域に対する低品質のビデオデータを送信し得る(380)。クライアントデバイス40は、低品質のビデオデータを受信し得る(382)。図7の例には示されていないが、クライアントデバイス40は、次いで、たとえばユーザの視野に基づいて、たとえば図5に関して上記で説明したように、受信されたビデオデータの少なくとも一部をユーザに提示するために進む場合がある。

このようにして、図7の方法は、ビデオデータの一画像の複数の領域のうちの1つまたは複数の最上位関心領域を、ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある1つまたは複数の最上位関心領域を表すデータに基づいて、回路内に実装されたプロセッサであるクライアントデバイスのプロセッサによって決定するステップと、画像の1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を、クライアントデバイスのプロセッサによって出力するステップと、比較的高品質のビデオデータの要求を出力した後、画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を、クライアントデバイスのプロセッサによって出力するステップとを含む方法の一例を表す。

同様に、図7の方法はまた、ビデオデータの一画像の複数の領域の、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む、1つまたは複数の最上位関心領域を、回路内に実装されたプロセッサであるソースデバイスのプロセッサによって決定するステップと、ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある1つまたは複数の最上位関心領域を表すデータを、ソースデバイスのプロセッサによって生成するステップとを含む方法の一例を表す。

1つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せとして実装され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、またはコンピュータ可読媒体を介して送信され、ハードウェアベース処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体、または、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む通信媒体を含み得る。このように、コンピュータ可読媒体は、一般に、(1)非一時的な有形コンピュータ可読記憶媒体、または(2)信号もしくは搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明した技法の実施のための命令、コード、および/またはデータ構造を取り出すために、1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品がコンピュータ可読媒体を含んでよい。

限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、フラッシュメモリ、または、命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用されコンピュータによってアクセスされ得る任意の他の媒体を備え得る。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まず、代わりに非一時的有形記憶媒体を対象とすることを理解されたい。ディスク(disk)およびディスク(disc)は、本明細書で使用するとき、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)、およびブルーレイディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、レーザーを用いてデータを光学的に再生する。上記の組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

命令は、1つまたは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、または他の等価な集積論理回路もしくはディスクリート論理回路などの、1つまたは複数のプロセッサによって実行され得る。したがって、本明細書において使用される「プロセッサ」という用語は、上記の構造、または本明細書において説明される技法の実装に適した任意の他の構造のいずれかを指すことがある。加えて、いくつかの態様では、本明細書において説明される機能は、符号化および復号のために構成された専用のハードウェアモジュールおよび/もしくはソフトウェアモジュール内で与えられることがあり、または複合コーデックに組み込まれることがある。また、技法は、1つまたは複数の回路または論理要素において完全に実装される可能性がある。

本開示の技法は、ワイヤレスハンドセット、集積回路(IC)、またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置の中に実装され得る。開示する技法を実行するように構成されたデバイスの機能的態様を強調するために、様々な構成要素、モジュール、またはユニットが本開示で説明されるが、それらは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明したように、様々なユニットは、コーデックハードウェアユニットにおいて組み合わせられてよく、または好適なソフトウェアおよび/もしくはファームウェアとともに、上記で説明したような1つもしくは複数のプロセッサを含む、相互動作可能なハードウェアユニットの集合によって提供されてよい。

様々な例が記載されている。これらおよび他の例は、以下の特許請求の範囲内に入る。

10 システム
20 コンテンツ準備デバイス
22 オーディオソース
24 ビデオソース
26 オーディオエンコーダ
28 ビデオエンコーダ
30 カプセル化ユニット
32 出力インターフェース
40 クライアントデバイス
42 オーディオ出力
44 ビデオ出力
46 オーディオデコーダ
48 ビデオデコーダ
50 カプセル化解除ユニット
52 取出しユニット
54 ネットワークインターフェース
60 サーバデバイス
62 記憶媒体
64 マルチメディアコンテンツ
66 マニフェストファイル
68、68A〜68N 表現
70 要求処理ユニット
72 ネットワークインターフェース
74 ネットワーク
120 マルチメディアコンテンツ
122 メディアプレゼンテーション記述(MPD)
124、124A〜124N 表現
126 ヘッダデータ
128、128A〜128N セグメント
130 ヘッダデータ
132、132A〜132N セグメント
150 ビデオファイル
152 ファイルタイプ(FTYP)ボックス
154 動画(MOOV)ボックス
156 動画ヘッダ(MVHD)ボックス
158 トラック(TRAK)ボックス
162 サンプルツーグループ(SBGP)
164 MOOFボックス
165 トラックフラグメント(TRAF)ボックス
166 MFRAボックス
167 MDATボックス
170 VCL NALユニット
172 SEIメッセージ
230 立方体プロジェクション
232A 立方体の面
232B 立方体の面
232C 立方体の面
234A タイル
234B タイル
234C タイル
234D タイル
236A〜236D タイル
238A〜238D タイル

Claims

ビデオデータに対する情報を決定する方法であって、
ビデオデータの画像中の複数の領域のうちの1つまたは複数の最上位関心領域を、前記ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある前記1つまたは複数の最上位関心領域を表すデータに基づいて、回路内に実装されたプロセッサであるクライアントデバイスのプロセッサによって決定するステップと、
前記画像の前記1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を、前記クライアントデバイスの前記プロセッサによって出力するステップと、
前記比較的高品質のビデオデータの前記要求を出力した後、前記画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を、前記クライアントデバイスの前記プロセッサによって出力するステップと
を含む、方法。
前記画像の前記1つまたは複数の最上位関心領域に対する前記比較的高品質のビデオデータの前記要求を出力した後、視野(FOV)に基づいて後続の画像の1つまたは複数の領域に対する比較的高品質のビデオデータの要求を、前記クライアントデバイスの前記プロセッサによって出力するステップをさらに含む、請求項1に記載の方法。
前記1つまたは複数の最上位関心領域を決定するステップが、前記1つまたは複数の最上位関心領域を表す前記データを含む補足強調情報(SEI)メッセージに基づいて前記1つまたは複数の最上位関心領域を決定するステップを含む、請求項1に記載の方法。
前記1つまたは複数の最上位関心領域を決定するステップが、前記1つまたは複数の最上位関心領域を表す前記データを含むサンプルグループボックスに基づいて前記1つまたは複数の最上位関心領域を決定するステップを含み、前記サンプルグループボックスが、前記VCLデータを含むファイルのファイルフォーマットヘッダ情報内に含まれる、請求項1に記載の方法。
前記画像の前記複数の領域のうちの前記1つまたは複数の最上位関心領域を決定するステップが、前記1つまたは複数の最上位関心領域を表す前記データを含む時限のメタデータトラックに基づいて前記画像の前記複数の領域のうちの前記1つまたは複数の最上位関心領域を決定するステップを含む、請求項1に記載の方法。
前記1つまたは複数の最上位関心領域を決定するステップが、前記1つまたは複数の最上位関心領域を表す前記データを含む動的適応ストリーミングオーバーHTTP(DASH)メディアプレゼンテーション記述(MPD)に基づいて前記1つまたは複数の最上位関心領域を決定するステップを含む、請求項1に記載の方法。
前記1つまたは複数の最上位関心領域を決定するステップが、前記1つまたは複数の最上位関心領域を表す前記データの少なくとも1つのシンタックス要素に基づいて前記1つまたは複数の最上位関心領域を決定するステップを含み、前記シンタックス要素が、前記1つまたは複数の最上位関心領域の数を表す値を有する、請求項1に記載の方法。
前記1つまたは複数の最上位関心領域を決定するステップが、それぞれの最上位関心領域の位置および前記それぞれの最上位関心領域のサイズを表す複数のシンタックス要素に対する複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するステップを含む、請求項1に記載の方法。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するステップが、前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記それぞれの最上位関心領域にわたるループを、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するステップを含む、請求項8に記載の方法。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するステップが、前記それぞれの最上位関心領域の上部を表す第1のシンタックス要素、前記それぞれの最上位関心領域の下部を表す第2のシンタックス要素、前記それぞれの最上位関心領域の左側を表す第3のシンタックス要素、および前記それぞれの最上位関心領域の右側を表す第4のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するステップを含む、請求項8に記載の方法。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するステップが、前記それぞれの最上位関心領域の左上隅を表す第1のシンタックス要素、および前記それぞれの最上位関心領域の右下隅を表す第2のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するステップを含む、請求項8に記載の方法。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するステップが、前記それぞれの最上位関心領域の左上隅を表す第1のシンタックス要素、前記それぞれの最上位関心領域の幅を表す第2のシンタックス要素、および前記それぞれの最上位関心領域の高さを表す第3のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するステップを含む、請求項8に記載の方法。
ビデオデータに対する情報を決定するためのデバイスであって、前記デバイスが回路内に実装された1つまたは複数のプロセッサを備え、前記回路が、
ビデオデータの画像中の複数の領域のうちの1つまたは複数の最上位関心領域を、前記ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある前記1つまたは複数の最上位関心領域を表すデータに基づいて、決定することと、
前記画像の前記1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を出力することと、
前記比較的高品質のビデオデータの前記要求を出力した後、前記画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を出力することと
を行うように構成される、デバイス。
前記1つまたは複数の最上位関心領域を決定するために、前記1つまたは複数のプロセッサが、
前記1つまたは複数の最上位関心領域を表す前記データを含むサンプルグループボックスに基づいて前記1つまたは複数の最上位関心領域を決定するようにさらに構成され、前記サンプルグループボックスが、前記VCLデータを含むファイルのファイルフォーマットヘッダ情報内に含まれる、請求項13に記載のデバイス。
前記1つまたは複数の最上位関心領域を決定するために、前記1つまたは複数のプロセッサが、
前記1つまたは複数の最上位関心領域を表す前記データを含む時限のメタデータトラックに基づいて前記1つまたは複数の最上位関心領域を決定するようにさらに構成される、請求項13に記載のデバイス。
前記1つまたは複数の最上位関心領域を決定するために、前記1つまたは複数のプロセッサが、
前記1つまたは複数の最上位関心領域を表す前記データの少なくとも1つのシンタックス要素に基づいて前記1つまたは複数の最上位関心領域を決定するようにさらに構成され、前記シンタックス要素が、前記1つまたは複数の最上位関心領域の数を表す値を有する、請求項13に記載のデバイス。
前記1つまたは複数の最上位関心領域を決定するために、前記1つまたは複数のプロセッサが、
それぞれの最上位関心領域の位置および前記それぞれの最上位関心領域のサイズを表す複数のシンタックス要素に対する複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するようにさらに構成される、請求項13に記載のデバイス。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するために、前記1つまたは複数のプロセッサが、
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記それぞれの最上位関心領域にわたるループを、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するようにさらに構成される、請求項17に記載のデバイス。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するために、前記1つまたは複数のプロセッサが、
前記それぞれの最上位関心領域の上部を表す第1のシンタックス要素、前記それぞれの最上位関心領域の下部を表す第2のシンタックス要素、前記それぞれの最上位関心領域の左側を表す第3のシンタックス要素、および前記それぞれの最上位関心領域の右側を表す第4のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するようにさらに構成される、請求項17に記載のデバイス。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するために、前記1つまたは複数のプロセッサが、
前記それぞれの最上位関心領域の左上隅を表す第1のシンタックス要素、前記それぞれの最上位関心領域の幅を表す第2のシンタックス要素、および前記それぞれの最上位関心領域の高さを表す第3のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して決定するようにさらに構成される、請求項17に記載のデバイス。
ビデオデータに対する情報を決定するためのデバイスであって、
ビデオデータの画像中の複数の領域のうちの1つまたは複数の最上位関心領域を、前記ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある前記1つまたは複数の最上位関心領域を表すデータに基づいて、決定するための手段と、
前記画像の前記1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を出力するための手段と、
前記比較的高品質のビデオデータの前記要求を出力した後、前記画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を出力するための手段と
を含む、デバイス。
命令を記憶したコンピュータ可読記憶媒体であって、前記命令が、実行されると、プロセッサに、
ビデオデータの画像中の複数の領域のうちの1つまたは複数の最上位関心領域を、前記ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある前記1つまたは複数の最上位関心領域を表すデータに基づいて、決定することと、
前記画像の前記1つまたは複数の最上位関心領域に対する比較的高品質のビデオデータの要求を出力することと、
前記比較的高品質のビデオデータの前記要求を出力した後、前記画像の1つまたは複数の他の領域に対する比較的低品質のビデオデータの要求を出力することと
を行わせる、コンピュータ可読記憶媒体。
ビデオデータに対する情報をシグナリングする方法であって、
ビデオデータの画像中の複数の領域の、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む、1つまたは複数の最上位関心領域を、回路内に実装されたプロセッサであるソースデバイスのプロセッサによって決定するステップと、
前記ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある前記1つまたは複数の最上位関心領域を表すデータを、前記ソースデバイスの前記プロセッサによって生成するステップと
を含む、方法。
前記1つまたは複数の最上位関心領域を表す前記データを生成するステップが、前記1つまたは複数の最上位関心領域を表す前記データを含む補足強調情報(SEI)メッセージを生成するステップを含む、請求項23に記載の方法。
前記1つまたは複数の最上位関心領域を表す前記データを生成するステップが、前記1つまたは複数の最上位関心領域を表す前記データを含むサンプルグループボックスを生成するステップを含み、前記サンプルグループボックスが、前記VCLデータを含むファイルのファイルフォーマットヘッダ情報内に含まれる、請求項23に記載の方法。
前記1つまたは複数の最上位関心領域を表す前記データを生成するステップが、前記1つまたは複数の最上位関心領域を表す前記データを含む時限のメタデータトラックを生成するステップを含む、請求項23に記載の方法。
前記1つまたは複数の最上位関心領域を表す前記データを生成するステップが、前記1つまたは複数の最上位関心領域を表す前記データを含む動的適応ストリーミングオーバーHTTP(DASH)メディアプレゼンテーション記述(MPD)を生成するステップを含む、請求項23に記載の方法。
前記1つまたは複数の最上位関心領域を表す前記データを生成するステップが、前記1つまたは複数の最上位関心領域を表す前記データの少なくとも1つのシンタックス要素を生成するステップを含み、前記シンタックス要素が、前記1つまたは複数の最上位関心領域の数を表す値を有する、請求項23に記載の方法。
前記1つまたは複数の最上位関心領域を表す前記データを生成するステップが、それぞれの最上位関心領域の位置および前記それぞれの最上位関心領域のサイズを表す複数のシンタックス要素に対する複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するステップを含む、請求項23に記載の方法。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するステップが、前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記それぞれの最上位関心領域にわたるループを、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するステップを含む、請求項29に記載の方法。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するステップが、前記それぞれの最上位関心領域の上部を表す第1のシンタックス要素、前記それぞれの最上位関心領域の下部を表す第2のシンタックス要素、前記それぞれの最上位関心領域の左側を表す第3のシンタックス要素、および前記それぞれの最上位関心領域の右側を表す第4のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するステップを含む、請求項29に記載の方法。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するステップが、前記それぞれの最上位関心領域の左上隅を表す第1のシンタックス要素、および前記それぞれの最上位関心領域の右下隅を表す第2のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するステップを含む、請求項29に記載の方法。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するステップが、前記それぞれの最上位関心領域の左上隅を表す第1のシンタックス要素、前記それぞれの最上位関心領域の幅を表す第2のシンタックス要素、および前記それぞれの最上位関心領域の高さを表す第3のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するステップを含む、請求項29に記載の方法。
前記1つまたは複数の最上位関心領域を決定するステップが、ディレクタの意図またはユーザ統計のうちの1つまたは複数を使用して前記最上位関心領域を決定するステップを含む、請求項23に記載の方法。
ビデオデータに対する情報をシグナリングするためのデバイスであって、前記デバイスが回路内に実装された1つまたは複数のプロセッサを備え、前記回路が、
ビデオデータの画像中の複数の領域の、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む、1つまたは複数の最上位関心領域を決定することと、
前記ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある前記1つまたは複数の最上位関心領域を表すデータを生成することと
を行うように構成される、デバイス。
前記1つまたは複数の最上位関心領域を表すデータを生成するために、前記1つまたは複数のプロセッサが、
前記1つまたは複数の最上位関心領域を表す前記データを含み、前記VCLデータを含むファイルのファイルフォーマットヘッダ情報内に含まれる、サンプルグループボックスを生成するようにさらに構成される、請求項35に記載のデバイス。
前記1つまたは複数の最上位関心領域を表すデータを生成するために、前記1つまたは複数のプロセッサが、
前記1つまたは複数の最上位関心領域を表す前記データを含む時限のメタデータトラックを生成するようにさらに構成される、請求項35に記載のデバイス。
前記1つまたは複数の最上位関心領域を表すデータを生成するために、前記1つまたは複数のプロセッサが、
前記1つまたは複数の最上位関心領域の数を表す値を生成するようにさらに構成される、請求項35に記載のデバイス。
前記1つまたは複数の最上位関心領域を表すデータを生成するために、前記1つまたは複数のプロセッサが、
それぞれの最上位関心領域の位置および前記それぞれの最上位関心領域のサイズを表す複数のシンタックス要素に対する複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するようにさらに構成される、請求項35に記載のデバイス。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するために、前記1つまたは複数のプロセッサが、
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記それぞれの最上位関心領域にわたるループを、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するようにさらに構成される、請求項39に記載のデバイス。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するために、前記1つまたは複数のプロセッサが、
前記それぞれの最上位関心領域の上部を表す第1のシンタックス要素、前記それぞれの最上位関心領域の下部を表す第2のシンタックス要素、前記それぞれの最上位関心領域の左側を表す第3のシンタックス要素、および前記それぞれの最上位関心領域の右側を表す第4のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するようにさらに構成される、請求項39に記載のデバイス。
前記それぞれの最上位関心領域の前記位置および前記それぞれの最上位関心領域の前記サイズを表す前記複数のシンタックス要素に対する前記複数の値を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するために、前記1つまたは複数のプロセッサが、
前記それぞれの最上位関心領域の左上隅を表す第1のシンタックス要素、前記それぞれの最上位関心領域の幅を表す第2のシンタックス要素、および前記それぞれの最上位関心領域の高さを表す第3のシンタックス要素を、前記1つまたは複数の最上位関心領域の各最上位関心領域に対して生成するようにさらに構成される、請求項39に記載のデバイス。
ビデオデータに対する情報をシグナリングするためのデバイスであって、
ビデオデータの画像中の複数の領域の、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む、1つまたは複数の最上位関心領域を決定するための手段と、
前記ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある前記1つまたは複数の最上位関心領域を表すデータを生成するための手段と
を含む、デバイス。
命令を記憶したコンピュータ可読記憶媒体であって、前記命令が、実行されると、プロセッサに、
ビデオデータの画像中の複数の領域の、クライアントデバイスによって取り出される可能性が最も高い1つまたは複数の領域を含む、1つまたは複数の最上位関心領域を決定することと、
前記ビデオデータを含むビットストリームのビデオコーディング層(VCL)データの外部にある前記1つまたは複数の最上位関心領域を表すデータを生成することと
を行わせる、コンピュータ可読記憶媒体。