JP7256212B2

JP7256212B2 - ３６０°没入型ビデオを提供するためのタイル選択および帯域幅最適化

Info

Publication number: JP7256212B2
Application number: JP2020568708A
Authority: JP
Inventors: クリスフィリップス，; ロバートハモンドフォースマン，; サレルコーエン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2018-06-14
Filing date: 2019-05-08
Publication date: 2023-04-11
Anticipated expiration: 2039-05-08
Also published as: JP2021527356A; US10623736B2; BR112020025316A2; CN112292864B; EP3808095A1; CO2020015395A2; KR20210018908A; CN112292864A; WO2019238317A1; US20190387224A1

Description

本開示は、一般に、通信ネットワークに関する。より詳細には、限定をするものではないが、本開示は、ストリーミングネットワーク環境において３６０°没入型ビデオを提供するためのタイル選択および帯域幅最適化のシステムおよび方法を対象とする。

仮想現実の導入により、いくつかの既存技術の改善に加えて、新しいアプリケーションが最前線に登場した。パノラマビデオ、３６０度ビデオ、または３６０ビデオなどとも呼ばれる３６０°没入型ビデオについては、既存技術を上回る１つの改善が見られ得る。

３６０度ビデオは、没入型の「そこにいる」という体感をユーザに提供する。仮想現実の没入感の向上は、ビデオに簡単に適用することができ、平面上に投影される従来のビデオよりも優れたユーザ体感を提供する。また、ヘッドマウントディスプレイ（ＨＭＤ：ｈｅａｄ－ｍｏｕｎｔｅｄｄｉｓｐｌａｙ）またはヘッドセットなどの、全方向キャプチャシステムおよび対話型表示システムの出現によって、ナビゲート可能な３６０度ビデオシステムの人気が高まった。しかしながら、３６０度ビデオ資産は、膨大な量のデータを必要とするシーンの全方向ビューを含む超高解像度球形ビデオであるので、コンテンツプロバイダは、満足のいく鑑賞体感を保証するために、３６０度ビデオコンテンツを効率的な方法で配信するように、帯域幅に制約のあるネットワーク環境に取り組んでいる。

現在の３６０ビデオヘッドセットは、片目あたり１Ｋをカバーする２Ｋ解像度の表示デバイスである。ヘッドセットにおいて最良の品質を実現するために、典型的なネットワークでは、８Ｋの３６０ビデオストリームをデバイスに送る必要がある。ビデオ圧縮は、ピクチャを表現するためのビット数を低減させることによって、メディアストリーミングネットワークにおける帯域幅の効率的な利用を可能にすることが知られている。ビデオ圧縮技術における進歩は急速に成長し続けているが、３６０ビデオの配信および表示の分野では、今日のネットワーク環境で帯域幅を効率的に管理することに関していくつかの問題が残っており、したがって、以下に説明するようにさらなる革新が必要である。

本特許開示は、最適化された３６０°没入型ビデオ鑑賞体感を実現するためのシステム、方法、装置、デバイス、ならびに関連する非一時的なコンピュータ可読媒体およびネットワークアーキテクチャを広く対象とする。一態様では、特定の実施形態は、ソースビデオストリームを異なる品質を有するタイル符号化ストリームに符号化することを含む構成で実装され得る、最適化された符号化方式を対象とする。さらなる態様では、特定の実施形態は、ユーザのビューポートに対するタイルのロケーションに基づいてタイル重みを決定する際にユーザ注視ベクトル情報を利用することを対象とする。さらに別の態様では、例示的な実施形態は、タイル選択および帯域幅アニーリング方式を対象とし、鑑賞体感を向上させるために、多重化されたコード化されたビデオシーケンスにステッチするための注視ベクトル情報および帯域幅割当に対応して、帯域幅が最適化されたタイルが選択される。

メディア準備システムおよび方法を対象とする一実施形態において、メディア入力ストリームは、たとえば、ＱＰ（量子化パラメータ）に関連する、異なる品質を有するビットストリームの第１のセットにコード化され、各グループオブピクチャ（ＧＯＰ：Ｇｒｏｕｐ－ｏｆ－Ｐｉｃｔｕｒｅｓ）は、イントラコード化（Ｉ）フレームで始まり、その後に少なくとも１つの予測コード化（Ｐ）フレームを含むフレームのセットが続く。メディア入力ストリームはまた、異なる品質を有するビットストリームの第２のセットにコード化され、各ＧＯＰは、Ｉフレームで始まり、その後に複数のＸフレーム（ブロックイントラ符号化フレームまたは全イントラ符号化フレームとも呼ばれる）が続く。一変形形態では、各Ｘフレームは、Ｐフレームのスライスヘッダを有し、かつイントラコード化データのみのブロック（たとえば、Ｉブロック）を含むように符号化される。別の変形形態では、Ｘフレームは、双予測コード化フレーム（Ｂフレーム）のスライスヘッダを有し、かつ画像データのＩブロックのみ伴うように符号化される。３６０°没入型ビデオコンテンツのプレイアウト中、ＧＯＰの途中でビューポートが変更されたとき、かつ／または帯域幅割当が変更された場合、最小のレイテンシで鑑賞体感を向上させるために、新しいビューポートに関して、Ｘフレーム内のより高品質のデータが、コード化されたビデオシーケンスにステッチされる。

メディア準備システムおよび方法を対象とする別の実施形態において、メディア入力ストリームは、メディア入力ストリームの複数のビットレート表現を生成するようにコード化され、各ビットレート表現は、ビットレート表現に使用されるＱＰ値に関連する別個のビデオ品質を有する。各ビットレート表現は、複数の位相符号化ビットストリームに符号化され、特定のビットレート表現に属する各位相符号化ビットストリームは、ＧＯＰサイズ（ｐ）を有する特定のＧＯＰ構造を伴う（Ｎ）個のフレームを含み、複数の位相符号化ビットストリームは、ＧＯＰサイズに等しい。ｐ番目の位相符号化ビットストリームごとに、Ｎ個のフレームは、次のように符号化される。少なくとも最初のフレームは、イントラコード化（Ｉ）フレームとして符号化され、２≦ｉ≦Ｎの場合、｛ｉＭｏｄ（ＧＯＰサイズ）｝＝ｐを満たすフレーム位置ｉのフレームは、予測コード化（Ｐ）フレームのスライスヘッダを有し、かつイントラコード化データのみのブロック（Ｉブロック）を含むＸフレームとして符号化され、それ以外の場合、そのフレームは、Ｐスライスヘッダを伴う予測コード化データのブロック（Ｐブロック）を有するＰフレームとして符号化される。本明細書の例示的な実施形態において、「Ｍｏｄ」は、除算後に剰余を返すモジュロ演算子である。他の変形形態は、Ｂスライスヘッダを伴うＸフレームを採用し得る。３６０°没入型ビデオコンテンツのプレイバック中、ＧＯＰの途中でビューポートが変更されたとき、かつ／または帯域幅割当が変更された場合、最小のレイテンシで鑑賞体感を向上させるために、好適な位相を有する位相符号化ビットストリームからのＸフレーム内のより高品質のデータが、コード化されたビデオシーケンスに多重化される。本明細書の例示的な実施形態において、好適な位相を有するビットストリームは、Ｘフレームが所望のフレームロケーション、たとえば、コード化されたビデオシーケンスに多重化され得る復号順で最も早いフレームに位置するビットストリームである。

例示的な一実装形態において、様々なタイプのタイル化ビットストリーム、すなわち異なる品質を有するＢＩＥビットストリームおよび／またはＰＥビットストリームは、高効率ビデオコーディング（ＨＥＶＣ：ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、および、多用途ビデオコーディング（ＶＶＣ：ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）またはフューチャビデオコーデック（ＦＶＣ：ＦｕｔｕｒｅＶｉｄｅｏＣｏｄｅｃ）圧縮とも呼ばれる、Ｈ．２６６圧縮のうちの少なくとも１つに基づいて生成され得る。

別の態様において、没入型ビデオ最適化システムで動作する方法を対象とする一実施形態は、特に、３６０°没入型ビデオ資産をユーザに表示するように動作するクライアントデバイスから注視ベクトルを受信することを含み、各ビデオフレームは、ユーザが没入する、ユーザによって鑑賞される３次元（３Ｄ）表示環境に投影されたタイルの配列を含み、注視ベクトルは、ユーザが任意の特定の時間に鑑賞している３Ｄ表示環境における注視方向を規定する。注視ベクトルと、３Ｄ表示環境におけるタイルの配列にそれぞれ対応する各タイルロケーションに関連付けられた方向ベクトルとの間の分離角が決定される。クライアントデバイスに配信される３６０度ビュー全体で異なる品質を有するビデオフレームの組立てを容易にするために３６０°没入型ビデオ資産の異なるビットレート品質のタイルを選択する際に使用する、タイルの配列に対応した複数のタイル重みが、分離角に応じて決定される。一変形形態では、注視方向は、３６０°没入型ビデオ資産を表示するためにクライアントデバイスに関連付けられたユーザのヘッドセットの配向を追跡することによって取得される。別の変形形態では、注視方向は、３６０°没入型ビデオ資産が表示されている間に３Ｄ表示環境の様々な部分に対するユーザの眼球の動きを追跡することによって取得される。さらに別の変形形態では、注視ベクトル情報を決定するために、ユーザに関連する眼の動きと頭部の動きとの組合せが実装され得る。

さらに別の態様において、没入型ビデオ最適化システムで動作するタイル選択および帯域幅アニーリング方法を対象とする実施形態は、特に、メディア入力ストリームの複数のビットレート表現のうちの特定のビットレート表現に対応する各タイル符号化ビットストリームについて、フレームごとのタイルグループ化の特性を記述した１つまたは複数のストリームマニフェストファイルを検索することを含む。各ビットレート表現またはストリームは、ビットレート表現に使用される対応するＱＰ値に関連する別個のビデオ品質を有するように符号化され、タイル符号化ビットストリームの各フレームは、フレームごとに少なくとも１つのスライスに編成されたタイルの配列を含み、複数のフレームが、タイル符号化ビットストリームのＧＯＰ構造を形成する。それぞれのタイル位置に基づいた、フレームを形成するタイルの配列に対応するタイル重み、およびメディア入力ストリームの複数のタイル符号化ビットストリームに対応するバリアント重みが取得される。タイル符号化ビットストリームのそれぞれについて、妥当性メトリックまたは値が、ＧＯＰ構造全体の各タイル／ＧＯＰの組合せごとのバリアント重みとタイル重みの関数として決定され得る。妥当性メトリック値に対応して、全体的な帯域幅割当に関してナップサック最適化を実現するための反復プロセスにおいて、対応するタイルコード化ビットストリームから、異なるビットレート品質を有するタイルまたは異なるビットレート品質を有するビットストリームからのタイルが選択され得、選択されたタイルのビットレート品質は、多重化されたビデオ出力ストリームを送信するための送信バッファモデルを満たすように最適化される。選択されたタイルは、多重化されたビデオ出力ストリームの一部として、選択されたタイルを含むフレームを生成するために、マルチプレクサまたはタイルステッチャに提供され、ビューポート内のタイルは、より高品質のビットストリームから選択される。一変形形態では、タイルステッチャは、ビデオ最適化ノードにおいてネットワーク中心の設定で提供され得る。別の変形形態では、タイルステッチャは、３６０°没入型ビデオコンテンツを消費するように動作するクライアントデバイスにおいてデバイス中心の設定で提供され得る。

さらに別の態様において、本開示は、仮想現実（ＶＲ：ｖｉｒｔｕａｌｒｅａｌｉｔｙ）デバイス上で３６０°没入型ビデオストリームのビデオタイルを提示する方法を対象とし、ビデオ品質は、３６０°パノラマビュー全体にわたって変化する。方法は、特に、ビデオストリームに割り当てられた全体的なビットレートと、ユーザの直接視野に対する個々のタイルのロケーションとに基づいて、個々のビデオタイルごとにビットレートを決定することを含む。方法は、ユーザの現在の直接視野（たとえば、関心領域、すなわちＲＯＩ：ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）を決定することと、ビデオストリームの全体的なビットレートよりも高いビットレートを有するビデオタイル（または、比較的低いＱＰ値を使用してコード化されたブロックを含むビデオタイル）を、ユーザの現在の直接視野内に提示することと、３６０°ビデオストリームの全体的なビットレートよりも低いビットレートを有するビデオタイル（または、比較的高いＱＰ値を使用してコード化されたブロックを含むビデオタイル）を、ユーザの現在の直接視野外に提示することとを含み得、ユーザの視野内のビデオタイルとユーザの視野外のビデオタイルの合計ビットレートは、３６０°ビデオストリームに割り当てられた全体的なビットレートを超えない。本明細書を参照することにより、相対ＱＰ値および相対ビットレート値は、一般に、例示的な実装形態において逆の関係にあり、特定の実施形態において、必要な変更を加えて交換可能に使用され得ることが、当業者には理解されよう。

別の実施形態において、本開示は、ＶＲデバイス上でビデオストリームのビデオタイルを提示するように設定された３６０°ビデオ最適化システムを対象とし、ビデオ品質は、３６０°パノラマビュー全体にわたって変化する。システムは、３６０ビデオストリームに割り当てられた全体的なビットレートと、ユーザの直接視野に対する個々のタイルのロケーションとに基づいて、個々のビデオタイルごとにビットレートを決定する。システムは、ビデオマニフェストにアクセスし（または、マニフェストへのリンクを取得し）、ビデオバックオフィスからビデオストリームの全体的なビットレートの指示を受け取る。システムは、ＶＲデバイスに関するユーザの現在の直接視野を受信するか、または別の方法で決定する。システムは、３６０°ビデオストリームの全体的なビットレートよりも高いビットレートを有するビデオタイルを、ユーザの現在の直接視野内に提示し、３６０°ビデオストリームの全体的なビットレートよりも低いビットレートを有するビデオタイルを、ユーザの現在の直接視野外に提示し、ユーザの視野内のビデオタイルとユーザの視野外のビデオタイルの合計ビットレートは、３６０°ビデオストリームに割り当てられた全体的なビットレートを超えない。

さらに別の態様において、特に、プロセッサ、および本明細書に記載の方法の一実施形態を実行するためのプログラム命令を有する永続メモリなどの好適なハードウェアを備える、システム、装置、またはネットワーク要素の一実施形態が開示される。

さらに別の態様において、コンピュータ実行可能プログラム命令またはコード部分が記憶された非一時的なコンピュータ可読媒体または分散型媒体の１つまたは複数の実施形態が開示され、コンピュータ実行可能プログラム命令またはコード部分は、ネットワークノード、装置、システム、ネットワーク要素、加入者デバイスなどのプロセッサエンティティによって実行されたとき、必要な変更を加えて、本発明の方法の１つまたは複数の実施形態を実行するためのものである。様々な実施形態のさらなる特徴は、従属請求項に記載されている通りである。

本明細書に開示される例示的な実施形態は、没入型メディア消費環境においていくつかの利点を提供する。本発明の符号化の実施形態に基づいて、入力注視ベクトル、帯域幅割当、および送信バッファモデルに基づいて異なる品質のタイルを選択することにより、フレームは、有利には、より高品質のビューポート用に最適化されたタイルを用いて組み立てられ得る。フレームは選択的にビューポートに最適化されるので、帯域幅に制約のある環境でも、鑑賞体感を損なうことなく、高品質の多重化ストリームの転送が可能である。例示的な実施形態は、有利には、品質が最も高いタイルが常に直視に配信されるように設定され得、直接視野からより遠い複数のエリアにわたって品質が低下するように制御され、ユーザが見ている場所とは正反対の方向にあるエリアで品質が最も低くなる。したがって、ストリームがデバイスに配信されるとき、ユーザは常に、ユーザが直接見ているエリアで最も高いビデオＱｏＥを得る。さらに、ユーザが頭部を動かすとき、例示的な実施形態のＧＯＰ途中の切替えにより、最小のレイテンシで可能な限り迅速に高品質のタイルを受信することができる。ユーザが自分の視野を変更したとき、例示的な実施形態は、段階的リフレッシュのために符号化されたタイルを用いて、次に配信するフレームの初期アップグレードでいくつかの高品質のタイルを送ることによってビデオバッファのサイズが最小化され得るので、ビデオのレイテンシをさらに低減することができる。例示的な実施形態は、次のいくつかのフレームにわたって、現在の視野および許容帯域幅に基づいたタイルの品質に達するまで、残りのタイルの品質を段階的に向上させる。

管理対象ネットワーク環境を検討する場合、本発明の例示的な実施形態の実施において、さらなる利益および利点が実現され得る。例示的な実施形態は、管理対象ネットワークを利用し、専用のネットワーク帯域幅量内で配信を最適化するように設定され得るので、クライアントは、利用可能な帯域幅の量を推定し、要求されているタイルのビットレートを調整する必要がない。これにより、クライアントは、１～３フレームの最小バッファで動作し、バッファリングが一時停止する状況に陥ることを回避することができる。したがって、品質のアップグレードに最小のレイテンシを提供すると同時に、ストリームの配信に関してはるかに高い信頼性が達成され得る。

実施形態のさらなる利益および利点は、以下の説明および添付の図を考慮すれば明らかとなるであろう。

本開示の実施形態は、限定としてではなく例として例示されており、その添付図面の図において、同様の参照符号は同様の要素を示す。本開示における「ある（ａｎ）」または「１つの（ｏｎｅ）」実施形態への異なる言及は、必ずしも同じ実施形態に対するものではなく、このような言及は、少なくとも１つを意味し得ることに留意すべきである。さらに、特定の特徴、構造、または特性が実施形態に関連して説明されるとき、他の実施形態に関連してそのような特徴、構造、または特性に影響を及ぼすことは、明示的に記載されているかどうかに関わらず、当業者の知識の範囲内であることが提起される。

添付図面は、本開示の１つまたは複数の例示的な実施形態を説明するために、本明細書に組み込まれ、その一部を形成する。本開示の様々な利点および特徴が、添付の特許請求の範囲に関連した、また添付図面の図を参照した以下の発明を実施するための形態から理解されるであろう。

様々なネットワーク設定上で３６０°没入型ビデオを提供するための本発明の１つまたは複数の実施形態が実施され得る、一般化された例示的なネットワーク環境を示す図である。例示的な実施形態による、３６０°没入型ビデオの最適化されたタイル符号化を容易にするための、図１に示す環境の一部を含む例示的なネットワークアーキテクチャを示す図である。図２のネットワークアーキテクチャの構成で動作するように設定されたメディア準備および／または処理システムの一部として提供され得る例示的なタイルエンコーダのブロック図である。図４Ａ～図４Ｃは、例示的なエンコーダ構成における各フレームごとに１つまたは複数のスライスおよび／またはタイルを含む例示的なビデオフレームを示す図である。図４Ａ～図４Ｃは、例示的なエンコーダ構成における各フレームごとに１つまたは複数のスライスおよび／またはタイルを含む例示的なビデオフレームを示す図である。図４Ａ～図４Ｃは、例示的なエンコーダ構成における各フレームごとに１つまたは複数のスライスおよび／またはタイルを含む例示的なビデオフレームを示す図である。本発明の１つまたは複数の実施形態による、本開示の追加の流れ図のブロック、ステップ、および／または動作の有無に関わらず１つまたは複数の構成で（再）結合され得る、最適化された３６０°没入型ビデオを容易にするための、メディア準備／処理方法の様々なブロック、ステップ、および／または動作を例示する流れ図である。本発明の１つまたは複数の実施形態による、図５の例示的なメディア準備／処理方法の一部として実装され得る、位相符号化（ＰＥ：ＰｈａｓｅｄＥｎｃｏｄｉｎｇ）方式またはブロックイントラ符号化（ＢＩＥ：Ｂｌｏｃｋ－ＩｎｔｒａＥｎｃｏｄｉｎｇ）方式のいずれかを含む例示的な符号化構成の様々なブロック、ステップ、および／または動作を例示する図である。本発明の例示的な実施形態による、ＢＩＥ方式を例示する流れ図である。本発明の例示的な実施形態による、タイル符号化構成でＢＩＥ方式を設定するためのプロセスを例示する流れ図である。本発明の例示的な実施形態による、例示的なＢＩＥ方式における追加のブロック、ステップ、および／または動作を例示する流れ図である。本発明の例示的な実施形態による、ＰＥ方式を例示する流れ図である。本発明の例示的な実施形態による、タイル符号化構成でＰＥ方式を設定するためのプロセスを例示する流れ図である。本発明の例示的な実施形態による、例示的なＰＥ方式における追加のブロック、ステップ、および／または動作を例示する流れ図である。例示的な実施形態における、ＢＩＥベースのタイル化エンコーダシステムによって生成された、異なる品質を有する複数のコード化ビットストリームを示す図である。例示的な実施形態における、ＰＥベースのタイル化エンコーダシステムによって生成された、特定のビットレート表現に対して異なる位相を有する複数のコード化ビットストリームを示す図である。本発明の一実施形態による、ＢＩＥベースのタイル化ストリームを含む例示的なタイルステッチング方式の様々なブロック、ステップ、および／または動作を例示する図である。本発明の一実施形態による、ＰＥベースのタイル化ストリームを含む例示的なタイルステッチング方式の様々なブロック、ステップ、および／または動作を例示する図である。本発明の一実施形態による、例示的なタイルステッチング方式に関する追加のブロック、ステップ、および／または動作を例示する流れ図である。本発明の例示的な実施形態による、異なる品質またはＱＰを有するコード化ビットストリームから選択されたタイルを含む３６０°ビデオフレームを例示する図である。図１５Ａ～図１５Ｂは、本発明の１つまたは複数の実施形態による、本開示の追加の流れ図のブロック、ステップ、および／または動作の有無に関わらず１つまたは複数の構成で（再）結合され得る、３６０°没入型ビデオ鑑賞環境におけるユーザ注視に関連する重みに基づいて、最適化されたタイル選択を容易にするための方法の様々なブロック、ステップ、および／または動作を例示する流れ図である。図１５Ａ～図１５Ｂは、本発明の１つまたは複数の実施形態による、本開示の追加の流れ図のブロック、ステップ、および／または動作の有無に関わらず１つまたは複数の構成で（再）結合され得る、３６０°没入型ビデオ鑑賞環境におけるユーザ注視に関連する重みに基づいて、最適化されたタイル選択を容易にするための方法の様々なブロック、ステップ、および／または動作を例示する流れ図である。図１６Ａ～図１６Ｂは、タイル符号化フレームにおけるユーザの注視方向とタイル位置との間の分離角の決定を容易にするための例示的な幾何学的配置を例示する図である。図１６Ａ～図１６Ｂは、タイル符号化フレームにおけるユーザの注視方向とタイル位置との間の分離角の決定を容易にするための例示的な幾何学的配置を例示する図である。本発明の１つまたは複数の実施形態における、例示的な３６０°没入型ビデオ鑑賞環境を例示する図である。本発明の例示的な実施形態による、例示的な３６０°没入型ビデオ最適化プロセスに関する追加のブロック、ステップ、および／または動作を例示する流れ図である。本発明の例示的な実施形態による、例示的な３６０°没入型ビデオ最適化プロセスのさらなる態様に関する追加のブロック、ステップ、および／または動作を例示する流れ図である。本発明の実施形態に従って決定された異なる重みを伴うタイルロケーションを有する例示的なビデオフレームを示す図である。異なる方法でコード化されたビューポートタイルのフレームを有する例示的なデバイスバッファを示す図である。図１８Ｃ～図１８Ｄは、タイル品質がユーザ注視方向に基づいて分布している３Ｄ鑑賞空間を示す図である。図１８Ｃ～図１８Ｄは、タイル品質がユーザ注視方向に基づいて分布している３Ｄ鑑賞空間を示す図である。本発明の１つまたは複数の実施形態による、本開示の追加の流れ図のブロック、ステップ、および／または動作の有無に関わらずメディア準備／処理方法の１つまたは複数の構成で（再）結合され得る、タイル選択および帯域幅アニーリングプロセスの様々なブロック、ステップ、および／または動作を例示する流れ図である。本発明の一実施形態による、例示的なタイル選択および帯域幅アニーリングプロセスに関する追加のブロック、ステップ、および／または動作を例示する流れ図である。図２１Ａ～図２１Ｂは、本発明の例示的な実施形態による、タイル選択および帯域幅アニーリングプロセスのさらなる態様に関する追加のブロック、ステップ、および／または動作を例示する流れ図である。図２１Ａ～図２１Ｂは、本発明の例示的な実施形態による、タイル選択および帯域幅アニーリングプロセスのさらなる態様に関する追加のブロック、ステップ、および／または動作を例示する流れ図である。本発明の例示的な実施形態による、タイル選択および帯域幅アニーリング構成を使用するための送信バッファモデル設定を例示する図である。本特許開示の一実施形態における、ＵＥデバイスが３６０°没入型ビデオ最適化の特定の態様を実行するように設定され得る構成を示す図である。本発明の一実施形態による、３６０°没入型ビデオ処理、準備、および最適化の１つまたは複数の態様を実現するためのプラットフォーム、ノード、または要素として（再）設定および／または（再）構成され得る装置のブロック図である。本特許開示の一実施形態における、さらなる詳細を伴う例示的なＵＥデバイスのブロック図である。

本発明の実施形態についての本明細書の説明において、本発明の実施形態の完全な理解を提供するために、構成要素および／または方法の例など、多数の特定の詳細が提供される。しかしながら、本発明の実施形態は、特定の詳細のうちの１つまたは複数なしに、または他の装置、システム、アセンブリ、方法、構成要素、材料、部品などを用いて実施され得ることが、当業者には理解されよう。他の例では、本発明の実施形態の態様を曖昧にすることを回避するために、よく知られている構造、材料、または動作は、特に図示されておらず、また詳細に説明されていない。したがって、本開示の実施形態が、そのような特定の構成要素なしで実施され得ることが、当業者には理解されよう。本明細書に記載の発明を実施するための形態を用いること、また添付図面を参照することにより、当業者であれば、過度の実験なしに１つまたは複数の実施形態を作成および使用できることをさらに認識されたい。

さらに、「結合された」および「接続された」などの用語は、それらの派生語と共に、以下の説明、特許請求の範囲、またはその両方で使用され得る。これらの用語は、必ずしも相互の同義語として意図されているわけではないことを理解すべきである。「結合された」は、互いに直接物理的または電気的に接触していてもいなくてもよい２つ以上の要素が互いに協働または相互作用することを示すために使用され得る。「接続された」は、互いに結合された２つ以上の要素間の通信すなわち通信関係の確立を示すために使用され得る。さらに、本明細書に記載の１つまたは複数の例示的な実施形態において、一般的に言えば、要素が機能を実行するようにプログラムされ得るか、あるいはその機能を実行するように構造的に配置され得る場合、要素、構成要素、またはモジュールは、その機能を実行するように設定され得る。

本明細書で使用される場合、ネットワーク要素、ノード、またはサブシステムは、ネットワーク上の他の機器（たとえば、他のネットワーク要素、エンドステーションなど）を通信可能に相互接続するハードウェアおよびソフトウェアを含む、１つまたは複数のサービスネットワーク機器から構成され得、ストリームベースまたはファイルベースのメカニズムを使用してメディアコンテンツ資産が配布および配信され得るメディア配布ネットワークにおいてコンテンツを受信／消費するように動作する複数の加入者および関連するユーザ機器（ＵＥ）ノードに対する１つまたは複数のアプリケーションまたはサービスを、仮想化環境／非仮想化環境のいずれかでホストするように適合される。したがって、いくつかのネットワーク要素は、ワイヤレス無線ネットワーク環境に配置され得るが、他のネットワーク要素は、パブリックの、プライベートの、または複合のコンテンツ配信ネットワーク（ＣＤＮ：ｃｏｎｔｅｎｔｄｅｌｉｖｅｒｙｎｅｔｗｏｒｋ）を含み得る好適なＣＤＮインフラストラクチャを含むかまたはそれらに関与する、パブリックパケット交換ネットワークインフラストラクチャに配置され得る。さらに、本明細書に記載の１つまたは複数の実施形態を含む好適なネットワーク要素には、地上および／または衛星ブロードバンド配信インフラストラクチャ、たとえば、デジタル加入者線（ＤＳＬ：ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）ネットワークアーキテクチャ、データオーバーケーブルサービスインターフェース仕様（ＤＯＣＳＩＳ：ＤａｔａＯｖｅｒＣａｂｌｅＳｅｒｖｉｃｅＩｎｔｅｒｆａｃｅＳｐｅｃｉｆｉｃａｔｉｏｎ）準拠のケーブルモデム終端システム（ＣＭＴＳ：ＣａｂｌｅＭｏｄｅｍＴｅｒｍｉｎａｔｉｏｎＳｙｓｔｅｍ）アーキテクチャ、スイッチドデジタルビデオ（ＳＤＶ：ｓｗｉｔｃｈｅｄｄｉｇｉｔａｌｖｉｄｅｏ）ネットワークアーキテクチャ、光・同軸ハイブリッド（ＨＦＣ：ＨｙｂｒｉｄＦｉｂｅｒ－Ｃｏａｘｉａｌ）ネットワークアーキテクチャ、好適な衛星アクセスネットワークアーキテクチャ、または、セルラーおよび／もしくはＷｉＦｉ接続を介したブロードバンド無線アクセスネットワークアーキテクチャが含まれ得る。したがって、いくつかのネットワーク要素は、複数のアプリケーションサービス（たとえば、変化する品質または精細度で３６０°没入型ビデオ資産（３６０度ビデオ資産または単に３６０ビデオ資産とも呼ばれる）を含むデータおよびマルチメディアアプリケーション）に対するサポートを提供することに加えて、複数のネットワークベースの機能（たとえば、３６０°没入型Ａ／Ｖメディア準備配信ポリシー管理、セッション制御、ＱｏＳポリシー施行、帯域幅スケジューリング管理、コンテンツプロバイダ優先ポリシー管理、ストリーミングポリシー管理など）に対するサポートを提供する、「複数サービスネットワーク要素」を含み得る。加入者エンドステーションまたはクライアントデバイスの例には、特定の実施形態においては何らかのタイプのレート適応を含み得るストリーミングおよび／またはファイルベースのダウンロード技術を使用してメディアコンテンツ資産を消費または配信することができる、テザーまたはアンテザーの様々なデバイスが含まれ得る。したがって、例示的なクライアントデバイスまたはＵＥデバイスは、特に、ＨＴＴＰ、ＨＴＴＰＳ、ＲＴＰなどを使用して、たとえばブロードバンドアクセスネットワークを介して１つまたは複数のコンテンツプロバイダから、仮想現実（ＶＲ）メディア、拡張現実（ＡＲ）メディア、複合現実（ＭＲ：ＭｉｘｅｄＲｅａｌｉｔｙ）メディアを含み得る、３６０ビデオコンテンツ、ライブメディア、および／または静的／オンデマンドメディアを、受信、記録、記憶、および／または復号／レンダリングするための１つまたは複数のクライアントアプリケーションを実行するように設定された任意のデバイスを含み得る。したがって、このようなクライアントデバイスには、本明細書に記載の１つまたは複数の実施形態に従って帯域幅および体感品質（ＱｏＥ：ＱｕａｌｉｔｙｏｆＥｘｐｅｒｉｅｎｃｅ）方式が提供され得る好適なメディア配布ネットワークを介して提供される３６０度コンテンツ／サービスにアクセスする、またはそれらを消費することができる、次世代ＩＰベースのＳＴＢ、ネットワーク化されたＴＶ、パーソナル／デジタルビデオレコーダ（ＰＶＲ：ｐｅｒｓｏｎａｌｖｉｄｅｏｒｅｃｏｒｄｅｒ／ＤＶＲ：ｄｉｇｉｔａｌｖｉｄｅｏｒｅｃｏｒｄｅｒ）、ネットワーク化されたメディアプロジェクタ、ポータブルラップトップコンピュータ、ネットブック、パームトップ、タブレット、スマートフォン、マルチメディア／ビデオ電話、モバイル／無線ユーザ機器、ポータブルメディアプレーヤ、３Ｄ表示デバイスと連携して動作するポータブルゲームシステムまたはコンソール（Ｗｉｉ（登録商標）、ＰｌａｙＳｔａｔｉｏｎ３（登録商標）など）などが含まれ得る。

本特許開示の１つまたは複数の実施形態は、ソフトウェア、ファームウェア、および／またはハードウェアの異なる組合せを使用して実装され得る。したがって、図（たとえば、流れ図）に示される技法のうちの１つまたは複数は、１つまたは複数の電子デバイスまたはノード（たとえば、加入者クライアントデバイスまたはエンドステーション、ネットワーク要素など）上で記憶および実行されるコードならびにデータを使用して実装され得る。このような電子デバイスは、非一時的なコンピュータ可読記憶媒体（たとえば、磁気ディスク、光ディスク、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリデバイス、相変化メモリなど）、一時的なコンピュータ可読伝送媒体（たとえば、搬送波、赤外線信号、デジタル信号などの、電気的、光学的、音響的、または他の形式の伝搬信号）などのコンピュータ可読媒体を使用して、コードおよびデータを（内部的に、かつ／またはネットワークを介して他の電子デバイスを用いて）記憶および通信し得る。さらに、このようなネットワーク要素は、典型的には、１つまたは複数の記憶デバイス（たとえば、非一時的な機械可読記憶媒体）、ならびに、記憶データベース、ユーザ入力／出力デバイス（たとえば、キーボード、タッチスクリーン、ポインティングデバイス、および／またはディスプレイ）、およびシグナリングおよび／またはベアラメディア送信を実現するためのネットワーク接続などの１つまたは複数の他の構成要素に結合された１つまたは複数のプロセッサのセットを含み得る。プロセッサのセットと他の構成要素との結合は、典型的には、任意の知られているアーキテクチャ（たとえば、対称型／共有型マルチプロセッシング）、またはこれまでに知られていないアーキテクチャに配置された１つまたは複数のバスおよびブリッジ（バスコントローラとも呼ばれる）を介するものであり得る。したがって、所与の電子デバイスまたはネットワーク要素の記憶デバイスまたは構成要素は、本開示の１つまたは複数の技法を実装する目的で、その要素、ノード、または電子デバイスの１つまたは複数のプロセッサ上で実行するためのコードおよび／またはデータを記憶するように設定され得る。

ここで、図面、より具体的には図１を参照すると、１つまたは複数の鑑賞デバイスによる消費のために様々な設定上で配布される没入型ビデオを提供するための本発明の１つまたは複数の実施形態が実施され得る、一般化された例示的なネットワーク環境１００が示されている。例示的なビデオソース／キャプチャシステム１０２は、無数のクライアントデバイス環境における３６０°鑑賞用にレンダリング可能なメディアを記録、生成、読込み、復号、提供、あるいは取得するように設定された任意の構成を例示しており、この無数のクライアントデバイス環境には、本特許出願の他の箇所に記載されているように、様々なアクセス／接続技術で動作する、テザーデバイスまたはアンテザーデバイス、スタンドアロンの機器、加入者施設機器、ゲーム機器、および／または３Ｄ表示デバイスとペアで組み合わされて動作する機器などが含まれ得る。例示として、コンピュータ／ディスプレイ１４４は、ヘッドマウントディスプレイ（ＨＭＤ）またはヘッドセット１４２に関連付けられ得、ヘッドマウントディスプレイ（ＨＭＤ）またはヘッドセット１４２もまた、集合的にデバイス１４０として示されるタブレット、スマートフォン、ファブレット、ゲーム機などのポータブルデバイスなどに関連付けられ得、これらは概して、クライアントデバイス１３８として示されている。コンピュータ／ディスプレイ１４４は、以下でさらに詳細に説明するように、本発明の教示に従って符号化および帯域幅最適化され得る様々なタイプの３６０°ビデオコンテンツを復号およびレンダリングするように設定され得る。一実施形態では、例示的な３６０°没入型ビデオソース／キャプチャシステム１０２は、全方向カメラもしくはパノラマカメラなどを含む１つまたは複数の高精細カメラ（たとえば、４Ｋ、８Ｋなど）、またはいくつかの方法でソースビデオストリームを提供するように設定され得るビデオストレージを含み得る。ビデオ前処理に関する設定および統合レベルに応じて、例示的な３６０°没入型ビデオソース／キャプチャ１０２からの出力ストリームは、１つまたは複数のインターフェース、すなわち高精細マルチメディアインターフェース（ＨＤＭＩ：ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）、シリアルデジタルインターフェース（ＳＤＩ：ＳｅｒｉａｌＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）、高精細ＳＤＩ（ＨＤ－ＳＤＩ）、または他のフォーマットと互換性のあるストリームとして提供され得、これらの出力ストリームは、投影マッピングの有無に関わらず、またソースビデオ符号化の有無に関わらず、ステッチされていないストリームまたはステッチされたストリームを含み得る。たとえば、投影マッピングのないステッチされていないソースストリーム１０４Ａは、重なり合う角度をカバーするストリームを組み合わせてステッチされたストリーム１０８を作るビデオステッチャ１０６に提供され得る。別の実施形態では、ビデオソースストリームは、ステッチされたＨＤＭＩ／ＳＤＩ／ＨＤ－ＤＳＩストリーム１０４Ｂを含み得る。また、ｌｅｓ修正を含み得る、キャプチャされたビデオの他の処理があり得る。ストリームが投影マッピングされていない場合、投影マッピングシステム１１０は、好適なマップ投影方式、たとえば、正距円筒図法投影、キューブマップ投影、等角キューブマップ投影、角錐投影、魚眼投影などを含むがこれらに限定されない球面画像投影を使用して、ステッチされたストリーム１０４Ｂ／１０８から、投影マッピングされたストリーム１１４を生成するように動作する。さらに別の実施形態では、ビデオストリームは、ソースビデオ符号化モジュール１１２に提供され得る、ステッチされ投影マッピングされたストリーム１０４Ｃを含み得、ソースビデオ符号化モジュール１１２は、実装に応じて、Ｈ．２６４またはアドバンスドビデオコーディング（ＭＰＥＧ－４ＡＶＣ：ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）、高効率ビデオコーディング（ＨＥＶＣ）またはＨ．２６５（ＭＰＥＧ－Ｈパート２）、Ｈ．２６２（ＭＰＥＧ－２）、Ｈ．２６４（ＭＰＥＧ－４、パート２）、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）、Ｈ．２６６、多用途ビデオコーディング（ＶＶＣ）、フューチャビデオコーディング（ＦＶＣ：ＦｕｔｕｒｅＶｉｄｅｏＣｏｄｉｎｇ）などを含むがこれらに限定されない１つまたは複数の符号化方式または圧縮方式を実現するように動作し、これらの方式のいくつかは、タイル符号化を含む場合と含まない場合があり、かつ／または適応ビットレート（ＡＢＲ：ａｄａｐｔｉｖｅｂｉｔｒａｔｅ）トランスコーディングを含む場合と含まない場合がある。一構成では、投影マッピングシステム１１０からの投影マッピングされたストリームは、適切なビデオ圧縮を実現するためにエンコーダシステム１１２にも提供され得る。本発明の教示によれば、有利には、投影マッピングシステム１１０から受信した非圧縮ビデオストリーム（ビデオストリーム１１４）、エンコーダシステム１１２から受信した圧縮ビデオストリーム（ビデオストリーム１１６）、またはビデオソース／キャプチャシステム１０２からのビデオストリーム１０４Ｃを処理するために、メディア準備における前処理に関する設定および統合レベルに応じて、タイル化エンコーダ／トランスコーダ１２０が提供される。以下でさらに詳細に説明するように、いくつかの実施形態では、タイル化エンコーダ／トランスコーダ１２０の機能は、エンコーダシステム１１２および／または投影マッピングシステム１１０と統合され得、タイル化エンコーダ／トランスコーダ１２０は、３６０°没入型ビデオ資産またはプログラムに対応する入力ビデオストリームの複数のビットレート表現の符号化ストリームを生成するように動作し、一定のビデオ品質レベルを有する各ビットレート表現は、帯域幅が最適化された３６０°ビデオ配布を容易にするために、適切に変更されたタイル、フレーム、および／またはスライスデータを有するフレームを含むように符号化され得る。タイル化パッケージャ１２２は、ストレージ１２４のためにエンコーダ／トランスコーダ１２０からの符号化ストリームをパッケージ化し、符号化ストリームのタイルのグループ化、タイルのロケーション、メディアタイプおよび関連する特性を記述した関連するマニフェストファイル１２６を提供するように動作する。以下でさらに説明するように、タイル選択およびストリーム生成システム１３２は、制御入力に応答して適切なタイルを選択し、鑑賞デバイス１３８にサーブするアクセスネットワーク１３６に関連付けられた配信サーバ１３４によって配信され得る多重化ビデオ出力ストリームを生成するように動作する。例示的な実装形態では、エンドユーザへの多重化ビデオストリームの配信は、本特許出願の他の箇所に記載されているように、様々なネットワークインフラストラクチャを介して、いくつかのプロトコル、たとえば、ＨＴＴＰ／Ｓ、チャンク化されたＨＴＴＰ／Ｓ、ＲＴＰ／ＲＴＣＰなどに基づいて実現され得る。

前述の一般化された例示的なネットワーク環境１００が、たとえば、ソースストリームステッチング、投影マッピング、ソースメディア圧縮、タイル化／ＡＢＲの符号化／トランスコーディング、パッケージ化などを含む、メディアキャプチャおよび準備、ならびに１人または複数のオペレータ、コンテンツ配信ネットワーク（ＣＤＮ）、エッジネットワークなどを含む、異なる階層レベルに配置された異なるネットワーク部分で行われる配布／アップロードおよびエッジノードプロセスの様々な態様を用いて階層ネットワークアーキテクチャで実装され得ることが、当業者には理解されよう。さらに、いくつかの実装形態では、前述の装置およびプロセスの少なくともいくつかは、クラウドベースであり得る。いくつかの構成では、ＣＤＮは、インターネットまたは他のパブリック／プライベート通信ネットワークに接続された複数のデータセンターに展開されたサーバの大規模分散システムとすることができる。ＣＤＮは、管理対象ネットワークまたは管理対象外ネットワークとすることができ、管理対象ネットワークまたは管理対象外ネットワークの連合体とすることもできる。

したがって、前述の例示的なネットワーク環境内で動作可能に関連付けられたメディアサーバ／ソースシステムの例示的な実施形態は、ライブソースおよび／または静的ファイルソース、たとえば、Ｈｕｌｕ（登録商標）、Ｎｅｔｆｌｉｘ（登録商標）、ＹｏｕＴｕｂｅ（登録商標）、またはＡｍａｚｏｎ（登録商標）Ｐｒｉｍｅなどのオンラインコンテンツプロバイダ、ならびに、Ｄｉｓｎｅｙ、Ｗａｒｎｅｒ、Ｓｏｎｙなどの、ＶＯＤカタログもしくはコンテンツのプロバイダまたはスタジオからのメディアコンテンツを受け入れるように、たとえばグローバルヘッドエンドとして設定され得る。ライブソースからのメディアコンテンツは、広告メディアチャネルなどの任意の二次メディア挿入を含む、任意のタイプのイベント、たとえばスポーツ／エンターテインメント／ゲームイベント、コンサート、ライブＴＶ番組、たとえば、全国放送局（たとえば、ＮＢＣ、ＡＢＣなど）、ならびにＣＮＮ、ＥＳＰＮ、ＣＮＢＣなどのＴｉｍｅＷａｒｎｅｒチャネルのようなケーブル放送局チャネル、およびローカル放送局などのライブニュース放送ソースなどに関連してキャプチャされたライブプログラミングを含み得る。

限定されないが、図２に、本発明の一実施形態による没入型ビデオの最適化されたタイル符号化を容易にするための例示的なネットワークアーキテクチャ２００（図１に示す環境の一部を形成し得る）が示されている。メディア入力ストリーム２０２は、図３に示されるように好適にステッチされ、投影マッピングされ、かつ／または符号化され得る３６０°ビデオ資産に対応するビデオストリームを例示しており、オペレータコンテンツ配信ネットワーク２０６に関連付けられたＣＤＮオリジンサーバ２０４に配布、アップロード、または別の方法で提供され得る。大まかに言えば、メディア入力ストリーム２０２は、ライブＴＶコンテンツ、ＩＰＴＶコンテンツ、タイムシフト（ＴＳ）ＴＶコンテンツ、プレイスシフト（ＰＳ）ＴＶコンテンツ、ゲームコンテンツ、ビデオオンデマンド（ＶＯＤ）コンテンツ、ＶＲ／ＡＲ／ＭＲコンテンツ、ネットワーク化されたデジタルビデオレコーダ（ｎＤＶＲ）コンテンツなど、または３６０°鑑賞体感のために（前）処理された任意のコンテンツのうちの少なくとも１つに対応するストリームを含み得る。ＣＤＮ２０６に結合されたＣＤＮエッジサーバ２０８は、それぞれのビデオ資産に対応するアップロードされたメディアストリーム２０２を受信するように設定され得、アップロードされたメディアストリーム２０２は、好適なデータベース（特に図示せず）に格納され得る。タイル化エンコーダ２１０は、標準コーデック方式（たとえば、ＨＥＶＣ、ＡＶ１など）に準拠して動作するように設定され得、各ストリームが（アスペクト比に応じて）特定の解像度、ビットレート、および画素サイズのタイルを含み得る複数のタイル化適応ビットレートストリーム２１２を生成するように動作する。例示として、ストリーム２１２は、１つまたは複数の３２Ｋストリーム（３０７３０水平画素×１７２８０垂直画素）、１６Ｋストリーム（１５３６０水平画素×８６４０垂直画素）、１つまたは複数の８Ｋストリーム（７６８０水平画素×４３２０垂直画素）、１つまたは複数の４Ｋストリーム（３８４０水平画素×２１６０垂直画素）、１つまたは複数のＨＤストリーム（１９２０水平画素×１０８０垂直画素）、１つまたは複数の７２０ｐストリーム（１２８０水平画素×７２０垂直画素）などを含み得、より高い解像度のストリームはより高いビットレート範囲で符号化され得、より低い解像度のストリームはより低いビットレート範囲で符号化され得る。たとえば、３２Ｋストリームは８００～１０００メガビット／秒（すなわちＭｂｐｓ）の範囲で符号化され得、１６Ｋストリームは２００～３００Ｍｂｐｓの範囲で符号化され得、８Ｋストリームは８０～１００Ｍｂｐｓの範囲で符号化され得、１．２～３Ｍｂｐｓの範囲で符号化され得る７２０ｐストリームまで以下同様である。さらに、タイル符号化ビットストリームとも呼ばれるタイル化適応ビットレートストリーム２１２は、採用されている方式に応じて、フレームごとに好適な数のタイル、たとえば４Ｋの場合は１２８タイルを有するフレームを含み得る。

一構成では、タイル化エンコーダ２１０は、メディア入力ストリーム２０２の各ビットレート表現に対して、複数の位相符号化ストリームとしてタイル符号化ビットストリームを生成するように設定され得、特定のビットレート表現に対する各位相符号化ストリームには、以下でさらに詳細に説明するように、位相に応じて、ストリームのグループオブピクチャ（ＧＯＰ）構造内の特定のロケーションに、特殊化されたフレームが提供される。この符号化方式は、本発明の特定の実施形態に関して、位相符号化（ＰＥ）方式と呼ばれ得る。別の構成では、タイル化エンコーダ２１０は、メディア入力ストリーム２０２の各ビットレート表現に対して、タイル符号化ビットストリームのペア、たとえば、第１および第２のタイル符号化ビットストリームを生成するように設定され得、以下でさらに説明するように、第１の符号化ビットストリームは、知られている、またはこれまでに知られていないコーディング方式に従って生成された通常または標準のタイルコード化ビットストリームを含み得、第２の符号化ビットストリームは、ＧＯＰ構造の各ロケーションに、特殊化されたフレームが提供されるように、コード化され得る。この符号化方式は、本発明の特定の実施形態に関して、ブロックイントラ符号化（ＢＩＥ：Ｂｌｏｃｋ－ＩｎｔｒａＥｎｃｏｄｉｎｇ）または全イントラ符号化（ＡＩＥ：Ａｌｌ－ＩｎｔｒａＥｎｃｏｄｉｎｇ）方式と呼ばれ得る。

ＰＥコーディング方式またはＢＩＥコーディング方式のどちらが使用されるかに関わらず、パッケージャ２１４は、タイル符号化ビットストリーム２１２をパッケージ化し、各タイル符号化ビットストリームのフレームごとに、タイルグループ化の特性、たとえば、タイルロケーション、スライスヘッダ情報、ピクチャタイミングを含む様々なタイプのメタデータ、色空間情報、ビデオパラメータ情報などを記述した好適なマニフェストファイルを生成するように動作し、マニフェストファイルは、好適なストリームマニフェスト２４１と共に、好適なパッケージ化されたメディア記憶ファシリティ２４０に記憶され得る。複数のモジュールまたはサブシステムを備えるビデオ最適化システム２１５を含むネットワークエッジノード２１６は、概してノードまたは要素２３０によって表される好適なアクセスネットワーク（たとえば、ルータ、ＤＳＬＡＭ／ＣＭＴＳ要素などを含み得る好適なインフラストラクチャを有するＤＳＬ／ＤＯＣＳＩＳネットワーク部、または特定の実装形態における固定無線インフラストラクチャを含む好適な３Ｇ／４Ｇ／５Ｇ無線アクセスネットワーク要素など）を介して実現される管理対象帯域幅パイプ２３２によってサーブされる加入者宅２３４の宅内デバイス２３６との３６０°没入型ビデオセッションを実現するために、ビデオバックオフィスシステム２３８と関連して動作する。

一構成では、ビデオ最適化システム２１５は、帯域幅アニーリングおよびＱｏＥ管理ポリシー、ならびに特にユーザ注視ベクトル情報に対応して、異なるビデオ品質ビットストリームから選択されたタイル２２０を、タイル結合およびストリーム生成サブシステム２２２に提供するように動作する、タイル選択サブシステム２１８を備え得る。異なるビットストリーム２２４からのタイルを有する多重化ビデオフレームは、多重化タイルストリーム２２８の、下流インフラストラクチャ２３０への送信を容易にするために、配信サービス２２６に提供され得る。大まかに言えば、３６０°没入型ビデオセッションを求めるユーザ要求２５０が生成されると、ユーザ要求２５０は、ビデオバックオフィスシステム２３８によって処理され、セッションＩＤ、および要求された３６０°メディア用の関連するロケーション情報を取得するために、メッセージ２５２を介してビデオ最適化システム２１５に転送される。ビデオバックオフィスシステム２３８は、ビデオ最適化システム２１５からの応答メッセージ２５１に応答して、メディア用の適切なＵＲＬ情報およびセッションＩＤを含む応答２４８を要求側デバイス２３６に提供するように動作する。（最初はデフォルト設定であり得る）ユーザ注視情報、および関連するセッションＩＤ情報は、メッセージ２４６としてインフラストラクチャ要素２３０に提供され得、メッセージ２４６は、メッセージ２５４としてビデオ最適化システム２１５に伝播され得る。また、インフラストラクチャ要素２３０は、関連するまたは別個のプロセスにおいて、セッションＩＤ情報を含む動的帯域幅割当メッセージ２５４を、ビデオ最適化システム２１５に提供するように動作する。前述のように、タイル選択サブシステム２１８は、帯域幅割当、ユーザ注視ベクトル情報、またはその両方に関連する制御メッセージに応答して、異なるビデオ品質を有するタイルを選択するために動作するように設定され得、異なるビデオ品質を有するタイルは、多重タイル符号化ビデオ出力ストリームを生成するめに、フレームに結合またはステッチされ得る。一構成では、タイル結合およびストリーム生成サブシステム２２２は、ビデオストリーム配信中にビデオ最適化システム２１５の一部として提供され得る。別の構成では、タイルステッチングは、プレイアウト中に、サーバ側ではなくクライアント側（たとえば、クライアントデバイス２３６またはそれに関連する何らかの他の宅内機器）で実現され得る。この構成では、クライアント側のステッチング機能は、選択されたタイルを受信し、復号およびレンダリング対象のステッチされたストリームを生成するために必要なステッチングを実行するように動作する。前述のプロセス、サブシステム、および構成要素に関連する様々な実施形態を、以下のセクションでさらに詳細に説明する。

図３は、図２のネットワークアーキテクチャの構成内で動作するように設定されたメディア準備および／または処理システムの一部として提供され得る例示的なタイルエンコーダ３００のブロック図を示す。限定されないが、タイル符号化と互換性のある、たとえばＨ．２６５、Ｈ．２６６、ＶＶＣ、ＡＶ１などの知られているまたはこれまでに知られていない標準コーデック方式に準拠しながら各メディア資産に関して異なる品質を有する、マルチビットレートのビデオストリームを生成するための、ＰＥコーディング方式またはＢＩＥコーディング方式のいずれかを実現するように設定され得る例示的なタイルエンコーダ３００を、以下に説明する。大まかに言えば、一実施形態では、予測コード化（Ｐ）ピクチャまたはフレームとして符号化される（すなわち、フレームをＰフレームとして識別するヘッダを有する）が、イントラコード化ブロックまたはユニット（すなわち、Ｉブロック）として符号化されたコーディングブロックまたはユニットを含む、特殊化されたフレーム（または、やや同義的にはピクチャ）が生成される。別の実施形態では、特殊化されたフレームは、双予測（Ｂ）フレームとして識別されるフレームを含み得るが、Ｉブロックのみを含む。本特許出願において、これらの特殊化されたフレームは、「ブロックイントラ」フレームまたは「Ｘ」フレームと呼ばれ、すべてのブロックのメディア画像データは、イントラコード化されるものとしてコード化される（すなわち、時間的な推定も予測もない）。

本明細書の例示的な実施形態において、ＧＯＰ構造とは、イントラフレームおよびインターフレームが配置される順序を指定する、コード化されたビデオストリーム内の連続するピクチャのグループである。コード化された各ビデオストリームは、連続するＧＯＰを備え、そこから可視フレームが生成され得る。一般に、ＧＯＰ構造は、次のピクチャタイプを含み得る。（１）ＩピクチャまたはＩフレーム（イントラコード化ピクチャ）－他のすべてのピクチャとは独立してコード化されたピクチャ。各ＧＯＰは、（復号順で）このタイプのピクチャから始まる。（２）ＰピクチャまたはＰフレーム（予測コード化ピクチャ）－以前に復号されたピクチャと比較した動き補償差分情報を含む。ＭＥＰＧ－１、Ｈ．２６２／ＭＰＥＧ－２、およびＨ．２６３などのより古い設計では、各Ｐ画像は１つのピクチャしか参照することができず、そのピクチャは、表示順でも復号順でもＰピクチャの前に位置しなければならず、ＩピクチャまたはＰピクチャでなければならない。これらの制約は、たとえば、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ、Ｈ．２６５／ＨＥＶＣなどのより新しい規格には適用されない。（３）ＢピクチャまたはＢフレーム（双予測コード化ピクチャまたは双方向予測コード化ピクチャ）－ＧＯＰ内の前後のＩフレームまたはＰフレームからの差分情報を含み、以前に復号されたピクチャと比較した動き補償差分情報を含む。ＭＰＥＧ－１およびＨ．２６２／ＭＰＥＧ－２などのより古い設計では、各Ｂピクチャは、表示順でＢピクチャの前のピクチャと後ろのピクチャの２つのピクチャのみしか参照することができず、参照されるピクチャはすべて、ＩピクチャまたはＰピクチャでなければならない。これらの制約は、たとえば、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ、Ｈ．２６５／ＨＥＶＣなどのより新しい規格には適用されない。（４）ＤピクチャまたはＤフレーム（ＤＣダイレクトコード化ピクチャ）－特定のタイプのビデオ（たとえば、ＭＰＥＧ－１ビデオ）における損失耐性または早送りのために、ピクチャの高速アクセス表現として機能する。

一般に、ＩフレームはＧＯＰの先頭を示す。その後に、いくつかのＰフレームおよびＢフレームが続き得る。Ｉフレームはフル画像を含み、画像を再構築するために追加情報を必要としない。典型的には、エンコーダは、ＧＯＰ構造を使用して、各Ｉフレームを「クリーンランダムアクセスポイント」にし、これにより、復号をＩフレーム上でクリーンに開始することができ、ＧＯＰ構造内のエラーは、正しいＩフレームを処理した後に修正される。ＧＯＰ構造は、しばしば、２つの数字、たとえば、Ｍ＝３、Ｎ＝１２で表される。１つ目の数字は、２つのアンカフレーム（ＩまたはＰ）間の距離を示す。２つ目の数字は、ＧＯＰサイズである、２つのフル画像（Ｉフレーム）間の距離を示す。Ｍ＝３、Ｎ＝１２の例の場合、ＧＯＰ構造は｛ＩＢＢＰＢＢＰＢＢＰＢＢＩ｝である。Ｍパラメータの代わりに、２つの連続するアンカフレーム間のＢフレームの最大数を使用することができる。たとえば、パターン｛ＩＢＢＢＢＰＢＢＢＢＰＢＢＢＢＩ｝のシーケンスでは、ＧＯＰサイズは１５（２つのＩフレーム間の長さ）に等しく、２つのアンカフレーム間の距離（Ｍ値）は５（ＩフレームとＰフレームの間の長さ、または２つの連続するＰフレーム間の長さ）である。

典型的なＧＯＰはＩフレームで始まるが、本明細書のいくつかの実施形態は、以下でさらに詳細に説明するように、Ｘフレームを特定のロケーションに配置すること、またはＧＯＰ構造内のＰフレームおよび／またはＢフレームを置き換えることに加えて、代わりにＧＯＰがＸフレームで始まり得る構造を提供する。

たとえば、特にコーディング効率、並列処理などを容易にするために、ピクチャまたはフレームが、コーデックの実装に応じて、異なるレベルの粒度でいくつかの方法に分割され得ることが、当業者には理解されよう。一構成では、フレームは、いくつかのコーディングツリーユニット（ＣＴＵ）に分割され得、各ＣＴＵは、一定の数の輝度コーディングツリーブロック（ＣＴＢ）および彩度ＣＴＢを含み、ＣＴＢは、複数のコーディングブロック（ＣＢ）を備え得る。フレームは、１つまたは複数のスライスに分割され得、各スライスは、フレームの空間的に別個の領域であり、同じフレーム内の他の領域とは別に符号化され、スライスヘッダで識別され得る。一般に、スライスは自己完結型であり、ラスタ走査の順序で処理される一連のＣＴＵを含み、スライスは、Ｉフレーム、Ｐフレーム、またはＢフレームと同様に、それぞれＩスライス、Ｐスライス、またはＢスライスとしてコード化され得る。一構成では、スライスは、再同期を実現してデータ損失を最小限に抑えるために使用され得、ビデオシーンにおけるアクティビティに応じて、スライスごとに様々な数のＣＴＵを含み得る。図４Ａは、複数のスライス４０２－１～４０２－Ｎを含む例示的なビデオフレーム４００Ａを示し、例示的なスライス４０２－Ｎは、いくつかのＣＴＵ４０４を含む。

符号化方式は、スライスに加えて、フレームごとにタイルの数も規定し得、符号化段階および復号段階での並列処理を容易にするために、タイルは、グリッドを形成するための垂直と水平の分割に基づいて、ピクチャの自己完結型で独立して復号可能な長方形または正方形の領域であるようにも設定され得る。一変形例では、自己完結型で独立して復号可能なタイルは、以前に符号化されたピクチャまたはフレームの同一位置のタイルからの時間予測を使用し得る。複数のタイルは、同じスライスに含まれることによってヘッダ情報を共有し得、タイルは、一定の数のＣＴＵを備え得る。各タイルが同じ数のＣＴＵを含む必要はない。したがって、一構成では、フレームのタイルは、異なるサイズを有し得る。フレームが単一のスライスを含む場合、フレームのタイルは、同じスライスヘッダおよびピクチャヘッダ情報を有する。別の構成では、フレームは１つまたは複数のスライスを含み得、各スライスは１つまたは複数のタイルを含み、同様に各タイルは１つまたは複数のＣＴＵを含む。図４Ｂは、タイル４０６－１～４０６－Ｎの行列または配列に編成された複数のＣＴＵを含む例示的なビデオフレーム４００Ｂを示し、各タイルは、２×２設定の４つのＣＴＵ４０８を有する正方形として示されている。さらなる例示として、図４Ｃには、ＨＥＶＣによる例示的な４Ｋビデオフレーム４００Ｃが示されており、１６列および８行に分割されて１２８タイルとなる、３８４０水平画素×２１６０垂直画素の配列を含み得る。前述のように、これらのタイルは、フレーム４００Ｃ内で必ずしも同じサイズであるとは限らない。

本特許出願において、ビデオフレームは多くの方法で異なるレベルで分割され得るので、「コーディングツリーユニット」、「コーディングツリーブロック」、「コーディングユニット」、「マクロブロック」、もしくは「ブロック」という用語、または同様の趣旨の用語は、一般に、特定のビデオ圧縮規格または技術に限定されることなく、タイル、スライス、および／またはフレームに対して適用され得るコーディングの抽象的な単位として扱われる。

図３に戻ると、例示的なタイルエンコーダ３００は、ＰＥベースまたはＢＩＥベースの方式に関連して、Ｘフレームを生成するように設定され得、Ｘフレームは、対応するヘッダを有するがイントラコード化された個々のスライスおよび／もしくはタイルを伴うＰフレームまたはＢフレームとして、すなわち、Ｉブロックのみを含む、Ｉスライスおよび／またはＩタイルとしてコード化される。言い換えると、Ｘフレームは、ＰフレームまたはＢフレーム（または、フレームごとに１つのスライスのみが提供される場合は、ＰスライスもしくはＢスライス）のヘッダ情報を含み得るが、すべてのメディア画像データは、Ｉフレームのデータとしてイントラコード化される。ビデオシーケンスの残りのフレームは、前述のように、知られているまたはこれまでに知られていない方式に従って、通常通り符号化され得る。したがって、一般コーダ制御３０６は、１つまたは複数の入力ビデオ信号３０４に関するＰＥ方式またはＢＩＥ方式の特定の実装に従って必要に応じて特殊フレームの符号化を強制するように、タイルエンコーダのフロントエンド部３０２の残りの構成要素および構造に適切な制御信号および／またはパラメータを提供するために、ＰＥ方式３０８とＢＩＥ方式３１０のいずれかを選択するように設定され得る。一般に、ＰＥ方式における各ピクチャは、以下でさらに詳細に説明するように、通常のＩフレーム（たとえば、シーケンスの最初のピクチャ用）または位相／周期に一致する入力ピクチャ用のＸフレームのいずれかとして、またビデオシーケンスの他のすべてのピクチャ用の通常のＰフレームまたはＢフレームとして符号化される。ＢＩＥ方式に関しては、シーケンスのＧＯＰ構造のすべてのＰフレームおよびＢフレームにＸフレームが提供される、ＢＩＥコード化シーケンスが提供され得る。したがって、イントラ／インター選択ブロック３１２は、イントラピクチャ推定／予測３１６が常にアクティブであり、ピクチャのすべてのブロックに使用されるように設定される。同様に、すべてのブロックがＸフレームに対してイントラコード化されるので、動き補償および推定３１８は、無効にされ得る。例示的な実施形態において、変換、スケーリング、および量子化３１４と、逆方向変換３２０と、フィルタ制御３２２と、デブロッキングおよびサンプル適応オフセット（ＳＡＯ：ｓａｍｐｌｅａｄａｐｔｉｖｅｏｆｆｓｅｔ）フィルタリング３２４と、復号ピクチャバッファ３２６とを含む残りのブロックは、タイルエンコーダの実装によっては、影響を受けないままであり得る。一般制御データ３２８、量子化変換係数データ３３０、イントラ予測およびフィルタ制御データ３３２、ならびに動きデータ３３４は、ビデオ資産の各ビットレート表現に対応する１つまたは複数のコード化ビットストリーム３３８を生成するために、ヘッダフォーマッタおよびエントロピエンコーダ３３６（たとえば、コンテキスト適応バイナリ算術コーディング（ＣＡＢＡＣ：ｃｏｎｔｅｘｔ－ａｄａｐｔｉｖｅｂｉｎａｒｙａｒｉｔｈｍｅｔｉｃｃｏｄｉｎｇ）エンジン）に提供され得る。前述のように、コード化ビットストリーム３３８は、適切な下流ネットワークロケーションでの資産の（事前）プロビジョニングを容易にするために、パッケージ化およびマニフェスト生成のためのタイル化パッケージャ（この図３には図示せず）に提供され得る。

図６は、本発明の一実施形態による、例示的なメディア準備／処理の一部として実装され得るＰＥ方式またはＢＩＥ方式のいずれかを含む例示的な符号化構成６００の様々なブロック、ステップ、および／または動作を例示する。ブロック６０４において、前述のように、符号化されていない、符号化されている、ステッチされている、投影マッピングされている、または別の方法で前処理され得る、ビデオソースストリーム６０２が受信される。ブロック６０６において、ＰＥを選択するかＢＩＥを選択するかの決定が行われ得る。タイルエンコーダシステム、たとえば、図３のタイルエンコーダ３００内のモードセレクタは、その選択に応じて適切に設定され得る。ＰＥを選択すると、ブロック６０８に記載のように、ビデオソースストリーム６０２は、異なる品質および／またはビットレートを有する複数のストリームに符号化／トランスコーディングされ得、各ストリームは、タイルを用いて符号化される。各品質またはビットレートストリームは、複数のＰＥストリーム６１０を生成するために位相符号化される。例示として、参照番号６１４－１は、対応する位相６１５－１～６１５－Ｐ（ＸフレームがＧＯＰ構造のどこに配置されているかに依存し、Ｐは、ＧＯＰサイズである）を有する位相符号化ストリーム６１２－１のセットに関する品質情報を指し、ＰＥストリームはすべて、量子化パラメータ（ＱＰ：ＱｕａｎｔｉｚａｔｉｏｎＰａｒａｍｅｔｅｒ）設定値が３０、および／またはビットレートが約７．０メガビット／秒であり、これは品質の下限を示し得る。同様に、参照番号６１４－Ｎは、対応する位相６１５－１～６１５－Ｐを有する位相符号化ストリーム６１２－Ｎのセットに関する品質情報を指し、ストリームはすべて、ＱＰ設定値が１６、および／またはビットレートが約１０５．６メガビット／秒であり、これは品質の上限を示し得る。

（本特許出願の他の箇所に記載されているように、全イントラ符号化とも呼ばれる）ＢＩＥが選択された場合、ビデオソースストリーム６０２は、変化する品質および／またはビットレートを有する複数のストリームに符号化／トランスコーディングされ得る（ブロック６１６）。例示的な実施形態では、ストリームのそれぞれは、標準的なコーディング方式（たとえば、ＨＥＶＣ、ＡＶ１など）を使用してタイル符号化されて、標準または通常のタイル符号化ストリーム６１８が生成される。位相タイル化ストリーム６１０に関する上記の説明と同様に、参照番号６２２－１は、例示として、ＱＰ設定値が３０および／またはビットレートが約７．０メガビット／秒である通常のタイル符号化ストリーム６２０－１に関する品質情報を指し、これは品質の下限を示し得る。同様に、参照番号６２２－Ｎは、ＱＰ設定値が１６および／またはビットレートが約１０５．６メガビット／秒である通常のタイル符号化ストリーム６２０－Ｎに関する品質情報を指し、これは、より高品質のストリームを示し得る。

さらに、ビデオソースストリーム６０２はまた、対応する品質および／またはビットレートを有する複数のストリームに符号化／トランスコーディングされ（ブロック６１７）、各ストリームは、そのＧＯＰ構造のすべてのフレームがＸフレームとして提供されるようにタイル符号化される。例示として、参照番号６３２は、複数のＢＩＥコード化およびタイル化されたストリームを指し、ＱＰ設定値が３０および／またはビットレートが約７．０メガビット／秒（ＭｂまたはＭｂ／秒と略されることもある）である品質情報６３６－１は、より低品質のＢＩＥコード化タイルストリーム６３４－１に関し、一方、ＱＰ設定値が１６および／またはビットレートが約１０５．６メガビット／秒である品質情報６３６－Ｎは、より高品質のＢＩＥコード化タイルストリーム６３４－Ｎに関する。

本明細書を参照することにより、エンコーダがターゲットＱＰを有するように設定されるとき、符号化ビットストリームのビットレートが、ビットストリームにわたってある程度平均化されることが、当業者には理解されよう。たとえば、ソース符号化方式でＱＰ１０がターゲットにされる場合、動きのないエリアでは低ビットレートが見られ得る（たとえば、４Ｍｂｓになる）可能性がある。動きが多いエリアでは、ビットレートが２００Ｍｂｓに急上昇する可能性がある。したがって、前述のように特定のＱＰをターゲットとする例示的な符号化方式では、出力ストリームのビットレートは、ある範囲にわたって可変であり得る。したがって、図６のＰＥストリームまたはＢＩＥストリームのＱＰに関連して示されたビットレートは、一般に時間の経過に伴う平均ビットレートを示すことを理解されたい。以下でさらに理解されるように、符号化方式においてＱＰがターゲットとされる（それに対応して変化するビットレートを有する）とき、タイル選択に関する本発明の特定の実施形態は、タイルを選択し、特定の３６０度没入型ビデオセッションに対して割り当てられた全体的なビットレートに従ってそれらのタイルを適合させるように設定され得る。追加のまたは代替の実施形態では、例示的なエンコーダは、ターゲットＱＰの代わりに特定のターゲットビットレートを有するコード化ビットストリームを生成するように設定され得る。しかしながら、このような構成では、出力ビットストリームは特定のビットレートを維持し得る一方で、ＱＰ値は変化する可能性がある。したがって、タイル選択の一実施形態は、異なる符号化パラメータおよび設定値によって制御され得るビデオ品質に基づいてタイルを選択し、それに応じてそれらのタイルを適合させて、割り当てられた帯域幅を最適化することができる。本特許出願において、「品質」、「ビデオ品質」という用語、およびコード化ビットストリームまたはビットレート表現に関する同様の趣旨の用語は、ＱＰ、ビットレート、他の指標に幅広く関連し、かつ／またはそれらに基づき得る。したがって、ターゲットとされるＱＰに基づく本明細書に記載のＰＥ／ＢＩＥ符号化、タイル選択、ステッチングなどに関する実施形態は、ターゲットとされるＱＰビットレートを有するビットストリームにも等しく準用される。

したがって、本開示内の説明の特定の例および部分は、ストリームごとの固定量子化（ＱＰ）値の使用を想定して提供されるが、実際のストリームは、上記のように、ピクチャ間およびピクチャ内で変化するＱＰ値を含み得ることを、読者は理解すべきである。本発明の一実施形態によるエンコーダは、レート制御などによってその出力ビットレートを制御し、それによりピクチャ間のＱＰ値を変化させ得る。エンコーダはまた、ストリームの視覚品質を最適化するために、変化するＱＰ値を使用して１つのストリーム内のピクチャを符号化し得る。当技術分野で知られているように、ＱＰ値は、１つのピクチャ内で、たとえば、視覚品質を最適化するため適応量子化メカニズムを使用してブロック間で変化し得る。本開示内の語句における「ＱＰ」の使用、たとえば、限定はされないが、「そのＱＰを用いて符号化された」、「異なるＱＰ値のビデオ」、「異なるＱＰ値を用いて生成されたビデオ」、「ＱＰ値Ｎを有するストリーム」、「ビデオストリームのＱＰ値」などは、より低いＱＰ値に関連付けられたストリームが、より高いＱＰ値に関連付けられたストリームよりも高いビットレートおよびより高い品質であり、ＱＰがストリーム内の各ブロックで静的に保たれているわけではないようなストリームを特徴付ける方法として理解されるべきである。

様々なタイプの符号化および／またはトランスコーディングが異なるシーケンスおよび／または並列プロセスで行われ得るように、例示的な実施形態では、メディア資産の適応ビットレート符号化およびタイル符号化が、コンテンツ準備システムの一部として装置内に統合され得ることをさらに理解されたい。さらに、投影マッピング、ソースストリームステッチング、パッケージ化などの追加機能も、実装形態に応じて、本特許出願のタイルコーディング／トランスコーディング方式と組み合わされるか、または別の方法でそれらと統合され得る。

図５は、本発明の１つまたは複数の実施形態による、本開示の追加の流れ図のブロック、ステップ、および／または動作の有無に関わらず１つまたは複数の構成で（再）結合され得る、最適化された３６０°没入型ビデオを容易にするための方法５００の様々なブロック、ステップ、および／または動作を例示する流れ図である。ブロック５０２において、メディアキャプチャ、および没入型ビデオのためのメディア入力ストリームの前処理に関連する様々な動作、たとえば、ソースストリームステッチング、符号化、投影マッピングなどが実現され得る。ブロック５０４において、前処理されたメディア入力ストリームの、異なるビデオ品質を有する（たとえば、変化するＱＰ値を有する）複数のビットレート表現またはストリームへの適応型ビットレート符号化／トランスコーディングが、タイル符号化方式に関連して実現され得る。前述のように、ＰＥベースのコーディングプロセス（ブロック５０６Ａ）またはＢＩＥベースのコーディングプロセス（ブロック５０６Ｂ）のいずれかが、コード化ビットストリーム出力を生成するように設定され得る。ブロックの適応型ビットレート符号化／トランスコーディング５０４が、単一の符号化プロセスを使用して、ＰＥ方式（ブロック５０６Ａ）またはＢＩＥ方式（ブロック５０６Ｂ）のいずれかを使用して行われるように、ブロック５０４および５０６Ａ／Ｂのプロセスは、単一の符号化動作として実行され得ることに留意されたい。その後、コード化ビットストリームは、好適なエンドユーザ機器を使用するクライアントによる配信および消費のために、パッケージ化され（ブロック５０８）、適切なネットワークエッジロケーションに配布され得る（ブロック５１０）。特定のメディア資産を求めるユーザ要求が受信および処理されると、メディア資産の異なるビットレート表現（すなわち、異なる品質）からタイルを選択するために、制御入力、たとえば、送信条件、帯域幅割当、および／または注視ベクトルの入力などに基づいたタイル選択プロセスが実現され得る（ブロック５１２）。選択されたタイルを、要求側クライアントデバイスに配信すべき出力ビデオストリームとしてフレームにステッチするための、ストリーム生成プロセスが実現され得る（ブロック５１４）。

前述のステップ、動作、または動作の少なくとも一部が、上記の図１および図２に例示されたネットワーク環境またはアーキテクチャに配布された１つまたは複数の３６０°没入型ビデオ資産に対するメディア準備および（事前）プロビジョニングを含み得ることが、当業者には理解されよう。図７を参照すると、本発明の例示的な実施形態による、ＢＩＥ方式７００に関する追加の詳細が示されている。ブロック７０２およびブロック７０４において、３６０°没入型ビデオ資産に関連するメディア入力ストリームが受信され、異なる／別個の品質を有する複数のビットレート表現を生成するように処理され、たとえば、各ビデオ品質は、各ビットレート表現に使用される対応するターゲットＱＰ値および／もしくはターゲットビットレートもしくはそれぞれの品質の他の指標に関連するかまたはそれらによって制御され得る。各ビットレート表現は、特定のＧＯＰ構造を伴う複数のフレームを含む第１のコード化ビットストリームにコード化され、各ＧＯＰは、Ｉフレームで始まり、その後に少なくとも１つのＰフレームまたはＢフレームを含むフレームのセットが続く（ブロック７０６）。さらに、ブロック７０８に記載のように、各ビットレート表現は、第１のコード化ビットストリームのＧＯＰ構造のサイズと同一の広がりのサイズを有するＧＯＰ構造を伴う複数のフレームを含む第２のコード化ビットストリームに符号化され、第２のコード化ビットストリームの各ＧＯＰは、Ｉフレームで始まり、その後に複数のＸフレームが続き、各ＸフレームはＰフレームまたはＢフレームのスライス／ピクチャヘッダを用いてコード化され、イントラコード化メディア画像データのみを含む（すなわち、ＧＯＰのＩフレームと同様である）。前述のように、第１のコード化ビットストリームおよび第２のコード化ビットストリームは、任意のタイル互換圧縮方式を使用して、それぞれのタイル符号化ストリームとして符号化され得、タイル符号化ビットストリームの各フレームは、フレームごとに少なくとも１つのスライスに編成されたタイルの配列を含み、各タイルは、いくつかのコーディングユニット、ブロック、またはツリーとして形成されたフレームのメディアデータの一部を含む。一実装形態では、図５のブロック５０４および５０６Ａ／Ｂに関して前述したように、ブロック７０４およびブロック７０６のプロセスが単一の符号化プロセスで実行され得ることが、当業者には理解されよう。たとえば、実際には、計算複雑性を最小限に抑え、タンデムまたはカスケード符号化によってもたらされる劣化を最小限に抑えるために、単一プロセスの符号化／トランスコーディングが望ましい。

図１１は、例示的な実施形態における、ＢＩＥベースのタイル化エンコーダシステムによって生成された、異なる品質またはＱＰを有する複数のコード化ビットストリーム１１００を示す。参照番号１１０２－１～１１０２－Ｎは、対応する品質またはＱＰを有するＮ個のストリームまたはビットレート表現を指す。特定のビットレート表現、たとえば、ＱＰ－Ｎ１１０２－Ｎに対応する、通常通り符号化されたタイル化ストリーム１１０４Ａが示されており、ＧＯＰ構造１１０６Ａは、Ｉフレームで始まり３つのＰフレームが続く４つのフレームを有する。対応するＢＩＥコード化ストリーム１１０４Ｂは、同様に、Ｉフレームで始まり３つのＸフレームが続く４つのフレームで示されたＧＯＰ構造１１０６Ｂを有する。

図８Ａは、本発明の例示的な実施形態による、タイル符号化構成でＢＩＥ方式を設定するためのプロセス８００Ａを例示する流れ図である。限定されないが、例示的なプロセス８００Ａは、一定のパラメータの変更に基づいてＢＩＥを実行するためのＨＥＶＣ方式を設定すること関連して説明されるが、他の方式もまた、本明細書の目的に適用され得る。

一般に、ＢＩＥ設定方法の一実施形態は、３６０°没入型ビデオのソースビデオストリームおよび出力ビデオ品質のリスト（たとえば、｛ＱＰ１＝１６、ＱＰ２＝１８、ＱＰ３＝２０、ＱＰ４＝２２、ＱＰ５＝２４、ＱＰ６＝２６、ＱＰ７＝２８、ＱＰ８＝３０、またはターゲットビットレートに基づく他の指標｝などのＱＰ値のリスト）を、入力として受信または取得するように設定され得る。したがって、限定されないが、前述のように、すべての出力ビデオ品質（たとえば、すべてのＱＰ値）について、そのＱＰまたは品質を有する通常／標準のＨＥＶＣビデオ、およびそのＱＰ／品質を有するブロックイントラＨＥＶＣビデオの、２つのビデオストリームが符号化され得る。後で（たとえば、復号の直前に）異なる品質からのタイルを同じビットストリームにステッチできるようにするために、一実施形態の符号化の位相は、すべてのビデオストリームが同じ（以下に規定される）ｂａｓｅ＿ｑｐを有し、一方、異なるＱＰ値のビデオ間の実際の差分は、ベースＱＰからの（以下に規定される）ｑｐ＿ｄｅｌｔａを使用して実現され得る。たとえば、設定値ｂａｓｅ＿ｑｐ＝２２が設定されてもよく、パラメータ値ｂａｓｅ＿ｑｐ＝２２およびｑｐ＿ｄｅｌｔａ＝－６を使用して、ＱＰ＝１６を達成することができる。一般に、これら２つのパラメータは、ビデオストリームの品質（ＱＰ）の設定に関連する。異なるｑｐ値で生成されたすべてのビデオは同じｂａｓｅ＿ｑｐを有する必要があり、ｂａｓｅ＿ｑｐからｑｐ＿ｄｅｌｔａを使用することによって異なるＱＰ値が達成され得ることを想起されたい。この要件は、１つの特定の時間インスタンスに基づいて課され得る。すなわち、ビットストリーム内のピクチャに番号が付けられている場合、同じ番号でステッチするための入力として使用される２つのビットストリームからの２つのピクチャは、１つの構成において同じｂａｓｅ＿ｑｐ値を使用しなければならない。本発明において、「ｂａｓｅ＿ｑｐ」は、次のように説明され得る：同じビデオのすべての符号化されたバージョンまたはビットレート表現におけるｉ番目のフレーム（各ｉ＝１～Ｎ、ここでＮはビデオシーケンス内のフレームの総数）は、同じスライスＱＰ値を有することになる。言い換えると、スライスＱＰは、ｂａｓｅ＿ｑｐである。スライスＱＰは、生成されたすべてのストリームで同じ値として設定され得るが、時間の経過と共に変化する可能性がある。本発明において、パラメータｄｅｌｔａ＿ｑｐは、次のように説明され得る：所与のｑｐ＿ｄｅｌｔａを代入することによって、ＱＰをシグナリングする各タイル内の最初のブロックは、ｄｅｌｔａ＿ｑｐ（ベースＱＰからの分散量）をシグナリングするように設定される。いくつかの実施形態では、ステッチング後にデブロッキング不一致が存在する可能性があることに留意されたい。

本発明において規定され得る別のパラメータは、ＲＯＩ：ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ（関心領域）であり、ＲＯＩは、タイルが独立して符号化され得るフレームのエリアを決定し、それにより、ＲＯＩに対応するビットストリームのサブセットが、容易に抽出されて別のビットストリームに再構築され得る。上記のように、後で異なるＱＰのビデオをステッチするために、ｂａｓｅ＿ｑｐおよびｄｅｌｔａ＿ｑｐの機能を利用することが望ましい。これは、たとえば、１つの例示的な実装でＨＥＶＣＲＯＩ符号化の機能を使用する場合にサポートされる。したがって、一実施形態においてＲＯＩを用いて符号化する場合、ＲＯＩグリッドのｉ番目の行およびｊ番目の列のグリッドのエリアが独自のｄｅｌｔａ＿ｑｐを得るように、（フレームのタイルのグリッド／配列から独立して規定される）ＲＯＩグリッドを規定することに加えて、スライスＱＰヘッダ用のｂａｓｅ＿ｑｐパラメータが規定され得る。一般に、これにより、一実施形態は、異なるｄｅｌｔａ＿ｑｐをＲＯＩグリッドの異なるエリアに代入することができ、それにより、本発明において、選択的なｄｅｌｔａ＿ｑｐ値が使用され得る。たとえば、所与の所望のＱＰ（たとえば、ＱＰ＝１６）を達成するために、通常のｑｐパラメータを使用してｂａｓｅ＿ｑｐ（たとえば、ｂａｓｅ＿ｑｐ＝２２）が規定され得、次いでＲＯＩグリッドを使用することによって、すべてのターゲットエリアに－６というｄｅｌｔａ＿ｑｐが代入され得、このようにして、ＲＯＩグリッド内のすべてのタイルに対して１６というＱＰを効率的に達成する。

一実施形態では、異なる品質のコンテンツが、特定のフレームに対して同じｂａｓｅ＿ｑｐ（スライスＱＰ）を使用して符号化され得る。そのフレームの品質ごとに、特定の所望のＱＰが設定され得、そのフレームのすべてのブロック（あるいは代替として、可能な限り多くのブロック、または所望の数のブロック）がその所望のＱＰで符号化されるように、ｄｅｌｔａ＿ｑｐ構文要素が使用され得る。ＨＥＶＣに基づくＢＩＥ設定方式の追加の態様は、以下のように説明され得る。

エンコーダは、タイル符号化を使用するように設定され得る。このタイル符号化は、セットアップ中に、タイル符号化のための適切なフラグを設定すること、ならびに（たとえば、図４Ｃに示すように）タイルの特定のグリッド構造を設定することによって達成され得る。例示として、４Ｋビデオ入力の場合、エンコーダは、１６×８グリッド構造のタイルを提供するようにされ得、各フレームに１２８個のタイルがもたらされる。

エンコーダは、時間動きベクトル予測を無効にするように設定され得る。例示的なＢＩＥ方式は、ＭＶ（動きベクトル）を使用しないが、後でステッチングを有効にするために、時間動きベクトル予測（ＴＭＶＰ：ｔｅｍｐｏｒａｌｍｏｔｉｏｎｖｅｃｔｏｒｐｒｅｄｉｃｔｉｏｎ）設定は、ストリーム全体にわたって同一である必要があり得る。ＢＩＥの実施形態はＴＭＶＰを無効にすることなく実施され得るという点で、この設定は任意選択である。

また、スライスヘッダの他の多くの要素は、ストリーム全体にわたって同一になるように設定され得る。たとえば、要素とは、使用する参照ピクチャの数、参照ピクチャセット、Ｌ０にどの参照ピクチャを使用するか、使用するピクチャパラメータセット（ＰＰＳ：ＰｉｃｔｕｒｅＰａｒａｍｅｔｅｒＳｅｔ）、ピクチャの順序数、ＳＡＯパラメータなどである。さらに、復号順は、ビットストリーム切替えの入力として使用されるすべてのビットストリームで同じである必要もある。本明細書を参照することにより、例示的なＢＩＥ実装形態において、様々なスライスヘッダ要素が適宜に設定され得ることが、当業者には理解されよう。

スライスは、単一ＰＰＳｉｄコードワードを使用して、どのＰＰＳを使用すべきかを識別し、ＰＰＳは、１つの単一シーケンスパラメータセット（ＳＰＳ：ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）を参照するので、例示的な実施形態では、すべての符号化は、同一のＰＰＳおよびＳＰＳｉｄ値を使用して行われ得る。同様に、ＳＰＳおよびＰＰＳにおける多くの構文要素も、複数の符号化について同一になるように設定され得る。したがって、必須の要件ではないが、例示的なＢＩＥの実施形態は、符号化が同一のＳＰＳおよびＰＰＳを使用して実現されるように設定され得る。しかしながら、一定の構成では、ＳＰＳおよびＰＰＳにおけるいくつかの要素が必ず同一である必要がある。

図８Ａに戻ると、例示的なＢＩＥ設定プロセス８００Ａは、エンコーダのモードセレクタを初期化して、上記のように入力ビデオストリームを符号化するためにＢＩＥを選択することで開始し得る（ブロック８０２）。ブロック８０４において、エンコーダは、フレームごとに特定のグリッドまたは配列構成でタイルを使用するように設定され得る。ブロック８０６において、符号化ストリームのすべてのスライスＱＰヘッダ内に、ｂａｓｅ＿ｑｐパラメータが記述され得る。（同じｂａｓｅ＿ｑｐを有するが）異なる品質のストリームを符号化するために、上記のように、ターゲットＱＰに基づいて各ストリームに対してｑｐ＿ｄｅｌｔａパラメータが設定され得る（ブロック８０８）。たとえば、特定のストリームに対してターゲットＱＰ２２を達成するには、ｂａｓｅ＿ｑｐが３２である場合、－１０というｑｐ＿ｄｅｌｔａが設定され得る。前述のように、ステッチング用の入力として使用される同じピクチャ番号を有するすべてのピクチャは、同じｂａｓｅ＿ｑｐ値を使用しなければならない。したがって、一実施形態において、すべてのストリームヘッダに同じｂａｓｅ＿ｑｐパラメータを設定することは、必須の要件ではない。空間動きベクトル予測は、タイル内のみに制限されるように設定され得る（ブロック８１０）。すなわち、例示的な実施形態では、動きベクトルは、タイル境界を越えることはできない（すなわち、タイル内予測のみが可能である）。これは、動きベクトルが、タイル内のブロックの動き補償補間中に任意の同一位置のタイルの境界外のサンプルが読み取られないように設定されることを意味する。エンコーダがフレームの特定の領域に関して特定のストリームを符号化するためにｑｐ＿ｄｅｌｔａ情報を使用するように、エンコーダ用にＲＯＩグリッドが設定され得る（ブロック８１２）。さらに、ＴＭＶＰはまた、上記のように例示的なＢＩＥ設定プロセスにおいて無効にされ得る（ブロック８１４）。

前述のＢＩＥ設定プロセス８００Ａは一定のパラメータを使用するが、ＢＩＥ方式が、図８Ａの流れ図に例示されているパラメータに加えてかつ／またはその代わりに他のパラメータを利用するように設定され得る、追加のまたは代替の実施形態が実施され得ることに留意されたい。

図８Ｂは、本発明の実施形態による、例示的なＢＩＥ方式８００Ｂにおける追加のブロック、ステップ、および／または動作を例示する流れ図である。一般に、エンコーダは、ＢＩＥベースのタイルコード化中にいくつかの判定を実現するように設定され得る。Ｐフレームの一部であるタイルの符号化中、エンコーダは、前のフレームに依存して任意の動きベクトルを使用して特定のタイルを符号化すべきかどうか、または、タイルが自己完結型であり、前のフレームに依存しない（すなわち、前のフレームからの予測を使用しない）「イントラ」モードで、そのタイルを符号化すべきかどうかを判定する。前述のように、ＢＩＥでのＰフレームの符号化中、エンコーダは、イントラモードを使用してすべてのブロックを符号化するように強制される。ブロック８３４において、符号化のためにビデオ入力８３２が受信される。ブロック８３６において、タイル化エンコーダは、上記のようにＢＩＥプロセスを実装するように設定される。フレーム単位で適切なコーディング判定を実現するために、ビデオ入力のフレームごとに反復プロセスが実装され得、反復プロセスは、ビデオシーケンスがその終端に到達したかどうかに関する判定から開始する（ブロック８３８）。終端に到達していない場合（すなわち、処理を必要とするフレームがビデオシーケンス内に残っている場合）、次のフレームが取得される（ブロック８４０）。フレームがＧＯＰ構造の最初のフレームであると判断された場合（ブロック８４２）、フレームは、通常のＩフレームとして符号化され（ブロック８５４）、プロセスの流れは次のフレームを取得することに戻る（ブロック８４０）。それ以外の場合、フレームは、Ｐフレームとして符号化される（ブロック８４４）。Ｐフレームのスライスごとに、スライスは、Ｐスライスヘッダを用いて符号化または提供される（ブロック８４６）。Ｐスライスのブロックまたは任意の他の好適なコーディングユニットごとに、エンコーダは、画像データをイントラモードで符号化するように設定される（ブロック８４８）。その後、プロセスの流れは戻り、すべてのフレームが処理されたかどうかを判定する（ブロック８３８）。処理された場合、ビデオシーケンスの符号化が確定され（ブロック８５０）、ブロック８５２に記載のように、ビデオシーケンスは、下流エンティティ（たとえば、パッケージ化システム）にＢＩＥタイル化ビットストリームとして提供され得る。代替の構成では、本特許出願の他の箇所に記載されているように、Ｘフレームを生成するために、Ｐフレームの代わりにＢフレームが使用され得る。したがって、ブロック８４４、８４６は、この構成をサポートするように好適に変更され得る。

本発明のさらなる実施形態では、Ｘフレームは、前述のように、ＰＥ方式に基づいて、（ＢＩＥのように複数回ではなく）各ＧＯＰにおいて１回使用され得る。基本的に、ＰＥベースのタイル符号化は、Ｉフレームである最初のフレームを除いてすべてのフレームがＰスライスヘッダを有し、周期的にＸフレーム（すなわち、ＢＩＥフレームまたはＡＩＥフレーム）があり、すべてのブロックがイントラ符号化されるが、スライスヘッダがＰスライス（または、Ｂフレームもシーケンスで符号化されるＢスライス）であるストリームを生成するためのプロセスおよび装置を含む。一般に、ステッチングへの入力として使用される可能性のある任意の２つのピクチャのすべてのスライスは、同じスライスタイプ、スライスｑｐ、ならびにスライスヘッダおよびＰＰＳにおけるいくつかの他の設定を有する必要がある。ＧＯＰのすべてのフレームが最初のフレームを除いてＸフレームである上記のＢＩＥ方式とは対照的に、ＰＥ方式の一実施形態は、２つのパラメータ、すなわち周期（ＧＯＰのサイズ、すなわちＧＯＰ内のフレーム数）、および位相（｛０～［周期－１］｝の範囲の整数）に応じて、選択されたフレームロケーションでのみＸフレームを提供するように設定される。ＰＥ方式においてＸフレームが現れるフレームロケーションは、次のように決定され得る。Ｎをストリーム内のフレームの総数とする。最初のフレームは、Ｉフレームとして符号化される。ｉ番目の位置のフレーム、２≦ｉ≦Ｎに関しては、｛ｉＭｏｄ（周期）≠位相｝の場合、フレームは通常のＰフレームとして符号化され、それ以外（すなわち、｛ｉＭｏｄ（周期）＝位相｝）の場合、フレームはＸフレームとして符号化される（Ｐスライスヘッダおよびすべてのブロックが、前のフレームとは独立してイントラモードで符号化される）。例示的なＰＥ方式は、メディア入力の品質／ビットレート表現ごとに、ＧＯＰ内のフレームロケーション（すなわち、ＧＯＰサイズ）と同じ数の位相符号化ストリームを提供し得ることに留意されたい。

本発明では、ＸフレームにおいてＩスライスヘッダではなくＰスライスヘッダまたはＢスライスヘッダを使用することによって、例示的な実施形態において、ユーザ鑑賞環境におけるＧＯＰ途中の切替えを容易にすることを含むがこれに限定されないいくつかの利点が実現され得る。ユーザが３６０°没入型ビデオプログラムまたはコンテンツを見ており、直接注視された視野（ＦｏＶ：ｆｉｅｌｄｏｆｖｉｅｗ）は高品質（すなわち、より低いＱＰ）であり、ユーザがＧＯＰの途中で自分の頭部を動かすと仮定する。ユーザは、次に、新しい視野またはビューポートで低品質（より高いＱＰ）のビデオを見る。サーバは、次のＧＯＰの開始時に高品質（低いＱＰ）のＩフレームを送ることができるが、これは、ビューポートに対する次のＧＯＰの高品質のＩフレームが提示されるまでに時間がかかるので、大幅なレイテンシが発生する。ＧＯＰの途中で、できるだけ早く高品質で符号化された新しい視野のＩフレームを受信または取得することが望ましい。しかし、従来の没入型ビデオ鑑賞環境において、ＧＯＰの途中にＩフレームをそのまま配置することは実現不可能である。したがって、本発明の一実施形態は、Ｘフレーム（すなわち、ブロックイントラコード化フレームまたは全イントラコード化フレーム）を生成し、それをＧＯＰの途中で（たとえば、ＧＯＰ構造内の任意のフレームロケーションで）送信することによって、高品質のタイルを伴うＧＯＰの途中でＩフレームが提示された場合の効果と同様に、視野の品質を効果的にアップグレードすることができる。したがって、本発明の一実施形態は、ＡＩ符号化フレームまたはＢＩ符号化フレーム（すなわち、ＡＩＥ／ＢＩＥフレーム、またはＸフレーム）にＰスライスヘッダを提供することによって、ＦｏＶの関心領域（ＲＯＩ）内に高品質のデータを有するフレームを、ＧＯＰの途中で使用できるようにする。

さらに、フレームがタイルおよびスライスに分割されるタイル符号化方式において、Ｘフレームを含む本発明の一実施形態は、単一の出力圧縮フレーム内でタイルを混合することを可能にし、いくつかのタイルは、空間予測または時間予測（すなわち、インターピクチャ予測）を使用し得、いくつかのタイルは、（たとえば、イントラコード化ブロックのみを含む）空間予測のみを使用し得る。イントラコード化ブロックのみで構成されるタイルは、Ｘフレームから発生し得る。本特許出願の文脈において、「混合」、「多重化」、「ステッチング」、「スプライシング」という用語、または出力ストリーム生成に関する同様の趣旨の用語は、１つの圧縮タイル（たとえば、タイルＡ）を別の圧縮タイル（たとえば、タイルＢ）と連結して、単一の出力フレームを表すビットストリームの一部を形成するための手段および方法を指す場合があり、タイルＡおよびタイルＢは、コンテンツの個別の符号化に由来する場合があり、これについては、以下でさらに詳細に説明する。

ＰＥ方式の利点の１つは、ＢＩＥ方式に存在し得るドリフトの問題を克服すること（すなわち、ドリフトの除去または低減）に関する。ＢＩＥは、前のビューポートのＰフレームを新しいビューポートのＸフレームに置き換えることを可能にするが、次に続くフレームは、前のフレームに対して行われた予測で符号化された新しいビューポートの通常のＰフレームであることを理解されたい。したがって、ＰフレームがＸフレームに置き換えられ、次いで、次に続くフレームが、通常のビットストリームの元のフレームの代わりにこのＸフレームを予測に使用する場合、予測誤差が蓄積し得るドリフトが生じる可能性がある。一方、位相符号化では、生成されたストリームは、次に続くＰフレームの予測のために、位置＝＜位相＞＋ｉ＊＜周期＞でＸフレームを使用し、それにより、Ｐフレームが、符号化中に使用されるフレームとは異なるフレームを予測に使用するという状況が回避される。したがって、符号化中に生成されたフレームとは異なるフレームから予測することによって生じる予測誤差はなく、その結果、このタイプの予測誤差による潜在的なドリフトは回避される。しかしながら、ＧＯＰ内のＸフレームに続くＰフレームのストレージが必要であるので、ＰＥ方式ではより多くのストレージが必要になり得る。

さらに、有利には、ＰＥ方式の一実施形態は、フレームの段階的リフレッシュを容易にするために利用され得、これにより、タイルのサブセットのみを選択してそれらの品質をアップグレードし、それらの適切な位相符号化タイルを送ることによって、プレイアウト中により低いレイテンシが達成される。ＢＩＥ方式の一実施形態では、ＰフレームがＸフレームで置き換えられるが、段階的リフレッシュフレームアニーリング方式において、ＰＥコード化ストリームは、選択されたタイルを適切なＰＥコード化ストリームから取られた対応するタイルで置き換えるために使用され得る。一方、別の実施形態において、有利には、ＢＩＥ方式もまた、タイル単位で動作することができる。したがって、ＰＥベースの実施形態に関して、周期がＰであり、フレーム番号がＸである場合、次の式：位相＝｛ＸＭｏｄＰ｝によって、対応する位相を得ることができる。したがって、コード化されたビデオシーケンスの配信またはプレイアウト中、フレームＸ内で、ＱＰ品質ｑにアップグレードするために特定のタイルＴが選択されたと仮定すると、（フレームＸ、およびＴの次のアップグレード／ダウングレードまたはビューポート変更までの次に続くフレーム内で）選択されたタイルを、次の関係、すなわち、ＱＰ＝ｑで位相＝｛ＸＭｏｄＰ｝を満たす位相を有するストリームからのタイルＴに置き換えることができる。その後、同じＧＯＰに属する、フレームＸに続くフレーム内の同一位置のタイルは、同じＰＥ符号化ストリームからの対応する同一位置のタイルに置き換えられる。ユーザが注視方向を変更するときに異なるストリームからのタイルを連結することの利点は、ユーザがＧＯＰの途中で自分の注視を変更する上記のシナリオと同様であることを理解されたい。２つの入力タイルが異なる実際のＱＰで符号化され、ピクチャごとに単一のスライスで符号化された場合、スライスＱＰが異なると、ストリームの下位レベルの書き換えなしで出力ストリーム内のタイルのＱＰを正しい状態にすることは不可能になるので、タイルの切替え／置換えに同一のスライスＱＰが使用される。段階的リフレッシュフレームアニーリングおよびタイル選択に関するさらなる詳細について、本特許出願の追加の実施形態を参照して、以下でさらに説明する。

ＰＥに関する潜在的な欠点は、入力ストリームが多くの位相で符号化され、（ＢＩＥのように２つのストリームだけではなく）ＧＯＰサイズと同じ数のストリームが生成される可能性があるので、より多くのストレージが必要になることであり得る。この欠点は、例示的な実装形態において、ドリフトなしでレイテンシが短縮されるという利点とトレードオフされ得る。最速の品質変更応答の場合、位相の数は、ＧＯＰのサイズ、すなわち周期Ｐに等しく設定され得るが、例示的な実施形態は、タイルのアップグレードが次の位相でのみ行われるので、使用する位相がより少なく、ストレージの消費がより少ない一方で、品質のアップグレードのレイテンシはより長くなる可能性があるというトレードオフを提供し得る。

図９は、本発明の例示的な実施形態によるＰＥ方式９００を例示する流れ図である。ブロック９０２において、３６０°没入型ビデオ資産に対応するメディア入力ストリームが受信され得る。前と同様に、メディア入力ストリームの複数のビットレート表現が生成され得、各ビットレート表現は、たとえば、ビットレート表現に使用される対応するターゲットＱＰ値および／もしくはターゲットビットレートもしくはそれぞれの品質の他の指標に関連するかまたはそれらによって制御される、別個のビデオ品質を有する（ブロック９０４）。対応するＱＰによって制御される各ビットレート表現は、複数の位相符号化ビットストリームに符号化され、特定のビットレート表現に属する各位相符号化ビットストリームは、ＧＯＰサイズ（ｐ）を有する特定のＧＯＰ構造を伴う（Ｎ）個のフレームを含み、複数の位相符号化ビットストリームの数は、ＧＯＰサイズに等しい。一構成では、ＧＯＰサイズ、すなわちｐ＞１である。ｐ番目の位相符号化ビットストリームごとに、Ｎ個のフレームは、次のように符号化される。（ｉ）少なくとも最初のフレームは、イントラ符号化（Ｉ）フレームとして符号化され、（ｉｉ）２≦ｉ≦Ｎの場合、｛ｉＭｏｄ（ＧＯＰサイズ）｝＝ｐの関係を満たすフレーム位置ｉのフレームは、Ｐフレームのスライスヘッダを有し、かつイントラコード化メディア画像データのみのブロックを含むＸフレームとして符号化される（すなわち、Ｉフレームと同様）。それ以外の場合、そのフレームは、Ｐスライスヘッダを伴う予測コード化フレームのメディアデータを有する通常のＰフレームとして符号化される（ブロック９０６）。いくつかの構成では、Ｐフレームは、イントラコード化データも含み得る。一実施形態において、Ｂフレームも符号化される場合、前述のプロセスと同様に、通常のＢフレームの代わりにＸフレームが提供され得る。図５および図７に関して前述したように、例示的な一実施形態において、ブロック９０４およびブロック９０６に記載の動作は、計算効率のために単一の符号化プロセスで実行されるように組み合わされ得る。

ＰＥ方式の追加のまたは代替の実施形態では、位相符号化ビットストリームは、コード化されたビデオシーケンスの最初のフレームとして、Ｉフレーム以外のフレームを有し得、これは、本明細書の教示によるエンコーダにおける適切な設定によって達成され得る。たとえば、最初のフレームは、Ｘフレーム（または、他の非Ｉフレーム）であり得る。コード化されたシーケンスの他のすべてのフレームは、位相に基づいて好適なロケーションに予測フレーム（Ｐ／Ｂフレーム）およびＸフレームを含み得る。

図１２は、例示的な実施形態における、ＰＥベースのタイル化エンコーダシステムによって生成された、特定のビットレート表現に対して異なる位相を有する複数のコード化ビットストリーム１２００を示す。例示として、ＱＰ値２２を有するＱＰ－Ｎストリーム１２０２－Ｎは、本例では４つのフレームのＧＯＰサイズを使用するので、４つの位相符号化ストリーム１２０４－１～１２０４－４として符号化されるか、または別の方法で提供される。ＰＥストリーム１２０４－１～１２０４－４ごとに、最初のフレームが、Ｉフレーム１２０６－１～１２０６－４として符号化される。各ＰＥストリーム内の残りのフレームは、上記の位相と位置の関係に基づいて、ＰフレームまたはＸフレームとして符号化される。

図１０Ａを参照すると、本発明の例示的な実施形態による、タイル符号化構成でＰＥ方式を設定するためのプロセス１０００Ａを例示する流れ図が示されている。ブロック１００２において、３６０°没入型ビデオ資産に対応するメディア入力ストリームに関してＰＥ方式を選択するために、エンコーダが初期化され得る。ブロック１００８において、周期および位相のパラメータが取得されるか、または別の方法で設定され、周期はＧＯＰサイズに等しく（ブロック１００４）、位相はＧＯＰサイズ以下である（ブロック１００６）。ブロック１０１０において、エンコーダは、タイル符号化を使用して、フレームごとに特定のグリッド／配列構成でタイルを生成するように設定され得る。前述のＢＩＥ設定プロセスと同様に、符号化ストリームのスライスＱＰヘッダ内に、ｂａｓｅ＿ｑｐパラメータが記述され得る（ブロック１０１２）。前述のように、ステッチング用の入力として使用される同じピクチャ番号を有するすべてのピクチャは、同じｂａｓｅ＿ｑｐ値を使用しなければならない。したがって、例示的な実施形態において、すべてのストリームヘッダに同じｂａｓｅ＿ｑｐパラメータを設定することは、必須の要件ではない。（同じｂａｓｅ＿ｑｐを有するが）異なる品質のストリームの符号化を容易にするために、上記のように、ターゲットＱＰに基づいて各ストリームのｑｐ＿ｄｅｌｔａパラメータが設定され得る（ブロック１０１４）。前述のように例示的なＢＩＥ設定プロセスでは、特定のストリームに対してターゲットＱＰ２２を達成するために、ｂａｓｅ＿ｑｐが３２である場合、－１０というｑｐ＿ｄｅｌｔａが設定され得る。空間動きベクトル予測は、タイル内のみに制限されるように設定され得る（ブロック１０１６）。すなわち、例示的な実施形態では、動きベクトルは、タイル境界を越えることはできない（すなわち、タイル内予測のみが可能であり、タイル境界を越えるインター予測またはコンテキスト選択は不可能である）。これは、動きベクトルが、タイル内のブロックの動き補償補間中に任意の同一位置のタイルの境界外のサンプルが読み取られないように設定されることを意味する。エンコーダがフレームの特定の領域に関して特定のストリームを符号化するためにｑｐ＿ｄｅｌｔａ情報を使用するように、エンコーダ用のＲＯＩグリッドが設定され得る（ブロック１０１８）。さらに、ＴＭＶＰはまた、上述の例示的なＰＥ設定プロセスにおいて無効にされ得る（ブロック１０２０）。

例示的なＰＥ設定プロセスは、一実施形態におけるＢＩＥ設定プロセスにほぼ類似しており、ＧＯＰサイズに応じてすべての「位相」ストリームに対して実行され得ることに留意されたい。さらに、一定のパラメータを使用するＢＩＥ設定プロセス８００Ａと同様に、ＰＥ設定プロセスの追加のまたは代替の実施形態は、図１０Ａの流れ図に例示されているパラメータに加えてかつ／またはその代わりに他のパラメータを含み得る。

図１０Ｂは、本発明の実施形態による、例示的なＰＥ実装形態におけるブロック、ステップ、および／または動作を例示する流れ図である。一般に、エンコーダは、ＰＥベースのタイルコード化中にいくつかの判定を実現して、各位相符号化ストリームの特定のフレームロケーションでのみＸフレームを生成するように設定され得る。ブロック１０３４において、符号化のためにビデオ入力１０３２が受信される。ブロック１０４０において、タイル化エンコーダは、上記のように、周期（ブロック１０３６）および位相（ブロック１０３８）に基づいて、ＰＥプロセスを実装するように設定される。ストリームごとに、最初のフレームが、Ｉフレームとして符号化される（ブロック１０４２）。その後、フレーム単位で適切なコーディング判定を実現するために、反復プロセスが実装され得、反復プロセスは、ビデオシーケンスがその終端に到達したかどうかに関する判定から開始する（ブロック１０４４）。終端に到達していない場合（すなわち、処理を必要とするフレームがビデオシーケンス内に残っている場合）、フレームインデックス（ｉ）がインクリメントされ（ブロック１０４６）、次のフレームが取得され、そのフレームがｉ番目のフレームとして示される（ブロック１０４８）。モジュラ関係｛ｉＭｏｄ（周期）＝位相｝が満たされているかどうかが判定される。満たされている場合、ブロック１０５４、１０５６、および１０５８に記載のように、フレームは、Ｘフレームとして符号化される。満たされてない場合、フレームは、通常のＰフレームとして符号化される（ブロック１０５２）。その後、プロセスの流れは戻り、ビデオストリームのすべてのフレームが処理されたかどうかを判定する（ブロック１０４４）。処理された場合、プロセスの流れは進み、ビデオストリームの符号化を確定し（ブロック１０６０）、ブロック１０６２に記載のように、ビデオストリームが、下流エンティティ（たとえば、パッケージ化システム）にＰＥタイル化ビットストリームとして提供され得る。

前述のように、ＰＥベースのタイル符号化方式は、３６０°ビデオ配信中の段階的リフレッシュアニーリングプロセスを容易にし、これについては、以下でさらに詳しく説明する。位相符号化の一実施形態は、プレイアウト中にも使用され得、異なる品質のタイルを組み合わせるために、サーバ側またはクライアント側で実行されるステッチャが使用され得る。したがって、再生されているビデオのすべてのフレームにおいて、各タイルは、タイルが取られたビデオストリームのＱＰ値、ターゲットビットレート、または他の指標に対応し得る現在の品質を有する。帯域幅が十分に大きい場合、またはユーザが頭部を動かしてビューポートが変更された場合、いくつかのタイル（たとえば、新しいビューポート上のタイル）の品質をアップグレードする（たとえば、ＱＰを下げる）ことが望ましい。さらに、デコーダ側のバッファの使用量を低減することによってレイテンシを低減するために、本発明の一実施形態では、ビューポート全体が一度にアップグレードされ得るのではなく、ビューポートを段階的リフレッシュによって段階的にアップグレードし、すべてのフレームで少数のタイルのみをアップグレードし、デコーダのバッファを小さく保ち、これによりレイテンシを低減する。以下でさらに詳細に説明するように、例示的な帯域幅アニーリング装置は、帯域幅、ビューポート、および／または現在のバッファ使用率に基づいて、アップグレードするタイルを決定するためのプロセスをいつでも実現するように設定され得る。さらに、このようなプロセスは、タイルがアップグレードされるべき品質レベル（すなわち、どのＱＰか）を決定するように設定され得る。

たとえば、プレイアウト中、（以下でさらに詳細に説明する）タイル選択装置がｉ番目のフレームでタイルＴを品質ＱＰ＝ｑにアップグレードすることを決定すると仮定する。この決定は、タイル／フレームステッチャモジュールへの制御入力として提供され得、タイル／フレームステッチャモジュールは、位相符号化を使用して品質ＱＰ＝ｂａｓｅ＿ｑｐ＋ｄｅｌｔａ＿ｑｐ＝ｑで符号化されたビデオストリームのｉ番目のフレームから、タイルＴを検索、受信、または別の方法で取得し、位相は、モジュラ関係｛位相＝ｉＭｏｄ（周期）｝によって決定される。次いで、次回タイル選択プロセスがこのタイルの品質を変更することを決定するまで、タイルＴは、同じストリーム（すなわち、品質ＱＰ＝ｑおよび同じ位相で位相符号化されたストリーム）から取られる。したがって、アップグレード中にタイルの段階的リフレッシュを実行する能力を超えたＰＥ方式のさらなる利点は、より良いビデオ品質であることが理解されよう。全体として、位相符号化は、Ｘフレームが位相なしで置換されることによりドリフトが発生し、ピーク信号対雑音（ＰＳＮＲ：ｐｅａｋｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅ）値が低くなり、それによりＧＯＰの残りの部分のＱｏＥストリームが低くなる可能性があるＢＩＥ方式よりも優れたＱｏＥを提供する。前述のように、位相符号化の潜在的な欠点は、複数のストリームが必要になり、これにより、符号化処理のオーバーヘッドおよび記憶空間がかなり大きなものなる可能性があることである。

ＰＥ方式またはＢＩＥ方式のいずれかを使用してタイル符号化ビットストリームをステッチする方法に関する例示的な実施形態を、以下に説明する。前述のように、タイルステッチングの実施形態は、ストリーム配信段階中にサーバで、またはプレイアウトのためにクライアント側で実装され得る。一般に、タイルをステッチするための例示的な実施形態は、（たとえば、異なるＱＰ、ターゲットビットレート、または他の指標に基づいて）異なる品質のビットストリームを利用すること、ならびに、タイルが選択され得るビットストリームの中で、ビデオピクチャに関連する様々なパラメータデータ、たとえば、ビデオパラメータセット（ＶＰＳ：ＶｉｄｅｏＰａｒａｍｅｔｅｒＳｅｔ）、シーケンスパラメータセット（ＳＰＳ：ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）、ピクチャパラメータセット（ＰＰＳ：ＰｉｃｔｕｒｅＰａｒａｍｅｔｅｒＳｅｔ）、補足強化情報（ＳＥＩ：ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）などに対する互換性があることを保証することを含む。一般に、タイル構造は、好ましくは、ステッチングを容易にするために経時的に一定しているべきであり、これは、本発明のエンコーダによって実行されるタイル符号化プロセスに関連する。ビットストリームステッチャモジュールは、異なるタイル符号化ストリームからのタイルのリストを含む入力に応答して動作し、異なるタイル符号化ストリームを組み合わせて新しい出力ビットストリームを生成することができ、新しい出力ビットストリームでは、ビューポートに近いタイルがビューポートから離れたタイルと比較してより高い品質を有する。さらに、本発明の教示による、タイルの組合せおよびストリームの多重化を実行するための例示的な実施形態は、出力ストリームの生成が、ＭＰＥＧＨＥＶＣ／ＩＴＵ－Ｔ／ＩＳＯ２３００８パート２／Ｈ．２６５仕様などの知られているコーデック規格、ならびにＡＶ１、Ｈ．２６６、ＶＶＣなどの新興の規格に依然として準拠するように設定され得る。

ＢＩＥコード化ストリームをステッチする場合、（たとえば、ユーザの注視または帯域幅割当に基づいて何らかの制御入力が提供されるまで、）スプライシングに、通常のストリームからのタイルがデフォルトで使用され得る。ＢＩＥコード化ストリームからタイルが取られる唯一のインスタンスは、ビューポートが変更された場合（したがって、ＧＯＰの途中に適合し得るＰスライスヘッダを有するフレームであるＸフレームを必要とするが、タイルがイントラ符号化されるため、新しいビューポートが提示され得る）、または帯域幅アニーリングプロセスがタイルの品質をアップグレードすることを決定する場合（この場合、Ｐスライスヘッダを有するブロックイントラフレームは、アップグレードされた、より高品質のタイルを含む）のどちらかである。

図１３Ａは、本発明のいくつかの例示的な実施形態による、ＢＩＥコード化タイルストリームを含む例示的なタイルステッチング方式１３００Ａの様々なブロック、ステップ、および／または動作を例示する。ブロック１３０２において、ＢＩＥビットストリームステッチャは、異なるＱＰの入力ビットストリームを受信し、第１のセットは、通常のタイルコード化ストリームを含み、第２のセットは、ＢＩＥタイルコード化ストリームを含む。上記のように、例示的な実施形態におけるストリームは、動きが制約されており、各フレームＮについて、他の任意のフレームＮにおけるベースＱＰと同じｂａｓｅ＿ｑｐを有する。タイル選択モジュールは、異なるＱＰを有するタイルのリストを提供し（ブロック１３０６）、リストは、各タイルの説明およびパラメータ情報、およびタイルが検索または取得されるべき特定のＱＰビットストリームに関する入力全体の一部を形成する（ブロック１３０４）。ブロック１３０８に記載のように、タイルステッチングプロセスは、タイル単位で実現され得る。ビューポートおよび／またはタイルＱＰが変更された場合（ブロック１３１０）、タイルは適切なＱＰを有するＢＩＥコード化ストリームから取られ、フレームにステッチされる（ブロック１３１２）。それ以外の場合、タイルは通常のタイル符号化ストリームから取られ、それに応じてステッチされる（ブロック１３１４）。すべてのタイルが（所定のグリッド配列で）フレームにステッチされた後、タイルの異なる品質を有するステッチされたフレームが、出力として提供され得る（ブロック１３１６）。処理（たとえば、符号化、ステッチング）に対してさらなるビデオフレームが残っている場合、プロセスの流れは継続し得る。

例示として、（１）より低品質の通常のストリーム（たとえば、ＱＰ設定値３０）、（２）より高品質の通常のストリーム（たとえば、ＱＰ設定値２２）、および（３）より高品質のＢＩＥ（全イントラ）ストリームという少なくとも３つのストリームがある、ブロックイントラストリームステッチングのシナリオについて考察する。大まかに言えば、ビューポートが変更されると、いくつかのタイルの品質が向上し得る。ステッチングは、ブロック１３１２で行われ、たとえば、前のピクチャにおいてストリーム（１）から取られた位置Ａのタイルが、ここではストリーム（３）から取られることを意味する。次のピクチャでは、タイルがまだビューポート内にある場合、位置Ａのタイルは、ストリーム（２）から取られるべきである。タイルがもはやビューポート内にない場合、位置Ａのタイルは、ストリーム（１）から取られ得る。より具体的には、ステッチングは、さらに注視ベクトル情報に依存し得る。言い換えると、タイル選択に使用される（以下でさらに詳細に説明する）注視対重み決定方式では、ステッチングは、位置Ａのタイルがビューポートにあるかどうかだけでなく、タイルがどこに位置しているかに依存する。したがって、本発明の例示的な実施形態において、ビューポート内のタイルは、それらが位置する場所に応じて、タイルが直線視線からどれだけ離れているかに基づいてアップグレードまたはダウングレードされ得ることを理解されたい。

同様の方法で、図１３Ｂに、ＰＥベースのタイル化ストリームを含む例示的なタイルステッチング方式１３００Ｂを例示する。ＰＥビットストリームステッチャは、それぞれが複数の位相符号化ビットストリームに符号化された、異なるＱＰの入力ビットストリームを受信するように動作する（ブロック１３３２）。タイル選択モジュールは、異なるＱＰを有するタイルのリストを提供し（ブロック１３３６）、リストは、各タイルの説明およびパラメータ情報と、タイルを検索または取得すべき特定のＱＰビットストリームとに関する入力全体の一部を形成する（ブロック１３３４）。ブロック１３３８に記載のように、タイルステッチングプロセスは、ＢＩＥタイルステッチングと同様に、タイル単位で実現され得る。ビューポートおよび／またはタイルＱＰが変更され、それにより現在のタイルの品質を変更する必要がある場合（ブロック１３４０）、タイルは、位相フレームモジュラ関係に基づいて適切なＱＰを有するＰＥコード化ストリームから取られ、フレームにステッチされる（ブロック１３４２）。たとえば、フレームＩのタイルのＱＰがＱＰ＝ｑに変更された場合、タイルは、位相＝｛ｉＭｏｄ（周期）｝かつＱＰ＝ｑのストリームから取られ、タイルグリッドの適切なロケーションでステッチされる。それ以外の場合、タイルは、前のフレームで取られたものと同じビットストリームから取られ、それに応じてステッチされる（ブロック１３４４）。すべてのタイルが（所定のグリッド配列で）フレームにステッチされた後、タイルの異なる品質を有するステッチされたフレームが、出力として提供され得る（ブロック１３４６）。さらに、処理（たとえば、符号化、ステッチング）に対してさらなるビデオフレームが残っている場合、プロセスの流れは継続し得る。

ＢＩＥコード化ビットストリームまたはＰＥコード化ビットストリームのどちらからのタイルがステッチされるかに関わらず、ステッチングの例示的な実施形態は、前述のような他のパラメータ情報に加えて、互換性のあるスライスヘッダを有する異なるストリームからタイルを取ることを含み得る。一般に、互換性および準拠性を保証するために、スライスタイプ（すなわち、Ｉ／Ｐ／Ｂスライス）、スライスＱＰ、およびＣＡＢＡＣ復号プロセスに影響を与え得る他のフィールドまたはパラメータが監視され得る。さらに、図１３Ａ／１３Ｂに記載の例示的な実施形態などのいくつかの実施形態は、以前に復号されたピクチャのみを使用してインター予測が行われることを必要とする場合がある。

図１３Ｃを参照すると、本発明の例示的な実施形態による、例示的なタイルステッチング／スプライシング方式に関する追加のブロック、ステップ、および／または動作を例示する流れ図が示されている。ブロック１３６２において、（ステッチされるべき）現在のフレームについて、異なるＱＰのタイルが入力として取得される。タイル選択プロセスに基づいて選択された（ＢＩＥストリームまたはＰＥストリームのいずれかからの）タイルのデータが、メモリにコピーされる（ブロック１３６４）。ブロック１３６６において、ヘッダフィールド、オフセットフィールドなどを含み得るプロトタイプスライスヘッダで、スプライシングプロセスが開始する（ブロック１３６８）。タイルインデックス（ｉ）の場合、タイルサイズから、ｅｎｔｒｙ＿ｐｏｉｎｔ＿ｏｆｆｓｅｔ［ｉ］が決定され得る（ブロック１３６８）。ｅｎｔｒｙ＿ｐｏｉｎｔ＿ｏｆｆｓｅｔ［ｉ］の最大値に必要なビットが決定される（ブロック１３７０）。スライスヘッダは、以前に決定されたすべてのタイルインデックスの最大オフセット値に基づいて、新しいエントリポイントオフセット（ＥＰＯ：ＥｎｔｒｙＰｏｉｎｔＯｆｆｓｅｔ）の長さで調整され得る（ブロック１３７２）。ブロック１３７４において、ＥＰＯフィールドがスライスヘッダに書き込まれる。その後、タイルは、スライスヘッダの後に共に連結され（ブロック１３７６）、それにより、ステッチされたフレームの出力ビットストリームを生成する（ブロック１３７８）。

タイルをスプライスするために、タイル選択プロセスに対応した特定のソースビットストリームからタイルを検索する必要があることが、当業者には理解されよう。効率的な検索を容易にするために、スプライシングの一実施形態は、タイルに対応する解析済みファイルのより迅速な参照を可能にするメモリマップされたタイルポインタキャッシュを提供することを含み得、ファイルフォーマットは、ＲＡＭに解析されるのではなく、メモリマッピングされるように最適化される。例示的なスプライシングの実施形態における、例示的なファイルフォーマットを以下に示す。

図１４を参照すると、本発明の一実施形態による、異なる品質またはＱＰを有するコード化ビットストリームから選択およびスプライスされたタイルを含む例示的な３６０°ビデオフレーム１４００が示されている。例示として、ビデオフレーム１４００は、４Ｋビデオ入力の１２８タイル（１６列×８行）から形成され、ラップされていないフォーマットで示されており（すなわち、３Ｄ球形空間に投影されない）、フィールド１４０２は、ビューポートまたは注視ベクトルのロケーションに基づくフレーム１４００のＲＯＩに対応し得る。本明細書の教示によれば、ＲＯＩ１４０２は、高品質のタイル（すなわち、低いＱＰ、たとえばＱＰ－１６を有する１０５．６Ｍｂｐｓでコード化ビットストリームから選択され、ステッチングプロセスで連結されるタイル）をスプライスすることから形成され得る。ＲＯＩ１４０２に近接して／隣接して配置された領域またはフィールドは、中程度の品質のタイルを有し得る（たとえば、フィールド１４０４）。一方、領域１４０６および１４０８によって例示されるように、ＲＯＩ１４０２から遠位に配置されたフィールドまたは領域、たとえば、ビューポートからより遠いものは、より低品質のタイルから形成され得る。

注視ベースのタイル選択制御を容易にするために、本発明の追加の実施形態は、ユーザが３６０°没入型ビデオプログラム内のどこを鑑賞しているか（すなわち、ユーザのビューポート）監視し、ユーザの注視に基づいて適切なタイル重みを決定することを含む。一般に、注視ベクトル（ＧＶ：ｇａｚｅｖｅｃｔｏｒ）は、ユーザ／クライアントデバイスが、３６０°ビデオを表示している３Ｄ没入型空間における注視方向、たとえばヘッドセットが向けられている方向を規定することによって返され得る。さらなる実施形態では、同様の目的で、ユーザの眼球の動きが追跡され得る。以下で理解されるように、タイル化フレームのタイルは、３Ｄ表示環境においてフレームがどのようにマッピングされているかに基づいた（ユーザの注視に依存しない）方向ベクトルも有する。タイルベクトルと注視ベクトルのドット積（スカラ積または内積とも呼ばれる）を算出して、注視方向とフレームの任意のタイルの中央の方向との間の分離角を決定することができ、分離角は、対応するタイル重みを決定するための重み付け関数モジュールに提供され得る。

図１５Ａおよび図１５Ｂは、本発明の１つまたは複数の実施形態による、本開示の追加の流れ図のブロック、ステップ、および／または動作の有無に関わらず１つまたは複数の構成で（再）結合され得る、最適化されたタイル選択を容易にするための注視制御方式の様々なブロック、ステップ、および／または動作を例示する流れ図である。プロセス１５００Ａは、３６０°没入型ビデオ資産をユーザに表示するように動作するクライアントデバイスから注視ベクトルを受信することを含み、各ビデオフレームは、ユーザが没入する、ユーザによって鑑賞される３次元（３Ｄ）表示環境に投影されたタイルの配列を含み、注視ベクトルは、ユーザが任意の特定の時間に鑑賞している３Ｄ表示環境における注視方向を規定する（ブロック１５０２）。一実施形態では、注視ベクトル情報は、表示環境に関連付けられ得る３Ｄデカルト座標系内の（ｘ，ｙ，ｚ）情報を含み得る。別の実施形態では、注視ベクトル情報は、正距円筒図法投影マッピングに基づく３Ｄ球座標系内の（ρ、θ、φ）情報を含み得る。別の実施形態では、３Ｄ注視ベクトルは、（単位長の方向ベクトルを取得するために）正規化され得る。したがって、ＧＶ情報は、特定の実装形態で使用される幾何学的モデリング、投影マッピング、計算方法論などに応じていくつかの方法で提供され得ることが、当業者には理解されよう。ブロック１５０４において、注視ベクトルと、３Ｄ表示環境におけるタイルの配列にそれぞれ対応する各タイルロケーションに関連付けられた方向ベクトルとの間の分離角がどれだけかについての決定が行われ得、これもまた、特定の幾何学的モデリング、投影マッピング、計算方法論などに依存し得る。ブロック１５０６において、クライアントデバイスに配信されるビデオフレームを組み立てるために３６０°没入型ビデオ資産の異なるビットレート品質（ＱＰ）のタイルを選択する際に使用する、タイルの配列に対応した複数のタイル重みが、分離角に応じて決定される。一般に、注視ベクトルに近い、もしくは注視ベクトルから任意の角距離内にあるタイル（または、より広義には、タイルの位置もしくはロケーション）には、より高い値が代入され得、一方、注視ベクトルとは真逆（すなわち、１８０°またはπラジアン）のタイルには、最も低い重み値が代入され得、その間にある（水平方向と垂直方向の両方の）残りのタイルは、任意の好適な数学的関係（たとえば、線形、２次方程式など）に従って最大値から最小値の間で変化する重み値を受け取る。

プロセス１５００Ｂは、例示的な実施形態において注視ベースの制御を実現することに関するさらなる詳細を示す。ブロック１５２２において、注視ベクトルと、３６０°没入型ビデオ資産の２Ｄビデオフレームの好適な３Ｄ空間投影におけるタイルロケーションに対応する方向ベクトルとの間の分離角の余弦の関数として、タイル重みが決定され得る。ブロック１５２４において、タイル重みは、動的帯域幅割当入力と共に、タイル選択および帯域幅アニーリングプロセスへの入力として提供され得、これについては、本特許出願の他の箇所でさらに説明する。

例示的な一実施形態では、注視ベクトルに対してタイルがどのロケーションにあるかに応じて、重みに対応するそのタイルロケーションにどの程度の帯域幅を割り当てるかの決定が行われる。注視ベクトルをベクトル

、タイル方向ベクトルをベクトル

で示す場合、それらのドット積は、次のように決定され得る。

正規化の際、すなわち、

の場合、｜ａ｜＝１である。同様に、

を代入すると、｜ｂ｜＝１である。したがって、正規化することによって、前述の関係は次のように単純化される。

本発明の一実施形態は、重みを決定するためにｃｏｓ（θ）をθにマッピングして戻すのではなく、次のように、ｃｏｓ（θ）から重みにマッピングするための数学関数を規定することを含む。ｘ＝ｃｏｓ（θ）であり、ｘ≧０の場合、ｆ（ｘ）＝｛ｘ＋１｝、ｘ＜０の場合、［α｛ｘ＋１｝］であり、式中、α＝スケーリング係数、たとえば、０．１である。したがって、注視ベクトルとタイル方向ベクトルの間の分離角が０°である場合、ｃｏｓ（θ）＝１であり、ｆ（ｘ）＝２である。同様に、注視ベクトルから６０°または３００°離れているタイルの場合、ｃｏｓ（θ）＝０．５であり、対応するｆ（ｘ）値は１．５である。３Ｄフレームの正距円筒図法投影では、ユーザが見ている場所とは正反対の角度は１８０°であり、ｃｏｓ（θ）＝－１．０が得られ、その結果、スケーリング係数に関わらず、重みｆ（ｘ）値は０になる。したがって、例示的な実施形態は、フレーム内の注視方向に関連してタイル品質がどの程度滑らかにまたは急速に変化し得るかに基づいて、好適なスケーリング係数を提供し得る。

図１６Ａは、ユーザの視線方向とタイル位置との間の分離角の決定を容易にするための例示的な円形ユニットの幾何学的配置１６００Ａを示す。ユーザロケーション１６０２は、３Ｄ球形空間の円形ユニットの断面の中心として設定される。第１の参照軸（たとえば、Ｘ軸）１６０４に沿ってユーザの注視を参照することによって、タイルロケーションの異なる角変位が、上記のように決定され得る。例示として、参照番号１６０６および１６０８は、注視方向１６０４から３０°および６０°離れている２つのタイル方向ベクトルを指す。一般に、注視方向１６０４に対して＋９０°またはそのあたり（たとえば、参照番号１６１０Ａ／１６１０Ｂ）に近づくタイルロケーションは、ユーザの中遠方周辺視野を暗示し、このような領域およびそれを超える領域内のタイルは、帯域幅のより速い削減（すなわち、より低い品質）が割り当てられ得るように重み付けられたスケーリング係数を利用でき得る。方向ベクトルロケーション１６１４では、タイルは、注視方向１６０４から＋１８０°離れている。

例示的な実施形態では、実際の角変位の代わりに、異なるロケーションに対応する余弦値が、注視方向に関して提供され得る。たとえば、タイルの方向ベクトルが注視ベクトルから９０°または２７０°である場合、ｘ＝０．０が重み付け関数に入力されると、重みは１．０になる。同様に、タイル方向ベクトルが３３０°離れている場合、ｘ＝０．８６６が重み付け関数に提供され、その結果、重み値は１．８６６になる。さらなる例として、タイル方向ベクトルが１２０°離れている場合、ｘ＝－０．５が重み付け関数に提供され、その結果、（α＝０．１と仮定すると）重み値は０．０５になり、これは、タイル方向が注視ベクトルから２４０°離れている場合も同様である。

さらに、行と列によるタイルの識別を容易にするために、注視ベクトル情報とタイル方向ベクトル情報はどちらも、メディア準備中にタイル符号化で使用されるタイルグリッドに対する適切なタイル座標情報に変換され得、これらは、重み情報と共にタイル選択および帯域幅アニーリングプロセスに入力され得る。タイル座標情報の決定は、例示的な実施形態で使用される投影マッピングに依存することが、当業者には理解されよう。図１６Ｂは、タイルが表面を形成する球形の表示環境１６００Ｂをもたらす正距円筒図法投影マッピング方式を示す。例示的な一実装形態は、北極１６０５を｛０，０，１｝の方向に、南極１６０７を反対方向に配置しており、一方、タイル化フレームの左端と右端は｛０，０，１｝の方向にあり、画像（すなわち、タイル化フレーム）の中心は｛０，０，－１｝の方向にある。均一なタイルサイズを含む例示的な実装形態では、本発明の一実施形態は、方向ベクトル１６１１を有するタイル１６０９のロケーションを決定するための装置および方法を提供し、この装置および方法は、ｎ_ｘ（タイル列の数）とｎ_ｙ（タイル行の数）の所与のグリッド配置についてのｔ_ｘ（タイルの列インデックス）とｔ_ｙ（タイルの行インデックス）を、以下、

のように計算するように設定され得、式中、θは極角、φは球座標系の方位角である。

符号化が不均一なタイルサイズを有する場合、前述の方程式は、たとえば、個々のタイルの画素面積などに基づいて修正され得る。例示として、（ｉ）をタイル列ｉの左端のタイルインデックス、（ｊ）をタイル行ｊの上端のタイルインデックスとして使用し、ｗは画素列の数であり、ｈは画素行の数であり、本発明の実施形態は、以下、

を決定するように設定され得、例示的なコーディングユニットまたはブロックサイズ（たとえば、６４画素）の使用に関して、ｘ_ｉとｙ_ｊはどちらも、丸める（すなわち、小数部分を切り捨てる）ための「フロア」演算子を含む。

図１６Ｃは、本発明の１つまたは複数の実施形態における例示的な３６０°没入型ビデオ鑑賞環境１６００Ｃを例示する。加入者宅１６４０に関連付けられた宅内ノードまたはゲートウェイ（ＧＷ）１６４２は、没入型メディアコンテンツを提供するための配信パイプ１６４４によってサーブされる。一構成では、このような没入型メディアコンテンツは、加入者／ユーザによって装着される好適なヘッドセット内で鑑賞される３Ｄパノラマ仮想空間に提示され得る。例示的なＵＥは、たとえば、１つまたは複数のゲームアプリケーションまたはメディアアプリケーションを実行してユーザの頭部１６２８にまたはその上に取り付けられた表示デバイス１６３６などの１つまたは複数のデバイスに好適な信号を提供する、ゲームコンソール、ラップトップコンピュータ、またはスマートフォンなどの、ＧＷ１６４２によってサーブされるＣＰＥ１６４６を含み得る。このようなデバイスのさらなる例には、ユーザを取り巻く没入型鑑賞空間を表示または実現することができる、バイザー、ゴーグル、有線／無線ヘッドギアまたはヘルメット、マスクなどが含まれ得る。例示的な表示デバイス構成では、頭部の追跡を容易にするために、すなわち、ユーザ１６２８が自分の頭部を動かす、それに応じて、ユーザによって注視されている空間（すなわち、ビューポート）の一部と共に、シミュレートされた空間の周りの視野が移動するようにするための、ジャイロスコープ、加速度計、および磁力計などの追加の計器が存在し得る。したがって、頭部追跡ヘッドセットでは、ユーザが上下を向く、頭部を左右に動かす、または頭部に角度を付けるとき、視円錐または視野と同様にユーザのビューポートも動き回る。例示的なシステムは、ユーザの頭部を、ピッチ、ヨー、およびロールとしても知られるＸ軸、Ｙ軸、およびＺ軸を用いてプロットして、頭部の動きを測定することができる、いわゆる６自由度（６ＤｏＦ：ｓｉｘｄｅｇｒｅｅｓｏｆｆｒｅｅｄｏｍ）構成を含み得、これは、シミュレートされた３Ｄパノラマ鑑賞空間内でユーザの視点を追跡するために使用され得る。

例示として、ＣＰＥ１６４６は、１つまたは複数のプロセッサ１６５６と、揮発性および不揮発性／永続メモリ１６５４と、入力／出力（Ｉ／Ｏ）インターフェース１６６０（たとえば、タッチスクリーン、ゲームコントローラ、ハンド追跡グローブなど）と、ヘッドマウントディスプレイ（ＨＭＤ）１６３６を装着しているユーザ１６２８のために３Ｄ仮想鑑賞空間または「スクリーン」１６２０を実現することができる１つまたは複数の３６０度メディア／ゲームアプリケーション１６３８とを含むプラットフォーム１６４８として具現化され得る。例示的な一構成では、ＨＭＤ１６３６は、無線インターフェース１６４２を介してＣＰＥ１６４６に無線で結合され得る。複数のデコーダバッファ１６４５は、ユーザ１６２８にとって利用可能な１つまたは複数の３６０°没入型ビデオコンテンツチャネルに対応する例示的なＣＰＥプラットフォーム１６４６／１６４８の一部として提供され得る。

追加の３Ｄメディア対応ＣＰＥ１６３４（たとえば、タブレット、ファブレット、またはスマートフォンなど）も、別個にまたは任意選択で提供され得る。ＨＭＤ１６３６と連動して共にまたは別個に動作する例示的なＣＰＥ装置１６４６／１６３４は、３Ｄ仮想鑑賞空間１６２０を実現するように動作し得、ビューポート３Ｄ仮想鑑賞空間１６２０は、ユーザ１６２８が３Ｄ環境内で規定された垂直面、水平面、または両方の面のうちのいずれかで自分の視点をフル３６０°で動かすことができ、それに応じてビューポート１６２４が変化する、没入型環境である。追加のまたは代替の構成では、ＨＭＤ１６３６と連動して動作するＣＰＥ装置１６４６／１６３４は、いずれかの軸に沿って３６０°未満であるという点で部分的に没入型であり得る３Ｄ仮想鑑賞空間１６２０を実現するように動作し得る。

動きおよび注視検出モジュール１６６２は、加入者１６２８が鑑賞空間１６２０内で自分の注視を移動させるとき、３Ｄ仮想鑑賞空間１６２０に対するユーザ／加入者１６２８の視点または注視方向の動きを検出し、好適な注視ベクトル出力をサービングノードに提供するように動作する。一実施形態では、タイル重み付けモジュールは、３６０°ビデオ最適化ノード（たとえば、図２のノード２１６）で動作して、注視ベクトル情報に基づいて適切なタイル重みを決定するように設定され得る。別の実施形態では、タイル重み付けは、例示的な装置１６４６／１６３４および／またはＨＭＤ１６３６でローカルに実行され得る。

図１７Ａは、本発明の例示的な実施形態による、例示的な３６０°没入型ビデオ最適化プロセスに関する追加のブロック、ステップ、および／または動作を例示する流れ図である。具体的には、プロセス１７００Ａは、一実装形態における注視／動き検出に関するクライアント側の処理を例示する。ブロック１７０２において、ユーザが３６０°ビデオセッションを開始すると、クライアントデバイスは、要求された３６０°ビデオ資産に関する要求を、バックオフィスノード（たとえば、図２のノード２３８）に送る（ブロック１７０４）。ブロック１７０６において、バックオフィスノードは、要求された資産に対するＵＲＬによって応答し、クライアントにビデオセッションＩＤを提供する。これに応答して、クライアントデバイスは、ＵＲＬで識別されたロケーションから、符号化されたビデオ資産を、ストリーミングを介して受信することを開始し、クライアントデバイスのデバイスプレーヤが、符号化されたビデオ資産を復号し、３Ｄ没入型環境でレンダリングする（ブロック１７１０）。また、クライアントデバイスは、進行中の３６０°ビデオセッションに関連してクライアントデバイスを動作させているユーザの頭部／眼の動きを監視または追跡を開始し得る（ブロック１７０８）。動きが検出されたとの検出に応答して（ブロック１７１２）、現在のビューポートに関する注視ベクトル情報が、３６０°ビデオ最適化ノード（たとえば、図２のノード２１６）に提供され、３６０°ビデオ最適化ノードは、帯域幅アニーリングおよびタイル選択プロセスの際に、注視ベクトル情報を他の情報と組み合わせて利用する（ブロック１７１４）。一実施形態では、決定ブロック１７１２および１７１６を含む反復ループに示されるように、注視ベクトル情報は、ユーザがビデオの再生を停止するまで、かつ／または（たとえば、一定期間にわたって）頭部／眼の動きが検出されなくなるまで生成され得る。一実施形態では、注視ベクトルは、所定の頻度（たとえば、毎秒４０回）で生成され得る。以下で理解されるように、すべての注視ベクトルが、例示的な帯域幅アニーリングおよびタイル選択プロセスで利用され得るわけではなく、タイル品質の変更、たとえば、アップグレードまたはダウングレードが必要な場合にのみトリガされるように設定され得る。ユーザがビデオ資産の再生を停止すると、配信サーバに対する適切なセッション終了要求／メッセージが生成され得（ブロック１７１８）、その後すぐに、プロセスの流れが終了し得る（ブロック１７２０）。

以下に、例示的な実装形態における、設定可能な時間ウィンドウにわたってクライアントデバイスによって提供された注視ベクトルのリストを示す。

正規化されていないフォーマットでは、デカルト座標系における例示的なＧＶは、［３，５，１］、［１０，４，１］などの（ｘ，ｙ，ｚ）値を含み得る。正規化された球座標系では、ＧＶ値は、たとえば（５９．０４°，８０．２７°）などの角度のセットを含み得、ｒ＝半径は正規化され、θ＝極傾斜、φ＝方位角である。フォーマットに関わらず、注視ベクトル情報は、設定可能な頻度、時間期間などで提供または別の方法で取得され得るが、すべての注視ベクトルがタイル重み決定プロセスで利用される必要があるとは限らない場合がある。たとえば、特定の実施形態に関して前述したように、タイル重みは、タイル選択および帯域幅アニーリングプロセスをトリガしたことに応答してのみ、決定および利用され得る。したがって、このような実施形態では、未使用の注視ベクトル情報は定期的に破棄され得る。

図１７Ｂは、本発明の例示的な実施形態による、例示的な３６０°没入型ビデオ最適化プロセスのさらなる態様に関する追加のブロック、ステップ、および／または動作を例示する流れ図である。具体的には、プロセス１７００Ｂは、例示的な実装形態における、特に、注視／動き検出に基づくタイル重み決定、および帯域幅アニーリングおよびタイル選択におけるタイル重みの利用に関するサーバ側の処理を示す。ブロック１７４２において、ビデオバックオフィスノードが、セッションを開始することを求めるユーザ要求を受信すると、３６０°ビデオ最適化システムに対するセッションセットアップ要求が生成され得る（ブロック１７４４）。バックオフィスは、適切な情報、たとえばセッションＩＤ、セッションのマニフェストＵＲＬなどを取得したことに応答して、要求されたビデオ資産を開始するために必要な情報をクライアントデバイスに提供する（ブロック１７４６）。タイル選択機能を備えた帯域幅アニーリングおよびＱｏＥ管理モジュール（いくつかの実施形態ではＢＷＡ－ＴＳモジュールとも呼ばれる）は、すべての符号化表現において、要求されたビデオ資産に関連するマニフェストを取得、検索、読込み、および／または処理するように動作する（ブロック１７４８）。ブロック１７５０において、ＢＷＡ－ＴＳモジュールはまた、クライアントデバイスのビデオセッションに関する動的帯域幅通知を、配信ネットワークインフラストラクチャ（たとえば、例示的な実施形態ではＤＳＬＡＭ／ＣＭＴＳ）から受信するように設定され得る。ブロック１７５２において、ＢＷＡ－ＴＳモジュールは、タイル符号化ストリームまたは表現から特定のタイルを抽出するように動作する。ブロック１７５４において、ＢＷＡ－ＴＳモジュールは、３６０°没入型ビデオセッション用の帯域幅割当ならびに任意の注視ベクトル情報に関する制御入力を受信するように動作する（ブロック１７５６、１７５８）。前述のように、注視ベクトル入力が最初に利用可能ではない場合、コンテンツタイプ、コンテンツプロバイダポリシー、クライアントデバイスのタイプおよび能力などに基づいて設定可能なデフォルト値が利用され得る。ＢＷＡ－ＴＳ機能は、制御入力に応答して、帯域幅およびタイル重みに基づいて選択されたタイルのセットを生成するか、または別の方法で示すように動作する（ブロック１７５４）。（いくつかの実施形態ではＴＣ－ＳＧモジュールとも呼ばれる）タイル結合／ステッチングおよびストリーム生成機能は、選択されたタイルセットを受信するように動作し（ブロック１７６０）、選択されたタイルセットは、上記のように連結され得る。したがって、一実装形態では、ビデオスライスヘッダは、選択されたタイルと連結され、適用可能なエントリポイントオフセットを含むように適切に修正される（ブロック１７６２）。タイルステッチングの目的で、一定の動作が、ネットワーク抽象化層（ＮＡＬ）アクセスユニットレベルで実行され得、コード化されたビデオデータは、タイル化階層内の複数のＮＡＬユニットに編成される。ＮＡＬアクセスユニットは、事実上、整数のバイトを含むパケットであり、バイナリオーディオ／ビデオフローによって形成され、かつビットストリーム操作アクセスを容易にするために圧縮された、エレメンタリストリームの論理サブ構造として扱われ得る。一実装形態では、ＮＡＬアクセスユニットは、層圧縮を含む同期システムに属することができる最小のデータ編成であり、ビデオパラメータ情報間の一貫性（たとえば、空間／時間冗長性など）が維持されることを考慮に入れて、ＭＰＥＧ復号動作が行われ得る。

引き続き図１７Ｂを参照すると、ブロック１７６４において、結合されたタイルを含む１つのフレーム／ピクチャのデータのセグメントがＴＣ－ＳＧモジュールに提供され、フレーム／ピクチャは、好適なコンテナフォーマット、たとえば、ＭＰＥＧ－２トランスポートストリームコンテナフォーマット（Ｍ２ＴＳ、またＭＰ２ＴＳと呼ばれることもある）、ＭＰＥＧ４パート１４（ＭＰ４）コンテナフォーマット、またはＩＳＯベースメディアファイルフォーマット（ＩＳＯＢＭＦＦ）コンテナフォーマットなどでコンテナ化され得る（ブロック１７６６）。配信サーバは、多重化されたピクチャ／フレームを好適なネットワークを介してクライアントデバイスに配信するように設定され得る（ブロック１７６８）。図１７Ｂの実施形態に記載のように、プロセス１７００ＢのＢＷＡ－ＴＳ、ＴＣ－ＳＧ、および配信サービスを含む動作は、配信通信ソケットが閉鎖またはタイムアウトするまで継続して行われ得る（ブロック１７７０）。その後、クライアントデバイスとの３６０°ビデオセッションは、終了され得る（ブロック１７７２）。

例示的な実施形態では、例示的な３６０°没入型ビデオセッションに対する帯域幅割当は、１９Ｍｂ／秒であり得る。ビデオは、１２８タイルグリッドを使用してフル３６０ビデオで符号化され得、最高のＱＰ値１６での１０５．６Ｍｂ／秒から、最低のＱＰ値３０での７Ｍｂ／秒までの、異なるビットレートをカバーする。より高品質のタイルは、ユーザの直接視野でのターゲットとされる。タイルの品質は、ユーザの直接視野からの距離に比例して低下する（すなわち、ＱＰ値が上昇する）。ＢＷＡ－ＴＳの機能は、３６０ビデオセッションの全体的な帯域幅を超えないことを保証する。タイルの選択は、各タイルのビットレートに基づく。ユーザがシーンの中で曇り空を見上げているときの例では、そのビューポートに提供されるタイルのほとんどは、比較的高品質である。このようなシナリオで見上げているときのタイルのコンテンツは比較的静的である（すなわち、動きが非常に少ない）ので、エンコーダによって動きの少ないエリアに割り当てられるビットはそれほど多くない。これにより、ＱＰ値１６での最高品質のビデオ符号化によるタイルを表示できるようになる。３６０°ビデオに対する帯域幅割当が（たとえば、１９Ｍｂ／秒から７Ｍｂ／秒に）減少すると、タイルの品質も低下する。前述の例では、直接視野内の最高品質のタイルは、ビットレートが２２．４Ｍｂ／秒、ＱＰ値が２２であり得る。

図１８Ａは、１６×８配列のタイルを含む、タイルで重み付けされたフレーム１８００Ａを示し、例示的な実装形態において、各タイルは、クライアントデバイスによって提供された｛０．７８３，０．３９６，－０．４８１｝の注視ベクトルに基づく重みが割り当てられている。参照番号１８０２は、注視に関連付けられたビューポートを指し、タイルには、本発明の教示に従って最高値が与えられている。ビューポートが変化するにつれて、最高値を有するタイルの領域も同時に変化することが、当業者には理解されよう。したがって、正距円筒図法投影に基づく３６０°没入型ビデオ表示空間では、最高値を有するタイルの領域は、たとえば、ユーザが真上もしくは真下を注視している場合は極域に対して、またユーザがピクチャの真ん中を注視している場合は赤道に対して移動する。例示として、図１８Ｃは、３Ｄ没入型表示または鑑賞空間１８００Ｃを示しており、ユーザが真上を見ているとき、最高品質のタイルは北極領域１８５２の近くにあり、徐々に低品質となるタイルが没入型空間の残りの部分を形成し、最低品質のタイルは南極領域１８５４の近くにある。同様に、図１８Ｄは、３Ｄ没入型表示または鑑賞空間１８００Ｄを示しており、ユーザが真下を見ているとき、より高品質のタイルが南極領域１８５４の近くにあり、徐々に低品質となるタイルが北極１８５２に向かって広がっている。

図１８Ｂは、例示的な実施形態におけるデバイスフレームバッファ１８００Ｂを示す。バッファ内の３つの連続するフレーム１８２２Ａ～１８２２Ｃが示されており、それぞれ、Ｐスライスヘッダを有するが、ヘッドセットビューに基づくビューポート１８２０内に、異なるタイルのセットを含む。現在のフレーム１８２２Ａでは、そのビューポート１８２０内がすべてＩタイルであるが、次に続くフレームでは、ビューポート１８２０がＰタイルを有する状態で示されている。

上記のように、ＢＷＡ－ＴＳモジュールの機能の一態様は、（たとえば、ネットワークオペレータポリシー、コンテンツプロバイダポリシー、加入者／デバイスポリシー、またはそれらの任意の組合せに基づいて）例示的な３６０°没入型ビデオセッションの全体的な帯域幅が、指定された帯域幅割当を超えないことを保証すると同時に、品質および鑑賞体感をなおも最大化することである。したがって、好適なビットレート品質を有する最適化されたタイル選択は、直接注視から遠ざかるほど品質が低下することにより直接視線内のタイルが可能な限り最良の品質を有するように、ユーザの視野、帯域幅割当／制限、タイルごとのビットレート、および送信バッファモデルに対応するように設定され得る。

図１９は、本発明の１つまたは複数の実施形態による、本開示の追加の流れ図のブロック、ステップ、および／または動作の有無に関わらず１つまたは複数の構成で（再）結合され得る、ＢＷＡ－ＴＳプロセス１９００の様々なブロック、ステップ、および／または動作を例示する流れ図である。ブロック１９０２に記載のように、プロセス１９００は、ＢＩＥ方式またはＰＥ方式に従って生成され得る複数のタイル符号化ストリームに関して、３６０°ビデオ資産パッケージャ（たとえば、図２のパッケージャ２１４）によって提供される１つまたは複数のストリームマニフェストファイルを受信、検索、または別の方法で取得することで開始するか、またはそれに応答して開始し得る。一般に、マニフェストファイルは、メディア入力ストリームの複数のビットレート表現のうちの特定のビットレート表現に対応する各タイル符号化ビットストリームについて、ロケーションＵＲＬ、ビットレート、スライス／ブロックタイプ、メディアタイプなどを含む、フレームごとのタイルグループ化の様々な特性を記述した情報またはデータを含み得る。一構成では、マニフェストは、階層的な方法で編成され得、すなわち、一定のマニフェストは、コード化ビットストリーム全体を記述するためのものであり、ストリーム内の個々のタイルを記述するために、他のマニフェストが提供され得る。本特許出願の各所に記載されているように、各ストリームは、たとえば、ビットレート表現に使用される対応するＱＰおよび／もしくはターゲットビットレートもしくは他の指標に関連するかまたはそれらによって制御されるビデオ品質を有するソースメディアの特定のビットレート表現であり、タイル符号化ビットストリームの各フレームは、フレームごとに少なくとも１つのスライスに編成されたタイルの配列を含み、複数のフレームが、タイル符号化ビットストリームのＧＯＰ構造を形成する。プロセス１９００はブロック１９０４に進み、注視ベクトル情報を受信、検索、または別の方法で取得し、それに応答して、たとえば、注視ベクトルに基づいて、またはデフォルト設定に基づいて、フレームを形成するタイルの配列に対応するタイル重みを決定する。プロセス１９００はブロック１９０６に進み、メディア入力ストリームの複数のビットレート表現または関連するタイル符号化ビットストリームに対応するバリアント重みを受信、検索、または別の方法で取得する。一構成では、バリアント重みは、ストリームのポリシーベースのプロパティと規定され得、より高品質のストリーム表現（すなわち、バリアント）に、重みベースのナップサックパッキング選択を含むさらなる計算で使用され得るより高い優先度または重みが与えられる。ブロック１９０８において、タイル符号化ビットストリームのそれぞれについて、妥当性メトリック値が、ＧＯＰ構造全体のフレームのセットにわたる各タイル／ＧＯＰタプルの組合せごとのバリアント重みとタイル重みの関数として決定される。プロセス１９００はブロック１９１０に進み、妥当性メトリック値に少なくとも部分的に対応して、フレームを組み立てるための対応するタイル符号化ビットストリームから、異なるビットレート品質を有するタイルを選択し、選択されたタイルのビットレート品質は、多重化されたビデオ出力ストリームを送信するための送信バッファモデルを満たすように最適化される。その後、多重化されたビデオ出力ストリームの一部として、選択されたタイルを含むフレームを生成するために、選択されたタイルのリストが、タイルステッチャに提供され得る（ブロック１９１２）。本特許出願の他の箇所に記載されているように、例示的な実施形態において、タイルステッチングがデバイス側の実施形態で実行される場合、選択されたタイルは、クライアントデバイスに提供され得る。

本発明の一実施形態における例示的なストリームレベルのマニフェストを以下に示す。

複数の位相符号化ストリームを含む本発明の一実施形態におけるＤＡＳＨ－ＭＰＤに基づく例示的な下位レベルのマニフェストを以下に示す。

図２０は、本発明の一実施形態による、例示的なタイル選択および帯域幅アニーリングプロセスに関する追加のブロック、ステップ、および／または動作を例示する流れ図である。一構成では、前に指摘したように、注視ベクトル、帯域幅割当／制限、ストリームの重みなどを含む入力に基づくタイル選択およびアニーリングのために、ナップサック組合せ最適化が使用され得る。ブロック２００２において、ビデオ最適化に関連するサーバまたはノードで実行されるプロセス２０００は、３６０°没入型ビデオセッション要求を受信することで開始するか、またはそれに応答して開始する。プロセス２０００はブロック２００４に進み、必要なタイルを抽出するために詳細レベルの検査および処理に基づいてビデオ特性のすべての態様を決定できるように、タイル化ストリームのマニフェスト規定を検索するか、または別の方法で取得し、詳細レベルの検査および処理は、ストリームマニフェストを解析することによって実現され得る（ブロック２００６）。各ストリームについて、グリッドレイアウト、たとえば、フレームごとの列および行が決定される（ブロック２００８）。例示的な変形形態では、プロセス２０００は、要求されたセッションに割り当てられた／決定された帯域幅に関連する通知メッセージを受信するように、ネットワーク管理およびオーケストレーションノードに登録する（ブロック２０１０）。帯域幅割当が受信された場合（ブロック２０１２）、注視ベクトル情報が受信されたかどうかの判定がさらに行われ得る（ブロック２０１４）。その後、注視ベクトル情報に基づいてタイル重みが決定される（ブロック２０１６）。利用可能な帯域幅割当の通知に対応して、ナップサックアニーリングプロセスとして、タイル選択が実行され得る（ブロック２０１８）。ブロック２０２０において、選択されたタイルは、（サーバまたはクライアントデバイスで実行する）タイルステッチングプロセスに提供される。

図２１Ａおよび図２１Ｂは、本発明の例示的な実施形態による、タイル選択および帯域幅アニーリングプロセスのさらなる態様に関する追加のブロック、ステップ、および／または動作を例示する流れ図である。具体的には、図２１Ａに示すプロセス２１００Ａは、比較的単純なナップサックアニーリングプロセスを例示しており、このプロセスは、計算コストがより高い場合があり、タイルスプライシングに約１秒かかる可能性がある。ブロック２１０２において、タイルは、最低品質まで初期化される。ストリームバリアント重みとタイル重みの比として、妥当性メトリックが決定され得、妥当性メトリックは、すべての＜タイル，ＧＯＰ＞タプルまたは組合せについて提供され得る（ブロック２１０４）。ブロック２１０８に記載のように、最も妥当性が低い（すなわち、最も不適切である）＜タイル，ＧＯＰ＞タプルをアップグレードすることに関する決定が行われる。送信バッファモデルに違反しているか、送信バッファモデルを満たしているかの判定が行われる（ブロック２１１０）。バッファモデルを満たしていない（すなわち、違反している）場合、ブロック２１１２に示すように、そのタイル／ＧＯＰの組合せは、アップグレードに不適格と見なされ得、プロセスの流れは、アップグレードするための次のタイル／ＧＯＰの組合せの検討に戻る。バッファモデルに違反していない場合、タイル／ＧＯＰの組合せの品質がアップグレードされる（ブロック２１１４）。前述のプロセスは、最大品質未満の不適格でないタイル／ＧＯＰの組合せがなくなるまで、反復して実行され得る（ブロック２１１６）。最大品質未満の不適格でないタイル／ＧＯＰの組合せがない場合、ブロック２１１８に記載のように、選択されたタイルを、タイル多重化およびストリーム生成プロセスに送ることによって、プロセス２１００Ａは完了する。

図２１Ｂを参照すると、性能が最適化されたタイル選択およびアニーリングプロセス２１００Ｂが示されており、このプロセスは、いくつかの実装形態において、より高速なタイル選択をもたらし、全体的なタイルスプライシング時間を約１０ミリ秒程度にすることができる。大まかに言えば、Ｉタイルのアップグレードに関してペナルティ係数が課せられ得（Ｉタイルは、より多くのデータをパックするので、Ｐタイルのアップグレードよりもコストがかかる）、アップグレードが妥当性メトリックに準拠しているかどうかに関わらずタイルのアップグレードが送信バッファモデルと照合されない「ナイーブ」アップグレードシーケンスが最初に先行し得る。さらに、ＲＯＩ／ビューポート内のタイルが最初にアップグレードされ、続いてフレームの残りのタイルがアップグレード／更新されるので、例示的な実施形態は、タイル位置がどこにあるかに基づいてペナルティを計算に入れることができる。たとえば、タイル位置が注視ベクトルに近い場合、その位置に関連するペナルティはより低くなり得る。さらに、ペナルティは、アップグレードすべきタイルの品質／タイプとフレーム内のタイルの場所との間のバランスとしても、タイル位置に関連し得る。例示的な実施形態において、ナイーブアップグレードシーケンスで使用される妥当性メトリックを好適に調整することによって、ペナルティ係数または組合せの効果が、アニーリングプロセスに組み込まれ得る。

図２１Ａの実施形態と同様に、すべてのビデオ符号化のタイルは、最低品質まで初期化される（ブロック２１３２）。ストリームバリアント重みとタイル重みの比にペナルティ係数を乗算したものとして、妥当性メトリックが決定され得、妥当性メトリックは、すべての＜タイル，ＧＯＰ＞タプルまたは組合せに対して提供され得る（ブロック２１３６）。ブロック２１３４において、（たとえば、メモリの大きなプールとしての）ヒープ構造は、すべての＜タイル，ＧＯＰ＞タプルの妥当性値を含むように設定され得る。ブロック２１３８において、ヒープから妥当性が最も低いタイルが取り出され、ナイーブアップグレードシーケンスまたはプロセスに記録される。タイル品質をさらにアップグレードできる場合（ブロック２１４０）、そのアップグレードが実行され、アップグレードされたタイルの妥当性メトリックが決定される（ブロック２１４２）。ヒープが空になり、アップグレード可能なすべてのタイルがアップグレードされるまで、上記のプロセスが反復ループで実行され得る（ブロック２１４４）。所与の送信バッファモデルに従う最後の有効状態を見出すために、ナイーブシーケンス上で二分探索シーケンスが実現され得（ブロック２１４６）、最後の有効状態は、開始タイル状態として使用され得る（ブロック２１４８）。新しいアップグレードヒープが、タイル／ＧＯＰ状態を含むように設定され得る（ブロック２１５０）。ヒープから妥当性が最も低いタイル／ＧＯＰの組合せが取り出され（ブロック２１５２）、送信バッファモデルと突き合わせて検証される（ブロック２１５４）。取り出されたタイル／ＧＯＰがバッファモデルを満たすことができない場合、そのタイル／ＧＯＰは、将来のアップグレードに不適格と見なされる（ブロック２１５８）。それ以外の場合、そのタイル／ＧＯＰをさらにアップグレードできるかどうかの判定が行われる（ブロック２１５６）。アップグレードできる場合、送信バッファモデルを満たすアップグレードされたタイル／ＧＯＰの組合せの妥当性値が決定される（ブロック２１６０）。ブロック２１６２に記載のように、新しいアップグレードヒープが空になるまで前述の動作が反復して実行される。ブロック２１６４に記載のように、新しいアップグレードヒープが空である場合、選択されたタイルを、タイル多重化およびストリーム生成プロセスに送ることによって、プロセス２１００Ｂは完了する。

本明細書に記載の例示的なアニーリングプロセスは、有利には、ビューポートまたは帯域幅が変更されたときにフレームの段階的リフレッシュを容易にし、それによって、ユーザの視野に基づいて品質を向上させる際のレイテンシを最小限に抑え、同時に帯域幅を過負荷にしないようにする能力を可能にする。通常、すべてのタイルで同時に品質変更を実行するよう試みると、ＰタイルをＩタイルに同時に変更した結果、符号化されたビットレートの点でコストがかかるため、いくつかの問題が発生する可能性がある。一方、この置換を最小限のクライアントバッファで実行すると、Ｉスライス／フレームを配信する際に大幅な遅延が発生する可能性がある。

段階的リフレッシュを採用する例示的な実施形態では、ビデオストリームは、Ｉフレームを有していない（最初のＩフレーム、またはインスタントデコードリフレッシュ（ＩｎｓｔａｎｔＤｅｃｏｄｅＲｅｆｒｅｓｈ）すなわちＩＤＲフレームのような他の特殊フレームを除く）。代わりに、ビデオストリームは、ＩブロックまたはＩタイルを有し、これらは、たとえば、本特許出願の前のセクションで詳細に説明されているように位相符号化ストリームによって、スクリーン上の特定のスポットが一定間隔でＩブロックを得るように時系列全体にわたって分布し得る。したがって、このようなシナリオでは、すべての画素がＩブロックによってリフレッシュされるというフレームは存在しない。本発明の例示的な実施形態は、有利には、段階的リフレッシュアニーリングを実行することによって、フレームサイズを（すなわち、コード化された画像データの量を単位として）平準化し、Ｉフレームを投入することによる帯域幅への影響を低減して、ＦｏＶまたはビューポートに入るタイルの品質をアップグレードするように設定され得る。ＰＥ方式では、時間／フレームシーケンスにおいてタイルの選択的な早期リフレッシュが可能であり得るが、（たとえば、フレーム内に複数のＩタイルを有することにより、そのビデオフレームの転送に対応するその時間間隔に必要とされる帯域幅が増加する可能性があるので）一定の帯域幅コストがかかる場合がある。しかしながら、ＰＥを含む例示的な実施形態は、より安定したレベルのバイト／フレームを有するという利点がそのようなコストを上回るように設定され得る。

ＰＥベースの実施形態は、フレームシーケンスにおける時間の経過と共に、Ｉタイルが再び時間内にほぼ均等に分布するまで、周囲の様々なタイルの位相の操作を可能にし得る。この再分布を発生させるには、ユーザが自分の視野を再分布が発生するのに十分な時間だけ安定に保つ必要があるので、このような機能は、再分布がいつ発生するかに関して、ユーザおよび／またはコンテンツに依存するように設定され得る。帯域幅を埋めるタイルを選択するために、例示的な実施形態は、将来にわたって３つのＧＯＰに伸ばすフレームのバイトサイズをモデル化することと（この選択は任意である）、（たとえば、先読みのシナリオでの３つのＧＯＰを用いて）バッファモデルに基づいて仮定的早期リフレッシュ（ＨＥＲ：ｈｙｐｏｔｈｅｔｉｃａｌｅａｒｌｙｒｅｆｒｅｓｈ）を実行することとを含み得る。図２１Ａおよび図２１Ｂに記載された実施形態に基づけば、このようなプロセスは、すべてのタイルの最小品質のストリームを選択することによって開始し、次いで、現在のフレームと将来のフレームの両方についてタイルの各ＧＯＰを検討し、そのＧＯＰをアップグレードすることが帯域幅の制約（個々のフレームサイズとバッファの考慮事項の組合せ）に違反するかどうかを評価することが理解され得る。（将来ではなく）現在のタイルとＧＯＰの組合せを、すでに配信されているＩフレームの品質を超えてアップグレードすることを検討する場合、本発明の実施形態は、このタイルを、（スプライシングウィンドウ内の残りのフレームに影響を与え得る）Ｉフレームで始まるように一時的に再調整することができる。可能なアップグレードのリストが取得されると、そのアップグレードは、品質およびＦｏＶ内のタイルの位置に応じて重み付けされ得る（したがって、視界の中心に近いタイルが、アップグレードに優先されることになる）。一実施形態では、前述のアップグレードのステップは、バッファ制約によりそれ以上のアップグレードが不可能になるまで、繰り返され得る。

例示的なアップグレードプロセスは、先読みのＧＯＰモデル化に応じて、時間的にも空間的にも変動し得ることを理解されたい。一構成では、各タイルは、プロセスが反復されるときにそれぞれアップグレードされ得る３～４つのＧＯＰ範囲を有することができ、将来のＧＯＰアップグレードは、将来にわたって３～４つのＧＯＰをカバーする早期リフレッシュの潜在的な将来の拡張のためのものである。

ＨＥＲベースの実装形態を検討する場合、好適なトレードオフを得るために、いくつかの潜在的なメトリック、とりわけ、（ｉ）放送中断、（ｉｉ）最大バッファレベル、および（ｉｉｉ）エンドバッファレベルが識別および／または採用され得る。例示的な一実装形態では、ＨＥＲアップグレードの主要な基準として最大バッファレベルが重み付けされ得、タイルＧＯＰ品質のアップグレードを可能にするのに十分な帯域幅が解放され得る。

図２１Ｂの実施形態に記載のように、アップグレード反復の終了に達すると、タイルのセットを使用してスライス／フレームが多重化され得、これにより、多重化されたスライス／スライスのバイトサイズが算出され得、次のスライス／フレームが所与の送信バッファモデルに従って正確に制約されるように、送信バッファに対するその影響が記録され得る。次回フレームがスプライスされるとき（たとえば、ユーザの注視が変化し、それによって調整が行われるとき）、前の動作に関連して１つの追加のフレームがモデル化される、ナップサックアニーリングプロセスが繰り返され得、これにより、ナップサック／アニーリングプロセスを検証および／または微調整することができる。

図２１Ｂの実施形態で採用されたヒープメモリ構造は、反復ごとにタイルＧＯＰアップグレードのスコアを再算出することを回避できるので、アップグレード可能なタイルを追跡するのに特に有利であることが、当業者には理解されよう。前述のように、妥当性メトリックは、アップグレードするタイルを選択する際に使用される、タイルのスコア化に対して規定され、ｖａｒｉａｎｔ＿ｗｅｉｇｈｔ、ｔｉｌｅ＿ｗｅｉｇｈｔ、ｐｅｎａｌｔｙなどのパラメータが、所望のアップグレードシナリオを捕捉するのに好適な数学的関係で提供される。したがって、ｖａｒｉａｎｔ＿ｗｅｉｇｈｔパラメータは、符号化ストリームのプロパティと規定され得、（より低いＱＰを有する）より高品質のストリームバリアントは、より高いｖａｒｉａｎｔ＿ｗｅｉｇｈｔを有する。いくつかの例示的なｖａｒｉａｎｔ＿ｗｅｉｇｈｔは、｛１／ＱＰ｝、｛１００－ＱＰ｝、または上記のマニフェストの例で規定された値であり、あるいは、ストリーム全体のビットレートであり得る。ｔｉｌｅ＿ｗｅｉｇｈｔは、上記のように、注視に対するタイルの位置の関数としても提供され得る。一般に、ユーザの直接ＦｏＶ内またはＲＯＩ／ビューポート内のタイルには、より高いｔｉｌｅ＿ｗｅｉｇｈｔが割り当てられ得る。図２１Ａ／Ｂの実施形態に記載されている例示的な妥当性メトリックの定式化は、ストリーム品質が上がるにつれて妥当性値も上がり、また注視ベクトルにより近いタイルが、注視ベクトルから遠い同じ品質のタイルよりも妥当性が低くなるように設定される（これにより、アニーリングプロセスは、注視ベクトルから離れたタイルをアップグレードする前に、注視ベクトルにより近いタイルをアップグレードするように設定される）。

さらに、例示的な実施形態は、上記のように、アップグレードプロセスのためにタイルをスコア化する際のペナルティ係数も含む。一構成では、現在のＧＯＰのタイルが前のスライス／フレームの品質を超えてアップグレードされるべきであり、Ｉタイルによる早期リフレッシュが必要とされる場合、ペナルティが課され得る。このようなペナルティには、そのタイルの妥当性を高め、ヒープ内の他のタイルと比較してアップグレードを遅らせる効果がある。これにより、注視が十分に変化したときはタイルのアップグレードが可能になるが、わずかな場合は早期リフレッシュが先送りされる。

本発明の範囲内のいくつかの変形形態において、タイルのアップグレードをスコア化するために追加の／代替の定式化が使用され得ることは、当業者には明らかであろう。

図２２は、本発明の例示的な実施形態による、タイル選択および帯域幅アニーリング構成で使用するための送信バッファモデルプロセスを例示する。一般に、送信バッファモデルは、実装形態に応じたフレームレート（たとえば、３０ｆｐｓ、６０ｆｐｓなど）と一致するように設定され得、オーバーフロー（すなわち、違反）が発生し得るかどうか、またいつ発生し得るかを判断するために、データがどのようにバッファに追加され、どのようにバッファから送信されるかに関する時間的変化が、パラメータ化され得る。例示的な送信バッファモデル２２００において、ｂ_０は開始バッファレベルであり、ｂ_ｉはアクセスユニットまたはＮＡＬユニットを追加する前のバッファのサイズであり、ｎ_ｉはアクセス／ＮＡＬユニットのサイズであり、ａ_ｉはアクセス／ＮＡＬユニットを追加した後のバッファのサイズであり、ｉ≧１の場合、ａ_ｉ＝ｂ_ｉ＋ｎ_ｉである。送信レートをｒ、Δｔ＝１／フレームレートと仮定すると、次の関係が得られる。
ｂ_ｉ＋１＝Ｍａｘ｛０，ａ_ｉ－ｒ（ｔ_ｉ＋１－ｔ_ｉ）｝

ｂｕｆｆｅｒ＿ｓｉｚｅパラメータは、次のように規定され得る。
ｂｕｆｆｅｒ＿ｓｉｚｅ＝ｒ（ｌａｔｅｎｃｙ＿ｆｒａｍｅｓ）Δｔ

前述のモデルによれば、Ｍａｘ（ａ_ｉ）＞ｂｕｆｆｅｒ＿ｓｉｚｅである場合、これは、バッファオーバーフロー状態として示され得る。したがって、タイルのアップグレードプロセスに従って異なるｎ_ｉが追加されているので、アップグレードプロセスにおいてバッファ違反が発生しないことを保証するために、バッファエンドポイントレベルが、算出されたバッファサイズと照合され得る。

図２３を参照すると、本特許開示の一実施形態における、クライアントＵＥデバイスが３６０°没入型ビデオ最適化の特定の態様を実行するように設定され得る構成２３００が示されている。好適な３６０°表示デバイスを有するユーザ２３１０は、ビデオ最適化クライアントモジュール２３０６と、表示デバイスへの好適なプレイバック信号を生成するように配置されたコネクテッドプレーヤ２３０８とを含む、コネクテッドＵＥデバイス２３０２を用いて操作する。一実施形態では、プレーヤ２３０８は、適切なビデオデコーダ２３１４、表示レンダラ２３１６、オーディオデコーダ２３１８、およびサウンドレンダラ２３２０を有するように設定された、ＨＥＶＣまたはＡＶ１プレーヤを備え得る。上記の例示的な実施形態と同様に、コネクテッドＵＥデバイス２３０２と共に、注視追跡モジュール２３１２が提供され得、注視追跡モジュール２３１２は、ＡＢＲストリーミング環境においてインターネット２３０４を介して配信される３６０°没入型ビデオコンテンツを消費するように設定され得る。

クライアント最適化モジュール２３０６は、好ましくは、マニフェストパーサ２３２８と、ビデオタイルおよびオーディオストリームダウンローダ２３３０と、帯域幅推定モジュール２３２６と、タイル選択モジュール２３２４とを備える３６０°没入型ビデオインターフェースモジュール２３２１を含み、これらは、デバイス中心の好適な変更を加えて、上記の実施形態と同様の方法で動作するように設定され得る。特定のコンテンツに関するマニフェスト２３４０に基づいて、インターネット２３０４を介して、ネットワークロケーション、たとえば、コンテンツプロバイダネットワークまたはクラウドベースのストレージへのＨＥＶＣタイル／オーディオ要求２３４４が生成され得る。要求されたビデオタイルおよびオーディオデータは、経路２３４２を介して受信され得る。注視追跡モジュール２３１２から（たとえば、経路２３２２を介して）没入型ビデオインターフェースモジュール２３２１に提供される注視ベクトル情報は、フレームごとのタイルを選択する際の帯域幅推定と共に利用され得、これは、動的に割り当てられたビデオバッファ２３３２にビデオ信号経路２３３１を介して提供され得る。同様に、対応するオーディオセグメントが、オーディオ信号経路２３３８を介してオーディオバッファ２３３６に提供され得る。異なる品質のタイルが、タイルコンバイナ２３３４に提供され得、タイルコンバイナ２３３４は、プレーヤのビデオデコーダ２３１４への多重化された符号化ビデオストリーム２３４６を生成する。オーディオバッファ２３３６から、オーディオデコーダ２３１８への符号化オーディオストリーム２３４８が生成され得る。プレーヤ２３０８のそれぞれのレンダラ２３２０、２３１６に提供される復号されたオーディオおよびビデオデータは、本質的に前述の例示的な実施形態と同様に、ユーザの表示デバイスによって実現される没入型環境での表示／提示に適するようにレンダリングされる。

図２４は、本発明の一実施形態による、３６０°没入型ビデオ処理、準備、およびタイル選択最適化の１つまたは複数の態様を実現するためのプラットフォーム、ノード、または要素として（再）設定および／または（再）構成され得るコンピュータ実装装置のブロック図を示す。実装および／またはネットワークアーキテクチャに応じて、装置２４００は、（たとえば、図１および図２に示すような）例示的な環境の１つまたは複数の階層レベルでの動作に好適な異なる構成で設定されるかまたは別の方法で統合され得る。１つまたは複数のプロセッサ２４０２は、装置２４００のオーバーコール制御を提供するのに好適なコンピュータアーキテクチャの一部として提供され得、プロセッサ２４０２は、上記で詳細に説明したように、メディア準備、前処理、適応ビットレート符号化／トランスコーディングを含むＢＩＥ／ＰＥベースのタイル符号化、最適化されたタイル選択および帯域幅アニーリング、タイル化されたメディアのパッケージ化、タイルステッチングなどに特有の追加のモジュールまたはブロックを含む、適切なメモリモジュールまたはブロック、たとえば、永続メモリ２４０８に記憶された様々なプログラム命令を実行するように設定され得る。たとえば、このようなモジュールには、タイルベースのＰＥ／ＢＩＥエンコーダ２４０４、ＡＢＲエンコーダ／トランスコーダ２４０６、ＧＶ処理およびタイル重み処理モジュール２４１３、タイル選択およびアニーリングモジュール２４１６、パッケージャおよびマニフェストジェネレータ２４１０、投影マッパー２４１８などが含まれ得る。また、例示的な実施形態では、装置２４００の実装に応じて、パッケージ化されたメディアのデータベース２４１９が提供され得る。したがって、ネットワーク階層レベルおよび／または統合に応じて、ビデオバックオフィス要素、ＤＲＭエンティティ、オリジンサーバ、クライアントコントローラノード、ソースメディアノード、管理ノード、およびキャッシュデータベースを含むネットワークインフラストラクチャ要素との通信を実現するように動作する、様々なネットワークインターフェース、たとえば、Ｉ／Ｆ２４１４－１～２４１４－Ｌ、ならびに、たとえば、配信サーバ、ＤＳＬＡＭ／ＣＭＴＳ要素、ＲＡＮインフラストラクチャ要素、宅内ゲートウェイノードなどを含む１つまたは複数の下流ノードとの通信セッションを実現するためのインターフェース２４１２－１～２４１２－Ｋが、装置２４００の一部として提供され得る。

図２５は、本特許開示の１つまたは複数の実施形態による、様々なクライアント側プロセスを実行するように設定された例示的なクライアントＵＥデバイスまたは加入者ステーション２５００のブロック図を示す。クライアントデバイス２５００は、概して、上記の１つまたは複数の図に示される様々な鑑賞デバイスを表し、実装形態に応じて、とりわけ、メディア要求生成、注視ベクトル生成、タイル選択、および帯域幅推定に関連するデバイス側プロセスのいずれかを（個別にまたはそれらの任意の組合せで）実行するように設定された、適切なハードウェア／ソフトウェア構成要素およびサブシステムを含み得る。１つまたは複数のマイクロコントローラ／プロセッサ２５０２は、クライアントデバイス２５００の全体的な制御、およびデバイス２５００のメモリサブシステム２５１１の一部であり得る１つまたは複数の永続メモリモジュールで具現化される様々な記憶されたプログラム命令の実行のために提供される。たとえば、ＶＲアプリケーションを含む３６０°没入型ビデオクライアントアプリケーション２５１３Ａは、帯域幅推定器２５１３Ｂおよび関連するタイルセレクタ２５１３Ｃと共に動作し得、これらは、メモリサブシステム２５１１の一部として提供され得る。マニフェストパーサ２５１７は、適切なロケーションへのメディア要求の生成を容易にするために提供され得る。参照番号２５０２によって示されるコントローラ／プロセッサ複合体もまた、好適なビデオおよびオーディオインターフェース（特に図示せず）と関連して動作する、グラフィックプロセッサ、ビデオプロセッサ、デジタル信号プロセッサ（ＤＳＰ：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）などの他の特殊処理モジュールを表し得る。ＤＳＬ／ＣＭＴＳネットワーク２５９８または衛星ネットワーク２５９６を介して受信されたＩＰＴＶおよび他のコンテンツ信号を処理するため、またそれらとインターフェースするための、チューナ、復調器、デスクランブラ、ＭＰＥＧ／Ｈ．２６４／Ｈ．２６５／ＡＶ１デコーダ／デマルチプレクサを含むまたはそれらと共に動作する、ネットワークＩ／Ｆモジュール２５０４および２５０６などの適切なネットワークインターフェースが含まれ得る。例示的なクライアントデバイスまたはアプリケーションとして、ＳＴＢが設定される場合、好適な復調器も含まれ得る。クライアントデバイス２５００の他のサブシステム、たとえば、ユーザインターフェース２５２０と連動して動作するための、１つまたは複数のメディアプレーヤ２５１４が提供され得、これは、チャネル変更要求およびトリックモード動作を含むメディアプレイバックに対するユーザ制御を容易にするための追加のサブシステムを有するようにさらに設定され得る。たとえば、クライアント／ユーザ制御機能には、再生されている特定の３６０度没入型ビデオ資産に対する、一時停止、再開、早送り、巻き戻し、シーク、ブックマークなどが含まれ得る。例示的なメディアプレーヤは、知られているまたはこれまでに知られていない規格または仕様に基づいて、１つまたは複数のＡ／Ｖコーダ／デコーダ（コーデック）機能で動作するように設定され得る。

デバイス設定に応じて、没入型表示インターフェース２５１５、タッチスクリーンもしくはキーパッドインターフェース２５２０、ＵＳＢ／ＨＤＭＩポート２５１８、イーサネットＩ／Ｆ２５０８、ならびに短距離および広域無線接続インターフェース２５１２などの他のＩ／Ｏまたはインターフェースも提供され得る。様々な動き検出および注視追跡センサ２５１６も含まれ得、それらのいくつかは、ジャイロスコープ、加速度計、位置センサなどを備え得る。例示的な実装形態では、プログラム資産のローカルストレージ用に、ハードディスクドライブ（ＨＤＤ：ｈａｒｄｄｉｓｋｄｒｉｖｅ）またはローカルＤＶＲシステム２５１０が含まれ得る。好適な電源ブロック２５２２は、デバイス２５００に電力を供給するためのＡＣ／ＤＣ電力変換を含み得る。デバイス２５００のための実際の電力アーキテクチャは、使用されるハードウェアプラットフォームによって、たとえば、コアＳｏＣ（システムオンチップ）、メモリ、アナログフロントエンド、アナログ信号チェーン構成要素、および特定のプラットフォームで使用されるインターフェースに応じて、異なり得ることを理解されたい。

前述の実施形態に関する様々な装置およびシステム、ならびに上記の基礎となるネットワークインフラストラクチャが、本特許開示の追加のまたは代替の実施形態においてネットワーク機能仮想化（ＮＦＶ：ｎｅｔｗｏｒｋｆｕｎｃｔｉｏｎｖｉｒｔｕａｌｉｚａｔｉｏｎ）アーキテクチャに従って仮想化環境で設計され得ることが、当業者には理解されよう。たとえば、上記のソースメディア処理インフラストラクチャ、メディアコンテナ化、ＰＥ／ＢＩＥタイル符号化およびパッケージ化などを含む、本適用例の例示的なストリーミングネットワーク内で実行する様々な物理リソース、データベース、サービス、アプリケーション、および機能は、仮想アプライアンス、マシン、または機能として提供され得、リソースおよびアプリケーションが、好適な仮想化層を介して好適な仮想ネットワーク機能（ＶＮＦ：ｖｉｒｔｕａｌｎｅｔｗｏｒｋｆｕｎｃｔｉｏｎ）または仮想ネットワーク要素（ＶＮＥ：ｖｉｒｔｕａｌｎｅｔｗｏｒｋｅｌｅｍｅｎｔ）に仮想化される。計算リソース、メモリリソース、およびネットワークインフラストラクチャリソースを含むリソースは、対応する仮想リソースに仮想化され、仮想計算リソース、仮想メモリリソース、および仮想ネットワークリソースは、ＶＮＦ層をサポートするように集合的に動作し、その全体的な管理およびオーケストレーションの機能は、ＶＮＦマネージャおよびＮＦＶオーケストレータと組み合わせた仮想化インフラストラクチャマネージャ（ＶＩＭ：ｖｉｒｔｕａｌｉｚｅｄｉｎｆｒａｓｔｒｕｃｔｕｒｅｍａｎａｇｅｒ）によってサポートされ得る。運用支援システム（ＯＳＳ：ＯｐｅｒａｔｉｏｎＳｕｐｐｏｒｔＳｙｓｔｅｍ）および／またはビジネス支援システム（ＢＳＳ：ＢｕｓｉｎｅｓｓＳｕｐｐｏｒｔＳｙｓｔｅｍ）構成要素は、典型的には、ネットワーク管理、障害管理、設定管理、サービス管理、加入者管理などのネットワークレベルの機能をハンドリングするために提供され得、好適なインターフェースを介して、ＶＮＦ層およびＮＦＶオーケストレーション構成要素とインターフェースし得る。

さらに、本明細書に開示される例示的なネットワークアーキテクチャの少なくとも一部は、上記のように仮想化され得、設定可能な仮想リソースの共有プールを含むクラウドコンピューティング環境において設計され得る。ＰＥ／ＢＩＥタイル符号化、パッケージ化、帯域幅アニーリングおよびタイル選択、タイルの多重化およびコンテナ化などに関連する様々なハードウェア／ソフトウェアは、本発明の例示的な実施形態の異なる特徴を提供する複数のエンティティによって、サービス指向アーキテクチャ、たとえばソフトウェアアズアサービス（ＳａａＳ：ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）、プラットフォームアズアサービス（ＰａａＳ：ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）、インフラストラクチャアズアサービス（ＩａａＳ：ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）などにおいて実装され得、仮想化環境の１つまたは複数の層は、商用既製品（ＣＯＴＳ：ｃｏｍｍｅｒｃｉａｌｏｆｆｔｈｅｓｈｅｌｆ）ハードウェアでインスタンス化され得る。当業者はまた、このようなクラウドコンピューティング環境が、プライベートクラウド、パブリッククラウド、ハイブリッドクラウド、コミュニティクラウド、分散型クラウド、マルチクラウド、およびインタークラウド（たとえば、「クラウドオブクラウド」）などのうちの１つまたは複数を含み得ることも理解するであろう。

追加の例示的な実施形態について、以下で説明する。

１．没入型ビデオ最適化システムにおいて動作する方法であって、メディア入力ストリームの複数のビットレート表現のうちの特定のビットレート表現に対応する各タイル符号化ビットストリームについて、フレームごとのタイルグループ化の特性を記述した１つまたは複数のストリームマニフェストファイルを検索することであって、各ビットレート表現が、各ビットレート表現に使用される対応する量子化パラメータ（ＱＰ）値に関連する別個のビデオ品質を有し、タイル符号化ビットストリームの各フレームが、フレームごとに少なくとも１つのスライスに編成されたタイルの配列を含み、複数のフレームがタイル符号化ビットストリームのグループオブピクチャ（ＧＯＰ）構造を形成する、１つまたは複数のストリームマニフェストファイルを検索することと、フレームを形成するタイルの配列に対応するタイル重みを取得することと、メディア入力ストリームの複数のビットレート表現に対応するバリアント重みを取得することと、タイル符号化ビットストリームのそれぞれについて、妥当性メトリック値を、ＧＯＰ構造全体の各タイル／ＧＯＰの組合せごとのバリアント重みとタイル重みの関数として決定することと、妥当性メトリック値に対応して、フレームを形成するための対応するタイルコード化ビットストリームから、異なるビットレート品質を有するタイルを選択することであって、選択されたタイルのビットレート品質が、多重化されたビデオ出力ストリームを送信するための送信バッファモデルを満たすように最適化される、タイルを選択することと、多重化されたビデオ出力ストリームの一部として、選択されたタイルを含むフレームを生成するために、選択されたタイルをマルチプレクサに提供することとを含む、方法。

２．タイル符号化ビットストリームが、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、複数の位相符号化ビットストリームとして生成される、請求項１に記載の方法。

３．タイル符号化ビットストリームの一部が、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、ブロックイントラ符号化ビットストリームとして生成される、請求項１に記載の方法。

４．タイル重みが、３６０°没入型ビデオ資産をユーザに表示するように動作するクライアントデバイスからの注視ベクトルに対応して決定され、タイル重みが、注視ベクトルと、ユーザによって鑑賞される３次元（３Ｄ）表示環境に投影された復号されたフレームのタイルの配列にそれぞれ対応する各タイルロケーションに関連付けられた方向ベクトルとの間の分離角に基づく、請求項１に記載の方法。

５．送信バッファモデルが、一定期間にわたって所定の数のフレームを送信するためのバッファ使用要件を推定するように動作する、請求項４に記載の方法。

６．３６０°没入型ビデオ資産を含むマルチメディアセッションのためにクライアントデバイスにとって利用可能な帯域幅の推定量を受信することと、最適なビットレート品質を有するタイルを選択するために、帯域幅の推定量に基づいて、タイルの妥当性メトリック値を反復してアップグレードすることとをさらに含む、請求項５に記載の方法。

７．最適なビットレート品質を有するタイルを選択するとき、イントラコード化（Ｉ）フレームタイルをアップグレードすることに関連する初期妥当性メトリック値を計算する際に、ペナルティ値を適用することをさらに含む、請求項６に記載の方法。

８．没入型ビデオ最適化システムであって、１つまたは複数のプロセッサと、プログラム命令が記憶された１つまたは複数の永続メモリモジュールであって、前記プログラム命令が、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに関連して次の動作、すなわち、メディア入力ストリームの複数のビットレート表現のうちの特定のビットレート表現に対応する各タイル符号化ビットストリームについて、フレームごとのタイルグループ化の特性を記述した１つまたは複数のストリームマニフェストファイルを検索することであって、各ビットレート表現が、各ビットレート表現に使用される対応する量子化パラメータ（ＱＰ）値に関連する別個のビデオ品質を有し、タイル符号化ビットストリームの各フレームが、フレームごとに少なくとも１つのスライスに編成されたタイルの配列を含み、複数のフレームがタイル符号化ビットストリームのグループオブピクチャ（ＧＯＰ）構造を形成する、１つまたは複数のストリームマニフェストファイルを検索することと、フレームを形成するタイルの配列に対応するタイル重みを取得することと、メディア入力ストリームの複数のビットレート表現に対応するバリアント重みを取得することと、タイル符号化ビットストリームのそれぞれについて、妥当性メトリック値を、ＧＯＰ構造全体の各タイル／ＧＯＰの組合せごとのバリアント重みとタイル重みの関数として決定することと、妥当性メトリック値に対応して、フレームを形成するための対応するタイルコード化ビットストリームから、異なるビットレート品質を有するタイルを選択することであって、選択されたタイルのビットレート品質が、多重化されたビデオ出力ストリームを送信するための送信バッファモデルを満たすように最適化される、タイルを選択することと、多重化されたビデオ出力ストリームの一部として、選択されたタイルを含むフレームを生成するために、選択されたタイルをマルチプレクサに提供することとを実行する、１つまたは複数の永続メモリモジュールとを備える、没入型ビデオ最適化システム。

９．タイル符号化ビットストリームが、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、複数の位相符号化ビットストリームとして生成される、請求項８に記載の没入型ビデオ最適化システム。

１０．タイル符号化ビットストリームの一部が、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、ブロックイントラ符号化ビットストリームとして生成される、請求項８に記載の没入型ビデオ最適化システム。

１１．タイル重みが、３６０°没入型ビデオ資産をユーザに表示するように動作するクライアントデバイスからの注視ベクトルに対応して決定され、タイル重みが、注視ベクトルと、ユーザによって鑑賞される３次元（３Ｄ）表示環境に投影された復号されたフレームのタイルの配列にそれぞれ対応する各タイルロケーションに関連付けられた方向ベクトルとの間の分離角に基づく、請求項８に記載の没入型ビデオ最適化システム。

１２．送信バッファモデルが、一定期間にわたって所定の数のフレームを送信するためのバッファ使用要件を推定するように動作する、請求項１１に記載の没入型ビデオ最適化システム。

１３．プログラム命令が、３６０°没入型ビデオ資産を含むマルチメディアセッションのためにクライアントデバイスにとって利用可能な帯域幅の推定量を受信することと、最適なビットレート品質を有するタイルを選択するために、帯域幅の推定量に基づいて、タイルの妥当性メトリック値を反復してアップグレードすることとを実行するように設定された命令をさらに含む、請求項１２に記載の没入型ビデオ最適化システム。

１４．プログラム命令が、最適なビットレート品質を有するタイルを選択するとき、イントラコード化（Ｉ）フレームタイルをアップグレードすることに関連する初期妥当性メトリック値を計算する際に、ペナルティ値を適用するように設定された命令をさらに含む、請求項１３に記載の没入型ビデオ最適化システム。

１５．没入型ビデオ最適化システムの１つまたは複数のプロセッサによって実行されると、最小のレイテンシで３６０°没入型ビデオ資産の提示用に最適化されたタイル選択プロセスを実現する命令が記憶された、１つまたは複数の非一時的な有形のコンピュータ可読媒体であって、メディア入力ストリームの複数のビットレート表現のうちの特定のビットレート表現に対応する各タイル符号化ビットストリームについて、フレームごとのタイルグループ化の特性を記述した１つまたは複数のストリームマニフェストファイルを検索するためのコード部分であって、各ビットレート表現が、各ビットレート表現に使用される対応する量子化パラメータ（ＱＰ）値に関連する別個のビデオ品質を有し、タイル符号化ビットストリームの各フレームが、フレームごとに少なくとも１つのスライスに編成されたタイルの配列を含み、複数のフレームがタイル符号化ビットストリームのグループオブピクチャ（ＧＯＰ）構造を形成する、１つまたは複数のストリームマニフェストファイルを検索するためのコード部分と、フレームを形成するタイルの配列に対応するタイル重みを取得するためのコード部分と、メディア入力ストリームの複数のビットレート表現に対応するバリアント重みを取得するためのコード部分と、タイル符号化ビットストリームのそれぞれについて、妥当性メトリック値を、ＧＯＰ構造全体の各タイル／ＧＯＰの組合せごとのバリアント重みとタイル重みの関数として決定するためのコード部分と、妥当性メトリック値に対応して、フレームを形成するための対応するタイルコード化ビットストリームから、異なるビットレート品質を有するタイルを選択するためのコード部分であって、選択されたタイルのビットレート品質が、多重化されたビデオ出力ストリームを送信するための送信バッファモデルを満たすように最適化される、タイルを選択するためのコード部分と、多重化されたビデオ出力ストリームの一部として、選択されたタイルを含むフレームを生成するために、選択されたタイルをマルチプレクサに提供するためのコード部分とを含む、１つまたは複数の非一時的な有形のコンピュータ可読媒体。

１６．タイル符号化ビットストリームが、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、複数の位相符号化ビットストリームとして生成される、請求項１５に記載の非一時的な有形のコンピュータ可読媒体。

１７．タイル符号化ビットストリームの一部が、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、ブロックイントラ符号化ビットストリームとして生成される、請求項１５に記載の非一時的な有形のコンピュータ可読媒体。

１８．タイル重みが、３６０°没入型ビデオ資産をユーザに表示するように動作するクライアントデバイスからの注視ベクトルに対応して決定され、タイル重みが、注視ベクトルと、ユーザによって鑑賞される３次元（３Ｄ）表示環境に投影された復号されたフレームのタイルの配列にそれぞれ対応する各タイルロケーションに関連付けられた方向ベクトルとの間の分離角に基づく、請求項１５に記載の非一時的な有形のコンピュータ可読媒体。

１９．送信バッファモデルが、一定期間にわたって所定の数のフレームを送信するためのバッファ使用要件を推定するように動作する、請求項１８に記載の非一時的な有形のコンピュータ可読媒体。

２０．３６０°没入型ビデオ資産を含むマルチメディアセッションのためにクライアントデバイスにとって利用可能な帯域幅の推定量を受信することと、最適なビットレート品質を有するタイルを選択するために、帯域幅の推定量に基づいて、タイルの妥当性メトリック値を反復してアップグレードすることとを実行するように設定された命令をさらに含む、請求項１９に記載の非一時的な有形のコンピュータ可読媒体。

２１．最適なビットレート品質を有するタイルを選択するとき、イントラコード化（Ｉ）フレームタイルをアップグレードすることに関連する初期妥当性メトリック値を計算する際に、ペナルティ値を適用するように設定された命令をさらに含む、請求項２０に記載の非一時的な有形のコンピュータ可読媒体。

本開示の様々な実施形態の上記の説明において、本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではないことを理解されたい。別段の規定がない限り、本明細書で使用される（技術用語および科学用語を含む）用語はすべて、本発明が属する技術分野の当業者によって一般に理解されるものと同じ意味を有する。一般的に使用される辞書で規定されているような用語は、本明細書および関連技術の文脈におけるそれらの意味と一致する意味を有すると解釈されるべきであり、本明細書で明示的に規定されている理想的または過度に形式的な意味で解釈されてはならないことがさらに理解されよう。

少なくともいくつかの例示的な実施形態は、本明細書において、コンピュータ実装方法、装置（システムおよび／もしくはデバイス）および／もしくはコンピュータプログラム製品のブロック図ならびに／または流れ図を参照して説明されている。ブロック図および／または流れ図のブロック、ならびにブロック図および／または流れ図中のブロックの組合せは、１つまたは複数のコンピュータ回路によって実行されるコンピュータプログラム命令によって実装され得ることが理解されよう。このようなコンピュータプログラム命令は、汎用コンピュータ回路、専用コンピュータ回路のプロセッサ回路、および／またはマシンを作成するための他のプログラム可能なデータ処理回路に提供され得、その結果、命令は、コンピュータのプロセッサおよび／または他のプログラム可能なデータ処理装置を介して実行されると、ブロック図および／または流れ図の１つもしくは複数のブロックで指定された機能／動作を実装するように、トランジスタ、メモリロケーションに記憶された値、およびこのような回路内の他のハードウェア構成要素を変換および制御し、それによって、ブロック図および／または流れ図ブロックで指定された機能／動作を実装するための手段（機能）および／または構造を作成する。さらに、コンピュータまたは他のプログラム可能なデータ処理装置に特定の方法で機能するように指示することができるコンピュータプログラム命令はまた、有形のコンピュータ可読媒体に記憶され得、その結果、コンピュータ可読媒体に記憶された命令は、ブロック図および／または流れ図の１つまたは複数のブロックで指定された機能／動作を実装する命令を含む製造品を生成する。

前に指摘したように、有形の非一時的なコンピュータ可読媒体は、電子、磁気、光学、電磁、または半導体のデータ記憶システム、装置、またはデバイスを含み得る。コンピュータ可読媒体のより具体的な例には、以下の、ポータブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）回路、読み取り専用メモリ（ＲＯＭ）回路、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）回路、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、およびポータブルデジタルビデオディスク読み取り専用メモリ（ＤＶＤ／Ｂｌｕ－ｒａｙ）が含まれ得る。コンピュータプログラム命令はまた、コンピュータおよび／または他のプログラム可能なデータ処理装置にロードあるいはダウンロードされて、コンピュータおよび／または他のプログラム可能な装置上で一連の動作ステップを実行させて、コンピュータ実装プロセスを生成し得る。したがって、本発明の実施形態は、ハードウェアにおいて、および／または、「回路」、「モジュール」もしくはその変形と総称され得るプロセッサもしくはコントローラ上で実行されるソフトウェア（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）において具現化され得る。さらに、例示的な処理ユニットには、例示として、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連する１つまたは複数のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）回路、任意の他のタイプの集積回路（ＩＣ：ｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、および／またはステートマシンが含まれ得る。理解され得るように、例示的なプロセッサユニットは、特定の実施形態において分散処理を採用することができる。

さらに、少なくともいくつかの追加のまたは代替の実装形態において、ブロックに記載されている機能／動作は、流れ図に示されている順序から外れて生じ得る。たとえば、連続して示される２つのブロックは、実際には、実質的に同時に実行され得るか、またはブロックは、関与する機能／動作に応じて、逆の順序で実行されることがあり得る。さらに、流れ図および／もしくはブロック図の所与のブロックの機能は、複数のブロックに分離され得、かつ／または、流れ図および／もしくはブロック図の２つ以上のブロックの機能は、少なくとも部分的に統合され得る。さらに、図のいくつかは、通信経路上に通信の主な方向を示すための矢印を含むが、通信は、示された矢印とは反対の方向に発生し得ることを理解されたい。最後に、図示されているブロックの間に、他のブロックが追加／挿入され得る。

したがって、本開示の図に示す流れ図のいずれかに図示されている動作、ステップ、機能、構成要素、もしくはブロックの順序またはシーケンスは、特定の動作、ステップ、機能、構成要素、またはブロックの削除または省略を含め、特定の流れ図内で修正、変更、置換、カスタマイズ、または別の方法で再配置され得ることを明確に理解されたい。さらに、特定の流れ図に示されている動作、ステップ、機能、構成要素、またはブロックは、本特許開示の教示を実施する目的で１つまたは複数のプロセスに対する追加の変形形態、修正形態、および設定を実現するために、別の流れ図に示されている動作、ステップ、機能、構成要素、またはブロックと混合され得るか、または別の方法で相互配置もしくは再配置され得る。

様々な実施形態が詳細に示され、説明されてきたが、特許請求の範囲は、特定の実施形態または実施例に限定されない。上記の発明を実施するための形態のいずれも、特定の構成要素、要素、ステップ、動作、または機能が、特許請求の範囲に含まれなければならないほど不可欠であることを意味するものとして読まれるべきではない。単数形の要素についての言及は、明示的に明記されていない限り、「唯一の」を意味するのではなく、「１つ以上」を意味することを意図している。当業者に知られている上記の実施形態の要素とのすべての構造的および機能的な均等物は、参照により本明細書に明示的に組み込まれ、本特許請求の範囲に含まれることを意図している。したがって、本明細書に記載の例示的な実施形態が、添付の特許請求の範囲の趣旨および範囲内で様々な修正および変更を加えて実施され得ることが、当業者には理解されよう。

Claims

没入型ビデオ最適化システム（２１５）において動作する方法（１９００）であって、
メディア入力ストリームの複数のビットレート表現のうちの特定のビットレート表現に対応する各タイル符号化ビットストリームについて、フレームごとのタイルグループ化の特性を記述した１つまたは複数のストリームマニフェストファイルを検索すること（１９０２）であって、各ビットレート表現が、各ビットレート表現に使用される対応する量子化パラメータ（ＱＰ）値に関連する別個のビデオ品質を有し、タイル符号化ビットストリームの各フレームが、フレームごとに少なくとも１つのスライスに編成されたタイルの配列を含み、複数のフレームが前記タイル符号化ビットストリームのグループオブピクチャ（ＧＯＰ）構造を形成する、１つまたは複数のストリームマニフェストファイルを検索することと、
フレームを形成するタイルの配列に対応するタイル重みを取得すること（１９０４）と、
前記メディア入力ストリームの前記複数のビットレート表現に対応するバリアント重みを取得すること（１９０６）と、
前記タイル符号化ビットストリームのそれぞれについて、妥当性メトリック値を、ＧＯＰ構造全体の各タイル／ＧＯＰの組合せごとのバリアント重みとタイル重みに基づいて決定すること（１９０８）と、
前記妥当性メトリック値に対応して、フレームを形成するための対応するタイルコード化ビットストリームから、異なるビットレート品質を有するタイルを選択すること（１９１０）であって、前記選択されたタイルの前記ビットレート品質が、多重化されたビデオ出力ストリームを送信するための送信バッファモデルを満たすように最適化される、タイルを選択することと、
前記多重化されたビデオ出力ストリームの一部として、前記選択されたタイルを含むフレームを生成するために、前記選択されたタイルをマルチプレクサに提供すること（１９１２）と
を含み、
前記タイル重みが、３６０°没入型ビデオ資産をユーザに表示するように動作するクライアントデバイス（２３６）からの注視ベクトルに対応して決定され、前記タイル重みが、前記注視ベクトルと、前記ユーザによって鑑賞される３次元（３Ｄ）表示環境に投影された復号されたフレームのタイルの配列にそれぞれ対応する各タイルロケーションに関連付けられた方向ベクトルとの間の分離角に基づく、
方法。
前記タイル符号化ビットストリームが、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、複数の位相符号化ビットストリームとして生成され、
ｐ番目の位相符号化ビットストリームごとに、Ｎ個のフレームは、次のようにして符号化される：少なくとも最初のフレームが、イントラコード化（Ｉ）フレームとして符号化され、２≦ｉ≦Ｎの場合、｛ｉＭｏｄ（ＧＯＰサイズ）｝＝ｐを満たすフレーム位置ｉのフレームは、予測コード化（Ｐ）フレームのスライスヘッダを有し、かつイントラコード化データのみのブロック（Ｉブロック）を含むＸフレームとして符号化され、それ以外の場合、そのフレームは、Ｐスライスヘッダを伴う予測コード化データのブロック（Ｐブロック）を有するＰフレームとして符号化される、請求項１に記載の方法（１９００）。
前記タイル符号化ビットストリームの一部が、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、ブロックイントラ符号化ビットストリームとして生成される、請求項１に記載の方法（１９００）。
前記送信バッファモデルが、一定期間にわたって所定の数のフレームを送信するためのバッファ使用要件を推定するように動作する、請求項１に記載の方法（１９００）。
前記３６０°没入型ビデオ資産を含むマルチメディアセッションのために前記クライアントデバイス（２３６）にとって利用可能な帯域幅の推定量を受信すること（２０１２）と、
最適なビットレート品質を有するタイルを選択する（２０１８）ために、帯域幅の前記推定量に基づいて、前記タイルの妥当性メトリック値を反復して前記タイルの品質を向上させることと
をさらに含む、請求項４に記載の方法（１９００）。
最適なビットレート品質を有するタイルを選択するとき、イントラコード化（Ｉ）フレームタイルの品質を向上させることに関連する初期妥当性メトリック値を計算する際に、ペナルティ値を適用すること（２１３６）をさらに含む、請求項５に記載の方法（１９００）。
没入型ビデオ最適化システム（２１５）であって、
１つまたは複数のプロセッサ（２４０２）と、
プログラム命令が記憶された１つまたは複数の永続メモリモジュール（２４０８）であって、前記プログラム命令が、前記１つまたは複数のプロセッサによって実行されると、１つまたは複数のモジュールに関連して次の動作、すなわち
メディア入力ストリームの複数のビットレート表現のうちの特定のビットレート表現に対応する各タイル符号化ビットストリームについて、フレームごとのタイルグループ化の特性を記述した１つまたは複数のストリームマニフェストファイルを検索することであって、各ビットレート表現が、各ビットレート表現に使用される対応する量子化パラメータ（ＱＰ）値に関連する別個のビデオ品質を有し、タイル符号化ビットストリームの各フレームが、フレームごとに少なくとも１つのスライスに編成されたタイルの配列を含み、複数のフレームが前記タイル符号化ビットストリームのグループオブピクチャ（ＧＯＰ）構造を形成する、１つまたは複数のストリームマニフェストファイルを検索することと、
フレームを形成するタイルの配列に対応するタイル重みを取得することと、
前記メディア入力ストリームの前記複数のビットレート表現に対応するバリアント重みを取得することと、
前記タイル符号化ビットストリームのそれぞれについて、妥当性メトリック値を、ＧＯＰ構造全体の各タイル／ＧＯＰの組合せごとのバリアント重みとタイル重みに基づいて決定することと、
前記妥当性メトリック値に対応して、フレームを形成するための対応するタイルコード化ビットストリームから、異なるビットレート品質を有するタイルを選択することであって、前記選択されたタイルの前記ビットレート品質が、多重化されたビデオ出力ストリームを送信するための送信バッファモデルを満たすように最適化される、タイルを選択することと、
前記多重化されたビデオ出力ストリームの一部として、前記選択されたタイルを含むフレームを生成するために、選択されたタイルをマルチプレクサに提供することと
を実行する、１つまたは複数の永続メモリモジュールと
を備え、
前記タイル重みが、３６０°没入型ビデオ資産をユーザに表示するように動作するクライアントデバイス（２３６）からの注視ベクトルに対応して決定され、前記タイル重みが、前記注視ベクトルと、前記ユーザによって鑑賞される３次元（３Ｄ）表示環境に投影された復号されたフレームのタイルの配列にそれぞれ対応する各タイルロケーションに関連付けられた方向ベクトルとの間の分離角に基づく、
没入型ビデオ最適化システム。
前記タイル符号化ビットストリームが、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、複数の位相符号化ビットストリームとして生成され、
ｐ番目の位相符号化ビットストリームごとに、Ｎ個のフレームは、少なくとも最初のフレームが、イントラコード化（Ｉ）フレームとして符号化され、２＜ｉ＜Ｎの場合、｛ｉＭｏｄ（ＧＯＰサイズ）｝＝ｐを満たすフレーム位置ｉのフレームは、予測コード化（Ｐ）フレームのスライスヘッダを有し、かつイントラコード化データのみのブロック（Ｉブロック）を含むＸフレームとして符号化され、それ以外の場合、そのフレームは、Ｐスライスヘッダを伴う予測コード化データのブロック（Ｐブロック）を有するＰフレームとして符号化される、請求項７に記載の没入型ビデオ最適化システム（２１５）。
前記タイル符号化ビットストリームの一部が、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５圧縮、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ビデオ１（ＡＶ１）圧縮、およびＨ．２６６／多用途ビデオコーディング（ＶＶＣ）圧縮のうちの少なくとも１つに基づいて、ブロックイントラ符号化ビットストリームとして生成される、請求項７に記載の没入型ビデオ最適化システム（２１５）。
前記送信バッファモデルが、一定期間にわたって所定の数のフレームを送信するためのバッファ使用要件を推定するように動作する、請求項７に記載の没入型ビデオ最適化システム（２１５）。
前記プログラム命令が、
前記３６０°没入型ビデオ資産を含むマルチメディアセッションのために前記クライアントデバイス（２３６）にとって利用可能な帯域幅の推定量を受信することと、
最適なビットレート品質を有するタイルを選択するために、帯域幅の前記推定量に基づいて、前記タイルの妥当性メトリック値を反復して前記タイルの品質を向上させることと
を実行するように設定された命令をさらに含む、請求項１０に記載の没入型ビデオ最適化システム（２１５）。
前記プログラム命令が、最適なビットレート品質を有するタイルを選択するとき、イントラコード化（Ｉ）フレームタイルの品質を向上させることに関連する初期妥当性メトリック値を計算する際に、ペナルティ値を適用するように設定された命令をさらに含む、請求項１１に記載の没入型ビデオ最適化システム（２１５）。
没入型ビデオ最適化システム（２１５）の１つまたは複数のプロセッサ（２４０２）によって実行されると、最小のレイテンシで３６０°没入型ビデオ資産の提示用に最適化されたタイル選択プロセスを実現する命令が記憶された、１つまたは複数の非一時的な有形のコンピュータ可読媒体（２４０８）であって、
前記１つまたは複数のプロセッサが、請求項１から６のいずれか一項に記載の方法を実行するように構成されている、１つまたは複数の非一時的な有形のコンピュータ可読媒体。