JP2019530311A

JP2019530311A - ３６０度ビデオ情報をシグナリングするための方法およびシステム

Info

Publication number: JP2019530311A
Application number: JP2019511979A
Authority: JP
Inventors: フィリッペ・ハンハート; ユーウェン・ヘー; ヤン・イエ
Original assignee: ヴィドスケールインコーポレイテッド
Priority date: 2016-09-02
Filing date: 2017-08-30
Publication date: 2019-10-17
Also published as: WO2018045108A1; US20190200023A1; CN117201817A; US11284089B2; US11876981B2; EP3507985A1; KR20190054060A; CN109644279B; CN109644279A; US20220174289A1; TW201813372A

Abstract

３６０度ビデオについてのコーディング技術が説明される。エンコーダは、投影フォーマットを選択し、選択された投影フォーマットを使用して、３６０度ビデオを２Ｄ平面ビデオにマッピングする。エンコーダは、ビットストリーム、更には信号において、２Ｄ平面ビデオを符号化し、ビットストリームにおいて、投影フォーマットを識別するパラメータを符号化する。投影フォーマットを識別するパラメータは、ビットストリームのビデオパラメータセット、シーケンスパラメータセット、および／またはピクチャパラメータセットにおいてシグナリングされてもよい。シグナリングすることができる異なる投影フォーマットは、エクイレクタングラ、キューブマップ、正積、八面体、二十面体、円筒、およびユーザにより指定された多角形などの形状を使用するフォーマットを含む。シグナリングすることができる他のパラメータは、形状面の異なる配置または異なる面についての異なる符号化品質を含む。対応するデコーダも説明される。一部の実施形態では、投影パラメータは、投影形状方位を定める相対形状回転パラメータを更に含んでもよい。

Description

本発明は、画像処理の技術に関する。

関連出願の相互参照
本出願は、それらの全体の参照により本明細書に組み込まれている、２０１６年９月２日に出願した「ＭｅｔｈｏｄａｎｄＳｙｓｔｅｍｆｏｒＳｉｇｎａｌｉｎｇｏｆ３６０−ＤｅｇｒｅｅＶｉｄｅｏＩｎｆｏｒｍａｔｉｏｎ」という名称の米国特許仮出願第６２／３８３，３６７号明細書、および２０１６年１０月１２日に出願した「ＭｅｔｈｏｄａｎｄＳｙｓｔｅｍｆｏｒＳｉｇｎａｌｉｎｇｏｆ３６０−ＤｅｇｒｅｅＶｉｄｅｏＩｎｆｏｒｍａｔｉｏｎ」という名称の米国特許仮出願第６２／４０７，３３７号明細書の非仮出願であり、米国特許法（３５Ｕ．Ｓ．Ｃ．）第１１９条のもとに利益を主張するものである。

仮想現実（ＶＲ）は、研究室から出て我々の日常生活に入ってきている。ＶＲは多くの応用分野を有する：医療、教育、ソーシャルネットワーキング、産業設計／訓練、ゲーム、映画、ショッピング、娯楽、その他多く。ＶＲは没入型のビューイングエクスペリエンスをもたらす能力を有するので、産業界および消費者から顕著な注目を獲得しつつある。それは見る人を取り囲む仮想環境を作成し、「そこに居る」という現実の感覚を生成し得る。ＶＲ環境においてどのようにして十分な現実感をもたらすかは、ユーザのエクスペリエンスのために重要である。例えばＶＲシステムは、姿勢、ジェスチャ、視線、声および／または同様のものを通した対話をサポートするべきである。自然な方式でユーザがＶＲ世界におけるオブジェクトと対話することを可能にするために、システムはまた、ユーザに触覚フィードバックももたらし得る。

今日のＶＲシステムは３６０度ビデオを用いて、ユーザに水平方向に３６０度の角度、および垂直方向に１８０度の角度からシーンを見る能力をもたらす。同時に、ＶＲおよび３６０度ビデオは、超高精細（ＵＨＤ）サービスを超えるメディア消費のための将来の方向と考えられている。ＶＲにおける３６０度ビデオの品質を改善し、ＶＲクライアントの相互運用性のための処理チェーンを標準化するために、ＭＰＥＧ−Ａ（マルチメディアアプリケーションフォーマット）Ｐａｒｔ１９に属するアドホックグループが、２０１６年の初めに無指向性メディアアプリケーションフォーマットのための要件および潜在的技術に取り組むようにＩＳＯ／ＩＥＣ／ＭＰＥＧ内に設立された。別のアドホックグループ、ｆｒｅｅｖｉｅｗＴＶ（ＦＴＶ）は、３６０度３Ｄビデオアプリケーションのための調査実験を発表した。ＦＴＶに対する１つの主要な目標は２つのソリューションの性能をテストすることである：（１）３６０度ビデオ（無指向性ビデオ）をベースとするシステム；（２）マルチビューをベースとするシステム。次世代ビデオ符号化標準のための新たな技術を調査している、ＭＰＥＧおよびＩＴＵ−Ｔからの共同ビデオ調査チーム（ＪＶＥＴ）は、ＶＲを含むテストシーケンスに対する要求を発表した。２０１６年６月の会議において、アドホックグループ（ＡＨＧ８）が設立され、ＡＨＧ８グループの権限は３６０ビデオ符号化のための、共通テスト条件、テストシーケンスフォーマット、および評価基準を実現させることである。ＡＨＧ８はまた、異なる投影法が適用されたときの圧縮に対する影響、および変換ソフトウェアについて検討することになる。

業界は、捕捉、処理、表示、およびアプリケーションを含む、ＶＲ処理チェーンにおける様々な側面の品質およびユーザエクスペリエンスを改善することに取り組んでいる。捕捉側において、ＶＲシステムは複数のカメラシステムを用いて、異なる分岐したビュー（例えばいくつかの場合にはおおよそ６個から１２個のビュー）からシーンを捕捉する。これらのビューは、高解像度（例えば４Ｋまたは８Ｋ）での３６０度ビデオを形成するように、一緒にスティッチされる。クライアントまたはユーザ側において、現在の仮想現実システムは通常、計算プラットフォーム、ヘッドマウントディスプレイ（ＨＭＤ）、およびヘッドトラッキングセンサを含む。計算プラットフォームは３６０度ビデオを受信および復号すること、ならびに表示のためのビューポートを生成することを担当する。それぞれの目に１つずつの、２つの画像がビューポートのためにレンダリングされる。２つの画像は立体ビューイングのためにＨＭＤ内に表示される。より良いビューイングのためにＨＭＤ内に表示されるイメージを拡大するように、レンズが用いられ得る。ヘッドトラッキングセンサは、見る人の頭部方位を絶えず追跡し続け、方位情報をシステムに供給してビューポート画像をその方位に表示する。

いくつかのＶＲシステムは、仮想世界におけるオブジェクトと対話するように、見る人のために特殊なタッチデバイスをもたらし得る。市場において既存のＶＲシステムが使用可能である。１つはＯｃｕｌｕｓによってもたらされるＲｉｆｔ、ならびにまたＳａｍｓｕｎｇおよびＯｃｕｌｕｓからの製品であるＧｅａｒＶＲである。Ｒｉｆｔは、優れたＧＰＵサポートを有する強力なワークステーションによって駆動される。ＧｅａｒＶＲは軽いＶＲシステムであり、これは計算プラットフォームとしてのスマートフォン、ＨＭＤディスプレイ、およびヘッドトラッキングセンサを用いる。第２のＶＲシステムはＨＴＣＶｉｖｅシステムである。ＲｉｆｔおよびＶｉｖｅは同様な性能を有する。空間的ＨＭＤ解像度は２１６０×１２００、リフレッシュレートは９０Ｈｚ、および視野（ＦＯＶ）は約１１０度である。ヘッドトラッキングセンサのためのサンプリングレートは１０００Ｈｚであり、これは非常に高速の運動を捕捉することができる。Ｇｏｏｇｌｅはまたカードボードと呼ばれる簡単なＶＲシステムを有する。Ｇｏｏｇｌｅカードボードはレンズおよびカードボードアセンブリを有し、ＧｅａｒＶＲと同様であり、スマートフォンによって駆動される。ＳｏｎｙもゲーミングのためのＰｌａｙＳｔａｔｉｏｎＶＲをもたらす。３６０度ビデオストリーミングサービスの観点から、中でもＹｏｕＴｕｂｅおよびＦａｃｅｂｏｏｋは早期のプロバイダである。

対話性および触覚フィードバックなどのエクスペリエンス品質は、これらの現在のＶＲシステムにおいて依然としてさらなる改善の必要がある。例えば今日のＨＭＤは、依然として大き過ぎ、着用するのに便利ではない。またＨＭＤによってもたらされる立体視のための現在の２１６０×１２００の解像度は不十分であり、一部のユーザに対してめまいおよび不快感を引き起こし得る。したがって、解像度増加は有益となり得る。さらに、ＶＲ環境における視覚からの感覚を、現実世界における力フィードバックと組み合わせることは、ＶＲエクスペリエンスを強化するための１つの選択肢である。ＶＲローラーコースタは例示のアプリケーションである。

多くの会社が３６０度ビデオ圧縮および配信システムに取り組んでおり、彼等は彼等自体の解決策を有する。例えばＧｏｏｇｌｅＹｏｕＴｕｂｅは、ＤＡＳＨをベースとする３６０度ビデオストリーミングのためのチャネルをもたらした。Ｆａｃｅｂｏｏｋも、３６０度ビデオ配信のための解決策を有する。

本明細書におけるシステムおよび方法は、３６０度ビデオデータエンコーディングおよび復号に関連する問題に対処しようとするものである。

Ｍ．Ｙｕ，Ｈ．Ｌａｋｓｈｍａｎ，Ｂ．Ｇｉｒｏｄ， "ＡＦｒａｍｅｗｏｒｋｔｏＥｖａｌｕａｔｅＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＶｉｄｅｏＣｏｄｉｎｇＳｃｈｅｍｅｓ"，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＭｉｘｅｄａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ，２０１５

３６０度ビデオをエンコードする例示的方法において、エンコーダは投影フォーマットを選択し、投影フォーマットは形状タイプおよび／または形状方位などの情報を含む。エンコーダは、選択された投影フォーマットを用いて、３６０度ビデオを２Ｄ平面ビデオにマッピングする。エンコーダは、２Ｄ平面ビデオをビットストリームにエンコードし、さらに投影フォーマットを識別するパラメータをビットストリーム内でシグナリングする。エクイレクタングラ、キューブマップ、正積、八面体、二十面体、円筒、およびユーザ指定の多角形を含む、様々な形状タイプが用いられ、ビットストリーム内にシグナリングされ得る。複数の面に関連付けられた形状タイプに対して、フレームパッキングパラメータは、２Ｄ平面ビデオ内のそれらの面の位置および／または方位を識別するためにシグナリングされ得る。異なる面は、異なるサイズおよび／または異なる品質のレベルを有してエンコードされ得る。形状方位を識別するパラメータは、ヨーパラメータ、ピッチパラメータ、およびロールパラメータの少なくとも１つを含み得る。

投影フォーマットを識別するパラメータは、ビットストリームのビデオパラメータセット、シーケンスパラメータセット、および／または画像パラメータセット内でシグナリングされ得る。投影パラメータは、レート歪み最適化に基づいて選択され得る。ビデオ内の異なる画像または異なるシーケンスは、投影フォーマットパラメータのシグナリングが適切なパラメータセットにおいてもたらされながら、異なる投影フォーマットを用いてエンコードされ得る（例えば異なる画像またはシーケンスが、異なる投影フォーマットを用いて、より高いレート歪み性能を有するとき）。対応する復号技法も述べられる。

本開示において、３６０度ビデオ符号化と共に用いるための例示的構文が述べられる。構文要素は、投影形状を指定するため、および／または格子システムを用いたフレームパックされた画像における面の配置を指定するために用いられ得る。面は異なるサイズおよび／または方位を有することができる。いくつかの実施形態において、２Ｄ平面上の面配置は、各列／行に沿った一定の面幅／高さなど、様々な特性を有し得る。いくつかの実施形態において、任意の多角形ベースの表示を用いたユーザ指定の形状のための例示的構文が述べられる。いくつかの実施形態において使用されるさらなる特徴は、フレームパックされた画像をパッディングするために用いられるサンプルをスキップするためのフラグ、面ごとのレベルにおけるデルタ量子化パラメータ（ＱＰ）のシグナリング、特定の面にわたってループフィルタをイネーブル／ディスエーブルするためのフラグ、および／または３６０ビデオの特定の領域だけを符号化するための構文の使用を含み得る。

いくつかの実施形態において、投影パラメータはさらに相対的形状回転パラメータを含み得る。このようなパラメータは、投影形状方位を定義し得る。投影形状は、関心のあるオブジェクトが、投影形状の単一の面内に実質的に全体が含まれるように選択的に方位付けされ得る。異なる面が異なる品質のレベル（例えば異なるＱＰ値）を有してエンコードされる実施形態において、投影形状は、関心のあるオブジェクトが、比較的高い品質レベルを有してエンコードされる面内に、実質的に全体が含まれるように方位付けされ得る。

より詳しい理解は、添付の図面と共に例として提示される以下の説明から得られ得る。

経度および緯度での球面サンプリングを用いた、球面形状上のエクイレクタングラ投影を示す図である。図１Ａでの球面上の点Ｐは２Ｄ平面内の点ｑに投影される、図１Ａでのサンプリングに対する２Ｄ平面エクイレクタングラ投影を示す図である。エクイレクタングラ投影を用いた例示の画像の概略図である。面ＰＸ（０）、ＮＸ（１）、ＰＹ（２）、ＮＹ（３）、ＰＺ（４）、ＮＺ（５）を用いた、３Ｄ形状構造上のキューブマップ投影を示す図である。図２Ａで定義された６つの面に対する２Ｄ平面を示す図である。キューブマップ投影を用いた例示の画像を概略的に示す図である。正積投影のための正積方式での球面サンプリングを示す図である。球面上の点ｐは２Ｄ平面内の点ｑに投影され、水平線（Ａ０、Ａ１、Ａ２など）の緯度は等間隔ではない、図３Ａの正積投影の２Ｄ平面を示す図である。正積投影を用いた例示の画像を概略的に示す図である。３Ｄ形状構造を用いた八面体投影を示す図である。図４Ａの３Ｄ構造の２Ｄ平面パッキングを示す図である。八面体投影を用いた例示の画像を概略的に示す図である。３６０度ビデオ処理ワークフローの一実施形態を示す図である。ブロックベースのビデオエンコーダの機能ブロック図の一実施形態を示す図である。ビデオデコーダの機能ブロック図の一実施形態を示す図である。キューブマップ投影フォーマットの物理的レイアウトの一実施形態を示す図である。八面体投影フォーマットの物理的レイアウトの一実施形態を示す図である。４×３フォーマットで表されたキューブマップを示す図である。３×２フォーマットで表されたキューブマップを示す図である。前面が他の面の２倍のサイズ（４倍の面積）を有する（この場合、前面は２つの行および２つの列にわたって広がる）、３×３フォーマットで表されたキューブマップを示す図である。０°回転による、三角形の面に対する面回転の定義を示す図である。９０°回転による、三角形の面に対する面回転の定義を示す図である。１８０°回転による、三角形の面に対する面回転の定義を示す図である。２７０°回転による、三角形の面に対する面回転の定義を示す図である。０°回転の後に垂直反転による、三角形の面に対する面回転の定義を示す図である。９０°回転の後に垂直反転による、三角形の面に対する面回転の定義を示す図である。１８０°回転の後に垂直反転による、三角形の面に対する面回転の定義を示す図である。２７０°回転の後に垂直反転による、三角形の面に対する面回転の定義を示す図である。八面体に対する非コンパクトフレームパッキングフォーマットを示す図である。八面体に対するコンパクトフレームパッキングフォーマットを示す図である。二十面体に対する非コンパクトフレームパッキングフォーマットを示す図である。二十面体に対するコンパクトフレームパッキングフォーマットを示す図である。全画像はフレームパックされた画像を表し、矩形は符号化されるエリアの範囲を定める、キューブマップに対する制限された球面範囲符号化を示す図である。全画像はフレームパックされた画像を表し、矩形は符号化されるエリアの範囲を定める、等辺形に対する制限された球面範囲符号化を示す図である。キューブマップ投影と共に用いられ得るものなどの６つの面の配置を示す、フレームパックされた画像内の面の例示的な代替的配置を示す図である。キューブマップ投影と共に用いられ得るものなどの６つの面の配置を示す、フレームパックされた画像内の面の例示的な代替的配置を示す図である。いくつかの実施形態においてエンコーダまたはデコーダとして使用され得る例示的無線送信／受信ユニット（ＷＴＲＵ）を示す図である。いくつかの実施形態においてエンコーダまたはデコーダとして使用され得る例示的ネットワークエンティティを示す図である。

次に例示的実施形態の詳しい説明が、様々な図を参照してもたらされる。この説明は可能な実装形態の詳しい例をもたらすが、もたらされる詳細は例としてであり、本出願の範囲を限定するものではないことが留意されるべきである。

３６０度ビデオエンコーディングおよび復号
３６０度ビデオ配信の１つの技法は、球面形状構造を用いて３６０度情報を表すことである。例えば複数のカメラによって捕捉された同期した複数のビューは、１つの一体化した構造として球面上にスティッチされる。次いで球面情報は、所与の形状変換処理、例えばエクイレクタングラ投影（ＥＲＰ）法を用いて２Ｄ平面表面に投影される。図１Ａは経度（φ）および緯度（θ）における球面サンプリングを示し、図１Ｂはエクイレクタングラ投影を用いて２Ｄ平面に投影される球面を示す。航空学において範囲［−π，π］内の経度φはヨーとして知られ、範囲［−π／２，π／２］内の緯度θはピッチとして知られ、πは円の周囲の長さとその直径との比である。説明を容易にするために、（ｘ，ｙ，ｚ）は３Ｄ空間における点の座標を表すために用いられ、（ｕｅ，ｖｅ）はエクイレクタングラ投影を用いた２Ｄ平面内の点の座標を表すために用いられる。エクイレクタングラ投影は、数学的に式（１）および（２）において表されることができる：
ｕｅ＝（φ／（２×π）＋０．５）×Ｗ（１）
ｖｅ＝（０．５−θ／π）×Ｈ（２）

ただしＷおよびＨは２Ｄ平面画像の幅および高さである。図１Ａに示されるように、球面上の経度Ｌ４と緯度Ａ１の交差点、点Ｐは、式（１）および（２）を用いて２Ｄ平面内の一意の点ｑ（図１Ｂ）にマッピングされる。２Ｄ平面内の点ｑは、逆投影によって球面上のもとの点Ｐに投影されることができる。図１Ｂでの視野（ＦＯＶ）は、球面におけるＦＯＶが、Ｘ軸に沿った約１１０度の視野角を有して、２Ｄ平面にマッピングされる例を示す。

ＥＲＰを用いて、３６０度ビデオは通常の２Ｄビデオにマッピングされることができる。これはＨ．２６４またはＨＥＶＣなどの既存のビデオコーデックを用いてエンコードされ、次いでクライアントに配信されることができる。クライアント側では、エクイレクタングラビデオは復号され、次いでＨＭＤ内のエクイレクタングラ画像内のＦＯＶに属する部分を投影および表示することによって、ユーザのビューポートに基づいてレンダリングされる。球面ビデオはエクイレクタングラ投影を用いたエンコーディングのために２Ｄ平面画像に変換されることができるが、エクイレクタングラ２Ｄ画像の特性は従来の２Ｄ画像（レクティリニアビデオ（rectilinear video）とも呼ばれる）のそれとは異なる。図１Ｃは、部屋の内部の例示のエクイレクタングラ画像の概略表示である。北極に対応する画像の最上部分、および南極に対応する最下部分は、２Ｄ空間領域におけるエクイレクタングラサンプリングが不均一であることの結果として、赤道に対応する画像の中央部と比較して引き伸ばされる。時間的方向の中での２Ｄエクイレクタングラ画像における動きフィールドは、通常の２Ｄビデオにおける動きと比較して複雑になる。

ＭＰＥＧ−２、Ｈ．２６４、およびＨＥＶＣなどのビデオコーデックは、動きフィールドを記述するために並進モデルを用い、エクイレクタングラ投影された２Ｄ平面画像における形状が変わる運動を効率的に表すことができない。エクイレクタングラ投影の他の欠点は、赤道により近いエリアと比較して、極により近いエリアは見る人および／またはコンテンツプロバイダにとって関心が少なくなり得ることである。例えば見る人は、かなりの持続時間の間、最上および最下領域には焦点を当てない場合がある。しかしワーピング効果に基づいて、エクイレクタングラ投影の後にこれらのエリアは２Ｄ平面の、大きな部分になるように引き伸ばされ、その結果これらの領域を圧縮することは、かなりのビット数を必要とし得る。

これらの観察に基づいて、例えばこれらの極エリアを、それらを符号化するために必要な帯域幅を低減させるために平滑化するなどの、前処理を適用することによって、エクイレクタングラ画像符号化を改善するための、いくつかの処理方法が調べられている。また、キューブマップ、正積、円筒、角錐、八面体など、３６０度ビデオを表すための異なる形状投影が提案されている。これらの投影法の中でも、最も圧縮に都合がよい形状はキューブマップとすることができ、これは各面が平面正方形の、合計６つの面を有する。図２Ａは、キューブマップ形状の例を示す。キューブマップは６つの正方形の面からなる。内接球面の半径を１と仮定すると、キューブマップの各面（正方形）の横方向長さは２である。図２Ｂは、６つの面を、エンコーディングおよび配信のために用いられることができる、矩形に配置する１つのパッキング方法を示す。キューブマップ投影を用いた例示の画像の概略図は、図２Ｃに示される。ブランク領域（２０）は、矩形画像を充填するためのパッディングされる領域である。各面に対して、画像は通常の２Ｄ画像と同じに見える。しかし各面の境界は連続ではない。壁と天井との間の接合部を表す直線２２などの、２つの隣接する面を横切る直線は、これら２つの面の境界において曲げられるようになる。これは面境界における動きも、不連続になることを意味する。

図３Ａ〜３Ｂは、正積投影の例示の形状構造を示す。エクイレクタングラ投影と異なり、球面上の垂直サンプリングはピッチの均一な間隔に基づかない。各サンプリングされた緯度のＹ軸上の投影は、球面上の各サンプルに対して同じ面積を達成するために、均一に分布される。垂直方向のサンプリングは、極領域に近い領域に対して、よりまばらになる。これはまた赤道の周りに、より多くのサンプルがあることを意味する。実用的な状況においてこれは好ましく、なぜならユーザは一般に、極に近い領域より、赤道に近い領域をより頻繁に見るからである。図３Ｃは、正積投影を用いた例示の画像の概略図である。図１Ｃと比較して、図３Ｃでは赤道の周りの領域はスケールアップされ、極の周りの領域は絞られる。

図４Ａは、八面体投影の形状構造の例を示す。八面体は、８つの正三角形の面からなる。内接球面の半径が１である場合、各三角形の横方向長さは√６である。図４Ｂは、８つの三角形を１つの矩形内に配置する、１つのパッキング方法を示す。図４Ｃは、八面体投影を用いた１つの例示の画像を概略的に示す。例えば戸口４０２の歪みに見られるように、２つの隣接する三角形の共有される境界の隅部おいて、ワーピング歪みが観察される。

異なる形状投影法の符号化効率を比較するために、緯度をベースとするＰＳＮＲ（Ｌ−ＰＳＮＲ）が提案されている（例えば、非特許文献１参照）。これは２つの要因を考察する：（１）球面上の均一サンプリング；（２）見る人の視線挙動。これは球面上に均一に分布したいくつかの数のサンプルを定義し、これはまたその緯度に基づいてサンプルの重みを定義する。歪みは、すべてのそれらの均一に分布したサンプルを考慮することによって、加重平均二乗誤差（ＭＳＥ）を用いて測定される。重みは、見る人の視野角を、彼等がそれらのトレーニングシーケンスを見るときに、追跡することによって導き出される。重みは、それがより頻繁に見られる場合、大きくなる。これらの統計から、最も関心のあるコンテンツは赤道の周りに位置するので、赤道の周りの重みは極の近くのものより大きくなる。球面上のそれらの均一に分布したサンプルを用いることは、異なる投影法の性能を比較するための１つの測度をもたらす。しかしそれらの予め定義された球面サンプルは、異なる投影が適用されたとき、整数のサンプリング位置に投影されることができない。補間フィルタをベースとする再サンプリング方法が適用される場合、追加の補間誤差が導入されることになる。最も近い隣接するサンプリングが適用される場合、均一にサンプリングすることはもはや保証されない。したがって、客観的および主観的品質評価方法は、依然として３６０度ビデオ符号化のための未解決の論題である。

エクイレクタングラフォーマットは、３６０度カメラおよびスティッチングソフトウェアにおいて広くサポートされている。キューブマップ形状において３６０度ビデオをエンコードするために、エクイレクタングラフォーマットはキューブマップフォーマットに変換されなければならない。エクイレクタングラと、キューブマップとの間の関係は以下の通りである。図２Ａにおいて、各面は球面の中心から面の中心に向かう３つの軸のそれぞれを用いて参照される。「Ｐ」は正を表し、「Ｎ」は負を表すとすると、ＰＸは球面の中心から正のＸ軸に沿った方向を意味し、ＮＸはＰＸの逆の方向であり、ＰＹ、ＮＹ、ＰＺ、およびＮＺに対して類似のラベル付けとなる。その結果それぞれ前方、後方、最上、最下、右、および左面に対応する６つの面｛ＰＸ、ＮＸ、ＰＹ、ＮＹ、ＰＺ、ＮＺ｝が存在し、それらの面は０から５までインデックス付けされる。Ｐｓ（Ｘ＿ｓ，Ｙ＿ｓ，Ｚ＿ｓ）を、半径が１である球面上の点とする。これはヨーφおよびピッチθにおいて以下のように表されることができる：
Ｘ＿ｓ＝ｃｏｓ（θ）ｃｏｓ（φ）（３）
Ｙ＿ｓ＝ｓｉｎ（θ）（４）
Ｚ＿ｓ＝−ｃｏｓ（θ）ｓｉｎ（φ）（５）

Ｐｆを、球面中心からＰｓに直線を延ばしたときの立方体上の点とする。一般性を失わずに、Ｐｆを面ＮＺ上とする。Ｐｆの座標（Ｘ＿ｆ，Ｙ＿ｆ，Ｚ＿ｆ）は以下として計算されることができる：
Ｘ＿ｆ＝Ｘ＿ｓ／｜Ｚ＿ｓ｜（６）
Ｙ＿ｆ＝Ｙ＿ｓ／｜Ｚ＿ｓ｜（７）
Ｚ＿ｆ＝−１（８）

ただし｜ｘ｜は、変数ｘの絶対値である。その結果、面ＮＺの２Ｄ平面内のＰｆの座標（ｕｃ，ｖｃ）は以下として計算される：
ｕｃ＝Ｗ×（１−Ｘ＿ｆ）／２（９）
ｖｃ＝Ｈ×（１−Ｙ＿ｆ）／２（１０）

式（３）〜（１０）から、特定の面上のキューブマップ内の座標（ｕｃ，ｖｃ）と、球面上の座標（φ，θ）との間の関係が構築されることができる。およびエクイレクタングラ点（ｕｅ，ｖｅ）と球面上の点（φ，θ）との間の関係は、式（１）および（２）から知られる。したがって、エクイレクタングラ形状とキューブマップ形状との間の関係が見出されることができる。キューブマップからエクイレクタングラへの形状マッピングは、以下のように要約されることができる。キューブマップ内の１つの面上の点（ｕｃ，ｖｃ）を所与として、エクイレクタングラ平面上の出力（ｕｅ，ｖｅ）は、以下として計算されることができる：
１）式（９）および（１０）での関係に従って、（ｕｃ，ｖｃ）を有する面上の３Ｄ点Ｐ＿ｆの座標を計算する；
２）式（６）、（７）、および（８）での関係に従って、Ｐ＿ｆを有する球面上の３Ｄ点Ｐ＿ｓの座標を計算する；
３）式（３）、（４）、および（５）での関係に従って、Ｐ＿ｓを有する球面上の（φ，θ）を計算する；
４）式（１）および（２）での関係に従って、（φ，θ）から、エクイレクタングラ画像上の点（ｕｅ，ｖｅ）の座標を計算する。

３６０度ビデオをキューブマップを用いて１つの２Ｄ画像内に表すために、キューブマップの６つの面は１つの矩形エリア内にパックされることができ、これはフレームパッキングとして知られる。フレームパックされた画像は、次いで１つの通常の２Ｄ画像として扱われる（例えば符号化される）。３×２および４×３など、異なるフレームパッキング構成がある。３×２構成では、６つの面が２つの行に、３つの面が１つの行内にパックされる。４×３構成では、４つの面ＰＸ、ＮＺ、ＮＸ、ＰＺが１つの行（例えば中央の行）にパックされ、面ＰＹおよびＮＹは、２つの異なる行（例えば最上および最下行）に別々にパックされる。図２Ｃの例は、図１Ｃでのエクイレクタングラ画像に対応する４×３フレームパッキングを使用する。

例示的シナリオにおいて、エクイレクタングラフォーマットでの３６０度ビデオが入力として取られ、入力をキューブマップフォーマットに変換することが望まれる。以下のステップが適用される：
１）キューブマップフォーマット内の各サンプル位置（ｕｃ，ｖｃ）に対して、上記で導入された方法によって、エクイレクタングラフォーマット内の対応する座標（ｕｅ，ｖｅ）を計算する。
２）このように計算されたエクイレクタングラ内の座標（ｕｅ，ｖｅ）が整数サンプル位置でない場合、この小数位置サンプル値を、それの隣接する整数位置でのサンプルを用いて取得するために、補間フィルタが適用され得る。

３６０度ビデオシステムのための１つのワークフローが図５に示される。これは、球面空間全体をカバーするビデオを捕捉するために複数のカメラを用いることなど、３６０度ビデオキャプチャ５０２を含む。次いでそれらのビデオは、例えばエクイレクタングラ形状構造に、一緒にスティッチされる（５０４）。エクイレクタングラ形状構造は、既存のビデオコーデックを用いたエンコーディングなどのエンコーディングのために、キューブマップなどの別の形状構造に変換されることができる（５０６）。エンコーディング５１０の前に、フレームパッキング５０８が行われ得る。符号化されたビデオは、例えば動的ストリーミングまたはブロードキャスティングによってクライアントに配信される。受信器において、ビデオは復号され（５１２）、圧縮解除されたフレームはアンパックされ（５１４）、表示形状（例えばエクイレクタングラ）に変換される（５１６）。次いでそれは、ユーザの視線角度に従ったビューポート投影５１８によってレンダリングするために用いられ、ヘッドマウントディスプレイ５２０に表示されることができる。

職業用および／または民生用ビデオアプリケーションにおいて、色度成分はしばしば、輝度成分のものと比べて小さな解像度となるようにサブサンプリングされる。色度サブサンプリングは、ビデオ品質に著しく影響を与えずに、エンコードされることになるビデオデータの量を低減させる（ならびに、したがって、帯域幅および計算能力を節約する）。例えば、広く用いられている色度フォーマットの１つは４：２：０色度フォーマットと呼ばれ、色度成分の両方は、輝度解像度の１／４になるようにサブサンプリングされる（水平に１／２、垂直に１／２）。色度サブサンプリングの後、色度サンプリング格子は輝度サンプリング格子とは異なっている。図５において、処理フローの全体にわたって、各段階で処理される３６０度ビデオは、色度成分がサブサンプリングされた色度フォーマットでのものとなり得る。

図６は、一般的なブロックベースのハイブリッドビデオエンコーディングシステムの一実施形態のブロック図である。入力ビデオ信号１０２は、ブロックごとに処理される。ＨＥＶＣにおいて、高解像度（例えば１０８０ｐ以上）のビデオ信号を効率的に圧縮するために、拡張されたブロックサイズ（「符号化単位」またはＣＵと呼ばれる）が用いられ得る。ＨＥＶＣにおいてＣＵは、６４×６４画素までとすることができる。ＣＵはさらに、個別の予測方法がそれに適用される、予測ユニットまたはＰＵに分割されることができる。各入力ビデオブロック（ＭＢまたはＣＵ）に対して、空間的予測（１６０）および／または時間的予測（１６２）が行われ得る。空間的予測（または「イントラ予測」）は、同じ画像／スライス内のすでに符号化された隣接するブロックからの画素を用いて、現在ビデオブロックを予測する。空間的予測は、ビデオ信号に固有の空間的冗長性を低減させる。時間的予測（「インター予測」または「動き補償された予測」とも呼ばれる）は、すでに符号化されたビデオ画像からの画素を用いて、現在ビデオブロックを予測する。時間的予測は、ビデオ信号に固有の時間的冗長性を低減させる。所与のビデオブロックに対する時間的予測信号は通常、現在ブロックとその基準ブロックとの間の動きの大きさおよび方向を示す、１つまたは複数の動きベクトルによってシグナリングされる。複数の基準画像がサポートされる場合（Ｈ．２６４／ＡＶＣまたはＨＥＶＣなどの最近のビデオ符号化標準の場合のように）、各ビデオブロックに対して、その基準画像インデックスも送られ、基準インデックスは、基準画像記憶部（１６４）内のどの基準画像から、時間的予測信号が来るかを識別するために用いられる。空間的および／または時間的予測の後、エンコーダ内のモード決定ブロック（１８０）は、例えばレート歪み最適化方法に基づいて最良の予測モードを選ぶ。次いで予測ブロックは、現在ビデオブロックから減算され（１１６）、予測残差は、目標ビットレートを達成するように、変換（１０４）および量子化（１０６）を用いて非相関化される。量子化された残差係数は、逆量子化（１１０）されおよび逆変換（１１２）されて復元された残差を形成し、次いでこれは予測ブロックに戻して加算（１２６）されて復元されたビデオブロックを形成する。さらにデブロッキングフィルタおよび適応ループフィルタなどの、インループフィルタリングは、復元されたビデオブロックに対して、それが基準画像記憶部（１６４）に置かれて将来のビデオブロックを符号化するために用いられる前に、適用される（１６６）ことができる。出力ビデオビットストリーム１２０を形成するために、符号化モード（インターまたはイントラ）、予測モード情報、動き情報、および量子化された残差係数は、すべてエントロピー符号化ユニット（１０８）に送られて、さらに圧縮およびパックされて出力ビデオビットストリームを形成する。

図７は、ブロックベースのビデオデコーダの一般のブロック図である。ビデオビットストリーム２０２は最初にエントロピー復号ユニット２０８において、アンパックされ、エントロピー復号される。符号化モードおよび予測情報は、空間的予測ユニット２６０（イントラ符号化されている場合）、または時間的予測ユニット２６２（インター符号化されている場合）に送られて、予測ブロックを形成する。残差変換係数は、逆量子化ユニット２１０および逆変換ユニット２１２に送られて、残差ブロックを復元する。予測ブロックおよび残差ブロックは、次いで２２６で一緒に加算される。復元されたブロックは、それが基準画像記憶部２６４に記憶される前に、さらにインループフィルタリングを通過し得る。基準画像記憶部内の復元されたビデオは、次いでディスプレイデバイスを駆動するために送出され、および将来のビデオブロックを予測するために用いられる。

例示的実施形態の概観
３６０度ビデオデータは、従来の２Ｄ平面ビデオ符号化を用いて情報をエンコードするために、２Ｄ平面上に投影され得る。３６０度データを表すために用いられることができる多くの形状投影があり、投影されたデータは異なる構成においてパックされることができるので、これは様々な問題に繋がる。

１つの問題は、復号された２Ｄ平面ビデオから３６０ビデオを適切に復元することができるためには、データをアンパックし、それを２Ｄ空間から３Ｄ空間に戻すように投影するために、デコーダには、形状およびフレームパッキングパラメータが使用可能であるべきということである。例えばキューブマップフォーマットは、異なる面順序、異なる面回転、または異なる面サイズを有して、３×２、４×３、１×６、または６×１などの異なる配置を用いて表されることができる。さらに、符号化フォーマットとは異なるフォーマットが受信器側で用いられる場合は、符号化フォーマットを必要なフォーマットに変換するために、形状およびフレームパッキングパラメータも必要である。例えば符号化フォーマットはキューブマップであるが、表示フォーマットがエクイレクタングラである場合は、変換が行われなければならない。実用的な方式では、ファイルフォーマットマルチプレクサは、それらのエレメンタリストリームをマルチプレックスするとき、外部メタデータに依存する代わりに、ビデオ自体からそれらのフレームパッキング配置情報を抽出するのがよい。

別の問題は、いくつかのフレームパッキング構成の場合、記憶および圧縮目的のために、結果としてのフレームパックされた画像が矩形エリアを形成するように、アンラップされた面をパッディングすることが有益となり得ることである。例えば、キューブマップ４×３フォーマットでは、追加の画素が右上および右下端部に追加されなければならない（図２Ｂおよび２Ｃを参照）。これらの追加の画素をエンコードすることはビットを消費するが、意味のある情報を伝達しない。したがって、これらの画素がエンコーダによってスキップされれば、ビットレート節約が達成されることができる。この場合、３６０度ビデオの正しい復元のためにはコンパクト構成が用いられることが、デコーダにシグナリングされなければならない。さらに、従来の２Ｄ平面ビデオと異なり、ビデオを再生する間のいずれの時点においても、３６０ビデオの一部分（例えばビューポート）のみがレンダリングされ、ユーザに表示される（図５を参照）。統計は、ビューイング確率は一般に極の周りより赤道の周りで高く、後方ビューの近くより前方ビューの近くで高いことを示す。したがって、投影フォーマットを識別する情報は、エンコーダが、投影された２Ｄビデオ内のこれらのエリア（すなわち赤道に対して極、および前方に対して後方）を識別し、異なるエンコーディング方策を適用して、ユーザの視線挙動を活用することによって、よりインテリジェントな方式でビットおよび／またはコンピューティングリソースを割り当てることを可能にする（例えば、赤道および／または前方エリアに対応するエリアに、より多くのビットを費やしおよび／またはより複雑な最適化方策を適用し、極および／または後方に対応するエリアに、より少ないビットを費やしおよび／またはより簡単な最適化方策を適用する）。

他の問題は、ＭＰＥＧ−２、Ｈ．２６４、およびＨＥＶＣなどの既存のコーデックは、従来の２Ｄビデオのために特に設計されており、３６０度データ表示の特性は何ら考慮していないことである。より良い圧縮効率を達成するために、先進の３６０ビデオ符号化ツールは、全３Ｄ表示をうまく利用することができるが、これらのツールは、符号化は投影された２Ｄ平面ビデオ上で行われるので、形状およびフレームパッキングについての情報から恩恵を受け得る。したがって、形状およびフレームパッキングパラメータに関する情報は、３６０ビデオを適切に、およびより効率的にエンコードおよび復号することを可能にするように、エンコーダおよびデコーダの両方に使用可能にされ得る。例えばキューブマップフォーマットにおいて、折り畳まれていない面は、２Ｄ平面ビデオ上でわずかな正しく位置決めされた隣接する面を有するだけであり、これは隣接する面の間の冗長な情報を活用するためのコーデックの能力を制限する。しかしコーデックが３Ｄ表示に関する情報を有する場合、立方体の各面が正確に４つの隣接する面を有する場合は、エンコードされなければならないデータの量を低減させるために、より多くの冗長な情報が活用されることができる。

さらなる問題は、形状およびフレームパッキングパラメータが、３６０度ビデオの持続時間にわたって変わり得ることである。したがって、形状およびフレームパッキングパラメータが時間と共に変化する場合、これらのパラメータは、３６０ビデオの各フレームに対して、エンコーダおよびデコーダに使用可能となるべきである。例えば符号化フォーマットは、より良い圧縮性能を達成するために特定の時点でキューブマップからエクイレクタングラに変化することができ、またはキューブマップ面の特定のセットのサイズは、特定のビデオセグメントの間に、より低いまたはより高い帯域幅要件に対応するように変化し得る。

本明細書で開示されるシステムおよび方法は、これらの問題およびその他に対処する。

いくつかの実施形態において、３６０度ビデオ符号化に対して上記で述べられた問題の１つまたは複数は、形状およびフレームパッキングパラメータを、追加の高レベル構文要素を用いてビットストリーム内でシグナリングすることによって対処される。具体的には、２Ｄ平面ビデオ上に形状面を配置するためのそれらに対する異なるパラメータを含む、投影形状タイプが指定されることができる。３６０ビデオパラメータは、異なるレベルでシグナリングされることができる。以下の１つのセクションは、異なるレイヤおよび／またはシーケンスおよび／または画像が同じ投影フォーマットを用いるとき、送信されなければならない情報の量を最小にするために、どのようにして投影フォーマットパラメータがビデオレベル（例えばビデオパラメータセットまたはＶＰＳレベル）で記憶されることができるかを述べる。以下の別のセクションは、どのようにして投影フォーマットがシーケンスレベル（例えばシーケンスパラメータセットまたはＳＰＳレベル）でシグナリングされることができ、同じビデオの異なるシーケンスが、異なる投影フォーマットを用いるまたは所与の投影フォーマットに関連するパラメータを変化させることを可能にするかを提示する。以下の別のセクションは、どのようにして投影フォーマットが画像レベル（例えば画像パラメータセットまたはＰＰＳレベル）でシグナリングされることができ、同じシーケンスの異なる画像が、異なる投影フォーマットを用いるまたは所与の投影フォーマットに関連するパラメータを変化させることを可能にするかを提示する。本明細書で開示されるシステムおよび方法の他の態様は、異なる品質要因を有する異なる形状面をエンコードすることを可能にすることである。例えばキューブマップフォーマットにおいて、前方、後方、左、および右面はより高い品質で符号化されることができ、最上および最下面はより低い品質で符号化され得る。これは見る人は、極の近くよりも水平線の周りのエリアを観察する可能性が高いからである。このようにして３６０ビデオは、より効率的に符号化されることができる。

いくつかの実施形態において、絶対座標系に対する形状座標系の回転を指定するためのシステムおよび方法が導入される。これらのシステムおよび方法は、関心のあるオブジェクトまたは領域が、より高い品質でエンコードされ得る面または面のセットに投影されるように、３Ｄ形状を回転させるために用いられ得る。同様に、関心のあるオブジェクトまたは領域がいくつかの面にわたって分割される場合、これは各面内の冗長性を低減させることができ、形状回転は、より良い圧縮効率が達成され得るように１つまたは複数の重要なオブジェクトが１つの面内に配置されることができるように、異なる方位を定義するために用いられ得る。いくつかの場合には、これが可能でないとき、例えばオブジェクトが、水平および垂直方向の一方または両方において９０度を超えて広がるのに十分に大きくおよび／または近い場合、面は、重要なオブジェクトのできるだけ大きな一部分が１つの面内に配置されるように回転され得る。３Ｄ形状の本質的な性質により、オブジェクトが２つ以上の面にわたって広がるとき、それの形状構造は１つの面から他に遷移するとき「歪ませられる」ようになり、したがって、相関および符号化効率を低減させる。１つの面内でのオブジェクト連続性が最大化されるように投影方位を指定できることは、符号化効率を改善することができる。

ビデオレベルでの３６０度ビデオ特性シグナリング
異なる投影形状は、異なる特性を有する。例えばエクイレクタングラ投影および正積投影に対しては、ただ１つの面がある。面境界問題はないが、画像は引き伸ばされる。キューブマップは６つの面を有し、フレームパックされた画像内に多くの面境界を有する。各画像は、異なる投影形状において、または同じ形状であるが異なる面配置、サイズ、または品質で符号化され得る。この目的のために、表１に示されるように３６０ビデオに対するいくつかの実施形態において、新たなパラメータセットが導入され得る。

例示的実施形態において、フラグｖｐｓ＿３６０＿ｅｘｔｅｎｓｉｏｎ＿ｆｌａｇは以下のセマンティクスを有し得る。

ｖｐｓ＿３６０＿ｅｘｔｅｎｓｉｏｎ＿ｆｌａｇ：ビデオが３６０度ビデオであるかどうかを指定し、その場合、３６０ビデオの効率的な表示および圧縮のための特定のパラメータおよびツールが用いられ得る。ないときは、ｖｐｓ＿３６０＿ｅｘｔｅｎｓｉｏｎ＿ｆｌａｇの値は０に等しいと推論されることができる。

ビデオレベルで、異なるシーケンスおよび／またはレイヤにおいて用いられる投影フォーマットの総数は、いくつかの実施形態において表２に従ってシグナリングされ得る。

例示的実施形態において、表２のパラメータは以下のセマンティクスを有し得る。

ｖｐｓ＿ｎｕｍ＿３６０＿ｆｏｒｍａｔｓ＿ｍｉｎｕｓ１：異なるシーケンスおよび／またはレイヤにおいて用いられる投影フォーマットの数（１を引いた）を指定する。ないときは、ｖｐｓ＿ｎｕｍ＿３６０＿ｆｏｒｍａｔｓ＿ｍｉｎｕｓ１の値は０に等しいと推論されることができ、ただ１つの投影フォーマットが用いられることを示す。

３６０＿ｆｏｒｍａｔ＿ｉｄｘ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ：構文要素ｖｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘ［ｉ］があるか否かを指定する。ないときは、３６０＿ｆｏｒｍａｔ＿ｉｄｘ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいと推論されることができる。

ｖｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘ［ｉ］：ｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｉ］に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するレイヤに適用される３６０＿ｆｏｒｍａｔ（）構文構造の、ＶＰＳ内の３６０＿ｆｏｒｍａｔ（）構文構造のリスト内への、インデックスを指定する。ないときは、ｖｐｓ＿ｒｅｐ＿ｆｏｒｍａｔ＿ｉｄｘ［ｉ］の値は、Ｍｉｎ（ｉ，ｖｐｓ＿ｎｕｍ＿ｒｅｐ＿ｆｏｒｍａｔｓ＿ｍｉｎｕｓ１）に等しいと推論されることができる。

この提案される構文構造を用いて、マルチレイヤビデオストリームにおいて、各レイヤに対する投影フォーマットは異なり得る。例えば各レイヤに対する投影フォーマットは、レート歪み最適化を用いてエンコーダにおいて決定され得る。エンコーダは、現在レイヤをすべての使用可能な投影フォーマットを用いてエンコードし、その後にレート歪みコストを測定することができる。現在レイヤがエンハンスメントレイヤである場合、それは同じレイヤ内のイントラおよびインター予測だけでなく、同じまたは異なる投影フォーマットの別のレイヤ（例えば基準レイヤ）からのインターレイヤ予測も用いてエンコードされ得る。基準レイヤからの投影フォーマットが現在レイヤのそれと異なるとき、インターレイヤ予測処理は、さらに投影フォーマット変換を含み得る。最後に、最小のレート歪みコストを結果として生じる投影フォーマットが、最終的な符号化のために選択され得る。

いくつかの実施形態において、各投影フォーマットの特性および関連付けられたパラメータは、表３に従ってシグナリングされ得る。

例示的実施形態において、表３のパラメータは以下のセマンティクスを有し得る。

ｐｒｏｊｅｃｔｉｏｎ＿ｇｅｏｍｅｔｒｙ：用いられる投影形状の表４でのマッピングインデックスを指定する。

ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｐａｒａｍ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ：構文要素ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｙａｗ、ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｐｉｔｃｈ、およびｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｒｏｌｌがあるかどうかを指定する。ないときは、ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｐａｒａｍ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいと推論されることができる。

ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｙａｗ：絶対座標系に対する形状座標系のＹ軸の周りの回転（図２Ａを参照）を指定する。ないときは、ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｙａｗの値は０に等しいと推論されることができる。

ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｐｉｔｃｈ：絶対座標系に対する形状座標系のＺ軸の周りの回転（図２Ａを参照）を指定する。ないときは、ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｐｉｔｃｈの値は０に等しいと推論されることができる。

ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｒｏｌｌ：絶対座標系に対する形状座標系のＸ軸の周りの回転（図２Ａを参照）を指定する。ないときは、ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｒｏｌｌの値は０に等しいと推論されることができる。

ｃｏｍｐａｃｔ＿ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＿ｅｎａｂｌｅｄ＿ｆｌａｇ：フレームパックされたイメージを矩形画像内にパッディングするために用いられるサンプルまたはブロックが、エンコーダによってスキップされるかどうかを指定する。ないときは、ｃｏｍｐａｃｔ＿ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＿ｅｎａｂｌｅｄ＿ｆｌａｇの値は０に等しいと推論されることができる。

ｌｏｏｐ＿ｆｉｌｔｅｒ＿ａｃｒｏｓｓ＿ｆａｃｅｓ＿ｅｎａｂｌｅｄ＿ｆｌａｇ：インループフィルタリング動作が、面境界にわたって行われ得るかどうかを指定する。ないときは、ｌｏｏｐ＿ｆｉｌｔｅｒ＿ａｃｒｏｓｓ＿ｆａｃｅｓ＿ｅｎａｂｌｅｄ＿ｆｌａｇの値は１に等しいと推論されることができる。

ｎｕｍ＿ｆａｃｅ＿ｒｏｗｓ：フレームパックされた画像内の面行の数を指定する。ないときは、ｎｕｍ＿ｆａｃｅ＿ｒｏｗｓの値は１に等しいと推論されることができる。

ｎｕｍ＿ｆａｃｅ＿ｃｏｌｕｍｎｓ：フレームパックされた画像内の面列の数を指定する。ないときは、ｎｕｍ＿ｆａｃｅ＿ｃｏｌｕｍｎｓの値は１に等しいと推論されることができる。

ｎｕｍ＿ｆａｃｅ＿ｒｏｗｓおよびｎｕｍ＿ｆａｃｅ＿ｃｏｌｕｍｎｓをシグナリングする代わりに、これらの構文要素を符号化するために必要なビット数を低減させるために、ｎｕｍ＿ｆａｃｅ＿ｒｏｗｓ＿ｍｉｎｕｓ１およびｎｕｍ＿ｆａｃｅ＿ｃｏｌｕｍｎｓ＿ｍｉｎｕｓ１がシグナリングされ得ることに留意されたい。

ｅｑｕａｌ＿ｆａｃｅ＿ｓｉｚｅ＿ｆｌａｇ：すべての面が同じサイズ（同じ幅および高さ）を共有するかどうかを指定する。ないときは、ｅｑｕａｌ＿ｆａｃｅ＿ｓｉｚｅ＿ｆｌａｇの値は０に等しいと推論されることができる。ｅｑｕａｌ＿ｆａｃｅ＿ｓｉｚｅ＿ｆｌａｇが１に設定されたときは、フレームパックされた画像内のすべての面の幅および高さは、投影形状に基づいて推論されることができる。例えばキューブマップ投影では、フレームパックされた画像内のすべての面の輝度サンプルにおける幅は、ｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ／ｎｕｍ＿ｆａｃｅ＿ｃｏｌｕｍｎｓに等しいと推論されることができ、一方フレームパックされた画像内のすべての面の輝度サンプルにおける高さは、ｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ／ｎｕｍ＿ｆａｃｅ＿ｒｏｗｓに等しいと推論されることができる。フレームパックされた画像内のすべての面の輝度サンプルにおける幅および高さは、０に等しくなってはならず、ＭｉｎＣｂＳｉｚｅＹの整数倍でなければならないことに留意されたい。

ｆａｃｅ＿ｑｐ＿ｏｆｆｓｅｔ＿ｅｎａｂｌｅｄ＿ｆｌａｇ：異なる面に対して異なるＱＰが用いられるかどうかを指定する。ないときは、ｆａｃｅ＿ｑｐ＿ｏｆｆｓｅｔ＿ｅｎａｂｌｅｄ＿ｆｌａｇの値は０に等しいと推論されることができる。

ｆａｃｅ＿ｉｄｘ［ｉ］［ｊ］：フレームパックされた画像内のｉ番目の行およびｊ番目の列に位置する面のインデックスを指定する。エクイレクタングラまた正積などの、単一の面のみを有する簡単な形状に対しては、唯一の面は面＃０である。他の形状に対しては、キューブマップおよび八面体形状に対して表５に示されるように、面のデフォルトの番号付けおよび位置付けが用いられることができる。

ｆａｃｅ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｉ］［ｊ］：フレームパックされた画像内のｉ番目の行およびｊ番目の列に位置する面の輝度サンプルにおける幅を指定する。フレームパックされた画像幅に関して曖昧さを防ぐための技法が使用され得る。例えば各行に沿った異なる面幅の合計が、フレームパックされた画像幅に等しくなることが強制されることができる。ｆａｃｅ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｉ］［ｊ］は、０に等しくなってはならず、ＭｉｎＣｂＳｉｚｅＹの整数倍でなければならない。

ｆａｃｅ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｉ］［ｊ］：フレームパックされた画像内のｉ番目の行およびｊ番目の列に位置する面の輝度サンプルにおける高さを指定する。フレームパックされた画像高さに関して曖昧さを防ぐための技法が使用され得る。例えば各列に沿った異なる面高さの合計が、フレームパックされた画像高さに等しくなることが強制されることができる。ｆａｃｅ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｉ］［ｊ］は、０に等しくなってはならず、ＭｉｎＣｂＳｉｚｅＹの整数倍でなければならない。

ｆａｃｅ＿ｒｏｔａｔｉｏｎ＿ｉｄｃ［ｉ］［ｊ］：フレームパックされた画像内のｉ番目の行およびｊ番目の列に位置する面の面座標系と画像座標系との間の回転の、表６でのマッピングインデックスを指定する。ないときは、ｆａｃｅ＿ｒｏｔａｔｉｏｎ＿ｉｄｃ［ｉ］［ｊ］の値は、０に等しいと推論されることができる。

ｆａｃｅ＿ｒｏｔａｔｉｏｎ［ｉ］［ｊ］：フレームパックされた画像内のｉ番目の行およびｊ番目の列に位置する面の面座標系と画像座標系との間の回転度を指定する。

ｆａｃｅ＿ｖｅｒｔｉｃａｌ＿ｆｌｉｐ＿ｆｌａｇ［ｉ］［ｊ］：フレームパックされた画像内のｉ番目の行およびｊ番目の列に位置する面が、回転の後に垂直に反転されるかどうかを指定する。ないときは、ｆａｃｅ＿ｖｅｒｔｉｃａｌ＿ｆｌｉｐ＿ｆｌａｇ［ｉ］［ｊ］の値は０に等しいと推論されることができる。

ｆａｃｅ＿ｑｐ＿ｏｆｆｓｅｔ［ｉ］［ｊ］：フレームパックされた画像内のｉ番目の行およびｊ番目の列に位置する面のＱＰ値を決定するときに、シーケンスレベルＱＰに加算されることになる差分を指定する。

フレームパックされた画像を面格子と考えると、これらのパラメータは、形状フォーマットの非常に柔軟であるが強力なシグナリングのために用いられることができる。結果としてエクイレクタングラ、正積、または円筒などの単一の面を生じる投影形状に対しては、パラメータｎｕｍ＿ｆａｃｅ＿ｒｏｗｓ、ｎｕｍ＿ｆａｃｅ＿ｃｏｌｕｍｎｓ、ｆａｃｅ＿ｉｄｘ、ｆａｃｅ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ、ｆａｃｅ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ、およびｆａｃｅ＿ｒｏｔａｔｉｏｎは、形状および画像サイズから推論されることができる。しかしキューブマップ、八面体、または二十面体などの他の形状に対しては、面が異なる方式で配置され得る、または異なるサイズを有し得るので、これらのパラメータを指定することが望ましい。例えば図９Ａ〜９Ｃに示されるように、同じキューブマップ投影は、（ａ）３×４格子（図９Ａ）、または（ｂ）２×３格子（図９Ｂ）など、異なる方式でパックされることができる。３×４格子の場合には、実際の面を含まない格子内の位置を示すために、ｆａｃｅ＿ｉｄｘは、形状から推論されることができる実際の面数より高い値に設定されることができる。例えばパラメータを以下のように設定することができる：

いくつかの方向において、より良い詳細をもたらすために、いくつかの面は、より高い解像度でエンコードされ得る。これは見る人が、他よりもいくつかのエリア、特に前方方向の近くを観察する可能性が高いからである。このようにして、３６０度ビデオは、より効率的に符号化されることができる。この目的のために、ｆａｃｅ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓおよびｆａｃｅ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓパラメータは、異なる面に対して異なるサイズを指定するために用いられることができる。例えばキューブマップフォーマットにおいて、図９Ｃに示されるように、前面は他の面より高い解像度で符号化されることができ、パラメータを以下のように設定することができる：

ここでＷは面０（前面）以外のすべての他の面の、輝度サンプルにおける面幅であり、Ｈは輝度サンプルにおける面高さである。

これらのパラメータから、前面は４つの格子位置にわたって広がると推論されることができ、なぜならそれのサイズが他の面の２倍大きいからであり、情報は適切に取り出されることができる。

面は異なる方位に配置され得る。例えば、キューブマップ投影に対して示されるように面「２」、「１」、および「３」は、図９Ａの３×４格子と比較して、図９Ｂの２×３格子において反時計方向に９０度だけ回転される。ｆａｃｅ＿ｒｏｔａｔｉｏｎ＿ｉｄｃパラメータは、面座標系と、フレームパックされた画像座標系との間の回転を指定するために用いられることができる。

格子システムはまた、それぞれ八面体および二十面体に対して図１１および１２に示されるように、三角形の面など、正方形でない面を有する形状のために用いられることができる。いくつかの三角形の面は、コンパクト表示のために２つの部分に分割されるので（図１１Ｂおよび図１２Ｂを参照）、１つの三角形の面は、１つの二等辺または正三角形の代わりに、２つの直角三角形を用いて定義され得る。基本の直角三角形は、図１０Ａに示されるように定義され得る。回転は、２つの直角三角形を用いて１つの二等辺または正三角形を構築するためには不十分であるので、回転は垂直反転（またはいくつかの実施形態において水平反転）と組み合わされ得る。この表示を用いて、大きな柔軟性を有してコンパクトおよび非コンパクト表示の両方に対して、同じ構文が用いられ得る。例えば図１１Ｂに表されるコンパクト八面体をシグナリングするために、パラメータは以下のように設定され得る：

ｆａｃｅ＿ｑｐ＿ｄｅｌｔａパラメータは、特定の面がより高いまたはより低い品質でエンコードされるかどうかを指定するために用いられることができる。同様な結果は、例えばスライスまたは符号化単位レベルで品質を適応させることによって得られることができる。しかしスライスはいくつかの面をカバーする可能性があり、面はいくつかの符号化単位を含む可能性が最も高くなり、したがって、各面に対する品質差を直接シグナリングすることがより効率的となり得る。

各列に沿って同じ幅（しかし異なる列にわたって異なる幅）、および各行に沿って同じ高さ（しかし異なる行にわたって異なる高さ）を有する面から構成される、規則的なフレームパッキング格子に対して、面特性はまた表７に示されるように、より少ないパラメータを用いてシグナリングされることができる。

例示的実施形態において、表７のパラメータは以下のセマンティクスを有し得る。

ｎｕｍ＿ｆａｃｅ＿ｒｏｗｓ＿ｍｉｎｕｓ１：フレームパックされた画像内の面行の数（１を引いた）を指定する。ないときは、ｎｕｍ＿ｆａｃｅ＿ｒｏｗｓ＿ｍｉｎｕｓ１の値は０に等しいと推論されることができる。

ｎｕｍ＿ｆａｃｅ＿ｃｏｌｕｍｎｓ＿ｍｉｎｕｓ１：フレームパックされた画像内の面列の数（１を引いた）を指定する。ないときは、ｎｕｍ＿ｆａｃｅ＿ｃｏｌｕｍｎｓ＿ｍｉｎｕｓ１の値は０に等しいと推論されることができる。

ｒｏｗ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｉ］：フレームパックされた画像内のｉ番目の行に位置する面の輝度サンプルにおける高さを指定する。最後の行に対して、高さはｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ−Σ_iｒｏｗ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｉ］に等しいと推論されることができる。ｒｏｗ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｉ］は０に等しくなってはならず、ＭｉｎＣｂＳｉｚｅＹの整数倍でなければならない。

ｃｏｌｕｍｎ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｊ］：フレームパックされた画像内のｊ番目の列に位置する面の輝度サンプルにおける幅を指定する。最後の列に対して、幅はｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ−Σ_iｃｏｌｕｍｎ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｊ］に等しいと推論されることができる。ｃｏｌｕｍｎ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ［ｊ］は、０に等しくなってはならず、ＭｉｎＣｂＳｉｚｅＹの整数倍でなければならない。

面特性はまた、不規則な面形状に対しては面インデックス順序においてシグナリングされることができる。表８は例を示す。

例示的実施形態において、表８のパラメータは以下のセマンティクスを有し得る。

ｎｕｍ＿ｆａｃｅｓ：フレームパックされた画像内の面の数を指定する。ないときは、ｎｕｍ＿ｆａｃｅｓの値は１に等しいと推論されることができる。

ｎｕｍ＿ｆａｃｅｓをシグナリングする代わりに、この構文要素を符号化するために必要なビット数を低減させるように、ｎｕｍ＿ｆａｃｅｓ＿ｍｉｎｕｓ１がシグナリングされ得ることに留意されたい。

ｎｕｍ＿ｆａｃｅ＿ｖｅｒｔｉｃｅｓ［ｉ］：ｉ番目の面の頂点数を指定する。ないときは、ｎｕｍ＿ｆａｃｅ＿ｖｅｒｔｉｃｅｓ［ｉ］の値は、四辺形が最も一般的な面多角形タイプであるので、４に等しいと推論されることができる。

ｖｅｒｔｅｘ＿２Ｄ＿ｐｏｓ＿ｘ［ｉ］［ｊ］：ｉ番目の面のｊ番目の頂点のフレームパックされた画像内のｘ座標を指定する。

ｖｅｒｔｅｘ＿２Ｄ＿ｐｏｓ＿ｙ［ｉ］［ｊ］：ｉ番目の面のｊ番目の頂点のフレームパックされた画像内のｙ座標を指定する。

ｖｅｒｔｅｘ＿３Ｄ＿ｐｏｓ＿ｘ［ｉ］［ｊ］：ｉ番目の面のｊ番目の頂点の３Ｄ座標系におけるｘ座標を指定する。

ｖｅｒｔｅｘ＿３Ｄ＿ｐｏｓ＿ｙ［ｉ］［ｊ］：ｉ番目の面のｊ番目の頂点の３Ｄ座標系におけるｙ座標を指定する。

ｖｅｒｔｅｘ＿３Ｄ＿ｐｏｓ＿ｚ［ｉ］［ｊ］：ｉ番目の面のｊ番目の頂点の３Ｄ座標系におけるｚ座標を指定する。

ｖｅｒｔｅｘ＿３Ｄ＿ｐｏｓ＿ｘ［ｉ］［ｊ］、ｖｅｒｔｅｘ＿３Ｄ＿ｐｏｓ＿ｙ［ｉ］［ｊ］、およびｖｅｒｔｅｘ＿３Ｄ＿ｐｏｓ＿ｚ［ｉ］［ｊ］パラメータは、３Ｄ空間におけるユーザ指定の多角形ベースの形状を定義するために用いられることができる。これらのパラメータは、サンプルを、フレームパックされた画像内のそれの位置から、３Ｄ形状内の対応する位置にマッピングするために用いられ得る。この情報は、より良い圧縮効率を達成するために、先進の３６０ビデオ符号化によって活用され得る。例えばコーデックは、フレームパックされた画像内で一緒に置かれていない３Ｄ表示内の隣接する面の間の、冗長な情報を活用し得る。

シーケンスレベルでの３６０度ビデオ特性シグナリング
シーケンスレベルで、用いられる投影フォーマットがシグナリングされ得る。この目的のために、表９に示されるような新たなパラメータセットが、３６０ビデオのために導入されることができる。

例示的実施形態において、表９のパラメータは以下のセマンティクスを有し得る。

ｓｐｓ＿３６０＿ｅｘｔｅｎｓｉｏｎ＿ｆｌａｇ：シーケンスが３６０ビデオであるかどうかを指定し、その場合には３６０ビデオの効率的な圧縮のための特定のパラメータおよびツールが用いられ得る。

用いられる投影フォーマットは、表１０に従ってシグナリングされることができる。

例示的実施形態において、表１０のパラメータは以下のセマンティクスを有し得る。

ｓｐｓ＿ｎｕｍ＿３６０＿ｆｏｒｍａｔｓ＿ｍｉｎｕｓ１：シーケンスにおいて用いられる投影フォーマットの数（１を引いた）を指定する。ないときは、ｓｐｓ＿ｎｕｍ＿３６０＿ｆｏｒｍａｔｓ＿ｍｉｎｕｓ１の値は０に等しいと推論されることができ、ただ１つの投影フォーマットが用いられることを示す。

ｓｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘ［ｉ］：シーケンスにおいて用いられる３６０＿ｆｏｒｍａｔ（）構文構造のＶＰＳ内の、３６０＿ｆｏｒｍａｔ（）構文構造のリスト内へのインデックスのリストを指定する。ｓｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘ［ｉ］の値は、両端を含めて、０からｖｐｓ＿ｎｕｍ＿３６０＿ｆｏｒｍａｔｓ＿ｍｉｎｕｓ１までの範囲内とし得る。

ＶＰＳレベルにおいて定義されるすべての３６０ビデオ関連パラメータは、ＳＰＳレベルにおいて変更され得ることに留意されたい。表１０に示されないが、ＶＰＳ内で送られた３６０ビデオフォーマットのセット内へインデックス付けするためにｓｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘを用いる代わりに、表３内で定義されるもの（例えばｐｒｏｊｅｃｔｉｏｎ＿ｇｅｏｍｅｔｒｙ、面寸法パラメータ、面ＱＰオフセットなど）と同様な構文要素が、このＳＰＳを参照するビデオシーケンスの３６０ビデオパラメータを示すために、ＳＰＳ拡張の一部として直接シグナリングされ得る。

画像レベルにおける３６０度ビデオ特性シグナリング
いくつかの実施形態において、より大きな符号化最適化をもたらすように、シーケンスは、異なるフレームに対して異なる投影フォーマットを用いてエンコードされ得る。この場合、投影フォーマットは、すでにＶＰＳまたはＳＰＳレベルでシグナリングされた投影フォーマットのセット内へのインデックスによって、画像レベルでシグナリングされることができる。この目的のために、いくつかの実施形態において、表１１に示されるような新たなパラメータセットが３６０ビデオのために導入され得る。

例示的実施形態において、表１１のパラメータは以下のセマンティクスを有し得る。

ｐｐｓ＿３６０＿ｅｘｔｅｎｓｉｏｎ＿ｆｌａｇ：このＰＰＳを参照する画像が、３６０度ビデオ符号化に関連する特定のパラメータを含むかどうかを指定する。ないときは、ｐｐｓ＿３６０＿ｅｘｔｅｎｓｉｏｎ＿ｆｌａｇの値は、ｓｐｓ＿３６０＿ｅｘｔｅｎｓｉｏｎ＿ｆｌａｇに等しいと推論されることができる。

３６０ビデオのためのＰＰＳ拡張の例は、表１２および１３にもたらされる。

例示的実施形態において、表１２および１３のパラメータは以下のセマンティクスを有し得る。

ｐｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘ：このＰＰＳによって参照されるＳＰＳにおいて定義された投影形状のセット内へのインデックスを指定する。ｐｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘの値は、両端を含めて０からｓｐｓ＿ｎｕｍ＿３６０＿ｆｏｒｍａｔｓ＿ｍｉｎｕｓ１までの範囲内でなければならない。ないときは、ｐｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘの値は０に等しいと推論されることができる。

ｐｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘパラメータは、シーケンスレベルでリストされた使用可能な投影フォーマットの中で、現在画像に対する投影フォーマットを指定するために用いられる。例えばＳＰＳにおけるｓｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘのリスト内で、エクイレクタングラおよび正積のみが使用可能であり、かつインデックス「０」が正積を表し、「１」がエクイレクタングラを表すように用いる場合、パラメータは以下のように設定されることができる。
ｐｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘ＝０／／このＰＰＳを参照するすべての画像は正積フォーマットにおいて符号化されるようになる
ｐｐｓ＿３６０＿ｆｏｒｍａｔ＿ｉｄｘ＝１／／このＰＰＳを参照するすべての画像はエクイレクタングラフォーマットにおいて符号化される

同じビデオシーケンス内で、異なる画像が異なる投影形状フォーマットを有することが許される場合、２つの動きパラメータ（それぞれ水平および垂直変位パラメータ）を有する並進動きモデルを用いた、または４つまたは６つの動きパラメータを有するアフィンベースの動きモデルを用いた、時間的動き補償された予測は、もはや非常に効率的には動作し得ない。代わりに、現在画像の投影形状がそれの時間的基準画像のものとは異なる場合、既存の時間的動き補償された予測が適用される前に、現在画像とそれの時間的基準との間の投影形状を整列するように、形状変換が行われ得る。これはより高い計算の複雑さが代償となるが、時間的予測効率を増加させ得る。動き補償された予測（例えば双方向予測）において２つ以上の時間的基準画像が用いられるとき、投影形状は、動き補償された予測が行われ得る前に、現在画像とそれの基準画像のすべてとの間で整列され得る。

例示的実施形態において、ｃｏｄｉｎｇ＿ｒｅｇｉｏｎ＿ｔａｂｌｅ（）構文構造のセマンティクスは以下とし得る。

ｆｕｌｌ＿ｓｐｈｅｒｅ＿ｒａｎｇｅ＿ｃｏｄｉｎｇ＿ｆｌａｇ：全球面範囲が符号化されるか、それともその一部分のみが符号化されるかを指定する。ないときは、ｆｕｌｌ＿ｓｐｈｅｒｅ＿ｒａｎｇｅ＿ｃｏｄｉｎｇ＿ｆｌａｇの値は１に等しいと推論されることができる。

ｐｏｓ＿ｘ＿ｉｎ＿３６０＿ｐａｃｋｅｄ＿ｆｒａｍｅ：フレームパックされた画像内の左上隅の符号化された画像のｘ座標を指定する。

ｐｏｓ＿ｙ＿ｉｎ＿３６０＿ｐａｃｋｅｄ＿ｆｒａｍｅ：フレームパックされた画像内の左上隅の符号化された画像のｙ座標を指定する。

帯域幅またはメモリ制限または復号能力などの異なる制限のため、全球面の一部分のみが符号化され得る。この情報は、ｆｕｌｌ＿ｓｐｈｅｒｅ＿ｒａｎｇｅ＿ｃｏｄｉｎｇ＿ｆｌａｇ、ならびに関連付けられたｐｏｓ＿ｘ＿ｉｎ＿３６０＿ｐａｃｋｅｄ＿ｆｒａｍｅおよびｐｏｓ＿ｙ＿ｉｎ＿３６０＿ｐａｃｋｅｄ＿ｆｒａｍｅパラメータを用いてシグナリングされることができる。ｆｕｌｌ＿ｓｐｈｅｒｅ＿ｒａｎｇｅ＿ｃｏｄｉｎｇ＿ｆｌａｇが０に設定されたときは、全体のフレームパックされた画像の矩形部分のみが符号化される。次いで、フレームパックされた画像の内部の符号化された画像の左上隅が、関連付けられたｐｏｓ＿ｘ＿ｉｎ＿３６０＿ｐａｃｋｅｄ＿ｆｒａｍｅおよびｐｏｓ＿ｙ＿ｉｎ＿３６０＿ｐａｃｋｅｄ＿ｆｒａｍｅパラメータを用いてシグナリングされる。

図１３Ａ〜Ｂは、キューブマップ（図１３Ａ）およびエクイレクタングラ（図１３Ｂ）投影に対する制限された球面範囲符号化の使用を示す。これらの例では、前方エリアのみが符号化される。制限された球面範囲符号化を用いるとき、面幅／高さと、符号化された画像幅／高さとを結び付ける制約はディスエーブルされるべきであることに留意されたい。図１３Ａに示されるように、全画像はフレームパックされた画像を表し、矩形１３０５は符号化されるエリアの範囲を定める。図１３Ｂに示されるように、全画像はフレームパックされた画像を表し、矩形１３１０は符号化されるエリアの範囲を定める。

ｃｏｄｉｎｇ＿ｒｅｇｉｏｎ＿ｔａｂｌｅ（）も、各投影フォーマットに対してＶＰＳおよび／またはＰＰＳレベルでシグナリングされ得る。

ＳＰＳおよび／またはＶＰＳレベルで定義されるパラメータのいくつかは、あるいはまたは追加として、ＰＰＳレベルでシグナリングされ得ることに留意されたい。例えば、面ＱＰオフセットパラメータをＶＰＳまたはＳＰＳレベルの代わりに、ＰＰＳレベルでシグナリングすることが特に有利となることができ、なぜならそれは画像レベルにおいて各個々の面の面品質を調整する、より大きい柔軟性を可能にするからである。例えば、それは階層的Ｂ予測構造における現在のフレームパックされた画像の時間的レベルに応じて、各個々の面の面品質を調整する柔軟性を可能にする。例えば、より高い時間的レベルにおいて面ＱＰオフセットは非前面に対して、より大きな値に設定されることができ、一方、面ＱＰオフセットは前面に対して、より小さな値（例えば０）に設定され得る。これは前面が、現在画像の時間的レベルに関わらず、常に比較的高い一定の品質で符号化されることを確実にすることができ、一方、より高い時間的レベルの画像の他の面はビットを節約するために、より量子化され得る。

同様に形状回転パラメータ、例えばｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｙａｗ、ｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｐｉｔｃｈ、およびｇｅｏｍｅｔｒｙ＿ｒｏｔａｔｉｏｎ＿ｒｏｌｌは、ＶＰＳまたはＳＰＳレベルの代わりに、ＰＰＳレベルで定義されシグナリングされることができ、なぜならそれは画像レベルでの形状回転を調整する、より大きい柔軟性を可能にするからである。いくつかの実施形態において、エンコードされるコンテンツに対する推奨される視線方向が選択され（例えばビデオコンテンツの監督によって選択される）、推奨される視線方向はビデオの進行と共に変化し得る。このような実施形態において、形状回転パラメータは、推奨される視線方向に従って設定され、関心のあるオブジェクトまたは領域が、最も高い品質で符号化された面に投影されるように、面ＱＰオフセットパラメータに結合され得る。

図１４Ａおよび１４Ｂは、フレームパックされた画像における面の例示的な代替的配置を示す。図１４Ａおよび１４Ｂはそれぞれ、キューブマップ投影と共に用いられものなどの、６つ面の配置を示す。図１４Ａおよび１４Ｂにおける面の配置は、本明細書で開示される実施形態を用いたユーザ指定の形状として使用され得る。

本明細書で開示される例示的実施形態は、無線送信／受信ユニット（ＷＴＲＵ）または他のネットワークエンティティなど、１つまたは複数の有線および／または無線ネットワークノードを用いて実施される。

図１５は、本明細書で述べられる実施形態においてエンコーダまたはデコーダとして使用され得る、例示的ＷＴＲＵ１５０２のシステム図である。図１５に示されるようにＷＴＲＵ１５０２は、プロセッサ１５１８、送受信機１５２０を含む通信インターフェース１５１９、送受信要素１５２２、スピーカ／マイクロフォン１５２４、キーパッド１５２６、ディスプレイ／タッチパッド１５２８、非リムーバブルメモリ１５３０、リムーバブルメモリ１５３２、電源１５３４、全地球測位システム（ＧＰＳ）チップセット１５３６、およびセンサ１５３８を含み得る。ＷＴＲＵ１５０２は、実施形態と一貫性を保ちながら、上述の要素の任意のサブコンビネーションを含み得ることが理解されるであろう。

プロセッサ１５１８は、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連した１つまたは複数のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、任意の他のタイプの集積回路（ＩＣ）、状態機械などとし得る。プロセッサ１５１８は、信号符号化、データ処理、電力制御、入力／出力処理、および／またはＷＴＲＵ１５０２が無線環境において動作することを可能にする任意の他の機能を行い得る。プロセッサ１５１８は送受信機１５２０に結合されることができ、これは送受信要素１５２２に結合され得る。図１５はプロセッサ１５１８および送受信機１５２０を別個の構成要素として示すが、プロセッサ１５１８および送受信機１５２０は、電子回路パッケージまたはチップ内に一緒に一体化され得ることが理解されるであろう。

送受信要素１５２２は、エアインターフェース１５１６を通して基地局に信号を送信し、またはそれから信号を受信するように構成され得る。例えば一実施形態において、送受信要素１５２２は、ＲＦ信号を送信および／または受信するように構成されたアンテナとし得る。他の実施形態において、送受信要素１５２２は、例としてＩＲ、ＵＶ、または可視光信号を送信および／または受信するように構成された放射器／検出器とし得る。さらなる他の実施形態において、送受信要素１５２２は、ＲＦおよび光信号の両方を送信または受信するように構成され得る。送受信要素１５２２は、無線信号の任意の組み合わせを送信および／または受信するように構成され得ることが理解されるであろう。

加えて、図１５では送受信要素１５２２は単一の要素として描かれるが、ＷＴＲＵ１５０２は任意の数の送受信要素１５２２を含み得る。より具体的には、ＷＴＲＵ１５０２は、ＭＩＭＯ技術を使用し得る。したがって、一実施形態において、ＷＴＲＵ１５０２は、エアインターフェース１５１６を通して無線信号を送信および受信するための、２つ以上の送受信要素１５２２（例えば複数のアンテナ）を含み得る。

送受信機１５２０は、送受信要素１５２２によって送信されることになる信号を変調するように、および送受信要素１５２２によって受信される信号を復調するように構成され得る。上記のように、ＷＴＲＵ１５０２はマルチモード能力を有し得る。したがって、送受信機１５２０は、ＷＴＲＵ１５０２が、例としてＵＴＲＡおよびＩＥＥＥ８０２．１１などの、複数のＲＡＴによって通信することを可能にするための複数の送受信機を含み得る。

ＷＴＲＵ１５０２のプロセッサ１５１８は、スピーカ／マイクロフォン１５２４、キーパッド１５２６、および／またはディスプレイ／タッチパッド１５２８（例えば液晶表示（ＬＣＤ）ディスプレイユニット、または有機発光ダイオード（ＯＬＥＤ）ディスプレイユニット）に結合されることができ、それらからユーザ入力データを受信し得る。プロセッサ１５１８はまたユーザデータを、スピーカ／マイクロフォン１５２４、キーパッド１５２６、および／またはディスプレイ／タッチパッド１５２８に出力し得る。加えてプロセッサ１５１８は、非リムーバブルメモリ１５３０および／またはリムーバブルメモリ１５３２などの任意のタイプの適切なメモリからの情報にアクセスし、それにデータを記憶し得る。非リムーバブルメモリ１５３０は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハードディスク、または任意の他のタイプのメモリ記憶デバイスを含み得る。リムーバブルメモリ１５３２は、加入者識別モジュール（ＳＩＭ）カード、メモリスティック、セキュアデジタル（ＳＤ）メモリカードなどを含み得る。他の実施形態においてプロセッサ１５１８は、サーバまたはホームコンピュータ（図示せず）上など、ＷＴＲＵ１５０２上に物理的に位置しないメモリからの情報にアクセスし、それにデータを記憶し得る。

プロセッサ１５１８は、電源１５３４から電力を受け取ることができ、ＷＴＲＵ１５０２内の他の構成要素への電力を分配および／または制御するように構成され得る。電源１５３４は、ＷＴＲＵ１５０２に電力供給するための任意の適切なデバイスとし得る。例として電源１５３４は、１つまたは複数の乾電池（例えばニッケルカドミウム（ＮｉＣｄ）、ニッケル亜鉛（ＮｉＺｎ）、ニッケル水素（ＮｉＭＨ）、リチウムイオン（Ｌｉイオン）など）、太陽電池、燃料電池などを含み得る。

プロセッサ１５１８はまたＧＰＳチップセット１５３６に結合されることができ、これはＷＴＲＵ１５０２の現在位置に関する位置情報（例えば経度および緯度）をもたらすように構成され得る。ＧＰＳチップセット１５３６からの情報に加えてまたはその代わりに、ＷＴＲＵ１５０２はエアインターフェース１５１６を通して、基地局から位置情報を受信することができ、および／または２つ以上の近くの基地局から受信される信号のタイミングに基づいてその位置を決定し得る。ＷＴＲＵ１５０２は、実施形態と一貫性を保ちながら、任意の適切な位置決定方法によって位置情報を取得し得ることが理解されるであろう。

プロセッサ１５１８は他の周辺装置１５３８にさらに結合されることができ、これはさらなる特徴、機能、および／または有線もしくは無線接続性をもたらす１つまたは複数のソフトウェアおよび／またはハードウェアモジュールを含むことができる。例えば周辺装置１５３８は、加速度計、電子コンパスなどのセンサ、衛星送受信機、デジタルカメラ（写真またはビデオ用）、ユニバーサルシリアルバス（ＵＳＢ）ポート、振動デバイス、テレビ送受信機、ハンズフリーヘッドセット、ブルートゥース（登録商標）モジュール、周波数変調（ＦＭ）ラジオユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザなどを含み得る。

図１６は、例えばエンコーダまたはデコーダとして、本開示の実施形態において用いられ得る例示的ネットワークエンティティ１５９０を示す。図１６に示されるように、ネットワークエンティティ１５９０は、通信インターフェース１５９２、プロセッサ１５９４、非一時的データストレージ１５９６を含み、それらすべてはバス、ネットワーク、または他の通信経路１５９８によって通信可能に結び付けられる。

通信インターフェース１５９２は、１つまたは複数の有線通信インターフェースおよび／または１つまたは複数の無線通信インターフェースを含み得る。有線通信に関しては、通信インターフェース１５９２は、例としてイーサネットインターフェースなどの１つまたは複数のインターフェースを含み得る。無線通信に関しては、通信インターフェース１５９２は、１つまたは複数のアンテナ、１つまたは複数のタイプの無線（例えばＬＴＥ）通信のために設計および構成された１つまたは複数の送受信機／チップセットなどの構成要素、および／または当業者によって適切と判断される任意の他の構成要素を含み得る。さらに無線通信に関しては、通信インターフェース１５９２は、無線通信（例えばＬＴＥ通信、Ｗｉ−Ｆｉ通信など）のネットワーク側（クライアント側と対照的に）で動作するのに適したスケールにおいておよび構成を有して装備され得る。したがって、通信インターフェース１５９２は、カバレージエリア内の複数の移動局、ＵＥ、または他のアクセス端末にサーブするための適切な機器および回路（おそらく複数の送受信機を含む）を含み得る。

プロセッサ１５９４は当業者によって適切と判断される任意のタイプの１つまたは複数のプロセッサを含むことができ、いくつかの例は汎用マイクロプロセッサおよび専用ＤＳＰを含む。

データストレージ１５９６は、任意の非一時的コンピュータ可読媒体、またはそのような媒体の組み合わせの形をとることができ、当業者によって適切と判断される任意の１つまたは複数のタイプの非一時的データストレージが用いられ得るので、ほんの数例を挙げればいくつかの例はフラッシュメモリ、読み出し専用メモリ（ＲＯＭ）、およびランダムアクセスメモリ（ＲＡＭ）を含む。図１６に示されるようにデータストレージ１５９６は、本明細書で述べられるような様々なネットワークエンティティ機能の様々な組み合わせを遂行するためにプロセッサ１５９４によって実行可能な、プログラム命令１５９７を含む。

述べられる実施形態の１つまたは複数の様々なハードウェア要素は、それぞれのモジュールに関連して本明細書で述べられる様々な機能を遂行する（すなわち行う、実行するなど）「モジュール」と呼ばれることに留意されたい。本明細書で用いられるモジュールは、所与の実装形態に対して当業者によって適切と判断されるハードウェア（例えば１つまたは複数のプロセッサ、１つまたは複数のマイクロプロセッサ、１つまたは複数のマイクロコントローラ、１つまたは複数のマイクロチップ、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、１つまたは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、１つまたは複数のメモリデバイス）を含む。それぞれの述べられるモジュールはまた、それぞれのモジュールによって遂行されるものとして述べられる１つまたは複数の機能を遂行するための、実行可能な命令を含むことができ、これらの命令はハードウェア（すなわちハードワイヤード）命令、ファームウェア命令、ソフトウェア命令、および／または同様なものの形をとるまたは含むことができ、一般にＲＡＭ、ＲＯＭなどと呼ばれる任意の適切な非一時的コンピュータ可読媒体に記憶され得ることが留意される。

特徴および要素は上記では特定の組み合わせにおいて述べられたが、当業者は各特徴または要素は単独で、または他の特徴および要素との任意の組み合わせにおいて用いられることができることを理解するであろう。加えて本明細書で述べられる方法は、コンピュータまたはプロセッサによる実行のためにコンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア、またはファームウェアにおいて実施され得る。コンピュータ可読記憶媒体の例は、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスクおよびリムーバブルディスクなどの磁気媒体、光磁気媒体、ならびにＣＤ−ＲＯＭディスクおよびデジタル多用途ディスク（ＤＶＤ）などの光媒体を含むが、それらに限定されない。ソフトウェアと関連してプロセッサは、ＷＴＲＵ、ＵＥ、端末装置、基地局、ＲＮＣ、または任意のホストコンピュータにおける使用のために、無線周波数送受信機を実施するために用いられ得る。

Claims

ビットストリームにおいて符号化された３６０度ビデオを復号する方法であって、
２Ｄ平面ビデオを符号化したビットストリームを受信するステップであって、前記ビットストリームは、投影形状フォーマットを識別するパラメータを含む、ステップと、
前記識別された投影形状フォーマットを使用して、３６０度ビデオに前記２Ｄ平面ビデオをマッピングするステップと
を備えたことを特徴とする方法。
前記ビットストリームは、前記ビットストリームが３６０度ビデオを符号化しているかどうかを示すパラメータを更に含み、前記３６０度ビデオへの前記２Ｄ平面ビデオの前記マッピングは、前記パラメータが、前記ビットストリームが３６０度ビデオを表すことを示す場合のみ実行されることを特徴とする請求項１に記載の方法。
前記投影形状フォーマットは、投影形状タイプを含み、前記投影形状フォーマットを識別する前記パラメータは、前記投影形状タイプを識別するパラメータを含む請求項１に記載の方法。
前記投影形状タイプを識別する前記パラメータは、前記識別された投影形状タイプのインデックスを含むことを特徴とする請求項３に記載の方法。
前記投影形状タイプを識別する前記パラメータは、エクイレクタングラ、キューブマップ、正積、八面体、二十面体、円筒、及びユーザにより指定された多角形のうちの１つまたは複数から選択された形状タイプを識別することを特徴とする請求項３に記載の方法。
前記識別された投影形状タイプは、複数の面を有し、前記投影形状タイプを識別する前記パラメータは、面の数のインジケーションを含むことを特徴とする請求項３に記載の方法。
前記識別された投影形状タイプは、複数の面を有し、前記投影形状タイプを識別する前記パラメータは、前記２Ｄ平面ビデオ内の前記面の配列を識別するフレームパッキングパラメータを含むことを特徴とする請求項３に記載の方法。
前記識別された投影形状フォーマットは、複数の面を有し、前記ビットストリームは、前記２Ｄ平面ビデオ内の前記面の品質レベルを識別するパラメータを更に含むことを特徴とする請求項１に記載の方法。
前記投影形状フォーマットは、投影形状方位を含み、前記投影形状フォーマットを識別する前記パラメータは、前記形状方位を識別するパラメータを含むことを特徴とする請求項１に記載の方法。
前記形状方位を識別する前記パラメータは、ヨーパラメータ、ピッチパラメータ、及びロールパラメータのうちの少なくとも１つを含むことを特徴とする請求項９に記載の方法。
前記形状方位を識別する前記パラメータは、エクイレクタングラ投影の前記形状方位を識別するパラメータを含み、３６０度ビデオへの前記２Ｄ平面ビデオのマッピングは、前記識別された形状方位と共にエクイレクタングラ投影を使用して実行されることを特徴とする請求項９に記載の方法。
前記投影形状フォーマットを識別する前記パラメータは、前記ビットストリームの少なくとも１つのビデオパラメータセットにおいて受信されることを特徴とする請求項１乃至１１のいずれか一項に記載の方法。
前記投影形状フォーマットを識別する前記パラメータは、前記ビットストリームの少なくとも１つのシーケンスパラメータにおいて受信されることを特徴とする請求項１乃至１１のいずれか一項に記載の方法。
３６０度ビデオを符号化する方法であって、
投影形状フォーマットを選択するステップと、
前記選択された投影形状フォーマットを使用して、２Ｄ平面ビデオに前記３６０度ビデオをマッピングするステップと、
ビットストリームにおいて前記２Ｄ平面ビデオを符号化するステップと、
前記ビットストリームにおいて、前記投影形状フォーマットを識別するパラメータをシグナリングするステップと
を備えたことを特徴とする方法。
前記ビットストリームにおいて、前記ビットストリームが３６０度ビデオを符号化していることを示すパラメータをシグナリングするステップをさらに備えたことを特徴とする請求項１４に記載の方法。
前記投影形状フォーマットを選択するステップは、投影形状方位を選択するステップを含み、前記ビットストリームにおいてシグナリングされる前記パラメータは、前記選択された形状方位を識別するパラメータを含むことを特徴とする請求項１４に記載の方法。
前記形状方位を識別する前記パラメータは、エクイレクタングラ投影の前記形状方位を識別するパラメータを含み、前記３６０度ビデオへの前記２Ｄ平面ビデオのマッピングは、前記識別された形状方位と共にエクイレクタングラ投影を使用して実行されることを特徴とする請求項１６に記載の方法。
前記投影形状は、複数の面を含み、前記投影形状の前記形状方位は、前記複数の面のうちの１つ内にある前記３６０度ビデオ内の対象の選択された領域の一部を実質的に最大化するように選択されることを特徴とする請求項１６に記載の方法。
前記投影形状は、少なくとも１つの他の面よりも高い品質レベルにより符号化された少なくとも１つの面を含む、複数の面を含み、前記投影形状の前記形状方位は、前記高い品質レベルを有する前記面内にある前記３６０度ビデオ内の対象の選択された領域の一部を実質的に最大化するように選択されることを特徴とする請求項１６に記載の方法。
前記投影形状フォーマットを選択するステップは、形状タイプを選択するステップを含み、前記ビットストリームにおいてシグナリングされる前記パラメータは、前記選択された形状タイプを識別するパラメータを含むことを特徴とする請求項１４に記載の方法。