JP2019530350A

JP2019530350A - 適応イントラ予測による全方位映像符号化および復号のための方法および装置

Info

Publication number: JP2019530350A
Application number: JP2019516216A
Authority: JP
Inventors: ラケイプ，ファビアン; ギャルピン，フランク; ボルデ，フィリップ
Original assignee: インターデジタルヴイシーホールディングス，インコーポレイテッド
Priority date: 2016-09-30
Filing date: 2017-09-28
Publication date: 2019-10-17
Anticipated expiration: 2037-09-28
Also published as: US20190260989A1; US11089296B2; EP3301931A1; KR102424140B1; WO2018060358A1; EP3520413A1; CN109804633A; KR20190052016A; JP7008903B2; CN109804633B

Abstract

全方位映像において、レンダリング空間における直線は、符号化空間とレンダリング空間との間の投影によって、もはや符号化されるフレーム内の直線として現れないことがある。全方位映像のジオメトリに適合させるために、非直曲線に沿ってイントラ予測が実行される。具体的には、現在のブロックの隣接する再構成ブロック内の参照サンプルは、現在のブロックに関する予測されたブロックを形成するために非直曲線に沿ってコピーされる。非直曲線は、現在のブロックに関する単一のイントラ予測方向性モードに基づいてオンラインで計算され得る。非直曲線のパラメータは、全方位映像の形成に用いられるマッピング、および現在のブロックの位置／サイズに基づいてよい。非直曲線は、現在のブロックの位置およびサイズに依存する解析関数またはルックアップテーブルを用いて得られ得る。【選択図】図９

Description

［0001］本実施形態は一般に、映像符号化および復号のための方法および装置に関し、特に、適応イントラ予測による映像符号化および復号のための方法および装置に関する。

［0002］昨今、利用可能な広視野コンテンツ（最大３６０°）は増加している。そのようなコンテンツは、たとえば頭部搭載型ディスプレイ（ＨＭＤ）、スマートグラス、ＰＣスクリーン、タブレット、スマートフォンなどの没入型表示デバイスにおいてコンテンツを視聴するユーザによって完全に可視ではない可能性がある。すなわち、所与の瞬間に、ユーザはコンテンツの一部しか見ていないことがある。しかし、ユーザは一般に、たとえば頭部運動、マウス運動、タッチスクリーン、音声などの様々な手段によってコンテンツ内で操縦することができる。一般に、このコンテンツを符号化および復号することが望ましい。

［0003］本原理の一般態様によると、映像データを符号化する方法が提示され、方法は、ピクチャの第１のブロックに関するイントラ予測のための方向性モードにアクセスすることと、第１のブロックに隣接する再構成ブロックにおける複数の参照サンプルを決定することと、第１のブロックに関する予測されたブロックを形成するために、アクセスされた方向性モードに基づく非直曲線に沿って、複数の参照サンプルの各々を第１のブロック内のサンプル位置のセットへ伝搬することと、方向性モードを符号化することと、第１のブロックと予測されたブロックとの差を符号化することと、を備える。

［0004］本原理の他の態様によると、映像データを符号化する装置が提供され、装置は、少なくとも１つのメモリと、ピクチャの第１のブロックに関するイントラ予測のための方向性モードにアクセスし、第１のブロックに隣接する再構成ブロックにおける複数の参照サンプルを決定し、第１のブロックに関する予測されたブロックを形成するために、アクセスされた方向性モードに基づく非直曲線に沿って、複数の参照サンプルの各々を第１のブロック内のサンプル位置のセットへ伝搬し、方向性モードを符号化し、第１のブロックと予測されたブロックとの差を符号化するように構成された１または複数のプロセッサと、を備える。

［0005］ピクチャは第１のフォーマットで表現されてよく、そのピクチャに関連する取得されたピクチャは、第２のフォーマットで表現され得る。非直曲線は、第１のフォーマットと第２のフォーマットとの間のマッピングに更に基づいてよい。第１のフォーマットは２Ｄ長方形フォーマットであってよく、第２のフォーマットは３Ｄ球体フォーマットまたはキューブフォーマットであってよく、マッピングは、エクイレクタングラーマッピング、キューブマッピング、ピラミッド形マッピング、正二十面体マッピング、または八面体マッピングであってよい。取得されたピクチャは、マッピングを通してピクチャを生成するために用いられ得る。第１のフォーマットと第２のフォーマットとの間のマッピングは、ビットストリームでシグナリングされ得る。

［0006］本原理の他の一般態様によると、映像データを復号する方法が提示され、方法は、ピクチャの第１のブロックに関するイントラ予測のための方向性モデルにアクセスすることと、第１のブロックに隣接する復号されたブロックにおける複数の参照サンプルを決定することと、第１のブロックに関する予測されたブロックを形成するために、アクセスされた方向性モードに基づく非直曲線に沿って、複数の参照サンプルの各々を第１のブロック内のサンプル位置のセットへ伝搬することと、予測されたブロックを用いて第１のブロックを復号することと、を備える。

［0007］本原理の他の態様によると、映像データを復号する装置が提供され、装置は、少なくとも１つのメモリと、ピクチャの第１のブロックに関するイントラ予測のための方向性モデルにアクセスし、第１のブロックに隣接する復号されたブロックにおける複数の参照サンプルを決定し、第１のブロックに関する予測されたブロックを形成するために、アクセスされた方向性モードに基づく非直曲線に沿って、複数の参照サンプルの各々を第１のブロック内のサンプル位置のセットへ伝搬し、予測されたブロックを用いて第１のブロックを復号するように構成された１または複数のプロセッサと、を備える。

［0008］復号されたピクチャは、第１のフォーマットで表現されてよく、復号されたピクチャに関連する表示ピクチャは、第２のフォーマットで表現され得る。非直曲線は、第１のフォーマットと第２のフォーマットとの間のマッピングに更に基づいてよい。第１のフォーマットは２Ｄ長方形フォーマットであってよく、第２のフォーマットは３Ｄ球体フォーマットまたはキューブフォーマットであってよく、マッピングは、エクイレクタングラーマッピング、キューブマッピング、ピラミッド形マッピング、正二十面体マッピング、または八面体マッピングであってよい。復号されたピクチャは、逆マッピングを通して表示ピクチャを生成するために用いられ得る。

［0009］予測のための参照サンプルを決定するために、第１のブロック内の第１のサンプル位置は、レンダリング空間における第２のブロック内の第２のサンプル位置にマッピングされてよく、レンダリング空間における第２のブロックは、ピクチャにおける第１のブロックに対応し、第２のサンプル位置および方向性モードに基づいて、第２のブロックに隣接する第３の位置がレンダリング空間において決定され、その後、第３の位置は、ピクチャ内の第１のブロックに隣接する第４の位置へマッピングされてよく、第４の位置におけるサンプルは、ブロック内の第１のサンプル位置を予測するための参照サンプルとして用いられる。方向性モードに対応する方向は、レンダリング空間において他の方向に変換されてよく、第２のブロックに隣接する第３の位置は、他の方向に基づき決定され得る。

［0010］計算を迅速化するために、ルックアップテーブルは、予測される第１のブロック内のサンプル位置を、対応する参照サンプル位置に関連付けてよい。ルックアップは、方向性モードおよびピクチャ内の第１のブロックの位置およびサイズに依存してよい。第２のブロックに関するルックアップテーブルは、第２のブロックが第１のブロックよりも小さい場合、第１のブロックに関するルックアップテーブルの副部分、たとえば左上部分であってよい。

［0011］他の実施形態において、関数は、予測される第１のブロック内のサンプル位置を、対応する参照サンプル位置に関連付けてよく、関数の１または複数のパラメータは、方向性モードおよびピクチャ内の第１のブロックの位置およびサイズに依存してよい。

［0012］本原理の他の態様によると、ビットストリームは、ピクチャの第１のブロックに関して符号化されたイントラ予測のための方向性モードと、ピクチャの第１のブロックと第１のブロックに関する予測されたブロックとの間の差の符号化とを含むようにフォーマット化され、予測されたブロックは、非直曲線に沿って、複数の参照サンプルの各々を第１のブロック内のサンプル位置のセットへ伝搬することによって形成され、非直曲線は、アクセスされた方向性モードに基づき、複数の参照サンプルは、第１のブロックに隣接する再構成ブロック内にある。

［0013］本実施形態は、上述した方法に従って映像データを符号化または復号するための装置も提供する。本実施形態は、上述した方法に従って生成されたビットストリームを伝送するための装置も提供する。

［0014］本実施形態は、上述した方法に従って映像データを符号化または復号するための命令が格納されたコンピュータ可読記憶媒体も提供する。本実施形態は、上述した方法に従って生成されたビットストリームが格納されたコンピュータ可読記憶媒体も提供する。

［0015］本原理の実施形態に係る、全方位映像を符号化および復号するための典型的なシステムを示す。［0016］図２Ａは、典型的な球体表面Ｓがエクイレクタングラー投影を用いて２ＤフレームＦにマッピングされることを示し、図２Ｂは、典型的なキューブ表面がキューブマッピングを用いて図２Ｃに示すように２Ｄフレームにマッピングされることを示す。［0017］典型的な逆エクイレクタングラーマッピングを示す。［0018］図４Ａは、３Ｄ表面からレンダリングされたフレームＧに点が投影されることを示し、図４Ｂは、投影の近似を示す。［0019］典型的なＨＥＶＣ映像エンコーダのブロック図を示す。［0020］図６Ａは、ＨＥＶＣにおいて利用可能な３５のイントラ予測モードのセットを示し、図６Ｂは、参照サンプルが、角予測モードによって示された方向に沿ってコピーされる様子を示す。［0021］典型的なＨＥＶＣ映像デコーダのブロック図を示す。［0022］レンダリングされたフレームにおける直線が、符号化されるフレームにおいて直線に見えない例を示す。［0023］本原理の実施形態に係る、イントラ予測器を配置するための典型的な実装を示す。［0024］本原理の実施形態に係る、イントラ予測のためのイントラ予測器を配置するための典型的な方法を示す。［0025］図１１Ａは、ブロックの中心において特定の方向に生じた曲線の例を矢印で示し、図１１Ｂは、曲線に沿ったイントラ予測の他の例を示す。［0026］本原理の典型的な実施形態に係る、全方位映像に適用されたイントラ予測をエンコーダ側において実行するための典型的な方法を示す。［0027］ＨＥＶＣに関する平面モードを示す。［0028］様々な予測角度に関して、エクイレクタングラーマッピングのための提案された新たな方向性イントラモードを用いる予測の例を示す。［0029］エクイレクタングラーフレームにおける典型的なブロックを示す。［0030］参照サンプルの位置を示す。［0031］本原理の典型的な実施形態の様々な態様が実装され得る典型的なシステムのブロック図を示す。［0032］本原理の特定の実施形態に係る、システムの第１の実施形態を表す。［0033］本原理の特定の実施形態に係る、システムの第１の実施形態を表す。［0034］本原理の特定の実施形態に係る、システムの第１の実施形態を表す。［0035］本原理の特定の実施形態に係る、システムの第１の実施形態を表す。［0036］本原理の特定の実施形態に係る、システムの第１の実施形態を表す。［0037］本原理の特定の実施形態に係る、システムの第１の実施形態を表す。［0038］本原理に係るシステムの第１の実施形態を表す。［0039］本原理に係るシステムの第１の実施形態を表す。［0040］本原理に係る没入型映像レンダリングデバイスの第１の実施形態を表す。［0041］本原理に係る没入型映像レンダリングデバイスの第１の実施形態を表す。［0042］本原理に係る没入型映像レンダリングデバイスの第１の実施形態を表す。

［0043］広視野コンテンツは、とりわけ、３次元コンピュータグラフィック画像シーン（３ＤＣＧＩシーン）、点群、または没入型映像であってよい。そのような没入型映像を意図するために、たとえば仮想現実（ＶＲ）、３６０、パノラマ、４π、ステラジアン、没入型、全方位、広視野など多数の用語が用いられ得る。

［0044］没入型映像は一般に、「通常の」映像のようにピクセル（すなわち、色情報の要素）の２次元アレイである長方形フレームに符号化された映像を指す。多くの実装において、以下のプロセスが実行され得る。レンダリングのために、フレームは最初に、マッピング表面とも称される凸面ボリューム（たとえば球体、キューブ、ピラミッド）の内側表面にマッピングされ、次に、このボリュームの一部が仮想カメラによって捕捉される。仮想カメラによって捕捉された画像は、没入型表示デバイスのスクリーンにレンダリングされる。立体映像は、１または２つの長方形フレームに符号化され、結合される２つのマッピング表面に投影され、デバイス特性に従って２つの仮想カメラによって捕捉される。

［0045］ピクセルは、フレームにおけるマッピング機能に従って符号化され得る。マッピング機能は、マッピング表面に依存してよい。同じマッピング表面の場合、いくつかのマッピング機能が可能である。たとえば、キューブの面は、フレーム表面内の様々なレイアウトに従って構成され得る。球体は、たとえばエクイレクタングラー投影またはグノモン投影に従ってマッピングされ得る。選択された投影機能の結果生じるピクセルの組織化は、直線連続性、正規直交ローカルフレーム、ピクセル密度を変更または破壊し、時間および空間における周期性をもたらす。これらは、映像を符号化および復号するために用いられる一般的な特徴である。既存の符号化および復号方法は、通常、没入型映像の特異性を考慮に入れない。実際、没入型映像は３６０°映像であり得るため、たとえばパニングによって、シーンのコンテンツが変化しない時にも大量のデータの符号化を必要とする動きおよび非連続性が生み出される。没入型映像の特異性を考慮に入れて映像フレームを符号化および復号することは、符号化または復号方法に有益な利点をもたらす。

［0046］図１は、典型的な実施形態に係る符号化および復号システムの全体的概観を示す。図１のシステムは、機能システムである。前処理モジュール１１０は、符号化デバイス１２０によって符号化するためのコンテンツを作成してよい。前処理モジュール１１０は、マルチ画像取得を実行し、取得した複数の画像を共通空間（一般に、方向を符号化する場合、３Ｄ球体）において合成し、限定されるものではないがたとえばエクイレクタングラーマッピングまたはキューブマッピングを用いて、３Ｄ球体を２Ｄフレームにマッピングしてよい。前処理モジュール１１０はまた、特定のフォーマット（たとえばエクイレクタングラー）の全方位映像を入力として受け入れ得、マッピングを符号化により適したフォーマットに変更するために映像を前処理する。取得した映像データ表現に依存して、前処理モジュール１１０は、マッピング空間の変更を実行してよい。

［0047］符号化デバイス１２０および符号化方法は、本明細書の他の図面に関して説明される。符号化の後、たとえば没入型映像データまたは３ＤＣＧＩ符号化データを符号化し得るデータは、たとえばゲートウェイ内に存在する任意のネットワークインタフェースに一般的に実装され得るネットワークインタフェース１３０へ送信される。データはその後、たとえばインターネットなどの通信ネットワークを介して伝送されるが、他の任意のネットワークが予見され得る。その後データは、ネットワークインタフェース１４０を介して受信される。ネットワークインタフェース１４０は、ゲートウェイ、テレビ、セットトップボックス、頭部搭載型表示デバイス、没入型（投影）壁、または任意の没入型映像レンダリングデバイスに実装され得る。

［0048］受信後、データは、復号デバイス１５０へ送信される。復号機能は、以下の図１８〜２８において説明される処理機能の１つである。復号データは、その後、プレーヤ１６０によって処理される。プレーヤ１６０は、レンダリングデバイス１７０のためのデータを作成し、センサまたはユーザの入力データから外部データを受信してよい。正確には、プレーヤ１６０は、レンダリングデバイス１７０によって表示しようとする映像コンテンツの一部を作成する。復号デバイス１５０およびプレーヤ１６０は、単一デバイス（たとえばスマートフォン、ゲーム機、ＳＴＢ、タブレット、コンピュータなど）に統合され得る。他の実施形態において、プレーヤ１６０は、レンダリングデバイス１７０に統合され得る。

［0049］たとえば没入型映像をレンダリングする時に没入型表示デバイスの復号、再生、およびレンダリング機能を実行するために、いくつかの種類のシステムが考えられ得る。

［0050］拡張現実、仮想現実、または拡張仮想コンテンツを処理するための第１のシステムが図１８〜２２に示される。そのようなシステムは、処理機能、たとえば頭部搭載型ディスプレイ（ＨＭＤ）、タブレット、またはスマートフォンであってよくセンサを備え得る没入型映像レンダリングデバイスを備える。没入型映像レンダリングデバイスは、表示デバイスと処理機能との間の追加のインタフェースモジュールも備えてよい。処理機能は、１または複数のデバイスによって実行され得る。これらは、没入型映像レンダリングデバイスに統合されてよく、あるいは１または複数の処理デバイスに統合され得る。処理デバイスは、１または複数のプロセッサ、およびたとえば無線または有線通信インタフェースなどの没入型映像レンダリングデバイスとの通信インタフェースを備える。

［0051］また処理デバイスは、たとえばインターネットなどの広域アクセスネットワークとの第２の通信インタフェースも備え、たとえばホームまたはローカルゲートウェイなどのネットワークデバイスを介して、または直接、クラウドにあるコンテンツにアクセスしてよい。処理デバイスは、たとえばイーサネットタイプのローカルアクセスネットワークインタフェースなどの第３のインタフェースを介してローカルストレージにアクセスしてもよい。実施形態において、処理デバイスは、１または複数の処理ユニットを有するコンピュータシステムであってよい。他の実施形態において、処理デバイスは、有線または無線リンクを介して没入型映像レンダリングデバイスに接続され得る、あるいは没入型映像レンダリングデバイス内のハウジングに挿入され、コネクタを介してまたは無線でこれと通信することができるスマートフォンであってよい。処理デバイスの通信インタフェースは、有線インタフェース（たとえばバスインタフェース、広域ネットワークインタフェース、ローカルエリアネットワークインタフェース）または無線インタフェース（たとえばＩＥＥＥ８０２．１１インタフェース、またはＢｌｕｅｔｏｏｔｈ（登録商標）インタフェースなど）である。

［0052］処理機能が没入型映像レンダリングデバイスによって実行される場合、ゲートウェイを介して、または直接コンテンツを受信および／または伝送するためのネットワークとのインタフェースが没入型映像レンダリングデバイスに提供され得る。

［0053］他の実施形態において、システムは、没入型映像レンダリングデバイスおよび処理デバイスと通信する補助デバイスを備える。そのような実施形態において、補助デバイスは、処理機能の少なくとも１つを含んでよい。

［0054］没入型映像レンダリングデバイスは、１または複数のディスプレイを備えてよい。デバイスは、自身のディスプレイの各々の前部において、たとえばレンズなどの光学部品を用いてよい。ディスプレイは、スマートフォンまたはタブレットのケース内など、没入型表示デバイスの一部であってもよい。他の実施形態において、ディスプレイおよび光学部品は、ユーザが装着することができるヘルメット、グラス、またはバイザーに組み込まれ得る。没入型映像レンダリングデバイスは、後述するように、いくつかのセンサを統合してもよい。没入型映像レンダリングデバイスは、いくつかのインタフェースまたはコネクタも備えてよい。没入型映像レンダリングデバイスは、センサ、処理機能、ハンドヘルドまたは他の身体部位関連デバイスまたはセンサと通信するために、１または複数の無線モジュールを備えてよい。

［0055］没入型映像レンダリングデバイスは、１または複数のプロセッサによって実行され、コンテンツを復号またはコンテンツを処理するように構成された処理機能も備えてよい。ここでコンテンツを処理することは、表示され得るコンテンツを作成するための全機能として理解される。これはたとえば、コンテンツを復号すること、コンテンツを表示する前に合成すること、および表示デバイスに適合するようにコンテンツを修正することを備えてよい。

［0056］没入型コンテンツレンダリングデバイスの機能の１つは、仮想ボリュームとして構成されたコンテンツの少なくとも一部を捕捉する仮想カメラを制御することである。システムは、仮想カメラの姿勢を処理するために、ユーザの姿勢、たとえばユーザの頭部の姿勢を全体的または部分的に追跡する姿勢追跡センサを備えてよい。いくつかの位置決めセンサは、ユーザの変位を追跡してよい。システムは、たとえば照明、温度、または音条件を測定するために、環境に関連する他のセンサも備えてよい。そのようなセンサは、たとえば発汗率または心拍数を測定するために、ユーザの身体にも関連してよい。これらのセンサによって取得された情報は、コンテンツを処理するために用いられ得る。システムは、ユーザ入力デバイス（たとえばマウス、キーボード、リモートコントロール、ジョイスティック）も備えてよい。ユーザ入力デバイスからの情報は、コンテンツを処理し、ユーザインタフェースを管理し、または仮想カメラの姿勢を制御するために用いられ得る。センサおよびユーザ入力デバイスは、有線または無線通信インタフェースを介して、処理デバイスおよび／または没入型レンダリングデバイスと通信する。

［0057］図１８〜２２を用いて、拡張現実、仮想現実、拡張仮想、または拡張現実から仮想現実までの任意のコンテンツを表示するための第１の種類のシステムについて、いくつかの実施形態が説明される。

［0058］図１８は、没入型映像を復号、処理、およびレンダリングするように構成されたシステムの特定の実施形態を示す。システムは、没入型映像レンダリングデバイス１０、センサ２０、ユーザ入力デバイス３０、コンピュータ４０、およびゲートウェイ５０（任意選択）を備える。

［0059］図２６に示す没入型映像レンダリングデバイス１０は、ディスプレイ１０１を備える。ディスプレイは、たとえばＯＬＥＤまたはＬＣＤタイプである。没入型映像レンダリングデバイス１０は、たとえばＨＭＤ、タブレット、またはスマートフォンである。デバイス１０は、タッチ表面１０２（たとえばタッチパッドまたは触覚スクリーン）、カメラ１０３、少なくとも１つのプロセッサ１０４と接続状態にあるメモリ１０５、および少なくとも１つの通信インタフェース１０６を備えてよい。少なくとも１つのプロセッサ１０４は、センサ２０から受信した信号を処理する。

［0060］センサからの測定値のいくつかは、デバイスの姿勢を計算し、仮想カメラを制御するために用いられる。姿勢推定のために用いられるセンサは、たとえばジャイロスコープ、加速度計、またはコンパスである。たとえばカメラのリグを用いる、より複雑なシステムが用いられてもよい。この場合、少なくとも１つのプロセッサは、デバイス１０の姿勢を推定するために画像処理を実行する。他のいくつかの測定値は、環境条件またはユーザの反応に従ってコンテンツを処理するために用いられる。環境およびユーザを観察するために用いられるセンサは、たとえばマイクロフォン、光センサ、または接触センサである。たとえばユーザの視線を追跡するビデオカメラなどのように、より複雑なシステムが用いられてもよい。この場合、少なくとも１つのプロセッサは、予想される測定を操作するために画像処理を実行する。センサ２０およびユーザ入力デバイス３０からのデータもまたコンピュータ４０へ伝送されてよく、コンピュータ４０は、これらのセンサの入力に従ってデータを処理する。

［0061］メモリ１０５は、プロセッサ１０４のためのパラメータおよびコードプログラム命令を含む。メモリ１０５は、センサ２０およびユーザ入力デバイス３０から受信したパラメータも備えてよい。通信インタフェース１０６は、没入型映像レンダリングデバイスがコンピュータ４０と通信することを可能にする。処理デバイスの通信インタフェース１０６は、有線インタフェース（たとえばバスインタフェース、広域ネットワークインタフェース、ローカルエリアネットワークインタフェース）または無線インタフェース（たとえばＩＥＥＥ８０２．１１インタフェース、またはＢｌｕｅｔｏｏｔｈ（登録商標）インタフェースなど）であってよい。

［0062］コンピュータ４０は、没入型映像レンダリングデバイス１０へデータを送信し、任意選択的に、没入型映像レンダリングデバイス１０へのコマンドを制御する。コンピュータ４０は、データの処理を担い、すなわち、没入型映像レンダリングデバイス１０によって表示するためのデータを作成する。処理は、コンピュータ４０のみによって行われてよく、あるいは処理の一部がコンピュータによって行われ、一部が没入型映像レンダリングデバイス１０によって行われ得る。コンピュータ４０は、直接、またはゲートウェイまたはネットワークインタフェース５０を介して、インターネットに接続される。コンピュータ４０は、インターネットから没入型映像を表現するデータを受信し、これらのデータを処理（たとえばデータを復号し、場合によっては、没入型映像レンダリングデバイス１０によって表示しようとする映像コンテンツの一部を作成）し、処理したデータを表示のために没入型映像レンダリングデバイス１０へ送信する。他の実施形態において、システムは、没入型映像を表現するデータが格納されるローカルストレージ（不図示）も備えてよく、上記ローカルストレージは、コンピュータ４０に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ（不図示）にあってよい。

［0063］図１９は、第２の実施形態を表す。この実施形態において、ＳＴＢ９０は、たとえばインターネットなどのネットワークに直接接続され（すなわちＳＴＢ９０がネットワークインタフェースを備え）、またはゲートウェイ５０を介して接続される。ＳＴＢ９０は、たとえばテレビセット１００または没入型映像レンダリングデバイス２００などのレンダリングデバイスへ、無線インタフェースまたは有線インタフェースを介して接続される。ＳＴＢの典型的な機能に加え、ＳＴＢ９０は、テレビ１００または任意の没入型映像レンダリングデバイス２００にレンダリングするための映像コンテンツを処理するための処理機能を備える。これらの処理機能は、コンピュータ４０に関して説明したものと同じであり、ここで再び説明することはない。センサ２０およびユーザ入力デバイス３０もまた、図１８に関して上述したものと同じ種類のものである。ＳＴＢ９０は、インターネットから没入型映像を表現するデータを取得する。他の実施形態において、ＳＴＢ９０は、没入型映像を表現するデータが格納されたローカルストレージ（不図示）から没入型映像を表現するデータを取得する。

［0064］図２０は、図１８に示す実施形態に関連する第３の実施形態を表す。ゲーム機６０は、コンテンツデータを処理する。ゲーム機６０は、没入型映像レンダリングデバイス１０へデータを送信し、任意選択的に没入型映像レンダリングデバイス１０へのコマンドを制御する。ゲーム機６０は、没入型映像を表現するデータを処理し、処理したデータを表示のために没入型映像レンダリングデバイス１０へ送信するように構成される。処理は、ゲーム機６０のみによって行われてよく、あるいは処理の一部が没入型映像レンダリングデバイス１０によって行われてもよい。

［0065］ゲーム機６０は、直接、またはゲートウェイまたはネットワークインタフェース５０を介して、インターネットに接続される。ゲーム機６０は、インターネットから没入型映像を表現するデータを取得する。他の実施形態において、ゲーム機６０は、没入型映像を表現するデータが格納されたローカルストレージ（不図示）から没入型映像を表現するデータを取得し、上記ローカルストレージは、ゲーム機６０に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ（不図示）にあってよい。

［0066］ゲーム機６０は、インターネットから没入型映像を表現するデータを受信し、これらのデータを処理（たとえばこれらを復号し、場合によっては、表示しようとする映像の一部を作成）し、処理したデータを表示のために没入型映像レンダリングデバイス１０へ送信する。ゲーム機６０は、センサ２０およびユーザ入力デバイス３０からデータを受信し、それらを用いて、インターネットまたはローカルストレージから取得した没入型映像を表現するデータを処理してよい。

［0067］図２１は、上記第１の種類のシステムの第４の実施形態を表し、ここで没入型映像レンダリングデバイス７０は、ハウジング７０５に挿入されたスマートフォン７０１によって形成される。スマートフォン７０１は、インターネットに接続され得るので、インターネットから没入型映像を表現するデータを取得してよい。他の実施形態において、スマートフォン７０１は、没入型映像を表現するデータが格納されたローカルストレージ（不図示）から没入型映像を表現するデータを取得し、上記ローカルストレージは、スマートフォン７０１に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ（不図示）にあってよい。

［0068］没入型映像レンダリングデバイス７０は、没入型映像レンダリングデバイス７０の好適な実施形態を示す図２７を参照して説明される。これは任意選択的に、少なくとも１つのネットワークインタフェース７０２およびスマートフォン７０１のためのハウジング７０５を備える。スマートフォン７０１は、スマートフォンおよびディスプレイの全機能を備える。スマートフォンのディスプレイは、没入型映像レンダリングデバイス７０のディスプレイとして用いられる。したがって、スマートフォン７０１のディスプレイ以外のディスプレイは含まれない。ただし、スマートフォンディスプレイ上のデータを見るために、たとえばレンズなどの光学部品７０４が含まれる。スマートフォン７０１は、場合によってはセンサ２０およびユーザ入力デバイス３０から受信したデータに従って、没入型映像を表現するデータを処理（たとえば復号し、表示用に作成）するように構成される。センサからの測定値のいくつかは、デバイスの姿勢を計算し、仮想カメラを制御するために用いられる。姿勢推定のために用いられるセンサは、たとえばジャイロスコープ、加速度計、またはコンパスである。たとえばカメラのリグを用いる、より複雑なシステムが用いられてもよい。この場合、少なくとも１つのプロセッサは、デバイス１０の姿勢を推定するために画像処理を実行する。他のいくつかの測定値は、環境条件またはユーザの反応に従ってコンテンツを処理するために用いられる。環境およびユーザを観察するために用いられるセンサは、たとえばマイクロフォン、光センサ、または接触センサである。たとえばユーザの視線を追跡するビデオカメラなど、より複雑なシステムが用いられてもよい。この場合、少なくとも１つのプロセッサは、予定された測定を操作するために画像処理を実行する。

［0069］図２２は、上記第１の種類のシステムの第５の実施形態を表し、ここで没入型映像レンダリングデバイス８０は、データコンテンツを処理および表示するための全機能を備える。システムは、没入型映像レンダリングデバイス８０、センサ２０、およびユーザ入力デバイス３０を備える。没入型映像レンダリングデバイス８０は、場合によってはセンサ２０およびユーザ入力デバイス３０から受信したデータに従って、没入型映像を表現するデータを処理（たとえば復号し、表示用に作成）するように構成される。没入型映像レンダリングデバイス８０は、インターネットに接続され得るので、インターネットから没入型映像を表現するデータを取得してよい。他の実施形態において、没入型映像レンダリングデバイス８０は、没入型映像を表現するデータが格納されたローカルストレージ（不図示）から没入型映像を表現するデータを取得し、上記ローカルストレージは、レンダリングデバイス８０に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ（不図示）にあってよい。

［0070］没入型映像レンダリングデバイス８０は、図２８に示される。没入型映像レンダリングデバイスは、ディスプレイ８０１を備える。ディスプレイは、たとえばＯＬＥＤまたはＬＣＤタイプ、タッチパッド（任意選択）８０２、カメラ（任意選択）８０３、少なくとも１つのプロセッサ８０４と接続状態にあるメモリ８０５、および少なくとも１つの通信インタフェース８０６から成ってよい。メモリ８０５は、プロセッサ８０４のためのパラメータおよびコードプログラム命令を備える。メモリ８０５は、センサ２０およびユーザ入力デバイス３０から受信したパラメータも備えてよい。またメモリは、没入型映像コンテンツを表現するデータを格納するのに足るほど大きくあってよい。このため、いくつかの種類のメモリが存在してよく、メモリ８０５は、単一メモリであるか、あるいは数種類のストレージ（ＳＤカード、ハードディスク、揮発性または不揮発性メモリなど）であってよい。通信インタフェース８０６は、没入型映像レンダリングデバイスがインターネットネットワークと通信することを可能にする。プロセッサ８０４は、ディスプレイ８０１に表示するために映像を表現するデータを処理する。カメラ８０３は、画像処理ステップに関して環境の画像を捕捉する。没入型映像レンダリングデバイスを制御するために、このステップからデータが抽出される。

［0071］拡張現実、仮想現実、または拡張仮想コンテンツを処理するための第２のシステムが図２３〜２５に示される。そのようなシステムは、没入型壁を備える。

［0072］図２３は、第２の種類のシステムを表す。このシステムは、コンピュータ４０００からデータを受信する没入型（投影）壁であるディスプレイ１０００を備える。コンピュータ４０００は、インターネットから没入型映像データを受信する。コンピュータ４０００は通常、直接またはゲートウェイ５０００またはネットワークインタフェースを介してインターネットに接続される。他の実施形態において、没入型映像データは、没入型映像を表現するデータが格納されたローカルストレージ（不図示）からコンピュータ４０００によって取得され、上記ローカルストレージは、コンピュータ４０００に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ（不図示）にあってよい。

［0073］このシステムは、センサ２０００およびユーザ入力デバイス３０００も備えてよい。没入型壁１０００は、ＯＬＥＤまたはＬＣＤタイプであってよい。没入型壁１０００は、１または複数のカメラを備えてよい。没入型壁１０００は、センサ２０００（または複数のセンサ２０００）から受信したデータを処理してよい。センサ２０００から受信したデータは、照明条件、温度、ユーザの環境、たとえば物体の位置に関連してよい。

［0074］没入型壁１０００は、ユーザ入力デバイス３０００から受信したデータも処理してよい。ユーザ入力デバイス３０００は、ユーザ感情に関するフィードバックを与えるために、たとえば触覚信号などのデータを送信する。ユーザ入力デバイス３０００の例は、たとえばスマートフォン、リモートコントロール、およびジャイロスコープ機能を有するデバイスなどのハンドヘルドデバイスである。

［0075］センサ２０００およびユーザ入力デバイス３０００のデータは、コンピュータ４０００へ伝送されてもよい。コンピュータ４０００は、これらのセンサ／ユーザ入力デバイスから受信したデータに従って映像データを処理（たとえば復号し、表示用に作成）してよい。センサ信号は、没入型壁の通信インタフェースを介して受信され得る。この通信インタフェースは、Ｂｌｕｅｔｏｏｔｈタイプ、ＷＩＦＩタイプ、または他の任意の種類の接続であってよく、優先的には無線であるが、有線接続であってもよい。

［0076］コンピュータ４０００は、処理されたデータを没入型壁１０００へ送信し、任意選択的に、没入型壁１０００へのコマンドを制御する。コンピュータ４０００は、没入型壁１０００によって表示されるようにデータを処理、すなわち表示用に作成するように構成される。処理は、コンピュータ４０００のみによって行われてよく、あるいは処理の一部がコンピュータ４０００によって行われ、一部が没入型壁１０００によって行われ得る。

［0077］図２４は、第２の種類の他のシステムを表す。このシステムは、映像コンテンツを処理（たとえば復号し、表示用のデータを作成）および表示するように構成された没入型（投影）壁６０００を備える。このシステムは更に、センサ２０００、ユーザ入力デバイス３０００を備える。

［0078］没入型壁６０００は、ゲートウェイ５０００を介してインターネットから、またはインターネットから直接、没入型映像データを受信する。他の実施形態において、没入型映像データは、没入型映像を表現するデータが格納されたローカルストレージ（不図示）から没入型壁６０００によって取得され、上記ローカルストレージは、没入型壁６０００に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ（不図示）にあってよい。

［0079］このシステムは、センサ２０００およびユーザ入力デバイス３０００も備えてよい。没入型壁６０００は、ＯＬＥＤまたはＬＣＤタイプであってよい。没入型壁６０００は、１または複数のカメラを備えてよい。没入型壁６０００は、センサ２０００（または複数のセンサ２０００）から受信したデータを処理してよい。センサ２０００から受信したデータは、照明条件、温度、ユーザの環境、たとえば物体の位置に関連してよい。

［0080］没入型壁６０００は、ユーザ入力デバイス３０００から受信したデータを処理してもよい。ユーザ入力デバイス３０００は、ユーザ感情におけるフィードバックを与えるために、たとえば触覚信号などのデータを送信する。ユーザ入力デバイス３０００の例は、たとえばスマートフォン、リモートコントロール、およびジャイロスコープ機能を有するデバイスなどのハンドヘルドデバイスである。

［0081］没入型壁６０００は、これらのセンサ／ユーザ入力デバイスから受信したデータに従って映像データを処理（たとえば復号し、表示用に作成）してよい。センサ信号は、没入型壁の通信インタフェースを介して受信され得る。この通信インタフェースは、Ｂｌｕｅｔｏｏｔｈタイプ、ＷＩＦＩタイプ、または他の任意の種類の接続であってよく、優先的には無線であるが、有線接続であってもよい。没入型壁６０００は、センサおよびインターネットと通信するために少なくとも１つの通信インタフェースを備えてよい。

［0082］図２５は、没入型壁がゲームのために用いられる第３の実施形態を示す。１または複数のゲーム機７０００は、好適には無線インタフェースを介して没入型壁６０００に接続される。没入型壁６０００は、ゲートウェイ５０００を介してインターネットから、またはインターネットから直接、没入型映像データを受信する。他の実施形態において、没入型映像データは、没入型映像を表現するデータが格納されたローカルストレージ（不図示）から没入型壁６０００によって取得され、上記ローカルストレージは、没入型壁６０００に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ（不図示）にあってよい。

［0083］ゲーム機７０００は、命令およびユーザ入力パラメータを没入型壁６０００へ送信する。没入型壁６０００は、表示用のコンテンツを作成するために、場合によってはセンサ２０００およびユーザ入力デバイス３０００およびゲーム機７０００から受信した入力データに従って、没入型映像コンテンツを処理する。没入型壁６０００は、表示されるコンテンツを格納するための内部メモリも備えてよい。

［0084］１つの実施形態において、全方位映像は、映像コーデックに適したフォーマットで表現される標準長方形フレームＦへの周囲の３Ｄ表面Ｓの投影を可能にするフォーマットで表現されると考えられる。３Ｄ表面を２Ｄ表面に投影するために、様々な投影が用いられ得る。たとえば図２Ａは、典型的な球体表面Ｓがエクイレクタングラー投影を用いて２ＤフレームＦにマッピングされることを示し、図２Ｂは、典型的なキューブ表面がキューブマッピングを用いて図２Ｃに示すように２Ｄフレームにマッピングされることを示す。たとえばピラミッド形、正二十面体、または八面体マッピングなど他のマッピングが、３Ｄ表面を２Ｄフレームにマッピングすることができる。

［0085］２ＤフレームＦはその後、たとえばＶＰ９、ＶＰ１０、ＭＰＥＧ−２、Ｈ．２６４／ＡＶＣ、またはＨ．２６５／ＨＥＶＣに準拠するエンコーダなど既存の映像エンコーダを用いて符号化され得る。２ＤフレームＦは、たとえば調整されたＶＰ９、ＶＰ１０、ＭＰＥＧ−２、Ｈ．２６４／ＡＶＣ、またはＨ．２６５／ＨＥＶＣエンコーダを用いて、全方位映像の特性に対応するエンコーダによって符号化されてもよい。符号化および復号の後、復号された２Ｄフレームは、対応する３Ｄ表面、たとえばエクイレクタングラーマッピングの場合は球体、またはキューブマッピングの場合はキューブに再びマッピングされ得る。３Ｄ表面はその後、最終的なレンダリングされたフレームを得るために、ユーザの視点に対応する「仮想スクリーン」に投影され得る。２Ｄフレームを復号し、３Ｄ表面からレンダリングされたフレームへ投影するステップは単一ステップに結合されてよく、この場合、復号されたフレームの一部がレンダリングされたフレームにマッピングされる。

［0086］簡潔な表記として、復号された２Ｄフレームを「Ｆ」とも称し、レンダリングに用いられる３Ｄ表面をＳとも称することとする。理解すべき点として、符号化される２Ｄフレームおよび復号される２Ｄフレームは、映像圧縮によって異なってよく、前処理における３Ｄ表面およびレンダリングにおける３Ｄ表面もまた異なってよい。本出願において、「マッピング」および「投影」という用語は相互置換的に用いられ、「ピクセル」および「サンプル」という用語は相互置換的に用いられ、「フレーム」および「ピクチャ」という用語は相互置換的に用いられる。

［0087］エクイレクタングラーマッピング

［0088］図３は、２Ｄフレームがレンダリングされたフレームにマッピングされる、典型的な逆エクイレクタングラーマッピングを示す。図３Ａは、（「エクイレクタングラーフレーム」とも称される）復号されたフレームにおけるｘ−ｙ座標内の点Ｐを示す。図３Ｂは、θ―φ極座標を用いて、Ｐからレンダリングの２Ｄ表面にマッピングされた点Ｐ’を示す。図３Ｃは、デカルト座標を用いて、３Ｄレンダリング空間Ｓ内のＰ’に対応する点Ｐ^３ｄを示す。図３Ｄは、ローカルレンダリングフレームＧにおける、Ｐ^３ｄにおいて表面に接するローカル面に投影されたＰ^３ｄの結果生じるＰ”を示す。構成によって、Ｐ”はフレームの中心である。ローカルレンダリングフレームＧは、多くの場合ユーザが何を見たいかに基づいて、たとえばＨＭＤまたはユーザのハンドヘルドデバイスが指すものに基づいて、２ＤフレームＦの一部に対応する。ローカルレンダリングフレームＧは、ローカルレンダリングバージョンとも称される。

［0089］ＰからＰ’、Ｐ’からＰ^３ｄ、およびＰ^３ｄからＰ”へのマッピングは、それぞれ「ｆ」、「３ｄ」、および「ｐｒｏ／」と記される。図３において、逆エクイレクタングラーマッピングは、例示の目的で複数のステップ（「／」、「３ｄ」、および「ｐｒｏ／」）において示される。逆エクイレクタングラーマッピングは、たとえば「／」、「３ｄ」、および「ｐｒｏ／」を１または２つのステップに結合することによって、より少ないステップで実行され得る。

［0090］数学的に、マッピング「／」は、正規座標を仮定して、フレームＦ内のピクセルＭ（ｘ，ｙ）が点Ｍ’（θ，φ）において２Ｄパラメトリック面にマッピングされた場合、

と表すことができる。非正規化座標の場合、

である。

［0091］点Ｍ’（θ，φ）から座標Ｍ^３ｄの３Ｄ表面へのマッピング「３ｄ」は、以下のように表すことができる。

［0092］点Ｍ^３ｄからフレームＦへ戻すために、逆変換Ｔ^−１を計算する。

３Ｄ表面Ｓ上の点Ｍ^３ｄ（Ｘ，Ｙ，Ｚ）から、極変換への標準デカルト座標を用いて２Ｄパラメータフレームへ戻すことができる。

更に２ＤフレームＦへ戻すために、

を用いることができる。

［0093］（一般に、極における）特異点に関して、ｘおよびｙが０に近い場合、

を直接設定してよい。ただし、モジュラーケースの場合、特別に対処すべきである。

［0094］図４Ａは、３Ｄ表面からレンダリングされたフレームＧへ点が投影されること（「ｐｒｏ／」）を示す。Ｇにおいてローカルレンダリングフレームから見た点Ｑ’がＰ’に近い場合、表面Ｓに接する平面は、その表面自体によって近似され得る。図４Ｂにおいて、表面Ｑ’上のＱの画像によってＱ”が近似され得ることを示す。

［0095］３Ｄ空間から２Ｄ表面への投影は多くの場合、何らかのエフェクトまたは変化をもたらし、これは、従来の平面符号化に関して得られるものと同様の品質／ビットレートのトレードオフで得られた映像を符号化することが困難であり得る。これらのエフェクトまたは変化は、以下を含んでよい。
‐強度のジオメトリ歪み
・直線が直線ではなくなる。
・直交座標系が直交ではなくなる。
‐不均一なピクセル密度：符号化されるフレーム内のピクセルは必ずしも、符号化される表面上で同じサイズ（すなわち、レンダリング段階の画像において同じサイズ）を表すわけではない。
‐強度の不連続性：フレームレイアウトは、２つの隣接するピクセル間で強度の不連続性をもたらし得る。
‐何らかの周期性がフレーム内に（たとえば１つの境界から対向する境界まで）生じ得る。

［0096］表１は、様々なマッピングに関するいくつかの変化を挙げる。

［0097］以下、全方位映像の符号化および復号を説明するためにＨＥＶＣエンコーダおよびデコーダが主に用いられる。ただし本原理は、他のエンコーダまたはデコーダに適用されてよい。

［0098］図５は、典型的なＨＥＶＣエンコーダ５００を示す。１または複数のピクチャによって映像シーケンスを符号化するために、ピクチャは１または複数のスライスに分割され、各スライスは、１または複数のスライスセグメントを含んでよい。スライスセグメントは、符号化ユニット、予測ユニット、および変換ユニットに組織される。

［0099］本出願において、「再構成」および「復号」という用語は相互置換的に用いられ得る。必ずではないが多くの場合、「再構成」という用語はエンコーダ側で用いられ、「復号」はデコーダ側で用いられる。

［0100］ＨＥＶＣ仕様書は、「ブロック」と「ユニット」とを区別し、「ブロック」は、サンプルアレイにおける特定のエリア（たとえば輝度、Ｙ）を称し、「ユニット」は、全ての符号化色成分（Ｙ、Ｃｂ、Ｃｒ、またはモノクローム）の共在ブロック、シンタックス要素、およびブロックに関連する予測データ（たとえば動きベクトル）を含む。

［0101］符号化の場合、ピクチャは、構成可能なサイズを有する正方形の符号化ツリーブロック（ＣＴＢ）に分割され、符号化ツリーブロックの連続セットは、スライスにグループ化される。符号化ツリーユニット（ＣＴＵ）は、符号化色成分のＣＴＢを含む。ＣＴＢは、符号化ブロック（ＣＢ）に分割する４分木の根であり、符号化ブロックは、１または複数の予測ブロック（ＰＢ）に分割され、変換ブロック（ＴＢ）に分割する４分木の根を形成する。符号化ブロック、予測ブロック、および変換ブロックに対応して、符号化ユニット（ＣＵ）は、予測ユニット（ＰＵ）および木構造セットの変換ユニット（ＴＵ）を含み、ＰＵは、全ての色成分に関する予測情報を含み、ＴＵは、各色成分に関する残差符号化シンタックス構造を含む。輝度成分のＣＢ、ＰＢ、およびＴＢのサイズは、対応するＣＵ、ＰＵ、およびＴＵに適用される。本出願において、「ブロック」という用語は、ＣＴＵ、ＣＵ、ＰＵ、ＴＵ、ＣＢ、ＰＢ、およびＴＢのいずれかを指すように用いられ得る。また、「ブロック」は、Ｈ．２６４／ＡＶＣまたは他の映像符号化規格に記載されるようなマクロブロック、分割、およびサブブロックを指すように、より一般的には様々なサイズのデータのアレイを指すように用いられてもよい。

［0102］典型的なエンコーダ５００において、ピクチャは、後述するようにエンコーダ要素によって符号化される。符号化されるピクチャは、ＣＵのユニットにおいて処理される。各ＣＵは、イントラまたはインターモードのいずれかを用いて符号化される。ＣＵがイントラモードで符号化される場合、イントラ予測を実行する（５６０）。インターモードの場合、運動推定（５７５）および補償（５７０）が実行される。エンコーダは、ＣＵを符号化するためにイントラモードまたはインターモードのどちらを用いるかを決定（５０５）し、予測モードフラグによってイントラ／インター決定を示す。予測残差は、元の画像ブロックから予測されたブロックを引算すること（５１０）によって計算される。

［0103］イントラモードにおけるＣＵは、同じスライス内の再構成された隣接サンプルから予測される。図６Ａに示すように、ＤＣ、平面、および３３の角予測モードを含む、３５のイントラ予測モードのセットがＨＥＶＣにおいて利用可能である。イントラ予測参照は、現在のブロックに隣接する行および列から再構成される。参照は、過去に再構成されたブロックから利用可能なサンプルを用いて水平および垂直方向におけるブロックサイズの２倍以上に及ぶ。角予測モードがイントラ予測に用いられる場合、参照サンプルは、図６Ｂの例に示すように、角予測モードによって示された方向に沿ってコピーされ得る。角予測モードは、本出願において、方向性予測モードとも称される。

［0104］現在のブロックに関して適用可能な輝度イントラ予測モードは、２つの異なるオプションを用いて符号化され得る。適用可能なモードが３つの最確モード（ＭＰＭ）の構成リストに含まれる場合、モードは、ＭＰＭリスト内のインデックスによってシグナリングされる。そうでない場合、モードは、モードインデックスの固定長２値化によってシグナリングされる。３つの最確モードは、上および左の隣接ブロックのイントラ予測モードから導出される。

［0105］インターＣＵの場合、対応する符号化ブロックは、１または複数の予測ブロックに更に分割される。インター予測は、ＰＢレベルで実行され、対応するＰＵは、どのようにインター予測が実行されるかに関する情報を含む。

［0106］動き情報（すなわち、動きベクトルおよび参照ピクチャインデックス）は、２つの方法、すなわち「融合モード」および「高度な動きベクトル予測（ＡＭＶＰ）」でシグナリングされ得る。

［0107］融合モードにおいて、映像エンコーダまたはデコーダは、既に符号化されたブロックに基づいて候補リストを組み立て、映像エンコーダは、候補リスト内の候補の１つに関するインデックスをシグナリングする。デコーダ側において、動きベクトル（ＭＶ）および参照ピクチャインデックスは、シグナリングされた候補に基づいて再構成される。

［0108］ＡＭＶＰにおいて、映像エンコーダまたはデコーダは、既に符号化されたブロックから決定された動きベクトルに基づいて候補リストを組み立てる。映像エンコーダはその後、動きベクトル予測子（ＭＶＰ）を識別するために候補リスト内のインデックスをシグナリングし、動きベクトル差分（ＭＶＤ）をシグナリングする。デコーダ側において、動きベクトル（ＭＶ）は、ＭＶＰ＋ＭＶＤとして再構成される。

［0109］ＨＥＶＣにおいて、動き補償のための動き情報の精度は、輝度成分に関して（クオータペルまたは１／４ペルとも称される）４分の１サンプル、および彩度成分に関して（１／８ペルとも称される）８分の１サンプルである。７タップまたは８タップ補間フィルタは、分数サンプル位置の補間のために用いられ、すなわち、水平および垂直方向の両方におけるサンプル位置全体の１／４、１／２、および３／４が輝度に関してアドレス指定され得る。

［0110］その後、予測残差が変換（５２５）および量子化（５３０）される。量子化された変換係数、ならびに動きベクトルおよび他のシンタックス要素は、ビットストリームを出力するためにエントロピー符号化（５４５）される。エンコーダは、変換をスキップし、４×４ＴＵベースで無変換残差信号に直接量子化を適用してもよい。エンコーダは、変換および量子化の両方を回避してもよく、すなわち残差は、変換または量子化プロセスの適用なしで直接符号化される。直接ＰＣＭ符号化において、予測は適用されず、符号化ユニットサンプルはビットストリームに直接符号化される。

［0111］エンコーダは、更なる予測のための参照を提供するために、符号化されたブロックを復号する。量子化された変換係数は、予測残差を復号するために、逆量子化（５４０）および逆変換（５５０）される。復号された予測残差と予測されたブロックとを結合（５５５）すると、画像ブロックが再構成される。ループ内フィルタ（５６５）は、たとえば符号化アーチファクトを低減するためのデブロッキング／ＳＡＯフィルタリングを実行するために、再構成されたピクチャに適用される。フィルタされた画像は、参照ピクチャバッファ（５８０）に格納される。

［0112］図７は、典型的なＨＥＶＣ映像デコーダ７００のブロック図を示す。典型的なデコーダ７００において、ビットストリームは、後述するようにデコーダ要素によって復号される。映像デコーダ７００は一般に、映像データの符号化の一部として映像復号を実行する、図５に示すような符号化パスと互恵的な復号パスを実行する。

［0113］具体的には、デコーダの入力は、映像エンコーダ５００によって生成され得る映像ビットストリームを含む。ビットストリームは最初に、変換係数、動きベクトル、および他の符号化情報を得るためにエントロピー復号（７３０）される。変換係数は、予測残差を復号するために、逆量子化（７４０）および逆変換（７５０）される。復号された予測残差と予測されたブロックとを結合（７５５）すると、画像ブロックが再構成される。予測されたブロックは、イントラ予測（７６０）または動き補償された予測（すなわちインター予測）（７７５）から得られ得る（７７０）。上述したように、ＡＭＶＰおよび融合モード技術は、動き補償のための動きベクトルを導出するために用いられてよく、これは、参照ブロックのサブ整数サンプルに関する補間値を計算するために補間フィルタを用いてよい。ループ内フィルタ（７６５）は、再構成された画像に適用される。フィルタされた画像は、参照ピクチャバッファ（７８０）に格納される。

［0114］図６Ａおよび図６Ｂに示すように、イントラ予測は、現在のブロックを予測するために過去に再構成された参照ピクセルの因果的形状においてピクセルを利用し、たとえば参照ピクセルは、図６Ｂに示すような方向に沿ってコピーされ得る。

［0115］イントラ直進伝搬モードは、画像および映像内の多くの剛直テクスチャ（たとえば建物、直線エッジを含む物体）の近似に適している。したがって、方向性モードは通常、予測ブロックにわたる画像コンテンツ分布が主な方向を示す場合に効率的である。しかし、エクイレクタングラーマッピングされたコンテンツのように球体表面からワープされた短焦点距離画像または複数の画像の場合、マッピングまたはパースペクティブ歪みによって、物体は歪むことがあり、主な方向は非直曲線を辿る傾向がある。

［0116］図８は、レンダリングされたフレームにおける直線（８２０）が、符号化されるフレームにおいて直線に見えない（８１０）例を示す。具体的には、図８は、現在の予測ブロック（８３０）および対応する参照サンプル（８５０）のローカルマッピングおよびレンダリングを示す。ローカルマッピングおよびレンダリングにおいて、予測ブロック周囲の小部分のみがレンダリングバージョンにマッピングされる。左の画像は、符号化される典型的なエクイレクタングラーフレームＦの切り取られた一部である。右の画像は、典型的なレンダリングされたフレームにおける切り取られた一部であり、予測ブロックのローカルレンダリングバージョン（８４０）を示す。エクイレクタングラーフレームにおける予測ブロック（８３０）の隣接サンプル（８５０）は、レンダリングされたフレームＧにおける隣接エリア（８６０）にマッピングされる。参照フレーム（８７０）は、予測ブロックの中心に中心がある。矢印（８８０）は、レンダリングバージョンが符号化される場合、従来のエンコーダによって選択され得る可能性のある方向性モードを示す。

［0117］直線は、予測ブロック（８３０）においてもはや直線ではなくなるので、ＨＥＶＣにおいて定義されたような方向性イントラ予測は、エクイレクタングラーコンテンツにおける非直曲線を有するブロックのためにはあまり効率が良いとは言えない。

［0118］補償効率を高めるために、全方位映像にイントラ予測を適合することを提案する。特に、イントラ予測子、すなわち、修正されたジオメトリ、たとえばイントラ予測を改善するために符号化されるエクイレクタングラー画像のジオメトリを考慮に入れることによって、予測ブロック内のピクセルを予測するために選択された方向に沿ってコピーされた参照サンプルが選択され得る。

［0119］１つの実施形態において、２ＤフレームＦにおける予測ブロックは、レンダリング空間にマッピングされる。その後、直線イントラ予測方向に基づいて、２Ｄフレーム内の予測ブロックに対応して、レンダリング空間内のブロックにおけるピクセルに関して参照サンプルが計算される。その後、レンダリング空間内の参照サンプルに対応して、２Ｄフレーム内の参照サンプルを特定することができる。

［0120］参照サンプルは、整数サンプル位置、または分数サンプル位置にあってよい。分数サンプル参照サンプルの場合、直線方向性モードの場合と同様、補間が適用され得る。また、参照サンプルは、より良好な予測子を提供する可能性が高い滑らかな信号を伝搬するために、ローパスカーネルを用いて事前フィルタされ得る。

［0121］一般性を損なうことなく、予測ブロックの中心における参照フレームを有する予測ブロックのローカルレンダリングを考える。図９に示すように、現在の予測ブロックの周囲のサンプルＬは、レンダリングされたフレームＧにおけるサンプルＬ”に投影され、現在のブロックは、レンダリングされたブロックに投影され、３Ｄレンダリング表面Ｓに接する区画は、現在のブロックの中心である。

［0122］図１０は、本原理の実施形態に係る、イントラ予測のためのイントラ予測子を特定するための典型的な方法１０００を示す。イントラ予測はエンコーダおよびデコーダの両方で実行されるので、方法１０００は、エンコーダおよびデコーダの両方において用いられ得る。簡単な表記として、エンコーダまたはデコーダのいずれかを称するために「コーダ」を用いる。ＨＥＶＣにおいて、イントラ予測ブロックＢに関して、単一イントラ予測がアクセスされる（１００５）。ステップ１０１０において、コーダは、Ｐ’を計算（９１０）し、その後、ブロックＢの中心Ｐに関するＰ^３ｄを計算する。

コーダはその後、ブロックＢの点Ｐ^３ｄにおいて表面に接する平面Ｇを得る（９２０）。構成によって、Ｐｒｏｊ：Ｐ^３ｄ→Ｐ”＝［００］である。

［0123］ブロックＢ周囲の因果的近隣Ｌに関して、コーダは、対応する近隣Ｌ’、Ｌ^３ｄ、および平面Ｇ上の投影Ｌ”を計算する（１０２０）。

［0124］現在のブロックＢのピクセルＭに関して、コーダは、Ｍ’を計算し、その後Ｍ^３ｄを計算する（１０３０、９１０）。３Ｄ表面上の点Ｍ^３ｄはその後、点Ｍ”において平面Ｇに投影される（９２０）。

［0125］エンコーダにおいて試験される、またはデコーダにおいてビットストリームから復号される方向ｄ”に関して、点Ｍ”について、コーダは、方向ｄ”において点Ｍ”を通過する直線Ｍ”＋ａ＊ｄ”と、Ｖ”における投影された近隣Ｌ”との交点を特定する（１０４０）。

［0126］式（１１）における方向ｄ”は、レンダリング空間における方向であり、２Ｄ符号化または復号フレームにおける方向ｄから導出され得る。方向ｄ”を計算するために、コーダは、Ｑ’を計算し、その後、ピクセルＱ＝Ｐ＋ｅｄに関してＱ^３ｄを計算してよく、ｅは小ステップであり、

であり、点Ｑ”において平面ＧにＱ^３ｄを投影する。

［0127］その後、方向ｄ”は

として計算され得る。レンダリングされたフレームＧにおける全てのピクセルＭ”に同じ方向ｄ”が適用され得る。このアプローチの利点の１つは、ブロック内のパターンがブロック全体で一貫することである。

［0128］符号化または復号されるフレーム内の参照ピクセルを特定するために、Ｖ”が再びＶ^３ｄ内の表面に、その後Ｖ’に投影される（９３０）。

その後、フレームＦにおけるＶの原像として、Ｖの座標を計算する（９４０）。

その結果生じる点は、その後、方向ｄにおけるピクセルＭに関するイントラ予測子として用いられる（１０５０）。

［0129］ブロックのピクセルに関して、ピクセルの位置および方向ｄが与えられると、イントラ予測子は事前計算することができ、その結果は、ルックアップテーブル（ＬＵＴ）に格納され得る。ルックアップテーブルを用いる場合、方法１０００は簡略化され得る。たとえば、ステップ１０１０〜１０４０は、ルックアップテーブルにアクセスすることで置き換えることができ、ステップ１０５０において、予測ブロック内の特定の位置に関する参照サンプルは、ルックアップテーブルに基づいて特定され得る。

［0130］新たなイントラ予測は、ブロックに関するイントラ予測方向に基づいて導出された非直曲線（または変形曲線）に沿ってブロック内のサンプルを予測するものであると分かる。変形曲線は、（アンカー点とも称される）特定の位置、たとえば予測ブロックの中心またはその左角に参照フレームを設定することによって計算され得る。方向ｄ”を導出するために用いられるアンカー点は、他の点、たとえば左上角部から選択されてもよい。図１１Ａは、矢印（１１１０）によって示す、ブロックの中心における特定の方向ｄに関して導出された曲線の例を示す。

［0131］ここで、ローカルレンダリングフレームＧにおける参照サンプルは直線に基づいて選択され、２Ｄ符号化または復号フレームと比べて直進伝搬モードが作用しやすい。逆マッピングに基づいて選択された参照サンプルは、マッピングによって生じた変形を反映する。図１１Ａに示すように、矢印（１１１０）によって示すような方向ｄは、新たなイントラ予測方向を反映するために非直曲線（１１２０、１１３０）に適合される。この実施形態において、参照サンプルおよび参照サンプルにおける方向の両方が適合される。フレームＧにおける方向は、全ての参照サンプルについて同じであり、よってフレームＦにおいて様々である。

［0132］上記において、直線交差を実行するために、フレームＦにおける方向ｄが、レンダリングされたフレームＧにおける方向ｄ”に変換される。他の実施形態において、方向ｄはＧにおいて直接、すなわち現在のブロックの予測の方向として直接ｄ”を符号化するように表され得る。この場合、ローカルレンダリングフレームＧの選択は、既知であり、エンコーダとデコーダとの間で同期されなければならない。

［0133］他の実施形態において、参照サンプルに沿って方向が近似され、エクイレクタングラー領域に直接方向性モードが適用され得る。ここで曲線は、参照サンプル位置において平行であり、図１１Ｂの例に示すように、その後、マッピング関数に依存して変形される。この場合、参照サンプルにおける方向は、フレームＦにおいて同じであるが、フレームＧにおいて異なる。

［0134］この実施形態において、予測の方向は、個々のピクセルＭに関してフレームＦにおいて表される。したがって、ローカルレンダリングフレームＧにおける予測の方向ｄ”を計算するために、コーダはＮ’を計算し、その後、Ｎ＝Ｍ＋ｅｄに関するＮ^３ｄを計算し、ｅは、ブロックのピクセルに関する小ステップである。

その後、点Ｎ”における平面ＧにＮ^３ｄを投影する。

［0135］方向ｄ”は、Ｍ”において計算され得る。

ｄ”は、ピクセルＭ”の位置によって変わるので、様々なサンプルに関するレンダリングされたフレームＧにおける方向ｄ”は同じではない。

［0136］図１２は、本原理の典型的な実施形態に係る、エンコーダ側で全方位映像に適合されたイントラ予測を実行するための典型的な方法１２００を示す。エンコーダは、画像ブロック（１２１０）を入力として受け入れる。エンコーダは、たとえば全方位映像のために適合されたイントラ予測を用いるか否かを示すフラグｗａｒｐｅｄ＿ｉｎｔｒａなどのユーザ入力も入手する。

［0137］ブロックを入手（１２２０）した後、エンコーダは、どの近隣サンプルがイントラ予測のための参照サンプルとして用いられるかを決定（１２３０）する。参照サンプルは、イントラ予測を改善するためにコンテンツを滑らかにするようにフィルタ（１２４０）され、または分数サンプル位置を取得するために補間され得る。フラグｗａｒｐｅｄ＿ｉｎｔｒａ（１２４５）が真である場合、エンコーダは、新たな曲線方向を有効化する。具体的には、エンコーダは、新たな方向を提供するために、たとえば既定のＬＵＴとしてワーピングパラメータを、または上述したように関数「ｆ（）」、「ｐｒｏｊＯ」、または「３ｄ（）」を計算するためのマッピングパラメータを入手（１２５０）してよい。新たな方向は、イントラ予測を実行（１２６０）するために用いられる。ブロックに関するＲＤ（レート歪み）コストが計算（１２７０）され得る。エンコーダは、イントラ予測または他の試験されたイントラ予測モードに基づいて、使用する最適予測モードを決定（１２８０）する。予測ブロックに関して選択された予測モードおよびＲＤコストが出力（１２９０）され得る。エンコーダは、必要に応じて画像内のブロックにわたりループしてよい。エンコーダが新たなイントラ方向を選択すると、エンコーダは、予測されたブロックを形成するために新たなイントラ方向を用いてイントラ予測を実行し、現在のブロックに関する新たなイントラモードおよび予測残差（すなわち現在の予測ブロックと予測されたブロックとの差）を符号化する。

［0138］デコーダ側において、ｗａｒｐｅｄ＿ｉｎｔｒａフラグが真に設定された場合、どの予測モードが設定されたかに基づいて新たなイントラ予測モードが選択され得る。新たな予測モードが選択されると、デコーダは、たとえば上述したように、新たなイントラ予測モードに基づいて、ブロックの復号を続行する。

［0139］シグナリング

［0140］第１の実施形態によると、デコーダは、特定の種類の全方位映像コンテンツに専用である。マッピング機能はデフォルトによってアクティブ化され、すなわち、ブロックは常に、上述した方法の１つを用いて「湾曲した」線を用いて予測される。

［0141］第２の実施形態によると、デコーダは、様々なレイアウトに適合してよい。デコーダは、高レベルシンタックスを介して現在のレイアウトのインデックスを受信する。その後ブロックは、シグナリングされたマッピング機能に従って、上述した方法の１つを用いて「湾曲した」線を用いて予測される。

［0142］他の実施形態によると、マッピング機能は伝送されてよく、デコーダは対応する方向を再現する。その後ブロックは、伝送されたマッピング機能に従って、上述した方法の１つを用いて「湾曲した」線を用いて予測される。

［0143］他の実施形態によると、マッピング機能は、ブロック、スライス、またはシーケンスレベルで直接シグナリングされる。

［0144］他の実施形態によると、変形パラメータは、ブロック、スライス、またはシーケンスレベルで定義されたディクショナリとして伝送される。

［0145］球体に符号化されるフレームをマッピングするために選択された特定のレイアウトは、通常、シーケンスによって固定され、たとえばＳＰＳ（シーケンスパラメータセット）においてシーケンスレベルでシグナリングされ得る。

［0146］マッピング機能に関して、情報を取得するいくつかの方法が用いられ得る。
・エクイレクタングラーフレーム全体にわたる変形をシグナリングするために、デコーダ側にルックアップテーブルが実装され得る。ここでデコーダまたはエンコーダは必ずしも、イントラ予測中にレンダリングされたフレームＧと２ＤフレームＦとの間で投影を実行する必要はなく、変形はフレームＦに直接適用される。
・デコーダは、直線モードを適用するためにフレームＧに投影を再現し、その後、フレームＦに再び投影してよい。
・多数のマッピング機能が存在する。デコーダは、たとえば映像パラメータセット、シーケンスパラメータセット、ピクチャパラメータセットなどのパラメータセットを介して、たとえばビットストリームで伝送されたインデックスに基づいて、主要マッピング機能を決定してよい。

［0147］上述した全方位映像のためのマッピングに加えて、変形は、短焦点距離からも生じ得る。この場合、グローバル焦点距離値および必要な歪みパラメータは、シーケンス全体を駆動する、たとえば映像パラメータセット（ＶＰＳ）またはシーケンスパラメータセット（ＳＰＳ）などの高レベルシンタックスを介して伝導され得る。焦点距離が映像に沿って変化する場合、これらの値は、ピクチャパラメータセットに含まれ得る。他の実施形態によると、情報は、スライスまたはブロックレベルで伝送され得る。

［0148］たとえば予測されたブロックを形成するために因果的参照サンプルの平均値で予測されたブロックを埋めるＤＣモードなど、他の伝搬方法も存在する。この場合、新たな種類のコンテンツがモードの効率を変更することはない。しかし、たとえばＨ．２６５／ＨＥＶＣにおける平面モード、または平面モードＨ．２６４／ＡＶＣなどの高度な技術は、現在のブロック表面の滑らかな予測を生成するために参照サンプル間のピクセル値の変動を利用する。これらのモードに関して、エクイレクタングラーマッピングは、そのようなモードの効率を低下させ得る。

［0149］平面モードの場合、図１３の例に示すように、予測されるブロック内のピクセル値は４つのピクセルに直接依存する。平面モードを全方位映像に適合させるために、垂直および水平方向からのピクセルに頼るのではなく、関連する参照ピクセル位置を指すために、上述したように計算された曲線が用いられ得る。

［0150］新たなツールは、参照サンプル変動を利用し、たとえばＰＤＰＣと呼ばれる位置依存イントラ予測コンビネーション、およびＭＰＩと呼ばれるマルチパラメータイントラ予測などの改善された方法によって予測ブロックを埋める。これらのモードは、方向性モードに関して導出された変形曲線の後に続くピクセルを指すことによって適合され得る。

［0151］図１４は、左上から右下へ−１５°、−３０°、−４５°、−６０°、−７５°、−９０°、−１０５°、−１２０°、−１３５°（０°が水平方向に対応する）の様々な予測角度に関する、エクイレクタングラーマッピングに関して提案された新たな方向性のイントラモードを用いる予測の例を示す。その結果生じる予測されたブロックは、図１５に示す位置におけるエクイレクタングラーフレームから計算される。曲線はエクイレクタングラーマッピングのジオメトリと一致することが分かる。

［0152］予測ブロックにおける個々のピクセルに関して、Ｌ形状からコピーするための参照サンプルが上述した方法によって与えられる。マッピングが一定かつ既知である場合、関数またはＬＵＴは、予測プロセスを迅速化するために事前計算され得る。表２は、４５°の予測角度に関する典型的なＬＵＴの一部を示し、ＬＵＴ内の位置（ｘ，ｙ）におけるエントリは、ブロック内の位置（ｘ，ｙ）におけるサンプルについて用いるための参照サンプルの一部を表す。ＬＵＴに基づいて、参照サンプルはコピーされ、予測されたブロックを形成するために予測ブロック内の対応するサンプル位置に伝搬され得る。参照サンプルの位置を表す数字は、図１６に示される。図１６に示すように、負の値は左列の参照サンプルに対応し、正の値は上段の参照サンプルに対応する。

［0153］様々なブロックサイズに関して同じルックアップテーブルが用いられ得る。エンコーダまたはデコーダは、特定のブロック位置および方向に関して最大ブロックサイズの１つのルックアップテーブルしか必要とせず、最大ブロックサイズよりも小さいブロックに関するルックアップテーブルは、最大サイズのＬＵＴの左上部分を用いて得られ得る。

［0154］エクイレクタングラーマッピングの場合、ルックアップテーブルは、ブロックの縦の位置のみを用いて説明され得る。また、ルックアップテーブルは、画像の第１の半分のみに関して説明され、第２の半分は、画像の第１の半分に関するインデックスを左右反転することによって推定される。

［0155］予測ブロックにおける位置と参照サンプル位置との対応性は、たとえば二次関数を用いて上記ＬＵＴを近似する解析関数によって表すこともできる。近似は常に正確であるわけではない。ＬＵＴまたは解析関数は、イントラ予測方向、予測ブロックのブロック位置／サイズを前提として、エンコーダまたはデコーダにおいて導出または事前計算され得る。したがってエンコーダは、イントラ予測ブロックに関する単一の方向性モードを伝送するだけでよいが、イントラ予測は、イントラ予測ブロックに関してエンコーダまたはデコーダにおける様々な変形曲線を辿り得る。

［0156］提案された方法は、古典的に用いられる直線方向ではなく曲線的イントラ伝搬を画定する一般原理に頼る。いくつかの実施形態によると、曲線的伝搬は、既存のイントラモードに追加される新たな方向性イントラモードとして示され得る。他の実施形態において、これらは、既存のコーデックにおける対応するイントラモードに代替し得る。

［0157］たとえば、二次曲線は、映像の種類、考慮される予測ブロックの位置およびサイズに依存して、他のイントラモードとして追加され得る。映像が広角／短焦点距離を用いたショットであった他の例において、何らかの歪みが直線を変形させ得る。歪みを低減させるために、場合によっては円筒補正が用いられる。映像が歪んでいる場合、曲線的イントラ予測は多くの場合、特に境界線上の変形した曲線に沿って参照ピクセルを伝搬することによって、圧縮効率を高めることができる。

［0158］短焦点距離映像の場合、歪みに関する古典的モデルは、Ｂｒｏｗｎ−Ｃｏｎｒａｄｙモデルを用いることであり、ここで２Ｄ＋３Ｄの歪みが単純な２Ｄ関数（ｘｄ，ｙｄ）＝ｇ（ｘ_ｕ，ｙ_ｕ，Ｓ）に合成され、式中、（ｘｄ，ｙｄ）は歪み後の（フレームＦにおける）ピクセル座標であり、（ｘ_ｕ，ｙ_ｕ）は歪み前の（フレームＧにおける）ピクセル座標である。歪み関数ｇ（）は、合成ｇ＝ｆ^−１ｏ３ｄ^−１ｏｐｒｏｊ^−１である。歪み関数ｇ（）は、Ｂｒｏｗｎ−Ｃｏｎｒａｄｙモデルを用いて得られ得る。

［0159］関数ｇ^−１は、通常、ピクセルが、対応する歪みのないピクセルにマッピングされるオフラインプロセスとして、ｇから復元され得、上記実施形態に適用する。逆関数ｇ^−１は、常に分析的に可逆であるわけではなく、数値方法またはＬＵＴを用いて求めることができる。

［0160］留意すべき点として、本実施形態において、予測ブロックに関して単一のイントラ予測方向が伝送される。単一方向に基づいて、エンコーダまたはデコーダは、上述したようなマッピングおよびブロックの位置に基づくイントラ予測のために用いられる、図１１Ａおよび図１１Ｂに示すような変形曲線を導出し得る。ブロックの位置はビットストリームにおいて既に示されているので、ブロックの位置に関して追加のシンタックスは必要ではない。マッピングは一般に、頻繁に変化しない。したがってマッピングは、ピクチャレベル、シーケンスレベル、または映像レベルで伝送されてよく、これは非常に小さなオーバヘッドしかもたらさない。よって、曲線に関するパラメータはブロックレベルで伝送される必要があり得るため、本実施形態は、イントラ予測が実行され得る曲線に関するパラメータを符号化するよりも効率的である。

［0161］上記において、全方位映像に関して、エクイレクタングラーマッピングを用いる、すなわち３Ｄ表面が球体であると考えられる様々な実施形態を説明する。留意すべき点として、本原理は、凸面を有する他の３Ｄ表面、および限定されるものではないがたとえば非常に大きな視野（魚眼レンズのように非常に小さな焦点距離）で取得された平面画像など他の種類の映像に適用することができる。一般には、本原理は、境界付近で画像を湾曲させる傾向を持つ非常に短い焦点距離で捕捉されたシーンまたは符号化される平面フレームへの表面のマッピングに起因する、歪みコンテンツを含む画像／映像に適用され得る。

［0162］図１７は、本原理の典型的な実施形態の様々な態様が実装され得る典型的なシステム１７００のブロック図を示す。システム１７００は、後述する様々な構成要素を含むデバイスとして具体化されてよく、上述したプロセスを実行するように構成される。そのようなデバイスの例は、ＨＭＤ、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナル映像記録システム、接続された家電機器、およびサーバを含むがこれに限定されない。システム１７００はセンサを備えてよく、上述した典型的な映像システムを実装するために、図１７に示し当業者に知られるように通信チャネルを介して他の同様のシステムに通信可能に結合され得る。

［0163］システム１７００は、上述したように様々なプロセスを実行するために、そこにロードされた命令を実行するように構成された少なくとも１つのプロセッサ１７１０を含んでよい。プロセッサ１７１０は、埋込型メモリ、入力出力インタフェース、および当該技術において既知であるような他の様々な回路を含んでよい。システム１７００は、少なくとも１つのメモリ１７２０（たとえば揮発性メモリデバイス、不揮発性メモリデバイス）も含んでよい。システム１７００は、ＥＥＰＲＯＭ、ＲＯＭ、ＰＲＯＭ、ＲＡＭ、ＤＲＡＭ、ＳＲＡＭ、フラッシュ、磁気ディスクドライブ、および／または光ディスクドライブを含むがこれに限定されない不揮発性メモリを含み得るストレージデバイス１７４０を更に含んでよい。ストレージデバイス１７４０は、非限定的な例として、内部ストレージデバイス、取付け型ストレージデバイス、および／またはネットワークアクセス可能ストレージデバイスを備えてよい。システム１７００は、符号化された映像または復号された映像を提供するためにデータを処理するように構成されたエンコーダ／デコーダモジュール１７３０も含んでよい。

［0164］エンコーダ／デコーダモジュール１７３０は、符号化および／または復号機能を実行するためにデバイスに含まれ得るモジュール（複数も可）を表す。エンコーダ５００およびデコーダ７００は、エンコーダ／デコーダモジュール１７３０において用いられ得る。既知であるように、デバイスは、符号化および復号モジュールの１または両方を含んでよい。またエンコーダ／デコーダモジュール１７３０は、システム１７００の別々の要素として実装されてよく、あるいは当業者に知られるようにハードウェアとソフトウェアとの組み合わせとしてプロセッサ１７１０に組み込まれてもよい。

［0165］システム１７００は、ディスプレイ（１７９０）を更に含んでよく、あるいは通信チャネルを介してディスプレイに通信可能に結合され得る。ディスプレイは、たとえばＯＬＥＤまたはＬＣＤタイプである。ディスプレイは、多くの場合大きなサイズである没入型（投影）壁であってもよい。

［0166］システム１７００は更に、タッチ表面１７８０（たとえばタッチパッドまたは触覚スクリーン）およびカメラ１７７０を備えてよい。プロセッサ１７１０は、システム１７００の一部であってもそうでなくてもよいセンサから受信した信号を処理してよい。センサからの測定値のいくつかは、システム１７００またはシステム１７００に接続された他のデバイスの姿勢を計算するために用いられ得る。カメラ１７７０は、画像処理に関して環境の画像を捕捉し得る。プロセッサ１７１０は、図１において説明したような前処理および後処理機能も実行してよい。

［0167］上述した様々なプロセスを実行するためにプロセッサ１７１０にロードされるプログラムコードは、ストレージデバイス１７４０に格納され、その後、プロセッサ１７１０による実行のためにメモリ１７２０にロードされ得る。本原理の典型的な実施形態によると、プロセッサ（複数も可）１７１０、メモリ１７２０、ストレージデバイス１７４０、およびエンコーダ／デコーダモジュール１７３０の１または複数は、上述したプロセスの実行中、入力映像、ビットストリーム、等式、式、マトリックス、変数、動作、および動作ロジックを含むがこれに限定されない様々な項目の１または複数を格納してよい。

［0168］システム１７００は、通信チャネル１７６０を介して他のデバイスとの通信を可能にする通信インタフェース１７５０も含んでよい。通信インタフェース１７５０は、通信チャネル１７６０からのデータを送受信するように構成されたトランシーバを含んでよいが、これに限定されない。通信インタフェースは、モデムまたはネットワークカードを含んでよいがこれに限定されず、通信チャネルは、有線および／または無線媒体内に実装され得る。システム１７００の様々な構成要素は、内部バス、ワイヤ、および印刷回路基板を含むがこれに限定されない様々な適切な接続を用いて互いに接続または通信可能に結合され得る。

［0169］本原理に係る典型的な実施形態は、プロセッサ１７１０によって実装されるコンピュータソフトウェアによって、またはハードウェアによって、またはハードウェアとソフトウェアとの組み合わせによって実行され得る。非限定的な例として、本原理に係る典型的な実施形態は、１または複数の集積回路によって実装され得る。メモリ１７２０は、技術環境に適した任意の種類のものであってよく、非限定的な例としてたとえば光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリおよび取外し可能メモリなど任意の適当なデータストレージ技術を用いて実装され得る。プロセッサ１７１０は、技術環境に適した任意の種類のものであってよく、非限定的な例としてマイクロプロセッサ、汎用コンピュータ、専用コンピュータ、およびマルチコアアーキテクチャに基づいたプロセッサの１または複数を包含してよい。

［0170］様々な方法が上述され、方法の各々は、説明された方法を実現するための１または複数のステップまたはアクションを備える。方法の適切な動作のために特定の順序のステップまたはアクションが必要とされない限り、特定のステップおよび／またはアクションの順序および／または使用は、変更または結合されてよい。

［0171］本明細書で説明される実装は、たとえば方法またはプロセス、装置、ソフトウェアプログラム、データストリーム、または信号に実装され得る。単一形式の実装の文脈でしか説明されない（たとえば方法としてのみ説明される）場合でも、説明される特徴の実装は、他の形式（たとえば装置またはプログラム）で実装されてもよい。装置は、たとえば適当なハードウェア、ソフトウェア、およびファームウェアに実装され得る。方法はたとえば、たとえばコンピュータ、マイクロプロセッサ、集積回路、またはプログラマブル論理デバイスを含む、一般に処理デバイスを指すたとえばプロセッサなどの装置に実装され得る。またプロセッサは、たとえばコンピュータ、携帯電話、ポータブル／パーソナルデジタルアシスタント（「ＰＤＡ」）、およびエンドユーザ間での情報の通信を容易にする他のデバイスなどの通信デバイスも含む。

［0172］本原理の「１つの実施形態」または「実施形態」または「１つの実装」または「実装」、ならびにそれらの他の変形例への言及は、実施形態に関して説明される特定の特徴、構造、特性などが、本原理の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書を通して様々な箇所に見られる、「１つの実施形態において」または「実施形態において」または「１つの実装において」または「実装において」といった表現、ならびに他の任意の変形例の出現は、必ずしも全てが同じ実施形態を指すわけではない。

［0173］また、本出願またはクレームは、様々な情報を「決定すること」に言及し得る。情報を決定することは、たとえば情報を推定すること、情報を計算すること、情報を予測すること、または情報をメモリから取得することの１または複数を含んでよい。

［0174］また、本出願またはクレームは、様々な情報に「アクセスすること」に言及し得る。情報にアクセスすることは、たとえば情報を受信すること、情報を（たとえばメモリから）取得すること、情報を格納すること、情報を処理すること、情報を伝送すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、または情報を推定することの１または複数を含んでよい。

［0175］また、本出願またはクレームは、様々な情報を「受信すること」に言及し得る。「受信すること」は、「アクセスすること」と同様、幅広い表現であることが意図される。情報を受信することは、たとえば、情報にアクセスすること、または情報を（たとえばメモリから）取得することの１または複数を含んでよい。また「受信すること」は一般に、たとえば情報を格納すること、情報を処理すること、情報を伝送すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、または情報を推定することなどの動作中に何かと必要とされる。

［0176］当業者には明らかであるように、実装は、たとえば格納または伝送され得る情報を搬送するためにフォーマット化された様々な信号を生成してよい。情報はたとえば、方法を実行するための命令、または説明された実装の１つによって生成されたデータを含んでよい。たとえば信号は、説明された実施形態のビットストリームを搬送するためにフォーマット化され得る。そのような信号はたとえば、（たとえばスペクトルの無線周波数部分を用いて）電磁波として、またはベースバンド信号としてフォーマット化され得る。フォーマット化は、たとえばデータストリームを符号化し、符号化されたデータストリームによって搬送波を変調することを含んでよい。信号が搬送する情報はたとえば、アナログまたはデジタル情報であってよい。信号は、既知であるように、様々な有線または無線リンクを介して伝送され得る。信号は、プロセッサ可読媒体に格納され得る。

Claims

映像データを符号化する方法であって、
符号化に適した第１のフォーマットで表現され、第２のフォーマットでレンダリングするためのピクチャの第１のブロックに関するイントラ予測のための方向性モードにアクセスすること（１００５）と、
前記第１のブロックに隣接する再構成ブロックにおける複数の参照サンプルを決定すること（１０５０、１２３０）と、
前記第１のブロックに関する予測されたブロックを形成するために、前記アクセスされた方向性モードおよび前記第１のフォーマットと前記第２のフォーマットとの間のマッピングに基づく非直曲線に沿って、前記複数の参照サンプルの各々を前記第１のブロック内のサンプル位置のセットへ伝搬すること（１２６０）と、
前記方向性モードを符号化することと、
前記第１のブロックと前記予測されたブロックとの差を符号化することと、
を備える、方法。
映像データを符号化する装置（１７００）であって、
少なくとも１つのメモリと、
符号化に適した第１のフォーマットで表現され、第２のフォーマットでレンダリングするためのピクチャの第１のブロックに関するイントラ予測のための方向性モードにアクセスし、
前記第１のブロックに隣接する再構成ブロックにおける複数の参照サンプルを決定し、
前記第１のブロックに関する予測されたブロックを形成するために、前記アクセスされた方向性モードおよび前記第１のフォーマットと前記第２のフォーマットとの間のマッピングに基づく非直曲線に沿って、前記複数の参照サンプルの各々を前記第１のブロック内のサンプル位置のセットへ伝搬し、
前記方向性モードを符号化し、
前記第１のブロックと前記予測されたブロックとの差を符号化する
ように構成された１または複数のプロセッサと、
を備える、装置。
前記第１のフォーマットと前記第２のフォーマットとの間のマッピングは、ビットストリームでシグナリングされる、請求項１に記載の方法または請求項２に記載の装置。
映像データを復号する方法であって、
デコーダ出力のために第１のフォーマットで表現されたピクチャであって、復号されたバージョンを第２のフォーマットでレンダリングするためのピクチャの第１のブロックに関するイントラ予測のための方向性モデルにアクセスすること（１００５）と、
前記第１のブロックに隣接する復号されたブロックにおける複数の参照サンプルを決定すること（１０５０）と、
前記第１のブロックに関する予測されたブロックを形成するために、前記アクセスされた方向性モードおよび前記第１のフォーマットと前記第２のフォーマットとの間のマッピングに基づく非直曲線に沿って、前記複数の参照サンプルの各々を前記第１のブロック内のサンプル位置のセットへ伝搬することと、
前記予測されたブロックを用いて前記第１のブロックを復号することと、
を備える、方法。
映像データを復号する装置（１７００）であって、
少なくとも１つのメモリと、
デコーダ出力のために第１のフォーマットで表現されたピクチャであって、復号されたバージョンを第２のフォーマットでレンダリングするためのピクチャの第１のブロックに関するイントラ予測のための方向性モデルにアクセスし、
前記第１のブロックに隣接する復号されたブロックにおける複数の参照サンプルを決定し、
前記第１のブロックに関する予測されたブロックを形成するために、前記アクセスされた方向性モードおよび前記第１のフォーマットと前記第２のフォーマットとの間のマッピングに基づく非直曲線に沿って、前記複数の参照サンプルの各々を前記第１のブロック内のサンプル位置のセットへ伝搬し、
前記予測されたブロックを用いて前記第１のブロックを復号するように構成された１または複数のプロセッサと、
を備える、装置。
前記ピクチャの前記復号されたバージョンは、前記マッピングに対応する逆マッピングによって表示ピクチャを生成するために用いられる、請求項４に記載の方法または請求項５に記載の装置。
前記第１のブロックにおける第１のサンプル位置を、前記ピクチャ内の前記第１のブロックに対応するレンダリング空間内の第２のブロックにおける第２のサンプル位置へマッピングすること（９１０、９２０）と、
前記第２のサンプル位置および前記方向性モードに基づいて、前記レンダリング空間内の前記第２のブロックに隣接する第３の位置を決定することと、
前記ピクチャ内の前記第１のブロックに隣接する第４の位置へ前記第３の位置をマッピングすること（９３０、９４０）と、
を更に備え、またはそのために更に構成され、
前記第４の位置におけるサンプルは、前記ブロックにおける前記第１のサンプル位置を予測するための参照サンプルとして用いられる、請求項１、３、４、および６のいずれか１項に記載の方法、または請求項２、５、および６のいずれか１項に記載の装置。
前記方向性モードに対応する方向は、前記レンダリング空間において他の方向に変換され、前記第２のブロックに隣接する第３の位置を決定することは、前記他の方向に基づく、請求項７に記載の方法または請求項７に記載の装置。
前記方向性モードおよび前記ピクチャにおける前記第１のブロックの位置およびサイズに基づいて、予測される前記第１のブロック内のサンプル位置を対応する参照サンプル位置に関連付けるルックアップテーブルにアクセスすること
を更に備える、請求項１、３、４、および６〜８のいずれか１項に記載の方法、またはそのために更に構成される、請求項２および５〜８のいずれか１項に記載の装置。
第２のブロックに関するルックアップテーブルは、前記第２のブロックが前記第１のブロックよりも小さい場合、前記第１のブロックに関する前記ルックアップテーブルの左上部分である、請求項９に記載の方法または請求項９に記載の装置。
前記方向性モードおよび前記ピクチャにおける前記第１のブロックの位置およびサイズに基づいて、予測される前記第１のブロック内のサンプル位置を対応する参照サンプル位置に関連付ける関数の１または複数のパラメータにアクセスすることを更に備える、請求項１、３、４、および６〜１０のいずれか１項に記載の方法、またはそのために更に構成される、請求項２および５〜１０のいずれか１項に記載の装置。
符号化された映像を表現するビットストリームであって、
符号化に適した第１のフォーマットで表現され、第２のフォーマットでレンダリングするためのピクチャの第１のブロックに関して符号化されたイントラ予測のための方向性モードと、
前記ピクチャの前記第１のブロックと前記第１のブロックに関する予測されたブロックとの間の差の符号化と、
を備え、
前記予測されたブロックは、非直曲線に沿って、複数の参照サンプルの各々を前記第１のブロック内のサンプル位置のセットへ伝搬することによって形成され、
前記非直曲線は、前記アクセスされた方向性モードおよび前記第１のフォーマットと前記第２のフォーマットとの間のマッピングに基づき、
前記複数の参照サンプルは、前記第１のブロックに隣接する再構成ブロック内にある、ビットストリーム。
コンピュータプログラムが１または複数のプロセッサによって実行されると、請求項１、３、４、および６〜１１のいずれか１項に記載の方法を実行するためのソフトウェアコード命令を備える、コンピュータプログラム製品。
コンピュータによって実行されると、請求項１、３、４、および６〜１１のいずれか１項に記載の方法を前記コンピュータに実行させる命令を備える、コンピュータ可読媒体。