JP2019534600A - 適応型イントラ最確モードを用いた全方位映像符号化のための方法および装置 - Google Patents

適応型イントラ最確モードを用いた全方位映像符号化のための方法および装置 Download PDF

Info

Publication number
JP2019534600A
JP2019534600A JP2019512885A JP2019512885A JP2019534600A JP 2019534600 A JP2019534600 A JP 2019534600A JP 2019512885 A JP2019512885 A JP 2019512885A JP 2019512885 A JP2019512885 A JP 2019512885A JP 2019534600 A JP2019534600 A JP 2019534600A
Authority
JP
Japan
Prior art keywords
intra prediction
block
prediction modes
mode
prediction mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019512885A
Other languages
English (en)
Other versions
JP2019534600A5 (ja
JP7043148B2 (ja
Inventor
ギャルピン,フランク
ラケイプ,ファビアン
ヴィラール,ティエリー
Original Assignee
インターデジタル ヴイシー ホールディングス, インコーポレイテッド
インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ヴイシー ホールディングス, インコーポレイテッド, インターデジタル ヴイシー ホールディングス, インコーポレイテッド filed Critical インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Publication of JP2019534600A publication Critical patent/JP2019534600A/ja
Publication of JP2019534600A5 publication Critical patent/JP2019534600A5/ja
Application granted granted Critical
Publication of JP7043148B2 publication Critical patent/JP7043148B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

全方位映像において、いくつかのイントラ予測方向のみがイントラ予測に関係し得る。たとえば、エクイレクタングラーマッピングから生成された映像の場合、水平方向のみが、極周囲のイントラ予測に関係し得る。圧縮効率を高めるために、フレーム内の符号化または復号されるブロックの位置に基づいて、可能な方向の数を低減することが提案される。様々な実施形態において、ジオメトリ歪みに依存するイントラ方向の減少を考慮に入れるために、MPMの導出が適合され得る。符号化方法は、全方位映像におけるブロックを見積もるためのモードの数を低減するためにも適合され得る。また、イントラ方向を表すシンタックス要素の符号化も改善され得る。【選択図】図19A−19B−19C−19D

Description

本発明の実施形態は、一般に、映像符号化および復号のための方法および装置に関し、より具体的には、適応型イントラ最確モードによる映像符号化および復号のための方法および装置に関する。
昨今、利用可能な大視野コンテンツ(最大360°)は増加している。そのようなコンテンツは、たとえば頭部搭載型ディスプレイ(HMD)、スマートグラス、PCスクリーン、タブレット、スマートフォンなどの没入型表示デバイスにおいてコンテンツを視聴するユーザによって完全に可視ではない可能性がある。すなわち、所与の瞬間に、ユーザはコンテンツの一部しか見ていないことがある。しかし、ユーザは一般に、たとえば頭部運動、マウス運動、タッチスクリーン、音声などの様々な手段によってコンテンツ内で操縦することができる。一般に、このコンテンツを符号化および復号することが望ましい。
本原理の一般態様によると、映像データを符号化する方法は、ピクチャのブロックにアクセスすることと、ブロックに関する利用可能なイントラ予測モードのセットからイントラ予測モードを決定することであって、セット内の利用可能なイントラ予測モードの数は、ブロックの位置に基づくことと、決定されたイントラ予測モードを用いて、ブロックを符号化することとを備える。
本原理の他の態様によると、映像データを復号する方法は、ピクチャのブロックに関する利用可能なイントラ予測モードのセットからイントラ予測モードを決定することであって、セット内の利用可能なイントラ予測モードの数は、ブロックの位置に基づくことと、決定されたイントラ予測モードを用いて、ブロックを復号することとを備える。
本原理の他の態様によると、映像データを符号化するための装置は、少なくとも1つのメモリと、1または複数のプロセッサとを備え、1または複数のプロセッサは、ピクチャのブロックにアクセスし、ブロックに関する利用可能なイントラ予測モードのセットからイントラ予測モードを決定し、ここで、セット内の利用可能なイントラ予測モードの数はブロックの位置に基づき、決定されたイントラ予測モードを用いて、ブロックを符号化するように構成される。
本原理の他の態様によると、映像データを復号するための装置は、少なくとも1つのメモリと、1または複数のプロセッサとを備え、1または複数のプロセッサは、ピクチャのブロックに関する利用可能なイントラ予測モードのセットからイントラ予測モードを決定し、ここで、セット内の利用可能なイントラ予測モードの数はブロックの位置に基づき、決定されたイントラ予測モードを用いて、ブロックを復号するように構成される。
本原理の他の態様によると、ビットストリームは、ピクチャのブロックを表現する符号化データと、ブロックに関する利用可能なイントラ予測モードのセットのうちのイントラ予測モードを表現する符号化データとを含むようにフォーマット化され、セット内の利用可能なイントラ予測モードの数は、ブロックの位置に基づき、ブロックは、イントラ予測モードを用いて符号化される。
セット内の利用可能なイントラ予測モードの数は、ブロックの垂直位置に依存してよい。1つの実施形態において、ブロックが第2のブロックよりもピクチャの中心から垂直方向に離れている場合、そのブロックに関する利用可能なイントラ予測モードの数は、第2のブロックに関する利用可能なイントラ予測モードの数よりも小さい。
利用可能なイントラ予測モードにおける2つの隣接するイントラ予測モード間の角度差は、ブロックの位置に基づいてよい。
実施形態によると、ブロックに関する第1の最確モードは、隣接ブロックのイントラ予測モードに基づいて導出され得る。ブロックに関する第2の最確モードは、第1の最確モードに基づいて導出されてよく、第1の最確モードと第2の最確モードとの間の角度差は、ブロックの位置に基づく。ブロックに関するイントラ予測モードは、第1の最確モードおよび第2の最確モードの1つであるように選択され得る。
ブロックのイントラ予測モードが最確モードの1つである場合、ブロックに関してMPMインデックスが符号化される。そうでない場合、ブロックのイントラ予測モードは、固定長コードを用いて符号化されてよく、固定長コードの長さは、セット内の利用可能なイントラ予測モードの数に基づく。セット内の利用可能なイントラ予測モードの数がブロックの垂直位置に基づく場合、固定長コードの長さは、ブロックの垂直位置に依存する。ブロックの垂直位置は、たとえばブロックの中心または角など、ブロック上の点の位置として決定され得る。
ピクチャ内に第1のブロックおよび第2のブロックがあり、第1のブロックに関する利用可能なイントラ予測モードの第1のセットが、第2のブロックに関する利用可能なイントラ予測モードの第2のセットとは異なる場合、利用可能なイントラ予測モードの第1のセットにおける2つの隣接するイントラ予測モード間の第1の角度差は、利用可能なイントラ予測モードの第2のセットにおける2つの隣接するイントラ予測モード間の第2の角度差と同じであってよい。
ピクチャ内に第1のブロックおよび第2のブロックがあり、第1のブロックに関する利用可能なイントラ予測モードの第1のセットが、利用可能なイントラ予測モードの第2のセットとは異なる場合、第1のブロックに関する利用可能なイントラ予測モードの第1のセットは、連続したイントラ予測モードインデックスの第1のセットによって表されてよく、第2のブロックに関する利用可能なイントラ予測モードの第2のセットもまた、連続したイントラ予測モードインデックスの第2のセットによって表され得る。1つの実施形態において、利用可能なイントラ予測モードの第1のセットおよび利用可能なイントラ予測モードの第2のセットにおける同じイントラ予測モードインデックスは、同じイントラ予測モードに対応する。
ブロックに関するセット内の利用可能なイントラ予測モードの数をブロックの位置に関連付けるためにルックアップテーブルが用いられ得る。ルックアップテーブルの使用は、上記プロセスを簡略化および迅速化させ得る。
ブロックに関するセット内の利用可能なイントラ予測モードの数は、ビットストリームにおいて示され得る。したがって、デコーダは、ブロックに関するセット内の利用可能なイントラ予測モードの数をビットストリームから直接得ることができ、デコーダ側で数を計算する必要がない。
本実施形態は、上述した方法に従って映像データを符号化または復号するための装置も提供する。本実施形態は、上述した方法に従って生成されたビットストリームを伝送するための装置も提供する。
本実施形態は、上述した方法に従って映像データを符号化または復号するための命令が格納されたコンピュータ可読記憶媒体も提供する。本実施形態は、上述した方法に従って生成されたビットストリームが格納されたコンピュータ可読記憶媒体も提供する。
本原理の実施形態に係る、全方位映像を符号化および復号するための典型的なシステムを示す。 図2Aは、エクイレクタングラー投影を用いて典型的な球体表面Sが2DフレームFにマッピングされることを示し、図2Bは、キューブマッピングを用いて典型的なキューブ表面が図2Cに示すような2Dフレームにマッピングされることを示す。 典型的な逆エクイレクタングラーマッピングを示す。 図4Aは、3D表面からレンダリングされたフレームGへ点が投影されることを示し、図4Bは、投影の近似を示す。 典型的なHEVC映像エンコーダのブロック図を示す。 図6Aは、HEVCにおいて利用可能な35のイントラ予測モードのセットを示し、図6Bは、angular予測モードによって示された方向に沿って参照サンプルがコピーされることを示す。 典型的なHEVC映像デコーダのブロック図を示す。 レンダリングされたフレームにおける直線が、符号化されるフレームにおいて直線に見えない例を示す。 本原理の典型的な実施形態に係る、イントラ予測モードを符号化または復号するためのMPMリストを適合させるための典型的な方法を示す。 図10Aは、x‐y座標系における正規化2Dフレームを示し、図10Bは、エクイレクタングラーマッピングに関する典型的なワーピングインデックス演繹を示す。 図11Aは、本原理の実施形態に係る、変換「T」を計算するための典型的なワークフローを示し、図11Bは、本原理の実施形態に係る、変換「T」を計算するための典型的なワークフローを示す。 本原理の実施形態に係る、エクイレクタングラーマッピングが用いられる場合、隣接する左のブロックに基づいてMPMを得るための典型的なプロセスを示す。 隣接する左のブロックLも赤道上にある、赤道上の典型的な現在のブロックCを示す。 図14Aは、キューブマッピングの例を示し、図14Bは、エッジにおける方向変化の例を示す。 全方位ピクチャの典型的なエクイレクタングラーレイアウト、および垂直座標に沿った参照のローカルフレームの展開を示す。 エクイレクタングラー映像の場合における、Y軸に沿った様々な位置からの典型的な方向変形を示す。 JVET(Joint Video Exploration Team)のjoint explorationソフトウェア(JEM)におけるイントラ方向モードを示す。 本原理の典型的な実施形態に係る、水平線の上下の利用可能なイントラ予測モードの数を示す。 本原理の典型的な実施形態に係る、a=1、0.5、0.25、および0.125に関して利用可能なイントラ予測モードを計算するための例を提供する。 本原理の典型的な実施形態に係る、方向のグループ分けおよびイントラ方向の再順序付けの例を示す。 図21Aは、本原理の実施形態に係る、MPMリストを用いて現在のブロックに関するイントラ予測モードを符号化または復号するための典型的な方法を示し、図21Bは、本原理の実施形態に係る、固定長コードを用いて現在のブロックに関するイントラ予測モードを符号化または復号するための典型的な方法を示す。 重度の歪みの場合に、典型的なフレームにわたり直線イントラモードがどのように変化するかを示す。 長方形フレームにマッピングされた典型的な非正方形キューブを示す。 本原理の典型的な実施形態の様々な態様が実装され得る典型的なシステムのブロック図を示す。 本原理の特定の実施形態に係るシステムの第1の実施形態を表す。 本原理の特定の実施形態に係るシステムの第1の実施形態を表す。 本原理の特定の実施形態に係るシステムの第1の実施形態を表す。 本原理の特定の実施形態に係るシステムの第1の実施形態を表す。 本原理の特定の実施形態に係るシステムの第1の実施形態を表す。 本原理の特定の実施形態に係るシステムの第1の実施形態を表す。 本原理に係るシステムの第1の実施形態を表す。 本原理に係るシステムの第1の実施形態を表す。 本原理に係る没入型映像レンダリングデバイスの第1の実施形態を表す。 本原理に係る没入型映像レンダリングデバイスの第1の実施形態を表す。 本原理に係る没入型映像レンダリングデバイスの第1の実施形態を表す。
大視野コンテンツは、とりわけ3次元コンピュータグラフィックイメージシーン(3D CGIシーン)、点群、または没入型映像であってよい。そのような没入型映像を意図するために、たとえば仮想現実(VR)、360、パノラマ、4π、ステラジアン、没入型、全方位、大視野など多数の用語が用いられ得る。
没入型映像は一般に、「通常の」映像のようにピクセル(すなわち色情報の要素)の2次元アレイである長方形フレーム上に符号化された映像を指す。多数の実装において、以下のプロセスが実行され得る。レンダリングのために、フレームは最初に、マッピング表面(たとえば球体、キューブ、ピラミッド)とも呼ばれる凸型ボリュームの内側表面にマッピングされ、次に、このボリュームの一部が仮想カメラによって捕捉される。仮想カメラによって捕捉された画像は、没入型表示デバイスのスクリーンにレンダリングされる。立体映像は、1または2つの長方形フレーム上に符号化され、デバイス特性に従って2つの仮想カメラによって捕捉されるように結合される2つのマッピング表面に投影される。
ピクセルは、フレーム内のマッピング関数に従って符号化され得る。マッピング関数は、マッピング表面に依存してよい。同じマッピング表面に関して、いくつかのマッピング関数が可能である。たとえば、キューブの面は、フレーム表面内の様々なレイアウトに従って構成され得る。球体は、たとえばエクイレクタングラー投影またはグノモン投影に従ってマッピングされ得る。選択された投影関数の結果生じるピクセルの組織化は、直線連続性、正規直交ローカルフレーム、ピクセル密度を修正または乱し、時間および空間における周期性をもたらす。これらは、映像を符号化および復号するために用いられる一般特徴である。既存の符号化および復号方法は通常、没入型映像の特異性を考慮に入れることがない。実際、没入型映像は360°映像であるので、たとえばパニングによって、シーンのコンテンツが変化しない間も大量のデータが符号化されることを必要とする動きおよび不連続性が生じる。没入型映像の特異性を考慮に入れつつ映像フレームを符号化および復号することは、符号化および復号方法に価値ある利点をもたらす。
図1は、実施形態例に係る符号化および復号システムの一般概観を示す。図1のシステムは、機能システムである。前処理モジュール110は、符号化デバイス120によって符号化するためのコンテンツを作成してよい。前処理モジュール110は、マルチ画像取得、共通空間(方向を符号化する場合、一般に3D球体)における取得した複数の画像のマージ、および限定されるものではないがたとえばエクイレクタングラーマッピングまたはキューブマッピングを用いて3D球体の2Dフレームへのマッピングを実行してよい。前処理モジュール110はまた、特定のフォーマット(たとえばエクイレクタングラー)の全方位映像を入力として受け入れ、マッピングを符号化により適したフォーマットに変更するために映像を前処理してよい。取得した映像データ表現に依存して、前処理モジュール110は、マッピング空間の変更を実行してよい。
符号化デバイス120および符号化方法は、本明細書の他の図面に関して説明される。符号化された後、たとえば没入型映像データまたは3D CGI符号化データを符号化し得るデータは、たとえばゲートウェイ内に存在する任意のネットワークインタフェースとして一般に実装され得るネットワークインタフェース130へ送信される。データはその後、たとえばインターネットであるが他の任意のネットワークが予見され得る通信ネットワークを介して伝送される。その後データは、ネットワークインタフェース140を介して受信される。ネットワークインタフェース140は、ゲートウェイ、テレビ、セットトップボックス、頭部搭載型表示デバイス、没入型(投影用)壁、または任意の没入型映像レンダリングデバイスに実装され得る。
受信後、データは復号デバイス150へ送信される。復号機能は、以下の図2〜12において説明される処理機能の1つである。復号されたデータは、次に、プレーヤ160によって処理される。プレーヤ160は、レンダリングデバイス170のためのデータを作成し、センサからの外部データまたはユーザ入力データを受信してよい。具体的には、プレーヤ160は、レンダリングデバイス170によって表示しようとする映像コンテンツの一部を作成する。復号デバイス150およびプレーヤ160は、単一のデバイス(たとえばスマートフォン、ゲーム機、STB、タブレット、コンピュータなど)に統合され得る。他の実施形態において、プレーヤ160は、レンダリングデバイス170に統合され得る。
たとえば没入型映像をレンダリングする場合、没入型表示デバイスの復号、再生、およびレンダリング機能を実行するために、いくつかの種類のシステムが考えられ得る。
拡張現実、仮想現実、または拡張仮想コンテンツを処理するための第1のシステムが図2〜6に示される。そのようなシステムは、処理機能、たとえば頭部搭載型ディスプレイ(HMD)、タブレット、またはスマートフォンであってよくセンサを備え得る没入型映像レンダリングデバイスを備える。没入型映像レンダリングデバイスは、表示デバイスと処理機能との間の追加のインタフェースモジュールも備えてよい。処理機能は、1または複数のデバイスによって実行され得る。これらは、没入型映像レンダリングデバイスに統合され、または1または複数の処理デバイスに統合され得る。処理デバイスは、1または複数のプロセッサ、およびたとえば無線または有線通信インタフェースなど、没入型映像レンダリングデバイスとの通信インタフェースを備える。
処理デバイスは、たとえばインターネットなどの広域アクセスネットワークとの第2の通信インタフェースも備えてよく、たとえばホームまたはローカルゲートウェイなどのネットワークデバイスを介して、または直接、クラウドに存在するコンテンツにアクセスしてよい。処理デバイスは、たとえばイーサネットタイプのローカルアクセスネットワークインタフェースなど第3のインタフェースを介してローカルストレージにアクセスしてもよい。実施形態において、処理デバイスは、1または複数の処理ユニットを有するコンピュータシステムであってよい。他の実施形態において、処理デバイスは、有線または無線リンクを介して没入型映像レンダリングデバイスに接続され得る、または没入型映像レンダリングデバイス内のハウジングに挿入され、コネクタを介してまたは無線でこれと通信し得るスマートフォンであってよい。処理デバイスの通信インタフェースは、有線インタフェース(たとえばバスインタフェース、広域ネットワークインタフェース、ローカルエリアネットワークインタフェース)または無線インタフェース(たとえばIEEE802.11インタフェース、またはBluetooth(登録商標)インタフェース)である。
処理機能が没入型映像レンダリングデバイスによって実行される場合、没入型映像レンダリングデバイスに、直接またはゲートウェイを介してコンテンツを受信および/または送信するためのネットワークとのインタフェースが提供され得る。
他の実施形態において、システムは、没入型映像レンダリングデバイスおよび処理デバイスと通信する補助デバイスを備える。そのような実施形態において、この補助デバイスは処理機能の少なくとも1つを含み得る。
没入型映像レンダリングデバイスは、1または複数のディスプレイを備えてよい。デバイスは、自身のディスプレイの各々の前部において、たとえばレンズなどの光学部品を用いてよい。ディスプレイは、スマートフォンまたはタブレットのケース内など、没入型表示デバイスの一部であってもよい。他の実施形態において、ディスプレイおよび光学部品は、ユーザが装着することができるヘルメット、グラス、またはバイザーに組み込まれ得る。没入型映像レンダリングデバイスは、後述するように、いくつかのセンサを統合してもよい。没入型映像レンダリングデバイスは、いくつかのインタフェースまたはコネクタを備えてもよい。没入型映像レンダリングデバイスは、センサ、処理機能、ハンドヘルドまたは他の身体部位関連デバイスまたはセンサと通信するために、1または複数の無線モジュールを備えてよい。
没入型映像レンダリングデバイスは、1または複数のプロセッサによって実行され、コンテンツを復号またはコンテンツを処理するように構成された処理機能も備えてよい。ここでコンテンツを処理することは、表示され得るコンテンツを作成するための全機能として理解される。これはたとえば、コンテンツを復号すること、コンテンツを表示する前にマージすること、および表示デバイスに適合するようにコンテンツを修正することを備えてよい。
没入型コンテンツレンダリングデバイスの機能の1つは、仮想ボリュームとして構成されたコンテンツの少なくとも一部を捕捉する仮想カメラを制御することである。システムは、仮想カメラの姿勢を処理するために、ユーザの姿勢、たとえばユーザの頭部の姿勢を全体的または部分的に追跡する姿勢追跡センサを備えてよい。いくつかの位置決めセンサは、ユーザの変位を追跡してよい。システムは、たとえば照明、温度、または音条件を測定するために、環境に関連する他のセンサも備えてよい。そのようなセンサは、たとえば発汗率または心拍数を測定するために、ユーザの身体にも関連してよい。これらのセンサによって取得された情報は、コンテンツを処理するために用いられ得る。システムは、ユーザ入力デバイス(たとえばマウス、キーボード、リモートコントロール、ジョイスティック)も備えてよい。ユーザ入力デバイスからの情報は、コンテンツを処理し、ユーザインタフェースを管理し、または仮想カメラの姿勢を制御するために用いられ得る。センサおよびユーザ入力デバイスは、有線または無線通信インタフェースを介して、処理デバイスおよび/または没入型レンダリングデバイスと通信する。
図25〜29を用いて、拡張現実、仮想現実、拡張仮想、または拡張現実から仮想現実までの任意のコンテンツを表示するための第1の種類のシステムについて、いくつかの実施形態が説明される。
図25は、没入型映像を復号、処理、およびレンダリングするように構成されたシステムの特定の実施形態を示す。システムは、没入型映像レンダリングデバイス10、センサ20、ユーザ入力デバイス30、コンピュータ40、およびゲートウェイ50(任意選択)を備える。
図33に示す没入型映像レンダリングデバイス10は、ディスプレイ101を備える。ディスプレイは、たとえばOLEDまたはLCDタイプである。没入型映像レンダリングデバイス10は、たとえばHMD、タブレット、またはスマートフォンである。デバイス10は、タッチ表面102(たとえばタッチパッドまたは触覚スクリーン)、カメラ103、少なくとも1つのプロセッサ104と接続状態にあるメモリ105、および少なくとも1つの通信インタフェース106を備えてよい。少なくとも1つのプロセッサ104は、センサ20から受信した信号を処理する。
センサからの測定値のいくつかは、デバイスの姿勢を計算し、仮想カメラを制御するために用いられる。姿勢推定のために用いられるセンサは、たとえばジャイロスコープ、加速度計、またはコンパスである。たとえばカメラのリグを用いる、より複雑なシステムが用いられてもよい。この場合、少なくとも1つのプロセッサは、デバイス10の姿勢を推定するために画像処理を実行する。他のいくつかの測定値は、環境条件またはユーザの反応に従ってコンテンツを処理するために用いられる。環境およびユーザを観察するために用いられるセンサは、たとえばマイクロフォン、光センサ、または接触センサである。たとえばユーザの視線を追跡するビデオカメラなど、より複雑なシステムが用いられてもよい。この場合、少なくとも1つのプロセッサは、予想される測定を操作するために画像処理を実行する。センサ20およびユーザ入力デバイス30からのデータもまたコンピュータ40へ伝送されてよく、コンピュータ40は、これらのセンサの入力に従ってデータを処理する。
メモリ105は、プロセッサ104のためのパラメータおよびコードプログラム命令を含む。メモリ105は、センサ20およびユーザ入力デバイス30から受信したパラメータも備えてよい。通信インタフェース106は、没入型映像レンダリングデバイスがコンピュータ40と通信することを可能にする。処理デバイスの通信インタフェース106は、有線インタフェース(たとえばバスインタフェース、広域ネットワークインタフェース、ローカルエリアネットワークインタフェース)または無線インタフェース(たとえばIEEE 802.11インタフェース、またはBluetooth(登録商標)インタフェースなど)であってよい。
コンピュータ40は、没入型映像レンダリングデバイス10へデータを送信し、任意選択的に、没入型映像レンダリングデバイス10へのコマンドを制御する。コンピュータ40は、データの処理を担い、すなわち、没入型映像レンダリングデバイス10によって表示するためにデータを作成する。処理は、コンピュータ40のみによって行われてよく、あるいは処理の一部がコンピュータによって行われ、一部が没入型映像レンダリングデバイス10によって行われ得る。コンピュータ40は、直接、またはゲートウェイまたはネットワークインタフェース50を介して、インターネットに接続される。コンピュータ40は、インターネットから没入型映像を表現するデータを受信し、これらのデータを処理(たとえばデータを復号し、場合によっては、没入型映像レンダリングデバイス10によって表示しようとする映像コンテンツの一部を作成)し、処理したデータを表示のために没入型映像レンダリングデバイス10へ送信する。他の実施形態において、システムは、没入型映像を表現するデータが格納されるローカルストレージ(不図示)も備えてよく、上記ローカルストレージは、コンピュータ40に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ(不図示)にあってよい。
図26は、第2の実施形態を表す。この実施形態において、STB90は、たとえばインターネットなどのネットワークに直接接続され(すなわちSTB90がネットワークインタフェースを備え)、またはゲートウェイ50を介して接続される。STB90は、たとえばテレビセット100または没入型映像レンダリングデバイス200などのレンダリングデバイスへ、無線インタフェースまたは有線インタフェースを介して接続される。STBの典型的な機能に加え、STB90は、テレビ100または任意の没入型映像レンダリングデバイス200にレンダリングするために映像コンテンツを処理するための処理機能を備える。これらの処理機能は、コンピュータ40に関して説明したものと同じであり、ここで再び説明することはない。センサ20およびユーザ入力デバイス30もまた、図25に関して上述したものと同じ種類のものである。STB90は、インターネットから没入型映像を表現するデータを取得する。他の実施形態において、STB90は、没入型映像を表現するデータが格納されたローカルストレージ(不図示)から没入型映像を表現するデータを取得する。
図27は、図25に示す実施形態に関連する第3の実施形態を表す。ゲーム機60は、コンテンツデータを処理する。ゲーム機60は、没入型映像レンダリングデバイス10へデータを送信し、任意選択的に没入型映像レンダリングデバイス10へのコマンドを制御する。ゲーム機60は、没入型映像を表現するデータを処理し、処理したデータを表示のために没入型映像レンダリングデバイス10へ送信するように構成される。処理は、ゲーム機60のみによって行われてよく、あるいは処理の一部が没入型映像レンダリングデバイス10によって行われてもよい。
ゲーム機60は、直接、またはゲートウェイまたはネットワークインタフェース50を介して、インターネットに接続される。ゲーム機60は、インターネットから没入型映像を表現するデータを取得する。他の実施形態において、ゲーム機60は、没入型映像を表現するデータが格納されたローカルストレージ(不図示)から没入型映像を表現するデータを取得し、上記ローカルストレージは、ゲーム機60に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ(不図示)にあってよい。
ゲーム機60は、インターネットから没入型映像を表現するデータを受信し、これらのデータを処理(たとえばこれらを復号し、場合によっては、表示しようとする映像の一部を作成)し、処理したデータを表示のために没入型映像レンダリングデバイス10へ送信する。ゲーム機60は、センサ20およびユーザ入力デバイス30からデータを受信し、それらを用いて、インターネットまたはローカルストレージから取得した没入型映像を表現するデータを処理してよい。
図28は、上記第1の種類のシステムの第4の実施形態を表し、ここで没入型映像レンダリングデバイス70は、ハウジング705に挿入されたスマートフォン701によって形成される。スマートフォン701は、インターネットに接続され得るので、インターネットから没入型映像を表現するデータを取得してよい。他の実施形態において、スマートフォン701は、没入型映像を表現するデータが格納されたローカルストレージ(不図示)から没入型映像を表現するデータを取得し、上記ローカルストレージは、スマートフォン701に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ(不図示)にあってよい。
没入型映像レンダリングデバイス70は、没入型映像レンダリングデバイス70の好適な実施形態を示す図34を参照して説明される。これは任意選択的に、少なくとも1つのネットワークインタフェース702およびスマートフォン701のためのハウジング705を備える。スマートフォン701は、スマートフォンおよびディスプレイの全機能を備える。スマートフォンのディスプレイは、没入型映像レンダリングデバイス70のディスプレイとして用いられる。したがって、スマートフォン701のディスプレイ以外のディスプレイは含まれない。ただし、スマートフォンディスプレイ上のデータを見るために、たとえばレンズなどの光学部品704が含まれる。スマートフォン701は、場合によってはセンサ20およびユーザ入力デバイス30から受信したデータに従って、没入型映像を表現するデータを処理(たとえば復号し、表示用に作成)するように構成される。センサからの測定値のいくつかは、デバイスの姿勢を計算し、仮想カメラを制御するために用いられる。姿勢推定のために用いられるセンサは、たとえばジャイロスコープ、加速度計、またはコンパスである。たとえばカメラのリグを用いる、より複雑なシステムが用いられてもよい。この場合、少なくとも1つのプロセッサは、デバイス10の姿勢を推定するために画像処理を実行する。他のいくつかの測定値は、環境条件またはユーザの反応に従ってコンテンツを処理するために用いられる。環境およびユーザを観察するために用いられるセンサは、たとえばマイクロフォン、光センサ、または接触センサである。たとえばユーザの視線を追跡するビデオカメラなど、より複雑なシステムが用いられてもよい。この場合、少なくとも1つのプロセッサは、予定された測定を操作するために画像処理を実行する。
図29は、上記第1の種類のシステムの第5の実施形態を表し、ここで没入型映像レンダリングデバイス80は、データコンテンツを処理および表示するための全機能を備える。システムは、没入型映像レンダリングデバイス80、センサ20、およびユーザ入力デバイス30を備える。没入型映像レンダリングデバイス80は、場合によってはセンサ20およびユーザ入力デバイス30から受信したデータに従って、没入型映像を表現するデータを処理(たとえば復号し、表示用に作成)するように構成される。没入型映像レンダリングデバイス80は、インターネットに接続され得るので、インターネットから没入型映像を表現するデータを取得してよい。他の実施形態において、没入型映像レンダリングデバイス80は、没入型映像を表現するデータが格納されたローカルストレージ(不図示)から没入型映像を表現するデータを取得し、上記ローカルストレージは、レンダリングデバイス80に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ(不図示)にあってよい。
没入型映像レンダリングデバイス80は、図35に示される。没入型映像レンダリングデバイスは、ディスプレイ801を備える。ディスプレイは、たとえばOLEDまたはLCDタイプ、タッチパッド(任意選択)802、カメラ(任意選択)803、少なくとも1つのプロセッサ804と接続状態にあるメモリ805、および少なくとも1つの通信インタフェース806から成ってよい。メモリ805は、プロセッサ804のためのパラメータおよびコードプログラム命令を備える。メモリ805は、センサ20およびユーザ入力デバイス30から受信したパラメータも備えてよい。またメモリは、没入型映像コンテンツを表現するデータを格納するのに足るほど大きくあってよい。このため、いくつかの種類のメモリが存在してよく、メモリ805は、単一メモリであるか、あるいは数種類のストレージ(SDカード、ハードディスク、揮発性または不揮発性メモリなど)であってよい。通信インタフェース806は、没入型映像レンダリングデバイスがインターネットネットワークと通信することを可能にする。プロセッサ804は、ディスプレイ801に表示するために、映像を表現するデータを処理する。カメラ803は、画像処理ステップに関して環境の画像を捕捉する。没入型映像レンダリングデバイスを制御するために、このステップからデータが抽出される。
拡張現実、仮想現実、または拡張仮想コンテンツを処理するための第2のシステムが図30〜32に示される。そのようなシステムは、没入型壁を備える。
図30は、第2の種類のシステムを表す。このシステムは、コンピュータ4000からデータを受信する没入型(投影)壁であるディスプレイ1000を備える。コンピュータ4000は、インターネットから没入型映像データを受信する。コンピュータ4000は通常、直接またはゲートウェイ5000またはネットワークインタフェースを介してインターネットに接続される。他の実施形態において、没入型映像データは、没入型映像を表現するデータが格納されたローカルストレージ(不図示)からコンピュータ4000によって取得され、上記ローカルストレージは、コンピュータ4000に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ(不図示)にあってよい。
このシステムは、センサ2000およびユーザ入力デバイス3000も備えてよい。没入型壁1000は、OLEDまたはLCDタイプであってよい。没入型壁1000は、1または複数のカメラを備えてよい。没入型壁1000は、センサ2000(または複数のセンサ2000)から受信したデータを処理してよい。センサ2000から受信したデータは、照明条件、温度、ユーザの環境、たとえば物体の位置に関連してよい。
没入型壁1000は、ユーザ入力デバイス3000から受信したデータも処理してよい。ユーザ入力デバイス3000は、ユーザ感情に関するフィードバックを与えるために、たとえば触覚信号などのデータを送信する。ユーザ入力デバイス3000の例は、たとえばスマートフォン、リモートコントロール、およびジャイロスコープ機能を有するデバイスなどのハンドヘルドデバイスである。
センサ2000およびユーザ入力デバイス3000のデータは、コンピュータ4000へ伝送されてもよい。コンピュータ4000は、これらのセンサ/ユーザ入力デバイスから受信したデータに従って映像データを処理(たとえば復号し、表示用に作成)してよい。センサ信号は、没入型壁の通信インタフェースを介して受信され得る。この通信インタフェースは、Bluetoothタイプ、WIFIタイプ、または他の任意の種類の接続であってよく、優先的には無線であるが、有線接続であってもよい。
コンピュータ4000は、処理されたデータを没入型壁1000へ送信し、任意選択的に、没入型壁1000へのコマンドを制御する。コンピュータ4000は、没入型壁1000によって表示されるようにデータを処理、すなわち表示用に作成するように構成される。処理は、コンピュータ4000のみによって行われてよく、あるいは処理の一部がコンピュータ4000によって行われ、一部が没入型壁1000によって行われ得る。
図31は、第2の種類の他のシステムを表す。このシステムは、映像コンテンツを処理(たとえば復号し、表示用のデータを作成)および表示するように構成された没入型(投影)壁6000を備える。このシステムは更に、センサ2000、ユーザ入力デバイス3000を備える。
没入型壁6000は、ゲートウェイ5000を介してインターネットから、またはインターネットから直接、没入型映像データを受信する。他の実施形態において、没入型映像データは、没入型映像を表現するデータが格納されたローカルストレージ(不図示)から没入型壁6000によって取得され、上記ローカルストレージは、没入型壁6000に、またはたとえばローカルエリアネットワークを介してアクセス可能なローカルサーバ(不図示)にあってよい。
このシステムは、センサ2000およびユーザ入力デバイス3000も備えてよい。没入型壁6000は、OLEDまたはLCDタイプであってよい。没入型壁6000は、1または複数のカメラを備えてよい。没入型壁6000は、センサ2000(または複数のセンサ2000)から受信したデータを処理してよい。センサ2000から受信したデータは、照明条件、温度、ユーザの環境、たとえば物体の位置に関連してよい。
没入型壁6000は、ユーザ入力デバイス3000から受信したデータを処理してもよい。ユーザ入力デバイス3000は、ユーザ感情におけるフィードバックを与えるために、たとえば触覚信号などのデータを送信する。ユーザ入力デバイス3000の例は、たとえばスマートフォン、リモートコントロール、およびジャイロスコープ機能を有するデバイスなどのハンドヘルドデバイスである。
没入型壁6000は、これらのセンサ/ユーザ入力デバイスから受信したデータに従って映像データを処理(たとえば復号し、表示用に作成)してよい。センサ信号は、没入型壁の通信インタフェースを介して受信され得る。この通信インタフェースは、Bluetoothタイプ、WIFIタイプ、または他の任意の種類の接続であってよく、優先的には無線であるが、有線接続であってもよい。没入型壁6000は、センサおよびインターネットと通信するために少なくとも1つの通信インタフェースを備えてよい。
図32は、没入型壁がゲームのために用いられる第3の実施形態を示す。1または複数のゲーム機7000は、好適には無線インタフェースを介して没入型壁6000に接続される。没入型壁6000は、ゲートウェイ5000を介してインターネットから、またはインターネットから直接、没入型映像データを受信する。他の実施形態において、没入型映像データは、没入型映像を表現するデータが格納されたローカルストレージ(不図示)から没入型壁6000によって取得され、上記ローカルストレージは、没入型壁6000に、またはローカルエリアネットワークを介してアクセス可能なローカルサーバ(不図示)にあってよい。
ゲーム機7000は、命令およびユーザ入力パラメータを没入型壁6000へ送信する。没入型壁6000は、表示用のコンテンツを作成するために、場合によってはセンサ2000およびユーザ入力デバイス3000およびゲーム機7000から受信した入力データに従って、没入型映像コンテンツを処理する。没入型壁6000は、表示されるコンテンツを格納するための内部メモリも備えてよい。
1つの実施形態において、全方位映像は、映像コーデックに適したフォーマットで表現される標準長方形フレームFへの周囲3D表面Sの投影を可能にするフォーマットで表現されると考えられる。3D表面を2D表面に投影するために、様々な投影が用いられ得る。たとえば図2Aは、典型的な球体表面Sがエクイレクタングラー投影を用いて2DフレームFにマッピングされることを示し、図2Bは、典型的なキューブ表面がキューブマッピングを用いて図2Cに示すように2Dフレームにマッピングされることを示す。たとえばピラミッド形、正二十面体、または八面体マッピングなど他のマッピングが、3D表面を2Dフレームにマッピングすることができる。
2DフレームFはその後、たとえばVP9、VP10、MPEG−2、H.264/AVC、またはH.265/HEVCに準拠するエンコーダなど既存の映像エンコーダを用いて符号化され得る。2DフレームFは、たとえば調整されたVP9、VP10、MPEG−2、H.264/AVC、またはH.265/HEVCエンコーダを用いて、全方位映像の特性に対応するエンコーダによって符号化されてもよい。符号化および復号の後、復号された2Dフレームは、対応する3D表面、たとえばエクイレクタングラーマッピングの場合は球体、またはキューブマッピングの場合はキューブに再びマッピングされ得る。3D表面はその後、最終的なレンダリングされたフレームを得るために、ユーザの視点に対応する「仮想スクリーン」に投影され得る。2Dフレームを復号し、3D表面からレンダリングされたフレームへ投影するステップは単一ステップに合併されてよく、この場合、復号されたフレームの一部がレンダリングされたフレームにマッピングされる。
簡潔な表記として、復号された2Dフレームを「F」とも称し、レンダリングに用いられる3D表面をSとも称することとする。理解すべき点として、符号化される2Dフレームおよび復号される2Dフレームは、映像圧縮によって異なってよく、前処理における3D表面およびレンダリングにおける3D表面もまた異なってよい。本出願において、「マッピング」および「投影」という用語は相互置換的に用いられ、「ピクセル」および「サンプル」という用語は相互置換的に用いられ、「フレーム」および「ピクチャ」という用語は相互置換的に用いられる。
エクイレクタングラーマッピング
図3は、レンダリングされたフレームに2Dフレームがマッピングされる、典型的な逆エクイレクタングラーマッピングを示す。図3Aは、(「エクイレクタングラーフレーム」とも称される)復号されたフレームにおけるx−y座標内の点Pを示す。図3Bは、θ―φ極座標を用いて、Pからレンダリングの2D表面にマッピングされた点P’を示す。図3Cは、デカルト座標を用いて、3Dレンダリング空間S内のP’に対応する点P3dを示す。図3Dは、ローカルレンダリングフレームGにおける、P3dにおいて表面に接するローカル面に投影されたP3dの結果生じる点P”を示す。構成によって、P”はフレームの中心である。ローカルレンダリングフレームGは、多くの場合ユーザが何を見たいかに基づいて、たとえばHMDまたはユーザのハンドヘルドデバイスが指すものに基づいて、2DフレームFの一部に対応する。ローカルレンダリングフレームGは、ローカルレンダリングバージョンとも称される。
PからP’、P’からP3d、およびP3dからP”へのマッピングは、それぞれ「f」、「3d」、および「proj」と記される。図3において、逆エクイレクタングラーマッピングは、例示の目的で複数のステップ(「f」、「3d」、および「proj」)において示される。逆エクイレクタングラーマッピングは、たとえば「f」、「3d」、および「proj」を1または2つのステップに結合することによって、より少ないステップで実行され得る。
数学的に、マッピング「f」は、正規座標を仮定して、フレームF内のピクセルM(x,y)が点M’(θ,φ)において2Dパラメトリック面にマッピングされた場合、
f:M(x,y)→M’(θ,φ),θ=2πx,φ=πy (1)
と表すことができる。非正規化座標の場合、
Figure 2019534600
である。
点M’(θ,φ)から座標M3dの3D表面へのマッピング「3d」は、以下のように表すことができる。
Figure 2019534600
点M3dからフレームFへ戻すために、逆変換T-1を計算する。
-1:M3d→M,M=f-1(3d-1(M3d)) (4)
3D表面S上の点M3d(X,Y,Z)から、極変換への標準デカルト座標を用いて2Dパラメトリックフレームへ戻すことができる。
Figure 2019534600
更に2DフレームFへ戻すために、
-1:M’(θ,φ)→M(x,y) (6)
を用いることができる。
(一般に、極における)特異点に関して、xおよびyが0に近い場合、
Figure 2019534600
を直接設定してよい。ただし、モジュラーケースの場合、特別に対処すべきである。
図4Aは、3D表面からレンダリングされたフレームGへ点が投影されること(「proj」)を示す。Gにおけるローカルレンダリングフレームから見た点Q’がP’に近い場合、表面Sに接する平面は、その表面自体によって近似され得る。図4Bにおいて、表面Q’上のQの画像によってQ”が近似され得ることが示される。
3D空間から2D表面への投影は多くの場合、何らかのエフェクトまたは変化をもたらし、これは、結果として生じる映像を従来の平面の場合に得られるものと同様の品質/ビットレートのトレードオフで符号化することを困難にし得る。これらのエフェクトまたは変更は、以下を含んでよい。
‐強度のジオメトリ歪み
・直線が直線ではなくなる。
・直交座標系が直交ではなくなる。
‐不均一なピクセル密度:符号化されるフレーム内のピクセルは必ずしも、符号化される表面上で同じサイズ(すなわち、レンダリング段階の画像において同じサイズ)を表すわけではない。
‐強度の不連続性:フレームレイアウトは、2つの隣接するピクセル間で強度の不連続性をもたらし得る。
‐何らかの周期性がフレーム内に(たとえば1つの境界から対向する境界まで)生じ得る。
表1は、様々なマッピングに関するいくつかの変化を挙げる。
Figure 2019534600
表1
以下、全方位映像の符号化および復号を説明するためにHEVCエンコーダおよびデコーダが主に用いられる。ただし本原理は、他のエンコーダまたはデコーダに適用されてよい。
図5は、典型的なHEVCエンコーダ500を示す。1または複数のピクチャを有する映像シーケンスを符号化するために、ピクチャは1または複数のスライスに分割され、各スライスは、1または複数のスライスセグメントを含んでよい。スライスセグメントは、符号化ユニット、予測ユニット、および変換ユニットに組織化される。
本出願において、「再構成」および「復号」という用語は相互置換的に用いられ得る。必ずではないが多くの場合、「再構成」という用語はエンコーダ側で用いられ、「復号」はデコーダ側で用いられる。
HEVC仕様書は、「ブロック」と「ユニット」とを区別し、「ブロック」は、サンプルアレイにおける特定のエリア(たとえば輝度、Y)を称し、「ユニット」は、全ての符号化色成分(Y、Cb、Cr、またはモノクローム)、シンタックス要素、およびブロックに関連する予測データ(たとえば動きベクトル)の共在ブロックを含む。
符号化の場合、ピクチャは、構成可能なサイズを有する正方形の符号化ツリーブロック(CTB)に分割され、符号化ツリーブロックの連続セットは、スライスにグループ化される。符号化ツリーユニット(CTU)は、符号化色成分のCTBを含む。CTBは、符号化ブロック(CB)に分割する4分木の根であり、符号化ブロックは、1または複数の予測ブロック(PB)に分割され、変換ブロック(TB)に分割する4分木の根を形成する。符号化ブロック、予測ブロック、および変換ブロックに対応して、符号化ユニット(CU)は、変換ユニット(TU)の木構造セットおよび予測ユニット(PU)を含み、PUは、全ての色成分に関する予測情報を含み、TUは、各色成分に関する残差符号化シンタックス構造を含む。輝度成分のCB、PB、およびTBのサイズは、対応するCU、PU、およびTUに適用される。本出願において、「ブロック」という用語は、CTU、CU、PU、TU、CB、PB、およびTBのいずれかを指すように用いられ得る。また、「ブロック」は、H.264/AVCまたは他の映像符号化規格に記載されるようなマクロブロック、分割、およびサブブロックを指すように、より一般的には様々なサイズのデータのアレイを指すように用いられてもよい。
典型的なエンコーダ500において、ピクチャは、後述するようにエンコーダ要素によって符号化される。符号化されるピクチャは、CUのユニットで処理される。各CUは、イントラまたはインターモードのいずれかを用いて符号化される。CUがイントラモードで符号化される場合、イントラ予測を実行する(560)。インターモードの場合、動き推定(575)および補償(570)が実行される。エンコーダは、CUを符号化するためにイントラモードまたはインターモードのどちらを用いるかを決定(505)し、予測モードフラグによってイントラ/インター決定を示す。予測残差は、元の画像ブロックから予測されたブロックを引算すること(510)によって計算される。
イントラモードにおけるPUは、同じスライス内の再構成された隣接サンプルから予測される。図6Aに示すように、DC予測モード、planar予測モード、および33のangular予測モードを含む35のイントラ予測モードのセットがHEVCにおいて利用可能である。イントラ予測参照は、現在のブロックに隣接する行および列から再構成される。参照は、過去に再構成されたブロックから利用可能なサンプルを用いて水平および垂直方向におけるブロックサイズの2倍以上に及ぶ。angular予測モードがイントラ予測に用いられる場合、参照サンプルは、図6Bの例に示すように、angular予測モードによって示された方向に沿ってコピーされ得る。angular予測モードは、本出願において、方向性予測モードとも称される。
HEVCは、「L」が隣接する左のブロックのイントラ予測モードを表し、「A」が隣接する上のブロックのイントラ予測モードを表す表2に示すように、輝度イントラ予測モードを予測的に符号化する場合、3つの最確モード(MPM)、MPM0、MPM1、およびMPM2を考慮する。隣接する左ブロックは、図6Cに示すように、現在のブロックとは異なるサイズを有してよい。3つの最確モードの中でも、最初の2つは、上および左のPBが利用可能であり、イントラ予測モードを用いて符号化される場合、これらのPBの輝度イントラ予測モードによって初期化される。利用できないイントラ予測モードはいずれも、DCモードであると考えられる。
Figure 2019534600
表2
最初の2つの最確モードが等しくない場合、第1の最確モード(MPM0)はLに設定され、第2の最確モード(MPM1)はAに設定され、第3の最確モード(MPM2)は、Planarモード、DC、または垂直のどれがこの順序において最初の2つのモードの1つの複製ではないかに従って、Planarモード、DC、または垂直に等しく設定される。最初の2つの最確モードが同じである場合、第1のモードが値PlanarまたはDCを有すると、第2および第3の最確モードは、Planar、DC、または垂直のどれがこの順序において複製ではないかに従って、Planar、DC、または垂直として割り当てられる。最初の2つの最確モードが同じであり、第1のモードが角度値を有する場合、第2および第3の最確モードは、第1の角度(すなわちkの値)に最も近い2つのangular予測モードとして選択される。
現在の輝度予測モードが3つのMPMのいずれかである場合、MPMインデックスのみがデコーダへ伝送される。そうでない場合、3つのMPM以外の現在の輝度予測モードのインデックスが、5ビット固定長コードを用いてデコーダへ伝送される。MPMを用いるイントラ予測モードの符号化は、テクスチャコンテンツが同類である場合、隣接ブロックが同じ予測モードを共有することが予想されるという想定に依拠する。
インターCUの場合、対応する符号化ブロックは、1または複数の予測ブロックに更に分割される。インター予測は、PBレベルで実行され、対応するPUは、どのようにインター予測が実行されるかに関する情報を含む。
動き情報(すなわち、動きベクトルおよび参照ピクチャインデックス)は、2つの方法、すなわち「マージモード」および「高度な動きベクトル予測(AMVP)」でシグナリングされ得る。
マージモードにおいて、映像エンコーダまたはデコーダは、既に符号化されたブロックに基づいて候補リストを組み立て、映像エンコーダは、候補リスト内の候補の1つのインデックスをシグナリングする。デコーダ側において、動きベクトル(MV)および参照ピクチャインデックスは、シグナリングされた候補に基づいて再構成される。
AMVPにおいて、映像エンコーダまたはデコーダは、既に符号化されたブロックから決定された動きベクトルに基づいて候補リストを組み立てる。映像エンコーダはその後、動きベクトル予測子(MVP)を識別するための候補リスト内のインデックスをシグナリングし、動きベクトル差分(MVD)をシグナリングする。デコーダ側において、動きベクトル(MV)は、MVP+MVDとして再構成される。
HEVCにおいて、動き補償のための動き情報の精度は、輝度成分に関して(クオータペルまたは1/4ペルとも称される)4分の1サンプル、および彩度成分に関して(1/8ペルとも称される)8分の1サンプルである。7タップまたは8タップ補間フィルタは、分数サンプル位置の補間のために用いられ、すなわち、水平および垂直方向の両方におけるサンプル位置全体の1/4、1/2、および3/4が輝度に関してアドレス指定され得る。
その後、予測残差が変換(525)および量子化(530)される。量子化された変換係数、ならびに動きベクトルおよび他のシンタックス要素は、ビットストリームを出力するためにエントロピー符号化(545)される。エンコーダは、変換をスキップし、4×4TUベースで無変換残差信号に直接量子化を適用してもよい。エンコーダは、変換および量子化の両方を回避してもよく、すなわち残差は、変換または量子化プロセスの適用なしで直接符号化される。直接PCM符号化において、予測は適用されず、符号化ユニットサンプルはビットストリームに直接符号化される。
エンコーダは、更なる予測のための参照を提供するために、符号化されたブロックを復号する。量子化された変換係数は、予測残差を復号するために、逆量子化(540)および逆変換(550)される。復号された予測残差と予測されたブロックとを結合(555)すると、画像ブロックが再構成される。ループ内フィルタ(565)は、たとえば符号化アーチファクトを低減するためのデブロッキング/SAOフィルタリングを実行するために、再構成されたピクチャに適用される。フィルタされた画像は、参照ピクチャバッファ(580)に格納される。
図7は、典型的なHEVC映像デコーダ700のブロック図を示す。典型的なデコーダ700において、ビットストリームは、後述するようにデコーダ要素によって復号される。映像デコーダ700は一般に、映像データの符号化の一部として映像復号を実行する、図5に示すような符号化パスと互恵的な復号パスを実行する。
具体的には、デコーダの入力は、映像エンコーダ500によって生成され得る映像ビットストリームを含む。ビットストリームは、変換係数、動きベクトル、および他の符号化情報を得るために、最初にエントロピー復号(730)される。変換係数は、予測残差を復号するために、逆量子化(740)および逆変換(750)される。復号された予測残差と予測されたブロックとを結合(755)すると、画像ブロックが再構成される。予測されたブロックは、イントラ予測(760)または動き補償された予測(すなわちインター予測)(775)から得られ得る(770)。上述したように、AMVPおよびマージモード技術は、動き補償のための動きベクトルを導出するために用いられてよく、これは、参照ブロックのサブ整数サンプルに関する補間値を計算するために補間フィルタを用いてよい。ループ内フィルタ(765)は、再構成された画像に適用される。フィルタされた画像は、参照ピクチャバッファ(780)に格納される。
位置合わせ
図8は、レンダリングされたフレームにおける直線(820)が、符号化されるフレームにおいて直線に見えない(810)例を示す。具体的には、図8は、現在の予測ブロック(830)および対応する参照サンプル(850)のローカルマッピングおよびレンダリングを示す。ローカルマッピングおよびレンダリングにおいて、予測ブロック周囲の小部分のみがレンダリングバージョンにマッピングされる。左の画像は、符号化される典型的なエクイレクタングラーフレームFの切り取られた一部である。右の画像は、典型的なレンダリングされたフレームにおける切り取られた一部であり、予測ブロックのローカルレンダリングバージョン(840)を示す。エクイレクタングラーフレームにおける予測ブロック(830)の隣接サンプル(850)は、レンダリングされたフレームGにおける隣接エリア(860)にマッピングされる。参照のフレーム(870)は、予測ブロックの中心に中心がある。矢印(880)は、レンダリングバージョンが符号化される場合、従来のエンコーダによって選択され得る可能性のある方向性モードを示す。
図8の右の画像において、レンダリングされたフレームにおいてイントラ予測モードが直線に沿って伝搬してよく、MPMは符号化効率を高めると推定することが妥当である。しかし、エクイレクタングラーフレームにおいて、直線は予測ブロック(830)において直線ではなくなるので、エクイレクタングラーコンテンツにおけるブロックのイントラ予測モードを符号化する時にMPMを直接適用することは、非常に効率が良いとは言えない。
たとえば、レンダリングされたフレームにおけるジオメトリを尊重するために隣接ブロックのイントラ予測モードを適合させることによって、全方位映像に関するMPM導出プロセスを改善することを提案する。
留意すべき点として、エクイレクタングラーフレームにおけるジオメトリ変化は、垂直方向である。1つの実施形態において、最初に、2DフレームF内の隣接イントラ予測モードを、レンダリングされたフレームGにおける方向(すなわち角度)に変換し、次に、Gにおける方向を、現在のブロックに関するイントラ予測モードに変換する。すなわち、ここで隣接イントラ予測モードは現在のブロックに位置合わせされ、現在のブロックと同じ垂直レベルで表されるので、エクイレクタングラーマッピングによって生じるジオメトリ変化の影響を相殺し得る。
図9は、本原理の典型的な実施形態に係る、イントラ予測モードを符号化または復号するためにMPMリストを適合させるための典型的な方法900を示す。方法900は、エンコーダまたはデコーダ側で用いられ得る。符号化される現在のブロックに関してエンコーダ側で用いられる場合、隣接する左および上のブロックがアクセスされ得る(910)。隣接ブロックに関するイントラ予測モードはその後、隣接ブロックが現在のブロックに位置合わせされるために変換され得る(920)。その後、隣接ブロックに関する変換されたイントラ予測モードに基づいて、MPMリストが決定され得る(930)。現在のブロックに関して試験された現在のイントラ予測モードが符号化され得る。現在のイントラ予測モードがMPMリスト内にある場合、MPMリスト内のイントラ予測モードのインデックスのみが符号化される。そうでない場合、イントラ予測モードは、固定長符号化によって符号化され得る。現在のイントラ予測モードに関するRDコストが他のイントラ予測モードに関するRDコストよりも小さく、かつインター予測に関するRDコストよりも小さい場合、現在のブロックは、現在のブロックに関して現在のイントラ予測モードを用いることを選択してよい。
方法900がデコーダ側で用いられる場合、現在のブロックに関するイントラ予測モードがMPMの1つとして符号化されることをビットストリームが示すと、デコーダは、MPMインデックスを復号する。隣接する左および上のブロックがアクセスされ得る(910)。隣接ブロックに関するイントラ予測モードはその後、隣接ブロックが現在のブロックに位置合わせされるために変換され得る(920)。その後、隣接ブロックに関する変換されたイントラ予測モードに基づいて、MPMリストが決定され得る(930)。イントラ予測モードはその後、復号されたMPMインデックスに基づいて、MPMの1つとして復号され得る。
方法900は、隣接ブロックに関して左および上のブロックのみを考慮する。より一般的には、他のブロックが隣接ブロックとして考慮されてもよい。
例としてHEVCに従って導出されたMPMを用いると、表3は、典型的な調整されたMPMを示し、表中、TL -1またはTA -1は、たとえば左または上のブロックのワーピングインデックスによって示された垂直位置に基づいて、それぞれ左または上の隣接ブロックのイントラ予測モードインデックスをレンダリングされたフレーム内の角度に変換し、TCは、たとえば現在のブロックのワーピングインデックスによって示された垂直位置に基づいて、レンダリングされたフレーム内の角度をイントラ予測モードインデックスに再び変換する。「TC」および「TL -1」(「TA -1」)の変換は、たとえば、F=TC(TL -1())またはF=TC(TA -1())として結合されてよく、ここで、「TL -1」または「TA -1」のどちらを用いるかは、対応するMPMが隣接する左のブロックまたは上のブロックのどちらに由来するかに依存する。
Figure 2019534600
表3
表3において、L≠PlanarかつL≠DCである場合、TC(TL -1())がL+1またはL−1に適用される。TC(TL -1(L+1))またはTC(TL -1(L−1))がTC(TL -1(L))と同じである場合が生じ得る。3つの異なるMPMをなお得るために、異なる実施形態において、モードL+1およびL−1に関してTC(TL -1())がLに適用されてよく、MPM1およびMPM2はそれぞれ、TC(TL -1(L))+1およびTC(TL -1(L))−1に調整される。すなわち、「TC(TL -1(L))=TC(TA -1(A))」かつ「L≠PlanarかつL≠DC」である場合、MPMは、以下のように導出され得る。
Figure 2019534600
表3A
以下において、エクイレクタングラーマッピングに関する変換「Ti」および「Ti -1」をどのように決定するかが詳しく説明され、ここで、Tiは、レンダリングされたフレーム内の角度を、復号されたフレーム(または符号化されるフレーム)内で表現されたイントラ予測モードインデックスへ、たとえばHEVCにおいて角度[45°、・・・、135°]、DC、またはPlanarからインデックス[0、・・・、35]へマッピングし、Ti -1は、イントラ予測モードインデックスを、レンダリングされたフレーム内の角度へ、たとえばHEVCにおいてイントラ予測モードインデックス[0、・・・、35]から角度[45°、・・・、135°]、DC、またはPlanarへマッピングする。構成によって、全てのワーピングインデックスに関してT(DC)=1、T-1(1)=DC、T(Planar)=0、T-1(0)=Planarが定義される。
図10Aは、x−y座標系における正規化2Dフレームを示し、図10Bは、エクイレクタングラーマッピングに関する典型的なワーピングインデックス演繹を示す。ここで、ワーピングインデックスは、ブロックのy座標、限定されるものではないがたとえば中心を用いて、ブロックのy座標に関するブロックの角のみに依拠する。簡単な記述のために、ブロックのy座標を示すために用いられる点をアンカー点と記す。ワーピングインデックスの展開は、エクイレクタングラーマッピングの特性により、cos(y)によって導かれる。実際、ワーピングインデックスの数Nが与えられる場合、
w(x,y)=[N(1−cos(πy))]
を用いて、ブロックのワーピングインデックスwを計算してよい。式中、(x,y)は、図10Aに示すようなピクチャ内のブロックの正規化座標である。この関数を用いて、ワーピングインデックスごとに1つの、最大(N+1)の異なる方向変換表が得られ得る。他のスケール係数または変量が、ワーピングインデックスを得るために用いられてよい。一般に、ワーピングインデックスは、2Dフレームを生成するために用いられたマッピングに基づいて計算され得る。
図11Aは、本原理の実施形態に係る、変換「T」を計算するための典型的なワークフローを示す。
エクイレクタングラーマッピングは垂直方向にしか画像を歪ませないので、一般性を失わず、x=0が設定される。所与のワーピングインデックスwに関して、y座標yおよびx=0に対応する点は、
Figure 2019534600
であり、ワーピングインデックスは、
w=[N(1−cos(πy))] (9)
として計算され得る。
P×fの画像であるP’は、
P’=f(P) (10)
として計算され得る。P’×3dの画像であるP3dは、
3d=3d(P’) (11)
として計算され得る。その後、proj()関数:P”=proj(P3d)を用いて、P”が計算され得る。
Pから方向dを指す点は、
Q=P+εdP (12)
として表すことができ、
Figure 2019534600
であり、式中、αは、(ワーピングインデックス0の各方向インデックスの角度に対応する)イントラ予測モードインデックスdの方向角であり、すなわち、
α=T0 -1(d) (14)
である。
Q×fの画像であるQ’は、
Q’=f(Q) (15)
として計算され得る。Q’×3dの画像であるQ3dは、
3d=3d(Q’)
として計算され得る。Q3d×projの画像であるQ”は、
Q”=Proj(Q3d) (16)
として計算され得る。
その後、P”とQ”との差を表すベクトルdP”が、
dP”=Q”−P” (17)
として計算され得る。その結果、方向dにおけるワーピングインデックスwの角度は、
Figure 2019534600
として計算され得る。式中、dP”xおよびdP”yは、dP”のxおよびy成分である。その後、TwがTw -1の逆関数として計算され得る。
他の実施形態において、方向は、図11Bに示すように、その点のローカルレンダリングフレームにおいて解釈される。ここで、レンダリングされたフレーム内の角度を、レンダリングされたフレーム内のイントラ予測モードインデックスにマッピングする関数Siが計算される。
所与のワーピングインデックスwに関して、y座標yに対応して、すなわち
Figure 2019534600
であり、ワーピングインデックス
w=[N(1−cos(πy))] (20)
であり、P×fの画像であるP’は、
P’=f(P) (21)
として計算され得る。P’×3dの画像であるP3dは、
3d=3d(P’) (22)
として計算され得る。Pからの投影関数は、構成により、
Figure 2019534600
である。
フレームGにおいて、P”からの角度αに対応して方向dを指す点を以下のように計算する。
Q”=P”+εdP”=εdP” (24)
かつ、
Figure 2019534600
である。式中、αは、(ワーピングインデックス0の各方向インデックスの角度に対応する)イントラ予測モードインデックスの方向角dであり、すなわち、
α=S0 -1(d) (26)
である。点Q3dは、
3d=Proj-1(Q”) (27)
として計算され得る。その後、Q’は、
Q’=3d-1(Q3d) (28)
として計算され得る。Qは、
Q=f-1(Q’) (29)
として計算され得る。QとPとの差を表すベクトルdPは、
dP=Q−P (30)
として計算され得る。
その結果、方向dに関するワーピングインデックスwの角度は、以下のように計算され得る。
Figure 2019534600
留意すべき点として、dが、(関数Tに対応する)復号されたフレーム内で表現された方向のインデックスである、図11Aに示すような第1の実施形態において、レンダリングされたフレーム内の直線に関して、インデックスdは垂直軸に沿って変化し得るが、図11Bに示すような第2の実施形態において、インデックスdは全てのブロックに関して同じである。ただし、予測段階において差が生じ、第1の実施形態の場合、ブロック予測方向はdに関連する1つであるが、第2の実施形態において、レンダリングされたフレームから復号されたフレームへの変換が必要である。
イントラ方向性モードの場合、レンダリングされたフレーム内の所与の角度を方向性モードインデックスに変える変換(関数TまたはS)、および所与の方向性モードインデックスをレンダリングされたフレーム内の角度(角度β)に再び変える逆変換(関数T-1またはS-1)は、事前計算され、たとえばHEVCイントラ予測モードに関して生成された表4などの換算表に格納され得る。
Figure 2019534600
表4
表内のワーピングインデックスwに関して、方向性モードの個々のインデックスに関する対応角度を度単位で提供する。留意すべき点として、ワーピングインデックス0は、構成によって、従来のHEVCにおける角度を表す。その後、角度xを有するものに最も近いワーピングインデックスiにおける、表内のイントラ予測方向性モードインデックスとして、Ti(x)を定義する。たとえば表4において、ワーピングインデックス2の場合、T2(134.5)=3であり、134.5°に関して最も近い方向性モードインデックスは(135°に対応する)インデックス3である。同様に、逆変換の場合、T-1 i(j)は、表4内のワーピングインデックスiにおける方向性モードインデックスjに対応する角度である。たとえばT-1 1(33)=36°である。
図12は、本原理の実施形態に係る、エクイレクタングラーマッピングが用いられる場合に隣接する左のブロックに基づいてMPMを得るための典型的なプロセス1200を示す。方法1200は、表3または表3Aに示すようなTc(TL -1(L))を得るために用いられ得る。本原理は、他の隣接ブロックに基づいてMPMを得るためにも用いることができる。留意すべき点として、TL -1()は、隣接する左のブロックのワーピングインデックスを計算し、左ブロックのイントラ予測モードインデックスを角度に変換するものであり、TC()は、現在のブロックのワーピングインデックスを得、TL -1から得た角度を再びイントラ予測モードインデックスに変換するものである。
L -1(L)を計算するために、左ブロックLの座標(xL,yL)が得られる(1210)。その後、左ブロックのワーピングインデックスがLW=[N(1−cos(πyL)]として得られてよく(1220)、yLは、左ブロックの位置を示す。その後、左ブロックに関するワーピング角度が、αL=TLW -1(dL)として計算され(1230)、dLは、左ブロックに関するイントラ予測モードインデックスである。
C()を計算するために、現在のブロックLの座標(xC,yC)が得られる(1240)。その後、現在のブロックのワーピングインデックスが、CW=[N(1−cos(πyC))]として得られてよく(1250)、yCは、左ブロックの位置を示す。その後、左ブロックに基づくMPMに関する適応イントラ予測モードインデックスが、dC=TCW(αL)=TCW(TLW -1(dL))として計算され得る(1260)。
留意すべき点として、左ブロックに関する新たなイントラ予測モードインデックスは、現在のブロックと同じ垂直レベルにあり、現在のブロックのイントラ予測モードと同等である。すなわち、隣接する左のブロックおよび現在のブロックの角度は、レンダリングされたフレーム内で表現され、イントラモードは、上述したように伝搬する可能性が高い。
図13は、典型的な赤道上の現在のブロックCを示し、その隣接する左のブロックLもまた赤道上にある。エクイレクタングラーマッピングの例として表4を用いると、以下のMPM導出が起こり得る。
‐左ブロックのワーピングインデックスは、左ブロックが赤道上にあるため、0である。復号された方向性イントラモードは、dL=2である。表4から、左角αL=135°(第1行、第1列)と推論される。
‐現在のブロックのワーピングインデックスもまた、現在のブロックが赤道上にあるため、0である。左ブロックから予測されたイントラ方向は2(第1行、第1列に最も近い角度)である。エクイレクタングラーマッピングに関して、現在のブロックと隣接ブロックとが同じ垂直レベルにある場合、たとえば現在のブロックおよび隣接ブロックのアンカー点が同じ垂直レベルにある場合、変換の必要はない。留意すべき点として、様々なブロックサイズに関して、左ブロックおよび現在のブロックは、必ずしも同じワーピングインデックスを共有するわけではない。
‐上ブロックAのワーピングインデックスは2である。復号されたイントラ予測モードインデックスは、dA=3である。表4から、上角αA=135°(第3行、第2列)と推論される。
‐上ブロックから予測されたイントラ方向は2(第1行、第1列に最も近い角度)である。
MPM導出によると、2つの隣接するブロックは同じ方向性予測子を提供し、すなわち、TC(TL -1(L))=TC(TA -1(A))、L≠PlanarかつL≠DCである。表3Aを用いると、3つのMPMは、MPM0=TC(TL -1(L))=2、MPM1=TC(TL -1(L))+1=3、およびMPM2=TC(TL -1(L))−1=34である。
上記において、HEVC MPMを例として用いて、隣接ブロックおよび現在のブロックの垂直レベルに基づいて隣接イントラ予測モードを調整することが説明される。本原理は、MPMが様々な方法で導出される場合に適用され得る。たとえば、昨今の開発において、JVET(Joint Video Exploration Team)のjoint explorationソフトウェア(JEM)は、図17に示すように、HEVCと比べて2倍の数のイントラ方向性モードを用いる。また、MPMリストを3から6のイントラモードに拡大することが提案されている。MPMリストの導出は、表5に詳述する。この新たなリストは、隣接する左および上のブロックから導かれた2つのモードも考慮に入れる。図6Cに示すように左および上の候補に関して左上角部から第1のブロックを考えるのではなく、最終的なLおよびA候補は、隣接ブロックの中でも最も頻度の高いモードに対応し、それぞれ現在のブロックの左および右に対応する。
Figure 2019534600
表5
表5に示すようなMPMに関して、左におけるイントラ予測モード(「L」)は、(TC(TL -1(L)))に調整することができ、上におけるイントラ予測モード(「A」)は、(TC(TA -1(A)))に調整することができ、イントラ予測モードmode=26、10、2、または18は、(TC(TL -1(mode)))または(TC(TA -1(L)))に調整することができ、イントラ予測モード(「Max」)は、(TC(TMax -1(Max)))に調整することができ、Maxは、所与のコーデックの最大の方向インデックス、HEVCの場合は33、JEMの場合は64を表す。
特定のマッピングが用いられ、ストリームにおいてシグナリングされる場合、ブロック座標とワーピングインデックスとの関係を自動的に推論することができる。
第1の方法は、MPM変換のために用いられるワーピングインデックスをシグナリングすることである。シグナリングは、シーケンスレベル、スライスレベル、あるいはCTU、CU、またはPUレベルで行われ得る。ブロックレベルでシグナリングされる場合、ワーピングインデックスを符号化するために、コンテキストおよびエントロピー符号化が用いられる。
エンコーダ側において、ワーピング表が構成され、シーケンスレベル、スライスレベル、またはブロックレベルで送信され得る。表の構成は、符号化方法と考えられる。表の符号化は、エントロピーおよびコンテキスト符号化を用いてよい。
特定のマッピングが用いられ、ストリームでシグナリングされる場合、用いられるワーピング角度を自動的に推論することができる。この場合、エンコーダおよびデコーダの両方が同じ表を用い、これを送信する必要はない。
上記において、エクイレクタングラーマッピングに関してイントラ予測モードを調整することが説明された。キューブマッピングの場合、マッピングは、キューブ面において典型的なモードを修正することはない。しかし、エッジにおいて修正が出現する。図14Aは、キューブマッピングの例を示す。面は、長方形フレームに様々に分布され得る。いくつかのエッジにおいて、他の面において再構成され、それに応じて回転された隣の適切な位置を指すように、エンコーダ/デコーダに関して特定のマッピングが実装されなければならない。
その後、球体からキューブへの投影を用いて、同じ方法で方向の変化が適用され得る。図14Bは、エッジにおける方向変化の例を示す。この例において、左面にあるブロックは、セグメントによって示された方向性モードを用いて符号化された。右における現在のブロックに関するMPMは、その後、セグメントによって示すように修正される。
利用可能なイントラ予測モードの低減
図15は、全方位ピクチャの典型的なエクイレクタングラーレイアウトおよび垂直座標に沿った参照のローカルフレームの展開を示す。図15から分かるように、参照の専用ローカルフレーム、すなわち、球体(1510)の赤道上を中心とする、投影によって生じた変形を示す座標系は、正規直交である。垂直方向に沿って、参照のフレームを中心から離れる方へ移動すると、参照のフレーム(1520、1530)は正規直交ではなくなる。具体的には、参照のローカルフレームが(球体の極に対応する)上下の境界線に近づく方に動くとともに、参照のローカルフレームは、垂直方向に「縮んで」いく。
図16A、図16B、図16C、図16D、および図16Eは、それぞれ異なる緯度0°、45°、66°、80°、および85°から見た同一パターンの画像を示す。図16Aに示すように赤道において、全方向が利用可能であり、規則的に分布される。パターンが極に近く見えるほど、エクイレクタングラーフレームにおいて(中心における)方向は水平になる。
図6Aおよび図6Bに関して説明したように、方向性イントラ予測モードにおいて、現在のブロックの予測は、周囲にある過去に再構成されたサンプルおよび予測の方向を用いて計算され、サンプルは、選択された方向に沿って現在の予測ブロックに「伝搬」される。しかし、全方位映像において、参照のローカルフレームはその中心位置に依拠するために常に正規直交ではなく、フレーム内の位置における可能な方向の数は、圧縮効率を高めるために低減され得る。たとえば、エクイレクタングラー(Er)レイアウトにおいて、図16は、赤道上では全方向が利用可能であるが、極に非常に近いところでは、水平方向のみが妥当であることを示す。
上記観察に基づいて、イントラMPM導出を更に改善することを提案する。様々な実施形態において、ジオメトリック歪みに依存してイントラ方向の低減を考慮に入れるために、MPMの導出が適合され得る。符号化方法もまた、全方位映像におけるブロックを見積もるためのモードの数を低減するように適合され得る。また、イントラ方向を表すシンタックス要素の符号化も改善され得る。
Figure 2019534600
表6
表6は、MPMがdに適合されることを示し、ここでパラメータdは、ジオメトリックレイアウトに適合された角度ステップサイズを示す。たとえば、「L≠PlanarかつL≠DC」かつ「F(L)=F(A)」の場合、MPM2に関して「F(L)+1」の代わりに「F(L)+d」となる。すなわち、「F(L)+1」と「F(L)+d−1」との間のイントラ予測モードをスキップしてよいので、「F(L)」に対応する角度に隣接する角度が「F(L)+d」であると考えられる。赤道において、d=1であり、ブロックが極に近づくほどdは増大する(より多くのイントラ予測モードがスキップされる)。dの計算は、以下に詳述される。
以下の表記を用いることとする。
‐aは、参照のローカルフレームの垂直軸と水平軸との間のスケール係数を示す。構成によって、標準映像またはエクイレクタングラー映像の赤道においてa=1であり、エクイレクタングラー映像の極においてa=0である。
‐「標準」ローカルフレーム(すなわちa=1)に関して、方向の数はN(a)であり、たとえば現在のJVET Explorationモデル(JEM)では65、HEVCでは33である。
‐「標準」角度ステップサイズは度単位でs(a=1)=180/(N(1)−1)である。たとえばHEVCでは5.625°である。
‐180°の「標準」イントラ方向の予測角度をZ(a=1)と定義し、水平方向より45°下および水平方向より135°上をそれぞれZ-(a=1)=45°およびZ+(a=1)=135°と定義する。
‐図18に示すように、N-(a)=(N(a)−1)/4は、水平より下の方向の数であり、N+(a)=3(N(a)−1)/4は、水平より上の方向の数である。
‐構成により、d(a=1)=1である。
x軸とy軸との間のスケール係数aによって所与のローカルフレームFLに関する方向を推論するために、以下の論理が適用される。
‐スケール係数aに関する角度は、
-(a)=atan(a*tan(Z-(1)))、Z+(a)=3*Z-(a) (32)
によって求められる。
‐フレーム内で同じ角度ステップを維持すると、利用可能なイントラ予測方向の数は以下のように推論される。
Figure 2019534600
‐その後、パラメータdを推論する。
Figure 2019534600
図19は、a=1、0.5、0.25、および0.125に関して上記計算の例を提供する。図19の上段において、参照のローカルフレームが示される。図19の中断において、式(32)を用いて計算されたスケール係数αに関する角度が示され、同じ数の方向が各スケール係数aに関して維持される。図19の下段において、同じレベルに角度ステップを維持することが意図され、スケール係数aが小さくなると方向の数が低減される。図19A、図19B、および図19Cから分かるように、図19Aにおける利用可能なイントラ予測モードのセットは、図19Bまたは図19Cにおける利用可能なイントラ予測モードのセットと異なるが、図19Aにおける水平方向の周囲の2つの隣接するイントラ予測モード間の角度差は、図19Bまたは図19Cにおける水平方向の周囲の2つの隣接するイントラ予測モード間の角度差と同じである。図19Dにおいて、全ての角度が水平方向に倒れ込む。
低減されたイントラ予測モードのセットを表現するために、残りのイントラモードに関して同じイントラ予測モードインデックスが維持され、2つの隣接モード間の角度差を示すために角度ステップdが用いられ得る。たとえば、赤道において利用可能なイントラ予測方向性モードインデックスは、2、3、4、・・・、かつd=1であってよく、他の位置におけるインデックスは、2、5、8、・・・、かつd=3であってよいが、同じインデックスは同じイントラ予測モードに対応する。エンコーダおよびデコーダは、利用可能なイントラ予測モードのみを用いる。パラメータdは、MPMリストを構築するためにエンコーダによって用いられ、デコーダにおいて計算されるか、あるいはビットストリームで伝送されてよい。均一なステップdを有するコーデックの場合、単一のパラメータが用いられる。不均一なステップの場合、ルックアップテーブルは、デコーダによって先験的に既知であるか、あるいはビットストリームを介して、たとえばシーケンスパラメータセットまたはビデオパラメータセットで伝送されてよい。
他の実施形態において、イントラ予測モードインデックスは、エクイレクタングラー投影の特定の場合において、ブロック位置、緯度が与えられると設定される新たなステップに依存して再組織化される。方向性モードの新たなインデックスは連続しており、2〜N−1の範囲であってよく、ここでNは位置に依存する。
角度aが減少すると利用可能なイントラ予測方向の数は減少するので、イントラ方向の符号化もまた改善され得る。上述したように、5ビット固定長コードは、HEVCにおいてイントラ予測モードがMPMリストに含まれない場合、イントラ予測モードを符号化するために用いられ、JEMの場合は6ビットが用いられる。所与のブロックに関して、固定長コードに関するビットの数を以下に適合させることを提案する。
n=[log2(Na ++Na -+1)] (35)
効率性のために、方向符号化および値は、ローカルフレームスケール係数aのみに依存して、エンコーダおよびデコーダ側の両方において決定され得る。エクイレクタングラーマッピングの場合、ローカルフレームスケールは、
a=cos(φ) (36)
と計算することができ、緯度角は、
Figure 2019534600
である。
式(37)から、緯度角φは、ブロックの垂直位置である「y」に依拠することが分かる。続いて、参照スケールaのローカルフレームもまた、垂直位置に依拠し(式(36)を参照)、パラメータdおよび固定長コードのビット数nも同様に垂直位置に依拠する(式(34)および(35)を参照)。
予測ブロックの位置と方向の数との関係および符号化を簡略化するために、表7の例に示すように、対応表が構成され得る。
Figure 2019534600
表7
abs(φ)値=[0,0.78](rad)、「h」がピクチャの高さとして[0.25*h,0.75*h]間のピクセルの場合、全てのイントラ予測方向性モードが利用可能であり、ブロックに関するイントラ予測方向性モードは、全33モードから選択され得る。abs(φ)値=[0.78,1.26](rad)、[0.1*h,0.25*h]または[0.75*h,0.9*h]間のピクセルの場合、0〜15のインデックスを有する約半数(16)のイントラ予測方向性モードが利用可能である。したがって、ブロックに関するイントラ予測方向性モードは、これら16のモードのみから選択され得る。abs(φ)値=[1.26,1.47](rad)、[0.05*h,0.1*h]または[0.9*h,0.95*h]のピクセルの場合、0〜7のインデックスを有する約4分の1(8)のイントラ予測方向性モードが利用可能である。
図20は、利用可能な方向の数に依存して、モードの導出を容易にするために、方向をグループ分けし、イントラ方向を再順序付けする例を示す。方向の数は、緯度角φの関数として、表7に示される。HEVCまたはJEMのようにイントラ予測方向性モードに連続的にインデックスを割り当てるのではなく、インデックスはインタレース式に割り当てられ得る。表7および図20に示す例において、モードインデックスは、HEVCイントラ予測モードの方向に関して再組織化される。
ここで図20において、2つの利用可能なモードしかない場合、モード0および1が維持される。4つの利用可能なモードがある場合、モード0〜3が維持される。8つの利用可能なモードがある場合、モード0〜7が維持される。16のモードがある場合、モード0〜15が維持される。したがって、利用可能なイントラ予測モードは常に、連続したイントラ予測モードインデックスのセットによって表されるが、その範囲は、維持されるモードの数に依存して様々であってよい。このモードインデックス構成において、同じイントラ予測モードインデックスは常に、同じイントラ予測方向に対応する。
図21Aは、本原理の実施形態に係る、MPMリストを用いて現在のブロックに関するイントラ予測モードを符号化または復号するための典型的な方法2100を示す。図21Bは、本原理の実施形態に係る、固定長コードを用いて現在のブロックに関するイントラ予測モードを符号化または復号するための典型的な方法2200を示す。
エンコーダ側で用いられる場合、隣接する左および上のブロックに関するイントラ予測モードが得られる(2110)。たとえば式(34)、またはパラメータdに垂直位置を関連付けるルックアップテーブルを用いて、角度ステップサイズdが計算され得る(2120)。角度ステップサイズdが変化すると、利用可能なイントラ予測モードの数も変化する。その後、たとえばJEMに関する表6に示すように、角度ステップサイズdに基づいて、MPMリストが調整され得る(2130)。符号化のために試験されている現在のイントラ予測モードがMPMの1つである場合、対応するMPMインデックスが決定され、現在のイントラ予測モードを用いるための符号化コストが計算され得る。RDコストは、現在のイントラ予測モードが現在のブロックに関して選択されるかを決定するために、他の予測モードと比較され得る。
試験中の現在のイントラ予測モードがMPMの1つではない場合、エンコーダは、たとえば式(35)に基づいて、利用可能なイントラ予測モードの数および固定長コードに関するビット数を計算してよい(2260)。その後、エンコーダは、計算されたビット数を用いてイントラ予測モードを符号化し(2270)、関連RDコストに基づいて、現在のイントラ予測モードが用いられるかを決定する。
デコーダ側で用いられる場合、デコーダは、イントラMPMが現在のブロックに用いられるかを決定する。デコーダは、MPMが用いられることを決定すると、エンコーダに関して行われたものと同様のステップ2110〜2130を実行する。その後、デコーダは、MPMインデックスに基づいてイントラ予測モードを復号する。デコーダは、固定長コードがイントラ予測モードに用いられることを決定すると、固定長コードに関するビット数を計算し(2260)、固定長コードに関するビット数に基づいて、イントラ予測モードを復号する(2270)。
提案される方法は、既知のジオメトリ歪みに基づいて、隣接するブロックからイントラ方向性伝搬モードを導出する一般原理に依拠する。
たとえば、映像の種類、考慮される予測ブロックの位置およびサイズに依存して、他のイントラモードとして二次曲線が追加され得る。映像が広角/短焦点距離を用いたショットであった他の例において、何らかの歪みが直線を変形させ得る。歪みを低減させるために、場合によっては円筒補正が用いられる。映像が歪んでいる場合、曲線的イントラ予測は多くの場合、特に境界線上で変形した曲線に沿って参照ピクセルを伝搬することによって、圧縮効率を高めることができる。当然、直線イントラ予測は、所与のブロック表面に関する良好な推定として維持される。両方の場合において、MPM導出を既知の歪みに適合させることによって、性能が向上する。
図22は、重度の歪みの場合、典型的なフレームにわたって直線イントラモードがどのように変化するかを示す。エクイレクタングラーマッピングに関する上記において、イントラ予測は、垂直方向に適合されることが説明された。留意すべき点として、他の種類の映像、たとえば短焦点距離映像の場合、レンズの中心からの径方向の変動が存在し得るので、イントラ予測は、水平方向にも適合され得る。
短焦点距離映像の場合、歪みに関する古典的モデルは、Brown−Conradyモデルを用いることであり、ここで2D+3Dの歪みは単純な2D関数(xd,yd)=g(xu,yu,S)にマージされ、(xd,yd)は、歪み後の(フレームFにおける)ピクセル座標であり、(xu,yu)は歪み前の(フレームGにおける)ピクセル座標である。歪み関数g()は、組成g=f-1 o 3d-1 o proj-1である。歪み関数g()は、Brown−Conradyモデルを用いて得られ得る。
図22において、フレームの境界付近で、方向性モードはブロックごとに変化するので、隣接ブロックから導出されたMPMを適合させる必要がある。古典的なMPMプロセスへの修正の提案に関して上述した原理は、この新たな伝達関数gを考慮して適用され得る。
図22において、利用可能な方向の数は位置ごとに異なることも分かる。極位置において、連続する歪み方向間の角度ステップは、考慮するに足りないほど小さい。したがって、方向性モードの数、およびそれに伴うシンタックスビット数の低減に関する上述の原理が適用され得る。
非正方形キューブマッピングの場合、参照のローカルフレームは、画像のほとんどの部分において正規直交ではなくなる。図23は、長方形フレームにマッピングされた典型的な非正方形キューブを示す。この場合、解像度は、キューブ面に依存する。
利用可能な方向の数が変化すると、全ての方向が利用可能な(コーデックにおいて変化がない)場合でも、利用可能な方向のみがエンコーダ側において試験される。この場合、方向の数は、N+(a)/N-(a)およびZ+(a)/Z-(a)を変えることによって、それに応じて適合される。
この新たなイントラ方向リスト処理を用いるために、フラグが設定され得る。
‐PPS(ピクチャパラメータセット)レベルで、このツールが利用可能であるかを示す。このフラグは、場合によっては、全方位映像に関する新たなMPM手順と同じである。
‐ブロック(CTU/CU/PU)レベルで、イントラ方向処理のポリシを示す。フラグが1に設定された場合、イントラ方向の数は上述したように減少する。
利用可能なイントラ予測方向のリストは、マッピングに基づいて、エンコーダ側およびデコーダ側の両方で計算される。
利用可能な方向の数は、デコーダにも伝送され得るので、画像のマッピング種類とは無関係である。
‐PPSレベルで、現在のフレームに関して利用可能なイントラ方向の数を示す。可能な方向の数は、行または列ごと、または画像エリア(スライス、タイルなど)ごとにインデックス化され得る。
‐CTU/CU/PUレベルで、場合によっては差動/コンテキスト符号化を用いて、周囲ブロックを考慮に入れて、考慮されるブロックに関して利用可能なイントラ方向の数を示す。
映像符号化および復号中のイントラ予測のためのMPMに関して様々な実施形態が説明された。たとえば、表3に示すようにMPMが位置合わせされ、あるいは図19に示すようにイントラ予測方向性モードの数が低減される。これらの様々な実施形態は、個別で、または組み合わせて用いられ得る。
図24は、本原理の典型的な実施形態の様々な態様が実装され得る典型的なシステム2400のブロック図を示す。システム2400は、後述する様々な構成要素を含むデバイスとして具体化されてよく、上述したプロセスを実行するように構成される。そのようなデバイスの例は、たとえばHMD、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナル映像記録システム、接続された家電機器、およびサーバを含むがこれに限定されない。システム2400はセンサを備えてよく、上述した典型的な映像システムを実装するために、図24に示し当業者に知られるような通信チャネルを介して他の同様のシステムに通信可能に結合され得る。
システム2400は、上述したような様々なプロセスを実行するためにそこにロードされた命令を実行するように構成された少なくとも1つのプロセッサ2410を含んでよい。プロセッサ2410は、当該技術において既知であるように、埋込型メモリ、入力出力インタフェース、および様々な他の回路を含んでよい。システム2400は、少なくとも1つのメモリ2420(たとえば揮発性メモリデバイス、不揮発性メモリデバイス)も含んでよい。システム2400は更に、EEPROM、ROM、PROM、RAM、DRAM、SRAM、フラッシュ、磁気ディスクドライブ、および/または光ディスクドライブを含むがこれに限定されない不揮発性メモリを含み得るストレージデバイス2440を含んでよい。ストレージデバイス2440は、非限定的な例として、内部ストレージデバイス、接続型ストレージデバイス、および/またはネットワークアクセス可能ストレージデバイスを備えてよい。システム2400は、符号化映像または復号された映像を提供するためにデータを処理するように構成されたエンコーダ/デコーダモジュール2430も含んでよい。
エンコーダ/デコーダモジュール2430は、符号化および/または復号機能を実行するためにデバイスに含まれ得るモジュール(複数も可)を表す。エンコーダ500およびデコーダ700は、エンコーダ/デコーダモジュール2430において用いられ得る。既知であるように、デバイスは、符号化および復号モジュールの1または両方を含んでよい。また、エンコーダ/デコーダモジュール2430は、当業者には既知であるように、システム2400の独立要素として実装されてよく、あるいはハードウェアとソフトウェアとの組み合わせとしてプロセッサ2410内に組み込まれてもよい。
システム2400は、ディスプレイ(2490)を更に含んでよく、または通信チャネルを介してディスプレイに通信可能に結合され得る。ディスプレイはたとえばOLEDまたはLCDタイプである。ディスプレイは、多くの場合大きなサイズである、没入型(投影)壁であってもよい。
システム2400は更に、タッチ表面2480(たとえばタッチパッドまたは触覚スクリーン)およびカメラ2470を備えてよい。プロセッサ2410は、システム2400の一部であってもなくてもよいセンサから受信した信号を処理してよい。センサからの測定値のいくつかは、システム2400の姿勢またはシステム2400に接続された他のデバイスの姿勢を計算するために用いられ得る。カメラ2470は、画像処理のために環境の画像を捕捉してよい。プロセッサ2410は、図1において説明したような前処理および後処理機能も実行してよい。
上述した様々なプロセスを実行するためにプロセッサ2410にロードされるプログラムコードは、ストレージデバイス2440に格納され、その後、プロセッサ2410による実行のためにメモリ2420にロードされ得る。本原理の典型的な実施形態によると、プロセッサ(複数も可)2410、メモリ2420、ストレージデバイス2440、およびエンコーダ/デコーダモジュール2430の1または複数は、上述したプロセスの実行中、入力映像、ビットストリーム、等式、式、行列、変数、動作、および動作ロジックを含むがこれに限定されない様々な項目の1または複数を格納してよい。
システム2400は、通信チャネル2460を介して他のデバイスとの通信を可能にする通信インタフェース2450も含んでよい。通信インタフェース2450は、通信チャネル2460からのデータを送受信するように構成されたトランシーバを含んでよいが、これに限定されない。通信インタフェースは、モデムまたはネットワークカードを含んでよいがこれに限定されず、通信チャネルは、有線および/または無線媒体に実装され得る。システム2400の様々な構成要素は、内部バス、ワイヤ、および印刷回路基板を含むがこれに限定されない様々な適切な接続を用いて互いに接続または通信可能に結合され得る。
本原理に係る典型的な実施形態は、プロセッサ2410によって実装されるコンピュータソフトウェアによって、またはハードウェアによって、あるいはハードウェアとソフトウェアとの組み合わせによって実行され得る。非限定的な例として、本原理に係る典型的な実施形態は、1または複数の集積回路によって実装され得る。メモリ2420は、技術環境に適した任意の種類であってよく、非限定的な例としてたとえば光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリおよび取外し可能メモリなど任意の適切なデータストレージ技術を用いて実装され得る。プロセッサ2410は、技術環境に適した任意の種類であってよく、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、およびマルチコアアーキテクチャに基づいたプロセッサの1または複数を包括してよい。
様々な方法が上述され、方法の各々は、上述した方法を実現するための1または複数のステップまたはアクションを備える。方法の適切な動作のために特定の順序のステップまたはアクションが必要でない限り、特定のステップおよび/またはアクションの順序および/または使用は、修正または結合され得る。
本出願において、たとえばイントラ予測のために用いられる角度およびモードインデックスなど、様々な数値が用いられる。留意すべき点として、特定の値は例示を目的としており、本原理は、これら特定の値に限定されるものではない。
本明細書で説明される実装は、たとえば方法またはプロセス、装置、ソフトウェアプログラム、データストリーム、または信号に実装され得る。単一形式の実装の文脈でしか説明されない(たとえば方法としてのみ説明される)場合でも、説明される特徴の実装は、他の形式(たとえば装置またはプログラム)で実装されてもよい。装置は、たとえば適当なハードウェア、ソフトウェア、およびファームウェアに実装され得る。方法はたとえば、たとえばコンピュータ、マイクロプロセッサ、集積回路、またはプログラマブル論理デバイスを含む、一般に処理デバイスを指すたとえばプロセッサなどの装置に実装され得る。またプロセッサは、たとえばコンピュータ、携帯電話、ポータブル/パーソナルデジタルアシスタント(「PDA」)、およびエンドユーザ間での情報の通信を容易にする他のデバイスなどの通信デバイスも含む。
本原理の「1つの実施形態」または「実施形態」または「1つの実装」または「実装」、ならびにそれらの他の変形例への言及は、実施形態に関して説明される特定の特徴、構造、特性などが、本原理の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書を通して様々な箇所に見られる、「1つの実施形態において」または「実施形態において」または「1つの実装において」または「実装において」といった表現、ならびに他の任意の変形例の出現は、必ずしも全てが同じ実施形態を指すわけではない。
また、本出願またはクレームは、様々な情報を「決定すること」に言及し得る。情報を決定することは、たとえば情報を推定すること、情報を計算すること、情報を予測すること、または情報をメモリから取得することの1または複数を含んでよい。
また、本出願またはクレームは、様々な情報に「アクセスすること」に言及し得る。情報にアクセスすることは、たとえば情報を受信すること、情報を(たとえばメモリから)取得すること、情報を格納すること、情報を処理すること、情報を伝送すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、または情報を推定することの1または複数を含んでよい。
また、本出願またはクレームは、様々な情報を「受信すること」に言及し得る。「受信すること」は、「アクセスすること」と同様、幅広い表現であることが意図される。情報を受信することは、たとえば、情報にアクセスすること、または情報を(たとえばメモリから)取得することの1または複数を含んでよい。また「受信すること」は一般に、たとえば情報を格納すること、情報を処理すること、情報を伝送すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、情報を推定することなどの動作中に何かと必要とされる。
当業者には明らかであるように、実装は、たとえば格納または伝送され得る情報を搬送するためにフォーマット化された様々な信号を生成してよい。情報はたとえば、方法を実行するための命令、または説明された実装の1つによって生成されたデータを含んでよい。たとえば信号は、説明された実施形態のビットストリームを搬送するためにフォーマット化され得る。そのような信号はたとえば、(たとえばスペクトルの無線周波数部分を用いて)電磁波として、またはベースバンド信号としてフォーマット化され得る。フォーマット化は、たとえばデータストリームを符号化し、符号化されたデータストリームによって搬送波を変調することを含んでよい。信号が搬送する情報はたとえば、アナログまたはデジタル情報であってよい。信号は、既知であるように、様々な有線または無線リンクを介して伝送され得る。信号は、プロセッサ可読媒体に格納され得る。

Claims (16)

  1. 映像データを符号化する方法であって、
    ピクチャの非境界ブロックにアクセスすることと、
    前記ブロックに関する利用可能なイントラ予測モードのセットからイントラ予測モードを決定することであって、前記セット内の前記利用可能なイントラ予測モードの数は、前記ブロックの垂直位置に依存すること(2120、2260)と、
    前記決定されたイントラ予測モードを用いて、前記ブロックを符号化することと
    を備える方法。
  2. 映像データを復号する方法であって、
    ピクチャの非境界ブロックに関する利用可能なイントラ予測モードのセットからイントラ予測モードを決定することであって、前記セット内の前記利用可能なイントラ予測モードの数は、前記ブロックの垂直位置に依存すること(2120、2260)と、
    前記決定されたイントラ予測モードを用いて、前記ブロックを復号することと
    を備える方法。
  3. 映像データを符号化するための装置であって、少なくとも1つのメモリと、1または複数のプロセッサとを備え、前記1または複数のプロセッサは、
    ピクチャの非境界ブロックにアクセスし、
    前記ブロックに関する利用可能なイントラ予測モードのセットからイントラ予測モードを決定し、ここで前記セット内の前記利用可能なイントラ予測モードの数は、前記ブロックの垂直位置に依存し、
    前記決定されたイントラ予測モードを用いて、前記ブロックを符号化する
    ように構成される、装置。
  4. 映像データを復号するための装置であって、少なくとも1つのメモリと、1または複数のプロセッサとを備え、前記1または複数のプロセッサは、
    ピクチャの非境界ブロックに関する利用可能なイントラ予測モードのセットからイントラ予測モードを決定し、ここで前記セット内の前記利用可能なイントラ予測モードの数は、前記ブロックの垂直位置に依存し、
    前記決定されたイントラ予測モードを用いて、前記ブロックを復号する
    ように構成される、装置。
  5. 前記ブロックが第2のブロックよりも前記ピクチャの中心から垂直方向に離れている場合、前記ブロックに関する利用可能なイントラ予測モードの数は、前記第2のブロックに関する利用可能なイントラ予測モードの数よりも小さい、請求項1または2に記載の方法、または請求項3または4に記載の装置。
  6. 前記ブロックに関する前記イントラ予測モードは、固定長コードを用いて符号化され、前記固定長コードの長さは、前記セット内の利用可能なイントラ予測モードの数(2260)に基づき、前記固定長コードの長さは、前記ブロックの前記垂直位置に依存する、請求項1、2、または5のいずれか1項に記載の方法、または請求項3〜5のいずれか1項に記載の装置。
  7. 前記利用可能なイントラ予測モードにおける2つの隣接するイントラ予測モード間の角度差は、前記ブロックの前記位置に基づく、請求項1、2、または5〜6のいずれか1項に記載の方法、または請求項3〜6のいずれか1項に記載の装置。
  8. 隣接ブロックのイントラ予測モードに基づいて、前記ブロックに関する第1の最確モードを決定することと、
    前記第1の最確モードに基づいて、前記ブロックに関する第2の最確モードを決定することであって、前記第1の最確モードと前記第2の最確モードとの間の角度差は、前記ブロックの前記位置に基づくことと
    を更に備える、請求項1、2、または5〜7のいずれか1項に記載の方法。
  9. 前記1または複数のプロセッサは、
    隣接ブロックのイントラ予測モードに基づいて、前記ブロックに関する第1の最確モードを決定し、
    前記第1の最確モードに基づいて、前記ブロックに関する第2の最確モードを決定する
    ように構成され、前記第1の最確モードと前記第2の最確モードとの間の角度差は、前記ブロックの前記位置に基づく、請求項3〜7のいずれか1項に記載の装置。
  10. 前記ブロックに関する前記イントラ予測モードは、前記第1の最確モードおよび前記第2の最確モードの1つであるように選択される、請求項8に記載の方法、または請求項9に記載の装置。
  11. 前記ピクチャは第1のブロックおよび第2のブロックを有し、前記第1のブロックに関する利用可能なイントラ予測モードの第1のセットは、前記第2のブロックに関する利用可能なイントラ予測モードの第2のセットとは異なり、前記利用可能なイントラ予測モードの第1のセットにおける2つの隣接するイントラ予測モード間の第1の角度差は、前記利用可能なイントラ予測モードの第2のセットにおける2つの隣接するイントラ予測モード間の第2の角度差と同じである、請求項1、2、または5〜10のいずれか1項に記載の方法、または請求項3〜8または10のいずれか1項に記載の装置。
  12. 前記ピクチャは第1のブロックおよび第2のブロックを有し、前記第1のブロックに関する利用可能なイントラ予測モードの第1のセットは、利用可能なイントラ予測モードの第2のセットとは異なり、前記第1のブロックに関する前記利用可能なイントラ予測モードの第1のセットは、連続したイントラ予測モードインデックスの第1のセットによって表され、前記第2のブロックに関する前記利用可能なイントラ予測モードの第2のセットは、連続したイントラ予測モードインデックスの第2のセットによって表される、請求項1、2、5〜9、または11のいずれか1項に記載の方法、または請求項3〜8または10〜11のいずれか1項に記載の装置。
  13. 前記利用可能なイントラ予測モードの第1のセットおよび前記利用可能なイントラ予測モードの第2のセットにおける同じイントラ予測モードインデックスは、同じイントラ予測モードに対応する、請求項12に記載の方法、または請求項12に記載の装置。
  14. 前記ブロックに関する前記セット内の利用可能なイントラ予測モードの数を前記ブロックの前記位置に関連付けるためにルックアップテーブルが用いられる、請求項1、2、5〜9、または11〜13のいずれか1項に記載の方法、または請求項3〜8または11〜13のいずれか1項に記載の装置。
  15. 符号化映像を表現するビットストリームであって、
    ピクチャの非境界ブロックを表現する符号化データと、
    前記ブロックに関する利用可能なイントラ予測モードのセットのうちのイントラ予測モードを表現する符号化データと
    を備え、前記セット内の前記利用可能なイントラ予測モードの数は、前記ブロックの垂直位置に依存し、前記ブロックは、前記イントラ予測モードを用いて符号化される、ビットストリーム。
  16. 1または複数のプロセッサによって実行されると、請求項1、2、5〜9、または11〜14のいずれか1項に記載の方法を実行するためのソフトウェアコード命令を備えるコンピュータプログラム製品。
JP2019512885A 2016-09-30 2017-09-28 適応型イントラ最確モードを用いた全方位映像符号化のための方法および装置 Active JP7043148B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16306271.4A EP3301915A1 (en) 2016-09-30 2016-09-30 Method and apparatus for omnidirectional video coding with adaptive intra most probable modes
EP16306271.4 2016-09-30
PCT/EP2017/074624 WO2018060329A1 (en) 2016-09-30 2017-09-28 Method and apparatus for omnidirectional video coding with adaptive intra most probable modes

Publications (3)

Publication Number Publication Date
JP2019534600A true JP2019534600A (ja) 2019-11-28
JP2019534600A5 JP2019534600A5 (ja) 2020-11-12
JP7043148B2 JP7043148B2 (ja) 2022-03-29

Family

ID=57138007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019512885A Active JP7043148B2 (ja) 2016-09-30 2017-09-28 適応型イントラ最確モードを用いた全方位映像符号化のための方法および装置

Country Status (6)

Country Link
US (1) US10834389B2 (ja)
EP (2) EP3301915A1 (ja)
JP (1) JP7043148B2 (ja)
KR (1) KR102462344B1 (ja)
CN (1) CN109792520B (ja)
WO (1) WO2018060329A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3300362A1 (en) * 2016-09-27 2018-03-28 Thomson Licensing Method for improved intra prediction when reference samples are missing
US20190253624A1 (en) * 2017-07-17 2019-08-15 Ki Baek Kim Image data encoding/decoding method and apparatus
KR102531386B1 (ko) 2016-10-04 2023-05-12 주식회사 비원영상기술연구소 영상 데이터 부호화/복호화 방법 및 장치
US10818087B2 (en) 2017-10-02 2020-10-27 At&T Intellectual Property I, L.P. Selective streaming of immersive video based on field-of-view prediction
GB2567859A (en) * 2017-10-27 2019-05-01 Sony Corp Image data encoding and decoding
GB2567860A (en) * 2017-10-27 2019-05-01 Sony Corp Image data encoding and decoding
US11856184B2 (en) * 2018-05-14 2023-12-26 Interdigital Vc Holdings, Inc. Block shape adaptive intra prediction directions for quadtree-binary tree
KR102664681B1 (ko) * 2018-06-19 2024-05-09 삼성전자 주식회사 영상 압축을 수행하는 전자 장치 및 전자 장치의 동작 방법
CN112352425B (zh) 2018-06-21 2024-02-13 索尼公司 图像处理装置和图像处理方法
US10567752B2 (en) 2018-07-02 2020-02-18 Tencent America LLC Method and apparatus for intra prediction for non-square blocks in video compression
JP2021531677A (ja) 2018-07-16 2021-11-18 インターデジタル ヴイシー ホールディングス, インコーポレイテッド 広角イントラ予測と位置依存イントラ予測の組み合わせ
WO2020091502A1 (ko) * 2018-11-01 2020-05-07 엘지전자 주식회사 인트라 예측 모드 기반 영상 처리 방법 및 이를 위한 장치
US11012710B2 (en) * 2019-03-06 2021-05-18 Tencent America LLC Techniques for intra prediction for 360 image and video coding
CN112640461A (zh) 2019-06-25 2021-04-09 Oppo广东移动通信有限公司 映射方法、编码器、解码器以及计算机存储介质
EP4228256A1 (en) 2019-06-25 2023-08-16 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image encoding method, image decoding method, decoder and storage medium for picture coding in mip mode
KR102476057B1 (ko) 2019-09-04 2022-12-09 주식회사 윌러스표준기술연구소 클라우드 가상 현실을 위한 imu 센서 데이터를 활용한 비디오 인코딩 및 디코딩 가속 방법 및 장치
CN116916043A (zh) 2019-09-24 2023-10-20 Oppo广东移动通信有限公司 预测值的确定方法、编码器、解码器以及计算机存储介质
AU2019467372B2 (en) 2019-09-24 2022-05-19 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image coding/decoding method, coder, decoder, and storage medium
CN114554195B (zh) * 2020-11-25 2024-06-25 腾讯科技(深圳)有限公司 图像处理方法、设备及存储介质
CN115474046A (zh) * 2021-06-11 2022-12-13 维沃移动通信有限公司 点云属性信息编码方法、解码方法、装置及相关设备
US20240298022A1 (en) * 2023-03-01 2024-09-05 Tencent America LLC Angular intra prediction

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160112704A1 (en) * 2014-10-20 2016-04-21 Google Inc. Continuous prediction domain

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141562A (ja) 2001-10-29 2003-05-16 Sony Corp 非平面画像の画像処理装置及び画像処理方法、記憶媒体、並びにコンピュータ・プログラム
US7386048B2 (en) * 2002-05-28 2008-06-10 Sharp Laboratories Of America, Inc. Methods and systems for image intra-prediction mode organization
WO2005022919A1 (en) * 2003-08-26 2005-03-10 Thomson Licensing S.A. Method and apparatus for decoding hybrid intra-inter coded blocks
US8913660B2 (en) * 2005-04-14 2014-12-16 Fastvdo, Llc Device and method for fast block-matching motion estimation in video encoders
US8254455B2 (en) * 2007-06-30 2012-08-28 Microsoft Corporation Computing collocated macroblock information for direct mode macroblocks
CN101350920A (zh) 2007-07-17 2009-01-21 北京华辰广正科技发展有限公司 一种面向全景视频的全局运动估计方法
CN101771878B (zh) 2010-01-14 2011-05-25 广西大学 面向全景视频编码的自适应选择全局运动估计方法
US8902978B2 (en) * 2010-05-30 2014-12-02 Lg Electronics Inc. Enhanced intra prediction mode signaling
US9532058B2 (en) * 2011-06-03 2016-12-27 Qualcomm Incorporated Intra prediction mode coding with directional partitions
US9654785B2 (en) * 2011-06-09 2017-05-16 Qualcomm Incorporated Enhanced intra-prediction mode signaling for video coding using neighboring mode
SG10201902274SA (en) * 2011-06-24 2019-04-29 Mitsubishi Electric Corp Moving image encoding device, moving image decoding device, moving image encoding method, and moving image decoding method
DK2838270T3 (da) * 2011-06-28 2017-01-02 Samsung Electronics Co Ltd Videoafkodningsfremgangsmåde ved anvendelse af intraforudsigelse
CN103636220B (zh) 2011-06-28 2017-10-13 寰发股份有限公司 编码/解码帧内预测模式的方法及装置
PT2942954T (pt) * 2011-10-24 2020-08-05 Innotive Ltd Aparelho de descodificação de imagem
US9628789B2 (en) * 2011-11-18 2017-04-18 Qualcomm Incorporated Reference mode selection in intra mode coding
EP2645713A1 (en) 2012-03-30 2013-10-02 Alcatel Lucent Method and apparatus for encoding a selected spatial portion of a video stream
EP2870751A4 (en) 2012-07-04 2016-03-09 Intel Corp PANORAMIC 3D VIDEO CODING
US20140064359A1 (en) * 2012-08-31 2014-03-06 Qualcomm Incorporated Intra prediction most probable mode order improvement for scalable video coding
US9667942B2 (en) * 2012-11-20 2017-05-30 Qualcomm Incorporated Adaptive luminance compensation in three dimensional video coding
US20150016533A1 (en) * 2013-07-12 2015-01-15 Qualcomm Incorporated Intra motion compensation extensions
US20150296215A1 (en) 2014-04-11 2015-10-15 Microsoft Corporation Frame encoding using hints
EP3267687B1 (en) * 2015-03-05 2021-10-20 Sony Group Corporation Image processing device and image processing method
US11463689B2 (en) * 2015-06-18 2022-10-04 Qualcomm Incorporated Intra prediction and intra mode coding
EP3301916A1 (en) 2016-09-30 2018-04-04 Thomson Licensing Method and apparatus for omnidirectional video coding with adaptive intra most probable modes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160112704A1 (en) * 2014-10-20 2016-04-21 Google Inc. Continuous prediction domain

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MADHUKAR BUDAGAVI, ET AL.: "360 DEGREES VIDEO CODING USING REGION ADAPTIVE SMOOTHING", ICIP 2015, JPN6021041168, 2015, pages 750 - 754, XP032826521, ISSN: 0004616935, DOI: 10.1109/ICIP.2015.7350899 *
PHILIPPE HANHART, YUWEN HE, AND YAN YE: "AHG8: Reference samples derivation using geometry padding for intra coding", JOINT VIDEO EXPLORATION TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11, vol. JVET-D0092, JPN6021041169, October 2016 (2016-10-01), pages 1 - 6, ISSN: 0004616936 *
YINGBIN WANG, YIMING LI, DAIQIN YANG, AND ZHENZHONG CHEN: "A Fast Intra Prediction Algorithm for 360-Degree Equirectangular Panoramic Video", VCIP 2017, JPN6021041170, 2017, pages 1 - 4, XP033325835, ISSN: 0004616937, DOI: 10.1109/VCIP.2017.8305110 *

Also Published As

Publication number Publication date
EP3520400B1 (en) 2021-12-29
EP3301915A1 (en) 2018-04-04
EP3520400A1 (en) 2019-08-07
CN109792520A (zh) 2019-05-21
KR20190052013A (ko) 2019-05-15
WO2018060329A1 (en) 2018-04-05
CN109792520B (zh) 2023-06-06
JP7043148B2 (ja) 2022-03-29
KR102462344B1 (ko) 2022-11-03
US20190208200A1 (en) 2019-07-04
US10834389B2 (en) 2020-11-10

Similar Documents

Publication Publication Date Title
JP7043148B2 (ja) 適応型イントラ最確モードを用いた全方位映像符号化のための方法および装置
US11089296B2 (en) Method and apparatus for omnidirectional video coding and decoding with adaptive intra prediction
EP3301916A1 (en) Method and apparatus for omnidirectional video coding with adaptive intra most probable modes
US20200029092A1 (en) Method and apparatus for encoding and decoding a large field of view video
US20190238853A1 (en) Method and apparatus for encoding and decoding an omnidirectional video
US20190238848A1 (en) Method and apparatus for calculating quantization parameters to encode and decode an immersive video
EP3520412B1 (en) Method and apparatus for encoding and decoding a large field of view video
KR20190054076A (ko) 글로벌 회전 모션 보상된 이미지들을 인코딩하기 위한 방법, 디바이스 및 스트림
US11653014B2 (en) Method and apparatus for encoding and decoding an omnidirectional video
EP3520413B1 (en) Method and apparatus for omnidirectional video coding and decoding with adaptive intra prediction
KR20200053498A (ko) 전방위 비디오를 위한 움직임 벡터 예측기의 적응을 위한 방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200925

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211018

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220315

R150 Certificate of patent or registration of utility model

Ref document number: 7043148

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150