JP2024510179A

JP2024510179A - 一般化サンプルオフセット

Info

Publication number: JP2024510179A
Application number: JP2023555221A
Authority: JP
Inventors: ジャオ，シン; クリシュナン，マドゥペリンガッセリー; ジャオ，リアン; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-11-15
Filing date: 2022-10-27
Publication date: 2024-03-06
Also published as: CN116918324A; WO2023086214A1; KR20230113387A; US20230156185A1

Abstract

本開示は、クロスコンポーネントサンプルオフセット(CCSO)及びローカルサンプルオフセット(LSO)のための適応ループフィルタリング(ALF)に関する。ALFは、第1の色成分の再構成サンプルを入力(例えば、Y、Cb又はCr)として使用する。CCSOについては、出力は第1の色成分の異なる色成分である第2の色成分に適用される。LSOについては、出力は第1の色成分に適用される。結合ALFは、同一位置(又は現在)のサンプルの隣接サンプルの間のデルタ値を考慮し、同一位置(又は現在)のサンプルのレベル値も考慮することによって、CCSO及びLSOについて一般化されてもよい。

Description

［参照による援用］
本出願は、2022年10月19日に出願された「GENERALIZED SAMPLE OFFSET」という名称の米国特許出願第18/047,877号の優先権を主張し、当該出願は2021年11月15日に出願された「GENERALIZED SAMPLE OFFSET」という名称の米国仮出願第63/279,674号及び2021年12月13日に出願された「GENERALIZED SAMPLE OFFSET」という名称の米国仮出願第63/289,137号の優先権を主張し、これらの全ての出願の全内容を参照により援用する。

［技術分野］
本開示は、一式の高度ビデオコーディング技術に関する。より具体的には、本開示の技術は、クロスコンポーネント(成分間)サンプルオフセット(CCSO, cross-component sample offset)及びローカルサンプルオフセット(LSO, local sample offset)を含む。

本明細書で提供されるこの背景説明は、本開示の文脈を概括的に提示するためのものである。本願で名前が挙がっている発明者の仕事であってその仕事がこの背景セクションに記載されている範囲におけるもの、また、他の意味で本出願の出願時に先行技術として適格でない可能性がある本記述の側面は、明示的にも暗黙的にも本開示に対する先行技術として認められない。

ビデオ符号化及び復号は、動き補償を伴うインターピクチャ予測を使用して実行できる。非圧縮デジタルビデオは、一連のピクチャを含むことができ、各ピクチャは、例えば1920×1080のルミナンスサンプル及び関連するフル又はサブサンプリングされたクロミナンスサンプルの空間的寸法を有する。一連のピクチャは、固定又は可変のピクチャレート(或いはフレームレートとも呼ばれる)、例えば、毎秒60ピクチャ又は毎秒60フレームのピクチャレートを有することができる。非圧縮ビデオは、ストリーミング又はデータ処理のために特定のビットレート要件を有する。例えば、1920×1080のピクセル解像度、60フレーム/秒のフレームレート、及びピクセル当たりカラーチャネル当たり8ビットの4:2:0のクロマサブサンプリングを有するビデオは、1.5Gbit/sに近い帯域幅を必要とする。このようなビデオの1時間は、600Gバイトを超える記憶スペースを必要とする。

ビデオ符号化及び復号の1つの目的は、圧縮による非圧縮入力ビデオ信号における冗長性の低減であり得る。圧縮は、上記の帯域幅及び／又は記憶スペースの要件を、場合によっては2桁以上も低減するのに役立つ可能性がある。可逆圧縮及び不可逆圧縮の双方、並びにそれらの組み合わせが使用できる。可逆圧縮は、復号プロセスを介して、圧縮された元の信号から元の信号の正確なコピーが再構成できる技術を示す。不可逆圧縮は、元のビデオ情報が符号化中に十分に保持されず、復号中に十分に回復できない符号化/復号プロセスを示す。不可逆圧縮を使用する場合、再構成された信号は、元の信号と同一ではないことがあるが、元の信号と再構成された信号との間の歪みは、いくつかの情報損失にもかかわらず再構成された信号を意図された用途のために有用にレンダリングするのに十分小さくなる。ビデオの場合、不可逆圧縮が多くの用途で広く使用されている。許容可能な歪みの量はアプリケーションに依存する。例えば、特定の消費者ビデオストリーミングアプリケーションのユーザは、映画又はテレビ放送アプリケーションのユーザよりも高い歪みを許容することがある。特定の符号化アルゴリズムによって達成可能な圧縮比は、様々な歪み耐性を反映するように選択又は調整でき、一般的に、より高い許容可能な歪みはより高い損失及びより高い圧縮比をもたらす符号化アルゴリズムを許容する。

ビデオエンコーダ及びデコーダは、例えば動き補償、フーリエ変換、量子化、及びエントロピー符号化を含むいくつかの広範なカテゴリ及びステップからの技術を利用することができる。

ビデオコーデック技術は、イントラ符号化として知られる技術を含むことができる。イントラ符号化では、サンプル値は、以前に再構成された参照ピクチャからのサンプル又は他のデータを参照することなく表現される。いくつかのビデオコーデックでは、ピクチャは空間的にサンプルのブロックに分割される。サンプルの全てのブロックがイントラモードで符号化される場合、そのピクチャはイントラピクチャと呼ばれることができる。イントラピクチャと、独立デコーダリフレッシュピクチャのようなその派生物は、デコーダ状態をリセットするために使用でき、したがって、符号化ビデオビットストリーム及びビデオセッションにおける最初のピクチャとして或いは静止画像として使用できる。次いで、イントラ予測の後のブロックのサンプルは周波数ドメインへの変換にかけることができ、そのように生成された変換係数は、エントロピー符号化の前に量子化できる。イントラ予測は、変換前ドメインにおけるサンプル値を最小化する技術を表す。場合によっては、変換後のDC値が小さく、AC係数が小さいほど、エントロピー符号化後のブロックを表すために所与の量子化ステップサイズで必要とされるビット数が少なくなる。

例えばMPEG-2世代の符号化技術から知られているような伝統的なイントラ符号化は、イントラ予測を使用しない。しかし、いくつかのより新しいビデオ圧縮技術は、例えば、空間的に隣接するものの符号化及び/又は復号中に取得され、イントラ符号化又は復号されているデータのブロックに復号順で先行する周囲のサンプルデータ及び/又はメタデータに基づいてブロックの符号化/復号を試みる技術を含む。このような技術は、以下では「イントラ予測」技術と呼ばれる。少なくともいくつかの場合には、イントラ予測は再構成中の現在ピクチャからの参照データのみを使用し、他の参照ピクチャからの参照データは使用しないことに注意されたい。

様々な形式のイントラ予測が存在し得る。所与のビデオ符号化技術において、このような技術の2つ以上が利用可能である場合、使用される技術は、イントラ予測モードと呼ばれることができる。1つ以上のイントラ予測モードが特定のコーデックで提供されてもよい。特定の場合には、モードは、サブモードを有することができ、及び/又は様々なパラメータに関連付けられてもよく、ビデオのブロックのモード/サブモード情報及びイントラ符号化パラメータは、個別に符号化されることができ、或いは、併せてモードコードワードに含められることができる。所与のモード、サブモード及び/又はパラメータの組み合わせのためにどのコードワードを使用するかは、イントラ予測を通して符号化効率利得に影響を与える可能性があり、コードワードをビットストリームに変換するために使用されるエントロピー符号化技術も同様に影響を与える可能性がある。

イントラ予測の特定のモードがH.264で導入され、H.265で洗練され、共同探査モデル(JEM, joint exploration model)、バーサタイルビデオ符号化(VVC, versatile video coding)、及びベンチマークセット(BMS, benchmark set)のようなより新しい符号化技術においてさらに洗練された。一般的にイントラ予測について、予測子ブロックは、利用可能になった隣接サンプル値を使用して形成されることができる。例えば、特定の方向及び/又はラインに沿った特定のセットの隣接サンプルの利用可能な値が予測子ブロックにコピーされてもよい。使用される方向への参照は、ビットストリームにおいて符号化されることができ、或いは、それ自身予測されてもよい。

図１Ａを参照すると、右下に、H.265の33個の可能なイントラ予測子方向(H.265で指定されている35個のイントラモードのうち33個の角度モードに対応する)で指定されている9個の予測子方向のサブセットが描かれている。矢印が収束する点(101)は、予測されるサンプルを表す。矢印は、101において隣接サンプルがサンプルを予測するために使用されるときの方向を表す。例えば、矢印(102)は、サンプル(101)が、水平方向から45度の角度の右上の隣接サンプル(単数又は複数)から予測されることを示す。同様に、矢印(103)は、サンプル(101)が、水平方向から22.5度の角度の、サンプル(101)の左下の隣接サンプル(単数又は複数)から予測されることを示す。

引き続き図１Ａを参照すると、左上には、4×4サンプルの正方形ブロック(104)が描かれている(太い破線で示されている)。正方形ブロック(104)は、16個のサンプルを含み、各サンプルは「S」とY次元におけるその位置(例えば、行インデックス)及びX次元におけるその位置(例えば、列インデックス)でラベル付けされている。例えば、サンプルS21は、Y次元の(上から)2番目のサンプルであり、X次元の(左から)最初のサンプルである。同様に、サンプルS44は、Y及びX次元の双方においてブロック(104)内の4番目のサンプルである。ブロックが4×4サンプルのサイズであるので、S44は右下にある。さらに、同様の番号付け方式に従う例示的な参照サンプルが示されている。参照サンプルは、Rと、ブロック(104)に対するそのY位置(例えば、行インデックス)及びX位置(列インデックス)でラベル付けされる。H.264とH.265との双方において、再構成中のブロックの近傍の隣接する予測サンプルが使用される。

ブロック104のイントラピクチャ予測は、信号伝達(シグナリング)される予測方向に従って隣接サンプルから参照サンプル値をコピーすることによって始まってもよい。例えば、符号化ビデオビットストリームは、このブロック104について、矢印(102)の予測方向を示す信号伝達を含むと想定する。すなわち、サンプルは、水平方向から45度の角度の右上の予測サンプル(単数又は複数)から予測される。このような場合、サンプルS41、S32、S23及びS14は、同じ参照サンプルR05から予測される。次いで、サンプルS44は、参照サンプルR08から予測される。

特定の場合には、特に方向が45度で割り切れない場合には、参照サンプルを計算するために、複数の参照サンプルの値が、例えば補間によって組み合わされることができる。

ビデオ符号化技術の発達し続けるにつれて、可能な方向の数が増加してきた。H.264(2003年)では、例えば、9つの異なる方向が表イントラ予測に利用可能である。これは、H.265(2013年)では33に増加し、本開示の時点でのJEM/VVC/BMSは、最大で65の方向をサポートできる。最も適切なイントラ予測方向を識別するのを助けるために実験が行われ、方向についての特定のビットペナルティを受け入れつつ、これらの最も適切な方向を少数のビットで符号化するために、エントロピー符号化において特定の技術が使用されてもよい。さらに、場合によっては、方向自身が、復号された隣接ブロックのイントラ予測で使用された隣接方向から予測できる。

図１Ｂは、時間とともに開発された様々な符号化技術において増加する予測方向の数を示すために、JEMによる65個のイントラ予測方向を描く概略図(180)を示している。

符号化ビデオビットストリームにおける予測方向へのイントラ予測方向ビットのマッピングの方式は、ビデオ符号化技術毎に異なってもよく、例えば、予測方向のイントラ予測モードへの単純な直接的マッピングから、コードワード、最確モードに関わる複雑な適応方式、及び同様の技術まであり得る。しかし、全ての場合に、ビデオコンテンツにおいて、特定の他の方向よりも統計的に起こりにくいイントラ予測の特定の方向が存在し得る。ビデオ圧縮の目標は冗長性の低減であるので、良好に設計されたビデオ符号化技術においては、これらのより可能性の低い方法は、より可能性の高い方向よりもより多くのビット数によって表されてもよい。

インターピクチャ予測又はインター予測は動き補償に基づくものでもよい。動き補償では、以前に再構成されたピクチャ又はその一部(参照ピクチャ)からのサンプルデータが、動きベクトル(以下、MV)によって示される方向に空間的にシフトされた後に、新しく再構成されるピクチャ又はその一部(例えば、ブロック)の予測のために使用されてもよい。場合によっては、参照ピクチャは、現在再構成中のピクチャと同じものとすることもできる。MVは、X及びYの2次元、又は3次元を有してもよく、第3の次元は、使用される参照ピクチャの指示である(時間次元と同様である)。

いくつかのビデオ圧縮技術では、サンプルデータの特定の領域に適用可能な現在のMVは、他のMVから、例えば、再構成中の領域に空間的に隣接し、復号順で現在のMVに先行するサンプルデータの他の領域に関連する他のMVから予測されることができる。そうすることにより、関連するMVにおける冗長性を削減することに依存することで、MVの符号化に必要とされる全体のデータ量を実質的に削減することができ、それにより圧縮効率を増加させることができる。MV予測が有効に機能できるのは、例えば、カメラから導出される入力ビデオ信号(ナチュラルビデオとして知られる)を符号化する際に、ビデオシーケンスにおいて単一のMVが適用可能である領域よりも大きい領域が同様の方向に移動し、したがって、場合によっては、隣接領域のMVから導出された同様の動きベクトルを使用して予測できるという、統計的確からしさがあるからである。その結果、所与の領域について実際のMVが、周囲のMVから予測されるMVと同様又は同一であることになる。次いで、このようなMVは、エントロピー符号化の後、隣接MVから予測されるのではなくMVを直接符号化する場合に使用されるであろうものよりも少数のビットで表現されてもよい。いくつかの場合には、MV予測は、元の信号(すなわち、サンプルストリーム)から導出された信号(すなわち、MV)の可逆圧縮の例とすることができる。他の場合には、MV予測自身が、例えば、いくつかの周囲のMVから予測子を計算する際の丸め誤差のために、不可逆であることがある。

H.265/HEVC(ITU-T Rec. H.265、「High Efficiency Video Coding」、December 2016)には、様々なMV予測機構が記載されている。H.265が指定する多くのMV予測機構のうち、本明細書では、以後、「空間マージ(spatial merge)」と呼ばれる技術が記載される。

具体的には図２を参照すると、現在ブロック(201)は、空間的にシフトされた同じサイズの前のブロックから予測可能であることが動き探索プロセスの間にエンコーダによって見出されたサンプルを含む。そのMVを直接符号化する代わりに、MVは、1つ以上の参照ピクチャに関連付けられたメタデータから、例えば(復号順で)最新の参照ピクチャから、A0、A1、及びB0、B1、B2(それぞれ202～206)と記される5つの周囲のサンプルのいずれかに関連付けられたMVを使用して、導出できる。H.265では、MV予測は、隣接ブロックが使用するのと同じ参照ピクチャからの予測子を使用することができる。

AOメディアビデオ1(AV1, AOMedia Video 1)は、インターネット上のビデオ伝送に設計されたオープンなビデオコーディングフォーマットである。VP9のコードベース上に構築して更なる技術を組み込むことで、VP9の後継として開発された。AV1ビットストリーム仕様は、H.265又はHEVC(High Efficiency Video Coding)標準又はVVC(Versatile Video Coding)のような参照ビデオコーデックを含む。

本開示の実施形態は、クロスコンポーネントサンプルオフセット(CCSO, cross-component sample offset)及びローカルサンプルオフセット(LSO, local sample offset)のための方法及び装置を提供する。適応ループフィルタリング(ALF, Adaptive loop filtering)は、第1の色成分の再構成サンプルを入力(例えば、Y、Cb又はCr)として使用する。CCSOについては、出力は第1の色成分の異なる色成分である第2の色成分に適用される。LSOについては、出力は第1の色成分に適用される。結合ALFは、同一位置(又は現在)のサンプルの隣接サンプルの間のデルタ値を考慮し、同一位置(又は現在)のサンプルのレベル値も考慮することによって、CCSO及びLSOについて一般化されてもよい。

一実施形態では、ビデオ復号のための方法は、コーディングされたビデオビットストリームから現在ピクチャ内の再構成サンプルのためのコーディング情報を復号するステップであって、コーディング情報は、再構成サンプルに適用されるサンプルオフセットフィルタを含む、ステップと、サンプルオフセットフィルタで使用されるオフセットタイプを選択するステップであって、オフセットタイプは、勾配オフセット(GO, gradient offset)又はバンドオフセット(BO, band offset)を含む、ステップと、再構成サンプル及び選択されたオフセットタイプに基づいてサンプルオフセットフィルタの出力値を決定するステップとを含む。当該方法は、再構成サンプル及びサンプルオフセットフィルタの出力値に基づいてフィルタリングされたサンプル値を決定するステップを更に含む。再構成サンプルは、現在ピクチャ内の現在の成分からのものである。フィルタリングされたサンプル値は、再構成サンプルのためのものである。選択するステップは、オフセットタイプを示す信号を受信するステップを更に含む。信号は、スライスヘッダ、ピクチャヘッダ、フレームヘッダ、スーパーブロックヘッダ、符号化ツリーユニット(CTU, coding tree unit)ヘッダ又はタイルヘッダで送信されるハイレベルのシンタックスを含む。信号は、符号化ユニットレベル、予測ブロックレベル、変換ブロックレベル又はフィルタリングユニットレベルにおけるブロックレベル送信を含む。信号は、オフセットが1つ又は複数の色成分に適用されるか否かを示す第1のフラグと、GO及び/又はBOが適用されるか否かを示す第2のフラグとを含む。選択するステップは、BOを選択するステップ、GOを選択するステップ、又はBO及びGOの双方を選択するステップを含む。GOの選択は、隣接サンプルと異なる色成分の同一位置のサンプルとの間のデルタ値を使用してGOを導出することを更に含む。GOの選択は、隣接サンプルとフィルタリングされる現在サンプルの同一位置のサンプルとの間のデルタ値を使用してGOを導出することを更に含む。BOの選択は、異なる色成分の同一位置のサンプルの値を使用してBOを導出することを更に含む。BOの選択は、フィルタリングされる現在サンプルの同一位置のサンプルの値を使用してBOを導出することを更に含む。選択するステップがGO及びBOの双方を選択するステップを含む場合、選択するステップは、隣接サンプルと異なる色成分又はフィルタリングされる現在サンプルのいずれかの同一位置のサンプルとの間のデルタ値を使用してオフセットを導出するステップと、異なる色成分又はフィルタリングされる現在サンプルのいずれかの同一位置のサンプルの値を使用してオフセットを導出するステップとを含む。

他の実施形態では、ビデオビットストリームを復号するための装置は、命令を記憶するメモリと、メモリと通信するプロセッサとを含む。プロセッサが命令を実行すると、プロセッサは、当該装置に、ビデオビットストリームからの現在ピクチャ内の現在の成分の再構成サンプルにサンプルオフセットフィルタを適用するステップと、サンプルオフセットフィルタのためのオフセットタイプを識別するステップであって、オフセットタイプは、勾配オフセット(GO, gradient offset)又はバンドオフセット(BO, band offset)を含む、ステップと、再構成サンプル及び選択されたオフセットタイプに基づいてサンプルオフセットフィルタのフィルタリングされたサンプル値を決定するステップとを実行させるように構成される。プロセッサは、当該装置に、再構成サンプル及び選択されたオフセットタイプに基づいて出力値を決定するステップを実行させるように更に構成され、フィルタリングされたサンプル値は出力値及び再構成サンプルに基づいて更に決定される。プロセッサは、当該装置に、識別に使用されるオフセットタイプを示す信号を受信するステップを実行させるように更に構成される。信号は、オフセットが1つ又は複数の色成分に適用されるか否かを示す第1のフラグと、GO及び/又はBOが適用されるか否かを示す第2のフラグとを含む。

他の実施形態では、命令を記憶する非一時的なコンピュータ読み取り可能記憶媒体であり、命令がプロセッサによって実行されると、命令は、プロセッサに、ビデオビットストリームからの現在ピクチャ内の現在の成分の再構成サンプルにサンプルオフセットフィルタを適用するステップと、サンプルオフセットフィルタのためのオフセットタイプを識別するステップであって、オフセットタイプは、勾配オフセット(GO, gradient offset)又はバンドオフセット(BO, band offset)を含む、ステップと、再構成サンプル及び選択されたオフセットタイプに基づいて出力値を決定するステップと、出力値及び再構成サンプルに基づいてサンプルオフセットフィルタのフィルタリングされたサンプル値を決定するステップと実行させるように構成される。識別するステップは、オフセットタイプを示す1つ以上のフラグを有する信号を使用するステップを含む。

いくつかの他の実施形態では、ビデオ情報を処理するためのデバイスが開示される。当該デバイスは、上記の方法の実装のいずれか1つを実行するように構成された回路を含んでもよい。

本開示の実施形態はまた、ビデオ復号及び/又は符号化のためにコンピュータによって実行されると、コンピュータにビデオ復号及び/又は符号化のための方法を実行させる命令を記憶した非一時的なコンピュータ読み取り可能媒体を提供する。

開示された主題の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明白になるであろう。
イントラ予測方向モードの例示的なサブセットの概略図を示す。例示的なイントラ予測方向の説明図を示す。一例における動きベクトル予測のための現在ブロック及びその周囲の空間的マージ候補の概略図を示す。例示的な実施形態による通信システムの簡略化されたブロック図の概略図を示す。例示的な実施形態による通信システム(400)の簡略化されたブロック図の概略図を示す。例示的な実施形態によるビデオデコーダの簡略化されたブロック図の概略図を示す。例示的な実施形態によるビデオエンコーダの簡略化されたブロック図の概略図を示す。例示的な実施形態によるビデオエンコーダのブロック図を示す。例示的な実施形態によるビデオデコーダのブロック図を示す。本開示の例示的な実施形態による符号化ブロック分割の方式を示す。本開示の例示的な実施形態による符号化ブロック分割の別の方式を示す。本開示の例示的な実施形態による符号化ブロック分割の別の方式を示す。例示的な分割方式によるベースブロックの符号化ブロックへの例示的な分割を示す。例示的な三分割方式を示す。例示的な四分木二分木符号化ブロック分割方式を示す。本開示の例示的な実施形態に従って符号化ブロックを複数の変換ブロックに分割するための方式と、変換ブロックの符号化順序とを示す。本開示の例示的な実施形態に従って符号化ブロックを複数の変換ブロックに分割するための別の方式と、変換ブロックの符号化順序とを示す。本開示の例示的な実施形態に従って符号化ブロックを複数の変換ブロックに分割するための別の方式を示す。例示的な適応ループフィルタ(ALF, adaptive loop filter)の形状を示す。垂直勾配のラプラシアン計算におけるサブサンプリング位置を示す。水平勾配のラプラシアン計算におけるサブサンプリング位置を示す。対角勾配のラプラシアン計算におけるサブサンプリング位置を示す。他の対角勾配のラプラシアン計算におけるサブサンプリング位置を示す。仮想境界における修正ブロック分類の例を示す。仮想境界におけるルマ成分についての修正適応ループフィルタリングの例を示す。最大符号化ユニット(LCU, largest coding unit)で整列されたピクチャ四分木分割の例を示す。 z順で符号化された四分木分割フラグの例を示す。クロスコンポーネント適応ループフィルタ(CC-ALF, cross-component adaptive loop filter)配置の例を示す。ダイヤモンド形フィルタの例を示す。ルマサンプルに対するクロマサンプルの例示的な位置を示す。方向検索の例を示す。部分空間射影の例を示す。フィルタサポート領域の例を示す。例示的なループフィルタパイプラインを示す。クロスコンポーネントサンプルオフセット(CCSO, cross-component sample offset)の例示的な入力を示す。クロスコンポーネントサンプルオフセット(CCSO)における例示的なフィルタ形状を示す。例示的なピクセルパターンを示す。本開示の例示的な実施形態による方法のフローチャートを示す。本開示の例示的な実施形態によるコンピュータシステムの概略図を示す。

明細書及び特許請求の範囲を通じて、用語は、明示的に記載された意味を超えて、文脈において示唆又は暗示されたニュアンスの意味を有することがある。ここで使用される「一実施形態」又は「いくつかの実施形態」という語句は、必ずしも同じ実施形態を示すとは限らず、ここで使用される「別の実施形態」又は「他の実施形態」という語句は、必ずしも異なる実施形態を示すとは限らない。同様に、ここで使用される「一実施形態」又は「いくつかの実施形態」という語句は、必ずしも同じ実施形態を示すとは限らず、ここで使用される「別の実施形態」又は「他の実施形態」という語句は、必ずしも異なる実施形態を示すとは限らない。例えば、特許請求の範囲の主題は、全体又は一部の例示的な実施形態/実施形態の組み合わせを含むことを意図する。

一般的に、用語は、文脈における使用から少なくとも部分的に理解され得る。例えば、ここで使用される「及び」、「又は」、又は「及び/又は」のような用語は、このような用語が使用される文脈に少なくとも部分的に依存し得る様々な意味を含んでもよい。典型的には、「又は」は、A、B又はCのようなリストを関連付けるために使用される場合、ここで包括的な意味で使用されるA、B及びCと、ここで排他的な意味で使用されるA、B又はCとを意味することを意図する。さらに、ここで使用される「1つ以上」又は「少なくとも1つ」という用語は、文脈に少なくとも部分的に依存して、単一の意味でいずれかの特徴、構造又は特性を記述するために使用されてもよく、或いは、複数の意味で特徴、構造又は特性の組み合わせを記述するために使用されてもよい。同様に、単数形の用語は、文脈に少なくとも部分的に依存して、単数形の用法又は複数形の用法を伝えるものとして理解され得る。さらに、「に基づいて」又は「によって決定される」という用語は、必ずしも要素の排他的なセットを伝えることを意図しないと理解されてもよく、代わりに、文脈に少なくとも部分的に依存して、必ずしも明示的に記述されていない更なる要素の存在を許容してもよい。

図３は、本開示の一実施形態による通信システム(300)の簡略化されたブロック図を示す。通信システム(300)は、例えばネットワーク(350)を介して互いに通信することができる複数の端末デバイスを含む。例えば、通信システム(300)は、ネットワーク(350)を介して相互接続された第1の対の端末デバイス(310)及び(320)を含む。図３の例では、第1の対の端末デバイス(310)及び(320)は、データの一方向伝送を実行してもよい。例えば、端末デバイス(310)は、ネットワーク(350)を介した他方の端末デバイス(320)への伝送のために、ビデオデータ(例えば、端末デバイス(310)によって捕捉されたビデオピクチャのストリーム)を符号化してもよい。符号化されたビデオデータは、1つ以上の符号化ビデオビットストリームの形式で伝送されることができる。端末デバイス(320)は、ネットワーク(350)から、符号化ビデオデータを受信し、符号化ビデオデータを復号してビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャを表示してもよい。一方向データ伝送は、メディアサービスアプリケーション等において実施されてもよい。

別の例では、通信システム(300)は、例えばビデオ会議アプリケーション中に実施され得る符号化されたビデオデータの双方向伝送を実行する第2の対の端末デバイス(330)及び(340)を含む。データの双方向伝送のために、一例では、端末デバイス(330)及び(340)の各端末デバイスは、ネットワーク(350)を介した、端末デバイス(330)及び(340)のうちの他方の端末デバイスへの伝送のために、ビデオデータ(例えば、端末デバイスによって捕捉されたビデオピクチャのストリーム)を符号化してもよい。端末デバイス(330)及び(340)の各端末デバイスは、端末デバイス(330)及び(340)のうちの他方の端末デバイスによって送信された符号化されたビデオデータを受信してもよく、符号化されたビデオデータを復号して、ビデオピクチャを復元し、復元されたビデオデータに従って、アクセス可能な表示デバイスにおいてビデオピクチャを表示してもよい。

図３の例では、端末デバイス(310)、(320)、(330)及び(340)は、サーバ、パーソナルコンピュータ及びスマートフォンとして実装されてもよいが、本開示の基礎の原理の適用可能性は、これらに限定されなくてもよい。本開示の実施形態は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、ウェアラブルコンピュータ、及び/又は専用のビデオ会議設備に実装されてもよい。ネットワーク(350)は、例えば有線(配線）及び/又は無線通信ネットワークを含む、端末デバイス(310)、(320)、(330)及び(340)の間で符号化されたビデオデータを伝達する任意の数又はタイプのネットワークを表す。通信ネットワーク(350)は、回線交換、パケット交換及び/又は別のタイプのチャネルにおいてデータを交換してもよい。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク及び/又はインターネットを含む。ここでの議論の目的のために、ネットワーク(350)のアーキテクチャ及びトポロジは、以下に明示的に説明しない限り、本開示の動作には重要ではないことがある。

図４は、開示される主題のためのアプリケーションの例として、ビデオストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示される主題は、例えば、ビデオ会議、デジタルTV放送、ゲーム、仮想現実、CD、DVD、メモリスティック等を含むデジタル媒体上の圧縮ビデオの記憶等を含む、他のビデオアプリケーションにも等しく適用可能であり得る。

ビデオストリーミングシステムは、ビデオソース(401)、例えばデジタルカメラを含むことができ、例えば非圧縮のビデオピクチャ又は画像のストリーム(402)を生成するビデオ捕捉サブシステム(413)を含んでもよい。一例では、ビデオピクチャのストリーム(402)は、ビデオソース401のデジタルカメラによって記録されたサンプルを含む。符号化されたビデオデータ(404)(又は符号化されたビデオビットストリーム)と比較した場合の高いデータボリュームを強調するために太線として描かれているビデオピクチャのストリーム(402)は、ビデオソース(401)に結合されたビデオエンコーダ(403)を含む電子デバイス(420)によって処理されることができる。ビデオエンコーダ(403)は、以下により詳細に説明されるように、開示される主題の側面を可能にするため或いは実現するためのハードウェア、ソフトウェア、又はこれらの組み合わせを含むことができる。非圧縮のビデオピクチャのストリーム(402)と比較した場合の、より低いデータボリュームを強調するために細い線として描かれている、符号化されたビデオデータ(404)(又は符号化されたビデオビットストリーム(404))は、将来の使用のためにストリーミングサーバ(405)に記憶されることができ、或いは、ダウンストリームのビデオデバイス(図示せず)に直接記憶されることができる。図４のクライアントサブシステム(406)及び(408)のような1つ以上のストリーミングクライアントサブシステムは、ストリーミングサーバ(405)にアクセスして、符号化されたビデオデータ(404)のコピー(407)及び(409)を取り出すことができる。クライアントサブシステム(406)は、例えば電子デバイス(430)内にビデオデコーダ(410)を含むことができる。ビデオデコーダ(410)は、符号化されたビデオデータの入力コピー(407)を復号し、ディスプレイ(412)(例えば表示画面)又は他のレンダリングデバイス(図示せず)上にレンダリングできる非圧縮のビデオピクチャの出力ストリーム(411)を生成する。ビデオデコーダ410は、本開示に記載の様々な機能の一部又は全部を実行するように構成されてもよい。いくつかのストリーミングシステムでは、符号化されたビデオデータ(404)、(407)、及び(409)(例えば、ビデオビットストリーム)は、特定のビデオ符号化/圧縮標準に従って符号化されることができる。これらの標準の例は、ITU-T勧告H.265を含む。一例では、開発中のビデオ符号化標準は、非公式に多用途ビデオ符号化(VVC)として知られている。開示される主題は、VVC及び他のビデオ符号化標準の文脈で使用されてもよい。

電子デバイス(420)及び(430)は、他の構成要素(図示せず)を含むことができることを注意しておく。例えば、電子デバイス(420)は、ビデオデコーダ(図示せず)を含むことができ、電子デバイス(430)は、ビデオエンコーダ(図示せず)も含むことができる。

図５は、以下の本開示の任意の実施形態によるビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は、電子デバイス(530)に含まれることができる。電子デバイス(530)は、受信機(531)(例えば、受信回路)を含むことができる。ビデオデコーダ(510)は、図４の例におけるビデオデコーダ(310)の代わりに使用できる。

受信機(531)は、ビデオデコーダ(510)によって復号されるべき1つ以上の符号化ビデオシーケンスを受信してもよい。同じ又は別の実施形態において、一度に1つの符号化ビデオシーケンスが復号されてもよく、各符号化ビデオシーケンスの復号は、他の符号化ビデオシーケンスから独立である。各ビデオシーケンスは複数のビデオフレーム又は画像に関連付けられてもよい。符号化ビデオシーケンスは、チャネル(501)から受信されてもよく、該チャネルは、符号化されたビデオデータを記憶する記憶デバイス又は符号化ビデオデータを送信するストリーミングソースへのハードウェア/ソフトウェアリンクでもよい。受信機(531)は、符号化されたビデオデータを、符号化されたオーディオデータ及び/又は補助データストリームのような他のデータと一緒に受信してもよく、これらのデータは、それぞれの処理回路(図示せず)を転送されてもよい。受信機(531)は、符号化ビデオシーケンスを他のデータから分離することができる。ネットワークジッタ対策として、バッファメモリ(515)が、受信機(531)とエントロピーデコーダ/パーサ(520)(以下「パーサ」)との間に配置されてもよい。特定のアプリケーションでは、バッファメモリ(515)はビデオデコーダ(510)の一部として実装されてもよい。他のアプリケーションでは、ビデオデコーダ(510)の外部に離れて存在することができる(図示せず)。さらに他のアプリケーションでは、例えばネットワークジッタに対抗するために、ビデオデコーダ(510)の外部にバッファメモリ(図示せず)が存在してもよく、さらに、例えば再生タイミングを扱うために、ビデオデコーダ(510)の内部に別の更なるバッファメモリ(515)が存在してもよい。受信機(531)が、十分な帯域幅及び制御可能性の記憶/転送デバイスから、或いは、アイソクロナスネットワークからデータを受信している場合は、バッファメモリ(515)は、必要とされなくてもよく、或いは、小さくてもよい。インターネットのようなベストエフォート型のパケットネットワークでの使用のためには、十分なサイズのバッファメモリ(515)が要求されることがあり、そのサイズは比較的大きい。このようなバッファメモリは適応サイズで実装されてもよく、少なくとも部分的に、ビデオデコーダ(510)の外部でオペレーティングシステム又は同様の要素(図示せず)において実装されてもよい。

ビデオデコーダ(510)は、符号化ビデオシーケンスからシンボル(521)を再構成するためのパーサ(520)を含んでもよい。これらのシンボルのカテゴリは、ビデオデコーダ(510)の動作を管理するために使用される情報と、潜在的には、ディスプレイ(512)(例えば表示画面)のようなレンダリングデバイスを制御するための情報とを含む。ディスプレイは、図５に示されるように、電子デバイス(530)の一体的な部分でも一体的な部分でなくてもよく、電子デバイス(530)に結合されることができる。レンダリングデバイス(単数又は複数)のための制御情報は、補足エンハンスメント情報(Supplementary Enhancement Information)(SEIメッセージ)又はビデオユーザビリティ情報(Video Usability Information、VUI)パラメータセットフラグメント(図示せず)の形式でもよい。パーサ(520)は、パーサ(520)によって受信された符号化ビデオシーケンスをパースする/エントロピー復号することができる。符号化ビデオシーケンスのエントロピー符号化は、ビデオ符号化技術又は標準に従うことができ、可変長符号化、ハフマン符号化、コンテキスト感受性あり又はなしの算術符号化等を含む、様々な原理に従うことができる。パーサ(520)は、符号化ビデオシーケンスから、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも1つについてのサブグループパラメータのセットを、サブグループに対応する少なくとも1つのパラメータに基づいて、抽出することができる。サブグループは、グループオブピクチャ(Group of Pictures、GOP)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(Coding Unit、CU)、ブロック、変換ユニット(Transform Unit、TU)、予測ユニット(Prediction Unit、PU)等を含むことができる。パーサ(520)はまた、符号化ビデオシーケンスから、変換係数(例えば、フーリエ変換係数)、量子化器パラメータ値、動きベクトル等の情報を抽出することができる。

パーサ(520)は、バッファメモリ(515)から受信されたビデオシーケンスに対してエントロピー復号/パース動作を実行し、それによりシンボル(521)を生成することができる。

シンボル(521)の再構成は、符号化されたビデオピクチャ又はその部分のタイプ(例えば、インター及びイントラピクチャ、インター及びイントラブロック)及び他の要因に依存して、複数の異なる処理又は機能ユニットに関わることができる。関わるユニット及びどのように関わるかは、符号化ビデオシーケンスからパーサ(520)によってパースされたサブグループ制御情報によって制御されてもよい。パーサ(520)と下記の複数の処理又は機能ユニットとの間のこのようなサブグループ制御情報の流れは、簡潔のため、描かれていない。

既に述べた機能ブロックのほかに、ビデオデコーダ(510)は、以下に説明するように、概念的に、いくつかの機能ユニットに分割できる。商業的制約の下で機能する実際的な実装では、これらの機能ユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合されることができる。しかし、開示される主題の様々な機能を明確に記述する目的のために、機能ユニットへの概念的な細分が以下の開示において採用される。

第1のユニットは、スケーラ/逆変換ユニット(551)を含んでもよい。スケーラ/逆変換ユニット(551)は、パーサ(520)から、量子化された変換係数及び制御情報をシンボル(単数又は複数)(521)として受信してもよい。制御情報は、どのタイプの逆変換を使用するか、ブロックサイズ、量子化係数/パラメータ、量子化スケーリング行列等を示す情報含む。スケーラ/逆変換ユニット(551)は、集計器(555)に入力できるサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ/逆変換(551)の出力サンプルは、イントラ符号化されたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用しないが、現在ピクチャの、以前に再構成された部分からの予測情報を使用することができるブロックに関することができる。このような予測情報は、イントラピクチャ予測ユニット(552)によって提供されることができる。場合によっては、イントラピクチャ予測ユニット(552)は、既に再構成されて現在ピクチャバッファ(558)に記憶されている周囲のブロック情報を使用して、再構成中のブロックと同じサイズ及び形状のブロックを生成してもよい。現在ピクチャバッファ(558)は、例えば、部分的に再構成された現在ピクチャ及び/又は完全に再構成された現在ピクチャをバッファリングする。集計器(555)は、実装によっては、サンプル毎に、イントラ予測ユニット(552)が生成した予測情報を、スケーラ/逆変換ユニット(551)によって提供される出力サンプル情報に加算してもよい。

他の場合には、スケーラ/逆変換ユニット(551)の出力サンプルは、インター符号化され、潜在的には動き補償されたブロックに関することができる。このような場合、動き補償予測ユニット(553)は、インターピクチャ予測のために使用されるサンプルを取り出すために参照ピクチャメモリ(557)にアクセスすることができる。取り出されたサンプルを、ブロックに関するシンボル(521)に従って動き補償した後、これらのサンプルは、集計器(555)によってスケーラ/逆変換ユニットの出力(ユニット551の出力は、残差サンプル又は残差信号と呼ばれてもよい)に加算されて、それにより出力サンプル情報を生成することができる。動き補償ユニット(553)が予測サンプルを取り出す参照ピクチャメモリ(557)内のアドレスは、シンボル(521)の形式で動き補償ユニット(553)に利用可能な動きベクトルによって制御できる。該シンボルは、例えばX、Y成分(シフト)、及び参照ピクチャ成分(時間)を有することができる。動き補償は、サンプル以下の正確な動きベクトルが使用されるときの参照ピクチャメモリ(557)から取ってこられるサンプル値の補間を含んでもよく、動きベクトル予測機構等にも関連してもよい。

集計器(555)の出力サンプルは、ループフィルタユニット(556)内で様々なループフィルタリング技術にかけられることができる。ビデオ圧縮技術は、ループ内フィルタ技術を含むことができる。ループ内フィルタ技術は、符号化ビデオシーケンス(符号化されたビデオビットストリームとも呼ばれる)に含まれるパラメータによって制御され、パーサ(520)からのシンボル(521)としてループフィルタユニット(556)に利用可能にされるが、符号化されたピクチャ又は符号化されたビデオシーケンスの(復号順で)前の部分の復号中に得られたメタ情報に応答するとともに、以前に再構成されループフィルタリングされたサンプル値に応答することもできる。以下に更に詳細に説明するように、いくつかのタイプのループフィルタが、様々な順序でループフィルタユニット556の一部として含まれてもよい。

ループフィルタユニット(556)の出力はサンプルストリームであることができ、これは、レンダリングデバイス(512)に出力されることができ、また将来のインターピクチャ予測において使用するために参照ピクチャメモリ(557)に記憶されることができる。

特定の符号化されたピクチャは、いったん完全に再構成されると、将来のインターピクチャ予測のための参照ピクチャとして使用できる。例えば、現在ピクチャに対応する符号化されたピクチャが完全に再構成され、該符号化されたピクチャが(例えば、パーサ(520)によって)参照ピクチャとして特定されると、現在ピクチャバッファ(558)は参照ピクチャメモリ(557)の一部となることができ、後続の符号化されたピクチャの再構成を開始する前に、新鮮な現在ピクチャバッファが再割り当てされることができる。

ビデオデコーダ(510)は、ITU-T勧告H.265のような標準で採用されている所定のビデオ圧縮技術に従って復号動作を実行することができる。符号化ビデオシーケンスはビデオ圧縮技術又は標準のシンタックス及びビデオ圧縮技術又は標準において文書化されているプロファイルに従うという意味で、符号化されたビデオシーケンスは、使用されているビデオ圧縮技術又は標準によって規定されたシンタックスに準拠することができる。具体的には、プロファイルはビデオ圧縮技術又は標準において利用可能な全てのツールから、そのプロファイルのもとでの使用のためにそれだけが利用可能なツールとして、特定のツールを選択することができる。標準に準拠するために、符号化ビデオシーケンスの複雑さが、ビデオ圧縮技術又は標準のレベルによって定義される範囲内になり得る。いくつかの場合には、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば、毎秒メガサンプルの単位で測られる)、最大参照ピクチャサイズ等を制約する。レベルによって設定された限界は、場合によっては、符号化ビデオシーケンスにおいて信号伝達される、HRDバッファ管理のための仮想参照デコーダ(Hypothetical Reference Decoder、HRD)仕様及びメタデータを通じてさらに制約されることができる。

いくつかの例示的な実施形態において、受信機(531)は、符号化されたビデオとともに追加の(冗長な)データを受信してもよい。追加データは、符号化されたビデオシーケンス(単数又は複数)の一部として含まれていてもよい。追加データは、データを適正に復号するため、及び/又は元のビデオデータをより正確に再構成するために、ビデオデコーダ(510)によって使用されてもよい。追加データは、例えば、時間的、空間的、又は信号対雑音比(SNR)エンハンスメント層、冗長スライス、冗長ピクチャ、前方誤り訂正符号等の形式になり得る。

図６は、本開示の例示的な実施形態によるビデオエンコーダ(603)のブロック図を示している。ビデオエンコーダ(603)は、電子デバイス(620)に含まれてもよい。電子デバイス(620)は、送信機(640)(例えば、送信回路)を更に含んでもよい。ビデオエンコーダ(603)は、図４の例におけるビデオエンコーダ(403)の代わりに使用できる。

ビデオエンコーダ(603)は、ビデオエンコーダ(603)によって符号化されるべきビデオ画像を捕捉することができるビデオソース(601)(これは図６の例では電子デバイス(620)の一部ではない)からビデオサンプルを受信することができる。別の例では、ビデオソース(601)は、電子デバイス(620)の一部として実装されてもよい。

ビデオソース(601)は、任意の好適なビット深さ(例えば、8ビット、10ビット、12ビット、…)、任意の色空間(例えば、BT.601 YCrCB、RGB、XYZ、…)及び任意の好適なサンプリング構造(例えば、YCrCb 4:2:0、YCrCb 4:4:4)であり得るデジタルビデオサンプルストリームの形式で、ビデオエンコーダ(603)によって符号化されるべきソースビデオシーケンスを提供することができる。メディアサービスシステムにおいては、ビデオソース(601)は、事前に準備されたビデオを記憶可能な記憶デバイスでもよい。ビデオ会議システムにおいては、ビデオソース(601)は、ローカルでの画像情報をビデオシーケンスとして捕捉するカメラでもよい。ビデオデータは、シーケンスで見たときに動きを付与する複数の個々のピクチャ又は画像として提供されてもよい。ピクチャ自体は、ピクセルの空間的アレイとして編成されてもよく、各ピクセルは、使用中のサンプリング構造、色空間等に依存して、1つ以上のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。下記の説明は、サンプルに焦点を当てる。

いくつかの例示的な実施形態によれば、ビデオエンコーダ(603)は、ソースビデオシーケンスのピクチャを、リアルタイムで或いはアプリケーションによって要求される任意の他の時間的制約の下で、符号化及び圧縮して、符号化ビデオシーケンス(643)にすることができる。適切な符号化速度を施行することは、コントローラ(650)の1つの機能を構成する。いくつかの実施形態では、コントローラ(650)は、以下に記載されるような他の機能ユニットに機能的に結合され、該他の機能ユニットを制御してもよい。かかる結合は、簡潔のために描かれていない。コントローラ(650)によって設定されるパラメータは、レート制御に関連するパラメータ(ピクチャスキップ、量子化器、レート‐歪み最適化技術のラムダ値、…)、ピクチャサイズ、グループオブピクチャ(GOP)レイアウト、最大動きベクトル探索範囲等を含むことができる。コントローラ(650)は、特定のシステム設計のために最適化されたビデオエンコーダ(603)に関する他の好適な機能を有するように構成できる。

いくつかの例示的な実施形態では、ビデオエンコーダ(603)は、符号化ループにおいて動作するように構成されてもよい。思い切って単純化した説明として、一例では、符号化ループは、ソース符号化器(630)(例えば、符号化されるべき入力ピクチャと参照ピクチャ(単数又は複数)に基づいてシンボルストリームのようなシンボルを生成することを受け持つ)と、ビデオエンコーダ(603)に埋め込まれた(ローカル)デコーダ(633)とを含むことができる。埋め込みデコーダ633がソースコーダ630によってエントロピーコーディングせずに符号化ビデオストリームを処理する場合であっても、デコーダ(633)は、(リモートの)デコーダも生成するであろうのと同様の仕方でサンプルデータを生成するよう前記シンボルを再構成する(開示される主題において考慮されるビデオ圧縮技術では、エントロピーコーディングにおけるシンボルと符号化ビデオビットストリームとの間のどの圧縮も無損失になり得る)。再構成されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(634)に入力される。シンボルストリームの復号は、デコーダ位置(ローカルかリモートか)によらずビット正確な結果をもたらすので、参照ピクチャメモリ(634)の内容もローカルエンコーダとリモートエンコーダの間でビット正確である。言い換えると、エンコーダの予測部は、デコーダが復号中に予測を使用するときに「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャ同期性のこの基本原理(及び、例えば、チャネルエラーのために同期性が維持できない場合の結果として生じるドリフト)は、符号化品質を改善するために使用される。

「ローカル」デコーダ(633)の動作は、図５との関連で既に上記で詳細に述べた「リモート」デコーダ、例えばビデオデコーダ(410)の動作と同じでもよい。しかし、簡単に図５も参照すると、シンボルが利用可能であり、エントロピー符号化器(645)及びパーサ(420)による、シンボルの符号化ビデオシーケンスへの符号化/復号が可逆であり得るので、バッファメモリ(415)及びパーサ(420)を含むビデオデコーダ(410)のエントロピー復号部は、エンコーダのローカルデコーダ(633)においては完全には実装されなくてもよい。

この時点で行なうことができる観察は、デコーダ内のみに存在し得るパース/エントロピー復号を除くどのデコーダ技術も、対応するエンコーダ内で実質的に同一の機能的形態で存在する必要があり得ることである。このため、開示される主題は時としてデコーダ動作に焦点を当てることがある。これはエンコーダの復号部分と同様である。したがって、エンコーダ技術の記述は、包括的に記述されるデコーダ技術の逆であるため、省略することができる。エンコーダの特定の領域又は側面においてのみ、より詳細な説明が以下に提供される。

動作中、いくつかの例示的な実装では、ソース符号化器(630)は、「参照ピクチャ」として指定された、ビデオシーケンスからの1つ以上の以前に符号化されたピクチャを参照して、入力ピクチャを予測的に符号化する、動き補償された予測符号化を実行することができる。このようにして、符号化エンジン(632)は、入力ピクチャのピクセルブロックと、入力ピクチャに対する予測参照として選択され得る参照ピクチャ(単数又は複数)のピクセルブロックとの間のカラーチャネルにおける差分(又は残差)を符号化する。「残差」及びその派生形の「残差の」という用語は交換可能に使用されてもよい。

ローカルビデオデコーダ(633)は、ソース符号化器(630)によって生成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャの符号化されたビデオデータを復号することができる。符号化エンジン(632)の動作は、有利には、損失のあるプロセスであり得る。符号化されたビデオデータがビデオデコーダ(図６には示さず)で復号され得るとき、再構成されたビデオシーケンスは、典型的には、いくつかのエラーを伴うソースビデオシーケンスの複製であり得る。ローカルビデオデコーダ(633)は、ビデオデコーダによって参照ピクチャに対して実行され得る復号プロセスを複製し、再構成された参照ピクチャを参照ピクチャキャッシュ(634)に格納させることができる。このようにして、ビデオエンコーダ(603)は、遠端(リモート)のビデオデコーダによって得られるであろう再構成された参照ピクチャとしての共通の内容を(伝送エラーがなければ)有する再構成された参照ピクチャのコピーを、ローカルに記憶することができる。

予測器(635)は、符号化エンジン(632)について予測探索を実行することができる。すなわち、符号化されるべき新しいピクチャについて、予測器(635)は、新しいピクチャのための適切な予測参照として機能し得るサンプルデータ(候補参照ピクセルブロックとして)又は特定のメタデータ、例えば参照ピクチャ動きベクトル、ブロック形状等を求めて、参照ピクチャメモリ(634)を探索することができる。予測器(635)は、適切な予測参照を見出すために、サンプルブロック/ピクセルブロック毎に(on a sample block-by-pixel block basis)動作し得る。場合によっては、予測器(635)によって得られた検索結果によって決定されるところにより、入力ピクチャは、参照ピクチャメモリ(634)に記憶された複数の参照ピクチャから引き出された予測参照を有することができる。

コントローラ(650)は、例えば、ビデオデータを符号化するために使用されるパラメータ及びサブグループパラメータの設定を含め、ソース符号化器(630)の符号化動作を管理してもよい。

上記の機能ユニット全ての出力は、エントロピー符号化器(645)におけるエントロピー符号化を受けることができる。エントロピー符号化器(645)は、ハフマン符号化、可変長符号化、算術符号化等といった技術に従ってシンボルを無損失圧縮することによって、様々な機能ユニットによって生成されたシンボルを符号化ビデオシーケンスに変換する。

送信機(640)は、エントロピー符号化器(645)によって生成される符号化ビデオシーケンスをバッファに入れて、通信チャネル(660)を介した送信のために準備することができる。通信チャネル(660)は、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクであってもよい。送信機(640)は、ビデオ符号化器(630)からの符号化されたビデオデータを、送信されるべき他のデータ、例えば符号化されたオーディオデータ及び/又は補助データストリーム(ソースは図示せず)とマージすることができる。

コントローラ(650)は、ビデオエンコーダ(603)の動作を管理してもよい。符号化の間、コントローラ(650)は、それぞれの符号化されたピクチャに、ある符号化ピクチャタイプを割り当てることができる。符号化ピクチャタイプは、それぞれのピクチャに適用され得る符号化技術に影響し得る。例えば、ピクチャはしばしば、以下のピクチャタイプのうちの1つとして割り当てられることがある。

イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内の他のピクチャを使用せずに、符号化され、復号され得るものであり得る。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ(Independent Decoder Refresh、「IDR」)ピクチャを含む、異なるタイプのイントラピクチャを許容する。当業者は、Iピクチャのこれらの変形、並びにそれらのそれぞれの用途及び特徴を認識する。

予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために、最大で1つの動きベクトル及び参照インデックスを用いるイントラ予測又はインター予測を用いて符号化及び復号され得るものであり得る。

双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために、最大で2つの動きベクトル及び参照インデックスを用いるイントラ予測又はインター予測を用いて符号化及び復号され得るものであり得る。同様に、マルチ予測ピクチャは、単一のブロックの再構成のために、3つ以上の参照ピクチャ及び関連するメタデータを使用することができる。

ソースピクチャは、通常では、空間的に複数のサンプル符号化ブロック(例えば、それぞれ4×4、8×8、4×8、又は16×16サンプルのブロック)に分割され、ブロック毎に符号化され得る。ブロックは、ブロックのそれぞれのピクチャに適用される符号化割り当てによって決定されるところにより、他の(既に符号化された)ブロックを参照して予測的に符号化され得る。例えば、Iピクチャのブロックは、非予測的に符号化されてもよく、或いは、同じピクチャの既に符号化されたブロックを参照して予測的に符号化されてもよい(空間的予測又はイントラ予測)。Pピクチャのピクセルブロックは、以前に符号化された1つの参照ピクチャを参照して、空間的予測を介して或いは時間的予測を介して予測的に符号化されてもよい。Bピクチャのブロックは、1つ又は2つの以前に符号化された参照ピクチャを参照して、空間的予測を介して或いは時間的予測を介して予測的に符号化されてもよい。ソースピクチャ又は中間処理ピクチャは、他の目的のために他のタイプのブロックに細分されてもよい。以下に更に詳細に説明するように、符号化ブロック及び他のタイプのブロックの分割は同じ方式に従ってもよく、或いは、同じ方式に従わなくてもよい。

ビデオエンコーダ(603)は、ITU-T勧告H.265等の所定のビデオ符号化技術又は標準に従って符号化動作を実行することができる。その動作において、ビデオエンコーダ(603)は、入力ビデオシーケンスにおける時間的及び空間的冗長性を活用する予測符号化動作を含む、様々な圧縮動作を実行することができる。よって、符号化されたビデオデータは、使用されるビデオ符号化技術又は標準によって指定されるシンタックスに準拠し得る。

いくつかの例示的な実施形態において、送信機(640)は、符号化されたビデオと一緒に追加データを送信してもよい。ソース符号化器(630)は、符号化ビデオシーケンスの一部としてこのようなデータを含めてもよい。追加データは、時間的/空間的/SNRエンハンスメント層、冗長ピクチャ及びスライスのような他の形式の冗長データ、SEIメッセージ、VUIパラメータセットフラグメント等を含んでいてもよい。

ビデオは、時間的シーケンスにおいて複数のソースピクチャ(ビデオピクチャ)として捕捉されてもよい。イントラピクチャ予測(しばしば、イントラ予測と略される)は、所与のピクチャにおける空間的相関を利用し、インターピクチャ予測は、ピクチャ間の時間的又は他の相関を利用する。例えば、現在ピクチャと呼ばれる符号化/復号対象の特定のピクチャは、ブロックに分割されてもよい。現在ピクチャ内のブロックが、ビデオにおける、前に符号化され、且つ、まだバッファに入れられている参照ピクチャ内の参照ブロックに類似する場合、動きベクトルと呼ばれるベクトルによって符号化されてもよい。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用される場合には、参照ピクチャを特定する第3の次元を有することができる。

いくつかの例示的な実施形態において、インターピクチャ予測において双方向予測技術が使用できる。このような双方向予測技術によれば、いずれもビデオにおいて現在ピクチャより復号順で先行する(ただし、表示順では、それぞれ過去又は将来でもよい)第1の参照ピクチャ及び第2の参照ピクチャのような2つの参照ピクチャが使用される。現在ピクチャ内のブロックは、第1の参照ピクチャ内の第1の参照ブロックを指す第1の動きベクトルと、第2の参照ピクチャ内の第2の参照ブロックを指す第2の動きベクトルとによって符号化できる。ブロックは、第1の参照ブロックと第2の参照ブロックの組み合わせによって一緒に予測できる。

さらに、符号化効率を改善するために、インターピクチャ予測においてマージモード技術が使用されてもよい。

本開示のいくつかの例示的な実施形態によれば、インターピクチャ予測及びイントラピクチャ予測等の予測は、ブロックの単位で実行される。例えば、ビデオピクチャのシーケンスにおけるピクチャは、圧縮のために符号化ツリーユニット(CTU)に分割され、ピクチャにおけるそれらのCTUは、64×64ピクセル、32×32ピクセル、又は16×16ピクセル等の同じサイズを有してもよい。一般に、CTUは、1つのルマCTB及び2つのクロマCTBである3つの並列の符号化ツリーブロック(CTB)を含んでもよい。各CTUは、再帰的に、1つ以上の符号化ユニット(CU)に四分木分割されていくことができる。例えば、64×64ピクセルのCTUは、64×64ピクセルの1つのCU、又は32×32ピクセルの4つのCUに分割されることができる。1つ以上の32×32ブロックのそれぞれは、16×16ピクセルの4つのCUに更に分割されてもよい。いくつかの例示的な実施形態では、各CUは、符号化中に、インター予測タイプ又はイントラ予測タイプのような様々な予測タイプの中で、そのCUについての予測タイプを決定するために解析されてもよい。CUは時間的及び/又は空間的予測可能性に依存して、1つ以上の予測ユニット(PU)に分割されてもよい。一般に、各PUはルマ予測ブロック(PB)及び2つのクロマPBを含む。ある実施形態では、コーディング(符号化/復号)における予測動作は、予測ブロックの単位で実行される。PU(又は異なるカラーチャネルのPB)へのCUの分割は、様々な分割パターンで実行されてもよい。例えば、ルマ又はクロマPBは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセル等のように、ピクセルについての値(例えば、ルマ値)の行列を含んでもよい。

図７は、本開示の別の例示的な実施形態によるビデオエンコーダ(703)の図を示す。ビデオエンコーダ(703)は、ビデオピクチャのシーケンス内の現在ビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受信し、処理ブロックを、符号化ビデオシーケンスの一部である符号化されたピクチャに符号化するように構成される。例示的なビデオエンコーダ(703)は、図４の例におけるビデオエンコーダ(403)の代わりに使用されてもよい。

例えば、ビデオエンコーダ(703)は、8×8サンプル等の予測ブロックのような処理ブロックについてサンプル値の行列を受信する。次いで、ビデオエンコーダ(703)は、処理ブロックが、イントラモード、インターモード、又は双方向予測モードのどれを使用して、最もよく符号化されるかを、例えばレート‐歪み最適化(RDO)を使用して、判別する。処理ブロックがイントラモードで符号化されると決定された場合、ビデオエンコーダ(703)は、処理ブロックを符号化されたピクチャに符号化するためにイントラ予測技術を使用してもよい。処理ブロックがインターモード又は双方向予測モードで符号化されると決定された場合、ビデオエンコーダ(703)は、処理ブロックを符号化されたピクチャに符号化するために、それぞれ、インター予測技術又は双方向予測技術を使用してもよい。いくつかの例示的な実施形態では、マージモード(merge mode)は、動きベクトルが1つ以上の動きベクトル予測子から導出されるが前記予測子の外の符号化された動きベクトル成分の利益のない、インターピクチャ予測のサブモードとして使用されてもよい。いくつかの例示的な実施形態では、対象ブロックに適用可能な動きベクトル成分が存在してもよい。よって、ビデオエンコーダ(703)は、処理ブロックの予測モードを決定するためのモード決定モジュール(図示せず)のような、図７に明示的に図示しないコンポーネントを含んでもよい。

図７の例では、ビデオエンコーダ(703)は、インターエンコーダ(730)、イントラエンコーダ(722)、残差計算器(723)、スイッチ(726)、残差エンコーダ(724)、全般コントローラ(721)、及びエントロピー符号化器(725)を、図７の例示的な配置に示されるように一緒に結合されて含む。

インターエンコーダ(730)は、現在ブロック(例えば、処理ブロック)のサンプルを受信し、該ブロックを参照ピクチャ内の1つ以上の参照ブロック(例えば、表示順で以前のピクチャ及び後のピクチャ内のブロック)と比較し、インター予測情報(例えば、インター符号化技術による冗長情報の記述、動きベクトル、マージモード情報)を生成し、該インター予測情報に基づいて、任意の好適な技術を使用してインター予測結果(例えば、予測されたブロック)を計算するように構成される。いくつかの例では、参照ピクチャは、符号化されたビデオ情報に基づいて、図６の例示的なエンコーダ620に埋め込まれた復号ユニット633(以下に更に詳細に説明するように、図７の残差デコーダ728として示される)を使用して復号された、復号された参照ピクチャである。

イントラエンコーダ(722)は、現在ブロック(例えば、処理ブロック)のサンプルを受信し、該ブロックを、同じピクチャ内で既に符号化されているブロックと比較し、変換後に量子化された係数を生成し、場合によっては、イントラ予測情報(例えば、1つ以上のイントラ符号化技術によるイントラ予測方向情報)も生成するように構成される。イントラエンコーダ(722)はまた、該イントラ予測情報及び同じピクチャ内の参照ブロックに基づいて、イントラ予測結果(例えば、予測されたブロック)を計算してもよい。

全般コントローラ(721)は、全般制御データを決定し、全般制御データに基づいてビデオエンコーダ(703)の他のコンポーネントを制御するように構成されてもよい。一例では、全般コントローラ(721)は、ブロックの予測モードを決定し、その予測モードに基づいて制御信号をスイッチ(726)に提供する。例えば、予測モードがイントラモードである場合、全般コントローラ(721)は、残差計算器(723)による使用のためにイントラモードの結果を選択するようスイッチ(726)を制御し、イントラ予測情報を選択し、イントラ予測情報をビットストリームに含めるようエントロピーエンコーダ(725)を制御する。そのブロックの予測モードがインターモードである場合、全般コントローラ(721)は、残差計算器(723)による使用のためにインター予測の結果を選択するようスイッチ(726)を制御し、インター予測情報を選択し、インター予測情報をビットストリームに含めるようエントロピーエンコーダ(725)を制御する。

残差計算器(723)は、受信されたブロックと、イントラエンコーダ(722)又はインターエンコーダ(730)から選択されたそのブロックの予測結果との差(残差データ)を計算するように構成されてもよい。残差エンコーダ(724)は、残差データを符号化して変換係数を生成するように構成されてもよい。例えば、残差エンコーダ(724)は、残差データを空間領域から周波数領域に変換し、変換係数を生成するように構成されてもよい。次いで、変換係数は、量子化処理にかけられ、量子化された変換係数を得る。様々な例示的な実施形態において、ビデオエンコーダ(703)は、残差デコーダ(728)をも含む。残差デコーダ(728)は、逆変換を実行して、復号された残差データを生成するように構成される。復号された残差データは、イントラエンコーダ(722)及びインターエンコーダ(730)によって好適に使用されることができる。例えば、インターエンコーダ(730)は、復号された残差データ及びインター予測情報に基づいて、復号されたブロックを生成することができ、イントラエンコーダ(722)は、復号された残差データ及びイントラ予測情報に基づいて、復号されたブロックを生成することができる。復号されたブロックは、復号されたピクチャを生成するために好適に処理され、復号されたピクチャは、メモリ回路(図示せず)内にバッファリングされ、参照ピクチャとして使用されることができる。

エントロピーエンコーダ(725)は、符号化されたブロックを含むようにビットストリームをフォーマットし、エントロピー符号化を実行するように構成される。エントロピーエンコーダ(725)は、様々な情報をビットストリーム内に含めるように構成される。例えば、エントロピーエンコーダ(725)は、全般制御データ、選択された予測情報(例えば、イントラ予測情報又はインター予測情報)、残差情報、及び他の好適な情報をビットストリーム内に含めるように構成されてもよい。インターモード又は双方向予測モードのいずれかのマージサブモードにおいてブロックを符号化する場合は、残差情報は存在しなくてもよい。

図８は、本開示の別の実施形態による例示的なビデオデコーダ(810)の図を示す。ビデオデコーダ(810)は、符号化されたビデオシーケンスの一部である符号化されたピクチャを受信し、符号化されたピクチャを復号して、再構成されたピクチャを生成するように構成される。一例では、ビデオデコーダ(810)は、図４の例におけるビデオデコーダ(410)の代わりに使用されてもよい。

図８の例では、ビデオデコーダ(810)は、エントロピーデコーダ(871)、インターデコーダ(880)、残差デコーダ(873)、再構成モジュール(874)、及びイントラデコーダ(872)が図８の例示的な構成に示されるように一緒に結合されたものを含む。

エントロピーデコーダ(871)は、符号化されたピクチャから、その符号化されたピクチャが構成されるシンタックスエレメントを表す特定のシンボルを再構成するように構成されることができる。このようなシンボルは、例えば、ブロックが符号化されるモード(例えば、イントラモード、インターモード、双方向予測モード、マージサブモード又は別のサブモード)、イントラデコーダ(872)又はインターデコーダ(880)によって予測のために使用される特定のサンプル又はメタデータを識別することができる予測情報(例えば、イントラ予測情報又はインター予測情報)、例えば量子化された変換係数の形式の残差情報等を含むことができる。一例では、予測モードがインター又は双方向予測モードである場合、インター予測情報がインターデコーダ(880)に提供される。予測タイプがイントラ予測タイプである場合には、イントラ予測情報がイントラデコーダ(872)に提供される。残差情報は、逆量子化を受けることができ、残差デコーダ(873)に提供される。

インターデコーダ(880)は、インター予測情報を受信し、該インター予測情報に基づいてインター予測結果を生成するように構成されてもよい。

イントラデコーダ(872)は、イントラ予測情報を受信し、該イントラ予測情報に基づいて予測結果を生成するように構成されてもよい。

残差デコーダ(873)は、逆量子化を実行して量子化解除された変換係数を抽出し、量子化解除された変換係数を処理して、残差を周波数領域から空間領域に変換するように構成されてもよい。残差デコーダ(873)はまた、特定の制御情報(量子化器パラメータ(QP)を含む)をも利用してもよく、その情報は、エントロピーデコーダ(871)によって提供されてもよい(これは、低データボリュームの制御情報のみであるため、データ経路は描かれていない)。

再構成モジュール(874)は、空間領域において、残差デコーダ(873)によって出力される残差と、予測結果(場合に応じてイントラ又はインター予測モジュールによって出力される)とを組み合わせて、再構成されたビデオの一部として再構成されたピクチャの一部を形成する再構成されたブロックを形成するように構成されてもよい。視覚的品質を改善するためにデブロッキング動作等の他の好適な動作も実行されてもよいことを注意しておく。

なお、ビデオエンコーダ(403)、(603)、(703)、及びビデオデコーダ(410)、(510)、(810)は、任意の好適な技術を用いて実装できる。いくつかの例示的な実施形態では、ビデオエンコーダ(403)、(603)、(703)及びビデオデコーダ(410)、(510)、(810)は、1つ以上の集積回路を使用して実装できる。別の実施形態では、ビデオエンコーダ(403)、(603)、(703)、及びビデオデコーダ(410)、(510)、(810)は、ソフトウェア命令を実行する1つ以上のプロセッサを使用して実装できる。

符号化及び復号のためのブロックのパーティション(分割)に目を向けると、一般的なパーティションはベースブロックから始まり、所定のルールセット、特定のパターン、パーティションツリー又はいずれかのパーティション構造若しくは方式に従ってもよい。パーティションは階層型且つ再帰的でもよい。以下に示す例示的なパーティション手順若しくは他の手順又はこれらの組み合わせのいずれかに従ってベースブロックを分割又はパーティションした後に、最終的なパーティション又は符号化ブロックのセットが取得されてもよい。これらのパーティションのそれぞれは、パーティション階層内の様々なパーティションレベルのうち1つであり、様々な形状でもよい。パーティションのそれぞれは、符号化ブロック(CB, coding block)と呼ばれてもよい。以下に更に説明する様々な例示的なパーティション実装について、結果の各CBは、許容されるサイズ及びパーティションレベルのいずれかでもよい。このようなパーティションは、いくつかの基本的な符号化/復号決定が行われ、符号化/復号パラメータが最適化されて決定されて符号化ビデオビットストリームで信号伝達され得る単位を形成し得るので、符号化ブロックと呼ばれる。最終的なパーティションの最も高いレベル又は最も深いレベルは、ツリーの符号化ブロックパーティション構造の深さを表す。符号化ブロックは、ルマ符号化ブロック又はクロマ符号化ブロックでもよい。各色のCBツリー構造は、符号化ブロックツリー(CBT, coding block tree)と呼ばれてもよい。

全てのカラーチャネルの符号化ブロックは、併せて符号化ユニット(CU, coding unit)と呼ばれてもよい。全てのカラーチャネルについての階層構造は、併せて符号化ツリーユニット(CTU, coding tree unit)と呼ばれてもよい。CTU内の様々なカラーチャネルのパーティションパターン又は構造は、同じでもよく或いは同じでなくてもよい。

いくつかの実装では、ルマチャネル及びクロマチャネルに使用されるパーティションツリー方式又は構造は同じである必要がなくてもよい。言い換えると、ルマチャネル及びクロマチャネルは別々の符号化ツリー構造又はパターンを有してもよい。さらに、ルマチャネル及びクロマチャネルが同じ符号化パーティションツリー構造を使用するか異なる符号化パーティションツリー構造を使用するか、及び使用される実際の符号化パーティションツリー構造は、コーディングされるスライスがPスライスであるかBスライスであるかIスライスであるかに依存してもよい。例えば、Iスライスについては、クロマチャネル及びルマチャネルは別々の符号化パーティションツリー構造又は符号化パーティションツリー構造モードを有してもよいが、P又はBスライスについては、ルマチャネル及びクロマチャネルは同じ符号化パーティションツリー構造を共有してもよい。別々の符号化パーティションツリー構造又はモードが適用される場合、ルマチャネルは1つの符号化パーティションツリー構造によってCBに分割されてもよく、クロマチャネルは別の符号化パーティションツリー構造によってクロマCBに分割されてもよい。

いくつかの例示的な実装では、所定のパーティションパターンがベースブロックに適用されてもよい。図９に示すように、例示的な4通りのパーティションツリーは、第1の所定のレベル(例えば、ベースブロックサイズとしての64×64ブロックレベル又は他のサイズ)から開始し、ベースブロックは所定の最下位レベル(例えば、4×4レベル)まで階層的にパーティションされてもよい。例えば、ベースブロックは、902、904、906及び908で示す4つの所定のパーティションオプション又はパターンの対象となってもよく、Rとして示されるパーティションは、図９に示すのと同じパーティションオプションを最低レベル(例えば、4×4レベル)までより低いスケールで繰り返され得るという再帰的パーティションを許容される。いくつかの実装では、図９のパーティション方式に更なる制限が適用されてもよい。図９の実装では、長方形パーティション(例えば、1:2/2:1の長方形パーティション)が許容されてもよいが再帰的にすること許容されなくてもよく、一方、正方形パーティションは再帰的にすることを許容される。図９に従った再帰によるパーティションは、必要に応じて最終的な符号化ブロックのセットを生成する。ルートノード又はルートブロックからの分割の深さを示すために、符号化ツリー深さが更に定義されてもよい。例えば、ルートノード又はルートブロック、例えば、64×64ブロックの符号化ツリー深さは0に設定されてもよく、図９に従ってルートブロックが更に1回分割された後に、符号化ツリー深さは1だけ増加する。64×64ベースブロックから4×4の最小パーティションまでの最大レベル又は最も深いレベルは、上記の方式では4である(レベル0から始まる)。このようなパーティション方式は、カラーチャネルのうち1つ以上に適用されてもよい。各カラーチャネルは、図９の方式に従って独立してパーティションされてもよい(例えば、所定のパターンの中のパーティションパターン又はオプションは、各階層レベルのカラーチャネルのそれぞれについて独立して決定されてもよい)。或いは、カラーチャネルのうち2つ以上が図９の同じ階層パターンツリーを共有してもよい(例えば、各階層レベルの2つ以上のカラーチャネルについて、所定のパターンの中の同じパーティションパターン又はオプションが選択されてもよい)。

図１０は、パーティションツリーを形成するために再帰的パーティションを許容する他の例示的な所定のパーティションパターンを示す。図１０に示すように、例えば10通りのパーティション構造又はパターンが予め定義されてもよい。ルートブロックは、所定のレベルで(例えば、128×128レベル又は64×64レベルのベースブロックから)開始してもよい。図１０の例示的なパーティション構造は、様々な2:1/1:2及び4:1/1:4の長方形パーティションを含む。図１０の2行目に1002、1004、1006及び1008と示されている3つのサブパーティションを有するパーティションタイプは、「Tタイプ」パーティションと呼ばれてもよい。「Tタイプ」パーティション1002、1004、1006及び1008は、左Tタイプ、上Tタイプ、右Tタイプ及び下Tタイプと呼ばれてもよい。いくつかの例示的な実装では、図１０の長方形パーティションのどれも、更に細分されることが許容されない。ルートノード又はルートブロックからの分割の深さを示すために、符号化ツリー深さが更に定義されてもよい。例えば、128×128ブロックの例では、ルートノード又はルートブロックの符号化ツリー深さは0に設定されてもよく、図１０に従ってルートブロックが更に一回分割された後に、符号化ツリー深さは1だけ増加する。いくつかの実装では、1010における全正方形パーティションのみが、図１０のパターンに従って次のレベルのパーティションツリーへの再帰的パーティショニングを許容されてもよい。言い換えると、Tタイプパターン1002、1004、1006及び1008内の正方形パーティションでは、再帰的パーティションが許容されなくてもよい。再帰による図１０に従ったパーティション手順は、必要に応じて、最終的な符号化ブロックのセットを生成する。このような方式は、カラーチャネルのうち1つ以上に適用されてもよい。いくつかの実装では、8×8レベル以下のパーティションの使用に更なる柔軟性が追加され得る。例えば、2×2クロマインター予測が特定の場合に使用されてもよい。

符号化ブロックのパーティションのいくつかの他の実装形態では、ベースブロック又は中間ブロックを四分木パーティションに分割するために四分木構造が使用されてもよい。このような四分木分割は、いずれかの正方形パーティションに階層的且つ再帰的に適用されてもよい。ベースブロック又は中間ブロック若しくはパーティションが更に四分木分割されるか否かは、ベースブロック又は中間ブロック/パーティションの様々なローカル特性に適応されてもよい。ピクチャ境界での四分木分割が更に適応されてもよい。例えば、サイズがピクチャ境界に合うまでブロックが四分木分割を維持するように、暗黙的な四分木分割がピクチャ境界で実行されてもよい。

いくつかの他の例示的な実装では、ベースブロックからの階層的二分割パーティションが使用されてもよい。このような方式では、ベースブロック又は中間レベルブロックは2つのパーティションにパーティションされてもよい。二分割パーティションは、水平又は垂直のいずれかでもよい。例えば、水平二分割パーティションは、ベースブロック又は中間ブロックを均等な左及び右のパーティションに分割してもよい。同様に、垂直二分割パーティションは、ベースブロック又は中間ブロックを均等な上及び下のパーティションに分割してもよい。このような二分割パーティションは、階層的且つ再帰的でもよい。ベースブロック又は中間ブロックのそれぞれにおいて、二分割パーティション方式が継続するべきであるか否か、当該方式が更に継続する場合には、水平二分割パーティション方式が使用されるべきか垂直二分割パーティションが使用されるべきかの決定が行われてもよい。いくつかの実装では、所定の最低のパーティションサイズで(一方又は双方の次元において)更なるパーティションが停止してもよい。或いは、ベースブロックからの所定のパーティションレベル又は深さに達すると、更なるパーティションが停止してもよい。いくつかの実装では、パーティションのアスペクト比が制限されてもよい。例えば、パーティションのアスペクト比は1:4よりも小さいもの(又は4:1よりも大きいもの)でなくてもよい。したがって、4:1の垂直対水平のアスペクト比を有する垂直ストリップパーティションは、2:1の垂直対水平のアスペクト比をそれぞれ有する上パーティション及び下パーティションに垂直に更に二分割パーティションされるだけでもよい。

さらにいくつかの他の例では、図１３に示すように、ベースブロック又はいずれかの中間ブロックをパーティションするために三分割パーティション方式が使用されてもよい。三分割パターンは、図１３の1302に示すように垂直に実装されてもよく、或いは、図１３の1304に示すように水平に実装されてもよい。図１３における例示的な分割比は、垂直又は水平に1:2:1として示されているが、他の比が予め定義されてもよい。いくつかの実装では、2つ以上の異なる比が予め定義されてもよい。このような三分割パーティション方式は、四分木又は二分割パーティション構造を補うために使用されてもよく、このような三分木パーティションは、1つの連続したパーティション内のブロック中心に位置するオブジェクトをキャプチャできるが、四分木及び二分木は常にブロック中心に沿って分割し、したがって、オブジェクトを別々のパーティションに分割する。いくつかの実装では、更なる変換を回避するために、例示的な三分木のパーティションの幅及び高さは常に2の累乗になる。

上記のパーティション方式は、いずれかの方式で異なるパーティションレベルにおいて組み合わされてもよい。一例として、上記の四分木及び二分割パーティション方式は、ベースブロックを四分木二分木(QTBT, quadtree-binary-tree)構造にパーティションするために組み合わせてもよい。このような方式では、ベースブロック又は中間ブロック/パーティションは、指定されている場合、所定の条件のセットに従って、四分木分割又は二分木分割されてもよい。具体例を図１４に示す。図１４の例では、1402、1404、1406及び1408に示すように、ベースブロックはまず、4つのパーティションに四分木分割される。その後、結果のパーティションのそれぞれは、4つの更なるパーティションに四分木分割されるか(1408等)、或いは、次のレベルの2つの更なるパーティションに二分割されるか(水平又は垂直のいずれかの1402又は1406等、例えば双方とも対称的である)、或いは、分割されない(1404等)。二分割又は四分木分割は、1410の全体的な例示的なパーティションパターン及び1420の対応するツリー構造/表現に示すように、正方形パーティションについて再帰的に許容されてもよい。ここで、実線は四分木分割を表し、破線は二分割を表す。二分割が水平であるか垂直であるかを示すために、二分割ノード(非リーフ二分割パーティション)毎にフラグが使用されてもよい。例えば、1420に示すように、1410のパーティション構造に従って、フラグ「0」は水平二分割を表してもよく、フラグ「1」は垂直二分割を表してもよい。四分木分割パーティションについて、四分木分割は常にブロック又はパーティションを水平及び垂直の双方で分割して、同じサイズを有する4つのサブブロック/パーティションを生成するので、分割タイプを示す必要はない。いくつかの実装では、フラグ「1」は水平二分割を表してもよく、フラグ「0」は垂直二分割を表してもよい。

QTBTのいくつかの例示的な実装では、四分木及び二分割のルールセットは、以下の所定のパラメータ及び関連する対応する関数によって表されてもよい。
-CTUサイズ:四分木のルートノードのサイズ(ベースブロックのサイズ)
-MinQTSize:最小許容四分木リーフノードサイズ
-MaxBTSize:最大許容二分木ルートノードサイズ
-MaxBTDepth:最大許容二分木深さ
-MinBTSize:最小許容二分木リーフノードサイズ
QTBT分割構造のいくつかの例示的な実装では、CTUサイズは、2つの対応する64×64ブロックのクロマサンプル(例示的なクロマサブサンプリングが考慮されて使用される場合)での128×128ルマサンプルとして設定されてもよく、MinQTSizeは16×16として設定されてもよく、MaxBTSizeは64×64として設定されてもよく、MinBTSize(幅及び高さの双方)は4×4として設定されてもよく、MaxBTDepthは4として設定されてもよい。四分木分割は、四分木リーフノードを生成するために最初にCTUに適用されてもよい。四分木リーフノードは、16×16のその最小許容サイズ(すなわち、MinQTSize)から128×128(すなわち、CTUサイズ)までのサイズを有してもよい。ノードが128×128である場合、サイズがMaxBTSize(すなわち、64×64)を超えるので、最初に二分木によって分割されない。そうでない場合、MaxBTSizeを超えないノードは二分木によってパーティションされてもよい。図１４の例では、ベースブロックは128×128である。ベースブロックは、所定のルールセットに従って四分木分割のみできる。ベースブロックは0のパーティション深さを有する。結果の4つのパーティションのそれぞれは64×64であり、MaxBTSizeを超えず、レベル1において更に四分木又は二分木分割されてもよい。プロセスは継続する。二分木深さがMaxBTDepth(すなわち、4)に達すると、更なる分割は考慮されなくてもよい。二分木ノードがMinBTSize(すなわち、4)に等しい幅を有する場合、更なる水平分割は考慮されなくてもよい。同様に、二分木ノードがMinBTSizeに等しい高さを有する場合、更なる垂直分割は考慮されない。

いくつかの例示的な実装では、上記のQTBT方式は、ルマ及びクロマが同じQTBT構造又は別々のQTBT構造を有する柔軟性をサポートするように構成されてもよい。例えば、Pスライス及びBスライスについて、1つのCTU内のルマ及びクロマCTBは同じQTBT構造を共有してもよい。しかし、Iスライスについて、ルマCTBは或るQTBT構造によってCBに分割され、クロマCTBは他のQTBT構造によってクロマCBに分割されてもよい。これは、CUがIスライス内の異なるカラーチャネルを参照するために使用されてもよいことを意味し、例えば、Iスライスはルマ成分の符号化ブロック又は2つのクロマ成分の符号化ブロックで構成されてもよく、P又はBスライス内のCUは全ての3つの色成分の符号化ブロックで構成されてもよい。

いくつかの他の実装では、QTBT方式は上記の三分割方式で補われてもよい。このような実装は、マルチタイプツリー(MTT, multi-type-tree)構造と呼ばれてもよい。例えば、ノードの二分割に加えて、図１３の三分割パーティションパターンの1つが選択されてもよい。いくつかの実装では、正方形ノードのみが三分割の対象となってもよい。三分割パーティションが水平であるか垂直であるかを示すために、更なるフラグが使用されてもよい。

QTBT実装及び三分割によって補われるQTBT実装のような2レベル又はマルチレベルツリーの設計は、主に複雑さの低減によって動機付けられ得る。理論的には、ツリーを横断する複雑さは、T^Dであり、Tは分割タイプの数を示し、Dはツリーの深さである。深さ(D)を低減しつつ、複数のタイプ(T)を使用することでトレードオフが行われてもよい。

いくつかの実装では、CBは更にパーティションされてもよい。例えば、CBは、符号化及び復号プロセス中のイントラフレーム又はインターフレーム予測の目的で、複数の予測ブロック(PB, prediction block)に更にパーティションされてもよい。言い換えると、CBは異なるサブパーティションに更に分割されてもよく、そこで個々の予測決定/構成が行われてもよい。並行して、CBは、ビデオデータの変換又は逆変換が実行されるレベルを記述する目的で、複数の変換ブロック(TB, transform block)に更にパーティションされてもよい。PB及びTBへのCBのパーティション方式は、同じでもよく或いは同じでなくてもよい。例えば、各パーティション方式は、例えば、ビデオデータの様々な特性に基づいて、独自の手順を使用して実行されてもよい。いくつかの例示的な実装では、PB及びTBパーティション方式は独立してもよい。いくつかの他の例示的な実装では、PB及びTBパーティション方式と境界とが相関してもよい。いくつかの実装では、例えば、TBはPBのパーティションの後にパーティションされてもよく、特に、各PBは、符号化ブロックのパーティションに続いて決定された後に、1つ以上のTBに更にパーティションされてもよい。例えば、いくつかの実装では、PBは1、2、4又は他の数のTBに分割されてもよい。

いくつかの実装では、ベースブロックを符号化ブロックにパーティションし、予測ブロック及び/又は変換ブロックに更にパーティションするために、ルマチャネル及びクロマチャネルは異なって扱われてもよい。例えば、いくつかの実装では、符号化ブロックの予測ブロック及び/又は変換ブロックへのパーティションは、ルマチャネルで許容されてもよいが、このような符号化ブロックの予測ブロック及び/又は変換ブロックへのパーティションは、クロマチャネルで許容されなくてもよい。したがって、このような実装では、ルマブロックの変換及び/又は予測は、符号化ブロックレベルでのみ実行されてもよい。他の例では、ルマチャネル及びクロマチャネルの最小変換ブロックサイズが異なってもよく、例えば、ルマチャネルの符号化ブロックは、クロマチャネルよりも小さい変換ブロック及び/又は予測ブロックにパーティションされることを許容されてもよい。更に他の例では、符号化ブロックの変換ブロック及び/又は予測ブロックへのパーティションの最大深さは、ルマチャネルとクロマチャネルとの間で異なってもよく、例えば、ルマチャネルの符号化ブロックは、クロマチャネルよりも深い変換ブロック及び/又は予測ブロックにパーティションされることを許容されてもよい。具体例では、ルマ符号化ブロックは、最大で2レベルまでの再帰的なパーティションで表されることができる複数のサイズの変換ブロックにパーティションされてもよく、正方形、2:1/1:2及び4:1/1:4のような変換ブロック形状及び4×4から64×64までの変換ブロックサイズが許容されてもよい。しかし、クロマブロックについては、ルマブロックに指定された最大の可能な変換ブロックのみが許容されてもよい。

符号化ブロックをPBにパーティションするためのいくつかの例示的な実装では、PBパーティションの深さ、形状及び/又は他の特性は、PBがイントラコーディングされるかインターコーディングされるかに依存してもよい。

符号化ブロック(又は予測ブロック)の変換ブロックへのパーティションは、再帰的又は非再帰的に、符号化ブロック又は予測ブロックの境界の変換ブロックを更に考慮して、四分木分割及び所定のパターン分割を含むがこれに限定されない様々な例示的な方式で実装されてもよい。一般的に、結果の変換ブロックは、異なる分割レベルでもよく、同じサイズでなくてもよく、形状が正方形である必要がなくてもよい(例えば、いくつかの許容されたサイズ及びアスペクト比で長方形とすることができる)。更なる例は、図１５、１６及び１７に関連して以下で更に詳細に記載される。

しかし、いくつかの他の実装では、上記のパーティション方式のいずれかを介して取得されたCBは、予測及び/又は変換のための基本又は最小の符号化ブロックとして使用されてもよい。言い換えると、インター予測/イントラ予測の目的及び/又は変換の目的で、更なる分割は実行されない。例えば、上記のQTBT方式から取得されたCBは、予測を実行するための単位として直接使用されてもよい。具体的には、このようなQTBT構造は、複数パーティションタイプの概念を除去し、すなわち、CU、PU及びTUの分離を除去し、上記のようにCU/CBパーティション形状のより大きい柔軟性をサポートする。このようなQTBTブロック構造では、CU/CBは正方形又は長方形のいずれかの形状を有することができる。このようなQTBTのリーフノードは、更なるパーティションなしに、予測及び変換処理の単位として使用される。これは、このような例示的なQTBT符号化ブロック構造においてCU、PU及びTUが同じブロックサイズを有することを意味する。

上記の様々なCBパーティション方式と、CBのPB及び/又はTBへの更なるパーティション(PB/TBパーティションなしを含む)とは、いずれかの方式で組み合わされてもよい。以下の特定の実装は、非限定的な例として提供される。

符号化ブロック及び変換ブロックのパーティションの具体的な例示的な実装について以下に説明する。このような例示的な実装では、再帰的な四分木分割、又は上記の所定の分割パターン(図９及び図１０におけるもの等)を使用して、ベースブロックが符号化ブロックに分割されてもよい。各レベルにおいて、特定のパーティションの更なる四分木分割を継続すべきであるか否かは、ローカルビデオデータ特性によって決定されてもよい。結果のCBは、様々な四分木分割レベル及び様々なサイズになってもよい。インターピクチャ(時間的)又はイントラピクチャ(空間的)予測を使用してピクチャ領域をコーディングするか否かの決定は、CBレベル(又は全ての3つのカラーチャネルについてCUレベル)で行われてもよい。各CBは、所定のPB分割タイプに従って、1、2、4又は他の数のPBに更に分割されてもよい。1つのPBの内部では、同じ予測プロセスが適用されてもよく、関連情報がPB毎にデコーダに送信されてもよい。PB分割タイプに基づいて予測プロセスを適用することによって残差ブロックを取得した後に、CBは、CBの符号化ツリーと同様の他の四分木構造に従ってTBにパーティションできる。この特定の実装では、CB又はTBは正方形でもよいが、これに限定される必要はない。さらに、この特定の例では、PBはインター予測のために正方形又は長方形でもよく、イントラ予測のために正方形のみでもよい。符号化ブロックは、例えば、4つの正方形のTBに分割されてもよい。各TBは、再帰的に(四分木分割を使用して)、残差四分木(RQT, Residual Quadtree)と呼ばれるより小さいTBに更に分割されてもよい。

ベースブロックをCB、PB又はTBにパーティションするための他の例示的な実装について以下に更に説明する。例えば、図９又は図１０に示すような複数パーティション単位のタイプを使用するのではなく、二分割及び三分割セグメンテーション構造(例えば、上記のようなQTBT又は三分割によるQTBT)を使用したネスト型のマルチタイプツリーを有する四分木が使用されてもよい。最大変換長にとって大きすぎるサイズを有し、更に分割が必要となり得るCBに必要な場合を除き、CB、PB及びTBの分離(すなわち、CBのPB及び/又はTBへのパーティション、及びPBのTBへのパーティション)は放棄されてもよい。この例示的なパーティション方式は、予測及び変換の双方が更なるパーティションなしにCBレベルで実行できるように、CBパーティション形状のより大きい柔軟性をサポートするように設計されてもよい。このような符号化ツリー構造では、CBは正方形又は長方形のいずれかの形状を有してもよい。具体的には、符号化ツリーブロック(CTB, coding tree block)は、最初に四分木構造によってパーティションされてもよい。次いで、四分木リーフノードは、ネスト型のマルチタイプツリー構造によって更にパーティションされてもよい。二分割又は三分割を使用したネスト型のマルチタイプツリー構造の例が図１１に示されている。具体的には、図１１の例示的なマルチタイプツリー構造は、垂直二分割(SPLIT_BT_VER)(1102)、水平二分割(SPLIT_BT_HOR)(1104)、垂直三分割(SPLIT_TT_VER)(1106)及び水平三分割(SPLIT_TT_HOR)(1108)と呼ばれる4つの分割タイプを含む。次いで、CBはマルチタイプツリーのリーフに対応する。この例示的な実装では、CBは最大変換長にとって大きすぎる場合を除き、このセグメント化は更なるパーティションなしに予測及び変換処理の双方に使用される。これは、ほとんどの場合、CB、PB及びTBがネスト型のマルチタイプツリー符号化ブロック構造を有する四分木で同じブロックサイズを有することを意味する。最大のサポートされる変換長がCBの色成分の幅又は高さよりも小さい場合、例外が発生する。いくつかの実装では、二分割又は三分割に加えて、図１１のネスト型のパターンは四分木分割を更に含んでもよい。

1つのベースブロックについてブロックパーティション(四分木、二分割及び三分割のオプションを含む)のネスト型のマルチタイプツリー符号化ブロック構造による四分木の1つの具体例が図１２に示されている。より詳細には、図１２は、ベースブロック1200が4つの正方形パーティション1202、1204、1206及び1208に四分木分割されることを示す。図１１のマルチタイプツリー構造と、更なる分割のための四分木とを更に使用する決定は、四分木分割のパーティションのそれぞれについて行われる。図１２の例では、パーティション1204は更に分割されない。パーティション1202及び1208はそれぞれ他の四分木分割を採用する。パーティション1202では、第2レベルの四分木分割された左上、右上、左下及び右下のパーティションは、それぞれ四分木、図１１の水平分割1104、非分割、及び図１１の水平三分割1108の第3レベルの分割を採用する。パーティション1208は、他の四分木分割を採用し、第2レベルの四分木分割の左上、右上、左下及び右下のパーティションは、それぞれ図１１の垂直三分割1106、非分割、非分割、及び図１１の水平二分割1104の第3レベルの分割を採用する。1208の第3レベルの左上パーティションのサブパーティションのうち2つは、それぞれ図１１の水平二分割1104及び水平三分割1108に従って更に分割される。パーティション1206は、図１１の垂直二分割1102に従って2つのパーティションへの第2レベルの分割パターンを採用し、2つのパーティションは図１１の水平三分割1108及び垂直二分割1102に従って第3レベルで更に分割される。第4レベルの分割は、図１１の水平二分割1104に従ってこれらの一方に更に適用される。

上記の具体例では、最大ルマ変換サイズは64×64でもよく、最大のサポートされるクロマ変換サイズは、例えば32×32でルマとは異なってもよい。図１２における上記の例示的なCBは、一般的に、より小さいPB及び/又はTBに更に分割されないが、ルマ符号化ブロック又はクロマ符号化ブロックの幅又は高さが最大変換幅又は高さよりも大きい場合、ルマ符号化ブロック又はクロマ符号化ブロックは、水平方向及び/又は垂直方向に自動的に分割され、その方向の変換サイズの制限を満たしてもよい。

ベースブロックを上記のCBにパーティションする具体例では、上記のように、符号化ツリー方式は、ルマ及びクロマが別々のブロックツリー構造を有する能力をサポートしてもよい。例えば、Pスライス及びBスライスについて、1つのCTU内のルマCTB及びクロマCTBは同じ符号化ツリー構造を共有してもよい。例えば、Iスライスについて、ルマ及びクロマは別々の符号化ブロックツリー構造を有してもよい。別々のブロックツリー構造が適用される場合、ルマCTBは1つの符号化ツリー構造によってルマCBにパーティションされてもよく、クロマCTBは他の符号化ツリー構造によってクロマCBにパーティションされる。これは、Iスライス内のCUがルマ成分の符号化ブロック又は2つのクロマ成分の符号化ブロックで構成されてもよく、ビデオがモノクロでない限り、P又はBスライス内のCUが常に全ての3つの色成分の符号化ブロックで構成されることを意味する。

符号化ブロックが複数の変換ブロックに更にパーティションされる場合、その中の変換ブロックは、様々な順序又はスキャン方式に従ってビットストリーム内で順序付けされてもよい。符号化ブロック又は予測ブロックを変換ブロックにパーティションするための例示的な実装、及び変換ブロックのコーディング順序について、以下に更に詳細に説明する。いくつかの例示的な実装では、上記のように、変換のパーティションは、例えば4×4から64×64までの変換ブロックサイズで、複数の形状、例えば、1:1(正方形)、1:2/2:1及び1:4/4:1の変換ブロックをサポートしてもよい。いくつかの実装では、符号化ブロックが64×64以下である場合、変換ブロックのパーティションはルマ成分にのみ適用されてもよく、クロマブロックについては、変換ブロックサイズは符号化ブロックサイズと同じになる。そうでなく、符号化ブロックの幅又は高さが64よりも大きい場合、ルマ符号化ブロック及びクロマ符号化ブロックの双方が、それぞれmin(W,64)×min(H,64)及びmin(W,32)×min(H,32)の倍数の変換ブロックに暗黙的に分割されてもよい。

変換ブロックのパーティションのいくつかの例示的な実装では、イントラコーディングされたブロック及びインターコーディングされたブロックの双方について、符号化ブロックは、所定数のレベル(例えば、2レベル)までの分割深さで複数の変換ブロックに更にパーティションされてもよい。変換ブロックのパーティション深さ及びサイズは関連してもよい。いくつかの例示的な実装では、現在の深さの変換サイズから次の深さの変換サイズへのマッピングは以下の表1に示されている。

表1の例示的なマッピングに基づいて、1:1の正方形ブロックについて、次のレベルの変換分割は4つの1:1の正方形サブ変換ブロックを作成してもよい。変換パーティションは、例えば4×4で停止してもよい。したがって、4×4の現在の深さの変換サイズは、次の深さの4×4の同じサイズに対応する。表1の例では、1:2/2:1の非正方形ブロックについては、次のレベルの変換分割は2つの1:1の正方形サブ変換ブロックを作成してもよく、一方、1:4/4:1の非正方形ブロックについては、次のレベルの変換分割は2つの1:2/2:1のサブ変換ブロックを作成してもよい。

いくつかの例示的な実装では、イントラコーディングされたブロックのルマ成分について、変換ブロックのパーティションに関して更なる制限が適用されてもよい。例えば、変換パーティションのレベル毎に、全てのサブ変換ブロックが同じサイズを有するように制限されてもよい。例えば、32×16の符号化ブロックについて、レベル1の変換分割は2つの16×16のサブ変換ブロックを作成し、レベル2の変換分割は8つの8×8のサブ変換ブロックを作成する。言い換えると、変換ユニットを同じサイズに保つために、第2レベルの分割は全ての第1レベルのサブブロックに適用されなければならない。表1に従ったイントラコーディングされた正方形ブロックの変換ブロックのパーティションの例が、矢印で示すコーディング順序と共に図１５に示されている。具体的には、1502は正方形の符号化ブロックを示す。表1に従った4つの等しいサイズの変換ブロックへの第1レベルの分割は、矢印で示すコーディング順序で1504に示されている。表1に従った第1レベルの全ての等しいサイズのブロックの16個の等しいサイズの変換ブロックへの第2レベルの分割は、矢印で示すコーディング順序で1506に示されている。

いくつかの例示的な実装では、インターコーディングされたブロックのルマ成分について、イントラコーディングについての上記の制限が適用されなくてもよい。例えば、第1レベルの変換分割の後に、サブ変換ブロックのいずれか1つが1つ以上のレベルで独立して更に分割されてもよい。したがって、結果の変換ブロックは同じサイズになってもよく或いは同じサイズにならなくてもよい。インターコーディングされたブロックの、そのコーディング順序での変換ロックへの例示的な分割が図１６に示されている。図１６の例では、インターコーディングされたブロック1602は、表1に従って2つのレベルで変換ブロックに分割される。第1レベルでは、インターコーディングされたブロックは、等しいサイズの4つの変換ブロックに分割される。次いで、4つの変換ブロックのうちの1つのみ(全てではない)が4つのサブ変換ブロックに更に分割され、1604で示すように、2つの異なるサイズを有する合計で7つの変換ブロックを生じる。これらの7つの変換ブロックの例示的なコーディング順序は、図１６の1604の矢印で示されている。

いくつかの例示的な実装では、クロマ成分について、変換ブロックのいくつかの更なる制限が適用されてもよい。例えば、クロマ成分について、変換ブロックサイズは符号化ブロックサイズと同じとすることができるが、所定のサイズ、例えば、8×8よりも小さくすることはできない。

いくつかの他の例示的な実装では、64よりも大きい幅(W)又は高さ(H)を有する符号化ブロックについて、ルマ符号化ブロック及びクロマ符号化ブロックの双方が、それぞれmin(W,64)×min(H,64)及びmin(W,32)×min(H,32)の倍数の変換ユニットに暗黙的に分割されてもよい。ここで、本開示では、「min(a,b)」はaとbとの間でより小さい値を返してもよい。

図１７は、符号化ブロック又は予測ブロックを変換ブロックにパーティションするための他の代替例の方式を更に示す。図１７に示すように、再帰的な変換パーティションを使用する代わりに、所定のセットのパーティションタイプが符号化ブロックの変換タイプに従って符号化ブロックに適用されてもよい。図１７に示す特定の例において、6つの例示的なパーティションタイプのうち1つが、符号化ブロックを様々な数の変換ブロックに分割するために適用されてもよい。このような変換ブロックのパーティションを生成する方式は、符号化ブロック又は予測ブロックのいずれかに適用されてもよい。

より詳細には、図１７のパーティション方式は、いずれか所与の変換タイプ(変換タイプは、ADST等のような一次変換のタイプを示す)について最大で6つの例示的なパーティションタイプを提供する。この方式では、全ての符号化ブロック又は予測ブロックに、例えばレート歪みコストに基づいて変換パーティションタイプが割り当てられてもよい。一例では、符号化ブロック又は予測ブロックに割り当てられる変換パーティションタイプは、符号化ブロック又は予測ブロックの変換タイプに基づいて決定されてもよい。特定の変換パーティションタイプは、図１７に示す6つの変換パーティションタイプによって示されるように、変換ブロックの分割サイズ及びパターンに対応してもよい。様々な変換タイプと様々な変換パーティションタイプとの間の対応関係が予め定義されてもよい。変換パーティションタイプを示す大文字のラベルによって、レート歪みコストに基づいて符号化ブロック又は予測ブロックに割り当てられ得る例が以下に示される。
-PARTITION_NONE:ブロックサイズと等しい変換サイズを割り当てる。
-PARTITION_SPLIT:ブロックサイズの幅の1/2及びブロックサイズの高さの1/2の変換サイズを割り当てる。
-PARTITION_HORZ:ブロックサイズと同じ幅及びブロックサイズの高さの1/2の変換サイズを割り当てる。
-PARTITION_VERT:ブロックサイズの幅の1/2及びブロックサイズと同じ高さの変換サイズを割り当てる。
-PARTITION_HORZ4:ブロックサイズと同じ幅及びブロックサイズと同じ高さの1/4の変換サイズを割り当てる。
-PARTITION_VERT4:ブロックサイズの幅の1/4及びブロックサイズと同じ高さの変換サイズを割り当てる。

上記の例では、図１７に示すような変換パーティションタイプは全て、パーティション化された変換ブロックについて均一な変換サイズを含む。これは制限ではなく単なる例である。いくつかの他の実装では、特定のパーティションタイプ(又はパターン)のパーティションされた変換ブロックについて、混合変換ブロックサイズが使用されてもよい。

上記のパーティション方式のいずれかから取得されたPB(又はCB、予測ブロックに更に分割されない場合にはPBとも呼ばれる)は、イントラ予測又はインター予測のいずれかを介したコーディングのための個々のブロックになってもよい。現在PBのインター予測のために、現在ブロックと予測ブロックとの間の残差が生成され、コーディングされ、コーディングされたビットストリームに含まれてもよい。

インター予測は、例えば、単一参照モード又は複合参照モードで実装されてもよい。いくつかの実装では、現在ブロックがインターコーディングされておりスキップされないか否かを示すために、現在ブロックのビットストリームに(又はより高いレベルで)スキップフラグが最初に含まれてもよい。現在ブロックがインターコーディングされる場合、現在ブロックの予測に単一参照モードが使用されるか複合参照モードが使用されるかを示すための信号として、他のフラグがビットストリームに更に含まれてもよい。単一参照モードの場合、1つの参照ブロックが現在ブロックの予測ブロックを生成するために使用されてもよい。複合参照モードでは、2つ以上の参照ブロックが、例えば加重平均によって予測ブロックを生成するために使用されてもよい。複合参照モードは、複数参照モード、2参照モード又はマルチ参照モードと呼ばれてもよい。参照ブロック又は複数の参照ブロックは、参照フレームインデックス又は複数のインデックスを使用し、例えば水平及び垂直ピクセルにおける参照ブロックと現在ブロックとの間の位置のシフトを示す対応する動きベクトル又は複数の動きベクトルを更に使用して識別されてもよい。例えば、現在ブロックのインター予測ブロックは、単一参照モードの予測ブロックとして参照フレーム内の1つの動きベクトルによって識別される単一参照ブロックから生成されてもよいが、複合参照モードの場合、予測ブロックは、2つの参照フレームインデックス及び2つの対応する動きベクトルによって示される2つの参照フレーム内の2つの参照ブロックの加重平均によって生成されてもよい。動きベクトルは様々な方式コーディング化され、ビットストリームに含まれてもよい。

いくつかの実装では、符号化又は復号システムは復号ピクチャバッファ(DPB, decoded picture buffer)を維持してもよい。いくつかの画像/ピクチャは(復号システムで)表示されるのを待機しつつDPBで維持されてもよく、DPB内のいくつかの画像/ピクチャは(復号システム又は符号化システムで)インター予測を可能にするための参照フレームとして使用されてもよい。いくつかの実装では、DPB内の参照フレームは、符号化又は復号されている現在の画像の短期参照又は長期参照のいずれかとしてタグ付けされてもよい。例えば、短期参照フレームは、現在フレーム内のブロックのインター予測に使用されるフレーム、又は復号順序で現在フレームに最も近い所定数(例えば、2つ)の後続のビデオフレームを含んでもよい。長期参照フレームは、復号順序で現在フレームから所定数のフレームより離れたフレーム内の画像ブロックを予測するために使用できるDPB内のフレームを含んでもよい。短期及び長期参照フレームのこのようなタグに関する情報は、参照ピクチャセット(RPS, Reference Picture Set)と呼ばれてもよく、符号化ビットストリーム内の各フレームのヘッダに追加されてもよい。符号化ビデオストリーム内の各フレームは、ピクチャ順序カウント(POC, Picture Order Counter)によって識別されてもよく、POCは再生順序に従って絶対的な方式で番号付けされるか、或いは、例えばIフレームから始まるピクチャグループに関連して番号付けされる

いくつかの例示的な実装では、インター予測のための短期及び長期参照フレームの識別を含む1つ以上の参照ピクチャリストが、RPS内の情報に基づいて形成されてもよい。例えば、片方向インター予測のために、L0参照(又は参照リスト0)として示される単一のピクチャ参照リストが形成されてもよく、一方、双方向インター予測のために、2つの予測方向のそれぞれについてL0(又は参照リスト0)及びL1(又は参照リスト1)として示される2つのピクチャ参照リストが形成されてもよい。L0及びL1リストに含まれる参照フレームは、様々な所定の方式で順序付けられてもよい。L0及びL1リストの長さは、ビデオビットストリームで信号伝達されてもよい。片方向インター予測は、単一参照モードでもよく、或いは、複合予測モードでの加重平均による予測ブロックの生成のために複数の参照が、予測されるブロックの同じ側にある場合には、複合参照モードでもよい。双方向インター予測は、双方向インター予測が少なくとも2つの参照ブロックを含むという点でのみ合モードとなってもよい。

適応ループフィルタ

VVC(Versatile Video Coding)では、ブロックベースのフィルタ適応による適応ループフィルタ(ALF, Adaptive Loop Filter)が適用される。ルマ成分では、ローカル勾配の方向及びアクティビティに基づいて、4×4ブロック毎に多数のフィルタの中から1つが選択される。一例では、選択すべき25個のフィルタが存在してもよい。

図１８は、例示的な適応ループフィルタ(ALF, adaptive loop filter)の形状を示す。具体的には、図１８は2つのダイヤモンドフィルタ形状を示す。ルマ成分には7×7のダイヤモンド形状が適用され、クロマ成分には5×5のダイヤモンド形状が適用される。

異なる例について、ブロック分類は以下のように計算できる。ルマ成分では、それぞれの4×4ブロックは25個のクラスのうちの1つに分類される。分類インデックスCは、その方向性D及びアクティビティの量子化値
に基づいて以下のように導出される。
D及び
を計算するために、まず1-Dラプラシアンを使用して、水平、垂直及び2つの対角方向の勾配が計算される。
ここで、インデックスi及びjは4×4ブロック内の左上サンプルの座標を示し、R(i,j)は座標(i,j)における再構成サンプルを示す。

ブロック分類の複雑さを低減するために、サブサンプリングされた1-Dラプラシアン計算が適用されてもよい。図１９ａ～１９ｄに示すように、全ての方向の勾配計算に同じサブサンプリング位置が使用されてもよい。図１９ａは、垂直勾配のラプラシアン計算におけるサブサンプリング位置を示す。図１９ｂは、水平勾配のラプラシアン計算におけるサブサンプリング位置を示す。図１９ｃは、対角勾配のラプラシアン計算におけるサブサンプリング位置を示す。図１９ｄは、他の対角勾配のラプラシアン計算におけるサブサンプリング位置を示す。

次いで、水平方向及び垂直方向の勾配のD個の最大値及び最小値が以下のように設定される。
2つの対角方向の勾配の最大値及び最小値は以下のように設定される。
方向性Dの値を導出するために、これらの値が互いに2つの閾値t₁及びt₂と比較される。
ステップ1.g_h,v ^max≦t₁・g_h,v ^min及びg_d1,d2 ^max≦t₁・g_d1,d2 ^minの双方が真である場合、Dは0に設定される。
ステップ2.g_h,v ^max/g_h,v ^min>g_d1,d2 ^max/g_d1,d2 ^minである場合、ステップ3から続行する。そうでない場合、ステップ4から続行する。
ステップ3.g_h,v ^max>t₂・g_h,v ^minである場合、Dは2に設定され、そうでない場合、Dは1に設定される。
ステップ4.g_d1,d2 ^max>t₂・g_d1,d2 ^min の場合、Dは4に設定され、そうでない場合、Dは3に設定される。
アクティビティ値Aは以下のように計算される。
Aは0～4の範囲に更に量子化され、量子化値は
として示される。ピクチャ内のクロマ成分については、分類方法は適用されない。言い換えると、クロマ成分毎に単一のALF係数のセットが適用されてもよい。

フィルタ係数及びクリッピング値の幾何学的変換が存在してもよい。各4×4ルマブロックをフィルタリングする前に、そのブロックについて計算された勾配値に依存して、フィルタ係数f(k,l)及び対応するフィルタクリッピング値c(k,l)に回転又は対角及び垂直反転のような幾何学的変換が適用されてもよい。これは、これらの変換をフィルタサポート領域内のサンプルに適用することと同等になり得る。これは、方向性を揃えることによって、ALFが適用される異なるブロックをより均一にできる。3つの幾何学的変換は、対角、垂直反転及び回転を含んでもよい。
ここで、Kはフィルタのサイズであり0≦k,l≦K-1は係数座標であり、位置(0,0)は左上角にあり、位置(K-1,K-1)は右下角にある。変換は、そのブロックについて計算された勾配値に依存してフィルタ係数f(k,l)及びクリッピング値c(k,l)に適用される。変換と4つの方向の4つの勾配との間の関係が以下の表2にまとめられる。

VVCでは、ALFフィルタパラメータは適応パラメータセット(APS, adaption parameter set)で信号伝達される。1つのAPSでは、ルマフィルタ係数及びクリッピング値インデックスの複数のセットが使用されてもよい。例えば、25セットのルマフィルタが存在してもよい。さらに、クロマフィルタ係数及びクリッピング値インデックスの複数のセットが信号伝達されてもよい。一例では、信号伝達され得るクロマフィルタ係数及びクリッピング値インデックスの最大で8つのセットが存在してもよい。ビットオーバーヘッドを低減するために、ルマ成分について異なる分類のフィルタ係数がマージできる。スライスヘッダでは、現在スライスに使用されるAPSのインデックスが信号伝達されてもよい。ALFの信号伝達は、符号化ツリーユニット(CTU, Coding Tree Unit)ベースでもよい。

APSから復号されるクリッピング値インデックスは、ルマ及びクロマのクリッピング値のテーブルを使用してクリッピング値を決定することを可能にする。これらのクリッピング値は、内部ビット深さに依存してもよい。より正確には、クリッピング値のテーブルは以下の式によって取得されてもよい。
Bが内部ビット深さに等しい場合、αは2.35に等しい所定の定数値であり、Nは一実施形態におけるVVCでの許容クリッピング値の数である4に等しい。表3は、式(12)の出力を示す。

スライスヘッダの一例では、現在スライスに使用されるルマフィルタセットを指定するために、最大で7つのAPSインデックスが信号伝達できる。フィルタリングプロセスは、符号化ツリーブロック(CTB, coding tree block)レベルで更に制御されてもよい。ALFがルマCTBに適用されるか否かを示すためにフラグが信号伝達されてもよい。一例では、ルマCTBは16個の固定フィルタセット及びAPSからのフィルタセットの中からフィルタセットを選択できる。どのフィルタセットが適用されるかを示すために、ルマCTBについてフィルタセットインデックスが信号伝達される。16の固定フィルタセットは、エンコーダ及びデコーダの双方で予め定義され、ハードコーディングされてもよい。クロマ成分について、現在スライスに使用されているクロマフィルタセットを示すために、APSインデックスがスライスヘッダで信号伝達される。CTBレベルでは、APSに1つよりも多くのクロマフィルタセットが存在する場合、各クロマCTBについてフィルタインデックスが信号伝達される。フィルタ係数は、128に等しいノルムで量子化されてもよい。乗算の複雑さを制限するために、非中央位置の係数値が-27～27-1の範囲になり得るように、ビットストリーム適合性(bitstream confirmance)が適用される。中央位置の係数はビットストリームで信号伝達されず、128に等しいと見なされる。

VVCの例では、クリッピングインデックス及び値のシンタックス及び意味は以下のように定義され得る。alf_luma_clip_idx[sfIdx][j]は、sfIdxで示される信号伝達されたルマフィルタの第jの係数で乗算する前に使用するクリッピング値のクリッピングインデックスを指定する。sfIdx=0...alf_luma_num_filters_signalled_minus1及びj=0..11でのalf_luma_clip_idx[sfIdx][j]の値が0以上3以下の範囲にあることが、ビットストリーム適合性の要件となってもよい。filtIdx=0...NumAlfFilters-1及びj=0..11での要素AlfClipL[adaptation_parameter_set_id][filtIdx][j]を有するルマフィルタクリッピング値AlfClipL[adaptation_parameter_set_id]は、BitDepthYに等しいbitDepthセット及びalf_luma_clip_idx[alf_luma_coeff_delta_idx[filtIdx]][j]に等しいclipIdxセットに依存して、表3で指定されるように導出される。alf_chroma_clip_idx[altIdx][j]は、インデックスaltIdxでの代替クロマフィルタの第jの係数を乗算する前に使用するクリッピング値のクリッピングインデックスを指定する。altIdx=0..alf_chroma_num_alt_filters_minus1、j=0..5でのalf_chroma_clip_idx[altIdx][j]の値が0以上3以下の範囲にあることが、ビットストリーム適合性の要件である。altIdx=0..alf_chroma_num_alt_filters_minus1、j=0..5での要素AlfClipC[adaptation_parameter_set_id][altIdx][j]を有するクロマフィルタクリッピング値AlfClipC[adaptation_parameter_set_id][altIdx]は、BitDepthCに等しいbitDepthセット及びalf_chroma_clip_idx[altIdx][j]に等しいclipIdxセットに依存して、表3で指定されるように導出される。

フィルタリングプロセスは、以下の例で実行されてもよい。デコーダ側で、CTBについてALFが有効である場合、CU内の各サンプルR(i,j)がフィルタリングされ、サンプル値R'(i,j)を生じる。
ここで、f(k,l)は復号されたフィルタ係数を示し、K(x,y)はクリッピング関数であり、c(k,l)は復号されたクリッピングパラメータを示す。変数k及びlは-L/2とL/2との間で変化し、Lはフィルタ長を示す。クリッピング関数K(x,y)=min(y,max(-y,x))であり、これは関数Clip3(-y,y,x)に対応する。JVET-N0242で最初に提案されたこのクリッピング関数を組み込むことにより、このループフィルタリング方法は非線形ALFとして知られる非線形プロセスになる。選択されたクリッピング値は、表3におけるクリッピング値のインデックスに対応するGolomb符号化方式を使用することによって、「alf_data」シンタックスエレメントにコーディングされる。この符号化方式は、フィルタインデックスのための符号化方式と同じでもよい。

ラインバッファ低減のための仮想境界フィルタリングプロセスが存在してもよい。ALFのラインバッファ要件を低減するために、水平CTU境界付近のサンプルについて修正ブロック分類及びフィルタリングが適用されてもよい。したがって、図２０に示すように、水平CTU境界を「N」サンプルでシフトすることによって、仮想境界がラインとして定義されてもよい。図２０は、仮想境界での修正ブロック分類の例を示す。この例では、Nはルマ成分については4に等しく、クロマ成分については2に等しい。

修正ブロック分類は、図２０に示すようにルマ成分に適用される。仮想境界の上の4×4ブロックの1Dラプラシアン勾配計算では、仮想境界の上のサンプルのみが使用される。同様に、仮想境界の下の4×4ブロックの1Dラプラシアン勾配計算では、仮想境界の下のサンプルのみが使用される。アクティビティ値Aの量子化は、1Dラプラシアン勾配計算で使用される減少したサンプル数を考慮してスケーリングされる。

図２１は、仮想境界でのルマ成分についての修正適応ループフィルタリングの例を示す。フィルタリング処理では、仮想境界での対称パディング操作がルマ成分及びクロマ成分の双方に使用されてもよい。図２１に示すように、フィルタリングされているサンプルが仮想境界の下に位置する場合、仮想境界の上に位置する隣接サンプルがパディングされる。反対側の対応するサンプルも対称的にパディングされてもよい。

図２２は、最大符号化ユニット(LCU, largest coding unit)で整列されたピクチャ四分木分割の例を示す。コーディング効率を高めるために、符号化ユニット同期ピクチャ四分木ベースの適応ループフィルタが使用されてもよい。ルマピクチャはいくつかのマルチレベル四分木パーティションに分割されてもよく、各パーティション境界は最大符号化ユニット(LCU)の境界に整列される。各パーティションは独自のフィルタリングプロセスを有し、フィルタユニット(FU, filter unit)と呼ばれてもよい。2パス符号化フローは以下を含んでもよい。第1のパスにおいて、各FUの四分木分割パターン及び最適なフィルタが決定される。フィルタリング歪みは、決定プロセス中にFFDEによって推定される。全てのFUの決定された四分木分割パターン及び選択されたフィルタに従って、再構成ピクチャがフィルタリングされる。第2のパスにおいて、CU同期ALFオン/オフ制御が実行される。ALFオン/オフ結果に従って、最初にフィルタリングされたピクチャは、再構成ピクチャによって部分的に回復される。

レート歪み基準を使用することによってピクチャをマルチレベルの四分木パーティションに分割するために、トップダウン分割方策が採用されてもよい。各パーティションはフィルタユニットと呼ばれてもよい。分割プロセスは、四分木パーティションをLCU境界に整列させる。FUの符号化順序は、zスキャン順序に従う。例えば、図２２では、ピクチャは10個のFUに分割され、符号化順序はFU0、FU1、FU2、FU3、FU4、FU5、FU6、FU7、FU8及びFU9である。

図２３はz順で符号化された四分木分割フラグの例を示す。ピクチャの四分木分割パターンを示すために、分割フラグはz順で符号化されて送信される。図２３は、図２２に対応する四分木分割パターンを示す。各FUのフィルタは、レート歪み基準に基づいて2つのフィルタセットから選択される。第1のセットは、現在のFUのために新たに導出された1/2対称型の正方形及び菱形のフィルタを有する。第2のセットは、時間遅延フィルタバッファから得られる。時間遅延フィルタバッファは、前のピクチャのFUについて以前に導出されたフィルタを記憶する。これら2つのセットの最小レート歪みコストを有するフィルタが現在のFUに選択される。同様に、現在のFUが最小のFUではなく、4つの子FUに更に分割できる場合、4つの子FUのレート歪みコストが計算される。分割の場合及び非分割の場合のレート歪みコストを再帰的に比較することによって、ピクチャ四分木分割パターンが決定できる。一例では、最大四分木分割レベルは2であり、これはFUの最大数が16であることを意味する。四分木分割の決定の間に、下位の四分木レベル(最小のFU)の16個のFUのウィーナー(Wiener)係数を導出するための相関値が再利用できる。残りのFUは、下位の四分木レベルの16個のFUの相関関係からこれらのウィーナーフィルタを導出できる。したがって、全てのFUのフィルタ係数を導出するために1つのみのフレームバッファアクセスが存在してもよい。四分木分割パターンが決定された後に、フィルタリング歪みを更に低減するために、CU同期ALFオン/オフ制御が実行される。フィルタリング歪みと非フィルタリング歪みとを比較することで、リーフCUはそのローカル領域で明示的にALFのオン/オフを切り替えることができる。ALFオン/オフ結果に従ってフィルタ係数を再設計することによって、コーディング効率が更に改善できる。しかし、再設計プロセスは、更なるフレームバッファアクセスを必要とし得る。修正されたエンコーダ設計では、フレームバッファアクセスの数を最小化するために、CU同期ALFオン/オフ決定後に再設計プロセスが存在しなくてもよい。

クロスコンポーネント適応ループフィルタ(CC-ALF, Cross-Component Adaptive Loop Filter)

図２４は、クロスコンポーネント適応ループフィルタ(CC-ALF)配置の例を示す。CC-ALFは各クロマ成分を洗練化するためにルマサンプル値を利用してもよい。図２４は、他のループフィルタに対するCC-ALFの配置を示す。

図２５は、ダイヤモンド形フィルタの例を示す。CC-ALFは、クロマ成分毎に図２５からの線形のダイヤモンド形フィルタをルマチャネルに適用することによって動作してもよい。フィルタ係数はAPSで送信され、一例では210倍にスケーリングされ、固定小数点表現のために丸められる。フィルタの適用は、可変ブロックサイズで制御され、サンプルのブロック毎に受信されるコンテキストコーディングされたフラグによって信号伝達される。ブロックサイズは、CC-ALF有効化フラグとともに、クロ成分毎にスライスレベルで受信される。一例では、16×16、32×32、64×64のブロックサイズ(クロマサンプル内)がサポートされている。

CC-ALFの例示的なシンタックスは以下を含んでもよい。
CC-ALF関連のシンタックスの意味は以下を含んでもよい。
0に等しいalf_ctb_cross_component_cb_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]は、ルマ位置(xCtb,yCtb)におけるCb色成分サンプルのブロックにクロスコンポーネントCbフィルタが適用されないことを示す。0に等しくないalf_cross_component_cb_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]は、第alf_cross_component_cb_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]のクロスコンポーネントCbフィルタがルマ位置(xCtb,yCtb)におけるCb色成分サンプルのブロックに適用されることを示す。
0に等しいalf_ctb_cross_component_cr_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]は、ルマ位置(xCtb,yCtb)におけるCr色成分サンプルのブロックにクロスコンポーネントCrフィルタが適用されないことを示す。0に等しくないalf_cross_component_cr_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]は、第alf_cross_component_cr_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]のクロスコンポーネントCrフィルタがルマ位置(xCtb,yCtb)におけるCr色成分サンプルのブロックに適用されることを示す。

クロマサンプリングフォーマット

図２６は、ルマサンプルに対するクロマサンプルの例示的な位置を示す。図２６は、chroma_format_idcが1に等しく(4:2:0クロマフォーマット)、chroma_sample_loc_type_top_field又はchroma_sample_loc_type_bottom_fieldが変数ChromaLocTypeの値に等しい場合の、左上クロマサンプルの示された相対位置を示す。左上の4:2:0クロマサンプルによって表される領域(中心に大きいドットを有する大きい正方形として示される)が、左上ルマサンプルによって表される領域(中心に小さいドットを有する小さい正方形として表される)に対して示されている。隣接ルマサンプルによって表される領域は、中心に小さい網掛けの灰色のドットを有する小さい網掛けの灰色の正方形として示される。

方向拡張機能

ループ内制約方向拡張フィルタ(CDEF, constrained directional enhancement filter)の1つの目的は、画像の詳細を保持しつつコーディングアーティファクトをフィルタ除去することである。HEVCでは、サンプル適応オフセット(SAO, Sample Adaptive Offset)アルゴリズムは、異なるクラスのピクセルについて信号オフセットを定義することによって、同様の目的を達成し得る。SAOとは異なり、CDEFは非線形空間フィルタである。フィルタの設計は、容易にベクトル化されるように制約されおり(すなわち、SIMD操作で実装可能である)、これは、メディアンフィルタ及びバイラテラルフィルタのような他の非線形フィルタには当てはまらない可能性がある。CDEFの設計は、以下の観察に由来する。コーディングされた画像のリンギングアーティファクトの量は、量子化ステップサイズにほぼ比例する傾向がある。詳細の量は入力ピクチャの特性であるが、量子化された画像に保持される最小の詳細も量子化ステップサイズに比例する傾向がある。所与の量子化ステップサイズでは、一般的にリンギングの振幅は詳細の振幅よりも小さい。

CDEFは、各ブロックの方向を識別し、次いで、識別された方向に沿って適応的にフィルタリングし、識別された方向から45度回転した方向に沿ってより小さい程度までフィルタリングすることによって機能する。フィルタ強度は明示的に信号伝達され、これは、ぼかしに対する高度の制御を可能にする。効率的なエンコーダ検索は、フィルタ強度に対して設計される。CDEFは、以前に提案された2つのループ内フィルタに基づいており、新たなAV1コーデックには複合フィルタが採用された。

図２７は方向検索の例を示す。方向検索は、デブロッキングフィルタの直後に再構成ピクセルに対して動作する。これらのピクセルはデコーダに利用可能であるので、方向は信号伝達を必要としない。検索は8×8ブロックで動作し、8×8ブロックは非直線エッジを適切に処理するのに十分な大きさである一方、量子化された画像に適用された場合に方向を確実に推定するのに十分な大きさである。8×8領域にわたって一定の方向を有することはまた、フィルタのベクトル化をより容易にする。各ブロックについて、量子化されたブロックと最も近い完全方向ブロックとの間の差分二乗和(SSD, sum of squared differences)を最小化することによって、ブロック内のパターンに最も一致する方向を決定する。完全方向ブロックは、1つの方向のラインに沿ったピクセルの全てが同じ値を有するブロックである。図２７は8×8ブロックの方向探索の一例である。

非線形ローパス方向フィルタが存在してもよい。方向を識別する1つの理由は、その方向に沿ってフィルタタップを整列させ、方向のエッジ又はパターンを保持しつつリンギングを低減することである。しかし、場合によっては、方向フィルタリングだけではリンギングを十分に低減できない。また、主方向に沿っていないピクセルにフィルタタップを使用することが望ましいこともある。ぼやけのリスクを低減するために、これらの余分なタップはより控えめに扱われる。このため、CDEFは一次タップ及び二次タップを定義している。完全な2D CDEFフィルタは以下のように表されてもよい。
ここで、Dは減衰パラメータであり、S^(p)及びS^(s)はそれぞれ一次タップ及び二次タップの強度であり、round(・)は四捨五入であり、w_kはフィルタの重みであり、f(d,S,D)はフィルタリングされたピクセルと隣接ピクセルのそれぞれとの間の差に作用する制約関数である。小さい差の場合、f(d,S,D)=dであり、フィルタを線形フィルタのように動作させる。差が大きい場合、f(d,S,D)=0であり、これはフィルタタップを事実上無視する。

ループ復元

ビデオコーディングのデブロッキングの後に使用するために、従来のデブロッキング操作を超えて、一般的にノイズを除去してエッジの品質を向上させるために、一式のループ内復元方式が提案されている。これらの方式は、適切なサイズのタイル毎にフレーム内で切り替え可能である。記載されている特定の方式は、分離可能な対称ウィーナーフィルタと、部分空間投影を有する二重自己誘導フィルタとに基づく。コンテンツ統計はフレーム内で実質的に変化する可能性があるので、これらのツールは、異なるツールがフレームの異なる領域でトリガーできる切り替え可能なフレームワーク内に統合される。

復元ツールとして使用される分離可能な対称ウィーナーフィルタが存在してもよい。劣化したフレーム内の各ピクセルは、その周囲のw×wウィンドウ内のピクセルの非因果フィルタリング(non-casual filtered)バージョンとして再構成されてもよく、w=2r+1は整数rに対して奇数である。2Dフィルタタップが列ベクトル化された形式でw2×1要素のベクトルFによって示される場合、単純なLMMSE最適化は、F=H-1Mによって与えられるフィルタパラメータをもたらす。ここで、H=E[XXT]は、ピクセルの周囲のw×wウィンドウ内のw2個のサンプルの列ベクトル化されたバージョンである、xの自己共分散であり、M=E[YXT]はxと推定されるスカラソースサンプルyとの相互相関である。エンコーダは、ソース及びデブロッキングされたフレーム内の実現からH及びMを推定し、結果のフィルタFをデコーダに送信できる。しかし、これはw2タップを送信する際に相当なビットレートコストがかかるだけでなく、分離不可能なフィルタリングが復号を非常に複雑にする。したがって、Fの性質にいくつかの更なる制約が課される。第1に、フィルタリングが分離可能な水平及び垂直のwタップ畳み込みとして実装できるように、Fは分離可能なように制約される。第2に、水平フィルタ及び垂直フィルタのそれぞれが対称になるように制約される。第3に、水平フィルタ係数及び垂直フィルタ係数の双方の和が1になると仮定する。

画像フィルタリングのための部分空間投影による二重自己誘導フィルタリングが存在してもよく、ローカル線形モデルは、
であり、これは、フィルタリングされていないサンプルxからフィルタリングされた出力yを計算するために使用される。ここで、F及びGは、フィルタリングされたピクセルの周辺の劣化画像及びガイダンス画像の統計に基づいて決定される。ガイド画像が劣化画像と同じである場合、結果のいわゆる自己誘導フィルタリングは、エッジ保存平滑化の効果を有する。提案する自己誘導フィルタリングの具体的な形式は、半径r及びノイズパラメータeの2つのパラメータに依存し、以下のように列挙される。
1.各ピクセルの周囲の(2r+1)×(2r+1)ウィンドウ内のピクセルの平均μ及び分散σ²を取得する。これは、積分イメージングに基づくボックスフィルタリングで効率的に実装できる。
2.各ピクセルについて、f=σ²/(σ²+e)、g=(1-f)μを計算する
3.各ピクセルのF及びGを、使用するピクセルの周囲の3×3ウィンドウ内のf及びgの値の平均として計算する。
フィルタリングはr及びeによって制御されてもよく、rが高いほど空間分散が高く、eが高いほど範囲分散が高いことを意味する。

図２８は部分空間射影の例を示す。部分空間射影の原理が図２８に図示されている。安価な復元X1、X2のいずれもソースYに近くなくても、適切な乗算器{α,β}は、これらが或る程度正しい方向に動いている限り、ソースにかなり近づけることができる。

クロスコンポーネントサンプルオフセット(CCSO, Cross-Component Sample Offset)

ループフィルタリング手法は、再構成サンプルの歪みを低減するためのクロスコンポーネントサンプルオフセット(CCSO)を含んでもよい。CCSOでは、第1の色成分の処理された入力再構成サンプルが与えられると、非線形マッピングが出力オフセットを導出するために使用され、出力オフセットは、提案されるCCSOのフィルタリングプロセスにおいて他の色成分の再構成サンプルに追加される。

図２９は、フィルタサポート領域の例を示す。入力再構成サンプルは、フィルタサポート領域に位置する第1の色成分からのものである。図２９に示すように、フィルタサポート領域は、p0、p1、p2、p3の4つの再構成サンプルを含む。4つの入力再構成サンプルは、垂直方向及び水平方向において十字型に従う。第1の色成分における中央サンプル(cで示す)と、第2の色成分におけるフィルタリングされるサンプルは同一位置にある。入力再構成サンプルを処理する場合、以下のステップが適用される。
・ステップ1:p0～p3とcとの間のデルタ値が最初に計算され、m0、m1、m2及びm3として示される。
・ステップ2:デルタ値m0～m3が更に量子化され、量子化値がd0、d1、d2、d3として示される。量子化値は、以下の量子化プロセスに基づいて-1、0、1とすることができる。
ここでNは量子化ステップサイズと呼ばれ、Nの例示的な値は4、8、12、16である。

変数d0～d3は、非線形マッピングの1つの組み合わせを識別するために使用されてもよい。この例では、CCSOは4つのフィルタタップd0～d3を有し、各フィルタタップは3つの量子化値のうち1つを有してもよいので、合計で3^4=81の組み合わせが存在する。表4(下記)は81個の例示的な組み合わせを示しており、最後の列は各組み合わせの出力オフセット値を表す。例示的なオフセット値は、0、1、-1、3、-3、5、-5、-7のような整数である。

CCSOの最終的なフィルタリングプロセスは以下のように適用される。
ここで、fはフィルタリングされる再構成サンプルであり、sは表4から取得された出力オフセット値であり、フィルタリングされたサンプル値f'はビット深さに関連付けられた範囲に更にクリッピングされる。

ローカルサンプルオフセット(LSO, local sample offset)は、他の例示的なオフセットの実施形態である。LSOでは、CCSOにおける同様のフィルタリング手法が適用されるが、出力オフセットは、再構成サンプルがフィルタリングプロセスへの入力として使用されるのと同じ色成分である色成分に適用される。

代替実施形態では、簡略化されたCCSO設計がAV2の参照ソフトウェア、すなわち、CWG-B022用のAVMに採用されてもよい。

図３０は、例示的なループフィルタパイプラインを示す。CCSOは、ループフィルタパイプラインにおいてCDEFと並行して実行されるループフィルタプロセスであり、すなわち、図３０に示すように、入力はCDEFと同じであり、出力はCDEFでフィルタリングされたサンプルに適用される。CCSOはクロマ色成分にのみ適用されてもよい点に留意する。

図３１は、クロスコンポーネントサンプルオフセット(CCSO, cross-component sample offset)の例示的な入力を示す。CCSOフィルタは、rcとして示されるクロマ再構成サンプルに適用される。rcの同一位置のルマ再構成サンプルはrlとして示される。CCSOフィルタの例が図３１に示されている。CCSOでは、3タップフィルタのセットが使用される。3つのフィルタタップに位置する入力ルマ再構成サンプルは、中央のrlと、2つの隣接サンプルp₀及びp₁とを含む。

p_i及びrl(i=0,1)が与えられると、入力サンプルを処理するために以下のステップが適用される。
-p_iとrlとの間のデルタ値が最初に計算され、m_iとして示される。
-デルタ値m_iは、以下の量子化プロセスを使用してd_iとして量子化される。
-mが-Q_CCSO未満である場合、d_iは-1に設定される
-mが-Q_CCSO以上Q_CCSO以下である場合、d_iは0に設定される
-mがQ_CCSOよりも大きい場合、d_iは1に設定される
上記のステップでは、Q_CCSOは量子化ステップサイズと呼ばれ、Q_CCSOは8、16、32、64とすることができる。

d₀及びd₁が計算された後に、CCSOのルックアップテーブル(LUT, look-up table)を使用してオフセット値(sとして示される)が導出される。CCSOのLUTが表5に示される。d₀及びd₁のそれぞれの組み合わせは、LUT内の行を識別してオフセット値を取得するために使用される。オフセット値は、0、1、-1、3、-3、5、-5及び-7を含む整数である。

最後に、CCSOの導出されたオフセットは、以下のようにクロマ色成分に適用される。
ここで、rcはCCSOによってフィルタリングされる再構成サンプルであり、sはLUTから取得された導出オフセット値であり、フィルタリングされたサンプル値rc'はビット深さで指定された範囲に更にクリッピングされる。

図３２は、クロスコンポーネントサンプルオフセット(CCSO, cross-component sample offset)における例示的なフィルタ形状を示す。CCSOでは、図３２に示すように、f_i(i=1...6)として示される6つの任意選択のフィルタ形状が存在する。これらの6つのフィルタ形状はフレームレベルで切り替え可能であり、選択は3ビットの固定長コードを使用してシンタックスext_filter_supportによって信号伝達される。

クロスコンポーネントサンプルオフセット(CCSO)の信号伝達は、フレームレベル及びブロックレベルの双方で実行されてもよい。フレームレベルでは、信号は以下を含んでもよい。
・CCSOが適用されるか否かを示す1ビットのフラグ
・CCSOフィルタ形状の選択を示す3ビットのシンタックスext_filter_support
・量子化ステップサイズの選択を示す2ビットのインデックス
・LUTで使用される9つの3ビットのオフセット値
128×128クロマブロックレベルでは、CCSOフィルタが有効であるか否かを示すためにフラグが信号伝達される。

サンプル適応オフセット(SAO, Sample Adaptive Offset)

HEVCでは、スライスヘッダで与えられたオフセット値を使用することによって、デブロッキングフィルタ後の再構成信号にサンプル適応オフセット(SAO)が適用される。ルマサンプルについては、エンコーダはSAOが現在スライスに適用されるか否かを決定する。SAOが有効である場合、現在ピクチャは4つのサブ領域への再帰的な分割を許容し、各領域は表6に示すように6つのSAOタイプのいずれかを選択できる。SAOは再構成ピクセルをカテゴリに分類し、現在の領域において各カテゴリのピクセルにオフセットを追加することで歪みを低減する。エッジプロパティはSAOタイプ1～4におけるピクセル分類に使用され、ピクセル強度はSAOタイプ5～6におけるピクセル分類に使用される。

バンドオフセット(BO, band offset)は、領域の全てのピクセルを複数のバンドに分類し、各バンドは同じ強度間隔のピクセルを含む。強度範囲は0から最大強度値(例えば、8ビットピクセルでは255)までの32個の間隔に均等に分割され、各間隔はオフセットを有する。次に、32個のバンドが2つのグループに分割される。一方のグループは中央の16個のバンドで構成され、他方のグループは残りの16個のバンドで構成される。1つのグループのオフセットのみが送信される。BOにおけるピクセル分類操作に関しては、各ピクセルの最上位5ビットがバンドインデックスとして直接使用できる。

図３３は、例示的なピクセルパターンを示す。エッジオフセット(EO, edge offset)は、図３３に示すように、エッジ方向情報を考慮してピクセル分類のために4つの1-Dの3ピクセルパターンを使用する。ピクチャの各領域は1つのパターンを選択し、各ピクセルをその2つの隣接ピクセルと比較することによって、ピクセルを複数のカテゴリに分類できる。選択は、サイド情報としてビットストリームで送信される。表7は、EOについてのピクセル分類ルールを示す。

デコーダ側のSAOは、ラインバッファが節約できるように、LCUとは独立して動作してもよい。これを達成するために、90°、135°及び45°の分類パターンが選択された場合、各LCU内の上及び下の行のピクセルはSAO処理されなくてもよい。0°、135°及び45°のパターンが選択された場合、各LCU内の左端及び右端の列のピクセルはSAO処理されなくてもよい。

以下の表8は、パラメータが隣接CTUからマージされない場合、CTUについて信号伝達される必要がある例示的なシンタックスを示す。

クロスコンポーネントサンプルオフセット(CCSO, Cross-Component Sample Offset)及びローカルサンプルオフセット(LSO, Local Sample Offset)は、1つの色成分におけるオフセット値を選択するためにフィルタリングされるピクセルの値を利用できる。しかし、オフセット選択のためにこれらの入力を更に拡張すると、CCSO及びLSOの信号伝達のオーバーヘッドがかなり増加する可能性があり、これは、特により小さい解像度のシーケンスの場合、コーディング性能を制限/低減する可能性がある。

上記のように、CCSOは、第1の色成分の再構成サンプルを入力(例えば、Y、Cb又はCr)として使用するフィルタリングプロセスとして定義され、出力は第1の色成分の異なる色成分である第2の色成分に適用される。CCSOの例示的なフィルタ形状が図２９に示されている。LSOは、第1の色成分の再構成サンプルを入力(例えば、Y、Cb又はCr)として使用するフィルタリング処理であり、出力は同じ第1の色成分に適用される。したがって、LSOとCCSOとの間の違いは異なる入力である。

以下に説明し、図３４に示すように、CCSO及びLSOで考慮されるように、同一位置(又は現在)のサンプルの隣接サンプルの間のデルタ値を考慮するだけでなく、同一位置(又は現在)のサンプル自体のレベル値も考慮することによって、CCSO及びLSOについて一般化された設計が示される。

図３４は、本開示の例示的な実施形態による方法のフローチャートを示す。ブロック3402において、コーディングされたビデオビットストリームから現在ピクチャ内の現在の成分の再構成サンプルのためのコーディング情報が復号される。コーディング情報は、再構成サンプルに適用されるサンプルオフセットフィルタを示す。一例では、サンプルオフセットフィルタは、勾配オフセット(GO, gradient offset)及びバンドオフセット(BO, band offset)の2つのタイプのオフセット値を含んでもよい。勾配の色範囲は2つ以上の色を含んでもよく、GOは勾配の色が開始及び終了するオフセット属性である。BOは、以下に更に記載され、異なる色成分の同一位置のサンプル又はフィルタリングされる現在サンプルの値を使用して導出されるオフセットでもよく、バンドはオフセット値を決定するために使用される。ブロック3404において、サンプルオフセットフィルタで使用されるオフセットタイプが選択される。ブロック3406において、第1の再構成サンプル及び選択されたオフセットタイプに基づいて、サンプルオフセットフィルタの出力値が決定される。ブロック3408において、再構成サンプル及びサンプルオフセットフィルタの出力値に基づいて、現在の成分の再構成サンプルのフィルタリングされたサンプル値が決定される。更なる実施形態が以下に記載される。

一般化サンプルオフセット(GSO, generalized sample offset)法は、勾配オフセット(GO)及びバンドオフセット(BO)を含む、CCSO及びLSOのための2つのタイプのオフセット値を含んでもよい。オフセットタイプの選択は、信号伝達でき或いは暗黙的に導出できる。

一実施形態では、勾配オフセットは、隣接サンプルと異なる色成分の同一位置のサンプルとの間のデルタ値(CCSOの場合)、又は隣接サンプルとフィルタリングされる現在サンプルとの間のデルタ値(CCSO又はLSOの場合)を使用して導出されたオフセットでもよい。

一実施形態では、バンドオフセットは、異なる色成分の同一のサンプル又はフィルタリングされる現在サンプルの値を使用して導出されたオフセットでもよい。バンドは、オフセット値を決定するために使用されてもよい。一例では、異なる色成分の同一位置のサンプル又はフィルタリングされる現在サンプルの値は変数vとして示されてもよく、BO値はv>>sを使用して導出され、ここで、>>は右シフト演算を示し、sは同じバンドオフセットを使用するサンプル値の間隔を指定する所定の値である。一例では、sの値は異なる色成分について異なるものとすることができる。他の例では、異なる色成分の同一位置のサンプル又はフィルタリングされる現在サンプルの値が変数vとして示され、バンドインデックスbiは所定のルックアップテーブルを使用して導出され、ルックアップテーブルの入力はvであり、出力値はバンドインデックスbiであり、BO値はバンドインデックスbiを使用して導出される。

一実施形態では、GO及びBOの組み合わせが適用される場合(例えば、同時に使用されれる場合)、オフセットは、1)隣接サンプルと異なる色成分の同一位置のサンプルとの間のデルタ値(CCSOの場合)又は隣接サンプルとフィルタリングされる現在サンプルとの間のデルタ値(CCSO又はLSOの場合)と、2)異なる色成分の同一位置のサンプル又はフィルタリングされる現在サンプルの値との双方を使用して導出される。

一実施形態では、GO又はBOの適用が信号伝達される。この信号伝達は、ハイレベルのシンタックスで適用されてもよい。いくつかの例として、信号伝達は、VPS、PPS、SPS、スライスヘッダ、ピクチャヘッダ、フレームヘッダ、スーパーブロックヘッダ、CTUヘッダ、タイルヘッダを含んでもよい。

他の実施形態では、GO又はBOがブロックレベルで信号伝達されるか否かにかかわらず、上記のブロックレベルは、符号化ユニット(ブロック)レベル、予測ブロックレベル、変換ブロックレベル又はフィルタリングユニットレベルを含むが、これらに限定されない。この例は、GO又はBOを識別するためのブロックレベルでの信号伝達を含む。

他の実施形態では、GO又はBOはフラグを使用して信号伝達される。まず、LSO及び/又はCCSOが1つ又は複数の色成分に適用されるか否かを示すためのフラグが信号伝達され、次いで、GO又はBOが適用されるか否かを示すための他のフラグが信号伝達される。例えば、まず、LSO及び/又はCCSOが1つ又は複数の色成分に適用されるか否かを示すためのフラグが信号伝達され、次いで、GOがBOと一緒に適用されるか否かを示すための他のフラグが信号伝達され、ここで、GOが適用されるか否かに関係なく、BOは常に適用される。他の例では、まず、LSO及び/又はCCSOが1つ又は複数の色成分に適用されるか否かを示すためのフラグが信号伝達され、次いで、BOがGOと一緒に適用されるか否かを示すための他のフラグが信号伝達され、ここで、BOが適用されるか否かに関係なく、GOは常に適用される。

いくつかの実施形態では、GOを使用するかBOを使用するか或いはこれらの組み合わせを使用するかを決定するための信号が導出されてもよい。現在の色成分及び/又は異なる色成分の再構成サンプル、現在ブロックがイントラコーディングされるかインターコーディングされるか、現在ピクチャがキー(又はイントラ)ピクチャであるか否か、現在サンプル(又はブロック)が特定の予測モード(特定のイントラ又はインター予測モード、変換選択モード、量子化パラメータ等)によってコーディングされるか否かを含むが、これらに限定されない、コーディング情報を使用して暗黙的に導出されてもよい。

本開示の実施形態は、個別に使用されてもよく或いはいずれかの順序で組み合わされてもよい。さらに、方法(又は実施形態)、エンコーダ、デコーダのそれぞれは、処理回路(例えば、1つ以上のプロセッサ又は1つ以上の集積回路)によって実装されてもよい。一例では、1つ以上のプロセッサは、非一時的なコンピュータ読み取り可能媒体に記憶されたプログラムを実行する。ブロックという用語は、予測ブロック、符号化ブロック又は符号化ユニット、すなわち、CUを含んでもよい。本開示の実施形態は、ルマブロック又はクロマブロックに適用されてもよい。

上述の技術は、コンピュータ読み取り可能命令を用いてコンピュータソフトウェアとして実装することができ、1つ以上のコンピュータ読み取り可能媒体に物理的に記憶されることができる。例えば、図３５は、開示された主題の特定の実施形態を実施するのに好適なコンピュータシステム(3500)を示す。

コンピュータソフトウェアは、任意の好適な機械コード又はコンピュータ言語を用いてコーディングされることができ、アセンブリ、コンパイル、リンク、又は同様の機構の対象とされて、1つ以上のコンピュータ中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)等によって、直接的に、又はインタープリット、マイクロコード実行等を通じて実行可能な命令を含むコードを作成することができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイス等を含む様々なタイプのコンピュータ又はそのコンポーネント上で実行されることができる。

コンピュータシステム(3500)について図３５に示されるコンポーネントは、例としての性質であり、本開示の実施形態を実装するコンピュータソフトウェアの使用又は機能の範囲に関する制限を示唆することを意図したものではない。コンポーネントの構成も、コンピュータシステム(3500)の例示的実施形態において示されているコンポーネントの任意の1つ又は組み合わせに関する何らかの依存性又は要件を有するものとして解釈されるべきではない。

コンピュータシステム(3500)は、特定のヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(例えば、キーストローク、スワイプ、データグローブの動き)、音声入力(例えば、声、拍手)、視覚入力(例えば、ジェスチャー)、嗅覚入力(図示せず)を通じた一又は複数の人間ユーザによる入力に応答することができる。また、ヒューマンインターフェースデバイスは、音声(例えば、発話、音楽、周囲の音)、画像(例えば、スキャンされた画像、スチール画像カメラから得られる写真画像)、ビデオ(例えば、2次元ビデオ、立体視ビデオを含む3次元ビデオ)のような、人間による意識的入力に必ずしも直接関係しない特定のメディアを捕捉するために使用できる。

入力ヒューマンインターフェースデバイスは、キーボード(3501)、マウス(3502)、トラックパッド(3503)、タッチスクリーン(3510)、データグローブ(図示せず)、ジョイスティック(3505)、マイクロフォン(3506)、スキャナ(3507)、カメラ(3508)の1つ以上(それぞれの一つしか図示していない)を含んでいてもよい。

コンピュータシステム(3500)はまた、特定のヒューマンインターフェース出力デバイスを含んでいてもよい。このようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、及び臭い/味を通じて、一又は複数の人間ユーザの感覚を刺激するものであってもよい。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(3510)、データグローブ(図示せず)、又はジョイスティック(3505)による触覚フィードバック；ただし、入力デバイスのはたらきをしない触覚フィードバックデバイスもあり得る)、音声出力デバイス(例えば、スピーカー(3509)、ヘッドフォン(図示せず))、視覚出力デバイス(例えば、CRT画面、LCD画面、プラズマスクリーン、OLED画面を含む画面(3510)；それぞれはタッチスクリーン入力機能があってもなくてもよく、それぞれは触覚フィードバック機能があってもなくてもよく、そのうちのいくつかは、2次元の視覚出力又は立体視出力のような手段を通じた3次元より高い出力を出力することができる；仮想現実感眼鏡(図示せず)、ホログラフィーディスプレイ及び煙タンク(図示せず))、及びプリンタ(図示せず)を含んでいてもよい。

コンピュータシステム(3500)はまた、人間がアクセス可能な記憶デバイス及び関連する媒体、例えば、CD/DVD又は類似の媒体(3521)とともにCD/DVD ROM/RW(3520)を含む光学式媒体、サムドライブ(3522)、取り外し可能なハードドライブ又はソリッドステートドライブ(3523)、テープ及びフロッピーディスクといったレガシー磁気媒体(図示せず)、セキュリティドングルのような特化したROM/ASIC/PLDベースのデバイス(図示せず)等を含むことができる。

当業者はまた、現在開示されている主題に関連して使用される用語「コンピュータ読み取り可能媒体」は、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム(3500)はまた、1つ以上の通信ネットワーク(3555)へのインターフェース(3554)を含むことができる。ネットワークは、例えば、無線、有線、光学式であり得る。ネットワークは、さらに、ローカル、広域、都市圏、車載及び工業用、リアルタイム、遅延耐性等であり得る。ネットワークの例は、イーサネット〔登録商標〕、無線LAN、GSM、3G、4G、5G、LTE等を含むセルラーネットワーク、ケーブルテレビ、衛星テレビ、地上放送テレビを含むTV有線又は無線の広域デジタルネットワーク、CAN Busを含む車載及び工業用等を含む。特定のネットワークは、普通、特定の汎用データポート又は周辺バス(3549)(例えば、コンピュータシステム(3500)のUSBポート等)に取り付けられる外部ネットワークインターフェースアダプターを必要とする。他は、普通、後述するようなシステムバスへの取り付けによって、コンピュータシステム(3500)のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(3500)は、他のエンティティと通信することができる。このような通信は、一方向性、受信のみ(例えば、放送テレビ)、一方向性送信専用(例えば、特定のCANbusデバイスへのCANbus)、又は、例えば、ローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの双方向性であってもよい。上述のようなそれらのネットワーク及びネットワークインターフェースのそれぞれで、特定のプロトコル及びプロトコルスタックが使用できる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、及びネットワークインターフェースは、コンピュータシステム(3500)のコア(3540)に取り付けることができる。

コア(3540)は、1つ以上の中央処理装置(CPU)(3541)、グラフィックス処理装置(GPU)(3542)、フィールドプログラマブルゲートアレイ(FPGA)(3543)の形式の特化したプログラマブル処理装置、特定のタスクのためのハードウェアアクセラレータ(3544)、グラフィックアダプター(3550)等を含むことができる。これらの装置は、読み取り専用メモリ(ROM)(3545)、ランダムアクセスメモリ(3546)、内部のユーザアクセス可能でないハードドライブ、ソリッドステートドライブ(SSD)等の内部大容量記憶デバイス(3547)とともに、システムバス(3548)を通じて接続され得る。いくつかのコンピュータシステムでは、追加のCPU、GPU等による拡張を可能にするために、システムバス(3548)は、1つ以上の物理プラグの形式でアクセス可能であってもよい。周辺デバイスは、コアのシステムバス(3548)に直接取り付けられることも、周辺バス(3549)を通じて取り付けられることもできる。一例では、グラフィックアダプター(3550)にスクリーン(3510)が接続されることができる。周辺バスのためのアーキテクチャは、PCI、USB等を含む。

CPU(3541)、GPU(3542)、FPGA(3543)、及びアクセラレータ(3544)は、組み合わせて上述のコンピュータコードを構成することができる特定の命令を、実行することができる。そのコンピュータコードは、ROM(3545)又はRAM(3546)に記憶できる。一時的データも、RAM(3546)に記憶されることができ、一方、持続的データは、例えば、内部大容量記憶デバイス(3547)に記憶されることができる。1つ以上のCPU(3541)、GPU(3542)、大容量記憶デバイス(3547)、ROM(3545)、RAM(3546)等と密接に関連付けることができるキャッシュメモリを使用することを通じて、メモリデバイスのいずれかへの高速な記憶及び取り出しを可能にすることができる。

コンピュータ読み取り可能媒体は、様々なコンピュータ実装された動作を実行するためのコンピュータコードをその上に有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、又は、コンピュータソフトウェア分野の技術を有する者に周知であり利用可能な種類のものであってもよい。

非限定的な例として、アーキテクチャ(3500)、具体的にはコア(3540)を有するコンピュータシステムは、プロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)が1つ以上の有形のコンピュータ可読媒体に具現化されたソフトウェアを実行することの結果として、機能性を提供することができる。このようなコンピュータ読み取り可能媒体は、上記で紹介したようなユーザアクセス可能な大容量記憶並びにコア内部の大容量記憶デバイス(3547)又はROM(3545)のような非一時的な性質のコア(3540)の特定の記憶に関連する媒体であることができる。本開示の様々な実施形態を実装するソフトウェアは、このようなデバイスに記憶され、コア(3540)によって実行されることができる。コンピュータ読み取り可能媒体は、特定のニーズに従って、1つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア(13540)、特にその中のプロセッサ(CPU、GPU、FPGA等を含む)に、RAM(3546)に記憶されたデータ構造を定義し、ソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を修正することを含めて、ここに記載する特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。さらに或いは代替として、コンピュータシステムは、ロジックがハードワイヤードされているか或いは回路(例えば、アクセラレータ(3544))に組み込まれている結果として機能を提供でき、これは、ここに記載の特定のプロセス又は特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに或いはソフトウェアとともに動作することができる。ソフトウェアへの参照は、適切な場合には、ロジックを含むことができ、その逆も可能である。コンピュータ読み取り可能媒体への参照は、適切な場合には、実行のためのソフトウェアを記憶する回路(集積回路(IC)等)、実行のためのロジックを具体化する回路又はその双方を含むことができる。本開示は、ハードウェアとソフトウェアとのいずれかの適切な組み合わせを含む。

本開示はいくつかの例示的な実施形態を記載しているが、変更、並べ替え及び様々な代替均等物が存在し、これらは本開示の範囲内に入る。したがって、当業者は、ここに明示的に図示又は記載されてないが、本開示の原則を具体化し、したがってその真意及び範囲内にある多数のシステム及び方法を考案することができることが認識される。

付録A:略語
ALF: Adaptive Loop Filter
AMVP: Advanced Motion Vector Prediction
APS: Adaptation Parameter Set
ASIC: Application-Specific Integrated Circuit
AV1: AOMedia Video 1
AV2: AOMedia Video 2
BCW: Bi-prediction with CU-level Weights
BM: Bilateral Matching
BMS: benchmark set
CANBus: Controller Area Network Bus
CC-ALF: Cross-Component Adaptive Loop Filter
CCSO: Cross-Component Sample Offset
CD: Compact Disc
CDEF: Constrained Directional Enhancement Filter
CDF: Cumulative Density Function
CfL: Chroma from Luma
CIIP: Combined intra-inter prediction
CPU: Central Processing Unit
CRT: Cathode Ray Tube
CTB: Coding Tree Block
CTU: Coding Tree Unit
CU: Coding Unit
DMVR: Decoder-side Motion Vector Refinement
DPB: Decoded Picture Buffer
DPS: Decoding Parameter Set
DVD: Digital Video Disc
FPGA: Field Programmable Gate Areas
GBI: Generalized Bi-prediction
GOP: Groups of Picture
GPU: Graphics Processing Unit
GSM: Global System for Mobile communications
HDR: high dynamic range
HEVC: High Efficiency Video Coding
HRD: Hypothetical Reference Decoder
IBC (又はIntraBC): Intra Block Copy
IC: Integrated Circuit
ISP: Intra Sub-Partitions
JEM: joint exploration model
JVET: Joint Video Exploration Team
LAN: Local Area Network
LCD: Liquid-Crystal Display
LCU: Largest Coding Unit
LR: Loop Restoration Filter
LSO: Local Sample Offset
LTE: Long-Term Evolution
MMVD: Merge Mode with Motion Vector Difference
MPM: most probable mode
MV: Motion Vector
MVD: Motion Vector difference
MVP: Motion Vector Predictor
OLED: Organic Light-Emitting Diode
PB: Prediction Block
PCI: Peripheral Component Interconnect
PDPC: Position Dependent Prediction Combination
PLD: Programmable Logic Device
POC: Picture Order Count
PPS: Picture Parameter Set
PU: Prediction Unit
RAM: Random Access Memory
ROM: Read-Only Memory
RPS: Reference Picture Set
SAD: Sum of Absolute Difference
SAO: Sample Adaptive Offset
SB: Super Block
SCC: Screen Content Coding
SDP: Semi Decoupled Partitioning
SDR: standard dynamic range
SDT: Semi Decoupled Tree
SEI: Supplementary Enhancement Information
SNR: Signal Noise Ratio
SPS: Sequence Parameter Setting
SSD: solid-state drive
SST: Semi Separate Tree
TM: Template Matching
TU: Transform Unit
USB: Universal Serial Bus
VPS: Video Parameter Set
VUI: Video Usability Information
VVC: versatile video coding
WAIP: Wide-Angle Intra Prediction

Claims

ビデオ復号のための方法であって、
コーディングされたビデオビットストリームから現在ピクチャ内の再構成サンプルのためのコーディング情報を復号するステップであって、前記コーディング情報は、前記再構成サンプルに適用されるサンプルオフセットフィルタを含む、ステップと、
前記サンプルオフセットフィルタで使用されるオフセットタイプを選択するステップであって、前記オフセットタイプは、勾配オフセット(GO)又はバンドオフセット(BO)を含む、ステップと、
前記再構成サンプル及び前記選択されたオフセットタイプに基づいて前記サンプルオフセットフィルタの出力値を決定するステップと
を含む方法。
前記再構成サンプル及び前記サンプルオフセットフィルタの前記出力値に基づいてフィルタリングされたサンプル値を決定するステップを更に含む、請求項１に記載の方法。
前記再構成サンプルは、前記現在ピクチャ内の現在の成分からのものである、請求項１に記載の方法。
前記フィルタリングされたサンプル値は、前記再構成サンプルのためのものである、請求項２に記載の方法。
前記選択するステップは、前記オフセットタイプを示す信号を受信するステップを更に含む、請求項１に記載の方法。
前記信号は、スライスヘッダ、ピクチャヘッダ、フレームヘッダ、スーパーブロックヘッダ、符号化ツリーユニット(CTU)ヘッダ又はタイルヘッダで送信されるハイレベルのシンタックスを含む、請求項５に記載の方法。
前記信号は、符号化ユニットレベル、予測ブロックレベル、変換ブロックレベル又はフィルタリングユニットレベルにおけるブロックレベル送信を含む、請求項５に記載の方法。
前記信号は、オフセットが1つ又は複数の色成分に適用されるか否かを示す第1のフラグと、GO及び/又はBOが適用されるか否かを示す第2のフラグとを含む、請求項５に記載の方法。
前記選択するステップは、BOを選択するステップ、GOを選択するステップ、又はBO及びGOの双方を選択するステップを含む、請求項１に記載の方法。
前記GOの選択は、隣接サンプルと異なる色成分の同一位置のサンプルとの間のデルタ値を使用して前記GOを導出することを更に含む、請求項１に記載の方法。
前記GOの選択は、隣接サンプルとフィルタリングされる現在サンプルの同一位置のサンプルとの間のデルタ値を使用して前記GOを導出することを更に含む、請求項１に記載の方法。
前記BOの選択は、異なる色成分の同一位置のサンプルの値を使用して前記BOを導出することを更に含む、請求項１に記載の方法。
前記BOの選択は、フィルタリングされる現在サンプルの同一位置のサンプルの値を使用して前記BOを導出することを更に含む、請求項１に記載の方法。
前記選択するステップがGO及びBOの双方を選択するステップを含む場合、前記選択するステップは、
隣接サンプルと異なる色成分又はフィルタリングされる現在サンプルのいずれかの同一位置のサンプルとの間のデルタ値を使用してオフセットを導出するステップと、
異なる色成分又はフィルタリングされる現在サンプルのいずれかの同一位置のサンプルの値を使用して前記オフセットを導出するステップと
を含む、請求項１に記載の方法。
ビデオビットストリームを復号するための装置であって、
命令を記憶するメモリと、
前記メモリと通信するプロセッサと
を含み、前記プロセッサが前記命令を実行すると、前記プロセッサは、当該装置に請求項１乃至１４のうちいずれか１項に記載の方法を実行させるように構成される、装置。
プロセッサに、請求項１乃至１４のうちいずれか１項に記載の方法を実行させるコンピュータプログラム。
ビデオ符号化のための方法であって、
サンプルオフセットフィルタで使用されるオフセットタイプを選択するステップであって、前記オフセットタイプは、勾配オフセット(GO)又はバンドオフセット(BO)を含む、ステップと、
現在ピクチャ内の再構成サンプルのためのコーディング情報をビデオビットストリームに符号化するステップであって、前記コーディング情報は、前記再構成サンプルに適用される前記サンプルオフセットフィルタを含む、ステップと
を含む方法。