JP7317983B2

JP7317983B2 - ビデオ符号化又は復号化の方法、装置及びコンピュータプログラム

Info

Publication number: JP7317983B2
Application number: JP2021556292A
Authority: JP
Inventors: チュン・オーヤン; シアン・リ; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2019-10-22
Filing date: 2020-10-19
Publication date: 2023-07-31
Anticipated expiration: 2040-10-19
Also published as: EP4049447A1; JP2023126582A; WO2021080904A1; CN113785564B; JP2022525467A; US20210392380A1; US11368723B2; CN118540448A; US20210120272A1; AU2020371551B2; AU2023201230B2; AU2023201230A1; EP4049447A4; KR20240124419A; US20230300378A1; KR102692622B1; SG11202111335VA; US20220295107A1; US20210392379A1; KR20210107871A

Description

関連出願の相互参照
本開示は、2020年10月16日に出願された米国特許出願第17／072，980号「Signaling of Coding Tools for Encoding a Video Component as Monochrome Video」に対する優先権の利益を主張するものであり、これは、2019年10月22日に出願された米国仮出願第62／924，674号「Signaling of Video Coding Tools for the Encoding of a Video Component as Monochrome Video」に対する優先権の利益を主張するものである。先行出願の開示は、その全体が参照により本明細書に組み込まれる。

本開示は、ビデオ符号化に一般的に関連する実施形態を説明する。

本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示することを目的としている。本発明者らの研究は、この背景技術の項に記載されている限りにおいて、ならびに、そうではなく出願時に先行技術として認められない可能性がある説明の態様は、本開示に対する先行技術として明示的にも暗示的にも認められない。

ビデオ符号化および復号化は、動き補償による画面間予測を使用して実行され得る。非圧縮デジタルビデオは、一連の画像を含むことができ、各画像は、例えば1920×1080の輝度サンプルおよび関連する色差サンプルの空間次元を有する。一連の画像は、例えば毎秒60画像または60 Hzの固定または可変画像レート（非公式にはフレームレートとしても知られる）を有することができる。非圧縮ビデオは、かなりのビットレート要件を有する。例えば、サンプルあたり8ビットの1080 p 60 4：2：0ビデオ（60 Hzのフレームレートで1920×1080の輝度サンプル解像度）は、1．5 Gbit／sに近い帯域幅を必要とする。そのようなビデオの1時間は、600 GByteを超える記憶空間を必要とする。

ビデオ符号化および復号化の目的の1つは、圧縮による入力ビデオ信号の冗長性の低減であることができる。圧縮は、前述の帯域幅または記憶空間要件を、場合によっては100倍以上低減する役目を果たすことができる。可逆圧縮および不可逆圧縮の両方、ならびにそれらの組み合わせを使用することができる。可逆圧縮とは、元の信号の正確なコピーを圧縮された元の信号から復元することができる技術を指す。不可逆圧縮を使用する場合、再構築された信号は元の信号と同一ではない可能性があるが、しかし元の信号と再構築された信号との間の歪みは、再構築された信号を意図された用途に有用にするのに十分小さい。ビデオの場合、不可逆圧縮が広く採用されている。許容される歪みの量は用途に依存し、例えば、特定の消費者ストリーミングアプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みを許容することができる。達成可能な圧縮比は、許容可能または容認可能な歪みが高いほど、より高い圧縮比をもたらすことができることを反映することができる。

ビデオ符号器および復号器は、例えば、動き補償、変換、量子化、およびエントロピー符号化を含む、いくつかの広範なカテゴリからの技術を利用することができる。

ビデオコーデック技術は、イントラ符号化として知られる技術を含むことができる。イントラ符号化では、サンプルまたは以前に再構成された参照画像からの他のデータを参照せずにサンプル値が表示される。いくつかのビデオコーデックでは、画像は空間的にサンプルのブロックに細分される。サンプルのすべてのブロックがイントラモードで符号化される場合、その画像は、イントラ画像であることができる。イントラ画像および独立した復号器リフレッシュ画像などのそれらの派生は、復号器状態をリセットするために使用されることができ、したがって、符号化ビデオビットストリームおよびビデオセッション内の第1の画像として、または静止画像として使用され得る。イントラブロックのサンプルは、変換にさらされる可能性があり、変換係数は、エントロピー符号化の前に数値化され得る。イントラ予測は、変換前領域におけるサンプル値を最小化する技術であることができる。場合によっては、変換後のDC値が小さいほど、かつAC係数が小さいほど、エントロピー符号化後のブロックを表すために所与の量子化ステップサイズで必要とされるビットが少なくなる。

例えばMPEG－2生成符号化技術から知られているような従来のイントラ符号化は、DC予測以外にイントラ予測を使用しない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば、空間的に隣接し、復号化順序で先行するデータのブロックの符号化／復号化中に取得された周囲のサンプルデータおよび／またはメタデータから試行する技術を含む。そのような技法は、以後「イントラ予測」技法と呼ばれる。少なくともいくつかの場合において、イントラ予測は、再構成中の現在の画像からの参照データのみを使用し、参照画像からの参照データは使用しないことに留意されたい。

イントラ予測には多くの異なる形態があり得る。そのような技法のうちの2つ以上が所与のビデオ符号化技術において使用され得る場合、使用中の技法はイントラ予測モードで符号化され得る。特定の場合には、モードはサブモードおよび／またはパラメータを有することができ、それらは個別に符号化されるかまたはモード符号語に含まれることができる。所与のモード／サブモード／パラメータの組み合わせのためにどの符号語を使用するかは、イントラ予測を介して符号化効率の利得に影響を与える可能性があり、そのため、符号語をビットストリームに翻訳するために使用されるエントロピー符号化技術にも影響を与える可能性がある。

イントラ予測の特定のモードは、H．264で導入され、H．265で改良され、共同探索モデル（JEM）、多用途ビデオ符号化（VVC）、およびベンチマークセット（BMS）などの新しい符号化技術でさらに改良された。予測子ブロックは、既に利用可能なサンプルに属する隣接サンプル値を使用して形成され得る。隣接するサンプルのサンプル値は、方向に従って予測子ブロックにコピーされる。使用中の方向への参照は、ビットストリーム内で符号化され得るか、またはそれ自体が予測され得る。

図1Aを参照すると、右下に示されているのは、H．265の33個の可能な予測子方向から知られている9つの予測子方向のサブセットである（35個のイントラモードのうちの33個の角度モードに対応する）。矢印が収束する点（101）は、予測されるサンプルを表す。矢印は、サンプルが予測されている方向を表す。例えば、矢印（102）は、サンプル（101）が、1つまたは複数のサンプルから、水平から45度の角度で、右上へ予測されることを示す。同様に、矢印（103）は、サンプル（101）が、1つまたは複数のサンプルから、水平から22．5度の角度で、左下のサンプル（101）へ予測されることを示す。

さらに図1Aを参照すると、左上には、4×4サンプルの正方形ブロック（104）（破線の太字で示されている）が示されている。正方形ブロック（104）は、16個のサンプルを含み、各々が「S」、Y次元におけるその位置（例えば、行インデックス）、およびX次元におけるその位置（例えば、列インデックス）によって符号が付けられる。例えば、サンプルS21は、Y次元の2番目のサンプル（上から）であり、X次元の1番目のサンプル（左から）である。同様に、サンプルS44は、ブロック（104）内でY次元およびX次元の両方の4番目のサンプルである。ブロックは4×4サンプルのサイズであるため、S44は右下にある。同様の番号付け体系に従う参照サンプルがさらに示される。参照サンプルは、ブロック（104）に対してR、そのY位置（例えば、行インデックス）およびX位置（列インデックス）によって符号が付けられる。H．264およびH．265の両方において、予測サンプルは、再構成中のブロックに隣接し、したがって、負の値を使用する必要はない。

イントラ画像予測は、信号で送られた予測方向によって充当されるように、隣接するサンプルから参照サンプル値をコピーすることによって機能することができる。例えば、符号化ビデオビットストリームが、このブロックについて、矢印（102）と一致する予測方向を示す信号を含む、すなわち、1つまたは複数の予測サンプルから右上へ、水平から45度の角度で、サンプルが予測されると想定されたい。その場合、同じ参照サンプルR05からサンプルS41、S32、S23、S14が予測される。次に、参照サンプルR08からサンプルS44が予測される。

特定の場合には、特に、方向が45度で均等に割り切れない場合、参照サンプルを計算するために、例えば補間によって複数の参照サンプルの値を組み合わせることができる。

可能な方向の数は、ビデオ符号化技術が発展するにつれて増加してきた。H．264（2003年）では、9つの異なる方向を表すことができた。これは、H．265（2013年）では33に増加し、JEM／VVC／BMSは、本開示の時点で、最大65個の方向をサポートすることができる。最も可能性の高い方向を識別するために実験が行われており、エントロピー符号化における特定の技術は、それらの可能性の高い方向を少数のビットで表すために使用され、可能性の低い方向に対して特定のペナルティを受け入れる。さらに、方向自体は、隣接する既に復号されたブロックで使用される隣接する方向から予測され得る場合がある。

HEVCで使用されるイントラ予測モードが図1Bに示される。HEVCでは、全部で35個のイントラ予測モードがあり、その中でモード10は水平モード、モード26は垂直モード、モード2、モード18およびモード34は斜めモードである。イントラ予測モードは、3つの最確モード（MPM）および残りの32個のモードによって信号で伝えられる。

図1Cは、VVCで使用されるイントラ予測モードを示す。VVCには、図1Cに示すように合計95個のイントラ予測モードがあり、モード18は水平モードであり、モード50は垂直モードであり、モード2、モード34およびモード66は斜めモードである。モード－1～－14およびモード67～80は、広角イントラ予測（WAIP）モードと呼ばれる。

方向を表す符号化ビデオビットストリーム内のイントラ予測方向ビットのマッピングは、ビデオ符号化技術によって異なる可能性があり、例えば、予測方向の単純な直接マッピングから、イントラ予測モード、符号語、MPMを含む複雑な適応方式、および同様の技術に及ぶことができる。しかしながら、すべての場合において、ビデオコンテンツの中で特定の他の方向よりも統計的に発生する可能性が低い特定の方向が存在し得る。ビデオ圧縮の目的は冗長性の低減であるため、うまく機能するビデオ符号化技術では、それらの可能性の低い方向は、可能性の高い方向よりも多くのビット数で表される。

動き補償は不可逆圧縮技術とすることができ、以前に再構成された画像またはその一部（参照画像）からのサンプルデータのブロックが、動きベクトル（MV以降）によって示される方向に空間的にシフトされた後、新たに再構成された画像または画像部分の予測に使用される技術に関連することができる。場合によっては、参照画像は、現在再構成中の画像と同じであり得る。MVは、2つの次元XおよびY、または3つの次元を有することができ、第3の次元は、使用中の参照画像（後者は、間接的に、時間次元とすることができる）の表示である。

いくつかのビデオ圧縮技術では、サンプルデータの特定の領域に適用可能なMVは、他のMVから、例えば再構成中の領域に空間的に隣接し、復号化順でそのMVに先行するサンプルデータの別の領域に関連するMVから予測され得る。そうすることで、MVの符号化に必要なデータ量を大幅に削減することができ、それによって冗長性が排除され、圧縮が増加する。例えば、カメラ（自然映像として知られている）から導出された入力ビデオ信号を符号化する場合、単一のMVが適用可能な領域よりも大きい領域が同様の方向に移動する統計上の可能性があり、したがって、場合によっては、隣接領域のMVから導出された同様の動きベクトルを使用して予測することができるため、MV予測は効果的に機能することができる。これにより、所与の領域について見つかったMVは、周囲のMVから予測されたMVと類似または同じになり、エントロピー符号化後に、MVを直接符号化する場合に使用されるものよりも少ないビット数で表されることができる。場合によっては、MV予測は、元の信号（すなわち、サンプル流）から導出された信号（すなわち、MV）の可逆圧縮の一例であることができる。他の場合では、例えば、いくつかの周囲のMVから予測子を計算する場合の四捨五入による誤差のために、MV予測自体が不可逆であり得る。

様々なMV予測メカニズムは、H．265／HEVC（ITU－T Rec．H．265、「高効率ビデオ符号化」、2016年12月）に記載されている。ここでは、H．265が提供する多くのMV予測機構のうち、「空間マージ」と呼ばれる技術について説明する。

図1Dを参照すると、現在のブロック（110）は、空間的にシフトされた同じサイズの前のブロックから予測可能であるように動き探索プロセス中に符号器によって見つけられたサンプルを含む。そのMVを直接符号化する代わりに、MVは、A0、A1、およびB0、B1、B2で示される5つの周囲サンプル（それぞれ102から106まで）のいずれか1つに関連付けられたMVを使用して、1つまたは複数の参照画像に関連付けられたメタデータから、例えば最新の（復号化順序の）参照画像から導出され得る。H．265では、MV予測は、隣接ブロックが使用しているのと同じ参照画像からの予測子を使用することができる。候補リストの形成順序は、A0→B0→B1→A1→B2であってもよい。

本開示の態様は、ビデオ復号器で実行されるビデオ復号化方法を提供する。シンタックス要素は、画像のシーケンスがモノクロであるか、または別々に符号化された3つの色成分を含むかどうかを示す符号化ビデオのビットストリームから受信され得る。シンタックス要素の値を推測することにより、シンタックス要素が、画像のシーケンスがモノクロであるか、または別々に符号化される3つの色成分を含むことを示す場合、符号化ツールは無効にされ得る。符号化ツールは、入力として画像の複数の色成分を使用するか、または画像のクロマ成分に依存する。

一実施形態では、無効化された符号化ツールは、クロマ残差のジョイント符号化、アクティブ色変換（ACT）、またはクロマ成分用のブロックベースのデルタパルス符号変調（BDPCM）の符号化ツールの1つである。

一実施形態では、クロマ残差のジョイント符号化が有効にされるどうかを示すシンタックス要素の値は、0に等しいと推測される。一実施形態では、ACTが有効にされるどうかを示すシンタックス要素の値は、0に等しいと推測され得る。一実施形態では、クロマ成分用のBDPCMが有効にされるかどうかを示すシンタックス要素の値は、0に等しいと推測され得る。

一実施形態では、シンタックス要素が、画像のシーケンスがモノクロであるか、または別々に符号化される3つの色成分を含むことを示す場合、変数の値は0であると決定される。変数は、画像のシーケンスのクロマアレイタイプを示す。変数の値が0であると決定することに応答して、以下のシンタックス要素、クロマ残差のジョイント符号化が有効にされるかどうかを示すシンタックス要素、ACTが有効にされるかどうかを示すシンタックス要素、またはクロマ成分用のBDPCMが有効にされるかどうかを示すシンタックス要素のうちの1つの値が0に等しいと推測され得る。

いくつかの実施形態では、画像のシーケンスがモノクロではなく、別々に符号化されていない3つの色成分を含むと決定したことに応答して、クロマ残差のジョイント符号化が有効にされるかどうかを示すシンタックス要素が受信されることができ、ACTが有効にされるどうかを示すシンタックス要素、または、クロマ成分用のBDPCMが有効にされるどうかを示すシンタックス要素が受信され得る。

一実施形態では、画像のシーケンスがモノクロではなく、別々に符号化されていない3つの色成分を含むと決定したことに応答して、画像のシーケンスのクロマアレイタイプを示す変数の値が決定され得る。変数の値が非ゼロであると決定される場合、以下のシンタックス要素、クロマ残差のジョイント符号化が有効にされるかどうかを示すシンタックス要素、ACTが有効にされるかどうかを示すシンタックス要素、またはクロマ成分用のBDPCMが有効にされるかどうかを示すシンタックス要素のうちの1つの値が受信され得る。

一実施形態では、画像のシーケンスがモノクロではなく、別々に符号化されていない3つの色成分を含むと決定される場合、画像のシーケンスのクロマアレイタイプを示す変数の値が決定され得る。クロマ成分用のBDPCMが有効にされているかどうかを示すシンタックス要素は、変数の値が非ゼロであると決定される場合、かつ、画像のシーケンスのために可逆モードが有効にされる場合、受信されることが有効にされる。

本開示の態様は、回路を備えるビデオ復号化の装置を提供する。回路は、符号化されたビデオのビットストリームからシンタックス要素を受信するように構成され得る。シンタックス要素は、画像のシーケンスがモノクロであるか、または別々に符号化された3つの色成分を含むかどうかを示す。回路は、シンタックス要素が、画像のシーケンスがモノクロであるか、または別々に符号化されている3つの色成分を含むことを示す場合、画像の複数の色成分を入力として使用するか、または画像のクロマ成分に依存する符号化ツールを無効にするためにシンタックス要素の値を推測するようにさらに構成され得る。

本開示の態様は、プロセッサによって実行される場合、プロセッサにビデオ復号化の方法を実行させる命令を記憶する非一時的コンピュータ可読媒体を提供する。

開示された主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。

イントラ予測モードの例示的なサブセットの概略図である。例示的なイントラ予測方向の図である。例示的なイントラ予測方向の図である。一例における現在のブロックおよびその周囲の空間マージ候補の概略図である。一実施形態による通信システムの簡略ブロック図の概略図である。一実施形態による通信システムの簡略ブロック図の概略図である。一実施形態による復号器の簡略ブロック図の概略図である。一実施形態による符号器の簡略ブロック図の概略図である。別の実施形態による符号器のブロック図である。別の実施形態による復号器のブロック図である。復号器によって実行されるプロセスの一実施形態の図である。復号器によって実行される別のプロセスの一実施形態の図である。本開示の一実施形態によるコンピュータシステムの概略図である。

I．ビデオ符号器および復号器システム
図2は、本開示の一実施形態による通信システム（200）の簡略ブロック図を示す。通信システム（200）は、例えばネットワーク（250）を介して互いに通信可能な複数の端末装置を含む。例えば、通信システム（200）は、ネットワーク（250）を介して相互接続された端末装置（210）および（220）の第1のペアを含む。図2の例では、端末装置（210）および（220）の第1のペアは、データの一方向の伝送を実行する。例えば、端末装置（210）は、ネットワーク（250）を介して他の端末装置（220）に伝送するためにビデオデータ（例えば、端末装置（210）によって取り込まれたビデオ画像のストリーム）を符号化することができる。符号化されたビデオデータは、1つまたは複数の符号化されたビデオビットストリームの形態で送信され得る。端末装置（220）は、ネットワーク（250）から符号化されたビデオデータを受信し、符号化されたビデオデータを復号して、ビデオ画像を復元し、復元されたビデオデータに従ってビデオ画像を表示することができる。単方向データ伝送は、メディア提供アプリケーションなどにおいて一般的であり得る。

別の例では、通信システム（200）は、例えばビデオ会議中に発生する可能性がある符号化されたビデオデータの双方向伝送を実行する端末装置（230）および（240）の第2のペアを含む。データの双方向伝送のために、一例では、端末装置（230）および（240）の各端末装置は、ネットワーク（250）を介して端末装置（230）および（240）の他方の端末装置に伝送するためのビデオデータ（例えば、端末装置によって取り込まれたビデオ画像のストリーム）を符号化することができる。端末装置（230）および（240）の各端末装置はまた、端末装置（230）および（240）の他方の端末装置によって伝送された符号化されたビデオデータを受信することができ、符号化されたビデオデータを復号して、ビデオ画像を復元することができ、復元されたビデオデータに従ってアクセス可能な表示装置にビデオ画像を表示することができる。

図2の例では、端末装置（210）、（220）、（230）、および（240）は、サーバ、パーソナルコンピュータ、およびスマートフォンとして図示され得るが、本開示の原理はそのように限定されなくてもよい。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤおよび／または専用ビデオ会議機器によって応用される。ネットワーク（250）は、例えば有線（有線）および／または無線通信ネットワークを含む、端末装置（210）、（220）、（230）および（240）の間で符号化されたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク（250）は、回路交換チャンネルおよび／またはパケットスイッチチャンネルでデータをスイッチすることができる。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび／またはインターネットが含まれる。本説明の目的のために、ネットワーク（250）のアーキテクチャおよびトポロジは、本明細書で以下に説明されない限り、本開示の動作に重要ではない可能性がある。

図3は、開示された主題のアプリケーションの一例として、ストリーミング環境におけるビデオ符号器およびビデオ復号器の配置を示す。開示された主題は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタル媒体への圧縮ビデオの格納などを含む、他のビデオ対応アプリケーションにも等しく適用可能であり得る。

ストリーミングシステムは、例えば非圧縮のビデオ画像（302）のストリームを生成する、例えばデジタルカメラなどのビデオソース（301）を含むことができる捕捉サブシステム（313）を含むことができる。一例では、ビデオ画像（302）のストリームは、デジタルカメラによって撮影されたサンプルを含む。符号化されたビデオデータ（304）（または符号化ビデオビットストリーム）と比較される場合、高いデータ量を強調するために太線として示されているビデオ画像（302）のストリームは、ビデオソース（301）に結合されたビデオ符号器（303）を含む電子装置（320）によって処理され得る。ビデオ符号器（303）は、以下でより詳細に説明するように、開示された主題の態様を有効にするか、または実施するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。ビデオ画像（302）のストリームと比較してより低いデータ量を強調するために細い線として示されている符号化されたビデオデータ（304）（または符号化ビデオビットストリーム（304））は、将来の使用のためにストリーミングサーバ（305）に格納され得る。図3のクライアントサブシステム（306）および（308）などの1つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ（305）にアクセスして、符号化されたビデオデータ（304）のコピー（307）および（309）を検索することができる。クライアントサブシステム（306）は、例えば電子装置（330）内のビデオ復号器（310）を含むことができる。ビデオ復号器（310）は、符号化されたビデオデータの入力コピー（307）を復号し、ディスプレイ（312）（例えば、表示画像）または他の描画装置（図示せず）上に表示することができるビデオ画像（311）の出力ストリームを作成する。いくつかのストリーミングシステムでは、符号化されたビデオデータ（304）、（307）、および（309）（例えば、ビデオビットストリーム）は、特定のビデオ符号化／圧縮規格に従って符号化され得る。これらの規格の例には、ITU－T勧告H．265が含まれる。一例では、開発中のビデオ符号化規格は、多用途ビデオコーディング（VVC）として非公式に知られている。開示された主題は、VVCの文脈で使用され得る。

電子装置（320）および（330）は、他の構成要素（図示せず）を含むことができることに留意されたい。例えば、電子装置（320）はビデオ復号器（図示せず）を含むことができ、電子装置（330）はビデオ符号器（図示せず）も含むことができる。

図4は、本開示の一実施形態によるビデオ復号器（410）のブロック図を示す。ビデオ復号器（410）は、電子装置（430）の中に含まれ得る。電子装置（430）は、受信機（431）（例えば、受信回路）を含むことができる。ビデオ復号器（410）は、図3の例のビデオ復号器（310）の代わりに使用され得る。

受信機（431）は、ビデオ復号器（410）によって復号化されるべき、1つまたは複数の符号化されたビデオシーケンスを受信することができ、同じまたは別の実施形態では、一度に1つの符号化されたビデオシーケンスであり、各符号化されたビデオシーケンスの復号は他の符号化されたビデオシーケンスから独立している。符号化されたビデオシーケンスは、符号化されたビデオデータを格納する記憶装置へのハードウェア／ソフトウェアリンクであり得るチャンネル（401）から受信され得る。受信機（431）は、エンティティ（図示せず）を使用してそれぞれに転送され得る他のデータ、例えば、符号化されたオーディオデータおよび／または補助データストリームを有する符号化されたビデオデータを受信することができる。受信機（431）は、符号化されたビデオシーケンスを他のデータから分離することができる。ネットワークジッタに対抗するために、バッファメモリ（415）が、受信機（431）とエントロピー復号器／パーサ（420）（今後は「パーサ（420）」）との間に結合され得る。特定の用途では、バッファメモリ（415）は、ビデオ復号器（410）の一部である。他の場合には、ビデオ復号器（410）（図示せず）の外部にあることができる。さらに他のものでは、例えばネットワークジッタに対抗するためにビデオ復号器（410）の外部にバッファメモリ（図示せず）がある可能性があり、加えて、例えばプレイアウトタイミングを処理するためにビデオ復号器（410）の内部に別のバッファメモリ（415）がある可能性がある。受信機（431）が十分な帯域幅および制御可能性の記憶装置／転送装置から、または非同期ネットワークからデータを受信している場合、バッファメモリ（415）は必要とされない可能性があり、または小さい可能性がある。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファメモリ（415）が必要とされる可能性があり、比較的大きい可能性があり、有利には適応サイズであることができ、ビデオ復号器（410）の外部のオペレーティングシステムまたは同様の要素（図示せず）内に少なくとも部分的に実装され得る。

ビデオ復号器（410）は、符号化されたビデオシーケンスからシンボル（421）を再構築するために、パーサ（420）を含むことができる。これらのシンボルのカテゴリは、ビデオ復号器（410）の動作を管理するために使用される情報、および図4に示すように、電子装置（430）の不可欠な部分ではないが、電子装置（430）に結合可能な描画装置（412）（例えば、表示画像）などの描画装置を制御するための情報を潜在的に含む。描画装置の制御情報は、補足拡張情報（SEIメッセージ）またはビデオ有用性情報（VUI）パラメータセット断片（図示せず）の形態であることができる。パーサ（420）は、受信される符号化されたビデオシーケンスを解析し、またはエントロピー復号することができる。符号化されたビデオシーケンスの符号化は、ビデオ符号化技術または規格に従うことができ、可変長符号化、ハフマン符号化、コンテキスト感度ありまたはなしの算術符号化などを含む様々な原理に従うことができる。パーサ（420）は、グループに対応する少なくとも1つのパラメータに基づいて、符号化されたビデオシーケンスから、ビデオ復号器内の画素のサブグループのうちの少なくとも1つのサブグループパラメータのセットを抽出することができる。サブグループは、画像のグループ（GOP）、画像、タイル、スライス、マクロブロック、符号化ユニット（CU）、ブロック、変換ユニット（TU）、予測ユニット（PU）などを含むことができる。パーサ（420）はまた、変換係数、量子化器パラメータ値、動きベクトルなどのような符号化されたビデオシーケンス情報を抽出することができる。

パーサ（420）は、シンボル（421）を作成するために、バッファメモリ（415）から受信されたビデオシーケンスに対してエントロピー復号化／解析動作を実行することができる。

シンボル（421）の再構成は、符号化されたビデオ画像またはその一部（例えば、インター画像およびイントラ画像、インターブロックおよびイントラブロック）のタイプ、およびその他の要因に依存して、複数の異なるユニットを含むことができる。どのユニットが、どのように関与するかは、パーサ（420）によって符号化されたビデオシーケンスから解析されたサブグループ制御情報によって制御され得る。パーサ（420）と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明確にするために示されていない。

既に述べた機能ブロックを超えて、ビデオ復号器（410）は、以下に説明するように概念的にいくつかの機能ユニットに細分され得る。商業的制約の下で動作する実際の実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合され得る。しかしながら、開示された主題を説明する目的で、以下の機能ユニットへの概念的細分が適切である。

第1のユニットはスケーラ／逆変換ユニット（451）である。スケーラ／逆変換ユニット（451）は、量子化変換係数、ならびにどの変換を使用するか、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報を、パーサ（420）からシンボル（複数可）（421）として受信する。スケーラ／逆変換ユニット（451）は、アグリゲータ（455）に入力され得るサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換（451）の出力サンプルは、イントラ符号化されたブロックに関係する可能性があり、すなわち、以前に再構成された画像からの予測情報を使用していないが、現在の画像の以前に再構成された部分からの予測情報を使用することができるブロックである。そのような予測情報は、イントラ画像予測ユニット（452）によって提供され得る。場合によっては、イントラ画像予測ユニット（452）は、現在の画像バッファ（458）からフェッチされた周囲の既に再構成された情報を用いて、再構成中のブロックと同じサイズおよび形状のブロックを生成する。現在の画像バッファ（458）は、例えば、部分的に再構成された現在の画像および／または完全に再構成された現在の画像をバッファリングする。アグリゲータ（455）は、場合によっては、イントラ予測ユニット（452）が生成した予測情報を、スケーラ／逆変換ユニット（451）によって提供された出力サンプル情報にサンプル単位で加える。

他の場合には、スケーラ／逆変換ユニット（451）の出力サンプルは、インター符号化された、潜在的に動き補償されたブロックに関係する可能性がある。そのような場合、動き補償予測ユニット（453）は、予測に使用されるサンプルをフェッチするために参照画像メモリ（457）にアクセスすることができる。ブロックに関係するシンボル（421）に従ってフェッチされたサンプルを動き補償した後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ（455）によってスケーラ／逆変換ユニット（451）の出力（この場合、残差サンプルまたは残差信号と呼ばれる）に追加され得る。動き補償予測ユニット（453）が予測サンプルをフェッチする参照画像メモリ（457）内のアドレスは、動き補償予測ユニット（453）が例えばX、Y、および参照画像成分を有することができるシンボル（421）の形態で利用可能な動きベクトルによって制御され得る。動き補償はまた、サブサンプル正確動きベクトルが使用されている場合、参照画像メモリ（457）からフェッチされたサンプル値の補間、動きベクトル予測機構などを含むことができる。

アグリゲータ（455）の出力サンプルは、ループフィルタユニット（456）における様々なループフィルタ処理技術の対象となることができる。ビデオ圧縮技術は、符号化されたビデオシーケンス（符号化ビデオビットストリームとも呼ばれる）に含まれるパラメータによって制御され、パーサ（420）からシンボル（421）としてループフィルタユニット（456）に利用可能にされるインループフィルタ技術を含むことができるが、しかし、符号化された画像または符号化されたビデオシーケンスの以前の（復号順の）部分の復号化中に取得されたメタ情報に応答することもでき、ならびに以前に再構成され、ループフィルタリングされたサンプル値に応答することもできる。

ループフィルタユニット（456）の出力は、描画装置（412）に出力することができると共に、将来の画面間予測に使用するために参照画像メモリ（457）に格納されることができるサンプルストリームであることができる。

一旦完全に再構築されると、特定の符号化された画像は、将来の予測のための参照画像として使用され得る。例えば、一旦現在の画像に対応する符号化された画像が完全に再構成され、符号化された画像が参照画像（例えば、パーサ（420））として識別されると、現在の画像バッファ（458）は参照画像メモリ（457）の一部になることができ、新しい現在の画像バッファは、後続の符号化された画像の再構成を開始する前に再配置され得る。

ビデオ復号器（410）は、例えばITU－T Rec．H．265のような規格における所定のビデオ圧縮技術に従って復号化動作を実行することができる。符号化されたビデオシーケンスが、ビデオ圧縮技術または規格のシンタックスと、ビデオ圧縮技術または規格で文書化されたプロファイルとの両方を順守するという意味で、符号化されたビデオシーケンスは、使用されているビデオ圧縮技術または規格によって指定されたシンタックスに準拠することができる。具体的には、プロファイルは、ビデオ圧縮技術または規格で利用可能なすべてのツールから、そのプロファイルの下で使用可能な唯一のツールとして特定のツールを選択することができる。また、コンプライアンスのためには、符号化されたビデオシーケンスの複雑さがビデオ圧縮技術または規格のレベルによって定義される境界内にあることが必要である可能性がある。場合によっては、レベルは、最大画像サイズ、最大フレームレート、最大再構成サンプルレート（例えば毎秒メガサンプルで測定される）、最大基準画像サイズなどを制限する。レベルによって設定される制限は、場合によっては、符号化されたビデオシーケンスにおいてシグナルされたHRDバッファ管理のためのメタデータおよび仮想基準復号器（HRD）仕様によってさらに制限され得る。

一実施形態では、受信機（431）は、符号化されたビデオを有する追加の（冗長な）データを受信することができる。追加のデータは、符号化されたビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切に復号するために、および／または元のビデオデータをより正確に再構成するために、ビデオ復号器（410）によって使用され得る。追加のデータは、例えば、時間、空間、または信号雑音比（SNR）拡張レイヤ、冗長スライス、冗長画像、前方誤り訂正符号などの形態であり得る。

図5は、本開示の一実施形態によるビデオ符号器（503）のブロック図を示す。ビデオ符号器（503）は、電子装置（520）に含まれる。電子装置（520）は、送信機（540）（例えば、送信回路）を含む。ビデオ符号器（503）は、図3の例のビデオ符号器（303）の代わりに使用され得る。

ビデオ符号器（503）は、ビデオ符号器（503）によって符号化されるビデオ画像を取り込むことができるビデオソース（501）（図5の例では電子装置（520）の一部ではない）からビデオサンプルを受信することができる。別の例では、ビデオソース（501）は電子装置（520）の一部である。

ビデオソース（501）は、ビデオ符号器（503）によって符号化されるソースビデオシーケンスを、任意の適切なビット深度（例えば、8ビット、10ビット、12ビット、．．．）、任意の色空間（例えば、BT．601 Y CrCB、RGB、．．．）、および任意の適切なサンプリング構造（例えば、Y CrCb 4：2：0、Y CrCb 4：4：4）であり得るデジタルビデオサンプルストリームの形態で提供することができる。媒体供給システムにおいて、ビデオソース（501）は、予め用意されたビデオを記憶する記憶装置であることができる。ビデオ会議システムでは、ビデオソース（501）は、ビデオシーケンスとしてローカル画像情報を取り込むカメラであることができる。ビデオデータは、順次に見た場合に動きを伝える複数の個々の画像として提供され得る。画像自体は、画素の空間アレイとして編成されることができ、各画素は、使用中のサンプリング構造、色空間などに応じて1つまたは複数のサンプルを含むことができる。当業者であれば、画素とサンプルとの関係を容易に理解することができる。以下、サンプルに着目して説明する。

一実施形態によれば、ビデオ符号器（503）は、リアルタイムで、またはアプリケーションによって要求される任意の他の時間制約下で、符号化し、ソースビデオシーケンスの画像を符号化されたビデオシーケンス（543）に圧縮することができる。適切な符号化速度を強制することは、コントローラ（550）の一機能である。いくつかの実施形態では、コントローラ（550）は、以下に説明するように他の機能ユニットを制御し、他の機能ユニットに機能的に連結される。連結器は、明確にするために示されていない。コントローラ（550）によって設定されるパラメータは、レート制御関連パラメータ（画像スキップ、量子化器、レート歪み最適化技術のラムダ値、．．．）、画像サイズ、画像グループ（GOP）レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ（550）は、特定のシステム設計に最適化されたビデオ符号器（503）に関する他の適切な機能を有するように構成され得る。

いくつかの実施形態では、ビデオ符号器（503）は、符号化ループで動作するように構成される。過度に簡略化された説明として、一例では、符号化ループは、ソースコーダ（530）（例えば、符号化される入力画像および参照画像に基づいて、シンボルストリームのようなシンボルを生成することを担当する）と、ビデオ符号器（503）に組み込まれた復号器（ローカル）（533）とを含むことができる。復号器（533）は、復号器（リモート）もまた生成するのと同様の方法で、サンプルデータを生成するためにシンボルを再構成する（開示された主題で考慮されるビデオ圧縮技術では、シンボルと符号化ビデオビットストリームとの間の任意の圧縮が可逆的であるため）。再構成されたサンプルストリーム（サンプルデータ）は、参照画像メモリ（534）に入力される。シンボルストリームの復号化は、復号器位置（ローカルまたはリモート）とは無関係にビット正確な結果をもたらすので、参照画像メモリ（534）内のコンテンツもまたローカル符号器とリモート符号器との間でビット正確である。換言すれば、符号器が参照画像サンプルとして「参照する」予測部は、復号中に予測を使用する場合、復号器が「参照」するのと全く同じサンプル値をサンプリングする。参照画像同期性（および、例えばチャンネル誤差のために、同期性を維持することができない場合、結果として生じるドリフト）のこの基本原理は、いくつかの関連技術においてもまた使用される。

「ローカル」復号器（533）の動作は、図4に関連して上記に詳細に説明したビデオ復号器（410）などの「リモート」復号器の動作と同じであり得る。しかしながら、図4もまた簡単に参照すると、シンボルが利用可能であり、エントロピー符号器（545）およびパーサ（420）により符号化されたビデオシーケンスへのシンボルの符号化／復号化は可逆であり得るため、バッファメモリ（415）を含むビデオ復号器（410）のエントロピー復号化部、およびパーサ（420）は、ローカル復号器（533）内に完全に実装されない可能性がある。

この時点でなされ得る観測は、復号器内に存在する解析／エントロピー復号化を除く任意の復号器技術もまた、対応する符号器内に実質的に同一の機能形態で存在する必要があるということである。このため、開示された主題は復号器動作に焦点を合わせている。符号器技術の説明は、それらが包括的に説明された復号器技術の逆であるので省略され得る。特定の領域においてのみ、より詳細な説明が必要とされ、以下に提供される。

動作中、いくつかの例では、ソースコーダ（530）は、「参照画像」として指定されたビデオシーケンスからの1つまたは複数の以前に符号化された画像を参照して、入力画像を予測的に符号化する動き補償予測符号化を実行することができる。このようにして、符号化エンジン（532）は、入力画像の画素ブロックと、入力画像に対する予測参照として選択され得る参照画像の画素ブロックとの間の差分を符号化する。

ローカルビデオ復号器（533）は、ソースコーダ（530）によって生成されたシンボルに基づいて、基準画像として指定され得る画像の符号化されたビデオデータを復号することができる。符号化エンジン（532）の動作は、有利には不可逆プロセスであり得る。符号化されたビデオデータがビデオ復号器（図5には示されていない）で復号され得る場合、再構築されたビデオシーケンスは、通常、いくつかのエラーを有するソースビデオシーケンスのレプリカであり得る。ローカルビデオ復号器（533）は、ビデオ復号器によって基準画像に対して実行され得る復号化処理を複製し、再構築された基準画像を参照画像キャッシュ（534）に格納させることができる。このようにして、ビデオ符号器（503）は、遠端ビデオ復号器によって取得される（伝送エラーなし）ことになる再構築された参照画像として共通のコンテンツを有する再構築された参照画像のコピーをローカルに格納することができる。

予測子（535）は、符号化エンジン（532）の予測検索を実行することができる。すなわち、符号化されるべき新しい画像について、予測子（535）は、サンプルデータ（候補参照画素ブロックとしての）、または新しい画像について適切な予測参照として機能し得る参照画像の動きベクトル、ブロック形状などの特定のメタデータを求めて参照画像メモリ（534）を探索することができる。予測子（535）は、適切な予測参照を見つけるために、サンプル画素ブロック毎に動作することができる。場合によっては、予測子（535）によって取得された検索結果によって決定されるように、入力画像は、参照画像メモリ（534）に格納された複数の参照画像から描画された予測参照を有することができる。

コントローラ（550）は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ（530）の符号化動作を管理することができる。

前述のすべての機能ユニットの出力は、エントロピー符号器（545）においてエントロピー符号化を受けることができる。エントロピー符号器（545）は、ハフマン符号化、可変長符号化、算術符号化などの技術に従ってシンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルを符号化されたビデオシーケンスに変換する。

送信機（540）は、エントロピー符号器（545）によって生成された符号化されたビデオシーケンスをバッファリングして、符号化されたビデオデータを格納する記憶装置へ、ハードウェア／ソフトウェアリンクであり得る通信チャンネル（560）を介して送信の準備をすることができる。送信機（540）は、ビデオコーダ（503）からの符号化されたビデオデータを、送信される他のデータ、例えば、符号化されたオーディオデータおよび／または補助データストリーム（ソースは図示せず）とマージすることができる。

コントローラ（550）は、ビデオ符号器（503）の動作を管理することができる。符号化中、コントローラ（550）は、各符号化された画像に特定の符号化された画像タイプを割り当てることができ、これは、それぞれの画像に適用され得る符号化技術に影響を及ぼすことができる。例えば、画像は、以下の画像タイプのうちの1つとして割り当てられることが多い。

なお、イントラ画像（I画像）は、シーケンス内の任意の他の画像を予測ソースとして使用せずに、符号化および復号され得るものであってもよい。いくつかのビデオコーデックは、例えば、独立復号器リフレッシュ（「IDR」）画像を含む異なるタイプのイントラ画像を可能にする。当業者は、I画像のこれらの変形ならびにそれらのそれぞれの用途および特徴を認識している。

予測画像（P画像）は、各ブロックのサンプル値を予測するために、最大で1つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して、符号化および復号され得る画像であり得る。

双方向予測画像（B画像）は、各ブロックのサンプル値を予測するために、最大で2つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して、符号化および復号され得るものであり得る。同様に、複数予測画像は、単一のブロックの再構成のために3つ以上の参照画像および関連するメタデータを使用することができる。

ソース画像は、一般に、複数のサンプルブロック（例えば、それぞれ4×4、8×8、4×8、または16×16のサンプルのブロックについて）に空間的に細分化され、ブロック毎に符号化され得る。ブロックは、ブロックのそれぞれの画像に適用される符号化割当によって決定されるように、他の（既に符号化された）ブロックを参照して予測的に符号化され得る。例えば、I画像のブロックは、非予測的に符号化されることができ、同じ画像の既に符号化されたブロックを参照して予測的に符号化され得る（空間予測またはイントラ予測）。P画像の画素ブロックは、以前に符号化された1つの参照画像を参照して、空間予測を介して、または時間予測を介して予測的に符号化され得る。B画像のブロックは、1つまたは2つの以前に符号化された参照画像を参照して、空間予測を介して、または時間予測を介して予測的に符号化され得る。

ビデオ符号器（503）は、例えばITU－T Rec．H．265のような所定のビデオ符号化技術または規格に従って符号化動作を実行することができる。その動作において、ビデオ符号器（503）は、入力ビデオシーケンス内の時間的および空間的冗長性を利用する予測符号化動作を含む、様々な圧縮動作を実行することができる。したがって、符号化されたビデオデータは、使用されているビデオ符号化技術または規格によって指定されたシンタックスに準拠することができる。

一実施形態では、送信機（540）は、符号化されたビデオと共に追加のデータを送信することができる。ソースコーダ（530）は、符号化されたビデオシーケンスの一部としてそのようなデータを含むことができる。追加のデータは、時間／空間／SNR拡張レイヤ、冗長画像およびスライスなどの他の形態の冗長データ、SEIメッセージ、VUIパラメータセット断片などを含むことができる。

ビデオは、複数のソース画像（ビデオ画像）として時系列に取り込まれ得る。画像内予測（しばしばイントラ予測と略される）は、所与の画像における空間相関を利用し、画面間予測は、画像間の（時間的または他の）相関を利用する。一例では、現在の画像と呼ばれる、符号化／復号化中の特定の画像がブロックに分割される。現在の画像内のブロックが、ビデオ内の以前に符号化され、やはりバッファリングされた参照画像内の参照ブロックに類似している場合、現在の画像内のブロックは、動きベクトルと呼ばれるベクトルによって符号化され得る。動きベクトルは、参照画像内の参照ブロックを指し、複数の参照画像が使用されている場合、参照画像を識別する第3の次元を有することができる。

いくつかの実施形態では、画面間予測に双予測技術を使用することができる。双予測技術によれば、第1の参照画像および第2の参照画像などの2つの参照画像が使用され、これらは両方ともビデオ内の現在の画像の復号順より前にある（しかし、表示順序はそれぞれ過去および未来のものであってもよい）。現在の画像内のブロックは、第1の参照画像内の第1の参照ブロックを指す第1の動きベクトル、および第2の参照画像内の第2の参照ブロックを指す第2の動きベクトルによって符号化され得る。ブロックは、第1の参照ブロックおよび第2の参照ブロックの組み合わせによって予測され得る。

さらに、符号化効率を改善するために、画面間予測にマージモード技術を使用することができる。

本開示のいくつかの実施形態によれば、画面間予測および画像内予測などの予測は、ブロック単位で実行される。例えば、HEVC規格によれば、ビデオ画像のシーケンス内の画像は、圧縮のために符号化ツリーユニット（CTU）に分割され、画像内のCTUは、64×64画素、32×32画素、または16×16画素などの同じサイズを有する。一般に、CTUは、1つのルマCTBおよび2つのクロマCTBである3つの符号化ツリーブロック（CTB）を含む。各CTUは、1つまたは複数の符号化ユニット（CU）に再帰的に四分木分割することができる。例えば、64×64画素のCTUは、64×64画素の1つのCU、または32×32画素の4つのCU、または16×16画素の16個のCUに分割され得る。一例では、各CUは、インター予測タイプまたはイントラ予測タイプなどのCU用の予測タイプを決定するために分析される。CUは、時間的および／または空間的な予測可能性に応じて、1つまたは複数の予測ユニット（PU）に分割される。一般に、各PUは、1つのルマ予測ブロック（PB）と、2つのクロマ予測ブロックPBとを含む。一実施形態では、符号化（符号化／復号）における予測演算は、予測ブロックの単位で実行される。予測ブロックの例としてルマ予測ブロックを使用すると、予測ブロックは、8×8画素、16×16画素、8×16画素、16×8画素などの画素のための値の行列（例えば、ルマ値）を含む。

図6は、本開示の別の実施形態によるビデオ符号器（603）の図を示す。ビデオ符号器（603）は、ビデオ画像のシーケンス内の現在のビデオ画像内のサンプル値の処理ブロック（例えば、予測ブロック）を受信し、処理ブロックを、符号化されたビデオシーケンスの一部である符号化画像に符号化するように構成される。一例では、ビデオ符号器（603）は、図3の例のビデオ符号器（303）の代わりに使用される。

HEVCの例では、ビデオ符号器（603）は、例えば8×8サンプルの予測ブロックのような処理ブロックのためのサンプル値のマトリクスを受信する。ビデオ符号器（603）は、処理ブロックが、例えばレート歪み最適化を使用して、イントラモード、インターモード、または双予測モードを使用して最良に符号化されるかどうかを決定する。処理ブロックがイントラモードで符号化される場合、ビデオ符号器（603）は、処理ブロックを符号化された画像へ符号化するために、イントラ予測技術を使用することができ、処理ブロックがインターモードまたは双予測モードで符号化されるべきである場合、ビデオ符号器（603）は、処理ブロックを符号化画像に符号化するために、それぞれインター予測技術または双予測技術を使用することができる。特定のビデオ符号化技術では、マージモードは、予測子の外側の符号化された動きベクトル成分の恩恵を受けずに、動きベクトルが1つまたは複数の動きベクトル予測子から導出されるインター画像予測サブモードであり得る。特定の他のビデオ符号化技術では、対象ブロックに適用可能な動きベクトル成分が存在することができる。一例では、ビデオ符号器（603）は、処理ブロックのモードを決定するためのモード決定モジュール（図示せず）などの他の構成要素を含む。

図6の例では、ビデオ符号器（603）は、図6に示すように互いに連結されたインター符号器（630）、イントラ符号器（622）、残差計算器（623）、スイッチ（626）、残差符号器（624）、汎用コントローラ（621）、およびエントロピー符号器（625）を含む。

インター符号器（630）は、現在のブロック（例えば、処理ブロック）のサンプルを受信し、そのブロックを参照画像（例えば、前の画像および後の画像内のブロック）内の1つまたは複数の参照ブロックと比較し、インター予測情報（例えば、インター符号化技術、動きベクトル、マージモード情報による冗長情報の記述）を生成し、任意の適切な技術を使用して、インター予測情報に基づいてインター予測結果（例えば、予測ブロック）を計算するように構成される。いくつかの例では、参照画像は、符号化されたビデオ情報に基づいて復号される復号参照画像である。

イントラ符号器（622）は、現在のブロック（例えば、処理ブロック）のサンプルを受信し、場合によっては、そのブロックを同じ画像内で既に符号化されているブロックと比較し、変換後に量子化係数を生成し、場合によってはイントラ予測情報（例えば、1つまたは複数のイントラ符号化技術によるイントラ予測方向情報）も生成するように構成される。一例では、イントラ符号器（622）は、イントラ予測情報、および同一画像内の参照ブロックに基づいて、イントラ予測結果（例えば、予測ブロック）も算出する。

汎用コントローラ（621）は、汎用制御データを決定し、汎用制御データに基づいてビデオ符号器（603）の他の構成要素を制御するように構成される。一例では、汎用コントローラ（621）は、ブロックのモードを決定し、モードに基づいてスイッチ（626）に制御信号を提供する。例えば、汎用コントローラ（621）は、モードがイントラモードである場合、残差計算器（623）によって使用されるためにイントラモード結果を選択するようにスイッチ（626）を制御し、イントラ予測情報を選択し、イントラ予測情報をビットストリーム内に含めるようにエントロピー符号器（625）を制御する。モードがインターモードである場合、汎用コントローラ（621）は、残差計算器（623）によって使用されるインター予測結果を選択するようにスイッチ（626）を制御し、インター予測情報を選択し、ビットストリーム内にインター予測情報を含めるようにエントロピー符号器（625）を制御する。

残差計算器（623）は、受信されたブロックと、イントラ符号器（622）またはインター符号器（630）から選択された予測結果との差分（残差データ）を算出するように構成される。残差符号器（624）は、変換係数を生成するために残差データを符号化するために残差データに基づいて動作するように構成される。一例では、残差符号器（624）は、残差データを空間領域から周波数領域に変換し、変換係数を生成するように構成される。変換係数は次いで、量子化された変換係数を得るために量子化処理を受ける。様々な実施形態において、ビデオ符号器（603）はまた、残差復号器（628）を含む。残差復号器（628）は、逆変換を実行し、復号された残差データを生成するように構成される。復号された残差データは、イントラ符号器（622）およびインター符号器（630）によって適切に使用され得る。例えば、インター符号器（630）は、復号残差データおよびインター予測情報とに基づいて復号ブロックを生成することができ、イントラ符号器（622）は、復号された残差データおよびイントラ予測情報に基づいて復号されたブロックを生成することができる。いくつかの例では、復号されたブロックは、復号された画像を生成するために適切に処理され、復号された画像は、メモリ回路（図示せず）にバッファリングされ、参照画像として使用され得る。

エントロピー符号器（625）は、符号化ブロックを含むようにビットストリームをフォーマットするように構成される。エントロピー符号器（625）は、HEVC規格などの適切な規格に従って様々な情報を含むように構成される。一例では、エントロピー符号器（625）は、一般制御データ、選択された予測情報（例えば、イントラ予測情報またはインター予測情報）、残差情報、および他の適切な情報をビットストリームに含めるように構成される。開示された主題によれば、インターモードまたは双予測モードのいずれかのマージサブモードでブロックを符号化する場合、残差情報は存在しないことに留意されたい。

図7は、本開示の別の実施形態によるビデオ復号器（710）の図を示す。ビデオ復号器（710）は、コード化されたビデオシーケンスの一部である符号化された画像を受信し、符号化された画像を復号して、再構築された画像を生成するように構成される。一例では、ビデオ復号器（710）は、図3の例のビデオ復号器（310）の代わりに使用される。

図7の例では、ビデオ復号器（710）は、図7に示すように互いに連結されたエントロピー復号器（771）、インター復号器（780）、残差復号器（773）、再構成モジュール（774）、およびイントラ復号器（772）を含む。

エントロピー復号器（771）は、符号化された画像から、符号化された画像が構成されるシンタックス要素を表す特定のシンボルを再構築するように構成され得る。そのようなシンボルは、例えば、ブロックが符号化されるモード（例えば、イントラモード、インターモード、双予測モード、後者の2つはマージサブモードまたは別のサブモードである）、イントラ復号器（772）またはインター復号器（780）によってそれぞれ予測に使用される特定のサンプルまたはメタデータを識別することができる予測情報（例えば、イントラ予測情報やインター予測情報等）、例えば量子化変換係数の形態の残差情報などを含むことができる。一例では、予測モードがインター予測モードまたは双予測モードである場合、インター予測情報はインター復号器（780）に提供され、予測タイプがイントラ予測タイプである場合、イントラ予測情報がイントラ復号器（772）に提供される。残差情報は逆量子化を受けることができ、残差復号器（773）に提供される。

インター復号器（780）は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成される。

イントラ復号器（772）は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成される。

残差復号器（773）は、逆量子化を実行して逆量子化された変換係数を抽出し、逆量子化された変換係数を処理して残差を周波数領域から空間領域に変換するように構成される。残差復号器（773）はまた、特定の制御情報を必要とする場合があり（量子化器パラメータ（QP）を含むために）、その情報はエントロピー復号器（771）によって提供され得る（このように示されていないデータ経路は、低ボリューム制御情報のみであり得る）。

再構成モジュール（774）は、空間領域において、残差復号器（773）による出力としての残差と、予測結果（場合によってはインター予測モジュールまたはイントラ予測モジュールによる出力として）とを組み合わせて、再構成画像の一部であり得る再構成ブロックを形成するように構成され、再構成ブロックは再構成ビデオの一部であり得る。視覚的品質を改善するために、デブロッキング操作などの他の適切な操作を実行することができることに留意されたい。

ビデオ符号器（303）、（503）、および（603）、ならびにビデオ復号器（310）、（410）、および（710）は、任意の適切な技術を使用して実装され得ることに留意されたい。一実施形態では、ビデオ符号器（303）、（503）、および（603）、ならびにビデオ復号器（310）、（410）、および（710）は、1つまたは複数の集積回路を使用して実装され得る。別の実施形態では、ビデオ符号器（303）、（503）、および（503）、ならびにビデオ復号器（310）、（410）、および（710）は、ソフトウェア命令を実行する1つまたは複数のプロセッサを使用して実装され得る。

II．ビデオ色成分を個別に符号化すること
ビデオ符号化技術は、通常、符号化されるべきビデオシーケンスが複数の色平面（例えば、1つのルマ成分および2つのクロマ成分）を有すると想定する。特定の符号化ツールを使用することにより、色平面を一緒に符号化することができる。例えば、同じ画像のルマ成分およびクロマ成分は、同じ分割ツリーを共有することができる。符号化されたルマ成分およびクロマ成分は、同じCUに編成され得る。クロマ成分の符号化は、予測のためにルマ成分の画素値または残差値を参照することができる（例えば、交差成分線形モデル（CCLM））。処理ステップは、入力として3つのルマ成分およびクロマ成分を使用することができる（例えば、アクティブ色変換（ACT））。または、2つのクロマ成分を一緒に符号化することができる（例えば、クロマ残差のジョイント符号化（JCCR））。

しかしながら、いくつかのアプリケーションでは、ビデオがモノクロであるか、またはビデオの複数の色平面が独立して符号化される必要がある。例えば、4：4：4のクロマフォーマットを有するビデオの3つの色成分を別々に独立して符号化する必要がある可能性がある。例えば、ビデオの各色成分は、モノクロビデオとして処理される。ビデオが符号化されている間、それらの色成分間に依存性はない。複数の成分（例えば、ACTおよびJCCR）に依存する、またはクロマ成分（例えば、ブロックベースのデルタ（または差分）パルス符号変調（BDPCM））で動作する符号化ツールは、使用されない。ビデオの符号化は、ルマ成分で動作するモノクロ符号化ツールに基づく。

異なるクロマフォーマットを有するビデオおよび1つまたは複数のモノクロ成分を含むビデオの符号化をサポートするために、いくつかの実施形態では、表1に示すように2つのシンタックス要素が定義される。

シンタックス要素chroma＿format＿idcは、複数のクロマフォーマットにインデックスを提供する。定義されたクロマフォーマットは、異なるクロマ成分サンプリング構造に対応する。具体的には、モノクロサンプリングでは、名目上ルマアレイと考えられる1つのサンプルアレイのみが存在する。4：2：0サンプリングでは、2つのクロマアレイの各々は、ルマアレイの半分の高さおよび半分の幅を有することができる。4：2：2サンプリングでは、2つのクロマアレイの各々は、ルマアレイの同じ高さおよび半分の幅を有することができる。本開示における表記および用語の便宜上、これらの配列に関連する変数および用語は、ルマおよびクロマと呼ばれる。2つのクロマアレイは、使用中の実際のカラー表現方法に関係なく、CbおよびCrと呼ばれる。使用中の実際の色表現方法は、ビットストリームで伝送されるシンタックスで示され得る。

シンタックス要素separate＿colour＿plane＿flagは、ビデオシーケンスの色成分が別々に符号化される必要があるかどうかを示す。例えば、1に等しいseparate＿colour＿plane＿flagは、4：4：4のクロマフォーマットの3つの色成分が別々に符号化され得ることを指定する。0に等しいseparate＿colour＿plane＿flagは、色成分が別々に符号化されないことを指定する。separate＿colour＿plane＿flagが存在しない場合、0に等しいと推測される。

separate＿colour＿plane＿flagが1に等しい場合、符号化された画像は3つの別々の成分からなり、その各々は1つの色平面（例えば、Y、Cb、またはCr）の符号化されたサンプルからなり、モノクロ符号化シンタックスを使用する。この場合、各色平面は特定のcolour＿plane＿id値に関連付けられている。異なるcolour＿plane＿id値を有する色平面間で復号処理に依存性はない。例えば、1つの値のcolour＿plane＿idを有するモノクロ画像の復号プロセスは、異なる値のcolour＿plane＿idを有するモノクロ画像からの任意のデータをインター予測またはイントラ予測のために使用しない。

4：4：4サンプリングでは、2つのクロマアレイの各々は、ルマアレイと同じ高さおよび幅を有し、separate＿colour＿plane＿flagの値に応じて、以下を適用することができる。separate＿colour＿plane＿flagが0に等しい場合、3つの色平面はモノクロサンプリングされた画像として別々に処理されない。そうでない場合（separate＿colour＿plane＿flagが1に等しい）、3つの色平面は、モノクロサンプリングされた画像として別々に処理される。

一例では、シンタックス要素chroma＿format＿idcおよびseparate＿colour＿plane＿flagは、表2に示すようにシーケンスパラメータセット（SPS）でシグナリングされる。表2の行11において、chroma＿format＿idcがシグナリングされる。行12では、chroma＿forma＿idcが4：4：4クロマフォーマットサンプリング構造を示すかどうかが検証される。行13において、chroma＿format＿idcが3の値を有する場合、表2のSPSを参照するビデオシーケンスの成分が別々に符号化されるかどうかを示すために、separate＿colour＿plane＿flagがシグナリングされる。

ビデオがモノクロビデオである場合、または各成分がモノクロであるかのようにビデオの各色成分を符号化する必要がある場合、ジョイント色平面符号化ツールまたはクロマ成分ベースの符号化ツールは適用できず、無効にされ得る。しかしながら、表2に示すように、それらの適用不可能な符号化ツールを制御するいくつかのシンタックス要素は、色成分の別個の符号化が有効（または必要）にされるかどうかとは無関係にシグナリングされる。結果として、モノクロビデオに適用できないいくつかの符号化ツールは、モノクロビデオとして異なる色平面の別個の符号化が現在のビデオに使用されている場合にやはり有効にされる可能性があり、望ましくない衝突を引き起こす。

具体的には、表2の行86において、シンタックス要素、sps＿joint＿cbcr＿enabled＿flagは、行13においてシグナリングされるsperate＿colour＿plane＿flagに依存せずにシグナリングされる。sps＿joint＿cbcr＿enabled＿flagは、クロマ残差（JCCR）ツールのジョイント符号化がビデオの符号化に対して有効にされるどうかを示すことができる。CUの2つのクロマ成分がジョイント符号化されるので、JCCR符号化ツールはモノクロ符号化ツールではない。0に等しいsps＿joint＿cbcr＿enabled＿flagは、クロマ残差のジョイント符号化が無効にされることを指定する。1に等しいsps＿joint＿cbcr＿enabled＿flagは、クロマ残差のジョイント符号化が有効にされることを指定する。

行104～105では、BDPCMが有効にされており、クロマフォーマットが4：4：4である場合、シンタックス要素sps＿bdpcm＿chroma＿enabled＿flagは、行13で、sperate＿colour＿plane＿flagに依存せずにシグナリングされる。sperate＿colour＿plane＿flagは、クロマ用のBDPCMのツールがビデオの符号化に対して有効にされるどうかを示すことができる。クロマ用のBDPCMは、クロマ成分に適用される符号化ツールであり、したがって、ビデオがモノクロである場合には無効にされることができ、または各成分がモノクロであるかのようにビデオの各色成分を符号化する必要がある。

セマンティクスに関して、1に等しいsps＿bdpcm＿chroma＿enabled＿flagは、イントラ符号化ユニットのための符号化ユニットシンタックスにintra＿bdpcm＿chroma＿flagが存在し得ることを指定し、0に等しいsps＿bdpcm＿chroma＿enabled＿flagは、イントラ符号化ユニットのための符号化ユニットシンタックスにintra＿bdpcm＿chroma＿flagが存在しないことを指定する。存在しない場合、sps＿bdpcm＿chroma＿enabled＿flagの値は0に等しいと推測される。1に等しいIntra＿bdpcm＿chroma＿flagは、BDPCMが現在のクロマ符号化ブロックに適用されることを指定し、すなわち、変換がスキップされ、イントラクロマ予測モードがintra＿bdpcm＿chroma＿dir＿flagによって指定される。0に等しいintra＿bdpcm＿chroma＿flagは、BDPCMが現在のクロマ符号化ブロックに適用されないことを指定する。intra＿bdpcm＿chroma＿flagが存在しない場合、それは0に等しいと推測される。

表2の行142および144において、クロマフォーマットが4：4：4である場合、シンタックス要素sps＿act＿enabled＿flagは、行13においてシグナリングされるsperate＿colour＿plane＿flagに依存せずにシグナリングされる。sps＿act＿enabled＿flagは、ACTツールがビデオの符号化のために有効にされるかどうかを示すことができる。例えば、元の色空間における色フォーマット（例えば、RGB）は、3つの色成分間の高い相関を有することができる。色空間変換を実行することにより、色フォーマットが元の色空間から目標色空間に変換されて、3つの色成分間の冗長性を低減することができる。例えば、HEVCまたはVCCでは、ACTが空間残差ドメインで実行されて、残差ブロックをRGB色空間からYCgCo色空間に変換することができる。3つの成分の残差ブロックが入力として使用される。したがって、ACTは、モノクロビデオ、または色成分を個別に処理したビデオには適用できない。

セマンティクスについて、sps＿act＿enabled＿flagは、適応色変換が有効にされるか否かを指定する。sps＿act＿enabled＿flagが1に等しい場合、適応色変換が使用されることができ、フラグcu＿act＿enabled＿flagが符号化ユニットシンタックス内に存在することができる。sps＿act＿enabled＿flagが0に等しい場合、適応色変換は使用されず、cu＿act＿enabled＿flagは符号化ユニットシンタックスに存在しない。sps＿act＿enabled＿flagが存在しない場合、0に等しいと推測される。

III．モノクロビデオまたは個別に符号化された成分を有するビデオに適用できない符号化ツールの無効化
いくつかの実施形態では、モノクロビデオの符号化、および例えば4：4：4クロマフォーマットビデオの3つの色成分の別々の符号化をサポートするために、クロマアレイタイプを示す変数が定義される。変数は、ChromaArrayTypeで表される。変数ChromaArrayTypeは、ビデオがモノクロである場合、およびビデオの色成分が別々に独立して符号化される必要がある場合、適用できない符号化ツールを無効にするために使用され得る。separate＿colour＿plane＿flagの値に応じて、変数ChromaArrayTypeの値が以下のように割り当てられ得る。
－separate＿colour＿plane＿flagが0に等しい場合、ChromaArrayTypeはchroma＿format＿idc（例えば、0、1、2、または3）に等しく設定される。
－そうでない場合（separate＿colour＿plane＿flagが1に等しい）、ChromaArrayTypeは0に等しく設定される。
ChromaArrayTypeが0である場合、sps＿joint＿cbcr＿enabled＿flag、sps＿act＿enabled＿flag、sps＿bdpcm＿chroma＿enabled＿flagなどにより有効にされていた符号化ツールは無効にされ得る。

表3は、表2に示すSPSシンタックスの修正バージョンを示す。表3の行84～85において、ChromaArrayTypeが非ゼロ値を有する場合、sps＿joint＿cbcr＿enabled＿flagがシグナリングされる。表2のSPSを参照する現在のビデオがモノクロであるか、または別々に符号化された成分を含むことを示す、ChromaArrayTypeが0に等しい場合、sps＿joint＿cbcr＿enabled＿flagはシグナリングされず、0に等しいと推測され得る。したがって、クロマ残差のジョイント符号化は無効にされ得る。表2の例と比較して、sps＿joint＿cbcr＿enabled＿flagのセマンティクスは以下のように修正され得る。0に等しいsps＿joint＿cbcr＿enabled＿flagは、クロマ残差のジョイント符号化が無効であることを指定する。1に等しいsps＿joint＿cbcr＿enabled＿flagは、クロマ残差のジョイント符号化が有効にされることを指定する。sps＿joint＿cbcr＿enabled＿flagが存在しない場合、0に等しいと推測される。

表3の行102～103では、BDPCMが無効にされ、ChromaArrayTypeが非ゼロ値を有する場合、sps＿bdpcm＿chroma＿enabled＿flagがシグナリングされる。ChromaArrayTypeが0に等しい場合、sps＿bdpcm＿chroma＿enabled＿flagはシグナリングされず、0に等しいと推測され得る。これにより、クロマ用のBDPCMが無効にされ得る。sps＿bdpcm＿chroma＿enabled＿flagのセマンティクスは表2の例と同じとすることができる。

表3の行140、142および143では、ビデオが4：4：4のクロマフォーマットを有し、ChromaArrayTypeが非ゼロ値を有する場合、sps＿act＿enabled＿flagがシグナリングされる。ChromaArrayTypeが0に等しい場合、sps＿act＿enabled＿flagはシグナリングされず、0に等しいと推測され得る。これにより、ACTは無効にされ得る。sps＿act＿enabled＿flagのセマンティクスは表2の例と同じとすることができる。

いくつかの実施形態では、モノクロビデオまたは別々に符号化された成分を含むビデオに適用できない符号化ツールを無効にするために代替の実装形態が採用される。

一実施形態では、表4の（表3からコピーされた）sps＿act＿enabled＿flagの以下のシンタックスは、chroma＿format＿idcが3に等しく、ChromaArrayTypeが0である場合、sps＿act＿enabled＿flagの値を0に設定するために表5に示す代替シンタックスで表され得る。chroma＿format＿idc＝＝3およびseparate＿colour＿plan＿flag＝＝0は、ChromaArrayTypeが0ではないことを意味するので、表4および表5のシンタックスは同じ効果を有することができる。sps＿act＿enabled＿flagのシグナリングは、行141におけるsps＿palette＿enabled＿flagのシグナリングから独立していることに留意されたい。

一実施形態では、表6（表3からコピーされている）のsps＿bdpcm＿chroma＿enabled＿flagの以下の構文は、ChromaArrayTypeが0である場合、sps＿bdpcm＿chroma＿enabled＿flagの値を0に設定するために、表7に示す代替シンタックスで表され得る。表7では、ChromaArrayTypeが0であるか、または可逆BDPCMをサポートするsps＿transpquant＿bypass＿flagが0に等しい場合、sps＿bdpcm＿chroma＿enabled＿flagの値は0であると推測される。sps＿tranquant＿bypass＿flagが1に等しい場合、sps＿transquant＿bypassフラグは、変換および量子化パスがCUレベルでアクティブ化されるべきであることを示す。そうではなく、sps＿tranquant＿bypass＿flagが0に等しい場合、変換および量子化バイパスはアクティブ化されない。sps＿tranquant＿bypass＿flagは、SPSでシグナリングされ得るか、または他のSPSレベルの可逆符号化指示フラグによって示されるように、可逆符号化のために1であると推測され得る。

一実施形態では、表7のシンタックスが使用される。ただし、上記実施形態と異なり、シンタックス要素sps＿tranquant＿bypass＿flagのセマンティクスは以下のように定義される。sps＿tranquant＿bypass＿flagが1に等しい場合、sps＿transquant＿bypassフラグは、変換および量子化パスが CUレベルでアクティブ化され得る（アクティブ化すべきではなく）ことを示す。そうではなく、sps＿tranquant＿bypass＿flagが0に等しい場合、変換および量子化バイパスはアクティブ化されない。sps＿tranquant＿bypass＿flagは、SPSでシグナリングされ得るか、または他のSPSレベルの可逆符号化指示フラグによって示されるように、可逆符号化のために1であると推測され得る。

図8は、符号化されたビデオのビットストリーム内の符号化ツールに基づいて、成分間符号化ツールまたはクロマ成分のフラグを受信する例示的なプロセス（800）を示す。プロセス（800）は、復号器で実行され得る。プロセス（800）は、（S801）から開始して（S810）に進むことができる。

S（810）において、シーケンスの画像が各々モノクロであるか、または別々に符号化された成分を有するかどうかを示すシンタックス要素がビットストリームで受信され得る。例えば、シンタックス要素は、chroma＿format＿idc、またはseparate＿color＿plane＿flagとすることができる。chroma＿format＿idcが0であることは、画像がモノクロであることを示すことができる。separate＿color＿plane＿flagが1であることは、それぞれが別々に符号化された成分を有する画像を示すことができる。両方の場合において、ChromaArrayTypeは0の値を有することができる。

一例として、画像のシーケンスは、表3のSPSを参照する。表3の行11でシグナリングされたchroma＿format＿idcが受信される。chroma＿format＿idcの値が0である場合、画像がモノクロであると決定され得る。chroma＿format＿idcが0に等しい場合、separate＿color＿plane＿flagは行13でシグナリングされない可能性があり、一例では0に等しいと推測され得る。したがって、ChromaArrayTypeは、現在の場合0であるchroma＿format＿idcと等しく設定され得る。

chroma＿format＿idcがシーケンスの画像の4：4：4のクロマフォーマットを示す3の値を有する場合、separate＿colour＿plane＿flagは行13で受信され得る。separate＿colour＿plane＿flagが1の値を有し、これが、画像が成分を別々に符号化する必要があることを示す場合、画像が別々に符号化された成分を有すると決定され得る。ChromaArrayTypeは0に等しく設定され得る。

他の場合では、行11で受信されたchroma＿format＿idcが1または2の値を有する場合、または行11で受信されたchroma＿format＿idcが3の値を有するが、separate＿colour＿plane＿flagが0の値を有する場合、画像は各々モノクロではなく、別々に符号化されていない成分を含むと決定され得る。ジョイント成分符号化ツールまたはクロマベースの符号化ツールは、画像に適用され得る。1または2の値を有する（画像はモノクロではない）表3の行11で受信されたchroma＿format＿idcについては、separate＿colour＿plane＿flagは0と推測することができる。したがって、ChromeArrayTypeは、1または2 である（0ではない）chroma＿format＿idcの値を取ることができる。受信したchroma＿format＿idcが3の値を有するが、separate＿colour＿plane＿flagが0の値を有するシナリオについては、ChromeArrayTypeは3である（0ではない）chroma＿format＿idcの値をやはり取ることができる。

また、画像がモノクロである、または、別々に符号化された成分を含むと決定された場合、あるいは、ChromaArrayTypeが0であると決定された場合、ステップ（S820）からステップ（S840）が実行され得る。ジョイント成分符号化ツールまたはクロマベースの符号化ツールを制御するためのシンタックス要素は、それらの符号化ツールを無効にするために0に等しいと推測され得る。具体的には、sps＿joint＿cbcr＿enabled＿flag、sps＿bdpcm＿chroma＿enabled＿flag、およびsps＿act＿enabled＿flagは、それぞれ0に等しいと推測される。

また、各画像がモノクロでなく、かつ、別々に符号化されていない成分を含むと決定された場合、または、chromeArrayTypeが0でないと決定された場合、ステップ（S850）からステップ（S870）が実行され得る。ジョイント成分符号化ツールまたはクロマベースの符号化ツールを制御するためのシンタックス要素は、ビットストリームから受信され得る。具体的には、sps＿joint＿cbcr＿enabled＿flagと、sps＿bdpcm＿chroma＿enabled＿flagと、sps＿act＿enabled＿flagとは、連続して受信され得る。

（S840）または（S870）のいずれかの後、プロセス（800）は（S899）に進み、（S899）で終了することができる。

図9は、本開示の一実施形態による、モノクロビデオまたは別々に符号化された成分を含むビデオに適用できない符号化ツールを無効にするプロセス（900）を示す。プロセス（900）は、復号器（710）などの復号器で実行され得る。プロセス（900）は、（S901）から開始して（S910）に進むことができる。

（S910）において、画像のシーケンスが各々モノクロであるか、または別々に符号化された成分を有するかどうかを示すシンタックス要素がビットストリームで受信され得る。例えば、シンタックス要素は、表3の例のchroma＿format＿idc、またはseparate＿color＿plane＿flagとすることができる。chroma＿format＿idcが0であることは、画像がモノクロであることを示すことができる。separate＿color＿plane＿flagが1であることは、それぞれが別々に符号化された成分を有する画像を示すことができる。両方の場合（chroma＿format＿idcが0またはseparate＿color＿plane＿flagが1）において、変数ChromaArrayTypeは0の値を有することができる。

画像のシーケンスが各々モノクロであるか、または別々に符号化された成分を有すると決定された場合、ステップ（S920）およびステップ（S930）が実行され得る。（S920）において、画像の複数の成分を入力として使用する符号化ツールは、例えば、各対応する符号化ツールを制御するシンタックス要素の値を推測することによって無効にされ得る。そのような符号化ツールの例は、ACT、クロマ残差のジョイント符号化などを含むことができる。

（S930）において、画像のクロマ成分に依存する符号化ツールは、例えば、各対応する符号化ツールを制御するシンタックス要素の値を推測することによって無効にされ得る。そのような符号化ツールの例は、クロマ用のBDPCMを含むことができる。次いで、プロセス（900）は（S999）に進み、（S999）で終了することができる。

（S910）において、画像のシーケンスが各々モノクロではない、または別々に符号化された成分を有していないと決定された場合、ステップ（S940）が実行され得る。（S940）において、ジョイント成分符号化ツールまたはクロマ成分ベースの符号化ツールを有効にするためのシンタックス要素がビットストリームから受信され得る。これらの符号化ツールを有効にするためのシンタックス要素がビットストリーム内でシグナリングされるかどうかは、他の条件またはビットストリーム内で伝送される他のシンタックス要素に依存することができる。次いで、プロセス（900）は（S999）に進み、（S999）で終了することができる。

IV．コンピュータシステム
上述した技術は、コンピュータ可読命令を使用し、1つまたは複数のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして実装され得る。例えば、図10は、開示された主題の特定の実施形態を実施するのに適したコンピュータシステム（1000）を示す。

コンピュータソフトウェアは、1つまたは複数のコンピュータ中央処理装置（CPU）、グラフィック処理装置（GPU）などによって直接、または解釈、マイクロコード実行などを介して実行され得る命令を含むコードを作成するために、組み立て、コンパイル、リンクなどの機構を受けることができる任意の適切な機械コードまたはコンピュータ言語を使用して符号化され得る。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置などを含む様々な種類のコンピュータまたはその構成要素上で実行することができる。

コンピュータシステム（1000）について図10に示す構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する何らかの制限を示唆することを意図するものではない。成分の構成は、コンピュータシステム（1000）の例示的な実施形態に示されている成分のいずれか1つ、または成分の組み合わせに関する任意の依存関係または要件を有すると解釈されるべきではない。

コンピュータシステム（1000）は、特定のヒューマンインターフェース入力装置を含むことができる。そのようなヒューマンインターフェース入力装置は、例えば、触知入力（例えば、キーストローク、スワイプ、データグローブの動き）、音声入力（例えば、声、拍手）、視覚入力（例えば、ジェスチャ）、嗅覚入力（図示せず）を介した1人または複数の人間のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、音声（例えば、会話、音楽、周囲音）、画像（例えば、走査画像、写真画像は静止画像カメラから取得する）、ビデオ（2次元映像、立体映像を含む3次元映像など）など、必ずしも人間による意識的な入力に直接関連しない特定の媒体を取り込むためにも使用され得る。

入力ヒューマンインターフェース装置は、キーボード（1001）、マウス（1002）、トラックパッド（1003）、タッチスクリーン（1010）、データグローブ（図示せず）、ジョイスティック（1005）、マイクロフォン（1006）、スキャナ（1007）、カメラ（1008）のうちの1つまたは複数（記載された各々のうちのただ1つ）を含むことができる。

コンピュータシステム（1000）はまた、特定のヒューマンインターフェース出力装置を含むことができる。そのようなヒューマンインターフェース出力装置は、例えば、触知出力、音、光、および匂い／味によって1人または複数の人間のユーザの感覚を刺激することができる。そのようなヒューマンインターフェース出力装置は、触知出力装置（例えば、タッチスクリーン（1010）、データグローブ（図示せず）、またはジョイスティック（1005）による触覚フィードバックであるが、入力装置として機能しない触覚フィードバック装置も存在し得る）、音声出力装置（例えば、スピーカ（1009）、ヘッドホン（図示せず））、視覚出力装置（例えば、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン（1010）であって、それぞれがタッチスクリーン入力機能を有するかまたは有さず、それぞれが触知フィードバック機能を有するかまたは有さず、そのいくつかは、ステレオ出力などの手段を介して二次元視覚出力または三次元超出力を出力することができる可能性があり、仮想現実メガネ（図示せず）、ホログラフィックディスプレイ、および煙タンク（図示せず））、およびプリンタ（図示せず）を含むことができる。

コンピュータシステム（1000）はまた、人間がアクセス可能な記憶装置およびそれらの関連媒体、例えば、CD／DVDなどの媒体を有するCD／DVD ROM／RW（1020）を含む光学媒体（1021）、サムドライブ（1022）、リムーバブルハードドライブまたはソリッドステートドライブ（1023）、テープおよびフロッピーディスク（図示せず）などの旧来の磁気媒体、セキュリティドングル（図示せず）などの専用ROM／ASIC／PLDベースの装置などを含むことができる。

当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的信号を包含しないことを理解すべきである。

コンピュータシステム（1000）はまた、1つまたは複数の通信ネットワーク（1055）へのインターフェース（1054）を含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業、リアルタイム、遅延耐性などであり得る。ネットワークの例には、イーサネット、無線LANなどのローカルエリアネットワーク、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上波放送TVを含むテレビ有線または無線広域デジタルネットワーク、CANBusを含む車両および産業用などが含まれる。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（1049）に取り付けられた外部ネットワークインターフェースアダプタを必要とする（例えば、コンピュータシステム（1000）のUSBポートなど）。他のものは、一般に、後述するようなシステムバスへの取り付け（例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）によってコンピュータシステム（1000）のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム（1000）は、他のエンティティと通信することができる。そのような通信は、単方向受信のみ（例えば、放送TV）、単方向送信のみ（例えば、特定のCANbus装置へのCANbus）、または例えば、ローカルまたは広域デジタルネットワークを使用する他のコンピュータシステムに対して、双方向であり得る。特定のプロトコルおよびプロトコルスタックは、上述したように、それらのネットワークおよびネットワークインターフェースのそれぞれで使用され得る。

前述のヒューマンインターフェースデバイス、ヒューマンアクセス記憶装置、およびネットワークインターフェースは、コンピュータシステム（1000）のコア（1040）に取り付けられ得る。

コア（1040）は、1つまたは複数の中央処理装置（CPU）（1041）、グラフィック処理装置（GPU）（1042）、フィールドプログラマブルゲートエリア（FPGA）（1043）の形態の専用プログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ（1044）、グラフィックアダプタ（1050）などを含むことができる。これらのデバイスは、読取り専用メモリ（ROM）（1045）、ランダムアクセスメモリ（1046）、内部非ユーザアクセス可能ハードドライブ、SSDなどの内部大容量ストレージ（1047）と共に、システムバス（1048）を介して接続され得る。いくつかのコンピュータシステムでは、システムバス（1048）は、追加のCPU、GPUなどによる拡張を可能にするために、1つまたは複数の物理プラグの形態でアクセス可能であり得る。周辺機器は、コアのシステムバス（1048）に直接取り付けられることも、または周辺機器用バス（1049）を介して取り付けられることも可能である。一例では、スクリーン（～～x 10）はグラフィックスアダプタ（～～x 50）に接続され得る。周辺バスのアーキテクチャには、PCI、USBなどが含まれる。

CPU（1041）、GPU（1042）、FPGA（1043）、およびアクセラレータ（1044）は、組み合わせて上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM（1045）またはRAM（1046）に記憶され得る。移行データはまた、RAM（1046）に記憶されることができ、一方、永久データは、例えば内部大容量ストレージ（1047）に記憶され得る。メモリデバイスのいずれかへの高速記憶および検索は、1つまたは複数のCPU（1041）、GPU（1042）、大容量記憶装置（1047）、ROM（1045）、RAM（1046）などと密接に関連付けられ得るキャッシュメモリの使用によって有効にされ得る。

コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであることができ、またはコンピュータソフトウェア技術の当業者に周知で利用可能な種類のものであることができる。

限定ではなく、例として、アーキテクチャ（1000）、特にコア（1040）を有するコンピュータシステムは、1つまたは複数の有形のコンピュータ可読媒体で具現化されたソフトウェアを実行するプロセッサ（CPU、GPU、FPGA、アクセラレータなどを含む）の結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上述のようなユーザアクセス可能な大容量ストレージ、ならびにコア内部大容量ストレージ（1047）またはROM（1045）などの非一時的な性質のコア（1040）の特定のストレージに関連付けられた媒体とすることができる。本開示の様々な実施形態を実行するソフトウェアは、そのようなデバイスに格納され、コア（1040）によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（1040）、具体的にはその中のプロセッサ（CPU、GPU、FPGA等を含む）に、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行させることができ、それにはRAM（1046）に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することが含まれる。加えて、または代替として、コンピュータシステムは、ハードウェアによって実現され、または他の方法で回路（例えば、アクセラレータ（1044））内で具体化された論理の結果として機能を提供することができ、ソフトウェアの代わりに、またはソフトウェアと共に動作して、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行することができる。ソフトウェアへの参照は、適切な場合には、論理を包含することができ、逆もまた同様である。コンピュータ可読媒体への参照は、必要に応じて、実行のためのソフトウェアを記憶する回路（集積回路（IC）など）、実行のための論理を具体化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアとの任意の適切な組み合わせを包含する。

付記A：頭字語
VTM：多用途ビデオ符号化試験モデル
SPS：シーケンスパラメータセット
BDPCM：ブロックベースのデルタパルス符号変調
ACT：適応色変換
JEM：共同探索モデル
VVC：多用途ビデオ符号化
BMS：ベンチマークセット
MV：動きベクトル
HEVC：高効率ビデオ符号化
SEI：補足拡張情報
VUI：ビデオのユーザビリティ情報
GOP：画像のグループ
TU：変換ユニット
PU：予測ユニット
CTU：符号化ツリーユニット
CTB：符号化ツリーブロック
PB：予測ブロック
HRD：仮想参照復号器
SNR：信号雑音比
CPU：中央演算処理装置
GPU：グラフィック処理ユニット
CRT：ブラウン管
LCD：液晶ディスプレイ
OLED：有機発光ダイオード
CD：コンパクトディスク
DVD：デジタルビデオディスク
ROM：読出し専用メモリ
RAM：ランダムアクセスメモリ
ASIC：特定用途向け集積回路
PLD：プログラマブルロジックデバイス
LAN：ローカルエリアネットワーク
GSM：汎欧州デジタル移動電話方式
LTE：ロングタームエボリューション
CANBus：コントローラエリアネットワークバス
USB：ユニバーサルシリアルバス
PCI：周辺構成要素相互接続
FPGA：フィールドプログラマブルゲートエリア
SSD：ソリッドステートドライブ
IC：集積回路
CU：符号化ユニット

本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内に入る代替形態、変形形態、および様々な代替の均等物が存在する。したがって、当業者は、本明細書に明示的に示されていない、または記載されていないが、本開示の原理を具体化し、したがってその精神および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

101 サンプル
102 矢印、サンプル
103 矢印、サンプル
104 正方形のブロック、サンプル
105 サンプル
106 サンプル
110 現在のブロック
200 通信システム
210 端末装置
220 端末装置
230 端末装置
240 端末装置
250 通信ネットワーク
301 ビデオソース
302 ビデオ画像
303 ビデオ符号器
304 ビデオデータ、符号化ビデオビットストリーム
305 ストリーミングサーバ
306 クライアントサブシステム
307 ビデオデータ（コピー）、入力コピー
308 クライアントサブシステム
309 ビデオデータ（コピー）
310 ビデオ復号器
311 ビデオ画像
312 ディスプレイ
313 捕捉サブシステム
320 電子装置
330 電子装置
401 チャンネル
410 ビデオ復号器
412 描画装置
415 バッファメモリ
420 パーサ
421 シンボル
430 電子装置
431 受信機
451 逆変換ユニット
452 イントラ画像予測ユニット
453 動き補償予測ユニット
455 アグリゲータ
456 ループフィルタユニット
457 参照画像メモリ
458 現在の画像バッファ
501 ビデオソース
503 ビデオ符号器
520 電子装置
530 ソースコーダ
532 符号化エンジン
533 ローカルビデオ復号器
534 参照画像メモリ（参照画像キャッシュ）
535 予測子
540 送信機
543 符号化されたビデオシーケンス
545 エントロピー符号器
550 コントローラ
560 通信チャンネル
603 ビデオ符号器
621 汎用コントローラ
622 イントラ符号器
623 残差計算器
624 残差符号器
625 エントロピー符号器
626 スイッチ
628 残差復号器
630 インター符号器
710 ビデオ復号器
771 エントロピー復号器
772 イントラ復号器
773 残差復号器
774 再構成モジュール
780 インター復号器
800 プロセス
1000 コンピュータシステム
1001 キーボード
1002 マウス
1003 トラックパッド
1005 ジョイスティック
1006 マイクロフォン
1007 スキャナ
1008 カメラ
1009 スピーカ
1010 タッチスクリーン
1020 CD／DVD ROM／RW
1021 光学媒体
1022 サムドライブ
1023 リムーバブルハードドライブまたはソリッドステートドライブ
1040 コア
1041 中央処理装置（CPU）
1042 グラフィック処理装置（GPU）
1043 フィールドプログラマブルゲートエリア（FPGA）
1044 ハードウェアアクセラレータ
1045 読取り専用メモリ（ROM）
1046 ランダムアクセスメモリ（RAM）
1047 内部大容量ストレージ
1048 システムバス
1049 周辺バス
1050 グラフィックアダプタ
1054 ネットワークインターフェース
1055 通信ネットワーク

Claims

ビデオ復号器が実行するビデオ復号化の方法であって、
符号化されたビデオのビットストリームから第１のシンタックス要素を受信するステップであって、前記第１のシンタックス要素が、画像のシーケンスがモノクロであるか、または別々に符号化された3つの色成分を含むかどうかを示す、ステップと、
前記第１のシンタックス要素が、画像の前記シーケンスがモノクロであるか、または別々に符号化されている3つの色成分を含むことを示す場合、画像の複数の色成分を入力として使用するか、または画像のクロマ成分に依存する符号化ツールを無効にするために、シンタックス要素の値を推測するステップと
を含み、
入力として画像の複数の色成分を使用する前記符号化ツールを無効にするためにシンタックス要素の前記値を推測する前記ステップが、
アクティブ色変換（ACT）が有効にされるかどうかを示す第３のシンタックス要素の値が、0に等しくなるように推測するステップを含む方法。
前記無効にされた符号化ツールは、
クロマ残差のジョイント符号化、
アクティブ色変換（ACT）、または
クロマ成分用のブロックベースのデルタパルス符号変調（BDPCM）の符号化ツールの1つである、請求項1に記載の方法。
入力として画像の複数の色成分を使用する前記符号化ツールを無効にするためにシンタックス要素の前記値を推測する前記ステップが、
クロマ残差のジョイント符号化が有効にされるかどうかを示す第２のシンタックス要素の値が、0に等しくなるように推測するステップ
を含む、請求項1または2に記載の方法。
入力として画像のクロマ成分に依存する前記符号化ツールを無効にするためにシンタックス要素の前記値を推測する前記ステップが、
クロマ成分用のブロックベースのデルタパルス符号変調（BDPCM）が有効にされるかどうかを示す第４のシンタックス要素の前記値が、0に等しくなるように推測するステップを含む、請求項1または2に記載の方法。
入力として画像の複数の色成分を使用し、または画像のクロマ成分に依存する前記符号化ツールを無効にするために、シンタックス要素の前記値を推測する前記ステップが、
前記第１のシンタックス要素が、画像の前記シーケンスがモノクロであるか、または別々に符号化された3つの色成分を含むことを示す場合、変数の値を0であると決定するステップであって、前記変数は、画像の前記シーケンスのクロマアレイタイプを示す、ステップと、
前記変数の前記値が0であると決定することに応答して、以下のシンタックス要素、
クロマ残差のジョイント符号化が有効にされるかどうかを示す第２のシンタックス要素、
アクティブ色変換（ACT）が有効にされるかどうかを示す第３のシンタックス要素、または
クロマ成分用のブロックベースのデルタパルス符号変調（BDPCM）が有効にされるかどうかを示す第４のシンタックス要素のうちの1つの前記値が0に等しいと推測するステップと
を含む、請求項1または2に記載の方法。
前記画像のシーケンスがモノクロではなく、かつ別々に符号化されていない3つの色成分を含むと決定された場合、クロマ残差のジョイント符号化が有効にされるどうかを示す第２のシンタックス要素を受信するステップをさらに含む、請求項1に記載の方法。
画像の前記シーケンスがモノクロではなく、かつ別々に符号化されていない3つの色成分を含むと決定された場合、アクティブ色変換（ACT）が有効にされるどうかを示す第３のシンタックス要素を受信するステップをさらに含む、請求項1に記載の方法。
画像の前記シーケンスがモノクロではなく、かつ別々に符号化されていない3つの色成分を含むと決定された場合、クロマ成分用のブロックベースのデルタパルス符号変調（BDPCM）が有効にされるどうかを示す第４のシンタックス要素を受信するステップをさらに含む、請求項1に記載の方法。
画像の前記シーケンスがモノクロではなく、かつ別々に符号化されていない3つの色成分を含むと決定された場合、画像の前記シーケンスのクロマアレイタイプを示す変数の値を決定するステップと、
前記変数の前記値が非ゼロであると決定された場合、以下のシンタックス要素、
クロマ残差のジョイント符号化が有効にされるかどうかを示す第２のシンタックス要素、
アクティブ色変換（ACT）が有効にされるかどうかを示す第３のシンタックス要素、または
クロマ成分用のブロックベースのデルタパルス符号変調（BDPCM）が有効にされるかどうかを示す第４のシンタックス要素のうちの1つを受信するステップと
をさらに含む、請求項1に記載の方法。
画像の前記シーケンスがモノクロではなく、かつ別々に符号化されていない3つの色成分を含むと決定された場合、画像の前記シーケンスのクロマアレイタイプを示す変数の値を決定するステップと、
前記変数の前記値が非ゼロであると判定された場合、かつ、画像の前記シーケンスについて可逆モードが有効にされる場合、クロマ成分用のブロックベースのデルタパルス符号変調（BDPCM）が有効にされるかどうかを示す第４のシンタックス要素を受信するステップと、
さらに含む、請求項1に記載の方法。
請求項1～10のいずれか一項に記載の方法を実行するように構成される回路を備える、ビデオ復号化の装置。
プロセッサによって実行される場合、前記プロセッサに請求項1～10のいずれか一項に記載の方法を実行させるコンピュータプログラム。