JP2023515890A

JP2023515890A - ビデオコーティングのための方法及び装置

Info

Publication number: JP2023515890A
Application number: JP2022558402A
Authority: JP
Inventors: アウヨン，チュン; リー，シャン; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-12-29
Filing date: 2021-09-08
Publication date: 2023-04-14
Anticipated expiration: 2041-09-08
Also published as: KR20220130183A; EP4081977A4; US20220210446A1; CN115151941A; JP7443559B2; EP4081977A1; WO2022146503A1; US11838522B2

Abstract

本開示の態様は、ビデオ処理のための方法及び装置を提供する。いくつかの例では、ビデオ処理のための装置は、処理回路を含む。処理回路は、色空間におけるサブサンプリングフォーマットのピクチャを色空間における非サブサンプリングフォーマットに変換する。その後、処理回路は、非サブサンプリングフォーマットのピクチャを入力としてニューラルネットワークに基づくフィルタに提供する前に、非サブサンプリングフォーマットのピクチャの色成分の値をクリッピングする。

Description

本出願は、２０２０年１２月２９日に出願された米国仮出願第６３／１３１,６５６号の「ＡＰＰＬＩＣＡＴＩＯＮ
ＯＦＣＬＩＰＰＩＮＧＴＯ
ＩＭＰＲＯＶＥＰＲＥ-ＰＲＯＣＥＳＳＩＮＧＩＮ
ＡＮＥＵＲＡＬ
ＮＥＴＷＯＲＫＢＡＳＥＤＩＮ-ＬＯＯＰＦＩＬＴＥＲＩＮ
ＡＶＩＤＥＯ
ＣＯＤＥＣ」の優先権を主張する、２０２１年８月３１日に出願された米国特許出願第１７／４６３,３５２号の「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳ
ＦＯＲＶＩＤＥＯＣＯＤＩＮＧ」の優先権を主張する。その開示を全て援用により本明細書に組み込むものとする。

本開示は、全体として、ビデオコーティングの実施形態に関する。より具体的には、本開示は、ニューラルネットワークに基づくループ内フィルタを改善するための技術を提供する。

本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示することを目的としている。本発明者らの研究は、この背景技術の項に記載されている限りにおいて、ならびに出願時に先行技術として認められないことがある説明の態様は、本開示に対する先行技術として明示的にも暗示的にも認められない。

ビデオコーディングおよびデコーディングは、動き補償を有するピクチャ間予測を使用して実行されることができる。非圧縮デジタルビデオは一連のピクチャを含むことができ、各ピクチャは、例えば、１９２０×１０８０ルマサンプルと関連するクロマサンプルの空間次元を持っている。該一連のピクチャは、例えば毎秒６０ピクチャまたは６０Ｈｚの固定または可変ピクチャレート（非公式には「フレームレート」とも呼ばれる）を持つことができる。非圧縮ビデオには、特定のビットレート要件がある。例えば、サンプルあたり８ビットでの１０８０ｐ６０４：２：０ビデオ（６０Ｈｚフレームレートでの１９２０×１０８０ルマサンプル解像度）には、１．５Ｇｂｉｔ／ｓに近い帯域幅が必要となる。このようなビデオを１時間使用するには、６００ＧＢｙｔｅｓを超えた記憶空間が必要である。

ビデオコーティングおよびデコーディングの目的の１つは、圧縮による入力ビデオ信号の冗長性の低減であり得る。圧縮は、前述の帯域幅または記憶空間要件を、場合によっては２桁以上減らすのに役立ち得る。可逆圧縮および非可逆圧縮の両方、ならびにそれらの組み合わせを使用することができる。可逆圧縮とは、原信号の正確な複製を圧縮された原信号から再構成することができる技術を指す。非可逆圧縮を使用する場合、再構成された信号は原信号と同一ではないことがあるが、原信号と再構成された信号との間の歪みは、再構成された信号を意図したアプリケーションに役立てるのに十分小さい。ビデオの場合、非可逆圧縮が広く採用されている。許容される歪みの量はアプリケーションに依存し、例えば、特定の消費者向けストリーミングアプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みを許容することがある。達成可能な圧縮比は、より高い許容可能/容認可能な歪みがより高い圧縮比をもたらすことができることを反映することができる。

ビデオエンコーダおよびデコーダは、例えば、動き補償、変換、量子化、およびエントロピーコーディングを含む、いくつかの広範なカテゴリからの技術を利用し得る。

ビデオコーデック技術は、イントラコーディングとして知られる技術を含み得る。イントラコーディングでは、サンプル値は、予め再構成された参照ピクチャからのサンプルまたは他のデータを参照せずに表される。一部のビデオコーデックでは、ピクチャは空間的にサンプルのブロックに細分される。サンプルのすべてのブロックがイントラモードでコーディングされると、そのピクチャはイントラピクチャになる可能性がある。イントラピクチャとその独立したデコーダリフレッシュピクチャなどの派生物は、デコーダの状態をリセットするために使用できるため、コーディングされたビデオビットストリームとビデオセッションの最初のピクチャとして、または静止ピクチャとして使用されることができる。イントラブロックのサンプルは変換にさらされることができ、変換係数はエントロピーコーディングの前に量子化されることができる。イントラ予測は、事前変換領域でサンプル値を最小化する技術であり得る。場合によっては、変換後のＤＣ値が小さく、ＡＣ係数が小さいほど、エントロピーコーディング後のブロックを表すために所定の量子化ステップサイズで必要とされるビットが少なくなる。

例えばＭＰＥＧ－２世代コーディング技術から知られているような従来のイントラコーディングは、イントラ予測を使用しない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば、空間的に隣接し、デコーディング順で先に位置する、エンコーディング／デコーディング中に得られた周囲のサンプルデータおよび／またはメタデータから試みる技術を含む。そのような技術は、以降、「イントラ予測」技術と呼ばれる。少なくともいくつかのケースでは、イントラ予測は、再構成中の現在のピクチャからの参照データのみを使用し、参照ピクチャからの参照データを使用しないことに留意されたい。

イントラ予測はさまざまな形態で存在し得る。そのような技術の複数が所定のビデオコーディング技術に使用できる場合、使用中の技術はイントラ予測モードでコーディングされることができる。場合によっては、モードはサブモードおよび／またはパラメータを有することができ、それらを個別にコーディングするか、もしくはモードコードワードに含めることができる。どのコードワードが所定のモード／サブモード／パラメータの組み合わせに使用されるかは、イントラ予測によるコーディング効率の向上に影響を与える可能性があり、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術も同様である。

イントラ予測の特定のモードはＨ．２６４で提出され、Ｈ．２６５で改良され、さらに共同探索モデル（ＪＥＭ）、多用途ビデオコーディング（ＶＶＣ）、およびベンチマークセット（ＢＭＳ）などのより新しいコーディング技術で改良された。予測器ブロックは、すでに利用可能なサンプルに属する隣接サンプル値を使用して形成されることができる。隣接サンプルのサンプル値は、方向に従って予測器ブロックに複製される。使用中の方向への参照は、ビットストリーム内でコーディングされ得るか、またはそのものが予測され得る。

図１Ａを参照し、右下に示されているのは、Ｈ．２６５の３３通りの可能な予測器方向（３５通りのイントラモードの３３通りの角度モードに対応する）からの９通りの予測器方向のサブセットである。矢印が収束する点（１０１）は、予測されるサンプルを表す。矢印は、サンプルが予測される方向を表す。例えば、矢印（１０２）は、サンプル（１０１）が、水平から４５度の角度で右上への１つまたは複数のサンプルから予測されることを示す。同様に、矢印（１０３）は、サンプル（１０１）が、サンプル（１０１）の水平から２２．５度の角度で左下への１つまたは複数のサンプルから予測されることを示す。

引き続き図１Ａを参照し、左上には、４×４サンプルの正方形ブロック（１０４）（太い破線で示される）が示されている。正方形ブロック（１０４）は、１６個のサンプルを含み、それぞれ「Ｓ」、Ｙ次元におけるその位置（例えば、行インデックス）、およびＸ次元におけるその位置（例えば、列インデックス）でラベル付けされている。例えば、サンプルＳ２１は、Ｙ次元（上から）における２番目のサンプルであり、Ｘ次元（左から）における１番目のサンプルである。同様に、サンプルＳ４４は、ＹおよびＸ次元の両方でのブロック（１０４）における４番目のサンプルである。ブロックはサイズが４×４サンプルであるので、Ｓ４４は、右下にある。さらに、同様な番号付け体系に従う参照サンプルが示されている。参照サンプルは、Ｒ、ブロック（１０４）に対するそのＹ位置（例えば、行インデックス）およびＸ位置（列インデックス）でラベル付けされる。Ｈ．２６４とＨ．２６５の両方で、予測サンプルは再構成中のブロックに隣接している。したがって、負の値を使用する必要はない。

イントラピクチャ予測は、シグナリングされた予測方向によって割り当てられた隣接サンプルからの参照サンプル値をコピーすることで行われることができる。例えば、仮に、コーディングされたビデオビットストリームは、このブロックについて矢印（１０２）（すなわち、水平から４５度の角度で右上への１つまたは複数の予測サンプルから予測される）と一致する予測方向を示すシグナリングを含むとする。この場合、サンプルＳ４１、Ｓ３２、Ｓ２３、およびＳ１４は同一の参照サンプルＲ０５から予測される。その後、サンプルＳ４４は、参照サンプルＲ０８から予測される。

幾つかの場合において、複数の参照サンプルの値は、参照サンプルを算出するために、特に方向が４５度で均等に分割されていない場合に、例えば補間によって組み合わせられることができる。

ビデオコーディング技術が発展するにつれて、予測可能な方向の数も増えつつある。Ｈ．２６４（２００３年）では、９通りの異なる方向を表すことができる。Ｈ．２６５（２０１３年）で３３通りに増加し、ＪＥＭ／ＶＶＣ／ＢＭＳは開示時に最大６５通りの方向をサポートできる。最も見込みのある方向を識別するための実験が行われ、エントロピーコーディングにおける特定の技術は、少ないビットで見込みの高い方向を表すために使用され、見込みの低い方向に対する特定のペナルティを受け入れる。さらに、方向自体は、隣接する、すでにデコーディングされたブロックで使用される隣接方向から予測される場合がある。

図１Ｂは、予測方向の経時的な増加数を示すために、ＪＥＭによる６５通りのイントラ予測方向を示す概略図（１８０）を示す。

方向を表すコーディングされたビデオビットストリームにおけるイントラ予測方向ビットのマッピングは、ビデオコーディング技術ごとに異なる可能性があり、また、例えば、イントラ予測モードへの予測方向の単純な直接マッピングから、コードワード、最も可能性の高いモードを含む複雑な適応スキーム、および同様の技術までの範囲とすることができる。しかしながら、すべての場合において、他の特定の方向よりも統計的にビデオコンテンツで発生する可能性が低い特定の方向が存在する可能性がある。ビデオ圧縮の目的は冗長性の削減であるため、適切に機能するビデオコーディング技術では、これらの見込みの低い方向は、見込みの高い方向よりも多くのビット数で表される。

動き補償は、非可逆圧縮技術とすることができ、且つ、以前から再構成されたピクチャ又はその一部（参照ピクチャ）からのサンプルデータのブロックが、動きベクトル（以下、ＭＶとも称する）によって示される方向に空間的にシフトされた後に、新たな再構成されるピクチャ又はその一部の予測のために使用される技術に関連付けられることができる。場合によっては、参照ピクチャは現在再構成中のピクチャと同一であり得る。ＭＶは、Ｘ及びＹの２次元、又は３次元を有することができ、第３次元は、使用中の参照ピクチャの表示である（後者は、間接的に、時間次元とすることができる）。

いくつかのビデオ圧縮技術では、サンプルデータのあるエリアに適用可能なＭＶは、他のＭＶから、例えば、再構成中の領域に空間的に隣接し、デコーディングの順序でそのＭＶに先行するサンプルデータの別の領域に関連するＭＶから予測され得る。このようにすれば、ＭＶのコーディングに必要なデータ量を大幅に削減し、それによって冗長性を除去し、圧縮量を増大させることができる。ＭＶ予測は効率的に機能し得る。なぜならば、例えば、カメラから導出された入力ビデオ信号（ナチュラルビデオと呼ばれる）をコーディングする場合、単一のＭＶを適用可能な領域よりも大きな領域は、類似の方向に沿って移動するという統計的可能性があり、したがって、場合によっては、隣接領域のＭＶから導出された類似の動きベクトルを用いて予測され得るからである。その結果、所定の領域について見出されたＭＶは、周囲のＭＶから予測されたＭＶと類似又は同一になり、そしてエントロピーコーディングされた後、ＭＶを直接コーディングする場合に使用されるものよりも、より少ない数のビットで表され得る。場合によっては、ＭＶ予測は、元の信号（すなわち、サンプルストリーム）から導出された信号（すなわち、ＭＶ）の可逆圧縮の例であり得る。他の場合には、ＭＶ予測そのものは、例えば、いくつかの周囲ＭＶから予測器を計算する際の丸め誤差のために、非可逆的であり得る。

様々なＭＶ予測メカニズムがＨ．２６５／ＨＥＶＣ（ＩＴＵ－ＴＲｅｃ．Ｈ．２６５、ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ、Ｄｅｃｅｍｂｅｒ２０１６）に、記述されている。Ｈ．２６５が提供する多くのＭＶ予測メカニズムのうち、ここでは、以後「空間マージ」と称されるテクニックについて説明する。

図２を参照すると、現在のブロック（２０１）は、空間的にシフトされた同サイズの前のブロックから予測可能であることが、動き探索プロセス中にエンコーダによって発見されたサンプルを含む。ＭＶを直接コーディングする代わりに、複数の参照ピクチャに関連付けられたメタデータから、例えば、Ａ０、Ａ１、及びＢ０、Ｂ１、Ｂ２（それぞれ１０２から１０６）と示される５つの周囲サンプルのいずれかに関連付けられたＭＶを使用して、（デコーディングする順から）最新の参照ピクチャから、ＭＶを導出することができる。Ｈ．２６５では、ＭＶ予測は、隣接ブロックが使用しているのと同じ参照ピクチャからの予測器を使用することができる。

いくつかの例では、処理回路は、非サブサンプリングフォーマットのピクチャの色成分の値を、色成分の有効範囲にクリッピングする。一例では、処理回路は、非サブサンプリングフォーマットのピクチャの色成分の値を、ビット深度に基づいて決定される範囲にクリッピングする。別の一例では、処理回路は、非サブサンプリングフォーマットのピクチャの色成分の値を、所定の範囲にクリッピングする。

いくつかの例では、処理回路は、ピクチャを含むビットストリームからのデコーディングされた情報に基づいて、値をクリッピングするための範囲を決定し、その後、非サブサンプリングフォーマットのピクチャの色成分の値を、決定された範囲にクリッピングする。一例では、処理回路は、ビットストリームにおけるシーケンスパラメータセット、ピクチャパラメータセット、スライスヘッダー、及びタイルヘッダーのうち少なくとも１つから、範囲を示す信号をデコーディングする。

いくつかの例では、処理回路は、ビットストリームからのデコーディングされた情報に基づいて、サブサンプリングフォーマットのピクチャを再構成し、サブサンプリングフォーマットのピクチャにデブロッキングフィルタを適用する。いくつかの例では、処理回路は、ニューラルネットワークに基づくフィルタを、クリッピングされた値を有する非サブサンプリングフォーマットのピクチャに適用することで非サブサンプリングフォーマットのフィルタリングされたピクチャを生成し、非サブサンプリングフォーマットのフィルタリングされたピクチャを、サブサンプリングフォーマットのフィルタリングされたピクチャに変換する。

いくつかの例では、クリッピングされた値を有する非サブサンプリングフォーマットのピクチャをストレージに保存させる。そして、クリッピングされた値を有する非サブサンプリングフォーマットで保存されたピクチャをトレーニング入力として提供し、前記ニューラルネットワークに基づくフィルタにおけるニューラルネットワークをトレーニングすることができる。

本開示の態様は、ビデオデコーディングのためにコンピュータによって実行される場合、ビデオ処理のための方法をコンピュータに実行させる命令を記憶した非一時的なコンピュータ読取可能な媒体をさらに提供する。

開示された主題のさらなる特徴、本質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。

イントラ予測モードの例示的なサブセットの概略図である。

例示的なイントラ予測方向の図である。

一例における現在のブロックおよびその周囲の空間マージ候補の概略図である。

実施形態による通信システム（３００）の簡略ブロック図の概略図である。

実施形態による通信システム（４００）の簡略ブロック図の概略図である。

実施形態によるデコーダの簡略ブロック図の概略図である。

実施形態によるエンコーダの簡略ブロック図の概略図である。

別の実施形態によるエンコーダのブロック図を示す。

別の実施形態によるデコーダのブロック図を示す。

いくつかの例におけるループフィルタユニットのブロック図を示す。

いくつかの例における別のループフィルタユニットのブロック図を示す。

いくつかの例におけるニューラルネットワークに基づくフィルタのブロック図を示す。

いくつかの例における前処理モジュールのブロック図を示す。

いくつかの例におけるニューラルネットワーク構造のブロック図を示す。

密な残差ユニットのブロック図を示す。

いくつかの例における後処理モジュールのブロック図を示す。

プロセスを概説するフローチャートを示す。

実施形態によるコンピュータシステムの概略図である。

図３は、本開示の実施形態による通信システム（３００）の簡略ブロック図の概略図を示している。通信システム（３００）は、例えばネットワーク（３５０）を介して互いに通信可能な複数の端末装置を含む。例えば、通信システム（３００）は、ネットワーク（３５０）を介して相互接続された第１の対の端末装置（３１０）および（３２０）を含む。図３の例では、第１の対の端末装置（３１０）および（３２０）は、データの単方向伝送を実行する。例えば、端末装置（３１０）は、ネットワーク（３５０）を介して他方の端末装置（３２０）へ伝送するためにビデオデータ（例えば、端末装置（３１０）によってキャプチャされたビデオピクチャのストリーム）をコーディングし得る。コーディングされたビデオデータは、１つまたは複数のコーディングされたビデオビットストリームの形で送信され得る。端末装置（３２０）は、ネットワーク（３５０）からコーディングされたビデオデータを受信し、コーディングされたビデオデータをデコーディングしてビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャを表示することができる。単方向のデータ伝送は、メディア配信アプリケーションなどで一般的である。

別の一例では、通信システム（３００）は、例えば、ビデオ会議中に発生し得るコーディングされたビデオデータの双方向伝送を実行する第２の対の端末装置（３３０）および（３４０）を含む。データの双方向伝送の場合、一例では、端末装置（３３０）および（３４０）のそれぞれは、ネットワーク（３５０）を介して端末装置（３３０）および（３４０）のうちの他方の端末装置に伝送するためにビデオデータ（例えば、端末装置によってキャプチャされたビデオピクチャのストリーム）をコーディングし得る。端末装置（３３０）および（３４０）のそれぞれは、端末装置（３３０）および（３４０）のうちの他方の端末装置で伝送されたコーディングされたビデオデータを受信し、コーディングされたビデオデータをデコーディングしてビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャにアクセス可能な表示装置に表示させることができる。

図３の例では、端末装置（３１０）、（３２０）、（３３０）および（３４０）は、サーバ、パーソナルコンピュータおよびスマートフォンとして示され得るが、しかし、本開示の原理はこれに制限されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤー、および／または専用のビデオ会議機器に応用できる。ネットワーク（３５０）は、例えば有線および／または無線通信ネットワークを含む、端末装置（３１０）、（３２０）、（３３０）および（３４０）間でコーディングされたビデオデータを伝送する任意の数のネットワークを表す。通信ネットワーク（３５０）は、回線交換および／またはパケット交換チャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび／またはインターネットを含む。本議論の目的のために、ネットワーク（３５０）のアーキテクチャおよびトポロジーは、以下で説明されない限り、本開示の動作にとって重要でない可能性がある。

図４は、開示された主題のアプリケーションの例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を示している。開示された主題は、例えば、ビデオ会議、デジタルＴＶ、および、ＣＤ、ＤＶＤ、メモリスティックなどを含むデジタルメディアへの圧縮ビデオの記憶など、を含む他のビデオ機能アプリケーションに同様に適用可能である。

ストリーミングシステムは、例えば非圧縮のビデオピクチャストリーム（４０２）を作成するデジタルカメラなどのビデオソース（４０１）を含み得るキャプチャサブシステム（４１３）を含んでもよい。一例では、ビデオピクチャストリーム（４０２）は、デジタルカメラによって撮像されたサンプルを含む。コーディングされたビデオデータ（４０４）（又はコーディングされたビデオビットストリーム）と比較した際の高いデータ量を強調するために太線で示されたビデオピクチャストリーム（４０２）は、ビデオソース（４０１）に結合されたビデオエンコーダ（４０３）を含む電子機器（４２０）によって処理され得る。ビデオエンコーダ（４０３）は、以下でより詳細に説明されるように、開示された主題の態様を可能にするか或いは実施するためのハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。ビデオピクチャ（４０２）のストリームと比較した際の低いデータ量を強調するために細い線で示された、コーディングされたビデオデータ（４０４）（またはコーディングされたビデオビットストリーム（４０４））は、将来に使用するためにストリーミングサーバ（４０５）に記憶され得る。図４におけるクライアントサブシステム（４０６）および（４０８）のような１つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ（４０５）にアクセスして、コーディングされたビデオデータ（４０４）のコピー（４０７）および（４０９）を検索することができる。クライアントサブシステム（４０６）は、例えば、電子機器（４３０）におけるビデオデコーダ（４１０）を含むことができる。ビデオデコーダ（４１０）は、コーディングされたビデオデータの入力コピー（４０７）をデコーディングし、ディスプレイ（４１２）（例えば、表示画面）または他のレンダリングデバイス（図示せず）に表示できるビデオピクチャ（４１１）の出力ストリームを作成する。一部のストリーミングシステムにおいて、コーディングされたビデオデータ（４０４）、（４０７）、および（４０９）（例えば、ビデオビットストリーム）は、特定のビデオコーディング／圧縮規格に従ってコーディングされ得る。これらの規格の例は、ＩＴＵ－Ｔ勧告Ｈ．２６５を含む。一例では、開発中のビデオコーディング規格は、非公式的に多用途ビデオコーディング（ＶＶＣ）として知られている。開示された主題は、ＶＶＣの文脈において使用され得る。

なお、電子機器（４２０）および（４３０）は、他の構成要素（図示せず）を含み得る。例えば、電子機器（４２０）は、ビデオデコーダ（図示せず）を含むことができ、電子機器（４３０）は、ビデオエンコーダ（図示せず）を含むこともできる。

図５は、本開示の実施形態によるビデオデコーダ（５１０）のブロック図を示す。ビデオデコーダ（５１０）は、電子機器（５３０）に含まれることができる。電子機器（５３０）は、受信機（５３１）（例えば、受信回路）を含み得る。ビデオデコーダ（５１０）は、図４の例におけるビデオデコーダ（４１０）の代わりに使用され得る。

受信機（５３１）は、ビデオデコーダ（５１０）によってデコーディングされた１つまたは複数のコーディングされたビデオシーケンスを受信でき、同一または別の実施形態では、一度に１つのコーディングされたビデオシーケンスであり、各コーディングされたビデオシーケンスのデコーディングは、他のコーディングされたビデオシーケンスから独立している。コーディングされたビデオシーケンスは、コーディングされたビデオデータを記憶する記憶装置へのハードウェア／ソフトウェアリンクであり得るチャネル（５０１）から受信されることができる。受信機（５３１）は、それぞれの使用エンティティ（図示せず）に転送され得る他のデータ、例えば、コーディングされたオーディオデータおよび／または補助データストリームを有する、コーディングされたビデオデータを受信し得る。受信機（５３１）は、コーディングされたビデオシーケンスを他のデータから分離することができる。ネットワークジッタを防止するために、バッファメモリ（５１５）は、受信機（５３１）とエントロピーデコーダ／パーサ（５２０）（以降、「パーサ（５２０）」と称される）の間に結合されてもよい。特定のアプリケーションでは、バッファメモリ（５１５）は、ビデオデコーダ（５１０）の一部である。他の実施形態では、バッファメモリはビデオデコーダ（５１０）（図示せず）の外部に存在し得る。さらに別の実施形態では、例えば、ネットワークジッタを防止するためにビデオデコーダ（５１０）の外部にバッファメモリ（図示せず）が存在し、且つ、例えば、再生タイミングを取り扱うためにビデオデコーダ（５１０）の内部に別のバッファメモリ（５１５）が存在し得る。受信機（５３１）が十分な帯域幅および制御性を有する記憶／転送装置から、または等同期ネットワークからデータを受信する際に、バッファメモリ（５１５）は必要とされず、または小さくされる場合がある。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファメモリ（５１５）が必要になる場合があり、バッファメモリ（５１５）は、比較的大きくされ、有利には適応サイズとすることができ、ビデオデコーダ（５１０）の外部のオペレーティングシステムまたは類似の要素（図示せず）に少なくとも部分的に実現され得る。

ビデオデコーダ（５１０）は、コーディングされたビデオシーケンスからシンボル（５２１）を再構成するパーサ（５２０）を含んでもよい。これらのシンボルのカテゴリは、ビデオデコーダ（５１０）の操作を管理するために使用される情報、および、電子機器（５３０）の構成部分ではないが、図５に示されるように電子機器（５３０）に結合され得るレンダリングデバイス（５１２）（例えば、表示画面）のようなレンダリングデバイスを制御する潜在的情報を含む。レンダリングデバイスのための制御情報は、補足拡張情報（ＳＥＩメッセージ）またはビデオユーザビリティ情報（ＶＵＩ）パラメータセットフラグメント（図示せず）の形式でもよい。パーサ（５２０）は、受信されたコーディングされたビデオシーケンスを解析／エントロピーデコーディングすることができる。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術または規格に従うことができ、可変長コーディング、ハフマンコーディング、文脈依存を有するまたは有しない算術コーディングなどを含む様々な原理に従うことができる。パーサ（５２０）は、グループに対応する少なくとも１つのパラメータに基づいて、コーディングされたビデオシーケンスから、ビデオデコーダにおける画素の少なくとも１つのサブグループのためのサブグループパラメータのセットを抽出することができる。サブグループは、グループオブピクチャ（ＧＯＰ）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ）、ブロック、変換ユニット（ＴＵ）、予測ユニット（ＰＵ）などを含むことができる。パーサ（５２０）は、コーディングされたビデオシーケンスから変換係数、量子化パラメータ値、動きベクトルなどのような情報を抽出することもできる。

パーサ（５２０）は、シンボル（５２１）を作成するために、バッファメモリ（５１５）から受信されたビデオシーケンスに対してエントロピーデコーディング／解析操作を実行することができる。

シンボル（５２１）の再構成には、コーディングされたビデオピクチャまたはその一部（例えば、インターおよびイントラピクチャ、インターおよびイントラブロック）のタイプ、および他の要因に応じて、複数の異なるユニットが関与できる。どのユニットがどのように関与するかは、パーサ（５２０）によってコーディングされたビデオシーケンスから解析されたサブグループ制御情報によって制御され得る。明確化にするために、パーサ（５２０）と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは示されていない。

すでに述べた機能ブロックに加えて、ビデオデコーダ（５１０）は、以下で説明されるようにいくつかの機能ユニットに概念的に細分され得る。商業的な制約の下で実際の実現にあたっては、これらのユニットの多くは互いに密接に相互作用し、少なくとも一部に互いに統合することができる。しかしながら、開示された主題の説明の目的で、以下の機能ユニットへの概念的な細分化が適切である。

第１のユニットは、スケーラ／逆変換ユニット（５５１）である。スケーラ／逆変換ユニット（５５１）は、使用する変換、ブロックサイズ、量子化因子、量子化スケーリング行列などを含む制御情報と、量子化された変換係数をシンボル（５２１）としてパーサ（５２０）から受信する。スケーラ／逆変換ユニット（５５１）は、アグリゲータ（５５５）に入力可能なサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換（５５１）の出力サンプルは、イントラコーディングブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用せず、現在のピクチャの以前に再構成された部分からの予測情報を使用できるブロックに関係し得る。このような予測情報は、イントラピクチャ予測ユニット（５５２）によって提供され得る。場合によっては、イントラピクチャ予測ユニット（５５２）は、現在のピクチャバッファ（５５８）から取り出された周囲の既に再構成された情報を用いて、再構成中のブロックの同サイズおよび形状のブロックを生成する。現在のピクチャバッファ（５５８）は、例えば、部分的に再構成された現在のピクチャおよび／または完全に再構成された現在のピクチャをバッファリングする。アグリゲータ（５５５）は、場合によっては、サンプルごとに、イントラ予測ユニット（５５２）が生成した予測情報を、スケーラ／逆変換ユニット（５５１）によって提供された出力サンプル情報に追加する。

他の場合では、スケーラ／逆変換ユニット（５５１）の出力サンプルは、インターコーティングされた、潜在的に動き補償されたブロックに関係することがある。このような場合に、動き補償予測ユニット（５５３）は、参照ピクチャメモリ（５５７）にアクセスして、予測すべきサンプルを取り出すことができる。取り出されたサンプルをブロックに関係するシンボル（５２１）に従って動き補償した後、出力サンプル情報を生成するように、これらのサンプルは、アグリゲータ（５５５）によってスケーラ／逆変換ユニット（５５１）の出力に追加され得る（この場合、残差サンプルまたは残差信号と呼ばれる）。動き補償予測ユニット（５５３）が予測サンプルを取り出す参照ピクチャメモリ（５５７）内のアドレスは、例えば、Ｘ、Ｙ、および参照ピクチャ成分を有し得るシンボル（５２１）の形態で動き補償予測ユニット（５５３）に利用可能な動きベクトルによって制御され得る。動き補償は、サブサンプルの正確な動きベクトルが使用中であるときに参照ピクチャメモリ（５５７）から取り出されたサンプル値の補間、動きベクトル予測メカニズムなどを含むこともできる。

アグリゲータ（５５５）の出力サンプルは、ループフィルタユニット（５５６）において様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、コーディングされたビデオシーケンス（コーディングされたビデオビットストリームとも呼ばれる）に含まれる、パーサ（５２０）からのシンボル（５２１）としてループフィルタユニット（５５６）に利用可能とされたパラメータによって制御され、それに、コーディングされたピクチャまたはコーディングされたビデオシーケンスの前の部分（デコーディング順で）のデコーディング進行中に取得されたメタ情報に応じるとともに、以前に再構成されループフィルタリングされたサンプル値に応答することもできるループフィルタ技術を含み得る。

ループフィルタユニット（５５６）の出力は、レンダリングデバイス（５１２）へ出力されるとともに、将来のインターピクチャ予測で使用するために参照ピクチャメモリ（５５７）に記憶されることができるサンプルストリームであり得る。

特定のコーディングされたピクチャは、完全に再構成されると、将来の予測のために参照ピクチャとして使用されることができる。例えば、現在のピクチャに対応するコーディングされたピクチャが完全に再構成され、コーディングされたピクチャが（例えば、パーサ（５２０）によって）参照ピクチャとして識別されると、現在のピクチャバッファ（５５８）は、参照ピクチャメモリ（５５７）の一部になることができ、且つ次のコーディングされたピクチャの再構成を開始する前に新しい現在のピクチャバッファは、再び割り当てられることができる。

ビデオデコーダ（５１０）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５のような規格での所定のビデオ圧縮技術に従ってデコーディング操作を実行することができる。コーディングされたビデオシーケンスが、ビデオ圧縮技術または規格の構文と、ビデオ圧縮技術または規格で文書化されたプロファイルとの両方に準拠しているという意味で、コーディングされたビデオシーケンスは、使用されているビデオ圧縮技術または規格によって指定されるシンタックスに準拠し得る。具体的には、プロファイルは、ビデオ圧縮技術または規格で使用可能なすべてのツールから、特定のツールをそのプロファイルで使用できる一意のツールとして選択することができる。コーディングされたビデオシーケンスの複雑さがビデオ圧縮技術または規格のレベルで定義される範囲内にあることも、コンプライアンスに必要である。場合によっては、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えば、１秒あたりのメガサンプルで測定される）、最大参照ピクチャサイズなどがレベルによって制限される。レベルによって設定された制限は、場合によっては、仮想参照デコーダ（ＨＲＤ）仕様およびコーディングされたビデオシーケンスでシグナリングされたＨＲＤバッファ管理のためのメタデータによってさらに制限され得る。

実施形態では、受信機（５３１）は、コーディングされたビデオとともに追加の（冗長な）データを受信することができる。追加のデータは、コーディングされたビデオシーケンスの一部として含まれてもよい。追加のデータは、データを適切にデコーディングし、および／または、元のビデオデータをより正確に再構成するためにビデオデコーダ（５１０）によって使用され得る。追加のデータは、例えば、時間的、空間的、または信号対雑音比（ＳＮＲ）エンハンスメントレイヤ、冗長スライス、冗長ピクチャ、前方向誤り訂正コードなどの形式であり得る。

図６は、本開示の実施形態によるビデオエンコーダ（６０３）のブロック図を示す。ビデオエンコーダ（６０３）は、電子機器（６２０）に含まれる。電子機器（６２０）は、送信機（６４０）（例えば、送信回路）を含む。ビデオエンコーダ（６０３）は、図４の例におけるビデオエンコーダ（４０３）の代わりに使用され得る。

ビデオエンコーダ（６０３）は、ビデオエンコーダ（６０３）によってコーディングされるビデオピクチャをキャプチャし得るビデオソース（６０ｌ）（図６の例における電子機器（６２０）の一部ではない）からビデオサンプルを受信することができる。別の一例では、ビデオソース（６０１）は、電子機器（６２０）の一部である。

ビデオソース（６０１）は、ビデオエンコーダ（６０３）によってコーディングされるべきソースビデオシーケンスを、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット、・・・）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ、・・・）および任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）であり得るデジタルビデオサンプルストリームの形式で提供し得る。メディア配信システムでは、ビデオソース（６０１）は、予め準備されたビデオを記憶する記憶装置であり得る。ビデオ会議システムでは、ビデオソース（６０１）は、ローカルピクチャ情報をビデオシーケンスとしてキャプチャするカメラであり得る。ビデオデータは、連続して見た際に動きが与えられる複数の個別のピクチャとして提供されてもよい。ピクチャ自体は、画素の空間アレイとして編成されてもよく、各画素は、使用中のサンプリング構造、色空間などに応じて１つまたは複数のサンプルを含むことができる。当業者は、画素とサンプルとの関係を容易に理解することができる。以下の説明ではサンプルを中心に説明する。

実施形態によれば、ビデオエンコーダ（６０３）は、リアルタイムでまたはアプリケーションが要求する任意の他の時間制約の下でソースビデオシーケンスのピクチャをコーディングし、コーディングされたビデオシーケンス（６４３）に圧縮することができる。適切なコーディング速度を強制することは、コントローラ（６５０）の機能の１つである。いくつかの実施形態では、コントローラ（６５０）は、以下で説明される他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。明確にするために、カップリングは描かれていない。コントローラ（６５０）によって設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化、レート歪み最適化技術のラムダ値、・・・）、ピクチャサイズ、グループオブピクチャ（ＧＯＰ）レイアウト、最大動きベクトル検索範囲などを含むことができる。コントローラ（６５０）は、特定のシステム設計に対して最適化されたビデオエンコーダ（６０３）に関する他の適切な機能を有するように構成され得る。

いくつかの実施形態では、ビデオエンコーダ（６０３）は、コーディングループで動作するように構成される。過度に簡略化した説明として、一例では、コーディングループは、ソースコーダー（６３０）（例えば、コーディングしようとする入力ピクチャおよび参照ピクチャに基づくシンボルストリームなどのシンボルの作成を担当する）、およびビデオエンコーダ（６０３）に埋め込まれた（ローカル）デコーダ（６３３）を含み得る。デコーダ（６３３）は、（リモート）デコーダが作成するのと同様な方法でサンプルデータを作成するためにシンボルを再構成する（シンボルとコーディングされたビデオビットストリーム間の如何なる圧縮は、開示された主題で考慮されるビデオ圧縮技術では可逆であるため）。再構成されたサンプルストリーム（サンプルデータ）は参照ピクチャメモリ（６３４）に入力される。シンボルストリームのデコーディングは、デコーダの位置（ローカルまたはリモート）に関係なくビット正確な結果につながるため、参照ピクチャメモリ（６３４）のコンテンツもローカルエンコーダとリモートエンコーダの間でビット正確である。言い換えれば、エンコーダの予測部分は、参照ピクチャサンプルとして、デコーディング中に予測を使用する際にデコーダが「見る」のと全く同じサンプル値を「見る」。参照ピクチャの同期性（および例えばチャネルエラーに起因して同期性を維持できない場合に生じるドリフト）のかような基本原理は、いくつかの関連分野にも使用されている。

「ローカル」デコーダ（６３３）の動作は、前文で図５を参照して既に詳細に説明された、ビデオデコーダ（５１０）などの「リモート」デコーダの動作と同様であり得る。しかしながら、図５を簡単に参照すると、シンボルが使用可能であり、エントロピーコーダー（６４５）およびパーサ（５２０）によるコーディングビデオシーケンスへのシンボルのエンコーディング／デコーディングは可逆であり得るので、バッファメモリ（５１５）、およびパーサ（５２０）を含むビデオデコーダ（５１０）のエントロピーデコーディング部分は、ローカルデコーダ（６３３）では完全に実現されない場合がある。

この点から分かるように、デコーダに存在する解析／エントロピーデコーディング以外の如何なるデコーダ技術も、対応するエンコーダに実質的に同一の機能的形態で必ず存在する必要がある。このため、開示された主題は、デコーダ操作を中心とする。エンコーダ技術の説明は、包括的に説明されたデコーダ技術と逆なものであるため、省略できる。特定の領域でのみ、より詳細な説明が必要となり、以下に提供される。

動作中、いくつかの例では、ソースコーダー（６３０）は、「参照ピクチャ」として指定されたビデオシーケンスからの１つまたは複数の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする動き補償予測コーディングを実行してもよい。このようにして、コーディングエンジン（６３２）は、入力ピクチャの画素ブロックと、入力ピクチャへの予測基準として選択され得る参照ピクチャの画素ブロックとの差異をコーディングする。

ローカルビデオデコーダ（６３３）は、ソースコーダー（６３０）で作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングされたビデオデータをデコーディングすることができる。コーディングエンジン（６３２）の操作は、有利にはロッシープロセスであり得る。コーディングされたビデオデータをビデオデコーダ（図６に示せず）でデコーディングできる際、再構成されたビデオシーケンスは、通常、いくつかのエラーを伴うソースビデオシーケンスのレプリカであってもよい。ローカルビデオデコーダ（６３３）は、ビデオデコーダによって参照ピクチャを実行し得るデコーディングプロセスを複製し、再構成された参照ピクチャを参照ピクチャキャッシュ（６３４）に記憶させることができる。このようにして、ビデオエンコーダ（６０３）は、遠端ビデオデコーダによって取得される再構成された参照ピクチャと共通するコンテンツ（送信エラー無し）を有する再構成された参照ピクチャのコピーをローカルに記憶し得る。

予測器（６３５）は、コーディングエンジン（６３２）に対する予測検索を実行できる。つまり、コーディング対象となる新しいピクチャについて、予測器（６３５）は、（候補の参照画素ブロックとしての）サンプルデータ、または、参照ピクチャの動きベクトル、ブロック形状など、新しいピクチャの適切な予測基準として機能し得る特定のメタデータを参照ピクチャメモリ（６３４）から検索することができる。予測器（６３５）は、適切な予測基準を見つけるために、サンプルブロック/画素ブロックごとに操作することができる。場合によっては、予測器（６３５）で取得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（６３４）に記憶された複数の参照ピクチャから引き出された予測基準を有してもよい。

コントローラ（６５０）は、例えば、ビデオデータをコーティングするために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダー（６３０）のコーディング操作を管理することができる。

前述のすべての機能ユニットの出力は、エントロピーコーダー（６４５）においてエントロピーコーディングを受け得る。エントロピーコーダー（６４５）は、例えば、ハフマンコーディング、可変長コーディング、算術コーディングなどの技術に従ってシンボルを可逆圧縮することにより、様々な機能ユニットによって生成されたシンボルをコーティングビデオシーケンスに変換する。

送信機（６４０）は、コーディングされたビデオデータを記憶する記憶装置へのハードウェア／ソフトウェアリンクであり得る通信チャネル（６６０）を介した送信の準備のために、エントロピーコーダー（６４５）によって作成されたコーディングされたビデオシーケンスをバッファリングすることができる。送信機（６４０）は、ビデオコーダ（６０３）からのコーディングされたビデオデータを、送信されるべき他のデータ、例えば、コーディングされたオーディオデータおよび／または補助データストリーム（ソースは示されていない）とマージすることができる。

コントローラ（６５０）は、ビデオエンコーダ（６０３）の操作を管理し得る。コーディングの際に、コントローラ（６５０）は、各コーディングされたピクチャに特定のコーディングピクチャタイプを割り当てることができ、これは、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼし得る。例えば、ピクチャは、通常、次のピクチャタイプのいずれかに割り当てられ得る。

イントラピクチャ（Ｉピクチャ）は、予測のソースとしてシーケンス内の他のいかなるピクチャを使用せずにコーディングおよびデコーディングされ得るものであり得る。一部のビデオコーデックは、例えば、インディペンデントデコーダリフレッシュ（ＩｎｄｅｐｅｎｄｅｎｔＤｅｃｏｄｅｒＲｅｆｒｅｓｈ、「ＩＤＲ」）ピクチャを含む、異なるタイプのイントラピクチャを許容する。当業者は、Ｉピクチャのそれらの変形およびそれらのそれぞれの用途および特徴を知っている。

予測ピクチャ（Ｐピクチャ）は、各ブロックのサンプル値を予測するために最大１つの動きベクトルおよび参照インデックスを使用したイントラ予測またはインター予測によりコーディングおよびデコーディングされ得るものであり得る。

双方向予測ピクチャ（Ｂピクチャ）は、各ブロックのサンプル値を予測するために最大２つの動きベクトルおよび参照インデックスを使用したイントラ予測またはインター予測によりコーディングおよびデコーディングされ得るものであり得る。同様に、複数の予測ピクチャは、単一のブロックを再構成するために２つを超える参照ピクチャおよび関連メタデータを使用することができる

ソースピクチャは、一般に、複数のサンプルブロック（例えば、それぞれ、４×４、８×８、４×８、または１６×１６サンプルのブロック）に空間的に細分され、ブロックごとにコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割り当てによって決定された他の（既にコーディングされた）ブロックを参照して予測的にコーディングされ得る。例えば、Ｉピクチャのブロックは、非予測的にコーディングされてもよく、或いは、同一のピクチャの既にコーディングされたブロック（空間予測またはイントラ予測）を参照して予測的にコーディングされてもよい。Ｐピクチャの画素ブロックは、１つの予めコーディングされた参照ピクチャを参照して、空間予測を介してまたは時間予測を介して予測的にコーディングされ得る。Ｂピクチャのブロックは、１つまたは２つの以前にコーディングされた参照ピクチャを参照して、空間予測を介してまたは時間予測を介して予測的にコーディングされ得る。

ビデオエンコーダ（６０３）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５などの予め設定されたビデオコーディング技術または規格に従って、コーディング操作を実行することができる。動作中、ビデオエンコーダ（６０３）は、入力ビデオシーケンスの時間的および空間的冗長性を利用する予測コーディング操作を含む、様々な圧縮操作を実行することができる。したがって、コーティングされたビデオデータは、使用されるビデオコーディング技術または規格によって指定されたシンタックスに準拠する場合がある。

実施形態では、送信機（６４０）は、コーディングされたビデオとともに追加のデータを送信することができる。ソースコーダー（６３０）は、このようなデータをコーディングされたビデオシーケンスの一部として含み得る。追加のデータは、時間的／空間的／ＳＮＲエンハンスメントレイヤ、冗長なピクチャやスライスなどの他の形式での冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメントなどを含み得る。

ビデオは、時系列の複数のソースピクチャ（ビデオピクチャ）としてキャプチャされ得る。イントラピクチャ予測（「イントラ予測」と略されることが多い）は、所定のピクチャにおける空間的相関性を利用し、インターピクチャ予測は、ピクチャ間の（時間的または他の）相関性を利用する。一例では、現在のピクチャと呼ばれるエンコーディング／デコーディング中の特定のピクチャは、ブロックに分割される。現在のピクチャにおけるブロックが、ビデオにおける以前にコーディングされ、まだバッファリングされている参照ピクチャの参照ブロックに類似している場合、現在のピクチャにおけるブロックは、動きベクトルと呼ばれるベクトルによってコーディングされ得る。動きベクトルは、参照ピクチャの参照ブロックを指し、複数の参照ピクチャが使用されている場合、参照ピクチャを識別する第３次元を有することができる。

いくつかの実施形態では、インターピクチャ予測において双方向予測法を使用することができる。双方向予測法によれば、ビデオにおける現在のピクチャよりもデコーディング順序がそれぞれ前である（ただし、表示順序でそれぞれ過去および未来にあり得る）第１の参照ピクチャおよび第２の参照ピクチャのような２つの参照ピクチャを使用する。現在のピクチャにおけるブロックは、第１の参照ピクチャ内の第１の参照ブロックを指す第１の動きベクトル、および第２の参照ピクチャ内の第２の参照ブロックを指す第２の動きベクトルによってコーディングされ得る。ブロックは、第１の参照ブロックと第２の参照ブロックとの組み合わせによって予測され得る。

さらに、マージモード技術をインターピクチャ予測に適用して、コーディング効率を向上させることができる。

本開示のいくつかの実施形態によれば、インターピクチャ予測およびイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、ＨＥＶＣ規格によれば、ビデオ
ピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット（ＣＴＵ）に分割され、ピクチャ内のＣＴＵは、６４×６４画素、３２×３２画素、または１６×１６画素など、同一のサイズを有する。一般に、ＣＴＵは、１つのルマＣＴＢと２つのクロマＣＴＢである３つのコーディングツリーブロック（ＣＴＢ）を含む。各ＣＴＵは、１つまたは複数のコーディングユニット（ＣＵ）に再帰的に四分木分割され得る。例えば、６４×６４画素のＣＴＵは、６４×６４画素の１つのＣＵ、３２×３２画素の４つのＣＵ、または１６×１６画素の１６個のＣＵに分割され得る。一例では、各ＣＵを解析して、インター予測タイプまたはイントラ予測タイプなど、ＣＵの予測タイプを決定する。ＣＵは、時間的および／または空間的予測可能性に応じて、１つまたは複数の予測ユニット（ＰＵ）に分割される。通常、各ＰＵは、ルマ予測ブロック（ＰＢ）と２つのクロマＰＢを含む。実施形態では、コーディング（エンコーディング／デコーディング）における予測操作は、予測ブロックの単位で実行される。ルマ予測ブロックを予測ブロックの例として用いて、予測ブロックは、８×８画素、１６×１６画素、８×１６画素、１６×８画素など画素の値（例えば、ルマ値）の行列を含む。

図７は、本開示の他の実施形態によるビデオエンコーダ（７０３）の図を示す。ビデオエンコーダ（７０３）は、ビデオピクチャシーケンスにおける現在のビデオピクチャ内のサンプル値の処理ブロック（例えば、予測ブロック）を受信し、処理ブロックを、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャにコーディングするように構成される。一例では、図４の例におけるビデオエンコーダ（４０３）の代わりにビデオエンコーダ（７０３）を使用する。

ＨＥＶＣの例では、ビデオエンコーダ（７０３）は、８×８サンプルのような予測ブロックなどの処理ブロックのサンプル値の行列を受信する。ビデオエンコーダ（７０３）は、例えばレート歪み最適化を用いて、処理ブロックをイントラモード、インターモード、または双方向予測モードにより最良にコーディングするか否かを決定する。処理ブロックがイントラモードでコーディングされようとする場合、ビデオエンコーダ（７０３）は、イントラ予測法を用いて処理ブロックをコーディングされたピクチャにコーディングすることができる。また、処理ブロックがインターモードまたは双予測モードでコーディングされようとする場合、ビデオエンコーダ（７０３）は、それぞれインター予測または双方向予測法を用いて、処理ブロックをコーディングされたピクチャにコーディングすることができる。特定のビデオコーディング技術では、マージモードは、予測器外のコーディングされた動きベクトル成分を介することなく、１つまたは複数の動きベクトル予測器から動きベクトルを導出するインターピクチャ予測サブモードであり得る。特定の他のビデオコーディング技術では、対象ブロックに適用可能な動きベクトル成分が存在し得る。一例では、ビデオエンコーダ（７０３）は、処理ブロックのモードを決定するためのモード決定モジュール（図示せず）などの他の構成要素を含む。

図７の例では、ビデオエンコーダ（７０３）は、図７に示すように互いに結合されたインターエンコーダ（７３０）、イントラエンコーダ（７２２）、残差算出部（７２３）、スイッチ（７２６）、残差エンコーダ（７２４）、汎用コントローラ（７２１）およびエントロピーエンコーダ（７２５）を含む。

インターエンコーダ（７３０）は、現在のブロック（例えば、処理ブロック）のサンプルを受信し、ブロックを参照ピクチャ内の１つまたは複数の参照ブロック（例えば、前の先行ピクチャおよび後のピクチャ内のブロック）と比較し、インター予測情報（例えば、インターコーディング法による冗長情報の記述、動きベクトル、マージモード情報）を生成し、インター予測情報に基づいて任意の適切な技術を用いてインター予測結果（例えば、予測されたブロック）を算出するように構成される。いくつかの例では、参照ピクチャは、コーディングされたビデオ情報に基づいてデコーディングされた参照ピクチャである。

イントラエンコーダ（７２２）は、現在のブロック（例えば、処理ブロック）のサンプルを受信し、場合によっては該ブロックを同一のピクチャで既にコーディングされたブロックと比較し、変換後に、量子化された係数を生成し、場合によってはイントラ予測情報（例えば、１つまたは複数のイントラコーディング技術によるイントラ予測方向情報）をも生成するように構成される。一例では、イントラエンコーダ（７２２）は、同一のピクチャ内の参照ブロックおよびイントラ予測情報に基づいてイントラ予測結果（例えば、予測されたブロック）も算出する。

汎用コントローラ（７２１）は、汎用制御データを決定し、汎用括制御データに基づいてビデオエンコーダ（７０３）の他の構成要素を制御するように構成される。一例では、汎用コントローラ（７２１）は、ブロックのモードを決定し、このモードに基づいて制御信号をスイッチ（７２６）に提供する。例えば、モードがイントラモードである場合、汎用コントローラ（７２１）は、残差算出部（７２３）が使用するためのイントラモード結果を選択するようにスイッチ（７２６）を制御するとともに、イントラ予測情報を選択してイントラ予測情報をビットストリームに含ませるようにエントロピーエンコーダ（７２５）を制御する。また、モードがインターモードである場合、汎用コントローラ（７２１）は、残差算出部（７２３）が使用するためのインター予測結果を選択するようにスイッチ（７２６）を制御するとともに、インター予測情報を選択してインター予測情報をビットストリームに含ませるようにエントロピーエンコーダ（７２５）を制御する。

残差算出部（７２３）は、受信されたブロックとイントラエンコーダ（７２２）またはインターエンコーダ（７３０）から選択された予測結果との差（残差データ）を算出するように構成される。残差エンコーダ（７２４）は、残差データに基づいて動作し、残差データをコーディングして変換係数を生成するように構成される。一例では、残差エンコーダ（７２４）は、残差データを空間領域から周波数領域へ変換し、変換係数を生成するように構成される。その後、変換係数に対して量子化処理を行い、量子化された変換係数を得る。様々な実施形態では、ビデオエンコーダ（７０３）は、残差デコーダ（７２８）をさらに含む。残差デコーダ（７２８）は、逆変換を実行し、デコーディングされた残差データを生成するように構成される。デコーディングされた残差データは、イントラエンコーダ（７２２）およびインターエンコーダ（７３０）によって適切に使用され得る。例えば、インターエンコーダ（７３０）は、デコーディング残差データよびインター予測情報に基づいて、デコーディングブロックを生成することができ、且つイントラエンコーダ（７２２）は、デコーディングされた残差データおよびイントラ予測情報に基づいて、デコーディングブロックを生成することができる。いくつかの例では、デコーディングブロックは、デコーディングピクチャを生成するように適切に処理され、デコーディングピクチャは、メモリ回路（図示せず）にバッファリングされ、参照ピクチャとして使用され得る。

エントロピーエンコーダ（７２５）は、コーディングされたブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ（７２５）は、ＨＥＶＣ規格などの適切な規格に従って様々な情報を含むように構成される。一例では、エントロピーエンコーダ（７２５）は、汎用制御データ、選択された予測情報（例えば、イントラ予測情報またはインター予測情報）、残差情報、およびビットストリームにおける他の適切な情報を含むように構成される。開示された主題によれば、インターモードまたは双方向予測モードのマージサブモードでブロックをコーディングする場合、残差情報はないことに留意されたい。

図８は、本開示の他の実施形態によるビデオデコーダ（８１０）の図を示す。ビデオデコーダ（８１０）は、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャを受信し、コーディングされたピクチャをデコーディングして、再構成ピクチャを生成するように構成される。一例では、図４の例におけるビデオデコーダ（４１０）の代わりにビデオデコーダ（８１０）を使用する。

図８の例では、ビデオデコーダ（８１０）は、図８に示されるように互いに結合されたエントロピーデコーダ（８７１）、インターデコーダ（８８０）、残差デコーダ（８７３）、再構成モジュール（８７４）、およびイントラデコーダ（８７２）を含む。

エントロピーデコーダ（８７１）は、コーディングされたピクチャから、コーディングされたピクチャを構成する構文要素を表す特定のシンボルを再構成するように構成されることができる。このようなシンボルは、例えば、ブロックがコーディングされるモード（例えば、イントラモード、インターモード、双方向予測モード、後の両者のマージサブモードまたは他のサブモード）、それぞれイントラデコーダ（８７２）またはインターデコーダ（８８０）による予測に使用される特定のサンプルまたはメタデータを識別できる予測情報（例えば、イントラ予測情報またはインター予測情報）、例えば、量子化された変換係数の形式の残差情報などを含むことができる。一例では、予測モードがインターまたは双方向予測モードであれば、インター予測情報は、インターデコーダ（８８０）に提供される。また、予測タイプがイントラ予測タイプであれば、イントラ予測情報は、イントラデコーダ（８７２）に提供される。残差情報は、逆量子化され、残差デコーダ（８７３）に提供されることができる。

インターデコーダ（８８０）は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成される。

イントラデコーダ（８７２）は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成される。

残差デコーダ（８７３）は、逆量子化を実行して、逆量子化された変換係数を抽出し、逆量子化された変換係数を処理して残差を周波数領域から空間領域に変換するように構成される。残差デコーダ（８７３）は、特定の制御情報（量子化器パラメータ（ＱＰ）を含めるように）を必要とする場合があり、この情報は、エントロピーデコーダ（８７１）によって提供されてもよい（データパスは、少量の制御情報のみであり得るため、示されていない）。

再構成モジュール（８７４）は、空間領域において、残差デコーダ（８７３）によって出力された残差と、（場合によってはインターまたはイントラ予測モジュールによって出力される）予測結果とを組み合わせて、再構成ビデオの一部となり得る再構成ピクチャの一部であり得る再構成ブロックを形成するように構成される。なお、視覚的品質を改善するために、デブロッキング操作などの他の適切な操作を実行することができる。

なお、ビデオエンコーダ（４０３）、（６０３）および（７０３）とビデオデコーダ（４１０）、（５１０）および（８１０）は、任意の適切な技術を用いて実施されることができる。実施形態では、ビデオエンコーダ（４０３）、（６０３）および（７０３）とビデオデコーダ（４１０）、（５１０）および（８１０）は、１つまたは複数の集積回路を用いて実現され得る。別の実施形態では、ビデオエンコーダ（４０３）、（６０３）および（７０３）とビデオデコーダ（４１０）、（５１０）および（８１０）は、ソフトウェア命令を実行する１つまたは複数のプロセッサを用いて実現され得る。

ニューラルネットワーク技術はビデオコーディング技術と併用でき、ニューラルネットワークを利用したビデオコーディング技術はハイブリッドビデオコーディング技術と呼ぶことができる。たとえば、ループフィルタユニット（５５６）などのループフィルタユニットは、サンプルフィルタリングのために、さまざまなループフィルタを適用できる。１つまたは複数のループフィルタはニューラルネットワークによって実現され得る。本開示の各態様は、ニューラルネットワークを使用して画質を改善するためのハイブリッドビデオコーディング技術におけるループ内フィルタリング技術を提供する。具体的には、本開示の一態様によれば、データをニューラルネットワークに基づくループフィルタのカーネルに供給する前に、データをクリッピングする技術を使用することができる。

本開示の一態様によれば、ループフィルタは、参照データに影響を与えるフィルタである。例えば、ループフィルタユニット（５５６）によってフィルタリングされた画像は、参照ピクチャメモリ（５５７）などのバッファに、さらなる予測のために保存されている。ループ内フィルタは、ビデオコーデックのビデオ品質を向上させることができる。

図９は、いくつかの例におけるループフィルタユニット（９００）のブロック図を示している。一例では、ループフィルタユニット（９００）は、ループフィルタユニット（５５６）の代わりに使用され得る。図９の例では、ループフィルタユニット（９００）は、デブロッキングフィルタ（９０１）、サンプル適応オフセット（ＳＡＯ）フィルタ（９０２）、および適応ループフィルタ（ＡＬＦ）フィルタ（９０３）を含む。いくつかの例では、ＡＬＦフィルタ（９０３）は、クロス成分適応ループフィルタ（ＣＣＡＬＦ）を含み得る。

一例では、動作中、ループフィルタユニット（９００）は、再構成されたピクチャを受信し、再構成されたピクチャに様々なフィルタを適用し、再構成されたピクチャに応答して出力ピクチャを生成する。

いくつかの例では、デブロッキングフィルタ（９０１）及びＳＡＯフィルタ（９０２）は、ブロックコーディング技術を使用する際に導入されたブロッキングアーチファクトを除去するように構成される。デブロッキングフィルタ（９０１）は、ブロックコーディング技術を使用する際に形成された形状エッジを平滑化することができる。ＳＡＯフィルタ（９０２）は、ビデオフレーム内の他のサンプルに対する歪みを減らすために、サンプルに特定のオフセットを適用できる。ＡＬＦ（９０３）は、たとえば、サンプルのブロックに分類を適用し、そして分類に関連付けられたフィルタをサンプルのブロックに適用することができる。幾つかの例では、フィルタのフィルタ係数は、エンコーダによって決定され、デコーダにシグナリングされる。

いくつかの例（例えば、ＪＶＥＴ-Ｔ００５７）では、デブロッキングフィルタ（９０１）とＳＡＯフィルタ（９０２）の間に密な残差畳み込みニューラルネットワークに基づくループ内フィルタ（Dense residual convolutional neural network based in-loop filter, ＤＲＮＬＦ）と呼ばれる付加のフィルタを挿入することができる。ＤＲＮＬＦは、画質をさらに向上させることが期待できる。

図１０は、いくつかの例におけるループフィルタユニット（１０００）のブロック図を示す。一例では、ループフィルタユニット（１０００）は、ループフィルタユニット（５５６）の代わりに使用され得る。図１０の例では、ループフィルタユニット（１０００）は、デブロッキングフィルタ（１００１）、ＳＡＯフィルタ（１００２）、ＡＬＦフィルタ（１００３）、およびデブロッキングフィルタ（１００１）とＳＡＯとの間に配置されたＤＲＮＬＦフィルタ（１０１０）とを含む。

デブロッキングフィルタ（１００１）は、デブロッキングフィルタ（９０１）と同様に構成され、ＳＡＯフィルタ（１００２）は、ＳＡＯフィルタ（９０２）と同様に構成され、ＡＬＦフィルタ（１００３）は、ＡＬＦフィルタ（９０３）と同様に構成される。

ＤＲＮＬＦフィルタ（１０１０）は、デブロッキングされたピクチャ（１０１１）によって示されるデブロッキングフィルタ（１００１）の出力を受信するとともに、再構成されたピクチャの量子化パラメーター（ＱＰ）マッピングも受信する。ＱＰマップには、再構成されたピクチャにおけるブロックの量子化パラメータが含まれている。ＤＲＮＬＦフィルタ（１０１０）は、画質が向上されたフィルタリングされたピクチャ（１０１９）によって示されるピクチャを出力することができ、フィルタリングされたピクチャ（１０１９）は、さらなるフィルタ処理のためにＳＡＯフィルタ（１００２）に供給される。

本開示の一態様によれば、ビデオ処理のためのニューラルネットワークは、色空間における色成分を処理するための複数のチャネルを含み得る。一例では、色空間は、ＹＣｂＣｒモデルを使用して定義されることができる。ＹＣｂＣｒモデルにおいて、Ｙは、ルマ成分（明るさ）を表し、ＣｂおよびＣｒはクロマ成分を表す。以下の説明では、ＹＵＶは、ＹＣｂＣｒモデルを使用してエンコードされたフォーマットを表すために使用されることに留意されたい。

本開示の一態様によれば、ニューラルネットワークにおける複数のチャネルは、同じサイズの色成分を操作するように構成される。いくつかの例では、ピクチャは、異なるサイズの色成分によって表されることができる。例えば、人間の視覚システムは、色よりも明るさの変化にはるかに敏感であるため、ビデオシステムは、人間の目で視認されるような視覚的な差異が生じないように、クロマ成分を圧縮してファイルサイズを縮小し伝送時間を短縮することができる。いくつかの例では、クロマサブサンプリング手法は、ルマよりも色差に対する人間の視覚システムの鋭敏さを利用して、ルマ情報よりもクロマ情報の解像度を低くするために使用される。

いくつかの例では、サブサンプリングは、たとえば、４：４：４、４：２：０、４：２：２、４：１：１などの３部分の比率として表すことができる。例えば、４：４：４（ＹＵＶ４４４とも呼ばれる）は、各ＹＣｂＣｒ成分がサブサンプリングなしで同じサンプルレートを有することを示している。４：２：０（ＹＵＶ４２０とも呼ばれます）は、クロマ成分がサブサンプリングされたことを示し、４ピクセルごとに（またはＹ成分）がＣｂ成分とＣｒ成分に対応することができる。以下の説明では、サブサンプリングフォーマットとしてＹＵＶ４２０を使用することを例に、本開示に開示された技術について説明する。説明の便宜上、サブサンプリングなしで同じサンプルレートを持つ色成分のフォーマット（例えば、ＹＵＶ４４４）は、非サブサンプリングフォーマットと呼ばれ、サブサンプリングされた少なくとも１つの色成分のフォーマット（例えば、ＹＵＶ４２０、ＹＵＶ４２２、ＹＵＶ４１１など）は、サブサンプリングフォーマットと呼ばれる。

通常、ニューラルネットワークは非サブサンプリングフォーマットのピクチャ（例えば、ＹＵＶ４４４）を操作することができる。したがって、サブサンプリングフォーマットのピクチャの場合、ピクチャは入力としてニューラルネットワークネットワークに提供される前に非サブサンプリングフォーマットに変換される。

図１１は、いくつかの例におけるＤＲＮＬＦフィルタ（１１００）のブロック図を示す。一例では、ＤＲＮＬＦフィルタ（１０１０）の代わりにＤＲＮＬＦフィルタ（１１００）を使用することができる。ＤＲＮＬＦフィルタ（１１００）は、図１１に示すように互いに結合されたＱＰマップ量子化器（１１１０）、前処理モジュール（１１２０）、メイン処理モジュール（１１３０）および後処理モジュール（１１４０）を含む。メイン処理モジュール（１１３０）には、図１１に示されるように互いに結合されたパッチフェッチャー（１１３１）、パッチに基づくＤＲＮＬＦカーネル処理モジュール（１１３２）およびパッチリアセンブラ（１１３３）を含む。

いくつかの例では、ＱＰマップには、現在の再構成ピクチャ内の各ブロックを再構成するために適用されるＱＰ値のマップが含まれている。ＱＰマップ量子化器（１１１０）は、値を一連の所定の値に量子化することができる。一例（ＪＶＥＴ-Ｔ００５７など）では、ＱＰ値は、ＱＰマップ量子化器（１１１０）によって２２、２７、３２および３７のうちの１つに量子化することができる。

前処理モジュール（１１２０）は、第１のフォーマットのデブロッキングされたピクチャを受け取り、メイン処理モジュール（１１３０）によって使用される第２のフォーマットに変換することができる。例えば、メイン処理モジュール（１１３０）は、ＹＵＶ４４４フォーマットを有するピクチャを処理するように構成される。前処理モジュール（１１２０）がＹＵＶ４４４フォーマットとは異なるフォーマットのデブロッキングされたピクチャを受信すると、前処理モジュール（１１２０）は、異なるフォーマットのデブロッキングされたピクチャを処理し、ＹＵＶ４４４フォーマットのデブロッキングされたピクチャを出力することができる。たとえば、前処理モジュール（１１２０）は、ＹＵＶ４２０フォーマットのデブロッキングされたピクチャを受信し、次に、ＵおよびＶクロマチャネルを水平方向および垂直方向に係数２補間して、ＹＵＶ４４４フォーマットのデブロッキングされたピクチャを生成する。

メイン処理モジュール（１１３０）は、ＹＵＶ４４４フォーマットのデブロッキングされたピクチャを受信し、量子化されたＱＰマップを入力として受信できる。パッチフェッチャー（１１３１）は、入力をパッチに分解する。ＤＲＮＬＦカーネル処理モジュール（１１３２）は、ＤＲＮＬＦカーネルに基づいて、それぞれのパッチを処理することができる。パッチリアセンブラ（１１３３）は、ＤＲＮＬＦカーネル処理モジュール（１１３２）によって処理されたパッチを、ＹＵＶ４４４フォーマットのフィルタリングされたピクチャに組み立てることができる。

後処理モジュール（１１４０）は、第２のフォーマットのフィルタリングされたピクチャを第１のフォーマットに戻す。例えば、後処理モジュール（１１４０）は、（メイン処理モジュール（１１３０）から出力された）ＹＵＶ４４４フォーマットのフィルタリングされたピクチャを受信し、ＹＵＶ４２０フォーマットのフィルタリングされたピクチャを出力する。

図１２は、いくつかの例における前処理モジュール（１２２０）のブロック図を示す。一例では、前処理モジュール（１１２０）の代わりに前処理モジュール（１２２０）が使用されている。

前処理モジュール（１２２０）は、ＹＵＶ４２０フォーマットのデブロッキングされたピクチャを受信し、デブロッキングされたピクチャをＹＵＶ４４４フォーマットに変換し、ＹＵＶ４４４フォーマットのデブロッキングされたピクチャを出力することができる。具体的には、前処理モジュール（１２２０）は、Ｙ成分用のルマ入力チャネルと、それぞれＵ（Ｃｂ）成分用及びＶ（Ｃｒ）成分用の２つのクロマ入力チャネルを含む３つの入力チャネルによって、デブロッキングされたピクチャを受信する。また、前処理モジュール（１２２０）は、Ｙ成分用のルマ出力チャネルと、それぞれＵ（Ｃｂ）成分用及びＶ（Ｃｒ）成分用の２つのクロマ出力チャネルを含む３つの出力チャネルによって、デブロッキングされたピクチャを出力する。

一例では、デブロッキングされたピクチャがＹＵＶ４２０フォーマットの場合、Ｙ成分のサイズは（Ｈ、Ｗ）、Ｕ成分のサイズは（Ｈ/２、Ｗ/２）、Ｖ成分のサイズは（Ｈ/２、Ｗ/２）である。ここで、Ｈは、デブロッキングされたピクチャの高さ（例えば、サンプル単位で）を表し、Ｗは、デブロッキングされたピクチャの幅（例えば、サンプル単位で）を表す。

図１２の例では、前処理モジュール（１２２０）は、Ｙ成分のサイズを変更しない。前処理モジュール（１２２０）は、ルマ入力チャネルから、サイズ（Ｈ、Ｗ）のＹ成分を受け取り、サイズ（Ｈ、Ｗ）のＹ成分をルマ出力チャネルへ出力する。

前処理モジュール（１２２０）は、それぞれＵ成分およびＶ成分のサイズを変更する。前処理モジュール（１２２０）は、Ｕ成分およびＶ成分をそれぞれ処理するための第１のサイズ変更ユニット（１２２１）および第２のサイズ変更ユニット（１２２２）を含む。たとえば、第１のサイズ変更ユニット（１２２１）は、サイズ（Ｈ/２、Ｗ/２）のＵ成分を受信し、Ｕ成分のサイズをサイズ（Ｈ、Ｗ）に変更し、サイズ（Ｈ、Ｗ）のＵ成分をＵ成分用のクロマ出力チャネルへ出力する。第２のサイズ変更ユニット（１２２２）は、サイズ（Ｈ/２、Ｗ/２）のＶ成分を受信し、Ｖ成分のサイズをサイズ（Ｈ、Ｗ）に変更し、サイズ（Ｈ、Ｗ）のＶ成分をＶ成分用のクロマ出力チャネルへ出力する。幾つかの例では、第１のサイズ変更ユニット（１２２１）は補間に基づいて、例えばＬａｎｃｚｏｓ補間フィルタを使用してＵ成分のサイズを変更する。同様に、いくつかの例では、第２のサイズ変更ユニット（１２２２）は補間に基づいて、例えばＬａｎｃｚｏｓ補間フィルタを使用してＶ成分のサイズを変更する。

いくつかの例では、Ｌａｎｃｚｏｓ補間フィルタなどを使用する補間演算は、補間演算の出力が、意味のあるＵ（Ｃｂ）成分およびＶ（Ｃｒ）成分に対して非負であるなど、意味のある値であることを保証できない。いくつかの例では、前処理されたＹＵＶ４４４フォーマットのデブロッキングされたピクチャを保存し、その後、保存されたＹＵＶ４４４フォーマットのピクチャをニューラルネットワークのトレーニングプロセスで使用できる。Ｕ（Ｃｂ）成分及びＶ（Ｃｒ）成分の負の値は、ニューラルネットワークのトレーニングプロセスの結果に悪影響を与える恐れがある。

図１３は、ニューラルネットワーク構造（１３００）のブロック図を示す。いくつかの例では、ニューラルネットワーク構造（１３００）は、密な残差畳み込みニューラルネットワークに基づくループ内フィルタ（ＤＲＮＬＦ）に使用され、パッチによるＤＲＮＬＦカーネル処理モジュール（１１３２）に代わって使用され得る。ニューラルネットワーク構造（１３００）には、ＤＲＵ（１３０１）～
ＤＲＵ（１３０４）などの一連の密な残差ユニット（Dense Residual Unit，ＤＲＵ）が含まれ、ＤＲＵの数はＮで表される。図１３では、畳み込みカーネルの数はＭで表され、Ｍは畳み込み用の出力チャネルの数でもある。たとえば、「ＣＯＮＶ３×３×Ｍ」は、カーネルサイズが３×３のＭ個の畳み込みカーネルによる標準畳み込みを示し、「ＤＳＣ３×３×Ｍ」は、カーネルサイズが３×３のＭ個の畳み込みカーネルによる深さ方向の分離可能な畳み込みを示す。ＮとＭは、計算効率と性能の両立から設定され得る。一例（例えばＪＶＥＴ-Ｔ００５７）では、Ｎは４、Ｍは３２に設定される。

動作中、ニューラルネットワーク構造（１３００）は、デブロッキングされたピクチャをパッチごとに処理する。ＹＵＶ４４４フォーマットのデブロッキングされたピクチャの各パッチについて、パッチは正規化され（たとえば、図１３の例では１０２３で除算される）、デブロッキングされたピクチャの平均値が正規化されたパッチから削除され、内部入力（１３１３）の第１の部分（１３１１）を取得する。内部入力（１３１３）の第２の部分はＱＰマップからのものである。たとえば、第１の部分（１３１１）を形成するパッチに対応するＱＰマップのパッチ（ＱＰマップパッチと呼ばれる）は、ＱＰマップから取得される。ＱＰマップパッチは正規化され（たとえば、図１３では５１で除算される）、正規化されたＱＰマップパッチは、内部入力（１３１３）の第２の部分（１３１２）となる。第２の部分（１３１２）は、内部入力（１３１３）を取得するために、第１の部分（１３１１）に連結されている。内部入力（１３１３）は、第１の標準畳み込みブロック（１３５１）（ＣＯＮＶ
３ｘ３ｘＭで示される）に提供される。そして、第１の標準畳み込みブロック（１３５１）の出力はＮ個のＤＲＵによって処理される。

ＤＲＵごとに、中間入力が受信され処理される。ＤＲＵの出力は中間入力と連結されて、次のＤＲＵのための中間入力を形成する。例として、ＤＲＵ（１３０２）を使用する場合、ＤＲＵ（１３０２）は中間入力（１３２１）を受信し、中間入力（１３２１）を処理し、出力（１３２２）を生成する。出力（１３２２）は中間入力（１３２１）と連結されて、ＤＲＵ（１３０３）のための中間入力（１３２３）が形成される。

なお、中間入力（１３２１）はＭ個以上のチャネルを有するため、中間入力（１３２１）に「ＣＯＮＶ１×１×Ｍ」の畳み込み演算を適用して、ＤＲＵ（１３０２）でさらに処理するためのＭ個のチャネルを生成することができる。また、第１の標準畳み込みブロック（１３５１）の出力にはＭ個のチャネルが含まれているため、「ＣＯＮＶ１×１×Ｍ」の畳み込み演算を使用せずに、この出力をＤＲＵ（１３０１）で処理することができることにも留意されたい。

最後のＤＲＵの出力は、最後の標準畳み込みブロック（１３５９）に提供される。最後の標準畳み込みブロック（１３５９）の出力は、例えば、図１３に示すように、デブロッキングされたピクチャの平均値を加算し１０２３を乗算することによって、標準ピクチャパッチ値に変換される。

図１４は、密な残差ユニット（ＤＲＵ）（１４００）のブロック図を示す。いくつかの例では、ＤＲＵ（１３０１）ＤＲＵ（１３０２）、ＤＲＵ（１３０３）及びＤＲＵ（１３０４）などの図１３における各ＤＲＵの代わりにＤＲＵ（１４００）を使用することができる。

図１４の例では、ＤＲＵ（１４００）は、中間入力ｘを受信するとともに、ショートカット（１４０１）を介して中間入力ｘを後続のＤＲＵに直接伝播する。ＤＲＵ（１４００）はまた、標準処理パス（１４０２）を含む。いくつかの例では、標準処理パス（１４０２）は、標準畳み込み層（１４１１）、深さ方向の分離可能な畳み込み（ＤＳＣ）層（１４１２）および（１４１４）、ならびに正規化線形ユニット
（ＲｅＬＵ）層（１４１３）を含む。例えば、中間入力ｘは、標準処理パス（１４０２）の出力と連結されて、後続のＤＲＵのための中間入力を形成する。

いくつかの例では、ＤＳＣ層（１４１２）および（１４１４）は、計算コストを削減するために使用される。

本開示の一態様によれば、ニューラルネットワーク構造（１３００）は、Ｙ、Ｕ（Ｃｂ）、Ｖ（Ｃｒ）成分にそれぞれ対応する３つのチャネルを含む。幾つかの例では、この３つのチャネルは、Ｙチャネル、Ｕチャネル、およびＵチャネルと呼ぶことができる。ＤＲＮＬＦフィルタ（１１００）は、イントラピクチャとインターピクチャの両方に適用できる。いくつかの例では、ピクチャレベルとＣＴＵレベルでＤＲＮＬＦフィルタ（１１００）のオン／オフを示す追加のフラグがシグナリングされる。

図１５は、いくつかの例における後処理モジュール（１５４０）のブロック図を示す。一例では、後処理モジュール（１５４０）は、後処理モジュール（１１４０）の代わりに使用され得る。後処理モジュール（１５４０）には、Ｙ成分、Ｕ成分、Ｖ成分の値をそれぞれ予め定められた非負の範囲[ａ、ｂ]にクリッピングするクリッピングユニット（１５４１）～（１５４３）を含む。一例では、非負の範囲の下限ａと上限ｂは、ａ＝１６×４およびｂ＝２３４×４として設定され得る。さらに、後処理モジュール（１５４０）は、それぞれ、クリッピングされたＵ成分及びＶ成分をサイズ（Ｈ、Ｗ）からサイズ（Ｈ/２、Ｗ/２）にクリッピングするサイズ変更ユニット（１５４５）及びサイズ変更ユニット（１５４６）を含む。ここで、Ｈは、元のピクチャ（デブロッキングされたピクチャなど）の高さ、Ｗは元のピクチャの幅である。

本開示の態様は、前処理の技術を提供する。前処理されたデータを保存してニューラルネットワークのトレーニングに使用し、より良いトレーニングと推論の結果を得ることができる。

図１６は、いくつかの例における前処理モジュール（１６２０）のブロック図を示す。一例では、前処理モジュール（１１２０）の代わりに前処理モジュール（１６２０）が使用されている。

前処理モジュール（１６２０）は、ＹＵＶ４２０フォーマットのデブロッキングされたピクチャを受信し、デブロッキングされたピクチャをＹＵＶ４４４フォーマットに変換し、ＹＵＶ４４４フォーマットのデブロッキングされたピクチャを出力することができる。具体的には、前処理モジュール（１６２０）は、Ｙ成分用のルマ入力チャネルと、それぞれＵ（Ｃｂ）成分用及びＶ（Ｃｒ）成分用の２つのクロマ入力チャネルを含む３つの入力チャネルによって、デブロッキングされたピクチャを受信する。また、前処理モジュール（１６２０）は、Ｙ成分用のルマ出力チャネルと、それぞれＵ（Ｃｂ）成分用及びＶ（Ｃｒ）成分用の２つのクロマ出力チャネルを含む３つの出力チャネルによって、デブロッキングされたピクチャを出力する。

図１６の例では、前処理モジュール（１６２０）は、Ｙ成分のサイズを変更しない。前処理モジュール（１６２０）は、ルマ入力チャネルから、サイズ（Ｈ、Ｗ）のＹ成分を受け取り、サイズ（Ｈ、Ｗ）のＹ成分をルマ出力チャネルへ出力する。

前処理モジュール（１６２０）は、Ｕ成分およびＶ成分のサイズをそれぞれ変更する。前処理モジュール（１６２０）は、Ｕ成分およびＶ成分をそれぞれ処理するための第１のサイズ変更ユニット（１６２１）および第２のサイズ変更ユニット（１６２２）を含む。たとえば、第１のサイズ変更ユニット（１６２１）は、サイズ（Ｈ/２、Ｗ/２）のＵ成分を受信し、Ｕ成分のサイズをサイズ（Ｈ、Ｗ）に変更し、サイズ（Ｈ、Ｗ）のＵ成分をＵ成分用のクロマ出力チャネルへ出力する。第２のサイズ変更ユニット（１６２２）は、サイズ（Ｈ/２、Ｗ/２）のＶ成分を受信し、Ｖ成分のサイズをサイズ（Ｈ、Ｗ）に変更し、サイズ（Ｈ、Ｗ）のＶ成分をＶ成分用のクロマ出力チャネルへ出力する。幾つかの例では、第１のサイズ変更ユニット（１６２１）は補間に基づいて、例えばＬａｎｃｚｏｓ補間フィルタを使用してＵ成分のサイズを変更する。同様に、いくつかの例では、第２のサイズ変更ユニット（１６２２）は補間に基づいて、例えばＬａｎｃｚｏｓ補間フィルタを使用してＶ成分のサイズを変更する。

いくつかの例では、Ｌａｎｃｚｏｓ補間フィルタなどを使用する補間演算は、補間演算の出力が、意味のあるＵ（Ｃｂ）成分およびＶ（Ｃｒ）成分に対して非負であるなど、意味のある値であることを保証できない。

図１６の例では、前処理モジュール（１６２０）は、補間された後のＵ成分およびＶ成分の値を［ｃ、ｄ］の範囲にそれぞれクリッピングするためのクリッピングユニット（１６２５）および（１６２６）を含む。いくつかの例では、前処理用のＹ成分、Ｕ成分及びＶ成分の値は、ビット深度が１０であるため、ｃとｄは、ｃ=０且つｄ=２^{ｂｉｔｄｅｐｔｈ}-１=１０２３として設定できる。

一例では、ｃ値とｄ値が予め定義され使用される。別の一例では、ｃ値とｄ値の複数のペアが予め定義され、クリッピングで使用されるｃ値とｄ値のペアのインデックスは、シーケンスパラメータセット（ＳＰＳ）、ピクチャパラメータセット（ＰＰＳ）、スライスまたはタイルヘッダーなどのビットストリームでシグナリングされ得る。

いくつかの例では、Ｕ成分とＶ成分のクリッピングされた値とＹ成分の値は、デブロッキングされたピクチャとしてＹＵＶ４４４フォーマットで保存されることができる。いくつかの実施形態では、ＹＵＶ４４４フォーマットの保存されたピクチャは、メイン処理モジュール（１１３０）のニューラルネットワークなどのニューラルネットワークのトレーニングプロセスで入力として使用され得る。いくつかの例では、ＵおよびＶ成分の値は、ニューラルネットワークのトレーニングプロセスに悪影響を及ぼさない範囲にクリッピングされる。一例では、Ｕ成分とＶ成分の値が非負になるようにクリッピングされている。

いくつかの例では、ＹＵＶ４４４フォーマットで保存されたクリッピングされた値をもつピクチャを使用する場合、トレーニング中の前処理（例えば、サイズ変更、クリッピング）ステップを回避することにより、時間が節約されているため、ニューラルネットワークのトレーニングを高速化することができる。また、ニューラルネットワークは、圧縮効率および／または画質を改善できる、より優れたモデルパラメータを使用してトレーニングすることができる。

いくつかの例では、前処理モジュール（１６２０）にクリッピングユニット（１６２５）および（１６２６）を追加することにより、例えば、より低いビオンテガードデルタレート（ＢＤレート）で、圧縮効率および／または画質を改善することができる。

図１７は、本開示の実施形態によるプロセス（１７００）を概説するフローチャートを示す。プロセス（１７００）は、ビデオを処理するために使用され得る。様々な実施形態では、プロセス（１７００）は、端末装置（３１０）、（３２０）、（３３０）および（３４０）内の処理回路、ビデオエンコーダ（４０３）の機能を実行する処理回路、ビデオデコーダ（４１０）の機能を実行する処理回路、ビデオデコーダ（５１０）の機能を実行する処理回路、ビデオエンコーダ（６０３）の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、プロセス（１７００）はソフトウェア命令で実現されるため、処理回路がソフトウェア命令を実行すると、処理回路はプロセス（１７００）を実行する。該プロセスは、（Ｓ１７０１）で開始し、（Ｓ１７１０）に進む。

（Ｓ１７１０）において、色空間におけるサブサンプリングフォーマットのピクチャを色空間における非サブサンプリングフォーマットに変換する。いくつかの例では、変換は補間に基づいて実行され、無効値が生じる可能性がある。一例では、変換によってＹＣｂＣｒモデルに無効な負の値が生じる可能性がある。

（Ｓ１７２０）において、非サブサンプリングフォーマットのピクチャを入力としてニューラルネットワークに基づくフィルタに提供する前に、非サブサンプリングフォーマットのピクチャの１つまたは複数の色成分の値をクリッピングする。いくつかの例では、１つまたは複数の色成分はクロマ成分であり得る。次に、プロセスは（Ｓ１７９９）に進む。

一例では、非サブサンプリングフォーマットのピクチャの色成分の値を、該色成分の有効範囲にクリッピングする。一例では、非サブサンプリングフォーマットのピクチャの色成分の値は非負になるようにクリッピングされる。別の一例では、ビット深度に基づいて範囲を決定する。たとえば、この範囲の下限は０、且つこの範囲の上限は（２^{ｂｉｔｄｅｐｔｈ}）-１に設定される。

いくつかの例では、この範囲は予め定められている。いくつかの例では、ピクチャを含むビットストリームからのデコーディングされた情報に基づいて、範囲を決定する。いくつかの例では、ビットストリームにおけるシーケンスパラメータセット、ピクチャパラメータセット、スライスヘッダー及びタイルヘッダーのうち少なくとも１つから、範囲を示す信号をデコーディングする。

一例では、複数の範囲を予め定めることができる。そして、ビットストリームにおけるシーケンスパラメータセット、ピクチャパラメータセット、スライスヘッダー及びタイルヘッダーのうち少なくとも１つに、複数の範囲のうちの１つを示すインデックスを含むことができる。

いくつかの例では、デコーダにおいてプロセス（１７００）を使用する。例えば、ビットストリームからのデコーディングされた情報に基づいて、サブサンプリングフォーマットのピクチャを再構成し、且つサブサンプリングフォーマットのピクチャをサブサンプリングフォーマットから非サブサンプリングフォーマットに変換する前に、サブサンプリングフォーマットのピクチャにデブロッキングフィルタを適用する。別の一例では、ニューラルネットワークに基づくフィルタを、クリッピングされた値を有する非サブサンプリングフォーマットのピクチャに適用することで、非サブサンプリングフォーマットのフィルタリングされたピクチャを生成し、その後、非サブサンプリングフォーマットのフィルタリングされたピクチャを、サブサンプリングフォーマットのフィルタリングされたピクチャに変換する。

いくつかの例では、クリッピングされた値を有する非サブサンプリングフォーマットのピクチャをストレージに保存させる。次に、クリッピングされた値を有する非サブサンプリングフォーマットのピクチャおよび他のピクチャをトレーニング入力として提供し、ニューラルネットワークに基づくフィルターにおけるニューラルネットワークをトレーニングすることができる。

上記の説明における様々なユニット、ブロックおよびモジュールは、処理回路、ソフトウェア命令を実行するプロセッサ、ハードウェアとソフトウェアの組み合わせなどの様々な技術によって実現され得ることに留意されたい。

以上で説明された技術は、コンピュータ読取可能な命令を使用するコンピュータソフトウェアとして実現され、１つまたは複数のコンピュータ読取可能な媒体に物理的に記憶されることができる。例えば、図１８は、開示された主題の特定の実施形態を実行することに適したコンピュータシステム（１８００）を示す。

コンピュータソフトウェアは、アセンブリ、コンパイル、リンク、またはそのようなメカニズムを施されて、１つまたは複数のコンピュータ中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）などによって直接、または解釈、マイクロコード実行などによって実行され得る命令を含むコードを作成する任意の適切な機械コードまたはコンピュータ言語を用いてコーディングされることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはそのコンポーネント上で実行されることができる。

コンピュータシステム（１８００）について、図１８に示される例示的なコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関していかなる限定を示唆することも意図されない。またコンポーネントの構成は、コンピュータシステム（１８００）の例示的な実施形態で示されるコンポーネントのうちのいずれか１つ又は組み合わせに関する任意の依存性又は必要性を有するとして解釈されるべきでもない。

コンピュータシステム（１８００）は、特定のヒューマンインターフェース入力デバイスを含み得る。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（音声、拍手など）、視覚入力（ジェスチャーなど）、嗅覚入力（示されていない）によって、１人以上のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、オーディオ（音声、音楽、環境音など）、ピクチャ（走査画像、静止画像カメラから取得される写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）など、人間による意識的な入力に必ずしも直接関係しない特定のメディアをキャプチャすることにも使用され得る。

入力ヒューマンインターフェースデバイスは、キーボード（１８０１）、マウス（１８０２）、トラックパッド（１８０３）、タッチスクリーン（１８１０）、データグローブ（図示せず）、ジョイスティック（１８０５）、マイクフォン（１８０６）、スキャナ（１８０７）、カメラ（１８０８）（各種につき１つのみ示されている）のうちの１つまたは複数を含み得る。

コンピュータシステム（１８００）は、特定のヒューマンインターフェース出力デバイスをも含み得る。このようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音声、光、および嗅覚／味覚を介して１人以上のユーザの感覚を刺激し得る。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（１８１０）、データグローブ（図示せず）、またはジョイスティック（１８０５）による触覚フィードバックがあるが、入力デバイスとして機能しない触覚フィードバックデバイスであってもよい）、オーディオ出力デバイス（スピーカ（１８０９）、ヘッドホン（図示せず）など）、視覚出力デバイス（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（１８１０）（それぞれタッチスクリーン入力能力を有するかもしくは有せず、それぞれ触覚フィードバック能力を有するかもしくは有しない。それらの一部は、ステレオグラフィック出力などの手段を介して、２次元の視覚出力または３次元以上の出力を出力することができる）、仮想現実眼鏡（図示せず）、ホログラフィックディスプレおよびスモークタンク（図示せず）など）、およびプリンタ（図示せず）を含み得る。

コンピュータシステム（１８００）は、人間がアクセス可能な記憶装置およびそれらの関連する媒体、例えば、ＣＤ／ＤＶＤなどの媒体（１８２１）付きのＣＤ／ＤＶＤＲＯＭ／ＲＷ（１８２０）を含む光学媒体、サムドライブ（１８２２）、リムーバブルハードドライブまたはソリッドステートドライブ（１８２３）、テープやフロッピー（登録商標）ディスクなどの従来の磁気媒体（図示せず）、セキュリティドングルなどの専用のＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイス（図示せず）などをも含み得る。

ここで、開示された主題に合わせて使用される「コンピュータ読取可能な媒体」という用語は、送信媒体、搬送波、または他の一時的な信号を含まないことは、当業者に理解されるべきであろう。

コンピュータシステム（１８００）は、１つまたは複数の通信ネットワーク（１８５５）へのインターフェース（１８５４）をさらに含み得る。ネットワークは、例えば、無線、有線、光学的であり得る。ネットワークは、さらに、ローカル、広域、大都市圏、車両用および産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例としては、イーサネット（登録商標）、無線ＬＡＮなどのローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、および地上放送ＴＶを含むＴＶ有線または無線広域デジタルネットワーク、ＣＡＮＢｕｓを含む車両用や産業用などが含まれる。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（１８４９）（例えば、コンピューターシステム（１８００）のＵＳＢポートなど）に接続された外部ネットワークインターフェースアダプターを必要とする。他のものは一般に、以下で説明するようにシステムバスに接続することにより、コンピューターシステム（１８００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネット（登録商標）インターフェースまたはスマートフォンコンピューターシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを用いて、コンピュータシステム（１８００）は、他のエンティティと通信することができる。このような通信は、単方向の受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、または双方向、例えばローカルまたはワイドエリアデジタルネットワークを用いる他のコンピュータシステムへの送信であり得る。特定のプロトコルおよびプロトコルスタックを上述したこれらのネットワークおよびネットワークインターフェースのそれぞれで使用することができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶装置、およびネットワークインターフェースは、コンピュータシステム（１８００）のコア（１８４０）に接続されることができる。

コア（１８４０）は、１つまたは複数の中央処理装置（ＣＰＵ）（１８４１）、グラフィックスプロセッシングユニット（ＧＰＵ）（１８４２）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）（１８４３）の形式の専用プログラマブル処理ユニット、特定のタスク向けのハードウェアアクセラレータ（１８４４）、グラフィックアダプタ（１８５０）などを含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ）（１８４５）、ランダムアクセスメモリ（１８４６）、非ユーザアクセス可能な内部ハードドライブ、ＳＳＤなどの内部大容量記憶装置（１８４７）とともに、システムバス（１８４８）を介して接続されてもよい。一部のコンピュータシステムでは、システムバス（１８４８）は、１つまたは複数の物理プラグの形態でアクセスでき、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にする。周辺機器は、コアのシステムバス（１８４８）に直接、または周辺バス（１８４９）を介して接続され得る。一例では、ディスプレイ（１８１０）は、グラフィックアダプタ（１８５０）に接続され得る。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢなどを含む。

ＣＰＵ（１８４１）、ＧＰＵ（１８４２）、ＦＰＧＡ（１８４３）、およびアクセラレータ（１８４４）は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（１８４５）またはＲＡＭ（１８４６）に記憶され得る。移行データはＲＡＭ（１７４６）にも記憶できるが、永続データは、例えば、内部大容量ストレージ（１８４７）に記憶され得る。１つまたは複数のＣＰＵ（１８４１）、ＧＰＵ（１８４２）、大容量ストレージ（１８４７）、ＲＯＭ（１８４５）、ＲＡＭ（１８４６）などと密接に関連付けることができるキャッシュメモリを使用することにより、任意のメモリデバイスへの高速保存および検索が可能になる。

コンピュータ読取可能な媒体は、様々なコンピュータ実現操作を実行するためのコンピュータコードを備えることができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであり得るか、もしくは、それらは、コンピュータソフトウェア技術の当業者に周知であって利用可能な種類のものであり得る。

限定ではなく、一例として、アーキテクチャを有するコンピュータシステム（１８００）、特にコア（１８４０）は、１つまたは複数の有形のコンピュータ読取可能な媒体に組み込まれたソフトウェアを実行するプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）の結果としての機能を提供することができる。このようなコンピュータ読取可能な媒体は、以上で説明されたようにユーザがアクセス可能な大容量ストレージ、および、コア内部大容量ストレージ（１８４７）またはＲＯＭ（１８４５）などの非一時的な性質を持つコア（１８４０）の特定のストレージに関連付けられた媒体であり得る。本開示の様々な実施形態を実行するソフトウェアは、このようなデバイスに記憶され、コア（１８４０）によって実行されることができる。コンピュータ読取可能な媒体は、特定の必要に応じて、１つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（１８４０）、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（１８４６）に記憶されたデータ構造を定義すること、および、ソフトウェアで定義されたプロセスに従ってこのようなデータ構造を変更することを含む、ここで説明する特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または、代替として、コンピュータシステムは、本明細書に記載された特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりにまたは一緒に動作することができる回路（例えば、アクセラレータ（１８４４））に有線接続されたまたは組み込まれたロジックの結果としての機能を提供することができる。ソフトウェアへの引用は、必要に応じて、ロジックを含むことができ、その逆も同様である。コンピュータ読取可能な媒体への引用は、必要に応じて、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のためのロジックを具現化する回路、またはその両方を含むことができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを含む。

付録Ａ：頭字語
ＪＥＭ：ＪｏｉｎｔＥｘｐｌｏｒａｔｉｏｎＭｏｄｅｌ（共同探索モデル）
ＶＶＣ：ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（多用途ビデオコーディング）
ＢＭＳ：ＢｅｎｃｈｍａｒｋＳｅｔ（ベンチマークセット）
ＭＶ：ＭｏｔｉｏｎＶｅｃｔｏｒ（動きベクトル）
ＨＥＶＣ：ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ（高効率ビデオコーディング）
ＳＥＩ：ＳｕｐｐｌｅｍｅｎｔａｒｙＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ（補足拡張情報）
ＶＵＩ：ＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ（ビデオユーザビリティ情報）
ＧＯＰ：ＧｒｏｕｐｓｏｆＰｉｃｔｕｒｅｓ（グループオブピクチャ）
ＴＵ：ＴｒａｎｓｆｏｒｍＵｎｉｔｓ（変換ユニット）
ＰＵ：ＰｒｅｄｉｃｔｉｏｎＵｎｉｔｓ（予測ユニット）
ＣＴＵ：ＣｏｄｉｎｇＴｒｅｅＵｎｉｔｓ（コーディングツリーユニット）
ＣＴＢ：ＣｏｄｉｎｇＴｒｅｅＢｌｏｃｋｓ（コーディングツリーブロック）
ＰＢ：ＰｒｅｄｉｃｔｉｏｎＢｌｏｃｋｓ（予測ブロック）
ＨＲＤ：ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ（仮想参照デコーダ）
ＳＮＲ：ＳｉｇｎａｌＮｏｉｓｅＲａｔｉｏ（信号対雑音比）
ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ（中央処理装置）
ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ（グラフィックスプロセッシングユニット）
ＣＲＴ：ＣａｔｈｏｄｅＲａｙＴｕｂｅ（陰極線管）
ＬＣＤ：Ｌｉｑｕｉｄ－ＣｒｙｓｔａｌＤｉｓｐｌａｙ（液晶ディスプレイ）
ＯＬＥＤ：ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ（有機発光ダイオード）
ＣＤ：ＣｏｍｐａｃｔＤｉｓｃ（コンパクトディスク）
ＤＶＤ：ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ（デジタルビデオディスク）
ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ（リードオンリーメモリ）
ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ランダムアクセスメモリ）
ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ（特定用途向け集積回路）
ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ（プログラマブルロジックデバイス）
ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ（ローカルエリアネットワーク）
ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ（グローバルモバイル通信システム）
ＬＴＥ：Ｌｏｎｇ－ＴｅｒｍＥｖｏｌｕｔｉｏｎ（長期的な進化）
ＣＡＮＢｕｓ：ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋＢｕｓ（コントローラエリアネットワークバス）
ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ（ユニバーサルシリアルバス）
ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ（ペリフェラルコンポーネントインターコネクト）
ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ（フィールドプログラマブルゲートアレイ）
ＳＳＤ：Ｓｏｌｉｄ－ＳｔａｔｅＤｒｉｖｅ（ソリッドステートドライブ）
ＩＣ：ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ（集積回路）
ＣＵ：ＣｏｄｉｎｇＵｎｉｔ（コーディングユニット）

本開示はいくつかの例示的な実施形態について説明してきたが、本開示の範囲内に含まれる変更、置換、および様々な代替の均等物が存在する。したがって、当業者は、本明細書では明記または記載されていないが、本開示の原理を具現化し、その思想および範囲内に含まれる様々なシステムおよび方法を考案できることは、理解されるべきであろう。

Claims

ビデオ処理のための方法であって、
処理回路が、色空間におけるサブサンプリングフォーマットのピクチャを前記色空間における非サブサンプリングフォーマットに変換するステップと、
前記非サブサンプリングフォーマットのピクチャを入力としてニューラルネットワークに基づくフィルタに提供する前に、前記処理回路が、前記非サブサンプリングフォーマットのピクチャの色成分の値をクリッピングするステップと、を含む、
方法。
前記非サブサンプリングフォーマットのピクチャの色成分の値を、前記色成分の有効範囲にクリッピングするステップをさらに含む、
請求項１に記載の方法。
前記非サブサンプリングフォーマットのピクチャの色成分の値を、ビット深度に基づいて決定される範囲にクリッピングするステップをさらに含む、
請求項１に記載の方法。
前記非サブサンプリングフォーマットのピクチャの色成分の値を、所定の範囲にクリッピングするステップをさらに含む、請求項１に記載の方法。
前記ピクチャを含むビットストリームからのデコーディングされた情報に基づいて、前記値をクリッピングするための範囲を決定するステップと、
前記非サブサンプリングフォーマットのピクチャの色成分の値を、決定された範囲にクリッピングするステップとをさらに含む、
請求項１に記載の方法。
前記ビットストリームにおけるシーケンスパラメータセット、ピクチャパラメータセット、スライスヘッダー、及びタイルヘッダーのうち少なくとも１つから、前記範囲を示す信号をデコーディングするステップをさらに含む、
請求項５に記載の方法。
ビットストリームからのデコーディングされた情報に基づいて、前記サブサンプリングフォーマットのピクチャを再構成するステップをさらに含む、
請求項１に記載の方法。
クリッピングされた値を有する前記非サブサンプリングフォーマットのピクチャに、ニューラルネットワークに基づくフィルタを適用することで、前記非サブサンプリングフォーマットのフィルタリングされたピクチャを生成するステップと、
前記非サブサンプリングフォーマットのフィルタリングされたピクチャを、前記サブサンプリングフォーマットのフィルタリングされたピクチャに変換するステップとをさらに含む、
請求項１に記載の方法。
クリッピングされた値を有する前記非サブサンプリングフォーマットのピクチャを保存するステップをさらに含む、
請求項１に記載の方法。
前記クリッピングされた値を有する前記非サブサンプリングフォーマットで保存されたピクチャをトレーニング入力として提供し、前記ニューラルネットワークに基づくフィルタにおけるニューラルネットワークをトレーニングするステップをさらに含む、
請求項９に記載の方法。
ビデオ処理のための装置であって、
色空間におけるサブサンプリングフォーマットのピクチャを前記色空間における非サブサンプリングフォーマットに変換し、
前記非サブサンプリングフォーマットのピクチャを入力としてニューラルネットワークに基づくフィルタに提供する前に、前記非サブサンプリングフォーマットのピクチャの色成分の値をクリッピングする、
ように構成される処理回路を含む、
装置。
前記処理回路は、
前記非サブサンプリングフォーマットのピクチャの色成分の値を、前記色成分の有効範囲にクリッピングするように構成される、
請求項１１に記載の装置。
前記処理回路は、
前記非サブサンプリングフォーマットのピクチャの色成分の値を、ビット深度に基づいて決定される範囲にクリッピングするように構成される、
請求項１１に記載の装置。
前記処理回路は、
前記非サブサンプリングフォーマットのピクチャの色成分の値を、所定の範囲にクリッピングするように構成される、
請求項１１に記載の装置。
前記処理回路は、
前記ピクチャを含むビットストリームからのデコーディングされた情報に基づいて、前記値をクリッピングするための範囲を決定し、
前記非サブサンプリングフォーマットのピクチャの色成分の値を、決定された範囲にクリッピングする、ように構成される、
請求項１１に記載の装置。
前記処理回路は、
前記ビットストリームにおけるシーケンスパラメータセット、ピクチャパラメータセット、スライスヘッダー、及びタイルヘッダーのうち少なくとも１つから、前記範囲を示す信号をデコーディングするように構成される、
請求項１５に記載の装置。
前記処理回路は、
ビットストリームからのデコーディングされた情報に基づいて、前記サブサンプリングフォーマットのピクチャを再構成するように構成される、
請求項１１に記載の装置。
前記処理回路は、
クリッピングされた値を有する前記非サブサンプリングフォーマットのピクチャに、ニューラルネットワークに基づくフィルタを適用することで、前記非サブサンプリングフォーマットのフィルタリングされたピクチャを生成し、
前記非サブサンプリングフォーマットのフィルタリングされたピクチャを、前記サブサンプリングフォーマットのフィルタリングされたピクチャに変換する、ように構成される、
請求項１１に記載の装置。
クリッピングされた値を有する前記非サブサンプリングフォーマットのピクチャを保存するように構成されるストレージをさらに含む、
請求項１１に記載の装置。
前記処理回路は、
前記クリッピングされた値を有する前記非サブサンプリングフォーマットで保存されたピクチャをトレーニング入力として提供し、前記ニューラルネットワークに基づくフィルタにおけるニューラルネットワークをトレーニングするように構成される、
請求項１９に記載の装置。