JP7449402B2

JP7449402B2 - ビデオコーディングのための方法および装置

Info

Publication number: JP7449402B2
Application number: JP2022554442A
Authority: JP
Inventors: アウイェン，チェン; リー，シアン; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-12-16
Filing date: 2021-09-24
Publication date: 2024-03-13
Anticipated expiration: 2041-09-24
Also published as: US20220191553A1; CN115428461A; US11483591B2; EP4070237A4; WO2022132277A1; KR20220123102A; JP2023521556A; KR102647645B1; EP4070237A1

Description

［関連出願への相互参照］
本願は、２０２１年９月１３日に出願された米国特許出願第１７／４４７，５２５号「ビデオコーディングのための方法および装置」に対する優先権を主張し、これは、２０２０年１２月１６日に出願された米国仮出願第６３／１２６，１９４号「ビデオコーデックにおけるビデオ品質を向上させるための部分的な深さ方向分離可能畳み込みの適用」に対する優先権を主張している。先の出願のすべて開示内容は、参照により全体的に本明細書に組み込まれる。

［技術分野］
本開示は、一般的にニューラルネットワーク処理に関連する実施形態を説明する。より具体的には、本開示は、ビデオコーデックにおける画像品質を向上させるためのニューラルネットワーク処理技術を提供する。

本明細書で提供される背景技術の説明は、本開示のコンテキストを全体的に示すことを目的とする。この背景技術部分及び本明細書の各態様において説明された、現在署名されている発明者の作業の程度は、本開示の提出時に先行技術として示されておらず、また、本開示の先行技術として認められていることを明示または暗示していない。

ビデオ符号化および復号化は、動き補償を有するフレーム間画像予測を用いて実行されることができる。圧縮されていないデジタルビデオは、一連の画像を含むことができ、各画像が、例えば１９２０×１０８０の輝度サンプルおよび関連付けられた色度サンプルの空間的次元を有する。この一連の画像は、例えば１秒間に６０枚の画像または６０ヘルツ（Ｈｚ）の固定または可変の画像レート（非公式にはフレームレートとして知られている）を有することができる。圧縮されていないビデオには、特定のビットレート要件がある。例えば、サンプルあたり８ビットの１０８０ｐ６０４：２：０のビデオ（６０Ｈｚのフレームレートでの１９２０ｘ１０８０の輝度サンプル解像度）は、１．５Ｇｂｉｔ／ｓの帯域幅に近い必要がある。このようなビデオは、一時間で６００ＧＢ以上の記憶空間を必要とする。

ビデオ符号化および復号化の１つの目的は、入力ビデオ信号における冗長情報を圧縮により低減することである。圧縮は、上記の帯域幅および／または記憶空間に対する要件を低減することを助けることができ、いくつかの場合では、二桁以上程度を低減することができる。無損失性および損失性の圧縮、ならびに両方の組み合わせは、いずれも使用されることができる。無損失性の圧縮とは、元の信号の正確なコピーを圧縮された元の信号から再構築することができる、という技術を指す。損失性の圧縮が使用される場合、再構築された信号は、元の信号と同一ではない可能性があるが、元の信号と再構築された信号との間の歪みが十分に小さいので、再構築された信号が予想されるアプリケーションに利用されることができる。ビデオの場合、損失性の圧縮は広く使われている。許容される歪みの量は、アプリケーションに依存し、例えば、あるストリーミングアプリケーションを消費するユーザは、テレビ配信アプリケーションのユーザより、高い歪みを許容することができる。実現可能な圧縮比は、より高い許可／許容可能な歪みがより高い圧縮比を生成することができる、ということを反映している。

ビデオエンコーダおよびデコーダは、例えば動き補償、変換、量子化およびエントロピーコーディングを含む、いくつかの広範なカテゴリからの技術を利用することができる。

ビデオ符号化／復号化技術は、フレーム内コーディングとして知られている技術を含むことができる。フレーム内コーディングでは、サンプル値は、以前に再構築された参照画像からのサンプルまたは他のデータを参照せずに表現される。いくつかのビデオコーデックでは、画像は空間的にサンプルブロックに細分される。すべてのサンプルブロックがフレーム内モードでコーディングされた場合、その画像はフレーム内画像とすることができる。独立したデコーダリフレッシュ画像などのようなフレーム内画像およびそれらの派生は、デコーダの状態をリセットするために使用されることができ、したがって、コーディングされたビデオビットストリームおよびビデオセッション中の１番目の画像または静止画像として使用されることができる。フレーム内ブロックのサンプルは変換に用いられ、また、変換係数はエントロピーコーディングの前に量子化されることができる。フレーム内予測は、プリ変換ドメインにおけるサンプル値を最小化する技術であることができる。いくつかの場合では、変換後のＤＣ値が小さくなり、ＡＣ係数が小さくなるほど、エントロピーコーディング後のブロックを表すために、与えられた量子化ステップサイズで必要なビットが少なくなる。

例えばＭＰＥＧ－２コーディング技術から知られているような従来のフレーム内コーディングは、フレーム内予測を使用していない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば、周囲のサンプルデータおよび／またはメタデータからデータブロックを取得しようとする技術を含み、周囲のサンプルデータおよび／またはメタデータは、空間的に隣接するブロックの符号化／復号化期間で、かつ、復号化順の前に得られたものである。このような技術は、以降「フレーム内予測」技術と呼ばれる。少なくともいくつかの場合では、フレーム内予測は、参照画像からの参照データを使用せずに、再構築中の現在画像からの参照データのみを使用する、ということに留意されたい。

多くの異なる形態のフレーム内予測が存在することができる。与えられたビデオコーディング技術では、このような技術のうちの２つ以上を使用することができる場合、使用中の技術は、フレーム内予測モードでコーディングを行うことができる。いくつかの場合では、モードは、サブモードおよび／またはパラメータを有してもよいし、これらのモードが、単独でコーディングされてもよく、またはモードコードワードに含まれてもよい。どのコードワードを与えられたモード／サブモード／パラメータの組み合わせに使用するかは、フレーム内予測によってコーディング効率利得に影響を及ぼすので、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術には、このような場合もある。

フレーム内予測の特定のモードは、Ｈ．２６４で導入され、Ｈ．２６５において改善され、また、共同探索モデル（ＪＥＭ：ｊｏｉｎｔｅｘｐｌｏｒａｔｉｏｎｍｏｄｅｌ）、汎用ビデオコーディング（ＶＶＣ：ｖｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇ）、ベンチマークセット（ＢＭＳ：ｂｅｎｃｈｍａｒｋｓｅｔ）などの、更新しい符号化／復号化技術においてさらに改善される。予測ブロックは、既に利用可能なサンプルに属する、隣接するサンプル値を使用して形成されることができる。隣接するサンプルのサンプル値は、ある方向に従って予測ブロックにコピーされる。使用中の方向への参照は、ビットストリームにコーディングされてもよく、または、その自身が予測されてもよい。

図１Ａを参照して、右下には、Ｈ．２６５の３３個の予測可能な方向（３５個のフレーム内モードのうちの３３個の角度モードに対応）から知られている９つの予測方向のサブセットが描かれている。矢印が収束する点（１０１）は、予測されているサンプルを表す。矢印は、サンプルが予測されている方向を表す。例えば、矢印（１０２）は、サンプル（１０１）が水平から４５度の角度になる右上の１つ以上のサンプルから予測されることを示す。同様に、矢印（１０３）は、サンプル（１０１）が水平から２２．５度の角度になるサンプル（１０１）の左下の１つ以上のサンプルから予測されることを示す。

引き続き図１Ａを参照すると、左上には４×４のサンプルの正方形ブロック（１０４）が描かれている（太い破線で示される）。正方形ブロック（１０４）は、１６個のサンプルを含み、各サンプルが、「Ｓ」と、Ｙ次元（例えば、行索引）での位置と、Ｘ次元（例えば、列索引）での位置とでラベル付けられている。例えば、サンプルＳ２１は、Ｙ次元での２番目のサンプル（上から）とＸ次元での１番目のサンプル（左から）である。同様に、サンプルＳ４４は、Ｙ次元およびＸ次元の両方でのブロック（１０４）の４番目のサンプルである。このブロックが４×４サイズのサンプルであるため、Ｓ４４は右下にある。さらに、同様の番号付けスキームに従う参照サンプルも示されている。参照サンプルは、「Ｒ」と、ブロック（１０４）に対するＹ位置（例えば、行索引）およびＸ位置（例えば、列索引）とでラベル付けられている。Ｈ．２６４とＨ．２６５の両方では、予測サンプルは再構築中のブロックに隣接しているので、負の値を使用する必要はない。

フレーム内画像予測は、シグナルで通知された予測方向に応じて、隣接するサンプルから参照サンプル値をコピーすることによって機能することができる。例えば、コーディングされたビデオビットストリームには、シグナリングが含まれていると仮定すると、このシグナリングは、このブロックに対して、矢印（１０２）と一致する予測方向を示し、すなわち、サンプルが水平と４５度の角度になる右上の１つ以上の予測サンプルから予測される。この場合、サンプルＳ４１、Ｓ３２、Ｓ２３、Ｓ１４は、同じ参照サンプルＲ０５から予測される。そして、サンプルＳ４４は、参照サンプルＲ０８から予測される。

いくつかの場合では、参照サンプルを計算するために、特に、方向が４５度で均等に割り切れない場合、例えば、補間を通じて複数の参照サンプルの値を組み合わせることができる。

ビデオコーディング技術の発展につれて、可能な方向の数が既に増加された。Ｈ．２６４（２００３年）では、９つの異なる方向を表すことができた。これは、Ｈ．２６５（２０１３年）で３３個に増加し、ＪＥＭ／ＶＣ／ＢＭＳは、開示時点で最多６５個の方向をサポートすることができる。最も可能な方向を識別するための実験が行われ、そして、エントロピーコーディングにおけるいくつかの技術は、少数のビットでそれらの可能性がある方向を表すために使用され、可能性が低い方向に対して、いくつかの代償を受ける。さらに、方向の自体は、隣接する既に復号化されたブロックで使用される隣接する方向から予測されることができる場合がある。

図１Ｂは、時間の経過とともに増加する予測方向の数を説明するために、ＪＥＭによる６５個のフレーム内予測方向を描く概略図（１８０）を示す。

フレーム内予測方向からコーディングされたビデオビットストリームにおける方向を表すビットへのマッピングは、ビデオコーディング技術によって異なることができ、また、例えば、予測方向への簡単な直接マッピングから、フレーム内予測モード、コードワード、最も可能性が高いモードを含む複雑な適応スキーム、および類似な技術まで、様々なものがある。しかしながら、すべての場合では、ビデオコンテンツにおいて、他の特定の方向よりも統計的に発生する可能性が低い特定の方向が存在する可能性がある。ビデオ圧縮の目的は冗長性の削減であるため、それらの可能性が低い方向は、適切に機能するビデオコーディング技術では、可能性が高い方向よりも多くのビットで表される。

動き補償は、損失性の圧縮技術であり得、また、下記の技術に関連することができ、当該技術には、以前に再構築された画像またはその一部（参照画像）からのサンプルデータブロックが、動きベクトル（以下、ＭＶと呼ばれる）によって示される方向に空間的にシフトされた後に、新たに再構築された画像または画像部分を予測するために使用される。いくつかの場合では、参照画像は、現在再構築中の画像と同じであってもよい。ＭＶは、ＸとＹの２つの次元を有してもよく、または、３つの次元を有してもよいし、３番目の次元は、使用中の参照画像の指示である（後者は、間接的には、時間次元であってもよい）。

いくつかのビデオ圧縮技術では、サンプルデータの特定の領域に適用可能なＭＶは、他のＭＶから予測され得て、例えば、再構築中の領域に空間的に隣接しかつ復号順序でそのＭＶよりも先行する別のサンプルデータ領域に関連するＭＶから予測され得る。そうすることによって、ＭＶをコーディングするために必要なデータ量が大幅に削減され得て、これにより、冗長性が除去され、圧縮率を向上させる。ＭＶ予測は、効果的に機能することができ、例えば、ビデオカメラから導出された入力ビデオ信号（自然ビデオと呼ばれる）をコーディングするとき、単一のＭＶが適用可能な領域よりも大きい領域が類似の方向に移動するという統計的な可能性が存在しており、したがって、場合によっては、隣接領域のＭＶから導出された類似の動きベクトルを使用して予測することができる。その結果、所与の領域のために見つけられたＭＶは、周囲のＭＶから予測されたＭＶと類似または同じであり、また、エントロピーコーディング後、ＭＶを直接にコーディングする場合に使用されるビット数よりも少ないビット数で表現され得る。いくつかの場合では、ＭＶ予測は、元の信号（つまり、サンプルストリーム）から導出された信号（つまり、ＭＶ）の無損失性の圧縮の例であり得る。他の場合では、例えば、周囲のいくつかのＭＶから予測器を計算する際の丸め誤差のため、ＭＶ予測自体は、損失性の圧縮であり得る。

様々なＭＶ予測メカニズムは、Ｈ．２６５／ＨＥＶＣ（ＩＴＵ－ＴＲｅｃ．Ｈ．２６５、「高効率ビデオコーディング」、２０１６年１２月）に記載されている。Ｈ．２６５が提供する多くのＭＶ予測メカニズムのうち、ここで説明するのは、以下「空間マージ」と呼ばれる技術である。

図２を参照すると、現在ブロック（２０１）は、動き探索プロセス中にエンコーダによって発見されたサンプルを含み、これらのサンプルは、空間的にシフトされた、同じサイズの前のブロックから予測され得る。ＭＶを直接にコーディングする代わりに、ＭＶは、１つまたは複数の参照画像に関連付けられたメタデータから導出され得、例えば、Ａ０、Ａ１およびＢ０、Ｂ１、Ｂ２（それぞれ２０２～２０６）で示される５つの周囲のサンプルのいずれか）に関連付けられたＭＶを使用して、最も近い（復号順序で）参照画像から導出され得る。Ｈ．２６５では、ＭＶ予測は、隣接するブロックによって使用されている同じ参照画像からの予測器を使用することができる。

本開示の各態様は、例えばビデオ処理などにおけるニューラルネットワーク処理の方法および装置を提供する。いくつかの例では、ニューラルネットワーク処理装置は、処理回路を含む。上記処理回路は、畳み込み演算のための入力には、区分定数である第１入力チャネルが含まれると判定する。上記処理回路は、次に、畳み込み演算のための入力の他の入力チャネルに基づいて、第１中間出力チャネルを計算し、次に、第１中間出力チャネルと第１入力チャネルとの組み合わせ（例えば、線形組み合わせ（ｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎ））に基づいて、畳み込み演算の出力を生成する。

いくつかの例では、上記処理回路は、カーネルを有する入力の他の入力チャネルに、縮小チャネル畳み込み演算を適用して、第１中間出力チャネルを生成する。

いくつかの例では、上記処理回路は、第１入力チャネルと重み値とを乗算して、第２中間出力チャネルを生成し、第１中間出力チャネルと第２中間出力チャネルとを加算して、畳み込み演算の出力を生成することができる。一例では、上記処理回路は、第１入力チャネルに対応するカーネル要素に基づいて、重み値を計算する。例えば、上記処理回路は、第１入力チャネルに対応するカーネル要素の和を計算する。別の例では、重み値は、第１入力チャネルに対応するカーネル要素に基づいて予め計算され、メモリに記憶される。上記処理回路は、記憶されている重み値を取得するために、メモリにアクセスすることができる。

いくつかの例では、上記処理回路は、第１入力チャネルには、入力の他の入力チャネルから受信された画像のための量子化パラメータ（ＱＰ）マップが含まれると判定する。画像は、ＱＰマップにおけるＱＰ値に基づいて再構築される。上記処理回路は、次に、カーネルを有する他の入力チャネルから受信された画像の色成分に、縮小チャネル畳み込み演算を適用して、第１中間出力チャネルを生成する。上記処理回路は、第１中間出力チャネルとＱＰマップとの線形組み合わせに基づいて、畳み込み演算の出力を生成する。

いくつかの例では、上記処理回路は、デブロッキングフィルタから出力された画像を受信する。いくつかの例では、上記処理回路は、畳み込み演算の出力に、高密度残差畳み込みニューラルネットワーベースのインループフィルタを適用することができる。

本発明の様々な態様は、命令が記憶されている非一時的なコンピュータ読み取り可能な媒体も提供し、命令がコンピュータによって実行されるとき、ニューラルネットワーク処理方法をコンピュータに実行させる。

開示された主題の更なる特徴、性質、および様々な利点は、以下の詳細な説明および添付図面からより明らかになる。
フレーム内予測モードの例示的なサブセットの概略図である。フレーム内予測方向の例示的な概略図である。一例における現在ブロックとその周囲の空間マージ候補の概略図である。一実施形態による通信システム（３００）の簡略化されたブロック図の概略図である。一実施形態による通信システム（４００）の簡略化されたブロック図の概略図である。一実施形態によるデコーダの簡略化されたブロック図の概略図である。一実施形態によるエンコーダの簡略化されたブロック図の概略図である。別の実施形態によるエンコーダのブロック図を示す図である。別の実施形態によるデコーダのブロック図を示す図である。いくつかの例におけるループフィルタユニットのブロック図を示す図である。いくつかの例における別のループフィルタユニットのブロック図を示す図である。いくつかの例におけるニューラルネットワークに基づくフィルタのブロック図を示す図である。いくつかの例における前処理モジュールのブロック図を示す図である。いくつかの例におけるニューラルネットワーク構造のブロック図を示す図である。高密度残差ユニットのブロック図を示す図である。いくつかの例における後処理モジュールのブロック図を示す図である。標準的な畳み込みを図示するグラフを示す図である。深さ方向畳み込みを図示するグラフを示す図である。点ごと畳み込みを図示するグラフを示す図である。量子化パラメータマップのための例を示す図である。いくつかの例における部分的な深さ方向分離可能畳み込みを図示するグラフを示す図である。ニューラルネットワーク構造のブロック図を示す図である。処理例を概説するフローチャートを示す図である。一実施形態によるコンピュータシステムの概略図である。

図３は、本開示の実施形態による通信システム（３００）の簡略化されたブロック図である。通信システム（３００）は、例えばネットワーク（３５０）を介して相互に通信することができる複数の端末デバイスを含む。例えば、通信システム（３００）は、ネットワーク（３５０）を介して相互接続された第１ペアの端末デバイス（３１０）と（３２０）を含む。図３の例では、第１ペアの端末デバイス（３１０）と（３２０）は、データの単方向伝送を行う。例えば、端末デバイス（３１０）は、ネットワーク（３５０）を介して他の端末デバイス（３２０）に伝送するために、ビデオデータ（例えば、端末デバイス（３１０）によって捕捉されたビデオ画像ストリーム）をコーディングすることができる。符号化されたビデオデータは、１つ以上のコーディングされたビデオビットストリームの形で伝送されることができる。端末デバイス（３２０）は、ネットワーク（３５０）から、コーディングされたビデオデータを受信し、コーディングされたビデオデータを復号化してビデオ画像を復元し、復元されたビデオデータに基づいてビデオ画像を表示することができる。単方向データ伝送は、メディアサービングアプリケーションなどでは一般的である。

別の例では、通信システム（３００）は、例えばビデオ会議中に発生する可能性がある、コーディングされたビデオデータの双方向伝送を実行する第２ペアの端末デバイス（３３０）と（３４０）を含む。データの双方向伝送の場合、一例では、端末デバイス（３３０）と（３４０）の各端末デバイスは、ネットワーク（３５０）を介して端末デバイス（３３０）と（３４０）のうちの他方の端末デバイスに送信するために、ビデオデータ（例えば、端末デバイスによって捕捉されたビデオ画像ストリーム）をコーディングすることができる。端末デバイス（３３０）と（３４０）の各端末デバイスは、端末デバイス（３３０）と（３４０）のうちの他方の端末デバイスによって送信された、コーディングされたビデオデータを受信することもでき、また、コーディングされたビデオデータを復号化してビデオ画像を復元し、復元されたビデオデータに基づいて、アクセス可能な表示デバイスにビデオ画像を表示することもできる。

図３の例では、端末デバイス（３１０）、（３２０）、（３３０）および（３４０）は、サーバ、パーソナルコンピュータおよびスマートフォンとして示されてもよいが、本開示の原理は、これに限定されていない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤーおよび／または専用のビデオ会議機器を有するアプリケーションを見つける。ネットワーク（３５０）は、端末デバイス（３１０）、（３２０）、（３３０）および（３４０）間で、コードされたビデオデータを伝送する任意の数のネットワークを表し、有線（ワイヤード）および／または無線の通信ネットワークを含む。通信ネットワーク（３５０）は、回路交換および／またはパケット交換のチャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび／またはインターネットを含む。本開示の目的のために、ネットワーク（３５０）のアーキテクチャおよびトポロジは、以下に本明細書で説明されない限り、本開示の動作にとって重要ではない場合がある。

図４は、開示された主題に対するアプリケーションの例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を図示する。開示された主題は、例えば、ＣＤ、ＤＶＤ、メモリスティックなどを含むデジタルメディアへの圧縮されたビデオの記憶、ビデオ会議、デジタルＴＶなどを含む、他のビデオサポートアプリケーションにも同等に適用可能である。

ストリーミングシステムは、捕捉サブシステム（４１３）を含むことができ、この捕捉サブシステムが、例えばデジタルカメラなどのビデオソース（４０１）を含むことができ、例えば圧縮されていないビデオ画像ストリーム（４０２）を作成する。一例では、ビデオ画像ストリーム（４０２）は、デジタルカメラによって撮影されたサンプルを含む。符号化されたビデオデータ（４０４）（またはコーディングされたビデオビットストリーム）と比較する際に、高いデータボリュームを強調するために太い線で描かれたビデオ画像ストリーム（４０２）は、ビデオソース（４０１）に結合されたビデオエンコーダ（４０３）を含む電子デバイス（４２０）によって処理されることができる。ビデオエンコーダ（４０３）は、以下でより詳細に説明するように、開示された主題の様々な態様を可能にするかまたは実現するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。ビデオ画像ストリーム（４０２）と比較する際に、より低いデータボリュームを強調するために細い線で描かれた、符号化されたビデオデータ（４０４）（または符号化されたビデオビットストリーム（４０４））は、将来の使用のためにストリーミングサーバ（４０５）に記憶されることができる。図４のクライアントサブシステム（４０６）および（４０８）などのような１つ以上のストリーミングクライアントサブシステムは、符号化されたビデオデータ（４０４）のコピー（４０７）および（４０９）を検索するために、ストリーミングサーバ（４０５）にアクセスすることができる。クライアントサブシステム（４０６）は、例えば、電子デバイス（４３０）にビデオデコーダ（４１０）を含むことができる。ビデオデコーダ（４１０）は、伝入される、符号化されたビデオデータのコピー（４０７）を復号化して、伝出される、ビデオ画像ストリーム（４１１）を生成し、このビデオ画像ストリーム（４１１）が、ディスプレイ（４１２）（例えば、ディスプレイスクリーン）または他のレンダリングデバイス（図示せず）に表示されることができる。一部のストリーミングシステムでは、符号化されたビデオデータ（４０４）、（４０７）および（４０９）（例えば、ビデオビットストリーム）は、特定のビデオコーディング／圧縮規格に従って符号化されることができる。これらの規格の例は、ＩＴＵ－Ｔ推薦Ｈ．２６５を含む。一例では、開発中のビデオコーディング規格は、非公式には次世代ビデオコーディング（ＶＶＣ）と呼ばれる。開示された主題は、ＶＶＣのコンテキストで使用されることができる。

なお、電子デバイス（４２０）および（４３０）は、他のコンポーネント（図示せず）を含むことができる。例えば、電子デバイス（４２０）は、ビデオデコーダ（図示せず）を含むことができ、電子デバイス（４３０）は、同様にビデオエンコーダ（図示せず）を含むことができる。

図５は、本開示の実施形態によるビデオデコーダ（５１０）のブロック図を示す。ビデオデコーダ（５１０）は、電子デバイス（５３０）に含まれることができる。電子デバイス（５３０）は、受信機（５３１）（例えば、受信回路）を含むことができる。ビデオデコーダ（５１０）は、図４の例におけるビデオデコーダ（４１０）の代わりに使用することができる。

受信機（５３１）は、ビデオデコーダ（５１０）によって復号化される１つ以上のコーディングされたビデオシーケンスを受信することができ、同じまたは別の実施形態では、一度に1つのコーディングされたビデオシーケンスを受信することができ、ここで、各コーディングされたビデオシーケンスの復号化が、他のコーディングされたビデオシーケンスから独立されている。コーディングされたビデオシーケンスは、チャネル（５０１）から受信されることができ、このチャネルが、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア／ソフトウェアのリンクであってもよい。受信機（５３１）は、それぞれの使用エンティティ（図示せず）に伝送されることができる、例えばコーディングされたオーディオデータおよび／または補助データストリームなどのような他のデータとともに、符号化されたビデオデータを受信することができる。受信機（５３１）は、コーディングされたビデオシーケンスを他のデータから分離することができる。ネットワークジッタを防止するために、バッファメモリ（５１５）は、受信機（５３１）とエントロピーデコーダ／解析器（Ｐａｒｓｅｒ）（５２０）（以降「解析器（５２０）」）との間に結合されることができる。いくつかのアプリケーションでは、バッファメモリ（５１５）は、ビデオデコーダ（５１０）の一部である。他の場合では、バッファメモリ（５１５）は、ビデオデコーダ（５１０）の外部に配置されてもよい（図示せず）。さらに他の場合では、例えばネットワークジッタを防止するために、ビデオデコーダ（５１０）の外部にバッファメモリ（図示せず）があり得て、さらに、例えば再生タイミングを処理するために、ビデオデコーダ（５１０）の内部に別のバッファメモリ（５１５）があり得る。受信機（５３１）が十分な帯域幅および制御可能性を有するストア／フォワードデバイスからまたは等時性同期ネットワーク（ｉｓｏｓｙｎｃｈｒｏｎｏｕｓｎｅｔｗｏｒｋ）からデータを受信する場合、バッファメモリ（５１５）は、必要ではないかまたは小さくてもよい。インターネットなどのようなベストエフォートパケットネットワークで使用するために、バッファメモリ（５１５）は、必要になる場合があり、比較的大きくすることができ、有利には適応性のサイズにすることができ、オペレーティングシステムまたはビデオデコーダ（５１０）の外部の類似要素（図示せず）に少なくとも部分的に実装されることができる。

ビデオデコーダ（５１０）は、コーディングされたビデオシーケンスからシンボル（５２１）を再構築するための解析器（５２０）を含むことができる。これらのシンボルのカテゴリには、ビデオデコーダ（５１０）の動作を管理するために使用される情報と、電子デバイス（５３０）の不可欠な部分ではないが、図５に示すように、電子デバイス（５３０）に結合されることができるレンダリングデバイス（５１２）（例えば、ディスプレイスクリーン）などのようなレンダリングデバイスを制御するための潜在的情報とが含まれる。レンダリングデバイスの制御情報は、補足強化情報（ＳＥＩメッセージ）またはビジュアルユーザビリティ情報（ＶＵＩ）パラメータセットフラグメント（図示せず）の形であってもよい。解析器（５２０）は、受信された、コーディングされたビデオシーケンスに対して解析／エントロピー復号化を行うことができる。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術または規格に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト感度を有するかまたは有しないかの算術コーディングなどを含む、様々な原理に従うことができる。解析器（５２０）は、グループに対応する少なくとも１つのパラメータに基づいて、コーディングされたビデオシーケンスから、ビデオデコーダにおける画素のサブグループのうちの少なくとも１つのサブグループパラメータのセットを抽出することができる。サブグループは、画像のグループ（ＧＯＰ：ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）、画像、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ：ＣｏｄｉｎｇＵｎｉｔ）、ブロック、変換ユニット（ＴＵ：ＴｒａｎｓｆｏｒｍＵｎｉｔ）、予測ユニット（ＰＵ：ＰｒｅｃｔｉｏｎＵｎｉｔ）などを含むことができる。解析器（５２０）は、変換係数、量子化器パラメータ値、動きベクトルなどのような情報をコーディングされたビデオシーケンスから抽出することもできる。

解析器（５２０）は、シンボル（５２１）を作成するために、バッファメモリ（５１５）から受信されたビデオシーケンスに対してエントロピー復号化／解析動作を実行することができる。

シンボル（５２１）の再構築は、コーディングされたビデオ画像またはその一部（例えば、フレーム間画像およびフレーム内画像、フレーム間ブロックおよびフレーム内ブロック）のタイプおよび他の要因に応じて、複数の異なるユニットに関連することができる。どのようなユニットに関連するか、およびどのように関連するかは、解析器（５２０）によって、コーディングされたビデオシーケンスから解析されたサブグループ制御情報によって制御されることができる。解析器（５２０）と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明瞭にするために示されていない。

既に言及された機能ブロックに加えて、ビデオデコーダ（５１０）は、以下に説明するように、いくつかの機能ユニットに概念的に細分されることができる。商業的制約で動作する実際の実施形態では、これらのユニットの多くは、互いに密接に相互作用し、少なくとも部分的には互いに統合されることができる。しかしながら、開示された主題を説明する目的のために、以下の機能ユニットへの概念的な細分は適切である。

第１ユニットは、スケーラ／逆変換ユニット（５５１）である。スケーラ／逆変換ユニット（５５１）は、量子化された変換係数と、どのような変換を使用するかということ、ブロックサイズ、量子化因子、量子化スケーリング行列などを含む制御情報とを、解析器（５２０）からシンボル（５２１）として受信する。スケーラ／逆変換ユニット（５５１）は、アグリゲータ（５５５）に入力できるサンプル値を含むブロックを出力することができる。

いくつかの場合では、スケーラ／逆変換ユニット（５５１）の出力サンプルは、フレーム内コーディングブロックに属することができ、即ち、以前に再構築された画像からの予測情報を使用していないが、現在画像の以前に再構築された部分からの予測情報を使用することができるブロックである。このような予測情報は、フレーム内画像予測ユニット（５５２）によって提供されてもよい。いくつかの場合では、フレーム内画像予測ユニット（５５２）は、現在画像バッファ（５５８）から抽出された、周囲の既に再構築された情報を使用して、再構築中のブロックと同じサイズおよび形状のブロックを生成する。現在画像バッファ（５５８）は、例えば、部分的に再構築された現在画像および／または完全に再構築された現在画像をバッファリングする。アグリゲータ（５５５）は、いくつかの場合では、サンプルごとに基づいて、フレーム内予測ユニット（５５２）によって生成された予測情報を、スケーラ／逆変換ユニット（５５１）によって提供される出力サンプル情報に追加する。

他の場合では、スケーラ／逆変換ユニット（５５１）の出力サンプルは、フレーム間コーディングされたブロックおよび潜在的に動き補償されたブロックに属することができる。このような場合、動き補償予測ユニット（５５３）は、参照画像メモリ（５５７）にアクセスして、予測に用いられるサンプルを抽出することができる。抽出されたサンプルが、ブロックに関連するシンボル（５２１）に基づいて動き補償された後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ（５５５）によってスケーラ／逆変換ユニット（５５１）の出力（この場合、残差サンプルまたは残差信号と呼ばれる）に追加されることができる。動き補償予測ユニット（５５３）が予測サンプルを抽出するときの参照画像メモリ（５５７）内のアドレスは、例えば、Ｘ、Ｙ、および参照画像成分を有することができるシンボル（５２１）の形で、動き補償予測ユニット（５５３）に利用可能な動きベクトルによって制御されることができる。動き補償は、サブサンプルの正確な動きベクトルが使用中であるときに、参照画像メモリ（５５７）から抽出されたサンプル値の補間、動きベクトル予測メカニズムなどを含むこともできる。

アグリゲータ（５５５）の出力サンプルは、ループフィルタユニット（５５６）において様々なループフィルタリング技術によって採用されてもよい。ビデオ圧縮技術は、コーディングされたビデオシーケンス（コーディングされたビデオビットストリームとも呼ばれる）に含まれ、解析器（５２０）からのシンボル（５２１）としてループフィルタユニット（５５６）に利用可能になるパラメータによって制御されるインループフィルタ技術を含むことができ、また、コーディングされた画像またはコーディングされたビデオシーケンスの前の部分（復号化順序で）を復号化する期間で得られたメタ情報に応答し、および、以前に再構築されてループフィルタリングされたサンプル値に応答することもできる。

ループフィルタユニット（５５６）の出力は、レンダリングデバイス（５１２）に出力することができ、および、将来のフレーム間画像予測で使用するために参照画像メモリ（５５７）に記憶することができるサンプルストリームとすることができる。

特定のコーディングされた画像は、完全に再構築されると、将来の予測のための参照画像として使用することができる。例えば、現在画像に対応するコーディングされた画像が完全に再構築され、コーディングされた画像が（例えば、解析器（５２０）によって）参照画像として識別されると、現在画像バッファ（５５８）は、参照画像メモリ（５５７）の一部になることができ、そして、後続のコーディングされた画像の再構築を開示する前に、新しい現在画像バッファを再割り当てることができる。

ビデオデコーダ（５１０）は、例えばＩＴＵ－ＴＲｅｃ．Ｈ．２６５．などのような規格における所定のビデオ圧縮技術に従って復号化動作を実行することができる。コーディングされたビデオシーケンスは、コーディングされたビデオシーケンスがビデオ圧縮技術または規格の構文と、ビデオ圧縮技術または規格の文書としてのプロファイルとの両方に従うという意味で、使用されているビデオ圧縮技術または規格によって指定された構文に従うことができる。具体的には、プロファイルは、ビデオ圧縮技術または規格で使用可能なすべてのツールから、そのプロファイルで使用できる唯一のツールとしていくつかのツールを選択することができる。コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格の階層によって定義された範囲内にあるということもコンプライアンスに必要である。いくつかの場合では、階層は、最大画像サイズ、最大フレームレート、（例えば、毎秒メガ（ｍｅｇａ）個のサンプルを単位として測定された）最大再構築サンプルレート、最大参照画像サイズなどを制限する。階層によって設定された制限は、いくつかの場合では、仮想参照デコーダ（ＨＲＤ：ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ）仕様と、コーディングされたビデオシーケンスにおいてシグナルで通知されるＨＲＤバッファ管理のメタデータとによって、さらに制限されることができる。

一実施形態では、受信機（５３１）は、符号化されたビデオとともに付加（冗長）的なデータを受信することができる。付加的なデータは、コーディングされたビデオシーケンスの一部として含まれることができる。付加的なデータは、データを適切に復号化し、および／または元のビデオデータをより正確に再構築するために、ビデオデコーダ（５１０）によって使用されることができる。付加的なデータは、例えば、時間的、空間的、または信号雑音比（ＳＮＲ：ｓｉｇｎａｌｎｏｉｓｅｒａｔｉｏ）拡張層、冗長スライス、冗長画像、前方誤り訂正符号などのような形式にすることができる。

図６は、本開示の一実施形態によるビデオエンコーダ（６０３）のブロック図を示す。ビデオエンコーダ（６０３）は、電子デバイス（６２０）に含まれる。電子デバイス（６２０）は、送信機（６４０）（例えば、送信回路）を含む。ビデオエンコーダ（６０３）は、図４の例におけるビデオエンコーダ（４０３）の代わりに使用することができる。

ビデオエンコーダ（６０３）は、ビデオエンコーダ（６０３）によってコーディングされるビデオ画像を捕捉するビデオソース（６０１）（図６の例における電子デバイス（６２０）の一部ではない）から、ビデオサンプルを受信することができる。別の例では、ビデオソース（６０１）は、電子デバイス（６２０）の一部である。

ビデオソース（６０１）は、ビデオエンコーダ（６０３）によってコーディングされるソースビデオシーケンスをデジタルビデオサンプルストリームの形式で提供することができ、前記デジタルビデオサンプルストリームは、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット…）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ…）及び任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）を有することができる。メディアサービスシステムでは、ビデオソース（６０１）は、以前に準備されたビデオを記憶する記憶デバイスであってもよい。ビデオ会議システムでは、ビデオソース（６０１）は、ローカル画像情報をビデオシーケンスとして捕捉するカメラであってもよい。ビデオデータは、順番に見られるときに動きを与える複数の個別の画像として提供されることができる。画像自体は、空間画素アレイとして構成されてもよく、ここで、各画素は、使用中のサンプリング構造、色空間などに応じて、１つ以上のサンプルを含むことができる。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。

一実施形態によれば、ビデオエンコーダ（６０３）は、リアルタイムで、またはアプリケーションによって要求される任意の他の時間制約の下で、ソースビデオシーケンスの画像を、コーディングされたビデオシーケンス（６４３）にコーディングし圧縮することができる。適切なコーディング速度を実施することは、コントローラ（６５０）の１つの機能である。いくつかの実施形態では、コントローラ（６５０）は、以下で説明するように他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。該結合は、明瞭にするために図示されていない。コントローラ（６５０）によって設定されたパラメータは、レート制御関連パラメータ（画像スキップ、量子化器、レート歪み最適化技術のλ（ラムダ）値…）、画像サイズ、画像のグループ（ＧＯＰ）レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ（６５０）は、特定のシステム設計に対して最適化されたビデオエンコーダ（６０３）に関連する他の適切な機能を有するように構成されることができる。

いくつかの実施形態では、ビデオエンコーダ（６０３）は、コーディングループで動作するように構成される。過度に簡単化された説明として、一例では、コーディングループは、ソースコーダ（６３０）（例えば、コーディングされる入力画像と、参照画像とに基づいて、シンボルストリームなどのようなシンボルを作成することを担当する）と、ビデオエンコーダ（６０３）に埋め込まれた（ローカル）デコーダ（６３３）とを含むことができる。デコーダ（６３３）は、（リモート）デコーダがサンプルデータを作成すると同様の方法でシンボルを再構築してサンプルデータを作成する（開示された主題で考慮されているビデオ圧縮技術では、シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮が無損失であるからである）。再構築されたサンプルストリーム（サンプルデータ）は、参照画像メモリ（６３４）に入力される。シンボルストリームの復号化により、デコーダの位置（ローカルまたはリモート）に関係なくビット正確な結果が得られるため、参照画像メモリ（６３４）のコンテンツは、ローカルエンコーダとリモートエンコーダの間でもビットで正確に対応する。言い換えれば、エンコーダの予測部分が「見た」参照画像サンプルは、デコーダが復号化期間に予測を使用する際に「見た」サンプル値と全く同じである。この参照画像の同期性の基本原理（および、例えばチャネル誤差の原因で同期性が維持されない場合に生じるドリフト）は、いくつかの関連技術でも使用されている。

「ローカル」デコーダ（６３３）の動作は、既に図５に関連して以上で詳細に説明された、ビデオデコーダ（５１０）などのような「リモート」デコーダの動作と同じであってもよい。しかし、図５をさらに簡単に参照すると、シンボルが利用可能であり、かつ、エントロピーコーダ（６４５）および解析器（５２０）によってコーディングされたビデオシーケンスへのシンボルの符号化／復号化が無損失であることができるため、バッファメモリ（５１５）と解析器（５２０）を含むビデオデコーダ（５１０）のエントロピーデコード部分は、ローカルデコーダ（６３３）で完全に実行できない可能性がある。

この時点で、デコーダに存在する解析／エントロピー復号化以外のいかなるデコーダ技術も、対応するエンコーダにおいて、実質的に同一の機能形式で必ず存在する必要がある、ということが観察されている。このため、開示された主題は、デコーダ動作に焦点を合わせる。エンコーダ技術の説明は、包括的に説明されたデコーダ技術の逆であるため、省略されることができる。特定の領域だけで、より詳細な説明が必要であり、以下で提供される。

動作期間中に、いくつかの実施形態では、ソースコーダ（６３０）は、動き補償予測コーディングを実行することができ、前記動き補償予測コーディングは、ビデオシーケンスから「参照画像」として指定された１つ以上の以前にコーディングされた画像を参照して、入力画像を予測的にコーディングする。このようにして、コーディングエンジン（６３２）は、入力画像の画素ブロックと、入力画像に対する予測参照として選択されることができる参照画像の画素ブロックとの間の差分をコーディングする。

ローカルビデオデコーダ（６３３）は、ソースコーダ（６３０）によって生成されたシンボルに基づいて、参照画像として指定されることができる画像のコーディングされたビデオデータを復号化することができる。コーディングエンジン（６３２）の動作は、有利には損失性プロセスであってもよい。コーディングされたビデオデータがビデオデコーダ（図６に示されない）で復号化された場合、再構築されたビデオシーケンスは、通常、いくつかの誤差を伴うソースビデオシーケンスのレプリカであってもよい。ローカルビデオデコーダ（６３３）は、参照画像に対してビデオデコーダによって実行されることができる復号化プロセスをコピーして、再構築された参照画像を参照画像キャッシュ（６３４）に記憶することができる。このようにして、ビデオエンコーダ（６０３）は、遠端ビデオデコーダによって得られる（伝送誤差が存在しない）再構築された参照画像と共通のコンテンツを有する再構築された参照画像のコピーを、ローカルに記憶することができる。

予測器（６３５）は、コーディングエンジン（６３２）に対して予測検索を実行することができる。すなわち、コーディングされる新しい画像について、予測器（６３５）は、新しい画像の適切な予測参照として機能するサンプルデータ（候補参照画素ブロックとして）または特定のメタデータ、例えば参照画像動きベクトル、ブロック形状などについて、参照画像メモリ（６３４）を検索することができる。予測器（６３５）は、適切な予測参照を見つけるために、サンプルブロックに基づいて、画素ブロックごとに動作することができる。いくつかの場合では、予測器（６３５）によって得られた検索結果によって決定されるように、入力画像は、参照画像メモリ（６３４）に記憶された複数の参照画像から引き出された予測参照を有することができる。

コントローラ（６５０）は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ（６３０）のコーディング動作を管理することができる。

上述のすべての機能ユニットの出力は、エントロピーコーダ（６４５）でエントロピーコーディングされることができる。エントロピーコーダ（６４５）は、例えばハフマンコーディング、可変長コーディング、算術コーディングなどのような技術に従って、シンボルを無損失で圧縮することにより、様々な機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。

送信機（６４０）は、コードされたビデオデータを記憶する記憶デバイスへのハードウェア／ソフトウェアリンクであることができる通信チャネル（６６０）を介した送信に備えるために、エントロピーコーダ（６４５）によって生成された、コーディングされたビデオシーケンスをバッファリングすることができる。送信機（６４０）は、ビデオコーダ（６０３）からのコーディングされたビデオデータを、送信される他のデータ、例えば、コーディングされたオーディオデータおよび／または補助データストリーム（ソースは図示せず）とマージすることができる。

コントローラ（６５０）は、ビデオエンコーダ（６０３）の動作を管理することができる。コーディングする期間、コントローラ（６５０）は、各コーディングされた画像に、特定のコーディングされた画像タイプを割り当てることができ、これは、それぞれの画像に適用できるコーディング技術に影響を与える可能性がある。例えば、画像は、以下の画像タイプのいずれかとして割り当てられることが多い。

フレーム内画像（Ｉ画像）は、シーケンス内の任意の他の画像を予測のソースとして使用せずに、符号化および復号化されることができるものであってもよい。いくつかのビデオコーデックは、独立したデコーダリフレッシュ（ＩｎｄｅｐｅｎｄｅｎｔＤｅｃｏｄｅｒＲｅｆｒｅｓｈ、「ＩＤＲ」）画像などの異なるタイプのフレーム内画像を許容する。当業者は、Ｉ画像の変種とそれらのアプリケーションおよび機能とを理解している。

予測画像（Ｐ画像）は、多くとも１つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して符号化および復号化され得るものであってもよい。

双方向予測画像（Ｂ画像）は、多くとも２つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して符号化および復号化され得るものであってもよい。同様に、複数の予測画像は、単一のブロックの再構築に、２つ以上の参照画像および関連付けられたメタデータを使用することができる。

ソース画像は、一般的に、複数のサンプルブロック（例えば、それぞれ４×４、８×８、４×８、または１６×１６個のサンプルのブロック）に空間的に細分され、ブロックごとにコーディングされることができる。これらのブロックは、ブロックのそれぞれの画像に適用されるコーディング割り当てによって決定されるように、他の（既にコーディングされた）ブロックを参照して予測的にコーディングされることができる。例えば、Ｉ画像のブロックは、非予測的にコーディングされてもよく、またはそれらが同じ画像の既にコーディングされたブロックを参照して予測的にコーディングされてもよい（空間予測またはフレーム内予測）。Ｐ画像の画素ブロックは、１つ前にコーディングされた参照画像を参照して、空間的予測を介してまたは時間的予測を介して予測的にコーディングされてもよい。Ｂ画像のブロックは、１つまたは２つ前にコーディングされた参照画像を参照して、空間的予測を介してまたは時間的予測を介して予測的にコーディングされてもよい。

ビデオエンコーダ（６０３）は、例えばＩＴＵ－ＴＨ．２６５などのような所定のビデオコーディング技術または規格に従って、符号化動作を実行することができる。その動作において、ビデオエンコーダ（６０３）は、入力ビデオシーケンスにおける時間的と空間的冗長性を利用する予測符号化動作を含む、様々な圧縮動作を実行することができる。したがって、コーディングされたビデオデータは、使用されるビデオコーディング技術または規格によって指定された構文に従うことができる。

一実施形態では、送信機（６４０）は、符号化されたビデオとともに、付加的なデータを送信することができる。ソースコーダ（６３０）は、そのようなデータを、コーディングされたビデオシーケンスの一部として含むことができる。付加的なデータは、時間的／空間的／ＳＮＲ拡張層、冗長画像やスライスなどのような他の形式の冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメントなどを含むことができる。

ビデオは、時系列で複数のソース画像（ビデオ画像）として捕捉されることができる。フレーム内画像予測（フレーム内予測と略称されることが多い）は、与えられた画像における空間的相関を利用し、フレーム間画像予測は、画像間の（時間的または他の）相関を利用する。一例では、現在画像と呼ばれる、符号化／復号化中の特定の画像がブロックに分割される。現在画像のブロックが、ビデオにおける以前にコーディングされ、まだバッファリングされている参照画像における参照ブロックに類似している場合、現在画像のブロックは、動きベクトルと呼ばれるベクトルによってコーディングされることができる。動きベクトルは、参照画像における参照ブロックを指し、複数の参照画像が使用されている場合、参照画像を識別する３番目の次元を有することができる。

いくつかの実施形態では、双方向予測技術は、フレーム間画像予測に使用されることができる。双方向予測技術によれば、例えば、復号化の順で両方とも、ビデオにおける現在画像の前にある（ただし、表示の順でそれぞれ、過去と将来にあるかもしれない）第１参照画像および第２参照画像などのような２つの参照画像が使用される。現在画像におけるブロックは、第１参照画像における第１参照ブロックを指す第１動きベクトルと、第２参照画像における第２参照ブロックを指す第２動きベクトルによってコーディングされることができる。ブロックは、第１参照ブロックおよび第２参照ブロックの組み合わせによって予測されることができる。

さらに、コーディング効率を向上させるために、マージモード技術は、フレーム間画像予測で使用されることができる。

本開示のいくつかの実施形態によれば、フレーム間画像予測やフレーム内画像予測などのような予測は、ブロックの単位で実行される。例えば、ＨＥＶＣ規格に従って、ビデオ画像のシーケンスにおける画像は、圧縮のためにコーディングツリーユニット（ＣＴＵ：ｃｏｄｉｎｇｔｒｅｅｕｎｉｔ）に分割され、画像におけるＣＴＵは同じサイズ、例えば６４×６４画素、３２×３２画素、または１６×１６画素を有する。一般的に、ＣＴＵは、１つの輝度ＣＴＢと２つの色度ＣＴＢである３つのコーディングツリーブロック（ＣＴＢ）を含む。各ＣＴＵは、再帰的に四分木で１つ以上のコーディングユニット（ＣＵ）に分割されてもよい。例えば、６４×６４画素のＣＴＵは、１つの６４×６４画素のＣＵ、４つの３２×３２画素のＣＵ、または１６個の１６×１６画素のＣＵに分割されることができる。一例では、各ＣＵは、フレーム間予測タイプまたはフレーム内予測タイプなどのようなＣＵに対する予測タイプを決定するために分析される。ＣＵは、時間的および／または空間的予測可能性に応じて、１つ以上の予測ユニット（ＰＵ）に分割される。通常、各ＰＵは、輝度予測ブロック（ＰＢ）と２つの色度ＰＢを含む。一実施形態では、コーディング（符号化／復号）における予測動作は、予測ブロックの単位で実行される。輝度予測ブロックを予測ブロックの例として使用すると、予測ブロックは、８×８画素、１６×１６画素、８×１６画素、１６×８画素などのような画素値（例えば、輝度値）の行列を含む。

図７は、本開示の別の実施形態によるビデオエンコーダ（７０３）の図を示す。ビデオエンコーダ（７０３）は、ビデオ画像シーケンスにおける現在ビデオ画像内のサンプル値の処理ブロック（例えば、予測ブロック）を受信し、処理ブロックをコーディングされたビデオシーケンスの一部であるコーディングされた画像に符号化するように構成される。一例では、ビデオエンコーダ（７０３）は、図４の例におけるビデオエンコーダ（４０３）の代わりに使用される。

ＨＥＶＣの例では、ビデオエンコーダ（７０３）は、例えば８×８サンプルの予測ブロックなどのような処理ブロックのサンプル値の行列を受信する。ビデオエンコーダ（７０３）は、例えばレート歪み最適化を使用して、フレーム内モード、フレーム間モード、または双方向予測モードを使用して処理ブロックをコーディングするかどうかを決定する。処理ブロックがフレーム内モードでコーディングされた場合、ビデオエンコーダ（７０３）は、フレーム内予測技術を使用して、処理ブロックをコーディングされた画像に符号化することができ、また、処理ブロックがフレーム間モードまたは双方向予測モードでコーディングされた場合、ビデオエンコーダ（７０３）は、それぞれフレーム間予測または双方向予測技術を使用して、処理ブロックをコーディングされた画像に符号化することができる。特定のビデオコーディング技術では、マージモードは、予測値以外にあるコーディングされた動きベクトル成分の利点を利用しない場合に、動きベクトルが１つ以上の動きベクトル予測値から導出されるフレーム間画像予測サブモードにすることができる。特定の他のビデオコーディング技術では、主題ブロックに適用可能な動きベクトル成分が存在する場合がある。一例では、ビデオエンコーダ（７０３）は、処理ブロックのモードを決定するためのモード決定モジュール（図示せず）などのような他のコンポーネントを含む。

図７の例では、ビデオエンコーダ（７０３）は、図７に示すように一緒に結合された、フレーム間エンコーダ（７３０）と、フレーム内エンコーダ（７２２）と、残差計算器（７２３）と、スイッチ（７２６）と、残差エンコーダ（７２４）と、汎用コントローラ（７２１）と、エントロピーエンコーダ（７２５）とを含む。

フレーム間エンコーダ（７３０）は、現在ブロック（例えば、処理ブロック）のサンプルを受信し、そのブロックを参照画像（例えば、前の画像と後の画像におけるブロック）内の１つ以上の参照ブロックと比較し、フレーム間予測情報（例えば、フレーム間符号化技術による冗長情報説明、動きベクトル、マージモード情報）を生成して、任意の適切な技術を使用して、フレーム間予測情報に基づいてフレーム間予測結果（例えば、予測されたブロック）を計算するように構成される。いくつかの例では、参照画像は、復号化された参照画像であり、それが符号化されたビデオ情報に基づいて復号化されたものである。

フレーム内エンコーダ（７２２）は、現在ブロック（例えば、処理ブロック）のサンプルを受信し、いくつかの場合では、そのブロックを同じ画像で既にコーディングされたブロックと比較し、変換後に量子化された係数を生成して、いくつかの場合では、フレーム内予測情報（例えば、１つ以上のフレーム内符号化技術によるフレーム内予測方向情報）を生成するように構成される。一例では、フレーム内エンコーダ（７２２）は、フレーム内予測情報と、同じ画像における参照ブロックとに基づいて、フレーム内予測結果（例えば、予測されたブロック）も計算する。

汎用コントローラ（７２１）は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ（７０３）の他のコンポーネントを制御するように構成される。一例では、汎用コントローラ（７２１）は、ブロックのモードを決定し、そのモードに基づいて制御信号をスイッチ（７２６）に提供する。例えば、モードがフレーム内モードである場合、汎用コントローラ（７２１）は、残差計算器（７２３）によって使用されるフレーム内モード結果を選択するように、スイッチ（７２６）を制御し、フレーム内予測情報を選択して、そのフレーム内予測情報をコードストリームに含めるように、エントロピーエンコーダ（７２５）を制御する。また、モードがフレーム間モードである場合、汎用コントローラ（７２１）は、残差計算器（７２３）によって使用されるフレーム間予測結果を選択するように、スイッチ（７２６）を制御し、フレーム間予測情報を選択して、そのフレーム間予測情報をコードストリームに含めるように、エントロピーエンコーダ（７２５）を制御する。

残差計算器（７２３）は、受信されたブロックとフレーム内エンコーダ（７２２）またはフレーム間エンコーダ（７３０）から選択された予測結果との間の差（残差データ）を計算するように構成される。残差エンコーダ（７２４）は、残差データに基づいて動作して、残差データを符号化することで変換係数を生成するように構成される。一例では、残差エンコーダ（７２４）は、残差データを空間領域から周波数領域へ変換し、変換係数を生成するように構成される。次に、変換係数は量子化処理を受けて、量子化された変換係数が得られる。様々な実施形態では、ビデオエンコーダ（７０３）はまた、残差デコーダ（７２８）も含む。残差デコーダ（７２８）は、逆変換を実行し、復号化された残差データを生成するように構成される。復号化された残差データは、フレーム内エンコーダ（７２２）およびフレーム間エンコーダ（７３０）によって適切に使用されることができる。例えば、フレーム間エンコーダ（７３０）は、復号化された残差データおよびフレーム間予測情報に基づいて、復号化されたブロックを生成することができ、フレーム内エンコーダ（７２２）は、復号化された残差データおよびフレーム内予測情報に基づいて、復号化されたブロックを生成することができる。復号化されたブロックは、復号化された画像を生成するために適切に処理され、いくつかの例では、復号化された画像は、メモリ回路（図示せず）でバッファされ、参照画像として使用されることができる。

エントロピーエンコーダ（７２５）は、符号化されたブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ（７２５）は、ＨＥＶＣ規格などのような適切な規格に従って様々な情報を含むように構成される。一例では、エントロピーエンコーダ（７２５）は、汎用制御データ、選択された予測情報（例えば、フレーム内予測情報またはフレーム間予測情報）、残差情報、およびビットストリーム内の他の適切な情報を含むように構成される。開示された主題によれば、フレーム間モードまたは双方向予測モードのマージサブモードでブロックをコーディングする場合、残差情報はないということに留意されたい。

図８は、本開示の別の実施形態によるビデオデコーダ（８１０）の図を示す。ビデオデコーダ（８１０）は、コーディングされたビデオシーケンスの一部であるコーディングされた画像を受信し、コーディングされた画像を復号化して再構築された画像を生成するように構成される。一例では、ビデオデコーダ（８１０）は、図４の例におけるビデオデコーダ（４１０）の代わりに使用される。

図８の例では、ビデオデコーダ（８１０）は、図８に示されるように一緒に結合された、エントロピーデコーダ（８７１）と、フレーム間デコーダ（８８０）と、残差デコーダ（８７３）と、再構築モジュール（８７４）と、フレーム内デコーダ（８７２）とを含む。

エントロピーデコーダ（８７１）は、コーディングされた画像から、コーディングされた画像を構成する構文要素を表す特定のシンボルを再構築するように構成されることができる。このようなシンボルは、例えば、ブロックをコーディングするためのモード（例えば、フレーム内モード、フレーム間モード、双方向予測モード、後者の２つのマージサブモードまたは別のサブモード）と、フレーム内デコーダ（８７２）またはフレーム間デコーダ（８８０）による予測に使用される特定のサンプルまたはメタデータをそれぞれ識別できる予測情報（例えば、フレーム内予測情報またはフレーム間予測情報など）と、例えば量子化された変換係数の形式の残差情報などとを含む。一例では、予測モードがフレーム間予測モードまたは双方向予測モードである場合、フレーム間予測情報は、フレーム間デコーダ（８８０）に提供される。そして、予測タイプがフレーム内予測タイプである場合、フレーム内予測情報は、フレーム内デコーダ（８７２）に提供される。残差情報は、逆量子化を受けて、残差デコーダ（８７３）に提供されることができる。

フレーム間デコーダ（８８０）は、フレーム間予測情報を受信し、フレーム間予測情報に基づいてフレーム間予測結果を生成するように構成される。

フレーム内デコーダ（８７２）は、フレーム内予測情報を受信し、フレーム内予測情報に基づいて予測結果を生成するように構成される。

残差デコーダ（８７３）は、逆量子化を実行して、逆量子化された変換係数を抽出し、その逆量子化された変換係数を処理して、残差を周波数領域から空間領域に変換するように構成される。残差デコーダ（８７３）はまた、特定の制御情報（量子化器パラメータ（ＱＰ）を含むように）も必要とする場合があり、その情報は、エントロピーデコーダ（８７１）によって提供される場合がある（これが低ボリューム制御情報のみであるため、データ経路は図示されていない）。

再構築モジュール（８７４）は、空間領域において、残差デコーダ（８７３）による出力としての残差と、（場合によっては、フレーム間予測モジュールまたはフレーム内予測モジュールによる出力としての）予測結果とを組み合わせて、再構築されたブロックを形成するように構成され、再構築されたブロックは、再構築された画像の一部とすることができ、その後、再構築された画像は、再構築されたビデオの一部とすることができる。それは、視覚的品質を改善するために、デブロッキング動作などのような他の適切な動作を実行することができる、ということに留意されたい。

ビデオエンコーダ（４０３）、（６０３）および（７０３）と、ビデオデコーダ（４１０）、（５１０）および（８１０）とは、任意の適切な技術を使用して実現されることができる、ということに留意されたい。一実施形態では、ビデオエンコーダ（４０３）、（６０３）および（７０３）と、ビデオデコーダ（４１０）、（５１０）および（８１０）とは、１つ以上の集積回路を使用して実現されることができる。別の実施形態では、ビデオエンコーダ（４０３）、（６０３）および（７０３）と、ビデオデコーダ（４１０）、（５１０）および（８１０）とは、ソフトウェア命令を実行する１つ以上のプロセッサを使用して実装されることができる。

ニューラルネットワーク技術は、ビデオコーディング技術と共に使用することができ、ニューラルネットワークを有するビデオコーディング技術は、ハイブリッドビデオコーディング技術と呼ぶことができる。例えば、ループフィルタユニット（５５６）などのループフィルタユニットは、サンプルフィルタリングのために様々なループフィルタを適用することができる。１つまたは複数のループフィルタは、ニューラルネットワークによって実現され得る。本開示の態様は、ニューラルネットワークを使用して画像品質を向上させるためにハイブリッドビデオコーディング技術におけるインループフィルタリング技術を提供する。具体的には、本開示の一態様によれば、部分的な深さ方向分離可能畳み込み技術は、ビデオ品質を向上させるためにビデオコーディングに使用され得る。

本開示のいくつかの態様によれば、ハイブリッドビデオコーディング技術における適応フィルタリングは、画質を向上させるための入力の１つとして、量子化パラメータマップを有するニューラルネットワークを使用することができる。ニューラルネットワークの計算量および重みパラメータの数を減少するために、部分的な深さ方向分離可能畳み込み（ＰＤＳＣ：ｐａｒｔｉａｌｄｅｐｔｈｗｉｓｅｓｅｐａｒａｂｌｅｃｏｎｖｏｌｕｔｉｏｎ）と呼ばれる一種の畳み込みニューラルネットワーク層を使用することができる。

いくつかの例（例えば、ＪＶＥＴ－Ｔ００５７）では、正規畳み込みおよび深さ方向分離可能畳み込み（ＤＳＣ：ｄｅｐｔｈｗｉｓｅｓｅｐａｒａｂｌｅｃｏｎｖｏｌｕｔｉｏｎ）は、インループフィルタによって使用される。

本開示の一態様によれば、インループフィルタは、参照データに影響を与えるフィルタである。例えば、ループフィルタユニット（５５６）によってフィルタリングされた画像は、さらなる予測のための参照として、参照画像メモリ（５５７）などのバッファに記憶される。インループフィルタは、ビデオコーデックにおいて、ビデオ品質を向上させることができる。

図９は、いくつかの例におけるループフィルタユニット（９００）のブロック図を示す。一例では、ループフィルタユニット（９００）は、ループフィルタユニット（５５６）の代わりに使用され得る。図９の例では、ループフィルタユニット（９００）は、デブロッキングフィルタ（９０１）と、サンプル適応オフセット（ＳＡＯ：ｓａｍｐｌｅａｄａｐｔｉｖｅｏｆｆｓｅｔ）フィルタ（９０２）と、適応ループフィルタ（ＡＬＦ：ａｄａｐｔｉｖｅｌｏｏｐｆｉｌｔｅｒ）フィルタ（９０３）とを含む。いくつかの例では、ＡＬＦフィルタ（９０３）は、交差成分適応ループフィルタ（ＣＣＡＬＦ：ｃｒｏｓｓｃｏｍｐｏｎｅｎｔａｄａｐｔｉｖｅｌｏｏｐｆｉｌｔｅｒ）を含むことができる。

動作期間中に、一例では、ループフィルタユニット（９００）は、再構築された画像を受信し、再構築された画像に様々なフィルタを適用し、また、再構築された画像に応答して出力画像を生成する。

いくつかの例では、デブロッキングフィルタ（９０１）およびＳＡＯフィルタ（９０２）は、ブロックコーディング技術が使用されるときに導入されたブロッキングアーチファクトおよびサンプル歪みを除去するように構成される。デブロッキングフィルタ（９０１）は、ブロックコーディング技術が使用されるときに形成された形状エッジを平滑化することができる。ＳＡＯフィルタ（９０２）は、ビデオフレームにおける他のサンプルに対する歪みを低減するために、サンプルに特定のオフセットを適用することができる。ＡＬＦ（９０３）は、例えばサンプルブロックに一分類を適用し、次に、当該分類に関連付けられたフィルタを当該サンプルブロックに適用することができる。いくつかの例では、フィルタのフィルタ係数は、エンコーダによって決定され、また、デコーダに信号で送信され得る。

いくつかの例（例えば、ＪＶＥＴ－Ｔ００５７）では、高密度残差畳み込みニューラルネットワークに基づくインループフィルタ（ＤＲＮＬＦ：ｄｅｎｓｅｒｅｓｉｄｕａｌｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｂａｓｅｄｉｎ－ｌｏｏｐｆｉｌｔｅｒ）と呼ばれる追加のフィルタが、デブロッキングフィルタ（９０１）とＳＡＯフィルタ（９０２）との間に挿入され得る。ＤＲＮＬＦは、画像品質をさらに向上させることができる。

図１０は、いくつかの例におけるループフィルタユニット（１０００）のブロック図を示す。一例では、ループフィルタユニット（１０００）は、ループフィルタユニット（５５６）の代わりに使用され得る。図１０の例では、ループフィルタユニット（１０００）は、デブロッキングフィルタ（１００１）と、ＳＡＯフィルタ（１００２）と、ＡＬＦフィルタ（１００３）と、デブロッキングフィルタ（１００１）とＳＡＯフィルタ（１００２）との間に位置されたＤＲＮＬＦフィルタ（１０１０）とを含む。

デブロッキングフィルタ（１００１）は、デブロッキングフィルタ（９０１）と同様に構成され、ＳＡＯフィルタ（１００２）は、ＳＡＯフィルタ（９０２）と同様に構成され、ＡＬＦフィルタ（１００３）は、ＡＬＦフィルタ（９０３）と同様に構成される。

ＤＲＮＬＦフィルタ（１０１０）は、デブロッキングされた画像（１０１１）によって示されるデブロッキングフィルタ（１００１）の出力を受信し、また、再構築された画像の量子化パラメータ（ＱＰ：ｑｕａｎｔｉｚａｔｉｏｎｐａｒａｍｅｔｅｒ）マップも受信する。ＱＰマップは、再構築された画像におけるブロックの量子化パラメータを含む。ＤＲＮＬＦフィルタ（１０１０）は、改善された品質を有するフィルタリングされた画像（１０１９）によって示される画像を出力することができ、また、フィルタリングされた画像（１０１９）は、さらなるフィルタリング処理のためにＳＡＯフィルタ（１００２）に供給される。

本開示の一態様によれば、ビデオ処理のためのニューラルネットワークには、色空間における色成分を処理するための複数のチャネルが含まれ得る。一例では、色空間は、ＹＣｂＣｒモデルを使用して定義され得る。ＹＣｂＣｒモデルでは、Ｙは、輝度成分（明るさ）を表し、Ｃｂ、Ｃｒは、色度成分を表す。なお、以下の説明では、ＹＵＶは、ＹＣｂＣｒモデルを使用して符号化されたフォーマットを、説明するために使用される。

本発明の一態様によれば、ニューラルネットワークにおける複数のチャネルは、同じサイズの色成分に対して動作するように構成される。いくつかの例では、画像は、異なるサイズの色成分によって表されてもよい。例えば、人間の視覚システムは、色の変化よりも明るさの変化にはるかに敏感であるため、ビデオシステムは、人間の目で知覚されるような視覚的な違いなしに、ファイルサイズを減少して伝送時間を節約するために、色度成分を圧縮することができる。いくつかの例では、色度サブサンプリング技術は、輝度に対するではなく色差に対する人間の視覚系の鋭敏性を利用して、輝度情報よりも低い色度情報の解像度を達成するために使用される。

いくつかの例では、サブサンプリングは、４：４：４、４：２：０、４：２：２、４：１：１などのような３つの部分の比率として表され得る。例えば、４：４：４（ＹＵＶ４４４とも呼ばれる）は、各ＹＣｂＣｒ成分がサブサンプリング無しで同じサンプルレートを有することを意味し、４：２：０（ＹＵＶ４２０とも呼ばれる）は、色度成分がサブサンプリングされ、４つの画素（またはＹ成分）ごとが１つのＣｂ成分と１つのＣｒ成分に対応することを意味する。なお、ＹＵＶ４２０は、本開示における技術を説明するために、以下の説明においてサブサンプリングフォーマットの一例として使用される。当該技術は、他のサブサンプリングフォーマットにも適用され得る。

一般に、ニューラルネットワークは、サブサンプリングされていないフォーマット（例えば、ＹＵＶ４４４）の画像に対して動作することができる。したがって、サブサンプリングされたフォーマットの画像について、該当画像は、ニューラルネットワークへの入力として提供される前に、サブサンプリングされていないフォーマットに変換される。

図１１は、いくつかの例におけるＤＲＮＬＦフィルタ（１１００）のブロック図を示す。一例では、ＤＲＮＬＦフィルタ（１１００）は、ＤＲＮＬＦフィルタ（１０１０）の代わりに使用され得る。ＤＲＮＬＦフィルタ（１１００）は、図１１に示すように一緒に結合されたＱＰマップ量子化器（１１１０）、前処理モジュール（１１２０）、主処理モジュール（１１３０）、および後処理モジュール（１１４０）を含む。主処理モジュール（１１３０）は、図１１に示すように一緒に結合されたパッチフェッチャー（１１３１）、パッチベースのＤＲＮＬＦカーネル処理モジュール（１１３２）、およびパッチリアセンブラ（１１３３）を含む。

いくつかの例では、ＱＰマップは、現在の再構築された画像における各ブロックを再構築するために適用されるＱＰ値のマップを含む。ＱＰマップ量子化器（１１１０）は、これらの値を所定の値のセットに量子化することができる。一例（例えば、ＪＶＥＴ－Ｔ００５７）では、ＱＰ値は、ＱＰマップ量子化器（１１１０）によって、２２、２７、３２、３７のうちの１つに量子化され得る。

前処理モジュール（１１２０）は、第１フォーマットでのデブロッキングされた画像を受信し、主処理モジュール（１１３０）によって使用される第２フォーマットに変換することができる。例えば、主処理モジュール（１１３０）は、ＹＵＶ４４４フォーマットを有する画像を処理するように構成される。前処理モジュール（１１２０）は、ＹＵＶ４４４フォーマットと異なるフォーマットでのデブロッキングされた画像を受信した場合、異なるフォーマットでのデブロッキングされた画像を処理し、ＹＵＶ４４４フォーマットでのデブロッキングされた画像を出力することができる。例えば、前処理モジュール（１１２０）は、ＹＵＶ４２０フォーマットでのデブロッキングされた画像を受信し、そして、ＵおよびＶ色度チャネルを水平および垂直に２倍補間して、ＹＵＶ４４４フォーマットでのデブロッキングされた画像を生成する。

主処理モジュール（１１３０）は、ＹＵＶ４４４フォーマットでのデブロッキングされた画像と、量子化されたＱＰマップ量子化器とを入力として受信することができる。パッチフェッチャー（１１３１）は、入力をパッチに分解する。ＤＲＮＬＦカーネル処理モジュール（１１３２）は、ＤＲＮＬＦカーネルに基づいて、各パッチを個別に処理することができる。パッチリアセンブラ（１１３３）は、ＤＲＮＬＦカーネル処理モジュール（１１３２）によって処理されたパッチを、ＹＵＶ４４４フォーマットでのフィルタリングされた画像に組み立てることができる。

後処理モジュール（１１４０）は、第２フォーマットでのフィルタリングされた画像を第１フォーマットに復元する。例えば、後処理モジュール（１１４０）は、（主処理モジュール（１１３０）から出力された）ＹＵＶ４４４フォーマットでのフィルタリングされた画像を受信し、ＹＵＶ４２０フォーマットでのフィルタリングされた画像を出力する。

図１２は、いくつかの例における前処理モジュール（１２２０）のブロック図を示す。一例では、前処理モジュール（１２２０）は、前処理モジュール（１１２０）の代わりに使用される。

前処理モジュール（１２２０）は、ＹＵＶ４２０フォーマットでのデブロッキングされた画像を受信し、当該デブロッキングされた画像をＹＵＶ４４４フォーマットに変換し、ＹＵＶ４４４フォーマットでのデブロッキングされた画像を出力する。具体的には、前処理モジュール（１２２０）は、Ｙ成分のための輝度入力チャネルと、Ｕ（Ｃｂ）成分およびＶ（Ｃｒ）成分のための２つの色度入力チャネルとを含む３つの入力チャネルにおいて、デブロッキングされた画像を受信する。前処理モジュール（１２２０）は、Ｙ成分のための１つの輝度出力チャネルと、Ｕ（Ｃｂ）成分およびＶ（Ｃｒ）成分のための２つの色度出力チャネルとを含む３つの出力チャネルを介して、デブロッキングされた画像を出力する。

一例では、デブロッキングされた画像がＹＵＶ４２０フォーマットを有する場合、Ｙ成分は、サイズ（Ｈ，Ｗ）を有し、Ｕ成分は、サイズ（Ｈ／２，Ｗ／２）を有し、Ｖ成分は、サイズ（Ｈ／２，Ｗ／２）を有し、ここで、Ｈは、デブロッキングされた画像の高さ（例えば、サンプルの単位で）を示し、Ｗは、デブロッキングされた画像の幅（例えば、サンプルの単位で）を示す。

図１２の例では、前処理モジュール（１２２０）は、Ｙ成分をリサイズしない。前処理モジュール（１２２０）は、サイズ（Ｈ，Ｗ）を有するＹ成分を輝度入力チャネルから受信し、サイズ（Ｈ，Ｗ）を有するＹ成分を輝度出力チャネルに出力する。

前処理モジュール（１２２０）は、Ｕ成分およびＶ成分をそれぞれリサイズする。前処理モジュール（１２２０）は、Ｕ成分およびＶ成分をそれぞれ処理するための第１リサイズユニット（１２２１）および第２リサイズユニット（１２２２）を含む。例えば、第１リサイズユニット（１２２１）は、サイズ（Ｈ／２，Ｗ／２）を有するＵ成分を受信し、Ｕ成分をサイズ（Ｈ，Ｗ）にリサイズし、また、サイズ（Ｈ，Ｗ）を有するＵ成分を、Ｕ成分のための色度出力チャネルに出力する。第２リサイズユニット（１２２２）は、サイズ（Ｈ／２，Ｗ／２）を有するＶ成分を受信し、Ｖ成分をサイズ（Ｈ，Ｗ）にリサイズし、また、サイズ（Ｈ，Ｗ）を有するＶ成分を、Ｖ成分のための色度出力チャネルに出力する。いくつかの例では、第１リサイズユニット（１２２１）は、例えばＬａｎｃｚｏｓ補間フィルタを使用するなどの補間に基づいてＵ成分をリサイズする。同様に、いくつかの例では、第２リサイズユニット（１２２２）は、例えばＬａｎｃｚｏｓ補間フィルタを使用するなどの補間に基づいてＶ成分をリサイズする。

いくつかの例では、Ｌａｎｃｚｏｓ補間フィルタなどを使用するなどの補間演算は、補間演算の出力が意味のある値、例えば、意味のあるＵ（Ｃｂ）成分およびＶ（Ｃｒ）成分に対して非負であるなどのことを保証できない。一例では、補間演算の出力は、非負の値になるようにクリップされ得る。いくつかの例では、前処理後にＹＵＶ４４４フォーマットでのデブロッキングされた画像が記憶され得て、そして、記憶されたＹＵＶ４４４フォーマットでの画像は、ニューラルネットワークの訓練プロセスに使用され得る。Ｕ（Ｃｂ）成分とＶ（Ｃｒ）成分の負の値は、ニューラルネットワークの訓練プロセスの結果に悪影響を与える可能性がある。

図１３は、ニューラルネットワーク構造（１３００）のブロック図を示す。いくつかの例では、ニューラルネットワーク構造（１３００）は、高密度残差畳み込みニューラルネットワークベースのインループフィルタ（ＤＲＮＬＦ）のために使用され、また、パッチベースのＤＲＮＬＦカーネル処理モジュール（１１３２）の代わりに使用され得る。ニューラルネットワーク構造（１３００）には、ＤＲＵ（１３０１）～ＤＲＵ（１３０４）などの一連の高密度残差ユニット（ＤＲＵ：ｄｅｎｓｅｒｅｓｉｄｕａｌｕｎｉｔ）が含まれ、ＤＲＵの数は、Ｎで示されている。図１３において、畳み込みカーネルの数は、Ｍで示され、Ｍは、畳み込みに使用される出力チャネルの数でもある。例えば、「ＣＯＮＶ３×３×Ｍ」は、３×３のカーネルサイズを有する畳み込みカーネルをＭ個有する標準畳み込みを表し、「ＤＳＣ３×３×Ｍ」は、３×３のカーネルサイズを有するＭ個の畳み込みカーネルを有する深さ方向分離可能畳み込みを表す。ＮとＭは、計算効率とパフォーマンスとの間のトレードオフのために設定され得る。一例（例えば、ＪＶＥＴ－Ｔ００５７）では、Ｎは４に設定され、Ｍは３２に設定されている。

動作期間中に、ニューラルネットワーク構造（１３００）は、デブロッキングされた画像をパッチによって処理する。ＹＵＶ４４４フォーマットでのデブロッキングされた画像の各パッチについて、パッチは正規化（例えば、図１３の例では１０２３で除算）され、また、デブロッキングされた画像の平均値は、内部入力（１３１３）の第１部分（１３１１）を取得するように、正規化されたパッチから除去される。内部入力（１３１３）の第２部分は、ＱＰマップからのものである。例えば、第１部分（１３１１）を形成するパッチに対応するＱＰマップのパッチ（ＱＰマップパッチと呼ばれる）は、ＱＰマップから取得される。ＱＰマップパッチは正規化される（例えば、図１３では５１で除算）。正規化されたＱＰマップパッチは、内部入力（１３１３）の第２部分（１３１２）である。第２部分（１３１２）は、第１部分（１３１１）と連結されて、内部入力（１３１３）を取得する。内部入力（１３１３）は、第１通常畳み込みブロック（１３５１）（ＣＯＮＶ３ｘ３ｘＭによって示される）に提供される。そして、第１通常畳み込みブロック（１３５１）の出力は、Ｎ個のＤＲＵによって処理される。なお、第１通常畳み込みブロック（１３５１）の出力には、Ｍ個のチャネルが含まれる。

各ＤＲＵについて、中間入力が受信され、処理される。ＤＲＵの出力は、中間入力と連結されて、次のＤＲＵの中間入力を形成する。ＤＲＵ（１３０２）を例として使用すると、ＤＲＵ（１３０２）は、中間入力（１３２１）を受信し、中間入力（１３２１）を処理し、出力（１３２２）を生成する。出力（１３２２）は、中間入力（１３２１）と連結されて、ＤＲＵ（１３０３）のための中間入力（１３２３）を形成する。

なお、中間入力（１３２１）がＭ個よりも多いチャネルを有するので、「ＣＯＮＶ１×１×Ｍ」の畳み込み演算は、ＤＲＵ（１３０２）によってさらに処理されるためにＭ個のチャネルを生成するように、中間入力（１３２１）に適用され得る。また、第１通常畳み込みブロック（１３５１）の出力には、Ｍ個のチャネルが含まれ、そのため、該当出力は、「ＣＯＮＶ１×１×Ｍ」の畳み込み演算を使用せずに、ＤＲＵ（１３０１）によって処理され得る。

最後のＤＲＵの出力は、最後通常畳み込みブロック（１３５９）に提供される。最後通常畳み込みブロック（１３５９）の出力は、例えば、図１３に示すように、デブロッキングされた画像の平均値を加算して１０２３を乗算することにより、通常画像パッチ値に変換される。

図１４は、高密度残差ユニット（ＤＲＵ）（１４００）のブロック図を示す。いくつかの例では、ＤＲＵ（１４００）は、ＤＲＵ（１３０１）、ＤＲＵ（１３０２）、ＤＲＵ（１３０３）、およびＤＲＵ（１３０４）などの、図１３における各ＤＲＵの代わりに使用され得る。

図１４の例では、ＤＲＵ（１４００）は、中間入力ｘを受信し、ショートカット（１４０１）を介して、中間入力を後続のＤＲＵに直接に伝播する。ＤＲＵ（１４００）には、また、通常処理パス（１４０２）が含まれる。いくつかの例では、通常処理パス（１４０２）には、通常畳み込み層（１４１１）と、深さ方向分離可能畳み込み（ＤＳＣ）層（１４１２）および（１４１４）と、正規化線形ユニット（ＲｅＬＵ：ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）層（１４１３）とが含まれる。例えば、中間入力ｘは、通常処理パス（１４０２）の出力と連結されて、後続のＤＲＵのための中間入力を形成する。

いくつかの例では、ＤＳＣ層（１４１２）および（１４１４）は、計算コストを低減するために使用される。

本発明の一態様によれば、ニューラルネットワーク構造（１３００）には、Ｙ、Ｕ（Ｃｂ）、Ｖ（Ｃｒ）成分にそれぞれ対応する３つのチャネルが含まれる。いくつかの例では、これらの３つのチャネルは、Ｙチャネル、Ｕチャネル、Ｖチャネルと呼ばれる。ＤＲＮＬＦフィルタ（１１００）は、フレーム内およびフレーム間の画像の両方に適用され得る。いくつかの例では、追加のフラグは、画像レベルおよびＣＴＵレベルでのＤＲＮＬＦフィルタ（１１００）のオン／オフを表すために、信号で送信される。

図１５は、いくつかの例における後処理モジュール（１５４０）のブロック図を示す。一例では、後処理モジュール（１５４０）は、後処理モジュール（１１４０）の代わりに使用され得る。後処理モジュール（１５４０）には、Ｙ成分、Ｕ成分、Ｖ成分の値を所定の非負の範囲[a,b]にそれぞれクリップするクリップユニット（１５４１）～（１５４３）が含まれる。一例では、非負の範囲の下限ａおよび上限ｂは、a＝１６×４およびb＝２３４×４に設定されてもよい。さらに、後処理モジュール（１５４０）には、リサイズユニット（１５４５）および（１５４６）が含まれ、これらのリサイズユニットは、クリップされたＵ成分およびＶ成分をサイズ(H,W)から(H/2,W/2)にそれぞれリサイズしてもよく、ここで、Hは、原画像（例えば、デブロッキングされた画像）の高さ、Wは、原画像（例えば、デブロッキングされた画像）の幅である。

いくつかの例（例えば、ＪＶＥＴ－Ｔ００５７）では、標準畳み込み、深さ方向畳み込み、および深さ方向分離可能畳み込み（ＤＳＣ）は、インループフィルタによって使用され得る。標準畳み込み、深さ方向畳み込み、深さ方向分離可能畳み込み（ＤＳＣ）については、それぞれ説明する。

いくつかの例では、標準畳み込み（通常畳み込み、正規畳み込みとも呼ばれる）は、深さ方向次元を有する空間次元（例えば、幅や高さ）に畳み込みを直接に適用することができる。

図１６は、標準畳み込みを図示するグラフを表す。図１６の例では、ブロック（例えば、８×８パッチ）に対応する入力テンソル（１６１０）は、幅、高さ、および深さの次元を含むことができる。例えば、幅は、ブロックの幅であり、高さは、ブロックの高さであり、深さには、４つの入力チャネル、例えばブロックのＹ、ＣｂおよびＣｒ成分のための３つの入力チャネルおよびブロックのＱＰマップのための１つの入力チャネルが含まれる。ブロックが８×８ブロック（パッチとも呼ばれる）である場合、入力テンソル（１６１０）は、４×８×８アレイである。フィルタ（１６２０）は、４×３×３のカーネルである。標準畳み込みでは、各出力チャネル、例えば、図１６における出力チャネル（１６３０）について、標準畳み込みは、深さの次元および幅と高さの次元において、フィルタ（１６２０）を使用して、入力テンソル（１６１０）に直接に畳み込みを適用して、８×８アレイの出力チャネル（１６３０）を生成することができる。標準畳み込みは、１つのステップで深さ方向と空間方向の計算を実行する。

ＰｙＴｏｒｃｈ（オープンソース機械学習ライブラリ）などのいくつかの例では、出力信号を生成するために入力信号に適用される標準畳み込みは、いくつかの入力パッチからなる入力信号に対して２次元畳み込みを使用して計算され得る。入力信号ｉｎｐｕｔは、画像フレームであってもよく、サイズ（N，C_in，H，W）の入力テンソルによって表されてもよいし、ここで、Ｎは、パッチの数を示し、バッチサイズとも呼ばれて、C_inは、入力チャネルの数（例えば、深さ）を示し、Ｈは、画像フレームの高さ（画素単位）を示し、Ｗは、画像フレームの幅（画素単位）を示す。出力信号は、サイズ（N，C_out，H_out，W_out）の出力テンソルによって表されてもよく、C_outは、出力チャネルの数を示し、H_outは、出力画像の高さを示し、W_outは、出力画像の幅を示す。いくつかの例では、H_outはＨに等しく、W_outはＷに等しい。一例では、出力信号は、式（１）に従って説明され得る。

ここで、Ｎ_ｉは、パッチ（バッチとも呼ばれる）のためのインデックスを示し、

は、出力チャネルのためのインデックスを示し、

は、出力チャネルのためのバイアス値を示し、

は、２次元相互相関演算子を示し、

は、ｋ番目の入力チャネルと

番目の出力チャネルとに関連付けられたカーネルの２Ｄ重みアレイ（空間次元）であってもよく、input（N_i，k）は、入力信号中におけるパッチＮｉのためのｋ番目の入力チャネルの２次元アレイ（空間次元）を示す。

なお、標準畳み込みを使用する場合、ニューラルネットワークに含まれる重みパラメータの数は、約

であり、ここで、Ｈ_ｆはフィルタの高さを示し、Ｗ_ｆはフィルタの幅を示す。一例では、入力チャネルの数が４、出力チャネルの数が３２、フィルタの高さが３、また、フィルタの幅が３である場合、重みパラメータの数は、１１５２である。

深さ方向畳み込みは、各フィルタチャネルと、対応する入力チャネルとの畳み込みを実行する、ということを意味する。

図１７は、深さ方向畳み込みを図示するグラフを示す。図１７の例では、入力テンソル（１７１０）は、入力テンソル（１６１０）に類似している。深さ次元に応じて、入力テンソル（１７１０）には、４つの入力チャネル（１７１１）～（１７１４）が含まれ、また、各入力チャネルには、空間次元で２Ｄアレイが含まれる。次に、入力チャネル（１７１１）～（１７１４）に対応する４つのフィルタチャネル（１７２１）～（１７２４）は、深さ方向畳み込みに使用される。

深さ方向畳み込みの場合、第１畳み込みは、フィルタチャネル（１７２１）と共に入力チャネル（１７１１）に適用されて、出力チャネル（１７３１）を生成する。第２畳み込みは、フィルタチャネル（１７２２）と共に入力チャネル（１７１２）に適用されて、出力チャネル（１７３２）を生成し、第３畳み込みは、フィルタチャネル（１７２３）と共に入力チャネル（１７１３）に適用されて、出力チャネル（１７３３）を生成し、また、第４畳み込みは、フィルタチャネル（１７２４）と共に入力チャネル（１７１４）に適用されて、出力チャネル（１７３４）を生成する。出力チャネル（１７３１）～（１７３４）は、出力テンソル（１７３０）内にスタックされる。

深さ方向分離可能畳み込み（ＤＳＣ:ｄｅｐｔｈｗｉｓｅｓｅｐａｒａｂｌｅｃｏｎｖｏｌｕｔｉｏｎ）は、深さ方向畳み込み（ｄｅｐｔｈｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎ）の第１ステップ、および、点ごと畳み込み（ｐｏｉｎｔｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎ）の第２ステップによって、深さ方向と空間方向の計算を実行する。深さ方向畳み込みは、図１７を参照して示されて説明され、また、出力テンソル（１７３０）は、ＤＳＣの第１ステップによって中間出力テンソルと呼ばれる。

図１８は、ＤＳＣの第２ステップで利用可能な点ごと畳み込みを図示するグラフを示す。点ごと畳み込みは、点（１８４０）を有する中間出力テンソル（１８３０）（例えば、出力テンソル（１７３０）に対応する）のチャネルに適用されて、深さ方向畳み込みからの中間出力テンソル（１８３０）のチャネルの線形組み合わせとして、出力チャネル（１８５０）を生成することができる。

ＤＳＣに基づく計算については、入力信号ｉｎｐｕｔは、画像フレームであってもよく、サイズ（N，C_in，H，W）の入力テンソルによって表されてもよいし、ここで、Ｎは、パッチの数を示し、バッチサイズとも呼ばれて、C_inは、入力チャネルの数（例えば、深さ）を示し、Ｈは、画像フレームの高さ（画素単位）を示し、Ｗは、画像フレームの幅（画素単位）を示す。出力信号は、サイズ（N，C_out，H_out，W_out）の出力テンソルによって表されてもよく、C_outは、出力チャネルの数を示し、H_outは、出力画像の高さを示し、W_outは、出力画像の幅を示す。いくつかの例では、H_outはＨに等しく、W_outはＷに等しい。いくつかの例では、各チャネル（入力チャネルｋ）について、ＤＳＣの第１ステップの計算は、式（２）によって表され得る。

ここで、Ｎ_ｉは、パッチ（バッチとも呼ばれる）のためのインデックスを示し、ｋは、チャネルのためのインデックスを表し、
は、そのチャネルのためのバイアスを示し、
は、２次元相互相関演算子を示し、
は、ｋ番目のチャネルのためのカーネルの２Ｄ重みアレイ（空間次元）であり、input(N_i，k)は、入力信号におけるパッチＮ_ｉのためのｋ番目のチャネルの２次元アレイ（空間次元）を示し、
は、パッチＮ_ｉのためのｋ番目のチャネルの中間出力を示す。

いくつかの例では、第２ステップにおける点ごと畳み込みは、例えば式（３）によって表されるような、深さ方向畳み込みの中間出力の線形組み合わせとして、ＤＳＣの出力を生成することができる。

ここで、Ｎ_ｉは、パッチ（バッチとも呼ばれる）のためのインデックスを示し、
は、出力チャネルのためのインデックスを示し、
は、出力チャネルのためのバイアス値を示し、・は、乗算演算子を示し、

は、ｋ番目のチャネルと

番目の出力チャネルとに関連付けられた重み値であり、

は、パッチＮｉのためのｋ番目のチャネルの中間出力を表す。

なお、深さ方向分離可能畳み込みを使用する場合、ニューラルネットワークに含まれる重みパラメータ（ニューラルネットワークパラメータ、モデルパラメータ、フィルタカーネルパラメータなどとも呼ばれる）の数は、約C_in×Ｈ_ｆ×Ｗ_ｆ＋C_in×C_outであり、ここで、Ｈ_ｆは、フィルタの高さを示し、Ｗ_ｆは、フィルタの幅を示す。一例では、入力チャネルの数は４、出力チャネルの数が３２、フィルタの高さが３、フィルタの幅は３である場合、重みパラメータの数は１６４である。また、深さ方向分離可能な畳み込みを使用すると、標準畳み込みと比較して、計算量も減少され得る。

本発明のいくつかの態様によれば、量子化パラメータ（ＱＰ）マップがニューラルネットワークベースのループフィルタのための入力チャネルの１つとして使用される場合、ニューラルネットワークベースのループフィルタにおける計算量およびネットワークパラメータの数は、部分的な深さ方向分離可能畳み込み（ＰＤＳＣ）と呼ばれるニューラルネットワーク層構造を使用することにより、さらに低減され得る。

本発明の一態様によれば、ＱＰマップは、各コーディングブロック内など、局所的に定数値を含む区分定数（ｐｉｅｃｅｗｉｓｅｃｏｎｓｔａｎｔ）であり得る。例えば、入力チャネルが畳み込みカーネルのサイズよりも大きいブロック（ブロックの幅および高さが、畳み込みカーネルの幅および高さよりも大きい）などのブロックに空間的に分割され、かつ、各ブロックにおける画素が同じ値を有する場合、入力チャネルは、区分定数である。

図１９は、画像（１９００）のＱＰマップの例を示す。一例では、ＱＰマップは、画像（１９００）における画素のためのＱＰ値から形成される。そして、コーディングユニットにおける画素は、同じＱＰ値を有する。図１９において、画像（１９００）は、第１コーディングユニット（１９０１）、第２コーディングユニット（１９０２）などの複数のコーディングユニットに分割されてもよい。これにより、第１コーディングユニット（１９０１）における画素は、第１のＱＰ値ＱＰ１を有し、第２コーディングユニット（１９０２）における画素は、第２のＱＰ値ＱＰ２を有する。画像のＱＰマップは区分定数であり、コーディングユニットのＱＰマップは定数である。

本開示の一態様によれば、区分定数チャネルを有する畳み込みは、計算量およびモデルパラメータの数を減少するように、乗算によって近似され得る。

ＱＰマップを含む標準畳み込みを入力チャネルとして使用することを例として、式（１）は、式（４）に書き換えられる。

ＱＰマップの場合など、C_in-１番目の入力チャネルが区分定数である場合、式（５）に示すように、input(N_i，C_in-１)を有する畳み込みは、計算量およびモデルパラメータの数を減少するために、乗算によって近似され得る。

いくつかの例では、

は、

における（カーネル）要素の和であり、ここでは、この要素は、C_in-１番目の入力チャネルおよび

番目の出力チャネルに関連付けられた２Ｄ重み行列である。式（５）によれば、ニューラルネットワーク層構造は、部分的な深さ方向分離可能畳み込み（ＰＤＳＣ）と呼ばれる。なお、式（５）は、式（４）における畳み込み演算の代わりに乗算演算を使用し、これにより、計算量は減少され得て、また、モデルパラメータの数は減少され得る。

図２０は、いくつかの例における部分的な深さ方向分離可能畳み込み（ＰＤＳＣ）を図示するグラフを示す。図２０の例では、入力テンソル（２０１０）は、入力テンソル（１６１０）と類似している。入力テンソル（２０１０）は、中間入力テンソル（２０１１）と区分定数入力チャネル（２０１２）とに分離される。次に、（減少された入力チャネル数を有する）畳み込み演算は、フィルタ（２０２１）を有する中間入力テンソル（２０１１）に適用されて、第１中間出力チャネル（２０３１）を生成する。次に、第１中間出力チャネル（２０３１）と区分定数入力チャネル（２０１２）との線形組み合わせは実行されて、出力チャネル（２０３０）を生成することができる。例えば、重み値（２０２２）は、区分定数入力チャネル（２０１２）と乗算されて、第２中間出力チャネル（２０３２）を生成する。第１中間出力チャネル（２０３１）と第２中間出力チャネル（２０３２）は加算されて、部分的深さ分離可能畳み込みの出力チャネル（２０３０）を生成する。

本発明のいくつかの態様によれば、部分的な深さ方向分離可能畳み込みは、区分定数である入力チャネルを含む任意の適切な畳み込みに使用され得る。

一例では、ＱＰマップは、第１通常畳み込みブロック（１３５１）のための入力チャネルの１つとして使用され、その後、第１通常畳み込みブロック（１３５１）は、部分的な深さ方向分離可能畳み込みを使用するように修正され得る。

図２１は、ニューラルネットワーク構造（２１００）のブロック図を示す。いくつかの例では、ニューラルネットワーク構造（２１００）は、高密度残差畳み込みニューラルネットワークベースのインループフィルタ（ＤＲＮＬＦ）のために使用され、パッチベースのＤＲＮＬＦカーネル処理モジュール（１１３２）の代わりに使用され得る。

ニューラルネットワーク構造（２１００）は、ニューラルネットワーク構造（１３００）と同様に構成され、ニューラルネットワーク構造（１３００）で使用されるコンポーネントと同一または同等のいくつかのコンポーネントを利用する。例えば、ニューラルネットワーク構造（２１００）には、ＤＲＵ（２１０１）～ＤＲＵ（２１０４）などの、一連の高密度残差ユニット（ＤＲＵ）が含まれ、ＤＲＵの数は、Ｎによって示される。ＤＲＵ（２１０１）～ＤＲＵ（２１０４）は、ＤＲＵ（１３０１）～ＤＲＵ（１３０４）と同様に構成される。ニューラルネットワーク構造（２１００）は、最後通常畳み込みブロック（１３５９）と同様に構成される最後通常畳み込みブロック（２１５９）を含む。これらのコンポーネントの説明は上記で提供されており、明確にするためにここでは省略される。

しかしながら、ニューラルネットワーク構造（２１００）は、第１通常畳み込みブロック（１３５１）とは異なって構成された第１畳み込みブロック（２１５１）を含む。具体的には、第１畳み込みブロック（２１５１）は、部分的な深さ方向分離可能畳み込み（ＰＤＳＣ）を使用して実現され、計算量を減少し、ネットワークパラメータの数を減少することができる。

図２１の例では、第１畳み込みブロック（２１５１）への内部入力（２１１３）は、区分定数であるＱＰマップを含む。具体的には、第１畳み込みブロック（２１５１）への内部入力（２１１３）は、第１部分（２１１１）と第２部分（２１１２）とを含む。一例では、第１部分（２１１１）は、Ｙチャネル、Ｃｂチャネル、およびＣｒチャネルなどの、３つの成分（３つのチャネルとも呼ばれる）を含むことができる、デブロッキングされて再構築された画像から生成される。第２部分（２１１２）は、正規化されたＱＰマップである。第２部分（２１１２）は、第１部分（２１１１）に連結されて、内部入力（２１１３）を取得する。内部入力（２１１３）は、第１畳み込みブロック（２１５１）に提供される。

本開示の一態様によれば、（正規化された）ＱＰマップは、区分定数であり、第１畳み込みブロック（２１５１）は、式（５）および／または図２０に従って実現され、計算量を減少させ、ネットワークパラメータを減少させることができる。

図２２は、本開示の一実施形態による処理（２２００）を概説するフローチャートを示す。処理（２２００）は、ビデオコーデックにおけるニューラルネットワークベースのインループフィルタなどで、ベースニューラルネットワーク処理に使用され得る。様々な実施形態では、処理（２２００）は、端末デバイス（３１０）、（３２０）、（３３０）、（３４０）における処理回路、ビデオエンコーダ（４０３）の機能を実行する処理回路、ビデオデコーダ（４１０）の機能を実行する処理回路、ビデオデコーダ（５１０）の機能を実行する処理回路、ビデオエンコーダ（６０３）の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、処理（２２００）は、ソフトウェア命令で実現され、したがって、処理回路は、ソフトウェア命令を実行するとき、処理回路は、処理（２２００）を実行する。上記の処理は、（Ｓ２２０１）から開始し、（Ｓ２２１０）に進む。

（Ｓ２２１０）において、区分定数である第１入力チャネルを含むように、畳み込み演算のための入力を分離する。

（Ｓ２２２０）において、畳み込み演算のための入力の他の入力チャネルに基づいて、第１中間出力チャネルを算出する。例えば、縮小チャネル畳み込み演算は、カーネルを有する入力の他の入力チャネルに適用されて、第１中間出力チャネルを生成する。

（Ｓ２２３０）において、第１中間出力チャネルと第１入力チャネルとの組み合わせ（例えば、線形組み合わせ）に基づいて、畳み込み演算の出力を生成する。そして、処理は（Ｓ２２９９）に進む。

いくつかの例では、第１入力チャネルと重み値とを乗算して、第２中間出力チャネルを生成する。次に、第１中間出力チャネルと第２中間出力チャネルとを加算して、畳み込み演算の出力を生成する。

一例において、重み値は、第１入力チャネルに対応するカーネル要素に基づいて計算される。例えば、重み値は、第１入力チャネルに対応するカーネル要素の和として計算される。いくつかの例では、重み値は、第１入力チャネルに対応するカーネル要素に基づいて予め計算され、次に記憶される。

一例では、重み値は、ニューラルネットワークのモデルパラメータの１つであり、重み値は、訓練データに基づいて他のモデルパラメータと共に決定される。

いくつかの例では、第１入力チャネルには、入力の他の入力チャネルから受信された画像のための量子化パラメータ（ＱＰ）マップが含まれる。上記画像は、ＱＰマップにおけるＱＰ値に基づいて再構築される。次に、縮小チャネル畳み込み演算は、カーネルを有する他の入力チャネルから受信された画像の色成分に適用されて、第１中間出力チャネルを生成する。畳み込み演算の出力は、第１中間出力チャネルとＱＰマップとの線形組み合わせに基づいて生成される。いくつかの例では、画像は、デブロッキングフィルタから出力される。いくつかの例では、高密度残差畳み込みニューラルネットワークベースのインループフィルタは、畳み込み演算の出力に適用され得る。

なお、上記の説明における様々なユニット、ブロック、およびモジュールは、処理回路、ソフトウェア命令を実行するプロセッサ、ハードウェアとソフトウェアの組み合わせなど、様々な技術によって実現され得る。

上記の技術は、コンピュータ読み取り可能な命令を使用するコンピュータソフトウェアとして実現され、また、物理的に１つ以上のコンピュータ読み取り可能な媒体に記憶されることができる。例えば、図２３は、開示された主題の特定の実施形態を実現するのに適したコンピュータシステム（２３００）を示す。

コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用して符号化されることができ、アセンブリ、コンパイル、リンク、または同様のメカニズムを受けて命令を含むコードを作成することができ、命令は、１つ以上のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって、直接的に実行されてもよく、またはコード解釈、マイクロコード実行などによって実行されてもよい。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットのデバイス（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓｄｅｖｉｃｅｓ）などを含む、様々なタイプのコンピュータまたはそのコンポーネントで実行されてもよい。

図２３に示されるコンピュータシステム（２３００）のコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実現するコンピュータソフトウェアの使用範囲または機能に関するいかなる制限も示唆することが意図されていない。コンポーネントの構成は、コンピュータシステム（２３００）の例示的な実施形態に示されているコンポーネントのいずれかまたは組み合わせに関連する任意の依存性または要件を有すると解釈されるべきではない。

コンピュータシステム（２３００）は、いくつかのヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、触覚入力（例えば、キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（例えば、音声、拍手など）、視覚入力（例えば、ジェスチャーなど）、嗅覚入力（図示せず）によって、1人以上のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスはまた、例えばオーディオ（例えば、音声、音楽、環境音など）、画像（例えば、スキャンされた画像、静止画像カメラから得られた写真画像など）、ビデオ（例えば、２次元ビデオ、立体映像を含む３次元ビデオなど）などの、人間による意識的な入力に必ずしも直接関連されているとは限らない、特定のメディアを捕捉するために使用されることもできる。

ヒューマンインターフェース入力デバイスは、キーボード（２３０１）、マウス（２３０２）、トラックパッド（２３０３）、タッチスクリーン（２３１０）、データグローブ（図示せず）、ジョイスティック（２３０５）、マイクロホン（２３０６）、スキャナ（２３０７）、カメラ（２３０８）（それぞれの1つだけが図示された）のうちの１つまたは複数を含むことができる。

コンピュータシステム（２３００）はまた、いくつかのヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚／味覚によって、１人以上のユーザの感覚を刺激することができる。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（２３１０）、データグローブ（図示せず）またはジョイスティック（２３０５）による触覚フィードバックであるが、入力デバイスとして作用しない触覚フィードバックデバイスであってもよい）、オーディオ出力デバイス（例えば、スピーカ（２３０９）、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（２３１０）であり、各々は、タッチスクリーン入力機能を備えてもよく、あるいは備えていなくてもよいし、各々は、触覚フィードバック機能を備えてもよく、あるいは備えていなくてもよいし、これらのいくつかは、例えば、ステレオグラフィック出力、仮想現実メガネ（図示せず）、ホログラフィックディスプレイとスモークタンク（図示せず）、およびプリンタ（図示せず）などによって、２次元の視覚出力または３次元以上の視覚出力を出力することができる。

コンピュータシステム（２３００）は、ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（２３２０）を含む光学媒体または類似の媒体（２３２１）、サムドライブ（２３２２）、リムーバブルハードドライブまたはソリッドステートドライブ（２３２３）、テープおよびフロッピーディスク（図示せず）などのようなレガシー磁気媒体、セキュリティドングル（図示せず）などのような特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなどのような、人間がアクセス可能な記憶デバイスおよびそれらに関連する媒体を含むことができる。

当業者はまた、ここで開示されている主題に関連して使用される「コンピュータ読み取り可能な媒体」という用語は、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム（２３００）はまた、一つ以上の通信ネットワーク（２３５５）へのインターフェース（２３５４）を含むことができる。ネットワークは、例えば、無線、有線、光学的であってもよい。ネットワークはさらに、ローカルネットワーク、広域ネットワーク、大都市圏ネットワーク、車両用ネットワークおよび産業用ネットワーク、リアルタイムネットワーク、遅延耐性ネットワークなどであってもよい。ネットワークの例は、イーサネット（登録商標）、無線ＬＡＮ、セルラーネットワーク（ＧＳＭ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなど）などのＬＡＮ、テレビケーブルまたは無線広域デジタルネットワーク（有線テレビ、衛星テレビ、地上放送テレビを含む）、車両用および産業用ネットワーク（ＣＡＮＢｕｓを含む）などを含む。いくつかのネットワークは、一般に、いくつかの汎用データポートまたは周辺バス（２３４９）（例えば、コンピュータシステム（２３００）のＵＳＢポート）に接続された外部ネットワークインターフェースアダプタが必要であり、他のシステムは、通常、以下に説明するようにシステムバスに接続することによって、コンピュータシステム（２３００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェース、またはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（２３００）は、他のエンティティと通信することができる。このような通信は、単方向の受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、Ｃａｎｂｕｓから特定のＣａｎｂｕｓデバイスへ）、あるいは、双方向の、例えばローカルまたは広域デジタルネットワークを使用して他のコンピュータシステムへの通信であってもよい。上述のように、特定のプロトコルおよびプロトコルスタックは、それらのネットワークおよびネットワークインターフェースのそれぞれで使用されることができる。

上記ヒューマンマシンインタフェースデバイス、ヒューマンアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム（２３００）のコア（２３４０）に接続されることができる。

コア（２３４０）は、１つ以上の中央処理ユニット（ＣＰＵ）（２３４１）、グラフィック処理ユニット（ＧＰＵ）（２３４２）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）（２３４３）の形式の専用プログラマブル処理ユニット、特定のタスクのためのハードウェア加速器（２３４４）、グラフィックスアダプタ（２３５０）などを含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ）（２３４５）、ランダムアクセスメモリ（２３４６）、例えば内部の非ユーザアクセスハードディスクドライブ、ＳＳＤなどの内部大容量ストレージ（２３４７）などとともに、システムバス（２３４８）を介して接続されてもよい。いくつかのコンピュータシステムでは、付加的なＣＰＵ、ＧＰＵなどによって拡張を可能にするために、システムバス（２３４８）に１つ以上の物理的プラグの形でアクセスすることができる。周辺デバイスは、コアのシステムバス（２３４８）に直接的に接続されてもよく、または周辺バス（２３４９）を介して接続されてもよい。一例では、スクリーン（２３１０）は、グラフィックスアダプタ（２３５０）に接続され得る。周辺バスのアーキテクチャは、外部コントローラインターフェース（ＰＣＩ）、汎用シリアルバス（ＵＳＢ）などを含む。

ＣＰＵ（２３４１）、ＧＰＵ（２３４２）、ＦＰＧＡ（２３４３）、および加速器（２３４４）は、いくつかの命令を実行することができ、これらの命令を組み合わせて上述のコンピュータコードを構成することができる。そのコンピュータコードは、ＲＯＭ（２３４５）またはＲＡＭ（２３４６）に記憶されることができる。また、一時的なデータは、ＲＡＭ（２３４６）に記憶されることができる一方、永久的なデータは、例えば内部大容量ストレージ（２３４７）に記憶されることができる。１つ以上のＣＰＵ（２３４１）、ＧＰＵ（２３４２）、大容量ストレージ（２３４７）、ＲＯＭ（２３４５）、ＲＡＭ（２３４６）などと密接に関連することができる、キャッシュメモリを使用することにより、任意のメモリデバイスに対する高速記憶および検索が可能になる。

コンピュータ読み取り可能な媒体は、様々なコンピュータ実行された動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよく、またはコンピュータソフトウェア分野の技術者によって知られ、利用可能な媒体およびコードであってもよい。

限定ではなく例として、アーキテクチャ（２３００）、特にコア（２３４０）を有するコンピュータシステムは、１つ以上の有形な、コンピュータ読み取り可能な媒体に具体化されたソフトウェアを実行する、（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、加速器などを含む）プロセッサとして機能を提供することができる。このようなコンピュータ読み取り可能な媒体は、上記のユーザがアクセス可能な大容量ストレージに関連する媒体であり、コア内部大容量ストレージ（２３４７）またはＲＯＭ（２３４５）などの、不揮発性コア（２３４０）を有する特定のストレージであってもよい。本開示の様々な実施形態を実現するソフトウェアは、そのようなデバイスに記憶され、コア（２３４０）によって実行されてもよい。コンピュータ読み取り可能な媒体は、特定のニーズに応じて、１つ以上のメモリデバイスまたはチップを含むことができる。このソフトウェアは、コア（２３４０）、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（２３４６）に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を変更することとを含む、本明細書に説明された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えてまたは代替として、コンピュータシステムは、ロジックハードワイヤードされているか、または別の方法で回路（例えば、アクセラレータ（２３４４））に組み込まれているため、機能を提供することができ、この回路は、ソフトウェアの代わりに動作し、またはソフトウェアと一緒に動作して、本明細書に説明された特定のプロセスの特定のプロセスまたは特定の部分を実行することができる。適切な場合には、ソフトウェアへの参照はロジックを含むことができ、逆もまた然りである。適切な場合には、コンピュータ読み取り可能な媒体への参照は、実行されるソフトウェアを記憶する回路（集積回路（ＩＣ）など）を含み、実行されるロジックを具体化する回路、またはその両方を兼ね備えることができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを包含する。
付録Ａ：頭字語
ＪＥＭ：ｊｏｉｎｔｅｘｐｌｏｒａｔｉｏｎｍｏｄｅｌ、共同探索モデル
ＶＶＣ：ｖｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇ、汎用ビデオ符号化
ＢＭＳ：ｂｅｎｃｈｍａｒｋｓｅｔ、ベンチマークセット
ＭＶ：ＭｏｔｉｏｎＶｅｃｔｏｒ、動きベクトル
ＨＥＶＣ：ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ、高効率ビデオコーディング
ＳＥＩ：ＳｕｐｐｌｅｍｅｎｔａｒｙＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ、補足強化情報
ＶＵＩ：ＶｉｓｕａｌＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ、ビジュアルユーザビリティ情報
ＧＯＰｓ：ＧｒｏｕｐｓｏｆＰｉｃｔｕｒｅｓ、画像のグループ
ＴＵｓ：ＴｒａｎｓｆｏｒｍＵｎｉｔｓ、変換ユニット
ＰＵｓ：ＰｒｅｄｉｃｔｉｏｎＵｎｉｔｓ、予測ユニット
ＣＴＵｓ：ＣｏｄｉｎｇＴｒｅｅＵｎｉｔｓ、符号化ツリーユニット
ＣＴＢｓ：ＣｏｄｉｎｇＴｒｅｅＢｌｏｃｋｓ、符号化ツリーブロック
ＰＢｓ：ＰｒｅｄｉｃｔｉｏｎＢｌｏｃｋｓ、予測ブロック
ＨＲＤ：ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ、仮想参照デコーダ
ＳＮＲ：ＳｉｇｎａｌＮｏｉｓｅＲａｔｉｏ、信号雑音比
ＣＰＵｓ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、中央処理ユニット
ＧＰＵｓ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、グラフィック処理ユニット
ＣＲＴ：ＣａｔｈｏｄｅＲａｙＴｕｂｅ、陰極線管
ＬＣＤ：Ｌｉｑｕｉｄ－ＣｒｙｓｔａｌＤｉｓｐｌａｙ、液晶ディスプレイ
ＯＬＥＤ：ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード
ＣＤ：ＣｏｍｐａｃｔＤｉｓｃ、コンパクトディスク
ＤＶＤ：ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ、デジタルビデオディスク
ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、読み取り専用メモリ
ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ
ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、特定用途向け集積回路
ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、プログラマブルロジックデバイス
ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ローカルエリアネットワーク
ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ、グローバルシステムフォーモバイルコミュニケーションズ
ＬＴＥ：Ｌｏｎｇ－ＴｅｒｍＥｖｏｌｕｔｉｏｎ、ロングタームエボリューション
ＣＡＮＢｕｓ：ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋＢｕｓ、コントローラエリアネットワークバス
ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ、汎用シリアルバス
ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ、ペリフェラルコンポーネントインターコネクト
ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙｓ、フィールドプログラマブルゲートアレイ
ＳＳＤ：ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ、ソリッドステートドライブ
ＩＣ：ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、集積回路
ＣＵ：ＣｏｄｉｎｇＵｎｉｔ、コーディングユニット

本開示は、いくつかの例示的な実施形態について説明したが、本開示の範囲内にある変更、配置、および様々な均等置換が存在している。したがって、当業者は、本明細書では明確に示されていないかまたは説明されていないが、本開示の原則を具現しているので、本開示の精神および範囲内にある、様々なシステムおよび方法を設計することができる、ということを理解されたい。

Claims

処理回路を含む装置が実行するニューラルネットワーク処理方法であって、
前記処理回路によって、区分定数である第１入力チャネルを、畳み込み演算のための入力の他の入力チャネルから分離するステップと、
前記処理回路によって、前記畳み込み演算のための入力の他の入力チャネルに、縮小チャネル畳み込み演算を適用することによって、第１中間出力チャネルを計算するステップと、
前記処理回路によって、前記第１中間出力チャネルと前記第１入力チャネルとの組み合わせに基づいて、前記畳み込み演算の出力を生成するステップと、
を含むことを特徴とする方法。
前記第１入力チャネルと重み値とを乗算して、第２中間出力チャネルを生成するステップと、
前記第１中間出力チャネルと前記第２中間出力チャネルとを加算して、前記畳み込み演算の出力を生成するステップとを、さらに含む、
ことを特徴とする請求項１に記載の方法。
前記第１入力チャネルへの入力を分離するステップであって、前記第１入力チャネルへの入力は、前記入力の他の入力チャネルから受信された画像のための量子化パラメータ（ＱＰ）マップを含み、前記画像は、前記ＱＰマップにおけるＱＰ値に基づいて再構築されるステップを、さらに含む、
ことを特徴とする請求項１又は２に記載の方法。
カーネルを有する前記他の入力チャネルから受信された画像の色成分に、縮小チャネル畳み込み演算を適用して、前記第１中間出力チャネルを生成するステップと、
前記第１中間出力チャネルと前記ＱＰマップとの線形組み合わせに基づいて、前記畳み込み演算の出力を生成するステップとを、さらに含む、
ことを特徴とする請求項３に記載の方法。
デブロッキングフィルタから出力された画像を受信するステップを、さらに含む、
ことを特徴とする請求項１～４のいずれか１項に記載の方法。
前記畳み込み演算の出力に、高密度残差畳み込みニューラルネットワークベースのインループフィルタを適用するステップを、さらに含む、
ことを特徴とする請求項１～５のいずれか１項に記載の方法。
処理回路を含むニューラルネットワーク処理装置であって、前記処理回路は、
請求項１～６のいずれか１項に記載の方法を実行するように構成される、
ことを特徴とする装置。
コンピュータプログラムであって、
請求項１～６のいずれか１項に記載の方法を処理回路に実行させる、
ことを特徴とするコンピュータプログラム。