JP2023527672A

JP2023527672A - ビデオ復号のための方法、装置及びコンピュータプログラム

Info

Publication number: JP2023527672A
Application number: JP2022566411A
Authority: JP
Inventors: ディン，ディン; ジャン，ウェイ; ワン，ウェイ; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-04-30
Filing date: 2022-04-29
Publication date: 2023-06-30
Anticipated expiration: 2042-04-29
Also published as: EP4111695A1; KR20220163472A; US20220353528A1; CN115552912A; US11889112B2; EP4111695A4; JP7447311B2; WO2022232841A1

Abstract

本開示の態様は、ビデオ復号のための方法、装置及び非一時的コンピュータ読取可能記憶媒体を提供する。装置は、処理回路を含むことができる。処理回路は、ビデオデコーダ内の第１ニューラルネットワークのためのコーディングされたビットストリーム内の第１ニューラルネットワーク更新情報を復号するように構成される。第１ニューラルネットワークは、複数の第１事前トレーニングパラメータで構成される。第１ニューラルネットワーク更新情報は、再構成されるべき画像内の第１ブロックに対応し、複数の第１事前トレーニングパラメータのうちのある第１事前トレーニングパラメータに対応する第１置換パラメータを示す。処理回路は、第１置換パラメータに基づいてビデオデコーダ内の第１ニューラルネットワークを更新するように構成される。処理回路は、第１ブロックに対する更新された第１ニューラルネットワークに基づいて、第１ブロックを復号することができる。

Description

参照による組み込み
本出願は、２０２１年４月３０日に出願された米国仮出願第６３／１８２，３６６号「Ｂｌｏｃｋ－ｗｉｓｅＣｏｎｔｅｎｔ－ＡｄａｐｔｉｖｅＯｎｌｉｎｅＴｒａｉｎｉｎｇｉｎＮｅｕｒａｌＩｍａｇｅＣｏｍｐｒｅｓｓｉｏｎ」の優先権の利益を主張する、２０２２年４月２６日に出願された米国特許出願第１７／７２９，９７８号「ＢＬＯＣＫ－ＷＩＳＥＣＯＮＴＥＮＴ－ＡＤＡＰＴＩＶＥＯＮＬＩＮＥＴＲＡＩＮＩＮＧＩＮＮＥＵＲＡＬＩＭＡＧＥ」の優先権の利益を主張する。先の出願の開示は、参照によりその全体が本明細書に組み込まれる。

技術分野
本開示は、ビデオコーディングに一般的に関連する実施形態を説明する。

本明細書で提供される背景説明は、本開示の文脈を一般的に提示するためのものである。現在名前を挙げられている発明者の研究は、その研究がこの背景技術に記載された範囲において、出願時に先行技術として通常見なされ得ない記載の態様とともに、明示的にも暗黙的にも本開示に対する先行技術として認められない。

ビデオコーディング及び復号は、動き補正を伴うインターピクチャ予測を使用して実行されることができる。非圧縮デジタル画像／ビデオは、一連のピクチャを含むことができ、各ピクチャは、例えば１９２０×１０８０の輝度サンプル及び関連するクロミナンスサンプルの空間寸法を有する。一連のピクチャは、例えば毎秒６０ピクチャ又は６０Ｈｚの固定又は可変ピクチャレート（非公式にフレームレートとしても知られる）を有することができる。非圧縮画像／ビデオは、特定のビットレート要件を有する。例えばサンプル当たり８ビットの１０８０ｐ６０４：２：０ビデオ（６０Ｈｚのフレームレートでの１９２０×１０８０の輝度サンプル解像度）は、１．５Ｇｂｉｔ／ｓに近い帯域幅を必要とする。このようなビデオの１時間は、６００Ｇバイトを超える記憶領域を必要とする。

ビデオコーディング及び復号の１つの目的は、圧縮を通した、入力画像／ビデオ信号の冗長性の低減である可能性がある。圧縮は、前述の帯域幅及び／又は記憶領域の要件を、場合によっては２桁以上低減するのを助けることができる。本明細書における説明は、例示的な例としてビデオ符号化／復号を使用するが、本開示の精神から逸脱することなく、同じ技術を同様の方法で画像符号化／復号に適用することができる。可逆圧縮と非可逆圧縮の両方、並びにそれらの組合せを採用することができる。可逆圧縮は、圧縮された元の信号から元の信号の正確なコピーを再構成することができる技術を指す。非可逆圧縮を使用するとき、再構成信号は、元の信号と同一ではない可能性があるが、元の信号と再構成信号との間の歪みは、再構成信号を、意図されるアプリケーションに有用であるようにするのに十分に小さい。ビデオの場合、非可逆圧縮は広く使用される。許容される歪み量はアプリケーションに依存し、例えば特定の消費者ストリーミングアプリケーションのユーザは、テレビジョン分配アプリケーションのユーザよりも高い歪みを許容し得る。達成可能な圧縮比は：より高い許容可能な／容認可能な歪みが、より高い圧縮比をもたらすことができることを反映する可能性がある。

ビデオエンコーダ及びデコーダは、例えば動き補償、変換、量子化及びエントロピーコーディングを含む、いくつかの広範なカテゴリからの技術を利用することができる。

ビデオコーデック技術は、イントラコーディングとして知られる技術を含むことができる。イントラコーディングでは、サンプル値は、以前に再構成された参照ピクチャからのサンプル又は他のデータを参照することなく表される。いくつかのビデオコーデックでは、ピクチャはサンプルのブロックに空間的に細分される。イントラモードでサンプルのすべてのブロックがコーディングされるとき、そのピクチャはイントラピクチャとすることができる。独立デコーダリフレッシュピクチャ（independent decoder refresh pictures）のようなイントラピクチャ及びそれらの派生物を使用して、デコーダ状態をリセットすることができ、したがって、コーディングされたビデオビットストリーム及びビデオセッションにおける最初のピクチャとして、あるいは静止画像として使用することができる。イントラブロックのサンプルに、変換を受けさせることができ、変換係数を、エントロピーコーディングの前に量子化することができる。イントラ予測は、事前変換領域（pre-transform domain）におけるサンプル値を最小化する技術であり得る。場合によっては、変換後のＤＣ値がより小さく、ＡＣ係数がより小さいほど、エントロピーコーディング後のブロックを表すために所与の量子化ステップサイズで必要とされるビット数は少ない。

例えばＭＰＥＧ－２世代のコーディング技術から知られているような伝統的なイントラコーディングは、イントラ予測を使用しない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば空間的に隣接し、かつ復号順序において先行する、データのブロックの符号化及び／又は復号中に取得される、周囲のサンプルデータ及び／又はメタデータから試みる技術を含む。このような技術は、以下では「イントラ予測」技術と呼ばれる。少なくともいくつかの場合には、イントラ予測は、再構成中の現在のピクチャからの参照データのみを使用していて、参照ピクチャからのものは使用しないこと留意されたい。

多くの異なる形式のイントラ予測が存在し得る。所与のビデオコーディング技術において、そのような技術のうちの２つ以上を使用することができるとき、使用中の技術を、イントラ予測モードにおいてコーディングすることができる。ある場合には、モードは、サブモード及び／又はパラメータを有することができ、これらを個々にコーディングするか又はモードコードワード（mode codeword）に含めることができる。どのコードワードを、所与のモード、サブモード及び／又はパラメータの組合せに使用するかは、イントラ予測を通したコーディング効率ゲインに影響を与える可能性があり、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術も同様であり得る。

イントラ予測の特定のモードは、Ｈ．２６４で導入され、Ｈ．２６５で精査され、ＪＥＭ（joint exploration model）、ＶＶＣ（versatile video coding）及びベンチマークセット（ＢＭＳ：benchmark set）のようなより新しいコーディング技術で更に精査された。既に利用可能なサンプルに属している隣接するサンプル値を使用して、予測子ブロック（predictor block）を形成することができる。例えば隣接するサンプルのサンプル値は、方向に従って予測子ブロックにコピーされる。使用中の方向への参照は、ビットストリームでコーディングされることができるか又はそれ自体が予測され得る。

図１Ａを参照すると、右下に示されているのは、Ｈ．２６５の３３の可能な予測子方向（predictor directions）（３５のイントラモードの３３の角度モードに対応する）からわかる、９つの予測子方向のサブセットである。矢印が収束する点（１０１）は、予測されているサンプルを表す。矢印は、サンプルが予測されている方向を表す。例えば矢印（１０２）は、サンプル（１０１）が、１つのサンプル又は複数のサンプルから右上へ、水平から４５度の角度で予測されることを示す。同様に、矢印（１０３）は、サンプル（１０１）が、１つのサンプル又は複数のサンプルからサンプル（１０１）の左下へ、水平から２２．５度の角度で予測されることを示す。

引き続き図１Ａを参照すると、左上には、４×４サンプルの正方形ブロック（１０４）が示されている（破線の太線で示されている）。正方形ブロック（１０４）は、１６個のサンプルを含み、各々「Ｓ」と、Ｙ次元におけるその位置（例えば行インデックス）と、Ｘ次元におけるその位置（例えば列インデックス）とでラベリングされている。例えばサンプルＳ２１は、Ｙ次元の（上から）２番目のサンプル及びＸ次元の（左から）１番目のサンプルである。同様に、サンプルＳ４４は、Ｙ及びＸ次元の両方においてブロック（１０４）の４番目のサンプルである。ブロックのサイズが４×４サンプルであるので、Ｓ４４は右下にある。さらに、同様のナンバリングスキームに従う参照サンプルが示されている。参照サンプルは、ブロック（１０４）に対するＲ、そのＹ位置（例えば行インデックス）及びＸ位置（列インデックス）でラベリングされる。Ｈ．２６４とＨ．２６５の両方において、予測サンプルは再構成中のブロックに隣接し、したがって、負の値は使用される必要がない。

イントラピクチャ予測は、シグナリングされる予測方向によって適切であるように、隣接するサンプルから参照サンプル値をコピーすることによって機能することができる。例えばコーディングされたビデオビットストリームが、このブロックに対して、矢印（１０２）と一致する予測方向を示すシグナリングを含むと仮定する、すなわち、サンプルは、１つ又は複数の予測サンプルから右上へ、水平から４５度の角度で予測される。この場合、サンプルＳ４１、Ｓ３２、Ｓ２３、Ｓ１４は、同じ参照サンプルＲ０５から予測される。次いで、サンプルＳ４４は、参照サンプルＲ０８から予測される。

ある場合には、特に方向が４５度で均一に割り切れないときは、参照サンプルを計算するために、複数の参照サンプルの値が、例えば補間（interpolation）を通して組み合わされ得る。

ビデオコーディング技術が発展するにつれて、可能な方向の数が増えている。Ｈ．２６４（２００３年）では、９つの異なる方向を表すことができる。これは、Ｈ．２６５（２０１３年）では３３に増加し、開示の時点で、ＪＥＭ／ＶＶＣ／ＢＭＳは、６５の方向をサポートすることができる。実験は、最も可能性がある方向を識別するために実施され、エントロピーコーディングにおける特定の技術は、それらの最も可能性がある方向を少数のビットで表すために使用され、より可能性が少ない方向に対して特定のペナルティを受け入れる。さらに、時には方向それ自体を、隣接する既に復号されたブロックにおいて使用される隣接方向から予測することができる。

図１Ｂは、ＪＥＭに従う６５のイントラ予測方向を示す概略図（１１０）を示しており、経時的な予測方向の数の増加を例示する。

コーディングされたビデオビットストリーム内の、方向を表すイントラ予測方向ビットのマッピングは、ビデオコーディング技術ごとに異なる可能性があり、例えばイントラ予測モードへの予測方向の単純な直接マッピングから、コードワードへ、最確モード（most probable mode）を含む複雑な適応スキームへ及び類似の技術に及ぶ可能性がある。しかしながら、すべての場合において、特定の他の方向よりもビデオコンテンツ内において生じる可能性が統計的に低い、特定の方向が存在する可能性がある。ビデオ圧縮の目標は冗長性の低減であるので、それらのより可能性が低い方向は、良好に機能するビデオコーディング技術では、より可能性が高い方向よりも多くのビット数によって表される。

動き補償は、非可逆圧縮技術であり得、以前に再構成されたピクチャ又はその一部（参照ピクチャ）からのサンプルデータのブロックが、動きベクトル（以下、ＭＶ）によって示される方向に空間的にシフトされた後に、新たに再構成されたピクチャ又はピクチャの一部の予測に使用される技術に関連する可能性がある。場合によっては、参照ピクチャは、現在再構成中のピクチャと同じものとすることができる。ＭＶは、２次元Ｘ及びＹ又は３次元を有することができ、３番目の次元（third）は、使用中の参照ピクチャの指示である（後者は、間接的に、時間次元である可能性がある）。

いくつかのビデオ圧縮技術では、サンプルデータのあるエリアに適用可能なＭＶを、他のＭＶから、例えば再構成中のエリアに空間的に隣接し、かつ復号順序でそのＭＶに先行するサンプルデータの別のエリアに関連するＭＶから、予測することができる。そうすることは、ＭＶをコーディングするために必要とされるデータの量を実質的に減少させることができ、それによって、冗長性を除去して、圧縮を高めることができる。ＭＶ予測は効果的に機能することができる。なぜなら、例えばカメラから導出される入力ビデオ信号（自然ビデオとして知られる）をコーディングする際に、単一のＭＶが適用可能なエリアよりも大きいエリアが、同様の方向に移動するという統計的可能性が存在し、したがって、場合によって、隣接するエリアのＭＶから導出される同様の動きベクトルを用いて予測をすることができるからである。その結果、所与のエリアについて見出されるＭＶは、周囲のＭＶから予測されるＭＶと類似又は同一であり、その後、これは、エントロピーコーディングの後、ＭＶを直接コーディングする場合に使用されるであろうものよりも、より少ない数のビットで表現することができる。場合によって、ＭＶ予測は、元の信号（すなわち、サンプルストリーム）から導出される信号（すなわち、ＭＶ）の可逆圧縮の例であり得る。他の場合には、ＭＶ予測それ自体は、例えばいくつかの周囲のＭＶから予測子を計算する際の丸め誤差のために、非可逆あり得る。

様々なＭＶ予測メカニズムが、Ｈ．２６５／ＨＥＶＣ（ＩＴＵ－ＴＲｅｃ．Ｈ．２６５、「ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ」、２０１６年１２月）において説明されている。Ｈ．２６５が提案する多くのＭＶ予測メカニズムのうち、ここで説明されるのは「空間マージ（spatial merge）」と呼ばれる技術である。

図２を参照すると、現在のブロック（２０１）は、エンコーダによって、動き探索プロセス中に、空間的にシフトされた同じサイズの前のブロックから予測可能であることが見出されたサンプルを含む。そのＭＶを直接コーディングする代わりに、ＭＶを、１つ以上の参照ピクチャに関連付けられるメタデータから、例えば（復号順序で）最新の参照ピクチャから、Ａ０、Ａ１及びＢ０、Ｂ１、Ｂ２（それぞれ２０２から２０６）と示される５つの周囲のサンプルのいずれか１つに関連付けられるＭＶを使用して導出することができる。Ｈ．２６５では、ＭＶ予測は、隣接ブロックが使用しているものと同じ参照ピクチャからの予測子を使用することができる。

本開示の態様は、ビデオ符号化及び復号のための方法及び装置を提供する。いくつかの例において、ビデオ復号のための装置は処理回路を含む。処理回路は、ビデオデコーダ内の第１ニューラルネットワークのためのコーディングされたビットストリーム内の第１ニューラルネットワーク更新情報を復号するように構成される。第１ニューラルネットワークは、複数の第１事前トレーニングパラメータで構成される。第１ニューラルネットワーク更新情報は、再構成されるべき画像の第１ブロックに対応し、複数の第１事前トレーニングパラメータのうちのある第１事前トレーニングパラメータに対応する第１置換パラメータを示す。処理回路は、第１置換パラメータに基づいて、ビデオデコーダ内の第１ニューラルネットワークを更新し、第１ブロックに対する更新された第１ニューラルネットワークに基づいて、第１ブロックを復号することができる。

一実施形態において、第１ニューラルネットワーク更新情報は、ビデオデコーダ内の１つ以上の残りのニューラルネットワークについての１つ以上の置換パラメータを更に示す。処理回路は、１つ以上の置換パラメータに基づいて、１つ以上の残りのニューラルネットワークを更新することができる。

一実施形態において、処理回路は、ビデオデコーダ内の第２ニューラルネットワークのためのコーディングされたビットストリーム内の第２ニューラルネットワーク更新情報を復号する。第２ニューラルネットワークは、複数の第２事前トレーニングパラメータで構成される。第２ニューラルネットワーク更新情報は、再構成されるべき画像の第２ブロックに対応し、複数の第２事前トレーニングパラメータのうちのある第２事前トレーニングパラメータに対応する第２置換パラメータを示す。一例において、第２ニューラルネットワークは、第１ニューラルネットワークとは異なる。処理回路は、第２置換パラメータに基づいて、ビデオデコーダ内の第２ニューラルネットワークを更新し、第２ブロックに対する更新された第２ニューラルネットワークに基づいて、第２ブロックを復号することができる。

一実施形態において、第１事前トレーニングパラメータは、事前トレーニングされた重み係数と事前トレーニングされたバイアス項（bias term）のうちの一方である。

一実施形態において、第２事前トレーニングパラメータは、事前トレーニングされた重み係数と事前トレーニングされたバイアス項のうちの他方である。

一実施形態において、処理回路は、第１ブロックに対する更新された第１ニューラルネットワークに基づいて、コーディングされたビットストリーム内の第２ブロックを復号する。

一実施形態において、第１ニューラルネットワーク更新情報は、第１置換パラメータと第１事前トレーニングパラメータとの間の差を示す。処理回路は、差と第１事前トレーニングパラメータとの和（sum）に従って、第１置換パラメータを決定する。

一実施形態において、処理回路は、Ｌｅｍｐｅｌ－Ｚｉｖ－Ｍａｒｋｏｖチェーンアルゴリズムの変形（variation）（ＬＺＭＡ２）とｂｚｉｐ２アルゴリズムのうちの一方に基づいて、第１ニューラルネットワーク更新情報を復号する。

一例において、処理回路は、ＬＺＭＡ２とｂｚｉｐ２アルゴリズムのうちの他方に基づいて、第２ニューラルネットワーク更新情報を復号する。

本開示の態様は、ビデオ復号のための方法を実行するために少なくとも１つのプロセッサによって実行可能なプログラムを記憶する、非一時的なコンピュータ読取可能記憶媒体も提供する。

開示される主題の更なる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。

図１Ａは、イントラ予測モードの例示的サブセットの概略図である。

例示的な内部予測方向の説明図である。

一実施形態による、現在のブロック（２０１）及び周囲のサンプルを示す図である。

一実施形態による、通信システム（３００）の簡略ブロック図の概略図である。

一実施形態による、通信システム（４００）の簡略ブロック図の概略図である。

一実施形態による、デコーダの簡略ブロック図の概略図である。

一実施形態による、エンコーダの簡略ブロック図の概略図である。

別の実施形態による、エンコーダのブロック図である。

別の実施形態による、デコーダのブロック図である。

本開示の一実施形態による、ブロックワイズの画像コーディングの例を示す図である。

本開示の一実施形態による、例示的なＮＩＣフレームワークを示す図である。

本開示の一実施形態による、メインエンコーダネットワークの例示的な畳み込みニューラルネットワーク（ＣＮＮ）を示す図である。

本開示の一実施形態による、メインデコーダネットワークの例示的なＣＮＮを示す図である。

本開示の一実施形態による、ハイパーエンコーダの例示的なＣＮＮを示す図である。

本開示の一実施形態による、ハイパーデコーダの例示的なＣＮＮを示す図である。

本開示の一実施形態による、コンテキストモデルネットワークの例示的なＣＮＮを示す図である。

本開示の一実施形態による、エントロピーパラメータネットワークの例示的なＣＮＮを示す図である。

本開示の一実施形態による、例示的なビデオエンコーダを示す図である。

本開示の一実施形態による、例示的なビデオデコーダを示す図である。

本開示の一実施形態によるプロセスを概略的に示すフローチャートを示す図である。

一実施形態によるコンピュータシステムの概略図である。

図３は、本開示の一実施形態による通信システム（３００）の簡略化されたブロック図を示す。通信システム（３００）は、例えばネットワーク（３５０）を介して互いに通信することができる複数の端末デバイスを含む。例えば通信システム（３００）は、ネットワーク（３５０）を介して相互接続される第１の対の端末デバイス（３１０）及び（３２０）を含む。図３の例では、第１の対の端末デバイス（３１０）及び（３２０）は、データの一方向伝送を実行する。例えば端末デバイス（３１０）は、ネットワーク（３５０）を介して他の端末デバイス（３２０）に伝送するために、ビデオデータ（例えば端末デバイス（３１０）によってキャプチャされるビデオピクチャのストリーム）をコーディングし得る。符号化されたビデオデータは、１つ以上のコーディングされたビデオビットストリームの形態で伝送することができる。端末デバイス（３２０）は、ネットワーク（３５０）からコーディングされたビデオデータを受け取ることができ、コーディングされたビデオデータを復号して、ビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャを表示する。一方向データ伝送は、メディア供給アプリケーション等において一般的であり得る。

別の例では、通信システム（３００）は、例えばビデオ会議中に生じ得るコーディングされたビデオデータの双方向伝送を実行する、第２の対の端末デバイス（３３０）及び（３４０）を含む。データの双方向伝送のために、一例では、端末デバイス（３３０）及び（３４０）の各端末デバイスは、ネットワーク（３５０）を介して端末デバイス（３３０）及び（３４０）のうちの他方の端末デバイスに伝送するために、ビデオデータ（例えばその端末デバイスによってキャプチャされるビデオピクチャのストリーム）をコーディングし得る。端末デバイス（３３０）及び（３４０）の各端末デバイスはまた、端末デバイス（３３０）及び（３４０）の他方の端末デバイスによって伝送された、コーディングされたビデオデータを受け取ることができ、コーディングされたビデオデータを復号してビデオピクチャを復元することができ、復元されたビデオデータに従って、アクセス可能なディスプレイデバイスでビデオピクチャを表示することができる。

図３の例では、端末デバイス（３１０）、（３２０）、（３３０）及び（３４０）は、サーバ、パーソナルコンピュータ及びスマートフォンとして例示され得るが、本開示の原理は、そのように限定され得ない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ及び／又は専用のビデオ会議装置への適用を見出す。ネットワーク（３５０）は、例えばワイヤライン（有線）及び／又は無線通信ネットワークを含め、端末デバイス（３１０）、（３２０）、（３３０）及び（３４０）の間でコーディングされたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク（３５０）は、回線スイッチ及び／又はパケットスイッチチャネルにおいてデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はインターネットを含む。本議論の目的のために、ネットワーク（３５０）のアーキテクチャ及びトポロジは、本明細書において以下に説明されない限り、本開示の動作に対して重要ではないことがある。

図４は、開示される主題の適用の例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示される主題は、例えばビデオ会議やデジタルＴＶ、ＣＤ、ＤＶＤ、メモリスティック等を含むデジタルメディアにおける圧縮ビデオの記憶等を含む、他のビデオ対応アプリケーションにも同様に適用可能であり得る。

ストリーミングシステムは、例えば圧縮されていないビデオピクチャのストリーム（４０２）を作成するビデオソース（４０１）、例えばデジタルカメラを含むことができる、ビデオキャプチャサブシステム（４１３）を含み得る。一例では、ビデオピクチャのストリーム（４０２）は、デジタルカメラによって撮られたサンプルを含む。ビデオピクチャのストリーム（４０２）は、符号化ビデオデータ（４０４）（又はコーディングされたビデオビットストリーム）と比較したときの高データ量を強調するために太線として示されており、ビデオソース（４０１）に結合されるビデオエンコーダ（４０３）を含む電子デバイス（４２０）によって処理されることができる。ビデオエンコーダ（４０３）は、以下により詳細に説明されるような、開示される主題の態様を可能にするか又は実装するために、ハードウェア、ソフトウェア又はそれらの組合せを含むことができる。符号化ビデオデータ（４０４）（又は符号化ビデオビットストリーム（４０４））は、ビデオピクチャのストリーム（４０２）と比較したときの低データ量を強調するために細線として示されており、将来の使用のためにストリーミングサーバ（４０５）に記憶されることができる。図４のクライアントサブシステム（４０６）及び（４０８）のような１つ以上のストリーミングクライアントサブシステムは、ストリーミングサーバ（４０５）にアクセスして、符号化ビデオデータ（４０４）のコピー（４０７）及び（４０９）を取り出すことができる。クライアントサブシステム（４０６）は、例えば電子デバイス（４３０）内にビデオデコーダ（４１０）を含むことができる。ビデオデコーダ（４１０）は符号化ビデオデータの入力コピー（４０７）を復号し、そして、ディスプレイ（４１２）（例えばディスプレイ画面）又は他のレンダリングデバイス（図示せず）上でレンダリングすることができる、ビデオピクチャの出力ストリーム（４１１）を作成する。いくつかのストリーミングシステムでは、符号化ビデオデータ（４０４）、（４０７）及び（４０９）（例えばビデオビットストリーム）を、特定のビデオコーディング／圧縮規格に従って符号化することができる。これらの規格の例は、ＩＴＵ－Ｔ勧告Ｈ．２６５を含む。一例では、開発中のビデオコーディング規格は、（ＶＶＣ：Versatile Video Coding）として非公式に知られている。開示される主題はＶＶＣの文脈で使用され得る。

電子デバイス（４２０）及び（４３０）は、他の構成要素（図示せず）を含むことができることに留意されたい。例えば電子デバイス（４２０）は、ビデオデコーダ（図示せず）を含むことができ、電子デバイス（４３０）は、ビデオエンコーダ（図示せず）も含むことができる。

図５は、本開示の一実施形態による、ビデオデコーダ（５１０）のブロック図を示す。ビデオデコーダ（５１０）は、電子デバイス（５３０）に含まれることができる。電子デバイス（５３０）は、受信機（５３１）（例えば受信回路）を含むことができる。図４の例のビデオデコーダ（４１０）の代わりに、ビデオデコーダ（５１０）を用いることができる。

受信機（５３１）は、ビデオデコーダ（５１０）によって復号されるべき１つ以上のコーディングされたビデオシーケンスを受け取ることがあり；同じ又は別の実施形態では、一度に１つのコーディングされたビデオシーケンスを受け取り、この場合、各コーディングされたビデオシーケンスの復号は、他のコーディングビデオシーケンスとは独立である。コーディングされたビデオシーケンスはチャネル（５０１）から受け取られてよく、該チャネルは、符号化ビデオデータを記憶するストレージデバイスへのハードウェア／ソフトウェアリンクであり得る。受信機（５３１）は、他のデータ、例えばコーディングされたオーディオデータ及び／又は補助データストリームとともに、符号化ビデオデータを受け取ってよく、これらのデータは、それらのそれぞれの使用エンティティ（図示せず）に転送されてよい。受信機（５３１）は、コーディングされたビデオシーケンスを他のデータから分離し得る。ネットワークジッタをなくすために、バッファメモリ（５１５）が、受信機（５３１）とエントロピーデコーダ／パーサ（５２０）（以下、「パーサ（５２０）」）との間に結合され得る。特定の適用では、バッファメモリ（５１５）は、ビデオデコーダ（５１０）の一部である。他では、バッファメモリ（５１５）は、ビデオデコーダ（５１０）（図示せず）の外側にある可能性がある。更に他では、例えば再生タイミングを処理するためにビデオデコーダ（５１０）の内部にある別のバッファメモリ（５１５）に加えて、例えばネットワークジッタをなくすためにビデオデコーダ（５１０）の外側にバッファメモリ（図示せず）が存在する可能性がある。受信機（５３１）が、十分な帯域幅及び制御可能性を有するストア／転送デバイスから又は等同期（isosynchronous）ネットワークからデータを受信しているとき、バッファメモリ（５１５）は必要でないことがあり、あるいは小さいものとすることができる。インターネットのようなベストエフォート・パケットネットワークにおける使用のために、バッファメモリ（５１５）が必要とされることがあり、そのサイズは比較的大きいものとすることができ、有利には適応サイズとすることができ、少なくとも部分的に、ビデオデコーダ（５１０）の外側のオペレーティングシステム又は類似の要素（図示せず）において実装されることがある。

ビデオデコーダ（５１０）は、コーディングされたビデオシーケンスからシンボル（５２１）を再構成するためにパーサ（５２０）を含み得る。これらのシンボルのカテゴリは、ビデオデコーダ（５１０）の動作を管理するために使用される情報と、潜在的に、電子デバイス（５３０）の一体部分ではないが図５に示されたように電子デバイス（５３０）に結合されることができるレンダデバイス（５１２）（例えばディスプレイ画面）のようなレンダリングデバイスを制御する情報とを含む。レンダリングデバイスの制御情報は、補足強化情報（ＳＥＩ：Supplemental Enhancement Information）メッセージ又はビデオユーザビリティ情報（ＶＵＩ：Video Usability Information）パラメータセットフラグメント（図示せず）の形式であってよい。パーサ（５２０）は、受信される、コーディングされたビデオシーケンスを構文解析／エントロピー復号し得る。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマンコーディング、文脈依存（context sensitivity）を伴うか伴わない算術コーディング等を含む、様々な原理に従うことができる。パーサ（５２０）は、コーディングされたビデオシーケンスから、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも１つのサブグループについてのサブグループパラメータのセットを、グループに対応する少なくとも１つのパラメータに基づいて抽出することができる。サブグループは、ピクチャのグループ（ＧＯＰｓ：Groups of Pictures）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（ＣＵｓ：Coding Units）、ブロック、変換ユニット（ＴＵｓ：Transform Units）、予測ユニット（ＰＵｓ：Prediction Units）等を含むことができる。パーサ（５２０）はまた、変換係数、量子化パラメータ値、動きベクトル等のようなコーディングされたビデオシーケンス情報から抽出してもよい。

パーサ（５２０）は、シンボル（５２１）を生成するように、バッファメモリ（５１５）から受け取ったビデオシーケンスに対してエントロピー復号／構文解析動作を実行し得る。

シンボル（５２１）の再構成は、コーディングされたビデオピクチャ又はその部分のタイプ（例えばインター及びイントラピクチャ、インター及びイントラブロック）及び他のファクタに応じて、複数の異なるユニットに関与することができる。どのユニットがどのように関与するかは、コーディングされたビデオシーケンスからパーサ（５２０）によって構文解析されたサブグループ制御情報によって制御されることができる。パーサ（５２０）と下記の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明確性のために図示されていない。

既に述べた機能ブロックの他に、ビデオデコーダ（５１０）は、以下で説明するように、複数の機能ユニットに概念的に細分されることができる。商業的制約の下で動作する実用的な実装では、これらのユニットの多くは互いに密接に対話し、少なくとも部分的に相互へ統合されることができる。しかしながら、開示される主題を説明する目的のために、以下では、機能ユニットへの概念的な細分化が適切である。

第１ユニットは、スケーラ／逆変換ユニット（５５１）である。スケーラ／逆変換ユニット（５５１）は、パーサ（５２０）からのシンボル（５２１）として、どの変換を使用すべきか、ブロックサイズ、量子化係数、量子化スケーリング行列等を含む制御情報だけでなく、量子化された変換係数も受け取る。スケーラ／逆変換ユニット（５５１）は、アグリゲータ（５５５）に入力することができるサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換（５５１）の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックに関連する可能性がある。このような予測情報は、イントラピクチャ予測ユニット（５５２）によって提供されることができる。場合によっては、イントラピクチャ予測ユニット（５５２）は、現在のピクチャバッファ（５５８）からフェッチされる、周囲の既に再構成された情報を使用して、再構成中のブロックの同じサイズ及び形状のブロックを生成する。現在のピクチャバッファ（５５８）は、例えば部分的に再構成された現在のピクチャ及び／又は完全に再構成された現在のピクチャをバッファする。アグリゲータ（５５５）は、場合によってはサンプルごとに、イントラ予測ユニット（５５２）が生成した予測情報を、スケーラ／逆変換ユニット（５５１）によって提供される出力サンプル情報に追加し得る。

他の場合には、スケーラ／逆変換ユニット（５５１）の出力サンプルは、インターコーディングされて潜在的に動き補償されるブロックに関連する可能性がある。このような場合、動き補償予測ユニット（５５３）は、予測に使用されるサンプルをフェッチするために参照ピクチャメモリ（５５７）にアクセスすることができる。ブロックに関連するシンボル（５２１）に従って、フェッチされたサンプルを動き補償した後、これらのサンプルは、アグリゲータ（５５５）によって、出力サンプル情報を生成するために、スケーラ／逆変換ユニット（５５１）の出力（この場合、残差サンプル又は残差信号と呼ばれる）に追加されることができる。動き補償予測ユニット（５５３）が予測サンプルをフェッチする参照ピクチャメモリ（５５７）内のアドレスは、例えばＸ、Ｙと参照ピクチャ成分を有することができるシンボル（５２１）の形態で、動き補償予測ユニット（５５３）に利用可能な動きベクトルによって、制御されることができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ（５５７）からフェッチされるサンプル値の補間、動きベクトル予測メカニズム等も含むことができる。

アグリゲータ（５５５）の出力サンプルは、ループフィルタユニット（５５６）内の様々なループフィルタリング技術の対象となることができる。ビデオ圧縮技術は、コーディングされたビデオシーケンス（コーディングされたビデオビットストリームとも呼ばれる）に含まれるパラメータによって制御され、かつパーサ（５２０）からシンボル（５２１）としてループフィルタユニット（５５６）に利用可能にされるが、コーディングされたピクチャ又はコーディングされたビデオシーケンスの（復号順序で）以前の部分の復号中に取得されたメタ情報に応答することもできるとともに、以前に再構成されてループフィルタリングされたサンプル値に応答することができる、ループ内フィルタ技術を含むことができる。

ループフィルタユニット（５５６）の出力は、レンダデバイス（５１２）に出力されることができ、かつ将来のインターピクチャ予測で使用するために参照ピクチャメモリ（５５７）内に記憶されることができる、サンプルストリームとすることができる。

ある特定のコーディングされたピクチャは、いったん完全に再構成されると、将来の予測のための参照ピクチャとして使用されることができる。例えば現在のピクチャに対応するコーディングされたピクチャが完全に再構成され、コーディングされたピクチャが（例えばパーサ（５２０）によって）参照ピクチャとして識別されると、現在のピクチャバッファ（５５８）は参照ピクチャメモリ（５５７）の一部となることができ、フレッシュな現在のピクチャバッファは、後続のコーディングされたピクチャの再構成を開始する前に再割り当てされることができる。

ビデオデコーダ（５１０）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５のような規格の所定のビデオ圧縮技術に従って復号動作を実行し得る。コーディングされたビデオシーケンスは、該コーディングされたビデオシーケンスが、ビデオ圧縮技術又は規格の構文と、ビデオ圧縮技術又は規格で文書化されるプロファイルとの両方を守るという意味において、使用されているビデオ圧縮技術又は規格によって指定された構文に準拠し得る。具体的には、プロファイルは、そのプロファイルの下での使用に使用可能な唯一のツールとして、特定のツールを選択することができる。また、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルによって定義される範囲内にあることが、準拠には必要であり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えば毎秒メガサンプル（megasamples）で測定される）、最大参照ピクセルサイズ等を制限する。レベルによって設定される限界（limit）は、場合によっては、コーディングされたビデオシーケンスでシグナリングされる仮想リファレンスデコーダ（ＨＲＤ：Hypothetical Reference Decoder）のバッファ管理のためのＨＲＤ仕様及びメタデータを通して更に制限される可能性がある。

実施形態では、受信機（５３１）は、符号化ビデオとともに追加の（冗長な）データを受け取ることがある。追加のデータは、コーディングされたビデオシーケンスの一部として含まれてよい。追加のデータは、データを適切に復号し、かつ／又は元のビデオデータをより正確に再構成するために、ビデオデコーダ（５１０）によって使用され得る。追加のデータは、例えば時間的、空間的又は信号対ノイズ比（ＳＮＲ）強化層（enhancement layers）、冗長スライス、冗長ピクチャ、順方向誤り訂正コード等の形態とすることができる。

図６は、本開示の実施形態による、ビデオエンコーダ（６０３）のブロック図を示す。ビデオエンコーダ（６０３）は、電子デバイス（６２０）に含まれる。電子デバイス（６２０）は、送信機（６４０）（例えば送信回路）を含む。図４の例のビデオエンコーダ（４０３）の代わりに、ビデオエンコーダ（６０３）を使用することができる。

ビデオエンコーダ（６０３）は、ビデオサンプルを、ビデオエンコーダ（６０３）によってコーディングされるべきビデオ画像をキャプチャし得るビデオソース（６０１）（図６の例では電子デバイス（６２０）の一部ではない）から受け取ってよい。別の例では、ビデオソース（６０１）は、電子デバイス（６２０）の一部である。

ビデオソース（６０１）は、ビデオエンコーダ（６０３）によってコーディングされるべきソースビデオシーケンスを、任意の適切なビット深度（例えば８ビット、１０ビット、１２ビット、．．．）、任意の色空間（例えばＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ、．．．）及び任意の適切なサンプリング構造（例えばＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）とすることができるデジタルビデオサンプルストリームの形態で提供し得る。メディア供給システムにおいて、ビデオソース（６０１）は、事前に準備されたビデオを記憶するストレージデバイスであってよい。ビデオ会議システムでは、ビデオソース（６０１）は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラであってもよい。ビデオデータは、シーケンスで見るときに動きを伝える複数の個々のピクチャとして提供されてもよい。ピクチャ自体は、ピクセルの空間アレイとして編成されてよく、この場合、各ピクセルは、使用中のサンプリング構造、色空間等に応じて１つ以上のサンプルを含むことができる。当業者は、ピクセルとサンプルとの関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。

一実施形態によると、ビデオエンコーダ（６０３）は、リアルタイムで又はアプリケーションによって要求される任意の他の時間制約の下で、ソースビデオシーケンスのピクチャをコーディング及び圧縮して、コーディングされたビデオシーケンス（６４３）にすることができる。適切なコーディング速度を実施することは、コントローラ（６５０）の１つの機能である。いくつかの実施形態において、コントローラ（６５０）は、以下で説明されるように、他の機能ユニットを制御し、該他の機能ユニットに機能的に結合される。この結合は、明確性のために図示されていない。コントローラ（６５０）によって設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、．．．）、ピクチャサイズ、ピクチャのグループ（ＧＯＰ）のレイアウト、最大動きベクトル探索範囲等を含むことができる。コントローラ（６５０）は、特定のシステム設計のために最適化された、ビデオエンコーダ（６０３）と関係する他の適切な機能を有するように構成されることができる。

いくつかの実施形態では、ビデオエンコーダ（６０３）は、コーディングループで動作するように構成される。過剰に簡略化した説明として、一例では、コーディングループは、ソースコーダ（６３０）（例えばコーディングされるべき入力ピクチャ及び参照ピクチャに基づいて、シンボルストリーム等のシンボルを作成することを担当する）と、ビデオエンコーダ（６０３）に埋め込まれた（ローカル）デコーダ（６３３）とを含むことができる。デコーダ（６３３）は、（リモート）デコーダも作成するのと同様の方法で、シンボルを再構成してサンプルデータを作成する（シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮は、開示される主題において考慮されるビデオ圧縮技術で可逆であるので）。再構成されたサンプルストリーム（サンプルデータ）は、参照ピクチャメモリ（６３４）に入力される。シンボルストリームの復号は、デコーダ位置（ローカル又はリモート）とは独立のビット正確な結果（bit-exact results）をもたらすので、参照ピクチャメモリ（６３４）内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分は、デコーダが復号中に予測を使用するときに「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャのシンクロニシティ（synchronicity）のこの基本原理（及び例えばチャネルエラーのためにシンクロニシティを維持することができない場合の結果として生じるドリフト）は、いくつかの関連する技術でも同様に使用される。

「ローカル」デコーダ（６３３）の動作は、ビデオデコーダ（５１０）のような「リモート」デコーダと同じものとすることができ、これは、既に図５に関連して上述されている。しかしながら、図５も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ（６４５）及びパーサ（５２０）によるコーディングされたビデオシーケンスへのシンボルの符号化／復号は可逆であり得るので、バッファメモリ（５１５）及びパーサ（５２０）を含むビデオデコーダ（５１０）のエントロピー復号部分は、ローカルデコーダ（６３３）では完全には実装されないことがある。

一実施形態において、デコーダ内に存在する、解析／エントロピー復号以外の任意のデコーダ技術はまた、対応するエンコーダ内において同一又は実質的に同一の機能的形態で存在する。したがって、開示される主題はデコーダ動作に焦点を当てる。エンコーダ技術の説明は、網羅的に説明されるデコーダ技術の反対であるので、省略される可能性がある。特定の領域において、より詳細な説明が以下で提供される。

いくつかの例示において、動作中に、ソースコーダ（６３０）は、動き補償予測コーディングを実行してよく、動き補償予測コーディングは、「参照ピクチャ」として指定されたビデオシーケンスからの１つ以上の以前にコーディングされたピクチャに関連して予測的に入力ピクチャをコーディングする。このようにして、コーディングエンジン（６３２）は、入力ピクチャのピクセルブロックと、入力ピクチャに対する予測参照として選択され得る参照ピクチャのピクセルブロックとの間の差をコーディングする。

ローカルビデオデコーダ（６３３）は、ソースコーダ（６３０）によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングされたビデオデータを復号し得る。コーディングエンジン（６３２）の動作は、有利には、非可逆プロセスであり得る。コーディングされたビデオデータがビデオデコーダ（図６には図示せず）で復号され得るとき、再構成ビデオシーケンスは、典型的に、いくつかの誤差を伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ（６３３）は、参照ピクチャに対してビデオデコーダによって実行され得る復号処理を複製し、再構成参照ピクチャを参照ピクチャキャッシュ（６３４）に記憶させ得る。このようにして、ビデオエンコーダ（６０３）は、（伝送誤差なしに）遠端ビデオデコーダによって取得される再構成参照ピクチャとして、共通のコンテンツを有する再構成参照ピクチャのコピーを、ローカルに記憶し得る。

予測器（６３５）は、コーディングエンジン（６３２）について予測探索を実行し得る。すなわち、コーディングされるべき新しいピクチャについて、予測器（６３５）は、参照ピクチャメモリ（６３４）から、サンプルデータ（候補参照ピクセルブロックとして）又は参照ピクチャ動きベクトル、ブロック形状等のような特定のメタデータを探索してよく、これらのデータは、新しいピクチャのための適切な予測参照として機能し得る。予測器（６３５）は、適切な予測参照を見つけるために、サンプルブロックとピクセルブロックごと（sample block-by-pixel block basis）に動作し得る。場合によっては、予測器（６３５）によって取得される検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（６３４）に記憶された複数の参照ピクチャから引き出された予測参照を有してよい。

コントローラ（６５０）は、例えばビデオデータを符号化するために使用されるパラメータ及びサブグループパラメータの設定を含む、ソースコーダ（６３０）のコーディング動作を管理してもよい。

前述の機能ユニットのすべての出力は、エントロピーコーダ（６４５）におけるエントロピーコーディングの対象となり得る。エントロピーコーダ（６４５）は、ハフマンコーディング、可変長コーディング、算術コーディング等のような技術に従ってシンボルを可逆圧縮することによって、様々な機能ユニットによって生成されるシンボルを、コーディングされたビデオシーケンスに変換する。

送信機（６４０）は、エントロピーコーダ（６４５）によって作成されるコーディングされたビデオシーケンスをバッファして、通信チャネル（６６０）を介した伝送の準備を行ってよく、該通信チャネル（６６０）は、符号化されたビデオデータを記憶するストレージデバイスへのハードウェア／ソフトウェアリンクであってよい。送信機（６４０）は、ビデオコーダ（６０３）からのコーディングされたビデオデータを、伝送されるべき他のデータ、例えばコーディングされたオーディオデータ及び／又は補助データストリーム（ソースは図示せず）とマージし得る。

コントローラ（６５０）は、ビデオエンコーダ（６０３）の動作を管理し得る。コーディングの間、コントローラ（６５０）は、各コーディングされたピクチャに、特定のコーディングピクチャタイプ（coded picture type）を割り当ててよく、該コーディングピクチャタイプは、それぞれのピクチャに適用され得るコーディングに影響を与え得る。例えばピクチャは、しばしば、次のピクチャタイプのうちの１つとして割り当てられ得る：

イントラピクチャ（Ｉピクチャ）は、予測のソースとしてシーケンス内のいずれの他のピクチャも使用せずにコーディング及び復号され得るものであり得る。いくつかのビデオコーデックは、例えば独立デコーダリフレッシュ（「ＩＤＲ：Independent Decoder Refresh」）ピクチャを含む、異なるタイプのイントラピクチャを許容する。当業者は、Ｉピクチャのこれらの変形並びにそれらのそれぞれの用途及び特徴を知っている。

予測ピクチャ（Ｐピクチャ）は、各ブロックのサンプル値を予測するために、最大１つの動きベクトルと参照インデックスを用いて、イントラ予測又はインター予測を使用して、コーディング及び復号され得るものであり得る。

双方向予測ピクチャ（Ｂピクチャ）は、各ブロックのサンプル値を予測するために、最大２つの動きベクトルと参照インデックスを用いて、イントラ予測又はインター予測を使用して、コーディング及び復号され得るものであり得る。同様に、複数予測ピクチャ（multiple-predictive pictures）は、単一のブロックの再構成のために、２つより多くの参照ピクチャ及び関連するメタデータを使用することができる。

ソースピクチャは、通常、空間的に複数のサンプルブロック（例えば各々４×４、８×８、４×８又は１６×１６サンプルのブロック）に細分され、ブロックごとにコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割り当てによって決定されるように、他の（既にコーディングされた）ブロックに関連して予測的にコーディングされ得る。例えばＩピクチャのブロックは、非予測的にコーディングされてもよく、あるいはそれらは、同じピクチャの既にコーディングされたブロックに関連して予測的にコーディングされてもよい（空間予測又はイントラ予測）。Ｐピクチャのピクセルブロックは、以前にコーディングされた１つの参照ピクチャに関連して、空間予測を介して又は時間予測を介して予測的にコーディングされ得る。Ｂピクチャのブロックは、１つ又は２つの以前にコーディングされた参照ピクチャに関連して、空間予測を介して又は時間予測を介して予測的にコーディングされ得る。

ビデオエンコーダ（６０３）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５のような所定のビデオコーディング技術又は規格に従ってコーディング動作を実行し得る。その動作において、ビデオエンコーダ（６０３）は、入力ビデオシーケンスにおける時間的及び空間的冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行し得る。コーディングされたビデオデータは、したがって、使用されているビデオコーディング技術又は規格によって指定された構文に従うことができる。

一実施形態では、送信機（６４０）は、符号化されたビデオとともに追加データを送信してもよい。ソースコーダ（６３０）は、コーディングされたビデオシーケンスの一部としてそのようなデータを含んでよい。追加データは、時間／空間／ＳＮＲ強化層、冗長ピクチャ及びスライス、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメント等のような他の形式の冗長データを含んでもよい。

ビデオは、時間シーケンスにおいて複数のソースピクチャ（ビデオピクチャ）としてキャプチャされ得る。イントラピクチャ予測（しばしば、イントラ予測と略される）は、所与のピクチャにおける空間的相関を使用し、インターピクチャ予測は、ピクチャ間の（時間的又は他の）相関を使用する。一例では、符号化／復号中の特定のピクチャは、現在のピクチャと呼ばれ、ブロックに区分化される。現在のピクチャ内のブロックが、ビデオ内の以前にコーディングされて依然としてバッファされている参照ピクチャ内の参照ブロックに類似するとき、現在のピクチャ内のブロックは、動きベクトルと呼ばれるベクトルによってコーディングされることができる。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されているケースでは、参照ピクチャを識別する第３次元（third dimension）を有することができる。

いくつかの実施形態では、インターピクチャ予測において双予測技術を使用することができる。双予測技術によると、第１参照ピクチャと第２参照ピクチャのように、両方とも、復号順序でビデオ内の現在のピクチャに先行する（ただし、表示順序では、それぞれ、過去及び将来であり得る）２つの参照ピクチャが使用される。現在のピクチャ内のブロックを、第１参照ピクチャ内の第１参照ブロックを指す第１動きベクトルと、第２参照ピクチャ内の第２参照ブロックを指す第２動きベクトルとによってコーディングすることができる。ブロックは、第１参照ブロックと第２参照ブロックの組合せによって、予測されることができる。

さらに、コーディング効率を改善するために、インターピクチャ予測においてマージモード技術を使用することができる。

本開示のいくつかの実施形態によると、インターピクチャ予測及びイントラピクチャ予測のような予測は、ブロックのユニット（unit）において実行される。例えばＨＥＶＣ規格によると、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット（ＣＴＵ）に区分化され、ピクチャ内のＣＴＵｓは、６４×６４ピクセル、３２×３２ピクセル又は１６×１６ピクセルのように、同じサイズを有する。一般に、ＣＴＵは、３つのコーディングツリーブロック（ＣＴＢｓ）を含み、該３つのＣＴＢは、１つのルマ（luma）ＣＴＢと２つのクロマＣＴＢである。各ＣＴＵは、１つ又は複数のコーディングユニット（ＣＵｓ）に再帰的に四分木分裂（quadtree split）することができる。例えば６４×６４ピクセルのＣＴＵを、６４×６４ピクセルの１つのＣＵに又は３２×３２ピクセルの４つのＣＵに又は１６×１６ピクセルの１６個のＣＵに分裂することができる。一例では、各ＣＵを分析して、インター予測タイプ又はイントラ予測タイプのような、ＣＵの予測タイプを決定する。ＣＵは、時間的及び／又は空間的予測可能性に依存して、１つ以上の予測ユニット（ＰＵｓ）に分裂される。一般に、各ＰＵはルマ予測ブロック（ＰＢ）と２つのクロマＰＢｓを含む。一実施形態では、コーディング（符号化／復号）における予測動作は、予測ブロックのユニットにおいて実行される。予測ブロックの例としてルマ予測ブロックを使用すると、予測ブロックは、８×８ピクセル、１６×１６ピクセル、８×１６ピクセル、１６×８ピクセル等のような、ピクセルについての値（例えばルマ値）の行列を含んでよい。

図７は、本開示の別の実施形態によるビデオエンコーダ（７０３）の図を示す。ビデオエンコーダ（７０３）は、ビデオピクチャのシーケンス内の現在のビデオピクチャ内のサンプル値の処理ブロック（例えば予測ブロック）を受け取り、処理ブロックを符号化して、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャにするように構成される。一例では、ビデオエンコーダ（７０３）は、図４の例のビデオエンコーダ（４０３）の代わりに使用される。

ＨＥＶＣの例では、ビデオエンコーダ（７０３）は、８×８サンプルの予測ブロック等のような処理ブロックのサンプル値の行列を受け取る。ビデオエンコーダ（７０３）は、処理ブロックが、例えばレート歪み最適化（rate-distortion optimization）を使用して、イントラモード、インターモード又は双予測（bi-prediction）モードを使用して最も良くコーディングされるかどうかを決定する。処理ブロックがイントラモードでコーディングされるべきであるとき、ビデオエンコーダ（７０３）は、イントラ予測技術を使用して、処理ブロックを符号化して、コーディングされたピクチャにしてよく、処理ブロックがインターモード又は双予測モードでコーディングされるべきであるとき、ビデオエンコーダ（７０３）は、それぞれインター予測技術又は双予測技術を使用して、処理ブロックを符号化して、符号化ピクチャにしてよい。特定のビデオコーディング技術では、マージモードは、予測子の外側のコーディングされた動きベクトル構成要素の利益を伴わずに、動きベクトルが１つ以上の動きベクトル予測子から導出される場合、インターピクチャ予測サブモードであり得る。特定の他のビデオコーディング技術では、対象ブロックに適用可能な動きベクトル構成要素が存在してもよい。一例では、ビデオエンコーダ（７０３）は、処理ブロックのモードを決定するために、モード決定モジュール（図示せず）のような他の構成要素を含む。

図７の例では、ビデオエンコーダ（７０３）は、図７に示されるように一緒に結合される、インターエンコーダ（７３０）、イントラエンコーダ（７２２）、残差計算器（７２３）、スイッチ（７２６）、残差エンコーダ（７２４）、一般コントローラ（７２１）及びエントロピーエンコーダ（７２５）を含む。

インターエンコーダ（７３０）は、現在のブロック（例えば処理ブロック）のサンプルを受け取り、該ブロックを参照ピクチャ内の１つ以上の参照ブロック（例えば前のピクチャ及び後のピクチャ内のブロック）と比較し、インター予測情報（例えばインター符号化技術に従った冗長情報の記述、動きベクトル、マージモード情報）を生成し、任意の適切な技術を使用して、インター予測情報に基づいてインター予測結果（例えば予測ブロック）を計算するよう構成される。いくつかの例では、参照ピクチャは、符号化されたビデオ情報に基づいて復号される復号参照ピクチャである。

イントラエンコーダ（７２２）は、現在のブロック（例えば処理ブロック）のサンプルを受け取り、場合によっては、該ブロックを、同じピクチャ内の既にコーディングされたブロックと比較し、変換後に量子化された係数と、場合によってはイントラ予測情報（例えば１つ以上のイントラ符号化技術に従ったイントラ予測方向情報）も生成するよう構成される。一例では、イントラエンコーダ（７２２）はまた、イントラ予測情報と、同じピクチャ内の参照ブロックに基づいて、イントラ予測結果（例えば予測ブロック）も計算する。

一般コントローラ（７２１）は、一般制御データを決定し、該一般制御データに基づいてビデオエンコーダ（７０３）の他の構成要素を制御するよう構成される。一例では、一般コントローラ（７２１）は、ブロックのモードを決定し、該モードに基づいて制御信号をスイッチ（７２６）に提供する。例えばモードがイントラモードであるとき、一般コントローラ（７２１）は、残差計算器（７２３）が使用するためのイントラモードの結果を選択するようにスイッチ（７２６）を制御し、イントラ予測情報を選択して該イントラ予測情報をビットストリームに含めるようにエントロピーエンコーダ（７２５）を制御し、モードがインターモードであるとき、一般コントローラ（７２１）は、残差計算器（７２３）が使用するためのインター予測結果を選択するようにスイッチ（７２６）を制御し、インター予測情報を選択して該インター予測情報をビットストリームに含めるようにエントロピーエンコーダ（７２５）を制御する。

残差計算器（７２３）は、イントラエンコーダ（７２２）又はインターエンコーダ（７３０）から選択された、受け取ったブロックと予測結果との差（残差データ）を計算するよう構成される。残差エンコーダ（７２４）は、残差データに基づいて動作し、残差データを符号化して変換係数を生成するよう構成される。一例では、残差エンコーダ（７２４）は、残差データを空間領域から周波数領域に変換して、変換係数を生成するように構成される。次いで、変換係数は、量子化処理の対象となり、量子化された変換係数を取得する。様々な実施形態では、ビデオエンコーダ（７０３）は、残差デコーダ（７２８）も含む。残差デコーダ（７２８）は、逆変換を実行し、復号された残差データを生成するよう構成される。復号された残差データは、イントラエンコーダ（７２２）及びインターエンコーダ（７３０）によって適切に使用されることができる。例えばインターエンコーダ（７３０）は、復号された残差データ及びインター予測情報に基づいて、復号されたブロックを生成することができ、イントラエンコーダ（７２２）は、復号された残差データ及びイントラ予測情報に基づいて、復号されたブロックを生成することができる。復号されたブロックは、復号されたピクチャを生成するために適切に処理され、復号されたピクチャは、メモリ回路（図示せず）内でバッファリングされ、いくつかの例では、参照ピクチャとして使用されることができる。

エントロピーエンコーダ（７２５）は、符号化ブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ（７２５）は、ＨＥＶＣ規格のような適切な規格に従って、様々な情報を含めるように構成される。一例では、エントロピーエンコーダ（７２５）は、一般制御データ、選択された予測情報（例えばイントラ予測情報又はインター予測情報）、残差情報及び他の適切な情報をビットストリーム内に含めるよう構成される。開示される主題によると、インターモード又は双予測モードのいずれかのマージサブモードでブロックをコーディングするとき、残差情報がないことに留意されたい。

図８は、本開示の別の実施形態による、ビデオデコーダ（８１０）の図を示す。ビデオデコーダ（８１０）は、コーディングされたビデオシーケンスの一部である、コーディングされたピクチャを受け取り、コーディングされたピクチャを復号して再構成ピクチャを生成するよう構成される。一例では、図４の例のビデオデコーダ（４１０）の代わりにビデオデコーダ（８１０）が使用される。

図８の例では、ビデオデコーダ（８１０）は、図８に示されるように一緒に結合される、エントロピーデコーダ（８７１）、インターデコーダ（８８０）、残差デコーダ（８７３）、再構成モジュール（８７４）及びイントラデコーダ（８７２）を含む。

エントロピーデコーダ（８７１）は、コーディングされたピクチャから、該コーディングされたピクチャが構成される構文要素を表す特定のシンボルを再構成するよう構成されることができる。そのようなシンボルは、例えばブロックがコーディングされるモード（例えばイントラモード、インターモード、双予測モード、後者２つのマージサブモード又は別のサブモード等）、イントラデコーダ（８７２）又はインターデコーダ（８８０）によってそれぞれ予測のために使用される特定のサンプル又はメタデータを識別することができる予測情報（例えばイントラ予測情報又はインター予測情報等）、例えば量子化された変換係数の形態の残差情報等を含むことができる。一例では、予測モードがインターモード又は双予測モードであるとき、インター予測情報がインターデコーダ（８８０）に提供され、予測モードがイントラ予測モードであるとき、イントラ予測情報がイントラデコーダ（８７２）に提供される。残差情報は、逆量子化の対象となり得、残差デコーダ（８７３）に提供される。

インターデコーダ（８８０）は、インター予測情報を受け取り、該インター予測情報に基づいてインター予測結果を生成するよう構成される。

イントラデコーダ（８７２）は、イントラ予測情報を受け取り、該イントラ予測情報に基づいて予測結果を生成するよう構成される。

残差デコーダ（８７３）は、逆量子化を実行して非量子化（de-quantized）変換係数を抽出し、非量子化変換係数を処理して残差を周波数領域から空間領域に変換するよう構成され得る。残差デコーダ（８７３）はまた、特定の制御情報（量子化器パラメータ（ＱＰ：Quantizer Parameter）を含む）も要求することがあり、この情報は、エントロピーデコーダ（８７１）によって提供され得る（これは低量の制御情報のみであり得るので、データ経路は図示されない）。

再構成モジュール（８７４）は、空間領域において、残差デコーダ（８７３）による出力としての残差と、（場合によっては、インター又はイントラ予測モジュールによる出力としての）予測結果とを組み合わせて再構成ブロックを形成するよう構成され、該再構成ブロックは、再構成ビデオの一部であり得る再構成ピクチャの一部であり得る。視覚品質を改善するために、デブロッキング操作等の他の適切な操作を実行することができることに留意されたい。

ビデオエンコーダ（４０３）、（６０３）及び（７０３）、並びにビデオデコーダ（４１０）、（５１０）及び（８１０）は、任意の適切な技術を使用して実装されることができることに留意されたい。一実施形態では、ビデオエンコーダ（４０３）、（６０３）及び（７０３）、並びにビデオデコーダ（４１０）、（５１０）及び（８１０）は、１つ以上の集積回路を使用して実装されることができる。別の実施形態では、ビデオエンコーダ（４０３）、（６０３）及び（７０３）、並びにビデオデコーダ（４１０）、（５１０）及び（８１０）は、ソフトウェア命令を実行する１つ以上のプロセッサを使用して実装されることができる。

本開示は、人工知能（ＡＩ）ベースのニューラル画像圧縮（ＮＩＣ：neural image compression）のようなニューラル画像圧縮技術及び／又はニューラルビデオ圧縮技術に関連するビデオコーディング技術を説明する。本開示の態様は、ニューラルネットワークに基づくエンドツーエンド（Ｅ２Ｅ）最適化画像コーディングフレームワークのためのブロックワイズ・コンテンツ適応オンライントレーニング（block-wise content-adaptive online training）ＮＩＣ方法のような、ＮＩＣにおけるコンテンツ適応オンライントレーニングを含む。ニューラルネットワーク（ＮＮ）は、ディープニューラルネットワーク（ＤＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）等のような人工ニューラルネットワークを含むことができる。

一実施形態では、関連するハイブリッドビデオコーデックを全体として最適化することは難しい。例えばハイブリッドビデオコーデックにおける単一のモジュール（例えばエンコーダ）の改善は、全体的な性能におけるコーディングゲインをもたらさない可能性がある。ＮＮベースのビデオコーディングフレームワークでは、学習プロセス又はトレーニングプロセス（例えば機械学習プロセス）を実行することによって、最終目標（例えば本開示で記載されるレート歪み損失Ｌのようなレート歪み性能）を改善するために、異なるモジュールを入力から出力まで共同で最適化することができ、したがって、Ｅ２Ｅ最適化ＮＩＣをもたらすことができる。

例示的なＮＩＣフレームワーク又はシステムは、以下のように説明することができる。ＮＩＣフレームワークは、ニューラルネットワークエンコーダ（例えばＤＮＮのようなニューラルネットワークに基づくエンコーダ）への入力として入力ブロックxを使用して、例えば記憶及び伝送目的のためにコンパクトであり得る圧縮表現（例えばコンパクト表現）

を計算することができる。ニューラルネットワークデコーダ（例えばＤＮＮのようなニューラルネットワークに基づくデコーダ）は、圧縮表現

を入力として使用して、出力ブロック（再構成ブロックとも呼ばれる）

を再構成することができる。様々な実施形態では、入力ブロックxと再構成ブロック

は、空間領域にあり、圧縮表現

は、空間領域とは異なる領域にある。いくつかの例では、圧縮表現

は量子化され、エントロピーコーディングされる。

いくつかの例では、ＮＩＣフレームワークは変分オートエンコーダ（ＶＡＥ）構造を使用することができる。ＶＡＥ構造では、ニューラルネットワークエンコーダは、入力ブロックx全体をニューラルネットワークエンコーダへの入力として直接使用することができる。入力ブロックx全体は、圧縮表現

を計算するためにブラックボックスとして機能する、ニューラルネットワーク層のセットを通過することができる。圧縮表現

は、ニューラルネットワークエンコーダの出力である。ニューラルネットワークデコーダは、圧縮表現

全体を入力としてとることができる。圧縮表現

は、再構成ブロック

を計算するために別のブラックボックスとして機能するニューラルネットワーク層の別のセットを通過することができる。レート歪み（Ｒ－Ｄ）損失

を最適化して、再構成ブロック

の歪み損失

と、トレードオフハイパーパラメータλを用いるコンパクト表現

のビット消費Ｒとの間のトレードオフを達成することができる。

ニューラルネットワーク（例えばＡＮＮ）は、タスク固有のプログラミングなしに、例からタスクを実行することを学習することができる。ＡＮＮは、接続されたノード又は人工ニューロンで構成されることができる。ノード間の接続は、第１ノードから第２ノード（例えば受信ノード）に信号を送信することができ、該信号を、接続の重み係数によって示される重みによって修正することができる。受信ノードは、信号を受信ノードに送信するノードからの信号（すなわち、受信ノードに対する入力信号）を処理し、次いで、関数を入力信号に適用することによって出力信号を生成することができる。関数は線形関数とすることができる。一例では、出力信号は、入力信号の加重総和（weighted summation）である。一例では、出力信号は、バイアス項によって示され得るバイアスによって更に修正され、したがって、出力信号は、バイアスと入力信号の加重総和との和（sum）である。関数は、例えばバイアスと入力信号の加重総和との加重和（weighted sum）又は和に対する非線形演算を含むことができる。出力信号を、受信ノードに接続されたノード（ダウンストリームノード）に送信することができる。ＡＮＮは、パラメータ（例えば接続の重み及び／又はバイアス）によって表現又は構成されることができる。重み及び／又はバイアスを反復的に調整することができる例でＡＮＮをトレーニングすることによって、重み及び／又はバイアスを取得することができる。決定された重み及び／又は決定されたバイアスで構成されるトレーニングされたＡＮＮを使用して、タスクを実行することができる。

ＡＮＮ内のノードを、任意の適切なアーキテクチャで編成することができる。様々な実施形態では、ＡＮＮ内のノードは、ＡＮＮへの入力信号を受信する入力層と、ＡＮＮからの出力信号を出力する出力層とを含む層として編成される。一実施形態では、ＡＮＮは、入力層と出力層との間の隠れ層のような層を更に含む。異なる層は、該異なる層のそれぞれの入力に対して異なる種類の変換を実行することができる。信号は、入力層から出力層へ移動することができる。

入力層と出力層との間に複数の層を有するＡＮＮを、ＤＮＮと称することができる。一実施形態では、ＤＮＮは、データがループバックなしで入力層から出力層に流れるフィードフォワードネットワークである。一例では、ＤＮＮは、１つのレイヤ内の各ノードが次のレイヤのすべてのノードに接続される完全接続ネットワークである。一実施形態では、ＤＮＮは、データが任意の方向に流れることができるリカレントニューラルネットワークである。一実施形態では、ＤＮＮはＣＮＮである。

ＣＮＮは、入力層、出力層、及び入力層と出力層との間の隠れ層を含むことができる。隠れ層は、二次元（２Ｄ）畳み込みのような畳み込みを実行する（例えばエンコーダで使用される）畳み込み層を含むことができる。一実施形態では、畳み込み層で実行される２Ｄ畳み込みは、畳み込みカーネル（５×５行列のようなフィルタ又はチャネルとも呼ばれる）と、畳み込み層への入力信号（例えば２Ｄブロックなどの２Ｄ行列、２５６×２５６行列）との間である。様々な例において、畳み込みカーネルの寸法（例えば５×５）は、入力信号の寸法（例えば２５６×２５６）よりも小さい。したがって、畳み込みカーネルによってカバーされる入力信号（例えば２５６×２５６行列）の一部（例えば５×５領域）は、入力信号の領域（例えば２５６×２５６領域）よりも小さく、したがって、次の層のそれぞれのノードにおける受容野（receptive field）と呼ぶことができる。

畳み込みの間、畳み込みカーネルと入力信号内の対応する受容野のドット積が計算される。したがって、畳み込みカーネルの各要素は、受容野内の対応するサンプルに適用される重みであり、したがって、畳み込みカーネルは重みを含む。例えば５×５行列によって表される畳み込みカーネルは、２５の重みを有する。いくつかの例では、バイアスが畳み込み層の出力信号に適用され、出力信号は、ドット積とバイアスとの和に基づいている。

畳み込みカーネルは、入力信号（例えば２Ｄ行列）に沿って、ストライドと呼ばれるサイズだけシフトすることができ、したがって、畳み込み演算は、特徴マップ（feature map）又は活性化マップ（activation map）（例えば別の２Ｄ行列）を生成し、これは、ＣＮＮ内の次の層の入力に寄与する。例えば入力信号は、２５６×２５６サンプルを有する２Ｄブロックであり、ストライドは、２サンプル（例えば２のストライド（a stride of 2））である。２のストライドでは、畳み込みカーネルは、２サンプルだけ、Ｘ方向（例えば水平方向）及び／又はＹ方向（例えば垂直方向）に沿ってシフトする。

複数の畳み込みカーネルを、同じ畳み込み層で入力信号に適用して、それぞれ複数の特徴マップを生成することができ、ここで、各特徴マップは、入力信号の特有の特徴を表すことができる。一般に、Ｎ個のチャネル（すなわち、Ｎ個の畳み込みカーネル）を有する畳み込み層、Ｍ×Ｍサンプルを有する各畳み込みカーネル及びストライドＳを、Ｃｏｎｖ：Ｍ×ＭｃＮｓＳとして指定することができる。例えば１９２のチャネルの畳み込みレイヤ、５×５サンプルを有する各畳み込みカーネル及び２のストライドは、Ｃｏｎｖ：５×５ｃ１９２ｓ２として指定される。隠れ層は、２Ｄ逆畳み込み（deconvolution）のような逆畳み込みを実行する（例えばデコーダで使用される）逆畳み込み層を含むことができる。逆畳み込みは畳み込みの逆である。１９２のチャネルの逆畳み込みレイヤ、５×５サンプルを有する各逆畳み込みカーネル及び２のストライドは、ＤｅＣｏｎｖ：５×５ｃ１９２ｓ２として指定される。

様々な実施形態では、ＣＮＮは以下の利点を有する。ＣＮＮ内の多くの学習可能なパラメータ（すなわち、トレーニングされるべきパラメータ）は、フィードフォワードＤＮＮのようなＤＮＮ内の多くの学習可能なパラメータよりも著しく小さくすることができる。ＣＮＮでは、比較的多数のノードが、同じフィルタ（例えば同じ重み）及び同じバイアス（バイアスが使用される場合）を共有することができ、したがって、同じフィルタを共有するすべての受容野にわたって単一のバイアスと単一の重みベクトルを使用することができるので、メモリフットプリントを低減することができる。例えば１００×１００サンプルを有する入力信号に対して、５×５サンプルを有する畳み込みカーネルを有する畳み込み層は、２５の学習可能なパラメータ（例えば重み）を有する。バイアスが使用される場合、１つのチャネルは２６の学習可能なパラメータ（例えば２５の重みと１つのバイアス）を使用する。畳み込み層がＮチャネルを有する場合、学習可能なパラメータの合計は２６×Ｎである。一方、ＤＮＮ内の完全接続層では、１００×１００（すなわち１００００）の重みが、次の層の各ノードに使用される。次の層がＬノードを有する場合、学習可能なパラメータの合計は１００００×Ｌである。

ＣＮＮは、プーリング層、１つの層内のすべてのノードを別の層内のすべてのノードに接続することができる完全接続層、正規化層及び／又は同様のもののような、１つ以上の他の層を更に含むことができる。ＣＮＮ内の層は、任意の適切な順序及び任意の適切なアーキテクチャ（例えばフィードフォワードアーキテクチャ、リカレントアーキテクチャ）で配置されることができる。一例では、畳み込み層の後に、プーリング層、完全接続層、正規化層及び／又は同様のもののような他の層が続く。

プーリング層を使用して、１つの層における複数のノードからの出力を次の層内の単一のノードに結合することによってデータの寸法を低減することができる。入力として特徴マップを有するプーリング層のプーリング操作を以下に説明する。この説明を、他の入力信号に適切に適合させることができる。特徴マップを、サブ領域（例えば矩形サブ領域）に分割することができ、例えば平均プーリングの平均値又は最大プーリングの最大値をとることによって、それぞれのサブ領域内の特徴を独立に単一の値にダウンサンプリング（又はプーリング）することができる。

プーリング層は、ローカルプーリング、グローバルプーリング、最大プーリング、平均プーリング及び／又は同様のもののようなプーリングを実行することができる。プーリングは非線形ダウンサンプリングの一形態である。ローカルプーリングは、特徴マップ内の少数のノード（例えば２×２ノードのようなノードのローカルクラスター）を結合する。グローバルプーリングは、例えば特徴マップのすべてのノードを結合することができる。

プーリング層は、表現のサイズを低減することができ、したがって、パラメータの数、メモリフットプリント及びＣＮＮにおける計算量を低減することができる。一例では、プーリング層が、ＣＮＮ内の連続した畳み込み層の間に挿入される。一例では、プーリング層の後に、整流線形ユニット（ＲｅＬＵ：rectified linear unit）層のような活性化関数が続く。一例では、プーリング層は、ＣＮＮ内の連続した畳み込み層の間で省略される。

正規化層は、ＲｅＬＵ、ｌｅａｋｙＲｅＬＵ、ＧＤＮ（generalized divisive normalization）、逆ＧＤＮ（ＩＧＤＮ）等とすることができる。ＲｅＬＵは、負の値をゼロに設定することによって、特徴マップのような入力信号から負の値を除去するために、非飽和活性化関数（non-saturating activation function）を適用することができる。ｌｅａｋｙＲｅＬＵは、平坦な傾き（例えば０）の代わりに、負の値に対して小さな傾き（例えば０．０１）を有することができる。したがって、値xが０より大きい場合、ｌｅａｋｙＲｅＬＵからの出力はxである。そうでなければ、ｌｅａｋｙＲｅＬＵからの出力は、xに小さな傾き（例えば０．０１）を乗じた値である。一例では、傾きはトレーニング前に決定され、したがって、トレーニング中には学習されない。

ＤＮＮベース又はＣＮＮベースの画像圧縮方法のようなＮＮベースの画像圧縮方法では、画像全体を直接符号化する代わりに、ブロックベース又はブロックワイズのコーディング機構は、ＦＶＣのようなＤＮＮベースのビデオコーディング規格で画像を圧縮するのに有効であり得る。画像全体を同じ（又は様々な）サイズのブロックに分割することができ、ブロックを個々に圧縮することができる。一実施形態では、画像は、等しいサイズ又は等しくないサイズのブロックに分裂され得る。画像の代わりに、分裂されたブロックを圧縮することができる。図９Ａは、本開示の一実施形態によるブロックワイズの画像コーディングの一例を示す。画像（９８０）を、ブロック、例えばブロック（９８１）～（９９６）に分割することができる。ブロック（９８１）～（９９６）を、例えば走査順序に従って圧縮することができる。図９Ａに示される例では、ブロック（９８１）～（９８９）は既に圧縮されており、ブロック（９９０）～（９９６）が圧縮されることになる。

画像はブロックとして扱うことができる。一実施形態では、画像は、ブロックへ分裂させることなく圧縮される。画像全体は、Ｅ２ＥＮＩＣフレームワークの入力とすることができる。

図９Ｂは、本開示の一実施形態による、例示的なＮＩＣフレームワーク（９００）（例えばＮＩＣシステム）を示す。ＮＩＣフレームワーク（９００）は、ＤＮＮ及び／又はＣＮＮのようなニューラルネットワークに基づくことができる。ＮＩＣフレームワーク（９００）を使用して、ブロックを圧縮（例えば符号化）し、圧縮されたブロック（例えば符号化ブロック）を解凍（例えば復号又は再構成）することができる。ＮＩＣフレームワーク（９００）は、ニューラルネットワークを使用して実装される２つのサブニューラルネットワーク、すなわち、第１サブＮＮ（９５１）と第２サブＮＮ（９５２）を含むことができる。

第１サブＮＮ（９５１）は、オートエンコーダに類似することができ、入力ブロックxの圧縮ブロック

を生成し、該圧縮ブロック

を解凍して、再構成ブロック

を取得するようにトレーニングされることができる。第１サブＮＮ（９５１）は、メインエンコーダニューラルネットワーク（又はメインエンコーダネットワーク）（９１１）、量子化器（９１２）、エントロピーエンコーダ（９１３）、エントロピーデコーダ（９１４）及びメインデコーダニューラルネットワーク（又はメインデコーダネットワーク）（９１５）のような複数の構成要素（又はモジュール）を含むことができる。図９Ｂを参照すると、メインエンコーダネットワーク（９１１）は、入力ブロックx（例えば圧縮又は符号化されるべきブロック）から、潜在要素（latent）又は潜在表現（latent representation）yを生成することができる。一例では、メインエンコーダネットワーク（９１１）は、ＣＮＮを使用して実装される。潜在表現yと入力ブロックxとの間の関係を、式２を使用して説明することができる。
y＝f₁（x₁; θ₁）式２
ここで、パラメータθ₁は、メインエンコーダネットワーク（９１１）の畳み込みカーネルで使用される重み及びバイアス（メインエンコーダネットワーク（９１１）でバイアスが使用される場合）のようなパラメータを表す。

量子化器（９１２）を使用して潜在表現yを量子化して、量子化潜在要素（quantized latent）

を生成することができる。量子化潜在要素

を、例えばエントロピーエンコーダ（９１３）による可逆圧縮を使用して圧縮して、入力ブロックxの圧縮表現

である圧縮ブロック（例えば符号化ブロック）

（９３１）を生成することができる。エントロピーエンコーダ（９１３）は、ハフマンコーディング、算術コーディング等のようなエントロピーコーディング技術を使用することができる。一例では、エントロピーエンコーダ（９１３）は、算術符号化を使用し、算術エンコーダである。一例では、符号化ブロック（９３１）は、コーディングされたビットストリームで送信される。

符号化ブロック（９３１）を、エントロピーデコーダ（９１４）によって解凍（例えばエントロピー復号）して、出力を生成することができる。エントロピーデコーダ（９１４）は、エントロピーエンコーダ（９１３）で使用されるエントロピー符号化技術に対応するハフマンコーディング、算術コーディング等のようなエントロピーコーディング技術を使用することができる。一例では、エントロピーデコーダ（９１４）は、算術復号を使用し、算術デコーダである。一例では可逆圧縮がエントロピーエンコーダ（９１３）で使用され、可逆解凍がエントロピーデコーダ（９１４）で使用され、符号化ブロック（９３１）の伝送等に起因するノイズは省くことができ、エントロピーデコーダ（９１４）からの出力は、量子化潜在要素

である。

メインデコーダネットワーク（９１５）は、量子化潜在要素

を復号して、再構成ブロック

を生成することができる。一例では、メインデコーダネットワーク（９１５）は、ＣＮＮを使用して実装される。再構成ブロック

（すなわち、メインデコーダネットワーク（９１５）の出力）と量子化潜在要素

（すなわち、メインデコーダネットワーク（９１５）の入力）との間の関係を、式３を使用して説明することができる。

ここで、パラメータθ₂は、メインデコーダネットワーク（９１５）の畳み込みカーネルで使用される重み及びバイアス（メインデコーダネットワーク（９１５）でバイアスが使用される場合）のようなパラメータを表す。したがって、第１サブＮＮ（９５１）は、入力ブロックxを圧縮（例えば符号化）して符号化ブロック（９３１）を取得し、符号化ブロック（９３１）を解凍（例えば復号）して再構成ブロック

を取得することができる。再構成ブロック

は、量子化器（９１２）によって導入される量子化損失のために、入力ブロックxと異なる可能性がある。

第２サブＮＮ（９５２）は、エントロピーコーディングに使用される量子化潜在要素

にわたってエントロピーモデル（例えば事前確率モデル）を学習することができる。したがって、エントロピーモデルは、条件付きエントロピーモデル、例えば入力ブロックxに依存するガウス混合モデル（ＧＭＭ）、ガウススケールモデル（ＧＳＭ）とすることができる。第２サブＮＮ（９５２）は、コンテキストモデルＮＮ（９１６）、エントロピーパラメータＮＮ（９１７）、ハイパーエンコーダ（９２１）、量子化器（９２２）、エントロピーエンコーダ（９２３）、エントロピーデコーダ（９２４）及びハイパーデコーダ（９２５）を含むことができる。コンテキストモデルＮＮ（９１６）で使用されるエントロピーモデルは、潜在要素（例えば量子化潜在要素

）に対する自己回帰モデルとすることができる。一例において、ハイパーエンコーダ（９２１）、量子化器（９２２）、エントロピーエンコーダ（９２３）、エントロピーデコーダ（９２４）及びハイパーデコーダ（９２５）は、ハイパーニューラルネットワーク（例えばハイパープライア（hyperprior）ＮＮ）を形成する。ハイパーニューラルネットワークは、コンテキストベースの予測を補正するのに有用な情報を表すことができる。コンテキストモデルＮＮ（９１６）及びハイパーニューラルネットワークからのデータを、エントロピーパラメータＮＮ（９１７）によって組み合わせることができる。エントロピーパラメータＮＮ（９１７）は、条件付きガウスエントロピーモデル（例えばＧＭＭ）のようなエントロピーモデルのための平均及びスケールパラメータのようなパラメータを生成することができる。

図９Ｂを参照すると、エンコーダ側では、量子化器（９１２）からの量子化潜在要素

がコンテキストモデルＮＮ（９１６）に供給される。デコーダ側では、エントロピーデコーダ（９１４）からの量子化潜在要素

がコンテキストモデルＮＮ（９１６）に供給される。コンテキストモデルＮＮ（９１６）を、ＣＮＮのようなニューラルネットワークを使用して実装することができる。コンテキストモデルＮＮ（９１６）は、該コンテキストモデルＮＮ（９１６）に利用可能な量子化潜在要素

であるコンテキスト

に基づいて出力O_cm,iを生成することができる。コンテキスト

は、エンコーダ側で以前に量子化された潜在要素又はデコーダ側で以前にエントロピー復号された量子化された潜在要素を含むことができる。コンテキストモデルＮＮ（９１６）の出力O_cm,iと入力（例えば

）との間の関係を、式４を使用して説明することができる。

ここで、パラメータθ₃は、コンテキストモデルＮＮ（９１６）の畳み込みカーネルで使用される重み及びバイアス（コンテキストモデルＮＮ（９１６）でバイアスが使用される場合）のようなパラメータを表す。

コンテキストモデルＮＮ（９１６）からの出力O_cm,i及びハイパーデコーダ（９２５）からの出力O_hcは、エントロピーパラメータＮＮ（９１７）に供給されて、出力O_epを生成する。エントロピーパラメータＮＮ（９１７）を、ＣＮＮのようなニューラルネットワークを使用して実装することができる。エントロピーパラメータＮＮ（９１７）の出力O_epと入力（例えばO_cm,i及びO_hc）との間の関係を、式５を使用して説明することができる。
O_ep＝f₄（O_cm,i, O_hc; θ₄）式５
ここで、パラメータθ₄は、エントロピーパラメータＮＮ（９１７）の畳み込みカーネルで使用される重み及びバイアス（エントロピーパラメータＮＮ（９１７）でバイアスが使用される場合）のようなパラメータを表す。エントロピーパラメータＮＮ（９１７）の出力O_epを、エントロピーモデルの決定（例えば条件付け）に使用することができ、したがって、条件付けされたエントロピーモデルは、例えばハイパーデコーダ（９２５）からの出力O_hcを介して、入力ブロックxに依存し得る。一例では、出力O_epは、エントロピーモデル（例えばＧＭＭ）を条件付け（condition）するために使用される平均及びスケールパラメータのようなパラメータを含む。図９Ｂを参照すると、エントロピーモデル（例えば条件付けされたエントロピーモデル）は、エントロピーエンコーダ（９１３）及びエントロピーデコーダ（９１４）によって、それぞれエントロピーコーディング及びエントロピー復号において使用され得る。

第２サブＮＮ（９５２）を、以下に説明することができる。潜在要素yをハイパーエンコーダ（９２１）に供給して、ハイパー潜在要素（hyper latent）zを生成することができる。一例では、ハイパーエンコーダ（９２１）は、ＣＮＮのようなニューラルネットワークを用いて実装される。ハイパー潜在要素zと潜在要素yとの間の関係を、式６を使用して説明することができる。
z＝f₅（y; θ₅）式６
ここで、パラメータθ₅は、ハイパーエンコーダ（９２１）の畳み込みカーネルで使用される重み及びバイアス（ハイパーエンコーダ（９２１）でバイアスが使用される場合）のようなパラメータを表す。

ハイパー潜在要素zは量子化器（９２２）によって量子化され、量子化潜在要素

を生成する。量子化潜在要素

を、例えばエントロピーエンコーダ（９２３）による可逆圧縮を使用して圧縮し、ハイパーニューラルネットワークから符号化ビット（９３２）のようなサイド情報（side information）を生成することができる。エントロピーエンコーダ（９２３）は、ハフマンコーディング、算術コーディング等のようなエントロピーコーディング技術を使用することができる。一例では、エントロピーエンコーダ（９２３）は、算術エンコーダを使用し、算術エンコーダである。一例では、符号化ビット（９３２）のようなサイド情報を、コーディングされたビットストリームにおいて、例えば符号化ブロック（９３１）とともに送信することができる。

符号化ビット（９３２）のようなサイド情報を、エントロピーデコーダ（９２４）によって解凍（例えばエントロピー復号）して出力を生成することができる。エントロピーデコーダ（９２４）は、ハフマンコーディング、算術コーディング等のようなエントロピーコーディング技術を使用することができる。一例では、エントロピーデコーダ（９２４）は、算術復号を使用し、算術デコーダである。一例では、可逆圧縮がエントロピーエンコーダ（９２３）で使用され、可逆解凍がエントロピーデコーダ（９２４）で使用され、サイド情報の伝送等に起因するノイズを省くことができ、エントロピーデコーダ（９２４）からの出力は、量子化潜在要素

とすることができる。ハイパーデコーダ（９２５）は、量子化潜在要素

を復号して出力O_hcを生成することができる。出力O_hcと量子化潜在要素

との間の関係を、式７を使用して説明することができる。

ここで、パラメータθ₆は、ハイパーデコーダ（９２５）の畳み込みカーネルで使用される重み及びバイアス（ハイパーデコーダ（９２５）でバイアスが使用される場合）のようなパラメータを表す。

上述のように、圧縮又は符号化ビット（９３２）を、コーディングされたビットストリームにサイド情報として追加することができ、これは、エントロピーデコーダ（９１４）が、条件付きエントロピーモデルを使用することを可能にする。したがって、エントロピーモデルはブロック依存で空間的に適応的なものとすることができ、したがって、固定エントロピーモデルよりも正確であることができる。

ＮＩＣフレームワーク（９００）は、例えば図９Ｂに示される１つ以上の構成要素を省略し、図９Ｂに示される１つ以上の構成要素を修正し、かつ／又は図９Ｂに示されない１つ以上の構成要素を含むように、適切に適合され得る。一例では、固定エントロピーモデルを使用するＮＩＣフレームワークは、第１サブＮＮ（９５１）を含み、第２サブＮＮ（９５２）は含まない。一例では、ＮＩＣフレームワークは、エントロピーエンコーダ（９２３）及びエントロピーデコーダ（９２４）を除いて、ＮＩＣフレームワーク（９００）内の構成要素を含む。

一実施形態では、図９Ｂに示されるＮＩＣフレームワーク（９００）内の１つ以上の構成要素は、ＣＮＮのようなニューラルネットワークを使用して実装される。ＮＩＣフレームワーク（例えばＮＩＣフレームワーク（９００））内の各ＮＮベースの構成要素（例えばメインエンコーダネットワーク（９１１）、メインデコーダネットワーク（９１５）、コンテキストモデルＮＮ（９１６）、エントロピーパラメータＮＮ（９１７）、ハイパーエンコーダ（９２１）又はハイパーデコーダ（９２５））は、任意の適切なアーキテクチャ（例えば任意の適切な層の組合せを有する）を含むことができ、任意の適切なタイプのパラメータ（例えば重み、バイアス、重みとバイアスの組合せ及び／又は同様のもの）を含むことができ、任意の適切な数のパラメータを含むことができる。

一実施形態では、メインエンコーダネットワーク（９１１）、メインデコーダネットワーク（９１５）、コンテキストモデルＮＮ（９１６）、エントロピーパラメータＮＮ（９１７）、ハイパーエンコーダ（９２１）及びハイパーデコーダ（９２５）は、それぞれのＣＮＮを使用して実装される。

図１０は、本開示の一実施形態による、メインエンコーダネットワーク（９１１）の例示的なＣＮＮを示す。例えばメインエンコーダネットワーク（９１１）は、層の４つのセットを含み、層の各セットは、畳み込み層５×５ｃ１９２ｓ２とそれに続くＧＤＮ層を含む。図１０に示される１つ以上の層を修正及び／又は省略することができる。追加の層をメインエンコーダネットワーク（９１１）に追加することができる。

図１１は、本開示の一実施形態による、メインデコーダネットワーク（９１５）の例示的なＣＮＮを示す。例えばメインデコーダネットワーク（９１５）は、層の３つのセットを含み、層の各セットは、逆畳み込み層５×５ｃ１９２ｓ２とそれに続くＩＧＤＮ層を含む。加えて、層の３つのセットの後に、逆畳み込み層５×５ｃ３ｓ２が続き、それにＩＧＤＮ層が続く。図１１に示される１つ以上の層を修正及び／又は省略することができる。追加の層をメインデコーダネットワーク（９１５）に追加することができる。

図１２は、本開示の一実施形態による、ハイパーエンコーダ（９２１）の例示的なＣＮＮを示す。例えばハイパーエンコーダ（９２１）は、畳み込み層３×３ｃ１９２ｓ１とそれに続くｌｅａｋｙＲｅＬＵ、畳み込み層５×５ｃ１９２ｓ２とそれに続くｌｅａｋｙＲｅＬＵ、そして畳み込み層５×５ｃ１９２ｓ２を含む。図１２に示される１つ以上の層を修正及び／又は省略することができる。追加の層をハイパーエンコーダ（９２１）に追加することができる。

図１３は、本開示の一実施形態による、ハイパーデコーダ（９２５）の例示的なＣＮＮを示す。例えばハイパーデコーダ（９２５）は、逆畳み込み層５×５ｃ１９２ｓ２とそれに続くｌｅａｋｙＲｅＬＵ、逆畳み込み層５×５ｃ２８８ｓ２とそれに続くｌｅａｋｙＲｅＬＵ、そして逆畳み込み層３×３ｃ３８４ｓ１を含む。図１３に示される１つ以上の層は修正及び／又は省略することができる。追加の層をハイパーデコーダ（９２５）に追加することができる。

図１４は、本開示の一実施形態による、コンテキストモデルＮＮ（９１６）の例示的なＣＮＮを示す。例えばコンテキストモデルＮＮ（９１６）は、コンテキスト予測のためのマスクされた畳み込み５×５ｃ３８４ｓ１を含み、したがって、式４のコンテキスト

は、限定されたコンテキスト（例えば５×５の畳み込みカーネル）を含む。図１４の畳み込み層を修正することができる。追加のレイヤをコンテキストモデルＮＮ（９１６）に追加することができる。

図１５は、本開示の一実施形態による、エントロピーパラメータＮＮ（９１７）の例示的なＣＮＮを示す。例えばエントロピーパラメータＮＮ（９１７）は、畳み込み層１×１ｃ６４０ｓ１とそれに続くｌｅａｋｙＲｅＬＵ、畳み込み層１×１ｃ５１２ｓ１とそれに続くｌｅａｋｙＲｅＬＵ、そして畳み込み層１×１ｃ３８４ｓ１を含む。図１５に示される１つ以上の層を修正及び／又は省略することができる。追加の層をエントロピーパラメータＮＮ（９１７）に追加することができる。

ＮＩＣフレームワーク（９００）は、図１０～図１５を参照して説明されるように、ＣＮＮを使用して実装されることができる。ＮＩＣフレームワーク（９００）は、ＮＩＣフレームワーク（９００）内の１つ以上の構成要素（例えば（９１１）、（９１５）、（９１６）、（９１７）、（９２１）及び／又は（９２５））が、任意の適切なタイプのニューラルネットワーク（例えばＣＮＮ又は非ＣＮＮベースのニューラルネットワーク）を使用して実装されるように、適切に適合されることができる。ＮＩＣフレームワーク（９００）の１つ以上の他の構成要素は、ニューラルネットワークを使用して実装されることができる。

ニューラルネットワーク（例えばＣＮＮ）を含むＮＩＣフレームワーク（９００）は、ニューラルネットワークで使用されるパラメータを学習するためにトレーニングされることができる。例えばＣＮＮを使用するとき、メインエンコーダネットワーク（９１１）の畳み込みカーネルで使用される重みとバイアス（メインエンコーダネットワーク（９１１）でバイアスが使用される場合）、メインデコーダネットワーク（９１５）の畳み込みカーネルで使用される重みとバイアス（メインデコーダネットワーク（９１５）でバイアスが使用される場合）、ハイパーエンコーダ（９２１）の畳み込みカーネルで使用される重みとバイアス（ハイパーエンコーダ（９２１）でバイアスが使用される場合）、ハイパーデコーダ（９２５）の畳み込みカーネルで使用される重みとバイアス（ハイパーデコーダ（９２５）でバイアスが使用される場合）、コンテキストモデルＮＮ（９１６）の畳み込みカーネルで使用される重みとバイアス（コンテキストモデルＮＮ（９１６）でバイアスが使用される場合）、エントロピーパラメータＮＮ（９１７）の畳み込みカーネルで使用される重みとバイアス（エントロピーパラメータＮＮ（９１７）でバイアスが使用される場合）のような、それぞれθ₁－θ₆によって表されるパラメータを、トレーニングプロセスで学習することができる。

一例では、図１０を参照すると、メインエンコーダネットワーク（９１１）は、４つの畳み込み層を含み、各畳み込み層は、５×５の畳み込みカーネルと１９２のチャネルを有する。したがって、メインエンコーダネットワーク（９１１）の畳み込みカーネルで使用される重みの数は、１９２００（すなわち、４×５×５×１９２）である。メインエンコーダネットワーク（９１１）で使用されるパラメータは、１９２００の重みとオプションのバイアスを含む。バイアス及び／又は追加のＮＮがメインエンコーダネットワーク（９１１）で使用されるとき、追加のパラメータを含めることができる。

図９Ｂを参照すると、ＮＩＣフレームワーク（９００）は、ニューラルネットワーク上に構築された少なくとも１つの構成要素又はモジュールを含む。少なくとも１つの構成要素は、メインエンコーダネットワーク（９１１）、メインデコーダネットワーク（９１５）、ハイパーエンコーダ（９２１）、ハイパーデコーダ（９２５）、コンテキストモデルＮＮ（９１６）及びエントロピーパラメータＮＮ（９１７）のうちの１つ以上を含むことができる。少なくとも１つの構成要素を個々にトレーニングすることができる。一例では、トレーニングプロセスは、各構成要素についてのパラメータを別個に学習するために使用される。少なくとも１つの構成要素を、グループとして共同でトレーニングすることができる。一例では、トレーニングプロセスは、少なくとも１つの構成要素のサブセットについてのパラメータを共同で学習するために使用される。一例では、トレーニングプロセスは、少なくとも１つの構成要素のすべてについてのパラメータを学習するために使用され、したがって、Ｅ２Ｅ最適化と呼ばれる。

ＮＩＣフレームワーク（９００）内の１つ以上の構成要素についてのトレーニングプロセスにおいて、１つ以上の構成要素の重み（又は重み係数）を初期化することができる。一例では、重みは、事前トレーニングされた対応するニューラルネットワークモデル（例えばＤＮＮモデル、ＣＮＮモデル）に基づいて初期化される。一例では、重みは、該重みを乱数に設定することによって初期化される。

例えば重みが初期化された後に、トレーニングブロックのセットを用いて１つ以上の構成要素をトレーニングすることができる。トレーニングブロックのセットは、任意の適切なサイズを有する任意の適切なブロックを含むことができる。いくつかの例では、トレーニングブロックのセットは、空間領域内にある生画像、自然画像、コンピュータ生成画像及び／又は同様のものからのブロックを含む。いくつかの例では、トレーニングブロックのセットは、空間領域内の残差データを有する残差ブロック又は残差画像からのブロックを含む。残差データを、残差計算器（例えば残差計算器（７２３））によって計算することができる。いくつかの例では、生画像及び／又は残差データを含む残差画像を直接使用して、ＮＩＣフレームワーク内のニューラルネットワークをトレーニングすることができる。したがって、生画像、残差画像、生画像からのブロック及び／又は残差画像からのブロックを使用して、ＮＩＣフレームワーク内のニューラルネットワークをトレーニングすることができる。

簡潔性の目的のために、以下では、トレーニングプロセスは、例としてトレーニングブロックを使用して説明される。説明を、トレーニング画像に適切に適合させることができる。トレーニングブロックのセットのトレーニングブロックtを、図９Ｂの符号化プロセスを通過させて、圧縮表現（例えばビットストリームへの符号化情報）を生成することができる。符号化情報を、図９Ｂで説明される復号プロセスを通過させて、再構成ブロック

を計算して再構成することができる。

ＮＩＣフレームワーク（９００）では、２つの競合する目標、例えば再構成品質とビット消費がバランスがとれられる。品質損失関数（例えば歪み又は歪み損失）

を使用して、再構成（例えば再構成ブロック

）と元のブロック（例えばトレーニングブロックt）との間の差のような再構成品質を示すことができる。レート（又はレート損失）Ｒを使用して、圧縮表現のビット消費を示すことができる。一例では、レート損失Ｒは、例えばコンテキストモデルを決定する際に使用されるサイド情報を更に含む。
ニューラル画像圧縮のために、量子化の微分可能な近似をＥ２Ｅ最適化において使用することができる。様々な例において、ニューラルネットワークベースの画像圧縮のトレーニングプロセスでは、ノイズ注入が量子化をシミュレートするために使用され、したがって、量子化は、量子化器（例えば量子化器（９１２））によって実行される代わりに、ノイズ注入によってシミュレートされる。したがって、ノイズ注入を用いるトレーニングは、量子化誤差を変動的に近似することができる。ピクセル当たりのビット（ＢＰＰ：bits per pixel）推定器を使用してエントロピーコーダをシミュレートすることができ、したがって、エントロピーコーディングは、エントロピーエンコーダ（例えば（９１３））とエントロピーデコーダ（例えば（９１４））によって実行される代わりに、ＢＰＰ推定器によってシミュレートされる。したがって、トレーニングプロセス中の式１で示される損失関数Ｌにおけるレート損失Ｒは、例えばノイズ注入及びＢＰＰ推定器に基づいて推定することができる。一般に、より高いレートＲはより低い歪みＤを許容することができ、より低いレートＲはより高い歪みＤをもたらすことができる。したがって、式１におけるハイパーパラメータλのトレードオフを使用して、共同Ｒ－Ｄ損失Ｌ（joint R-D loss L）を最適化することができ、ここで、Ｌを、λＤとＲの和として最適化することができる。共同Ｒ－Ｄ損失Ｌが最小化又は最適化されるように、トレーニングプロセスを使用して、ＮＩＣフレームワーク（９００）内の１つ以上の構成要素（例えば（９１１）（９１５））のパラメータを調整することができる。一例では、ハイパーパラメータλのトレードオフを使用して、次のように共同レート歪み（Ｒ－Ｄ）損失を最適化することができる：

ここで、Ｅは、符号化前の元のブロック残差と比較した、復号ブロック残差の歪みを測定し、これは、残差符号化／復号ＤＮＮ及び符号化／復号ＤＮＮについての正規化損失として機能する。βは、正規化損失の重要性のバランスをとるために使用されるハイパーパラメータである。

様々なモデルを使用して、歪み損失Ｄとレート損失Ｒを決定し、したがって、式１の共同Ｒ－Ｄ損失Ｌを決定することができる。一例では、歪み損失

は、平均二乗誤差、マルチスケール構造類似性（ＭＳ－ＳＳＩＭ：multiscale structural similarity）品質インデックス、ピーク信号対雑音比（ＰＳＮＲ）とＭＳ－ＳＳＩＭの重み付けされた組合せ等に基づくメトリックである、ピーク信号対雑音比（ＰＳＮＲ）として表される。

一例では、トレーニングプロセスの目標は、エンコーダ側で使用されるビデオエンコーダのような符号化ニューラルネットワーク（例えば符号化ＤＮＮ）と、デコーダ側で使用されるビデオデコーダのような復号ニューラルネットワーク（例えば復号ＤＮＮ）をトレーニングすることである。一例では、図９Ｂを参照すると、符号化ニューラルネットワークは、メインエンコーダネットワーク（９１１）、ハイパーエンコーダ（９２１）、ハイパーデコーダ（９２５）、コンテキストモデルＮＮ（９１６）及びエントロピーパラメータＮＮ（９１７）を含むことができる。復号ニューラルネットワークは、メインデコーダネットワーク（９１５）、ハイパーデコーダ（９２５）、コンテキストモデルＮＮ（９１６）及びエントロピーパラメータＮＮ（９１７）を含むことができる。ビデオエンコーダ及び／又はビデオデコーダは、ＮＮに基づく及び／又はＮＮに基づかない他の構成要素を含むことができる。

ＮＩＣフレームワーク（例えばＮＩＣフレームワーク（９００））を、Ｅ２Ｅ方式でトレーニングすることができる。一例では、符号化ニューラルネットワーク及び復号ニューラルネットワークは、Ｅ２Ｅ方式で逆伝播勾配に基づくトレーニングプロセスにおいて一緒に更新される。

ＮＩＣフレームワーク（９００）内のニューラルネットワークのパラメータがトレーニングされた後、ＮＩＣフレームワーク（９００）内の１つ以上の構成要素を使用してブロックを符号化及び／又は復号することができる。一実施形態では、エンコーダ側では、ビデオエンコーダは、入力ブロックxを符号化して、ビットストリーム内で送信される符号化ブロック（９３１）にするように構成される。ビデオエンコーダは、ＮＩＣフレームワーク（９００）内の複数の構成要素を含むことができる。一実施形態では、デコーダ側では、対応するビデオデコーダは、ビットストリーム内の符号化ブロック（９３１）を復号して、再構成ブロック

にするように構成される。ビデオデコーダは、ＮＩＣフレームワーク（９００）内の複数の構成要素を含むことができる。

一例では、ビデオエンコーダは、例えばコンテンツ適応オンライントレーニングが用いられるとき、ＮＩＣフレームワーク（９００）内のすべての構成要素を含む。

図１６Ａは、本開示の一実施形態による例示的ビデオエンコーダ（１６００Ａ）を示す。ビデオエンコーダ（１６００Ａ）は、図９Ｂを参照して説明した、メインエンコーダネットワーク（９１１）、量子化器（９１２）、エントロピーエンコーダ（９１３）及び第２サブＮＮ（９５２）を含んでおり、詳細な説明は簡潔性の目的のために省略する。図１６Ｂは、本開示の一実施形態による例示的ビデオデコーダ（１６００Ｂ）を示す。ビデオデコーダ（１６００Ｂ）は、ビデオエンコーダ（１６００Ａ）に対応することができる。ビデオデコーダ（１６００Ｂ）は、メインデコーダネットワーク（９１５）、エントロピーデコーダ（９１４）、コンテキストモデルＮＮ（９１６）、エントロピーパラメータＮＮ（９１７）、エントロピーデコーダ（９２４）及びハイパーデコーダ（９２５）を含むことができる。図１６Ａ～図１６Ｂを参照すると、エンコーダ側では、ビデオエンコーダ（１６００Ａ）は、ビットストリームで送信されるべき符号化ブロック（９３１）及び符号化ビット（９３２）を生成することができる。デコーダ側では、ビデオデコーダ（１６００Ｂ）は、符号化ブロック（９３１）及び符号化ビット（９３２）を受け取って復号することができる。

図１７～図１８は、それぞれ、本開示の実施形態による、例示的なビデオエンコーダ（１７００）及び対応するビデオデコーダ（１８００）を示す。図１７を参照すると、エンコーダ（１７００）は、メインエンコーダネットワーク（９１１）、量子化器（９１２）及びエントロピーエンコーダ（９１３）を含む。メインエンコーダネットワーク（９１１）、量子化器（９１２）及びエントロピーエンコーダ（９１３）の例は、図９Ｂに関連して説明されている。図１８を参照すると、ビデオデコーダ（１８００）は、メインデコーダネットワーク（９１５）及びエントロピーデコーダ（９１４）を含む。メインデコーダネットワーク（９１５）及びエントロピーデコーダ（９１４）の例は、図９Ｂに関連して説明されている。図１７及び図１８を参照すると、ビデオエンコーダ（１７００）は、ビットストリームで送信されるべき符号化ブロック（９３１）を生成することができる。ビデオデコーダ（１８００）は、符号化ブロック（９３１）を受け取って復号することができる。

上述のように、ビデオエンコーダ及びビデオデコーダを含むＮＩＣフレームワーク（９００）を、トレーニング画像のセット内の画像及び／又はブロックに基づいてトレーニングすることができる。いくつかの例において、圧縮（例えば符号化）及び／又は送信されるべき１つ以上のブロックは、トレーニングブロックのセットとは著しく異なる特性を有する。したがって、トレーニングブロックのセットに基づいてトレーニングされたビデオエンコーダ及びビデオデコーダをそれぞれ使用して１つ以上のブロックを符号化及び復号することは、比較的不十分なＲ－Ｄ損失Ｌ（例えば比較的大きな歪み及び／又は比較的大きなビットレート）をもたらす可能性がある。したがって、本開示の態様は、ＮＩＣのためのブロックワイズ・コンテンツ適応オンライントレーニング方法のような、ＮＩＣのためのコンテンツ適応オンライントレーニング方法を説明する。

ブロックワイズ・コンテンツ適応オンライントレーニング方法では、入力画像をブロックに分裂させることができ、該ブロックのうちの１つ以上を使用して、レート歪み性能を最適化することによって、事前トレーニングされたＮＩＣフレームワーク内の１つ以上のパラメータを更新して１つ以上の置換パラメータにすることができる。１つ以上の置換パラメータ又は１つ以上の置換パラメータのサブセットを示すニューラルネットワーク更新情報を、ブロックのうちの符号化される１つ以上のブロックとともにビットストリームに符号化することができる。デコーダ側では、ビデオデコーダは、ブロックのうちの符号化された１つ以上のブロックを復号することができ、１つ以上の置換パラメータ又は１つ以上の置換パラメータのサブセットを使用することによって、より良好な圧縮性能を達成することができる。ブロックワイズ・コンテンツ適応オンライントレーニング方法は、事前トレーニングされたＥ２ＥＮＩＣ圧縮方法の圧縮性能を高めるための前処理ステップ（例えば事前符号化ステップ）として使用されることができる。

トレーニングブロックのセットに基づくトレーニングプロセスと、圧縮（例えば符号化）及び／又は送信される１つ以上のブロックに基づくコンテンツ適応オンライントレーニングプロセスを区別するために、トレーニングブロックのセットによってトレーニングされるＮＩＣフレームワーク（９００）、ビデオエンコーダ及びビデオデコーダは、それぞれ、事前トレーニングされたＮＩＣフレームワーク（９００）、事前トレーニングされたビデオエンコーダ及び事前トレーニングされたビデオデコーダと呼ばれる。事前トレーニングされたＮＩＣフレームワーク（９００）、事前トレーニングされたビデオエンコーダ又は事前トレーニングされたビデオデコーダ内のパラメータは、それぞれ、ＮＩＣ事前トレーニングパラメータ、エンコーダ事前トレーニングパラメータ及びデコーダ事前トレーニングパラメータと呼ばれる。一例において、ＮＩＣ事前トレーニングパラメータは、エンコーダ事前トレーニングパラメータ及びデコーダ事前トレーニングパラメータを含む。一例では、エンコーダ事前トレーニングパラメータ及びデコーダ事前トレーニングパラメータは、エンコーダ事前トレーニングパラメータのいずれもデコーダ事前トレーニングパラメータに含まれない場合、重複しない。例えば（１７００）におけるエンコーダ事前トレーニングパラメータ（例えばメインエンコーダネットワーク（９１１）の事前トレーニングパラメータ）と、（１８００）におけるデコーダ事前トレーニングパラメータ（例えばメインデコーダネットワーク（９１５）の事前トレーニングパラメータ）は重複しない。一例では、エンコーダ事前トレーニングパラメータ及びデコーダ事前トレーニングパラメータは、エンコーダ事前トレーニングパラメータのうちの少なくとも１つがデコーダ事前トレーニングパラメータに含まれる場合、重複する。例えば（１６００Ａ）におけるエンコーダ事前トレーニングパラメータ（例えばコンテキストモデルＮＮ（９１６）の事前トレーニングパラメータ）と、（１６００Ｂ）におけるデコーダ事前トレーニングパラメータ（例えばコンテキストモデルＮＮ（９１６）の事前トレーニングパラメータ）は重複する。ＮＩＣ事前トレーニングパラメータを、トレーニングブロックのセット内のブロック及び／又は画像に基づいて取得することができる。

コンテンツ適応オンライントレーニングプロセスは、微調整プロセス（finetuning process）と呼ばれることがあり、以下に説明される。事前トレーニングされたＮＩＣフレームワーク（９００）内のＮＩＣ事前トレーニングパラメータのうちの１つ以上の事前トレーニングパラメータを、符号化及び／又は送信されるべき１つ以上のブロックに基づいて、更にトレーニング（例えば微調整）することができ、この場合、１つ以上のブロックは、トレーニングブロックのセットと異なるものとすることができる。ＮＩＣ事前トレーニングパラメータで使用される１つ以上の事前トレーニングパラメータは、１つ以上のブロックに基づいて共同Ｒ－Ｄ損失Ｌを最適化することによって微調整されることができる。１つ以上のブロックによって微調整された１つ以上の事前トレーニングパラメータは、１つ以上の置換パラメータ又は１つ以上の微調整パラメータと呼ばれる。一実施形態では、ＮＩＣ事前トレーニングパラメータ内の１つ以上の事前トレーニングパラメータが、１つ以上の置換パラメータによって微調整（例えば置換）された後、ニューラルネットワーク更新情報は、１つ以上の置換パラメータ又は１つ以上の置換パラメータのサブセットを示すように、ビットストリームに符号化される。一例では、ＮＩＣフレームワーク（９００）は更新（又は微調整）され、この場合、１つ以上の事前トレーニングパラメータがそれぞれ１つ以上の置換パラメータによって置き換えられる。

第１のシナリオでは、１つ以上の事前トレーニングパラメータは、１つ以上の事前トレーニングパラメータの第１サブセットと、１つ以上の事前トレーニングパラメータの第２サブセットとを含む。１つ以上の置換パラメータは、１つ以上の置換パラメータの第１サブセット及び１つ以上の置換パラメータの第２サブセットを含む。

１つ以上の事前トレーニングパラメータの第１サブセットは、事前トレーニングされたビデオエンコーダで使用され、例えばトレーニングプロセスにおいて、１つ以上の置換パラメータの第１サブセットによって置き換えられる。したがって、事前トレーニングされたビデオエンコーダは、トレーニングプロセスによって、更新されたビデオエンコーダへと更新される。ニューラルネットワーク更新情報は、１つ以上の事前トレーニングパラメータの第２サブセットを置換する１つ以上の置換パラメータの第２サブセットを示すことができる。１つ以上のブロックは、更新されたビデオエンコーダを使用して符号化され、ニューラルネットワーク更新情報とともにビットストリームで送信される。

デコーダ側では、１つ以上の事前トレーニングパラメータの第２サブセットが、事前トレーニングされたビデオデコーダで使用される。一実施形態では、事前トレーニングされたビデオデコーダは、ニューラルネットワーク更新情報を受け取って復号し、１つ以上の置換パラメータの第２サブセットを決定する。事前トレーニングされたビデオデコーダは、事前トレーニングされたビデオデコーダ内の１つ以上の事前トレーニングパラメータの第２サブセットが１つ以上の置換パラメータの第２サブセットによって置き換えられるとき、更新されたビデオデコーダへと更新される。１つ以上の符号化ブロックは、更新されたビデオデコーダを使用して復号されることができる。

図１６Ａ～図１６Ｂは、第１のシナリオの一例を示す。例えば１つ以上の事前トレーニングパラメータは、事前トレーニングされたコンテキストモデルＮＮ（９１６）のＮ１事前トレーニングパラメータと、事前トレーニングされたメインデコーダネットワーク（９１５）のＮ２事前トレーニングパラメータを含む。したがって、１つ以上の事前トレーニングパラメータの第１サブセットは、Ｎ１事前トレーニングパラメータを含み、１つ以上の事前トレーニングパラメータの第２サブセットは、１つ以上の事前トレーニングパラメータと同一である。したがって、事前トレーニングされたビデオエンコーダ（１６００Ａ）が、更新されたビデオエンコーダ（１６００Ａ）へと更新されることができるように、事前トレーニングされたコンテキストモデルＮＮ（９１６）のＮ１事前トレーニングパラメータを、Ｎ１対応置換パラメータによって置き換えることができる。事前トレーニングされたコンテキストモデルＮＮ（９１６）も更新され、更新されたコンテキストモデルＮＮ（９１６）となる。デコーダ側では、Ｎ１事前トレーニングパラメータをＮ１対応置換パラメータによって置き換えることができ、Ｎ２事前トレーニングパラメータをＮ２対応置換パラメータによって置き換えることができ、更新されたコンテキストモデルＮＮ（９１６）となるように事前トレーニングされたコンテキストモデルＮＮ（９１６）を更新し、更新されたメインデコーダネットワーク（９１５）となるように、事前トレーニングされたメインデコーダネットワーク（９１５）を更新する。したがって、事前トレーニングされたビデオデコーダ（１６００Ｂ）を、更新されたビデオデコーダ（１６００Ｂ）へと更新することができる。

第２のシナリオでは、１つ以上の事前トレーニングパラメータのいずれも、エンコーダ側の事前トレーニングされたビデオエンコーダでは使用されない。むしろ、１つ以上の事前トレーニングパラメータは、デコーダ側の事前トレーニングされたビデオデコーダで使用される。したがって、事前トレーニングされたビデオエンコーダは更新されず、トレーニングプロセス後も事前トレーニングされたビデオエンコーダであり続ける。一実施形態では、ニューラルネットワーク更新情報は、１つ以上の置換パラメータを示す。１つ以上のブロックを、事前トレーニングされたビデオエンコーダを使用して符号化し、ニューラルネットワーク更新情報とともにビットストリームで送信することができる。

デコーダ側では、事前トレーニングされたビデオデコーダは、ニューラルネットワーク更新情報を受け取って復号し、１つ以上の置換パラメータを決定することができる。事前トレーニングされたビデオデコーダ内の１つ以上の事前トレーニングパラメータが１つ以上の置換パラメータによって置き換えられると、事前トレーニングされたビデオデコーダは、更新されたビデオデコーダへと更新される。１つ以上の符号化ブロックは、更新されたビデオデコーダを使用して復号されることができる。

図１６Ａ～図１６Ｂは、第２のシナリオの例を示す。例えば１つ以上の事前トレーニングパラメータは、事前トレーニングされたメインデコーダネットワーク（９１５）のＮ２事前トレーニングパラメータを含む。したがって、１つ以上の事前トレーニングパラメータのいずれも、エンコーダ側の事前トレーニングされたビデオエンコーダ（例えば事前トレーニングされたビデオエンコーダ（１６００Ａ））では使用されない。したがって、事前トレーニングされたビデオエンコーダ（１６００Ａ）は、トレーニングプロセス後も、事前トレーニングされたビデオエンコーダであり続ける。デコーダ側では、Ｎ２事前トレーニングパラメータを、Ｎ２対応置換パラメータによって置き換えることができ、これは、事前トレーニングされたメインデコーダネットワーク（９１５）を、更新されたメインデコーダネットワーク（９１５）へと更新する。したがって、事前トレーニングされたビデオデコーダ（１６００Ｂ）を、更新されたビデオデコーダ（１６００Ｂ）へと更新することができる。

第３のシナリオでは、１つ以上の事前トレーニングパラメータが事前トレーニングされたビデオエンコーダで使用され、例えばトレーニングプロセスにおいて１つ以上の置換パラメータに置き換えられる。したがって、事前トレーニングされたビデオエンコーダは、トレーニングプロセスによって、更新されたビデオエンコーダへと更新される。１つ以上のブロックを、更新されたビデオエンコーダを使用して符号化し、ビットストリームで送信することができる。ニューラルネットワーク更新情報はビットストリーム内に符号化されない。デコーダ側では、事前トレーニングされたビデオデコーダは更新されず、事前トレーニングされたビデオデコーダのままである。１つ以上の符号化ブロックは、事前トレーニングされたビデオデコーダを使用して復号されることができる。

図１６Ａ～図１６Ｂは、第３のシナリオの一例を示す。例えば１つ以上の事前トレーニングパラメータは、事前トレーニングされたメインエンコーダネットワーク（９１１）内にある。したがって、事前トレーニングされたビデオエンコーダ（１６００Ａ）が更新されて、更新されたビデオエンコーダ（１６００Ａ）となり得るように、事前トレーニングされたメインエンコーダネットワーク（９１１）内の１つ以上の事前トレーニングパラメータを、１つ以上の置換パラメータによって置き換えることができる。事前トレーニングされたメインエンコーダネットワーク（９１１）も更新され、更新されたメインエンコーダネットワーク（９１１）となる。デコーダ側では、事前トレーニングされたビデオデコーダ（１６００Ｂ）は更新されない。

第１、第２及び第３のシナリオで説明されるような様々な例において、ビデオ復号は、事前トレーニングパラメータを更新する能力を有するデコーダも有さないデコーダを含め、異なる能力を有する事前トレーニングされたデコーダによって実行され得る。

一例では、事前トレーニングされたビデオエンコーダと事前トレーニングされたビデオデコーダで１つ以上のブロックをコーディングすることと比較して、更新されたビデオエンコーダ及び／又は更新されたビデオデコーダで１つ以上のブロックを符号化することによって、圧縮性能を向上させることができる。したがって、コンテンツ適応オンライントレーニング方法を使用して、事前トレーニングされたＮＩＣフレームワーク（例えば事前トレーニングされたＮＩＣフレームワーク（９００））をターゲットのブロックコンテンツ（例えば送信される１つ以上のブロック）に適合させ、よって、事前トレーニングされたＮＩＣフレームワークを微調整することができる。したがって、エンコーダ側のビデオエンコーダ及び／又はデコーダ側のビデオデコーダを更新することができる。

コンテンツ適応オンライントレーニング方法を、事前トレーニングされたＥ２ＥＮＩＣ圧縮方法の圧縮性能を高めるための前処理ステップ（例えば事前符号化ステップ）として使用することができる。

一実施形態では、１つ以上のブロックは、単一の入力ブロックを含み、微調整プロセスは、単一の入力ブロックを用いて実行される。ＮＩＣフレームワーク（９００）は、単一の入力ブロックに基づいてトレーニングされて更新（例えば微調整）される。エンコーダ側の更新されたビデオエンコーダ及び／又はデコーダ側の更新されたビデオデコーダを使用して、単一の入力ブロック及び任意に他の入力ブロックをコーディングすることができる。ニューラルネットワーク更新情報は、符号化された単一入力ブロックとともにビットストリームに符号化されることができる。

一実施形態では、１つ以上のブロックは、複数の入力ブロックを含み、微調整プロセスは、複数の入力ブロックを用いて実行される。ＮＩＣフレームワーク（９００）は、複数の入力ブロックに基づいてトレーニングされて更新（例えば微調整）される。エンコーダ側の更新されたビデオエンコーダ及び／又はデコーダ側の更新されたデコーダを使用して、複数の入力ブロック及び任意に他の入力ブロックをコーディングすることができる。ニューラルネットワーク更新情報は、符号化された複数の入力ブロックとともにビットストリームに符号化されることができる。

レート損失Ｒは、ビットストリームにおけるニューラルネットワーク更新情報のシグナリングで増加し得る。１つ以上のブロックが単一の入力ブロックを含むとき、ニューラルネットワーク更新情報は、各符号化ブロックについてシグナリングされ、レート損失Ｒに対する第１の増加は、ブロックごとのニューラルネットワーク更新情報のシグナリングに起因するレート損失Ｒに対する増加を示すために使用される。１つ以上のブロックが複数の入力ブロックを含むとき、ニューラルネットワーク更新情報は、複数の入力ブロックに対してシグナリングされ、これらの複数の入力ブロックによって共有され、レート損失Ｒに対する第２の増加は、ブロックごとのニューラルネットワーク更新情報のシグナリングに起因するレート損失Ｒに対する増加を示すために使用される。ニューラルネットワーク更新情報は、複数の入力ブロックによって共有されるため、レート損失Ｒに対する第２の増加は、レート損失Ｒの第１の増加よりも小さくなり得る。したがって、いくつかの例では、複数の入力ブロックを使用してＮＩＣフレームワークを微調整することが有利であり得る。

一実施形態では、更新されるべき１つ以上の事前トレーニングパラメータは、事前トレーニングされたＮＩＣフレームワーク（９００）の１つの構成要素内にある。したがって、事前トレーニングされたＮＩＣフレームワーク（９００）の当該１つの構成要素が、１つ以上の置換パラメータに基づいて更新され、事前トレーニングされたＮＩＣフレームワーク（９００）の他の構成要素は更新されない。

上記の１つの構成要素は、事前トレーニングされたコンテキストモデルＮＮ（９１６）、事前トレーニングされたエントロピーパラメータＮＮ（９１７）、事前トレーニングされたメインエンコーダネットワーク（９１１）、事前トレーニングされたメインデコーダネットワーク（９１５）、事前トレーニングされたハイパーエンコーダ（９２１）又は事前トレーニングされたハイパーデコーダ（９２５）であり得る。事前トレーニングされたビデオエンコーダ及び／又は事前トレーニングされたビデオデコーダは、事前トレーニングされたＮＩＣフレームワーク（９００）のどの構成要素が更新されるかに応じて更新され得る。

一例において、更新されるべき１つ以上の事前トレーニングパラメータは、事前トレーニングされたコンテキストモデルＮＮ（９１６）内にあり、したがって、事前トレーニングされたコンテキストモデルＮＮ（９１６）は更新され、残りの構成要素（９１１）、（９１５）、（９２１）、（９１７）及び（９２５）は更新されない。一例では、エンコーダ側の事前トレーニングされたビデオエンコーダとデコーダ側の事前トレーニングされたビデオデコーダは、事前トレーニングされたコンテキストモデルＮＮ（９１６）を含み、したがって、事前トレーニングされたビデオエンコーダと事前トレーニングされたビデオデコーダの両方が更新される。

一例において、更新されるべき１つ以上の事前トレーニングパラメータは、事前トレーニングされたハイパーデコーダ（９２５）内にあり、したがって、事前トレーニングされたハイパーデコーダ（９２５）は更新され、残りの構成要素（９１１）、（９１５）、（９１６）、（９１７）及び（９２１）は更新されない。したがって、事前トレーニングされたビデオエンコーダは更新されず、事前トレーニングされたビデオデコーダは更新される。

一実施形態では、更新されるべき１つ以上の事前トレーニングパラメータは、事前トレーニングされたＮＩＣフレームワーク（９００）の複数の構成要素内にある。したがって、事前トレーニングされたＮＩＣフレームワーク（９００）の複数の構成要素は、１つ以上の置換パラメータに基づいて更新される。一例では、事前トレーニングされたＮＩＣフレームワーク（９００）の複数の構成要素は、ニューラルネットワーク（例えばＤＮＮ、ＣＮＮ）で構成されるすべての構成要素を含む。一例において、事前トレーニングされたＮＩＣフレームワーク（９００）の複数の構成要素は、ＣＮＮベースの構成要素、すなわち、事前トレーニングされたメインエンコーダネットワーク（９１１）、事前トレーニングされたメインデコーダネットワーク（９１５）、事前トレーニングされたコンテキストモデルＮＮ（９１６）、事前トレーニングされたエントロピーパラメータＮＮ（９１７）、事前トレーニングされたハイパーエンコーダ（９２１）及び事前トレーニングされたハイパーデコーダ（９２５）を含む。

上述のように、一例において、更新されるべき１つ以上の事前トレーニングパラメータは、事前トレーニングされたＮＩＣフレームワーク（９００）の事前トレーニングされたビデオエンコーダ内にある。一例では、更新されるべき１つ以上の事前トレーニングパラメータは、ＮＩＣフレームワーク（９００）の事前トレーニングされたビデオデコーダ内にある。一例において、更新されるべき１つ以上の事前トレーニングパラメータは、事前トレーニングされたＮＩＣフレームワーク（９００）の事前トレーニングされたビデオエンコーダ及び事前トレーニングされたビデオデコーダ内にある。

ＮＩＣフレームワーク（９００）は、ニューラルネットワークに基づくことができ、例えばＮＩＣフレームワーク（９００）内の１つ以上の構成要素は、ＣＮＮ、ＤＮＮ及び／又は同様のもののようなニューラルネットワークを含むことができる。上述のように、ニューラルネットワークを、重み、バイアス等のような異なるタイプのパラメータによって指定することができる。ＮＩＣフレームワーク（９００）内の各ニューラルネットワークベースの構成要素（例えばコンテキストモデルＮＮ（９１６）、エントロピーパラメータＮＮ（９１７）、メインエンコーダネットワーク（９１１）、メインデコーダネットワーク（９１５）、ハイパーエンコーダ（９２１）又はハイパーデコーダ（９２５））は、それぞれの重み、バイアス又は重みとバイアスの組合せのような適切なパラメータで構成されることができる。ＣＮＮが使用されるとき、重みは、畳み込みカーネル内の要素を含むことができる。１つ以上のタイプのパラメータを使用して、ニューラルネットワークを指定することができる。一実施形態では、更新されるべき１つ以上の事前トレーニングパラメータはバイアス項であり、バイアス項のみが１つ以上の置換パラメータによって置き換えられる。一実施形態では、更新されるべき１つ以上の事前トレーニングパラメータは重みであり、重みのみが１つ以上の置換パラメータによって置き換えられる。一実施形態では、更新されるべき１つ以上の事前トレーニングパラメータは、重みとバイアス項を含み、重みとバイアス項を含むすべての事前トレーニングパラメータが、１つ以上の置換パラメータによって置き換えられる。一実施形態では、他のパラメータを使用してニューラルネットワークを指定することができ、他のパラメータを微調整することができる。

微調整プロセスは、複数のエポック（例えば反復）を含むことができ、この場合、１つ以上の事前トレーニングパラメータは、反復微調整プロセスにおいて更新される。微調整プロセスは、トレーニングロスが平坦化したとき又は平坦化しようとしているときに停止することができる。一例では、微調整プロセスは、トレーニング損失（例えばＲ－Ｄ損失Ｌ）が第１閾値を下回るときに停止する。一例では、微調整プロセスは、２つの連続したトレーニング損失の間の差が第２閾値を下回るときに停止する。

２つのハイパーパラメータ（例えばステップサイズ及びステップの最大数）を、損失関数（例えばＲ－Ｄ損失Ｌ）とともに、微調整プロセスにおいて使用することができる。最大反復回数を、微調整プロセスを終了するための最大反復回数の閾値として使用することができる。一例では、微調整プロセスは、反復の回数が最大反復回数に達すると停止する。

ステップサイズは、オンライントレーニングプロセス（例えばオンライン微調整プロセス）の学習レート（learning rate）を示すことができる。ステップサイズを、勾配降下アルゴリズム又は微調整プロセスで実行される逆伝播計算で使用することができる。ステップサイズは、任意の適切な方法を使用して決定されることができる。

画像内の各ブロックのステップサイズは異なるものとすることができる。一実施形態では、より良好な圧縮結果（例えばより良好なＲ－Ｄ損失Ｌ）を達成するために、画像に対して異なるステップサイズを割り当てることができる。

いくつかの例では、ＮＩＣフレームワーク（例えばＮＩＣフレームワーク（９００））に基づくビデオエンコーダ及びビデオデコーダは、画像を直接符号化及び復号することができる。したがって、１つ以上の画像を直接使用することによって、ＮＩＣフレームワーク内の特定のパラメータを更新し、よって、ビデオエンコーダ及び／又はビデオデコーダを更新するように、ブロックワイズ・コンテンツ適応オンライントレーニング方法を適合させることができる。異なる画像は、最適化された圧縮結果を達成するために、異なるステップサイズを有することができる。

一実施形態では、最適な結果を達成するために、異なるタイプのコンテンツを有するブロックに対して異なるステップサイズが使用される。異なるタイプは、異なる分散を指すことができる。一例では、ステップサイズは、ＮＩＣフレームワークを更新するために使用されるブロックの分散に基づいて決定される。例えば高い分散を有するブロックのステップサイズは、低い分散を有するブロックのステップサイズよりも大きく、この場合、高い分散は低い分散より大きい。

一実施形態では、ステップサイズは、ブロックのＲＧＢ分散のような、ブロック又は画像の特性に基づいて選択される。一実施形態では、ステップサイズは、ブロックのＲＤ性能（例えばＲ－Ｄ損失Ｌ）に基づいて選択される。複数のセットの置換パラメータを、異なるステップサイズに基づいて生成することができ、より良好な圧縮性能（例えばより小さなＲ－Ｄ損失）を有するセットを選択することができる。

一実施形態では、第１ステップサイズを使用して、特定の回数（例えば１００）の反復を実行することができる。次いで、第２ステップサイズ（例えば第１のステップサイズ±サイズ増加）を使用して、特定の回数の反復を実行することができる。第１ステップサイズ及び第２ステップサイズからの結果を比較して、使用されるべきステップサイズを決定することができる。２つ以上のステップサイズをテストして、最適なステップサイズを決定してもよい。

ステップサイズは、微調整プロセス中に変化することができる。ステップサイズは、微調整プロセスの開始時には初期値を有することができ、微調整プロセスの後の段階、例えば特定の回数の反復の後には、より微細なチューニングを達成するために、初期値を低減（例えば半減）させることができる。ステップサイズ又は学習レートは、反復オンライントレーニング中にスケジューラによって変化させることができる。スケジューラは、ステップサイズを調整するために使用されるパラメータ調整方法を含むことができる。スケジューラは、ステップサイズが複数の間隔において増加し、減少し又は一定に保たれることができるように、ステップサイズの値を決定することができる。一例では、学習レートは、スケジューラによって各ステップにおいて変更される。単一のスケジューラ又は複数の異なるスケジューラを、異なるブロックに使用することができる。したがって、複数のセットの置換パラメータを、複数のスケジューラに基づいて生成することができ、複数のセットの置換パラメータのうちのより良好な圧縮性能（例えばより小さいＲ－Ｄ損失）を有する１つを選択することができる。

一実施形態では、より良好な圧縮結果を達成するために、複数の学習レートスケジュールが異なるブロックに割り当てられる。一実施形態では、画像内のすべてのブロックは、同じ学習レートスケジュールを共有する。一実施形態では、学習レートスケジュールの選択は、ブロックのＲＧＢ分散のようなブロックの特性に基づく。一実施形態では、学習レートスケジュールの選択は、ブロックのＲＤ性能に基づく。

一実施形態では、異なるブロックを使用して、ＮＩＣフレームワーク内の異なる構成要素（例えばコンテキストモデルＮＮ（９１６）又はハイパーデコーダ（９２５））内の異なるパラメータを更新することができる。例えば第１ブロックを使用してコンテキストモデルＮＮ（９１６）のパラメータを更新し、第２ブロックを使用してハイパーデコーダ（９２５）のパラメータを更新する。

一実施形態では、異なるブロックを使用して、ＮＩＣフレームワーク内の異なるタイプのパラメータ（例えばバイアス又は重み）を更新することができる。例えば第１ブロックを使用して、ＮＩＣフレームワーク内の１つ以上のニューラルネットワーク内の少なくとも１つのバイアスを更新し、第２ブロックを使用して、ＮＩＣフレームワーク内の１つ以上のニューラルネットワーク内の少なくとも１つの重みを更新する。

一実施形態では、画像内の複数のブロック（例えばすべてのブロック）が、同一の１つ以上のパラメータを更新する。

一実施形態では、更新されるべき１つ以上のパラメータは、ブロックのＲＧＢ分散のようなブロックの特性に基づいて選択される。一実施形態では、更新されるべき１つ以上のパラメータは、ブロックのＲＤ性能に基づいて選択される。

微調整プロセスの終了時に、１つ以上の更新されたパラメータを、それぞれの１つ以上の置換パラメータについて計算することができる。一実施形態では、１つ以上の更新されたパラメータは、１つ以上の置換パラメータと、対応する１つ以上の事前トレーニングパラメータとの間の差として計算される。一実施形態では、１つ以上の更新されたパラメータは、それぞれ、１つ以上の置換パラメータである。

一実施形態では、１つ以上の更新されたパラメータを、１つ以上の置換パラメータから、例えば特定の線形又は非線形変換を使用して生成することができ、１つ以上の更新されたパラメータは、１つ以上の置換パラメータに基づいて生成される代表パラメータ（representative parameter）である。１つ以上の置換パラメータは、より良好な圧縮のために１つ以上の更新されたパラメータに変換される。

１つ以上の更新されたパラメータの第１サブセットは、１つ以上の置換パラメータの第１サブセットに対応し、１つ以上の更新されたパラメータの第２サブセットは、１つ以上の置換パラメータの第２サブセットに対応する。

一実施形態では、異なるブロックは、１つ以上の更新されたパラメータと１つ以上の置換パラメータとの間に異なる関係を有する。例えば第１ブロックについては、１つ以上の更新されたパラメータが、１つ以上の置換パラメータと対応する１つ以上の事前トレーニングパラメータとの間の差として計算される。第２ブロックについては、１つ以上の更新されたパラメータがそれぞれ、１つ以上の置換パラメータである。

一実施形態では、画像内の複数のブロック（例えばすべてのブロック）は、１つ以上の更新されたパラメータと１つ以上の置換パラメータとの間に同じ関係を有する。

一実施形態では、１つ以上の更新されたパラメータと１つ以上の置換パラメータとの間の関係は、ブロックのＲＧＢ分散のような、ブロックの特性に基づいて選択される。一実施形態では、１つ以上の更新されたパラメータと１つ以上の置換パラメータとの間の関係は、ブロックのＲＤ性能に基づいて選択される。

一例では、１つ以上の更新されたパラメータは、例えばＬｅｍｐｅｌ－Ｚｉｖ－Ｍａｒｋｏｖチェーンアルゴリズム（ＬＺＭＡ）の変形であるＬＺＭＡ２、ｂｚｉｐ２アルゴリズム等を使用して圧縮されることができる。一例では、１つ以上の更新されたパラメータついては、圧縮は省略される。いくつかの実施形態において、１つ以上の更新されたパラメータ又は１つ以上の更新されたパラメータの第２サブセットを、ニューラルネットワーク更新情報としてビットストリームに符号化することができ、この場合、ニューラルネットワーク更新情報は、１つ以上の置換パラメータ又は１つ以上の置換パラメータの第２サブセットを示す。

一実施形態では、１つ以上の更新されたパラメータの圧縮方法は、異なるブロックについて異なる。例えば第１ブロックでは、ＬＺＭＡ２を使用して１つ以上の更新されたパラメータを圧縮し、第２ブロックでは、ｂｚｉｐ２を使用して１つ以上の更新されたパラメータを圧縮する。一実施形態では、同一の圧縮方法が、画像内の複数のブロック（例えばすべてのブロック）についての１つ以上の更新されたパラメータを圧縮するために使用される。一実施形態では、圧縮方法は、ブロックのＲＧＢ分散のようなブロックの特性に基づいて選択される。一実施形態では、圧縮方法は、ブロックのＲＤ性能に基づいて選択される。

微調整プロセスの後、いくつかの例では、エンコーダ側の事前トレーニングされたビデオエンコーダを、（ｉ）１つ以上の置換パラメータの第１サブセット又は（ｉｉ）１つ以上の置換パラメータに基づいて、更新又は微調整することができる。入力ブロック（例えば微調整プロセスにおいて使用される１つ以上のブロックのうちの１つ）は、更新されたビデオエンコーダを使用してビットストリームに符号化されることができる。したがって、ビットストリームは、符号化ブロックとニューラルネットワーク更新情報の両方を含む。

該当する場合、一例では、ニューラルネットワーク更新情報を、事前トレーニングされたビデオデコーダによって復号（例えば解凍）して、１つ以上の更新されたパラメータ又は１つ以上の更新されたパラメータの第２サブセットを取得する。一例では、上述の１つ以上の更新されたパラメータと１つ以上の置換パラメータとの間の関係に基づいて、１つ以上の置換パラメータ又は１つ以上の置換パラメータの第２サブセットを取得することができる。上述のように、事前トレーニングされたビデオデコーダを微調整することができ、更新されたビデオデコーダを使用して符号化ブロックを復号することができる。

ＮＩＣフレームワークは、任意のタイプのニューラルネットワークを含むことができ、コンテキストハイパープライア（context-hyperprior）エンコーダ－デコーダフレームワーク（例えば図９Ｂに示されるＮＩＣフレームワーク）、スケールハイパープライア（scale-hyperprior）エンコーダ－デコーダフレームワーク、ガウス混合尤度（Gaussian Mixture Likelihoods）フレームワーク及びガウス混合尤度フレームワークの変形、ＲＮＮベースの再帰的圧縮方法及びＲＮＮベースの再帰的圧縮方法の変形のような、任意のニューラルネットワークベースの画像圧縮方法を使用することができる。

関連するＥ２Ｅ画像圧縮方法と比較して、本開示におけるコンテンツ適応オンライントレーニング方法及び装置は、以下の利点を有することができる。適応オンライントレーニングメカニズムを利用してＮＩＣコーディング効率を改善する。柔軟かつ一般的なフレームワークの使用は、様々なタイプの事前トレーニングされたフレームワークと品質メトリクスを受け入れることができる。例えば様々なタイプの事前トレーニングされたフレームワークにおける特定の事前トレーニングパラメータは、符号化されて送信されるべきブロックを用いるオンライントレーニングを使用することによって置き換えられることができる。

図１９は、本開示の一実施形態によるプロセス（１９００）を概略的に示すフローチャートを示す。プロセス（１９００）を使用して、生画像内のブロック又は残差画像内のブロックのようなブロックを符号化することができる。様々な実施形態では、プロセス（１９００）は、端末デバイス（３１０）、（３２０）、（３３０）及び（３４０）内の処理回路、ビデオエンコーダ（１６００Ａ）の機能を実行する処理回路、ビデオエンコーダ（１７００）の機能を実行する処理回路のような処理回路によって実行される。一例では、処理回路は、（ｉ）ビデオエンコーダ（４０３）、（６０３）及び（７０３）のうちの１つと、（ｉｉ）ビデオエンコーダ（１６００Ａ）及びビデオエンコーダ（１７００）のうちの１つとの機能の組合せを実行する。いくつかの実施形態では、プロセス（１９００）は、ソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路は、プロセス（１９００）を実行する。プロセスは（Ｓ１９０１）で開始する。一例では、ＮＩＣフレームワークはニューラルネットワークに基づく。一例において、ＮＩＣフレームワークは、図９Ｂに関連して説明されるＮＩＣフレームワーク（９００）である。ＮＩＣフレームワークは、図１０～図１５に関連して説明されるような、ＣＮＮに基づくことができる。ビデオエンコーダ（例えば（１６００Ａ）又は（１７００））及び対応するビデオデコーダ（例えば（１６００Ｂ）又は（１８００））は、上述のように、ＮＩＣフレームワーク内の複数の構成要素を含むことができる。ニューラルネットワークに基づくＮＩＣフレームワークは事前トレーニングされ、したがって、ビデオエンコーダ及びビデオデコーダは事前トレーニングされる。プロセス（１９００）は（Ｓ１９１０）に進む。

（Ｓ１９１０）において、１つ以上のブロック（又は入力ブロック）に基づいて、微調整プロセスがＮＩＣフレームワークに対して実行される。入力ブロックは、任意の適切なサイズを有する任意の適切なブロックとすることができる。いくつかの例では、入力ブロックは、空間領域内にある生画像、自然画像、コンピュータ生成画像及び／又は類似のものの中のブロックを含む。

いくつかの例において、入力ブロックは、例えば残差計算器（例えば残差計算器（７２３））によって計算される、空間領域内の残差データを含む。（Ｓ１９１０）を達成するために様々な装置内の構成要素を適切に組み合わせることができ、例えば図７及び図９を参照すると、残差計算器からの残差ブロックを、ＮＩＣフレームワーク内のメインエンコーダネットワーク（９１１）に供給することができる。

ＮＩＣフレームワーク（例えば事前トレーニングされたＮＩＣフレームワーク）内の１つ以上のニューラルネットワーク（例えば１つ以上の事前トレーニングされたニューラルネットワーク）内の１つ以上のパラメータ（例えば１つ以上の事前トレーニングパラメータ）は、上述のように、それぞれ１つ以上の置換パラメータとなるように更新されることができる。一実施形態では、１つ以上のニューラルネットワーク内の１つ以上のパラメータは、例えば各ステップにおいて、（Ｓ１９１０）に記載されるトレーニングプロセスの間に更新されている。

一実施形態では、ビデオエンコーダ（例えば事前トレーニングされたビデオエンコーダ）内の少なくとも１つのニューラルネットワークは、１つ以上の事前トレーニングパラメータの第１サブセットで構成され、したがって、ビデオエンコーダ内の少なくとも１つのニューラルネットワークを、１つ以上の置換パラメータの対応する第１サブセットに基づいて更新することができる。一例では、１つ以上の置換パラメータの第１サブセットは、１つ以上の置換パラメータのすべてを含む。一例では、ビデオエンコーダ内の少なくとも１つのニューラルネットワークは、１つ以上の事前トレーニングパラメータの第１サブセットが、それぞれ、１つ以上の事前トレーニングパラメータの第１サブセットで置き換えられるときに更新される。一例では、ビデオエンコーダ内の少なくとも１つのニューラルネットワークは、微調整プロセスにおいて反復的に更新される。一例では、１つ以上の事前トレーニングパラメータのいずれもビデオエンコーダに含まれず、したがって、ビデオエンコーダは更新されず、事前トレーニングされたビデオエンコーダのままである。

（Ｓ１９２０）において、１つ以上のブロックのうちの１つを、少なくとも１つの更新されたニューラルネットワークを有するビデオエンコーダを使用して符号化することができ、この場合、ビデオエンコーダは、１つ以上の置換パラメータの第１サブセットで構成される。一例では、１つ以上のブロックのうちの当該１つは、ビデオエンコーダ内の少なくとも１つのニューラルネットワークが更新された後に符号化される。

ステップ（Ｓ１９２０）を適切に適合させることができる。例えばビデオエンコーダは、１つ以上の置換パラメータのいずれもビデオエンコーダ内の少なくとも１つのニューラルネットワークに含まれないときは更新されず、したがって、１つ以上のブロックのうちの上記の１つは、事前トレーニングされたビデオエンコーダ（例えば少なくとも１つの事前トレーニングされたニューラルネットワークを含むビデオエンコーダ）を使用して符号化されることができる。

（Ｓ１９３０）において、１つ以上の置換パラメータの第２サブセットを示すニューラルネットワーク更新情報を、ビットストリーム内に符号化することができる。一例では、１つ以上の置換パラメータの第２サブセットは、デコーダ側のビデオデコーダ内の少なくとも１つのニューラルネットワークを更新するために使用されるものである。例えば１つ以上の置換パラメータの第２サブセットがパラメータを含まず、ニューラルネットワーク更新情報がビットストリーム内でシグナリングされない場合、ステップ（Ｓ１９３０）を省略することができ、ビデオデコーダ内のニューラルネットワークはいずれも更新されない。

（Ｓ１９４０）において、１つ以上のブロックのうちの符号化された１つとニューラルネットワーク更新情報とを含むビットストリームを送信することができる。ステップ（Ｓ１９４０）を適切に適合させることができる。例えばステップ（Ｓ１９３０）が省略される場合、ビットストリームはニューラルネットワーク更新情報を含まない。プロセス（１９００）は（Ｓ１９９９）に進み、終了する。

プロセス（１９００）を、様々なシナリオに適切に適合させることができ、プロセス（１９００）のステップを、それに応じて調整することができる。プロセス（１９００）のステップのうちの１つ以上を適合させ、省略し、反復し及び／又は組み合わせることができる。任意の適切な順序を使用して、プロセス（１９００）を実装することができる。追加のステップを追加することができる。例えば１つ以上のブロックのうちの１つを符号化することに加えて、１つ以上のブロックを（Ｓ１９２０）において符号化し、そして（Ｓ１９４０）において送信する。

プロセス（１９００）のいくつかの例において、１つ以上のブロックのうちの１つは、更新されたビデオエンコーダによって符号化され、ビットストリームで送信される。微調整プロセスは１つ以上のブロックに基づいているので、微調整プロセスは、符号化されるコンテキストに基づいており、したがって、コンテキストベース（context-based）である。

いくつかの例において、ニューラルネットワーク更新情報は更に、ビデオデコーダ内の対応する事前トレーニングパラメータを更新することができるように、１つ以上の事前トレーニングパラメータの第２サブセット（又は１つ以上の置換パラメータの対応する第２サブセット）がどのようなパラメータであるかを示す。ニューラルネットワーク更新情報は、１つ以上の事前トレーニングパラメータの第２サブセットの構成要素情報（例えば（９１５））、層情報（例えば第４の層ＤｅＣｏｎｖ：５×５ｃ３ｓ２）、チャネル情報（例えば第２チャネル）及び／又は同様のものを示すことができる。したがって、図１１を参照すると、１つ以上の置換パラメータの第２サブセットは、メインデコーダネットワーク（９１５）内のＤｅＣｏｎｖ：５×５ｃ３ｓ２の第２チャネルの畳み込みカーネルを含む。したがって、事前トレーニングされたメインデコーダネットワーク（９１５）におけるＤｅＣｏｎｖ：５×５ｃ３ｓ２の第２チャネルの畳み込みカーネルが更新される。いくつかの例において、１つ以上の事前トレーニングパラメータの第２サブセットの構成要素情報（例えば（９１５））、層情報（例えば第４の層ＤｅＣｏｎｖ：５×５ｃ３ｓ２）、チャネル情報（例えば第２チャネル）及び／又は同様のものは、予め決定され、事前トレーニングされたビデオデコーダ内に記憶され、したがって、シグナリングされない。

図２０は、本開示の一実施形態によるプロセス（２０００）を概略的に示すフローチャートを示す。プロセス（２０００）を、符号化ブロックの再構成に使用することができる。様々な実施形態では、プロセス（２０００）は、端末デバイス（３１０）、（３２０）、（３３０）及び（３４０）内の処理回路、ビデオデコーダ（１６００Ｂ）の機能を実行する処理回路、ビデオデコーダ（１８００）の機能を実行する処理回路のような処理回路によって実行される。一例では、処理回路は、（ｉ）ビデオデコーダ（４１０）、ビデオデコーダ（５１０）及びビデオデコーダ（８１０）のうちの１つと、（ｉｉ）ビデオデコーダ（１６００Ｂ）又はビデオデコーダ（１８００）のうちの１つとの機能の組合せを実行する。いくつかの実施形態では、プロセス（２０００）は、ソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路は、プロセス（２０００）を実行する。プロセスは（Ｓ２００１）で開始する。一例では、ＮＩＣフレームワークはニューラルネットワークに基づく。一例において、ＮＩＣフレームワークは、図９Ｂに関連して説明したＮＩＣフレームワーク（９００）である。ＮＩＣフレームワークは、図１０～図１５に関連して説明されるような、ＣＮＮに基づくことができる。ビデオデコーダ（例えば（１６００Ｂ）又は（１８００））は、上述のように、ＮＩＣフレームワーク内の複数の構成要素を含むことができる。ニューラルネットワークに基づくＮＩＣフレームワークを、事前トレーニングすることができる。ビデオデコーダを、事前トレーニングパラメータで事前トレーニングすることができる。プロセス（２０００）は（Ｓ２０１０）に進む。

（Ｓ２０１０）において、コーディングされたビットストリーム内の第１ニューラルネットワーク更新情報を復号することができる。第１ニューラルネットワーク更新情報は、ビデオデコーダ内の第１ニューラルネットワークについてのものとすることができる。第１ニューラルネットワークを、複数の第１事前トレーニングパラメータで構成することができる。第１ニューラルネットワーク更新情報は、再構成されるべき画像内の第１ブロックに対応し、複数の第１事前トレーニングパラメータのうちのある第１事前トレーニングパラメータに対応する第１置換パラメータを示すことができる。

一例では、第１事前トレーニングパラメータは、事前トレーニングされたバイアス項である。

一例において、第１事前トレーニングパラメータは、事前トレーニングされた重み係数である。

一実施形態では、ビデオデコーダは、複数のニューラルネットワークを含む。第１ニューラルネットワーク更新情報は、複数のニューラルネットワークのうちの１つ以上の残りのニューラルネットワークについての更新情報を示すことができる。例えば第１ニューラルネットワーク更新情報は更に、複数のニューラルネットワーク内の１つ以上の残りのニューラルネットワークについての１つ以上の置換パラメータを示す。１つ以上の置換パラメータは、１つ以上の残りのニューラルネットワークについての１つ以上のそれぞれの事前トレーニングパラメータに対応する。一例では、第１事前トレーニングパラメータ及び１つ以上の事前トレーニングパラメータの各々は、それぞれの事前トレーニングされたバイアス項である。一例では、第１事前トレーニングパラメータ及び１つ以上の事前トレーニングパラメータの各々は、それぞれの事前トレーニングされた重み係数である。一例では、第１事前トレーニングパラメータ及び１つ以上の事前トレーニングパラメータは、複数のニューラルネットワークにおける１つ以上の事前トレーニングされたバイアス項及び１つ以上の事前トレーニングされた重み係数を含む。

一例では、第１ニューラルネットワーク更新情報は、複数のニューラルネットワークのサブセットについての更新情報を示し、複数のニューラルネットワークの残りのサブセットは更新されない。

一例では、ビデオデコーダは、図１８に示されるビデオデコーダ（１８００）である。第１ニューラルネットワークは、メインデコーダネットワーク（９１５）である。

一例において、ビデオデコーダは、図１６Ｂに示されるビデオデコーダ（１６００Ｂ）である。ビデオデコーダ内の複数のニューラルネットワークは、メインデコーダネットワーク（９１５）、コンテキストモデルＮＮ（９１６）、エントロピーパラメータＮＮ（９１７）及びハイパーデコーダ（９２５）を含む。第１ニューラルネットワークは、コンテキストモデルＮＮ（９１６）のように、メインデコーダネットワーク（９１５）、コンテキストモデルＮＮ（９１６）、エントロピーパラメータＮＮ（９１７）及びハイパーデコーダ（９２５）のうちの１つである。一例では、第１ニューラルネットワーク更新情報は更に、ビデオデコーダ内の１つ以上の残りのニューラルネットワーク（例えばメインデコーダネットワーク（９１５）、エントロピーパラメータＮＮ（９１７）及び／又はハイパーデコーダ（９２５））についての１つ以上の置換パラメータを含む。

（Ｓ２０２０）において、第１ニューラルネットワーク更新情報に基づいて、第１置換パラメータを決定することができる。一実施形態では、更新されたパラメータは、第１ニューラルネットワーク更新情報から取得される。一例では、更新されたパラメータを、解凍（例えばＬＺＭＡ２又はｂｚｉｐ２アルゴリズム）によって第１ニューラルネットワーク更新情報から取得することができる。

一例では、第１ニューラルネットワーク更新情報は、更新されたパラメータが、第１置換パラメータと第１事前トレーニングパラメータとの間の差であることを示す。更新されたパラメータと第１事前トレーニングパラメータの和に従って、第１置換パラメータを計算することができる。

一実施形態では、第１置換パラメータは、更新されたパラメータであると決定される。

一実施形態では、更新されたパラメータは、エンコーダ側で第１置換パラメータに基づいて（例えば線形変換又は非線形変換を使用して）生成された代表パラメータであり、第１置換パラメータは、代表パラメータに基づいて取得される。

（Ｓ２０３０）において、ビデオデコーダ内の第１ニューラルネットワークを、第１置換パラメータに基づいて、例えば第１ニューラルネットワーク内において第１事前トレーニングパラメータを第１置換パラメータで置換することによって、更新（又は微調整）することができる。ビデオデコーダが複数のニューラルネットワークを含み、第１ニューラルネットワーク更新情報が複数のニューラルネットワークについての更新情報（例えば追加の置換パラメータ）を示す場合、複数のニューラルネットワークを更新することができる。例えば第１ニューラルネットワーク更新情報は更に、ビデオデコーダ内の１つ以上の残りのニューラルネットワークについての１つ以上の置換パラメータを含み、１つ以上の残りのニューラルネットワークを、１つ以上の置換パラメータに基づいて更新することができる。

（Ｓ２０４０）において、ビットストリーム内の符号化された第１ブロックを、例えば更新された第１ニューラルネットワークに基づいて、更新されたビデオデコーダによって復号することができる。（Ｓ２０４０）において生成される出力ブロックは、任意の適切なサイズを有する任意の適切なブロックとすることができる。いくつかの例では、出力ブロックは、空間領域内の再構成画像における再構成ブロックである。

いくつかの例では、ビデオデコーダの出力ブロックは、空間領域内の残差データを含み、したがって、更なる処理を使用して、出力ブロックに基づいて再構成ブロックを生成することができる。例えば再構成モジュール（８７４）は、空間領域において、（インター又はイントラ予測モジュールによる出力として）残差データと予測結果とを組み合わせて、再構成画像の一部であり得る再構成ブロックを形成するように構成される。デブロッキング操作等のような追加の適切な操作を実行して、視覚品質を改善することができる。（Ｓ２０４０）を達成するために、様々な装置内の構成要素を適切に組み合わせることができ、例えば図８及び図９を参照すると、ビデオデコーダ内のメインデコーダネットワーク（９１５）からの残差データ及び対応する予測結果が、再構成モジュール（８７４）に供給され、再構成画像を生成する。

一例では、ビットストリームは更に、符号化ブロックを復号するためのコンテキストモデルを決定するために使用される１つ以上の符号化ビットを含む。ビデオデコーダは、メインデコーダネットワーク（例えば（９１１））、コンテキストモデルネットワーク（例えば（９１６））、エントロピーパラメータネットワーク（例えば（９１７））及びハイパーデコーダネットワーク（例えば（９２５））を含むことができる。ニューラルネットワークは、メインデコーダネットワーク、コンテキストモデルネットワーク、エントロピーパラメータＮＮ及びハイパーデコーダネットワークのうちの１つである。ハイパーデコーダネットワークを使用して、１つ以上の符号化ビットを復号することができる。エントロピーモデル（例えばコンテキストモデル）は、コンテキストモデルネットワークに利用可能な符号化ブロックの量子化潜在要素と復号されたビットとに基づいて、コンテキストモデルネットワーク及びエントロピーパラメータネットワークを使用して決定されることができる。符号化ブロックは、メインデコーダネットワーク及びエントロピーモデルを使用して復号されることができる。

プロセス（２０００）は（Ｓ２０９９）に進み、終了する。

プロセス（２０００）を、様々なシナリオに適切に適合させることができ、プロセス（２０００）のステップを、それに応じて調整することができる。プロセス（２０００）のステップのうちの１つ以上を適合させ、省略し、反復し及び／又は組み合わせることができる。任意の適切な順序を使用して、プロセス（２０００）を実装することができる。追加のステップを追加することができる。

一例では、（Ｓ２０４０）において、コーディングされたビットストリーム内の別のブロックが、第１ブロックについての更新された第１ニューラルネットワークに基づいて復号される。

一例では、（Ｓ２０１０）において、ビデオデコーダ内の第２ニューラルネットワークについてのコーディングされたビットストリーム内の第２ニューラルネットワーク更新情報が、復号される。第２ニューラルネットワークは、第２事前トレーニングパラメータで構成される。第２ニューラルネットワーク更新情報は、再構成されるべき画像内の第２ブロックに対応し、第２事前トレーニングパラメータ内の第２事前トレーニングパラメータに対応する第２置換パラメータを示す。第２ニューラルネットワーク（例えばコンテキストモデルＮＮ（９１６））は、第１ニューラルネットワーク（例えばメインデコーダネットワーク（９１５））とは異なるものとすることができる。（Ｓ２０３０）において、ビデオデコーダ内の第２ニューラルネットワークを、第２置換パラメータに基づいて更新することができる。（Ｓ２０４０）において、第２ブロックを、第２ブロックについての更新された第２ニューラルネットワークに基づいて復号することができる。一例において、第１事前トレーニングパラメータは、事前トレーニングされた重み係数と事前トレーニングされたバイアス項のうちの一方である。一例において、第２事前トレーニングパラメータは、事前トレーニングされた重み係数と事前トレーニングされたバイアス項のうちの他方である。

本開示の実施形態は、別個に又は任意の順序で組み合わせて使用されてよい。さらに、方法（又は実施形態）、エンコーダ及びデコーダの各々は、処理回路（例えば１つ以上のプロセッサ又は１つ以上の集積回路）によって実装されてもよい。一例では、１つ以上のプロセッサは、非一時的なコンピュータ読取可能媒体に記憶されるプログラムを実行する。

本開示は、ニューラルネットワークベースのエンコーダのようなエンコーダ、ニューラルネットワークベースのデコーダのようなデコーダに使用される方法に対していかなる制限も課さない。エンコーダ、デコーダ及び／又は同様のもので使用されるニューラルネットワークは、ＤＮＮ、ＣＮＮ等のような、任意の適切なタイプのニューラルネットワークとすることができる。

したがって、本開示のコンテンツ適応オンライントレーニング方法は、異なるタイプのＮＩＣフレームワーク、例えば異なるタイプの符号化ＤＮＮ、復号ＤＮＮ、符号化ＣＮＮ、復号ＣＮＮ及び／又は同様のものに対応することができる。

上述の技術を、コンピュータ読取可能命令を使用してコンピュータソフトウェアとして実装し、１つ以上のコンピュータ読取可能媒体に物理的に記憶することができる。例えば図２１は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム（２１００）を示す。

コンピュータソフトウェアは、アセンブリ、コンパイル、リンキング又は類似のメカニズムの対象となり得る任意の適切な機械コード又はコンピュータ言語を使用してコーディングされ、１つ以上のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィクス処理ユニット（ＧＰＵ）等によって直接的に又は解釈やマイクロコード実行等を通して実行され得る命令を含む、コードを作成することができる。

命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイス等を含む様々なタイプのコンピュータ又はその構成要素において実行されることができる。

コンピュータシステム（２１００）について図２１に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能性に関して、いかなる制限も示唆するように意図されていない。また、構成要素の構成は、コンピュータシステム（２１００）の例示的実施形態に示される構成要素の任意の１つ又は組合せに関するいかなる依存性又は要件も有するものとして解釈されてはならない。

コンピュータシステム（２１００）は、特定のヒューマンインタフェース入力デバイスを含み得る。そのようなヒューマンインタフェース入力デバイスは、例えば触覚入力（キーストローク、スワイプ、データグローブの動き等）、オーディオ入力（声、拍手等）、視覚入力（ジェスチャ等）、嗅覚入力（図示せず）を通して、１人以上の人間のユーザによる入力に応答し得る。また、ヒューマンインタフェース入力デバイスは、オーディオ（音声、音楽、環境音等）、画像（スキャンされた画像、静止画像カメラから得られる写真画像等）、ビデオ（２次元ビデオ、立体映像を含む３次元ビデオ等）のような、人間による意識的入力に必ずしも直接関係しているとは限らない、特定の媒体をキャプチャするためにも使用されることができる。

ヒューマンインタフェース入力デバイスは、キーボード（２１０１）、マウス（２１０２）、トラックパッド（２１０３）、タッチ画面（２１１０）、データグローブ（図示せず）、ジョイスティック（２１０５）、マイクロホン（２１０６）、スキャナ（２１０７）及びカメラ（２１０８）（各々の１つのみが図示される）のうちの１つ以上を含んでもよい。

コンピュータシステム（２１００）はまた、特定のヒューマンインタフェース出力デバイスも含み得る。そのようなヒューマンインタフェース出力デバイスは、例えば触覚出力、音響、光及び嗅覚／味覚を通して、１人以上の人間のユーザの感覚を刺激し得る。そのようなヒューマンインタフェース出力デバイスは、触覚出力デバイス（例えばタッチ画面（２１１０）、データグローブ（図示せず）又はジョイスティック（２１０５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある）、オーディオ出力デバイス（スピーカー（２１０９）、ヘッドフォン（図示せず）等）、視覚出力デバイス（各々タッチ画面入力機能の有無にかかわらず、各々触覚フィードバック機能の有無にもかかわらないが、その一部は、立体画像出力や仮想現実グラス（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず）のような手段を通して、２次元視覚出力又は３次元超の出力を出力することができる、ＣＲＴ画面、ＬＣＤ画面、プラズマ画面、ＯＬＥＤ画面を含む画面（２１１０）等）及びプリンタ（図示せず）を含んでよい。

コンピュータシステム（２１００）はまた、ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（２１２０）を含む光媒体又は類似の媒体（２１２１）、サムドライブ（２１２２）、取り外し可能ハードドライブ又はソリッドステートドライブ（２１２３）、テープ及びフロッピーディスク（図示せず）のようなレガシー磁気媒体、セキュリティドングル（図示せず）のような特別なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスのような、ヒューマンアクセス可能なストレージデバイス及びそれらの関連する媒体も含むことができる。

当業者はまた、現在開示されている主題に関連して使用されるとき、「コンピュータ読取可能媒体」という用語が、伝送媒体、搬送波又は他の一時的信号を包含しないことを理解すべきである。

コンピュータシステム（２１００）はまた、１つ以上の通信ネットワーク（２１５５）へのインタフェース（２１５４）も含むことができる。ネットワークは、例えば無線、有線、光とすることができる。ネットワークは更に、ローカル、ワイドエリア、メトロポリタン、車両及び産業用、リアルタイム、遅延耐性等とすることができる。ネットワークの例は、イーサネット（登録商標）、無線ＬＡＮ等のローカルエリアネットワーク、ＧＳＭ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＬＴＥ等を含むセルラネットワーク、ケーブルＴＶ、衛星ＴＶ及び地上放送ＴＶを含むＴＶ有線又は無線ワイドエリアデジタルネットワーク、ＣＡＮＢｕｓ等を含む車両及び産業用ネットワークを含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス（２１４９）に取り付けられ外部ネットワークインタフェースアダプタ（例えばコンピュータシステム（２１００）のＵＳＢポート等）を必要とし、他のものは、一般に、後述するシステムバスへの取り付けによって（例えばＰＣコンピュータシステムへのイーサネット（登録商標）インタフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース）、コンピュータシステム（２１００）のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム（２１００）は、他のエンティティと通信することができる。このような通信は、例えばローカル又はワイドエリアデジタルネットワークを使用して、他のコンピュータシステムに対する、単方向の受信専用（例えば放送ＴＶ）、単方向の送信専用（例えば特定のＣＡＮｂｕｓから特定のＣＡＮｂｕｓデバイスへ）又は双方向であり得る。上述のように、特定のプロトコル及びプロトコルスタックを、これらのネットワーク及びネットワークインタフェースの各々において使用することができる。

前述のヒューマンインタフェースデバイス、ヒューマンアクセス可能なストレージデバイス及びネットワークインタフェースを、コンピュータシステム（２１００）のコア（２１４０）に取り付けることができる。

コア（２１４０）は、１つ以上の中央処理ユニット（ＣＰＵ）（２１４１）、グラフィクス処理ユニット（ＧＰＵ）（２１４２）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）（２１４３）の形態の専用のプログラマブル処理ユニット、特定のタスク用のハードウェアアクセラレータ（２１４４）、グラフィクスアダプタ（２１５０）等を含むことができる。これらのデバイスは、読取専用メモリ（ＲＯＭ）（２１４５）、ランダムアクセスメモリ（ＲＡＭ）（２１４６）、内部非ユーザアクセス可能ハードドライブ、ＳＳＤ等の内部大容量ストレージ（２１４７）とともに、システムバス（２１４８）を通して接続され得る。いくつかのコンピュータシステムでは、システムバス（２１４８）は、追加のＣＰＵ、ＧＰＵ等による拡張を可能にするために、１つ以上の物理的プラグの形態でアクセス可能である。周辺デバイスを、コアのシステムバス（２１４８）に直接又は周辺バス（２１４９）を介して取り付けることができる。一例では、画面（２１１０）をグラフィクスアダプタ（２１５０）に接続することができる。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢ等を含む。

ＣＰＵ（２１４１）、ＧＰＵ（２１４２）、ＦＰＧＡ（２１４３）及びアクセラレータ（２１４４）は、組み合わされて上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードを、ＲＯＭ（２１４５）又はＲＡＭ（２１４６）に記憶することができる。また、一時的なデータをＲＡＭ（２１４６）に記憶することができ、一方、永久的なデータを、例えば内部大容量ストレージ（２１４７）に記憶することができる。１つ以上のＣＰＵ（２１４１）、ＧＰＵ（２１４２）、大容量ストレージ（２１４７）、ＲＯＭ（２１４５）、ＲＡＭ（２１４６）等と密接に関連付けることができるキャッシュメモリの使用を通して、メモリデバイスのいずれかに対する高速記憶及び取り出しを可能にすることができる。

コンピュータ読取可能媒体は、様々なコンピュータ実装される動作を実行するためのコンピュータコードをその上に有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものとすることができ、あるいはそれらは、コンピュータソフトウェア技術の当業者に周知かつ利用可能な種類のものとすることができる。

限定ではなく例として、アーキテクチャ（２１００）及び特にコア（２１４０）を有するコンピュータシステムは、プロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ等を含む）が１つ以上の有形のコンピュータ読取可能媒体に具現化されたソフトウェアを実行する結果としての機能性を提供することができる。このようなコンピュータ読取可能媒体は、上記で紹介したようなユーザアクセス可能な大容量ストレージ、並びにコア内部大容量ストレージ（２１４７）又はＲＯＭ（２１４５）のような非一時的な性質のコア（２１４０）の特定のストレージに関連付けられる媒体とすることができる。本開示の様々な実施形態を実装するソフトウェアを、そのようなデバイスに記憶して、コア（２１４０）によって実行することができる。コンピュータ読取可能媒体は、特定のニーズに従って、１つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア（２１４０）及び特にその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ等を含む）に、ＲＡＭ（２１４６）に記憶されるデータ構造を定義することと、ソフトウェアによって定義されるプロセスに従ってそのようなデータ構造を修正することとを含む、本明細書で説明される特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。追加又は代替として、コンピュータシステムは、論理ハードワイヤ又は他の方法で回路（例えばアクセラレータ（２１４４））内に具現化された結果として機能性を提供することができ、この回路は、ソフトウェアの代わりに又はソフトウェアとともに動作して、本明細書で説明される特定のプロセス又は特定のプロセスの特定の部分を実行することができる。ソフトウェアへの言及はロジックを含み、また、必要に応じて、その逆も可能である。コンピュータ読取可能媒体への参照は、実行のためのソフトウェアを記憶する回路（集積回路(ＩＣ)等）、実行のためのロジックを具体化する回路又は適切な場合にはその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組合せを包含する。

付録Ａ：頭字語
ＪＥＭ：joint exploration model
ＶＶＣ：versatile video coding
ＢＭＳ：ベンチマークセット（benchmark set）
ＭＶ：動きベクトル（Motion Vector）
ＨＥＶＣ：高効率ビデオコーディング（High Efficiency Video Coding）
ＳＥＩ：補足強化情報（Supplementary Enhancement Information）
ＶＵＩ：ビデオユーザビリティ情報（Video Usability Information）
ＧＯＰｓ：ピクチャのグループ（Groups of Pictures）
ＴＵｓ：変換ユニット（Transform Units）
ＰＵｓ：予測ユニット（Prediction Units）
ＣＴＵｓ：コーディングツリーユニット（Coding Tree Units）
ＣＴＢｓ：コーディングツリーブロック（Coding Tree Blocks）
ＰＢｓ：予測ブロック（Prediction Blocks）
ＨＲＤ：仮想リファレンスデコーダ（Hypothetical Reference Decoder）
ＳＮＲ：信号対ノイズ比（Signal Noise Ratio）
ＣＰＵｓ：中央処理ユニット（Central Processing Units）
ＧＰＵｓ：グラフィクス処理ユニット（Graphics Processing Units）
ＣＲＴ：ブラウン管（Cathode Ray Tube）
ＬＣＤ：液晶ディスプレイ（Liquid-Crystal Display）
ＯＬＥＤ：有機発光ダイオード（Organic Light-Emitting Diode）
ＣＤ：コンパクトディスク（Compact Disc）
ＤＶＤ：デジタルビデオディスク（Digital Video Disc）
ＲＯＭ：読取専用メモリ（Read-Only Memory）
ＲＡＭ：ランダムアクセスメモリ（Random Access Memory）
ＡＳＩＣ：特定用途向け集積回路（Application-Specific Integrated Circuit）
ＰＬＤ：プログラマブル論理デバイス（Programmable Logic Device）
ＬＡＮ：ローカルエリアネットワーク（Local Area Network）
ＧＳＭ：汎欧州デジタル移動電話方式（Global System for Mobile communications）
ＬＴＥ：長期進化（Long-Term Evolution）
ＣＡＮＢｕｓ：コントローラエリアネットワークバス（Controller Area Network Bus）
ＵＳＢ：ユニバーサルシリアルバス（Universal Serial Bus）
ＰＣＩ：周辺構成要素相互接続（Peripheral Component Interconnect）
ＦＰＧＡ：フィールドプログラマブルゲートアレイ（Field Programmable Gate Array）
ＳＳＤ：ソリッドステートドライブ（solid-state drive）
ＩＣ：集積回路（Integrated Circuit）
ＣＵ：コーディングユニット（Coding Unit）
ＮＩＣ：ニューラル画像圧縮（Neural Image Compression）
Ｒ－Ｄ：レート歪み（Rate-Distortion）
Ｅ２Ｅ：エンドツーエンド（End to End）
ＡＮＮ：人工ニューラルネットワーク（Artificial Neural Network）
ＤＮＮ：ディープニューラルネットワーク（Deep Neural Network）
ＣＮＮ：畳み込みニューラルネットワーク（Convolution Neural Network）

本開示は、いくつかの例示的な実施形態について説明しているが、本開示の範囲内にある変更、置換及び様々な代替均等物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は説明されていないが、本開示の原理を具体化しており、よって、本開示の精神及び範囲内にある、様々システム及び方法を考案することができることが理解されよう。

Claims

プロセッサによって実行される、ビデオデコーダにおけるビデオ復号のための方法であって、
前記ビデオデコーダ内の第１ニューラルネットワークのためのコーディングされたビットストリーム内の第１ニューラルネットワーク更新情報を復号するステップであって、前記第１ニューラルネットワークは、複数の第１事前トレーニングパラメータで構成され、前記第１ニューラルネットワーク更新情報は、再構成されるべき画像の第１ブロックに対応し、前記複数の第１事前トレーニングパラメータのうちのある第１事前トレーニングパラメータに対応する第１置換パラメータを示す、ステップと、
前記第１置換パラメータに基づいて、前記ビデオデコーダ内の前記第１ニューラルネットワークを更新するステップと、
前記第１ブロックに対する前記更新された第１ニューラルネットワークに基づいて、前記第１ブロックを復号するステップと、
を含む、方法。
前記第１ニューラルネットワーク更新情報は、前記ビデオデコーダ内の１つ以上の残りのニューラルネットワークについての１つ以上の置換パラメータを更に示し、
前記更新するステップは、前記１つ以上の置換パラメータに基づいて、前記１つ以上の残りのニューラルネットワークを更新するステップを更に含む、
請求項１に記載の方法。
前記ビデオデコーダ内の第２ニューラルネットワークのための前記コーディングされたビットストリーム内の第２ニューラルネットワーク更新情報を復号するステップであって、前記第２ニューラルネットワークは、複数の第２事前トレーニングパラメータで構成され、前記第２ニューラルネットワーク更新情報は、再構成されるべき前記画像の第２ブロックに対応し、前記複数の第２事前トレーニングパラメータのうちのある第２事前トレーニングパラメータに対応する第２置換パラメータを示し、前記第２ニューラルネットワークは、前記第１ニューラルネットワークとは異なる、ステップと、
前記第２置換パラメータに基づいて、前記ビデオデコーダ内の前記第２ニューラルネットワークを更新するステップと、
前記第２ブロックに対する前記更新された第２ニューラルネットワークに基づいて、前記第２ブロックを復号するステップと、
を更に含む、請求項１に記載の方法。
前記第１事前トレーニングパラメータは、事前トレーニングされた重み係数と事前トレーニングされたバイアス項のうちの一方である、
請求項３に記載の方法。
前記第２事前トレーニングパラメータは、前記事前トレーニングされた重み係数と前記事前トレーニングされたバイアス項のうちの他方である、
請求項４に記載の方法。
前記第１ブロックに対する前記更新された第１ニューラルネットワークに基づいて、前記コーディングされたビットストリーム内の第２ブロックを復号するステップ、
を更に含む、請求項１に記載の方法。
前記第１ニューラルネットワーク更新情報は、前記第１置換パラメータと前記第１事前トレーニングパラメータとの間の差を示し、
当該方法は、前記差と前記第１事前トレーニングパラメータとの和に従って、前記第１置換パラメータを決定するステップを更に含む、
請求項１に記載の方法。
前記第１ニューラルネットワーク更新情報を復号するステップは、Ｌｅｍｐｅｌ－Ｚｉｖ－Ｍａｒｋｏｖチェーンアルゴリズムの変形（ＬＺＭＡ２）とｂｚｉｐ２アルゴリズムのうちの一方に基づいて、前記第１ニューラルネットワーク更新情報を復号するステップを含む、
請求項３に記載の方法。
前記第２ニューラルネットワーク更新情報を復号するステップは、前記ＬＺＭＡ２と前記ｂｚｉｐ２アルゴリズムのうちの他方に基づいて、前記第２ニューラルネットワーク更新情報を復号するステップを含む、
請求項８に記載の方法。
請求項１乃至９のいずれか一項に記載の方法を実行するよう構成される処理回路を含む、ビデオ復号のための装置。
少なくとも１つのプロセッサによって実行されると、該少なくとも１つのプロセッサに請求項１乃至９のいずれか一項に記載の方法を実行させる、コンピュータプログラム。