JP2023528780A

JP2023528780A - ビデオコーディングにおけるニューラルネットワークベースのフィルタ

Info

Publication number: JP2023528780A
Application number: JP2022572477A
Authority: JP
Inventors: ボルド、フィリップ; ガルピン、フランク; デュマ、ティエリー; ニキティン、パヴェル; アーバン、ファブリス
Original assignee: インターデジタルヴイシーホールディングスフランス，エスエーエス
Priority date: 2020-06-04
Filing date: 2021-05-24
Publication date: 2023-07-06
Also published as: US20230188713A1; EP4162680A1; US12143578B2; CN115943629A; WO2021244884A1

Abstract

一実装形態では、ブロックの再構成されたサンプルのバージョンのループ内フィルタリングを実行するために、単一オフセットパラメータのみがビットストリーム中でシグナリングされる。再構成されたサンプルのバージョンに基づいて、ニューラルネットワークを使用してピクセル単位の重みマスクが生成される。ニューラルネットワークパラメータはエンコーダとデコーダの両方で知られているので、これらのパラメータは、ビットストリーム中でシグナリングされる必要はない。重み付けされたマスクによってスケーリングされた単一オフセットパラメータは、ブロック内のサンプルを調整するために使用される。したがって、単一オフセットパラメータのみが使用される場合であっても、サンプルは、ピクセル単位のオフセットによって調整される。ニューラルネットワークはまた、量子化パラメータ及びピクチャタイプなどの他のパラメータを入力として取り得る。更に、異なる重みマスクを生成する複数のニューラルネットワークがあり得、ここで、異なるオフセットがシグナリングされ、ニューラルネットワークのうちの１つ以上がフィルタリングのために選択されることになる。【選択図】図１０

Description

本実施形態は、概して、ビデオの符号化又は復号化におけるフィルタリングのための方法及び装置に関する。

高い圧縮効率を実現するために、画像及びビデオのコーディング方式は、通常、ビデオコンテンツ内の空間冗長性及び時間冗長性を活用するために予測及び変換を採用している。概して、イントラピクチャ又はインターピクチャ相関を利用するために、イントラ予測又はインター予測が使用され、次いで、予測誤差又は予測残差と呼ばれることが多い、原ブロックと予測ブロックとの間の差が、変換、量子化、及びエントロピコード化される。ビデオを再構成するには、エントロピコーディング、量子化、変換、及び予測に対応する逆のプロセスによって、圧縮データを復号化する。

一実施形態によれば、ビデオ符号化又は復号化の方法が提供され、この方法は、ピクチャの領域の再構成されたサンプルのバージョンにアクセスすることと、ニューラルネットワークを使用して、上記領域の上記再構成されたサンプルのバージョンに基づいて上記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成することと、上記領域について単一オフセットパラメータを符号化又は復号化することと、上記領域内の上記複数のサンプルを調整することによって上記領域をフィルタリングすることであって、上記領域内のサンプルは、上記サンプルについての重み及び上記領域についての上記オフセットに応答して調整される、フィルタリングすることと、を含む。

別の実施形態によれば、１つ以上のプロセッサを備える、ビデオ符号化又は復号化のための装置が提供され、上記１つ以上のプロセッサは、ピクチャの領域の再構成されたサンプルのバージョンにアクセスすることと、ニューラルネットワークを使用して、上記領域の上記再構成されたサンプルのバージョンに基づいて上記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成することと、上記領域について単一オフセットパラメータを符号化又は復号化することと、上記領域内の上記複数のサンプルを調整することによって上記領域をフィルタリングすることであって、上記領域内のサンプルは、上記サンプルについての重み及び上記領域についての上記オフセットに応答して調整される、フィルタリングすることと、を行うように構成されている。

別の実施形態によれば、ビデオ符号化又は復号化の装置が提供され、この装置は、ピクチャの領域の再構成されたサンプルのバージョンにアクセスするための手段と、ニューラルネットワークを使用して、上記領域の上記再構成されたサンプルのバージョンに基づいて上記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成するための手段と、上記領域について単一オフセットパラメータを符号化又は復号化するための手段と、上記領域内の上記複数のサンプルを調整することによって上記領域をフィルタリングするための手段であって、上記領域内のサンプルは、上記サンプルについての重み及び上記領域についての上記オフセットに応答して調整される、フィルタリングするための手段と、を備える。

別の実施形態によれば、ビデオ符号化又は復号化の装置が提供され、この装置は、ピクチャの領域の再構成されたサンプルのバージョンにアクセスするための手段と、複数のニューラルネットワークを使用して、上記領域の上記再構成されたサンプルのバージョンに基づいて上記領域内の複数のサンプルのうちの１つのサンプルについて複数の重みを生成するための手段と上記領域について複数のオフセットパラメータを符号化又は復号化するための手段と、上記領域内の上記複数のサンプルを調整することによって上記領域をフィルタリングするための手段であって、上記領域内のサンプルは、上記サンプルについての上記複数の重み及び上記領域についての上記複数のオフセットに応答して調整される、フィルタリングするための手段と、を備える。

１つ以上の実施形態はまた、１つ以上のプロセッサによって実行されるとき、１つ以上のプロセッサに、上で説明された実施形態のいずれかに従う符号化方法又は復号化方法を実行させる命令を含む、コンピュータプログラムを提供する。本実施形態のうちの１つ以上はまた、上で説明された方法に従って、ビデオデータを符号化するか、又は復号化するための命令を記憶したコンピュータ可読記憶媒体を提供する。１つ以上の実施形態はまた、上で説明された方法に従って生成されたビットストリームを記憶したコンピュータ可読記憶媒体を提供する。１つ以上の実施形態はまた、上で説明された方法に従って生成されたビットストリームを送信又は受信するための方法及び装置を提供する。

本実施形態の態様が実装され得るシステムのブロック図を示す。ビデオエンコーダの一実施形態のブロック図を示す。ビデオデコーダの一実施形態のブロック図を示す。連続ループフィルタリングの一例を示す。ＥＯ（ＥｄｇｅＯｆｆｓｅｔ）（エッジオフセット）サンプル分類のための４つの１－Ｄ方向パターンを示す図的な例である。正のオフセットがＥＯ分類のカテゴリ１及び２に使用され、負のオフセットがカテゴリ３及び４に使用されることを示す図的な例である。関連する開始帯域位置及び４つの連続する帯域のオフセットを有するＢＯ（ＢａｎｄＯｆｆｓｅｔ）（帯域オフセット）を示す図的な例である。ＳＡＯを使用してビットストリームを復号化するための例示的な方法を示す。再構成後に画像を復元するために畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）を使用する一例を示す。一実施形態によるエンコーダアーキテクチャを示す。フィルタリングされるピクチャの一部、ＮＮからの重みマスク、及びフィルタ結果を示す。一実施形態による、フィルタにおいて使用されるＮＮの一例を示す。一実施形態によるデコーダアーキテクチャを示す。一実施形態による、ニューラルネットワークへの入力として事前分類を有するエンコーダアーキテクチャを示す。一実施形態による、複数のニューラルネットワークベースのフィルタを有するエンコーダアーキテクチャを示す。別の実施形態による、複数のニューラルネットワークベースのフィルタを有するエンコーダアーキテクチャを示す。更に別の実施形態による、複数のニューラルネットワークベースのフィルタを有するエンコーダアーキテクチャを示す。一実施形態による、複数のＣＮＮの中から１つのＣＮＮを選択するデコーダアーキテクチャを示す。別の実施形態による、複数のＣＮＮの中からいくつかのＣＮＮを選択するデコーダアーキテクチャを示す。一実施形態による、補正のために複数のＮＮを使用する符号化プロセスを示す。ＮＮ出力の線形結合の一例を示す。一実施形態による、補正のために複数のＮＮを使用する復号化プロセスを示す。一実施形態による、結合されるべきＫ個のＮＮを選択するための方法を示す。異なるパターンが異なるＮＮフィルタに関連付けられる、Ｋ＝２及びＫ＝４での空間分割の例を示す。一実施形態による、実際に使用されるＮＮの数が分割形状に依存することを示す。一方向のみにおける３×４畳み込み層の適用の一例を示す。一実施形態による、異なるコーディングモード特徴を有するデータセットに基づいてＮＮをトレーニングする例を示す。活性化関数の２つの例：ＲｅＬＵ及びリーキーＲｅＬＵを示す。

図１は、様々な態様及び実施形態が実装され得るシステムの一例のブロック図を示す。システム１００は、以下に記載の様々なコンポーネントを含むデバイスとして具現化され得、本明細書に記載の態様のうちの１つ以上を実行するように構成されている。かかるデバイスの実施例としては、これらに限定されないが、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ記録システム、コネクテッド家電、及びサーバなどの様々な電子デバイスが挙げられる。システム１００の要素は、単独で、又は組み合わせて、単一の集積回路、複数のＩＣ、及び／又は個別のコンポーネントで具現化され得る。例えば、少なくとも１つの実施形態では、システム１００の処理要素及びエンコーダ要素／デコーダ要素は、複数のＩＣ及び／又は個別のコンポーネントにわたって分散される。様々な実施形態では、システム１００は、例えば、通信バスを介して、又は専用の入力ポート及び／若しくは出力ポートを通じて、他のシステム、又は他の電子デバイスに通信可能に結合される。様々な実施形態では、システム１００は、本出願に記載された態様のうちの１つ以上を実装するように構成される。

システム１００は、例えば、本出願に記載された様々な態様を実装するために、内部にロードされた命令を実行するように構成された、少なくとも１つのプロセッサ１１０を含む。プロセッサ１１０は、埋め込み型メモリ、入力出力インターフェース、及び当該技術分野で既知であるように様々な他の回路を含み得る。システム１００は、少なくとも１つのメモリ１２０（例えば、揮発性メモリデバイス及び／又は不揮発性メモリデバイス）を含む。システム１００は、記憶デバイス１４０を含み、この記憶デバイスは、限定されるものではないが、ＥＥＰＲＯＭ、ＲＯＭ、ＰＲＯＭ、ＲＡＭ、ＤＲＡＭ、ＳＲＡＭ、フラッシュ、磁気ディスクドライブ、及び／若しくは光ディスクドライブを含む、不揮発性メモリ並びに／又は揮発性メモリを含み得る。記憶デバイス１４０は、非限定的な例として、内部記憶デバイス、取り付け型記憶デバイス、及び／又はネットワークアクセス可能な記憶デバイスを含み得る。

システム１００は、例えば、データを処理して、符号化ビデオ又は復号化ビデオを提供するように構成されたエンコーダ／デコーダモジュール１３０を含み、そのエンコーダ／デコーダモジュール１３０は、それ自体のプロセッサ及びメモリを含み得る。エンコーダ／デコーダモジュール１３０は、符号化機能及び／又は復号化機能を実行するためにデバイス内に含まれ得るモジュールを表す。既知であるように、デバイスは、符号化及び復号化モジュールのうちの一方又は両方を含み得る。加えて、エンコーダ／デコーダモジュール１３０は、システム１００の個別の要素として実装され得るか、又は当業者に知られているように、ハードウェアとソフトウェアの組み合わせとしてプロセッサ１１０内に組み込まれ得る。

本出願に記載の様々な態様を実行するためにプロセッサ１１０又はエンコーダ／デコーダ１３０上にロードされるプログラムコードは、記憶デバイス１４０内に記憶され、その後、プロセッサ１１０による実行のためにメモリ１２０上にロードされ得る。様々な実施形態によれば、プロセッサ１１０、メモリ１２０、記憶デバイス１４０、及びエンコーダ／デコーダモジュール１３０のうちの１つ以上は、本出願に記載されるプロセスの実行中に、様々な項目のうちの１つ以上を記憶し得る。かかる記憶された項目は、限定されるものではないが、入力ビデオ、復号化ビデオ、又は復号化ビデオの一部分、ビットストリーム、行列、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含み得る。

いくつかの実施形態では、プロセッサ１１０及び／又はエンコーダ／デコーダモジュール１３０の内部のメモリは、命令を記憶するため、及び符号化又は復号化中に必要とされる処理のためのワーキングメモリを提供するために使用される。しかしながら、他の実施形態では、処理デバイス（例えば、処理デバイスは、プロセッサ１１０又はエンコーダ／デコーダモジュール１３０のいずれかであり得る）の外部のメモリが、これらの機能のうちの１つ以上のために使用される。外部メモリは、メモリ１２０及び／又は記憶デバイス１４０、例えば、ダイナミック揮発性メモリ及び／又は不揮発性フラッシュメモリであり得る。いくつかの実施形態では、外部不揮発性フラッシュメモリが、テレビのオペレーティングシステムを格納するために使用される。少なくとも一実施形態では、ＲＡＭなどの高速外部ダイナミック揮発性メモリが、ＭＰＥＧ－２、ＨＥＶＣ、又はＶＶＣなどのビデオコーディング動作及び復号化動作のためのワーキングメモリとして使用される。

システム１００の要素への入力は、ブロック１０５に示すように、様々な入力デバイスを通して提供され得る。このような入力デバイスとしては、（ｉ）例えば、放送局によって無線で送信されるＲＦ信号を受信するＲＦ部、（ｉｉ）コンポジット入力端子、（ｉｉｉ）ＵＳＢ入力端子、及び／又は（ｉｖ）ＨＤＭＩ入力端子が挙げられるが、これらに限定されない。

様々な実施形態では、ブロック１０５の入力デバイスは、当技術分野で知られているように、関連するそれぞれの入力処理要素を有する。例えば、ＲＦ部分は、（ｉ）所望の周波数を選択することと（また信号を選択する、又は信号を周波数帯域に帯域制限するとも称される）、（ｉｉ）選択された信号をダウンコンバートすることと、（ｉｉｉ）特定の実施形態で、（例えば）チャネルとして称され得る信号周波数帯域を選択するために、再度より狭い周波数帯域に帯域制限することと、（ｉｖ）ダウンコンバート及び帯域制限された信号を復調することと、（ｖ）誤り訂正を実行することと、（ｖｉ）データパケットの所望のストリームを選択するために多重分離することと、に対して好適な要素に関連付けられ得る。様々な実施形態のＲＦ部分は、これらの機能を実行する１つ以上の要素、例えば、周波数セレクタ、信号セレクタ、帯域リミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、誤り訂正器、及びデマルチプレクサを含む。ＲＦ部分は、これらの様々な機能を実行するチューナを含み得、例えば、受信した信号をより低い周波数（例えば、中間周波数、若しくは近接ベースバンド周波数）に、又はベースバンドにダウンコンバートすることが含まれる。セットトップボックスの一実施形態では、ＲＦ部分及びその関連する入力処理要素は、有線（例えば、ケーブル）媒体を介して送信されるＲＦ信号を受信し、所望の周波数帯域にフィルタリング、ダウンコンバート、及び再フィルタリングすることによって周波数選択を実行する。様々な実施形態では、上で説明される（及び他の）要素の順序を並べ替える、これらの要素の一部を削除する、並びに／又は、類似若しくは異なる機能を実行する他の要素を追加する。要素を追加することは、既存の要素の間に要素を挿入すること、例えば、増幅器及びアナログ－デジタル変換器を挿入することを含み得る。様々な実施形態において、ＲＦ部分は、アンテナを含む。

加えて、ＵＳＢ及び／又はＨＤＭＩ端末は、ＵＳＢ及び／又はＨＤＭＩ接続全体にわたって、システム１００を他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含み得る。入力処理の様々な態様、例えば、リードソロモン誤り訂正は、例えば、必要に応じて、個別の入力処理ＩＣ内又はプロセッサ１１０内に実装され得ることを理解されたい。同様に、ＵＳＢ又はＨＤＭＩインターフェース処理の態様は、必要に応じて、個別のインターフェースＩＣ内又はプロセッサ１１０内に実装され得る。復調され、誤り訂正され、逆多重化されたストリームは、例えば、プロセッサ１１０と、出力デバイス上に提示するために必要に応じてデータストリームを処理するためにメモリ及び記憶要素と組み合わせて動作するエンコーダ／デコーダ１３０とを含む、様々な処理要素に提供される。

システム１００の様々な要素は、統合されたハウジング内に提供され得、統合されたハウジング内では、様々な要素は、好適な接続構成１１５、例えば、Ｉ２Ｃバス、配線、及びプリント回路基板を含む、当該技術分野で既知の内部バスを使用して相互に接続され、互いの間でデータを送信し得る。

システム１００は、通信チャネル１９０を介して他のデバイスとの通信を可能にする通信インターフェース１５０を含む。通信インターフェース１５０は、限定されるものではないが、通信チャネル１９０を介してデータを送信及び受信するように構成された送受信機を含み得る。通信インターフェース１５０は、限定されるものではないが、モデム又はネットワークカードを含み得、通信チャネル１９０は、例えば、有線及び／又は無線媒体内に実装され得る。

データは、様々な実施形態において、ＩＥＥＥ８０２．１１などのＷｉ－Ｆｉネットワークを使用して、システム１００にストリーミングされる。これらの実施形態のＷｉ－Ｆｉ信号は、Ｗｉ－Ｆｉ通信用に適応した通信チャネル１９０及び通信インターフェース１５０を介して受信される。これらの実施形態の通信チャネル１９０は、一般には、ストリーミングアプリケーション及び他のオーバーザトップ通信を可能にするためにインターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック１０５のＨＤＭＩ接続を介してデータを配信するセットトップボックスを使用して、システム１００にストリーミングデータを提供する。更に他の実施形態では、入力ブロック１０５のＲＦ接続を使用して、システム１００にストリーミングデータを提供する。

システム１００は、出力信号を、ディスプレイ１６５、スピーカ１７５、及び他の周辺デバイス１８５を含む、様々な出力デバイスに提供し得る。他の周辺デバイス１８５は、実施形態の様々な例において、スタンドアロンＤＶＲ、ディスクプレーヤ、ステレオシステム、照明システム、及びシステム１００の出力に基づいて機能を提供する他のデバイス、のうちの１つ以上を含む。様々な実施形態では、制御信号は、ＡＶ．Ｌｉｎｋ、ＣＥＣ、又はユーザ介入あり若しくはユーザ介入なしでデバイス間制御を可能にする他の通信プロトコルなどのシグナリングを使用して、システム１００とディスプレイ１６５、スピーカ１７５、又は他の周辺デバイス１８５との間で通信される。出力デバイスは、それぞれのインターフェース１６０、１７０、及び１８０を通じた専用接続を介してシステム１００に通信可能に結合され得る。代替的に、出力デバイスは、通信インターフェース１５０を介し、通信チャネル１９０を使用して、システム１００に接続され得る。ディスプレイ１６５及びスピーカ１７５は、例えば、テレビなどの電子デバイスにおいて、システム１００の他のコンポーネントと共に単一ユニットに統合され得る。様々な実施形態では、ディスプレイインターフェース１６０は、ディスプレイドライバ、例えば、タイミングコントローラ（ｔｉｍｉｎｇｃｏｎｔｒｏｌｌｅｒ、ＴＣｏｎ）チップを含む。

ディスプレイ１６５及びスピーカ１７５は、代替的に、例えば、入力１０５のＲＦ部分が個別のセットトップボックスの一部である場合、他のコンポーネントのうちの１つ以上から分離され得る。ディスプレイ１６５及びスピーカ１７５が外部コンポーネントである様々な実施形態では、出力信号は、例えば、ＨＤＭＩポート、ＵＳＢポート、又はＣＯＭＰ出力を含む、専用の出力接続を介して提供され得る。

図２は、高効率ビデオコーディング（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ、ＨＥＶＣ）エンコーダなどの例示的なビデオエンコーダ２００を示す。図２はまた、ＨＥＶＣ規格に改良を加えたエンコーダ、又はＪＶＥＴ（ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ（ジョイントビデオエキスパートチーム）によって開発中のＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）（多用途ビデオコーディング）エンコーダなど、ＨＥＶＣに類似する技術を採用したエンコーダを示し得る。

本出願では、「再構成された（ｒｅｃｏｎｓｔｒｕｃｔｅｄ）」及び「復号化された（ｄｅｃｏｄｅｄ）」という用語は、交換可能に使用され得、「符号化（ｅｎｃｏｄｅｄ）された」及び「コーディング（ｃｏｄｅｄ）された」という用語は、交換可能に使用され得、は、「ピクセル（ｐｉｘｅｌ）」又は「サンプル（ｓａｍｐｌｅ）」という用語は、交換可能に使用され得、「画像（ｉｍａｇｅ）」、「ピクチャ（ｐｉｃｔｕｒｅ）」、及び「フレーム（ｆｒａｍｅ）」という用語は、交換可能に使用され得る。通常では、必ずしもそうではないが、「再構成された」という用語はエンコーダ側で使用され、「復号化された」という用語はデコーダ側で使用される。

符号化される前に、ビデオシーケンスは、符号化前処理（２０１）、例えば、カラー変換を入力カラーピクチャに適用すること（例えば、ＲＧＢ４：４：４からＹＣｂＣｒ４：２：０への変換）、又は圧縮に対してより弾力的な信号分布を得るために入力ピクチャ成分の再マッピングを実行する（例えば、色成分のうちの１つのヒストグラム等化を使用して）ことを経得る。メタデータは、前処理に関連付けられ、ビットストリームに添付され得る。

エンコーダ２００では、以下に記載のように、ピクチャは、エンコーダ要素によって符号化される。符号化されるピクチャは、例えば、ＣＵというユニットに分割され（２０２）、処理される。各ユニットは、例えば、イントラモード又はインターモードのいずれかを使用して符号化される。ユニットがイントラモードで符号化されるとき、そのユニットは、イントラ予測（２６０）を実行する。インターモードでは、動き推定（２７５）及び動き補償（２７０）が実行される。エンコーダは、ユニットを符号化するためにイントラモード又はインターモードのうちのどちらを使用すべきかを決定し（２０５）、例えば、予測モードフラグによってイントラ／インターの決定を示す。エンコーダはまた、イントラ予測結果とインター予測結果を混合（２６３）してもよいし、又は異なるイントラ／インター予測方法からの結果を混合してもよい。

予測残差は、例えば、元の画像ブロックから予測されたブロックを減算することによって（２１０）計算される。動き改良モジュール（２７２）は、元のブロックを参照せずにブロックの動きフィールドを改良するために、既に利用可能な参照ピクチャを使用する。ある領域についての動きフィールドは、その領域を有する全てのピクセルについての動きベクトルの集合とみなすことができる。動きベクトルがサブブロックベースである場合、動きフィールドは、領域内の全てのサブブロック動きベクトルの集合として表すこともできる（サブブロック内の全てのピクセルは同じ動きベクトルを有し、動きベクトルはサブブロックごとに異なり得る）。単一の動きベクトルが領域に対して使用される場合、領域に対する動きフィールドもまた、単一の動きベクトル（領域内の全てのピクセルに対して同じ動きベクトル）によって表すことができる。

その予測残差は、次いで、変換され（２２５）、量子化される（２３０）。量子化された変換係数、並びに動きベクトル及び他の構文要素は、ビットストリームを出力するためにエントロピコード化される（２４５）。エンコーダは、変換をスキップし、量子化を非変換残差信号に直接適用することができる。エンコーダは、変換及び量子化の両方をバイパスすることができ、すなわち、残差は、変換プロセス又は量子化プロセスを適用することなく直接コード化される。

エンコーダは、符号化されたブロックを復号化して、更なる予測のための参照を提供する。量子化された変換係数は、予測残差を復号化するために逆量子化され（２４０）、逆変換される（２５０）。復号化された予測残差と予測されたブロックとを組み合わせて（２５５）、画像ブロックが再構成される。ループ内フィルタ（２６５）は、例えば、符号化アーチファクトを低減するための非ブロック化／ＳＡＯ（ＳａｍｐｌｅＡｄａｐｔｉｖｅＯｆｆｓｅｔ）（サンプル適応オフセット）フィルタリングを実行するために、再構成されたピクチャに適用される。フィルタリングされた画像は、参照ピクチャバッファ（２８０）に記憶される。

図３は、例示的なビデオデコーダ３００のブロック図を示す。デコーダ３００では、以下に説明されるように、ビットストリームが、デコーダ要素によって復号化される。ビデオデコーダ３００は、図２に記載するように、一般に、符号化パスとは逆の復号化パスを実行する。エンコーダ２００もまた、一般に、ビデオデータを符号化することの一部としてビデオ復号化を実行する。

特に、デコーダの入力は、ビデオビットストリームを含み、これは、ビデオエンコーダ２００によって生成され得る。ビットストリームは、まず、変換係数、動きベクトル、及び他のコード化情報を取得するために、エントロピ復号化される（３３０）。ピクチャ分割情報は、ピクチャがどのように分割されているかを示す。デコーダは、したがって、復号化されたピクチャ分割情報に従ってピクチャを分割し得る（３３５）。変換係数は、予測残差を復号化するために、逆量子化され（３４０）、逆変換される（３５０）。復号化された予測残差と予測されたブロックとを組み合わせて（３５５）、画像ブロックが再構成される。

予測されたブロックは、イントラ予測（３６０）又は動き補償予測（すなわち、インター予測）（３７５）から取得され得る（３７０）。デコーダは、イントラ予測結果とインター予測結果を混合（３７３）してもよいし、又は複数のイントラ／インター予測方法からの結果を混合してもよい。動き補償の前に、動きフィールドは、既に利用可能な参照ピクチャを使用することによって改良され得る（３７２）。ループ内フィルタ（３６５）は、再構成された画像に適用される。フィルタリングされた画像は、参照ピクチャバッファ（３８０）に記憶される。

復号化されたピクチャは、復号化後処理（３８５）、例えば、逆カラー変換（例えば、ＹＣｂＣｒ４：２：０からＲＧＢ４：４：４への変換）、又は符号化前処理（２０１）において実行された再マッピングプロセスの逆を実行する逆再マッピングを更に経ることができる。復号化後処理は、符号化前処理において導出され、ビットストリームにおいてシグナリングされたメタデータを使用することができる。

上記で説明したように、ＨＥＶＣ又はＶＶＣなどの最近のビデオコーデックでは、コーディングアーチファクトを低減し、かつ元のピクチャの歪みを低減することを目的として、ビデオピクチャの再構成されたサンプルにいくつかのフィルタが適用される。例えば、ＨＥＶＣでは、デブロッキングフィルタ（ｄｅｂｌｏｃｋｉｎｇｆｉｌｔｅｒ、ＤＢＦ）及びサンプル適応オフセット（ＳＡＯ）フィルタが、再構成されたサンプルに連続的に適用される。ＶＶＣでは、適応ループフィルタ（ａｄａｐｔｉｖｅｌｏｏｐｆｉｌｔｅｒ、ＡＬＦ）と呼ばれる別のフィルタが、プロセスのまさに最後に適用される。ＶＶＣの開発段階の間、バイラテラルフィルタ（ｂｉｌａｔｅｒａｌｆｉｌｔｅｒ、ＢＦ）、アダマールフィルタ、及び拡散フィルタという、いくつかの他の補足的なブロックベースのフィルタが考慮された。

図４は、連続ループフィルタリングの一例を示す。この例では、バイラテラルフィルタ（４５０）、ＤＢＦ（４６０）、ＳＡＯ（４７０）、及びＡＬＦ（４８０）という、４つの連続フィルタが適用される。出力は、再構成されたピクチャサンプルである。表記を簡単にするために、エンコーダへの入力をＳと呼び、ループ内フィルタリングへの入力を

と呼び、ループ内フィルタリングの出力を

と呼ぶ。

は、再構成されたサンプルの初期再構成又は初期バージョンと称されることもある。図４に示すように、ループ内フィルタリングへの入力は、予測サンプル（４１０）と復号化／再構成された予測残差（４２０）との和（４３０）であり、これは、エンコーダ／デコーダによってサポートされるダイナミックレンジ内になるようにクリップされ得る（４４０）。いくつかのブロックでは、予測残差が０であるか、又は存在しないとき（例えば、ＳＫＩＰモードにおいて）、ループ内フィルタリングへの入力は、直接的に、予測されたサンプルである。

これらの異なるフィルタは、概して、以下の機能の一部又は全部を実行する。
１．ピクセル分類。
２．エンコーダのみ：フィルタパラメータ（例えば、ＤＢＦ、ＳＡＯ、ＡＬＦだがＢＦでない）の決定。
３．符号化／復号化フィルタパラメータ（例えば、ＤＢＦ、ＳＡＯ、ＡＬＦだがＢＦでない）。
４．クラス依存フィルタリング。

ＳＡＯフィルタ

ＨＥＶＣ及びＶＶＣでは、ＳＡＯは、ＣＴＵ（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ）（コーディングツリーユニット）ベースでのサンプルベースのフィルタリング動作であり、これは、コーディングアーチファクトを低減するために、再構成されたサンプルのいくつかのカテゴリにオフセットを加算することを可能にする。ＣＴＵは、成分ごとに１つのＣＴＢで構成される。ＳＡＯは、ＣＴＢごとにアクティブ化又は非アクティブ化され得る。２つのＳＡＯモード、すなわち、エッジオフセット（ＥＯ）及び帯域オフセット（ＢＯ）が指定される。ＥＯの場合、サンプル分類は、フィルタリングされるピクチャ内の局所的な方向構造に基づく。ＢＯの場合、サンプル分類はサンプル値に基づく。ＥＯ又はＢＯのパラメータは、明示的にコーディングされるか、又は近傍から導出され得る。ＳＡＯは、ルーマ成分及びクロマ成分に適用され得、ここで、ＳＡＯモードは、Ｃｂ成分及びＣｒ成分について同じである。ＳＡＯパラメータは、色成分ごとに個別に構成される。

エッジオフセット

ＥＯは、サンプル分類のために、図５に示されているように、４つの１－Ｄ方向パターン、すなわち、水平、垂直、１３５°対角線、及び４５°対角線を使用し、ここで、ラベル「ｐ_ｃ」は現在のサンプルを表し、ラベル「ｐ_０」及び「ｐ_１」は２つの隣接サンプルを表す。方向に基づいて４つのＥＯクラスが指定され、各ＥＯクラスは１つの方向に対応する。選択されたＥＯクラスは、ビットストリーム中でサイド情報としてシグナリングされる。

所与のＥＯクラスについて、ＣＴＢ内の各サンプルは、局所勾配に基づいて５つ（ＮＣ＝５）のカテゴリのうちの１つに分類される。具体的には、「ｐ_ｃ」とラベル付けされた現在のサンプル値が、選択された１－Ｄ方向に沿ったその２つの隣接値と比較される。サンプルの分類規則を表１に要約する。また、図６に示されるように、カテゴリ１及び４は、選択された１－Ｄパターンに沿った局所的な谷及び局所的な山にそれぞれ関連付けられ、カテゴリ２及び３は、選択された１－Ｄパターンに沿った凹コーナー及び凸コーナーにそれぞれ関連付けられる。現在のサンプル値がカテゴリ１～４に属さない（すなわち、現在のサンプル値がその２つの隣接値と同じであるか、又はｐ_０＜ｐ_ｃ＜ｐ_１若しくはｐ_０＞ｐ_ｃ＞ｐ_１である）場合、現在のサンプル値はカテゴリ０にあり、ＳＡＯは適用されない（すなわち、オフセットは０である）。カテゴリ１～４については、オフセットが符号化される。

帯域オフセット

ＢＯの場合、サンプル値の範囲（例えば、８ビットにおける０～２５５）は、３２個の帯域に均一に分割され、（ＮＣ－１）＝４個の連続する帯域に属するサンプル値は、図７に示されるように、オフセットｏｆｆ（ｎ）、ｎ＝１、．．．、４を加算することによって修正される。４つの連続する帯域のオフセット及び開始帯域位置のみがデコーダにシグナリングされる。開始帯域位置は、符号化されたオフセットを有する第１の帯域の位置を示す。（ＮＣ－１）個の帯域の各々に対して１つのオフセットがコーディングされ、残りの帯域は０に等しいオフセットを有する。

ＥＯ又はＢＯの場合、オフセットはコーディングされないが、隣接する上又は左のＣＴＵからコピーされることが可能である（マージモード）。一例では、図８は、ＳＡＯを使用してビットストリームを復号化するための方法８００を示す。ビットストリームが復号化された（８１０）後、再構成されたサンプルは、ＳＡＯを使用して更にフィルタリングされる。「復号化された」又は「再構成された」という用語は、ビットストリームが部分的に「復号化される」こと、例えば、デブロッキングフィルタリングの後であるがＳＡＯフィルタリングの前に取得された信号を意味し得、再構成されたサンプルは、表示のために使用される最終的な復号化された出力とは異なり得ることに留意されたい。

ＳＡＯがスライスに対してアクティブ化される場合、デコーダは、ＳＡＯが現在のＣＴＢに対してアクティブ化されるかどうかをチェックする（８２０）。ＳＡＯがアクティブ化される場合、デコーダは、ＣＴＢ内のサンプルをＮＣ＝５個のカテゴリに分類する（８３０）。各カテゴリのオフセット値ｏｆｆ（ｎ）を得ることができる（８４０）。ステップ８５０において、カテゴリｃ（ｓ）を有するサンプルｓについて、サンプルをｓ＝ｓ＋ｏｆｆ（ｃ（ｓ））に調整することができる。上記で説明したように、サンプルオフセットは０であり得、対応するサンプルは調整されない。ＳＡＯフィルタの後に他のループ内フィルタがある場合、フィルタリングされたサンプルは、更なるフィルタリングを経る。フィルタリングされた再構成サンプルは、デコーダの最終出力として使用される。

エンコーダは、方法８００と同様のプロセスを実行することができる。エンコーダ側では、ステップ８１０は、再構成されたサンプルを取得するために実装され、例えば、ＳＡＯフィルタリングプロセスは、デブロッキングフィルタからの再構成されたサンプルを入力として使用する。オフセット値は、ビットストリームにおいて符号化される。フィルタリングされた再構成サンプルは、他のピクチャの参照として使用することができる。

符号化段階では、各クラスの各カテゴリｃについて、元の（ターゲット）サンプル値と再構成されたサンプル値ｄｉｆｆ（ｃ）との間の差の和を収集することによって、オフセットを決定することができる。カテゴリｃに属する現在のブロックのサンプルの数としてＮ（ｃ）を示すと、再構成されたサンプルに加算される平均オフセットｏｆｆ（ｃ）は、以下のように導出され得る。
ｏｆｆ（ｃ）＝ｄｉｆｆ（ｃ）／Ｎ（ｃ）（式１）

深層学習フィルタ

図９は、再構成後に画像を復元するために畳み込みニューラルネットワーク（ＣＮＮ）を使用する一例を示す。画像Ｓは、最初に

として再構成される。画像は、ＣＮＮによって計算（推論）された補正Ｒを加算することによって

として復元される。ＣＮＮのトレーニング（ＣＮＮパラメータの決定）中に、復元画像と原画像との誤差に基づく損失関数が最小化される。

実際には、ＣＮＮは、通常、いくつかの畳み込み層と、それに続く活性化層（例えば、シグモイド関数、ＲｅＬＵ関数、又はリーキーＲｅＬＵ関数）とから構成され、損失関数はまた、ＣＮＮトレーニングを安定化させるためにいくつかの正則化項を考慮し得る。

再構成されたピクチャをＣＮＮでフィルタリングするためのいくつかの技法が開発されている。ＣＮＮと完全結合ニューラルネットワークとの間の主な違いは、ＣＮＮがその入力及びその中間表現の空間次元に沿って重みを共有することにある。自然画像の局所統計値が与えられると、ＣＮＮは、通常、例えば画像復元において同等の性能を達成するために、完全結合ニューラルネットワークよりはるかに少ないパラメータを必要とする。更に、重み共有は、ＣＮＮにおけるパラメータの数をその入力サイズから独立させ、これは、トレーニングされたＣＮＮが様々なサイズの画像を復元することができることを意味する。

１つの技法では、３層ＣＮＮがルーマ成分とクロマ成分とによって共有される。ＣＮＮのパラメータはトレーニングされ、次いで、各ランダムアクセスセグメント（ｒａｎｄｏｍ－ａｃｃｅｓｓｓｅｇｍｅｎｔ、ＲＡＳ）の第１のＩピクチャと共にビットストリームに符号化される。トレーニングは、時間レベル０及び１のピクチャのみを使用する。マルチレベルオン／オフ制御は、各色成分についてピクチャ、コーディングツリーブロック（ｃｏｄｉｎｇｔｒｅｅｂｌｏｃｋ、ＣＴＢ）、及び３２×３２ブロックレベルにおいて適用される。変形例では、ルーマのための３つの異なる２層ＣＮＮと、クロマのための３つの異なる２層ＣＮＮとが符号化される。ルーマ及びクロマの各々のために使用する最良のＣＮＮのインデックスは、ＣＴＢごとにシグナリングされる。ＣＮＮは、重み当たり６ビットに圧縮される。このオン／オフ制御はタイルごとに行われる。

これらの方法は、ビットストリーム内の全てのニューラルネットワークパラメータを符号化し、シグナリングオーバーヘッドを作成する。更に、ニューラルネットワークは、ピクチャグループ（ＲＡＳ）ごとにトレーニングされるべきであり、これは、実際には許容できない複雑さ／レイテンシにつながることがある。

別の技法では、前述の制限を克服するために、より大きいが固定されたニューラルネットワークパラメータのセットが、ＱＰごとに１つずつ、１回トレーニングされる。３つの入力成分（Ｙ、Ｕ、Ｖ）は、ＣＮＮによって一緒に処理されるように連結される。入力サンプルブロックは、トレーニング中のＣＮＮの総パディングサイズに対応する特定のサイズのピクセルでパディングされる。パラメータの数は、いくつかの層を繰り返すことによって更に低減され得る。

本出願は、１つ又はいくつかの既存のループ内フィルタを置換し得るか、又は既存のループ内フィルタに追加され得るニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ、ＮＮ）に基づくループ内フィルタを提案する。提案されたフィルタは、ＨＥＶＣ又はＶＶＣＳＡＯフィルタの場合のように適応オフセットを用いてサンプルを調整するので、提案されたフィルタをＮＮベースのＳＡＯ（サンプル適応オフセット）フィルタと呼ぶ。一実施形態では、ＮＮベースのフィルタは、ＳＡＯフィルタにおいて実行されるように、再構成されたサンプルをオフセットによって調整する。特に、ＮＮフィルタは重みマスクを決定する。このマスクにおける重みは、この重みの値に応じて、再構成されたブロックのサンプルが補正されるかどうかの決定、又はこのサンプルの補正の強度のいずれかに対応する。ＮＮフィルタは、フィルタの強度を制御するために少数のパラメータ（オフセット）で制御される。これらのパラメータは、ビットストリームにおいて符号化される。

ＮＮベースのループ内フィルタアーキテクチャ

図１０は、一実施形態によるエンコーダアーキテクチャ（１０００）を示す。ここで、Ｗは重みマスクを表す。重みがバイナリ、すなわち、０又は１のいずれかである場合、インデックスｉの重みマスクは、インデックスｉの

のサンプルが補正されるかどうかを決定する。重みが非バイナリ、例えば、浮動である場合、インデックスｉの重みの絶対値は、インデックスｉの

のサンプルに対する補正の強度として見ることができる。オフセットの項は、フィルタ補正の強度に対する制御パラメータを表す。

ＮＮの第１の層が畳み込み層であるとき、データのセット

は、典型的には同じサイズのブロック（又は行列）である。しかしながら、それらは、１－Ｄ又はＮ－Ｄベクトルに再配列することができる。Ｗのサイズが

のサイズと同じであることを保証するために、適切なパディングが層入力又は層出力において追加され得る。代替的に、入力ブロック

は、第１の層からの低減を考慮するために、Ｗより大きくてもよい。

ビデオエンコーダモジュール（１０１０）によって符号化されるブロックＳについて、対応する（局所）再構成ブロックは、

である。ビデオエンコーダ（１０１０）は、提案されたフィルタ（１０４０）で拡張又は置換されるループ内フィルタ（２６５）を除いて、エンコーダ２００に対応し得る。ＮＮ（１０２０）は、通常、いくつかの畳み込み層から構成されるが、例えば、完全接続リンク及び／又はショートカットリンクから構成されてもよい。その入力は、フィルタリングされるべき再構成されたブロックであり、出力は重みマスクＷである。

フィルタ制御パラメータ「オフセット」は、以下のように、

から導出される（１０３０）。

ここで、「．」は、単純な項と項の積を示し（Ｔ＝Ｗ．Ｓはｔ_ｉ，ｊ＝ｗ_ｉ，ｊｘｓ_ｉ，ｊを意味する）、ｓｕｍ（Ｗ）は、Ｗの全ての項の和を示す：ｓｕｍ（Ｗ）＝Σ_ｉ，ｊｗ_ｉ，ｊ。

変形例では、フィルタ制御パラメータ「オフセット」は、以下のように平均二乗誤差最小化法を用いて

から導出される（１０３０）。

ここで、ｓｕｍ（Ｗ^２）は、Ｗの全ての二乗項の和を示す：ｓｕｍ（Ｗ^２）＝Σ_ｉ，ｊｗ_ｉ，ｊ ^２。

「オフセット」の値は、各ブロックについてビットストリームにおいて符号化される（１０５０）。変形例では、値「オフセット」は、コーディングの前に量子化される。演算「Ｘ」（１０６０）及び「＋」（１０７０）は、それぞれ、Ｗの全ての項とスカラー値「オフセット」との積、及び項ごとの和に対応する。「オフセット」は重みマスクＷをスケーリングするために使用されるので、オフセットはまた、スケーリングパラメータとみなされてもよい。変形例では、Ｗの値は、例えば－１と１との間で、クリップされる。

図１１（ａ）、図１１（ｂ）及び図１１（ｃ）は、それぞれ、フィルタリングされる初期再構成ピクチャの一部、ＮＮからの対応する重みマスク、及びフィルタリングされた結果を示す。ここでは、図１２に示すように、ＲｅＬＵ活性化及び１つの最終クリッピング層を有する６層ＣＮＮが使用される。図１１（ｂ）では、異なる陰影は、異なる重み値に対応する。代替的に、例えば０．１に等しいアルファパラメータを有する図２８に示されるようなリーキーＲｅＬＵなどの他の活性化関数を使用することができる。リーキーＲｅＬＵ活性化関数には２つのメリットがある。第一に、誤差逆伝搬アルゴリズム、したがってＮＮトレーニング段階での収束を容易にし、第二に、負の重みマスク値を可能にする。変形例では、内部層にリーキーＲｅＬＵを使用し、最後の層のみにＲｅＬＵを使用する。

一例としてブロックを使用すると、ピクセル値は以下の通りである。

重みマスクは以下の通りである。

（式２）で計算されたブロックに対するオフセットは６である。したがって、

フィルタリングされた結果は以下の通りである。

（式２ｂ）を使用する場合、ブロックに対するオフセットは８である。したがって、

フィルタリングされた結果は以下の通りである。

図１３は、一実施形態によるデコーダアーキテクチャ（１３００）を示す。デコーダの入力はビデオビットストリームを含み、例えば、このビットストリームはビデオエンコーダ１０００によって生成される。ビデオデコーダモジュール（１３１０）は、提案されたフィルタ（１３４０）で拡張又は置換されるループ内フィルタ（３６５）を除いて、デコーダ３００に対応し得る。ＮＮ（１３２０）は、ビットストリームを適切に復号化するために、対応するエンコーダにおいて使用されるものと同じであるべきである。ＮＮ（１３２０）への入力は、フィルタリングされるべき再構成されたブロックであり、出力は重みマスクＷである。ＮＮフィルタ（１３２０）の出力は、場合によっては他の情報と共に、１つの成分（１チャネル）以上、例えば、ルーマ及びクロマ残差サンプル（３チャネル）又は２つのクロマ残差サンプル（２チャネル）を補正するためのスケーリングされたオフセット（残差）であり得る。

ＮＮのパラメータは、デコーダにおいて知られており、ビットストリームにおいて伝達されないことに留意されたい。

フィルタ制御パラメータ「オフセット」は、ブロックについてビットストリームから復号化される（１３１０）。次に、制御パラメータに重みマスクが乗算される（１３６０）。すなわち、制御パラメータは、各サンプルに対するスケーリングされたオフセットを生成するために、ブロック内の各サンプルについて重みによってスケーリングされる。次に、スケーリングされたオフセットは、初期再構成ブロック内の対応するサンプルに加算される（１３７０）。

サンプルごとの重みマスクＷを生成することによって、積Ｗ．ｏｆｆｓｅｔは、ブロック内の各サンプルに対する調整オフセットを提供する。ここで、ＮＮのパラメータはビットストリームにおいて送信されないので、フィルタリングプロセスのためにブロックに対して単一の制御パラメータのみが伝達される必要があることに留意されたい。したがって、非常に少ないシグナリングオーバーヘッドで、提案されたフィルタは、圧縮効率を改善することができる、フィルタリングにおけるサンプルごとの調整を達成する。

事前分類を用いたＮＮベースのフィルタアーキテクチャ

この実施形態では、ＮＮモジュールは、量子化ステップ（ｑｕａｎｔｉｚａｔｉｏｎｓｔｅｐ、ＱＰ）、画像タイプ（例えば、タイプＩ、Ｐ、又はＢ）、別の成分からの再構成された残差サンプル又は再構成されたサンプルなど、追加の入力を有する。変形例では、追加の入力は、図１４に示されるようにブロックのサンプルを分類する分類モジュール（１４２０）である。図１４では、モジュール（１４２０）は、オプションであることを示すために破線で示されている。図１４にはデコーダが示されているが、対応するエンコーダを応じて変更することができる。この分類（１４２０）は、局所勾配又は他の意味分類に基づくことができる。例えば、分類器は、ＨＥＶＣ／ＶＶＣＳＡＯ、ＡＬＦ分類器、又はデブロッキングフィルタ分類器など、既存のループ内フィルタにおいて使用される分類器と同じである。分類器は、

の各サンプルに、バイナリラベル（０：クラス内にない、１：クラスに属する）、Ｔ個の値｛ｃ_１，ｃ_２，．．．ｃ_Ｔ｝の中の１つの整数ラベル、又は非整数値（例えば、浮動小数点ｃ_{ｆｌｏａｔ}）を関連付けることができる。

事前分類器入力を使用する１つの利点は、第１の層の目的が概して分類を実行することであるので、ＮＮ（１４３０）の層の数が低減され得ることである。しかしながら、先験的な明示的な分類器の使用は、最適な分類を学習するためのトレーニングの能力を低減し得る。

複数のＮＮを有するループ内フィルタアーキテクチャ

この実施形態では、図１５に示すように、いくつかのＮＮフィルタ（１５３０、１５４０）が使用される。エンコーダにおいて、ｋ個のフィルタ（ｋは図１５では２に設定される）が適用されて、

を生成する。各ブロック

について、Ｓと共に

の歪みを最小化するものとして、又はレート歪みトレードオフ（オフセット_ｉ及びフィルタインデックスｉ、１５５０、１５６０の歪み及び符号化コスト）を最小化するものとして、使用すべき最良のフィルタが選択される（１５７０）。次いで、選択されたフィルタのフィルタインデックスｂ及び関連するオフセット_ｂが、（例えば、以前に再構成されたパラメータを使用して）予測を介して明示的に又は暗示的にビットストリーム内で符号化される。変形例では、フィルタリングモジュール（１５３０、１５４０）の各々（又はいくつか）は、ｋ＝２である図１５に示されるような分類器（１５１０、１５２０）に先行される。

別の実施形態では、図１６に示されるように、単一の分類器が使用され（１６２０）、それにより、

の各サンプルは、Ｃ_ｉ（ｉ＝１，．．．ｋ）としてラベル付けされ、それぞれ

としてフィルタリングされてもよい。Ｃ_ｉとして分類された

のサンプルは、

と注記される。その場合、ｋ個のオフセット、オフセット_ｉ（ｉ＝１，．．．ｋ）がビットストリームにおいてシグナリングされ得る。有利には、単一のＲＤＯモジュール（１６３０）は、どのＣＮＮフィルタが最終的に使用されるかを選択する。図１６に示す例では、ＲＤＯモジュールは、最終的に、ｂ＝｛｝（フィルタリングなし）、ｂ＝｛０｝（カテゴリ０がフィルタリングされ、カテゴリ１がフィルタリングされない）、ｂ＝｛１｝（カテゴリ１がフィルタリングされ、カテゴリ０がフィルタリングされない）、又はｂ＝｛０，１｝（両方のフィルタが使用される）を選択することができる。最後のケースでは、両方のオフセット値｛オフセット_１，オフセット_２｝がビットストリームにおいて符号化される。

ｋ＝２である図１７に示される変形例では、全てのＮＮフィルタについて単一オフセットが計算される。

図１８は、一実施形態による、複数のＣＮＮを有するデコーダアーキテクチャ（１８００）を示す。デコーダの入力は、ビットストリームを含む。ビデオデコーダモジュール（１８１０）は、ＮＮベースのフィルタ（１８７０）で拡張又は置換されるループ内フィルタ（３６５）を除いて、デコーダ３００に対応し得る。

フィルタ制御パラメータ「オフセット」及びフィルタインデックス「ｂ」は、ブロックについてビットストリームから復号化される（１８１０）。フィルタインデックス「ｂ」は、重みマスクＷを生成するためにＫ個のＣＮＮ（１８２０、１８３０）のうちのどれが使用されるべきかを制御する（１８４０）。次いで、制御パラメータ「オフセット」が重みマスクと乗算される（１８５０）。次に、スケーリングされたオフセットは、初期再構成ブロック内の対応するサンプルに加算される（１８６０）。

図１８では、ＣＮＮは事前分類なしで使用される。他の実施形態では、例えば、図１５～図１６において、エンコーダに対して図示されるような事前分類モジュールを適用することができる。

図１８では、ブロックのために使用されるべきＣＮＮ及び制御パラメータ「オフセット」の選択は、フィルタリングプロセスを現在のブロックの局所特性に合わせることを可能にする。しかしながら、２つ以上のＣＮＮが両方とも良好な補正を提供し得ることが起こり得、その場合、これらの２つ以上のＣＮＮの利益を何らかの方法で累積することが好ましい場合があるので、単一のＣＮＮの選択が最適でない場合がある。これは、ＣＮＮがトレーニングされた方法にも依存し得る。

以下では、最良のものを選択するのではなく、それらの出力を組み合わせることによってＣＮＮのパワーを活用するためのいくつかの方法が説明される。一例では、例えば、異なる特性を有する異なるデータセットを用いて別々にトレーニングされ、及び／又は異なるパラメータ（例えば、異なるＱＰ値、異なるピクチャサイズ若しくはサンプル解像度）を用いて符号化され得る、いくつかの（Ｎ個の）ＮＮがあると仮定する。通常のビットストリームからの再構成されたサンプルから構成されるデータセットを使用し、復号化されたＳＡＯタイプを用いてＣＴＵを分類することもできる。

ＮＮの相互結合

ニューラルネットワークアンサンブルは、問題を解決するために複数のニューラルネットワークが一緒に使用される学習パラダイムである。この実施形態では、いくつかのＮＮ出力の重み付けされた線形結合を介して、この一般原理をＮＮベースのフィルタに適用する。

図１９は、一実施形態による、補正のために複数のＮＮを使用する復号化プロセス（１９００）を示す。デコーダは、Ｎ個の利用可能なＮＮの中からＫ個のフィルタを選択すること（１９４０）を可能にするＫ個のフィルタインデックス｛ｉ_０，．．．ｉ_ｋ－１｝と、Ｋ個のオフセット｛オフセット_０，．．．オフセット_ｋ－１｝とを復号化する。この例では、ＮＮ（１９２０、１９３０）に対応するＫ＝２である。Ｋ個のＮＮへの入力は、再構成されたブロック

及び場合によっては、ＱＰ、コーディングモード、又は他の成分のサンプルなどの追加の情報である。Ｋ個のＮＮの出力は、重みマスク｛Ｗ_ｉ｝_{ｉ＝０，．．．，Ｋ－１}である。次に、Ｋ個の重みマスク及びＫ個のオフセットは、重みマスク及びオフセットの重み付けされた線形結合を使用して結合されて（相互結合）（１９５０）、再構成されたサンプル

に適用される（１９６０）加法補正Ｃｏｒｒ（ｘ）を導出し、ここで、「ｘ」は、以下のように、ブロック内の位置「ｘ」におけるサンプルを示す。

図２０は、一実施形態による、補正のために複数のＮＮを使用する符号化プロセス（２０００）を示す。エンコーダは、Ｎ個の利用可能なＮＮの中からＫ個のＮＮを選択する。この例では、Ｋ＝２である。より一般的には、このプロセスは、フィルタにおいて使用される２つ以上のＮＮ（２０２０、２０２５）があるときに適用することができる。Ｋ個のＮＮへの入力は、再構成されたブロック、及び場合によっては、ＱＰ、コーディングモード、他の成分の再構成された残差又は再構成されたサンプルなどの追加の情報である（２０１５）。Ｋの値は、例えば、ルーマ及びクロマが同じフィルタを共有しない場合、ルーマ又はクロマＮＮベースのフィルタについて異なり得ることに留意されたい。

所与の再構成されたブロック

（２０１０、例えば、ＣＴＵ又はＣＵ）について、Ｗ_ｋ及びオフセット_ｋを、それぞれｋ番目のＣＮＮ及び関連するスケーリングパラメータを用いて取得された対応する出力を示すものとする。元のブロックＳ（２０３０）及び重みマスクＷ_ｋに基づいて、スケーリングパラメータオフセット_１及びオフセット_２を導出することができる（２０４０）。スケーリングパラメータは、ビットストリームにおいて領域ごとに又はブロック（ＣＴＵ若しくはＣＵ）ごとにコーディングされ得る。Ｋ個のＣＮＮの相互結合は、ＮＮ出力の重み付けされた線形結合（２０５０）を通して、再構成されたサンプル

に適用されるべき加法補正Ｃｏｒｒ（ｘ）を構築することを可能にし、ここで、線形結合における重みはスケーリングパラメータオフセット_ｋである。線形結合を図２１の例に示す。数学的には、線形結合は次のように表すことができる。

補正項を初期再構成ブロックに加算することにより、最終再構成ブロックが生成される（２０６０）。

一実施形態では、スケーリング値（オフセット_ｋ）の導出は、以下のように平均二乗誤差（ｍｅａｎｓｑｕａｒｅｄｅｒｒｏｒ、ＭＳＥ）の最小二乗最小化（ｌｅａｓｔｓｑｕａｒｅｍｉｎｉｍｉｚａｔｉｏｎ、ＬＳＭ）を使用してエンコーダ側で行うことができる。

２つのＣＮＮ、Ｋ＝０又は１を使用する特定の場合では、ＬＳＭ法は、オフセット_０及びオフセット_１の値を以下のように導出することを可能にする。

ここで、

、

、
及びΣ_ｘは、現在のブロックの全てのサンプル「ｘ」に対する和を示す。

以下では、一例としてＫ＝２を使用するが、Ｋ＞２の値に容易に拡張することができる。図２２は、一実施形態による、補正のために複数のＮＮを使用する復号化プロセス（２２００）を示す。方法２０００と同様に、初期再構成サンプル

をフィルタリングするために複数のＮＮが使用される。エンコーダ側において、方法２０００は、ステップ２０４０においてオフセット_１及びオフセット_２を導出する。デコーダ側において、方法２２００は、ビットストリームからオフセット_１及びオフセット_２を復号化する。

図２３は、現在の再構成ブロックが与えられた場合に、Ｋ＝２に対して結合されるべきＫ個のＮＮを選択するための方法（２３００）を示す。最初に、ｂｅｓｔＣｏｓｔは大きい値に設定される。各可能な対｛ｋ_０、ｋ_１｝について（２３２０）、ｋ_０＝ｋ_１である場合、ＮＮ（ｋ_０）が適用され（２３１０）、１つの単一オフセット_０が導出される（２３４５）。ｋ_０≠ｋ_１である場合、ＮＮ（ｋ_１）も適用され（２３１０）、スケーリングパラメータ｛オフセット_０、オフセット_１｝が導出される（２３４０）。補正係数が計算され（２３５０、２３５５）、補正された再構成ブロックＲｅｃ’

が計算される（２３６０）。次に、元のブロックの歪み及び｛ｋ_０、ｋ_１、オフセット_０、オフセット_１｝のコーディングコストを考慮して、例えばラグランジュ乗数を用いて、符号化コストが推定される（２３７０）。現在の対｛ｋ_０、ｋ_１｝からのコストがｂｅｓｔＣｏｓｔより小さい場合（２３８０）、ｂｅｓｔＣｏｓｔは現在のコストに設定され、｛ｋ_０、ｋ_１、オフセット_０、オフセット_１、Ｒｅｃ’｝が記憶される（２３８５）。全ての可能な対がテストされた後、ｂｅｓｔＣｏｓｔに関連付けられたＲｅｃ’が復元され、パラメータ｛ｋ_０、ｋ_１、オフセット_０、オフセット_１｝が符号化される（２３９０）。

構文の例

表２は、上記で説明した様々な実施形態に関係する構文要素をコーディングするための一例を提供する。特に、表２は、ＮＮのインデックスと、ＮＮの相互結合を用いて１つの再構成ブロックを補正するために使用されるスケーリングパラメータとをコーディングするための構文の一例を提供する。この例では、ピクチャ内の現在のブロック位置は（ｒｘ，ｒｙ）であり、ルーマ成分についてＫ＝２であり、クロマ成分についてＫ＝１である。

これらの構文要素の意味は以下の通りである。
ｆｉｌｔｅｒ＿ｌｕｍａ＿ｆｌａｇ、ｆｉｌｔｅｒ＿ｃｈｒｏｍａ＿ｆｌａｇは、それぞれ、ルーマ又はクロマサンプルブロックが（ＮＮフィルタを用いて）補正されるか否かを指定する。
ｉｄｘ＿ｆｉｌｔｅｒ＿ｏｆｆ＿ｖａｌ＿ｌｕｍａ［ｋ］は、結合されるべきＫ個のＮＮ出力を推論するために使用されるべきＮＮのＫ個のインデックス｛ｋ_ｉ｝_{ｉ＝０，１}を導出することを可能にする。例えば、ｋ_ｉ＝ｉｄｘ＿ｆｉｌｔｅｒ＿ｏｆｆ＿ｖａｌ＿ｌｕｍａ［ｉ］である。
一実施形態では、ｋ_ｉの値は、ｋ_ｉ＋１≧ｋ_ｉとなるように、コーディング前に（例えば、昇順に）順序付けられる。ｋ_ｉ＋１＝ｋ_ｉの場合を可能にすることにより、実際に使用されるＮＮフィルタの数（ｃｐｔ＿ｓｃａｌｅ＿ｏｆｆ）がＫ個未満のＮＮフィルタであり、結果的にＫ個未満のスケーリングパラメータが符号化される場合に対処することが可能になる。変数ｃｐｔ＿ｓｃａｌｅ＿ｏｆｆは、非０スケーリングパラメータオフセット_ｋの数に対応する。
一例では、識別子は、いくつのＮＮが結合されるかを示す。例えば、Ｋ＝２の場合、ｋ_０＝ｋ_１の場合は、１つの単一のＮＮのみが使用され（相互結合なし）、かつ１つのスケーリングパラメータのみがコーディングされる場合を管理することを可能にする。
変形例では、Ｋ個のインデックス｛ｋ_ｉ｝_{ｉ＝０，１}は以下のように導出される。

ここで、「ｐｒｅｄ＿ｉｄｘ＿ｆｉｌｔｅｒ［ｉ］」は値ｋ_ｉの予測子である。例えば、予測子は、前のインデックスｐｒｅｄ＿ｉｄｘ＿ｆｉｌｔｅｒ［ｉ］＝ｋ_ｉ－１、又は前に復号化されたＮＮフィルタインデックスであり得る。
別の変形例では、Ｎ個の可能なインデックスは、各ブロックについてＮＮパラメータ（ｎｎ＿ｆｉｌｔｅｒ（））をコーディングする前に更新されるテーブルに順序付けられる。更新は、最も可能性の高いインデックス（例えば、前にコーディングされた左ブロック及び上ブロックによって使用されたインデックス）をリストの上部に移動することによって行われる。このようにして、古いコーディングされたインデックスはゆっくりとリストの下部に行くが、最近使用されたインデックスはリストの上部にある。コーディングされた値（ｉｄｘ＿ｆｉｌｔｅｒ＿ｏｆｆ＿ｖａｌ＿ｌｕｍａ［ｉ］）は、予測なしの（ｐｒｅｄ＿ｉｄｘ＿ｆｉｌｔｅｒ［ｉ］＝０）、このリスト内のフィルタに対応するインデックス（フィルタインデックス自体ではない）を表す。
ｓｃａｌｅ＿ｏｆｆ＿ｄｉｆｆ＿ａｂｓ［ｉ］は、スケーリングパラメータ値オフセット_ｉを以下のように導出することを可能にする。

ここで、

変数「ｐｒｅｄ＿ｓｃａｌｅ＿ｏｆｆ［ｉ］」は、ｏｆｆ_ｉの予測子である。例えば、

変形例では、「ｐｒｅｄ＿ｓｃａｌｅ＿ｏｆｆ［ｉ］」は、ｏｆｆ_ｘの最後に復号化された値に等しい。
ｉｄｘ＿ｆｉｌｔｅｒ＿ｏｆｆ＿ｖａｌ＿ｃｈｒｏｍａは、結合されるべきＫ個のＮＮ出力を推論するために使用されるべきＮＮのインデックスｋ_Ｃを導出することを可能にする。例えば、ｋ_Ｃ＝ｉｄｘ＿ｆｉｌｔｅｒ＿ｏｆｆ＿ｖａｌ＿ｃｈｒｏｍａである。実際、表２の例では、クロマ成分ｃＩｄｘ＝１及びｃＩｄｘ＝２のフィルタインデックスは同一である。

表３ａは、ＮＮ出力を結合しないＮＮベースのフィルタと比較して、ルーマＮＮフィルタに対して提案されたＮＮの相互結合方法を使用した結果を示す。ＮＮ出力の提案された結合により、結合のない方法の０．５７％のビットレート低減と比較して、約０．８９％のビットレート低減が得られる。表３ｂは、ＮＮの別のセットとのＮＮの提案された相互結合で得られた結果を示す。表３ａ及び表３ｂ（左）の結果は、ＲｅＬＵ活性化関数でトレーニングされたＮＮを用いて得られたものである。表３ｂ（右）の結果は、リーキーＲｅＬＵ活性化関数でトレーニングされたＮＮを用いて得られたものである。この例では、ＲｅＬＵ活性化関数による１．６０％のビットレート低減と比較して、リーキーＲｅＬＵ活性化関数を使用して約２．４５％のビットレート低減が得られる。

ＮＮの空間結合

別の実施形態では、いくつかの（Ｋ個の）領域へのブロックの空間セグメント化を使用して現在の再構成ブロックを補正するためにいくつかのＮＮが結合され、ここで、異なるＮＮは、異なるブロック分割に使用され得る。図２４は、異なるパターンが異なるＮＮフィルタに関連付けられる、Ｋ＝２及びＫ＝４でのそのような空間分割のいくつかの例を示す。これらの例では、ブロックの分割／領域ごとに１つのスケーリングパラメータ（オフセット_ｋ）がコーディングされる。

変形例では、ブロック内のいくつかの分割は、図２４（ｆ）に示されるように、同じＮＮを使用するが、場合によっては異なるスケーリングパラメータ値を使用する。復号化段階において、これは、１つの単一のＮＮを推論するが、スケーリングを各分割に合わせるという利点を有する。

表４は、この実施形態に関連する構文要素の一例を提供する。特に、表４は、ＮＮのインデックスと、分割形状（ｄｉｒ＿ｓｐｌｉｔ）と、ＮＮの相互結合を用いて１つの再構成ブロックを補正するために使用されるスケーリングパラメータとをコーディングするための構文の一例を提供する。この例では、ピクチャ内の現在のブロック位置は（ｒｘ、ｒｙ）であり、クロマ成分についてはＫ＝１である。ルーマ成分については、実際に使用されるＮＮの数（ｃｐｔ＿ｓｃａｌｅ＿ｏｆｆ）は、図２５に示されているように分割形状に依存する。構文要素の意味は、表２の場合と同じである。インデックス又はスケーリングパラメータ予測子は、前に復号化された分割の値であり得る。

表５は、ＮＮ出力を結合しないＮＮベースのフィルタと比較して、提案されたＮＮの空間結合方法を使用した結果を示す。

一実施形態では、いくつのＮＮが結合され得るか（Ｋ）をビットストリーム（例えば、スライスヘッダ又はピクチャヘッダ）中でシグナリングし得る。加えて、Ｍ＞Ｎである、Ｍ個のＮＮのより大きいセットの中から、Ｎ個のＮＮのセットをシグナリングし得る。変形例では、Ｎ個のＮＮは、量子化パラメータ（ＱＰ）、ピクチャサイズ、又はビデオの性質（例えば、スポーツ、ゲーム、映画）など、ビットストリーム中の他のパラメータから推論され得る。例えば、Ｍ個のＮＮが、Ｍ個の異なるＱＰ値｛ｑｐ_０，．．．，ｑｐ_Ｍ－１｝で符号化されたビデオシーケンスでトレーニングされている場合、デコーダは、現在のＱＰからＮ個のＮＮを推論し得る。例えば、サブセットは、現在のＱＰ値を下回るいくつかの（例えば、２つの）ＱＰ値と、現在のＱＰ値を上回るいくつかの（例えば、２つの）ＱＰ値とを用いてトレーニングされているＮＮから作成され得る。

先の実施形態は、他の補正モデル（Ｃｏｒｒ（ｘ）の式）及び補正を適用するための他のモデル（Ｒｅｃ’（ｘ）の式）に拡張することができる。例えば、補正は以下のモデルに基づくことができる。
補正のモデル：
－線形補正モデル。パラメータは｛オフセット_ｋ，バイアス｝である

補正を適用するためのモデル：
－加法補正モデル：

－乗法補正モデル：

－線形補正モデル（バイアスは１つのスケーリングパラメータである）：

前述したように、スケーリングパラメータ｛オフセット_ｋ，バイアス｝の導出は、例えば、０に等しい変数｛オフセット_ｋ，バイアス｝に対する（式３）の偏微分によって得られるＫ＋１個の方程式の系を含むＬＳＭ法を使用してエンコーダによって行うことができる。

領域ベースのＮＮフィルタ（例えば、デブロッキングフィルタ）

ＮＮフィルタが、既知の位置のいくつかの空間的に位置するアーチファクトを補正することに特化された領域ベースのフィルタ（例えば、デブロッキングフィルタ）である場合、補正は、これらの既知の位置（例えば、再構成されたＣＵエッジ）に限定され得る。この場合、ＮＮフィルタ推論は、空間的に知られているアーチファクト位置（例えば、水平又は垂直ＣＵエッジ）の方向における、図２６に示されているような一方向走査畳み込みであり得る。

トレーニング

ＮＮのトレーニング（ＮＮパラメータの設定）は、ＮＮ出力と所望の出力との間の差などの損失関数を最小化しようとして、ＮＮの出力が所望の出力（元の信号）と一致する教師あり学習に基づく従来の方法で行うことができる。例えば、ネットワークの重みに対する損失関数の勾配の計算が、勾配降下法又は確率的勾配降下法など、ＮＮの重み及びバイアスを反復的に調整することを可能にする逆伝搬法を使用することができる。

一実施形態では、ＮＮパラメータのトレーニングは、勾配降下アルゴリズムを用いて損失を最小化することによって実行される。損失は、「オフセット_ｋ」又は「オフセット_ｋ及びｂ_ｋ」のコーディングコストでの歪み

又はレート歪み尺度であり得る。

トレーニング段階では、データセットは、ブロックパッチであり得る対のセット

を含む。符号化されたビデオビットストリームから再構成されたブロックを抽出することによって

値を生成することができる。

分類は、図２７に示されるように、コーディングモードを用いて、ある範囲のＱＰでコーディングされたブロック、あるいはＩピクチャのみ、又はＰ若しくはＢピクチャのみから選択されたブロックから作成されたデータセットを用いて行われ得る。すなわち、異なるコーディングモード特徴を有するデータセットに基づいていくつかのＮＮをトレーニングすることができる。また、トレーニングは、少なくとも２つのパスで行われてもよい。第１のパスでは、ＮＮのセット（ＮＮ－１）は、復号化されたビットストリームＢ１（２７１０、２７２０）のイントラピクチャから抽出された（２７３０）パッチを用いてトレーニングされ（２７４０）、次いで、ビデオシーケンスのセットは、ビットストリームＢ２を生成するためにイントラピクチャのみの上で有効にされたこれらのＮＮ－１フィルタを用いて符号化される（２７５０）。第２のパスでは、復号化されたビットストリームＢ２（２７６０）のインターピクチャからパッチを抽出して（２７７０）、インターピクチャのフィルタリング専用のＮＮの別のセット（ＮＮ－２）をトレーニングする（２７８０）ことができる。

ＮＮフィルタの目的が、ビットストリームにおいて使用される既存のフィルタ（例えば、ＳＡＯ、ＡＬＦ．．．）を置き換えることである場合、分類がビットストリーム中に存在する

値を選択することができる。例えば、ＳＡＯを考慮して、

がＳＡＯパラメータＥＯ＿９０で符号化された場合、それは、「ＥＯ＿９０」に関連付けられたＮＮフィルタに関連付けられることになる。

しかしながら、ビットストリームにおける分類は、レート歪み及び他のコンテキスト上の考慮事項に基づき得るエンコーダの選択によってバイアスされ得る。例えば、コーディングコスト（レート）は、ＣＡＢＡＣエンコーダの履歴に依存するＣＡＢＡＣコンテキストに依存する。トレーニングのためには、レートコストを考慮するのではなく、歪みのみを考慮することが好ましい場合がある。（マージ及びＯＦＦのモードを破棄する）モードＮＥＷのみでコーディングされたＣＴＵを

のために選択することによってこの制限を克服することができるが、符号化バイアスは依然として存在する。

好ましくは、ビットストリーム内のＳＡＯパラメータを使用せずに、

が与えられた場合に最良のＳＡＯモードを再決定し、歪みのみを使用することを考慮することができる。

複数のＮＮを有する方式の場合、微調整は、以下のように反復的に実行することができる。
１）段階１：メインデータセットＭＤをｋ個のデータセットＤ_ｂ（ｂ＝１，．．．，ｋ）に分割する。
２）ｋ個のＮＮフィルタを別々にトレーニングする。
３）段階２：ｋ個のデータセットＤ_ｂ（ｂ＝１，．．．，ｋ）を次のように再生成する：ＭＤ内の各データ「Ｉ」について、損失を最小化するＮＮフィルタ「ｔ」を選択し、Ｄ_ｔに「ｉ」を付加する。次に、ｋ個のフィルタをＤ_ｂ（ｂ＝１，．．．，ｋ）で再トレーニングする。
４）３）を繰り返す。

しかしながら、１つのデータセット「ｘ」内のデータの数が非常に少なくなることが起こり得る。この問題を回避するために、各データセット内のデータの最小数Ｎを決定し、以下のように進めることができる。
１）段階１：メインデータセットＭＤをｋ個のデータセットＤ_ｂ（ｂ＝１，．．．，ｋ）に分割する。
２）ｋ個のＮＮフィルタを別々にトレーニングする。
３）段階２：
○ ＭＤ内の各データ「ｉ」について：
● 「ｉ」のデータセット候補のリストをＣ（ｉ）＝｛０，．．．（ｋ－１）｝に初期化する
● 各フィルタｂで得られた損失Ｌｂ（ｉ）を計算する。
● 「ｉ」は「配置されていない」とマークされる
○ ＭＤ内の各データ「ｉ」について：
○ （データ「ｉ」が１つのデータセット内に配置されていないとマークされる）間は、
● ｔ＝ａｒｇｍｉｎ_ｋ｛Ｌ_ｋ（ｉ）｝（ｋ＝ｔは、ｋ∈Ｃ（ｉ）でＬ_ｋ（ｉ）を最小化するフィルタである）
● カード｛Ｄｔ＜Ｎ｝の場合、Ｄｔにデータ「ｉ」を付加する
● そうではなく、Ｄｔ内の１つのデータ「ｄ」が損失Ｌｔ（ｄ）＞Ｌｔ（ｉ）を有する場合、Ｄｔ内で「ｄ」を「ｉ」に置き換え、「ｄ」は「配置されていない」になり（そのようにマークされ）、「ｉ」は「配置されている」とマークされる
● そうでない場合、リストＣ（ｉ）から「ｔ」を削除する
４）ｋ個のフィルタをＤ_ｂ（ｂ＝１，．．．，ｋ）で再トレーニングする。
５）３）を繰り返す。

上記において、ＮＮフィルタリングプロセスは、現在のビデオ規格が通常ブロックベースであるので、ブロックごとに実行される。しかしながら、本実施形態は、長方形又は正方形とは異なる形状を有する領域に適用され得る。なぜなら、ＮＮは、他の形状に対してトレーニング及び実装され得るか、又は完全畳み込みネットワークであり得、したがって、領域形状又はサイズとは無関係だからである。

ＨＥＶＣ及びＶＶＣにおけるＳＡＯ又はＡＬＦのようなレガシーフィルタは、「最適な」補正が計算される閉ループ手法を使用するが、フィルタへのピクセルの分類は通常、非常に単純である。一方、以前のＣＮＮベースの手法は、洗練された分類を使用するが、補正が必ずしも有益でない開ループ補正を使用する。本実施形態によれば、深層ニューラルネットワーク（ＮＮ）は、ＳＡＯフィルタを置換又は補完するために、ビデオコーデックによる再構成後の画像を復元するために提供される。特に、提案されたフィルタは、適用すべき最適な補正をエンコーダにおいて計算することによって補正「閉ループ」を維持しながら、補正すべきピクセルの分類のためにＣＮＮのパワーを活用する。バイナリ分類を一般化するために、ＣＮＮは、特定のピクセルに設定する補正の量を計算することもできる。それは、フィルタ動作を制御するためのパラメータを符号化する利点を活用する一方で、ビットストリームにおいて符号化されるべきデータの所要量がわずかになる。

図１２及び図１３に示されるような提案されたフィルタでは、ブロックに対して単一オフセットのみが送信されるか、又は図１４に示されるように、ブロックに対して１つ以上のオフセットが送信される。すなわち、オフセットをシグナリングするために非常に少量のデータが符号化されることになる。しかしながら、ＮＮはピクセル単位の重みマスクを生成することができる（マスク内の値はピクセルごとに異なり得る）ので、ブロック内のピクセルを調整するために適用されるべき実際のオフセット（重み＊オフセット）はピクセルごとに異なり得、したがって、より低いシグナリングコストでＨＥＶＣ及びＶＶＣにおけるＳＡＯフィルタよりも細かい粒度を達成する。ＮＮはまた、サブブロックベースで重みを生成し得る（サブブロック内では同じ重みであるが、重みは、ブロック内のサブブロックごとに異なり得る）。

また、提案されたＮＮフィルタは、ピクチャ内のいくつかの特定の位置においてのみ適用され得る。例えば、それは、主にブロック境界付近で、及び／又は変換境界のみ若しくは予測ユニットのみにおいて発生するブロッキングアーチファクトを特に補正するために使用されてもよい。

更に、本方法は、ＮＮベースのフィルタに限定されず、画質を改善し、コーディングアーチファクトを低減するために補正項が再構成されたピクチャに加算される任意の他のフィルタ又は従来のフィルタに適用することができる。上記の例ではループ内フィルタリングについて説明したが、提案されたフィルタリング方法は、コーディングループ外で、例えば、デコーダの外部で適用される後処理ステップとして実行することもできる。

様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための１つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び／又はアクションの順序及び／又は使用は、修正又は組み合わされ得る。加えて、「第１の（ｆｉｒｓｔ）」、「第２の（ｓｅｃｏｎｄ）」などの用語は、様々な実施形態において、要素、コンポーネント、ステップ、動作など、例えば、「第１の復号化（ｆｉｒｓｔｄｅｃｏｄｉｎｇ）」及び「第２の復号化（ｓｅｃｏｎｄｄｅｃｏｄｉｎｇ）」を修正するために使用され得る。かかる用語の使用は、具体的に必要とされない限り、修正された動作に対する順序付けを意味するものではない。そのため、この実施例では、第１の復号化は、第２の復号化の前に実行される必要はなく、例えば、第２の復号化の前、第２の復号化の間、又は第２の復号化と重複する時間中に発生し得る。

本出願に記載されている様々な方法及び他の態様を使用して、図２及び図３に示されたようなビデオエンコーダ２００及びビデオデコーダ３００のモジュール、例えば、動き改良及び動き補償モジュール（２７０、２７２、３７２、３７５）を修正することができる。更に、本態様は、ＶＶＣ又はＨＥＶＣに限定されず、例えば、他の規格及び勧告、並びに任意のそのような規格及び勧告の拡張に適用することができる。別段の指標がない限り、又は技術的に除外されない限り、本出願に説明される態様は、個別で又は組み合わせて使用され得る。

本出願において、様々な数値が使用されている。具体的な値は、例示を目的としており、説明されている態様は、これらの具体的な値に限定されるものではない。

様々な実装形態は、復号化することを含む。本出願で使用される場合、「復号化」は、例えば、ディスプレイに好適な最終出力を生成するために受信された符号化シーケンス上で実行されるプロセスの全て又は一部分を包含し得る。様々な実施形態において、このようなプロセスは、例えば、エントロピ復号化、逆量子化、逆変換、及び差動復号化など、デコーダによって典型的に実行されるプロセスのうちの１つ以上を含む。「復号化プロセス」という句が、操作のサブセットを具体的に指すことを意図しているか、又はより広範な復号化プロセスを一般的に指すことを意図しているかは、特定の説明の文脈に基づいて明らかになり、当業者にはよく理解されると考えられる。

様々な実装形態は、符号化することを含む。「復号化（ｄｅｃｏｄｉｎｇ）」に関する上記の考察と同様に、本出願で使用される「符号化（ｅｎｃｏｄｉｎｇ）」は、例えば、符号化されたビットストリームを生成するために入力ビデオシーケンスに対して実行されるプロセスの全て又は一部分を包含し得る。

本明細書に記載の実装形態及び態様は、例えば、方法又はプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装され得る。たとえ単一の形式の実装形態の文脈でのみ考察されている場合でも（例えば、方法としてのみ考察されている）、考察された特徴の実装形態は、他の形式（例えば、装置又はプログラム）でも実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。本方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型／パーソナルデジタルアシスタント（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ、「ＰＤＡ」）及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。

「一実施形態」又は「実施形態」又は「一実装形態」又は「実装形態」、及びそれらの他の変形形態の言及は、実施形態に関連して説明される特定の特徴、構造、特性などが、少なくとも一実施形態に含まれることを意味する。したがって、本明細書の様々な場所に現れる「一実施形態では」又は「実施形態では」又は「一実装形態では」又は「実装形態では」という語句の出現、並びに任意の他の変形例は、必ずしも全てが同じ実施形態を指すものではない。

加えて、本出願は、様々な情報を「判定する」ことに言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの１つ以上が含み得る。

更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることには、例えば、情報を受信すること、情報を（例えば、メモリから）取り出すこと、情報を記憶すること、情報を移動させること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの１つ以上が含まれ得る。

加えて、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は情報を（例えば、メモリから）取り出すことのうちの１つ以上を含み得る。更に、「受信すること」は、典型的には、動作、例えば、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することの間時に、何らかの形で関与する。

例えば、「Ａ／Ｂ」、「Ａ及び／又はＢ（Ａａｎｄ／ｏｒＢ）」及び「Ａ及びＢのうちの少なくとも１つ（ａｔｌｅａｓｔｏｎｅｏｆＡａｎｄＢ）」の場合、次の「／」、「及び／又は（ａｎｄ／ｏｒ）」、及び「のうちの少なくとも１つ（ａｔｌｅａｓｔｏｎｅｏｆ）」のいずれかの使用は、第１のリストされた選択肢（Ａ）のみの選択、又は第２のリストされた選択肢（Ｂ）のみの選択、又は両方の選択肢（Ａ及びＢ）の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「Ａ、Ｂ、及び／又はＣ（Ａ，Ｂ，ａｎｄ／ｏｒＣ）」及び「Ａ、Ｂ、及びＣのうちの少なくとも１つ（ａｔｌｅａｓｔｏｎｅｏｆＡ，Ｂ，ａｎｄＣ）」の場合、かかる表現は、第１のリストされた選択肢（Ａ）のみの選択、又は第２のリストされた選択肢（Ｂ）のみの選択、又は第３のリストされた選択肢（Ｃ）のみの選択、又は第１及び第２のリストされた選択肢（Ａ及びＢ）のみの選択、又は第１及び第３のリストされた選択肢（Ａ及びＣ）のみの選択、又は第２及び第３のリストされた選択肢のみの選択（Ｂ及びＣ）のみ、又は３つ全ての選択肢の選択（Ａ及びＢ及びＣ）を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。

また、本明細書で使用されるとき、「シグナリングする」という語は、特に、対応するデコーダに対して何かを示すことを意味する。例えば、特定の実施形態では、エンコーダは、脱量子化のための量子化行列をシグナリングする。このように、実施形態では、同じパラメータが、エンコーダ側及びデコーダ側の両方で使用される。したがって、例えば、エンコーダは、デコーダが同じ特定のパラメータを使用することができるように、特定のパラメータをデコーダに送信する（明示的なシグナリング）ことができる。逆に、デコーダが既にその特定のパラメータ及び他のパラメータを有する場合は、単にデコーダがその特定のパラメータを認識及び選択することを可能にするように、送信を行わないシグナリング（暗黙的なシグナリング）を使用することができる。いかなる実際の機能の送信も回避することにより、様々な実施形態において、ビットの節約が実現される。シグナリングは、様々な方式で達成され得ることを理解されたい。例えば、１つ以上の構文要素、フラグなどが、様々な実施形態において、対応するデコーダに情報をシグナリングするために使用される。上記は、「信号（ｓｉｇｎａｌ）」という語の動詞形に関するものであるが、「信号」という語は、本明細書では名詞としても使用され得る。

当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を搬送するようにフォーマットされた様々な信号を生成し得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの１つによって生成されたデータを含み得る。例えば、信号は、説明された実施形態のビットストリームを搬送するようにフォーマットされ得る。かかる信号は、例えば、（例えば、スペクトルの無線周波数部分を使用して）電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。

Claims

方法であって、
ピクチャの領域の再構成されたサンプルのバージョンにアクセスすることと、
ニューラルネットワークを使用して、前記領域の前記再構成されたサンプルのバージョンに基づいて前記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成することと、
前記領域について前記ニューラルネットワークに対応する単一オフセットパラメータを符号化又は復号化することと、
前記領域内の前記複数のサンプルを調整することによって前記領域をフィルタリングすることであって、前記領域内のサンプルが、前記サンプルについての重み及び前記領域についての前記オフセットに応答して調整される、フィルタリングすることと、を含む、方法。
重みが、前記領域内の各サンプルについて生成される、請求項１に記載の方法。
前記領域の前記再構成されたサンプルのバージョンが、前記領域の予測及び前記領域の予測残差に基づく、請求項１又は２に記載の方法。
前記単一オフセットが、符号化される前に量子化される、請求項１～３のいずれか一項に記載の方法。
前記領域について符号化されるべきサンプルと前記領域について前記再構成されたサンプルのバージョンとの重み付け平均差に応答して前記オフセットを取得すること、
を更に含む、請求項１～４のいずれか一項に記載の方法。
前記領域を前記フィルタリングすることが、
前記サンプルについての前記重みによって前記領域についての前記オフセットをスケーリングすることであって、前記スケーリングされたオフセットが、前記サンプルを調整するために前記サンプルに加算される、スケーリングすることを含む、請求項１～５のいずれか一項に記載の方法。
前記重みが、前記領域の量子化パラメータ、前記ピクチャのピクチャタイプ、前記領域の分類のうちの少なくとも１つに更に応答して生成される、請求項１～６のいずれか一項に記載の方法。
複数のニューラルネットワークが使用される、請求項１～７のいずれか一項に記載の方法。
前記領域をフィルタリングするために前記複数のニューラルネットワークのネットワークを選択することを更に含む、請求項８に記載の方法。
前記複数のニューラルネットワークのうちの各ネットワークが、前記領域の分類に対応する、請求項８又は９に記載の方法。
前記複数のニューラルネットワークが、１つの単一オフセットパラメータを共有する、請求項８～１０のいずれか一項に記載の方法。
別個のオフセットパラメータが、前記複数のニューラルネットワークのうちの各ネットワークに関連付けられる、請求項８～１０のいずれか一項に記載の方法。
別のニューラルネットワークを使用して、前記領域の前記再構成されたサンプルのバージョンに基づいて前記領域内の前記複数のサンプルのうちの前記それぞれのサンプルについて別の重みを生成することと、
前記領域について前記別のニューラルネットワークに対応する別の単一オフセットパラメータを符号化又は復号化することと、を更に含み、
前記領域内の前記サンプルが、前記サンプルについての前記別の重み及び前記領域についての前記別のオフセットに更に応答して調整される、
請求項１～１２のいずれか一項に記載の方法。
重み付けされた和が、前記サンプルをフィルタリングするために前記領域内の前記サンプルに加算され、前記オフセットが、前記サンプルについての前記重みによって重み付けされ、前記別のオフセットが、前記別の重みによって重み付けされて、前記重み付けされた和を形成する、請求項１３に記載の方法。
前記ニューラルネットワーク及び前記別のニューラルネットワークが、複数のニューラルネットワークから選択される、請求項１３又は１４に記載の方法。
前記ニューラルネットワークを示すインデックス及び前記別のニューラルネットワークを示す別のインデックスが、ビットストリーム中でシグナリングされる、請求項１５に記載の方法。
前記オフセットが、前記別のオフセットとは異なり、前記ニューラルネットワークが、前記別のニューラルネットワークと同じである、請求項１３～１５のいずれか一項に記載の方法。
前記領域が、コーディングツリーブロック、コーディングブロック、又はコーディングブロックの分割である、請求項１～１７のいずれか一項に記載の方法。
装置であって、１つ以上のプロセッサを備え、前記１つ以上のプロセッサが、
ピクチャの領域の再構成されたサンプルのバージョンにアクセスすることと、
ニューラルネットワークを使用して、前記領域の前記再構成されたサンプルのバージョンに基づいて前記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成することと、
前記領域について単一オフセットパラメータを符号化又は復号化することと、
前記領域内の前記複数のサンプルを調整することによって前記領域をフィルタリングすることであって、前記領域内のサンプルが、前記サンプルについての重み及び前記領域についての前記オフセットに応答して調整される、フィルタリングすることと、を行うように構成されている、装置。
重みが、前記領域内の各サンプルについて生成される、請求項１９に記載の装置。
前記領域の前記再構成されたサンプルのバージョンが、前記領域の予測及び前記領域の予測残差に基づく、請求項１９又は２０に記載の装置。
前記単一オフセットが、符号化される前に量子化される、請求項１９～２１のいずれか一項に記載の装置。
前記１つ以上のプロセッサが、
前記領域について符号化されるべきサンプルと前記領域について前記再構成されたサンプルのバージョンとの重み付け平均差に応答して前記オフセットを取得するように更に構成されている、請求項１９～２２のいずれか一項に記載の装置。
前記１つ以上のプロセッサが、
前記サンプルについての前記重みによって前記領域についての前記オフセットをスケーリングすることであって、前記スケーリングされたオフセットが、前記サンプルを調整するために前記サンプルに加算される、スケーリングすることによって、前記サンプルをフィルタリングするように構成されている、請求項１９～２３のいずれか一項に記載の装置。
前記重みが、前記領域の量子化パラメータ、前記ピクチャのピクチャタイプ、前記領域の分類のうちの少なくとも１つに更に応答して生成される、請求項１９～２４のいずれか一項に記載の装置。
複数のニューラルネットワークが使用される、請求項１９～２５のいずれか一項に記載の装置。
前記領域をフィルタリングするために前記複数のニューラルネットワークのネットワークを選択することを更に含む、請求項２６に記載の装置。
前記複数のニューラルネットワークのうちの各ネットワークが、前記領域の分類に対応する、請求項２６又は２７に記載の装置。
前記複数のニューラルネットワークが、１つの単一オフセットパラメータを共有する、請求項２６～２８のいずれか一項に記載の装置。
別個のオフセットパラメータが、前記複数のニューラルネットワークのうちの各ネットワークに関連付けられる、請求項２６～２８のいずれか一項に記載の装置。
前記１つ以上のプロセッサが、
別のニューラルネットワークを使用して、前記領域の前記再構成されたサンプルのバージョンに基づいて前記領域内の前記複数のサンプルのうちの前記それぞれのサンプルについて別の重みを生成することと、
前記領域について前記別のニューラルネットワークに対応する別の単一オフセットパラメータを符号化又は復号化することと、を行うように更に構成されており、
前記領域内の前記サンプルが、前記サンプルについての前記別の重み及び前記領域についての前記別のオフセットに更に応答して調整される、請求項１９～３０のいずれか一項に記載の装置。
重み付けされた和が、前記サンプルをフィルタリングするために前記領域内の前記サンプルに加算され、前記オフセットが、前記サンプルについての前記重みによって重み付けされ、前記別のオフセットが、前記別の重みによって重み付けされて、前記重み付けされた和を形成する、請求項３１に記載の装置。
前記ニューラルネットワーク及び前記別のニューラルネットワークが、複数のニューラルネットワークから選択される、請求項３１又は３２に記載の装置。
前記ニューラルネットワークを示すインデックス及び前記別のニューラルネットワークを示す別のインデックスが、ビットストリーム中でシグナリングされる、請求項３３に記載の装置。
前記オフセットが、前記別のオフセットとは異なり、前記ニューラルネットワークが、前記別のニューラルネットワークと同じである、請求項３１～３３のいずれか一項に記載の装置。
前記領域が、コーディングツリーブロック、コーディングブロック、又はコーディングブロックの分割である、請求項１９～３５のいずれか一項に記載の装置。
請求項１～１８のいずれか一項に記載の方法を実行することによって形成される、ビットストリームを含む信号。
請求項１～１８のいずれか一項に記載の方法に従って、ビデオを符号化又は復号化するための命令を記憶したコンピュータ可読記憶媒体。