JP2024524533A

JP2024524533A - ビデオ符号化のためのネットワークベースの画像フィルタリング

Info

Publication number: JP2024524533A
Application number: JP2024500126A
Authority: JP
Inventors: チェン、ウェイ; シウ、シャオユー; チェン、イー－ウェン; チュー、ホン－チェン; クオ、チョー－ウェイ; ワン、シャンリン; ユイ、ビン
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-05
Filing date: 2022-07-05
Publication date: 2024-07-05
Also published as: EP4367881A1; EP4367881A4; WO2023283202A1; KR20240027791A; CN117643053A

Abstract

ニューラルネットワークを使用したビデオ符号化時の画像フィルタリングの方法および装置が提供される。方法は、複数の量子化パラメータ（ＱＰ）マップ（ＱｐＭａｐ）チャネルにおける複数のＱｐＭａｐ値をニューラルネットワークにロードすることと、入力フレームに関する複数の入力ＱＰ値を調節することによってＱＰスケーリング因子を取得することと、ニューラルネットワークへの入力フレームをニューラルネットワークが学習およびフィルタリングするために、ＱＰスケーリング因子に応じて、複数のＱｐＭａｐ値を調節することとを含む。

Description

関連出願への相互参照
本出願は、２０２１年７月５日に提出された「ＮｅｕｒａｌＮｅｔｗｏｒｋｂａｓｅｄＩｍａｇｅｆｉｌｔｅｒｉｎｇｆｏｒＶｉｄｅｏＣｏｄｉｎｇ」と題された米国仮出願第６３／２１８，４８５号の優先権を主張し、その全体が、全ての目的のために参照により組み込まれる。

本開示は、ビデオ符号化に関し、詳細には限定ではなく、ニューラルネットワークベースのモデルフィルタリングを使用したビデオ符号化についての方法および装置に関する。

ビデオデータを圧縮するために、様々なビデオ符号化技法が使用されることがある。ビデオ符号化は、１つまたは複数のビデオ符号化規格に従って行われる。例えば、ビデオ符号化規格は、バーサタイルビデオ符号化（ＶＶＣ：ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）、ジョイントエクスプロレーションテストモデル（ＪＥＭ：ｊｏｉｎｔｅｘｐｌｏｒａｔｉｏｎｔｅｓｔｍｏｄｅｌ）、高効率ビデオ符号化（Ｈ．２６５／ＨＥＶＣ）、高度ビデオ符号化（Ｈ．２６４／ＡＶＣ）、ムービングピクチャエキスパートグループ（ＭＰＥＧ）符号化などを含む。ビデオ符号化は、一般に、ビデオ画像またはシーケンスに存在する冗長性を活用した予測方法（例えば、インター予測、イントラ予測など）を利用する。ビデオ符号化技法の重要な目標は、ビデオ品質の劣化を回避または最小化しながら、より低いビットレートを使用した形式にビデオデータを圧縮することである。

ＨＥＶＣ規格の第１のバージョンは、２０１３年１０月に最終決定され、前世代のビデオ符号化規格Ｈ．２６４／ＭＰＥＧＡＶＣに比べて、およそ５０％のビットレート削減または同等の知覚品質を提供している。ＨＥＶＣ規格は、前のものより著しい符号化改善をもたらすが、追加の符号化ツールを用いると、ＨＥＶＣより優れた符号化効率が達成可能であるという証拠がある。これに基づいて、将来のビデオ符号化の標準化のための新しい符号化技術の探索作業をＶＣＥＧおよびＭＰＥＧの両方が開始した。符号化効率の実質的な強化を可能にし得る先進技術の重要な研究を始めるために、１つのジョイントビデオエクスプロレーションチーム（ＪＶＥＴ：ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ）が、ＩＴＵ－ＴＶＥＣＧおよびＩＳＯ／ＩＥＣＭＰＥＧによって２０１５年１０月に結成された。ＨＥＶＣテストモデル（ＨＭ）の上にいくつかの追加の符号化ツールを統合することによって、ジョイントエクスプロレーションモデル（ＪＥＭ）と呼ばれる１つの基準ソフトウェアがＪＶＥＴによって整備された。

ＨＥＶＣを超える能力を有するビデオ圧縮についての共同提案募集（ＣｆＰ：ｊｏｉｎｔｃａｌｌｆｏｒｐｒｏｐｏｓａｌｓ）が、ＩＴＵ－ＴおよびＩＳＯ／ＩＥＣによって発行された。２３件のＣｆＰへの返答が受け取られ、第１０回ＪＶＥＴ会合において評価され、ＨＥＶＣに対して約４０％の圧縮効率の向上を示した。このような評価結果に基づいて、ＪＶＥＴは、バーサタイルビデオ符号化（ＶＶＣ）と名付けられた新世代ビデオ符号化規格を開発するために新しいプロジェクトを立ち上げた。ＶＶＣ規格の基準実装形態を示すために、ＶＶＣテストモデル（ＶＴＭ：ＶＶＣｔｅｓｔｍｏｄｅｌ）と呼ばれる１つの基準ソフトウェアコードベースが確立された。

本開示は、ニューラルネットワークベースのモデルフィルタリングを使用することによる、ビデオ符号化効率の改善に関する技法の例を提供する。

本開示の第１の態様によれば、ニューラルネットワークを使用したビデオ符号化時の画像フィルタリングの方法が提供される。方法は、１つまたは複数の量子化パラメータ（ＱＰ：ｑｕａｎｔｉｚａｔｉｏｎｐａｒａｍｅｔｅｒ）マップ（ＱｐＭａｐ：ＱＰｍａｐ）チャネルにおける複数のＱｐＭａｐ値をニューラルネットワークにロードすることと、入力フレームに関する複数の入力ＱＰ値を調節することによってＱＰスケーリング因子を取得することと、ニューラルネットワークへの入力フレームをニューラルネットワークが学習およびフィルタリングするために、ＱＰスケーリング因子に応じて、複数のＱｐＭａｐ値を調節することとを含む。

本開示の第２の態様によれば、ニューラルネットワークを使用したビデオ符号化時の画像フィルタリング用の装置が提供される。装置は、１つまたは複数のプロセッサと、１つまたは複数のプロセッサに結合され、１つまたは複数のプロセッサによって実行可能な命令を格納するように構成されたメモリとを含む。さらに、１つまたは複数のプロセッサは、命令を実行すると、第１の態様による方法を行うように構成される。

本開示の第３の態様によれば、１つまたは複数のコンピュータプロセッサによって実行されたとき、第２の態様による方法を１つまたは複数のコンピュータプロセッサに行わせるコンピュータ実行可能命令を格納する非一時的コンピュータ可読記憶媒体が提供される。

添付の図面に例示された具体例を参照することによって、本開示の例のより詳細な説明が行われる。これらの図面が、一部の例を描写しているにすぎず、したがって、範囲を限定するものとみなされないことを前提として、添付の図面の使用を通じてさらに具体的かつ詳細に例が記載および説明される。

本開示の一部の実装形態に係るブロックベースのビデオエンコーダを例示したブロック図である。本開示の一部の実装形態に係るブロックベースのビデオデコーダを例示したブロック図である。本開示の一部の実装形態に係る４分割木区分モードを例示した概略図である。本開示の一部の実装形態に係る垂直２分割木区分モードを例示した概略図である。本開示の一部の実装形態に係る水平２分割木区分モードを例示した概略図である。本開示の一部の実装形態に係る垂直３分割木区分モードを例示した概略図である。本開示の一部の実装形態に係る水平３分割木区分モードを例示した概略図である。本開示の一部の実装形態に係る入力層、出力層、および複数の隠れ層から成る簡単なＦＣ－ＮＮの図である。本開示の一部の実装形態に係る２つの隠れ層を有するＦＣ－ＮＮの図である。本開示の一部の実装形態に係る第２の隠れ層の次元が［Ｗ，Ｈ，深度］であるＣＮＮの例の図である。本開示の一部の実装形態に係る入力画像に空間フィルタを適用する例の図である。本開示の一部の実装形態に係る、アイデンティティコネクション（ｉｄｅｎｔｉｔｙｃｏｎｎｅｃｔｉｏｎ）によって残差ブロックの入力が要素毎に加算された残差ブロックをＲｅｓＮｅｔの要素として含む単一画像超解像（ＲｅｓＮｅｔ）の図である。本開示の一部の実装形態に係る残差モジュールを区画することによるＲｅｓＮｅｔの例の図である。本開示の一部の実装形態に係る全体的なアイデンティティコネクションを伴う複数の残差ブロックを含むＲｅｓＮｅｔの例の図である。本開示の一部の実装形態に係るビデオ符号化効率をさらに改善するために、複数の残差ブロックをスタックしたＲｅｓＮｅｔの別の例の図である。本開示の一部の実装形態に係る残差ブロックの出力を集約することによって単一画像超解像（ＳＩＳＲ：ｓｉｎｇｌｅ－ｉｍａｇｅｓｕｐｅｒ－ｒｅｓｏｌｕｔｉｏｎ）に取り組むＲｅｓＮｅｔの別の例である。本開示の一部の実装形態に係るビデオ符号化のための画像フィルタリングを行うための典型的なニューラルネットワークベースのモデルの図である。本開示の一部の実装形態に係る領域ベースの特徴マップ解像度制御の図である。本開示の一部の実装形態に係る典型的なＱＰ独立ニューラルネットワークモデルの図である。本開示の一部の実装形態に係るＱｐＭａｐチャネルとＹＵＶチャネルとを並べたレイアウトの例の図である。本開示の一部の実装形態に係るＱｐＭａｐチャネルとＹＵＶチャネルとを並べたレイアウトの例の図である。本開示の一部の実装形態に係るニューラルネットワークの領域２における彩度アップサンプリングの図である。本開示の一部の実装形態に係るニューラルネットワークの領域２におけるルマ・ダウンサンプリングの図である。本開示の一部の実装形態に係るニューラルネットワークの領域１におけるルマ・ダウンサンプリングの図である。本開示の一部の実装形態に係るＱｐＭａｐチャネルとＹＵＶチャネルとを並べたレイアウトの別の例の図である。本開示の一部の実装形態に係るＱｐＭａｐチャネルとＹＵＶチャネルとを並べたレイアウトの別の例の図である。本開示の一部の実装形態に係る残差ブロック毎に行われる要素毎のスケーリングの例の図である。本開示の一部の実装形態に係るニューラルネットワークを使用したビデオ符号化時の画像フィルタリング用の装置を例示したブロック図である。本開示の一部の実装形態に係るニューラルネットワークを使用したビデオ符号化時の画像フィルタリングのためのプロセスを例示したフローチャートである。本開示の一部の例に係るビデオブロックをエンコードおよびデコードするためのシステムを例示したブロック図である。

特定の実装形態がここから詳細に参照され、その例が、添付の図面に例示されている。以下の詳細な説明では、本明細書で提示される主題の理解を助けるための数多くの非限定的な具体的詳細が説明されている。しかし、様々な代替形態が使用されてもよいことが当業者には明らかであろう。例えば、本明細書で提示される主題は、デジタルビデオ能力を有する多くのタイプの電子デバイスで実施可能であることが当業者には明らかであろう。

「１つの実施形態」、「実施形態」、「例」、「一部の実施形態」、「一部の例」、または類似の言葉への本明細書全体の言及は、記載された特定の特徴、構造、または特性が、少なくとも１つの実施形態または例に含まれることを意味する。１つまたはいくつかの実施形態と共に記載された特徴、構造、要素、または特性は、別途明確に指定のない限り、他の実施形態にも適用可能である。

本開示の全体において、用語「第１」、「第２」、「第３」などは全て、例えば、デバイス、構成要素、構成物、ステップなど、関連要素への言及のためだけの用語体系として使用され、別途明確に指定のない限り、どのような空間的または時系列的順序も示唆しない。例えば、「第１のデバイス」および「第２のデバイス」は、２つの別々に形成されたデバイス、または、同じデバイスの２つの部品、構成要素、もしくは動作可能な状態を指すことがあり、任意に名前を付けられることもある。

用語「モジュール」、「サブモジュール」、「回路」、「サブ回路」、「回路機器」、「サブ回路機器」、「ユニット」、または「サブユニット」は、１つまたは複数のプロセッサによって実行可能なコードまたは命令を格納するメモリ（共有、専用、またはグループ）を含んでもよい。モジュールは、格納されたコードまたは命令の有無に関わらず、１つまたは複数の回路を含んでもよい。モジュールまたは回路は、直接的または間接的に接続された１つまたは複数の構成要素を含んでもよい。これらの構成要素は、物理的に取り付けられてもそうでなくてもよく、または、互いに隣接して置かれてもそうでなくてもよい。

本明細書で使用されるように、用語「場合」または「とき」は、文脈に応じて、「と同時に」または「応答して」を意味するものと理解されてもよい。これらの用語は、請求項に現れた場合、関連した限定または特徴が条件付きまたは任意選択であることを示さないこともある。例えば、方法は、ｉ）条件Ｘが存在するときまたは場合、機能またはアクションＸ’が行われる、およびｉｉ）条件Ｙが存在するときまたは場合、機能またはアクションＹ’が行われる、というステップを含んでもよい。方法は、機能またはアクションＸ’を行う能力、および機能またはアクションＹ’を行う能力の両方で行われてもよい。したがって、機能Ｘ’およびＹ’は、方法の多重実行時に、異なる時間に、両方行われてもよい。

ユニットまたはモジュールは、純粋にソフトウェアによって、純粋にハードウェアによって、またはハードウェアとソフトウェアとの組合せによって実行されてもよい。純粋なソフトウェア実装形態では、例えば、ユニットまたはモジュールは、特定の機能を行うように、直接的または間接的に一緒にリンクされた、機能的に関係のあるコードブロックまたはソフトウェア構成要素を含んでもよい。

図２０は、本開示の一部の実装形態に係る、ビデオブロックを並列にエンコードおよびデコードするための例示的なシステム１０を例示したブロック図である。図１に示されているように、システム１０は、宛先デバイス１４によって後でデコードされることになるビデオデータを生成およびエンコードするソースデバイス１２を含む。ソースデバイス１２および宛先デバイス１４は、デスクトップまたはラップトップ・コンピュータ、タブレット・コンピュータ、スマートフォン、セット・トップ・ボックス、デジタル・テレビ、カメラ、ディスプレイデバイス、デジタル・メディア・プレーヤ、ビデオ・ゲーム機、ビデオ・ストリーミング・デバイスなどを含む多種多様な電子デバイスのいずれかを含んでもよい。一部の実装形態では、ソースデバイス１２および宛先デバイス１４には、ワイヤレス通信能力が装備される。

一部の実装形態では、宛先デバイス１４は、デコードされることになるエンコード済みビデオデータを、リンク１６を介して受け取ってもよい。リンク１６は、エンコード済みビデオデータをソースデバイス１２から宛先デバイス１４に移す能力がある任意のタイプの通信媒体またはデバイスを含んでもよい。１つの例では、リンク１６は、ソースデバイス１２が、エンコード済みビデオデータを直接的に宛先デバイス１４にリアルタイムに伝送できるようにするための、通信媒体を含んでもよい。エンコード済みビデオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先デバイス１４に伝送されてもよい。通信媒体は、無線周波数（ＲＦ）スペクトル、または１つもしくは複数の物理伝送回線など、任意のワイヤレスまたは有線通信媒体を含んでもよい。通信媒体は、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または、インターネットなどのグローバル・ネットワークなど、パケット・ベースのネットワークの一部を形成してもよい。通信媒体は、ルータ、スイッチ、基地局、または、ソースデバイス１２から宛先デバイス１４への通信を容易にするのに有益であり得る任意の他の機器を含んでもよい。

一部の他の実装形態では、エンコード済みビデオデータは、出力インターフェース２２から記憶デバイス３２に伝送されてもよい。その後、記憶デバイス３２内のエンコード済みビデオデータは、入力インターフェース２８を介して宛先デバイス１４によってアクセスされてもよい。記憶デバイス３２は、ハード・ドライブ、ブルーレイ・ディスク、デジタル・バーサタイル・ディスク（ＤＶＤ）、コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ－ＲＯＭ）、フラッシュ・メモリ、揮発性もしくは不揮発性メモリ、または、エンコード済みビデオデータを格納するための任意の他の適切なデジタル・ストレージ媒体など、様々な分散型のまたはローカルにアクセスされるデータ・ストレージ媒体のいずれかを含んでもよい。さらなる例では、記憶デバイス３２は、ソースデバイス１２によって生成されたエンコード済みビデオデータを保持し得るファイル・サーバまたは別の中間ストレージデバイスに対応してもよい。宛先デバイス１４は、ストリーミングまたはダウンロードを介して記憶デバイス３２からの格納済みビデオデータにアクセスしてもよい。ファイル・サーバは、エンコード済みビデオデータを格納し、エンコード済みビデオデータを宛先デバイス１４に伝送する能力がある、任意のタイプのコンピュータでもよい。例示的なファイル・サーバは、ウェブ・サーバ（例えば、ウェブサイト用）、ファイル・トランスファ・プロトコル（ＦＴＰ）サーバ、ネットワーク接続ストレージ（ＮＡＳ）デバイス、またはローカル・ディスク・ドライブを含む。宛先デバイス１４は、ファイル・サーバに格納されたエンコード済みビデオデータにアクセスするのに適した、ワイヤレス・チャネル（例えば、ワイヤレス・フィデリティ（Ｗｉ－Ｆｉ）接続）、有線接続（例えば、デジタル・サブスクライバ・ライン（ＤＳＬ）、ケーブル・モデム等）、または、両方の組合せを含む、任意の標準データ接続を通じて、エンコード済みビデオデータにアクセスしてもよい。記憶デバイス３２からのエンコード済みビデオデータの伝送は、ストリーミング伝送、ダウンロード伝送、または両方の組合せでもよい。

図２０に示されているように、ソースデバイス１２は、ビデオソース１８、ビデオエンコーダ２０、および出力インターフェース２２を含む。ビデオソース１８は、例えばビデオ・カメラといったビデオ・キャプチャ・デバイス、以前にキャプチャされたビデオを含むビデオ・アーカイブ、ビデオコンテンツ・プロバイダからのビデオを受け取るためのビデオ・フィード・インターフェース、および／もしくは、コンピュータ・グラフィックス・データをソース・ビデオとして生成するためのコンピュータ・グラフィックス・システムなどのソース、または、このようなソースの組合せを含んでもよい。１つの例として、ビデオソース１８がセキュリティ監視システムのビデオ・カメラである場合、ソースデバイス１２および宛先デバイス１４は、カメラフォンまたはビデオフォンを形成してもよい。しかし、本出願に記載の実装形態は、一般にビデオ符号化に適用可能でもよく、ワイヤレスおよび／または有線アプリケーションに適用されてもよい。

キャプチャされた、事前キャプチャされた、またはコンピュータ生成されたビデオは、ビデオエンコーダ２０によってエンコードされてもよい。エンコード済みビデオデータは、ソースデバイス１２の出力インターフェース２２を介して宛先デバイス１４に直接的に伝送されてもよい。エンコード済みビデオデータは、さらに（または代替として）、デコードおよび／またはプレイバック用に、宛先デバイス１４または他のデバイスによる後のアクセスのために、記憶デバイス３２に格納されてもよい。出力インターフェース２２は、モデムおよび／またはトランスミッタをさらに含んでもよい。

宛先デバイス１４は、入力インターフェース２８、ビデオデコーダ３０、およびディスプレイデバイス３４を含む。入力インターフェース２８は、レシーバおよび／またはモデムを含み、リンク１６を介してエンコード済みビデオデータを受け取ってもよい。リンク１６を介して通信されるか、記憶デバイス３２に提供される、エンコード済みビデオデータは、ビデオデータのデコード時にビデオデコーダ３０によって使用するための、ビデオエンコーダ２０によって生成された様々な構文要素を含んでもよい。このような構文要素は、通信媒体で伝送された、ストレージ媒体に格納された、またはファイル・サーバに格納された、エンコード済みビデオデータ内に含まれてもよい。

一部の実装形態では、宛先デバイス１４は、ディスプレイデバイス３４を含んでもよく、ディスプレイデバイス３４は、宛先デバイス１４と通信するように構成された統合型ディスプレイデバイスおよび外部ディスプレイデバイスであることが可能である。ディスプレイデバイス３４は、デコード済みビデオデータをユーザに表示し、液晶ディスプレイ（ＬＣＤ）、プラズマ・ディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなど、様々なディスプレイデバイスのいずれかを含んでもよい。

ビデオエンコーダ２０およびビデオデコーダ３０は、ＶＶＣ、ＨＥＶＣ、ＭＰＥＧ－４、Ｐａｒｔ１０、ＡＶＣなどの専用もしくは業界規格、またはこのような規格の拡張版に従って動作してもよい。本出願は、特定のビデオ・エンコーディング／デコーディング規格に限定されず、他のビデオ・エンコーディング／デコーディング規格に適用可能でもよいことを理解されたい。ソースデバイス１２のビデオエンコーダ２０は、これらの現在または将来の規格のいずれかに従ってビデオデータをエンコードするように構成されてもよいことが一般に想定される。同様に、宛先デバイス１４のビデオデコーダ３０は、これらの現在または将来の規格のいずれかに従ってビデオデータをデコードするように構成されてもよいことも一般に想定される。

ビデオエンコーダ２０およびビデオデコーダ３０はそれぞれ、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、ディスクリート・ロジック、ソフトウェア、ハードウェア、ファームウェア、または任意のその組合せなど、様々な適切なエンコーダおよび／またはデコーダ回路機器のいずれかとして実行されてもよい。部分的にソフトウェアで実行されるとき、電子デバイスは、適切な非一時的コンピュータ可読媒体にソフトウェア用の命令を格納し、本開示で開示されたビデオ・エンコーディング／デコーディング動作を行うために、１つまたは複数のプロセッサを使用してハードウェアで命令を実行してもよい。ビデオエンコーダ２０およびビデオデコーダ３０のそれぞれは、１つまたは複数のエンコーダまたはデコーダに含まれてもよく、これらのいずれかは、それぞれのデバイスにおいて、組み合わされたエンコーダ／デコーダ（コーデック）の一部として統合されてもよい。

ＨＥＶＣのように、ＶＶＣは、ブロックベースのハイブリッドビデオ符号化フレームワーク上に構築されている。図１は、本開示の一部の実装形態に係る、ブロックベースのビデオエンコーダを例示したブロック図である。エンコーダ１００において、符号化ユニット（ＣＵ：ｃｏｄｉｎｇｕｎｉｔ）と呼ばれるブロック毎に、入力映像信号が処理される。エンコーダ１００は、図２０に示されているようなビデオエンコーダ２０でもよい。ＶＴＭ－１．０では、ＣＵは、１２８×１２８ピクセルまでであることが可能である。しかし、４分木だけに基づいてブロックを分割するＨＥＶＣとは異なり、ＶＶＣでは、４／２／３分木に基づく様々な局所特性に適合させるために、１つの符号化ツリーユニット（ＣＴＵ：ｃｏｄｉｎｇｔｒｅｅｕｎｉｔ）がＣＵに分けられる。追加として、ＨＥＶＣにおける複数の分割ユニット・タイプの概念は廃止され、すなわち、ＣＵ、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ）の区別は、ＶＶＣにはもはや存在せず、代わりに、各ＣＵがさらに分割されずに、予測および変換両方のための基本ユニットとして常に使用される。複数種類の木構造では、４分木構造によって、１つのＣＴＵが最初に分割される。次いで、２および３分木構造によって、各４分木の葉ノードが、さらに分割されることが可能である。

図３Ａ～図３Ｅは、本開示の一部の実装形態に係る、複数種類の木区分モードを例示した概略図である。図３Ａ～図３Ｅはそれぞれ、４分割（図３Ａ）、垂直２分割（図３Ｂ）、水平２分割（図３Ｃ）、垂直３分割（図３Ｄ）、および水平３分割（図３Ｅ）を含む、５つの区分タイプを示している。

所与のビデオブロック毎に、空間予測および／または時間予測が行われてもよい。空間予測（または「イントラ予測」）は、同じビデオピクチャ／スライス内の既に符号化済みの隣のブロックのサンプル（基準サンプルと呼ばれる）からのピクセルを使用して、現在のビデオブロックを予測する。空間予測は、映像信号に内在する空間的冗長性を低減させる。時間予測（「インター予測」または「動き補償予測」とも呼ばれる）は、既に符号化済みのビデオピクチャから再構築されたピクセルを使用して、現在のビデオブロックを予測する。時間予測は、映像信号に内在する時間的冗長性を低減させる。所与のＣＵのための時間予測信号は、通常、現在のＣＵとその時間基準との間の動きの量および方向を示す１つまたは複数の動きベクトル（ＭＶ）によってシグナリングされる。また、複数の基準ピクチャがサポートされる場合、１つの基準ピクチャ・インデックスが追加として送られ、基準ピクチャ・インデックスは、基準ピクチャストア内のどの基準ピクチャから時間予測信号が来たかを識別するために使用される。

空間および／または時間予測の後、エンコーダ１００のイントラ／インター・モード決定回路機器１２１が、例えば、レート歪み最適化方法に基づいて、最善の予測モードを選ぶ。ブロック予測子１２０は、次いで、現在のビデオブロックから減算され、結果として生じた予測残差は、変換回路機器１０２および量子化回路機器１０４を使用して、相関除去される。結果として生じた量子化残差係数は、逆量子化回路機器１１６によって逆量子化され、逆変換回路機器１１８によって逆変換されて、再構築された残差を形成し、再構築された残差は、次いで、予測ブロックに再び加算されて、ＣＵの再構築された信号を形成する。さらに、再構築されたＣＵが、ピクチャバッファ１１７の基準ピクチャストアに置かれ、将来のビデオブロックを符号化するために使用される前に、デブロッキングフィルタ、サンプル・アダプティブ・オフセット（ＳＡＯ）、および／またはアダプティブループ内フィルタ（ＡＬＦ）などのループ内フィルタリング１１５が、再構築されたＣＵに適用されてもよい。出力ビデオ・ビットストリーム１１４を形成するために、符号化モード（インターまたはイントラ）、予測モード情報、動き情報、および量子化された残差係数が、ビット・ストリーミングを形成するためにさらに圧縮されパッキングされるように、エントロピ符号化ユニット１０６に全て送られる。

例えば、デブロッキングフィルタが、ＡＶＣ、ＨＥＶＣ、および今現在のバージョンのＶＶＣで利用可能である。ＨＥＶＣでは、符号化効率をさらに改善するために、ＳＡＯと呼ばれる追加のループ内フィルタが定義される。ＶＶＣ規格の今現在のバージョンでは、ＡＬＦと呼ばれるさらに別のループ内フィルタが活発に調査されており、最終的な規格に含まれる可能性が高い。

これらのループ内フィルタ動作は任意選択である。これらの動作を行うことは、符号化効率および視覚品質を改善するのに役立つ。これらは、さらに、計算の複雑性を省くために、エンコーダ１００によって行われた判定としてオフにされてもよい。

イントラ予測は、通常、フィルタリングされていない再構築済みピクセルに基づき、その一方で、インター予測は、これらのフィルタオプションがエンコーダ１００によってオンにされた場合、フィルタリングされた再構築済みピクセルに基づくことに留意されたい。

図２は、多くのビデオ符号化規格と併用して使用され得るブロックベースのビデオデコーダ２００を例示したブロック図である。このデコーダ２００は、図１のエンコーダ１００に常駐している再構築関連セクションに類似のものである。ブロックベースのビデオデコーダ２００は、図２０に示されているようなビデオデコーダ３０でもよい。デコーダ２００では、入ってくるビデオ・ビットストリーム２０１は、量子化係数レベルおよび予測関連情報を導出するために、エントロピ復号２０２を通じて最初にデコードされる。量子化係数レベルは、次いで、再構築済み予測残差を取得するために逆量子化２０４および逆変換２０６を通じて処理される。イントラ／インター・モード選択器２１２で実行されるブロック予測子メカニズムは、デコードされた予測情報に基づいて、イントラ予測２０８または動き補償２１０を行うように構成される。加算器２１４を使用して、逆変換２０６からの再構築済み予測残差と、ブロック予測子メカニズムによって生成された予測的出力とを合計することによって、フィルタリングされていない再構築済みピクセルのセットが取得される。

再構築済みブロックは、ループ内フィルタ２０９をさらに通過してもよく、その後、基準ピクチャストアとして機能するピクチャバッファ２１３に格納される。ピクチャバッファ２１３内の再構築済みビデオは、ディスプレイデバイスを駆動するために送られ、また将来のビデオブロックを予測するために使用されてもよい。ループ内フィルタ２０９がオンにされている状況では、これらの再構築済みピクセルに対してフィルタリング動作が行われ、最終的な再構築済みビデオ出力２２２を導出する。

本開示は、上述のビデオ符号化規格または技法の画像フィルタリング・デザインを改善するためのものである。本開示で提案されるフィルタリング方法は、ニューラルネットワークベースのものであり、例えば、デブロッキングフィルタとサンプル・アダプティブ・オフセット（ＳＡＯ）との間の、ループ内フィルタリングの一部として、または、現在のビデオ符号化技法を改善するためのループ後フィルタリングの一部として、または、現在のビデオ符号化技法の後の処理後フィルタリングの一部として適用されてもよい。

例えば、完全接続ニューラルネットワーク（ＦＣ－ＮＮ：ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｎｅｕｒａｌｎｅｔｗｏｒｋ）、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、および長短期記憶ネットワーク（ＬＳＴＭ）といった、ニューラルネットワーク技法は、コンピュータ・ビジョンおよびビデオ理解を含む多くの研究分野において著しい成功を既に収めている。

完全接続ニューラルネットワーク（ＦＣ－ＮＮ）
図４は、本開示の一部の実装形態に係る、入力層、出力層、および複数の隠れ層から成る簡単なＦＣ－ＮＮを例示している。第ｋの層では、出力ｆ^ｋ（ｘ^ｋ－１，Ｗ^ｋ，Ｂ^ｋ）は、

によって生成され、ここで、ｘ^ｋ－１∈Ｒ^Ｍは、第（ｋ－１）の層の出力であり、Ｗ^ｋ∈Ｒ^Ｍ＊ＮおよびＢ^ｋ∈Ｒ^Ｎは、第ｋの層における重みおよびバイアスである。δ（・）は活性化関数であり、例えば、等式（３）に定義されているような、正規化線形ユニット（ＲｅＬＵ）関数である。

したがって、Ｋ層ＦＣ－ＮＮの一般的な形式は、

のように書かれる。

普遍的近似仮説および等式（４）によれば、任意の連続関数ｇ（ｘ）およびいくつかのε＞０を仮定した場合、∀ｘ、｜ｇ（ｘ）－ｆ（ｘ）｜＜εであるような、例えばＲｅＬＵといった、非線形の合理的選択を伴うニューラルネットワークｆ（ｘ）が存在する。したがって、表面下の説明可能な特徴を抽出するために、隠れた変数を有するモデルを模倣するための近似器としてニューラルネットワークを多くの実証的研究が応用した。例えば、画像認識に適用すると、ＦＣ－ＮＮは、例えば、エッジ、テクスチャ、幾何学形状、およびオブジェクトといった、単一のピクセルだけでなく、ますます深く複雑なサブ構造を理解するシステムを研究者が構築するのに役立つ。

畳み込みニューラルネットワーク（ＣＮＮ）
図５Ａは、本開示の一部の実装形態に係る、２つの隠れ層を有するＦＣ－ＮＮを例示している。ＣＮＮは、画像またはビデオ・アプリケーションのための広く普及したニューラルネットワーク・アーキテクチャであり、図５Ａに示されているようなＦＣ－ＮＮに非常に類似しており、重みおよびバイアス・メトリックを含む。ＣＮＮは、ニューラルネットワークの３Ｄバージョンとみなされることが可能である。図５Ｂは、本開示の一部の実装形態に係る、第２の隠れ層の次元が［Ｗ，Ｈ，深度］であるＣＮＮの例を例示している。図５Ｂでは、ＣＮＮを形成するためにニューロンが３次元構造（幅、高さ、および深度）で配置され、第２の隠れ層が視覚化されている。この例では、入力層が、入力画像またはビデオフレームを保持し、したがって、その幅および高さは、入力データと同じである。画像またはビデオ・アプリケーションに適用するために、ＣＮＮ内の各ニューロンは、その入力と共に整列された拡張された深度を有する空間フィルタ要素であり、例えば、入力画像に３つの色成分がある場合、深度は３である。

図６は、本開示の一部の実装形態に係る、入力画像に空間フィルタを適用する例を例示している。図６に示されているように、ＣＮＮ内の基本要素の次元は、［Ｆｉｌｔｅｒ_{ｗｉｄｔｈ}，Ｆｉｌｔｅｒ_{ｈｅｉｇｈｔ}，Ｉｎｐｕｔ_{ｄｅｐｔｈ}，Ｏｕｔｐｕｔ_{ｄｅｐｔｈ}］と定義され、この例では、［５，５，３，４］にセットされている。各空間フィルタは、入力画像に対して５＊５＊３の重みを有する２次元空間畳み込みを行う。入力画像は、６４×６４×３画像でもよい。次いで、４つの畳み込み結果が出力される。したがって、追加の２つのピクセルで境界を埋めた場合、フィルタリング結果の次元は、［６４＋４，６４＋４，４］である。

残差ネットワーク（ＲｅｓＮｅｔ：ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）
画像分類では、正確度は、ニューラルネットワークの深度が増加するとき、素早く飽和し悪化する。より具体的に言えば、勾配はディープ・ネットワークに沿って、および終端のゼロ勾配に向かって徐々に消えるので、ディープ・ニューラルネットワークにより多くの層を追加すると、訓練誤差がより大きくなる。したがって、残差ブロックで構成されたＲｅｓＮｅｔは、アイデンティティコネクションを導入することによって悪化問題を解決することになる。

図７Ａは、本開示の一部の実装形態に係る、アイデンティティコネクションによって残差ブロックの入力が要素毎に加算された残差ブロックをＲｅｓＮｅｔの要素として含むＲｅｓＮｅｔを例示している。図７Ａに示されているように、ＲｅｓＮｅｔの基本モジュールは、残差ブロックおよびアイデンティティコネクションから成る。普遍的近似仮説によれば、入力ｘを仮定すると、残差ブロック内の活性化関数を有する重み付け層は、出力Ｈ（ｘ）＝Ｆ（ｘ）＋ｘではなく、隠れた関数Ｆ（ｘ）を近似する。

非線形多層ニューラルネットワークをスタックすることによって、残差ブロックは、入力画像の局所特性を表す特徴を探査する。追加のパラメータも計算の複雑性も導入することなく、アイデンティティコネクションは、図７Ａに示されているような１つまたは複数の非線形重み付け層を飛ばすことによって、深層学習ネットワークを訓練可能にすることが証明される。重み付け層を飛ばすと、残差層の微分出力は、

のように、記載されることが可能である。

ＲｅｓＮｅｔの変形形態
図８Ａ～図８Ｂでは、単一画像超解像（ＳＩＳＲ）の回復画像品質を改善し、画像分類の正確度を向上させるために、ＲｅｓＮｅｔのいくつかの変形形態が提案された。図８Ａは、本開示の一部の実装形態に係る、全体的なアイデンティティコネクションを伴う複数の残差ブロックを含むＲｅｓＮｅｔの例を例示している。図８Ａでは、アップサンプリングされた画像の視覚品質を強化するために、ＲｅｓＮｅｔの変形形態が提案されている。具体的には、訓練手順の統合を容易にするために、第１の残差ブロックの入力から最後の残差ブロックの出力への全体的なアイデンティティコネクションが適用される。

図８Ｂは、本開示の一部の実装形態に係る、ビデオ符号化効率をさらに改善するために、複数の残差ブロックをスタックしたＲｅｓＮｅｔの別の例を例示している。各残差ブロックは、連結動作によって独自の入力を次のユニットに直接的に伝搬させる。言い換えれば、恒等的接続（ｉｄｅｎｔｉｃａｌｃｏｎｎｅｃｔｉｏｎ）を通じてマルチレベル情報が流れることが可能なので、各中間ブロックがその前のユニットから多階層型情報を受け取ることができる。図８Ｂの各残差ブロックのパラメータは、連結動作により、層の数と共に線形的に増加する。

図８Ａ～図８Ｂでは、残差情報が後のモジュールに伝搬可能になる前に、残差特徴は、１つまたはいくつかのモジュールを通過しなければならない。アイデンティティコネクションにより、これらの残差特徴は、特定の層において恒等特徴と素早く結合され、後続のモジュールへの伝搬を停止可能である。したがって、前の２つの変形形態における残差特徴は局所的に限定され、性能が劣化する。

図８Ｃは、本開示の一部の実装形態に係る、残差ブロックの出力を集約することによって単一画像超解像（ＳＩＳＲ）に取り組むＲｅｓＮｅｔの別の例を例示している。図８Ｃでは、最後の残差ブロックの出力は、前の３つのモジュールの出力全てと連結される。第１の残差ブロックの入力との要素毎の加算に適用される前に、畳み込み動作によって、連結された階層的特徴が融合される。最初の２つの変形形態とは異なり、集約されたＲｅｓＮｅｔは、階層型情報が後続のブロックに伝搬可能であるように、非局所的特徴を最後の残差モジュールに適用可能にし、より差別的な方式で特徴表現を達成する。

本開示では、現在のハイブリッドビデオ符号化の符号化効率をさらに改善するために、ニューラルネットワークベースの画像フィルタリングに関する方法および装置が提案される。提案される方法および装置は、例えば、図２に示されているような、デブロッキングフィルタとサンプル・アダプティブ・オフセット（ＳＡＯ）との間の、ループ内フィルタリングの一部として、または、現在のビデオ符号化技法を改善するためのループ後フィルタリングとして、または、現在のビデオ符号化技法の後の処理後フィルタリングとして適用されてもよい。

図９は、本開示の一部の実装形態に係る、ビデオ符号化のための画像フィルタリングを行うための典型的なニューラルネットワークベースのモデルを例示している。ＹＵＶ成分は、ニューラルネットワークモデルに並列に提供されてもよい。ＹＵＶ成分のこの並列入力は、処理遅延を低減させることだけでなく、例えば、クロス・コンポーネント・フィルタリングおよび／またはルマ誘導彩度フィルタリング（ｌｕｍａｇｕｉｄｅｄｃｈｒｏｍａｆｉｌｔｅｒｉｎｇ）といった、並べられたＹＵＶ情報間の相関関係をニューラルネットワークモデルが学習することにも有益な場合がある。このニューラルネットワークモデルベースフィルタのオン／オフ制御は、制御粒度とシグナリングオーバヘッドとの間の妥当なトレードオフのために、符号化ツリーユニット（ＣＴＵ）レベルで行われてもよい。ＹＵＶ成分のためのニューラルネットワークベースフィルタのオン／オフ制御は、同じまたは異なる粒度で行われてもよい。例えば、Ｙ成分のためのこのニューラルネットワークモデルベースフィルタのオン／オフ制御は、ＣＴＵレベルで行われてもよく、その一方で、ＵおよびＶ成分のためのオン／オフ制御は、例えば、ＣＴＵレベル・フラグ・シグナリングオーバヘッドを省くために、フレームレベルで行われてもよい。

特徴マップ解像度整列
図９に示されているようなニューラルネットワークモデルフィルタにＣＴＵレベルのＹＵＶ情報が提供されたとき、ＹＵＶＣＴＵバッチの解像度は、同じでもそうでなくてもよい。例えば、エンコードされたビデオコンテンツがＹＵＶ４２０の場合、３つの並べられたＹＵＶパッチの解像度は、同じでなくてもよい。このケースでは、解像度整列が必要である。より簡単な例証のために、ビデオコンテンツがＹＵＶ４２０であることを、本開示において提案される方法およびデバイス全てが想定する。提案される方法は、例えば、ＹＵＶ４２２、ＹＵＶ４４４といった、異なるコンテンツ・フォーマットのために、容易に拡張されてもよい。

一部の例では、解像度整列は、ＹＵＶパッチがニューラルネットワークに入る前に行われてもよい。

一部の例では、１つの１２８×１２８のＹパッチが、１つの６４×６４パッチまたは４つの６４×６４パッチにダウンサンプリングされてもよい。４つの６４×６４パッチが生成されたとき、元の１２８×１２８パッチの情報全てが、４つのパッチにおいて保持および分散されてもよい。元の１２８×１２８パッチの情報分散のために使用される方法は、分割ベースのものでもよく、例えば、１つの６４×６４パッチが、元の１２８×１２８パッチの左上からのものでもよく、別の６４×６４パッチが、元の１２８×１２８パッチの右上からのものでもよい。代替として、元の１２８×１２８パッチの情報分散のために使用される方法は、インターリーブ・ベースのものでもよく、例えば、元の１２８×１２８パッチの全ての４つの隣接したサンプルが、４つの６４×６４パッチにおいて均一に分散される。

一部の例では、１つの６４×６４のＵまたはＶパッチが、１つの１２８×１２８パッチにアップサンプリングされてもよい。

一部の例では、解像度整列は、ＹＵＶパッチがニューラルネットワークに入った後に行われてもよい。１つの例では、Ｙ入力解像度は、ＵＶ入力にマッチするように減少されてもよい。これを達成するための１つの方式は、ＵＶ入力に比べて２倍のストライド・サイズの畳み込み層を使用することである。この例では、ニューラルネットワークの終わりに、モデルの出力が入力と同じ解像度を有するように、Ｙコンテンツをスケールアップするための解像度増加層が必要になる。これを達成するための１つの方式は、ピクセルシャッフル層を使用して、Ｙ解像度をスケールアップすることである。別の例では、ＵＶ入力解像度は、Ｙ入力にマッチするように増加されてもよい。達成するための１つの方式は、ピクセルシャッフル層を使用して、ニューラルネットワークの始めにＵＶをスケールアップし、次いで、ニューラルネットワークの終わりにスケールダウンすることである。

特徴マップ解像度制御
特徴マップ解像度は、ニューラルネットワーク処理オーバヘッドに比例的に影響するが、ニューラルネットワークの性能には比例的に影響しないことがある。モデルフィルタリングの計算複雑性を制御するために、例えば、残差ブロックの数、残差ブロック毎の畳み込み層の入力および出力チャネルの数といった、異なるソリューションが利用可能になることがある。畳み込み層における特徴マップの解像度制御は、計算複雑性を制御するための別の効果的なオプションである。

図１０は、本開示の一部の実装形態に係る、領域ベースの特徴マップ解像度制御を例示している。図１０に示されているように、（領域ベースの特徴マップ解像度制御と呼ばれることが可能な）計算複雑性制御のための特徴マップ解像度を調節するために、３つの領域が使用されてもよい。領域１では、入力ＹＵＶパッチの解像度が決定され、対応するスケールアップ／ダウン動作が行われる。例えば、アップ／ダウンサンプリング方法が「特徴マップ解像度整列」において導入された。例が、図１５に示されている。

図１５は、本開示の一部の実装形態に係る、ニューラルネットワークの領域１におけるルマ・ダウンサンプリングを例示している。図１５に示されているように、ニューラルネットワークに入る前の領域１において、元のＹパッチが、４つのダウンサンプリングされたＹパッチにダウンサンプリングされる。例えば、１つの１２８×１２８のＹパッチが、４つの６４×６４のＹパッチにダウンサンプリングされてもよい。ニューラルネットワークの処理が終わった後、例えばアップサンプルといった、逆の動作が領域１において行われる。図１５に示されているように、ニューラルネットワークによって出力された４つのダウンサンプリングされたＹパッチが、１つの元のＹパッチにアップサンプリングされる。例えば、４つの６４×６４のＹパッチが、１つの１２８×１２８のＹパッチにアップサンプリングされてもよい。

領域２では入力ＹＵＶパッチの解像度が決定され、対応するスケールアップ／ダウン動作が、ＹＵＶ連結の前に行われる。この領域はニューラルネットワークの始めにあるので、スケールダウン動作が行われた場合、入力情報が著しく失われることがあり、モデル訓練後の全体性能が損なわれる場合がある。２つの例がそれぞれ、図１３～図１４に示されている。

図１３は、本開示の一部の実装形態に係る、ニューラルネットワークの領域２における彩度アップサンプリングを例示している。図１３に示されているように、ＵＶパッチは、ニューラルネットワークに入った後、ニューラルネットワークの領域２における対応する畳み込みブロックまたは層によってスケールアップされる。図１３に示されているように、領域３における最後の残差ブロックによって出力された対応するＵＶパッチに対して、例えばスケーリング－ダウンといった、逆の動作が行われる。

図１４は、本開示の一部の実装形態に係る、ニューラルネットワークの領域２におけるルマ・ダウンサンプリングを例示している。図１４に示されているように、Ｙパッチは、ニューラルネットワークに入った後、ニューラルネットワークの領域２における対応する畳み込みブロックまたは層によってスケールダウンされる。図１４に示されているように、領域３における最後の残差ブロックによって出力された対応するＹパッチに対して、例えばスケーリング－アップといった、逆の動作が行われる。

領域３では、入力ＹＵＶパッチの解像度が、始めの残差ブロックのうちの１つにおいて、スケールアップ／ダウンされてもよく、後の残差ブロックにおいて、例えばスケールダウン／アップといった、逆の動作が行われてもよい。この領域はＹＵＶ連結の後にあるので、スケールダウン動作が行われた場合、情報学習に十分な深度を有する始めの畳み込み層でほとんどの入力情報が既にキャプチャまたは学習されているので、入力情報が領域２ほど著しく失われることはない。例えば、領域２の後、１２８×１２８にスケールアップされたＵＶを有するＹＵＶコンテンツの３つのチャネルが生成される。Ｙ入力情報は、連結の前に、始めの畳み込み層において既に学習／抽出され、分散／重複されてもよい。代替として、Ｙ入力情報特徴を学習／抽出するのに十分なチャネルを第１の残差ブロックが有し得るので、第１の残差ブロックの後にスケールダウン動作が行われてもよい。

ＱＰ独立ニューラルネットワークモデル
提案されるニューラルネットワークモデルフィルタリングのより簡単な展開を容易にするために、ニューラルネットワークモデルから入力量子化パラメータ（ＱＰ）依存関係を除去することが望ましい。したがって、ビデオ符号化のために使用される入力ＱＰとは無関係の画像フィルタリングのために、単一のニューラルネットワークモデルが使用されてもよい。

図１１は、本開示の一部の実装形態に係る、典型的なＱＰ独立ニューラルネットワークモデルを例示している。典型的なビデオ符号化システムの場合、予測残差量子化／量子化解除のための量子化ステップサイズを計算するために、ＱＰ値が使用される。したがって、異なるＱＰ値が、ビデオ品質の異なるレベルを表す。異なる入力ＱＰおよび品質を有する異なるビデオフレームを取り扱うために、ＱｐＭａｐがニューラルネットワークに提供される。ＱｐＭａｐは、ビデオ品質の異なるレベル（例えば、入力Ｑｐ）を含み得る提供されたＹＵＶ入力を適応的にフィルタリングするために、ニューラルネットワークが学習するべき別の次元の情報を追加する。ＨＥＶＣ、ＶＶＣ、またはＡＶＳなどの、一部の共通ビデオ符号化規格では、入力Ｑｐ値が予測残差量子化のためのＱｐステップサイズにコンバートされるときに、予め定義された関係（例えば、Ｑ_ｓｔｅｐ＝２^{（ＱＰ－４）／６}）が典型的に使用される。より簡単な例証として、下記のように、提案される着想を導入するために、入力Ｑｐ値またはＱｐステップサイズ値を有するか含むＱｐＭａｐが使用される。

ＱｐＭａｐ値のダイナミックレンジ制御
図１１は、本開示の一部の実装形態に係る、ビデオ符号化のための画像フィルタリングを行うための典型的なＱＰ独立ニューラルネットワークベースのモデルを例示している。ＱｐＭａｐは、ＹＵＶ入力チャネルと連結される。各ＱｐＭａｐチャネルは、異なる座標に同じ値を有してもよい。また、各ＱｐＭａｐチャネルは、関連付けられた入力チャネルと同じ解像度を有してもよい。つまり、Ｙ入力用のＱｐＭａｐチャネルは、Ｙ入力チャネルと同じ解像度を有し、ＱｐＭａｐの各値は、Ｙ入力チャネル内のサンプル全てが同じＱｐ値を有することを示す。

ＱｐＭａｐ値を生成するために、ビデオフレーム／画像毎の入力ＱＰ値が直接的に使用されてもよい。代替として、ビデオフレーム／画像毎の入力ＱＰ値は、ＱｐＭａｐ値を生成するために、例えば、Ｑ_ｓｔｅｐ＝２^{（ＱＰ－４）／６}といった、Ｑｐステップサイズに最初にコンバートされてもよい。本開示の一部の例では、ＱｐステップサイズＱ_ｓｔｅｐは、ＱＰ_ｓｔｅｐと呼ばれることもある。

入力ＱＰまたはＱｐステップサイズからＱｐＭａｐ値が生成されたとき、ＱｐＭａｐ値のダイナミックレンジは、以下の３つの意味で妥当であることが望ましい。

第１に、範囲は十分大きくあるべきであり、その結果、異なる入力ＱｐまたはＱｐステップサイズを表す／差別するために異なるＱｐＭａｐ値が容易に使用可能になる。言い換えれば、２つの入力Ｑｐ値を仮定すると、対応するＱｐＭａｐ値は互いに近くなるべきではない。

第２に、範囲は十分バランスをとられるべきであり、その結果、異なるＱｐＭａｐ値が範囲の異なる位置に均一に分散可能になる。

第３に、範囲は関連付けられたＹＵＶサンプル値のダイナミックレンジにマッチするべきである。例えば、Ｐ_ｍａｘを除算することによってＹＵＶサンプル値が［０，１］に正規化され、Ｐ_ｍａｘ＝２^{ｂｉｔｄｅｐｔｈ}－１である場合、ＱｐＭａｐ値は類似の範囲内でも同様に正規化されるはずである。

したがって、ＱｐＭａｐがダイナミックレンジにマッピングされたとき、最大または最小の入力ＱｐまたはＱｐステップサイズを除算因子として使用しないことが提案され、そうでない場合、除算は、生成されたＱｐＭａｐ値をダイナミックレンジの一方の側に押しやることになり、これは、ＱｐＭａｐ値のダイナミックレンジを低減させることに等しい。

例えば、（最大入力Ｑｐ６３に対応する）最大ＱｐＳｔｅｐサイズ９１２を使用する場合、理論上のダイナミックレンジは（０，１）であるが、入力Ｑｐステップサイズが典型的に（入力Ｑｐ３７に対応する）４５未満の場合、効果的なダイナミックレンジは（０，０．０５）にすぎず、これは、ほとんどのケースにおいて、ＱｐＭａｐ値が０に近いことを意味する。

その代わりに、中央／中間入力ＱｐまたはＱｐステップサイズを使用して正規化を行うことが提案され、したがって、生成されたＱｐＭａｐ値は、例えば［０．５，１．５］といった、ダイナミックレンジのどちらかの側に分散され得る。１つの例示的な選択された中央／中間入力Ｑｐ値はＱｐ３２であり、次いで、ＱＰ対Ｑｓｔｅｐ（Ｑｐステップサイズ）等式（例えば、Ｑ_ｓｔｅｐ＝２^{（ＱＰ－４）／６}）に従って、コンバートされたＱｐステップサイズは、およそ２５．５である。したがって、任意の入力Ｑｐ値が最初に対応するＱｐステップサイズにコンバートされ、次いで、選択されたＱｐステップサイズ２５．５による除算が続く。

正規化除算のためのこの選択された入力ＱｐまたはＱｐステップサイズは、実際の入力Ｑｐ範囲に基づいて柔軟に決定されてもよい。例えば、実際のＱｐ範囲［２２，４２］の場合、実際のＱｐ範囲の低い方のＱｐの正規化された値がゼロにあまり近づかず、その一方で、高い方のＱｐの正規化された値が１．０をそれほど超えないように、Ｑｐ３７またはその対応するＱｐステップサイズが除算因子として選択されてもよい。代替として、最大値が最小値よりそれほど大きくない場合（例えば、２倍以内のサイズ）、実際の入力ＱＰ範囲の最大値（例えば、実際のＱｐ範囲［２２，４２］のうちの４２）またはその対応するＱｐステップサイズが除算因子として選択されてもよい。

ＱｐＭａｐ値の予測ベースの調節
上記で説明されたように、ＱｐＭａｐ値は、入力Ｑｐ値によって直接的に生成されてもよく、または、入力Ｑｐ値とＱｐステップサイズとの間のマッピング関係に応じて、Ｑｐステップサイズ値によって生成されてもよい。より簡単な例証のために、下記の説明は、ＱｐＭａｐ値が入力Ｑｐ値によって直接的に生成されることを想定している。Ｑｐステップサイズ値によってＱｐＭａｐ値が生成されたとき、提案される着想／方法が同様に拡張されてもよい。

インター予測ビデオフレーム／画像の場合、例えばスキップ・モードといった、残差が小さいまたはない状態で、フレーム／画像内のほとんどのブロック／ＣＴＵがインター予測されてもよい。このケースでは、対応する基準フレーム／画像によって、有効な入力Ｑｐ値が決定されるはずである。

一部の例では、対応する基準フレーム／画像の入力Ｑｐ値は、動き補償プロセス中に現在の画像が再構築されたときに保存および取得されてもよい。現在のフレーム毎の入力ＱＰ値は既知である。しかし、このフレームが現在のものでなく、このフレームが別のフレームの基準フレームであるとき、このフレームの入力Ｑｐ値は未知になる。したがって、Ｑｐ値は、将来において、これを取得するために、保存されなければならない。

一部の例では、対応する基準フレーム／画像の入力Ｑｐ値は、インター符号化された現在のフレームのＱＰ値から特定の値を減算することによって導出されてもよく、特定の値は、インター符号化された現在のフレームの時間層インデックスをチェックすることによって取得されてもよい。

他の一部の例では、基準フレーム／画像が基準画像（基準フレーム／画像の基準フレーム／画像）のチェーンである場合、この情報は、シグナリングから継承されるか引き継がれてもよい。

簡単なソリューションでは、インター予測ビデオフレーム／画像の場合、有効なＱｐステップサイズは、現在のフレームのＱｐステップサイズから、０．５などの一定のスケーリング因子によって導出されてもよく、これは、値６との入力Ｑｐ差に対応する。このスケーリング演算は、基準フレーム／画像入力ＱｐまたはＱｐステップサイズへの近似である。

Ｑｐステップサイズと入力Ｑｐとの間の典型的なマッピング関係（例えば、Ｑ_ｓｔｅｐ＝２^{（ＱＰ－４）／６}）により、Ｑｐステップサイズのスケーリング演算は、入力Ｑｐ値の減法／加法演算と同等である。すなわち、Ｑｐステップサイズのスケーリング演算は、入力Ｑｐ値の減法／加法演算を適用することによって実施可能である。

シグナリングオーバヘッドと予測ベースの調節正確度との間のトレードオフに応じて、Ｑｐステップサイズのスケーリング、または入力Ｑｐ値の減算／加算は、異なる精度または／および異なる粒度で表されてもよい。より簡単な例証として、下記の提案される着想／方法は、ＱｐＭａｐ値の予測ベースの調節のために、Ｑｐステップサイズのスケーリングが使用されることを想定している。ＱｐＭａｐ値の予測ベースの調節のために入力Ｑｐ値の減算／加算が使用されるとき、提案される着想／方法が直接拡張されてもよい。

１つまたは複数の例では、Ｑｐステップサイズのスケーリングは、その後のインター予測フレームのために使用される一定のスケーリング因子の不正確度を補償するために、イントラ予測フレーム／画像にも同様に適用されてもよい。

別の例では、Ｑｐスケーリング因子は、以下の異なる方法を使用して柔軟に導出されてもよい。

第１の方法では、Ｑｐスケーリング因子は、値のセットからエンコーダによって選択されてもよい。スケーリング因子セットは、シーケンスベースまたは画像／スライスベースのものでもよく、これは、セットが、ピクチャヘッダまたはシーケンスパラメータセット内で符号化されてもよいことを意味する。スケーリング因子セット内の選択されたＱｐスケーリング因子のインデックスは、画像品質とシグナリングオーバヘッドとの間の良好なトレードオフのために、例えば、ピクチャレベルインデックス選択、ＣＴＵレベル・インデックス選択、ブロックレベル選択といった異なる粒度で、エンコーダ側でレート歪み最適化アルゴリズムに基づいて選択されてもよい（例えば、ピクチャは、４分木分割に基づいて異なるブロックに分配されてもよい）。

第２の方法では、Ｑｐスケーリング因子は、Ｑｐオフセット／調節にコンバートされてもよい。Ｑｐオフセット／調節は、ＱｐＭａｐ値を計算する前に、入力Ｑｐ値またはＱｐステップサイズに適用されてもよい。

１つの例では、調節された入力Ｑｐ値が、Ｑ_{ｐ＿ｎｅｗ}＝Ｑ_{ｐ＿ｏｌｄ}－Ｑ_{ｐ＿ｏｆｆｓｅｔ＿ｓｔｅｐｓｉｚｅ}×（ｌｏｗｅｒ＿ｂｏｕｎｄ－ｏｆｆｓｅｔ＿ｉｎｄｅｘ）と表されてもよく、ここで、Ｑ_{ｐ＿ｏｌｄ}は、現在のスライスまたはＣＴＵの元のＱｐ値であり、Ｑ_{ｐ＿ｎｅｗ}は、調節後の新しいＱｐ値であり、Ｑ_{ｐ＿ｏｆｆｓｅｔ＿ｓｔｅｐｓｉｚｅ}は、Ｑｐ調節毎のステップサイズであり、ｌｏｗｅｒ＿ｂｏｕｎｄは、最大Ｑｐ低減を決定する整数値であり、ｏｆｆｓｅｔ＿ｉｎｄｅｘは、シグナリングされるインデックス値（例えば、範囲［０，３］の値）である。ｏｆｆｓｅｔ＿ｉｎｄｅｘは、エンコーダ側で決められ、デコーダ側でパース／使用される。Ｑｐ＿ｏｆｆｓｅｔ＿ｓｔｅｐｓｉｚｅおよびｌｏｗｅｒ＿ｂｏｕｎｄは、予め定義された一定の値であるか、または同様にシグナリングされることに留意されたい。

例えば、Ｑｐ＿ｏｆｆｓｅｔ＿ｓｔｅｐｓｉｚｅは、４などの一定の値でもよく、ｌｏｗｅｒ＿ｂｏｕｎｄは２であり、シグナリングされるｏｆｆｓｅｔ＿ｉｎｄｅｘが１のとき、デコーダは、現在のＱｐ値３２が２８になるように調節してもよく、ここで、２８＝３２－４＊（２－１）である。

第３の方法では、現在のＣＴＵ／ピクチャ／ブロックの場合、Ｑｐスケーリング因子は、シグナリングオーバヘッドを省くために、隣接したＣＴＵ／ピクチャ／ブロック（例えば、空間ドメインにおける左もしくは上のＣＴＵ／ブロック、または時間ドメインにおける基準ブロック／ＣＴＵ）から継承されてもよい。

第４の方法では、Ｑｐスケーリング因子は、シグナリングまたは継承ではなく、現在のＣＴＵ／ブロックおよび基準ＣＴＵ／ブロックのＱｐ差によってデコーダ側で計算されてもよい。現在のＣＴＵ／ブロックに対応する複数の基準ＣＴＵ／ブロックがある場合、Ｑｐスケーリング因子の平均値が計算されてもよい。基準ＣＴＵ／ブロックが基準チェーンに含まれる場合。基準深度は制限されてもよく、Ｑｐスケーリング因子は、ほとんどの制限された基準深度において、親の基準ＣＴＵ／ブロックに応じて計算されてもよい。

第５の方法では、より低い複雑性のために、異なる構成要素のＱｐスケーリング因子が一緒にシグナリング／選択／計算されてもよい。代替として、異なる構成要素のＱｐスケーリング因子は、別々にシグナリング／選択／計算されてもよい。代替として、ルマおよび彩度のＱｐスケーリング因子は、別々にシグナリング／選択／計算されてもよい。

第６の方法では、上記の方法の任意の組合せがハイブリッド方法として使用されてもよい。

さらに、上記の第２の方法では、導出プロセスの１つの実施形態が下記のように導入可能である。

一般に、チャネルＣＨの位置（ｘ，ｙ）におけるＱｐＭａｐ値（ＱＭ_ＣＨ（ｘ，ｙ））が、

のように計算可能である。

ＶＶＣでは、ＱＰと量子化ステップＱｓｔｅｐとの間の関係は、ＱＰ_ｓｔｅｐ＝２^{（ＱＰ－４）／６}によって与えられる。したがって、等式（７）は、

のように書き直されることが可能である。

１つの実施形態では、等式（８）の場合、ＱＰは、現在のフレームの入力ＱＰであり、チャネル依存である。ＱＰ_ｍａｘは、ＶＶＣにおける６３に等しい最大許容入力ＱＰである。等式（７）および（８）を用いて、等式（６）は、

のように書き直されることが可能である。

等式（９）から、項全体が、チャネル依存または一定の値であることがわかる。したがって、品質マップのチャネル毎に、異なる位置の値は同じである。

より簡単な実装形態として、２つの修正が、等式（９）に対してさらに行われることが可能である。第１の修正は、ＶＶＣにおける実際の値６３の代わりに、一定の値ＱＰ_{ｓｅｌｅｃｔｅｄ}をＱＰ_ｍａｘとして使用することである。動機は、非常に小さい品質マップ値によって引き起こされる勾配消失問題を回避することである。ＱＰ_{ｓｅｌｅｃｔｅｄ}は、セクション「ＱｐＭａｐ値のダイナミックレンジ制御」で既に紹介された、ＱｐＭａｐ値のダイナミックレンジを制御することと同等であることに留意されたい。第２の修正は、スケーリング因子α_ＣＨの代わりに、ＱＰオフセット値をシグナリングすることである。このケースでは、等式（９）は、

のように書き直されることが可能である。

等式（１０）を等式（９）と比較すると、これは、新たにシグナリングされたＱＰオフセット値ＱＰ_{ｏｆｆｓｅｔ}の閉形式表現でα_ＣＨを表すことと同等である。１つの実施形態では、対応する基準ブロックが、独立して選択された時間基準ピクチャから生じたものであるので、ＱＰ_{ｏｆｆｓｅｔ}は、入力ビデオブロック毎に決定される必要がある。別の実施形態では、ＱＰ_{ｏｆｆｓｅｔ}は、シグナリング・ビットを節約するためにフレームレベルで決定およびシグナリングされ、これは、同じビデオフレーム内の全てのＣＴＵが、ＱＰ_{ｏｆｆｓｅｔ}の同じ値を共有することを意味する。

１つの例では、ＱＰ_{ｏｆｆｓｅｔ}は、ルックアップテーブル（ＬＵＴ：ｌｏｏｋｕｐｔａｂｌｅ）として実現される。テーブル１に示されているように、ＱＰオフセット値を直接的にシグナリングするのではなく、予め定義された符号語が定義されてもよい。ビットストリームで受け取られた符号語に基づいて、等式（１０）のために使用される実際のＱＰオフセット値が、テーブル１に示されたＬＵＴから取り出されることが可能である。例えば、符号化されたワード「０１」がデコーダ側で受け取られた場合、テーブル１に示された例では、ＱＰオフセット値８が導出可能である。テーブル１において、マッピングされたＱＰオフセットは、４における一定のステップサイズを有し、５におけるステップサイズを有する別の例のＬＵＴは、テーブル２に定義されてもよいことに留意されたい。

テーブル１は、スケーリング因子をシグナリングするために使用される例示的なＬＵＴを示している。

テーブル２は、スケーリング因子をシグナリングするために使用される別の例示的なＬＵＴを示している。

ＱＰ_{ｏｆｆｓｅｔ}のＬＵＴベースの実装形態は、例えば、シーケンス・レベル、フレームレベルなど、異なる粒度で定義されてもよい。異なるＬＵＴに対して、ＬＵＴ差がシグナリングされてもよく、またはＬＵＴステップサイズ差がシグナリングされてもよい。例えば、テーブル１およびテーブル２におけるＬＵＴのステップサイズ差は、１に等しい（５－４＝１）。

ＱｐＭａｐ値ベースのサンプル値のスケーリング
ＱＰ独立ニューラルネットワークモデルは、ネットワークにＱｐＭａｐチャネルを明示的に含まなくてもよい。例えば、図１１に示されているように、ＹＵＶチャネル毎に生成されたＱｐＭａｐ値は、ＹＵＶチャネルと連結される。代替として、ネットワークに送り込まれたＱｐＭａｐ値は、ＹＵＶチャネル毎のサンプル値を直接的にスケーリングするために使用されてもよい。このように、ＱｐＭａｐチャネルは、ＹＵＶチャネルと連結されず、これは、ネットワークにおけるＱｐＭａｐの暗黙的使用を表す。

ＱｐＭａｐチャネルがネットワークに入力され、ＹＵＶチャネルと連結されたとき、図１１に示されているのと同様に、サンプル値のスケーリング、すなわち、ＹＵＶチャネルにおけるサンプル値のスケーリングは、要素毎の乗算によって直接的に行われてもよい。例えば、Ｙ成分のためのＱｐＭａｐチャネルの各要素は、Ｙチャネルの対応する要素で乗算され、ＵまたはＶ成分のためのＱｐＭａｐチャネルの各要素は、ＵまたはＶチャネルの対応する要素で乗算される。ＱｐＭａｐチャネルの解像度は、対応する成分チャネルの解像度と既に整列されていてもよいことに留意されたい。

別の例では、要素毎のスケーリングはまた、残差ブロック毎に行われてもよい。図１７は、本開示の一部の実装形態に係る、残差ブロック毎に行われる要素毎のスケーリングの例を例示している。図１７では、ＱｐＭａｐチャネルは、ＹＵＶ解像度が整列された後、ＹＵＶチャネルと最初に連結される。次いで、ＱｐＭａｐチャネルは、第１の残差ブロックのための入力特徴マップとして使用されるだけではなく、残差ブロック毎のサンプル値のスケーリング因子としても使用される。

上記の２つのサンプル・スケーリング・メカニズムは、排他的に使用されるか組み合わされてもよいことに留意されたい。言い換えれば、図１１などの連結の前にＹＵＶサンプルに対して直接的に適用されたサンプル・スケーリング、および図１７などの残差ブロック毎に適用されたサンプル・スケーリングは、同じニューラルネットワークで両方使用されても、異なるニューラルネットワークで別々に使用されてもよい。

ＱｐＭａｐの暗黙的使用についての一部の例では、ＱｐＭａｐデータは、ネットワークに送り込まれなくてもよく、ＹＵＶチャネル毎のサンプル値のスケーリングは、ニューラルネットワークの前で行われる。

ニューラルネットワークベースのモデルフィルタリングと他のループ内フィルタとの間の相互作用
異なる品質を有するビデオコンテンツをフィルタリングするために、ＱｐＭａｐチャネルがニューラルネットワークに提供されたとき、ＱｐＭａｐチャネルは、１つまたは複数の成分からのＱｐ情報を含んでもよい。

図１２Ａは、本開示の一部の実装形態に係る、ＱｐＭａｐチャネルとＹＵＶチャネルとを並べたレイアウトの例を例示している。図１２Ｂは、本開示の一部の実装形態に係る、ＱｐＭａｐチャネルとＹＵＶチャネルとを並べたレイアウトの別の例を例示している。図１２Ａ～図１２Ｂにおいて、マップＹというブロックは、ＹチャネルのためのＱｐＭａｐチャネルを示し、マップＵというブロックは、ＵチャネルのためのＱｐＭａｐチャネルを示し、マップＶというブロックは、ＶチャネルのためのＱｐＭａｐチャネルを示す。ブロックＹ、Ｕ、およびＶはそれぞれ、Ｙチャネル、Ｕチャネル、およびＶチャネルを示す。

ＹＵＶ４２０のコンテンツを仮定すると、ＵＶ成分は、最初にアップサンプリングされてもよく、次いで、ＹＵＶは、図１２Ａに示されているように、対応するＱｐＭａｐチャネルと並べられて差し挟まれ、またはＹチャネルは、４つのより小さいＹチャネルに最初にダウンサンプリングされてもよく、次いで、ＹＵＶは、図１２Ｂに示されているように、ＱｐＭａｐチャネルと並べられて差し挟まれる。一部の例では、アップサンプリングまたはダウンサンプリングは、例えば図１０の領域２および３のネットワーク内で、または、例えば図１０の領域１のネットワークの外部で行われる。

図１６Ａは、本開示の一部の実装形態に係る、ＱｐＭａｐチャネルとＹＵＶチャネルとを並べたレイアウトの別の例を例示している。図１６Ｂは、本開示の一部の実装形態に係る、ＱｐＭａｐチャネルとＹＵＶチャネルとを並べたレイアウトの別の例を例示している。図１６Ａ～図１６Ｂでは、マップＹというブロックは、ＹチャネルのためのＱｐＭａｐチャネルを示し、マップＵというブロックは、ＵチャネルのためのＱｐＭａｐチャネルを示し、マップＶというブロックは、ＶチャネルのためのＱｐＭａｐチャネルを示す。ブロックＹ、Ｕ、およびＶはそれぞれ、Ｙチャネル、Ｕチャネル、およびＶチャネルを示す。図１６Ａ～図１６Ｂに示されているように、複数のＱｐＭａｐチャネルは、最初に内部で連結され、次いで、ＹＵＶチャネルと連結されてもよい。

１つの成分のただ１つまたは複数のＱｐＭａｐチャネルがニューラルネットワークに提供される場合、１つまたは複数のＱｐＭａｐチャネルは、ＹＵＶチャネルの一方の側に置かれてもよく、これは、ＹＵＶチャネルが隣接して並べられるように、ＱｐＭａｐチャネルの追加の前にＹＵＶチャネルが連結されることを示す。

別の例では、異なる成分からのＱｐＭｐａチャネルに加えて、異なるタイプの訓練データのための追加のＱｐＭａｐチャネルが必要になることがある。例えば、訓練データが、ＩフレームまたはＢフレームまたはＰフレームから切り取られた場合、フレーム・タイプ情報を含むＱｐＭａｐが生成および連結されてもよい。Ｉフレームは、内部符号化されたフレームであり、Ｂフレームは、双方向予測フレームであり、Ｐフレームは、予測フレームである。

ニューラルネットワークモデルベースフィルタの出力のフィルタリングオフセットまたはスケーリング
一般化のために、品質、動き、および照明環境のレベルが異なる、異なるビデオコンテンツのために、統合ニューラルネットワークモデルベースフィルタが使用されてもよい。ニューラルネットワークモデルベースフィルタの出力は、より良い符号化効率のためにエンコーダ側でオフセットまたはスケーリングの形でわずかに調節されてもよい。

フィルタリングオフセットまたはスケーリング値は、値のセットからエンコーダによって適応的に選択されてもよい。オフセットまたはスケーリング・セットは、シーケンスベースまたは画像／スライスベースのものでもよく、これは、セットが、ピクチャ／スライス・ヘッダまたはシーケンスパラメータセット内で符号化されてもよいことを意味する。セット内の選択されたオフセットまたはスケーリング値のインデックスは、画像品質とシグナリングオーバヘッドとの間の良好なトレードオフのために、例えば、ピクチャレベルインデックス選択、ＣＴＵレベル・インデックス選択、ブロックレベル選択といった異なる粒度で、エンコーダ側でレート歪み最適化アルゴリズムに基づいて選択されてもよく、例えば、ピクチャは、４分木分割に基づいて異なるブロックに分配されてもよい。

適応的フィルタリングオフセットまたはスケーリング値の選択は、コンテンツ平滑性、または、方向付けられた勾配のヒストグラム（ｈｉｓｔｏｇｒａｍｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓ）など、特定の分類アルゴリズムに基づいてもよい。カテゴリ毎の適応的フィルタリングオフセットまたはスケーリング値は、エンコーダにおいて計算および選択され、サンプル歪みを効果的に低減させるためにデコーダに明示的にシグナリングされ、その一方で、サンプル毎の分類は、サイド情報を著しく節約するために、エンコーダおよびデコーダ両方で行われる。

適応的フィルタリングオフセットまたはスケーリング値の選択は、異なる成分に対して一緒または別々に行われてもよく、例えば、ＹＵＶは、異なる適応的フィルタリングオフセットまたはスケーリング値を有する。

訓練データ生成および訓練プロセス
ニューラルネットワークベースフィルタモデルが訓練されるとき、訓練データの準備および訓練プロセスは、異なる方式で行われてもよい。

一部の例では、モデルは、静止画像だけを有するデータセットに基づいて訓練されてもよい。データセットは、ニューラルネットワークベースフィルタが使用されるビデオ符号化ツールからの全てのＩフレームでエンコードされてもよい。

一部の例では、モデルは、２経路プロセスに基づいて訓練されてもよい。第１の経路では、全てのＩフレームでデータセットがエンコードされてもよく、モデルＡは、Ｉフレーム全てに基づいて訓練されてもよい。第２の経路では、同じデータセットまたは新しいデータセットが、異なる比率（含まれるＩ、Ｂ、およびＰフレームの数の比率）を有するＩ、Ｂ、およびＰフレームの組合せでエンコードされてもよい。一部の例では、生成されたＩ／Ｂ／Ｐフレームは、第１の経路で訓練されたモデルＡを適用することによってエンコードされる。新たに生成されたＩ／Ｂ／Ｐフレームに基づいて、新しいモデルＢが訓練されてもよい。

モデルＢが訓練されるとき、モデルＡは、モデルＢがモデルＡから始まる洗練されたモデルであるように、事前訓練済みモデルとしてロードされてもよい。別の例では、モデルＡとは異なる別のモデルが、事前訓練済みポイントとしてロードされてもよい。

代替として、モデルＢは、ゼロから訓練されてもよい。

一部の例では、モデルは、３つ以上の経路である訓練されたマルチ経路でもよい。第１の経路では、モデルＡは、Ｉフレームに基づいて訓練されてもよい。第２の経路では、モデルＢは、モデルＡがエンコーダに適用されたときのＩ／Ｂ／Ｐフレームの組合せに基づいて、モデルＡに基づいて訓練または洗練されてもよい。この第２の訓練経路中の、Ｂ／Ｐフレームの選択された組合せは、低時間層だけからのものでもよいことに留意されたい。第３の経路またはさらなる経路において、モデルＣは、Ｂ／Ｐフレームのより高い一時的な層に基づいて、モデルＢに基づいて訓練または洗練されてもよい。Ｂ／Ｐフレームのより高い一時的な層が生成および選択されたとき、モデルＢまたは／およびモデルＡは、エンコーダ側で適用されてもよい。

ネットワーク訓練前に、訓練データが生成されなければならない。このマルチ経路方法では、訓練データは、以下を含む３つの経路によって生成され、第１のパスは、モデルＡを訓練するために使用されるＩフレームだけを生成することであり、モデルＡの準備ができると、エンコーダは、モデルＡをロードすること、および第２の経路と呼ばれる低時間層Ｂ／Ｐフレームを生成することを、行っても行わなくてもよい。これらの生成された低時間層Ｂ／Ｐフレームは、新しい訓練によってモデルＢを訓練するために使用されるか、モデルＡに基づいて洗練される。

さらに、モデルＢの準備ができると、エンコーダは、モデルＡおよびＢをロードすること、ならびに第３の経路と呼ばれる高時間層Ｂ／Ｐフレームを生成することを、行っても行わなくてもよい。これらの生成された高時間層Ｂ／Ｐフレームは、新しい訓練によってモデルＣを訓練するために使用されるか、モデルＡまたは／およびＢに基づいて洗練される。

ニューラルネットワークベースのモデルフィルタリングと他のループ内フィルタとの間の相互作用
ＣＴＵレベルまたはフレームレベルでオンにされるように、ニューラルネットワークベースのモデルフィルタリングがシグナリングされたとき、デブロッキングフィルタリングは、不必要な計算または過度の平滑化を回避するために飛ばされてもよい。代替として、デブロッキングフィルタリングは、視覚品質のために、依然として行われてもよい。

ＣＴＵレベルまたはフレームレベルでオンにされるように、ニューラルネットワークベースのモデルフィルタリングがシグナリングされたとき、ＡＬＦ、クロスコンポーネントアダプティブループ・フィルタ（ＣＣＡＬＦ：ＣｒｏｓｓＣｏｍｐｏｎｅｎｔＡｄａｐｔｉｖｅＬｏｏｐＦｉｌｔｅｒ）、およびＳＡＯのような、他のいくつかのループ内フィルタは、オフにされてもよい。

ＣＴＵレベルまたはフレームレベルでオンにされるように、ニューラルネットワークベースのモデルフィルタリングがシグナリングされたとき、他のループ内フィルタが、ＣＴＵレベルまたはフレームレベルで選択的にオンまたはオフにされてもよい。例えば、ニューラルネットワークベースのモデルフィルタリングのためにイントラ・フレームまたはイントラ・フレームＣＴＵが有効化された場合、現在のイントラ・フレーム、または現在のイントラ・フレームＣＴＵのために、デブロッキングフィルタリング、または／およびＡＬＦ、または／およびＣＣＡＬＦ、または／およびＳＡＯなど、他のループ内フィルタが無効化される。

図１８は、本開示の一部の実装形態に係る、ニューラルネットワークを使用したビデオ符号化時の画像フィルタリング用の装置を例示したブロック図である。装置１８００は、モバイル・フォン、タブレット・コンピュータ、デジタル・ブロードキャスト端末、タブレット・デバイス、またはパーソナル・デジタル・アシスタントなどの、端末でもよい。

図１８に示されているように、装置１８００は、処理コンポーネント１８０２、メモリ１８０４、電源コンポーネント１７０６、マルチメディアコンポーネント１８０８、オーディオコンポーネント１８１０、入出力（Ｉ／Ｏ）インターフェース１８１２、センサコンポーネント１８１４、および通信コンポーネント１８１６といった構成要素のうちの１つまたは複数を含んでもよい。

処理コンポーネント１８０２は、通常、ディスプレイに関する動作、通話、データ通信、カメラ動作、および記録動作など、装置１８００の全動作を制御する。処理コンポーネント１８０２は、上記の方法のステップの全てまたは一部を完了させるための命令を実行するための１つまたは複数のプロセッサ１８２０を含んでもよい。さらに、処理コンポーネント１８０２は、処理コンポーネント１８０２と他の構成要素との間の相互作用を容易にするための１つまたは複数のモジュールを含んでもよい。例えば、処理コンポーネント１８０２は、マルチメディアコンポーネント１８０８と処理コンポーネント１８０２との間の相互作用を容易にするためのマルチメディア・モジュールを含んでもよい。

メモリ１８０４は、装置１８００の動作をサポートするための異なるタイプのデータを格納するように構成される。このようなデータの例は、装置１８００で動作する任意のアプリケーションまたは方法のための命令、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ１８０４は、任意のタイプの揮発性もしくは不揮発性ストレージデバイス、またはその組合せによって実現されてもよく、メモリ１８０４は、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、電気的消去可能プログラマブル・リード・オンリ・メモリ（ＥＥＰＲＯＭ）、消去可能プログラマブル・リード・オンリ・メモリ（ＥＰＲＯＭ）、プログラマブル・リード・オンリ・メモリ（ＰＲＯＭ）、リード・オンリ・メモリ（ＲＯＭ）、磁気メモリ、フラッシュ・メモリ、磁気ディスク、またはコンパクト・ディスクでもよい。

電源コンポーネント１８０６は、装置１８００の異なる構成要素に電力を供給する。電源コンポーネント１８０６は、電力供給管理システム、１つまたは複数の電源、ならびに、装置１８００のための電力の生成、管理、および配布に関連付けられた他の構成要素を含んでもよい。

マルチメディアコンポーネント１８０８は、装置１８００とユーザとの間の出力インターフェースを提供する画面を含む。一部の例では、画面は、液晶ディスプレイ（ＬＣＤ）およびタッチ・パネル（ＴＰ）を含んでもよい。画面がタッチ・パネルを含む場合、画面は、ユーザからの入力信号を受け取るタッチ・スクリーンとして実現されてもよい。タッチ・パネルは、タッチ・パネル上のタッチ、スライド、およびジェスチャを検知するための、１つまたは複数のタッチ・センサを含んでもよい。タッチ・センサは、タッチまたはスライド・アクションの境界を検知するだけでなく、タッチまたはスライド動作に関する持続時間および圧力をさらに検出してもよい。一部の例では、マルチメディアコンポーネント１８０８は、前部カメラおよび／または後部カメラを含んでもよい。装置１８００が、撮影モードまたはビデオ・モードなどの動作モードのとき、前部カメラおよび／または後部カメラは、外部マルチメディア・データを受け取ってもよい。

オーディオコンポーネント１８１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント１８１０は、マイクロフォン（ＭＩＣ）を含む。装置１８００が、通話モード、記録モード、および音声認識モードなどの動作モードのとき、マイクロフォンは、外部オーディオ信号を受け取るように構成される。受け取られたオーディオ信号は、メモリ１８０４にさらに格納されるか、通信コンポーネント１８１６を介して送られてもよい。一部の例では、オーディオコンポーネント１８１０は、オーディオ信号を出力するためのスピーカをさらに含む。

Ｉ／Ｏインターフェース１８１２は、処理コンポーネント１８０２と周辺インターフェース・モジュールとの間のインターフェースを提供する。上記の周辺インターフェース・モジュールは、キーボード、クリック・ホイール、ボタンなどでもよい。これらのボタンは、ホーム・ボタン、ボリューム・ボタン、スタート・ボタン、およびロック・ボタンを含んでもよいがこれらに限定されない。

センサコンポーネント１８１４は、異なる態様における状態評価を装置１８００に提供するための１つまたは複数のセンサを含む。例えば、センサコンポーネント１８１４は、装置１８００のオン／オフ状態、および構成要素の相対ロケーションを検出してもよい。例えば、構成要素は、装置１８００のディスプレイおよびキーパッドである。センサコンポーネント１８１４はまた、装置１８００または装置１８００の構成要素の位置変化、装置１８００に対するユーザの接触の有無、装置１８００の向きまたは加速／減速、および装置１８００の温度変化を検出してもよい。センサコンポーネント１８１４は、物理的接触が何もなくても、近くの物体の存在を検出するように構成された近接センサを含んでもよい。センサコンポーネント１８１４は、イメージング・アプリケーションで使用されるＣＭＯＳまたはＣＣＤイメージ・センサなどの光センサをさらに含んでもよい。一部の例では、センサコンポーネント１８１４は、加速度センサ、ジャイロスコープ・センサ、磁気センサ、圧力センサ、または温度センサをさらに含んでもよい。

通信コンポーネント１８１６は、装置１８００と他のデバイスとの間の有線またはワイヤレス通信を容易にするように構成される。装置１８００は、Ｗｉ－Ｆｉ、４Ｇ、またはその組合せなどの通信規格に基づいて、ワイヤレス・ネットワークにアクセスしてもよい。例では、通信コンポーネント１８１６は、ブロードキャスト・チャネルを介して外部のブロードキャスト管理システムからブロードキャスト信号またはブロードキャスト関連情報を受け取る。例では、通信コンポーネント１８１６は、短距離通信を促進するための近距離無線通信（ＮＦＣ）モジュールをさらに含んでもよい。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線通信協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術、および他の技術に基づいて実現されてもよい。

例では、装置１８００は、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル・ロジック・デバイス（ＰＬＤ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、または、上記の方法を行うための他の電子要素のうちの１つまたは複数によって実現されてもよい。非一時的コンピュータ可読記憶媒体は、例えば、ハードディスク・ドライブ（ＨＤＤ）、ソリッド・ステート・ドライブ（ＳＳＤ）、フラッシュ・メモリ、ハイブリッド・ドライブまたはソリッド・ステート・ハイブリッド・ドライブ（ＳＳＨＤ）、リード・オンリ・メモリ（ＲＯＭ）、コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ－ＲＯＭ）、磁気テープ、フロッピー・ディスクなどでもよい。

図１９は、本開示の一部の実装形態に係る、ニューラルネットワークを使用したビデオ符号化時の画像フィルタリングのためのプロセスを例示したフローチャートである。

ステップ１９０１において、プロセッサ１８２０は、１つまたは複数のＱｐＭａｐチャネルにおける複数のＱｐＭａｐ値をニューラルネットワークにロードする。図１１に示されているように、複数のＱｐＭａｐチャネルはそれぞれ、連結ブロックの前の３つの畳み込みブロックまたは層の後の対応するＹＵＶチャネルと組み合わされた。

例えば、ＱｐＭａｐは、ＹＵＶが異なるＱＰ値を有してもよいので、ＱＰ－Ｙ、ＱＰ－Ｕ、ＱＰ－ＶというＹＵＶのための３つのチャネルをそれぞれ有してもよい。

ステップ１９０２において、プロセッサ１８２０は、入力フレームに関する複数の入力ＱＰ値を調節することによってＱＰスケーリング因子を取得する。例えば、「ＱｐＭａｐ値の予測ベースの調節」というセクションの第２の方法で論じられたように、Ｑｐオフセット／調節はＱｐＭａｐ値を計算する前に、入力Ｑｐ値またはＱｐ・ステップサイズに適用されてもよい。本開示では、略称の「ＱＰ」は「Ｑｐ」と同じである。

ステップ１９０３において、プロセッサ１８２０は、ニューラルネットワークへの入力フレームをニューラルネットワークが学習およびフィルタリングするために、ＱＰスケーリング因子に応じて、複数のＱｐＭａｐ値を調節する。

一部の例では、プロセッサ１８２０は、ＱＰオフセットステップサイズ、下限、およびオフセットインデックスに基づいてＱＰオフセットを取得してもよく、ＱＰオフセットステップサイズは、各入力ＱＰ値を調節するためのステップサイズでもよく、下限は、最大ＱＰ値低減を決定する整数値でもよく、オフセットインデックスは、シグナリングされたインデックス値でもよい。さらに、プロセッサ１８２０は、入力ＱＰ値からＱＰオフセットを減算してもよい。例えば、「ＱｐＭａｐ値の予測ベースの調節」というセクションの第２の方法で論じられたように、調節された入力Ｑｐ値は、Ｑ_{ｐ＿ｎｅｗ}＝Ｑ_{ｐ＿ｏｌｄ}－Ｑ_{ｐ＿ｏｆｆｓｅｔ＿ｓｔｅｐｓｉｚｅ}×（ｌｏｗｅｒ＿ｂｏｕｎｄ－ｏｆｆｓｅｔ＿ｉｎｄｅｘ）と表されてもよい。

一部の例では、エンコーダは、ＱＰオフセットステップサイズ、下限、およびオフセットインデックスをシグナリングしてもよく、オフセットインデックスは、０から３までの整数でもよく、ＱＰオフセットステップサイズおよび下限は、それぞれ予め定義された一定の値でもよい。

一部の例では、エンコーダは、ＱＰオフセットステップサイズおよび下限を予め定義してもよい。エンコーダは、オフセットインデックスをさらにシグナリングしてもよく、オフセットインデックスは０から３までの整数でもよい。例えば、ＱＰオフセットステップサイズおよび下限は、一定の値として予め定義されてもよい。このケースでは、ＱＰオフセットステップサイズおよび下限は、シグナリングされる必要がない。ＱＰオフセットステップサイズおよび下限が一定の値でない場合、シグナリングが必要になる。

一部の例では、プロセッサ１８２０は、ＱＰオフセットを取得することによってＱＰスケーリング因子を取得してもよく、入力ＱＰ値からＱＰオフセットを減算することによって複数のＱｐＭａｐ値を調節してもよい。

一部の例では、ＱＰスケーリング因子は、等式（９）および（１０）に示されているような

という等式を使用して取得されてもよく、α_ＣＨは、ＱＰスケーリング因子を示し、ＱＰ_{ｏｆｆｓｅｔ}は、ＱＰオフセットを示す。

一部の例では、ＱＰオフセットは、入力ビデオブロック毎に決定されてもよい。

一部の例では、ＱＰオフセットは、フレームレベルでシグナリングされてもよい。

一部の例では、プロセッサ１８２０は、ＬＵＴを予め定義してもよく、ＬＵＴは、テーブル１または２に示されたように、複数の符号語、および複数の符号語に対応する複数のＱＰオフセットを含んでもよい。

一部の例では、プロセッサ１８２０は、ＬＵＴに基づいて符号語に対応するＱＰオフセットをデコーダが取り出すように、符号語をさらにシグナリングしてもよい。

一部の例では、プロセッサ１８２０は、異なる粒度で複数のＬＵＴを予め定義し、異なる粒度で複数のＬＵＴに基づいて符号語に対応するＱＰオフセットをデコーダが取り出すように符号語をシグナリングしてもよい。

例えば、ＬＵＴは、同じフレーム内の全てのビデオブロックが同じＬＵＴを有し、エンコーダが符号語をシグナリングする必要しかないように、フレームレベルで予め定義されてもよい。デコーダは、シグナリングされた符号語を受け取り、受け取られた符号語および同じＬＵＴに基づいて、対応するＱＰオフセットを取り出してもよい。

一部の例では、プロセッサ１８２０は、異なる粒度で複数のＬＵＴを予め定義し、符号語およびＬＵＴステップサイズ差に基づいて符号語に対応するＱＰオフセットをデコーダが取り出すように、符号語およびＬＵＴステップサイズ差をシグナリングしてもよく、テーブル１およびテーブル２に示されたように、ＬＵＴステップサイズ差は、第１のステップサイズと第２のステップサイズとの間の差であり、第１のステップサイズは、第１のＬＵＴにおける２つの隣接したＱＰオフセットの間の差であり、第２のステップサイズは、第２のＬＵＴにおける２つの隣接したＱＰオフセットの間の差である。

例えば、テーブル１～２に示されているように、テーブル１における第１のステップサイズは４であり、テーブル２における第２のステップサイズは５であり、ＬＵＴステップサイズ差は１である（＝５－４）。一部の例では、エンコーダは、デコーダが、ＬＵＴステップサイズ差、およびデコーダに以前に保存されたＬＵＴに基づいて、対応するＱＰオフセットを見つけることができるように、全てのＬＵＴをデコーダに送る必要はないが、ＬＵＴステップサイズ差だけを送る必要がある。

他の一部の例では、命令を格納した非一時的コンピュータ可読記憶媒体１８０４が提供される。１つまたは複数のプロセッサ１８２０によって命令が実行されたとき、命令は、図１９および上記に記載されたような任意の方法をプロセッサに行わせる。

本開示の説明は、例証のために提示されたものであり、網羅的であること、または本開示に限定されることを意図するものではない。多くの変更形態、変形形態、および代替実装形態が、前述の説明および関連付けられた図面において提示された教示の利益を有する当業者には明らかであろう。

例は、本開示の原理を説明するために、ならびに、様々な実装形態についての開示を当業者が理解できるようにするために、ならびに、予期される特定の使用に適したような、様々な変更形態と共に基礎をなす原理および様々な実装形態を最もうまく利用するために、選ばれ説明された。したがって、本開示の範囲は、開示された実装形態の具体例に限定されるべきではなく、変更形態および他の実装形態が本開示の範囲内に含まれることが意図されることを理解されたい。

Claims

ビデオ符号化時の画像フィルタリングの方法であって、
１つまたは複数の量子化パラメータ（ＱＰ）マップ（ＱｐＭａｐ）チャネルにおける複数のＱｐＭａｐ値をニューラルネットワークにロードすることと、
入力フレームに関する複数の入力ＱＰ値を調節することによってＱＰスケーリング因子を取得することと、
前記ニューラルネットワークへの前記入力フレームを前記ニューラルネットワークが学習およびフィルタリングするために、前記ＱＰスケーリング因子に応じて、前記複数のＱｐＭａｐ値を調節することと、
を含む、方法。
前記入力フレームに関する前記複数の入力ＱＰ値を調節することが、
ＱＰオフセットステップサイズ、下限、およびオフセットインデックスに基づいてＱＰオフセットを取得することであって、前記ＱＰオフセットステップサイズが、各入力ＱＰ値を調節するためのステップサイズであり、前記下限が、最大ＱＰ値低減を決定する整数値であり、前記オフセットインデックスが、シグナリングされたインデックス値であることと、
入力ＱＰ値から前記ＱＰオフセットを減算することと、を含む、請求項１に記載の方法。
エンコーダによって、前記ＱＰオフセットステップサイズ、前記下限、および前記オフセットインデックスをシグナリングすることであって、前記オフセットインデックスが、０から３までの整数であること、をさらに含む、請求項２に記載の方法。
エンコーダによって、前記ＱＰオフセットステップサイズおよび前記下限を予め定義することと、
前記エンコーダによって、前記オフセットインデックスをシグナリングすることであって、前記オフセットインデックスが、０から３までの整数であること、をさらに含む、請求項２に記載の方法。
前記ＱＰスケーリング因子を取得することが、ＱＰオフセットを取得することを含み、
前記複数のＱｐＭａｐ値を調節することが、入力ＱＰ値から前記ＱＰオフセットを減算することを含む、請求項１に記載の方法。
前記ＱＰスケーリング因子を取得することが、
ＱＰオフセットを取得することと、

という演算を使用して前記ＱＰスケーリング因子を取得することと、を含み、
α_ＣＨが、前記ＱＰスケーリング因子を示し、ＱＰ_{ｏｆｆｓｅｔ}が、前記ＱＰオフセットを示す、請求項１に記載の方法。
入力ビデオブロック毎に前記ＱＰオフセットを決定すること、をさらに含む、請求項６に記載の方法。
エンコーダによって、フレームレベルで前記ＱＰオフセットをシグナリングすること、をさらに含む、請求項６に記載の方法。
エンコーダによって、ルックアップテーブル（ＬＵＴ）を予め定義することであって、前記ＬＵＴが、複数の符号語、および前記複数の符号語に対応する複数のＱＰオフセットを含むことと、
前記ＬＵＴに基づいて符号語に対応するＱＰオフセットをデコーダが取り出すように、前記エンコーダによって、前記符号語をシグナリングすることと、
をさらに含む、請求項５に記載の方法。
エンコーダによって、異なる粒度で複数のルックアップテーブル（ＬＵＴ）を予め定義することと、
異なる粒度で前記複数のＬＵＴに基づいて符号語に対応するＱＰオフセットをデコーダが取り出すように、前記エンコーダによって、前記符号語をシグナリングすることと、
をさらに含む、請求項９に記載の方法。
エンコーダによって、異なる粒度で複数のルックアップテーブル（ＬＵＴ）を予め定義することと、
符号語およびＬＵＴステップサイズ差に基づいて前記符号語に対応するＱＰオフセットをデコーダが取り出すように、前記エンコーダによって、前記符号語および前記ＬＵＴステップサイズ差をシグナリングすることであって、前記ＬＵＴステップサイズ差が、第１のステップサイズと第２のステップサイズとの間の差であり、前記第１のステップサイズが、第１のＬＵＴにおける２つの隣接したＱＰオフセットの間の差であり、前記第２のステップサイズが、第２のＬＵＴにおける２つの隣接したＱＰオフセットの間の差であることと、
をさらに含む、請求項９に記載の方法。
ニューラルネットワークを使用したビデオ符号化時の画像フィルタリング用の装置であって、
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサに結合され、前記１つまたは複数のプロセッサによって実行可能な命令を格納するように構成されたメモリと、を備え、
前記１つまたは複数のプロセッサが、前記命令を実行すると、請求項１から１１のいずれかに記載の方法を行うように構成される、
装置。
１つまたは複数のコンピュータプロセッサによって実行されたとき、請求項１から１１のいずれかに記載の方法を前記１つまたは複数のコンピュータプロセッサに行わせるコンピュータ実行可能命令を格納する、非一時的コンピュータ可読記憶媒体。