JP7408835B2

JP7408835B2 - マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタによるビデオ処理の方法、装置及びコンピュータプログラム

Info

Publication number: JP7408835B2
Application number: JP2022561031A
Authority: JP
Inventors: ジアン，ウェイ; ワン，ウェイ; リン，シェン; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-01-11
Filing date: 2021-10-14
Publication date: 2024-01-05
Anticipated expiration: 2041-10-14
Also published as: US20220222505A1; CN115462002A; CN115462002B; KR20220166844A; EP4101072A1; WO2022150082A1; JP2023522163A; EP4101072A4

Description

Ｈ.２６４／ＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）、ＨＥＶＣ（Ｈｉｇｈ－ＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）及びＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）のような伝統的なビデオコーディング規格は、同様の（再帰的）ブロックベースのハイブリッド予測／変換フレームワークを共有し、この場合、イントラ／インター予測、整数変換及びコンテキスト適応エントロピーコーディングのような個々のコーディングツールが、全体的な効率を最適化するために集中的に手作り（handcrafted）される。時空間ピクセル近傍（spatiotemporal pixel neighborhoods）が予測信号構築のために利用され、後続の変換、量子化及びエントロピーコーディングのための対応する残差を取得する。一方、ニューラルネットワーク（ＮＮ：Neural Networks）の性質は、隣接するピクセルの受容野（receptive field）からの時空間情報を解析することによって、異なるレベルの時空間刺激（spatiotemporal stimuli）を抽出することになる。高い非線形性と非局所的時空間相関を探索する能力は、大いに改善される圧縮品質のための有望な機会を提供する。

非可逆ビデオ圧縮では、圧縮されたビデオは必然的に圧縮アーチファクトに悩まされ、これはエクスペリエンスの品質（ＱｏＥ：Quality of Experience）を大幅に低下させる。実際に許容される歪みの量は用途に依存し、一般に、圧縮比が高いほど歪みは大きくなる。圧縮品質を制御するためには多くの方法がある。例えば量子化パラメータ（ＱＰ：Quantization Parameter）は量子化ステップサイズを決定する。ＱＰ値が大きいほど、量子化ステップサイズは大きく、歪みが大きくなる。ユーザの異なる要求に対応するために、ビデオコーディング方法は、異なる圧縮品質を有するビデオを圧縮する能力を必要とする。例えばＶＶＣは、ＱＰ値を０から６３の間で変化させることを許容する。

実施形態によると、マイクロ構造化パラメータ共有に基づいて、マスク化マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタビデオ圧縮の方法は、少なくとも１つのプロセッサによって実行され、ニューラルネットワーク内の第１の層のセットについて、第１のマスクのセット及び第１の複数の重みパラメータを用いて入力と複数の量子化パラメータ値とに基づいて、第１のマスク化重みパラメータのセットを生成するステップと、複数の量子化パラメータ値に基づいて、第２の複数の重みパラメータを用いて、複数の量子化パラメータ値について、ニューラルネットワークの第２の層のセットを選択するステップと、第１のマスク化重みパラメータのセットと第２の複数の重みパラメータとに基づいて、推論出力を計算して出力するステップとを含む。

実施形態によると、マイクロ構造化パラメータ共有に基づいて、マスク化マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタビデオ圧縮の装置は、プログラムコードを記憶するよう構成される少なくとも１つのメモリと、プログラムコードを読み出し、プログラムコードによって指示されるように動作するよう構成される少なくとも１つのプロセッサとを含む。プログラムコードは、少なくとも１つのプロセッサに、ニューラルネットワークの第１の層のセットについて、第１のマスクのセット及び第１の複数の重みパラメータを用いて入力と複数の量子化パラメータ値とに基づいて、第１のマスク化重みパラメータのセットを生成させるよう構成される生成コードと、少なくとも１つのプロセッサに、複数の量子化パラメータ値に基づいて、第２の複数の重みパラメータを用いて、複数の量子化パラメータ値について、ニューラルネットワークの第２の層のセットを選択させるよう構成される第１選択コードと、少なくとも１つのプロセッサに、第１のマスク化重みパラメータのセットと第２の複数の重みパラメータとに基づいて、推論出力を計算させるよう構成される計算コードと、少なくとも１つのプロセッサに、計算された推論出力を出力させるよう構成される出力コードと、を含む。

実施形態によると、非一時的なコンピュータ読取可能媒体は、マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタでビデオを処理するために、少なくとも１つのプロセッサによって実行されると、該少なくとも１つのプロセッサに、ニューラルネットワークの第１の層のセットについて、第１のマスクのセット及び第１の複数の重みパラメータを用いて入力と複数の量子化パラメータ値とに基づいて、第１のマスク化重みパラメータのセットを生成させ、複数の量子化パラメータ値に基づいて、第２の複数の重みパラメータを用いて、複数の量子化パラメータ値について、ニューラルネットワークの第２の層のセットを選択させ、第１のマスク化重みパラメータのセットと第２の複数の重みパラメータとに基づいて、推論出力を計算させ、計算された推論出力を出力させる、命令を記憶する。

実施形態に従って、本明細書において説明される方法、装置及びシステムが実装され得る環境の図である。

図１の１つ以上のデバイスの例示的な構成要素のブロック図である。

実施形態に従った、テスト段階中の、マイクロ構造化マスクを使用するビデオ圧縮のマルチ品質ループフィルタ（ＭＱＬＦ：Multi-Quality Loop Filter）方法のためのマルチタスクニューラルネットワーク（ＭＴＮＮ：Multi-Task Neural Network）の推論のブロック図である。

実施形態に従った、トレーニング段階中の、マイクロ構造化マスクを使用するマルチタスクニューラルネットワークビデオ圧縮のためのトレーニング装置のブロック図である。

実施形態に従った、トレーニング段階中の、図４のトレーニング装置からの重み充填（Weight Filling）モジュールの詳細なブロック図である。

実施形態に従った、トレーニング段階中の、図４のトレーニング装置からのマイクロ構造化プルーニングモジュールの詳細なブロック図である。

実施形態に従った、共有マルチタスク層、タスク固有層及びマイクロ構造化マスクを有するＭＴＮＮを使用するＭＱＬＦによるビデオ圧縮のための方法のフローチャートである。

実施形態に従った、共有マルチタスク層、タスク固有層及びマイクロ構造化マスクを有するＭＴＮＮを使用するＭＱＬＦによるビデオ圧縮のための装置のブロック図である。

ディープニューラルネットワーク（ＤＮＮ：Deep Neural Network）ベースの方法は、ビデオノイズ除去、超解像度、ぼけ除去、デブロッキング等、圧縮ビデオの視覚品質を良好に強化するために開発されている。しかしながら、ＮＮベースの品質強化法方法にとって、多数のＱＰに対応することは困難な問題であった。伝統的に、各ＱＰ値は、個々のタスクとして扱われ、１つのＮＮモデルインスタンスは、各ＱＰ値についてトレーニングされて展開される。多数のＱＰ値によって生じる記憶及び計算コストを低減することが重要である。

p個のＱＰ値のセットqp₁，．．．qp_pが与えられると、１つの解決策は、すべてのp個の値を区別することなく１つのセットとして扱い、したがって、異なるＱＰ値のトレーニングデータを組み合わせることによって、すべてのp個の値について１つのＮＮモデルインスタンスをトレーニングすることである。改善された解決策は、ＱＰ値qp_iをＮＮモデルの追加入力として使用し、異なるＱＰ値の組み合わされたトレーニングデータで１つのＮＮモデルインスタンスをトレーニングすることである。ＱＰ値を入力として使用することによって、ＮＮモデルインスタンスがそのパラメータを編成することを自動的に学習し、１つのサブグループが各ＱＰ値に対応する、データサンプルのサブグループの分布を暗黙的にモデル化することが期待される。

実施形態は、マイクロ構造化パラメータ共有に基づくマルチタスクニューラルネットワーク（ＭＴＮＮ：Multi-Task Neural Network）を用いることによる、マルチ品質ループフィルタ（ＭＱＬＦ：Multi-Quality Loop Filter）メカニズムに関連し得る。１つのＭＴＮＮモデルインスタンスが、多数のＱＰ値を収容（accommodate）するために使用され、ここで、バイナリマイクロ構造化マスク（ＭＳＭ：Micro-Structured Mask）が各ＱＰ値に関連付けられ、そのＱＰ値に対するＭＴＮＮの推論計算（inference computation）を明示的にガイドする。

したがって、本開示の実施形態は、復号されたビデオを処理してノイズ、ブラー及びブロック効果のような１つ以上のタイプのアーチファクトを低減するために、マルチ品質ループフィルタ（ＭＱＬＦ）メカニズムを使用する方法及び装置を説明し得る。マイクロ構造化パラメータ共有に基づくマルチタスクニューラルネットワーク（ＭＴＮＮ）が提案され、ここで、１つのＭＴＮＮモデルインスタンスが、多数の量子化パラメータ（ＱＰ）値を収容するために使用され、１つのマイクロ構造化マスク（ＭＳＭ）が各ＱＰ値に割り当てられて、そのＱＰ値に対するＭＴＮＮの推論計算を明示的にガイドする。

図１は、実施形態に従った、本明細書で説明される方法、装置及びシステムが実装され得る環境１００の図である。

図１に示されるように、環境１００は、ユーザデバイス１１０、プラットフォーム１２０及びネットワーク１３０を含み得る。環境１００のデバイスは、有線接続、無線接続又は有線及び無線接続の組合せを介して相互接続し得る。

ユーザデバイス１１０は、プラットフォーム１２０に関連付けられる情報を受信、生成、記憶、処理及び／又は提供することが可能な１つ以上のデバイスを含む。例えばユーザデバイス１１０は、コンピューティングデバイス（例えばデスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバ等）、携帯電話（例えばスマートフォン、無線電話等）、ウェアラブルデバイス（例えば一対のスマートグラス又はスマートウォッチ）又は類似のデバイスを含み得る。いくつかの実装では、ユーザデバイス１１０は、プラットフォーム１２０から情報を受信及び／又はプラットフォーム１２０へ情報を送信し得る。

プラットフォーム１２０は、本明細書の他の箇所で説明されるように、１つ以上のデバイスを含む。いくつかの実装では、プラットフォーム１２０は、クラウドサーバ又はクラウドサーバのグループを含み得る。いくつかの実装形態では、プラットフォーム１２０は、ソフトウェア構成要素がスワップイン又はアウトされ得るようにモジュール化されるよう設計され得る。したがって、プラットフォーム１２０は、異なる使用のために容易に及び／又は迅速に再構成され得る。

いくつかの実装では、図示されるように、プラットフォーム１２０は、クラウドコンピューティング環境１２２でホストされ得る。特に、本明細書に記載される実装は、プラットフォーム１２０がクラウドコンピューティング環境１２２でホストされるものとして説明するが、いくつかの実装では、プラットフォーム１２０は、クラウドベースではなくてもよく（すなわち、クラウドコンピューティング環境の外部で実装されてもよく）又は部分的にクラウドベースであってもよい。

クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストするシステム及び／又はデバイスの物理的な位置及び構成に関するエンドユーザ（例えばユーザデバイス１１０）の知識を必要としない、計算、ソフトウェア、データアクセス、ストレージ等のサービスを提供し得る。図示されるように、クラウドコンピューティング環境１２２は、コンピューティングリソース１２４のグループ（「（複数の）コンピューティングリソース１２４」と総称され、個々に「コンピューティングリソース１２４」と称される）を含み得る。

コンピューティングリソース１２４は、１つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス又は他のタイプの計算及び／又は通信デバイスを含む。いくつかの実装では、コンピューティングリソース１２４はプラットフォーム１２０をホストし得る。クラウドリソースは、コンピューティングリソース１２４において実行される計算インスタンス、コンピューティングリソース１２４において提供されるストレージデバイス、コンピューティングリソース１２４によって提供されるデータ転送デバイス等を含み得る。いくつかの実装では、コンピューティングリソース１２４は、有線接続、無線接続又は有線及び無線接続の組合せを介して、他のコンピューティングリソース１２４と通信し得る。

図１に更に示されるように、コンピューティングリソース１２４は、１つ以上のアプリケーション（「ＡＰＰ」）１２４－１、１つ以上の仮想マシン（「ＶＭ」）１２４－２、仮想化ストレージ（「ＶＳ」）１２４－３、１つ以上のハイパーバイザ（「ＨＹＰ」）１２４－４等のようなクラウドリソースのグループを含む。

アプリケーション１２４－１は、ユーザデバイス１１０及び／又はプラットフォーム１２０に提供され得るか又はこれらによってアクセスされ得る、１つ以上のソフトウェアアプリケーションを含む。アプリケーション１２４－１は、ユーザデバイス１１０上にソフトウェアアプリケーションをインストールして実行する必要をなくすことができる。例えばアプリケーション１２４－１は、プラットフォーム１２０に関連付けられるソフトウェア及び／又はクラウドコンピューティング環境１２２を介して提供可能な任意の他のソフトウェアを含み得る。いくつかの実装では、１つのアプリケーション１２４－１が、仮想マシン１２４－２を介して、１つ以上の他のアプリケーション１２４－１へ／から情報を送信／受信し得る。

仮想マシン１２４－２は、物理マシンのような、プログラムを実行するマシン（例えばコンピュータ）のソフトウェア実装を含む。仮想マシン１２４－２は、仮想マシン１２４－２による任意の実マシンへの使用及び対応の程度に応じて、システム仮想マシン又はプロセス仮想マシンのいずれかであり得る。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ」）の実行をサポートする完全なシステムプラットフォームを提供し得る。プロセス仮想マシンは、単一のプログラムを実行し、単一のプロセスをサポートし得る。いくつかの実装では、仮想マシン１２４－２は、ユーザ（例えばユーザデバイス１１０）に代わって実行してよく、データ管理、同期化又は長時間データ転送のようなクラウドコンピューティング環境１２２のインフラストラクチャを管理し得る。

仮想化ストレージ１２４－３は、コンピューティングリソース１２４のストレージシステム又はデバイス内で仮想化技術を使用する、１つ以上のストレージシステム及び／又は１つ以上のデバイスを含む。いくつかの実装では、ストレージシステムのコンテキスト内では、仮想化のタイプは、ブロック仮想化及びファイル仮想化を含み得る。ブロック仮想化は、物理ストレージからの論理ストレージの抽象化（又は分離）を参照してよく、その結果、ストレージシステムは、物理ストレージ又は異種構造に関係なく、アクセスされ得る。この分離は、管理者がエンドユーザのストレージを管理する方法におけるストレージシステムの管理者の柔軟性を許容し得る。ファイル仮想化は、ファイルレベルでアクセスされるデータと、ファイルが物理的に記憶される場所との間の依存関係を排除し得る。これは、ストレージの使用、サーバ統合及び／又は非破壊的なファイルマイグレーション（non-disruptive file migrations）の性能の最適化を可能にし得る。

ハイパーバイザ１２４－４は、複数のオペレーティングシステム（例えば「ゲストオペレーティングシステム」）が、コンピューティングリソース１２４のようなホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技術を提供し得る。ハイパーバイザ１２４－４は、ゲストオペレーティングシステムに対して仮想オペレーティングプラットフォームを提示し得、ゲストオペレーティングシステムの実行を管理し得る。様々なオペレーティングシステムの複数のインスタンスは、仮想化ハードウェアリソースを共有し得る。

ネットワーク１３０は、１つ以上の有線及び／又は無線ネットワークを含む。例えばネットワーク１３０は、セルラーネットワーク（例えば第５世代（５Ｇ）ネットワーク、長期進化（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、コード分割多元接続（ＣＤＭＡ）ネットワーク等）、公衆陸上移動網（ＰＬＭＮ：public land mobile network）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、電話網（例えば公衆交換電話網（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワーク等及び／又はこれら又は他のタイプのネットワークの組合せを含んでもよい。

図１に示されるデバイス及びネットワークの数及び配置は、一例として提供される。実際には、図１に示されるものよりも、追加のデバイス及び／又はネットワーク、より少ないデバイス及び／又はネットワーク、異なるデバイス及び／又はネットワーク又は異なるように配置されるデバイス及び／又はネットワークが存在し得る。さらに、図１に示される２つ以上のデバイスが、単一のデバイス内に実装されてもよく、あるいは図１に示される単一のデバイスが、複数の分散デバイスとして実装されて得る。加えて又は代替的に、環境１００のデバイスのセット（例えば１つ以上のデバイス）は、環境１００のデバイスの別のセットによって実行されるものとして説明される１つ以上の機能を実行し得る。

図２は、図１の１つ以上のデバイスの例示的な構成要素のブロック図である。

デバイス２００は、ユーザデバイス１１０及び／又はプラットフォーム１２０に対応し得る。図２に示されるように、デバイス２００は、バス２１０、プロセッサ２２０、メモリ２３０、記憶構成要素２４０、入力構成要素２５０、出力構成要素２６０及び通信インタフェース２７０を含み得る。

バス２１０は、デバイス２００の構成要素間の通信を可能にする構成要素を含む。プロセッサ２２０は、ハードウェア、ファームウェア又はハードウェアとソフトウェアの組合せで実装される。プロセッサ２２０は、中央処理ユニット（ＣＰＵ）、グラフィクス処理ユニット（ＧＰＵ）、加速処理ユニット（ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）又は別のタイプの処理構成要素である。いくつかの実装では、プロセッサ２２０は、機能を実行するようにプログラムされることが可能な１つ以上のプロセッサを含む。メモリ２３０は、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）及び／又はプロセッサ２２０による使用のための情報及び／又は命令を記憶する別のタイプの動的又は静的ストレージデバイス（例えばフラッシュメモリ、磁気メモリ及び／又は光メモリ）を含む。

記憶構成要素２４０は、デバイス２００の操作及び使用に関連する情報及び／又はソフトウェアを記憶する。例えば記憶構成要素２４０は、ハードディスク（例えば磁気ディスク、光ディスク、光磁気ディスク及び／又はソリッドステートディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ及び／又は別のタイプの非一時的なコンピュータ読取可能媒体を、対応するドライブとともに含み得る。

入力構成要素２５０は、デバイス２００が、ユーザ入力（例えばタッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ及び／又はマイクロホン）を介するなどして情報を受け取ることを可能にする構成要素を含む。加えて又は代替的に、入力構成要素２５０は、情報を感知するためのセンサ（例えば全地球測位システム（ＧＰＳ）構成要素、加速度計、ジャイロスコープ及び／又はアクチュエータ）を含んでもよい。出力構成要素２６０は、デバイス２００からの出力情報を提供する構成要素（例えばディスプレイ、スピーカ及び／又は１つ以上の発光ダイオード（ＬＥＤ））を含む。

通信インタフェース２７０は、デバイス２００が有線接続、無線接続又は有線と無線接続の組合せを介するなどして他のデバイスと通信することを可能にする、トランシーバ状の構成要素（例えばトランシーバ及び／又は別個の受信機と送信機）を含む。通信インタフェース２７０は、デバイス２００が別のデバイスから情報を受け取り、かつ／又は別のデバイスに情報を提供することを可能にし得る。例えば通信インタフェース２７０は、イーサネット（登録商標）インタフェース、光インタフェース、同軸インタフェース、赤外線インタフェース、無線周波数（ＲＦ）インタフェース、ユニバーサルシリアルバス（ＵＳＢ）インタフェース、Ｗｉ－Ｆｉインタフェース、セルラーネットワークインタフェース等を含み得る。

デバイス２００は、本明細書で説明される１つ以上のプロセスを実行し得る。デバイス２００は、プロセッサ２２０が、メモリ２３０及び／又は記憶構成要素２４０のような、非一時的なコンピュータ読取可能媒体によって記憶されるソフトウェア命令を実行することに応答して、これらのプロセスを実行し得る。コンピュータ読取可能媒体は、本明細書では、非一時的なメモリデバイスとして定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間又は複数の物理ストレージデバイスにわたって広がるメモリ空間を含む。

ソフトウェア命令は、別のコンピュータ読取可能媒体から又は通信インタフェース２７０を介して別のデバイスから、メモリ２３０及び／又は記憶構成要素２４０に読み込まれてよい。実行されると、メモリ２３０及び／又は記憶構成要素２４０に記憶されたソフトウェア命令は、プロセッサ２２０に、本明細書で説明される１つ以上のプロセスを実行させることができる。加えて又は代替的に、ハードワイヤード回路が、本明細書で説明される１つ以上のプロセスを実行するために、ソフトウェア命令の代わりに又はそれと組み合わせて使用されてよい。したがって、本明細書で説明される実施形態は、ハードウェア回路とソフトウェアの特定の組合せに限定されない。

図２に示される構成要素の数及び配置は、一例として提供される。実際には、デバイス２００は、図２に示されるものよりも、追加の構成要素、より少ない構成要素、異なる構成要素又は異なる配置の構成要素を含んでもよい。加えて又は代替的に、デバイス２００の構成要素（例えば１つ以上の構成要素）のセットは、デバイス２００の構成要素の別のセットによって実行されるものとして説明される１つ以上の機能を実行してもよい。

マイクロ構造化パラメータ共有に基づく、マスク化マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタのビデオ圧縮のための方法及び装置が、次に詳細に説明される。

典型的なビデオ圧縮フレームワークを、以下のように説明することができる。入力ビデオxが複数の画像フレームx₁，．．．，x_Tを含む仮定する。第１の動き推定（motion estimation）ステップでは、フレームを空間ブロックに区分化し、各ブロックを、より小さなブロックに反復的に区分化することができ、各ブロックについて、現在のフレームx_tと、一組の以前の再構成フレーム
（外１）

との間の一組の動きベクトルm_tが計算される。下付き文字tは、現在のt番目の符号化サイクルを示し、これは、画像フレームのタイムスタンプと一致しなくてよいことに留意されたい。また、以前の再構成フレーム
（外２）

は、複数の以前の符号化サイクルからのフレームを含む。次に、第２の動き補償ステップでは、予測フレーム
（外３）

が、動きベクトルm_tと、元のフレームx_tと予測フレーム
（外４）

との間の残差r_tとに基づいて、以前の再構成フレーム
（外５）

の対応するピクセルをコピーすることによって取得される。第３のステップでは、残差r_tが量子化される（典型的には、より良好な量子化性能を達成するためにr_tのＤＣＴ係数が量子化される、ＤＣＴのような変換の後に）。量子化ステップの結果として、量子化フレーム
（外６）

が得られる。動きベクトルm_tと量子化フレーム
（外７）

の両方が、エントロピーコーディングによってビットストリームに符号化され、デコーダに送信される。次いで、デコーダ側において、量子化フレーム
（外８）

が、（典型的には、非量子化係数を用いるＩＤＣＴのような逆変換を通して）非量子化され、復元された残差
（外９）

を取得する。次に、復元された残差
（外１０）

を予測フレーム
（外１１）

に加算して、再構成フレーム
（外１２）

を取得する。

再構成フレーム
（外１３）

の視覚品質を改善するために、追加の構成要素が更に使用される。デブロッキングフィルタ（ＤＦ）、サンプル適応オフセット（ＳＡＯ）、適応ループフィルタ（ＡＬＦ）、クロス構成要素適応ループフィルタ（ＣＣＡＬＦ）等を含む、以下の強化モジュール（enhancement modules）の１つ又は多数が、再構成フレーム
（外１４）

を処理するために選択され得る。選択されたモジュールの処理順序はこれに限定されず、変更することができる。

本開示の実施形態は、再構成フレーム
（外１５）

の視覚品質を強化するためのＭＱＬＦを提案する。目標は、再構成フレーム
（外１６）

におけるノイズ、ぼけ、ブロック効果のようなアーチファクトを低減させ、結果として高品質フレーム
（外１７）

を得ることである。具体的には、ＭＴＮＮを使用して、高品質フレーム
（外１８）

を計算し、ここで、１つのモデルインスタンスが多数のＱＰ値を収容することができる。バイナリＭＳＭが各ＱＰ値に使用され、そのＱＰ値に対するＭＴＮＮの推論計算をガイドする。

提案されるＭＱＬＦは、再構成フレーム
（外１９）

の視覚品質を改善するために、前述した追加の構成要素（すなわち、ＤＦ、ＳＡＯ、ＡＬＦ、ＣＣＡＬＦ等）の１つ又は多数と組み合わせて使用されることができる。例えば再構成フレーム
（外２０）

は、最初にＤＦを通過し、続いてＭＱＬＦを通過し、更に続いてＳＡＯとＡＬＦを通過することができる。これらの構成要素が使用される順序は、任意に変更することができる。一例示的な実施形態では、提案される方法はまた、再構成フレーム
（外２１）

の視覚品質を強化するために、他のすべての構成要素の置き換えとして単独で使用されることもできる。

ＭＱＬＦは、上述の追加の構成要素（例えばＤＦ、ＳＡＯ、ＡＬＦ、ＣＣＡＬＦ等）の１つ又は多数と組み合わせて、フレームの各々におけるスライス／ＣＵレベルの両方に使用され得る。言い換えると、再構成フレーム
（外２２）

は、スライススイッチオン（Slice switch On）が適用される場合のＩフレームのように、１つのフレーム全体とすることができ、階層レベル０のフレームを示す。また、再構成フレーム
（外２３）

は、フレーム内のブロック、例えばＣＴＵスイッチオン（CTU switch On）が適用される場合のＣＴＵとすることができ、階層構造の下位レベルのフレームを示す。再構成フレーム
（外２４）

を計算する特定のビデオ圧縮方法（例えばＨＥＶＣ、ＶＶＣ）に対する制限はない。

図３は、実施形態に従った、テスト段階中の、マルチ品質ループフィルタ（ＭＱＬＦ：Multi-Quality Loop Filter）装置３００のためのマイクロ構造化パラメータ共有によるマルチタスクニューラルネットワーク（ＭＴＮＮ：Multi-Task Neural Network）の推論のブロック図である。

図３に示されるように、テスト装置３００は、ＭＴＮＮ推論モジュール３１０を含む。

サイズ（h，w，c）の入力
（外２５）

を所与とすると、h、w、cはそれぞれ、高さ、幅及びチャネルの数であり、ＭＱＬＦの推論ワークフローのテスト段階を以下のように説明することができる。

ＭＱＬＦは、１組の共有マルチタスク層（ＳＭＴＬ：Shared Multi-Task Layers）と１組のタスク固有層（ＴＳＬ：Task-Specific Layers）という２つの部分に分けることができる、ＭＴＮＮを使用する。ＳＭＴＬのモデルパラメータは、異なるＱＰ値にわたって共有される（すなわち、異なるＱＰ値に対して同じ）。ＴＳＬのモデルパラメータは、各ＱＰ値について個別である。ある順序で、好ましくは入力フレーム
（外２６）

の低い方から高い方への再構成品質に対応する降順でランク付けられた、p個のＱＰ値qp₁，．．．，qp_pが存在すると仮定する。
（外２７）

が、ＳＭＴＬの１組の重みパラメータを示すものとし、ここで、各
（外２８）

は、j番目の層の重みパラメータである。
（外２９）

が、ＱＰ値qp_iに対応する１組のバイナリマスクを示すものとし、ここで、各バイナリマスク
（外３０）

は、j番目の層の重みパラメータ
（外３１）

と同じ形状を有する。バイナリマスク
（外３２）

の各エントリは１又は０であり、重みパラメータ
（外３３）

内の対応する重みエントリが、ＱＰ値qp_iの推論計算に関与するかどうかを示す。
（外３４）

が、ＱＰ値qp_iに対応するＴＳＬの１組の重みパラメータを示すものとし、ここで、
（外３５）

は、j番目の層の重みパラメータである。層のタイプ（例えば畳み込み、正規化、完全接続など）及びＳＭＴＬとＴＳＬ内の層の位置に対して制限を設けない。例えばＳＴＭＬとＴＳＬの層をインターレースして、ＭＴＮＮを形成することができる。

重みパラメータ
（外３６）

の各々は、サイズ（c₁，k₁，k₂，k₃，c₂）の一般的な５次元（５Ｄ）テンソルである。対応する層の入力は、サイズ（h₁，w₁，d₁，c₁）の４次元（４Ｄ）テンソルＡであり、出力は、サイズ（h₂，w₂，d₂，c₂）の４ＤテンソルＢである。サイズc₁，k₁，k₂，k₃，c₂，h₁，w₁，d₁，h₂，w₂，d₂は、１以上の整数である。サイズc₁，k₁，k₂，k₃，c₂，h₁，w₁，d₁，h₂，w₂，d₂のいずれかが１に等しいとき、対応するテンソルはより小さい次元に減少する。各テンソルの各アイテムは浮動数（floating number）である。パラメータh₁，w₁及びd₁は入力Ａの高さ、重み及び深度である。同様に、パラメータh₂，w₂及びd₂は出力Ｂの高さ、重み及び深度である。パラメータc₁は、入力Ａの入力チャネルの数である。同様に、パラメータc₂は、出力Ｂの出力チャネルの数である。パラメータk₁，k₂及びk₃は、それぞれ高さ軸、重み軸、深度軸に対応する畳み込みカーネルのサイズである。出力Ｂは、入力Ａと、重みパラメータ
（外３７）

と、可能な場合にはマスク
（外３８）

とに基づいて、畳み込み演算Θを通して計算される。重みパラメータ
（外３９）

については、マスク
（外４０）

もそれに関連付けられてよく、マスク
（外４１）

のすべてのエントリが１に設定されることに留意されたい。この観点から、個々のタスクとして、各個々のＱＰ値について個々のモデルインスタンスをトレーニングする伝統的な方法は、本開示において提案される方法の特殊なケースとして見なされることができ、この場合、ＳＭＴＬは層及びマスクを有さず、一方、ＴＳＬがすべての層を有する。

出力Ｂは、入力Ａを、マスク化された重みと畳み込むことによって取得され得る：

ここで、・は要素ごとの乗算である。

図３を参照すると、上記の学習された重みパラメータ

及びマスク

が、入力
（外４２）

及び関連付けられるターゲットＱＰ値
（外４３）

とともに与えられると、対応するマスク
（外４４）

を使用して、ＳＭＴＬのためのマスク化重みパラメータ
（外４５）

を生成し、ＱＰ値
（外４６）

についてのＴＳＬの対応するサブネットワークが、重みパラメータ
（外４７）

を用いて選択される。次いで、ＳＭＴＬ推論のためのマスク化重みパラメータ
（外４８）

を使用し、かつＴＳＬ推論のための重みパラメータ
（外４９）

を使用して、ＭＴＮＮ推論モジュール３１０は、推論出力
（外５０）

を計算し、これは、強化された高品質の結果である。

各重みパラメータ
（外５１）

の形状は、同じ出力を取得するために、整形（reshaped）された入力の、整形された
（外５２）

との畳み込みに対応して、変更されることができる。同様に、各マスク
（外５３）

の形状も変更することもできる。実施形態において、各重みパラメータの形状は、２つの構成をとり得る。まず、５Ｄ重みテンソルを、サイズ（c₁’，c₂’，k）の３Ｄテンソルに整形し、ここで、c₁’×c₂’×k＝c₁×c₂×k₁×k₂×k₃である。例えば構成はc₁’＝c₁，c₂’＝c_２，k＝k₁×k₂×k₃である。次に、５Ｄ重みテンソルを、（c₁’，c₂’）の２Ｄ行列に整形し、ここで、c₁’×c₂’＝c₁×c₂×k₁×k₂×k₃である。例えばいくつかの構成は、c₁’＝c₁，c₂’＝c₂×k₁×k₂×k₃又はc₂’＝c₂，c₁’＝c_１×k₁×k₂×k₃を含む。

マスクの所望のマイクロ構造は、マスク化重みパラメータを使用する推論計算を加速することができるように、畳み込み演算が実装される方法の基礎となるＧＥＭＭ行列乗算プロセスと整合するように設計される。実施形態では、ブロックごと（block-wise）のマイクロ構造が、３Ｄ整形重みテンソル又は２Ｄ整形重み行列における各層のマスク（すなわち、マスク化重みパラメータ）に使用される。具体的には、整形された３Ｄ重みテンソルの場合、ブロックは、サイズ（g₁’，g₂’，g_k）のブロックに区分化される。整形された２Ｄ重み行列の場合、ブロックは、（g₁’，g₂’）のブロックに区分化される。g₁’，g₂’，g_kのいずれかがサイズ１をとると、対応するブロックはより小さい次元に減少する。マスクのブロック内のすべてのアイテムは、同じバイナリ値、１又は０を有する。すなわち、重みパラメータは、ブロックごとのマイクロ構造化の方式でマスクされる。

実施形態によるＮＮモデルのトレーニングプロセスを次に説明する。提案される多段階トレーニングフレームワークの全体的なワークフローが図４に示されている。トレーニング段階の目標は、ＭＴＮＮモデルインスタンスを、重みパラメータ
（外５４）

と、１組のマイクロ構造化マスク
（外５５）

で学習し、各マスク
（外５６）

及び重みパラメータ
（外５７）

は、関心のあるＱＰ値qp_iの各ＱＰ値をターゲットとしている。この目標を達成するために、漸進的な多段階トレーニングフレームワークが使用され得る。

図４は、実施形態に従った、トレーニング段階中の、マイクロ構造化マスクによるマルチタスクニューラルネットワークのビデオ圧縮のためのトレーニング装置４００のブロック図である。

図４に示されるように、トレーニング装置４００は、重み充填モジュール４１０と、マイクロ構造化プルーニングモジュール４２０とを含む。

現在のタスクが、ＱＰ値qp_iをターゲットとするマスク、重み
（外５８）

を有する現在のモデルインスタンス及び対応するマスク
（外５９）

をトレーニングすることであると仮定する。また、現在のＱＰ値qp_iは、学習すべき重みパラメータ
（外６０）

を有する、それらの対応するＴＳＬを有する。言い換えると、目標は、マスク
（外６１）

と、更新された重みパラメータ
（外６２）

と、新しい重みパラメータ
（外６３）

を取得することである。

まず、マスク
（外６４）

によってマスク化重みパラメータ
（外６５）

がフィックス（fix）される。例えば対応するマスクエントリ
（外６６）

が１である重みパラメータである。次いで、学習プロセスが重み充填モジュール４１０を通して実施され、ＳＭＴＬの
（外６７）

内の残りのフィックスされていない重みと、ＴＳＬの重み
（外６８）

を満たす（fill up）。この結果、一組の更新された重みパラメータ
（外６９）

が得られる。

次いで、マイクロ構造化プルーニングモジュール４２０は、１組の更新された重みパラメータ
（外７０）

と、マスク
（外７１）

と、
（外７２）

とに基づいて、マイクロ構造化プルーニングを実行して、プルーニングされたモデルインスタンス及びマスク、
（外７３）

を取得する。

図５は、実施形態に従った、トレーニング段階中の、図４の重み充填モジュール４１０のワークフローである。

図５に示されるように、重み充填モジュール４１０は、ＭＴＮＮ推論モジュール３２０、重み固定及び充填モジュール５１０、損失計算モジュール５２０、追加損失計算モジュール５３０及び、バックプロパゲーション（Back-Propagation）及び重み更新モジュール５４０を含む。

現在の重み
（外７４）

と、対応するマスク
（外７５）

が与えられると、
（外７６）

によってマスクされる
（外７７）

内の重みパラメータは、重み固定及び充填モジュール５１０においてフィックスされる。次いで、
（外７８）

内の残りの重みパラメータが再初期化（reinitialized）される。例えばこれは、それらをいくつかのランダムな初期値に設定すること又は重み
（外７９）

を有する第１の完全なモデルのような、以前に学習された完全なモデルの対応する重みを使用することによって行われてよい。これはＳＭＴＬの重みパラメータ
（外８０）

を与える。ＴＳＬの重みパラメータ
（外８１）

も初期化される（例えばそれらをいくつかのランダムな初期値に設定すること又は現在のＱＰ値qp_iについてトレーニングされた個々の完全なモデルのような、何らかの以前に学習された完全なモデルの対応する重みを使用することによって）。その後、トレーニング入力
（外８２）

はＭＴＮＮを通過して、ＳＴＭＬ推論のための重みパラメータ
（外８３）

及びＴＳＬ推論のための重みパラメータ
（外８４）

を使用して、ＭＴＮＮ推論モジュール３２０において、出力
（外８５）

を計算する。

トレーニングの目的のために、各トレーニング入力
（外８６）

は、ＱＰ値qp_iに対して対応するグラウンドトゥルース（ground-truth）
（外８７）

を有する。例えばトレーニング入力
（外８８）

は、ＱＰ値qp_iを使用するビデオ圧縮方法でグラウンドトゥルース
（外８９）

の圧縮されたバージョンから再構成される。トレーニングの一般的な目標は、グラウンドトゥルース
（外９０）

と推定される出力
（外９１）

との間の歪みを最小限にすることである。損失計算モジュール５２０は、ＭＳＥやＳＳＩＭのような、グラウンドトゥルース
（外９２）

と推定される出力
（外９３）

との間の歪みを測定するために、歪み損失

を計算する。いくつかの例示的な実施形態では、追加損失計算モジュール５３０は、トレーニングプロセスを規則化するのを助けるために、他の損失を計算することができる。例えば知覚損失を使用することができ、この場合、ＶＧＧのような特徴抽出ＮＮへの入力としてグラウンドトゥルース
（外９４）

又は推定される出力
（外９５）

のいずれかを渡すことによって、特徴マップを計算することができ、グラウンドトゥルース
（外９６）

及び推定される出力
（外９７）

によって計算された特徴マップの間の差異を測定し、重み付けし、歪み損失

と組み合わせることができる。また、敵対的損失（adversarial loss）が使用されてもよく、この場合、弁別器（discriminator）が、
、グラウンドトゥルース
（外９８）

又は推定される出力
（外９９）

が、元（original）の入力であるか又はＭＴＮＮによる生成された入力であるかを分類しようと試みる。分類損失が、敵対的損失として使用され、重み付けされ、歪み損失

と組み合わせることができる。バックプロパゲーション及び重み更新モジュール５４０は、この組み合わされた損失（又は他の損失が使用されない場合には、

）の勾配を計算し、ＳＭＴＬのフィックスされていない重みパラメータ
（外１００）

及びＴＳＬの重みパラメータ
（外１０１）

を更新する。このバックプロパゲーション及び重み更新モジュール５４０では、（例えば最大反復数に達するまで又は損失が収束するまで）複数の反復が行われてよい。

図６は、実施形態に従った、トレーニング段階中の、図４のマイクロ構造化プルーニングモジュール４２０の詳細なワークフローである。

図６に示されるように、マイクロ構造化プルーニングモジュール４２０は、ＭＴＮＮ推論モジュール３２０、損失計算モジュール５２０、追加損失計算モジュール５３０、バックプロパゲーション及び重み更新モジュール５４０及びプルーニングマスク計算モジュール６１０を含む。

まず、重み充填モジュール４１０からのＳＭＴＬの更新された重み
（外１０２）

とＴＳＬの重み
（外１０３）

、並びに現在のマスク
（外１０４）

が与えられると、プルーニングマスク計算モジュール６１０はプルーニングマスクを計算する。詳細には、
（外１０５）

によってマスクされる更新された重みパラメータ
（外１０６）

は、
（外１０７）

内の残りのフィックスされていない重みパラメータについて、フィックスされ、前述のように、各マイクロ構造化ブロックbについて、プルーニング損失Lp(b)が計算される（例えばブロック内の重みのL₁又はL₂ノルム）。プルーニングマスク計算モジュール６１０は、マイクロ構造化ブロックを、それらの、プルーニング損失Lp(b)に基づいて昇順にランク付けし、ブロックは、停止基準に到達するまで、ランク付けされたリストからトップダウンにプルーニングされる（例えばプルーニングされたブロック内の対応する重みを０に設定することによって）。例えば検証データセットS_valが与えられると、重み

を有するＭＴＮＮモデルは、次のように歪み損失L_valを生成する：

より多くのマイクロブロックがプルーニングされるにつれて、この歪み損失L_valは徐々に増加する。停止基準は、歪み損失L_valが増加することを可能にする相当なパーセンテージ閾値（tolerable percentage threshold）とすることができる。停止基準はまた、プルーニングされるマイクロ構造化ブロックの単純なパーセンテージ（例えば５０％）とすることができる。１組のバイナリプルーニングマスク
（外１０８）

を生成することができ、ここで、プルーニングマスク
（外１０９）

内のエントリは１であり、これは、
（外１１０）

内の対応する重みパラメータがプルーニングされることを意味する。次いで、バックプロパゲーション及び重み更新モジュール５４０において、プルーニングされているとしてマスク
（外１１１）

によってマスクされる重み
（外１１２）

内の追加のフィックスされていない重みがフィックスされ、プルーニングマスク
（外１１３）

のいずれによってもマスクされない残りの重み
（外１１４）

が更新され、重み
（外１１５）

が定期的なバックプロパゲーションによって更新されて、トレーニングデータに対して、組み合わされた損失（他の損失が使用されない場合は、歪み損失

）を最適化する。複数の反復が、例えば反復の最大数に達するまで又は損失が収束するまで行われ得る。

対応するマスク
（外１１６）

を次のように計算することができる：

すなわち、
（外１１７）

においてマスクされていない
（外１１８）

内のプルーニングされていないエントリは更に、
（外１１９）

においてマスクされているとして１に設定される。また、上記のマイクロ構造化重みプルーニングプロセスは、更新された重み
（外１２０）

を出力する。上記のマイクロ構造化プルーニングプロセスは任意に、モデルサイズ及び推論計算を更に低減するために、重み
（外１２１）

に適用することもできることに留意されたい。すなわち、プルーニングマスク計算モジュール６１０はまた、ＴＳＬの重みをマイクロ構造に整形して区分化し、これらのマイクロ構造のプルーニング損失を計算し、プルーニング損失が小さい最上位にランク付けされたマイクロ構造をプルーニングすることができる。また、任意に、ＭＴＮＮ再構成品質と記憶及び計算のバランスを取るためにそうすることを選択することもできる。

最終的に、最後に更新された重み
（外１２２）

は、ＭＱＬＦのための学習されたＭＴＮＮモデルインスタンスのＳＭＴＬについての最終的な出力重み
（外１２３）

である。

図７は、実施形態に従った、共有マルチタスク層、タスク固有層及びマイクロ構造化マスクを有するＭＴＮＮを使用するＭＱＬＦによるビデオ圧縮のための方法７００のフローチャートである。

いくつかの実装では、図７の１つ以上のプロセスブロックは、プラットフォーム１２０によって実行されてもよい。いくつかの実装では、図７の１つ以上のプロセスブロックは、ユーザデバイス１１０のような、プラットフォーム１２０から分離された又はプラットフォーム１２０を含む、別のデバイス又はデバイスのグループによって実行されてもよい。

図７に示されるように、動作７１０において、方法７００は、ニューラルネットワークの第１の層のセットについて、第１のマスクのセット及び第１の複数の重みパラメータを用いて入力と複数の量子化パラメータ値とに基づいて、第１のマスク化重みパラメータのセットを生成することを含む。第１のマスクのセット内の各マスクは、第１の複数の重みパラメータのうちの対応する１つが、推論出力を計算するために使用されるかどうかを示すバイナリ値であり得る。加えて、第１のマスク化重みパラメータのセットは、第１の複数の重みパラメータ及び第１のマスクのセットの畳み込みを実行することによって取得され得る。

動作７２０において、方法７００は、複数の量子化パラメータ値に基づいて、第２の複数の重みパラメータを用いて、複数の量子化パラメータ値について、ニューラルネットワークの第２の層のセットを選択することを含む。第２の複数の重みパラメータに対応する第２のマスクのセットを選択することもできる。

動作７３０において、方法７００は、第１のマスク化重みパラメータのセットと、第２の複数の重みパラメータとに基づいて推論出力を計算することを含む。

動作７４０において、方法７００は、計算された推論出力を出力することを含む。

図７は方法の例示的なブロックを示しているが、いくつかの実装では、この方法は、図７に示されるものよりも、追加のブロック、より少ないブロック、異なるブロック又は異なる配置のブロックを含んでもよい。加えて又は代替的に、方法のブロックのうちの２つ以上が並行に実行されてよい。

例えば方法７００の動作は、ニューラルネットワークを、ニューラルネットワークの第１の層のセットとニューラルネットワークの第２の層のセットに分裂させることを含んでもよい。ニューラルネットワークの第１の層のセットのモデルパラメータは、異なる量子化パラメータ値にわたって共有される共有層であってよく、共有層の各々について第１の複数の重みパラメータのうちの対応する１つを有する。ニューラルネットワークの第２の層のセットのモデルパラメータは、量子化パラメータ値の各々に対して異なるタスク固有層であり、該タスク固有層の各々について第２の複数の重みパラメータのうちの対応する１つを有する。

ニューラルネットワークは、入力、推論出力及びそれぞれの量子化パラメータ値に基づいて決定される歪み損失を最小化するために、第１のマスクのセットによってそれぞれマスクされていない第１の複数の重みパラメータの１つ以上を更新することによって、トレーニングされる。さらに、ニューラルネットワークは、第１のマスクのセットによってそれぞれマスクされていない第１の複数の重みパラメータのうちの更新された１つ以上をプルーニングして、第１の複数の重みパラメータのうちのどれがプルーニングされたかを示すバイナリプルーニングマスクを取得することと、歪み損失を最小化するために、第１のマスクのセットによってそれぞれマスクされていない第１の複数の重みパラメータと、取得されたバイナリプルーニングマスクのうちの少なくとも一方を更新することとによってトレーニングされる。

図８は、実施形態に従った、共有マルチタスク層、タスク固有層及びマイクロ構造化マスクを有するＭＴＮＮを使用するＭＱＬＦによるビデオ圧縮のための装置８００のブロック図である。

図８に示されるように、装置８００は、生成コード８１０、第１選択コード８２０及び計算コード８３０を含む。

生成コード８１０は、少なくとも１つのプロセッサに、ニューラルネットワークの第１の層のセットについて、第１のマスクのセット及び第１の複数の重みパラメータを用いて入力と複数の量子化パラメータ値とに基づいて、第１のマスク化重みパラメータのセットを生成させるよう構成される。第１のマスクのセット内の各マスクは、第１の複数の重みパラメータのうちの対応する１つが、推論出力を計算するために使用されるかどうかを示すバイナリ値であり得る。

第１選択コード８２０は、少なくとも１つのプロセッサに、複数の量子化パラメータ値に基づいて、第２の複数の重みパラメータを用いて、複数の量子化パラメータ値について、ニューラルネットワークの第２の層のセットを選択させるよう構成される。

計算コード８３０は、少なくとも１つのプロセッサに、第１のマスク化重みパラメータのセットと第２の複数の重みパラメータとに基づいて、推論出力を計算させるよう構成される。

出力コード８４０は、少なくとも１つのプロセッサに、計算された推論出力を出力させるよう構成される。

図８は装置の例示的なブロックを示しているが、いくつかの実装では、装置は、図８に示されたものよりも、追加のブロック、より少ないブロック、異なるブロック又は異なる配置のブロックを含んでもよい。加えて又は代替的に、装置のブロックのうちの２つ以上が組み合わされてもよい。

例えば装置８００は、少なくとも１つのプロセッサに、ニューラルネットワークを、ニューラルネットワークの第１の層のセットとニューラルネットワークの第２の層のセットに分裂させるよう構成される分裂コードを含んでもよく、ニューラルネットワークの第１の層のセットのモデルパラメータは、異なる量子化パラメータ値にわたって共有される共有層であり、該共有層の各々について第１の複数の重みパラメータのうちの対応する１つを有し、ニューラルネットワークの第２の層のセットのモデルパラメータは、量子化パラメータ値の各々に対して異なるタスク固有層であり、該タスク固有層の各々について第２の複数の重みパラメータのうちの対応する１つを有する。

ニューラルネットワークは、入力、推論出力及びそれぞれの量子化パラメータ値に基づいて決定される歪み損失を最小化するために、第１のマスクのセットによってそれぞれマスクされていない第１の複数の重みパラメータのうちの１つ以上を更新すること、第１のマスクのセットによってそれぞれマスクされていない第１の複数の重みパラメータのうちの更新された１つ以上をプルーニングして、第１の複数の重みパラメータのうちのどれがプルーニングされたかを示すバイナリプルーニングマスクを取得することと、歪み損失を最小化するために、第１のマスクのセットによってそれぞれマスクされていない第１の複数の重みパラメータと、取得されたバイナリプルーニングマスクのうちの少なくとも一方を更新することと、によってトレーニングされ得る。

さらに、装置８００は、少なくとも１つのプロセッサに、第２の複数の重みパラメータに対応する第２のマスクのセットを選択させるよう構成される第２選択コードと、少なくとも１つのプロセッサに、第１の複数の重みパラメータ及び第１のマスクのセットの畳み込みを実行して、第１のマスク化重みパラメータのセットを取得させるよう構成される実行コードとを更に含み得る。

従来のループフィルタリング又はＮＮベースのループフィルタリング方法と比較して、実施形態は、多数のバイナリマスクを使用することによって多数のＱＰ値の圧縮に対応するために、１つのＭＴＮＮモデルインスタンスを使用することを説明する。ブロックごとのマイクロ構造化マスクは、個々のＱＰ値の圧縮性能も保持し、推論計算を低減することができる。この方法は、多数のＱＰ値を使用する圧縮のための展開記憶域を大幅に低減する。また、様々なタイプの基礎となるＮＮＬＦ法及びモデルアーキテクチャ、並びに様々な形状のマイクロ構造を収容する、柔軟で一般的なフレームワークも提供する。

提案される方法は、別個に又は任意の順序で組み合わせて使用されてよい。さらに、方法（又は実施形態）の各々は、処理回路（例えば１つ以上のプロセッサ又は１つ以上の集積回路）によって実装されてもよい。一例では、１つ以上のプロセッサは、非一時的なコンピュータ読取可能媒体に記憶されるプログラムを実行する。

前述の開示は、例示及び説明を提供するが、網羅的であるように意図されておらず、また、実装を開示された正確な形態に限定するようにも意図されていない。修正及び変形が、上記の開示に照らして可能であり、あるいは実装の実践から取得され得る。

本明細書で使用されるとき、構成要素という用語は、ハードウェア、ファームウェア又はハードウェアとソフトウェアの組合せとして広く解釈されるように意図される。

本明細書で説明されるシステム及び／又は方法は、ハードウェア、ファームウェア又はハードウェアとソフトウェアの組合せの異なる形態で実装されてもよいことは明らかであろう。これらのシステム及び／又は方法を実装するために使用される実際の特殊化された制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、システム及び／又は方法の動作及び挙動は、本明細書において、特定のソフトウェアコードを参照することなく記載されており、ソフトウェア及びハードウェアは、本明細書の記載に基づいてシステム及び／又は方法を実装するように設計され得ることが理解される。

特徴の組合せが特許請求の範囲に記載され、かつ／又は明細書に開示されているとしても、これらの組合せは、可能な実施の開示を限定するように意図されていない。実際、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない及び／又は明細書に開示されていない方法で組み合わされてもよい。以下に列挙される各従属請求項は、１の請求項のみに直接従属することがあるが、可能な実装の開示は、クレームセット内のすべての他の請求項との組合せで各従属請求項を含む。

本明細書中で使用される要素、動作又は命令は、明示的に記述されない限り、重要又は必須と解釈され得ない。また、本明細書で使用されるとき、冠詞「a」及び「an」は、１つ以上のアイテムを含むように意図されており、「１つ以上」と互換的に使用されてよい。さらに、本明細書で使用されるとき、「セット」という用語は、１つ以上のアイテム（例えば関連するアイテム、関連しないアイテム、関連するアイテムと関連しないアイテムの組合せ等）を含むように意図されており、「１つ以上」と互換的に使用されてよい。１つのアイテムのみが意図されている場合、「１」という用語又は類似の言語が使用される。また、本明細書で使用されるとき、「有する（has、have、having）」等は、オープンエンドの用語であるように意図されている。さらに、「に基づいて」というフレーズは、明示的に別段の記載がない限り、「少なくとも部分的に基づいて」を意味するように意図されている。

Claims

マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタでビデオを処理する方法であって、当該方法は、少なくとも１つのプロセッサによって実行され、当該方法は、
ニューラルネットワークの第１の層のセットについて、第１のマスクのセット及び第１の複数の重みパラメータを用いて入力と複数の量子化パラメータ値とに基づいて、第１のマスク化重みパラメータのセットを生成するステップと、
前記複数の量子化パラメータ値に基づいて、第２の複数の重みパラメータを用いて、前記複数の量子化パラメータ値について、前記ニューラルネットワークの第２の層のセットを選択するステップと、
前記第１のマスク化重みパラメータのセットと前記第２の複数の重みパラメータとに基づいて、推論出力を計算するステップと、
前記計算された推論出力を出力するステップと、
を含む、方法。
前記ニューラルネットワークを、前記ニューラルネットワークの前記第１の層のセットと前記ニューラルネットワークの前記第２の層のセットとに分裂させるステップを更に含み、
前記ニューラルネットワークの前記第１の層のセットのモデルパラメータは、異なる量子化パラメータ値にわたって共有される共有層であり、該共有層の各々について前記第１の複数の重みパラメータのうちの対応する１つを有し、
前記ニューラルネットワークの前記第２の層のセットのモデルパラメータは、前記量子化パラメータ値の各々に対して異なるタスク固有層であり、該タスク固有層の各々について前記第２の複数の重みパラメータのうちの対応する１つを有する、
請求項１に記載の方法。
前記第１のマスクのセット内の各マスクは、前記第１の複数の重みパラメータのうちの対応する１つが、前記推論出力を計算するために使用されるかどうかを示すバイナリ値である、
請求項１に記載の方法。
前記ニューラルネットワークは、前記入力、前記推論出力及びそれぞれの量子化パラメータ値に基づいて決定される歪み損失を最小化するために、前記第１のマスクのセットによってそれぞれマスクされていない前記第１の複数の重みパラメータのうちの１つ以上を更新することによってトレーニングされる、
請求項１に記載の方法。
前記ニューラルネットワークは、
前記第１のマスクのセットによってそれぞれマスクされていない前記第１の複数の重みパラメータのうちの前記更新された１つ以上をプルーニングして、前記第１の複数の重みパラメータのうちのどれがプルーニングされたかを示すバイナリプルーニングマスクを取得することと、
前記歪み損失を最小化するために、前記第１のマスクのセットによってそれぞれマスクされていない前記第１の複数の重みパラメータと、前記取得されたバイナリプルーニングマスクのうちの少なくとも一方を更新することと、
によって更にトレーニングされる、請求項４に記載の方法。
前記第２の複数の重みパラメータに対応する第２のマスクのセットを選択するステップを更に含む、
請求項１に記載の方法。
前記第１の複数の重みパラメータ及び前記第１のマスクのセットの畳み込みを実行して、前記第１のマスク化重みパラメータのセットを取得するステップを更に含む、
請求項１に記載の方法。
マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタでビデオを処理するための装置であって、
プログラムコードを記憶するよう構成される少なくとも１つのメモリと、
前記プログラムコードを読み出し、前記プログラムコードによって指示されるように動作するよう構成される少なくとも１つのプロセッサと、
を含み、前記プログラムコードは、
前記少なくとも１つのプロセッサに、ニューラルネットワークの第１の層のセットについて、第１のマスクのセット及び第１の複数の重みパラメータを用いて入力と複数の量子化パラメータ値とに基づいて、第１のマスク化重みパラメータのセットを生成させるよう構成される生成コードと、
前記少なくとも１つのプロセッサに、前記複数の量子化パラメータ値に基づいて、第２の複数の重みパラメータを用いて、前記複数の量子化パラメータ値について、前記ニューラルネットワークの第２の層のセットを選択させるよう構成される第１選択コードと、
前記少なくとも１つのプロセッサに、前記第１のマスク化重みパラメータのセットと前記第２の複数の重みパラメータとに基づいて、推論出力を計算させるよう構成される計算コードと、
前記少なくとも１つのプロセッサに、前記計算された推論出力を出力させるよう構成される出力コードと、
を含む、装置。
前記プログラムコードは、前記少なくとも１つのプロセッサに、前記ニューラルネットワークを、前記ニューラルネットワークの前記第１の層のセットと前記ニューラルネットワークの前記第２の層のセットとに分裂させるよう構成される分裂コードを更に含み、
前記ニューラルネットワークの前記第１の層のセットのモデルパラメータは、異なる量子化パラメータ値にわたって共有される共有層であり、該共有層の各々について前記第１の複数の重みパラメータのうちの対応する１つを有し、
前記ニューラルネットワークの前記第２の層のセットのモデルパラメータは、前記量子化パラメータ値の各々に対して異なるタスク固有層であり、該タスク固有層の各々について前記第２の複数の重みパラメータのうちの対応する１つを有する、
請求項８に記載の装置。
前記第１のマスクのセット内の各マスクは、前記第１の複数の重みパラメータのうちの対応する１つが、前記推論出力を計算するために使用されるかどうかを示すバイナリ値である、
請求項８に記載の装置。
前記ニューラルネットワークは、前記入力、前記推論出力及びそれぞれの量子化パラメータ値に基づいて決定される歪み損失を最小化するために、前記第１のマスクのセットによってそれぞれマスクされていない前記第１の複数の重みパラメータのうちの１つ以上を更新することによってトレーニングされる、
請求項８に記載の装置。
前記ニューラルネットワークは、
前記第１のマスクのセットによってそれぞれマスクされていない前記第１の複数の重みパラメータのうちの前記更新された１つ以上をプルーニングして、前記第１の複数の重みパラメータのうちのどれがプルーニングされたかを示すバイナリプルーニングマスクを取得することと、
前記歪み損失を最小化するために、前記第１のマスクのセットによってそれぞれマスクされていない前記第１の複数の重みパラメータと、前記取得されたバイナリプルーニングマスクのうちの少なくとも一方を更新することと、
によって更にトレーニングされる、請求項１１に記載の装置。
前記少なくとも１つのプロセッサに、前記第２の複数の重みパラメータに対応する第２のマスクのセットを選択させるよう構成される第２選択コードを更に含む、
請求項８に記載の装置。
前記少なくとも１つのプロセッサに、前記第１の複数の重みパラメータ及び前記第１のマスクのセットの畳み込みを実行して、前記第１のマスク化重みパラメータのセットを取得させるよう構成される実行コードを更に含む、
請求項８に記載の装置。
少なくとも１つのプロセッサによって実行されると、該少なくとも１つのプロセッサに、請求項１乃至７のいずれか一項に記載の方法を実行させるコンピュータプログラム。