JP7489466B2

JP7489466B2 - ニューラルネットワークベースのビデオコーディングのためのプルーニング方法、装置およびコンピュータプログラム

Info

Publication number: JP7489466B2
Application number: JP2022537382A
Authority: JP
Inventors: シュー，シャオジョン; ジャン，ウェイ; リウ，シャン; ワン，ウェイ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-10-08
Filing date: 2021-08-06
Publication date: 2024-05-23
Anticipated expiration: 2041-08-06
Also published as: US20220116639A1; JP2023510504A; WO2022076071A1; EP4205388A4; KR20220100704A; US11765376B2; CN114788272A; EP4205388A1; US20230336762A1

Description

［関連出願への相互参照］
本出願は、２０２０年１０月８日に出願された米国仮特許出願第６３／０８９，４８１号、および２０２１年６月２９日に出願された米国特許出願第１７／３６２，１８４号からの優先権を主張しており、その全体は、参照により本明細書に組み込まれる。

［技術分野］
実施形態と一致する方法および装置は、ビデオコーディングに関し、特に、ニューラルネットワークベースのビデオコーディングのためのプルーニング（ｐｒｕｎｉｎｇ）方法および装置に関する。

ＩＴＵ－ＴＶＣＥＧ（Ｑ６／１６）およびＩＳＯ／ＩＥＣＭＰＥＧ（ＪＴＣ１／ＳＣ２９／ＷＧ１１）は、２０１３年（バージョン１）、２０１４年（バージョン２）、２０１５年（バージョン３）および２０１６年（バージョン４）に、Ｈ．２６５／ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ、高効率ビデオコーディング）規格を公開した。それ以来、彼らは、ＨＥＶＣ規格（その拡張を含む）の圧縮能力を大幅に超える圧縮能力を有する将来のビデオコーディング技術の標準化のための潜在的なニーズを研究してきた。２０１７年１０月に、ＨＥＶＣを超える機能を有するビデオ圧縮に関する共同提案募集（ＣｆＰ：ＣａｌｌｆｏｒＰｒｏｐｏｓａｌ）を発表した。２０１８年２月１５日までに、標準ダイナミックレンジ（ＳＤＲ：ｓｔａｎｄａｒｄｄｙｎａｍｉｃｒａｎｇｅ）に関するＣｆＰ応答２２件、ハイダイナミックレンジ（ＨＤＲ：ｈｉｇｈｄｙｎａｍｉｃｒａｎｇｅ）に関するＣｆＰ応答１２件、３６０個のビデオカテゴリーに関するＣｆＰ応答１２件がそれぞれ提出された。２０１８年４月に、第１２２回のＭＰＥＧ／第１０回のＪＶＥＴ（ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ－ＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔＴｅａｍ）会議で、受信されたすべてのＣｆＰ応答が評価された。慎重な評価により、ＪＶＥＴは、ＨＥＶＣを超える次世代ビデオコーディングの標準化、つまりいわゆる汎用ビデオコーディング（ＶＶＣ：ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）を正式に開始した。一方、中国のオーディオビデオコーディング規格（ＡＶＳ：ＡｕｄｉｏＶｉｄｅｏｃｏｄｉｎｇＳｔａｎｄａｒｄ）も進行中である。

実施形態によると、ビデオシーケンスのピクチャの現在のブロックのニューラルネットワークベースのビデオコーディングのためのプルーニング方法は、少なくとも１つのプロセッサによって実行され、ニューラルネットワークのパラメータをグループに分類するステップと、グループのうちの第１グループがプルーニングされることを示すように第１インデックスを設定し、グループのうちの第２グループがプルーニングされないことを示すように第２インデックスを設定するステップと、設定された第１インデックスおよび設定された第２インデックスをデコーダに送信するステップと、を含む。送信された第１インデックスおよび送信された第２インデックスに基づいて、現在のブロックは、グループのうちの第１グループがプルーニングされるパラメータを使用して処理される。

実施形態によると、ビデオシーケンスのピクチャの現在のブロックのニューラルネットワークベースのビデオコーディングのためのプルーニング装置は、コンピュータプログラムコードを記憶するように構成される少なくとも１つのメモリと、少なくとも１つのメモリにアクセスして、コンピュータプログラムコードに従って動作するように構成される少なくとも１つのプロセッサと、を含む。コンピュータプログラムコードは、少なくとも１つのプロセッサに、ニューラルネットワークのパラメータをグループに分類させるように構成される分類コードと、少なくとも１つのプロセッサに、グループのうちの第１グループがプルーニングされることを示すように第１インデックスを設定し、グループのうちの第２グループがプルーニングされないことを示すように第２インデックスを設定させるように構成される第１設定コードと、少なくとも１つのプロセッサに、設定された第１インデックスおよび設定された第２インデックスをデコーダに送信させるように構成される第１送信コードと、を含む。送信された第１インデックスおよび送信された第２インデックスに基づいて、現在のブロックは、グループのうちの第１グループがプルーニングされるパラメータを使用して処理される。

実施形態によると、命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体において、命令は、ビデオシーケンスのピクチャの現在のブロックのニューラルネットワークベースのビデオコーディングでプルーニングを行うための少なくとも１つのプロセッサによって実行されるとき、少なくとも１つのプロセッサに、ニューラルネットワークのパラメータをグループに分類するステップと、グループのうちの第１グループがプルーニングされることを示すように第１インデックスを設定し、グループのうちの第２グループがプルーニングされないことを示すように第２インデックスを設定するステップと、設定された第１インデックスおよび設定された第２インデックスをデコーダに送信するステップと、を実行させる。送信された第１インデックスおよび送信された第２インデックスに基づいて、現在のブロックは、グループのうちの第１グループがプルーニングされるパラメータを使用して処理される。

ニューラルネットワークベースのフィルタのブロック図である。

高密度残差畳み込みニューラルネットワークベースのループ内フィルタ（ＤＲＮＮＬＦ：ｄｅｎｓｅｒｅｓｉｄｕａｌｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｂａｓｅｄｉｎ－ｌｏｏｐｆｉｌｔｅｒ）のブロック図である。

図１ＢのＤＲＮＮＬＦの高密度残差ユニット（ＤＲＵ：ｄｅｎｓｅｒｅｓｉｄｕａｌｕｎｉｔ）のブロック図である。

２次元（２Ｄ）アレイのプルーニングを示す図である。

実施形態による通信システムの簡略化されたブロック図である。

実施形態による、ストリーミング環境におけるビデオエンコーダとビデオデコーダの配置の図である。

実施形態による、ビデオデコーダの機能的なブロック図である。

実施形態による、ビデオエンコーダの機能的なブロック図である。

実施形態による、ニューラルネットワークベースのビデオコーディングのためのプルーニング方法を示すフローチャートである。

実施形態による、ニューラルネットワークベースのビデオコーディングのためのプルーニング装置の簡略化されたブロック図である。

実施形態を実現することに適したコンピュータシステムの図である。

本開示は、ＨＥＶＣを超えたビデオコーディング技術、例えば、ＶＶＣまたはＡＶＳを説明する。より具体的には、いくつかの補足強化情報は、ニューラルネットワークベースのピクチャおよびビデオコーディングのために使用されている。

ＶＶＣとＡＶＳ３では、ニューラルネットワークベースの方法および装置、特に、ニューラルネットワークベースのフィルタが提案された。以下は、ニューラルネットワークベースのフィルタの構造の例の１つである。

図１Ａは、ニューラルネットワークベースのフィルタ（１００Ａ）のブロック図である。

ニューラルネットワークベースのフィルタ（１００Ａ）には、畳み込み層（ＣＯＮＶ）が含まれる。一例として、カーネルサイズが３×３×Ｍである場合、これは、各チャネルについて、畳み込みカーネルサイズが３×３であり、出力層の数がＭであり得る、ということを意味する。

畳み込み層と非線形活性化関数（ＲｅＬＵ：Ｎｏｎ－ｌｉｎｅａｒａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎｓ）の組み合わせにより、再構築用の非線形フィルタと見なされ得るプロセス全体が作成される。フィルタリングプロセスの後、品質を向上させることができる。

図１Ｂは、ＤＲＮＮＬＦ（１００Ｂ）のブロック図である。

ＪＶＥＴ－Ｏ０１０１からのＤＲＮＮＬＦ（１００Ｂ）は、デブロッキングフィルタとサンプルアダプティブオフセット（ＳＡＯ：ｓａｍｐｌｅ－ａｄａｐｔｉｖｅｏｆｆｓｅｔ）の間の追加フィルタである。それは、デブロッキングフィルタ、ＳＡＯ、アダプティブループフィルタ（ＡＬＦ：ａｄａｐｔｉｖｅｌｏｏｐｆｉｌｔｅｒ）、およびクロスコンポーネントＡＬＦ（ＣＣＡＬＦ：ｃｒｏｓｓ－ｃｏｍｐｏｎｅｎｔＡＬＦ）と連携して動作することで、コーディング効率を向上させる。

図１Ｂは、ＤＲＮＮＬＦ（１００Ｂ）のネットワーク構造を示し、ここで、ＮおよびＭは、それぞれ、高密度残差ユニット（ＤＲＵ）および畳み込みカーネルの数を示す。例えば、計算効率とパフォーマンスとの間のトレードオフのために、Ｎは４に設定され得、Ｍは３２に設定され得る。正規化された量子化パラメータ（ＱＰ：ｑｕａｎｔｉｚａｔｉｏｎｐａｒａｍｅｔｅｒ）マップは、再構築されたフレームと連結されて、ＤＲＮＮＬＦ（１００Ｂ）への入力とする。

ＤＲＮＮＬＦの本体には、一連のＤＲＵが含まれる。ＤＲＵの構造は、図１Ｃに示される。

図１Ｃは、図１ＢのＤＲＮＮＬＦ（１００Ｂ）のＤＲＵ（１００Ｃ）のブロック図である。

ＤＲＵ（１００Ｃ）は、ショートカットを介してその入力を後続のユニットに直接に伝播する。計算コストをさらに削減するために、ＤＲＵ（１００Ｃ）に３ｘ３の深さ方向分離可能畳み込み（ＤＳＣ：ｄｅｐｔｈ－ｗｉｓｅｓｅｐａｒａｂｌｅｃｏｎｖｏｌｕｔｉｏｎａｌ）層が適用される。

最後に、ニューラルネットワークの出力には、色Ｙ、Ｃｂ、Ｃｒにそれぞれ対応する３つのチャネルがある。ＤＲＮＮＬＦ（１００Ｂ）は、イントラピクチャとインターピクチャの両方に適用される。追加フラグは、ピクチャレベルおよびコーディングツリーユニット（ＣＴＵ：ｃｏｄｉｎｇｔｒｅｅｕｎｉｔ）レベルでＤＲＮＮＬＦ（１００Ｂ）のオン／オフを示すために信号で通知される。

ＤＲＮＮＬＦ（１００Ｂ）を使用することを例として、畳み込みニューラルネットワークの計算は、ニューラルネットワークの各畳み込み層における４次元（４Ｄ）重みテンソルＷ［ｎ］［ｍ］［ｈ］［ｗ］のサイズに関連し、ここで、ｎは、出力フィルタ（１または複数）の数であり、ｍは、入力チャネル（１または複数）の数であり、また、ｈ×ｗは、２Ｄ畳み込みカーネルのサイズである。畳み込み層の計算は、Ｗにおける一部の係数をゼロ化することで減少され得、したがって、積和演算の数は減少され得る。Ｗにおける係数をゼロ化するこの方法は、ニューラルネットワーク圧縮におけるプルーニングとして知られている。前もって、ＤＲＮＮＬＦ（１００Ｂ）における出力フィルタの数などのニューラルネットワークパラメータは、プルーニング（０に設定）され得る。

図１Ｄは、２Ｄアレイのプルーニングを示す図である。

図１Ｄの部分（Ａ）に示すように、４Ｄ重みテンソルＷは、２Ｄアレイとして展開され得、２Ｄアレイ内の各要素は、ｈ×ｗの２Ｄ畳み込みカーネルのシリアル化されたフィルタ係数を含む１Ｄアレイである。図１Ｄの部分（Ａ）において、２Ｄアレイの列は、入力チャネルに対応し、また、２Ｄアレイの行は、出力フィルタに対応する。

図１Ｄの部分（Ｂ）に示されるように、Ｗにおける係数は、フィルタプルーニング（１１０）によってプルーニングされるか、または特定の行をゼロ化することによってプルーニングされる（シャドウによって示されるように)。したがって、積和の回数とニューラルネットワークパラメータのサイズとの両方が減少され得る。他のアプローチでは、同様のプルーニングは、積和の回数を減少させるように、行ごと、列ごと、１Ｄアレイにおける位置ごとに実行され得、または、どのパラメータをゼロに設定するかについての任意の他の適切な指示もなされ得る。例えば、図１Ｄの部分（Ｂ）に示されるように、フィルタ形状プルーニング（１２０）は、１Ｄまたは２Ｄアレイの列のプルーニングを含んでよく、また、チャネルプルーニング（１３０）は、１Ｄまたは２Ｄアレイのチャネルのプルーニングを含む。より多くのパラメータがプルーニングされるほど、必要な計算が少なくなる。

図２は、実施形態による通信システム（２００）の簡略化されたブロック図である。通信システム（２００）は、ネットワーク（２５０）を介して相互接続された、少なくとも２つの端末（２１０～２２０）を含むことができる。データの単方向伝送の場合、第１端末（２１０）は、ネットワーク（２５０）を介して他の端末（２２０）に送信するために、ローカルの場所でビデオデータをコーディングすることができる。第２端末（２２０）は、ネットワーク（２５０）から他の端末のコーディングされたビデオデータを受信し、コーディングされたデータを復号して、また、復元されたビデオデータを表示することができる。単方向データ伝送は、メディアサービングアプリケーションなどにおいて一般的であり得る。

図２は、例えば、ビデオ会議中に発生する可能性がある、コーディングされたビデオの双方向伝送をサポートする第２ペアの端末（２３０、２４０）を示す。データの双方向伝送の場合、各端末（２３０、２４０）は、ネットワーク（２５０）を介して他の端末に送信するために、ローカルの場所でキャプチャされたビデオデータをコーディングすることができる。各端末（２３０、２４０）は、他の端末によって送信された、コーディングされたビデオデータを受信することもでき、コーディングされたデータを復号することができ、また、復元されたビデオデータをローカルの表示デバイスに表示することもできる。

図２において、端末（２１０～２４０）は、サーバ、パーソナルコンピュータ、およびスマートフォンとして示されてもよいが、実施形態の原理は、それほど限定されていない。実施形態では、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤおよび／または専用のビデオ会議機器を使用する用途が見つけられる。ネットワーク（２５０）は、コーディングされたビデオデータを端末（２１０～２４０）の間で伝えるための任意の数のネットワークを表し、例えば、有線および／または無線の通信ネットワークを含む。通信ネットワーク（２５０）は、回線交換および／またはパケット交換のチャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび／またはインターネットを含む。本明細書で説明する目的のために、ネットワーク（２５０）のアーキテクチャおよびトポロジは、以下に本明細書で説明されない限り、実施形態の動作にとって重要ではない場合がある。

図３は、実施形態による、ストリーミング環境におけるビデオエンコーダとビデオデコーダの配置の図である。開示された主題は、例えば、ＣＤ、ＤＶＤ、メモリスティックなどを含むデジタルメディアへの圧縮されたビデオの記憶、ビデオ会議、デジタルＴＶなどを含む、他のビデオ対応アプリケーションにも同等に適用可能である。

ストリーミングシステムは、キャプチャサブシステム（３１３）を含むことができ、このキャプチャサブシステムが、例えばデジタルカメラなどのビデオソース（３０１）を含むことができ、例えば圧縮されていないビデオサンプルストリーム（３０２）を作成する。符号化されたビデオビットストリームと比較する際に、高いデータボリュームを強調するために太い線で描かれたサンプルストリーム（３０２）は、カメラ（３０１）に結合されたエンコーダ（３０３）によって処理され得る。エンコーダ（３０３）は、以下で詳細に説明するように、開示された主題の各態様を可能にするかまたは実現するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。サンプルストリームと比較する際に、より低いデータボリュームを強調するために細い線で描かれた、符号化されたビデオビットストリーム（３０４）は、将来の使用のために、ストリーミングサーバ（３０５）に記憶され得る。１つ以上のストリーミングクライアント（３０６、３０８）は、ストリーミングサーバ（３０５）にアクセスして、符号化されたビデオビットストリーム（３０４）のコピー（３０７、３０９）を検索することができる。クライアント（３０６）は、ビデオデコーダ（３１０）を含むことができ、このビデオデコーダ（３１０）は、符号化されたビデオビットストリームの入方向のコピー（３０７）を復号して、出方向のビデオサンプルストリーム（３１１）を作成することができ、このビデオサンプルストリーム（３１１）は、ディスプレイ（３１２）または他のレンダリングデバイス（図示せず）にレンダリングされ得る。一部のストリーミングシステムでは、ビデオビットストリーム（３０４、３０７、３０９）は、特定のビデオコーディング／圧縮規格に従って符号化され得る。それらの規格の例には、ＩＴＵ－Ｔ推奨のＨ．２６５が含まれている。開発されているのは、ＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）として非公式に知られているビデオコーディング規格である。開示された主題は、ＶＶＣのコンテキストで使用され得る。

図４は、実施形態による、ビデオデコーダ（３１０）の機能ブロック図である。

受信機（４１０）は、ビデオデコーダ（３１０）によって復号される１つ以上のコーディングされたビデオシーケンスを受信することができ、同じまたは別の実施形態では、一度に１つのコーディングされたビデオシーケンス（ＣＶＳ）を受信することができ、ここで、各コーディングされたビデオシーケンスの復号は、他のコーディングされたビデオシーケンスとは独立している。コーディングされたビデオシーケンスは、チャネル（４１２）から受信され得、このチャネルは、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア／ソフトウェアのリンクであり得る。受信機（４１０）は、それらの各自の使用するエンティティ（図示せず）に転送され得る、例えばコーディングされたオーディオデータおよび／または補助データストリームなどの他のデータとともに、符号化されたビデオデータを受信することができる。受信機（４１０）は、コーディングされたビデオシーケンスを他のデータから分離することができる。ネットワークジッタを防止するために、バッファメモリ（４１５）は、受信機（４１０）とエントロピーデコーダ／解析器（Ｐａｒｓｅｒ）（４２０）（以後、「解析器」）との間に結合され得る。受信機（４１０）が十分な帯域幅および制御可能性を有するストア／転送デバイスから、または等同期ネットワークからデータを受信する場合、バッファメモリ（４１５）は、必要ではないかまたは小さくでもよい。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファメモリ（４１５）が必要になる場合があり、比較的大きくすることができ、有利には適応サイズであることができる。

ビデオデコーダ（３１０）は、エントロピーコーディングされたビデオシーケンスからシンボル（４２１）を再構築するための解析器（４２０）を含むことができる。これらのシンボルのカテゴリは、ビデオデコーダ（３１０）の動作を管理するために使用される情報を含み、かつ、デコーダの不可欠な部分ではないが、図４に示すように、そのデコーダに結合され得る、ディスプレイ（３１２）などのレンダリングデバイスを制御するための情報を潜在的に含む。レンダリングデバイスのための制御情報は、補足強化情報（ＳＥＩ：ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）メッセージまたはビデオユーザビリティ情報（ＶＵＩ：ＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ）パラメータセットフラグメント（図示せず）の形式であってもよい。解析器（４２０）は、受信された、コーディングされたビデオシーケンスに対して解析／エントロピー復号を行うことができる。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術または標準に従うことができ、また、当業者に知られている原理に従うことができ、可変長コーディング、ハフマンコーディング（Ｈｕｆｆｍａｎｃｏｄｉｎｇ）、コンテキスト感度を有するかまたは有しない算術コーディングなどを含む。解析器（４２０）は、グループに対応する少なくとも１つのパラメータに基づいて、コーディングされたビデオシーケンスから、ビデオデコーダにおける画素のサブグループのうちの少なくとも１つのためのサブグループパラメータのセットを抽出することができる。サブグループは、ピクチャ群（ＧＯＰ：ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ：ＣｏｄｉｎｇＵｎｉｔ）、ブロック、変換ユニット（ＴＵ：ＴｒａｎｓｆｏｒｍＵｎｉｔ）、予測ユニット（ＰＵ：ＰｒｅｃｔｉｏｎＵｎｉｔ）などを含むことができる。エントロピーデコーダ／解析器は、変換係数、量子化パラメータ（ＱＰ：ｑｕａｎｔｉｚｅｒｐａｒａｍｅｔｅｒ）値、動きベクトルなどの情報を、コーディングされたビデオシーケンスから抽出することもできる。

解析器（４２０）は、シンボル（４２１）を作成するために、バッファメモリ（４１５）から受信されたビデオシーケンスに対してエントロピー復号／解析動作を実行することができる。解析器（４２０）は、符号化されたデータを受信し、特定のシンボル（４２１）を選択的に復号することができる。さらに、解析器（４２０）は、特定のシンボル（４２１）が動き補償予測ユニット（４５３）、スケーラ／逆変換ユニット（４５１）、イントラ予測ユニット（４５２）またはループフィルタユニット（４５４）に提供されるかどうかを決定することができる。

シンボル（４２１）の再構築は、コーディングされたビデオピクチャまたはその一部（例えば、インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロック）のタイプ、および他の要因に応じて、複数の異なるユニットに関連することができる。どのユニットが、どのように関連するかは、解析器（４２０）によって、コーディングされたビデオシーケンスから解析されたサブグループ制御情報によって制御され得る。明確にするために、解析器（４２０）と以下の複数のユニットとの間のこのようなサブグループ制御情報のフローは説明されていない。

既に言及された機能ブロックに加えて、ビデオデコーダ３１０は、以下に説明するように、いくつかの機能ユニットに概念的に細分され得る。商業的制約で動作する実際の実装では、これらのユニットの多くは、互いに密接に相互作用し、少なくとも部分的には互いに統合され得る。しかしながら、開示された主題を説明する目的のために、以下の機能ユニットへの概念的な細分が適切である。

第１ユニットは、スケーラ／逆変換ユニット（４５１）である。スケーラ／逆変換ユニット（４５１）は、量子化された変換係数と、どのような変換を使用するか、ブロックサイズ、量子化因子、量子化スケーリング行列などを含む制御情報とを、解析器（４２０）からシンボル（４２１）として受信する。スケーラ／逆変換ユニット（４５１）は、アグリゲータ（４５５）に入力できるサンプル値を含むブロックを出力することができる。

いくつかの場合では、スケーラ／逆変換ユニット（４５１）の出力サンプルは、イントラコーディングされたブロック、即ち、以前に再構築されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構築された部分からの予測情報を使用できるブロックに関係することができる。このような予測情報は、イントラピクチャ予測ユニット（４５２）によって提供されてもよい。いくつかの場合では、イントラピクチャ予測ユニット（４５２）は、現在の（部分的に再構築された）ピクチャ（４５６）から抽出された、周囲の既に再構築された情報を使用して、再構築中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ（４５５）は、いくつかの場合では、サンプルごとに、イントラピクチャ予測ユニット（４５２）によって生成された予測情報を、スケーラ／逆変換ユニット（４５１）によって提供される出力サンプル情報に追加する。

他の場合では、スケーラ／逆変換ユニット（４５１）の出力サンプルは、インターコーディングされ、かつ潜在的に動き補償されたブロックに関係することができる。このような場合、動き補償予測ユニット（４５３）は、参照ピクチャメモリ（４５７）にアクセスすることで、予測に用いられるサンプルを抽出することができる。抽出されたサンプルが、ブロックに関連するシンボル（４２１）に従って動き補償された後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ（４５５）によってスケーラ／逆変換ユニットの出力（この場合、残差サンプルまたは残差信号と呼ばれる）に追加され得る。動き補償ユニットが予測サンプルをそこから抽出する参照ピクチャメモリ内のアドレスは、例えば、Ｘ、Ｙおよび参照ピクチャ成分を有することができるシンボル（４２１）の形式で、動き補償ユニットに利用可能な動きベクトルによって制御され得る。動き補償は、サブサンプルの正確な運動ベクトルが使用されている場合、参照ピクチャメモリから抽出されたサンプル値の補間、動きベクトル予測メカニズムなどを含むこともできる。

アグリゲータ（４５５）の出力サンプルは、ループフィルタユニット（４５４）において様々なループフィルタリング技術によって採用され得る。ビデオ圧縮技術は、コーディングされたビデオビットストリームに含まれ、解析器（４２０）からのシンボル（４２１）としてループフィルタユニット（４５４）に利用可能にされるパラメータによって制御されるループ内フィルタ技術を含むことができ、また、コーディングされたピクチャまたはコーディングされたビデオシーケンスの（復号順序で）前の部分を復号する期間に得られたメタ情報に応答し、かつ、以前に再構築されてループフィルタされたサンプル値に応答することもできる。

ループフィルタユニット（４５４）の出力は、レンダリングデバイス（３１２）に出力することができ、かつ、将来のインターピクチャ予測で使用するために参照ピクチャメモリ（４５７）に記憶することができる、サンプルストリームとすることができる。

特定のコーディングされたピクチャは、一旦完全に再構築されると、将来の予測のための参照ピクチャとして使用され得る。例えば、コーディングされたピクチャが一旦完全に再構築され、かつ、コーディングされたピクチャが（例えば、解析器（４２０）によって）参照ピクチャとして識別されると、現在のピクチャ（４５６）は、参照ピクチャバッファ（４５７）の一部となることができ、また、後続のコーディングされたピクチャの再構築を開始する前に、新しい現在のピクチャメモリを再割り当てすることができる。

ビデオデコーダ（３１０）は、例えばＩＴＵ－Ｔ推奨のＨ．２６５などの規格でドキュメント化され得る所定のビデオ圧縮技術に従って復号動作を実行することができる。コーディングされたビデオシーケンスは、ビデオ圧縮技術ドキュメントまたは規格において、特に、それらのプロファイルドキュメントにおいて指定された、ビデオ圧縮技術または規格の構文に従うという意味で、使用されているビデオ圧縮技術または規格によって指定された構文に従うことができる。コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格のレベルによって定義された範囲内にあることも、遵守に必要なものである。いくつかの場合では、レベルは、最大ピクチャサイズ、最大フレームレート、（例えば、１秒あたりのメガ（ｍｅｇａ）サンプルを単位として測定された）最大再構築サンプルレート、最大参照ピクチャサイズなどを制限する。レベルによって設定された制限は、いくつかの場合では、さらに、仮想参照デコーダ（ＨＲＤ：ＨｙｐｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ）仕様と、コーディングされたビデオシーケンスにおいて信号で通知されたＨＲＤバッファ管理のためのメタデータとによって限定され得る。

実施形態では、受信機（４１０）は、符号化されたビデオとともに付加（冗長）的なデータを受信することができる。付加的なデータは、コーディングされたビデオシーケンスの一部として含まれ得る。付加的なデータは、データを適切に復号し、および／または、元のビデオデータをより正確に再構築するために、ビデオデコーダ（３１０）によって使用され得る。付加的なデータは、例えば、時間的、空間的、または信号対雑音比（ＳＮＲ：ｓｉｇｎａｌｎｏｉｓｅｒａｔｉｏ）拡張層、冗長スライス、冗長ピクチャ、前方向誤り訂正符号などの形式にすることができる。

図５は、実施形態によるビデオエンコーダ（３０３）の機能ブロック図である。

エンコーダ（３０３）は、エンコーダ（３０３）によってコーディングされるビデオ画像をキャプチャすることができるビデオソース（３０１）（エンコーダの一部ではない）から、ビデオサンプルを受信することができる。

ビデオソース（３０１）は、エンコーダ（３０３）によってコーディングされるソースビデオシーケンスを、デジタルビデオサンプルストリームの形式で提供することができ、該デジタルビデオサンプルストリームは、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット、．．．）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ．．．）、および任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）を有することができる。ビデオ会議システムでは、ビデオソース（３０１）は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラであり得る。ビデオデータは、順番に見られるときに動きを与える複数の個別のピクチャとして提供され得る。ピクチャ自体は、画素の空間アレイとして構成されてもよく、ここで、各画素は、使用中のサンプリング構造、色空間などに応じて、１つ以上のサンプルを含むことができる。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。

実施形態によれば、エンコーダ（３０３）は、リアルタイムで、またはアプリケーションによって要求される任意の他の時間制約の下で、ソースビデオシーケンスのピクチャをコーディングして圧縮し、コーディングされたビデオシーケンス（５４３）にすることができる。適切なコーディング速度を実施することは、コントローラ（５５０）の１つの機能である。コントローラは、以下で説明するように他の機能ユニットを制御し、これらのユニットに機能的に結合される。明瞭にするために、この結合は図示されていない。コントローラによって設定されたパラメータは、レート制御関連パラメータ（例えば、ピクチャスキップ、量子化器、レート歪み最適化技術のλ（ラムダ）値）、ピクチャサイズ、ピクチャ群（ＧＯＰ）レイアウト、最大動きベクトル探索範囲などを含むことができる。当業者は、コントローラ（５５０）の他の機能を容易に識別することができるが、これらの機能が、特定のシステム設計のために最適化されたビデオエンコーダ（３０３）に関係するからである。

いくつかのビデオエンコーダは、当業者が容易に認識する「コーディングループ」で動作する。過度に簡略化された説明として、コーディングループは、エンコーダ（５３０）（以下、「ソースコーダ」）（コーディングされる入力ピクチャと、参照ピクチャとに基づいてシンボルを作成することを担当する）の符号化部分と、エンコーダ（３０３）に埋め込まれた（ローカル）デコーダ（５３３）とによって構成されることができ、当該デコーダ（５３３）は、シンボルを再構築することで、（リモート）デコーダでも作成されるサンプルデータを作成する（開示された主題で考慮されているビデオ圧縮技術では、シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮が無損失であるため）。再構築されたサンプルストリームは、参照ピクチャメモリ（５３４）に入力される。シンボルストリームの復号により、デコーダの場所（ローカルまたはリモート）に関係なくビット正確な結果が得られるため、参照ピクチャバッファのコンテンツは、ローカルエンコーダとリモートエンコーダとの間でもビット正確である。言い換えれば、エンコーダの予測部分が「見る」参照ピクチャサンプルは、デコーダが復号期間に予測を使用する際に「見る」サンプル値と全く同じである。この参照ピクチャの同期性の基本原理（および、例えばチャネル誤差の原因で同期性を維持できない場合に生じるドリフト）は、当業者によく知られている。

「ローカル」デコーダ（５３３）の動作は、既に図４に関連して上記で詳細に説明された、「リモート」デコーダ（３１０）の動作と同じであってもよい。しかし、図４をさらに簡単に参照すると、シンボルが利用可能であり、かつ、エントロピーコーダ（５４５）および解析器（４２０）によってコーディングされたビデオシーケンスへのシンボルの符号化／復号が無損失であり得るため、チャネル（４１２）、受信機（４１０）、バッファメモリ（４１５）および解析器（４２０）を含む、デコーダ（３１０）のエントロピー復号部分は、ローカルデコーダ（５３３）で完全に実現されていない可能性がある。

この時点で、デコーダに存在する解析／エントロピー復号以外のいかなるデコーダ技術も、対応するエンコーダにおいて、実質的に同一の機能形式で必ず存在する必要がある、ということが観察されている。エンコーダ技術の説明は、包括的に説明されているデコーダ技術の逆であるため、省略され得る。特定の領域だけ、より詳細な説明が必要であり、以下で提供される。

その動作の一部として、ソースコーダ（５３０）は、動き補償予測コーディングを実行することができ、当該動き補償予測コーディングは、ビデオシーケンスから「参照フレーム」として指定された１つ以上の以前にコーディングされたフレームを参照して、入力フレームを予測的にコーディングする。このようにして、コーディングエンジン（５３２）は、入力フレームの画素ブロックと、入力フレームに対する予測参照として選択され得る参照フレームの画素ブロックとの間の差分をコーディングする。

ローカルビデオデコーダ（５３３）は、ソースコーダ（５３０）によって作成されたシンボルに基づいて、参照フレームとして指定され得るフレームのコーディングされたビデオデータを復号することができる。コーディングエンジン（５３２）の動作は、有利には損失性のプロセスであってもよい。コーディングされたビデオデータがビデオデコーダ（図４に示されない）で復号され得る場合、再構築されたビデオシーケンスは、通常、いくつかの誤差を伴うソースビデオシーケンスのレプリカであってもよい。ローカルビデオデコーダ（５３３）は、参照フレームに対してビデオデコーダによって実行され得る復号プロセスを複製して、再構築された参照フレームを参照ピクチャキャッシュ（５３４）に記憶させることができる。このようにして、エンコーダ（３０３）は、遠端ビデオデコーダによって得られる（伝送誤差が存在しない）再構築された参照フレームと共通のコンテンツを有する、再構築された参照フレームのコピーを、ローカルに記憶することができる。

予測器（５３５）は、コーディングエンジン（５３２）に対して予測検索を実行することができる。すなわち、コーディングされる新しいフレームについて、予測器（５３５）は、新しいピクチャのための適切な予測参照として機能するサンプルデータ（候補参照画素ブロックとして）または特定のメタデータ、例えば参照ピクチャの動きベクトル、ブロック形状などについて、参照ピクチャメモリ（５３４）を検索することができる。予測器（５３５）は、適切な予測参照を見つけるために、サンプル・ブロック／画素ブロックごとに（ｏｎａｓａｍｐｌｅｂｌｏｃｋ－ｂｙ－ｐｉｘｅｌｂｌｏｃｋｂａｓｉｓ）動作することができる。いくつかの場合では、予測器（５３５）によって得られた検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（５３４）に記憶された複数の参照ピクチャから引き出された予測参照を有することができる。

コントローラ（５５０）は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ビデオコーダ（５３０）のコーディング動作を管理することができる。

上述のすべての機能ユニットの出力は、エントロピーコーダ（５４５）においてエントロピーコーディングされ得る。エントロピーコーダは、ハフマンコーディング、可変長コーディング、算術コーディングなどのような、当業者に知られている技術に従って、シンボルを無損失で圧縮することにより、様々な機能ユニットによって生成されたシンボルを、コーディングされたビデオシーケンスに変換する。

送信機（５４０）は、符号化されたビデオデータを記憶することができる記憶デバイスへのハードウェア／ソフトウェアリンクであり得る通信チャネル（５６０）を介した送信に備えるために、エントロピーコーダ（５４５）によって作成された、コーディングされたビデオシーケンスをバッファリングすることができる。送信機（５４０）は、ビデオコーダ（５３０）からのコーディングされたビデオデータを、送信される他のデータ、例えば、コーディングされたオーディオデータおよび／または補助データストリーム（ソースは図示せず）とマージすることができる。

コントローラ（５５０）は、エンコーダ（３０３）の動作を管理することができる。コーディングする期間、コントローラ（５５０）は、各コーディングされたピクチャに、特定のコーディングされたピクチャタイプを割り当てることができ、これは、それぞれのピクチャに適用できるコーディング技術に影響を与える可能性がある。例えば、ピクチャは、多くの場合、以下のフレームタイプのいずれかとして割り当てられ得る。

イントラピクチャ（Ｉピクチャ）は、シーケンス内の任意の他のフレームを予測ソースとして使用せずに、コーディングおよび復号され得るものであり得る。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ（ＩＤＲ：ＩｎｄｅｐｅｎｄｅｎｔＤｅｃｏｄｅｒＲｅｆｒｅｓｈ）ピクチャなどの異なるタイプのイントラピクチャを許容する。当業者は、Ｉピクチャの変種およびそれらのそれぞれの用途および特徴を理解している。

予測ピクチャ（Ｐピクチャ）は、多くとも１つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するイントラ予測またはインター予測を使用して、コーディングおよび復号され得るものであり得る。

双方向予測ピクチャ（Ｂピクチャ）は、多くとも２つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するイントラ予測またはインター予測を使用して、コーディングおよび復号され得るものであり得る。同様に、複数の予測ピクチャは、単一のブロックの再構築のために、３つ以上の参照ピクチャおよび関連付けられたメタデータを使用することができる。

ソースピクチャは、一般的に、複数のサンプルデータブロック（例えば、それぞれ４ｘ４、８ｘ８、４ｘ８、または１６ｘ１６個のサンプルのブロック）に空間的に細分され、ブロックごとにコーディングされ得る。ブロックは、当該ブロックのそれぞれのピクチャに適用されるコーディング割り当てによって決定されるように、他の（既にコーディングされた）ブロックを参照して予測的にコーディングされ得る。例えば、Ｉピクチャのブロックは、非予測的にコーディングされてもよく、またはそれらが同じピクチャの既にコーディングされたブロックを参照して予測的に（空間予測またはイントラ予測）コーディングされてもよい。Ｐピクチャの画素ブロックは、非予測的にコーディングされてもよく、または１つ前にコーディングされた参照ピクチャを参照して、空間予測を介してまたは時間予測を介して予測的にコーディングされてもよい。Ｂピクチャのブロックは、非予測的にコーディングされてもよく、１つまたは２つの以前にコーディングされた参照ピクチャを参照して、空間予測または時間予測を介して予測的にコーディングされてもよい。

ビデオコーダ（３０３）は、例えばＩＴＵ－Ｔ推奨のＨ．２６５またはＶＶＣＨ．２６６などのような所定のビデオコーディング技術または規格に従って、コーディング動作を実行することができる。その動作において、ビデオコーダ（３０３）は、入力ビデオシーケンスにおける時間的および空間的冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行することができる。したがって、コーディングされたビデオデータは、使用されるビデオコーディング技術または標準によって指定された構文に従うことができる。

実施形態では、送信機（５４０）は、符号化されたビデオとともに、付加的なデータを送信することができる。ビデオコーダ（５３０）は、そのようなデータを、コーディングされたビデオシーケンスの一部として含むことができる。付加的なデータは、時間的、空間的、および／またはＳＮＲ拡張層、冗長ピクチャやスライスなどの他の形式の冗長データ、ＳＥＩメッセージ、視覚ユーザビリティ情報（ＶＵＩ：ＶｉｓｕａｌＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ）パラメータセットフラグメントなどを含むことができる。

本明細書で説明される実施形態には、ニューラルネットワークベースのビデオコーディングシステムでのプルーニングのための方法および装置が含まれる。潜在的な「プルーニングされる」パラメータは、ニューラルネットワーク（ＮＮ）パラメータセットと呼ばれる。

実施形態では、バイナリマスクを使用して、ＮＮパラメータセットのどの部分がプルーニングされるかを示すことができる。マスクにおける各要素は、０または１のバイナリインジケータとして、フィルタ係数グループにおける特定の行、列、または位置、またはパラメータグループの別の事前定義された１つの個別のパラメータが０に設定されるかどうかを意味する。このマスクは、デコーダ側に信号で通知される。

実施形態では、グループ化メカニズムは、エンコーダとデコーダの両方によって合意され得る。ＮＮパラメータセットの全体は、１Ｄ係数のセット（図１Ｄの部分（ｂ）を参照）における行ごと、列ごと、および位置ごとなどのようなグループに分類され得る。プルーニングの最小限の操作は、既存のグループに基づくものである。つまり、プルーニングされた場合、グループ全体のパラメータは０に設定される。エンコーダ側では、選択されたグループのインデックスが送信され、これにより、該グループにおけるパラメータがプルーニングされることが示される。実施形態では、インデックスは、１つの単一インデックスであり得、それは、すべての可能なグループの範囲内にある。別の実施形態では、ＮＮパラメータセットが複数の次元を有すると仮定すると、インデックスは、いくつかのインデックスの組み合わせの形式で、信号で通知され得る。各インデックスは、１つの次元における位置を信号で通知するために使用され得る。別の実施形態では、エンコーダ／デコーダには、そのＮＮパラメータセットに対してプルーニングを使用するかどうかという簡略化された選択がある。プルーニングが選択された場合、インデックスを指示として使用せずに、ＮＮパラメータのデフォルトのサブセットがプルーニングされる。

上記の実施形態と同様に、ＮＮパラメータセットの全体は、１Ｄ係数のセット（図１Ｄの部分（ｂ）を参照）における行ごと、列ごと、および位置ごとなどのようなグループに分類され得る。ＮＮパラメータセットにおけるそれらのプルーニングされるグループの重要度は、例えば、重要度の最も低いグループから重要度の最も高いグループへ優先順位が付けられている。プルーニングが必要な場合、プルーニングされるパラメータの割合などの指示がデコーダに送信される。このような情報を取得することにより、デコーダは、その割合に達するまで、デコーダによって知られる重要度の最も低いグループからプルーニングを実行することができる。実施形態では、送信された指示は、ピクチャタイプまたはスライスタイプに依存し得る。例えば、パラメータの特定の部分は、ＢまたはＰスライス／ピクチャをコーディングする場合よりも、Ｉスライス／ピクチャをコーディングする場合に、より重要になる場合がある。別の例では、Ｉスライス／ピクチャをコーディングする場合よりも、ＢまたはＰスライス／ピクチャをコーディングする場合に、より大きな割合のパラメータがプルーニングされ得る。

実施形態では、異なるモジュールのための複数のパラメータセットがあるように、複数のセットのＮＮパラメータがビデオコーディングシステムに存在する場合、異なるセットのパラメータにわたるプルーニングには、プルーニング操作を適切に信号で通知することが必要になる場合がある。実施形態では、いくつかのＮＮパラメータセットが、まず、信号で通知される。各ＮＮパラメータセットについて、特定のＮＮパラメータセット内のグループのためのプルーニングインデックス（複数のインデックス）が後に信号で通知される。

実施形態では、プルーニング選択は、ビデオコーディングシステムにおける様々なレベルで、例えば、シーケンスレベル（シーケンスパラメータセット（ＳＰＳ）フラグ）、ピクチャレベル（ピクチャパラメータセット（ＰＰＳ）フラグ、またはピクチャヘッダ）、スライスレベル（スライスレベルセットフラグ）などで操作され得る。実施形態では、シーケンスレベルフラグは、プルーニングがコーディングされたビットストリームで使用され得るということを示すために設定される。このＳＰＳフラグが真である場合、各ピクチャに対して、ピクチャレベルフラグは、現在のピクチャにおけるＮＮパラメータセットをプルーニングする必要があるかどうかを示すために設定される。プルーニングする必要がある場合、上記の方法が適用され得る。別の実施形態では、シーケンスレベルフラグは、プルーニングがコーディングされたビットストリームで使用され得るということを示すために設定される。このＳＰＳフラグが真である場合、各ピクチャに対して、ピクチャレベル情報は、現在のピクチャにおけるＮＮパラメータセットの割合をプルーニングする必要があることを示すために設定される。この値が非ゼロである場合、上記の方法が適用され得る。

実施形態では、上記のプルーニングオプションおよび制御パラメータ（例えば、操作ポイント（どのピクチャなど）、選択インデックス、プルーニングされる割合）は、ＮＮパラメータセットのオプションのプルーニング部分を示すために、ＳＥＩメッセージを介して送信される。これは、特に画像コーディングに適しており、また、ＮＮパラメータセットは、画像コーディングシステムにおける再構築後の段階に適用される。この場合、デコーダは、プルーニングの程度、または自身の選択をプルーニングするかどうかを選択することができる。ＳＥＩメッセージは、デコードされた画像の品質および複雑さを最適化するためのオプションの情報として機能する。

図６は、実施形態によるニューラルネットワークベースのビデオコーディングのためのプルーニング方法（６００）を示すフローチャートである。いくつかの実装形態では、図６の１つまたは複数のプロセスブロックは、デコーダ（３１０）によって実行され得る。いくつかの実装形態では、図６の１つまたは複数のプロセスブロックは、例えばエンコーダ（３０３）のような、デコーダ（３１０）とは分離されるかまたはそれを含む別のデバイスまたはデバイスグループによって実行され得る。

図６を参照すると、第１ブロック（６１０）では、方法（６００）は、ニューラルネットワークのパラメータをグループに分類するステップ、を含む。

第２ブロック（６２０）では、方法（６００）は、グループのうちの第１グループがプルーニングされることを示すように第１インデックスを設定し、グループのうちの第２グループがプルーニングされないことを示すように第２インデックスを設定するステップ、を含む。

第３ブロック（６３０）では、方法（６００）は、設定された第１インデックスおよび設定された第２インデックスをデコーダに送信するステップ、を含む。送信された第１インデックスおよび送信された第２インデックスに基づいて、現在のブロックは、グループのうちの第１グループがプルーニングされるパラメータを使用して処理される。例えば、フィルタリング操作は、グループのうちの第１グループがプルーニングされるパラメータを使用して、現在のブロックに対して実行され得る。

方法（６００）は、さらに、プルーニングがコーディングされたビットストリームで実行されるかどうかを示すシーケンスパラメータセット（ＳＰＳ）フラグを設定するステップと、プルーニングがコーディングされたビットストリームで実行されることを示すようにＳＰＳフラグが設定されていることに基づいて、ニューラルネットワークの１つまたは複数のパラメータがプルーニングされるかどうかを示すピクチャパラメータセット（ＰＰＳ）フラグ、および／または、プルーニングされるニューラルネットワークのパラメータの割合を示すピクチャレベル情報を設定するステップと、を含み得る。

方法（６００）は、さらに、設定されたＰＰＳフラグおよび設定されたピクチャレベル情報をデコーダに送信するステップ、を含み得る。１つまたは複数のパラメータがプルーニングされることを示す送信されたＰＰＳフラグと、送信されたピクチャレベル情報とに基づいて、現在のブロックは、当該割合に達するまで、当該割合がプルーニングされるパラメータを使用してフィルタリングされ得る。

設定された第１インデックスおよび設定された第２インデックスは、補足強化情報（ＳＥＩ）メッセージを介してデコーダに送信され得る。

ニューラルネットワークのパラメータは、２次元（２Ｄ）アレイに配置され得、ニューラルネットワークのパラメータが分類されるグループは、２Ｄアレイの行、列、および位置の任意の１つまたは任意の組み合わせを含み得、第１インデックスおよび第２インデックスは、バイナリマスクに含まれるバイナリインジケータであり得る。

図７は、実施形態による、ニューラルネットワークベースのビデオコーディングのためのプルーニング方法（７００）を示すフローチャートである。いくつかの実装形態では、図７の１つまたは複数のプロセスブロックは、デコーダ（３１０）によって実行され得る。いくつかの実装形態では、図７の１つまたは複数のプロセスブロックは、例えばエンコーダ（３０３）のような、デコーダ（３１０）とは分離されるかまたはそれを含む別のデバイスまたはデバイスグループによって実行され得る。

図７を参照すると、第１ブロック（７１０）では、方法（７００）は、ニューラルネットワークのパラメータをグループに分類するステップ、を含む。

第２ブロック（７２０）では、方法（７００）は、グループのうちの第１グループの第１優先度と、グループのうちの第２グループの第２優先度とを設定するステップ、を含み、第２優先度は、第１優先度よりも低い。

第３ブロック（７３０）では、方法（７００）は、設定された第１優先度、設定された第２優先度、およびプルーニングされるニューラルネットワークのパラメータの割合をデコーダに送信するステップ、を含む。現在のブロックは、グループのうちの、第２優先度を有する第２グループから開始し、続いて、グループのうちの、第１優先度を有する第１グループに対して、当該割合に達するまで、当該割合がプルーニングされるパラメータを使用して処理される。

ピクチャがＢまたはＰスライスまたはピクチャであることに基づいて、プルーニングされるニューラルネットワークのパラメータの割合は、大きくなる可能性があり、ピクチャがＩスライスまたはピクチャであることに基づいて、プルーニングされるニューラルネットワークのパラメータの割合は、小さくなる可能性がある。

図７は、方法（７００）の例示的なブロックを示すが、いくつかの実装形態では、方法（７００）は、図７に示されるものよりも追加のブロック、より少ないブロック、異なるブロック、または異なるように配置されたブロックを含み得る。追加的にまたは代替的には、方法（７００）の２つ以上のブロックは、並行して実行され得る。

図８は、実施形態による、ニューラルネットワークベースのビデオコーディングのためのプルーニング装置（８００）の簡略化されたブロック図である。

図８を参照すると、装置（８００）は、分類コード（８１０）、第１設定コード（８２０）、第１送信コード（８３０）、第２設定コード（８４０）、第２送信コード（８５０）を含む。

分類コード（８１０）は、少なくとも１つのプロセッサに、ニューラルネットワークのパラメータをグループに分類させるように構成される。

第１設定コード（８２０）は、少なくとも１つのプロセッサに、グループのうちの第１グループがプルーニングされることを示すように第１インデックスを設定し、グループのうちの第２グループがプルーニングされないことを示すように第２インデックスを設定させるように構成される。

第１送信コード（８３０）は、少なくとも１つのプロセッサに、設定された第１インデックスおよび設定された第２インデックスをデコーダに送信させるように構成される。送信された第１インデックスおよび送信された第２インデックスに基づいて、現在のブロックは、グループのうちの第１グループがプルーニングされるパラメータを使用して処理される。

第２設定コード（８４０）は、少なくとも１つのプロセッサに、グループのうちの第１グループの第１優先度と、グループのうちの第２グループの第２優先度とを設定させるように構成され、第２優先度は、第１優先度よりも低い。第２送信コード（８５０）は、少なくとも１つのプロセッサに、設定された第１優先度、設定された第２優先度、およびプルーニングされるニューラルネットワークのパラメータの割合をデコーダに送信させるように構成される。現在のブロックは、グループのうちの、第２優先度を有する第２グループから開始し、続いて、グループのうちの、第１優先度を有する第１グループに対して、当該割合に達するまで、当該割合がプルーニングされるパラメータを使用して処理される。

ピクチャがＢまたはＰスライスまたはピクチャであることに基づいて、プルーニングされるニューラルネットワークのパラメータの割合は、より大きくなる可能性があり、ピクチャがＩスライスまたはピクチャであることに基づいて、プルーニングされるニューラルネットワークのパラメータの割合は、より小さくなる可能性がある。

第２設定コード（８４０）は、少なくとも１つのプロセッサに、プルーニングがコーディングされたビットストリームで実行されるかどうかを示すシーケンスパラメータセット（ＳＰＳ）フラグを設定させ、また、プルーニングがコーディングされたビットストリームで実行されることを示すようにＳＰＳフラグが設定されていることに基づいて、ニューラルネットワークの１つまたは複数のパラメータがプルーニングされるかどうかを示すピクチャパラメータセット（ＰＰＳ）フラグ、および／または、プルーニングされるニューラルネットワークのパラメータの割合を示すピクチャレベル情報を設定させるように構成される。

第２送信コード（８５０）は、少なくとも１つのプロセッサに、設定されたＰＰＳフラグおよび設定されたピクチャレベル情報をデコーダに送信させるように構成され得る。１つまたは複数のパラメータがプルーニングされることを示す送信されたＰＰＳフラグと、送信されたピクチャレベル情報とに基づいて、現在のブロックは、当該割合に達するまで、当該割合がプルーニングされるパラメータを使用して、処理および／またはフィルタリングされ得る。

ニューラルネットワークのパラメータは、２次元（２Ｄ）アレイに配置され得、ニューラルネットワークのパラメータが分類されるグループは、２Ｄアレイの行、列、および位置の任意の１つまたは任意の組み合わせを含み得、第１インデックスと第２インデックスは、バイナリマスクに含まれるバイナリインジケータである。

図９は、実施形態を実現することに適したコンピュータシステム（９００）の図である。

コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用してコーディングされてもよく、アセンブリ、コンパイル、リンクなどのメカニズムによって命令を含むコードを作成してもよいし、この命令は、コンピュータ中央処理ユニット（ＣＰＵ：ｃｏｍｐｕｔｅｒｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、グラフィクス処理ユニット（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などによって直接的に実行されてもよく、または解釈、マイクロコードなどによって実行されてもよい。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、ＩｏＴデバイス（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓｄｅｖｉｃｅｓ）などを含む、様々なタイプのコンピュータまたはそのコンポーネントで実行されてもよい。

図９に示されるコンピュータシステム（９００）のコンポーネントは、本質的に例示的なものであり、実施形態を実現するコンピュータソフトウェアの使用範囲または機能に関するいかなる制限も示唆することが意図されていない。コンポーネントの構成は、コンピュータシステム（９００）の実施形態に示されているコンポーネントのいずれかまたは組み合わせに関連する任意の依存性または要件を有すると解釈されるべきではない。

コンピュータシステム（９００）は、いくつかのヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（例えば、キーストローク、スワイプ、データグローブの動き）、オーディオ入力（例えば、音声、拍手など）、視覚入力（例えば、ジェスチャーなど）、嗅覚入力（図示せず）によって、１人以上のユーザによる入力に応答することができる。ヒューマンインターフェース入力デバイスは、例えばオーディオ（例えば、音声、音楽、環境音など）、画像（例えば、スキャンされた画像、静止画像カメラから得られた写真画像など）、ビデオ（例えば、２次元ビデオ、立体映像を含む３次元ビデオなど）などの、人間による意識的な入力に必ずしも直接関連しているとは限らない、特定のメディアをキャプチャするために使用され得る。

入力ヒューマンインターフェースデバイスは、キーボード（９０１）、マウス（９０２）、トラックパッド（９０３）、タッチスクリーン（９１０）、データグローブ、ジョイスティック（９０５）、マイクロフォン（９０６）、スキャナ（９０７）、カメラ（９０８）のうちの１つまたは複数（そのうちの１つだけが図示された）を含み得る。

コンピュータシステム（９００）はまた、いくつかのヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚／味覚によって、１人以上のユーザの感覚を刺激することができる。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（９１０）、データグローブ、ジョイスティック（９０５）による触覚フィードバックであるが、入力デバイスとして作用しない触覚フィードバックデバイスであってもよい）、オーディオ出力デバイス（例えば、スピーカ（９０９）、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ブラウン管（ＣＲＴ：ｃａｔｈｏｄｅｒａｙｔｕｂｅ）スクリーン、液晶ディスプレイ（ＬＣＤ：ｌｉｑｕｉｄ－ｃｒｙｓｔａｌｄｉｓｐｌａｙ）スクリーン、プラズマスクリーン、有機発光ダイオード（ＯＬＥＤ：ｏｒｇａｎｉｃｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅ）スクリーンを含むスクリーン（９１０）であり、各々は、タッチスクリーン入力機能を備えてもよく、あるいは備えていなくてもよく、各々は、触覚フィードバック機能を備えてもよく、あるいは備えていなくてもよいし、これらのいくつかは、ステレオグラフィック出力、仮想現実メガネ（図示せず）、ホログラフィックディスプレイとスモークタンク（図示せず）、およびプリンタ（図示せず）などによって、２次元の視覚出力または３次元以上の視覚出力を出力することができる。グラフィックアダプター（９５０）は、画像を生成し、またタッチスクリーン（９１０）に出力する。

コンピュータシステム（９００）は、例えば、ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（９２０）を含む光学媒体または類似の媒体（９２１）、サムドライブ（９２２）、リムーバブルハードドライブまたはソリッドステートドライブ（９２３）、テープおよびフロッピーディスク（図示せず）などのレガシー磁気媒体、セキュリティドングル（図示せず）などの特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなどのような、人間がアクセス可能な記憶デバイスおよびそれらに関連する媒体を含むことができる。

当業者はまた、ここで開示されている主題に関連して使用される「コンピュータ読み取り可能な媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム（９００）はまた、１つ以上の通信ネットワーク（９５５）へのインターフェース（複数）を含むことができる。ネットワーク（９５５）は、例えば、無線、有線、光学的あってもよい。ネットワーク（９５５）はさらに、ローカルネットワーク、広域ネットワーク、大都市圏ネットワーク、車両用ネットワークおよび産業用ネットワーク、リアルタイムネットワーク、遅延耐性ネットワークなどであってもよい。ネットワーク（９５５）の例は、イーサネット（登録商標）、無線ＬＡＮ、セルラーネットワーク（モバイル通信グローバルシステム（ＧＳＭ）、第３世代（３Ｇ）、第４世代（４Ｇ）、第５世代（５Ｇ）、ロングタームエボリューション（ＬＴＥ）などを含む）などのローカルエリアネットワーク、テレビケーブルまたは無線広域デジタルネットワーク（有線テレビ、衛星テレビ、地上放送テレビを含む）、車両用ネットワークおよび産業用ネットワーク（ＣＡＮＢｕｓを含む）などを含む。いくつかのネットワーク（９５５）は、一般に、いくつかの汎用データポートまたは周辺バス（９４９）（例えば、コンピュータシステム（９００）のユニバーサルシリアルバス（ＵＳＢ：ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）ポート）に接続された外部ネットワークインターフェース（９５４）が必要であり、他のシステムは、通常、以下に説明するようにシステムバスに接続することによって、コンピュータシステム（９００）のコアに統合される（例えば、イーサネットインターフェースからＰＣコンピュータシステムへ、またはセルラーネットワークインターフェースからスマートフォンコンピュータシステムへ）。これらのネットワーク（９５５）のいずれかを使用して、コンピュータシステム（９００）は、他のエンティティと通信することができる。このような通信は、単方向の受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、ＣＡＮバスから特定のＣＡＮバスデバイスへ）、あるいは、双方向の、例えばローカルまたは広域デジタルネットワークを使用して他のコンピュータシステムへの通信であってもよい。上記のように、特定のプロトコルおよびプロトコルスタックは、それらのネットワーク（９５５）およびネットワークインターフェース（９５４）のそれぞれで使用されることができる。

上記のヒューマンインターフェースデバイス、ヒューマンアクセス可能な記憶デバイス、およびネットワークインターフェース（９５４）は、コンピュータシステム（９００）のコア（９４０）に接続されることができる。

コア（９４０）は、１つ以上の中央処理ユニット（ＣＰＵ）（９４１）、グラフィクス処理ユニット（ＧＰＵ）（９４２）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）（９４３）の形式の専用プログラマブル処理ユニット、特定のタスクのためのハードウェア加速器（９４４）などを含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ：Ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）（９４５）、ランダムアクセスメモリ（ＲＡＭ：Ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ）（９４６）、例えば内部の非ユーザアクセスハードドライブ、ソリッドステートドライブ（ＳＳＤ：ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ）などの内部大容量ストレージ（９４７）などとともに、システムバス（９４８）を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス（９４８）は、付加的なＣＰＵ、ＧＰＵなどによって拡張を可能にするために、１つ以上の物理的プラグの形でアクセスすることができる。周辺デバイスは、コアのシステムバス（９４８）に直接に接続されてもよく、または周辺バス（９４９）を介して接続されてもよい。周辺バスのアーキテクチャは、周辺コンポーネント相互接続（ＰＣＩ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔ）、汎用シリアルバス（ＵＳＢ）などを含む。

ＣＰＵ（９４１）、ＧＰＵ（９４２）、ＦＰＧＡ（９４３）、および加速器（９４４）は、いくつかの命令を実行することができ、これらの命令を組み合わせて上記のコンピュータコードを構成することができる。そのコンピュータコードは、ＲＯＭ（９４５）またはＲＡＭ（９４６）に記憶されることができる。また、一時的なデータは、ＲＡＭ（９４６）に記憶されることができる一方、永久的なデータは、例えば内部大容量ストレージ（９４７）に記憶されることができる。１つ以上のＣＰＵ（９４１）、ＧＰＵ（９４２）、大容量ストレージ（９４７）、ＲＯＭ（９４５）、ＲＡＭ（９４６）などと密接に関連することができる、高速ストレージを使用することにより、任意のメモリデバイスに対する高速記憶および検索が可能になる。

コンピュータ読み取り可能な媒体は、様々なコンピュータ実行される動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、実施形態の目的のために特別に設計および構成されるものであってもよく、またはコンピュータソフトウェア分野の技術者によって知られ、利用可能な媒体およびコードであってもよい。

限定ではなく例として、アーキテクチャ（９００）、特にコア（９４０）を有するコンピュータシステムは、１つ以上の有形な、コンピュータ読み取り可能な媒体に具体化されたソフトウェアを実行する、（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、加速器などを含む）プロセッサの結果として機能を提供することができる。このようなコンピュータ読み取り可能な媒体は、上述したようにユーザがアクセス可能な大容量ストレージに関連する媒体であり、コア内部大容量ストレージ（９４７）またはＲＯＭ（９４５）などの、不揮発性コア（９４０）を有する特定のストレージであってもよい。本開示の様々な実施形態を実現するソフトウェアは、そのようなデバイスに記憶され、コア（９４０）によって実行されてもよい。コンピュータ読み取り可能な媒体は、特定のニーズに応じて、１つ以上のメモリデバイスまたはチップを含むことができる。このソフトウェアは、コア（９４０）、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（９４６）に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を変更することとを含む、ここで説明された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えてまたは代替として、コンピュータシステムは、ロジックハードワイヤまたは他の方式で回路（例えば、加速器（９４４））によって具体化された結果としての機能を提供することができ、この回路は、ソフトウェアの代わりに動作しまたはソフトウェアと一緒に動作して、ここで説明された特定のプロセスまたは特定のプロセスの特定の部分を実行してもよい。適切な場合には、ソフトウェアへの参照はロジックを含むことができ、逆もまた然りである。適切な場合には、コンピュータ読み取り可能な媒体への参照は、実行のためにソフトウェアを記憶する回路（例えば、集積回路（ＩＣ）など）、実行のためにロジックを具体化する回路、またはその両方を兼ね備えることができる。実施形態は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。

本開示は、いくつかの例示的な実施形態について説明したが、本開示の範囲内にある変更、置換、および様々な均等置換が存在している。したがって、当業者は、本明細書では明示的に示されていないか、または説明されていないが、本開示の原則を具体化しているので本開示の精神および範囲内ある、様々なシステムおよび方法を設計することができる、ということを理解されたい。

Claims

少なくとも１つのプロセッサによって実行される、ビデオシーケンスのピクチャの現在のブロックのニューラルネットワークベースのビデオコーディングのためのプルーニング方法であって、
ニューラルネットワークのパラメータをグループに分類するステップと、
前記グループのうちの第１グループがプルーニングされることを示すように第１インデックスを設定し、前記グループのうちの第２グループがプルーニングされないことを示すように第２インデックスを設定するステップと、
前記グループのうちの前記第１グループの第１優先度と、前記グループのうちの前記第２グループの第２優先度とを設定するステップであって、前記第２優先度は、前記第１優先度よりも低いステップと、
前記設定された第１インデックス、前記設定された第２インデックス、前記設定された第１優先度、前記設定された第２優先度、およびプルーニングされるべき前記ニューラルネットワークの前記パラメータの割合をデコーダに送信するステップと、を含み、
ここで、前記送信された第１インデックスおよび前記送信された第２インデックスに基づいて、前記現在のブロックは、前記グループのうちの前記第１グループをプルーニングするためのパラメータを使用して処理される、
ことを特徴とするプルーニング方法。
前記現在のブロックは、前記グループのうちの前記第２優先度を有する前記第２グループから開始し、続いて、前記グループのうちの前記第１優先度を有する前記第１グループに対して、前記割合に達するまで、前記割合をプルーニングするためのパラメータを使用して処理される、
ことを特徴とする請求項１に記載のプルーニング方法。
前記ピクチャがＢまたはＰスライスまたはピクチャであることに基づいて、プルーニングされるべき前記ニューラルネットワークの前記パラメータの割合は、より大きくなり、
前記ピクチャがＩスライスまたはピクチャであることに基づいて、プルーニングされるべき前記ニューラルネットワークの前記パラメータの割合は、より小さくなる、
ことを特徴とする請求項２に記載のプルーニング方法。
コーディングされたビットストリームでプルーニングが実行されるかどうかを示すシーケンスパラメータセット（ＳＰＳ）フラグを設定するステップと、
前記コーディングされたビットストリームで前記プルーニングが実行されることを示すように前記ＳＰＳフラグが設定されていることに基づいて、前記ニューラルネットワークの前記パラメータのうちの１つまたは複数のパラメータがプルーニングされるべきかどうかを示す、ピクチャパラメータセット（ＰＰＳ）フラグ、および／または、プルーニングされるべき前記ニューラルネットワークの前記パラメータの割合を示すピクチャレベル情報を設定するステップと、をさらに含む、
ことを特徴とする請求項１に記載のプルーニング方法。
前記設定されたＰＰＳフラグおよび前記設定されたピクチャレベル情報を前記デコーダに送信するステップを、さらに含み、
ここで、前記１つまたは複数のパラメータがプルーニングされるべきことを示す前記送信されたＰＰＳフラグと、前記送信されたピクチャレベル情報とに基づいて、前記現在のブロックは、前記割合に達するまで、前記割合をプルーニングするためのパラメータを使用して処理される、
ことを特徴とする請求項４に記載のプルーニング方法。
前記設定された第１インデックスおよび前記設定された第２インデックスは、補足強化情報（ＳＥＩ）メッセージを介して前記デコーダに送信される、
ことを特徴とする請求項１に記載のプルーニング方法。
前記ニューラルネットワークの前記パラメータは、２次元（２Ｄ）アレイに配置され、
前記ニューラルネットワークの前記パラメータが分類される前記グループは、前記２Ｄアレイの行、列、および位置のうちの任意の１つまたは任意の組み合わせを含み、
前記第１インデックスおよび前記第２インデックスは、バイナリマスクに含まれるバイナリインジケータである、
ことを特徴とする請求項１に記載のプルーニング方法。
ビデオシーケンスのピクチャの現在のブロックのニューラルネットワークベースのビデオコーディングのためのプルーニング装置であって、
コンピュータプログラムコードを記憶するように構成される少なくとも１つのメモリと、
前記少なくとも１つのメモリにアクセスして、前記コンピュータプログラムコードに従って動作するように構成される少なくとも１つのプロセッサと、を含み、前記コンピュータプログラムコードは、
前記少なくとも１つのプロセッサに、ニューラルネットワークのパラメータをグループに分類させるように構成される分類コードと、
前記少なくとも１つのプロセッサに、前記グループのうちの第１グループがプルーニングされることを示すように第１インデックスを設定し、前記グループのうちの第２グループがプルーニングされないことを示すように第２インデックスを設定させるように構成される第１設定コードと、
前記少なくとも１つのプロセッサに、前記グループのうちの前記第１グループの第１優先度と、前記グループのうちの前記第２グループの第２優先度とを設定させるように構成される第２設定コードであって、前記第２優先度は、前記第１優先度よりも低い第２設定コードと、
前記少なくとも１つのプロセッサに、前記設定された第１インデックス、前記設定された第２インデックス、前記設定された第１優先度、前記設定された第２優先度、およびプルーニングされるべき前記ニューラルネットワークの前記パラメータの割合をデコーダに送信させるように構成される第１送信コードと、
を含み、
ここで、前記送信された第１インデックスおよび前記送信された第２インデックスに基づいて、前記現在のブロックは、前記グループのうちの第１グループをプルーニングするためのパラメータを使用して処理される、
ことを特徴とするプルーニング装置。
前記現在のブロックは、前記グループのうちの前記第２優先度を有する前記第２グループから開始し、続いて、前記グループのうちの前記第１優先度を有する前記第１グループに対して、前記割合に達するまで、前記割合をプルーニングするためのパラメータを使用して処理される、
ことを特徴とする請求項８に記載のプルーニング装置。
前記ピクチャがＢまたはＰスライスまたはピクチャであることに基づいて、プルーニングされるべき前記ニューラルネットワークの前記パラメータの割合は、より大きくなり、
前記ピクチャがＩスライスまたはピクチャであることに基づいて、プルーニングされるべき前記ニューラルネットワークの前記パラメータの割合は、より小さくなる、
ことを特徴とする請求項９に記載のプルーニング装置。
前記コンピュータプログラムコードは、さらに、前記少なくとも１つのプロセッサに、
コーディングされたビットストリームでプルーニングが実行されるかどうかを示すシーケンスパラメータセット（ＳＰＳ）フラグを設定させ、
前記コーディングされたビットストリームで前記プルーニングが実行されることを示すように前記ＳＰＳフラグが設定されていることに基づいて、前記ニューラルネットワークの前記パラメータのうちの１つまたは複数のパラメータがプルーニングされるべきかどうかを示す、ピクチャパラメータセット（ＰＰＳ）フラグ、および／または、プルーニングされるべき前記ニューラルネットワークの前記パラメータの割合を示すピクチャレベル情報を設定させるように構成される第２設定コード、を含む、
ことを特徴とする請求項８に記載のプルーニング装置。
前記コンピュータプログラムコードは、さらに、
前記少なくとも１つのプロセッサに、前記設定されたＰＰＳフラグおよび前記設定されたピクチャレベル情報を前記デコーダに送信させるように構成される第２送信コード、を含み、
ここで、前記１つまたは複数のパラメータがプルーニングされるべきことを示す前記送信されたＰＰＳフラグと、前記送信されたピクチャレベル情報とに基づいて、前記現在のブロックは、前記割合に達するまで、前記割合をプルーニングするためのパラメータを使用して処理される、
ことを特徴とする請求項１１に記載のプルーニング装置。
前記設定された第１インデックスおよび前記設定された第２インデックスは、補足強化情報（ＳＥＩ）メッセージを介して前記デコーダに送信される、
ことを特徴とする請求項８に記載のプルーニング装置。
前記ニューラルネットワークの前記パラメータは、２次元（２Ｄ）アレイに配置され、
前記ニューラルネットワークの前記パラメータが分類される前記グループは、前記２Ｄアレイの行、列、および位置のうちの任意の１つまたは任意の組み合わせを含み、
前記第１インデックスおよび前記第２インデックスは、バイナリマスクに含まれるバイナリインジケータである、
ことを特徴とする請求項８に記載のプルーニング装置。
コンピュータプログラムであって、請求項１～７のいずれか１項に記載の方法を、ビデオコーディングのためのデバイスに実行させる、
ことを特徴とするコンピュータプログラム。