JP2023505647A

JP2023505647A - ニューラルネットワークモデルの圧縮

Info

Publication number: JP2023505647A
Application number: JP2022527688A
Authority: JP
Inventors: ワン，ウェイ; ジャン，ウェイ; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-04-16
Filing date: 2021-04-13
Publication date: 2023-02-10
Anticipated expiration: 2041-04-13
Also published as: US20210326710A1; KR20220058628A; EP4011071A1; JP7408799B2; WO2021211522A1; CN114402596A; EP4011071A4

Abstract

ニューラルネットワークモデルの圧縮／解凍のための方法及び装置を説明する。いくつかの例では、ニューラルネットワークモデルを解凍するための装置は、受信回路及び処理回路を含む。処理回路は、ニューラルネットワークの圧縮表現のビットストリームから、依存量子化有効化フラグを受信するように配置されることができる。依存量子化有効化フラグは、依存量子化方法をニューラルネットワークのモデルパラメータに適用するかどうかを示すことができる。依存量子化有効化フラグが、依存量子化方法を使用してニューラルネットワークのモデルパラメータを符号化することを示すことに応答して、依存量子化方法に基づき、ニューラルネットワークのモデルパラメータを再構成することができる。

Description

本開示は、２０２１年４月８日にて提出された、名称が「ＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌＣｏｍｐｒｅｓｓｉｏｎ（ニューラルネットワークモデルの圧縮）」である米国特許出願第１７／２２５，４８６号の優先権を主張し、当該米国特許出願は、２０２０年４月１６日にて提出された、名称が「ＤｅｐｅｎｄｅｎｔＱｕａｎｔｉｚａｔｉｏｎＥｎａｂｌｉｎｇＦｌａｇｆｏｒＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌＣｏｍｐｒｅｓｓｉｏｎ（ニューラルネットワークモデル圧縮の依存量子化有効化フラグ）」である米国仮出願第６３／０１１，１２２号、２０２０年４月１７日にて提出された、名称が「ＳｕｂｌａｙｅｒＯｒｄｅｒｉｎｇｉｎＢｉｔｓｔｒｅａｍｆｏｒＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌＣｏｍｐｒｅｓｓｉｏｎ（ニューラルネットワークモデル圧縮のためのビットストリームでのサブ層の順序付け）」である米国仮出願第６３／０１１，９０８号、２０２０年６月２３日にて提出された、名称が「ＳｕｂｌａｙｅｒｏｒｄｅｒｉｎｇｆｌａｇｆｏｒＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌＣｏｍｐｒｅｓｓｉｏｎ（ニューラルネットワークモデル圧縮のためのサブ層の順序付けフラグ）」である米国仮出願第６３／０４２，９６８号、及び２０２０年７月１５日にて提出された、名称が「ＳｙｎｔａｘＥｌｅｍｅｎｔｓｆｏｒＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌＣｏｍｐｒｅｓｓｉｏｎｗｉｔｈＳｔｒｕｃｔｕｒｅｄＷｅｉｇｈｔＵｎｉｆｉｃａｔｉｏｎ（構造化された重みの統一によるニューラルネットワークモデル圧縮のシンタックス要素）」である米国仮出願第６３／０５２，３６８号の優先権を主張する。先行出願の開示は、援用によりその全体が本明細書に組み込まれる。

本開示は、一般的にニューラルネットワークモデルの圧縮／解凍に関する実施形態を説明する。

本明細書で提供される背景説明は、一般的に本開示の背景を提示することを目的とする。当該背景技術部分に記載されている作業程度について、現在署名された発明者の作業、及び出願時に従来技術として適格ではない可能性のある説明の各側面は、本開示に対する従来技術として、明示又は暗黙的に認められていない。

コンピュータビジョン、画像認識及び音声認識の分野における様々なアプリケーションは、ニューラルネットワークに依存して、パフォーマンスの改善を実現する。ニューラルネットワークは、接続されたノード（ニューロンとも呼ばれる）のセットに基づいており、これらのノードは、生物学的脳におけるニューロンを、大まかにモデル化する。ニューロンは、複数の層に編成される。１つの層のニューロンは、直前の層及び直後の層のニューロンに接続されることができる。

例えば、生物学的脳におけるシナプスのような２つのニューロンの間の接続は、信号を一方のニューロンから他方のニューロンに伝送することができる。その後、信号を受信するニューロンは、当該信号を処理し、接続された他のニューロンに信号を送信することができる。いくつかの例では、ニューロンの出力を取得するために、当該ニューロンの入力の接続の重みによって、当該ニューロンの入力に対して加重を行って、加重後の入力は加算されることで、加重和を生成する。加重和にバイアスを加えることができる。また、加重和は伝達され、活性化関数を介して出力を生成する。

本開示の各態様はニューラルネットワークモデルの圧縮／解凍のための方法及び装置を提供する。いくつかの例では、ニューラルネットワークモデルを解凍するための装置は、受信回路及び処理回路を含む。処理回路は、ニューラルネットワークの圧縮表現のビットストリームから、依存量子化有効化フラグを受信するように配置されることができる。依存量子化有効化フラグは、依存量子化方法をニューラルネットワークのモデルパラメータに適用するかどうかを示すことができる。依存量子化有効化フラグが、依存量子化方法を使用してニューラルネットワークのモデルパラメータを符号化することを示すことに応答して、依存量子化方法に基づき、ニューラルネットワークのモデルパラメータを再構成することができる。

実施形態において、モデルレベル、層レベル、サブ層レベル、３次元コーディングユニット（３－ｄｉｍｅｎｓｉｏｎａｌｃｏｄｉｎｇｕｎｉｔ、ＣＵ３Ｄ）レベル又は３次元コーディングツリーユニット（３－ｄｉｍｅｎｓｉｏｎａｌｃｏｄｉｎｇｔｒｅｅｕｎｉｔ、ＣＴＵ３Ｄ）レベルで、依存量子化有効化フラグを信号で伝送する。実施形態において、依存量子化有効化フラグが、均一量子化方法を使用してニューラルネットワークのモデルパラメータを符号化することを示すことに応答して、均一量子化方法に基づき、ニューラルネットワークのモデルパラメータを構築することができる。

いくつかの例では、装置は、処理回路を含み、処理回路は、ニューラルネットワークの圧縮表現のビットストリームにおける重み係数の第２のサブ層を受信する前に、ビットストリームにおける係数の１つ又は複数の第１のサブ層を受信するように配置される。第１のサブ層と第２のサブ層は、ニューラルネットワークの層に属する。実施形態において、重み係数の第２のサブ層を再構成する前に、係数の１つ又は複数の第１のサブ層を再構成することができる。

実施形態において、係数の１つ又は複数の第１のサブ層は、スケール因子係数サブ層、バイアス係数サブ層、又は、１つ又は複数のバッチ正規化係数サブ層を含む。実施形態において、ニューラルネットワークの層は、畳み込み層又は完全接続層である。実施形態において、１つ又は複数の第１のサブ層の係数は、量子化された値又は量子化されていない値で表される。

実施形態において、ニューラルネットワークの圧縮表現のビットストリームとは別に伝送されるニューラルネットワークの構成情報に基づき、第１のサブ層及び第２のサブ層の復号シーケンスを決定することができる。実施形態において、１つ又は複数の第１のサブ層がニューラルネットワークの層において使用可能かどうかを示す１つ又は複数のフラグを受信することができる。実施形態において、ニューラルネットワークの構成情報に基づき、１次元テンソルを、係数の第１のサブ層のうちの１つに対応するバイアス又はローカルスケールテンソルとして推定することができる。実施形態において、推定プロセス中に、再構成された係数の第１のサブ層をマージして、係数の組み合わせテンソルを生成する。重み係数の第２のサブ層の一部に属する再構成された重み係数を、重み係数の第２のサブ層の残りがまだ再構成されている間に、推定プロセスの入力として受信することができる。推定プロセス中に、係数の組み合わせテンソルと受信した再構成された重み係数に対する行列乗算を実行する。

いくつかの例では、装置は、ニューラルネットワークの圧縮表現のビットストリームにおける第１の統一有効化フラグを受信するように配置される回路を含むことができる。第１の統一有効化フラグは、統一パラメータリダクション方法をニューラルネットワークのモデルパラメータに適用するかどうかを示すことができる。第１の統一有効化フラグに基づき、ニューラルネットワークのモデルパラメータを再構成することができる。実施形態において、第１の統一有効化フラグは、モデルパラメータセット又は層パラメータセットに含まれる。

実施形態において、統一（ｕｎｉｆｉｃａｔｉｏｎ、ユニフィケーション）方法をニューラルネットワークのモデルパラメータに適用すると決定したことに応答して、統一パフォーマンスマップを受信することができる。統一パフォーマンスマップは、１つ又は複数の統一閾値と、対応する統一閾値によって圧縮されるニューラルネットワークの対応する１つ又は複数の推定精度セットとの間のマッピングを示すことができる。

実施形態において、統一パフォーマンスマップは、１つ又は複数の統一閾値の数を示すシンタックス要素、１つ又は複数の統一閾値のそれぞれに対応する相応的な統一閾値を示すシンタックス要素、又は１つ又は複数の統一閾値のそれぞれに対応する相応的な推定精度セットを示す１つ又は複数のシンタックス要素、のうちの１つ又は複数を含む。

実施形態において、統一パフォーマンスマップは、モデルパラメータテンソル、モデルパラメータテンソルから分割されたスーパーブロック、又はスーパーブロックから分割されたブロックのうちの１つ又は複数の次元を示す１つ又は複数のシンタックス要素をさらに含む。

実施形態において、第１の統一有効化フラグがモデルパラメータセットに含まれ、第２の統一有効化フラグが層パラメータセットに含まれ、第１の統一有効化フラグ及び第２の統一有効化フラグがそれぞれ、統一パラメータリダクション方法が有効化されたことを示す値を有することに応答して、層パラメータセットにおける統一パフォーマンスマップのシンタックス要素の値を、ニューラルネットワークの圧縮表現のビットストリームにおける、層パラメータセットを参照する圧縮データに適用すると決定する。

本開示の各態様は、非一時的コンピュータ可読媒体をさらに提供し、当該非一時的コンピュータ可読媒体には、指令が記憶され、前記指令は、ニューラルネットワークモデルの解凍のためのコンピュータにより実行される場合、ニューラルネットワークモデル解凍の方法をコンピュータに実行させる。

開示された主題のさらなる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。

本開示の実施形態による電子装置（１３０）のブロック図を示す。

重みテンソルにおける重み係数を走査するシンタックス例を示す。

ステップサイズシンタックス表の例を示す。

本開示のいくつかの実施形態による、量子化された重み係数の絶対値を復号する例を示す。

本開示の実施形態による２つのスカラー量子化器を示す。

ローカルスケール適応プロセスの例を示す。

反復的な再訓練／微調整プロセスの全体的なフレームワークを示す。

統一によるパラメータリダクションのための例示的なシンタックス表（８００）を示す。

統一パフォーマンスマップ（９００）のシンタックス構造の例を示す。

統一によるパラメータリダクションのための別の例示的なシンタックス表（１０００）を示す。

本開示の実施形態によるプロセス（１１００）を概説するフローチャートを示す。

本開示の実施形態によるコンピュータシステムの概略図である。

本開示の各態様は、ニューラルネットワークモデルの圧縮／解凍のための様々な技術を提供する。これらの技術は、パラメータ量子化方法制御技術、サブ層処理順序技術、及び重み統一によるパラメータリダクション技術を含むことができる。

人工ニューラルネットワークは、マルチメディア分析及び処理、メディアコーディング、データ分析及び他の多くの分野における幅広いタスクに適用できる。人工ニューラルネットワークの使用の成功は、これまでよりもはるかに大規模で複雑なニューラルネットワーク（深層ニューラルネットワーク、ＤＮＮ）を処理する実行可能性、及び大規模な訓練データセットの使用可能性に基づいている。従って、訓練されたニューラルネットワークは、大量のモデルパラメータを含むので、サイズは、かなり大きく（例えば、数百ＭＢ）なる。モデルパラメータは、例えば、重み、バイアス、スケール因子、バッチ正規化（ｂａｔｃｈｎｏｒｍ）パラメータなどの訓練されたニューラルネットワークの係数を含むことができる。これらのモデルパラメータは、モデルパラメータテンソルに編成される。モデルパラメータテンソルは、ニューラルネットワークの関連するモデルパラメータを１つにグルーピングする多次元構成（例えば、アレイ又は行列）を指す。例えば、ニューラルネットワークにおける層の係数は、使用可能な場合、重みテンソル、バイアステンソル、スケール因子テンソル、ｂａｔｃｈｎｏｒｍテンソルなどにグルーピングされることができる。

多くのアプリケーションは、特定の訓練されたネットワークインスタンスを潜在的に大量の装置に配置する必要があるため、処理能力とメモリ（例えば、モバイル装置やスマートカメラ）及び通信帯域幅の点で制限がある場合がある。これらのアプリケーションは、本明細書に開示されるニューラルネットワークの圧縮／解凍技術から利益を取得できる。

Ｉ．ニューラルネットワークによる装置及びアプリケーション

図１は、本開示の実施形態による電子装置（１３０）のブロック図を示す。電子装置（１３０）は、ニューラルネットワークによるアプリケーションを実行するように配置されることができる。いくつかの実施形態では、電子装置（１３０）は、圧縮（符号化）されたニューラルネットワークモデル（例えば、ビットストリーム形式のニューラルネットワークの圧縮表現）を受信して記憶する。電子装置（１３０）は、圧縮されたニューラルネットワークモデルを解凍（又は復号）して、ニューラルネットワークモデルを復元することができ、ニューラルネットワークモデルによるアプリケーションを実行することができる。いくつかの実施形態では、圧縮されたニューラルネットワークモデルは、例えばアプリケーションサーバー（１１０）などのサーバーから提供される。

図１の例では、アプリケーションサーバー（１１０）は、結合された処理回路（１２０）、メモリ（１１５）及びインターフェース回路（１１１）を含む。いくつかの例では、ニューラルネットワークは、適切に生成、訓練又は更新される。ニューラルネットワークは、ソースニューラルネットワークモデルとして、メモリ（１１５）に記憶されることができる。処理回路（１２０）は、ニューラルネットワークモデルコーデック（１２１）を含む。ニューラルネットワークモデルコーデック（１２１）は、ソースニューラルネットワークモデルを圧縮して、圧縮されたニューラルネットワークモデル（ニューラルネットワークの圧縮表現）を生成することができる符号器を含む。いくつかの例では、圧縮されたニューラルネットワークモデルは、ビットストリームの形式を呈する。圧縮されたニューラルネットワークモデルは、メモリ（１１５）に記憶されることができる。アプリケーションサーバー（１１０）は、インターフェース回路（１１１）を介して、ビットストリームの形式で、圧縮されたニューラルネットワークモデルを例えば電子装置（１３０）などの他の装置に提供することができる。

なお、電子装置（１３０）は、例えば、スマートフォン、ビデオカメラ、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミングヘッドセットなどの任意の適切な装置であってもよい。

図１の例では、電子装置（１３０）は、結合された処理回路（１４０）、キャッシュメモリ（１５０）、メインメモリ（１６０）及びインターフェース回路（１３１）を含む。いくつかの例では、電子装置（１３０）は、インターフェース回路（１３１）を介して、例えば、ビットストリームの形式で、圧縮されたニューラルネットワークモデルを受信する。圧縮されたニューラルネットワークモデルは、メインメモリ（１６０）に記憶される。

処理回路（１４０）は、例えば、中央処理ユニット（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）、グラフィックス処理ユニット（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＧＰＵ）などの任意の適切な処理ハードウェアを含む。処理回路（１４０）は、ニューラルネットワークによるアプリケーションを実行するための適切な構成要素、及びニューラルネットワークモデルコーデック（１４１）として配置される適切な構成要素を含む。ニューラルネットワークモデルコーデック（１４１）は、例えば、アプリケーションサーバー（１１０）から受信した、圧縮されたニューラルネットワークモデルを復号することができる復号器を含む。一例では、処理回路（１４０）は、単一のチップ（例えば、集積回路）を含み、１つ又は複数のプロセッサーは、単一のチップに設けられる。別の例では、処理回路（１４０）は複数のチップを含み、各チップは１つ又は複数のプロセッサーを含む。

いくつかの実施形態では、メインメモリ（１６０）は、比較的大きな記憶空間を有し、例えばソフトウェアコード、メディアデータ（例えばビデオ、オーディオ、画像など）、圧縮されたニューラルネットワークモデルなどの様々な情報を記憶することができる。キャッシュメモリ（１５０）は、比較的小さな記憶空間を有するが、メインメモリ（１６０）よりも、アクセス速度が遥かに高速である。いくつかの例では、メインメモリ（１６０）は、ハードディスクドライブ、ソリッドステートドライブなどを含み、キャッシュメモリ（１５０）は、静的ランダムアクセスメモリ（ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＳＲＡＭ）などを含むことができる。一例では、キャッシュメモリ（１５０）は、例えばプロセッサーチップに設けられるオンチップメモリであってもよい。別の例では、キャッシュメモリ（１５０）は、プロセッサーチップとは別の１つ又は複数のメモリチップに設けられるオフチップメモリであってもよい。一般的に、オンチップメモリは、オフチップメモリよりも、アクセス速度が高速である。

いくつかの実施形態では、処理回路（１４０）は、ニューラルネットワークモデルを使用するアプリケーションを実行する場合、ニューラルネットワークモデルコーデック（１４１）は、圧縮されたニューラルネットワークモデルを解凍してニューラルネットワークモデルを復元することができる。いくつかの例では、キャッシュメモリ（１５０）は、十分に大きいため、復元されたニューラルネットワークモデルをキャッシュメモリ（１５０）にキャッシュすることができる。そして、処理回路（１４０）は、キャッシュメモリ（１５０）にアクセスして、アプリケーションにおいて、復元されたニューラルネットワークモデルを使用することができる。別の例では、キャッシュメモリ（１５０）は、限られたメモリ空間を有し（例えば、オンチップメモリ）、圧縮されたニューラルネットワークモデルは、層、又はブロックごとに解凍されることができ、キャッシュメモリ（１５０）は、復元されたニューラルネットワークモデルを層、又はブロックごとにキャッシュすることができる。

なお、ニューラルネットワークモデルコーデック（１２１）及びニューラルネットワークモデルコーデック（１４１）は、任意の適切な技術で実現できる。いくつかの実施形態では、符号器及び／又は復号器は、集積回路で実現できる。いくつかの実施形態では、符号器及び復号器は、１つ又は複数のプロセッサーとして実現され、前記１つ又は複数のプロセッサーは、非一時的なコンピュータ可読媒体に記憶されたプログラムを実行する。ニューラルネットワークモデルコーデック（１２１）及びニューラルネットワークモデルコーデック（１４１）は、以下に説明する符号化特徴及び復号化特徴に基づき実現することができる。

本開示は、ニューラルネットワーク表現（ｎｅｕｒａｌｎｅｔｗｏｒｋｒｅｐｒｅｓｅｎｔａｔｉｏｎ、ＮＮＲ）のための技術を提供し、当該技術は、記憶及び計算を節約するように、例えば、深層ニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、ＤＮＮ）モデルなどのニューラルネットワークモデルの符号化及び復号化に使用されることができる。深層ニューラルネットワーク（ＤＮＮ）は、例えば、セマンティック分類、ターゲット検出／認識、ターゲット追跡、ビデオ品質強化などの幅広いビデオアプリケーションに適用される。

ニューラルネットワーク（又は人工ニューラルネットワーク）は一般的に、入力層と出力層との間に複数の層を含む。いくつかの例では、ニューラルネットワークにおける層は、層の入力を層の出力に変換する数学的変換（ｍａｔｈｅｍａｔｉｃａｌｍａｎｉｐｕｌａｔｉｏｎ）に対応する。数学的変換は、直線的関係又は非直線的関係であってもよい。ニューラルネットワークは、層をトラバースすることで、各出力の確率を計算する。各数学的変換自体はいずれも層と見なされて、複雑なＤＮＮは多くの層を備える。いくつかの例では、層の数学的変換は、１つ又は複数のテンソル（例えば、重みテンソル、バイアステンソル、スケール因子テンソル、ｂａｔｃｈｎｏｒｍテンソルなど）で表されることができる。

ＩＩ．依存量子化の有効化

１．走査順序

ニューラルネットワークモデルの符号化／復号化には、例えば走査順序技術、量子化技術、エントロピー符号化技術などの様々な技術を使用することができる。

走査順序技術のいくつかの例では、重みテンソルの次元は、２を超え（例えば、畳み込み層における４である）、重みテンソルは、２次元テンソルに再形成（ｒｅｓｈａｐｅ）される。一例では、重みテンソルの次元が２以下である（例えば、完全接続層又はバイアス層である）場合、再形成を実行しない。

重みテンソルを符号化するために、一定の順序に従って、重みテンソルにおける重み係数を走査する。いくつかの例では、例えば、一番上の行から一番下の行までの各行に対して、左から右へ、重みテンソルにおける重み係数を行優先方式で走査する。

図２は、重みテンソルにおける重み係数を走査するシンタックス例を示す。

２．量子化

いくつかの例では、最近傍量子化は、重み行列における各重み係数に均一に適用される。このような量子化方法は、均一量子化方法と呼ばれる。例えば、ステップサイズは、適切に決定され、ビットストリームに含まれる。一例では、ステップサイズは、３２ビット浮動小数点数として定義され、ビットストリームに符号化される。従って、復号器が、ステップサイズ、及び重み係数に対応する整数をビットストリームから復号する場合、復号器は、重み係数を、当該整数とステップサイズとの積として再構成することができる。

図３は、ステップサイズシンタックス表の例を示す。シンタックス要素ｓｔｅｐ_ｓｉｚｅは、量子化ステップサイズを示す。

３．エントロピー符号化

量子化された重み係数を符号化するために、エントロピー符号化技術を使用することができる。いくつかの実施形態では、量子化された重み係数の絶対値は、単項シーケンス（ｕｎａｒｙｓｅｑｕｅｎｃｅ）を含むシーケンスに符号化され、当該単項シーケンスの後に、固定長のシーケンスが続く場合がある。

いくつかの例では、重み係数の層内の分布は一般的にガウス分布に従って、値が大きい重み係数の割合は非常に小さいが、重み係数の最大値は非常に大きい。いくつかの実施形態では、一進法符号化（ｕｎａｒｙｃｏｄｉｎｇ）を使用して、非常に小さな値を符号化し、ゴロム符号化（Ｇｏｌｏｍｂｃｏｄｉｎｇ）に基づき、大きな値を符号化することができる。例えば、ｍａｘＮｕｍＮｏＲｅｍと呼ばれる整数パラメータは、ゴロム符号化を使用しない場合の最大数を示すために使用される。量子化された重み係数がｍａｘＮｕｍＮｏＲｅｍより大きくない（例えば、等しいか小さい）場合、一進法符号化で、量子化された重み係数を符号化することができる。量子化された重み係数がｍａｘＮｕｍＮｏＲｅｍより大きい場合、量子化された重み係数の、ｍａｘＮｕｍＮｏＲｅｍに等しい部分は一進法符号化で符号化され、量子化された重み係数の残りはゴロム符号化で符号化される。従って、単項シーケンスは、一進法符号化された第１の部分、及び指数ゴロムの残りビットを符号化するためのビットの第２の部分を含む。

いくつかの実施形態では、以下の２つのステップによって、量子化された重み係数を符号化することができる。

第１のステップでは、量子化された重み係数に対して、バイナリシンタックス要素ｓｉｇ_ｆｌａｇを符号化する。バイナリシンタックス要素ｓｉｇ_ｆｌａｇは、量子化された重み係数が０に等しいかどうかを指定する。ｓｉｇ_ｆｌａｇが１に等しい（量子化された重み係数が０に等しくないことを示す）場合、バイナリシンタックス要素ｓｉｇｎ_ｆｌａｇをさらに符号化する。バイナリシンタックス要素ｓｉｇｎ_ｆｌａｇは、量子化された重み係数が正か負かを示す。

第２のステップでは、量子化された重み係数の絶対値を、単項シーケンスを含むシーケンスに符号化し、当該単項シーケンスの後に、固定長のシーケンスが続く場合がある。量子化された重み係数の絶対値がｍａｘＮｕｍＮｏＲｅｍ以下である場合、当該シーケンスは、量子化された重み係数の絶対値の一進法符号化を含む。量子化された重み係数の絶対値がｍａｘＮｕｍＮｏＲｅｍより大きい場合、単項シーケンスは、一進法符号化を使用してｍａｘＮｕｍＮｏＲｅｍを符号化するための第１の部分、及び指数ゴロム残りビットを符号化するための第２の部分を含むことができ、固定長のシーケンスは、固定長の残りの部分を符号化するためのものである。

いくつかの例では、まず、一進法符号化を適用する。例えば、ｊなどの変数は、０に初期化され、別の変数Ｘはｊ＋１に設定される。シンタックス要素ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘは符号化される。一例では、量子化された重みレベルの絶対値が変数Ｘより大きい場合、ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘは、１に設定され、一進法符号化が継続され、量子化された重みレベルの絶対値が変数Ｘより大きくない場合、ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘは０に設定され、一進法符号化は完成する。ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘが１に等しく、且つ変数ｊがｍａｘＮｕｍＮｏＲｅｍより小さい場合、変数ｊは１増加し、変数Ｘも１増加する。そして、別のシンタックス要素ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘを符号化する。当該プロセスは、ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘが０に等しくなるか、又は変数ｊがｍａｘＮｕｍＮｏＲｅｍに等しくなるまで継続される。変数ｊがｍａｘＮｕｍＮｏＲｅｍに等しい場合、符号化されたビットは、単項シーケンスの第１の部分である。

ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘが１に等しく、且つｊがｍａｘＮｕｍＮｏＲｅｍに等しい場合、符号化について、ゴロム符号化を継続する。具体的に、変数ｊは０にリセットされ、Ｘは１＜＜ｊに設定される。一進法符号化の残りの部分は、量子化された重み係数の絶対値からｍａｘＮｕｍＮｏＲｅｍを引いたものとして計算される。シンタックス要素ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_ｔｈａｎＸは符号化される。例では、一進法符号化の残り部分が変数Ｘより大きい場合、ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘは１に設定され、一進法符号化の残り部分が変数Ｘより大きくない場合、ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘは０に設定される。ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘが１に等しいと場合、変数ｊは１増加し、１＜＜ｊをＸに追加し、別のａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘを符号化する。当該プロセスは、ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘが０に等しくなるまで継続される。そのため、単項シーケンスの第２の部分は符号化される。ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘが０に等しい場合、一進法符号化の残り部分は、（Ｘ，Ｘ－１， … Ｘ－（１＜＜ｊ）＋１）の値のうちの１つであってもよい。長さがｊであるコードは、（Ｘ，Ｘ - １， … Ｘ－（１＜＜ｊ）＋１）のうちの１つ値を指すインデックスを符号化し、当該コードは、固定長の残り部分と呼ばれる。

図４は、本開示のいくつかの実施形態による、量子化された重み係数の絶対値を復号する例を示す。図４の例では、ＱｕａｎｔＷｅｉｇｈｔ[ｉ]は、配列におけるｉ番目の位置の量子化された重み係数を示し、ｓｉｇ_ｆｌａｇは、量子化された重み係数ＱｕａｎｔＷｅｉｇｈｔ[ｉ]が非ゼロであるかどうかを指定し（例えば、ｓｉｇ_ｆｌａｇが０であれば、ＱｕａｎｔＷｅｉｇｈｔ[ｉ]が０であることを示す）、ｓｉｇｎ_ｆｌａｇは量子化された重み係数ＱｕａｎｔＷｅｉｇｈｔ[ｉ]が正か負かを指定し（例えば、ｓｉｇｎ_ｆｌａｇが１であれば、ＱｕａｎｔＷｅｉｇｈｔ[ｉ]が負であることを示す）、ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_ｘ[ｊ] は、ＱｕａｎｔＷｅｉｇｈｔ[ｉ]の絶対レベルがｊ＋１より大きい（例えば、単項シーケンスの第１の部分）であるかどうかを示し、ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_ｘ２[ｊ]は、指数ゴロムの残り部分の単項部分（例えば、単項シーケンスの第２の部分）を含み、ａｂｓ_ｒｅｍａｉｎｄｅｒは、固定長の残り部分を示す。

本開示の一態様によれば、ｓｉｇ_ｆｌａｇ、ｓｉｇｎ_ｆｌａｇ及びａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘという３つのフラグの符号化で、コンテキストモデリング方法を使用することができる。したがって、類似の統計行為を有するフラグは、（コンテキストモデル内部の）確率推定器が底層統計に適応できるために、同じコンテキストモデルに関連付けることができる。

一例では、コンテキストモデリング方法は、左側に隣接する量子化された重み係数がゼロであるか、又はゼロより小さいか、又はゼロより大きいかに応じて、ｓｉｇ_ｆｌａｇに３つのコンテキストモデルを使用する。

別の例では、コンテキストモデリング方法は、左側に隣接する量子化された重み係数がゼロであるか、又は、ゼロより小さいか、又はゼロより大きいかに応じて、ｓｉｇｎ_ｆｌａｇに他の３つのコンテキストモデルを使用する。

別の例では、ａｂｓ_ｌｅｖｅｌ_ｇｒｅａｔｅｒ_Ｘフラグのそれぞれに対して、コンテキストモデリング方法は、１つ又は２つの別個のコンテキストモデルを使用する。一例では、Ｘ＜＝ｍａｘＮｕｍＮｏＲｅｍである場合、ｓｉｇｎ_ｆｌａｇに基づき、２つのコンテキストモデルを使用する。Ｘ＞ｍａｘＮｕｍＮｏＲｅｍである場合、例では１つのコンテキストモデルのみを使用する。

４．依存量子化

いくつかの実施形態では、依存スカラー量子化方法は、ニューラルネットワークのパラメータ近似に適用される。関連するエントロピー符号化方法を使用して、量子化方法と連携することができる。当該方法は量子化パラメータ値の間に依存関係を導入することで、パラメータ近似における歪みを低減させる。また、エントロピー符号化の段階では、当該依存関係を使用することができる。

依存量子化において、ニューラルネットワークパラメータ（例えば、重みパラメータ）に使用される許容可能な再構成値は、再構成順序で先行するニューラルネットワークパラメータに対して選択された量子化インデックスに依存する。当該方法の主な効果は、通常のスカラー量子化と比較して、（層の全ての再構成ニューラルネットワークパラメータから与えられた）、許容可能な再構成ベクトルがより密にＮ次元ベクトル空間にパッケージングされることである（Ｎは層におけるパラメータの数を示す）。つまり、Ｎ次元単位体積あたりの許容可能な再構成ベクトルの所定の平均数に対して、（入力ベクトルの典型的な分布にとって）、入力ベクトルと、最も近い再構成ベクトルとの間の平均距離（例えば、平均二乗誤差（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ、ＭＳＥ）、又は平均絶対誤差（ＭｅａｎＡｂｓｏｌｕｔｅＥｒｒｏｒ、ＭＡＥ）歪み）が減少することを意味する。

依存量子化プロセスにおいて、パラメータは、再構成値の間の依存関係のため、走査順序（エントロピー復号化される順序と同じ順序）に従って、再構成される。そして、依存スカラー量子化方法は、再構成レベルを有する２つのスカラー量子化器を定義し、２つのスカラー量子化器を切り替えるプロセスを定義することで実現される。したがって、各パラメータについて、図５に示すように、２つの使用可能なスカラー量子化器を有することができる。

図５は、本開示の実施形態によって使用される２つのスカラー量子化器を示す。第１の量子化器Ｑ０は、ニューラルネットワークパラメータレベル（ポイントの下の－４～４の数値）を、量子化ステップサイズΔの偶数の整数倍にマッピングする。第２の量子化器Ｑ１は、ニューラルネットワークパラメータレベル（－５～５の数値）を、量子化ステップサイズΔの奇数の整数倍又はゼロにマッピングする。

量子化器Ｑ０及びＱ１に対して、量子化ステップサイズΔは、使用可能な再構成レベルの位置を一意的に指定する。２つのスカラー量子化器Ｑ０及びＱ１の特性は、以下の通りである。

Ｑ０：第１の量子化器Ｑ０の再構成レベルは、量子化ステップサイズΔの偶数の整数倍によって与えられる。当該量子化器を使用する場合、再構成されたニューラルネットワークパラメータｔ’は、以下の式１に基づき計算される。

ここで、ｋは、関連するパラメータレベル（伝送される量子化インデックス）を示す。

Ｑｌ：第２の量子化器Ｑｌの再構成レベルは、量子化ステップサイズΔの奇数の整数倍、及びゼロに等しい再構成レベルによって与えられる。ニューラルネットワークパラメータレベルｋから、再構成されたパラメータｔ’へのマッピングは以下の式２で指定される。

ここで、ｓｇｎ(.)は、以下の符号関数を示す。

ビットストリームにおいて、現在の重みパラメータに使用される量子化器（Ｑ０又はＱ１）を明示的に信号で伝送する代わりに、使用される量子化器は、符号化／再構成の順序において現在の重みパラメータの前にある重みパラメータレベルのパリティによって決定される。量子化器の間の切り替えは、表１に示されるステートマシンによって実現される。状態には８つの可能な値（０、１、２、３、４、５、６、７）があり、符号化／再構成の順序において現在の重みパラメータの前にある重みパラメータレベルのパリティによって、一意的に決定される。各層について、状態変数は、最初に０に設定される。重みパラメータが再構成された場合、状態は、表１に従って更新され、ｋは、変換係数レベルの値を示す。次の状態は、現在の状態及び現在の重みパラメータレベルのパリティ（ｋ＆１）に依存する。従って、以下の方式で状態の更新を取得することができる。

ここで、ｓｔｔａｂは、表１を示す。

表１は、ニューラルネットワークパラメータに使用されるスカラー量子化器を決定するための状態遷移表を示し、ｋは、ニューラルネットワークパラメータの値を示す。

状態は、使用されるスカラー量子化器を一意的に指定する。現在の重みパラメータの状態値が偶数（０、２、４、６）である場合、スカラー量子化器Ｑ０を使用する。さもなければ、状態値が奇数（１、３、５、７）である場合、スカラー量子化器Ｑ１を使用する。

５．依存量子化有効化フラグ

依存量子化において、与えられたパラメータレベル（伝送される量子化インデックス）ｋに対して、量子化器Ｑ０を使用すると、再構成されたニューラルネットワークパラメータｔ’は、ｔ’＝２・ｋ・Δに基づき計算され、量子化器Ｑ１を使用すると、再構成されたパラメータｔ’は、ｔ’＝（２・ｋ－ｓｇｎ（ｋ））・Δによって指定される。

現在のモデムの高性能推論エンジンの多くは、低ビットデプス整数（例えば、ＩＮＴ８又はＩＮＴ４）を使用して行列乗算を実行することが知られている。ただし、依存量子化プロセスによって取得された整数のパラメータレベル（伝送される量子化インデックス）ｋは、推定エンジンによって直接使用されない場合がある。整数のパラメータレベルは、浮動小数点数再構成パラメータ値に逆量子化され、その後、推定エンジンによって使用される。浮動小数点の数値は、低ビットデプス整数を使用して実行する推定エンジンと一致しない恐れがある。

以上の問題を解決するために、いくつかの実施形態では、制御メカニズムを使用して、ニューラルネットワークを圧縮する符号器側の依存量子化ツールをオン又はオフにする。例えば、圧縮されたニューラルネットワークモデルのビットストリームにおいて、ｄｑ_ｆｌａｇとして示される依存量子化有効化フラグを信号で伝送する。当該フラグは、依存量子化方法を、圧縮されたニューラルネットワークモデルのモデルパラメータの圧縮に適用するかどうかを示す。

復号器でビットストリームを受信した場合、復号器は、依存量子化有効化フラグに基づき、ビットストリームの復号方式を決定する。例えば、依存量子化有効化フラグが、依存量子化方法を使用してニューラルネットワークを符号化することを示すことに応答して、復号器は、依存量子化方法に基づき、ニューラルネットワークのモデルパラメータを再構成する。依存量子化有効化フラグが、依存量子化方法をニューラルネットワークの符号化に使用しないことを示す場合、復号器は、異なる方式でビットストリームを引き続いて処理する。

一例では、依存量子化有効化フラグｄｑ_ｆｌａｇは、適用される量子化方法が依存スカラー量子化方法であるか、それとも均一量子化方法であるかを指定する。ｄｑ_ｆｌａｇが０に等しい場合、均一量子化方法を使用することを示す。ｄｑ_ｆｌａｇが１に等しい場合、依存量子化方法を使用することを示す。一例では、ｄｑ_ｆｌａｇがビットストリームに存在しない場合、ｄｑ_ｆｌａｇは、０であると推定される。他の例では、ｄｑ_ｆｌａｇが０に等しい場合、均一量子化方法以外の別のパラメータ量子化方法を示す。

様々な実施形態では、ビットストリームにおいて、様々なレベルでｄｑ_ｆｌａｇを信号で伝送することができる。例えば、モデルレベル、層レベル、サブ層レベル、３次元コーディングユニット（ＣＵ３Ｄ）レベル、３次元コーディングツリーユニット（ＣＴＵ３Ｄ）レベルなどで、１つ又は複数の依存量子化有効化フラグを信号で伝送することができる。一例では、低いレベルで伝送されるｄｑ_ｆｌａｇは、高いレベルで伝送されるｄｑ_ｆｌａｇをオーバーライドすることができる。この場合、異なる量子化方法を使用して、異なるモデルパラメータテンソルにおける、又はモデルパラメータテンソルの構成内の異なる位置にあるモデルパラメータを圧縮することができる。

例えば、ニューラルネットワークは、複数の層（例えば、畳み込み層又は完全接続層）を含むことができる。層は、それぞれがサブ層に対応する複数のテンソル（例えば、重みテンソル、バイアステンソル、スケール因子テンソル又はｂａｔｃｈｎｏｒｍパラメータテンソル）を含む。従って、一実施形態において、モデルヘッドレベルでｄｑ_ｆｌａｇを定義することで、モデルにおける全ての層に対して、依存量子化プロセスをオン又はオフにすることができる。別の実施形態では、各層に対してｄｑ_ｆｌａｇを定義することで、各層レベルで、依存量子化プロセスをオン又はオフにする。別の実施形態では、サブ層レベルでｄｑ_ｆｌａｇを定義する。

いくつかの例では、事前定義された階層構造に基づき、テンソル（例えば、重みテンソル）をブロックに分割する。一例では、レイアウトが[Ｒ][Ｓ][Ｃ][Ｋ]である畳み込み層に対して、重みテンソルの次元は一般的に４であり、レイアウトが[Ｃ][Ｋ]である完全接続層に対して、重みテンソルの次元は一般的に２であり、バイアス及びバッチ正規化層に対して、重みテンソルの次元は一般的に１である。Ｒ／Ｓは、畳み込みカーネルのサイズであり、Ｃは、入力特徴のサイズであり、Ｋは、出力特徴のサイズである。畳み込み層の場合、２Ｄ[Ｒ][Ｓ]次元を１Ｄ[ＲＳ]次元に再形成して、４Ｄテンソル[Ｒ][Ｓ][Ｃ][Ｋ]を３Ｄテンソル[ＲＳ][Ｃ]][Ｋ]に再形成することができる。完全接続層はＲ＝Ｓ＝１の３Ｄテンソルの特別な例と見なされる。

３Ｄテンソル[ＲＳ][Ｃ][Ｋ]は、[Ｃ][Ｋ]平面に沿って、３Ｄコーディングツリーユニット（ＣＴＵ３Ｄ）と呼ばれる重複しない小さなブロックに分割される。ＣＴＵ３Ｄブロックは、四分木構造に基づき、さらに３Ｄコーディングユニット（ＣＵ３Ｄ）に分割される。四分木構造におけるノードを分割するかどうかについて、レート歪み（ｒａｔｅ-ｄｉｓｔｏｒｔｉｏｎ、ＲＤ）に基づく決定に依存することができる。いくつかの実施形態では、スライス（ｓｌｉｃｅ）、タイル（ｔｉｌｅ）又は他のブロック分割メカニズムは、ＣＴＵ３Ｄ／ＣＵ３Ｄ分割方法と組み合わせて使用して、多用途ビデオコーディング（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ、ＶＶＣ）標準による分割方式に類似する方式で、[Ｃ][Ｋ]平面に沿って分割する。

実施形態では、以上のＣＴＵ３Ｄ／ＣＵ３Ｄ分割方法を使用する場合、１つ又は複数のｄｑ_ｆｌａｇは、異なるブロック分割レベル（例えば、ＣＵ３Ｄ、ＣＴＵ３Ｄ、スライス、タイルなどのレベル）で定義され、信号で伝送されることができる。

ＩＩＩ．ビットストリームにおけるサブ層伝送順序

１．スケール因子層、バイアス層及びＢａｔｃｈｎｏｒｍ層

いくつかの実施形態では、ローカルパラメータスケールツールは、ニューラルネットワークの層又はサブ層に対して量子化を実行した後、ローカルスケール因子をモデルパラメータに追加するために使用されることができる。各量子化誤差による予測パフォーマンスの損失を低減させるために、スケール因子を調整又は最適化することができる。

実施形態では、量子化されたニューラルネットワークを入力として、ローカルスケール適応（ｌｏｃａｌｓｃａｌｉｎｇａｄａｐｔａｔｉｏｎ、ＬＳＡ）方法を実行する。例えば、ニューラルネットワークの畳み込み（ｃｏｎｖ）層及び完全接続（ｆｃ）層の直線成分（重みとも呼ばれる）は、量子化されると予期する（ただし、必ずしもそうではない）。そして、当該方法は因子（スケール因子とも呼ばれる）をｃｏｎｖ層及びｆｃ層の重みの出力に導入する。例えば、ｆｃ層の場合、因子は、重み行列の行数と同じ次元のベクトルに対応し、当該ベクトルはそれぞれ要素ごとに乗算される。ｃｏｎｖ層の場合、各出力特徴マップのスケール因子を使用して、畳み込み属性を保存することができる。

図６はＬＳＡプロセスの例を示す。第１のステップ（６２０）では、量子化ステップサイズΔを使用して重みテンソル（６１０）を量子化する。第２のステップでは、ＬＳＡを使用することで、量子化の予測損失を低減させる。示されているように、スケール因子[１．１０．７－０．３２．２]を含むベクトルが適用される。

いくつかの実施形態では、符号化方法で、スケール因子とｂａｔｃｈｎｏｒｍ層とを折り畳む（ｂａｔｃｈｎｏｒｍ折り畳み）。ｃｏｎｖ層又はｆｃ層の後がバッチ正規化層である場合、当該方法を使用することができる。この場合、バッチ正規化層は、以下の方式で、ｃｏｎｖ／ｆｃ層（又はｃｏｎｖ／ｆｃ層における重みテンソル）と折り畳むことができる。

ここで、ｓは、ＬＳＡにおけるスケール因子を示し、Ｗは、重みテンソルを示し、Ｘはソースデータを示し、ｂはバイアスを示し、γ、σ、μ及びβは、ｂａｔｃｈｎｏｒｍパラメータであり、

は、取得したスケール因子を示し、且つ

は、取得したバイアスを示す。したがって、この場合、γ、σ、μ及びβを使用して、ｓではなく、α及びδを信号で伝送することができる。

いくつかの実施形態では、新たなｂａｔｃｈｎｏｒｍパラメータのセットを取得する以下のバッチ正規化折り畳み操作（順序付けられたステップ）を使用して、モデルのパラメータを変更できない場合（例えば、復号器がパラメータのタイプの変更をサポートしない場合）、別の形式のｂａｔｃｈｎｏｒｍ折り畳みを適用することができる。

この場合、σ^２及びμは、自明な値（ｔｒｉｖｉａｌｖａｌｕｅ）を含む。いくつかの例では、自明なパラメータは自明な値に設定され、ビットストリームにおいて信号で伝送されない。

上記のＬＳＡ又はｂａｔｃｈｎｏｒｍの折り畳みの例では、式５～式９におけるスケール因子、バイアス及びｂａｔｃｈｎｏｒｍパラメータｓ、ｂ、γ、σ、μ、β、α、δは、ニューラルネットワークモデルの層で使用可能である場合、それぞれが対応する層に属するサブ層を形成することができる。各サブ層のパラメータは、パラメータテンソルにグルーピングされることができる。なお、これらのサブ層／テンソルの全ては必ずしも、圧縮されたニューラルネットワークのビットストリームに存在するわけではない。どのサブ層／パラメータがビットストリームに存在するかということは、ニューラルネットワークの構成、及びニューラルネットワークの圧縮に使用されるコーディングツール（例えば、ＬＳＡ方法や特定のｂａｔｃｈｎｏｒｍ折り畳み方法など）に依存する。

２．ビットストリームにおけるサブ層の順序付け

いくつかの実施形態では、ニューラルネットワークモデルを介した推定プロセス中に、推定エンジンは、計算コスト及び／又はメモリ帯域幅消費を低減させるために、任意の可能な場合、複数のテンソル、サブ層又は層をマージ（組み合わせ又は融合）する。例えば、ニューラルネットワークモデルにおける層は、複数のサブ層を含んでもよい。これらのサブ層のテンソルが順番に、前の層又はサブ層から生成したデータを１つずつ処理するために使用される場合、中間データは、メモリに記憶され、メモリから、複数のラウンドで検索される。これによって、大量のメモリアクセス及び行列計算が発生する。サブ層をマージした後、前の層／サブ層からのソースデータに対して、１回限りの処理を行うことで、このようなコストを避けることができる。

例えば、ｃｏｎｖ層又はｆｃ層の後がバイアス層である場合、推定エンジンは、バイアス層とｃｏｎｖ層又はｆｃ層とをマージする。ｃｏｎｖ層又はｆｃ層の後がバッチ正規化層である場合、推定エンジンはバッチ正規化層をｃｏｎｖ層又はｆｃ層にマージする。ｃｏｎｖ層又はｆｃ層にスケール因子を導入した場合、推定エンジンはスケール因子をバッチ正規化層にマージし、その後、当該バッチ正規化層をｃｏｎｖ層又はｆｃ層にマージすることができる。

いくつかの実施形態では、推定プロセスはパイプライン方式で、復号化プロセスと並行して実行することができる。例えば、ビットストリームにおける、圧縮形式の重みテンソルは、ブロックごとに復号される（例えば、行ごと、又はＣＵ３ＤＣＵ３Ｄ）。これらのブロックは、復号化プロセスから順番に出力されることができる。復号化プロセスから重みテンソルブロックを取得できる場合、推定エンジンは、重みテンソルブロックを使用して、前の層／サブ層からのソースデータに対してデータ処理をオンザフライで実行することができる。言い換えると、重みテンソル全体が復号されて使用可能になる前に、推定操作を開始できる。

ビットストリームにおいて、スケール因子、バイアス及び／又はバッチ正規化サブ層係数をｃｏｎｖ係数又はｆｃ（重みテンソル）係数の後に配置する場合、一部の使用可能な重みテンソルに基づき、前記サブ層／層マージ技術とオンザフライ操作とを組み合わせて使用することができない。

いくつかの実施形態では、オンザフライ操作とサブ層／テンソルマージ技術との組み合わせを促進するために、ニューラルネットワークの圧縮表現が付けられたビットストリームにおいて、ニューラルネットワークの層における非重み係数（ｃｏｎｖ係数又はｆｃ係数（重み係数）以外の係数）のサブ層は、ｃｏｎｖ係数又はｆｃ係数（重み係数）のサブ層の前に設置される。このようにして、ｃｏｎｖ係数又はｆｃ係数を再構成する場合、非重み係数のサブ層を再構成するとともに、使用可能にする。重みテンソルの一部（ブロック）が使用可能になった場合、まず、使用可能な非重みサブ層の係数を使用して、当該部分に対してマージ操作を実行することができる。ソースデータをオンザフライで処理するために、マージ操作の結果を推定エンジンに入力することができる。

様々な実施形態では、ｃｏｎｖ係数又はｆｃ係数の前に再構成された係数のサブ層は、スケール因子係数サブ層、バイアス係数サブ層、バッチ正規化係数層、又はｃｏｎｖ係数又はｆｃ係数のサブ層とマージ可能な他のタイプのサブ層を含むことができる。

実施形態では、ビットストリームにおいて、スケール因子係数、バイアス係数及び／又はバッチ正規化係数は、ｃｏｎｖ係数又はｆｃ係数の前に設けられる。一実施形態では、ニューラルネットワークモデルにおけるｃｏｎｖ層又はｆｃ層の後がバイアスである場合、ビットストリームにおいてバイアス係数は、ｃｏｎｖ係数又はｆｃ係数の前に設けられることができる。別の実施形態において、ｃｏｎｖ層又はｆｃ層の後がバッチ正規化層である場合、ビットストリームにおいてバッチ正規化係数は、ｃｏｎｖ係数又はｆｃ係数の前に設けられる。別の実施形態では、スケール因子がｃｏｎｖ層又はｆｃ層に使用される場合、ビットストリームにおいてスケール因子は、ｃｏｎｖ係数又はｆｃ係数の前に設けられる。別の実施形態では、スケール因子がｃｏｎｖ層又はｆｃ層に使用され、且つｃｏｎｖ層又はｆｃ層の後がバイアス層及び／又はバッチ正規化層である場合、ビットストリームにおいてスケール因子層、バイアス層及び／又はバッチ正規化層はｃｏｎｖ係数又はｆｃ係数の前に設けられる。

一実施形態では、上記のスケール因子係数、バイアス係数及び／又はバッチ正規化係数はそれらの初期値（例えば、量子化なし又は非量子化）で示され、任意の適切な符号化方法を選択的に使用して符号化することができる。別の実施形態では、上記のスケール因子係数、バイアス係数及び／又はバッチ正規化係数は、それらの量子化された値で表され、任意の符号化方法を選択的に使用して符号化することができる。

一実施形態では、ニューラルネットワークのモデル構成の伝送は、ニューラルネットワークの圧縮表現が付けられたビットストリーム本体から分離されている場合、ビットストリーム本体を受信する復号器は、モデル構成を分析し、それに応じて層又はサブ層の復号シーケンスを調整又は決定するように配置されることができる。例えば、層は、重みテンソルサブ層、及びその後のｂａｔｃｈｎｏｒｍサブ層を含む場合、復号器は、ビットストリーム本体においてｂａｔｃｈｎｏｒｍ層の係数が重みテンソルサブ層の前に設置されると決定することができる。層は重みテンソルサブ層、スケール因子及びバイアスを含む場合、復号器は、ビットストリーム本体においてスケール因子及びバイアスの係数が重みテンソルサブ層の前に設置されると決定することができる。

別の実施形態では、ニューラルネットワークのモデル構成をニューラルネットワークの圧縮表現が付けられたビットストリーム本体に埋め込まれている場合、例えば、ニューラルネットワークにおいてｃｏｎｖ／ｆｃ層（重みテンソルのサブ層）の後がバッチ正規化層であるかどうかを示すために、ｃｏｎｖ／ｆｃ層ヘッドにフラグを追加することができる。ビットストリーム本体を受信する復号器は、それに応じてサブ層／層の復号シーケンスを決定又は調整することができる。

別の実施形態では、ニューラルネットワークのモデル構成がニューラルネットワークのビットストリーム本体に埋め込まれている場合、例えば、ニューラルネットワークにおいてバイアス又はローカルスケールテンソルが当該ｃｏｎｖ／ｆｃ層に存在するかどうかを示すために、ｃｏｎｖ／ｆｃ層ヘッドにフラグを追加する。別の実施形態では、ニューラルネットワークの構成情報がニューラルネットワークのビットストリーム本体に埋め込まれている場合、構成情報に基づき、重みテンソル（ｃｏｎｖ／ｆｃサブ層）の以下の１次元テンソルをニューラルネットワークモデルにおけるバイアステンソル／ローカルスケールテンソルに推定することができる。

ＩＶ．統一によるモデルパラメータリダクション

いくつかの実施形態では、１つ又は複数のパラメータリダクション方法で、ニューラルネットワークモデルを処理することで、ニューラルネットワークのコンパクト表示を取得する。この方法の例示は、パラメータスパース化、パラメータトリミング、パラメータ（例えば、重み）統一及び分解方法を含むことができる。例えば、統一プロセスでは、モデルパラメータを処理して、類似したパラメータグループを生成することができる。結果として、モデルパラメータのエントロピーを低減することができる。ある場合、統一によって重みを除去するか又はゼロに制限することはない。

いくつかの実施形態では、学習による方法で、コンパクトなＤＮＮモデルを取得する。重み係数の値が小さいほど、その重要度が低いという仮定に基づき、重要ではない重み係数を除去することをターゲットとする。いくつかの例では、ネットワークトリミング方法で、当該ターゲットを明らかに追求することができ、スパース性を促進する正則化項をネットワーク訓練ターゲットに追加することができる。いくつかの実施形態では、コンパクトネットワークモデルを学習した後、ネットワークモデルの重み係数は、量子化及びその後のエントロピー符号化によって、さらに圧縮される。このような更なる圧縮プロセスはＤＮＮモデルの記憶サイズを大幅に低減させ、あるシナリオでは、モバイル装置やチップなどでのモデル配置にとって非常に重要である。

本開示は、構造化された重み統一方法を使用してＤＮＮモデルを圧縮し、及び圧縮されたＤＮＮモデルを推定プロセスに使用するための方法及び関連するシンタックス要素を提供する。結果として、推定計算のパフォーマンス及び圧縮効率を向上させることができる。

１．統一正則化

反復ネットワーク再訓練／細分化フレームを使用して、オリジナル訓練ターゲット及び重み統一損失を共同で最適化する。重み統一損失は圧縮率損失、統一歪み損失及び計算速度損失を含む。学習されたネットワーク重み係数は、オリジナルターゲットパフォーマンスを維持することができ、更なる圧縮に適しており、学習された重み係数を使用して計算を高速化することができる。当該方法で、オリジナルの事前訓練ＤＮＮモデルを圧縮する。当該方法は、トリミングされたＤＮＮモデルをさらに圧縮するための追加処理モジュールとしても使用できる。

以下は、統一正則化技術の例を記載する。Ｄ＝{(ｘ，ｙ)}でデータセットを示し、ターゲットｙを入力ｘに割り当てる。Θ＝{ｗ}でＤＮＮの重み係数のセットを示す。ネットワーク訓練は、ターゲット損失￡（Ｄ｜Θ）を最小化できるように重み係数の最適なセットΘ＊を学習することをターゲットとする。例えば、いくつかのネットワークトリミング方法において、ターゲット損失￡（Ｄ｜Θ）は、経験的データ損失￡_Ｄ（Ｄ｜Θ）及びスパース性を促進する正則化損失￡_Ｒ（Θ）という２つの部分がある。

ここで、λ_Ｒ≧０はデータ損失と正則化損失の寄与をバランスするハイパーパラメータである。

スパースを促進する正則化損失は、重み係数全体にわたって正則化を行い、取得したスパース重みは、推定効率又は計算加速度と弱い関係を有する。別の観点から、トリミングされた後、スパース重みは、別のネットワーク訓練プロセスをさらに経ることができ、当該プロセスから、重み係数の最適なセットを学習でき、更なるモデル圧縮の効率を向上させることができる。

いくつかの実施形態では、以下の重み統一損失￡_Ｕ（Ｄ｜Θ）は、オリジナルターゲット損失とともに最適化することができる。

ここで、λ_Ｕ≧０は、オリジナル訓練ターゲットと重み統一の寄与をバランスするためのハイパーパラメータである。式１１の￡（Ｄ｜Θ）を共同で最適化することで、重み係数の最適なセットを取得でき、これによって、更なる圧縮の有効性に大きく寄与する。また、式１１の重み統一損失は、畳み込み演算が一般的な行列乗算（ｇｅｎｅｒａｌｍａｔｒｉｘｍｕｌｔｉｐｌｉｃａｔｉｏｎ、ＧＥＭＭ）プロセスとして実行される基本的なプロセスを考慮に入れることで、計算を大幅に高速化することができる最適化された重み係数を生成する。なお、重み統一損失は、一般的な正則化をする場合（λ_Ｒ＞０場合）又は有しない場合（λ_Ｒ＝０場合）の一般的なターゲット損失に対する追加正則化項と見なされる。また、当該方法は柔軟に、任意の正則化損失￡_Ｒ（Θ）に適用されることができる。

実施形態において、重み統一損失￡_Ｕ（Θ）は圧縮率損失￡_Ｃ（Θ）、統一歪み損失￡_Ｉ（Θ）及び計算速度損失￡_Ｓ（Θ）をさらに含む。

これらの損失項の詳細について、以降で説明する。学習有効性及び学習効率について、反復最適化プロセスをさらに説明する。第１のステップでは、必要な構成を満たす重み係数部分を固定し、そして、第２のステップでは、訓練損失をバックプロパゲーションすることで、重み係数の非固定部分を更新する。これらの２つのステップを反復的に行うことで、ますます多くの重みを徐々に固定することができ、ジョイント損失を徐々に効果的に最適化することができる。

また、実施形態において、各層は個別に圧縮され、￡_Ｕ（Ｄ｜Θ）は以下のように書かれてもよい。

ここで、Ｌ_Ｕ（Ｗ^ｊ）は、ｊ番目の層で定義される統一損失であり、Ｎは、量子化損失が測定される総層数であり、Ｗ^ｊは、ｊ番目の層の重み係数を示す。また、Ｌ_Ｕ（Ｗ^ｊ）は、各層に対して個別に計算されるため、本開示の他の部分において、スクリプトｊは、その一般性を失うことなく、省略される。

実施形態において、各ネットワーク層に対して、その重み係数Ｗは、サイズが（ｃ_ｉ，ｋ_１，ｋ_２，ｋ_３，ｃ_ｏ）である一般的な５次元（５－Ｄｉｍｅｎｓｉｏｎ、５Ｄ）テンソルに形成される。層の入力は、サイズが（ｈ_ｉ，ｗ_ｉ，ｄ_ｉ，ｃ_ｉ）である４次元（４－Ｄｉｍｅｎｓｉｏｎ、４Ｄ）テンソルＡであり、層の出力は、サイズが（ｈ_ｏ，ｗ_ｏ，ｄ_ｏ，ｃ_ｏ）である４ＤテンソルＢである。サイズｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ、ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｈ_ｏ、ｗ_ｏ、ｄ_ｏは、１以上の整数である。サイズｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ、ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｈ_ｏ、ｗ_ｏ、ｄ_ｏのいずれかが数値１を取る場合、対応するテンソルは、低い次元に減少される。各テンソルにおける各項はいずれも浮動小数点数である。Ｍで、Ｗと同じサイズを有する５Ｄバイナリマスクを示し、Ｍにおける各項はいずれもバイナリ数０／１であり、対応する重み係数がトリミング／保留されるかどうかを示す。ＭをＷに関連付けて導入することで、Ｗが、トリミングされたＤＮＮモデルに由来する場合に対処し、トリミングされたＤＮＮモデルにおいて、ネットワークにおけるニューロンの間のある接続を計算から除去する。Ｗは、オリジナルのトリミングされない事前訓練モデルに由来する場合、Ｍにおける全ての項の値は、１である。Ａ、Ｍ及びＷに基づき、畳み込み演算

によって、出力Ｂを計算する。

パラメータｈ_ｉ、ｗ_ｉ及びｄ_ｉ（ｈ_０、ｗ_ｏ及びｄ_ｏ）は入力テンソルＡ（出力テンソルＢ）の高さ、重み及び深さである。パラメータｃ_ｉ（ｃ_ｏ）は入力（出力）チャネルの数である。パラメータｋ_１、ｋ_２及びｋ_３はそれぞれ、高さ軸、重み軸及び深さ軸に対応する畳み込みカーネルのサイズである。つまり、各出力チャネルｖ＝１，．．．，ｃ_ｏに対して、式１４で説明されている演算は、サイズが（ｃ_ｉ，ｋ_１，ｋ_２，ｋ_３）である４Ｄ重みテンソルＷ_ｖと入力Ａの畳み込みと見なされてもよい。

実施形態において、式１４における加算演算の順序を変更してもよい。実施形態において、式１４の演算は以下のように実行することができる。５Ｄ重みテンソルは、サイズが（ｃ_ｉ，ｃ_ｏ，ｋ）である３Ｄテンソルに再形成され、ここで、ｋ＝ｋ_１・ｋ_２・ｋ_３である。再形成プロセスでは、再形成されたインデックスは、ｋ軸の順序に沿って、再形成アルゴリズムにより決定され、これについて、以降、詳しく説明する。

実施形態において、重み係数の所望の構成は、２つの態様を考慮に入れることによって設計される。まず、重み係数の構成は、学習された重み係数を使用する推定計算を高速化するために、畳み込み演算を実現するための基本的なＧＥＭＭ行列乗算プロセスと一致する。次に、重み係数の構成は、さらなる圧縮のために、量子化及びエントロピーコーディング効率を向上させるのに役立つ。

一実施形態において、ブロック当たりの構成は、３Ｄ再形成された重みテンソルにおける各層の重み係数に使用される。具体的に、実施形態において、３Ｄテンソルは、サイズが（ｇ_ｉ，ｇ_ｏ，ｇ_ｋ）であるブロックに分割され、ブロック内の全ての係数は、統一される。ブロックにおける統一の重みは、事前定義された統一ルールに従うように配置され、例えば、全ての値を同じになるように設定することで、量子化プロセスで、１つの値でブロック全体を示すことができ、高い効率を生成する。

重みを統一する複数のルールが存在してもよく、各ルールは、当該ルールによって導入された誤差を測定する統一歪み損失に関連付けられる。例えば、重みを同じになるように設定する代わりに、重みは、そのオリジナル符号を維持しながら、同じ絶対値を有するように設定される。

このような設計構成を前提とし、反復中に、まず、統一歪み損失、推定した圧縮率損失及び推定した速度損失を考慮して、固定対象となる重み係数の部分を決定する。次に、第２のステップで、通常のニューラルネットワーク訓練プロセスを実行し、バックプロパゲーションメカニズムによって、残りの固定されていない重み係数を更新する。

２．ワークフロー

図７は、反復的な再訓練／微調整プロセスの全体的なフレームを示し、反復的な再訓練／微調整プロセスは、２つのステップを反復的に交互に実行して、式１１のジョイント損失を徐々に最適化する。重み係数Ｗ及びマスクＭを有する事前訓練されたＤＮＮモデルが与えられた場合、当該モデルは、トリミングされたスパースモデルであってもよいし、トリミングされていない非スパースモデルであってもよく、第１のステップで、当該プロセスは、まず、統一インデックス順序及び方法選択プロセスを介して、インデックスＩ（Ｗ）＝[ｉ_０， …，ｉ_ｋ]の順序を決定して、重み係数Ｗ（及び対応するマスクＭ）を再形成し、ｋ＝ｋ_１－ｋ_２－ｋ_３は、重みＷの再形成された３Ｄテンソルである。

具体的に、実施形態において、当該プロセスは、まず、重みＷの再形成された３Ｄテンソルを、サイズが（ｇ_ｉ，ｇ_ｏ，ｇ_ｋ）であるスーパーブロックに分割することができる。Ｓでスーパーブロックを示す。スーパーブロックＳ内の重み係数の重み統一損失に基づき、即ち、式１２の重み統一損失￡_Ｔ（Θ）に基づき、各スーパーブロックＳに対して、Ｉ（Ｗ）を個別に決定する。スーパーブロックサイズの選択は一般的に、後続の圧縮方法に依存する。例えば、当該実施形態において、プロセスは、後続の圧縮プロセスで使用される３次元コーディングツリーユニット（ＣＴＵ３Ｄ）と一致するために、サイズが（６４，６４，ｋ）であるスーパーブロックを選択することができる。

実施形態において、各スーパーブロックＳはさらに、サイズが（ｄ_ｉ、ｄ_ｏ、ｄ_ｋ）であるブロックに分割される。重みの統一は、ブロック内で行われる。各スーパーブロックＳに対して、重みユニファイアを使用して、ブロックＳ内の重み係数を統一する。ｂで、Ｓにおけるブロックを示し、ｂにおける重み係数を異なる方式で統一してもよい。例えば、重みユニファイアは、ｂにおける全ての重みを同じになるように設定し、例えば、ｂにおける全ての重みの平均値に設定する。この場合、ｂにおける重み係数のＬ_Ｎノルム（例えば、ｂにおける重みの分散としてのＬ_２ノルム）は、平均値を使用してブロック全体を示す統一歪み損失￡_Ｉ（ｂ）を反映する。

また、重みユニファイアは、全ての重みを、オリジナル符号を維持しながら同じ絶対値を有するように設定することができる。この場合、ｂにおける重みの絶対値のＬ_Ｎノルムを使用して、Ｌ_Ｉ（ｂ）を測定することができる。言い換えると、重み統一方法ｕを与え、重みユニファイアは、方法ｕを使用してｂにおける重みを統一することができ、関連付けられる統一歪み損失はＬ_Ｉ（ｕ，ｂ）である。そして、当該プロセスは、Ｓにおける全てのブロックにわたって、Ｌ_Ｉ（ｕ，ｂ）を平均化し、即ち、Ｌ_Ｉ（ｕ，Ｓ）＝ａｖｅｒａｇｅ_ｂ（Ｌ_Ｉ（ｕ，ｂ））を求めることで、スーパーブロックＳ全体の統一歪み損失￡_Ｉ（ｕ，Ｓ）を計算する。

同様に、式１２の圧縮率損失￡_Ｃ（ｕ，Ｓ）は、方法ｕを使用してスーパーブロックＳにおける重みを統一する圧縮効率を反映する。例えば、全ての重みが同じに設定される場合、１つの数字のみで、ブロック全体を示し、圧縮率はｒ_{ｃｏｍｐｒｅｓｓｉｏｎ}＝ｇ_ｉ・ｇ_ｏ・ｇ_ｋである。￡_Ｃ（ｕ，Ｓ）は１／ｒ_{ｃｏｍｐｒｅｓｓｉｏｎ}に定義される。

式１２における速度損失￡_Ｓ（ｕ，Ｓ）は、方法ｕで統一されたＳにおける重み係数を使用することの推定計算速度を反映し、統一重み係数を使用する計算における乗算演算の回数の関数である。

これまで、重みＷの３Ｄテンソルを生成するためにインデックスを並べ替える様々な可能な方式、及び重みユニファイアを使用して重みを統一する様々な可能な方法ｕに対して、当該プロセスは、￡_Ｉ（ｕ，Ｓ）、￡_Ｃ（ｕ，Ｓ）、￡_Ｓ（ｕ，Ｓ）に基づき、式１２の重み統一損失￡ｕ（ｕ，Ｓ）を計算する。最適な重み統一方法ｕ*及び最適な並べ替えインデックスＩ*(Ｗ)を選択することができ、それらの組み合わせは、最小の重み統一損失￡_Ｕ＊（ｕ，Ｓ）を有する。ｋが小さい場合、当該プロセスは、最適なＩ*(Ｗ)及びｕ*を網羅的に見つけることができる。ｋが大きい場合、他の方法で、次善のＩ*(Ｗ)及びｕ*を検索することができる。本開示は、Ｉ*(Ｗ)及びｕ*を決定する具体的な方式を限定するものではない。

各スーパーブロックＳに対して、インデックスＩ*(Ｗ)の順序及び重み統一方法ｕ*を決定した場合、ターゲットは、式１１で説明されているジョイント損失を反復的に最小化することで、更新された最適重み係数Ｗ*及び対応する重みマスクＭ*のセットを見つけることになる。

具体的に、第ｔ回の反復に対して、当該プロセスは、現在の重み係数Ｗ（ｔ-１）及びマスクＭ（ｔ-１）を有することができる。また、当該プロセスは、訓練プロセス全体では、重み統一マスクＱ（ｔ-１）を保持することができる。重み統一マスクＱ（ｔ-１）の形状は、Ｗ（ｔ-１）の形状と同じであり、対応する重み係数が統一されるかどうかを記録する。そして、重み統一プロセスによって、統一された重み係数Ｗ_Ｕ（ｔ-１）及び新たな統一マスクＱ（ｔ-１）を計算する。

重み統一プロセスでは、当該プロセスは、決定されたインデックスＩ*(Ｗ)の順序に基づき、Ｓにおける重み係数を並べ替え、そして、それらの統一損失￡_Ｕ（ｕ＊，Ｓ）に基づき、スーパーブロックを昇順（ａｃｃｅｎｔｉｎｇｏｒｄｅｒ）に配列する。ハイパーパラメータｑを与え、最初のｑ個のスーパーブロックを選択して統一する。また、重みユニファイアは、対応する決定された方法ｕ*を使用して、選択したスーパーブロックＳにおけるブロックを統一することによって、統一された重みＷ_Ｕ（ｔ-１）及び重みマスクＭ_Ｕ（ｔ-１）を取得する。

統一マスクＱ（ｔ-１）における対応するエントリはいずれも統一と記される。本実施形態において、Ｍ_Ｕ（ｔ-１）は、Ｍ（ｔ-１）と異なり、トリミングされた重み係数及びトリミングされていない重み係数の両方を有するブロックに対して、オリジナルのトリミングされた重み係数は、重みユニファイアによって、非ゼロ値を有するように再び設定され、Ｍ_Ｕ（ｔ-１）における対応する項は、変更される。他のタイプのブロックの場合、Ｍ_Ｕ（ｔ-１）は自然に、そのまま保持される。

そして、第２のステップでは、当該プロセスは、Ｑ（ｔ-１）における、統一と記される重み係数を固定し、ニューラルネットワーク訓練プロセスで、Ｗ（ｔ-１）の残りの固定されていない重み係数を更新することで、更新されたＷ（ｔ）及びＭ（ｔ）を生成することができる。

Ｄ＝{（ｘ，ｙ）}で訓練データセットを示し、Ｄは、オリジナルデータセットＤ_０＝{（ｘ_０，ｙ_０）}と同じであり、当該オリジナルデータセットＤ_０＝{（ｘ_０，ｙ_０）}に基づき、事前訓練された重み係数Ｗを取得する。Ｄは、Ｄ_０と異なるデータセットであってもよいが、オリジナルデータセットＤと同じデータ分布を有する。第２のステップでは、各入力ｘは、現在重み係数Ｗ_Ｕ（ｔ-１）及びマスクＭ_Ｕ（ｔ-１）を使用するネットワークフォワード計算プロセスを介して、現在のネットワークを通過し、推定出力

を生成する。グラウンドトゥルースアノテーション（ｇｒｏｕｎｄ-ｔｒｕｔｈａｎｎｏｔａｔｉｏｎ）ｙ及び推定出力

に基づき、ターゲット損失計算プロセスで、式１１におけるターゲット訓練損失￡_Ｔ（Ｄ｜Θ）を計算することができる。

そして、ターゲット損失Ｇ（Ｗ_Ｕ（ｔ-１））の勾配を計算することができる。例えばＴｅｎｓｏｒｆｌｏｗ又はＰｙｔｏｒｃｈなどの深層学習フレームで使用される自動勾配計算方法は、Ｇ（Ｗ_Ｕ（ｔ-１））の計算に使用される。勾配Ｇ（Ｗ_Ｕ（ｔ-１））及び統一マスクＱ（ｔ-１）に基づき、バックプロパゲーション及び重み更新プロセスを使用して、バックプロパゲーションによって、Ｗ_Ｕ（ｔ-１）の、固定されていない重み係数及び対応するマスクＭ_Ｕ（ｔ-１）を更新する。

再訓練プロセス自体は反復プロセスでもあり、図７において、点線枠で示される。一般的に、例えば、ターゲット損失が収束するまで、Ｗ_Ｕ（ｔ-１）の、固定されていない部分及び対応するＭ（ｔ-１）を複数回の反復で更新する。そして、システムは、次の反復ｔに進み、新たなハイパーパラメータｑ（ｔ）を与え、Ｗ_Ｕ（ｔ-１）、ｕ*及びＩ*(Ｗ)に基づき、重み統一プロセスで、新たな統一重み係数Ｗ_Ｕ（ｔ）、マスクＭ_Ｕ（ｔ）及び対応する統一マスクＱ（ｔ）を計算する。

なお、再形成された重み係数を並べ替えるインデックスＩ（Ｗ）＝[ｉ_０，…，ｉ_ｋ]の順序は、トリビアルオリジナル順序（ｔｒｉｖｉａｌｏｒｉｇｉｎａｌｏｒｄｅｒ）を採用できるため、選択可能及び無視可能である。この場合、当該プロセスは、再形成された重み係数を並べ替えるプロセスをスキップすることができる。

本明細書が開示される統一によるパラメータリダクション方法は、以下の技術的利点を提供する。統一正則化は、学習された重み係数に対して更なる圧縮を行う効率を向上させ、最適化された重み係数を使用する計算を高速化するように意図される。ＤＮＮモデルのサイズを大幅に削減し、推定計算を高速化することができる。

また、反復的な再訓練プロセスによって、当該方法は、オリジナル訓練ターゲットのパフォーマンスを効果的に維持しながら、圧縮及び計算効率を追求することができる。反復的な再訓練プロセスは、異なる時間で異なる損失を導入する柔軟性をさらに与えることで、システムは、最適化プロセス中に、異なるターゲットに専念する。また、当該方法は、一般的に、異なるデータ形態を有するデータセットに適用できる。入力／出力データは、汎用の４Ｄテンソルであり、実のビデオスニペット、画像、又は抽出された特徴マップであってもよい。

３．統一によるパラメータリダクションのためのシンタックス要素

いくつかの実施形態では、１つ又は複数のシンタックス要素を使用して、重み統一によるモデルパラメータリダクション方法で、ニューラルネットワークモデル（例えば、ＤＮＮモデル）を圧縮し、及び、対応する圧縮されたニューラルネットワークモデルを使用する。

図８は、統一によるパラメータリダクションの例示的なシンタックス表（８００）を示す。シンタックス表（８００）は、ビットストリームで伝送されるモデルパラメータセットのペイロード部分における、ｍｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇとして示されるモデルレベル統一フラグのシンタックス要素を含む。ｍｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇは、ビットストリームにおいて当該モデルパラメータセットを参照する圧縮データユニットに統一を適用するかどうかを指定することができる。ビットストリームにおいて、圧縮データユニットには、圧縮されたニューラルネットワークモデルの圧縮データが含まれる。

ｍｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇは、復号され、また、例えば、統一が適用されたことを示す値（例えば、１）を有する場合、ビットストリームにおけるモデルパラメータセットペイロードシンタックス部分で、ｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）として示されるモデルレベル統一パフォーマンスマップのシンタックス構成を受信する。実施形態において、モデルパラメータセットにおけるｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）はモデルレベルで、閾値の数、再形成されたテンソル次元、スーパーブロック及びブロック次元、統一閾値などを指定することができる。実施形態において、ｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）は（統一プロセスに適用される）異なる統一閾値と、取得したニューラル推定精度との間のマッピングを指定することができる。

一例では、ニューラルネットワークの出力の異なる側面又は特性に対して、取得した精度を個別に提供する。例えば、分類器ニューラルネットワークに対して、全てのクラスを考慮した全体的な精度に加えて、各統一閾値はいずれも、各クラスに対する個別の精度にマッピングされる。ニューラルネットワークの出力順序、即ち、ニューラルネットワーク訓練中に指定された順序に基づき、クラスをソートする。

図９は、統一パフォーマンスマップのシンタックス構成（９００）の例を示す。構成（９００）において、シンタックス要素ｃｏｕｎｔ_ｔｈｒｅｓｈｏｌｄｓは統一閾値の数を指定する。一例では、当該数は非ゼロである。シンタックス要素ｃｏｕｎｔ_ｒｅｓｈａｐｅ_ｔｅｎｓｏｒ_ｄｉｍｅｎｓｉｏｎｓは、再形成されたテンソルに対してどの次元のカウンターを指定したかということを指定する。例えば、３次元テンソルに再形成された重みテンソルの場合、ｃｏｕｎｔ_ｄｉｍｓは３である。

シンタックス要素ｒｅｓｈａｐｅｄ_ｔｅｎｓｏｒ_ｄｉｍｅｎｓｉｏｎｓは、次元値の配列又はリストを指定する。例えば、３次元テンソルに再形成された畳み込み層の場合、ｄｉｍは、長さが３である配列又はリストである。シンタックス要素ｃｏｕｎｔ_ｓｕｐｅｒ_ｂｌｏｃｋ_ｄｉｍｅｎｓｉｏｎｓは、どの次元のカウンターを指定したかということを指定する。例えば、３次元スーパーブロックの場合、ｃｏｕｎｔ_ｄｉｍｓは３である。シンタックス要素ｓｕｐｅｒ_ｂｌｏｃｋ_ｄｉｍｅｎｓｉｏｎｓは、次元値の配列又はリストを指定する。例えば、３次元スーパーブロックの場合、ｄｉｍは、長さが３である配列又はリスト、即ち、[６４，６４，ｋｅｒｎｅｌ_ｓｉｚｅ]である。シンタックス要素ｃｏｕｎｔ_ｂｌｏｃｋ_ｄｉｍｅｎｓｉｏｎｓは、どの次元のカウンターを指定したかということを指定する。例えば、３次元ブロックの場合、ｃｏｕｎｔ_ｄｉｍｓは３である。

シンタックス要素ｂｌｏｃｋ_ｄｉｍｅｎｓｉｏｎｓは、次元値の配列又はリストを指定する。例えば、３次元ブロックの場合、ｄｉｍは、長さが３である配列又はリスト、即ち、[２，２，２]である。シンタックス要素ｕｎｉｆｉｃａｔｉｏｎ_ｔｈｒｅｓｈｏｌｄは、テンソルブロックに適用されることで、当該テンソルブロックにおける重みの絶対値を統一する閾値を指定する。シンタックス要素ｎｎ_ａｃｃｕｒａｃｙは、ニューラルネットワークの全体的な精度を指定する（例えば、全てのクラスを考慮した分類精度）。

シンタックス要素ｃｏｕｎｔ_ｃｌａｓｓｅｓは、統一閾値ごとに個別の精度を提供するクラスの数を指定する。シンタックス要素ｎｎ_ｃｌａｓｓ_ａｃｃｕｒａｃｙは、ある統一閾値が適用されるときのあるクラスの精度を指定する。

図１０は、統一によるパラメータリダクションの別の例示的なシンタックス表（１０００）を示す。シンタックス表（１０００）は、ビットストリームで伝送される層パラメータセットのペイロード部分を示す。層パラメータセットは、ｌｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇとして示される層レベル統一フラグのシンタックス要素を含む。ｌｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇは、ビットストリームにおいて当該層パラメータセットを参照する圧縮データユニットに統一を適用するかどうかを指定する。圧縮データユニットには、圧縮されたニューラルネットワークモデルの層の圧縮データが含まれる。

ｌｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇは、復号され、また、例えば、統一が適用されたことを示す値（例えば、１）を有する場合、ビットストリームにおける層パラメータセットペイロードシンタックス部分で、ｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐとして示される層レベル統一パフォーマンスマップのシンタックス構成を受信することができる。実施形態において、層パラメータセットにおけるｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）は、層レベルで、閾値の数、再形成されたテンソル次元、スーパーブロック及びブロック次元、統一閾値などを指定する。

実施形態において、層パラメータセットにおけるｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）は、（層レベルに適用される）異なる統一閾値と、取得したニューラル推定精度との間のマッピングを指定することができる。実施形態において、層パラメータセットにおけるｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）は、図９に示されるモデルレベルにおける構成に類似する構成を有することができる。

一例では、モデルパラメータセットにおけるｍｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇ、及び層パラメータセットにおけるｌｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇの両方はいずれもビットストリームにおいて、信号で伝送される。例えば、ｍｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇ＆ｌｐｓ_ｕｎｉｆｉｃａｔｉｏｎ_ｆｌａｇの値は１に等しい。このようなシナリオにおいて、層パラメータセットにおけるｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）のシンタックス要素の値は、当該層パラメータセットを参照する圧縮データユニットに使用される。言い換えると、層パラメータセットにおけるｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）を参照する層について、層パラメータセットにおけるｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）のシンタックス要素の値は、モデルパラメータセットにおけるｕｎｉｆｉｃａｔｉｏｎ_ｐｅｒｆｏｒｍａｎｃｅ_ｍａｐ（）のシンタックス要素の値をオーバーライドする。

図１１は、本開示の実施形態によるプロセス（１１００）を概説するフローチャートを示す。プロセス（１１００）は例えば、ニューラルネットワークの圧縮表現に対応するビットストリームを復号（解凍）するために、電子装置（１３０）のような装置で使用されることができる。当該プロセスは、（Ｓ１１０１）から開始し、（Ｓ１１１０）に進むことができる。

（Ｓ１１１０）で、依存量子化有効化フラグをビットストリームで受信することができる。例えば、モデルレベル、層レベル、サブ層レベル、３次元コーディングユニット（ＣＵ３Ｄ）レベル又は３次元コーディングツリーユニット（ＣＴＵ３Ｄ）レベルで、依存量子化有効化フラグを信号で伝送する。従って、依存量子化フラグは、ニューラルネットワーク構成における異なるレベルの圧縮データに適用されることができる。

（Ｓ１１２０）で、依存量子化有効化フラグに基づき、依存量子化方法をニューラルネットワークの各モデルパラメータに適用するかどうかを決定する。例えば、依存量子化有効化フラグの値１は、依存量子化方法が適用されていることを示し、値０は、均一量子化方法が適用されていることを示す。

（Ｓ１１３０）で、依存量子化方法を適用する場合、依存量子化方法に基づき、ニューラルネットワークの各モデルパラメータを再構成することができる。例えば、依存量子化方法を使用して、対応してエントロピー復号化及び逆量子化操作を実行することができる。プロセス（１１００）は、（Ｓ１１９９）に進む。

（Ｓ１１４０）で、均一量子化方法を適用する場合、均一量子化方法に基づき、ニューラルネットワークの各モデルパラメータを再構成することができる。例えば、均一量子化方法を使用して、対応してエントロピー復号化及び逆量子化操作を実行することができる。プロセス（１１００）は（Ｓ１１９９）に進む。

（Ｓ１１９９）で、（Ｓ１１３０）又は（Ｓ１１４０）のステップが完成した後、プロセス（１１００）は終了する。

上記の技術は、コンピュータ可読指令を使用するコンピュータソフトウェアとして実現し、物理的に１つ又は複数のコンピュータ可読媒体に記憶することができる。例えば、図１２は、開示された主題のいくつかの実施形態を実現するのに適したコンピュータシステム（１２００）を示す。

コンピュータソフトウェアは、任意の適切なマシンコード又はコンピュータ言語を使用して符号化することができ、これらのマシンコード又はコンピュータ言語は、アセンブリ、コンパイル、リンク又は類似のメカニズムによって、１つ又は複数のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって直接的に実行されるか、又は解釈、マイクロコードによって実行される指令を含むコードを作成することができる。

指令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバー、スマートフォン、ゲーム装置、モノのインターネット装置などを含む様々なタイプのコンピュータ又はその構成要素で実行することができる。

図１２に示される、コンピュータシステム（１２００）についての構成要素は、本質的に例示的なものであり、本開示の実施形態を実現するためのコンピュータソフトウェアの使用範囲又は機能に対する任意の限定を示唆するものではない。構成要素の配置も、コンピュータシステム（１２００）の例示的な実施形態に示めされる構成要素のいずれか１つ又はその組み合わせに関する任意の依存性又は要件を有すると解釈されるべきではない。

コンピュータシステム（１２００）はいくつかのヒューマンマシンインターフェイス入力装置を含んでもよい。このようなヒューマンマシンインターフェイス入力装置は、１つ又は複数の人間ユーザーの、例えば触覚入力（例えば、キーストローク、スワイプ、データグローブ移動）、オーディオ入力（例えば、音声、たたき）、視覚入力（例えば、ジェスチャー）、嗅覚入力（図示せず）による入力に応答することができる。ヒューマンマシンインターフェイス装置はさらに、例えば、オーディオ（例えば、音声、音楽、環境音）、画像（例えば、スキャン画像、静止画像カメラから取得した写真画像）、ビデオ（例えば、立体ビデオを含む２次元ビデオ、３次元ビデオ）などの、必ず人間による意識的な入力に直接関連しないいくつかのメディアをキャプチャするために使用される。

入力ヒューマンマシンインターフェイス装置は、キーボード（１２０１）、マウス（１２０２）、タッチパッド（１２０３）、タッチパネル（１２１０）、データグローブ（図示せず）、ジョイスティック（１２０５）、マイク（１２０６）、スキャナ（１２０７）、カメラ（１２０８）のうちの１つ又は複数を含んでもよい（それぞれが１つだけを描く）。

コンピュータシステム（１２００）はさらにいくつかのヒューマンマシンインターフェイス出力装置を含んでもよい。このようなヒューマンマシンインターフェイス出力装置は、例えば触覚出力、音、光及び匂い／味を介して１つ又は複数の人間ユーザーの感覚を刺激できる。このようなヒューマンマシンインターフェイス出力装置は、触覚出力装置（例えば、タッチスクリーン（１２１０）、データグローブ（図示せず）又はジョイスティック（１２０５）による触覚フィードバックがあるが、入力装置として使用されない触覚フィードバック装置も存在する）、オーディオ出力装置（例えば、スピーカー（１２０９）、ヘッドフォン（図示せず））、視覚出力装置（例えば、スクリーン（１２１０）、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含み、それぞれのタッチスクリーン入力能力の有無にかかわらず、それぞれの触覚フィードバック能力の有無にかかわらず、そのうちのいくつかは、例えば、立体出力方式で、２次元の視覚出力又は３次元以上の出力を出力することができ、例えば、バーチャルリアリティ眼鏡（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず））、及びプリンター（図示せず）である。

コンピュータシステム（１２００）はさらに、人間がアクセス可能な記憶装置及びそれらに関連する媒体、例えば、ＣＤ／ＤＶＤなどの媒体（１２２１）を有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（１２２０）を含む光学媒体、サムドライブ（１２２２）、リームバブルハードドライブ又はソリッドステートドライブ（１２２３）、磁気テープとフロッピーディスクのような伝統磁気媒体（図示せず）、専用ＲＯＭ／ＡＳＩＣ／ＰＬＤによる、セキュリティドングル（図示せず）のようなデバイスなどを含んでもよい。

当業者は、現在開示された主題を結合して使用される「コンピュータ可読媒体」という用語には、伝送媒体、搬送波又は他の一時的な信号が含まれていないことを理解すべきである。

コンピュータシステム（１２００）は、１つ又は複数の通信ネットワークへのインターフェースを含んでもよい。ネットワークは、例えば無線、有線、光ネットワークであってもよい。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両、工業、リアルタイム、遅延耐性ネットワークなどであってもよい。ネットワークの例は、例えば、イーサネットや無線ＬＡＮなどのローカルエリアネットワーク、セルラーネットワーク（ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含む）、テレビ有線又は無線広域デジタルネットワーク（有線テレビ、衛星テレビ及び地上波テレビを含む）、車両及び工業ネットワーク（ＣＡＮＢｕｓを含む）などを含む。いくつかのネットワークは一般的に、ある汎用データポート又は周辺バス（１２４９）（例えばコンピュータシステム（１２００）のＵＳＢポート）に接続される外部ネットワークインターフェースアダプタを必要とし、他のネットワークは一般的に、以下に記載するシステムバス（例えば、ＰＣコンピュータシステムへのイーサネットインターフェース、又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）に接続されることによって、コンピュータシステム（１２００）のコアに統合される。これらのネットワークのいずれかによって、コンピュータシステム（１２００）は他のエンティティと通信できる。このような通信は、一方向の受信のみ（例えば、放送テレビ）、一方向の送信のみ（例えば、あるＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、又は双方向（例えば、ローカルエリア又はワイドエリアデジタルネットワークを介して他のコンピュータシステムに達する）であってもよい。あるプロトコル及びプロトコルスタックは、上記のこれらのネットワーク及びネットワークインターフェースのそれぞれで使用できる。

前述のヒューマンマシンインターフェイス装置、人間がアクセス可能な記憶装置及びネットワークインターフェースは、コンピュータシステム（１２００）のコア（１２４０）に接続されることができる。

コア（１２４０）は、１つ又は複数の中央処理ユニット（ＣＰＵ）（１２４１）、グラフィック処理ユニット（ＧＰＵ）（１２４２）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｅａ、ＦＰＧＡ）形式である専門プログラム可能な処理ユニット（１２４３）、特定のタスクのためのハードウェアアクセラレータ（１２４４）などを含んでもよい。これらのデバイスは、読み取り専用メモリ（ＲＯＭ）（１２４５）、ランダムアクセスメモリ（ＲＡＭ）（１２４６）、例えばユーザーがアクセスできない内部ハードディスクドライブ、ソリッドステートドライブ（ＳＳＤ）などの内部大容量記憶装置（１２４７）とともに、システムバス（１２４８）を介して接続されることができる。いくつかのコンピュータシステムにおいて、１つ又は複数の物理プラグという形式でシステムバス（１２４８）にアクセスすることで、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にすることができる。周辺機器は、直接的又は周辺バス（１２４９）を介してコアのシステムバス（１２４８）に接続される。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢなどを含む。

ＣＰＵ（１２４１）、ＧＰＵ（１２４２）、ＦＰＧＡ（１２４３）及びアクセラレータ（１２４４）はある指令を実行でき、これらの指令を組み合わせると、上記のコンピュータコードを構成する。当該コンピュータコードはＲＯＭ（１２４５）又はＲＡＭ（１２４６）に記憶されることができる。移行データもＲＡＭ（１２４６）に記憶されることができ、永久データは例えば内部大容量記憶装置（１２４７）に記憶されることができる。キャッシュメモリを使用することによって任意のメモリ装置への高速記憶及び検索を有効にでき、前記キャッシュメモリは、１つ又は複数のＣＰＵ（１２４１）、ＧＰＵ（１２４２）、大容量記憶装置（１２４７）、ＲＯＭ（１２４５）、ＲＡＭ（１２４６）などに密接に関連付けることができる。

コンピュータ可読媒体は、コンピュータが実現する様々な操作を実行するためのコンピュータコードをその上に有することができる。メディアとコンピュータコードは、本開示の目的のために、専門に設計及び構築されるメディアとコンピュータコードであってもよいし、又はコンピュータソフトウェア分野の当業者にとって公知且つ使用可能なタイプであってもよい。

限定ではなく例として、アーキテクチャ（１２００）、特にコア（１２４０）を有するコンピュータシステムは、プロセッサー（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つ又は複数の有形コンピュータ可読媒体に含まれるソフトウェアを実行することで機能を提供することができる。このようなコンピュータ可読媒体は、以上で紹介した、ユーザーがアクセス可能な大容量記憶装置に関する媒体、及び例えばコア内部大容量記憶装置（１２４７）やＲＯＭ（１２４５）などの非一時的なコア（１２４０）のいくつかの記憶装置に関連付けられた媒体あってもよい。本開示を実現するための様々な実施形態のソフトウェアは、このような装置に記憶され、コア（１２４０）によって実行される。特定の需要に応じて、コンピュータ可読媒体には１つ又は複数の記憶装置又はチップが含まれてもよい。ソフトウェアは、コア（１２４０）、特にそのうちのプロセッサー（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、本明細書に記載の、ＲＡＭ（１２４６）に記憶されるデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を修正することが含まれる特定プロセス又は特定プロセスの特定部分を実行させる。加えて、又は代替として、コンピュータシステムは、論理が配線されているか又は他の方式で回路（例えば、アクセラレータ（１２４４））に組み込まれている結果として機能を提供することができ、当該配線又は回路は、ソフトウェアの代わりとして、又はソフトウェアとともに動作して、本明細書に記載されている特定プロセス又は特定プロセスの特定部分を実行することができる。適切な場合、ソフトウェアへの参照にはロジックが含まれ、その逆も可能である。適切な場合、コンピュータ可読媒体への参照には、実行するためのソフトウェアを記憶する回路（例えば、集積回路（ｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、ＩＣ））、実行するためのロジックを含む回路、又はその両方が含まれる。本開示にはハードウェアとソフトウェアとの任意の適切な組み合わせが含まれる。

本開示は、既にいくつかの例示的な実施形態を説明しているが、本開示の範囲内にある変更、置き換え及び様々な代替の同等物が存在する。従って、本明細書に明示的に示されていないか又は記載されていないが本開示の原理を具体化したので本開示の精神及び範囲内にある様々なシステム及び方法は、当業者にとって考案することができる。

付録：頭字語
ＤＮＮ：深層ニューラルネットワーク
ＮＮＲ：ニューラルネットワークのコーディングされた表現
ＣＴＵ：コーディングツリーユニット
ＣＴＵ３Ｄ：３次元コーディングツリーユニット
ＣＵ：コーディングユニット
ＣＵ３Ｄ：３次元コーディングユニット
ＲＤ：レート歪み
ＶＶＣ：多用途ビデオコーディング

Claims

復号器でニューラルネットワークを復号する方法であって、
ニューラルネットワークの圧縮表現のビットストリームから、依存量子化有効化フラグを受信するステップであって、前記依存量子化有効化フラグが、依存量子化方法を前記ニューラルネットワークのモデルパラメータに適用するかどうかを示すステップと、
前記依存量子化有効化フラグが、前記依存量子化方法を使用して前記ニューラルネットワークのモデルパラメータを符号化することを示すことに応答して、前記依存量子化方法に基づき、前記ニューラルネットワークのモデルパラメータを再構成するステップと、を含む方法。
モデルレベル、層レベル、サブ層レベル、３次元コーディングユニット（ＣＵ３Ｄ）レベル、又は３次元コーディングツリーユニット（ＣＴＵ３Ｄ）レベルで、前記依存量子化有効化フラグを信号で伝送する請求項１に記載の方法。
前記依存量子化有効化フラグが、均一量子化方法を使用して前記ニューラルネットワークのモデルパラメータを符号化することを示すことに応答して、前記均一量子化方法に基づき、前記ニューラルネットワークのモデルパラメータを再構成するステップをさらに含む請求項１又は２に記載の方法。
復号器でニューラルネットワークを復号する方法であって、
ニューラルネットワークの圧縮表現のビットストリームにおける重み係数の第２のサブ層を受信する前に、前記ビットストリームにおける係数の１つ又は複数の第１のサブ層を受信するステップであって、前記第１のサブ層と前記第２のサブ層が、前記ニューラルネットワークの層に属するステップを含む方法。
前記重み係数の第２のサブ層を再構成する前に、前記係数の１つ又は複数の第１のサブ層を再構成するステップをさらに含む請求項４に記載の方法。
前記係数の１つ又は複数の第１のサブ層は、スケール因子係数サブ層、バイアス係数サブ層、又は１つ又は複数のバッチ正規化係数サブ層を含む請求項４又は５に記載の方法。
前記ニューラルネットワークの層は、畳み込み層又は完全接続層である請求項４乃至６のいずれか１項に記載の方法。
前記１つ又は複数の第１のサブ層の係数は、量子化された値又は量子化されていない値で表される請求項４乃至７のいずれか１項に記載の方法。
前記ニューラルネットワークの圧縮表現のビットストリームとは別に伝送される前記ニューラルネットワークの構成情報に基づき、前記第１のサブ層及び前記第２のサブ層の復号シーケンスを決定するステップをさらに含む請求項４乃至８のいずれか１項に記載の方法。
前記１つ又は複数の第１のサブ層が前記ニューラルネットワークの層において使用可能かどうかを示す１つ又は複数のフラグを受信するステップをさらに含む請求項４乃至９のいずれか１項に記載の方法。
前記ニューラルネットワークの構成情報に基づき、１次元テンソルを、前記係数の第１のサブ層のうちの１つに対応するバイアス又はローカルスケールテンソルとして推定するステップをさらに含む請求項４乃至１０のいずれか１項に記載の方法。
推定プロセス中に、再構成された前記係数の第１のサブ層をマージして、係数の組み合わせテンソルを生成するステップと、
前記重み係数の第２のサブ層の一部に属する再構成された重み係数を、前記重み係数の第２のサブ層の残りがまだ再構成されている間に、前記推定プロセスの入力として受信するステップと、
前記推定プロセス中に、前記係数の組み合わせテンソルと受信した再構成された重み係数に対する行列乗算を実行するステップと、を含む請求項４乃至１１のいずれか１項に記載の方法。
復号器でニューラルネットワークを復号する方法であって、
ニューラルネットワークの圧縮表現のビットストリームにおける第１の統一有効化フラグを受信するステップであって、前記第１の統一有効化フラグが、統一パラメータリダクション方法を前記ニューラルネットワークのモデルパラメータに適用するかどうかを示すステップと、
前記第１の統一有効化フラグに基づき、前記ニューラルネットワークのモデルパラメータを再構成するステップと、を含む方法。
前記第１の統一有効化フラグは、モデルパラメータセット又は層パラメータセットに含まれる請求項１３に記載の方法。
統一方法を前記ニューラルネットワークのモデルパラメータに適用すると決定したことに応答して、統一パフォーマンスマップを受信するステップをさらに含み、
前記統一パフォーマンスマップは、１つ又は複数の統一閾値と、対応する統一閾値によって圧縮されるニューラルネットワークの対応する１つ又は複数の推定精度セットとの間のマッピングを示す請求項１３又は１４に記載の方法。
前記統一パフォーマンスマップは、
前記１つ又は複数の統一閾値の数を示すシンタックス要素、
前記１つ又は複数の統一閾値のそれぞれに対応する相応的な統一閾値を示すシンタックス要素、又は、
前記１つ又は複数の統一閾値のそれぞれに対応する相応的な推定精度セットを示す１つ又は複数のシンタックス要素、のうちの１つ又は複数を含む請求項１５に記載の方法。
前記統一パフォーマンスマップは、
モデルパラメータテンソル、前記モデルパラメータテンソルから分割されたスーパーブロック、又は、前記スーパーブロックから分割されたブロックのうちの１つ又は複数の次元を示す１つ又は複数のシンタックス要素をさらに含む請求項１５に記載の方法。
前記第１の統一有効化フラグがモデルパラメータセットに含まれ、第２の統一有効化フラグが層パラメータセットに含まれ、前記第１の統一有効化フラグ及び前記第２の統一有効化フラグがそれぞれ、前記統一パラメータリダクション方法が有効化されたことを示す値を有することに応答して、前記ニューラルネットワークの圧縮表現のビットストリームにおいて、層パラメータセットにおける統一パフォーマンスマップのシンタックス要素の値を、前記層パラメータセットを参照する圧縮データに適用すると決定するステップをさらに含む請求項１３乃至１７のいずれか１項に記載の方法。
メモリと、処理回路とを含む復号器であって、
前記処理回路は、前記メモリに記憶されたプログラムを実行することにより、請求項１乃至３のいずれか１項に記載の方法を実行する復号器。
メモリと、処理回路とを含む復号器であって、
前記処理回路は、前記メモリに記憶されたプログラムを実行することにより、請求項４乃至１２のいずれか１項に記載の方法を実行する復号器。
メモリと、処理回路とを含む復号器であって、
前記処理回路は、前記メモリに記憶されたプログラムを実行することにより、請求項１３乃至１８のいずれか１項に記載の方法を実行する復号器。
プロセッサーに、請求項１乃至３のいずれか１項に記載の方法を実行させるためのプログラム。
プロセッサーに、請求項４乃至１２のいずれか１項に記載の方法を実行させるためのプログラム。
プロセッサーに、請求項１３乃至１８のいずれか１項に記載の方法を実行させるためのプログラム。