JP7508573B2

JP7508573B2 - 深層強化学習によるエンドツーエンドニューラル圧縮のための方法及び装置

Info

Publication number: JP7508573B2
Application number: JP2022555102A
Authority: JP
Inventors: ジャン，ウェイ; ワン，ウェイ; リン，シェン; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-12-29
Filing date: 2021-09-24
Publication date: 2024-07-01
Anticipated expiration: 2041-09-24
Also published as: KR102650523B1; JP2023521292A; US11917154B2; KR20220098383A; CN115298697A; WO2022146508A1; EP4073759A4; EP4073759A1; US20220210416A1; US20240171743A1

Description

関連出願の相互参照
本願は、２０２０年１２月２９日に出願された米国仮特許出願第６３／１３１，６７０号、及び２０２１年９月１６日に出願された米国特許出願第１７／４７６，８５９号に基づいて、それらの優先権を主張し、それらの開示内容を全て参照により本明細書に組み込むものとする。

エンドツーエンドニューラル圧縮（Ｅ２ＥＮＣ）のプロセスは、以下のように説明することができる。入力画像又はビデオシーケンスｘが与えられると、入力ｘに基づいて、ＤＮＮエンコーダは、離散値化された量子化された表現
（外１）
（以下「ｙ^―」等と記載する。）に量子化されるコンパクトな表現ｙを計算する。この離散値化された量子化された表現ｙ^―は、その後、記憶及び伝送を容易にするためにロスレスにエントロピーエンコードされることができる。デコーダ側では、離散値化された量子化された表現ｙ^―は、ロスレスエントロピーデコーディングから復元されることができ、画像又はビデオシーケンスｚを再構成するためのＤＮＮデコーダへの入力として使用される。

このプロセスでは、量子化はコアステップであり、圧縮品質の損失の主な原因の一つでもある。量子化効率を向上させることで、あらゆる画像及びビデオ圧縮タスクに大きな性能向上をもたらすことができる。

実施形態によれば、深層強化学習を用いるエンドツーエンドニューラル画像圧縮の方法は、少なくとも１つのプロセッサが実行する方法であって、入力をエンコードするステップと、前記入力の複数のエンコード表現を生成するステップと、１組の以前の量子化状態に基づいて、第１のニューラルネットワークを使用して、１組の量子化鍵を生成するステップであって、前記１組の量子化鍵における各量子化鍵及び前記１組の以前の量子化状態における各以前の量子化状態は、前記複数のエンコード表現に対応する、ステップと、第２のニューラルネットワークを使用して、前記１組の量子化鍵に基づいて、前記複数のエンコード表現の逆量子化された表現を表す１組の逆量子化された数字を生成するステップと、前記１組の逆量子化された数字に基づいて、再構成された出力を生成するステップと、含む。

実施形態によれば、深層強化学習を用いるエンドツーエンドニューラル画像圧縮のための装置は、プログラムコードを記憶するように構成される少なくとも１つのメモリと、前記プログラムコードを読み取り、前記プログラムコードの指示通りに動作するように構成される少なくとも１つのプロセッサと、を備える。前記プログラムコードは、前記少なくとも１つのプロセッサに、入力をエンコードさせるように構成されるエンコーディングコードと、前記少なくとも１つのプロセッサに、前記入力の複数のエンコード表現を生成させるように構成される第１の生成コードと、前記少なくとも１つのプロセッサに、１組の以前の量子化状態に基づいて、第１のニューラルネットワークを使用して、１組の量子化鍵を生成させるように構成される第２の生成コードであって、前記１組の量子化鍵における各量子化鍵及び前記１組の以前の量子化状態における各以前の量子化状態は、前記複数のエンコード表現に対応する、第２の生成コードと、前記少なくとも１つのプロセッサに、第２のニューラルネットワークを使用して、前記１組の量子化鍵に基づいて、前記複数のエンコード表現の逆量子化された表現を表す１組の逆量子化された数字を生成させるように構成される第３の生成コードと、前記少なくとも１つのプロセッサに、前記１組の逆量子化された数字に基づいて、再構成された出力をデコードさせるように構成されるデコーディングコードと、を含む。

実施形態によれば、非一時的なコンピュータ読取可能な媒体は、命令を記憶し、前記命令は、深層強化学習を用いるエンドツーエンドニューラル画像圧縮のための少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、入力をエンコードするステップと、前記入力の複数のエンコード表現を生成するステップと、１組の以前の量子化状態に基づいて、第１のニューラルネットワークを使用して、１組の量子化鍵を生成するステップであって、前記１組の量子化鍵における各量子化鍵及び前記１組の以前の量子化状態における各以前の量子化状態は、前記複数のエンコード表現に対応する、ステップと、第２のニューラルネットワークを使用して、前記１組の量子化鍵に基づいて、前記複数のエンコード表現の逆量子化された表現を表す１組の逆量子化された数字を生成するステップと、前記１組の逆量子化された数字に基づいて、再構成された出力をデコードするステップと、を実行させる。

実施形態による、本明細書に記載される方法、装置、及びシステムが実施され得る環境の図である。図１の１つ又は複数のデバイスの例示的なコンポーネントのブロック図である。ＤＱ設計における２つの量子化器を用いる依存量子化（ＤＱ）メカニズムの図である。ＤＱ設計における２つの量子化器間の切り替えを示す、手作業で設計された状態機械の状態図である。図４（ａ）の手作業で設計された状態機械の状態図を表す状態表である。ニューラル圧縮システムの一般的なプロセスのブロック図である。実施形態による、テスト段階中のエンドツーエンドニューラル圧縮（Ｅ２ＥＮＣ）装置のブロック図である。実施形態による、テスト段階中の、図６のテスト段階装置からのＤＲＬ量子化モジュールの詳細なブロック図である。実施形態による、テスト段階中の、図６のテスト段階装置からのＤＲＬ逆量子化モジュールの詳細なブロック図である。実施形態による、トレーニング段階中の、ＤＲＬ量子化モジュール及びＤＲＬ逆量子化モジュールのワークフローである。実施形態による、トレーニング段階中の、メモリリプレイ及び重み更新モジュールの詳細なワークフローである。実施形態による、深層強化学習を用いるエンドツーエンドニューラル画像圧縮の方法のフローチャートである。実施形態による、深層強化学習を用いるエンドツーエンドニューラル画像圧縮のための装置のブロック図である。

実施形態は、深層強化学習（ＤＲＬ）を用いるエンドツーエンドニューラル圧縮（Ｅ２ＥＮＣ）のフレームワークに関連し得る。その方法は、ニューラル圧縮のコンテキストで圧縮プロセス全体の最適化を共同で考慮し、また、様々なタイプの学習ベースの量子化方法をサポートする。図面において、同じプロセス及び／又は操作を有するモジュールは、同じ符号で示されるため、必要に応じて繰り返しの説明を省略してもよい。

従来の画像及びビデオコーディング規格では、手作業で設計された量子化ルールを持つ依存量子化（ＤｅｐｅｎｄｅｎｔＱｕａｎｔｉｚａｔｉｏｎ、ＤＱ）又はトレリス符号化量子化を使用する。ＤＱは、２つの量子化器Ｑ_０とＱ_１、及びそれらを切り替えるための手順で構成される。図３は、ＤＱ設計における量子化器Ｑ_０とＱ_１を用いるＤＱメカニズムの例を示している。円の上にあるラベルは関連する状態を示し、円の下にあるラベルは関連する量子化鍵を示す。デコーダ側では、再構成された数字ｘ’は、整数鍵ｋに量子化器Ｑ_０又はＱ_１のいずれかの量子化ステップサイズΔを乗算することによって決定される。量子化器Ｑ_０とＱ_１との間の切り替えは、Ｍ＝２^Ｋ個（Ｋ≧２（したがってＭ≧４））のＤＱ状態を持つ状態機械で表すことができ、ただし、各ＤＱ状態は量子化器Ｑ_０又はＱ_１のいずれかと関連付けられている。現在のＤＱ状態は、以前のＤＱ状態と現在の量子化鍵ｋ_ｉの値とによって一意に決定される。入力ストリームｘ_１，ｘ_２，・・・をエンコードする場合、量子化器Ｑ_０とＱ_１との間の潜在的な遷移は、２^Ｋ個のＤＱ状態を持つトレリスによって図示することができる。したがって、量子化鍵ｋ_１，ｋ_２，・・・の最適なシーケンスを選択することは、最小のレート歪み（Ｒ－Ｄ）コストを持つトレリスパスを見つけることと等価である。この問題はビタビアルゴリズムによって解くことができる。

従来、状態機械は、経験的に手作業で設計されていた。図４は、４つの状態を持つＶＶＣ規格で使用される手作業で設計された状態機械の例を挙げている。具体的には、図４（ａ）は、手作業で設計された状態機械の状態図である。図４（ｂ）は、手作業で設計された状態機械の状態図を表す状態表である。

従来のＤＱ方法には、３つの主な制限がある。まず、量子化器が２つしか使用されない。量子化器の数を増やすと、数字をエンコードする際のビット消費量を減らすことができる。第二に、状態機械を手作業で設計するのは最適ではなく、高価すぎて多数のＤＱ状態を含めることができない。量子化器の数を増やすには、ＤＱ状態の数を増やす必要があり、これにより、量子化効率を向上させることができるが、状態機械が複雑になりすぎて、手作業で設計されることができなくなる。最後に、鍵の生成及び数字の再構成の方法は、ヒューリスティックに手動で設計されており、これも最適とは言えない。他のより良い方法を探すには、ドメインの専門知識が必要であり、手動で設計するには高価すぎる可能性がある。

したがって、本開示の実施形態は、深層強化学習（ＤＲＬ）メカニズムによって学習される学習ベースの量子化に関連し得る。実施形態は、柔軟に、様々なタイプの量子化方法（例えば、一様量子化、コードブックベースの量子化、又は深層学習ベースの量子化）をサポートし得、データ駆動方式で最適な量子化器を学習する。加えて、実施形態は、改善されたデータ適応型圧縮結果を提供するようにＤＮＮエンコーダ、ＤＮＮデコーダ、及び学習ベースの量子化方法を共同で最適化することができる、ニューラル圧縮のコンテキストで圧縮プロセス全体に共同で関連し得る。

図１は、実施形態による、本明細書に記載される方法、装置、及びシステムが実装され得る環境１００の図である。

図１に示すように、環境１００は、ユーザデバイス１１０、プラットフォーム１２０、及びネットワーク１３０を含んでもよい。環境１００のデバイスは、有線接続、無線接続、又は有線接続と無線接続の組合せを介して相互接続してもよい。

ユーザデバイス１１０は、プラットフォーム１２０に関連する情報を受信、生成、保存、処理、及び／又は提供することができる１つ又は複数のデバイスを含む。例えば、ユーザデバイス１１０は、計算デバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカー、サーバなど）、携帯電話（例えば、スマートフォン、無線電話など）、ウェアラブルデバイス（例えば、一対のスマートグラス又はスマートウォッチ）、又は類似したデバイスを含んでもよい。一部の実装では、ユーザデバイス１１０は、プラットフォーム１２０から情報を受信し、及び／又はプラットフォーム１２０に情報を送信し得る。

プラットフォーム１２０は、本明細書の他の箇所で説明したような１つ又は複数のデバイスを含む。一部の実装では、プラットフォーム１２０は、クラウドサーバ又はクラウドサーバ群を含んでもよい。一部の実装では、プラットフォーム１２０は、ソフトウェアコンポーネントがスワップイン又はスワップアウトされ得るように、モジュール式であるように設計されてもよい。そのようなものとして、プラットフォーム１２０は、異なる用途のために容易に及び／又は迅速に再構成されてもよい。

一部の実装では、示されるように、プラットフォーム１２０は、クラウドコンピューティング環境１２２においてホストされてもよい。なお、本明細書で説明される実装では、プラットフォーム１２０がクラウドコンピューティング環境１２２でホストされるものとして説明されるが、一部の実装では、プラットフォーム１２０はクラウドベースでなくてもよく（即ち、クラウドコンピューティング環境の外で実装されてもよい）、又は部分的にクラウドベースであってもよい。

クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストするシステム及び／又はデバイスの物理的な位置及び構成のエンドユーザ（例えば、ユーザデバイス１１０）の知識を必要としない、計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供してもよい。示されるように、クラウドコンピューティング環境１２２は、計算リソース１２４のグループ（総括的に「計算リソース１２４」と称し、個別に「計算リソース１２４」と称する）を含んでもよい。

計算リソース１２４は、１つ又は複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、又は他のタイプの計算及び／又は通信デバイスを含む。一部の実装では、計算リソース１２４は、プラットフォーム１２０をホストしてもよい。クラウドリソースは、計算リソース１２４で実行する計算インスタンス、計算リソース１２４で提供される記憶デバイス、計算リソース１２４によって提供されるデータ転送デバイス等を含んでもよい。一部の実装では、計算リソース１２４は、有線接続、無線接続、又は有線接続と無線接続との組み合わせを介して他の計算リソース１２４と通信してもよい。

図１にさらに示されるように、計算リソース１２４は、１つ又は複数のアプリケーション（「ＡＰＰ」）１２４－１、１つ又は複数の仮想マシン（「ＶＭ」）１２４－２、仮想化ストレージ（「ＶＳ」）１２４－３、１つ又は複数のハイパーバイザー（「ＨＹＰ」）１２４－４などのクラウドリソースのグループを含む。

アプリケーション１２４－１は、ユーザデバイス１１０及び／又はプラットフォーム１２０に提供され得る、又はそれによってアクセスされ得る１つ又は複数のソフトウェアアプリケーションを含む。アプリケーション１２４－１は、ユーザデバイス１１０にソフトウェアアプリケーションをインストールし実行する必要性を排除してもよい。例えば、アプリケーション１２４－１は、プラットフォーム１２０に関連するソフトウェア、及び／又はクラウドコンピューティング環境１２２を介して提供されることが可能な他の任意のソフトウェアを含んでもよい。一部の実装では、１つのアプリケーション１２４－１は、仮想マシン１２４－２を介して、１つ又は複数の他のアプリケーション１２４－１との間で情報を送受信してもよい。

仮想マシン１２４－２は、物理マシンのようにプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装を含む。仮想マシン１２４－２は、仮想マシン１２４－２による任意の実マシンへの使用及び対応の程度に応じて、システム仮想マシン又はプロセス仮想マシンのいずれであってもよい。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ」）の実行をサポートする完全なシステムプラットフォームを提供し得る。プロセス仮想マシンは、単一のプログラムを実行し得、単一のプロセスをサポートし得る。一部の実装では、仮想マシン１２４－２は、ユーザ（例えば、ユーザデバイス１１０）に代わって実行してもよく、データ管理、同期、又は長期間データ転送などのクラウドコンピューティング環境１２２のインフラストラクチャを管理してもよい。

仮想化ストレージ１２４－３は、計算リソース１２４の記憶システム又はデバイス内で仮想化技術を使用する、１つ又は複数の記憶システム及び／又は１つ又は複数のデバイスを含む。一部の実装では、記憶システムのコンテキスト内で、仮想化のタイプは、ブロック仮想化及びファイル仮想化を含み得る。ブロック仮想化とは、記憶システムが物理的ストレージ又は異種構造に関係なくアクセスされ得るように、物理的ストレージから論理的ストレージを抽象化（又は分離）することを指してもよい。この分離により、記憶システムの管理者は、エンドユーザのストレージをどのように管理するかについて柔軟性を確保することができる。ファイル仮想化により、ファイルレベルでアクセスされるデータと、ファイルが物理的に記憶される位置との間の依存関係が解消され得る。これにより、ストレージ使用、サーバ統合、及び／又は無停止ファイル移行のパフォーマンスの最適化が可能になる場合がある。

ハイパーバイザー１２４－４は、計算リソース１２４などのホストコンピュータ上で複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」）を同時に実行することを可能にするハードウェア仮想化技術を提供し得る。ハイパーバイザー１２４－４は、ゲストオペレーティングシステムに仮想オペレーティングプラットフォームを提示してもよく、ゲストオペレーティングシステムの実行を管理してもよい。多様なオペレーティングシステムの複数のインスタンスは、仮想化されたハードウェアリソースを共有してもよい。

ネットワーク１３０は、１つ又は複数の有線及び／又は無線ネットワークを含む。例えば、ネットワーク１３０は、セルラーネットワーク（例えば、第５世代（５Ｇ）ネットワーク、長期進化（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、符号分割多重アクセス（ＣＤＭＡ）ネットワークなど）、公衆陸上移動ネットワーク（ＰＬＭＮ）、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、大都市圏ネットワーク（ＭＡＮ）、電話ネットワーク（例えば、公衆交換電話網（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバーベースのネットワークなど、及び／又はこれらや他のタイプのネットワークの組み合わせを含み得る。

図１に示されるデバイス及びネットワークの数及び配置は、一例として提供される。実際には、図１に示されたものよりも追加のデバイス及び／又はネットワーク、より少ないデバイス及び／又はネットワーク、異なるデバイス及び／又はネットワーク、あるいは異なる配置のデバイス及び／又はネットワークが存在してもよい。さらに、図１に示される２つ又はより多くのデバイスが単一のデバイス内に実装されてもよいか、又は、図１に示される単一のデバイスが複数の分散デバイスとして実装されてもよい。加えて、又は任意選択で、環境１００のデバイスのセット（例えば、１つ又は複数のデバイス）は、環境１００の別のデバイスのセットによって実行されるものとして説明される１つ又は複数の機能を実行してもよい。

図２は、図１の１つ又は複数のデバイスの例示的なコンポーネントのブロック図である。

デバイス２００は、ユーザデバイス１１０及び／又はプラットフォーム１２０に対応し得る。図２に示されるように、デバイス２００は、バス２１０、プロセッサ２２０、メモリ２３０、記憶コンポーネント２４０、入力コンポーネント２５０、出力コンポーネント２６０、及び通信インターフェース２７０を含んでもよい。

バス２１０は、デバイス２００のコンポーネント間の通信を許可するコンポーネントを含む。プロセッサ２２０は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組み合わせで実装される。プロセッサ２２０は、中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、加速処理装置（ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は他のタイプの処理コンポーネントである。一部の実装では、プロセッサ２２０は、機能を実行するようにプログラムされることが可能な１つ又は複数のプロセッサを含む。メモリ２３０は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、及び／又はプロセッサ２２０によって使用される情報及び／又は命令を記憶する別のタイプの動的又は静的記憶デバイス（例えば、フラッシュメモリ、磁気メモリ、及び／又は光学メモリ）を含む。

記憶コンポーネント２４０は、デバイス２００の操作及び使用に関連する情報及び／又はソフトウェアを記憶する。例えば、記憶コンポーネント２４０は、対応するドライブと共に、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、及び／又はソリッドステートディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ、及び／又は他のタイプの非一時的なコンピュータ読取可能な媒体を含んでもよい。

入力コンポーネント２５０は、ユーザ入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び／又はマイク）などを介して、デバイス２００による情報の受信を可能にするコンポーネントを含む。加えて、又は任意選択で、入力コンポーネント２５０は、情報をセンシングするためのセンサ（例えば、全地球測位システム（ＧＰＳ）コンポーネント、加速度計、ジャイロスコープ、及び／又はアクチュエータ）を含んでもよい。出力コンポーネント２６０は、デバイス２００からの出力情報を提供するコンポーネント（例えば、ディスプレイ、スピーカー、及び／又は、１つ又は複数の発光ダイオード（ＬＥＤ））を含む。

通信インターフェース２７０は、有線接続、無線接続、又は有線接続と無線接続との組み合わせなどを介して、デバイス２００が他のデバイスと通信することを可能にするトランシーバのようなコンポーネント（例えば、トランシーバ及び／又は別個の受信機と送信機）を含む。通信インターフェース２７０は、デバイス２００が他のデバイスから情報を受信すること、及び／又は他のデバイスに情報を提供することを可能にすることができる。例えば、通信インターフェース２７０は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数（ＲＦ）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、Ｗｉ－Ｆｉインターフェース、セルラーネットワークインターフェースなどを含んでもよい。

デバイス２００は、本明細書に記載された１つ又は複数のプロセスを行ってもよい。デバイス２００は、プロセッサ２２０が、メモリ２３０及び／又は記憶コンポーネント２４０などの非一時的なコンピュータ読取可能な媒体に記憶されたソフトウェア命令を実行することに応答して、これらのプロセスを行ってもよい。コンピュータ読取可能な媒体は、本明細書では、非一時的なメモリデバイスとして定義される。メモリデバイスは、単一の物理的記憶デバイス内のメモリ空間、又は複数の物理的記憶デバイスに分散されたメモリ空間を含む。

ソフトウェア命令は、通信インターフェース２７０を介して別のコンピュータ読取可能な媒体から、又は別のデバイスから、メモリ２３０及び／又は記憶コンポーネント２４０に読み込まれてもよい。実行されると、メモリ２３０及び／又は記憶コンポーネント２４０に記憶されたソフトウェア命令は、プロセッサ２２０に、本明細書に記載された１つ又は複数のプロセスを行わせてもよい。加えて、又は任意選択で、ハードワイヤード回路は、本明細書に記載された１つ又は複数のプロセスを行うために、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて使用されてもよい。したがって、本明細書に記載された実装は、ハードウェア回路とソフトウェアとの任意の特定の組み合わせに限定されるものではない。

図２に示されるコンポーネントの数及び配置は、一例として提供されている。実際には、デバイス２００は、図２に示されるものよりも追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる配置のコンポーネントを含んでもよい。加えて、又は任意選択で、デバイス２００のコンポーネントのセット（例えば、１つ又は複数のコンポーネント）は、デバイス２００の別のコンポーネントのセットによって実行されるものとして説明される１つ又は複数の機能を実行してもよい。

次に、実施形態の図５を参照して、ニューラル圧縮システムの一般的なプロセスのための方法及び装置について、詳細に説明する。

図５は、ニューラル圧縮システムの一般的なプロセスのための装置のブロック図である。

図５に示すように、一般的なプロセスの装置は、エンコーディングプロセス５００とデコーディングプロセス５１０とから構成される。エンコーディングプロセス５００側の装置は、ＤＮＮエンコーディングモジュール５２０、量子化モジュール５３０、及びエントロピーエンコーディングモジュール５４０を含む。デコーディングプロセス５１０側の装置は、エントロピーデコーディングモジュール５５０、逆量子化モジュール５６０、及びＤＮＮデコーディングモジュール５７０を含む。

Ｘ＝ｘ_１，ｘ_２，・・・が、圧縮される入力信号のシーケンスを示すとする。ここで、信号ｘ_ｔは、画像、画像中のパッチ、ビデオセグメント、ビデオセグメント中のパッチ等とすることができる。信号ｘ_ｔは、一般に、サイズ（ｈ，ｗ，ｃ，ｄ）の４Ｄテンソル、例えば、サイズ（ｈ，ｗ，ｃ）の画像、又は、サイズ（ｈ，ｗ，ｃ）のｄ個の画像フレームを含むビデオシーケンスとして表されることができる。以下、３段階のエンコーディングプロセス５００を説明する。ＤＮＮエンコーディングモジュール５２０は、まず、入力信号ｘ_ｔに基づいて、ＤＮＮエンコーダを用いて、ＤＮＮエンコード表現ｙ_ｔを計算する。次に、量子化モジュール５３０は、エンコード表現ｙ_ｔに基づいて、量子化器を用いて、量子化された表現ｙ_ｔ ^―を生成する。次に、エントロピーエンコーディングモジュール５４０は、エントロピーエンコーダを用いることで、量子化された表現ｙ_ｔ ^―を、記憶及び伝送を容易にするために、コンパクトな表現
（外２）
（以下「ｙ_ｔ～」等と記載する。）
にエンコードする。以下、対応する３段階のデコーディングプロセス５１０を説明する。コンパクトな表現ｙ_ｔ～を受信した後、エントロピーデコーディングモジュール５５０は、コンパクトな表現ｙ_ｔ～に基づいて、エントロピーデコーダを用いて、デコード表現ｙ_ｔ ^―’を復元する。実施形態では、ロスレスエントロピーコーディング方法は、エントロピーエンコーダ及びエントロピーデコーダによって用いられるため、デコード表現と量子化された表現とは同じである（即ち、
（外３）
）。次に、逆量子化モジュール５６０は、デコード表現ｙ_ｔ ^―’に基づいて、逆量子化器を用いて、逆量子化された表現ｙ_ｔ’を計算する。最後に、ＤＮＮデコーディングモジュール５７０は、逆量子化された表現ｙ_ｔ’に基づいて、ＤＮＮデコーダを用いて、再構成された出力ｚ_ｔを生成する。

ニューラル圧縮システムの全体的な目標は、量子化された表現ｙ_ｔ～のビット消費量が少なくなり、再構成された出力ｚ_ｔが元の入力ｘ_ｔに近くなるように、レート歪み（Ｒ－Ｄ）損失Ｌ_ｎｃ（ｘ_ｔ，ｙ_ｔ ^―，ｚ_ｔ）を最小化することである。レート歪み（Ｒ－Ｄ）損失は、下記式に従って計算される。

歪み損失Ｄ_ｎｃ（ｘ_ｔ，ｚ_ｔ）は、ＰＳＮＲ及び／又はＳＳＩＭメトリックのような再構成エラーを測定する。レート損失Ｒ_ｎｃ（ｙ_ｔ ^―）は、量子化された表現ｙ_ｔ ^―のビットレートに関係する。ハイパーパラメータλは、これら２つの損失項の重要性を両立させる。実施形態によるこの式のさらなる説明は、後で詳述する。

量子化／逆量子化演算は一般に微分できないので、量子化器／逆量子化器は、ＤＮＮエンコーダ／ＤＮＮデコーダとは別に最適化される。例えば、従来の方法では、線形量子化を仮定し、微分可能なレート損失Ｒ_ｎｃ（ｙ^―）をエントロピー推定によって近似し、これにより、ＤＮＮエンコーダ／ＤＮＮデコーダは、バックプロパゲーションを通じて学習されることができる。

以下、深層強化学習（ＤＲＬ）を用いるエンドツーエンドニューラル圧縮（Ｅ２ＥＮＣ）のための方法及び装置について、詳細に説明する。

実施形態のＥ２ＥＮＣ方法のＤＮＮエンコーダ及びＤＮＮデコーダ、並びに量子化器及び逆量子化器は、共同で学習されてもよい。具体的には、深層強化学習（ＤＲＬ）は、ＤＮＮエンコーダ及びＤＮＮデコーダの最適化と、量子化器及び逆量子化器の最適化と、を組み合わせるために利用される。提案されたＥ２ＥＮＣフレームワークは、異なるタイプの量子化方法と、異なるタイプのＤＮＮエンコーダ及びＤＮＮデコーダネットワークアーキテクチャとに適応させるように、一般的で幅広いものである。

図６は、実施形態による、テスト段階中のＥ２ＥＮＣ装置のブロック図である。

図６に示すように、Ｅ２ＥＮＣテスト装置は、ＤＮＮエンコーディングモジュール６２０、ＤＲＬ量子化モジュール６３０、及びエントロピーエンコーディングモジュール６４０からなるエンコーディング側６００を含む。また、図６のテスト装置は、エントロピーデコーディングモジュール６５０、ＤＲＬ逆量子化モジュール６６０、及びＤＮＮデコーディングモジュール６７０からなるデコーディング側６１０を含む。エンコーディング側６００及びデコーディング側６１０は、それぞれ、エンコーディングプロセス及びデコーディングプロセスである。

以下、実施形態に従って、エンコーディング側６００について説明する。各ｘ_ｔが一般にサイズ（ｈ，ｗ，ｃ，ｄ）の４Ｄテンソルとして表される、入力信号のシーケンスＸ＝ｘ_１，ｘ_２・・・が与えられると、ＤＮＮエンコーディングモジュール６２０は、ＤＮＮエンコーダを用いることで、入力信号ｘ_ｔに基づいてＤＮＮエンコード表現ｙ_ｔを計算する。ＤＮＮエンコード表現ｙ_ｔは、数字のストリームｙ_ｔ＝ｙ_ｔ，１，ｙ_ｔ，２・・・と見なすことができる。１バッチのｍ個の数字Ｙ_ｔ，ｉ＝・・・，ｙ_{ｔ，ｉ－１}，ｙ_ｔ，ｉについて、ＤＲＬ量子化モジュール６３０は、ＤＲＬ量子化器を用いることで、１バッチの量子化鍵（ＱＫ）Ｋ_ｔ，ｉ＝・・・，ｋ_{ｔ，ｉ－１}，ｋ_ｔ，ｉを計算し、ここで、各ＱＫｋ_ｔ，ｌが、エンコード表現ｙ_ｔ，ｌのそれぞれに対応している。１サイズのバッチ（ｍ＝１）について、数字は個別に、１つずつ処理される。ｍ＞１の場合、数字は組織的に量子化される。数字は異なる順序で編成されることができる。例えば、相対的な位置情報を保持するために、数字をブロック単位で編成することができる。次に、システムはＱＫＫ_ｔ，ｉをデコーダに送信し、次のバッチの数字Ｙ_{ｔ，ｉ＋１}の処理に進む。任意選択で、ＱＫＫ_ｔ，ｉは、記憶及び伝送を容易にするために、エントロピーエンコーディングモジュール６４０によって（好ましくはロスレス方式で）さらに圧縮されることになる。

以下、実施形態に従って、デコーディング側６１０について説明する。ＱＫＫ_ｔ，ｉを受信した後、受信されたＱＫがエントロピーエンコードされていると、エントロピーデコーディングモジュール６５０を適用して、エントロピーデコードされたＱＫＫ_ｔ，ｉ ^―＝・・・，ｋ_{ｔ，ｉ－１}，ｋ_ｔ，ｉ（ロスレスエントロピーコーディングの場合はＫ_ｔ，ｉ ^―＝Ｋ_ｔ，ｉ）を求める。次に、ＤＲＬ逆量子化モジュール６６０は、ＤＲＬ逆量子化器を用いることで、逆量子化された表現ｙ_ｔ’のストリーム全体におけるバッチである、１バッチの逆量子化された数字Ｙ’_ｔ，ｉ＝・・・，ｙ’_{ｔ，ｉ－１}，ｙ’_ｔ，ｉを復元する。そして、ＤＮＮデコーディングモジュール６７０は、ＤＮＮデコーダを用いることで、逆量子化された表現ｙ’_ｔに基づいて、再構成された出力ｚ_ｔを生成する。なお、エントロピーエンコーディングモジュール６４０及びエントロピーデコーディングモジュール６５０は任意選択である（図６に点線で示す）。エントロピーエンコーディングモジュール６４０及びエントロピーデコーディングモジュール６５０を用いる場合、実施形態ではロスレスエントロピーコーディング方法をとるため、エントロピーデコードされたＱＫと、ＤＲＬ量子化モジュール６３０により計算されたＱＫとは同じである（即ち、Ｋ_ｔ，ｉ ^―＝Ｋ_ｔ，ｉである）。したがって、以下では、エンコーディング側６００とデコーディング側６１０の両方で計算されたＱＫに対して同じ表記（Ｋ_ｔ，ｉ）を用いることにする。

図６のＤＲＬ量子化器及びＤＲＬ逆量子化器は、学習ベースの量子化方法を用いる。図７及び図８は、それぞれ、ＤＲＬ量子化モジュール６３０及びＤＲＬ逆量子化モジュール６６０の詳細なワークフローを説明する。

図７に示すように、ＤＲＬ量子化モジュール６３０は、鍵計算モジュール７００と、状態予測モジュール７１０とを含む。

エンコーディング側６００では、１バッチのｍ個の数字Ｙ_ｔ，ｉ＝・・・，ｙ_{ｔ，ｉ－１}，ｙ_ｔ，ｉが与えられると、各ＱＳｓ_{ｔ，ｌ－１}がエンコード表現ｙ_ｔ，ｌのそれぞれに対応する、１バッチの以前の量子化状態（ＱＳ）Ｓ_{ｔ，ｉ－１}＝・・・，ｓ_{ｔ，ｉ－２}，ｓ_{ｔ，ｉ－１}に従い、鍵計算モジュール７００は、鍵生成器を用いることで、各ＱＫｋ_ｔ，ｌがエンコード表現ｙ_ｔ，ｌのそれぞれに対応するＱＫＫ_ｔ，ｉ＝・・・，ｋ_{ｔ，ｉ－１}，ｋ_ｔ，ｉを計算する。次に、状態予測モジュール７１０は、状態予測器を用いることで、現在のＱＳＳ_ｔ，ｉ＝・・・，ｓ_{ｔ，ｉ－１}，ｓ_ｔ，ｉを計算する。

以前のＱＳＳ_{ｔ，ｉ―１}が与えられると、鍵生成器は、量子化方法を用いてＱＫを計算する。この量子化方法は、一定のステップサイズを持つ一様量子化のような、予め決められたルールベースの方法とすることができ、ここで、ＱＫｋ_ｔ，ｉは、ＱＫｋ_ｔ，ｉと量子化ステップサイズとの乗算として、対応するエンコード表現ｙ_ｔ，ｉを最もよく再構成できる整数である。この量子化方法は、ｋ－ｍｅａｎｓのような統計モデルにすることもでき、ここで、ＱＫｋ_ｔ，ｉは、対応するエンコード表現ｙ_ｔ，ｉをセントロイドが最もよく再構成できるクラスタのインデックスである。本開示は、鍵生成器として使用される特定の量子化方法に対していかなる制限も与えない。

以前のＱＳＳ_{ｔ，ｉ―１}及び現在のＱＫＫ_ｔ，ｉが与えられると、状態予測モジュール７１０は、現在のＱＳｓ_ｔ，ｉを計算する。一実施形態では、ｍ個のＱＫのそれぞれに付けられてペアを形成する最新のＱＳｓ_{ｔ，ｉ―１}のみが状態予測モジュール７１０によって使用され、すべてのｍ個のペアが一緒に積み重ねられてサイズ（ｍ，２）の入力行列を形成する。別の実施形態では、各ＱＫ及び対応するＱＳは、ペア（ｋ_ｔ，ｌ，ｓ_{ｔ，ｌ－１}）を形成し、ｍ個のペアは、一緒に積み重ねられてサイズ（ｍ，２）の入力行列を形成する。状態予測モジュール７１０は、状態予測器に基づいて、現在のＱＳｓ_ｔ，ｉを計算し、状態予測器は、ＱＳが取り得る任意の数の可能な状態間の遷移をサポートするための学習ベースのモデルを使用する。学習ベースのモデルは、後で詳細に説明するＤｅｅｐＱ－Ｌｅａｒｎｉｎｇ（ＤＱＮ）アルゴリズムを通じてトレーニングされる。

図８に示すように、ＤＲＬ逆量子化モジュール６６０は、状態予測モジュール７１０と、再構成モジュール８００とを含む。

デコーディング側６１０では、ＱＫＫ_ｔ，ｉ＝・・・，ｋ_{ｔ，ｉ－１}，ｋ_ｔ，ｉを受信した後、状態予測モジュール７１０は、現在のＱＳｓ_ｔ，ｉを、入力ＱＫＫ_ｔ，ｉ及び以前のＱＳＳ_{ｔ，ｉ―１}＝・・・，ｓ_{ｔ，ｉ－２}，ｓ_{ｔ，ｉ―１}に基づいて、エンコーディング側６００で計算したのと同様の方法で状態予測器を用いることで計算する。次に、再構成モジュール８００は、再構成器を用いることで、ＱＫＫ_ｔ，ｉ及びＱＳＳ_{ｔ，ｉ―１}に基づいて、１バッチの逆量子化された数字Ｙ’_ｔ，ｉ＝・・・，ｙ’_{ｔ，ｉ－１}，ｙ’_ｔ，ｉを計算する。再構成器は、鍵生成器で使用される量子化方法に対応した逆量子化方法を用いる。例えば、量子化方法が、一定のステップサイズを持つ一様量子化のような、予め決められたルールベースの方法である場合、逆量子化方法も、ＱＫｋ_ｔ，ｉと量子化ステップサイズとの乗算として、逆量子化された数字ｙ’_ｔ，ｉを計算するなど、予め決められたルールベースの方法となる。また、量子化方法が、ｋ－ｍｅａｎｓのような統計モデルの場合、逆量子化方法は、ＱＫｋ_ｔ，ｉによってインデックスされるセントロイドとすることができる。本開示は、再構成器として使用される具体的な逆量子化方法に対していかなる制限も与えない。

状態予測器は、ＱＫＫ_ｔ，ｉ及びＱＳＳ_{ｔ，ｉ―１}が与えられると、行動α_ｊと行動に関連する出力Ｑ値ｖ_ｊ（ｊ＝１，・・・Ｊ）（合計Ｊ通りの可能な行動を想定する）との間の行動価値マッピング関数ｆ（α_ｊ，ｖ_ｊ｜Ｋ_ｔ，ｉ，Ｓ_{ｔ，ｉ－１}）である。各行動α_ｊは、ＱＳｓ_ｔ，ｉが取り得る可能な状態に対応する。現在のＫ_ｔ，ｉ及びＳ_{ｔ，ｉ―１}が与えられると、状態予測器はすべての可能な行動α_ｊのＱ値ｖ_ｊを計算し、最適なＱ値ｖ^＊ _ｉを持つ最適な行動α^＊ _ｉを選択する。最適な行動α^＊ _ｉに対応する状態は、システムが選択するＱＳｓ_ｉである。Ｑ値は、行動のシーケンスに関連するターゲット圧縮性能を測定するために設計されている。したがって、最適な行動を選択することで、最適なターゲット圧縮性能が得られる。

以下、本実施形態におけるＤＲＬ量子化モジュール６３０及びＤＲＬ逆量子化モジュール６６０のトレーニングプロセスについて説明する。トレーニングの全体的なワークフローは、図９に示す通りである。

本実施形態におけるトレーニング方法としては、ＤｅｅｐＱ－ｌｅａｒｎｉｎｇメカニズム、具体的にはＤＱＮアルゴリズムが用いられる。ＤＱＮは、行動価値マッピング関数を学習して行動に報酬Ｑ値を割り当てることにより、任意の与えられた有限マルコフ決定過程に対して最適な行動選択ポリシーを見つける、オフポリシーなＤＲＬ方法である。ポリシーとは、システムが行動を選択する際に従うルールである。現在のステータスが与えられると、学習エージェントは、異なる報酬値をもたらす１組の候補行動から選択してもよい。様々なステータスを経験し、様々なステータスでの行動を試すことにより、学習エージェントは、将来、どのようなステータスになっても最適な行動がとれるように、時間の経過とともに学習して報酬を最適化する。

具体的には、ＤＮＮは、行動価値マッピング関数ｆ（α_ｊ，ｖ_ｊ｜Ｋ_ｔ，ｉ，Ｓ_{ｔ，ｉ－１}）を推定する関数近似器として機能する状態予測器として使用される。状態予測器ＤＮＮは、典型的には、１つ又は複数の全結合層が後に続く１組の畳み込み層から構成される。本開示は、状態予測器の特定のネットワークアーキテクチャに対していかなる制限も与えない。

Ｓｔａｔｅ（ｔ_ｓ－１）を現在の状態予測器とし、Ｋｅｙ（ｔ_ｋ－１）が現在の鍵生成器を表すとし、Ｒｅｃｏｎ（ｔ_ｒ－１）を現在の再構成器とし、Ｅｎｃ（ｔ_ｅ－１）を現在のＤＮＮエンコーダとし、Ｄｅｃ（ｔ_ｄ－１）を現在のＤＮＮデコーダとする。ｔ_ｓ、ｔ_ｋ、ｔ_ｒ、ｔ_ｅ、及びｔ_ｄは、異なる可能性があるため、状態予測器、鍵生成器、再構成器、ＤＮＮエンコーダ、及びＤＮＮデコーダは、異なる更新頻度で異なる時間に更新することができる。

図９に示すように、Ｅ２ＥＮＣシステムトレーニング装置は、ＤＮＮエンコーディングモジュール６２０、ＤＮＮデコーディングモジュール６７０、鍵計算モジュール７００、状態予測モジュール７１０、再構成モジュール８００、歪み計算モジュール９００、レート計算モジュール９１０、報酬計算モジュール９２０、メモリリプレイ及び重み更新モジュール９３０、ＮＣ歪み計算モジュール９４０、ＮＣレート計算モジュール９５０、Ｒ－Ｄ損失計算モジュール９６０、及びＮＣ重み更新モジュール９７０を含む。

入力信号のトレーニングシーケンスＸ＝ｘ_１，ｘ_２，・・・が与えられると、信号ｘ_ｔごとに、ＤＮＮエンコーディングモジュール６２０は、現在のＤＮＮエンコーダＥｎｃ（ｔ_ｅ－１）を用いて、ＤＮＮエンコード表現ｙ_ｔ＝ｙ_ｔ，１，ｙ_ｔ，２，・・・を計算する。１バッチのｍ個の数字Ｙ_ｔ，ｉ＝・・・，ｙ_{ｔ，ｉ－１}，ｙ_ｔ，ｉに対して、以前のＱＳＳ_{ｔ，ｉ―１}＝・・・，ｓ_{ｔ，ｉ－２}，ｓ_{ｔ，ｉ―１}に従って、鍵計算モジュール７００は、現在の鍵生成器Ｋｅｙ（ｔ_ｋ－１）を用いることで、ＱＫＫ_ｔ，ｉ＝・・・，ｋ_{ｔ，ｉ－１}，ｋ_ｔ，ｉを計算する。バッチサイズ、及び数字が編成される方式は、テスト段階と同じである。次に、状態予測モジュール７１０は、以前のＱＳＳ_{ｔ，ｉ―１}及び現在のＱＫＫ_ｔ，ｉに基づいて、現在の状態予測器Ｓｔａｔｅ（ｔ_ｓ－１）を用いて、現在のＱＳｓ_ｔ，ｉを計算する。状態予測モジュール７１０の入力も、テスト段階と同じである。次に、再構成モジュール８００は、ＱＫＫ_ｔ，ｉ及びＱＳＳ_{ｔ，ｉ―１}に基づいて、現在の再構成器Ｒｅｃｏｎ（ｔ_ｒ－１）を用いて、１バッチの逆量子化された数字Ｙ’_ｔ，ｉ＝・・・，ｙ’_{ｔ，ｉ－１}，ｙ’_ｔ，ｉを計算する。最後に、ＤＮＮデコーディングモジュール６７０は、現在のＤＮＮデコーダＤｅｃ（ｔ_ｄ－１）を用いることで、ｙ’_ｔに基づいて、再構成されたｚ_ｔを生成する。

トレーニングプロセスにおいて、状態予測器は、∈グリーディ法を用いて最適な行動α^＊ _ｉを選択する。具体的には、現在の状態予測器Ｓｔａｔｅ（ｔ_ｓ－１）がすべての可能な行動ａ_ｊのＱ値ｖ_ｊを計算した後、確率∈（０から１の間の数）を用いると、ランダムな行動を最適な行動α^＊ _ｉとして選択し、確率（１－∈）を用いると、最適なＱ値ｖ^＊ _ｉを持つ最適な行動α^＊ _ｉを選択する。

歪み計算モジュール９００は、歪み損失Ｄ（Ｙ_ｔ，ｉ，Ｙ’_ｔ，ｉ）を計算して、元のＤＮＮエンコード表現Ｙ_ｔ，ｉとデコード表現Ｙ’_ｔ，ｉとの差を測定する。例えば、歪み損失Ｄ（Ｙ_ｔ，ｉ，Ｙ’_ｔ，ｉ）は、Ｙ_ｔ，ｉ及びＹ’_ｔ，ｉにおける対応する要素間の差のＬ_ｋノルム、例えば平均絶対誤差としてＬ_１ノルム、平均二乗誤差としてＬ_２ノルム、の平均とすることができる。

同時に、レート計算モジュール９１０は、レート損失Ｒ（Ｋ_ｔ，ｉ）を計算して、量子化された表現、即ち、エンコーダからデコーダに送信される計算されたＱＫＫ_ｔ，ｉのビット消費量を測定する。レート損失を計算する方式は複数存在する。例えば、ＱＫは、任意のロスレスエントロピーコーディング方法を用いて圧縮されてもよく、圧縮されたビットストリームの実際のビットカウントは、レート損失として取得される。

数字Ｙ_ｔ，ｉ及びＹ_{ｔ，ｉ＋１}の隣接するバッチについて、歪み損失Ｄ（Ｙ_ｔ，ｉ，Ｙ’_ｔ，ｉ）、Ｄ（Ｙ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）及びレート損失Ｒ（Ｋ_ｔ，ｉ）、Ｒ（Ｋ_{ｔ，ｉ＋１}）に基づいて、報酬計算モジュール９２０は、報酬Φ（Ｙ_{ｔ，ｉ＋１}，Ｋ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）を計算する。報酬Φ（Ｙ_{ｔ，ｉ＋１}，Ｋ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）は、現在のＱＫＫ_ｔ，ｉ及びＱＳＳ_{ｔ，ｉ―１}が与えられると、最適な行動ａ^＊ _ｊをとることで状態予測器が得ることができる報酬を測定する。

ここで、αは、報酬におけるレート損失及び歪みを両立させるためのハイパーパラメータである。経験
（外４）
、即ち、ＱＫＫ_ｔ，ｉ及びＱＳＳ_{ｔ，ｉ－１}に基づいて関連するＱ値ｖ^＊ _ｉを持つ行動ａ^＊ _ｊを選択し、そして報酬Φ（Ｙ_{ｔ，ｉ＋１}，Ｋ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）を取得することは、リプレイメモリに追加される。リプレイメモリは通常、最大記憶制限があり、その制限に達すると、最も古い経験が最新のものに置き換えられる。

状態予測器、鍵生成器、及び再構成器を更新する時間になると、システムは、リプレイメモリから１バッチ分の経験をサンプリングし、これらサンプリングされた経験を用いて、メモリリプレイ及び重み更新モジュール９３０においてモデルパラメータを更新する。図１０は、トレーニング段階中のメモリリプレイ及び重み更新モジュール９３０の詳細なワークフローである。

図１０に示すように、メモリリプレイ及び重み更新モジュール９３０は、経験サンプリングモジュール１０００、損失計算モジュール１００１、重み更新モジュール１００２、鍵計算モジュール７００、状態予測モジュール７１０、再構成モジュール８００、歪み計算モジュール９００、レート計算モジュール９１０、及び計算報酬モジュール９２０を含む。

トレーニング段階中に、ターゲット状態予測器Ｓｔａｔｅ^Ｔ、ターゲット鍵生成器Ｋｅｙ^Ｔ、ターゲット再構成器Ｒｅｃｏｎ^Ｔが維持され、それぞれ、状態予測器、鍵生成器、再構成器と全く同じモデル構造を有している。唯一の違いは、状態予測器のＤＮＮ重み係数、又はｋ－ｍｅａｎｓ量子化が使用される場合の鍵生成器のモデルパラメータ、又は量子化がディープクラスタリングに基づいている場合の鍵生成器のＤＮＮ重み係数などのモデルパラメータである。これらのモデルパラメータは、Ｔ_ｓ、Ｔ_ｋ、Ｔ_ｒのパラメータ更新サイクルごとに、対応する状態予測器、鍵生成器、再構成器からクローン化される。

各パラメータ更新サイクルの間、システムは、経験サンプリングモジュール１０００において、リプレイメモリ
（外５）
から一連の経験をサンプリングする。状態予測モジュール７１０における各経験

（外６）
に対して、ターゲット状態予測器Ｓｔａｔｅ^Ｔは、経験におけるＱＫＹ_ｔ，ｌ及びＱＳＳ_{ｔ，ｌ－１}に基づいてターゲットＱＳｓ＾_ｔ，ｌを予測する。ターゲットＱＳ
（外７）
（以下、「ｓ＾_ｔ、ｌ」等と記載する。）
及びターゲット鍵生成器Ｋｅｙ^Ｔに基づいて、鍵計算モジュール７００はターゲット鍵Ｋ＾_{ｔ、ｌ＋１}を計算する。ターゲット鍵Ｋ＾_{ｔ、ｌ＋１}、ターゲットＱＳＳ＾_ｔ、ｌ及びターゲット再構成器Ｒｅｃｏｎ^Ｔに基づいて、再構成モジュール８００は、１バッチのターゲット逆量子化された数字
（外８）
を計算する。次に、歪み計算モジュール９００は、経験における元の表現Ｙ_{ｔ，ｌ＋１}とデコード表現Ｙ＾’_{ｔ，ｌ＋１}との間のターゲット歪み
（外９）
を計算する。レート計算モジュール９１０は、Ｋ＾_{ｔ、ｌ＋１}に基づいてターゲットレート損失Ｒ（Ｋ＾_{ｔ、ｌ＋１}）を計算する。次に、ターゲット報酬
（外１０）
は、報酬計算モジュール９２０において、次のように計算される。

次に、損失計算モジュール１００１は、ターゲット報酬
（外１１）
を次のように計算する。

ここで、
（外１２）
は、ＱＫＫ＾_{ｔ，ｌ＋１}及びＱＳＳ＾_ｔ，ｌが与えられた場合の行動α_ｊ ^＊についてターゲット状態予測器Ｓｔａｔｅ^Ｔが予測するＱ値である。ハイパーパラメータγは、０から１の間で評価される割引率であり、システムが短期的な報酬に対して長期的な報酬をどの程度重要視するかを決定している。割引率が小さいほど、システムは長期的な報酬をあまり重要視しないが、短期的な報酬にのみ関心を持つ。次に、損失計算モジュール１００１は、
（外１３）
及び経験からのｖ_ｊ ^＊、例えば、２つの報酬の差のＬ_ｋノルムに基づいて、ターゲット損失
（外１４）
を次のように計算する。

次に、重み更新モジュール１００２は、状態予測器のＤＮＮの重みパラメータを状態（ｔ_ｓ）に更新するためにバックプロパゲートされる、ターゲット損失の勾配を計算する。この損失は、鍵生成器Ｋｅｙ（ｔ_ｋ）及び再構成器Ｒｅｃｏｎ（ｔ_ｒ）を更新するために、学習ベースの鍵生成器及び再構成器の最適化目的と組み合わせて使用することもできる。例えば、鍵生成器及び再構成器がディープクラスタリングに基づく量子化方法を用いる場合、鍵生成器及び再構成器のＤＮＮの重みパラメータは、バックプロパゲーションによって更新される。他の学習ベースの方法を量子化に用いる場合、モデルパラメータは、目的関数を最適化することで学習され、このターゲット損失
（外１５）
は、モデルパラメータを更新するための追加の正規化項として、その最適化目的関数に加重加算することが可能である。前述したように、ここでは、状態予測器、鍵生成器、及び再構成器は、異なるタイムスタンプで更新されることができる。

Ｔ_ｓ、Ｔ_ｋ、Ｔ_ｒの反復毎に、状態予測器、鍵生成器、及び再構成器の重みパラメータは、それぞれターゲット状態予測器Ｓｔａｔｅ^Ｔ、ターゲット鍵生成器Ｋｅｙ^Ｔ、ターゲット再構成器Ｒｅｃｏｎ^Ｔにクローン化されることになる。

本実施形態では、リプレイメモリとターゲット状態予測器、ターゲット鍵生成器、及びターゲット再構成器を用いて、トレーニングプロセスを安定化させる。リプレイメモリは、最新の経験を１つだけ持つことができ、これは、リプレイメモリを持たないことに等しい。また、Ｔ_ｓ、Ｔ_ｋ、Ｔ_ｒは、すべて１に等しくされることができるため、ターゲット状態予測器、ターゲット鍵生成器、及びターゲット再構成器は反復毎に更新され、これは、ターゲット状態予測器、ターゲット鍵生成器、ターゲット再構成器の別のセットを持たないことに等しい。

Ｅ２ＥＮＣシステム全体としては、入力信号ｘ_ｔ毎に、図９で説明したように、ＤＮＮエンコーディングモジュール６２０は、現在のＤＮＮエンコーダＥｎｃ（ｔ_ｅ－１）を用いて、ＤＮＮエンコード表現ｙ_ｔ＝ｙ_ｔ，１，ｙ_ｔ，２，・・・を計算する。ＤＲＬ量子化モジュール６３０及びＤＲＬ逆量子化モジュール６６０を通じて、逆量子化された表現ｙ’_ｔ＝ｙ’_ｔ，１，ｙ’_ｔ，２，・・・が生成される。そして最後に、ＤＮＮデコーディングモジュール６７０は、現在のＤＮＮデコーダＤｅｃ（ｔ_ｄ－１）を用いることで、ｙ’_ｔに基づいて、再構成されたｚ_ｔを生成する。ＮＣ歪み計算モジュール９４０は、ニューラル圧縮歪み損失Ｄ_ｎｃ（ｘ_ｔ，ｚ_ｔ）を計算して、ＰＳＮＲ及び／又はＳＳＩＭ関連メトリクスなど、ニューラル圧縮プロセス全体によってもたらされる誤差を測定する。ＮＣレート計算モジュール９５０は、例えば、一様密度又は正規密度を有する量子化された表現ｙ^―（即ち、記憶されてデコーダに伝送されるＱＫｋ_ｔ，１．ｋ_ｔ，２，・・・）に基づいてノンパラメトリック密度推定により、ニューラル圧縮レート損失Ｒ_ｎｃ（ｙ_ｔ ^―）を計算する。次に、Ｒ－Ｄ損失計算モジュール９６０において、全体のＲ－Ｄ損失Ｌ_ｎｃ（ｘ_ｔ，ｙ_ｔ ^―，ｚ_ｔ）を次のように計算する。

次に、ＮＣ重み更新モジュール９７０は、ＤＮＮエンコーダ及びＤＮＮデコーダの重みパラメータをそれぞれＥｎｃ（ｔ_ｅ）及びＤｅｃ（ｔ_ｄ）に更新するためにバックプロパゲーションを通じて使用されることができる、Ｒ－Ｄ損失の勾配を、（例えば、いくつかの入力信号にわたってＲ－Ｄ損失の勾配を合計することによって）計算する。

実施形態では、ＤＮＮエンコーダ及びＤＮＮデコーダは、一様量子化方法を仮定し、エントロピー推定モデルによってニューラル圧縮レート損失Ｒ_ｎｃ（ｙ_ｔ ^―）を推定することによって、事前トレーニングされる（それぞれＥｎｃ（０）及びＤｅｃ（０）で示される）。このような事前トレーニングプロセスでは、事前トレーニング用入力信号ｘ_ｔが与えられると、ＤＮＮエンコーダは、表現ｙ_ｔを計算し、この表現ｙ_ｔは、さらにエントロピー推定モデルによってニューラル圧縮レート損失Ｒ_ｎｃ（ｙ_ｔ ^―）を計算するために使用される。次に、ＤＮＮデコーダは、表現ｙ_ｔに基づいて出力ｚ_ｔを計算する。ニューラル圧縮歪み損失Ｄ_ｎｃ（ｘ_ｔ、ｚ_ｔ）が計算され、全体のＲ－Ｄ損失Ｌ_ｎｃ（ｘ_ｔ，ｙ_ｔ ^―，ｚ_ｔ）が得られ、その勾配は、その後、ＤＮＮエンコーダ及びＤＮＮデコーダをバックプロパゲーションを通じて更新するために使用されることができる。

事前トレーニングされたＤＮＮエンコーダ及びＤＮＮデコーダが配備されると、実施形態の図９及び図１０で説明されたトレーニングプロセスは、ＤＮＮエンコーダ及びＤＮＮデコーダに対処し量子化性能を向上させるように、ＤＲＬ量子化器及びＤＲＬ逆量子化器をトレーニングする。実施形態では、説明されたトレーニングプロセスは、また、現在のトレーニングデータに従ってＤＮＮエンコーダ及びＤＮＮデコーダを更新し、それにより、ニューラル圧縮システム全体が適応的に総圧縮性能を向上させることができる。ＤＮＮエンコーダ及びＤＮＮデコーダの更新は、オフライン又はオンラインで行うことができ、永久的又は一時的なデータ依存的である可能性がある。同様に、配備後、ＤＲＬ量子化器及びＤＲＬ逆量子化器における状態予測器、鍵生成器、及び再構成器も、オフライン又はオンライン、永久的又は一時的なデータ依存的に更新されることができる。例えば、ビデオ圧縮の場合、各ビデオを圧縮するために、ＤＮＮエンコーダ、ＤＮＮデコーダ、状態予測器、鍵生成器、及び再構成器は、最初の数フレームに基づいて更新されることができる。しかし、これらの更新は、将来のビデオの計算に影響を与えるために記録されることはない。このような更新は、これらのモジュールが将来のビデオに適用されるように永久的に更新されることに基づいて、ある量まで蓄積されることもできる。

図１１は、実施形態による、深層強化学習を用いるエンドツーエンドニューラル画像圧縮の方法１１００のフローチャートである。

一部の実装では、図１１の１つ又は複数のプロセスブロックは、プラットフォーム１２０によって実行されてもよい。一部の実装では、図１１の１つ又は複数のプロセスブロックは、ユーザデバイス１１０などの、プラットフォーム１２０とは別のデバイス、又はプラットフォーム１２０を含むデバイスのグループによって実行されてもよい。

図１１に示されるように、操作１１０１では、方法１１００は、ＤＮＮエンコーダを用いて、入力をエンコードするステップを含む。

操作１１０２では、方法１１００は、入力の複数のエンコード表現を生成するステップを含み、複数のエンコード表現は、数字のストリームと見なすことができる。

操作１１０３では、方法１１００は、１組の以前の量子化状態に基づいて、第１のニューラルネットワークを用いて、１組の量子化鍵を生成するステップであって、１組の量子化鍵における各量子化鍵及び１組の以前の量子化状態における各以前の量子化状態は、複数のエンコード表現に対応する、ステップを含む。１組のエンコードされた量子化鍵は、１組の量子化鍵をエントロピーエンコードすることによっても生成され得る。第１のニューラルネットワークは、ＤＲＬ量子化ニューラルネットワークである。

第１のニューラルネットワークをトレーニングすることによって、１組の以前の量子化状態と１組の量子化鍵とに基づいて、１組の現在の量子化状態を生成する。第１のニューラルネットワークは、すべての可能な行動のｑ値を計算し、最適なｑ値を持つ最適な行動として行動をランダムに選択し、選択された最適な行動の報酬を生成し、１組の選択された最適な行動をサンプリングし、歪み損失を最小化するために第１のニューラルネットワークの重みパラメータを更新することによってトレーニングされる。

操作１１０４では、方法１１００は、第２のニューラルネットワークを用いて、１組の量子化鍵に基づいて、複数のエンコード表現の逆量子化された表現を表す１組の逆量子化された数字を生成するステップを含む。１組のエンコードされた量子化鍵が生成される場合、１組のデコードされた量子化鍵は、また、１組のエンコードされた量子化鍵をエントロピーデコードすることによって生成されてもよく、１組の逆量子化された数字は、代わりに、第２のニューラルネットワークを用いて、１組のデコードされた量子化鍵に基づいて生成される。第２のニューラルネットワークは、ＤＲＬ逆量子化ニューラルネットワークである。

操作１１０３で生成された１組の量子化鍵及び操作１１０４で生成された１組の逆量子化された数字は、ブロックワイズ量子化／逆量子化方法、個別量子化／逆量子化方法、又は静的量子化／逆量子化モデル方法を用いてそれぞれ量子化及び逆量子化される。さらに、１組の量子化鍵の量子化方法と、１組の逆量子化された数字の逆量子化方法とは同じである。

操作１１０５では、方法１１００は、１組の逆量子化された数字に基づいて、再構成された出力を生成するステップを含む。

図１１は、方法の例示的なブロックを示しているが、一部の実装では、方法は、図１１に示されたブロックよりも追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含んでもよい。加えて、又は任意選択で、この方法のブロックのうちの２つ又はより多くが並行して実行されてもよい。

図１２は、実施形態による、深層強化学習を用いるエンドツーエンドニューラル画像圧縮のための装置１２００のブロック図である。

図１２に示すように、装置１２００は、エンコーディングコード１２０１と、第１の生成コードと、第２の生成コードと、第３の生成コードと、デコーディングコードと、を含む。

エンコーディングコード１２０１は、少なくとも１つのプロセッサに、ＤＮＮエンコーダを用いて、入力をエンコードさせるように構成される。

第１の生成コード１２０２は、少なくとも１つのプロセッサに、入力の複数のエンコード表現を生成させるように構成され、複数のエンコード表現は、数字のストリームとして見なすことができる。

第２の生成コード１２０３は、少なくとも１つのプロセッサに、１組の以前の量子化状態に基づいて、第１のニューラルネットワークを用いて、１組の量子化鍵を生成させるように構成され、１組の量子化鍵における各量子化鍵と１組の以前の量子化状態における各以前の量子化状態は、複数のエンコード表現に対応する。

さらに、装置１２００の操作は、また、少なくとも１つのプロセッサに、第１のニューラルネットワークをトレーニングすることによって、１組の以前の量子化状態と１組の量子化鍵とに基づいて、１組の現在の量子化状態を生成させるように構成される状態生成コードを含んでもよい。第１のニューラルネットワークは、すべての可能な行動のｑ値を計算し、最適なｑ値を持つ最適な行動として行動をランダムに選択し、選択された最適な行動の報酬を生成し、１組の選択された最適な行動をサンプリングし、歪み損失を最小化するために第１のニューラルネットワークの重みパラメータを更新することによってトレーニングされる。第１のニューラルネットワークは、ＤＲＬ量子化ニューラルネットワークである。

第３の生成コード１２０４は、少なくとも１つのプロセッサに、第２のニューラルネットワークを用いて、１組の量子化鍵に基づいて、複数のエンコード表現の逆量子化された表現を表す１組の逆量子化された数字を生成させるように構成される。１組のデコードされた量子化鍵は、また、１組のエンコードされた量子化鍵をエントロピーデコードすることによって生成されてもよく、１組の逆量子化された数字は、代わりに、第２のニューラルネットワークを用いて、１組のデコードされた量子化鍵に基づいて生成される。第２のニューラルネットワークは、ＤＲＬ逆量子化ニューラルネットワークである。

第２の生成コード１２０３によって生成された１組の量子化鍵及び第３の生成コード１２０４によって生成された１組の逆量子化された数字は、ブロックワイズ量子化／逆量子化方法、個別量子化／逆量子化方法、又は静的量子化／逆量子化モデル方法を用いてそれぞれ量子化及び逆量子化される。さらに、１組の量子化鍵の量子化方法と、１組の逆量子化された数字の量子化方法とは同じである。

デコーディングコード１２０５は、少なくとも１つのプロセッサに、１組の逆量子化された数字に基づいて、再構成された出力をデコードさせるように構成される。

図１２は、装置の例示的なブロックを示しているが、一部の実装では、装置は、図１２に示されたブロックよりも追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含んでもよい。加えて、又は任意選択で、この装置のブロックのうちの２つ又はより多くが組み合わされてもよい。

実施形態は、システム全体としてニューラル圧縮を最適化することによって圧縮性能を向上させるエンドツーエンドニューラル圧縮（Ｅ２ＥＮＣ）に関するものである。この方法は、現在のデータに基づいてオンライン又はオフラインで、学習ベースの量子化及び符号化方法を調整し、ＤＮＮベース又は従来のモデルベースの方法を含む、異なるタイプの学習ベースの量子化方法をサポートする柔軟性を提供する。また、記載された方法は、異なるＤＮＮアーキテクチャに対応する柔軟で一般的なフレームワークも提供する。

提案された方法は、別々に使用されてもよいし、任意の順序で組み合わされてもよい。さらに、方法（又は実施形態）の各々は、処理回路（例えば、１つ又は複数のプロセッサあるいは１つ又は複数の集積回路）によって実装されてもよい。一例では、１つ又は複数のプロセッサは、非一時的なコンピュータ読取可能な媒体に記憶されているプログラムを実行する。

本開示は、例示及び説明を提供するが、網羅的であること、又は実装を開示された正確な形態に限定することを意図するものではない。上記の開示に照らして修正及び変形が可能であるか、又は実装の実践から獲得され得る。

本明細書で使用されるように、コンポーネントという用語は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせとして広範に解釈されることを意図している。

本明細書に記載されたシステム及び／又は方法は、異なる形態のハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組み合わせで実施され得ることが明らかであろう。これらのシステム及び／又は方法を実装するために使用される実際の特殊な制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、システム及び／又は方法の操作及び行動は、特定のソフトウェアコードを参照することなく本明細書に記載された。ソフトウェア及びハードウェアは、本明細書の記載に基づいてシステム及び／又は方法を実装するように設計されてもよいことが理解される。

特徴の組み合わせが特許請求の範囲に記述され、及び／又は本明細書に開示されていても、これらの組み合わせは、可能な実装の開示を限定することを意図するものではない。実際には、これらの特徴の多くは、特に特許請求の範囲に記述されていない方法及び／又は本明細書に開示されていない方法で組み合わされることができる。以下にリストされる各従属請求項は、１つの請求項にのみ直接依存し得るが、可能な実装の開示は、請求項セット内の他のすべての請求項との組み合わせで各従属請求項を含む。

本明細書で使用されるいかなる要素、行為、又は指示も、そのように明示的に記載されない限り、重要又は必須であると解釈されることはない。また、本明細書で使用されるように、冠詞「ａ」及び「ａｎ」は、１つ又は複数のアイテムを含むことを意図しており、「１つ又は複数」と交換可能に使用されてもよい。さらに、本明細書で使用されるように、用語「セット」は、１つ又は複数のアイテム（例えば、関連アイテム、非関連アイテム、関連アイテムと非関連アイテムとの組み合わせなど）を含むことを意図しており、「１つ又は複数」と交換可能に使用されてもよい。１つのみのアイテムが意図される場合、用語「１つ」又は類似の言語が使用される。また、本明細書で使用されるように、用語「有する」、「有している」などは、オープンエンドな用語であることを意図している。さらに、「・・・に基づく」という句は、特に明記しない限り、「少なくとも部分的に、・・・に基づく」を意味することを意図している。

Claims

少なくとも１つのプロセッサが実行する、深層強化学習を用いるエンドツーエンドニューラル画像圧縮の方法であって、
入力をエンコードするステップと、
前記入力の複数のエンコード表現を生成するステップと、
１組の以前の量子化状態に基づいて、第１のニューラルネットワークを用いて、１組の量子化鍵を生成するステップであって、前記１組の量子化鍵における各量子化鍵及び前記１組の以前の量子化状態における各以前の量子化状態は、前記複数のエンコード表現に対応する、ステップと、
第２のニューラルネットワークを用いて、前記１組の量子化鍵に基づいて、前記複数のエンコード表現の逆量子化された表現を表す１組の逆量子化された数字を生成するステップと、
前記１組の逆量子化された数字に基づいて、再構成された出力を生成するステップと、
を含む方法。
前記入力の前記複数のエンコード表現は、数字のストリームである、請求項１に記載の方法。
前記１組の量子化鍵をエントロピーエンコードすることによって、１組のエンコードされた量子化鍵を生成するステップと、
前記１組のエンコードされた量子化鍵をエントロピーデコードすることによって、１組のデコードされた量子化鍵を生成するステップと、をさらに含み、
前記１組の逆量子化された数字は、前記第２のニューラルネットワークを用いて、前記１組のデコードされた量子化鍵に基づいて生成され、
前記第２のニューラルネットワークは、ＤＲＬ逆量子化ニューラルネットワークである、請求項１に記載の方法。
前記第１のニューラルネットワークをトレーニングすることによって、前記１組の以前の量子化状態と前記１組の量子化鍵とに基づいて、１組の現在の量子化状態を生成するステップをさらに含み、
前記第１のニューラルネットワークは、ＤＲＬ量子化ニューラルネットワークである、請求項１に記載の方法。
前記第１のニューラルネットワークは、すべての可能な行動のｑ値を計算し、最適なｑ値を持つ最適な行動として行動をランダムに選択し、選択された前記最適な行動の報酬を生成し、１組の選択された最適な行動をサンプリングし、前記第１のニューラルネットワークの重みパラメータを更新して歪み損失を最小化することによってトレーニングされる、請求項４に記載の方法。
深層強化学習を用いるエンドツーエンドニューラル画像圧縮のための装置であって、
プログラムコードを記憶するように構成されている少なくとも１つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードの指示通りに動作するように構成されている少なくとも１つのプロセッサと、を備え、
前記プログラムコードは、
前記少なくとも１つのプロセッサに、請求項１乃至５のうちのいずれか一項に記載の方法を実行させるように構成されている、装置。
コンピュータに、請求項１乃至５のうちのいずれか一項に記載の方法を実行させるように構成される、コンピュータプログラム。