JP2023518306A

JP2023518306A - 深層強化学習を用いたエンドツーエンドのタスク指向型潜在圧縮のための方法、装置およびコンピュータプログラム

Info

Publication number: JP2023518306A
Application number: JP2022556610A
Authority: JP
Inventors: ウェイ・ジアン; ウェイ・ワン; シェン・リン; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-01-04
Filing date: 2021-10-07
Publication date: 2023-04-28
Anticipated expiration: 2041-10-07
Also published as: EP4059219A4; EP4059219A1; JP7416489B2; CN115280777A; KR20220101178A; WO2022146523A1; US20220215265A1

Abstract

深層強化学習（ＤＲＬ）を使用するエンドツーエンドのタスク指向型潜在圧縮は、少なくとも１つのプロセッサによって実行され、第１のニューラルネットワークを使用して、入力画像の潜在表現を生成するステップであって、前記潜在表現は潜在信号のシーケンスである、ステップと、第２のニューラルネットワークを使用して、前記潜在信号を符号化するステップと、以前の量子化状態のセットに基づいて、量子化キーのセットを生成するステップであって、前記量子化キーのセット内の各量子化キーおよび前記以前の量子化状態のセット内の各以前の量子化状態は、第３のニューラルネットワークを使用して、前記潜在信号の各々に対応する、ステップと、第４のニューラルネットワークを使用して、前記量子化キーのセットに基づいて、前記符号化された潜在信号の逆量子化表現を表す逆量子化数値のセットを生成するステップと、前記逆量子化数値のセットに基づいて、再構築された出力を生成するステップと、第５のニューラルネットワークを使用して、再構築された出力に基づいて、ターゲットタスクを実行するステップと、を含む。

Description

本出願は、２０２１年１月４日に出願された米国仮特許出願第６３／１３３，６９６号および２０２１年９月１７日に出願された米国特許出願第１７／４７８，０８９号に基づいており、それらの優先権を主張し、それらの開示はその全体が参照により本明細書に組み込まれる。

国際標準化機関ＩＳＯ／ＩＥＣ／ＩＥＥＥは、ＡＩベースのビデオ符号化技術を、特に、深層ニューラルネットワーク（ＤＮＮ）に基づく技術に焦点を合わせて、積極的に探索している。様々な専門家班（ＡｈＧ）が、ニューラルネットワーク圧縮（ＮＮＲ）、機械用ビデオ符号化（ＶＣＭ）、ニューラルネットワークに基づくビデオ符号化（ＮＮＶＣ）などを調査するために形成されている。中国のＡＩＴＩＳＡおよびＡＶＳも、同様の技術の標準化を研究するために対応する専門家グループを確立した。

エンドツーエンドの潜在表現圧縮（Ｅ２ＥＬＲＣ）の処理は、以下のように記述することができる。入力画像またはビデオシーケンスｘが与えられると、ＤＮＮ潜在生成器は、最初に潜在表現ｆを計算し、これはＤＮＮ符号化器を通過して、離散値量子化表現

に量子化されるコンパクト表現ｙを計算する。この離散値表現

は、記憶および送信を容易にするために、損失なくエントロピー符号化され得る。復号器側では、離散値表現

は、可逆エントロピー復号から復元され、ＤＮＮ復号器への入力として使用されて、再構築された潜在表現

を計算することができる。次に、ＤＮＮタスク実行器は、再構築された潜在表現

に基づいて、検出、認識、セグメント化などのターゲットタスクを実行する。言い換えれば、（潜在表現ｆから再構築された潜在表現

までの）符号化および復号処理なしで、元のＤＮＮ潜在生成器は、潜在表現ｆを計算し、これは、ターゲットタスクを実行するためにＤＮＮタスク実行器によって直接使用されている。したがって、再構築された潜在表現

は、潜在表現ｆの変更版として見ることができる。Ｅ２ＥＬＲＣの目標は、コンパクトな表現

が記憶および送信に効率的であり、復元され再構築された潜在表現

が元のタスク性能を維持できるように、効果的な符号化－復号メカニズムを見つけることである。

量子化は、画像、ビデオ、および潜在特徴について、すべての圧縮規格および生成におけるコア処理である。量子化はまた、圧縮品質損失の主な原因の１つであり、量子化効率を向上させると、画像およびビデオ圧縮タスクにおいて大きな性能利得をもたらすことができる。

実施形態によれば、深層強化学習を使用するエンドツーエンドのタスク指向型の潜在画像圧縮の方法は、少なくとも１つのプロセッサによって実行され、第１のニューラルネットワークを使用して、入力画像の複数の潜在表現を生成するステップであって、複数の潜在表現が潜在信号のシーケンスを含む、ステップと、第２のニューラルネットワークを使用して、複数の潜在表現を符号化するステップと、第３のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて量子化キーのセットを生成するステップであって、量子化キーのセット内の各量子化キーおよび以前の量子化状態のセット内の各以前の量子化状態が複数の潜在表現に対応する、ステップと、第４のニューラルネットワークを使用して、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成するステップと、逆量子化数値のセットに基づいて、再構築された出力を生成するステップと、第５のニューラルネットワークを使用して、再構築された出力に基づいて、ターゲットタスクを実行するステップと、を含む。

実施形態によれば、深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮のための装置は、プログラムコードを記憶するように構成された少なくとも１つのメモリと、プログラムコードを読み取り、プログラムコードによる命令通りに動作するように構成された少なくとも１つのプロセッサ、とを含む。プログラムコードは、第１のニューラルネットワークを使用して、少なくとも１つのプロセッサに、入力の複数の潜在表現を生成させるように構成された第１の生成コードであって、複数の潜在表現は潜在信号のシーケンスを含む、第１の生成コードと、第２のニューラルネットワークを使用して、少なくとも１つのプロセッサに、複数の潜在表現を符号化させるように構成された符号化コードと、第３のニューラルネットワークを使用して、少なくとも１つのプロセッサに、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させるように構成された第２の生成コードであって、量子化キーのセットにおける各量子化キーおよび以前の量子化状態のセットにおける各以前の量子化状態が複数の潜在表現に対応する、第２の生成コードと、第４のニューラルネットワークを使用して、少なくとも１つのプロセッサに、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成させるように構成された第３の生成コードと、少なくとも１つのプロセッサに、逆量子化数値のセットに基づいて、再構築された出力を復号させるように構成された復号コードと、第５のニューラルネットワークを使用して、少なくとも１つのプロセッサに、再構築された出力に基づいて、ターゲットタスクを実行させるように構成された実行コードと、を含む。

実施形態によれば、非一時的コンピュータ可読媒体は、少なくとも１つのプロセッサによって、深層強化学習を使用したエンドツーエンドのタスク指向型潜在画像圧縮のために、実行されると、少なくとも１つのプロセッサに、第１のニューラルネットワークを使用して、潜在信号のシーケンスを備えた、複数の潜在表現を生成させ、第２のニューラルネットワークを使用して、複数の潜在表現を符号化させ、第３のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させ、量子化キーのセット内の各量子化キーおよび以前の量子化状態のセット内の各以前の量子化状態は、複数の潜在表現に対応しており、第４のニューラルネットワークを使用して、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現の逆量子化数値のセットを生成させ、逆量子化数値のセットに基づいて、再構築された出力を復号させ、第５のニューラルネットワークを使用して、再構築された出力に基づいて、再構築された出力を実行させる、命令を記憶する。

実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境の図である。図１の１つまたは複数のデバイスの例示的な構成要素のブロック図である。従属量子化（ＤＱ）設計における、２つの量子化器を使用するＤＱメカニズムの図である。ＤＱ設計における、２つの量子化器間の切り替えを示す、手動設計のステートマシンの状態図である。図４（ａ）の手動設計ステートマシンの状態図を表す、状態テーブルである。潜在表現圧縮（ＬＲＣ）システムの一般的な処理のブロック図である。実施形態による、試験段階中のエンドツーエンド潜在表現圧縮（Ｅ２ＥＬＲＣ）装置のブロック図である。実施形態による、試験段階中の図６の試験段階装置からのＤＲＬ量子化モジュールの詳細なブロック図である。実施形態による、試験段階中の図６の試験段階装置からのＤＲＬ逆量子化モジュールの詳細なブロック図である。実施形態による、トレーニング段階中のＤＲＬ量子化モジュールおよびＤＲＬ逆量子化モジュールのワークフローを示す図である。実施形態による、トレーニング段階中のメモリリプレイおよび重み更新モジュールの詳細なワークフローである。実施形態による、深層強化学習（ＤＲＬ）を使用したエンドツーエンド潜在表現圧縮（Ｅ２ＥＬＲＣ）方式のフローチャートである。実施形態による、深層強化学習（ＤＲＬ）を使用したエンドツーエンド潜在表現圧縮（Ｅ２ＥＬＲＣ）のための装置のブロック図である。

実施形態は、深層強化学習（ＤＲＬ）を使用するエンドツーエンド潜在表現圧縮（Ｅ２ＥＬＲＣ）のフレームワークに関することができる。本方法は、タスク性能と圧縮効率の両方を考慮し、システムを共同で最適化する。

元の入力画像／ビデオを符号化して送信する代わりに、元の入力の潜在表現を符号化して送信することは、送信コストの削減およびプライバシーの向上などの利点をもたらすことができる。例えば、異常車両を検出することを目的とする監視システムは、元のビデオストリームを見る必要はなく、検出タスクに必要な抽出された潜在特徴のみを見る必要がある。ＶＣＭおよびＤＣＭ（機械用の中国データ符号化）規格は、潜在特徴符号化技術を調査して、記憶および送信に効率的であり、機械視覚タスクまたは人間視覚タスクを実行するのに有効な符号化された潜在特徴を生成するため作られた。

従来の画像およびビデオ符号化規格は、依存量子化（ＤＱ）または手動設計された量子化規則によるトレリス符号化量子化を使用する。ＤＱは、２つの量子化器Ｑ_０およびＱ_１と、それらを切り替えるための手順とを含む。図３は、ＤＱ設計における量子化器Ｑ_０およびＱ_１を使用するＤＱメカニズムの例示的な図を示す。円の上の表示は関連する状態を示し、円の下の表示は関連する量子化キーを示す。復号器側では、量子化器Ｑ_０またはＱ_１のいずれかの量子化ステップサイズΔを乗算する整数キーｋによって、再構築された数値ｘ’が決定される。量子化器Ｑ_０とＱ_１との間の切り替えは、Ｍ＝２^ＫのＤＱ状態、Ｋ≧２（したがって、Ｍ≧４）を有するステートマシンによって表すことができ、各ＤＱ状態は量子化器Ｑ_０またはＱ_１のうちの１つと関連付けられる。現在のＤＱ状態は、前回のＤＱ状態と今回の量子化キーｋ_ｉの値とによって一意的に決定される。入力ストリームｘ_１，ｘ_２，．．．を符号化するために、量子化器Ｑ_０とＱ_１との間の潜在的な遷移は、２^ＫのＤＱ状態を有するトレリスによって示され得る。したがって、量子化キーｋ_１，ｋ_２，．．．の最適シーケンスを選択することは、最小レート歪み（Ｒ－Ｄ）コストを有するトレリス経路を見つけることと等価である。この問題は、ビタビ・アルゴリズムによって解くことができる。

従来、ステートマシンは経験的に手動で設計されている。図４は、４つの状態を有するＶＶＣ規格で使用される手動設計ステートマシンの一例を示す。具体的には、図４（ａ）は、手動設計のステートマシンの状態図である。図４（ｂ）は、手動設計のステートマシンの状態図を表す状態テーブルである。

従来のＤＱ方式には３つの主な制約がある。まず、２つの量子化器のみが使用される。量子化器の数を増やすと、数値を符号化する際のビット消費量を削減することができる。第２に、ステートマシンの手動設計は最適ではなく、多数のＤＱ状態を含めるには費用がかかりすぎる。量子化器の数を増やすには、ＤＱ状態の数を増やす必要があり、これにより量子化効率を向上させることができるが、ステートマシンが複雑すぎて手動設計できない。最後に、キー生成および数値の再構築の方法は、体験学習的に手動で設計されており、これも最適ではない。他のより良い方法を探索するには、専門知識が必要であり、手作業で設計するには費用がかかりすぎる可能性がある。

したがって、本開示の実施形態は、ＤＲＬメカニズムによって学習される学習ベースの量子化に関することができる。実施形態は、様々なタイプの量子化方式（例えば、一様量子化、コードブックに基づく量子化、または深層学習に基づく量子化）を柔軟にサポートすることができ、データ駆動方式で、最適量子化器を学習する。さらに、実施形態は、Ｅ２ＥＬＲＣ処理全体に共同で関連してもよく、ＤＮＮ符号化器、ＤＮＮ復号器、学習に基づく量子化方式、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器は、改善されたデータ適応型圧縮結果を提供するために、共同で最適化されてもよい。

図１は、実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境１００の図である。

図１に示すように、環境１００は、ユーザデバイス１１０、プラットフォーム１２０、およびネットワーク１３０を含んでもよい。環境１００のデバイスは、有線接続、無線接続、または有線接続と無線接続の組合せを介して相互接続することができる。

ユーザデバイス１１０は、プラットフォーム１２０に関連付けられた情報を受信、生成、記憶、処理、および／または提供することが可能な１つまたは複数のデバイスを含む。例えば、ユーザデバイス１１０は、コンピューティングデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど）、携帯電話（例えば、スマートフォン、無線電話など）、ウェアラブルデバイス（例えば、一対のスマートグラスもしくはスマートウォッチ）、または同様のデバイスを含んでもよい。いくつかの実装形態では、ユーザデバイス１１０は、プラットフォーム１２０から情報を受信し、かつ／またはプラットフォーム１２０に情報を送信することができる。

プラットフォーム１２０は、本明細書の他の箇所に記載されるような１つまたは複数のデバイスを含む。いくつかの実装形態では、プラットフォーム１２０は、クラウドサーバまたはクラウドサーバのグループを含んでもよい。いくつかの実装形態では、プラットフォーム１２０は、ソフトウェア構成要素がスワップインまたはスワップアウトされ得るようにモジュール式に設計されてもよい。そのため、プラットフォーム１２０は、異なる用途向けに、容易かつ／または迅速に復元されてもよい。

いくつかの実装形態では、図示されたように、プラットフォーム１２０は、クラウドコンピューティング環境１２２内でホストされてもよい。特に、本明細書に記載された実装形態は、クラウドコンピューティング環境１２２内でホストされるものとしてプラットフォーム１２０を記載するが、いくつかの実装形態では、プラットフォーム１２０は、クラウドベースでなくてもよく（すなわち、クラウドコンピューティング環境の外部に実装されてもよく）、部分的にクラウドベースであってもよい。

クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストするシステムおよび／またはデバイスの物理的な位置および構成のエンドユーザ（例えば、ユーザデバイス１１０）の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供することができる。図示されたように、クラウドコンピューティング環境１２２は、（まとめて「コンピューティングリソース１２４」と呼ばれ、個別に「コンピューティングリソース１２４」と呼ばれる）コンピューティングリソース１２４のグループを含んでもよい。

コンピューティングリソース１２４は、１つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算デバイスおよび／もしくは通信デバイスを含む。いくつかの実装形態では、コンピューティングリソース１２４は、プラットフォーム１２０のホストすることができる。クラウドリソースは、コンピューティングリソース１２４内で実行される計算インスタンス、コンピューティングリソース１２４内で提供されるストレージデバイス、コンピューティングリソース１２４によって提供されるデータ転送デバイスなどを含んでもよい。いくつかの実装形態では、コンピューティングリソース１２４は、有線接続、無線接続、または有線接続と無線接続の組合せを介して他のコンピューティングリソース１２４と通信することができる。

図１にさらに示すように、コンピューティングリソース１２４は、１つまたは複数のアプリケーション（「ＡＰＰ」）１２４－１、１つまたは複数の仮想マシン（「ＶＭ」）１２４－２、仮想化ストレージ（「ＶＳ」）１２４－３、１つまたは複数のハイパーバイザ（「ＨＹＰ」）１２４－４などのクラウドリソースのグループを含む。

アプリケーション１２４－１は、ユーザデバイス１１０および／もしくはプラットフォーム１２０に提供され得るか、またはユーザデバイス１１０および／もしくはプラットフォーム１２０によってアクセスされ得る１つまたは複数のソフトウェアアプリケーションを含む。アプリケーション１２４－１は、ユーザデバイス１１０上でソフトウェアアプリケーションをインストールし実行する必要性を排除することができる。例えば、アプリケーション１２４－１は、プラットフォーム１２０に関連付けられたソフトウェアおよび／またはクラウドコンピューティング環境１２２を介して提供されることが可能な任意の他のソフトウェアを含んでもよい。いくつかの実装形態では、１つのアプリケーション１２４－１は、仮想マシン１２４－２を介して１つまたは複数の他のアプリケーション１２４－１との間で情報を送受信することができる。

仮想マシン１２４－２は、物理マシンのようにプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装形態を含む。仮想マシン１２４－２は、仮想マシン１２４－２による用途および任意の実マシンとの対応関係の程度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれかであってもよい。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ」）の実行をサポートする完全なシステムプラットフォームを提供することができる。プロセス仮想マシンは、単一のプログラムを実行することができ、単一の処理をサポートすることができる。いくつかの実装形態では、仮想マシン１２４－２は、ユーザ（例えば、ユーザデバイス１１０）の代わりに動作することができ、データ管理、同期、または長期データ転送などのクラウドコンピューティング環境１２２の基盤を管理することができる。

仮想化ストレージ１２４－３は、コンピューティングリソース１２４のストレージシステムまたはデバイス内で仮想化技法を使用する１つもしくは複数のストレージシステムおよび／または１つもしくは複数のデバイスを含む。いくつかの実装形態では、ストレージシステムのコンテキスト内で、仮想化のタイプは、ブロック仮想化およびファイル仮想化を含んでもよい。ブロック仮想化は、ストレージシステムが物理ストレージまたは異種構造に関係なくアクセスされ得るような、物理ストレージからの論理ストレージの抽象化（または分離）を指すことができる。分離により、ストレージシステムの管理者がエンドユーザのためにストレージを管理する方法の柔軟性が可能になり得る。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に記憶された場所との間の依存関係を排除することができる。これにより、ストレージ使用の最適化、サーバ統合、および／またはスムーズなファイル移行の実行が可能になり得る。

ハイパーバイザ１２４－４は、複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」）をコンピューティングリソース１２４などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技法を提供することができる。ハイパーバイザ１２４－４は、仮想オペレーティングプラットフォームをゲストオペレーティングシステムに提示することができ、ゲストオペレーティングシステムの実行を管理することができる。様々なオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共有することができる。

ネットワーク１３０は、１つまたは複数の有線および／または無線のネットワークを含む。例えば、ネットワーク１３０は、セルラーネットワーク（例えば、第５世代（５Ｇ）ネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、符号分割多元接続（ＣＤＭＡ）ネットワークなど）、公的地域モバイルネットワーク（ＰＬＭＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、電話ネットワーク（例えば、公衆交換電話網（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および／またはそれらもしくは他のタイプのネットワークの組合せを含んでもよい。

図１に示すデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、図１に示すものに比べて、さらなるデバイスおよび／もしくはネットワーク、少ないデバイスおよび／もしくはネットワーク、異なるデバイスおよび／もしくはネットワーク、または異なる配置のデバイスおよび／もしくはネットワークが存在してもよい。さらに、図１に示す２つ以上のデバイスは、単一のデバイス内に実装されてもよく、または図１に示す単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加または代替として、環境１００のデバイスのセット（例えば、１つまたは複数のデバイス）は、環境１００のデバイスの別のセットによって実行されるものとして記載された１つまたは複数の機能を実行することができる。

図２は、図１の１つまたは複数のデバイスの例示的な構成要素のブロック図である。

デバイス２００は、ユーザデバイス１１０および／またはプラットフォーム１２０に対応してもよい。図２に示すように、デバイス２００は、バス２１０、プロセッサ２２０、メモリ２３０、記憶構成要素２４０、入力構成要素２５０、出力構成要素２６０、および通信インターフェース２７０を含んでもよい。

バス２１０は、デバイス２００の構成要素間の通信を可能にする構成要素を含む。プロセッサ２２０は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組合せに実装される。プロセッサ２２０は、中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、加速処理装置（ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、または別のタイプの処理構成要素である。いくつかの実装形態では、プロセッサ２２０は、機能を実行するようにプログラムされることが可能な１つまたは複数のプロセッサを含む。メモリ２３０は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、ならびに／またはプロセッサ２２０が使用するための情報および／もしくは命令を記憶する別のタイプの動的もしくは静的なストレージデバイス（例えば、フラッシュメモリ、磁気メモリ、および／もしくは光メモリ）を含む。

記憶構成要素２４０は、デバイス２００の動作および使用に関連する情報および／またはソフトウェアを記憶する。例えば、記憶構成要素２４０は、対応するドライブとともに、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、および／もしくはソリッドステートディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ、ならびに／または別のタイプの非一時的コンピュータ可読媒体を含んでもよい。

入力構成要素２５０は、デバイス２００がユーザ入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および／またはマイクロフォン）などを介して情報を受信することを可能にする構成要素を含む。追加または代替として、入力構成要素２５０は、情報を検知するためのセンサ（例えば、全地球測位システム（ＧＰＳ）構成要素、加速度計、ジャイロスコープ、および／またはアクチュエータ）を含んでもよい。出力構成要素２６０は、デバイス２００（例えば、ディスプレイ、スピーカ、および／または１つもしくは複数の発光ダイオード（ＬＥＤ））からの出力情報を提供する構成要素を含む。

通信インターフェース２７０は、デバイス２００が有線接続、無線接続、または有線接続と無線接続の組合せなどを介して他のデバイスと通信することを可能にする、トランシーバ様の構成要素（例えば、トランシーバならびに／または別個の受信機および送信機）を含む。通信インターフェース２７０は、デバイス２００が別のデバイスから情報を受信し、かつ／または別のデバイスに情報を提供することを可能にすることができる。例えば、通信インターフェース２７０は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数（ＲＦ）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、Ｗｉ－Ｆｉインターフェース、セルラーネットワークインターフェースなどを含んでもよい。

デバイス２００は、本明細書に記載された１つまたは複数の処理を実行することができる。デバイス２００は、プロセッサ２２０がメモリ２３０および／または記憶構成要素２４０などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令を実行することに応答して、これらの処理を実行することができる。コンピュータ可読媒体は、本明細書では非一時的メモリデバイスと定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにわたって広がるメモリ空間を含む。

ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェース２７０を介して別のデバイスから、メモリ２３０および／または記憶構成要素２４０に読み込まれてもよい。メモリ２３０および／または記憶構成要素２４０に記憶されたソフトウェア命令は、実行されると、本明細書に記載された１つまたは複数の処理をプロセッサ２２０に実行させることができる。追加または代替として、ハードワイヤード回路は、本明細書に記載された１つまたは複数の処理を実行するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用されてもよい。このように、本明細書に記載された実装形態は、ハードウェア回路とソフトウェアのいかなる特定の組合せにも限定されない。

図２に示す構成要素の数および配置は、一例として提供されている。実際には、デバイス２００は、図２に示す構成要素に比べて、さらなる構成要素、少ない構成要素、異なる構成要素、または異なる配置の構成要素を含んでもよい。追加または代替として、デバイス２００の構成要素のセット（例えば、１つまたは複数の構成要素）は、デバイス２００の構成要素の別のセットによって実行されるものとして記載された１つまたは複数の機能を実行することができる。

次に、潜在表現圧縮（ＬＲＣ）システムの一般的な処理のための方法および装置について、実施形態の図５を参照して詳細に説明する。

図５は、潜在表現圧縮（ＬＲＣ）システムの一般的な処理のための装置のブロック図である。

図５に示すように、一般的な処理の装置は、ＤＮＮ潜在生成モジュール５１０と、ＤＮＮ符号化モジュール５２０と、量子化モジュール５３０と、エントロピー符号化モジュール５４０と、エントロピー復号モジュール５５０と、逆量子化モジュール５６０と、ＤＮＮ復号モジュール５７０と、を含む。

Ｘを入力（画像、ビデオ、オーディオ、または他の種類のデータ）とする。ＤＮＮ潜在生成モジュール５１０は、ＤＮＮ潜在生成器を用いて、潜在表現Ｆを生成する。潜在表現Ｆは、コード化シグナルのシーケンス、Ｆ＝ｆ_１、ｆ_２、・・・、に直列化することができ、ここで、シグナルｆ_ｔは、一般に、サイズ（ｈ，ｗ，ｃ，ｄ）の４次元のテンソルとして表すことができる。各信号ｆ_ｔについて、ＤＮＮ符号化モジュール５２０は、ＤＮＮ符号化器を使用して、信号ｆ_ｔに基づいてＤＮＮ符号化表現ｙ_ｔを計算する。次に、量子化モジュール５３０は、量子化器を使用して符号化表現ｙ_ｔに基づいて、量子化表現

を生成する。その後、エントロピー符号化モジュール５４０は、エントロピー符号化器を使用することによって、量子化表現

をコンパクトな表現

への、簡単な格納および送信のために符号化する。次いで、復号器側では、コンパクトな表現

を受信した後、エントロピー復号モジュール５５０は、エントロピー復号器を使用して、コンパクトな表現

に基づいて復号表現

を復元する。可逆エントロピー符号化方式は、エントロピー符号化器およびエントロピー復号器によって使用されてもよく、その結果、復号表現

は量子化表現

に等しくなる（すなわち、

）。次に、逆量子化モジュール５６０は、逆量子化を使用することにより、復号表現

に基づいて、逆量子化表現ｙ’_ｔを計算する。次に、ＤＮＮ復号モジュール５７０は、ＤＮＮ復号器を使用することにより、逆量子化表現ｙ’_ｔに基づいて再構築された潜在表現

を生成する。最後に、ＤＮＮタスク実行モジュール５８０は、ＤＮＮタスク実行器を使用することによって、復元され再構築された潜在表現

に基づいて、ターゲットタスクを実行する。

ＬＲＣシステムの全体的な目標は、２つの側面を考慮に入れた、統合損失

を最小化することである。すなわち、量子化表現

がほとんどビット消費を有さず（レート損失

によって反映される）、かつ、再構築された潜在表現

が元のｆ_ｔに近い（歪み損失

によって反映される）ように、レート歪み（Ｒ－Ｄ）損失を最小化すること、および、再構築された潜在表現

が元のターゲットタスクを良好に実行することができるように、タスク予測損失

を最小化すること、である。統合損失

は、以下の式に従って計算できる。

歪み損失

は、ＰＳＮＲおよび／またはＳＳＩＭメトリックなどの再構築誤差を測定する。レート損失

は、量子化表現

のビットレートに関連する。ハイパーパラメータβおよびλは、異なる損失項の重要性のバランスをとる。

量子化／逆量子化演算は一般に微分可能ではないため、量子化器／逆量子化器は、ＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器、とは別に最適化される。例えば、従来の方法は、線形量子化を想定し、エントロピー推定によって微分可能なレート損失

を近似し、その結果、ＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器は、逆伝播によって学習できる。

実施形態は、ＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器、ならびに量子化器および逆量子化器が共同で学習されるＥ２ＥＬＲＣ方式を提案する。具体的には、ＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、ＤＮＮタスク実行器の最適化、ならびに量子化器および逆量子化器の最適化を組み合わせるために、深層強化学習（ＤＲＬ）が活用される。提案されたＥ２ＥＬＲＣフレームワークは、一般的かつ広範であり、様々なタイプの量子化方式および様々なタイプのＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器ネットワーク・アーキテクチャに対応する

ここで、深層強化学習（ＤＲＬ）を用いたエンドツーエンド潜在表現圧縮（Ｅ２ＥＬＲＣ）システムの方法および装置について詳細に説明する。

図６は、実施形態による、試験段階中のＥ２ＥＬＲＣ装置のブロック図である。

図６に示すように、Ｅ２ＥＬＲＣ試験装置は、ＤＮＮ潜在生成モジュール６１０と、ＤＮＮ符号化モジュール６２０と、ＤＲＬ量子化モジュール６３０と、エントロピー符号化モジュール６４０と、エントロピー復号モジュール６５０と、ＤＲＬ逆量子化モジュール６６０と、ＤＮＮ復号モジュール６７０と、ＤＮＮタスク実行モジュール６８０と、を含む。

符号化処理の一部として、入力信号Ｘが与えられると、ＤＮＮ潜在生成モジュール６１０は、ＤＮＮ潜在生成器を使用して、潜在表現Ｆを生成する。潜在表現Ｆは、符号化信号のシーケンスＦ＝ｆ_１，ｆ_２，・・・に直列化され、各信号ｆ_ｔはサイズ（ｈ，ｗ，ｃ，ｄ）の４次元のテンソルである。ＤＮＮ符号化モジュール６２０は、ＤＮＮ符号化器を使用して、信号ｆ_ｔに基づいてＤＮＮ符号化表現ｙ_ｔを計算する。ＤＮＮ符号化表現ｙ_ｔは、数値のストリームとして見ることができ、ｙ_ｔ＝ｙ_ｔ，１，ｙ_ｔ，２・・・である。ｍ個の数値Ｙ_ｔ，ｉ＝・・・，ｙ_{ｔ，ｉ－１}，ｙ_ｔ，ｉのバッチについて、ＤＲＬ量子化モジュール６３０は、ＤＲＬ量子化器を使用して、各ＱＫｋ_ｔ，ｌが符号化表現ｙ_ｔ，ｌの各々に対応する、量子化キー（ＱＫｓ）Ｋ_ｔ，ｉ＝・・・，ｋ_{ｔ，ｉ－１}，ｋ_ｔ，ｉのバッチを計算する。１サイズバッチ（ｍ＝１）の場合、数値は、１つずつ個別に処理される。ｍ＞１の場合、数値は、体系的に量子化される。数値はまた、異なる順序で体系化されてもよい。例えば、数値は、相対位置情報を保存するためにブロック単位で体系化されてもよい。次に、システムは、ＱＫｋ_ｔ，ｉを復号処理に送信し、数値Ｙ_{ｔ，ｉ＋１}の次のバッチの処理に進む。任意選択的に、ＱＫｋ_ｔ，ｉは、記憶および送信を容易にするために、エントロピー符号化モジュール６４０によって（好ましくは可逆的に）さらに圧縮される。

復号処理の一部として、ＱＫＫ_ｔ，ｉを受信した後、受信したＱＫがエントロピー符号化されている場合、エントロピー復号モジュール６５０は、エントロピー復号されたＱＫ

を取得するために適用される。次に、ＤＲＬ逆量子化モジュール６６０は、逆量子化表現ｙ’_ｔの全蒸気内のバッチであるＤＲＬ逆量子化器を使用して、逆量子化数値Ｙ’_ｔ，ｉ＝・・・，ｙ’_{ｔ，ｉ－１}，ｙ’_ｔ，ｉのバッチを復元する。次に、ＤＮＮ復号モジュール６７０は、ＤＮＮ復号器を使用することにより、逆量子化表現ｙ’_ｔに基づいて、再構築された出力

を生成する。最後に、ＤＮＮタスク実行モジュール６８０は、ＤＮＮタスク実行器を使用して、復元された再構築された出力

に基づいて、ターゲットタスクを実行する。エントロピー符号化モジュール６４０およびエントロピー復号モジュール６５０は、任意選択であり、図６において点線によってマークされていることに留意されたい。例示的な実施形態では、エントロピー符号化モジュール６４０およびエントロピー復号モジュール６５０が使用される場合、この実施形態は、可逆エントロピー符号化方式をとり、したがって、エントロピー復号されたＱＫと、ＤＲＬ量子化モジュール６３０によって計算されたＱＫとは、同じである（すなわち、

）。したがって、以下では、符号化処理および復号処理によって計算されたＱＫの両方に同じ表記（Ｋ_ｔ，ｉ）が使用される。

図６のＤＲＬ量子化器およびＤＲＬ逆量子化器は、学習ベースの量子化方式を使用する。図７および図８は、それぞれＤＲＬ量子化モジュール６３０およびＤＲＬ逆量子化モジュール６６０の詳細なワークフローを説明する。

図７に示すように、ＤＲＬ量子化モジュール６３０は、計算キーモジュール７１０および状態予測モジュール７２０を含む。

符号化処理の一部として、各ＱＳｓ_{ｔ，ｌ－１}が符号化表現ｙ_ｔ，ｌの各々に対応する、以前の量子化状態（ＱＳ）Ｓ_{ｔ，ｉ－１}＝・・・，ｓ_{ｔ，ｉ－２}，ｓ_{ｔ，ｉ－１}のバッチに従って、ｍ個の数値Ｙ_ｔ，ｉ＝・・・，ｙ_{ｔ，ｉ－１}，ｙ_ｔ，ｉのバッチが与えられると、計算キーモジュール７１０は、キー生成器を使用して、各ＱＫｋ_ｔ，ｌが符号化表現ｙ_ｔ，ｌの各々に対応する、ＱＫＫ_ｔ，ｉ＝・・・，ｋ_{ｔ，ｉ－１}，ｋ_ｔ，ｉを計算する。次いで、状態予測モジュール７２０は、状態予測器を用いて、現在のＱＳＳ_ｔ，ｉ＝・・・，ｓ_{ｔ，ｉ－１}，ｓ_ｔ，ｉを計算する。

以前のＱＳＳ_{ｔ，ｉ－１}が与えられると、キー生成器は、量子化方式を用いてＱＫを計算する。この量子化方式は、固定ステップサイズを有する一様量子化のような所定のルールベースの方式とすることができ、ここで、ＱＫｋ_ｔ，ｉは、ＱＫｋ_ｔ，ｉと量子化ステップサイズとの乗算として、対応する符号化表現ｙ_ｔ，ｉを最もよく再構築することができる整数である。この量子化方式はまた、ｋ平均化法のような統計モデルとすることができ、ここで、ＱＫｋ_ｔ，ｉは、その重心が符号化表現ｙ_ｔ，ｉを最もよく再構築することができるクラスタのインデックスである。本開示は、キー生成器として使用される特定の量子化方式にいかなる制限も課さない。

以前のＱＳＳ_{ｔ，ｉ－１}および現在のＱＫＫ_ｔ，ｉが与えられると、状態予測モジュール７２０は、現在のＱＳｓ_ｔ，ｉを計算する。例示的な実施形態では、ｍ個のＱＫの各々に取り付けられてペアを形成する、状態予測モジュール７２０によって最新のＱＳｓ_{ｔ，ｉ－１}のみが使用され、ｍ個のペアのすべてが、一緒にスタックされサイズ（ｍ、２）の入力行列を形成する。別の例示的な実施形態では、各ＱＫおよび対応するＱＳはペア（ｋ_ｔ，ｌ，ｓ_{ｔ，ｌ－１}）を形成し、ｍ個のペアは共にスタックされサイズ（ｍ、２）の入力行列を形成する。状態予測モジュール７２０は、ＱＳが取り得る任意の数の可能な状態間の遷移をサポートするために、学習ベースのモデルを使用する状態予測器に基づいて、現在のＱＳｓ_ｔ，ｉを計算する。実施形態では、学習ベースのモデルは、後で詳細に説明する深層Ｑ学習（ＤＱＮ）アルゴリズムによって訓練される。

図８に示すように、ＤＲＬ逆量子化モジュール６６０は、状態予測モジュール７２０と再構築モジュール８１０とを含む。

復号処理の一部として、ＱＫＫ_ｔ，ｉ＝・・・，ｋ_{ｔ，ｉ－１}，ｋ_ｔ，ｉを受信した後、状態予測モジュール７２０は、入力ＱＫＫ_ｔ，ｉおよび以前のＱＳＳ_{ｔ，ｉ－１}＝・・・，ｓ_{ｔ，ｉ－２}，ｓ_{ｔ，ｉ－１}に基づいて、符号化処理が現在のＱＳｓ_ｔ，ｉを計算するのと同じ方法で状態予測器を使用することによって、現在のＱＳｓ_ｔ，ｉを計算する。次に、再構築モジュール８１０は、再構築器を使用して、ＱＫＫ_ｔ，ｉおよびＱＳＳ_{ｔ，ｉ－１}に基づいて、逆量子化数値Ｙ’_ｔ，ｉ＝・・・，ｙ’_{ｔ，ｉ－１}，ｙ’_ｔ，ｉのバッチを計算する。再構築器は、キー生成器で用いられる量子化方式に対応する逆量子化方式を用いる。例えば、量子化方式が、固定ステップサイズの一様量子化のような所定のルールベース方式である場合、逆量子化数値ｙ’_ｔ，ｉを、量子化ステップサイズとＱＫｋ_ｔ，ｉとの乗算として演算するなど、逆量子化方式も所定のルールベースである。量子化方式がｋ平均化法のような統計モデルである場合、逆量子化方式は、ＱＫｋ_ｔ，ｉによってインデックス付けされた重心であってもよい。本開示は、再構築器として使用される特定の逆量子化方式に制限を課すものではない。

状態予測器は、行動ａ_ｊと行動に関連付けられた出力Ｑ値ｖ_ｊとの間の行動値マッピング関数ｆ（ａ_ｊ，ｖ_ｊ｜Ｋ_ｔ，ｉ，Ｓ_{ｔ，ｉ－１}）であり、ｊ＝１，・・・，Ｊ（合計でＪ個の可能な行動があると仮定）であり、ＱＫＫ_ｔ，ｉおよびＱＳＳ_{ｔ，ｉ－１}が与えられる。各行動ａ_ｊは、ＱＳｓ_ｔ，ｉが取り得る状態に対応する。現在のＱＫＫ_ｔ，ｉおよびＱＳＳ_{ｔ，ｉ－１}が与えられると、状態予測器は、すべての可能な行動ａ_ｊのＱ値ｖ_ｊを計算し、最適なＱ値

を有する最適な行動

を選択する。最適な行動

に対応する状態は、システムが選択するＱＳｓ_ｉである。Ｑ値は、行動のシーケンスに関連するターゲット圧縮性能を測定するように設計される。したがって、最適な行動を選択することにより、最適なターゲット圧縮性能が得られる。

実施形態では、深層Ｑ学習メカニズム、具体的にはＤＱＮアルゴリズムが訓練方法として使用される。ＤＱＮは、行動に報酬Ｑ値を割り当てるために行動値マッピング関数を学習することによって、任意の所与の有限マルコフ決定処理のための最適行動選択の方策を見つける方策外ＤＲＬ方式である。方策は、システムが行動を選択する際に従う規則である。現在の状態が与えられると、学習エージェントは、候補行動のセットから選択することができ、これは、異なる報酬価値をもたらす。様々な状況を経験し、様々な状況にある様々な行動を試みることによって、学習エージェントは、報酬を最適化するために時間をかけて学習し、その結果、報酬は、それがある任意の所与の状況において将来最適に行動することができる。

具体的には、ＤＮＮが状態予測器として使用され、これは、行動値マッピング関数ｆ（ａ_ｊ，ｖ_ｊ｜Ｋ_ｔ，ｉ，Ｓ_{ｔ，ｉ－１}）を推定するための関数近似器として機能する。状態予測器ＤＮＮは、典型的には、１つまたは複数の完全に接続された層が続く畳み込み層のセットを含む。本開示は、状態予測器の特定のネットワーク・アーキテクチャにいかなる制限も課さない。

次に、実施形態によるＤＲＬ量子化モジュール６３０およびＤＲＬ逆量子化モジュール６６０の訓練処理について説明する。訓練処理の全体的なワークフローを図９に示す。

図９に示すように、Ｅ２ＥＬＲＣシステム訓練装置は、ＤＮＮ潜在生成モジュール６１０と、ＤＮＮ符号化モジュール６２０と、ＤＮＮ復号モジュール６７０と、タスク実行モジュール６８０と、計算キーモジュール７１０と、状態予測モジュール７２０と、再構築モジュール８１０と、歪み計算モジュール９１０と、レート計算モジュール９２０と、報酬計算モジュール９３０と、メモリリプレイ＆重み更新モジュール９４０と、ＬＲＣ歪み計算モジュール９５０と、ＬＲＣレート計算モジュール９６０と、ＬＲＣ重み更新モジュール９７０とを含む。

状態（ｔ_ｓ－１）を現在の状態予測器とし、Ｋｅｙ（ｔ_ｋ－１）を現在のキー生成器とし、Ｒｅｃｏｎ（ｔ_ｒ－１）を現在の再構築器とし、Ｅｎｃ（ｔ_ｅ－１）を現在のＤＮＮ符号化器とし、Ｄｅｃ（ｔ_ｄ－１）を現在のＤＮＮ復号器とし、Ｌａｔｅｎｔ（ｔ_ｌ－１）を現在のＤＮＮ潜在生成器とし、Ｔａｓｋ（ｔ_ｔ－１）を現在のＤＮＮタスク実行器とする。ｔ_ｓ、ｔ_ｋ、ｔ_ｒ、ｔ_ｅ、ｔ_ｌおよびｔ_ｔは異なっていてもよく、その結果、状態予測器、キー生成器、再構築器、ＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器は、異なる更新頻度で異なる時間に更新されてもよい。

訓練入力Ｘが与えられると、ＤＮＮ潜在生成モジュール６１０は、現在のＤＮＮ潜在生成器Ｌａｔｅｎｔ（ｔ_ｌ－１）を使用して、潜在信号Ｆ＝ｆ_ｌ，ｆ_２，・・・のシーケンスを計算する。各信号ｆ_ｔについて、ＤＮＮ符号化モジュール６２０は、現在のＤＮＮ符号化器Ｅｎｃ（ｔ_ｅ－１）を使用して、ＤＮＮ符号化表現ｙ_ｔ＝ｙ_ｔ，１，ｙ_ｔ，２・・・を計算する。ｍ個の数値Ｙ_ｔ，ｉ＝・・・，ｙ_{ｔ，ｉ－１}，ｙ_ｔ，ｉのバッチについては、以前のＱＳＳ_{ｔ，ｉ－１}＝・・・，ｓ_{ｔ，ｉ－２}，ｓ_{ｔ，ｉ－１}に従って、計算キーモジュール７１０が、現在のキー生成器Ｋｅｙ（ｔ_ｋ－１）を用いて、ＱＫＫ_ｔ，ｉ＝・・・，ｋ_{ｔ，ｉ－１}，ｋ_ｔ，ｉを計算する。バッチサイズおよび数字の整理方法は、試験段階と同じである。次いで、状態予測モジュール７２０は、現在の状態予測器Ｓｔａｔｅ（ｔ_ｓ－１）を使用して、以前のＱＳＳ_{ｔ，ｉ－１}および現在のＱＳＫ_ｔ，ｉに基づいて、現在のＱＳｓ_ｔ，ｉを計算する。状態予測モジュール７２０の入力も、試験段階と同じである。次に、再構築モジュール８１０は、現在の再構築器Ｒｅｃｏｎ（ｔ_ｒ－１）を使用して、ＱＫＫ_ｔ，ｉおよびＱＳＳ_{ｔ，ｉ－１}に基づいて、逆量子化数値Ｙ’_ｔ，ｉ＝・・・，ｙ’_{ｔ，ｉ－１}，ｙ’_ｔ，ｉのバッチを計算する。最後に、ＤＮＮ復号モジュール６７０は、現在のＤＮＮ復号器Ｄｅｃ（ｔ_ｄ－１）を使用して、逆量子化数値ｙ’_ｔに基づいて、再構築ｚ_ｔを生成する。

訓練処理において、状態予測器は、εグリーディ法を使用して最適な行動

を選択する。具体的には、現在の状態予測器Ｓｔａｔｅ（ｔ_ｓ－１）がすべての可能な行動ａ_ｊのＱ値ｖ_ｊを計算した後、確率ε（０と１の間の数）で、ランダムな行動が最適な行動

として選択され、確率（１－ε）で、最適なＱ値

を有する最適な行動

が選択される。

歪み計算モジュール９１０は、元のＤＮＮ符号化表現Ｙ_ｔ，ｉと復号表現Ｙ’_ｔ，ｉとの間の差を測定するために、歪み損失Ｄ（Ｙ_ｔ，ｉ，Ｙ’_ｔ，ｉ）を計算する。例えば、歪み損失Ｄ（Ｙ_ｔ，ｉ，Ｙ’_ｔ，ｉ）は、符号化表現Ｙ_ｔ，ｉ内の対応する要素と復号表現Ｙ’_ｔ，ｉ内の対応する要素との間の差の、Ｌ_ｋ－ノルム（例えば、平均絶対誤差としてのＬ_１－ノルムおよび平均二乗誤差としてのＬ_２－ノルム）の平均とすることができる。

同時に、レート計算モジュール９２０は、量子化表現のビット消費（すなわち、符号化器から復号器へ送信される計算されたＱＫＫ_ｔ，ｉ）を測定するために、レート損失Ｒ（Ｋ_ｔ，ｉ）を計算する。レート損失を計算する方法は複数ある。例えば、ＱＫは、任意の可逆エントロピー符号化方式を用いて圧縮され、圧縮されたビットストリームの実際のビットカウントが、レート損失として取得されうる。

歪みＤ（Ｙ_ｔ，ｉ，Ｙ’_ｔ，ｉ）およびＤ（Ｙ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）、ならびに、レート損失Ｒ（Ｋ_ｔ，ｉ）およびＲ（Ｋ_{ｔ，ｉ＋１}）に基づいて、数値Ｙ_ｔ，ｉおよびＹ_{ｔ，ｉ＋１}の隣接するバッチについて、報酬計算モジュール９３０は、報酬φ（Ｙ_{ｔ，ｉ＋１}，Ｋ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）を計算する。報酬φ（Ｙ_{ｔ，ｉ＋１}，Ｋ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）は、以下の式に従って、現在のＱＫＫ_ｔ，ｉおよびＱＳＳ_{ｔ，ｉ－１}が与えられると、状態予測器が最適な行動

をとることによって得ることができる報酬を測定する。

φ（Ｙ_{ｔ，ｉ＋１}，Ｋ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）＝Ｄ（Ｙ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）＋αＲ（Ｋ_{ｔ，ｉ＋１}）（３）

ここで、αは、レート損失と報酬の歪みとのバランスをとるハイパーパラメータである。経験

、すなわち、ＱＫＫ_ｔ，ｉおよびＱＳＳ_{ｔ，ｉ－１}に基づいて関連するＱ値

を有する行動

を選択し、次いで、報酬φ（Ｙ_{ｔ，ｉ＋１}，Ｋ_{ｔ，ｉ＋１}，Ｙ’_{ｔ，ｉ＋１}）を取得することが、リプレイメモリに追加される。リプレイメモリは、通常、最大記憶限界を有し、限界に達すると、最も古い経験が最新の経験に置き換えられる。

状態予測器、キー生成器、および再構築器を更新する時間になると、システムは、リプレイメモリからの経験のバッチをサンプリングし、これらのサンプリングされた経験を使用して、メモリリプレイおよび重み更新モジュール９４０内のモデルパラメータを更新する。図１０は、訓練段階中のメモリリプレイおよび重み更新モジュール９４０の詳細なワークフローである。

図１０に示すように、メモリリプレイおよび重み更新モジュール９４０は、計算キーモジュール７１０と、状態予測モジュール７２０と、再構築モジュール８１０と、歪み計算モジュール９１０と、レート計算モジュール９２０と、報酬計算モジュール９３０と、サンプル経験モジュール１００１と、損失計算モジュール１００２と、重み更新モジュール１００３とを含む。

訓練段階の間、ターゲット状態予測器Ｓｔａｔｅ^Ｔ、ターゲットキー生成器Ｋｅｙ^Ｔ、およびターゲット再構築器Ｒｅｃｏｎ^Ｔは維持され、それぞれ状態予測器、キー生成器、および再構築器と全く同じモデル構造を有する。唯一の違いは、モデルパラメータであり、例えば、状態予測器のＤＮＮ重み係数、またはｋ平均量子化が使用される場合のキー生成器のｋ平均モデルパラメータ、または量子化が深層クラスタリングに基づく場合のキー生成器のＤＮＮ重み係数、などである。これらのモデルパラメータは、Ｔ_ｓ、Ｔ_ｋ、およびＴ_ｒパラメータ更新サイクルごとに、対応する状態予測器、キー生成器、および再構築器から複製される。

各パラメータ更新サイクルの間、サンプル経験モジュール１００１は、リプレイメモリ

から、経験のセットをサンプリングする。状態予測モジュール７２０は、各経験

について、ターゲット状態予測器Ｓｔａｔｅ^Ｔを使用して、その経験におけるＱＫＹ_ｔ，ｌおよびＱＳＳ_{ｔ，ｌ－１}に基づいて、ターゲットＱＳ

を予測する。ターゲットＱＳ

に基づいて、ターゲットキー生成器Ｋｅｙ^Ｔは、計算キーモジュール７１０において、ターゲットキー

を計算する。ターゲットキー

およびターゲットＱＳ

に基づいて、ターゲット再構築器Ｒｅｃｏｎ^Ｔは、再構築モジュール８１０において、ターゲット逆量子化数値

のバッチを計算することができる。次に、歪み計算モジュール９１０は、経験における元の表現Ｙ_{ｔ，ｌ＋１}と復号表現

との間のターゲット歪み

を計算する。レート計算モジュール９２０は、ターゲットキー

に基づいて、ターゲットレート損失

を計算する。次いで、ターゲット報酬

が、以下のように報酬計算モジュール９３０において計算される。

次に、損失計算モジュール１００２は、ターゲット報酬

を以下のように計算する。

ここで、

は、ＱＫ

およびＱＳ

が与えられた場合の行動

について、ターゲット状態予測器Ｓｔａｔｅ^Ｔによって予測されるＱ値である。ハイパーパラメータγは、０～１の間の値の割引率であり、これは、システムが短期報酬に対して長期報酬をどの程度重み付けするかを決定する。割引率が小さいほど、システムは長期報酬にあまり重み付せず、短期報酬のみを考慮する。次に、ターゲット損失

が、ターゲット報酬

および経験からのＱ値

、（例えば、２つの報酬の差のＬ_ｋ－ノルム）に基づいて、計算される。

次いで、重み更新モジュール１００３は、ターゲット損失の勾配を計算し、これは、状態予測器のＤＮＮの重みパラメータを、Ｓｔａｔｅ（ｔ_ｓ）に更新するために逆伝播される。ターゲット損失の勾配はまた、キー生成器Ｋｅｙ（ｔ_ｋ）および再構築器Ｒｅｃｏｎ（ｔ_ｒ）を更新するために、学習ベースのキー生成器および再構築器の最適化ターゲットと組み合わせて使用されてもよい。例えば、キー生成器と再構築器が深層クラスタリング基づく量子化方式を用いる場合、キー生成器と再構築器のＤＮＮの重みパラメータは、逆伝搬により更新される。他の学習ベースの方法が量子化に使用される場合、モデルパラメータはターゲット関数を最適化することによって学習され、ターゲット損失

は、モデルパラメータを更新するために追加の正則化項として、最適化ターゲット関数に重み付けされ加算されてもよい。前述したように、状態予測器、キー生成器、および再構築器は、異なるタイムスタンプで更新され得る。

Ｔ_ｓ、Ｔ_ｋ、およびＴ_ｒの反復ごとに、状態予測器、キー生成器、および再構築器の重みパラメータは、それぞれ、ターゲット状態予測器Ｓｔａｔｅ^Ｔ、ターゲットキー生成器Ｋｅｙ^Ｔ、およびターゲット再構築器Ｒｅｃｏｎ^Ｔに複製される。

実施形態は、リプレイメモリ、ターゲット状態予測器、ターゲットキー生成器、およびターゲット再構築器を使用して、訓練処理を安定させる。リプレイメモリは、１つの最新の経験しか有することができず、これは、リプレイメモリを有さないことに等しい。また、Ｔ_ｓ、Ｔ_ｋおよびＴ_ｒはすべて１に等しくてもよく、その結果、ターゲット状態予測器、ターゲットキー生成器、およびターゲット再構築器は反復ごとに更新され、これはターゲット状態予測器、ターゲットキー生成器、およびターゲット再構築器の別のセットを持たないことに等しい。

各入力Ｘに対するＥ２ＥＬＲＣシステム全体（図９にて説明）に関して、ＤＮＮ潜在生成モジュール６１０は、現在のＤＮＮ潜在生成器Ｌａｔｅｎｔ（ｔ_ｌ－１）を使用して、潜在信号Ｆ＝ｆ_１，ｆ_２，・・・のシーケンスを計算する。各信号ｆ_ｔについて、ＤＮＮ符号化モジュール６２０は、現在のＤＮＮ符号化器Ｅｎｃ（ｔ_ｅ－１）を使用して、ＤＮＮ符号化表現ｙ_ｔ＝ｙ_ｔ，ｌ，ｙ_ｔ，２，・・・を計算する。ＤＲＬ量子化モジュール６３０およびＤＲＬ逆量子化モジュール６６０を介して、逆量子化表現ｙ’_ｔ＝ｙ’_ｔ，ｌ，ｙ’_ｔ，２，・・・が生成される。次に、ＤＮＮ復号モジュール６７０は、現在のＤＮＮ復号器Ｄｅｃ（ｔ_ｄ－１）を使用して逆量子化表現ｙ’_ｔに基づいて、再構築潜在表現

を生成する。最後に、ＤＮＮタスク実行モジュール６８０は、現在のＤＮＮタスク実行器Ｔａｓｋ（ｔ_ｔ－１）を使用して、再構築された潜在表現

に基づいて、ターゲットタスクを実行し、訓練ラベル（例えば、元のタスクの分類または回帰損失）に基づいて、タスク予測損失

を計算する。

次に、ＬＲＣ歪み計算モジュール９５０は、ＰＳＮＲおよび／またはＳＳＩＭ関連メトリックなどの潜在表現圧縮処理によって導入される誤差を測定するために、潜在表現の歪み損失

を計算する。ＬＲＣレート計算モジュール９６０は、例えば、均一密度または通常密度を有する量子化表現

（すなわち、ＱＫｋ_ｔ，ｌ，ｋ_ｔ，２，・・・が格納され、復号処理に送信される）に基づくノンパラメトリック密度推定によって、潜在圧縮レート損失

を計算する。次に、全体的な統合損失

は、以下のように計算することができる。

ハイパーパラメータβおよびλは、異なる損失項の重要性のバランスをとる。

次いで、ＬＲＣ重み更新モジュール９７０は、統合損失の勾配を（例えば、いくつかの入力データにわたって統合損失の勾配を合計することによって）計算し、これにより、ＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器の重みパラメータを、逆伝播により、それぞれＥｎｃ（ｔ_ｅ）、Ｄｅｃ（ｔ_ｄ）、Ｌａｔｅｎｔ（ｔ_ｌ）、およびＴａｓｋ（ｔ_ｔ）に更新することができる。

実施形態では、ＤＮＮ潜在生成器およびＤＮＮタスク実行器は、符号化／復号の処理を省略することによって、事前に訓練される（それぞれＬａｔｅｎｔ（０）およびＴａｓｋ（０）によって示される）。そのような事前訓練処理では、事前訓練入力Ｘが与えられると、ＤＮＮ潜在生成モジュール６１０は、ＤＮＮタスク実行モジュール６８０によって直接使用される潜在表現Ｆを計算する。次いで、タスク予測損失Ｔ_ＬＲＣ（ｆ_ｔ）を計算することができ、その勾配は、ＤＮＮ潜在生成器およびＤＮＮタスク実行器を学習するために逆伝播される。

また、実施形態では、ＤＮＮ符号化器およびＤＮＮ復号器は、一様量子化方式を仮定し、エントロピー推定モデルによって潜在圧縮率損失

を推定することによって、事前に訓練される（それぞれＥｎｃ（０）およびＤｅｃ（０）で示される）。そのような事前訓練処理では、事前訓練潜在信号ｆ_ｔが与えられると、ＤＮＮ符号化器は表現ｙ_ｔを計算し、これは、潜在圧縮率損失

を計算するためにエントロピー推定モデルによって、さらに使用される。次に、ＤＮＮ復号器は、表現ｙ_ｔに基づいて、出力（再構築された潜在表現

）を計算する。次いで、潜在歪み損失

が計算され、以下のようにＲ－Ｄ損失を得ることができる。

その勾配は、逆伝搬によって、ＤＮＮ符号化器およびＤＮＮ復号器を更新するために使用され得る。

事前訓練されたＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器が配備されると、図９および図１０の実施形態で説明された訓練処理は、ＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器に対処して量子化性能を向上させるために、ＤＲＬ量子化器およびＤＲＬ逆量子化器を訓練する。記載された訓練処理はまた、現在の訓練データに従ってＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器およびＤＮＮタスク実行器を更新することができ、その結果、潜在圧縮システム全体が、総圧縮性能およびタスク性能を適応的に改善することができる。ＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器、およびＤＮＮタスク実行器の更新は、オフラインまたはオンラインで行われてもよく、永続的または一時的なデータ依存であってもよい。

同様に、展開後、ＤＲＬ量子化器およびＤＲＬ逆量子化器内の状態予測器、キー生成器、および再構築器も、オフラインまたはオンラインで更新されてもよく、永続的または一時的にデータ依存であってもよい。例えば、ビデオベースのタスクの場合、ＤＮＮ符号化器、ＤＮＮ復号器、ＤＮＮ潜在生成器ＤＮＮタスク実行器状態予測器、キー生成器、および再構築器の一部またはすべては、最初の数フレームに基づいて更新され得る。しかし、これらの更新は、将来のビデオの計算に影響を及ぼすために記録されることはない。どのモジュールが将来のビデオに適用されるように永続的に更新され得るかに基づいて、そのような更新はまた、一定量まで蓄積され得る。パラメータ更新に関しては、ＤＮＮのモデルパラメータの一部を凍結し、残りのパラメータのみを更新することができる。本開示は、ＤＮＮモデルのうち、どのＤＮＮモデルを更新するか、または重みパラメータのどの部分を更新するかについて、何ら制約を課すものではない。

図１１は、実施形態による、深層強化学習を使用するエンドツーエンド潜在表現圧縮の方法のフローチャートである。

いくつかの実装形態では、図１１の１つまたは複数の処理ブロックは、プラットフォーム１２０によって実行されてもよい。いくつかの実装形態では、図１１の１つまたは複数の処理ブロックは、ユーザデバイス１１０などのプラットフォーム１２０とは別個の、またはプラットフォーム１２０を含む別のデバイスもしくはデバイスのグループによって実行されてもよい。

図１１に示すように、動作１１０１において、本方法は、第１のニューラルネットワークを使用して、入力の複数の潜在表現を生成するステップを含む。複数の潜在表現は、潜在信号のシーケンスであってもよい。

動作１１０２において、本方法は、第２のニューラルネットワークを使用して、複数の潜在表現を符号化するステップを含む。

動作１１０３において、本方法は、以前の量子化状態のセットに基づいて、第３のニューラルネットワークを使用して、量子化キーのセットを生成するステップを含み、量子化キーのセット内の各量子化キー、および以前の量子化状態のセット内の各以前の量子化状態は、複数の潜在表現に対応する。量子化キーのセットをエントロピー符号化することによって、符号化された量子化キーのセットを生成することもできる。

現在の量子化状態のセットは、第３のニューラルネットワークを訓練することによって、以前の量子化状態のセットおよび量子化キーのセットに基づいている。第３のニューラルネットワークは、すべての可能な行動のｑ値を計算し、最適なｑ値を有する最適な行動として行動をランダムに選択し、選択された最適な行動の報酬を生成し、選択された最適な行動のセットをサンプリングし、歪み損失を最小限に抑えるために第３のニューラルネットワークの重みパラメータを更新する、ことによって訓練される。

動作１１０４において、本方法は、第４のニューラルネットワークを使用して、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成するステップを含む。符号化された量子化キーのセットが生成される場合、符号化された量子化キーのセットをエントロピー復号することによって、復号された量子化キーのセットを生成することもでき、逆量子化数値のセットは、その代わりに、復号された量子化キーのセットに基づいて生成される。

動作１１０３で生成された量子化キーのセットおよび動作１１０４で生成された逆量子化数値のセットは、ブロック単位の量子化／逆量子化方式、個々の量子化／逆量子化方式、または静的量子化／逆量子化モデル方式を使用して、それぞれ量子化および逆量子化される。また、量子化キーのセットの量子化方式、および逆量子化数値のセットの逆量子化方式は同じである。

動作１１０５において、本方法は、逆量子化数値のセットに基づいて、再構築された出力を生成するステップを含む。

動作１１０６において、本方法は、第５のニューラルネットワークを使用して、再構築された出力に基づいて、ターゲットタスクを実行するステップを含む。

その代わりに、生成された複数の潜在表現に基づいて、ターゲットタスクが実行されてもよい。ターゲットタスクに基づくタスク予測損失を計算することもでき、第１のニューラルネットワークおよび第５のニューラルネットワークは、タスク予測損失の勾配を逆伝播し、第１のニューラルネットワークおよび第５のニューラルネットワークの重みパラメータを更新することによって、訓練される。

図１１は、本方法の例示的なブロックを示すが、いくつかの実装形態では、本方法は、図１１に描写されたブロックに比べて、さらなるブロック、少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加または代替として、本方法のブロックのうちの２つ以上が並行して実行されてもよい。

図１２は、実施形態による、深層強化学習を使用したエンドツーエンド潜在表現圧縮のための装置のブロック図である。

図１２に示すように、装置は、第１の生成コード１２０１と、符号化コード１２０２と、第２の生成コード１２０３と、第３の生成コード１２０４と、復号コード１２０５と、実行コード１２０６とを含む。

第１の生成コード１２０１は、少なくとも１つのプロセッサに、第１のニューラルネットワークを使用して、入力の複数の潜在表現を生成させるように構成され、複数の潜在表現は潜在信号のシーケンスを含む。

符号化コード１２０２は、少なくとも１つのプロセッサに、第２のニューラルネットワークを使用して、複数の潜在表現を符号化させるように構成される。

第２の生成コード１２０３は、少なくとも１つのプロセッサに、第３のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させるように構成されており、量子化キーのセットにおける各量子化キー、および以前の量子化状態のセットにおける各以前の量子化状態は、複数の潜在表現に対応する。

さらに、装置の動作はまた、第３のニューラルネットワークを訓練することによって、以前の量子化状態のセットおよび量子化キーのセットに基づいて、現在の量子化状態のセットを、少なくとも１つのプロセッサに、行わせるように構成された状態生成コードを含むことができる。第３のニューラルネットワークは、すべての可能な行動のｑ値を計算し、最適なｑ値を有する最適な行動として行動をランダムに選択し、選択された最適な行動の報酬を生成し、選択された最適な行動のセットをサンプリングし、歪み損失を最小限に抑えるために第３のニューラルネットワークの重みパラメータを更新する、ことによって訓練される。

第３の生成コード１２０４は、少なくとも１つのプロセッサに、第４のニューラルネットワークを使用して、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを、生成させるように構成される。

第２の生成コード１２０３によって生成された量子化キーのセット、および第３の生成コード１２０４によって生成された逆量子化数値のセットは、ブロック単位の量子化／逆量子化方式、個別の量子化／逆量子化方式、または静的量子化／逆量子化モデル方式を使用して、それぞれ量子化および逆量子化することができる。また、量子化キーのセットの量子化方式、および逆量子化数値のセットの逆量子化方式は同じである。

復号コード１２０５は、少なくとも１つのプロセッサに、逆量子化数値のセットに基づいて、再構築された出力を復号させるように構成される。

実行コード１２０６は、少なくとも１つのプロセッサに、第５のニューラルネットワークを使用して、再構築された出力に基づいて、ターゲットタスクを実行させるように構成されている。

その代わりに、生成された複数の潜在表現に基づいて、ターゲットタスクが実行されてもよい。図１２の装置はまた、少なくとも１つのプロセッサに、ターゲットタスクに基づいてタスク予測損失を計算させるように構成された計算コードを含むことができ、第１のニューラルネットワークおよび第５のニューラルネットワークは、タスク予測損失の勾配を逆伝播させ、第１のニューラルネットワークおよび第５のニューラルネットワークの重みパラメータを更新することによって訓練される。

図１２は、本装置の例示的なブロックを示すが、いくつかの実装形態では、本装置は、図１２に描写されたブロックに比べて、さらなるブロック、少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加または代替として、本装置のブロックのうちの２つ以上が並行して実行されてもよい。

実施形態は、システム全体としてターゲットタスクを実行するために潜在表現圧縮を最適化することによって、圧縮性能を改善するエンドツーエンド潜在表現圧縮（Ｅ２ＥＬＲＣ）に関する。本方法は、現在のデータに基づいてオンラインまたはオフラインで学習ベースの量子化および符号化方式を調整し、ＤＮＮベースまたは従来のモデルベースの方式を含む、様々なタイプの学習ベースの量子化方式をサポートする柔軟性を提供する。記載された方法はまた、異なるＤＮＮアーキテクチャおよびタスクに対応する柔軟で一般的なフレームワークを提供する。

提案された方法は、別々に使用されてもよく、任意の順序で組み合わされてもよい。さらに、本方法（または実施形態）の各々は、処理回路（例えば、１つもしくは複数のプロセッサ、または１つもしくは複数の集積回路）によって実装されてよい。一例では、１つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。

本開示は、例示および説明を提供するが、網羅的であること、または実施態様を開示された正確な形態に限定すること、を意図するものではない。修正形態および変形形態は、現開示に照らして実現可能であり、または実装形態の実践から取得されてもよい。

本明細書で使用される場合、構成要素という用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組合せとして広く解釈されることを意図されている。

本明細書に記載されたシステムおよび／または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組合せの異なる形態で実装されてもよいことは明らかであろう。これらのシステムおよび／または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。したがって、システムおよび／または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび／または方法を実装するように設計され得ることが理解される。

特徴の組合せが特許請求の範囲に列挙され、かつ／または本明細書に開示されているが、これらの組合せは、可能な実装形態の開示を限定するものではない。実際には、これらの特徴の多くは、特許請求の範囲に具体的に列挙されていない、かつ／または本明細書に開示されていない方法で組み合わされてもよい。以下に列挙される各従属請求項は１つの請求項のみに直接依存してもよいが、可能な実装形態の開示は、各従属請求項を請求項セット内のあらゆる他の請求項と組み合わせて含む。

本明細書で使用される要素、行為、または指示は、明示的にそのように記載されていない限り、重要または必須であると解釈されなくてもよい。また、本明細書で使用される冠詞「ａ」および「ａｎ」は、１つまたは複数の項目を含むものであり、「１つまたは複数」と同じ意味で使用されてもよい。さらに、本明細書で使用される「セット」という用語は、１つまたは複数の項目（例えば、関連項目、非関連項目、関連項目と非関連項目の組合せなど）を含むものであり、「１つまたは複数」と同じ意味で使用されてもよい。１つの項目のみが対象とされる場合、「１つ」という用語または同様の言葉が使用される。また、本明細書で使用される「有する（ｈａｓ）」、「有する（ｈａｖｅ）」、「有する（ｈａｖｉｎｇ）」などの用語は、オープンエンド用語であることが意図される。さらに、「に基づいて」という語句は、特に明記されない限り、「に少なくとも部分的に基づいて」を意味するものである。

１００環境
１１０ユーザデバイス
１２０プラットフォーム
１２２クラウドコンピューティング環境
１２４コンピューティングリソース
１２４－１アプリケーション
１２４－２仮想マシン
１２４－３仮想化ストレージ
１２４－４ハイパーバイザ
１３０ネットワーク
２００デバイス
２１０バス
２２０プロセッサ
２３０メモリ
２４０記憶構成要素
２５０入力構成要素
２６０出力構成要素
２７０通信インターフェース
５１０ＤＮＮ潜在生成モジュール
５２０ＤＮＮ符号化モジュール
５３０量子化モジュール
５４０エントロピー符号化モジュール
５５０エントロピー復号モジュール
５６０逆量子化モジュール
５７０ＤＮＮ復号モジュール
５８０ＤＮＮタスク実行モジュール
６１０ＤＮＮ潜在生成モジュール
６２０ＤＮＮ符号化モジュール
６３０ＤＲＬ量子化モジュール
６４０エントロピー符号化モジュール
６５０エントロピー復号モジュール
６６０ＤＲＬ逆量子化モジュール
６７０ＤＮＮ復号モジュール
６８０ＤＮＮタスク実行モジュール
７１０計算キーモジュール
７２０状態予測モジュール
８１０再構築モジュール
９１０歪み計算モジュール
９２０レート計算モジュール
９３０報酬計算モジュール
９４０メモリリプレイおよび重みモジュール
９５０ＬＲＣ歪み計算モジュール
９６０ＬＲＣレート計算モジュール
９７０ＬＲＣ重み更新モジュール
１００１サンプル経験モジュール
１００２損失計算モジュール
１００３重み更新モジュール
１１０１動作
１１０２動作
１１０３動作
１１０４動作
１１０５動作
１１０６動作
１２０１第１の生成コード
１２０２符号化コード
１２０３第２の生成コード
１２０４第３の生成コード
１２０５復号コード
１２０６実行コード

Claims

少なくとも１つのプロセッサによって実行される、深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮の方法であって、
第１のニューラルネットワークを使用して、入力の複数の潜在表現を生成するステップであって、前記複数の潜在表現が、潜在信号のシーケンスを含む、ステップと、
第２のニューラルネットワークを使用して、前記複数の潜在表現を符号化するステップと、
第３のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成するステップであって、前記量子化キーのセット内の各量子化キーおよび以前の量子化状態のセット内の各以前の量子化状態が、前記複数の潜在表現に対応する、ステップと、
第４のニューラルネットワークを使用して、前記量子化キーのセットに基づいて、前記符号化された複数の潜在表現の逆量子化表現を表す、逆量子化数値のセットを生成するステップと、
前記逆量子化数値のセットに基づいて、再構築された出力を生成するステップと、
第５のニューラルネットワークを使用して、前記再構築された出力に基づいて、ターゲットタスクを実行するステップと、
を含む、方法。
前記ターゲットタスクに基づいて、タスク予測損失を計算するステップを、さらに含み、
前記第１のニューラルネットワークおよび前記第５のニューラルネットワークは、前記タスク予測損失の勾配を逆伝播させるステップと、前記第１のニューラルネットワークおよび前記第５のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項１に記載の方法。
前記ターゲットタスクは、前記生成された複数の潜在表現に基づいて実行される、請求項１に記載の方法。
前記量子化キーのセットをエントロピー符号化することによって、符号化された量子化キーのセットを生成するステップと、
前記符号化された量子化キーのセットをエントロピー復号することによって、復号された量子化キーのセットを生成するステップと、
をさらに含み、
前記逆量子化数値のセットは、前記復号された量子化キーのセットに基づいて生成される、
請求項１に記載の方法。
ブロック単位量子化方式、個別量子化方式、および静的量子化モデル方式のうちの少なくとも１つを使用して、前記量子化キーのセットを生成するステップと、
ブロック単位逆量子化方式、個別逆量子化方式、および静的逆量子化モデル方式のうちの少なくとも１つを使用して、前記逆量子化数値のセットを生成するステップと、
をさらに含む、請求項１に記載の方法。
前記量子化キーのセットの量子化方式は、前記逆量子化数値のセットの逆量子化方式と同じであり、
前記量子化方式として前記ブロック単位量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記ブロック単位逆量子化方式を使用し、
前記量子化方式として前記個別量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記個別逆量子化方式を使用し、
前記量子化方式として前記静的量子化モデル方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記静的逆量子化モデル方式を使用する、
請求項５に記載の方法。
前記第３のニューラルネットワークを訓練することによって、前記以前の量子化状態のセットおよび前記量子化キーのセットに基づいて、現在の量子化状態のセットを生成するステップをさらに含み、
前記第３のニューラルネットワークは、すべての可能な行動に対するｑ値を計算するステップと、最適なｑ値を有する最適な行動として行動をランダムに選択するステップと、前記選択された最適な行動の報酬を生成するステップと、選択された最適な行動のセットをサンプリングするステップと、歪み損失を最小化するために前記第３のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項１に記載の方法。
深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮のための装置であって、
プログラムコードを記憶するように構成された少なくとも１つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによる命令通りに動作するように構成された少なくとも１つのプロセッサと、を備え、
前記プログラムコードは、
前記少なくとも１つのプロセッサに、第１のニューラルネットワークを使用して、入力の複数の潜在表現を生成させるように構成された第１の生成コードであって、前記複数の潜在表現は潜在信号のシーケンスを含む、第１の生成コードと、
前記少なくとも１つのプロセッサに、第２のニューラルネットワークを使用して、前記複数の潜在表現を符号化させるように構成された符号化コードと、
前記少なくとも１つのプロセッサに、第３のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させるように構成された第２の生成コードであって、前記量子化キーのセット内の各量子化キーおよび前記以前の量子化状態のセット内の各以前の量子化状態は、前記複数の潜在表現に対応する、第２の生成コードと、
前記少なくとも１つのプロセッサに、第４のニューラルネットワークを使用して、前記量子化キーのセットに基づいて、前記符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成させるように構成された第３の生成コードと、
前記少なくとも１つのプロセッサに、前記逆量子化数値のセットに基づいて、再構築された出力を復号させるように構成された復号コードと、
前記少なくとも１つのプロセッサに、第５のニューラルネットワークを使用して、前記再構築された出力に基づいて、ターゲットタスクを実行させるように構成された実行コードと、を含む、
装置。
前記プログラムコードは、前記少なくとも１つのプロセッサに、前記ターゲットタスクに基づいて、タスク予測損失を計算させるように構成された計算コードをさらに含み、
前記第１のニューラルネットワークおよび前記第５のニューラルネットワークは、前記タスク予測損失の勾配を逆伝播させるステップと、前記第１のニューラルネットワークおよび前記第５のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項８に記載の装置。
前記ターゲットタスクは、前記生成された複数の潜在表現に基づいて実行される、請求項８に記載の装置。
前記プログラムコードは、
前記少なくとも１つのプロセッサに、前記量子化キーのセットをエントロピー符号化するステップによって、符号化された量子化キーのセットを生成させるように構成された符号化キーコードと、
前記少なくとも１つのプロセッサに、前記符号化された量子化キーのセットをエントロピー復号するステップによって、復号された量子化キーのセットを生成させるように構成された復号キーコードと、
をさらに備え、
前記逆量子化数値のセットは、前記復号された量子化キーのセットに基づいて、生成される、
請求項８に記載の装置。
前記プログラムコードは、
前記少なくとも１つのプロセッサに、ブロック単位量子化方式、個別量子化方式、および静的量子化モデル方式のうちの少なくとも１つを使用して、前記量子化キーのセットを生成させるように構成された第４の生成コードと、
前記少なくとも１つのプロセッサに、ブロック単位逆量子化方式、個別逆量子化方式、および静的逆量子化モデル方式のうちの少なくとも１つを使用して、前記逆量子化数値のセットを生成させるように構成された第５の生成コードと、
をさらに備える、請求項８に記載の装置。
前記量子化キーのセットの量子化方式は、前記逆量子化数値のセットの逆量子化方式と同じであり、
前記量子化方式として前記ブロック単位量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記ブロック単位逆量子化方式を使用し、
前記量子化方式として前記個別量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記個別逆量子化方式を使用し、
前記量子化方式として前記静的量子化モデル方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記静的逆量子化モデル方式を使用した、
請求項１２に記載の装置。
前記少なくとも１つのプロセッサに、前記第３のニューラルネットワークを訓練することによって、前記以前の量子化状態のセットおよび前記量子化キーのセットに基づいて、現在の量子化状態のセットを生成させるように構成された状態生成コード、をさらに備え、
前記第３のニューラルネットワークは、すべての可能な行動に対するｑ値を計算するステップと、最適なｑ値を有する最適な行動として行動をランダムに選択するステップと、前記選択された最適な行動の報酬を生成するステップと、選択された最適な行動のセットをサンプリングするステップと、歪み損失を最小化するために前記第３のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項８に記載の装置。
深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮のために少なくとも１つのプロセッサによって実行されると、
少なくとも１つのプロセッサに、
第１のニューラルネットワークを使用して、複数の潜在表現を生成させ、複数の潜在表現は、潜在信号のシーケンスを備え、
第２のニューラルネットワークを使用して、前記複数の潜在表現を符号化させ、
第３のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させ、前記量子化キーのセット内の各量子化キーおよび前記以前の量子化状態のセット内の各以前の量子化状態は、複数の潜在表現に対応し、
第４のニューラルネットワークを使用して、前記量子化キーのセットに基づいて、前記符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成させ、
逆量子化数値のセットに基づいて、再構築された出力を復号させ、
第５のニューラルネットワークを使用して、前記再構築された出力に基づいてターゲットタスクを実行させる、
ための命令を記憶する、非一時的コンピュータ可読媒体。
前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサにさらに、前記ターゲットタスクに基づいてタスク予測損失を計算させ、
前記第１のニューラルネットワークおよび前記第５のニューラルネットワークは、前記タスク予測損失の勾配を逆伝播させるステップと、前記第１のニューラルネットワークおよび前記第５のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項１５に記載の非一時的コンピュータ可読媒体。
前記ターゲットタスクは、前記生成された複数の潜在表現に基づいて実行される、請求項１５に記載の非一時的コンピュータ可読媒体。
前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサにさらに、
前記量子化キーのセットをエントロピー符号化することによって、符号化された量子化キーのセットを生成させ、
前記符号化された量子化キーのセットをエントロピー復号することによって、復号された量子化キーのセットを生成させ、
前記逆量子化数値のセットは、前記復号された量子化キーのセットに基づいて生成される、
請求項１５に記載の非一時的コンピュータ可読媒体。
前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサにさらに、
ブロック単位量子化方式、個別量子化方式、および静的量子化モデル方式のうちの少なくとも１つを使用して、前記量子化キーのセットを生成させ、
ブロック単位逆量子化方式、個別逆量子化方式、および静的逆量子化モデル方式のうちの少なくとも１つを使用して、前記逆量子化数値のセットを生成させ、
前記量子化キーのセットの量子化方式は、前記逆量子化数値の逆量子化方式と同じであり、
前記量子化方式として前記ブロック単位量子化方式を使用する前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記ブロック単位逆量子化方式を使用し、
前記量子化方式として前記個別量子化方式を使用する量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記個別逆量子化方式を使用し、
前記量子化方式として前記静的量子化モデル方式を使用する量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記静的逆量子化モデル方式を使用する、
請求項１５に記載の非一時的コンピュータ可読媒体。
前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサにさらに、前記第３のニューラルネットワークを訓練することによって、前記以前の量子化状態のセットおよび前記量子化キーのセットに基づいて、現在の量子化状態のセットを生成させ、
前記第３のニューラルネットワークは、すべての可能な行動に対するｑ値を計算するステップと、最適なｑ値を有する最適な行動として行動をランダムに選択するステップと、前記選択された最適な行動の報酬を生成するステップと、選択された最適な行動のセットをサンプリングするステップと、歪み損失を最小化するために前記第３のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項１５に記載の非一時的コンピュータ可読媒体。