JP2023515810A

JP2023515810A - 深層強化学習によるエンドツーエンド依存量子化

Info

Publication number: JP2023515810A
Application number: JP2022550905A
Authority: JP
Inventors: ジャン，ウェイ; ワン，ウェイ; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-11-30
Filing date: 2021-09-30
Publication date: 2023-04-14
Also published as: KR102627879B1; US20220174281A1; CN115136199A; WO2022115155A1; US11558617B2; EP4062376A4; EP4062376A1; KR20220114062A

Abstract

ビデオデータの入力ストリームを取得するステップと、前記入力ストリームにおける浮動小数点数に基づいてキーを計算するステップと、状態予測器と、複数の以前のキーと、複数の以前のＤＱ状態とに基づいて、現在の依存量子化（ＤＱ：ＤｅｐｅｎｄｅｎｔＱｕａｎｔｉｚａｔｉｏｎ）状態を予測するステップと、前記キーおよび前記現在のＤＱ状態に基づいて、前記浮動小数点数を再構成するステップと、前記再構成された浮動小数点数に基づいて、前記ビデオをコーディングするステップと、を１つまたは複数のプロセッサに実行させるように構成されたコンピュータコードを含む、方法および装置が提供される。

Description

［関連出願への相互参照］
本願は、２０２０年１１月３０日に出願された米国仮出願６３／１１９，４４６および２０２１年９月２９日に出願された米国出願１７／４８８，４３８の優先権を主張しており、それらの全体は、参照により本願に明示的に組み込まれる。

［技術分野］
本開示は、深層強化学習（ＤＲＬ：ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）を用いた学習ベースのエンドツーエンド（Ｅ２Ｅ：Ｅｎｄ－ｔｏ－Ｅｎｄ）依存量子化（ＤＱ：ＤｅｐｅｎｄｅｎｔＱｕａｎｔｉｚａｔｉｏｎ）に関するものであり、任意の数のＤＱ状態をサポートし、ここで、異なるＤＱ状態間の遷移は、深層Ｑ－ネットワーク（ＤＱＮ：ＤｅｅｐＱ－Ｎｅｔｗｏｒｋ）アルゴリズムに基づいて自動的に決定され得る。

ＩＴＵ－ＴＶＣＥＧ（Ｑ６／１６）およびＩＳＯ／ＩＥＣＭＰＥＧ（ＪＴＣ１／ＳＣ２９／ＷＧ１１）は、２０１３年（バージョン１）、２０１４年（バージョン２）、２０１５年（バージョン３）および２０１６年（バージョン４）で、Ｈ．２６５／ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ、高効率ビデオコーディング）規格を公開した。２０１５年に、この２つの標準化組織は、ＨＥＶＣを超える次のビデオコーディング標準を開発する可能性を探るために、共同ビデオ探索チーム（ＪＶＥＴ：ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ）を共同で設立した。２０１７年１０月に、ＨＥＶＣを超える機能を有するビデオ圧縮に関する共同提案募集（ＣｆＰ：ＣａｌｌｆｏｒＰｒｏｐｏｓａｌ）を発表した。２０１８年２月１５日までに、標準ダイナミックレンジ（ＳＤＲ：ｓｔａｎｄａｒｄｄｙｎａｍｉｃｒａｎｇｅ）に関するＣｆＰ応答２２件、ハイダイナミックレンジ（ＨＤＲ：ｈｉｇｈｄｙｎａｍｉｃｒａｎｇｅ）に関するＣｆＰ応答１２件、３６０個のビデオカテゴリーに関するＣｆＰ応答１２件がそれぞれ提出された。２０１８年４月に、第１２２回のＭＰＥＧ／第１０回のＪＶＥＴ会議で、受信されたすべてのＣｆＰ応答が評価された。この会議の結果として、ＪＶＥＴは、ＨＥＶＣを超える次世代ビデオコーディングの標準化プロセスを正式に開始した。新しい規格は、汎用ビデオコーディング（ＶＶＣ：ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）と命名され、ＪＶＥＴは、共同ビデオ専門家チーム（ＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔＴｅａｍ）と改名された。

量子化は、画像およびビデオ圧縮の標準および制作におけるコアプロセスであり、また圧縮品質損失の1つの主な源である。量子化効率を改善することは、すべての画像およびビデオ圧縮のタスクにおいて、大きなパフォーマンス利得をもたらすことができる。

例示的な実施形態によれば、方法および装置が提供され、当該装置は、コンピュータプログラムコードを記憶するように構成されたメモリと、コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードの指示に従って動作するように構成された１つまたは複数のプロセッサと、を含む。前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、ビデオデータの入力ストリームを取得させるように構成された取得コードと、前記少なくとも１つのプロセッサに、前記入力ストリームにおける浮動小数点数に基づいてキーを計算させるように構成された計算コードと、前記少なくとも１つのプロセッサに、状態予測器と複数の以前のキーと複数の以前のＤＱ状態とに基づいて、現在の依存量子化（ＤＱ）状態を予測させるように構成された予測コードと、前記少なくとも１つのプロセッサに、前記キーおよび前記現在のＤＱ状態に基づいて、前記浮動小数点数を再構成させるように構成された再構成コードと、前記少なくとも１つのプロセッサに、前記再構成された浮動小数点数に基づいて、前記ビデオをコーディングさせるように構成されたコーディングコードと、を含む。

例示的な実施形態によれば、前記キーを計算するステップおよび前記浮動小数点数を再構成するステップは、１つまたは複数の深層ニューラルネットワーク（ＤＮＮ）を実現するステップ、を含む。

例示的な実施形態によれば、前記状態予測器は、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数を含む。

例示的な実施形態によれば、前記計算コードは、さらに、前記少なくとも１つのプロセッサに、前記入力ストリームにおける前記浮動小数点数を含む複数の浮動小数点数に基づいて、前記キーを含む複数のキーを計算させるように構成され、前記再構成コードは、さらに、前記少なくとも１つのプロセッサに、前記複数のキーおよび少なくとも前記現在のＤＱ状態に基づいて、前記複数の浮動小数点数を再構成させるように構成される。

例示的な実施形態によれば、前記アクションは、前記ＤＱ状態のうちの少なくとも１つに対応する。

例示的な実施形態によれば、前記状態予測器は、さらに、前記アクションを含む複数のアクションのうちの１つと、前記ＤＱ状態のうちの少なくとも１つを含む前記ＤＱ状態のうちの１つとの間のそれぞれの対応関係を含む。

例示的な実施形態によれば、前記現在のＤＱ状態を予測するステップは、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数、前記以前のキー、および前記以前のＤＱ状態を実現するステップ、を含む。

例示的な実施形態によれば、前記状態予測器は、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数を含み、前記出力Ｑ値は、前記アクションを含む一連のアクションに関連付けられたターゲット量子化性能の測定値を表す。

例示的な実施形態によれば、前記状態予測器に基づいて前記現在のＤＱ状態を予測するステップは、アクションごとに、前記出力Ｑ値を含むＱ値を計算するステップ、を含む。

例示的な実施形態によれば、前記出力Ｑ値は、計算されたＱ値から選択される。

開示された主題のさらなる特徴、性質および様々な利点は、以下の詳細な説明および添付の図面からより明らかになる。
実施形態に係る通信システム概略図の簡略図である。実施形態に係る概略図の簡略図である。実施形態に係る概略図の簡略図である。実施形態に係る概略図の簡略図である。実施形態に係る図の簡略図である。実施形態に係る図の簡略図である。実施形態に係る図の簡略図である。実施形態に係る図の簡略図である。実施形態に係る図の簡略図である。実施形態に係る図の簡略図である。実施形態に係る図の簡略図である。実施形態に係る図の簡略図である。実施形態に係る図の簡略図である。実施形態に係るフローチャートの簡略図である。実施形態に係る図の簡略図である。実施形態に係るフローチャートの簡略図である。実施形態に係る図の簡略図である。実施形態に係るフローチャートの簡略図である。実施形態に係る図の簡略図である。実施形態に係るフローチャートの簡略図である。実施形態に係る図の簡略図である。実施形態に係るフローチャートの簡略図である。実施形態に係る概略図の簡略図である。

以下で説明する提案される機能は、単独で使用されてもよく、任意の順序で組み合わせて使用されてもよい。さらに、実施形態は、処理回路（例えば、１つまたは複数のプロセッサまたは１つまたは複数の集積回路）によって実現され得る。一例では、１つまたは複数のプロセッサは、非一時的なコンピュータ読み取り可能な媒体に記憶されているプログラムを実行する。

図１は、本開示の実施形態による通信システム１００の簡略化されたブロック図を示す。通信システム１００は、ネットワーク１０５を介して相互接続された、少なくとも２つの端末１０２および１０３を含むことができる。データの単方向伝送について、第１端末１０３は、ネットワーク１０５を介して他の端末１０２に送信するために、ローカル位置でビデオデータを符号化することができる。第２端末１０２は、ネットワーク１０５から他の端末の符号化されたビデオデータを受信し、符号化されたデータを復号して、復元されたビデオデータを表示することができる。単方向データ伝送は、メディアサービングアプリケーションでは一般的である。

図１は、例えば、ビデオ会議中に発生する可能性がある、符号化されたビデオの双方向伝送をサポートする第２ペアの端末１０１および１０４を示す。データの双方向伝送の場合、各端末１０１および１０４は、ネットワーク１０５を介して他の端末に送信するために、ローカルで捕捉されたビデオデータを符号化することができる。各端末１０１および１０４は、他の端末によって送信された、符号化されたビデオデータを受信することもでき、符号化されたデータを復号することができ、また復元されたビデオデータをローカルの表示デバイスに表示することもできる。

図１において、端末１０１、１０２、１０３および１０４は、サーバ、パーソナルコンピュータ、およびスマートフォンとして示されてもよいが、本開示の原理は、そのように限定されない場合がある。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤおよび／または専用のビデオ会議機器での適用が見い出される。ネットワーク１０５は、符号化されたビデオデータを端末１０１、１０２、１０３および１０４で送信する任意の数のネットワークを表し、例えば、有線および／または無線の通信ネットワークを含む。通信ネットワーク１０５は、回線交換および／またはパケット交換のチャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび／またはインターネットを含む。本議論の目的のために、ネットワーク１０５のアーキテクチャおよびトポロジは、以下に本明細書で説明されない限り、本開示の動作にとって重要ではない場合がある。

図２は、開示された主題に対するアプリケーションの例として、ストリーミング環境におけるビデオエンコーダおよびデコーダの配置を示す。開示された主題は、例えば、ＣＤ、ＤＶＤ、メモリスティックなどを含むデジタルメディアへの圧縮されたビデオの記憶、ビデオ会議、デジタルＴＶなどを含む、他のビデオサポートアプリケーションにも同等に適用可能である。

ストリーミングシステムは、捕捉サブシステム２０３を含むことができ、この捕捉サブシステムが、例えばデジタルカメラなどのビデオソース２０１を含むことができ、例えば圧縮されていないビデオサンプルストリーム２１３を作成する。サンプルストリーム２１３は、符号化されたビデオビットストリームと比較する際に高いデータボリュームとして強調され得ており、また、カメラ２０１に結合されたエンコーダ２０２によって処理され得る。エンコーダ２０２は、以下で詳細に説明するように、開示された主題の様々な態様を可能にするかまたは実現するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。サンプルストリームと比較する際により低いデータボリュームとして強調され得る符号化されたビデオビットストリーム２０４は、将来の使用のためにストリーミングサーバ２０５に記憶されることができる。１つ以上のストリーミングクライアント２１２および２０７は、ストリーミングサーバ２０５にアクセスして、符号化されたビデオビットストリーム２０４のコピー２０８および２０６を検索することができる。クライアント２１２は、ビデオデコーダ２１１を含むことができ、このビデオデコーダ２１１は、入ってくる、符号化されたビデオビットストリーム２０８のコピーを復号して、出ていく、ビデオサンプルストリーム２１０を作成することができ、このビデオサンプルストリーム２１０が、ディスプレイ２０９または他のレンダリングデバイス（図示せず）に表示されることができる。一部のストリーミングシステムでは、ビデオビットストリーム２０４、２０６および２０８は、特定のビデオコーディング/圧縮規格に従ってエンコードされることができる。それらの標準の例は、以上に記載されており、また本明細書でさらに説明されている。

図３は、本発明の実施形態による、ビデオデコーダ３００の機能ブロック図であり得る。

図３に示すように、受信機３０２は、ビデオデコーダ３００によって復号される１つ以上の符号化されたビデオシーケンスを受信することができ、同じまたは別の実施形態では、一度に１つの符号化されたビデオシーケンスを受信することができ、ここで、各符号化されたビデオシーケンスの復号が、他の符号化されたビデオシーケンスから独立している。符号化されたビデオシーケンスは、チャネル３０１から受信されることができ、このチャネルが、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア／ソフトウェアのリンクであってもよい。受信機３０２は、それぞれの使用エンティティ（図示せず）に転送されることができる、例えば符号化されたオーディオデータおよび／または補助のデータストリームなどの他のデータとともに、符号化されたビデオデータを受信することができる。受信機３０２は、符号化されたビデオシーケンスを他のデータから分離することができる。ネットワークジッタを防止するために、バッファメモリ３０３は、受信機３０２とエントロピーデコーダ／解析器（Ｐａｒｓｅｒ）３０４（以後の「解析器」）との間に結合されることができる。受信機３０２が十分な帯域幅および制御可能性を有するストア／フォワードデバイスからまたは等時性同期ネットワークからデータを受信する場合、バッファメモリ３０３は、必要ではないかまたは小さくてもよい。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファメモリ３０３は、必要になる場合があり、比較的大きくすることができ、有利には適応性のサイズにすることができる。

ビデオデコーダ３００は、エントロピー符号化されたビデオシーケンスからシンボル３１３を再構築するための解析器３０４を含むことができる。これらのシンボルのカテゴリには、ビデオデコーダ３００の動作を管理するために使用される情報と、デコーダの不可欠な部分ではないが、そのデコーダに結合されることができるディスプレイ３１２などのレンダリングデバイスを制御するための潜在的な情報とが含まれる。レンダリングデバイスの制御情報は、補助拡張情報（ＳＥＩ：ＳｕｐｐｌｅｍｅｎｔａｒｙＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）メッセージまたはビデオユーザビリティ情報パラメータセットフラグメント（図示せず）の形であってもよい。解析器３０４は、受信された、符号化されたビデオシーケンスに対して解析／エントロピー復号を行うことができる。符号化されたビデオシーケンスの符号化は、ビデオ符号化技術または規格に従うことができて、当業者に知られている原理に従うことができ、可変長符号化、ハフマン符号化（Ｈｕｆｆｍａｎｃｏｄｉｎｇ）、コンテキスト感度を有するかまたは有しないかの算術符号化などを含む。解析器３０４は、グループに対応する少なくとも１つのパラメータに基づいて、符号化されたビデオシーケンスから、ビデオデコーダにおける画素のサブグループのうちの少なくとも１つのためのサブグループパラメータのセットを、抽出することができる。サブグループは、画像のグループ（ＧＯＰ：ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）、画像、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ：ＣｏｄｉｎｇＵｎｉｔ）、ブロック、変換ユニット（ＴＵ：ＴｒａｎｓｆｏｒｍＵｎｉｔ）、予測ユニット（ＰＵ：ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ）などを含むことができる。エントロピーデコーダ／解析器は、変換係数、量子化器パラメータ値、動きベクトルなどの情報を符号化されたビデオシーケンスから抽出することもできる。

解析器３０４は、シンボル３１３を作成するために、バッファ３０３から受信されたビデオシーケンスに対してエントロピー復号／解析動作を実行することができる。解析器３０４は、符号化されたデータを受信し、特定のシンボル３１３を選択的に復号することができる。さらに、解析器３０４は、動き補償予測ユニット３０６、スケーラ／逆変換ユニット３０５、フレーム内予測ユニット３０７またはループフィルタ３１１に特定のシンボル３１３を提供するかどうかを、決定することができる。

シンボル３１３の再構築は、符号化されたビデオ画像またはその一部（例えば、フレーム間画像およびフレーム内画像、フレーム間ブロックおよびフレーム内ブロック）のタイプ、および他の要因に応じて、複数の異なるユニットに関連することができる。どのようなユニットに関連するか、およびどのように関連するかは、解析器３０４によって、符号化されたビデオシーケンスから解析されたサブグループ制御情報によって制御されることができる。解析器３０４と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは明確にするために説明されていない。

既に言及された機能ブロックに加えて、ビデオデコーダ３００は、以下に説明するように、いくつかの機能ユニットに概念的に細分化されることができる。商業的制約で動作する実際の実施形態では、これらのユニットの多くは、互いに密接に相互作用し、少なくとも部分的には互いに統合されることができる。しかしながら、開示された主題を説明する目的のために、以下の機能ユニットへの概念的な細分が適切である。

第１ユニットは、スケーラ／逆変換ユニット３０５である。スケーラ／逆変換ユニット３０５は、量子化された変換係数と、どのような変換を使用するか、ブロックサイズ、量子化因子、量子化スケーリング行列などを含む制御情報とを、シンボル３１３として解析器３０４から受信する。スケーラ／逆変換ユニット３０５は、アグリゲータ３１０に入力できるサンプル値を含むブロックを出力することができる。

いくつかの場合では、スケーラ／逆変換ユニット３０５の出力サンプルは、フレーム内符号化ブロックに属することができ、即ち、このフレーム内符号化ブロックは、以前に再構築された画像からの予測情報を使用していないが、現在の画像の以前に再構築された部分からの予測情報を使用できるブロックである。このような予測情報は、フレーム内画像予測ユニット３０７によって提供されてもよい。いくつかの場合では、フレーム内画像予測ユニット３０７は、現在の（部分的に再構築された）画像３０９から抽出された、周囲の既に再構築された情報を使用して、再構築中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ３１０は、いくつかの場合では、サンプルごとに基づいて、フレーム内予測ユニット３０７によって生成された予測情報を、スケーラ／逆変換ユニット３０５によって提供される出力サンプル情報に追加する。

他の場合では、スケーラ／逆変換ユニット３０５の出力サンプルは、フレーム間符号化されたブロックおよび潜在的に動き補償されたブロックに属することができる。このような場合、動き補償予測ユニット３０６は、参照画像メモリ３０８にアクセスして、予測に用いられるサンプルを抽出することができる。抽出されたサンプルが、ブロックに関連するシンボル３１３に従って動き補償された後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ３１０によってスケーラ／逆変換ユニットの出力（この場合、残差サンプルまたは残差信号と呼ばれる）に追加されることができる。動き補償ユニットが予測サンプルを抽出するときの参照画像メモリ内のアドレスは、例えば、Ｘ、Ｙおよび参照画像成分を有することができるシンボル３１０の形で、動き補償ユニットに利用可能な動きベクトルによって制御されることができる。動き補償は、サブサンプルの正確な動きベクトルが使用中であるときに、参照画像メモリから抽出されたサンプル値の補間、動きベクトル予測メカニズムなどを含むこともできる。

アグリゲータ３１０の出力サンプルは、ループフィルタユニット３１１において様々なループフィルタリング技術によって採用されてもよい。ビデオ圧縮技術は、符号化されたビデオビットストリームに含まれ、解析器３０４からのシンボル３１３としてループフィルタユニット３１１に利用可能になるパラメータによって制御されるループ内フィルタ技術を含むことができ、また、符号化された画像または符号化されたビデオシーケンスの前の部分（復号順序で）を復号する期間で得られたメタ情報に応答し、および、以前に再構築されてループフィルタされたサンプル値に応答することもできる。

ループフィルタユニット３１１の出力は、レンダリングデバイス３１２に出力することができ、および、将来のフレーム間画像予測で使用するために参照画像メモリ５５７に記憶することができるサンプルストリームとすることができる。

特定の符号化された画像は、一旦完全に再構築されると、将来の予測のための参考画像として使用されることができる。例えば、符号化された画像が一旦完全に再構築され、かつ、符号化された画像が（例えば、解析器３０４によって）参照画像として識別されると、現在の画像３０９は、参照画像バッファ３０８の一部となることができ、また、後続の符号化された画像の再構築を開始する前に、新しい現在の画像メモリを再割り当てすることができる。

ビデオデコーダ３００は、例えばＩＴＵ－ＴＲＥＣ．Ｈ．２６５などの規格における所定のビデオ圧縮技術に従って復号動作を実行することができる。符号化されたビデオシーケンスは、ビデオ圧縮技術ドキュメントまたは規格において、特に、それらのプロファイルドキュメントにおいて指定されたビデオ圧縮技術または規格の構文に従うという意味で、使用されているビデオ圧縮技術または規格によって指定された構文に従うことができる。符号化されたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格の階層によって定義された範囲内にあることもコンプライアンスに必要である。いくつかの場合では、階層は、最大画像サイズ、最大フレームレート、（例えば、毎秒メガ（ｍｅｇａ）個のサンプルを単位として測定された）最大再構築サンプルレート、最大参照画像サイズなどを制限する。階層によって設定された制限は、いくつかの場合では、仮想参照デコーダ（ＨＲＤ：ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ）仕様と、符号化されたビデオシーケンスにおいて信号で通知されたＨＲＤバッファ管理のメタデータとによって、さらに限定されることができる。

一実施形態では、受信機３０２は、符号化されたビデオとともに付加（冗長）的なデータを受信することができる。付加的なデータは、符号化されたビデオシーケンスの一部として含まれることができる。付加的なデータは、データを適切に復号し、および／または、元のビデオデータをより正確に再構築するために、ビデオデコーダ３００によって使用されることができる。付加的なデータは、例えば、時間的、空間的、または信号雑音比（ＳＮＲ：ｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ）拡張層、冗長スライス、冗長画像、前方誤り訂正符号などの形式にすることができる。

図４は、本開示の一実施形態によるビデオエンコーダ４００の機能ブロック図である。

エンコーダ４００は、エンコーダ４００によって符号化されるビデオ画像を捕捉することができるビデオソース４０１（それはエンコーダの一部ではない）から、ビデオサンプルを受信することができる。

ビデオソース４０１は、エンコーダ３０３によって符号化されるソースビデオシーケンスをデジタルビデオサンプルストリームの形で提供することができ、デジタルビデオサンプルストリームは、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット、…）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ…）、および任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）を有することができる。メディアサービスシステムでは、ビデオソース４０１は、以前に準備されたビデオを記憶する記憶デバイスであってもよい。ビデオ会議システムでは、ビデオソース４０１は、ローカル画像情報をビデオシーケンスとして捕捉するカメラであり得る。ビデオデータは、順番に見られるときに動きを与える複数の個別の画像として提供されることができる。画像自体は、空間画素アレイとして構成されてもよく、ここで、各画素は、使用中のサンプリング構造、色空間などに応じて、１つ以上のサンプルを含むことができる。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。

一実施形態によれば、エンコーダ４００は、リアルタイムで、またはアプリケーションによって要求される任意の他の時間制約の下で、ソースビデオシーケンスの画像を符号化して圧縮し、符号化されたビデオシーケンス４１０にすることができる。適切な符号化速度を実施することは、コントローラ４０２の１つの機能である。コントローラは、以下で説明するように他の機能ユニットを制御し、これらのユニットに機能的に結合される。結合は、明瞭にするために図示されていない。コントローラによって設定されたパラメータは、レート制御関連パラメータ（例えば、画像スキップ、量子化器、レート歪み最適化技術のλ（ラムダ）値）、画像サイズ、画像グループ（ＧＯＰ：ｇｒｏｕｐｏｆｐｉｃｔｕｒｅｓ）レイアウト、最大動きベクトル探索範囲などを含むことができる。当業者は、コントローラ４０２の他の機能を容易に識別することができ、これらの機能が、特定のシステム設計のために最適化されたビデオエンコーダ４００に関係するからである。

いくつかのビデオエンコーダは、当業者が容易に認識する「符号化ループ」で動作する。過度に簡単化された説明として、符号化ループは、エンコーダ４０２（以下、「ソースコーダ」）（符号化される入力画像と、参照画像とに基づいてシンボルを作成することを担当する）の符号化部分と、エンコーダ４００に埋め込まれた（ローカル）デコーダ４０６とによって構成されることができ、前記デコーダ４０６は、（リモート）デコーダによってサンプルデータを作成するようにシンボルを再構築してサンプルデータを作成する（開示された主題で考慮されているビデオ圧縮技術では、シンボルと符号化されたビデオビットストリームとの間の任意の圧縮が無損失であるため）。再構築されたサンプルストリームは、参照画像メモリ４０５に入力される。シンボルストリームの復号により、デコーダの場所（ローカルまたはリモート）に関係なくビット正確な結果が得られるため、参照画像バッファのコンテンツは、ローカルエンコーダとリモートエンコーダとの間でもビットで正確に対応する。言い換えれば、エンコーダの予測部分が「見た」参照画像サンプルは、デコーダが復号期間に予測を使用する際に「見た」サンプル値と全く同じである。この参照画像の同期性の基本原理（および、例えばチャネル誤差の原因で同期性を維持できない場合に生じるドリフト）は、当業者によく知られている。

「ローカル」デコーダ４０６の動作は、既に図３に関連して以上で詳細に説明された、「リモート」デコーダ３００の動作と同じであってもよい。しかし、図４をさらに簡単に参照すると、シンボルが利用可能であり、かつ、エントロピーコーダ４０８および解析器３０４によって符号化されたビデオシーケンスへのシンボルの符号化／復号が無損失であることができるため、（チャネル３０１、受信機３０２、バッファメモリ３０３および解析器３０４を含む）デコーダ３００のエントロピー復号部分は、ローカルデコーダ４０６で完全に実行されていない可能性がある。

この時点で、デコーダに存在する解析／エントロピー復号以外のいかなるデコーダ技術も、対応するエンコーダにおいて、実質的に同一の機能形式で必ず存在する必要がある、ということが観察されている。エンコーダ技術の説明は、包括的に説明されているデコーダ技術の逆であるため、省略されることができる。特定の領域だけで、より詳細な説明が必要であり、以下で提供される。

その動作の一部として、ソースコーダ４０３は、動き補償予測符号化を実行することができ、前記動き補償予測符号化は、ビデオシーケンスから「参照フレーム」として指定された１つ以上の以前に符号化されたフレームを参照して、入力フレームを予測的に符号化する。このようにして、コーディングエンジン４０７は、入力フレームの画素ブロックと、入力フレームに対する予測参照として選択されることができる参照フレームの画素ブロックとの間の差分を符号化する。

ローカルビデオデコーダ４０６は、ソースコーダ４０３によって作成されたシンボルに基づいて、参照フレームとして指定されることができるフレームの符号化されたビデオデータを復号することができる。コーディングエンジン４０７の動作は、有利には損失性のプロセスであってもよい。符号化されたビデオデータがビデオデコーダ（図４に示されない）で復号されることができる場合、再構築されたビデオシーケンスは、通常、いくつかの誤差を伴うソースビデオシーケンスのレプリカであってもよい。ローカルビデオデコーダ４０６は、参照フレームに対してビデオデコーダによって実行されることができる復号プロセスを複製して、再構築された参照フレームを参照画像キャッシュ４０５に記憶させることができる。このようにして、エンコーダ４００は、遠端ビデオデコーダによって得られる（伝送誤差が存在しない）再構築された参照フレームと共通のコンテンツを有する再構築された参照フレームのコピーを、ローカルに記憶することができる。

予測器４０４は、コーディングエンジン４０７に対して予測検索を実行することができる。すなわち、符号化される新しいフレームについて、予測器４０４は、新しい画像の適切な予測参照として機能するサンプルデータ（候補参照画素ブロックとして）または特定のメタデータ、例えば参照画像動きベクトル、ブロック形状などについて、参照画像メモリ４０５を検索することができる。予測器４０４は、適切な予測参照を見つけるために、サンプルブロックに基づいて、画素ブロックごとに動作することができる。いくつかの場合では、予測器４０４によって得られた検索結果によって決定されるように、入力画像は、参照画像メモリ４０５に記憶された複数の参照画像から引き出された予測参照を有することができる。

コントローラ４０２は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ビデオコーダ４０３の符号化動作を管理することができる。

上述のすべての機能ユニットの出力は、エントロピーコーダ４０８においてエントロピー符号化されることができる。エントロピーコーダは、ハフマン符号化、可変長符号化、算術符号化などの、当業者に知られている技術に従って、シンボルを無損失で圧縮することにより、様々な機能ユニットによって生成されたシンボルを符号化されたビデオシーケンスに変換する。

送信機４０９は、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア／ソフトウェアリンクであることができる通信チャネル４１１を介した送信に備えるために、エントロピーコーダ４０８によって作成された、符号化されたビデオシーケンスをバッファリングすることができる。送信機４０９は、ビデオコーダ４０３からの符号化されたビデオデータを、送信される他のデータ、例えば、符号化されたオーディオデータおよび／または補助データストリーム（ソースは図示せず）とマージすることができる。

コントローラ４０２は、ビデオエンコーダ４００の動作を管理することができる。符号化する期間、コントローラ４０５は、各符号化された画像に、特定の符号化された画像タイプを割り当てることができ、これは、それぞれの画像に適用できる符号化技術に影響を与える可能性がある。例えば、画像は、以下のフレームタイプのいずれかとして割り当てられることがしばしばある。

フレーム内画像（Ｉ画像）は、シーケンス内の任意の他のフレームを予測ソースとして使用せずに、符号化および復号されることができるものであってもよい。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ（ＩＤＲ：ＩｎｄｅｐｅｎｄｅｎｔＤｅｃｏｄｅｒＲｅｆｒｅｓｈ）画像などの異なるタイプのフレーム内画像を許容する。当業者は、Ｉ画像の変種およびそれらのそれぞれのアプリケーションおよび特徴を理解している。

予測画像（Ｐ画像）は、多くとも１つの動きベクトルおよび参照インデックスを使用して各データブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して、符号化および復号され得るものであってもよい。

双方向予測画像（Ｂ画像）は、多くとも２つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して、符号化および復号され得るものであってもよい。同様に、複数の予測画像は、単一のブロックの再構築に２つ以上の参照画像および関連されたメタデータを使用することができる。

ソース画像は、一般的に、複数のサンプルデータブロック（例えば、それぞれ４ｘ４、８ｘ８、４ｘ８、または１６ｘ１６個のサンプルのブロック）に空間的に細分化され、ブロックごとに符号化されることができる。ブロックは、当該ブロックのそれぞれの画像に適用される符号化割り当てによって決定されるように、他の（既に符号化された）ブロックを参照して予測的に符号化されることができる。例えば、Ｉ画像のブロックは、非予測的に符号化されてもよく、またはそれらが同じ画像の既に符号化されたブロックを参照して予測的に符号化されてもよい（空間予測またはフレーム内予測）。Ｐ画像の画素ブロックは、１つ前に符号化された参照画像を参照して、空間的予測を介してまたは時間的予測を介して予測的に符号化されてもよい。Ｂ画像のブロックは、１つまたは２つ前に符号化された参照画像を参照して、空間予測または時間領域予測を介して予測的に符号化されてもよい。

ビデオコーダ４００は、例えばＩＴＵ－ＴＲＥＣ．Ｈ．２６５などの所定のビデオ符号化技術または規格に従って、符号化動作を実行することができる。その動作において、ビデオコーダ４００は、入力ビデオシーケンスにおける時間的および空間的冗長性を利用する予測符号化動作を含む、さまざまな圧縮動作を実行することができる。したがって、符号化されたビデオデータは、使用されるビデオ符号化技術または規格によって指定された構文に従うことができる。

一実施形態では、送信機４０９は、符号化されたビデオとともに、付加的なデータを送信することができる。ソースコーダ４０３は、そのようなデータを、符号化されたビデオシーケンスの一部として含むことができる。付加的なデータは、時間的／空間的／ＳＮＲ拡張層、冗長画像やスライスなどの他の形式の冗長データ、補足拡張情報（ＳＥＩ：ＳｕｐｐｌｅｍｅｎｔａｒｙＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）メッセージ、視覚ユーザビリティ情報（ＶＵＩ：ＶｉｓｕａｌＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ）パラメータセットフラグメントなどを含むことができる。

図５は、ＨＥＶＣおよびＪＥＭで使用されるフレーム内予測モードを示す。自然なビデオで示される任意のエッジ方向を捕捉するために、方向性フレーム内モードの数は、ＨＥＶＣで使用されている３３から６５に拡張された。図９Ｂでは、ＨＥＶＣ上にあるＪＥＭにおける追加の方向性モードは、点線矢印として描かれ、平面モードとＤＣモードは、そのままである。これらのより高密度の方向性フレーム内予測モードは、すべてのブロックサイズのために、かつ、輝度および色度の両方のフレーム内予測のために適用される。図５に示すように、奇数フレーム内予測モードインデックスに関連付けられた、点線矢印によって識別される方向性フレーム内予測モードは、奇数フレーム内予測モードと呼ばれる。偶数フレーム内予測モードインデックスに関連付けられた、実線矢印によって識別される方向性フレーム内予測モードは、偶数フレーム内予測モードと呼ばれる。本明細書では、図５の実線または点線の矢印で示されるような方向性フレーム内予測モードは、角度モードとも呼ばれる。

ＪＥＭでは、合計６７個のフレーム内予測モードが輝度フレーム内予測のために使用されている。フレーム内モードをコーディングするために、隣接するブロックのフレーム内モードに基づいて、サイズが６である最確モード（ＭＰＭ：ＭｏｓｔＰｒｏｂａｂｌｅＭｏｄｅ）リストが確立されている。フレーム内モードがＭＰＭリストからでない場合、フラグは、フレーム内モードが選択されたモードに属するかどうかを示すために信号で通知される。ＪＥＭ－３．０では、１６個のモードが選択されており、これらのモードは、４つの角度モードごとに統一的に選択される。ＪＶＥＴ－Ｄ０１１４およびＪＶＥＴ－Ｇ００６０では、統一的に選択されたモードを置き換えるために、１６個の２次ＭＰＭが導出された。

図６は、フレーム内方向性モードに利用されるＮ個の参照層を示す。ブロックユニット６１１と、セグメントＡ６０１と、セグメントＢ６０２と、セグメントＣ６０３と、セグメントＤ６０４と、セグメントＥ６０５と、セグメントＦ６０６と、第１参照層６１０と、第２参照層６０９と、第３参照層６０８と、第４参照層６０７とがある。

ＨＥＶＣとＪＥＭの両方、およびＨ．２６４／ＡＶＣなどの他のいくつかの標準では、現在のブロックを予測するために使用される参照サンプルは、最も近い参照線（行または列）に制限されている。マルチ参照線フレーム内予測の方法では、フレーム内方向性モードの場合、候補参照線（行または列）の数は、１（すなわち最も近い）からＮに増加され、ここで、Ｎは、１以上の整数である。図７は、４×４予測ユニット（ＰＵ）を例にして、マルチ線フレーム内方向性予測方法の概念を示す。フレーム内方向性モードは、Ｎ個の参照層のうちの１つを任意に選択して予測器を生成することができる。言い換えれば、予測器ｐ（ｘ，ｙ）は、参照サンプルＳ１、Ｓ２、…、Ｓｎのうちの１つから生成される。フラグは、フレーム内方向性モードのためにどの参照層が選択されたかを示すために信号で通知される。Ｎを１に設定すると、フレーム内方向性予測方法は、ＪＥＭ２．０における従来の方法と同様である。図６では、参照線６１０、６０９、６０８および６０７は、左上の参照サンプルとともに、６つのセグメント６０１、６０２、６０３、６０４、６０５および６０６から構成される。本明細書では、参照層は、参照線とも呼ばれる。現在のブロックユニット内の左上の画素の座標は（０，０）であり、第１参照線における左上の画素の座標は（－１，－１）である。

ＪＥＭでは、輝度成分について、フレーム内予測サンプルの生成のために使用される隣接サンプルは、生成処理の前にフィルタリングされる。フィルタリングは、所与のフレーム内予測モードおよび変換ブロックサイズによって制御される。フレーム内予測モードがＤＣである場合、または、変換ブロックサイズが４×４に等しい場合、隣接するサンプルはフィルタリングされない。所与のフレーム内予測モードと垂直モード（または水平モード）との間の距離が、事前定義された閾値よりも大きい場合、フィルタリング処理が可能になる。隣接するサンプルのフィルタリングには、［１，２，１］フィルタとバイリニアフィルタとが使用されている。

位置依存フレーム内予測組み合わせ（ＰＤＰＣ：ｐｏｓｉｔｉｏｎｄｅｐｅｎｄｅｎｔｉｎｔｒａｐｒｅｄｉｃｔｉｏｎｃｏｍｂｉｎａｔｉｏｎ）方法は、フィルタリングされていない境界参照サンプルと、フィルタリングされた境界参照サンプルを有するＨＥＶＣスタイルフレーム内予測との組み合わせを呼び出すフレーム内予測方法である。（ｘ，ｙ）に位置する各予測サンプルｐｒｅｄ［ｘ］［ｙ］は、以下のように計算される。

ここで、Ｒ_{ｘ，－１、}Ｒ_－１，Ｙは、それぞれ、現在のサンプル（ｘ，ｙ）の上部および左側にある、フィルタリングされていない参照サンプルを示し、また、Ｒ_{－１，－１}は、現在のブロックの左上隅にある、フィルタリングされていない参照サンプルを示す。重みは、以下のように計算される。

図７は、ＤＣモードＰＤＰＣの重み（ｗＬ，ｗＴ，ｗＴＬ）が１つの４×４ブロック内の（０，０）および（１，０）位置に使用される図７００を示す。ＰＤＰＣがＤＣ、平面、水平および垂直フレーム内モードに適用される場合、ＨＥＶＣＤＣモード境界フィルタまたは水平／垂直モードエッジフィルタなどの、追加の境界フィルタは必要ではない。図７は、右上の対角モードに適用されるＰＤＰＣのための参照サンプルＲ_ｘ，－１、Ｒ_－１，ｙおよびＲ_{－１，－１}の定義を示す。予測サンプルｐｒｅｄ（ｘ’，ｙ’）は、予測ブロック内の（ｘ’，ｙ’）に位置する。参照サンプルＲ_ｘ，－１の座標ｘは、ｘ＝ｘ’＋ｙ’＋１によって与えられ、同様に、参照サンプルＲ_－１，ｙの座標ｙは、ｙ＝ｘ’＋ｙ’＋１によって与えられる。

図８は、局所照明補償（ＬＩＣ：ＬｏｃａｌＩｌｌｕｍｉｎａｔｉｏｎＣｏｍｐｅｎｓａｔｉｏｎ）図８００を示しており、スケーリング係数ａおよびオフセットｂを使用した照明変化用線形モデルに基づいている。また、当該局所照明補償は、フレーム間モードコード化されたコーディングユニット（ＣＵ：ＣｏｄｉｎｇＵｎｉｔ）ごとに適応的に有効化または無効化される。

ＬＩＣがＣＵに適用される場合、パラメータａおよびｂは、最小二乗法によって現在のＣＵの隣接サンプルとそれらに対応する参照サンプルとを使用して導出される。より具体的には、図８に示すように、ＣＵのサブサンプリングされた（２：１サブサンプリングされた）隣接サンプルと、参照画像における対応するサンプル（現在のＣＵまたはサブＣＵの動き情報により識別される）とが使用される。ＩＣパラメータが導出され、各予測方向にそれぞれ適用される。

ＣＵがマージモードでコード化される場合、ＬＩＣフラグは、マージモードでの動き情報のコピーと同様の方法で、隣接するブロックからコピーされ、そうではない場合、ＬＩＣフラグは、ＬＩＣが適用されるかどうかを示すために、信号でＣＵに通知される。

図９Ａは、ＨＥＶＣで使用されるフレーム内予測モード９００を示す。ＨＥＶＣでは、合計３５個のフレーム内予測モードがあり、そのうち、モード１０は水平モードであり、モード２６は垂直モードであり、また、モード２、モード１８およびモード３４は対角モードである。フレーム内予測モードは、３個の最確モード（ＭＰＭ：ＭｏｓｔＰｒｏｂａｂｌｅＭｏｄｅｓ）および３２個の残りのモードによって信号で通知される。

図９Ｂは、ＶＶＣの実施形態において合計８７個のフレーム内予測モードがある、ということを示しており、ここで、モード１８は水平モードであり、モード５０は垂直モードであり、また、モード２、モード３４およびモード６６が対角モードである。モード－１～－１０およびモード６７～７６は、広角フレーム内予測（ＷＡＩＰ：Ｗｉｄｅ－ＡｎｇｌｅＩｎｔｒａＰｒｅｄｉｃｔｉｏｎ）モードと呼ばれる。

位置（ｘ，ｙ）に位置する予測サンプルｐｒｅｄ（ｘ，ｙ）は、フレーム内予測モード（ＤＣ、平面、角度）と、ＰＤＰＣ表現に従う参照サンプルの線形結合とを使用して予測される。

ここで、Ｒ_ｘ，－１、Ｒ_－１，ｙは、それぞれ、現在のサンプル（ｘ，ｙ）の上部および左側に位置する参照サンプルを表し、Ｒ_{－１，－１}は、現在のブロックの左上隅に位置する参照サンプルを表す。

ＤＣモードについて、重みは、幅と高さの寸法を有するブロックに対して、次のように計算される。

ここで、ｗＴは、同一水平座標を持つ上記参照線に位置する参照サンプルのための重み係数を示し、ｗＬは、同一垂直座標を持つ左参照線に位置する参照サンプルのための重み係数を示し、ｗＴＬは、現在のブロックの左上の参照サンプルのための重み係数を示し、ｎＳｃａｌｅは、重み係数が軸に沿ってどれだけ速く減少されるか（ｗＬは左から右に減少される、またはｗＴは上から下に減少される）、すなわち重み係数減少率を指定し、これは、現在の設計におけるｘ軸（左から右へ）とｙ軸（上から下へ）に沿うことと同じである。３２は、隣接するサンプルのための初期重み係数を表し、また、初期重み係数は、現在のＣＢにおける左上のサンプルに割り当てられた最上（左または左上）の重みでもあり、ＰＤＰＣ処理での隣接サンプルの重み係数は、この初期重み係数以下である必要がある。

平面モードの場合はｗＴＬ＝０、水平モードの場合はｗＴＬ＝ｗＴ、垂直モードの場合はｗＴＬ＝ｗＬである。ＰＤＰＣの重みは、加算とシフトのみによって計算され得る。ｐｒｅｄ（ｘ，ｙ）の値は、式１を使用して１つのステップで計算され得る。

ここで、提案された方法は、単独で使用されてもよく、任意の順序で組み合わせて使用されてもよい。さらに、各方法（または実施形態）、エンコーダおよびデコーダは、処理回路（例えば、１つまたは複数のプロセッサまたは１つまたは複数の集積回路）によって実現され得る。一例では、１つまたは複数のプロセッサは、非一時的なコンピュータ読み取り可能な媒体に記憶されているプログラムを実行する。実施形態によれば、ブロックという用語は、予測ブロック、コーディングブロック、またはコーディングユニット、すなわちＣｕとして解釈され得る。

依存量子化（ＤＱ：ＤｅｐｅｎｄｅｎｔＱｕａｎｔｉｚａｔｉｏｎ）またはトレリスコード化（ｔｒｅｌｌｉｓ－ｃｏｄｅｄ）された量子化は、２つの量子化器Ｑ０およびＱ１と、それらの間の切り替えのための手順とを含む。図１０は、ＤＱ機構の例示的な説明図１０００を示す。図３におけるデコーダ３００などのデコーダ側では、再構成された数ｘ’は、Ｑ０またはＱ１のいずれかのための量子化ステップサイズΔを整数キーｋに乗算することによって決定され得る。Ｑ_０とＱ_１との間の切り替えは、Ｍ＝２^Ｋ個のＤＱ状態を有する状態マシンによって表すことができ、ここで、ｋ≧２（したがってｍ≧４）であり、ここで、各ＤＱ状態は、量子化器Ｑ_０またはＱ_１のうちの１つに関連付けられている。現在のＤＱ状態は、以前のＤＱ状態と現在の量子化キーの値とによって一意に決定される。入力ストリームｘ_１，ｘ_２，…を符号化するために、Ｑ_０とＱ_１との間の潜在的な遷移は、２^Ｋ個のＤＱ状態を有するトレリスによって示され得る。これによって、量子化キーｋ_１，ｋ_２，…の最適なシーケンスを選択することは、最小のレート歪み（Ｒ－Ｄ）コストを有するトレリスパスを見つけることと同等であり、また、この問題は、Ｖｉｔｅｒｂｉアルゴリズムによって解決され得る。

しかしながら、このような手作業で設計された状態マシンがＶＶＣ標準では必要とされる場合でも、このような必要な状態マシンを手作業で設計することは、たとえ経験的にであっても、実際には実現され得ない。例えば、このようなＤＱ方法の主な制限は、少なくとも３つの態様にある。第１には、２つの量子化器のみが使用され、ビット消費は、例えば量子化器の数を増加させる本明細書の例示的な実施形態によれば、数を符号化する際に低減され得る。第２には、状態マシンを手作業で設計することは最適ではなく、大量のＤＱ状態を含めるためのコストは高すぎている。量子化器の数を増やすことは、ＤＱ状態の数を増やす必要があり、これは、量子化効率を向上させることができるが、状態マシンが複雑すぎて手作業で設計することが困難になる。最後に、ヒューリスティックに設計されたキーの生成および数の再構成は、手設計であっても、最適ではないし実用的でもない場合がある。他のより優れた方法を探すには、分野の専門知識が必要であり、手動で設計するためのコストは、かかりすぎる場合がある。

図１０の図１０００に示すように、ＤＱ設計でＱ_０とＱ_１を使用する例が示されており、ここで、再構成された数は、量子化ステップサイズΔを整数キーに乗算することによって表され得ており、円の上のラベルは、関連付けられた状態を表し、円の下のラベルは、関連付けられた量子化キーを表す。４つの状態を有するＶＶＣにおける状態マシンの例として、図１１の例示的な図１１００を参照する。以下で説明するように、例示的な実施形態は、深層強化学習（ＤＲＬ：ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）に基づく学習ベースのＥ２ＥＤＱ機構を含み、例えば、任意の数のＤＱ状態をサポートし、また、異なるＤＱ状態間の遷移をＤＱＮアルゴリズムによって自動的に学習しながら、入力ストリームをＥ２Ｅ方式で量子化して再構成する。

図１２における図１２００、および図１３におけるそれに関連するフローチャート１３００、ならびに図１４における図１４００およびそれに関連するフローチャート１４００は、それぞれ、テスト段階のエンコーダおよびデコーダのワークフローの例示的な実施形態を示す。例えば、Ｓ１３０１において、入力ストリームＸ＝ｘ_１，ｘ_２，…が与えられ、ここで、各ｘ_ｉは、浮動小数点数であり、数ｘ_ｉごとについて、キー計算モジュール１２０１は、Ｓ１３０２において、ｘ_ｉに基づいてキー生成器１２０２を使用することによって、キーｙ_ｉを計算する。次に、状態予測モジュール１２０３は、Ｓ１３０３において、状態予測器１２０４を使用することによって、現在のＤＱ状態ｓ_ｉを計算する。状態予測モジュール１２０３の入力は、ｍ個の以前のキーｙ_{ｉ－（ｍ－１）}・・・ｙ_ｉ（ｍ≧１）と、ｎ個の以前のＤＱ状態ｓ_ｉ－ｎ、・・・、Ｓ_ｉ－ｌ（ｎ≧１）とを含み、ここで、ｍとｎは、同一であってもよく、異なっていてもよい。モード間の選択は、Ｓ１３０５において、予め決定された基準または設定に基づいて行われてもよく、例えば、１つの好ましい実施形態では、Ｓ１３０６において、ｎ＝１およびｍ＞１とし、状態ｓ_ｉ－１は、ｍ個のキーの各々に結合されて、ペアを形成し、ｍ個のペアは、一緒に積み重ねられて、サイズが（ｍ，２）である入力行列を形成する。逆に、Ｓ１３０７において、別の好ましい実施形態では、ｍ＝ｎとし、各キーと対応する状態とは、ペア（ｙ_ｌ，ｓ_ｌ－１）を形成し、ｍ個のペアは、一緒に積み重ねられて、サイズが（ｍ，２）である入力行列を形成し、これにより、システムは、例えば図１４００のように、キーｙ_ｉをデコーダに送信し、次の数ｘ_ｉ＋１の処理に進む。

デコーダ側では、例えば図１４００において、Ｓ１５０１においてキーｙ_ｉを受信した後、状態予測モジュール１４０４は、エンコーダと同じ方法で、例えば図１２００において、入力されたｍ個の以前のキーｙ_{ｉ－（ｍ－１）、…、}ｙ_ｉおよびｎ個の以前のＤＱ状態Ｓ_ｉ－ｎ・・・、Ｓ_ｉ－１に基づいて、状態予測器１４０３を使用することによって、現在のＤＱ状態ｓ_ｉを計算する。次に、Ｓ１５０３において、入力復元モジュール１４０６は、キーｙ_ｉおよびＤＱ状態ｓ_ｉに基づいて、入力再構成器１４０５を使用することによって、再構成された数ｘ_ｉ＾を計算する。例示的な実施形態によれば、状態予測器１２０４および１４０３のいずれか一方または両方は、入力された以前のキーｙ_{ｉ－（ｍ－１）}・・・、ｙ_ｉおよび以前のＤＱ状態ｓ_ｉ－ｎ，…，ｓ_ｉ－１が与えられた場合、アクションａ_ｉｊと前記アクションに関連付けられた出力Ｑ値ｖ_ｉｊとの間のアクション－値マッピング関数ｆ（ａ_ｉｊ，ｖ_ｉ｜ｙ_{ｉ－（ｍ－１）}，…，ｙ_ｉ，ｓ_ｉ－ｎ，…，ｓ_ｉ－１）であり、j＝１、．．．、Ｊ（合計Ｊ個の可能なアクションがあると仮定する）である。ここで、各アクションａ_ｉｊは、システムが取ることができるＤＱ状態に対応し、したがって、合計でＪ個のＤＱ状態を有する。ｉ番目の数x_iについて、状態予測器は、全ての可能なアクションａ_ｉｊのＱ値ｖ_ｉｊを計算し、最適なＱ値ｖ_ｉ ^＊を持つ最適なアクションａ_ｉ ^＊を選択する。最適なアクションａ_ｉ ^＊に対応するＤＱ状態は、システムが選択した状態ｓ_ｉである。Ｑ値は、一連のアクションに関連付けられたターゲット量子化性能を測定するために設計される。したがって、最適なアクションを選択することは、最適なターゲット量子化性能を与える。さらに、このような深層Ｑ学習機構、特にオフポリシーＤＲＬ方法であるＤＱＮアルゴリズムは、例示的な実施形態による好ましい訓練方法として使用される。例えば、ＤＱＮは、任意の所与の有限マルコフ決定プロセス（ｆｉｎｉｔｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）に対して、最適なアクション選択ポリシーを見出し、上記決定プロセスは、アクション－値マッピング関数を学習して、報酬Ｑ値をアクションに割り当てる。ポリシーは、システムがアクションを選択する際に従う規則である。現在の状態を与えられると、学習エージェントは、１組の候補アクションから選択することができ、その結果、異なる報酬値が得られる。様々な状態を経験し、様々な状態で様々なアクションを試みることによって、学習エージェントは、タイムアウト学習を通じて報酬を最適化し、将来の任意の所定の状態で最適なパフォーマンスを発揮できるようにする。

例示的な実施形態によれば、状態予測器１２０４、１４０３、および以下の状態予測器１６０４、１８２３、２００４のうちの任意の１つまたは複数の状態予測器は、例えばＤＮＮであり、当該ＤＮＮは、アクション－値マッピング関数ｆ（ａ_ｉｊ，ｖ_ｉ｜ｙ_{ｉ－（ｍ－１）}，…，ｙ_ｉ，ｓ_ｉ－ｎ，…，ｓ_ｉ－１）を推定するための関数近似器として機能する。このような状態予測器ＤＮＮは、一般に、１組の畳み込み層と、それに続く１つまたは複数の完全接続層を含み、また、キー生成器１２０２および以下のキー生成器１６０２および２００２のうちの任意の１つまたは複数のキー生成器のようなキー生成器、および、入力再構成器１４０５および以下の入力再構成器１６０７、２０２２のうちの任意の１つまたは複数の入力再構成器のような入力再構成器は、両方ともＤＮＮ（例えば、いくつかの畳み込み層とそれに続く完全接続層）である。例示的な実施形態によれば、このような状態予測器、キー生成器、および入力再構成器は、エンドツーエンドの方式で連携して訓練され得る。

例示的な実施形態によれば、図１６の図１６００は、以下に説明する図１７の例示的なフローチャート１７００とともに、訓練段階の例示的なワークフローを表す。例えば、Ｓ１７０１において、Ｓｔａｔｅ（ｔ_ｓ－１）は、現在の状態予測器、例えば状態予測器１６０４とされ、Ｋｅｙ（ｔ_ｋ－１）は、現在のキー生成器、例えばキー生成器１６０２を表し、Ｒｅｃｏｎ（ｔ_ｒ－１）は、現在の入力再構成器、例えば入力再構成器１６０７とされ、ここで、ｔＳ、ｔＫおよびｔｒは、異なってもよく、これにより、このような状態予測器、キー生成器、および入力再構成器は、異なる頻度で異なる時間に更新され得る。

Ｓ１７０２において、訓練入力ストリームＸ＝ｘ_１，ｘ_２，…が与えられ、数ｘ_ｉごとに、キー計算モジュール１６０１は、Ｓ１７０３において、現在のキー生成器のＫｅｙ（ｔ_Ｋ－１）を使用して、ｘ_ｉに基づいて、キーｙ_ｉを計算する。テスト段階と同様に、状態予測モジュール１６０３の入力は、ｍ個の以前のキーｙ_{ｉ－（ｍ－１）}，…，ｙ_ｉ（ｍ≧１）と、ｎ個の以前のＤＱ状態ｓ_ｉ－ｎ，…，ｓ_ｉ－１（ｎ≧１）とを含み、これに基づいて、状態予測モジュール１６０３は、現在の状態予測器Ｓｔａｔｅ（ｔ_Ｓ－１）を使用して、ＤＱ状態ｓ_ｉを計算する。そして、入力復元モジュール１６０６は、Ｓ１７０４において、現在の入力再構成器Ｒｅｃｏｎ（ｔ_ｒ－１）を使用して、キーｙ_ｉおよびＤＱ状態ｓ_ｉに基づいて、再構成された数ｘ_ｉ’を計算する。Ｓ１７０６において、歪みＤ_ｉは、元の入力ｘ_１，…，ｘ_ｉと数ｘ_ｉの前の再構成された数ｘ_１’，…，ｘ_ｉ’との間の差を測定するために、歪み計算モジュール１６０８において計算され得て、ここで、例えば、Ｄ_ｉは、ストリームにおける対応する要素間の差のＬ_{ｋ－ｎｏｒｍ}の平均値であってもよく、例えば、Ｌ_{１－ｎｏｒｍ}は、平均絶対誤差とし_、また、Ｌ_{２－ｎｏｒｍ}は、平均二乗誤差とする。

同時に、Ｓ１７０５において、レート損失Ｒ_ｉは、ｙ_ｉの前のキーｙ_１，…，ｙ_ｉのビット消費量を測定するために、レート計算モジュール１６０９において計算され得て、ここで、例えば、ｙ_１，…，ｙ_ｉは、任意のエントロピーコーディング方法を使用して圧縮され得て、また、Ｒ_ｉは、圧縮されたビットストリームのビットカウントである。その後、Ｓ１７０７において、システムは、次の数ｘ_ｉ＋１の処理に進む。

例示的な実施形態によれば、図１８の例示的な図１８０３、および図１９の関連するフローチャート１９００は、図１６における状態予測モジュール１６０３、および同様に図２０の状態予測モジュール２００３などの状態予測モジュールの詳細を表す。例えば、Ｓ１９０１において、ｍ個のキーＹ_ｉ＝ｙ_{ｉ－（ｍ－１）}，…，ｙ_ｉ、および、ｎ個の以前のＤＱ状態S_i-1=s_i-n,…,s_i-1が入力として与えられ、状態予測器ＤＮＮＳｔａｔｅ（ｔ_ｓ－１）は、Ｓ１９０２において、状態値計算モジュール１８２１において全ての可能なアクションａ_ｉｊ（ｊ＝１、…、Ｊ）のＱ値ｖ_ｉｊを計算する。次に、Ｓ１９０３において、状態選択モジュール１８２２は、例えばε－貪欲法（ε－ｇｒｅｅｄｙ）を使用してＤＱ状態ｓ_ｉを選択し、ここで、εは、０と１の間の確率であり、確率εで、ランダムアクションａ_ｉｊを最適アクションａ_ｉ ^＊として選択し、確率（１－ε）で、最適アクションａ_ｉ ^＊を選択することができる。最適アクションａ_ｉ ^＊に対応するＤＱ状態はｓ_ｉである。例示的な実施形態によれば、歪みＤ_ｉおよびＤ_ｉ＋１、ならびに、レート損失Ｒ_ｉおよびＲ_ｉ＋１に基づいて、隣接する数ｘ_ｉおよびｘ_ｉ＋１のペアについて、報酬Φ_ｉ＋１は、現在のＱ入力（キーＹ_ｉ＝ｙ_{ｉ－（ｍ－１）}，…，ｙ_ｉおよびＤＱ状態Ｓ_ｉ－１＝ｓ_ｉ－ｎ，…，ｓ_ｉ－１）が与えられた場合に、状態予測器１８２３がアクションａ_ｉ ^＊を実行することによって取得できる報酬を測定するために計算され得る。

ここで、λは、報酬におけるレート損失と歪みの間のバランスを取るために使用されるハイパーパラメータである。

例示的な実施形態によれば、経験Ｅ（Φ_ｉ＋１，ａ_ｉ ^＊，ｖ_ｉ ^＊，Ｙ_ｉ，Ｓ_ｉ－１）、つまり、例えば報酬計算モジュール１６１０において、キーＹ_ｉと以前のＤＱ状態Ｓ_ｉ－１とに基づいて、関連付けられたＱ値ｖ_ｉ ^＊を持つアクションａ_ｉ ^＊を選択し、そして、報酬Φ_ｉ＋１を取得することは、図１６における再生メモリ１６１２および図２０における再生メモリ２０１２のいずれかのような再生メモリに追加される。このような再生メモリは、通常、最大記憶制限があり、この制限に達すると、最も古い経験が最新の経験に置き換えられる。

状態予測器１８２３、キー生成器１６０２および入力再構成器１６０７を更新する際に、システムは、再生メモリ１６１２から一連の経験をサンプリングし、サンプリングされた経験を使用して、メモリ再生および重み更新モジュール１６１１において、モデルパラメータを更新する。

図２０の例示的な図２０００および図２１のそれに関連するフローチャート２１００は、上述したメモリ再生および重み更新モジュール１６１１の例示的な詳細なワークフローを与える。例えば、訓練段階の期間で、ステップＳ２１０１において、状態予測器２００４、キー生成器２００２および入力再構成器２０２２とまったく同じＤＮＮモデル構造を有するターゲット状態予測器Ｓｔａｔｅ^T、ターゲットキー生成器Ｋｅｙ^T、ターゲット入力再構成器Ｒｅｃｏｎ^Ｔをそれぞれ維持するための処理が実施され得る。唯一の相違点は、モデルパラメータ（すなわち、ＤＮＮの重み係数）にあり、これらのパラメータは、Ｔ_Ｓ、Ｔ_ＫおよびＴ_ｒパラメータの更新サイクルごとに、対応する状態予測器２００４、キー生成器２００２および入力再構成器２０２２からクローニングされる。

具体的には、各パラメータの更新サイクルの期間で、システムは、Ｓ２１０２において、再生メモリ２０１２などの再生メモリから、１組の経験２０２１｛Ｅ（Φ_ｌ＋１，ａ_ｌ ^＊，ｖ_ｌ ^＊，Ｙ_ｌ，Ｓ_ｌ－１）｝をサンプリングする。経験２０２１の経験Ｅ（Φ_ｌ＋１，ａ_ｌ ^＊，ｖ_ｌ ^＊，Ｙ_ｌ，Ｓ_ｌ－１）ごとに、状態予測モジュール２００３では、ターゲット状態予測器、ターゲット状態予測器２０２３、Ｓｔａｔｅ^Tは、Ｓ２１０２において、経験における入力キーＹ_ｌおよびＤＱ状態Ｓ_ｌ－１に基づいて、ターゲットＤＱ状態

を予測する。ターゲットＤＱ状態

に基づいて、ターゲットキー生成器、ターゲットキー生成器２０２４、Ｋｅｙ^T、およびキー計算モジュール２００１は、Ｓ２１０３において、ターゲットキー

を計算する。ターゲットキー

およびターゲットＤＱ状態

に基づいて、ターゲット入力再構成器、ターゲット入力再構成器２０２８、Ｒｅｃｏｎ^Ｔは、Ｓ２１０４において、入力復元モジュール２００６において、ターゲット再構成された

を計算することができる。そして、歪み計算モジュール２０２５は、Ｓ２１０５において、

および経験２０２１における元の

に基づいて、ターゲット歪み

を計算し、また、レート計算モジュール２００９は、Ｓ２１０６において、

に基づいて、ターゲット損失

を計算する。例示的な実施形態によれば、ステップＳ２１０６およびＳ２１０７は、順次または並列に実行されてもよい。Ｓ２１０７において、ターゲット報酬

は、報酬計算モジュール２０１０において、

に基づいて計算され得る。その後、損失計算モジュール２０２６は、Ｓ２１０７において、ターゲット報酬Ｔ（ａ_ｌ ^＊，Ｙ_ｌ，Ｓ_ｌ－１）を計算することもできる。

ここで、

は、入力キー

および状態

が与えられた場合、アクションａ_{（ｌ＋１）ｊ}に対して、ターゲット状態予測器Ｓｔａｔｅ^Tによって予測されたＱ値である。ハイパーパラメータγは、０と１の間での割引率であり、この割引率は、システムが短期的な報酬に対して長期的な報酬をどの程度重要にするかを決定するものである。割引率が小さいほど、システムは長期的な報酬を重視しなく、短期的な報酬のみに関心を持つようになる。そして、ターゲット損失

の計算は、ターゲット報酬Ｔ（ａ_ｌ ^＊，Ｙ_ｌ，Ｓ_ｌ－１）および経験からの元のｖ_ｌ ^＊、例えば、これら２つの報酬の差のＬ_{ｋ－ｎｏｒｍ}に基づいて行われてもよい。

次に、Ｓ２１０９において、ターゲット損失の勾配が計算され、それが逆伝播され、これにより、重み更新モジュール２０２７によって、状態予測器２００４のＤＮＮの重みパラメータがＳｔａｔｅ（ｔｓ）に、キー生成器、キー生成器２００２のＤＮＮの重みパラメータがＫｅｙ（ｔ_Ｋ）に、および入力再構成器、入力再構成器２０２２のＤＮＮの重みパラメータがＲｅｃｏｎ（ｔ_ｒ）に更新される。前述したように、状態予測器２００４、キー生成器２００２、および入力再構成器２０２２は、ここで、異なるタイムスタンプで更新され得る。すなわち、Ｓ２１１０において、損失の勾配が逆伝播され得て、これにより、状態予測器２００４、キー生成器２００２、入力再構成器２０２２のそれぞれが個別に更新され得る。

さらに、Ｓ２１１１において、例えばフローチャート２１００のＴ_Ｓ、Ｔ_Ｋ、およびＴ_ｒの反復ごとに、状態予測器２００４、キー生成器２００２、および入力再構成器２０２２の重みパラメータは、それぞれ、ターゲット状態予測器、ターゲット状態予測器２０２３、Ｓｔａｔｅ^Ｔ、ターゲットキー生成器、ターゲットキー生成器２０２４、Ｋｅｙ^Ｔ、およびターゲット入力再構成器、ターゲット入力再構成器２０２８、Ｒｅｃｏｎ^Ｔにクローニングされる。さらに、例示的な実施形態によれば、再生メモリ２０１２、およびターゲット状態予測器２０２３、ターゲットキー生成器２０２４、ターゲット入力再構成器２０２８を使用することは、訓練処理を安定化させることができる。さらに、例示的な実施形態によれば、再生メモリ２０１２は、１つの最新の経験だけを有することができ、これは、いくつかの状況において、再生メモリが存在しないことに相当する。そして、例示的な実施形態によれば、Ｔ_Ｓ、Ｔ_ＫおよびＴ_ｒは、すべて1に等しくなるため、ターゲット状態予測器２０２３、ターゲットキー生成器２０２４およびターゲット入力再構成器２０２８が反復ごとに更新され、これは、ターゲット状態予測器２０２３、ターゲットキー生成器２０２４およびターゲット入力再構成器２０２８の別のセットが存在しないことに相当する。

そこで、上記の開示を見ると、提供される実施形態は、ＤＱＮを有する学習ベースのＥ２ＥＤＱを含み、当該ＤＱＮは、任意の数のＤＱ状態をサポートすることができ、異なるＤＱ状態間の遷移を深層Ｑネットワーク（ＤＱＮ：ＤｅｅｐＱ－Ｎｅｔｗｏｒｋ）アルゴリズムに基づいて自動的に決定され得ており、したがって、状態予測器、キー生成器、および入力再構成器の異なるＤＮＮ構造に有利に適応する柔軟で汎用的なフレームワークが開示される。

上記の技術は、コンピュータ読み取り可能な命令を使用してコンピュータソフトウェアとして実現されて、１つ以上のコンピュータ読み取り可能な媒体に物理的に記憶され得るか、または特別に構成された１つまたは複数のハードウェアプロセッサによって実現され得る。例えば、図２２は、開示された主題のいくつかの実施形態を実現するのに適したコンピュータシステム２２００を示す。

コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用して符号化されてもよく、アセンブリ、コンパイル、リンクなどのメカニズムによって命令を含むコードを作成してもよいし、この命令は、コンピュータ中央処理ユニット（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、グラフィック処理ユニット（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などによって直接的に実行されてもよく、または解釈、マイクロコードなどによって実行されてもよい。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットのデバイス（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓｄｅｖｉｃｅｓ）などを含む、様々なタイプのコンピュータまたはそのコンポーネントで実行されてもよい。

図２２に示されるコンピュータシステム２２００のコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実現するコンピュータソフトウェアの使用範囲または機能に関するいかなる制限も示唆することが意図されていない。コンポーネントの構成は、コンピュータシステム２２００の例示的な実施形態に示されているコンポーネントのいずれかまたは組み合わせに関連する任意の依存性または要件を有すると解釈されるべきではない。

コンピュータシステム２２００は、いくつかのヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（例えば、キーストローク、スワイプ、データグローブの動き）、オーディオ入力（例えば、音声、拍手など）、視覚入力（例えば、ジェスチャーなど）、嗅覚入力（図示せず）によって、1人以上のユーザによる入力に応答することができる。ヒューマンインターフェース入力デバイスは、例えばオーディオ（例えば、音声、音楽、環境音など）、画像（例えば、スキャンされた画像、静止画像カメラから得られた写真画像など）、ビデオ（例えば、２次元ビデオ、立体映像を含む３次元ビデオなど）などの、人間による意識的な入力に必ずしも直接関連しているとは限らない、特定のメディアを捕捉するために使用されることもできる。

ヒューマンインターフェース入力デバイスは、キーボード２２０１、マウス２２０２、トラックパッド２２０３、タッチスクリーン２２１０、ジョイスティック２２０５、マイクロホン２２０６、スキャナ２２０８、カメラ２２０７のうちの１つまたは複数を含むことができる（各々の1つだけが図示された）。

コンピュータシステム２２００はまた、いくつかのヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚／味覚によって、１人以上のユーザの感覚を刺激することができる。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン２２１０、ジョイスティック２２０５による触覚フィードバックであるが、入力デバイスとして作用しない触覚フィードバックデバイスであってもよい）、オーディオ出力デバイス（例えば、スピーカ２２０９、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン２２１０であり、各々は、タッチスクリーン入力機能を備えてもよく、あるいは備えていなくてもよく、各々は、触覚フィードバック機能を備えてもよく、あるいは備えていなくてもよいし、これらのいくつかは、ステレオグラフィック出力、仮想現実メガネ（図示せず）、ホログラフィックディスプレイとスモークタンク（図示せず）、およびプリンタ（図示せず）などによって、２次元の視覚出力または３次元以上の視覚出力を出力することができる。

コンピュータシステム２２００は、例えば、ＣＤ／ＤＶＤ２２２１を有するＣＤ／ＤＶＤＲＯＭ／ＲＷ２２００を含む光学媒体、または類似の媒体、サムドライブ２２２２、リムーバブルハードドライブまたはソリッドステートドライブ２２２３、テープおよびフロッピーディスク（図示せず）などのレガシー磁気媒体、セキュリティドングル（図示せず）などの特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなどの、人間がアクセス可能な記憶デバイスおよびそれらに関連する媒体を含むことができる。

当業者はまた、ここで開示されている主題に関連して使用される「コンピュータ読み取り可能な媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム２２００はまた、１つ以上の通信ネットワーク２２９８へのインターフェース２２９９を含むことができる。ネットワーク２２９８は、例えば、無線、有線、光学的であってもよい。ネットワーク２２９８は、さらに、ローカルネットワーク、広域ネットワーク、大都市圏ネットワーク、車両用ネットワークおよび産業用ネットワーク、リアルタイムネットワーク、遅延耐性ネットワークなどであってもよい。ネットワーク２２９８の例は、イーサネット（登録商標）、無線ＬＡＮ、セルラーネットワーク（ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含む）などのローカルエリアネットワーク、テレビケーブルまたは無線広域デジタルネットワーク（有線テレビ、衛星テレビ、地上放送テレビを含む）、車両用ネットワークおよび産業用ネットワーク（ＣＡＮＢｕｓを含む）などを含む。いくつかのネットワーク２２９８は、一般に、いくつかの汎用データポートまたは周辺バス（２２５０および２２５１）（例えば、コンピュータシステム２２００のＵＳＢポート）に接続された外部ネットワークインターフェースアダプタが必要であり、他のシステムは、通常、以下に説明するようにシステムバスに接続することによって、コンピュータシステム２２００のコアに統合される（例えば、イーサネットインターフェースからＰＣコンピュータシステムへまたはセルラーネットワークインターフェースからスマートフォンコンピュータシステムへ）。これらのネットワーク２２９８のいずれかを使用して、コンピュータシステム２２００は、他のエンティティと通信することができる。このような通信は、単方向の受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、ＣＡＮバスから特定のＣＡＮバスデバイスへ）、あるいは、双方向の、例えばローカルまたは広域デジタルネットワークを使用して他のコンピュータシステムへの通信であってもよい。上記のように、特定のプロトコルおよびプロトコルスタックは、それらのネットワークおよびネットワークインターフェースのそれぞれで使用されることができる。

上記のヒューマンインターフェースデバイス、ヒューマンアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム２２００のコア２２４０に接続されることができる。

コア２２４０は、１つ以上の中央処理ユニット（ＣＰＵ）２２４１、画像処理ユニット（ＧＰＵ）２２４２、グラフィックアダプタ２２１７、フィールドプログラマブルゲートエリア（ＦＰＧＡ）２２４３の形式の専用プログラマブル処理ユニット、特定のタスクのためのハードウェア加速器２２４４などを含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ：Ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）２２４５、ランダムアクセスメモリ２２４６、例えば内部の非ユーザアクセスハードドライブ、ＳＳＤなどの内部大容量ストレージ２２４７などとともに、システムバス２２４８を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス２２４８は、付加的なＣＰＵ、ＧＰＵなどによって拡張を可能にするために、１つ以上の物理的プラグの形でアクセスすることができる。周辺デバイスは、コアのシステムバス２２４８に直接に接続されてもよく、または周辺バス２２５１を介して接続されてもよい。周辺バスのアーキテクチャは、周辺コンポーネント相互接続（ＰＣＩ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔ）、汎用シリアルバス（ＵＳＢ）などを含む。

ＣＰＵ２２４１、ＧＰＵ２２４２、ＦＰＧＡ２２４３、および加速器２２４４は、いくつかの命令を実行することができ、これらの命令を組み合わせて上記のコンピュータコードを構成することができる。そのコンピュータコードは、ＲＯＭ２２４５またはＲＡＭ２２４６に記憶されることができる。また、一時的なデータは、ＲＡＭ２２４６に記憶されることができる一方、永久的なデータは、例えば内部大容量ストレージ２２４７に記憶されることができる。１つ以上のＣＰＵ２２４１、ＧＰＵ２２４２、大容量ストレージ２２４７、ＲＯＭ２２４５、ＲＡＭ２２４６などと密接に関連することができる、高速ストレージを使用することにより、任意のメモリデバイスに対する高速記憶および検索が可能になる。

コンピュータ読み取り可能な媒体は、様々なコンピュータ実行された動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよく、またはコンピュータソフトウェア分野の技術者によって知られ、利用可能な媒体およびコードであってもよい。

限定ではなく例として、アーキテクチャ２２００、特にコア２２４０を有するコンピュータシステムは、１つ以上の有形な、コンピュータ読み取り可能な媒体に具体化されたソフトウェアを実行する、（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、加速器などを含む）プロセッサの結果として機能を提供することができる。このようなコンピュータ読み取り可能な媒体は、上述したようにユーザがアクセス可能な大容量ストレージに関連する媒体であり、コア内部大容量ストレージ２２４７またはＲＯＭ２２４５などの、不揮発性コア２２４０を有する特定のストレージであってもよい。本開示の様々な実施形態を実現するソフトウェアは、そのようなデバイスに記憶され、コア２２４０によって実行されてもよい。コンピュータ読み取り可能な媒体は、特定のニーズに応じて、１つ以上のメモリデバイスまたはチップを含むことができる。このソフトウェアは、コア２２４０、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ２２４６に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を変更することとを含む、ここで説明された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えてまたは代替として、コンピュータシステムは、ロジックハードワイヤまたは他の方式で回路（例えば、加速器２２４４）によって具体化された結果としての機能を提供することができ、この回路は、ソフトウェアの代わりに動作しまたはソフトウェアと一緒に動作して、ここで説明された特定のプロセスまたは特定のプロセスの特定の部分を実行してもよい。適切な場合には、ソフトウェアへの参照はロジックを含むことができ、逆もまた然りである。適切な場合には、コンピュータ読み取り可能な媒体への参照は、実行のソフトウェアを記憶する回路（例えば、集積回路（ＩＣ）など）、実行のロジックを具体化する回路、またはその両方を兼ね備えることができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。

本開示は、いくつかの例示的な実施形態について説明したが、本開示の範囲内にある変更、置換、および様々な均等置換が存在している。したがって、当業者は、本明細書では明示的に示されていないか、または説明されていないが、本開示の原則を具体化しているので、本開示の精神および範囲内ある、様々なシステムおよび方法を設計することができる、ということを理解されたい。

上記の実施形態につき以下の付記を残しておく。
（付記１）
少なくとも１つのプロセッサが実行するビデオコーディング方法であって、
ビデオデータの入力ストリームを取得するステップと、
前記入力ストリームにおける浮動小数点数に基づいてキーを計算するステップと、
状態予測器と複数の以前のキーと複数の以前のＤＱ状態とに基づいて、現在の依存量子化（ＤＱ）状態を予測するステップと、
前記キーおよび前記現在のＤＱ状態に基づいて、前記浮動小数点数を再構成するステップと、
前記再構成された浮動小数点数に基づいて、前記ビデオをコーディングするステップと、
を含むことを特徴とする方法。
（付記２）
前記キーを計算するステップおよび前記浮動小数点数を再構成するステップは、１つまたは複数の深層ニューラルネットワーク（ＤＮＮ）を実現するステップ、を含む、
ことを特徴とする付記１に記載の方法。
（付記３）
前記状態予測器は、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数を含む、
ことを特徴とする付記１に記載の方法。
（付記４）
前記入力ストリームにおける前記浮動小数点数を含む複数の浮動小数点数に基づいて、前記キーを含む複数のキーを計算するステップと、
前記複数のキーおよび少なくとも前記現在のＤＱ状態に基づいて、前記複数の浮動小数点数を再構成するステップと、をさらに含む、
ことを特徴とする付記３に記載の方法。
（付記５）
前記アクションは、前記ＤＱ状態のうちの少なくとも１つに対応する、
ことを特徴とする付記３に記載の方法。
（付記６）
前記状態予測器は、さらに、前記アクションを含む複数のアクションのうちの１つと、前記ＤＱ状態のうちの少なくとも１つを含む前記ＤＱ状態のうちの１つとの間のそれぞれの対応関係を含む、
ことを特徴とする付記５に記載の方法。
（付記７）
前記現在のＤＱ状態を予測するステップは、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数、前記以前のキー、および前記以前のＤＱ状態を実現するステップ、を含む、
ことを特徴とする付記１に記載の方法。
（付記８）
前記状態予測器は、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数を含み、
前記出力Ｑ値は、前記アクションを含む一連のアクションに関連付けられたターゲット量子化性能の測定値を表す、
ことを特徴とする付記１に記載の方法。
（付記９）
前記状態予測器に基づいて前記現在のＤＱ状態を予測するステップは、アクションごとに、前記出力Ｑ値を含むＱ値を計算するステップ、を含む、
ことを特徴とする付記１に記載の方法。
（付記１０）
前記出力Ｑ値は、計算されたＱ値から選択される、
ことを特徴とする付記１に記載の方法。
（付記１１）
少なくとも１つのプロセッサが実行するビデオコーディングのための装置であって、
コンピュータプログラムコードを記憶するように構成された少なくとも１つのメモリと、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードの指示に従って動作するように構成された少なくとも１つのプロセッサと、を含み、
前記コンピュータプログラムコードは、
前記少なくとも１つのプロセッサに、ビデオデータの入力ストリームを取得させるように構成された取得コードと、
前記少なくとも１つのプロセッサに、前記入力ストリームにおける浮動小数点数に基づいてキーを計算させるように構成された計算コードと、
前記少なくとも１つのプロセッサに、状態予測器と複数の以前のキーと複数の以前のＤＱ状態とに基づいて、現在の依存量子化（ＤＱ）状態を予測させるように構成された予測コードと、
前記少なくとも１つのプロセッサに、前記キーおよび前記現在のＤＱ状態に基づいて、前記浮動小数点数を再構成させるように構成された再構成コードと、
前記少なくとも１つのプロセッサに、前記再構成された浮動小数点数に基づいて、前記ビデオをコーディングさせるように構成されたコーディングコードと、を含む、
ことを特徴とする装置。
（付記１２）
前記キーを計算するステップおよび前記浮動小数点数を再構成するステップは、１つまたは複数の深層ニューラルネットワーク（ＤＮＮ）を実現するステップ、を含む、
ことを特徴とする付記１１に記載の装置。
（付記１３）
前記状態予測器は、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数を含む、
ことを特徴とする付記１１に記載の装置。
（付記１４）
前記計算コードは、さらに、前記少なくとも１つのプロセッサに、前記入力ストリームにおける前記浮動小数点数を含む複数の浮動小数点数に基づいて、前記キーを含む複数のキーを計算させるように構成され、
前記再構成コードは、さらに、前記少なくとも１つのプロセッサに、前記複数のキーおよび少なくとも前記現在のＤＱ状態に基づいて、前記複数の浮動小数点数を再構成させるように構成される、
ことを特徴とする付記１３に記載の装置。
（付記１５）
前記アクションは、前記ＤＱ状態のうちの少なくとも１つに対応する、
ことを特徴とする付記１４に記載の装置。
（付記１６）
前記状態予測器は、さらに、前記アクションを含む複数のアクションのうちの１つと、前記ＤＱ状態のうちの少なくとも１つを含む前記ＤＱ状態のうちの１つとの間のそれぞれの対応関係を含む、
ことを特徴とする付記１５に記載の装置。
（付記１７）
前記現在のＤＱ状態を予測するステップは、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数、前記以前のキー、および前記以前のＤＱ状態を実現するステップ、を含む、
ことを特徴とする付記１に記載の装置。
（付記１８）
前記状態予測器は、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数を含み、
前記出力Ｑ値は、前記アクションを含む一連のアクションに関連付けられたターゲット量子化性能の測定値を表す、
ことを特徴とする付記１に記載の装置。
（付記１９）
前記状態予測器に基づいて前記現在のＤＱ状態を予測するステップは、アクションごとに、前記出力Ｑ値を含むＱ値を計算するステップ、を含み、
前記出力Ｑ値は、計算されたＱ値から選択される、
ことを特徴とする付記１に記載の装置。
（付記２０）
コンピュータに処理を実行させるためのプログラムが記憶されている非一時的なコンピュータ読み取り可能な媒体であって、前記処理は、
ビデオデータの入力ストリームを取得するステップと、
前記入力ストリームにおける浮動小数点数に基づいてキーを計算するステップと、
状態予測器と複数の以前のキーと複数の以前のＤＱ状態とに基づいて、現在の依存量子化（ＤＱ）状態を予測するステップと、
前記キーおよび前記現在のＤＱ状態に基づいて、前記浮動小数点数を再構成するステップと、
前記再構成された浮動小数点数に基づいて、前記ビデオをコーディングするステップと、を含む、
ことを特徴とする非一時的なコンピュータ読み取り可能な媒体。

Claims

少なくとも１つのプロセッサが実行するビデオコーディング方法であって、
ビデオデータの入力ストリームを取得するステップと、
前記入力ストリームにおける浮動小数点数に基づいてキーを計算するステップと、
状態予測器と複数の以前のキーと複数の以前のＤＱ状態とに基づいて、現在の依存量子化（ＤＱ）状態を予測するステップと、
前記キーおよび前記現在のＤＱ状態に基づいて、前記浮動小数点数を再構成するステップと、
前記再構成された浮動小数点数に基づいて、前記ビデオデータをコーディングするステップと、
を含むことを特徴とする方法。
前記キーを計算するステップおよび前記浮動小数点数を再構成するステップは、１つまたは複数の深層ニューラルネットワーク（ＤＮＮ）を実現するステップ、を含む、
ことを特徴とする請求項１に記載の方法。
前記状態予測器は、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数を含む、
ことを特徴とする請求項１又は２に記載の方法。
前記入力ストリームにおける前記浮動小数点数を含む複数の浮動小数点数に基づいて、前記キーを含む複数のキーを計算するステップと、
前記複数のキーおよび少なくとも前記現在のＤＱ状態に基づいて、前記複数の浮動小数点数を再構成するステップと、をさらに含む、
ことを特徴とする請求項３に記載の方法。
前記アクションは、前記ＤＱ状態のうちの少なくとも１つに対応する、
ことを特徴とする請求項３又は４に記載の方法。
前記状態予測器は、さらに、前記アクションを含む複数のアクションのうちの１つと、前記ＤＱ状態のうちの少なくとも１つを含む前記ＤＱ状態のうちの１つとの間のそれぞれの対応関係を含む、
ことを特徴とする請求項５に記載の方法。
前記現在のＤＱ状態を予測するステップは、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数、前記以前のキー、および前記以前のＤＱ状態を実現するステップ、を含む、
ことを特徴とする請求項１に記載の方法。
前記状態予測器は、アクションと、前記アクションに関連付けられた出力Ｑ値との間のアクション－値マッピング関数を含み、
前記出力Ｑ値は、前記アクションを含む一連のアクションに関連付けられたターゲット量子化性能の測定値を表す、
ことを特徴とする請求項１に記載の方法。
前記状態予測器に基づいて前記現在のＤＱ状態を予測するステップは、アクションごとに、前記出力Ｑ値を含むＱ値を計算するステップ、を含む、
ことを特徴とする請求項８に記載の方法。
前記出力Ｑ値は、計算されたＱ値から選択される、
ことを特徴とする請求項９に記載の方法。
少なくとも１つのプロセッサが実行するビデオコーディングのための装置であって、
コンピュータプログラムコードを記憶するように構成された少なくとも１つのメモリと、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードを実行するように構成された少なくとも１つのプロセッサと、を含み、
前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに請求項１乃至１０のうちいずれか１項に記載の方法を実行させる、
ことを特徴とする装置。
コンピュータプログラムであって、
少なくとも１つのプロセッサに請求項１乃至１０のうちいずれか１項に記載の方法を実行させる、
ことを特徴とするコンピュータプログラム。