JP2023501563A

JP2023501563A - 代替エンドツーエンドビデオコーディング

Info

Publication number: JP2023501563A
Application number: JP2022527226A
Authority: JP
Inventors: シャオ・ワン; ウェイ・ジアン; ウェイ・ワン; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-05-12
Filing date: 2021-04-19
Publication date: 2023-01-18
Anticipated expiration: 2041-04-19
Also published as: JP7345650B2; CN114600457A; WO2021231036A1; EP4026052A4; US20210360259A1; EP4026052A1; KR20220077917A; US11388415B2

Abstract

ビデオエンコーダでのビデオ符号化方法は、画像を受信するステップと、エンドツーエンド（Ｅ２Ｅ）最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定するステップとを含む。前記Ｅ２Ｅ最適化されたフレームワークは、予め訓練された、人工ニューラルネットワーク（ＡＮＮ）に基づくビデオコーディングフレームワークであり得る。前記画像の代替表現は、ビットストリームを生成するために符号化され得る。

Description

［関連出願への相互参照］
本開示は、２０２１年４月１５日に提出された米国特許出願第１７／２３１，５３７号「代替エンドツーエンドビデオコーディング」の優先権を主張しており、この米国特許出願第１７／２３１，５３７号は、２０２０年５月１２日に提出された米国仮出願第６３／０２３，６８７号「代替エンドツーエンド画像圧縮（ＳｕｂｓｔｉｔｕｔｉｏｎａｌＥｎｄ－ｔｏ－ＥｎｄＩｍａｇｅＣｏｍｐｒｅｓｓｉｏｎ）」、および２０２０年５月１８日に提出された米国仮出願第６３／０２６，３９７号「ビットレート制約を用いた代替エンドツーエンド画像圧縮（ＳｕｂｓｔｉｔｕｔｉｏｎａｌＥｎｄ－ｔｏ－ＥｎｄＩｍａｇｅＣｏｍｐｒｅｓｓｉｏｎｗｉｔｈＢｉｔｒａｔｅＣｏｎｓｔｒａｉｎｔ）」の優先権を主張している。先の出願の開示は、参照によりそれらの全体が本明細書に組み込まれる。

［技術分野］
本開示は、一般に人工ニューラルネットワークに基づくビデオコーディングに関する実施形態を説明する。

本明細書で提供される背景技術の説明は、本開示のコンテキストを全体的に示すことを目的とする。この背景技術部分および本明細書の各態様において説明された、現在署名されている発明者の作業の程度は、本開示の提出時に先行技術として示されておらず、また、本開示の先行技術として認められていることを明示または暗示していない。

従来のハイブリッドビデオコーデックが全体として最適化されることは困難である。単一のモジュールの改善は、全体的なパフォーマンス上のゲインが得られない可能性がある。対照的に、人工ニューラルネットワークに基づくビデオコーディングフレームワークでは、機械学習プロセスを実行することにより、異なるモジュールが、最終的な目標（例えば、レート歪み性能）を向上させるために、入力から出力まで共同で最適化され得て、その結果、エンドツーエンド（Ｅ２Ｅ）最適化されたビデオコーディングフレームワークが得られる。

本開示の態様は、ビデオエンコーダでのビデオ符号化方法を提供する。この方法は、画像を受信するステップと、エンドツーエンド（Ｅ２Ｅ）最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定するステップとを含む。前記Ｅ２Ｅ最適化されたフレームワークは、予め訓練された、人工ニューラルネットワーク（ＡＮＮ）に基づくビデオコーディングフレームワークであり得る。前記画像の代替表現は、ビットストリームを生成するために符号化され得る。

一実施形態では、前記画像の代替表現の要素の値に関する損失関数を最適化するために、前記画像の代替表現の要素をコーディングするための前記最適化プロセスが実行される。一実施形態では、ステップサイズおよび反復回数を含むハイパーパラメータに基づいて、前記最適化プロセスが実行される。前記ステップサイズおよび反復回数は、前記ビデオエンコーダに入力される画像ごとに予め固定または調整された。一実施形態では、前記最適化プロセスの現在の反復は、前記損失関数を最小化するために、前記画像の代替表現の要素の現在値を調整するための勾配降下を実行するステップと、前記画像の代替表現の要素の調整された現在値を、前記最適化プロセスの次の反復の入力として使用するステップと、を含む。

一実施形態では、前記損失関数は、前記Ｅ２Ｅ最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするためのビットレート測度と歪み測度との加重和を含む。一実施形態では、前記歪み測度は、前記画像と、前記Ｅ２Ｅ最適化されたフレームワークに基づいてコード化されたときの前記画像の代替表現の再構成された画像との間の差を含む。一実施形態では、前記Ｅ２Ｅ最適化されたフレームワークに基づいて前記画像をコーディングするためのビットレートを調整するために、前記加重和におけるトレードオフ係数は調整され得る。

一実施形態では、前記ビットレート測度は、ターゲットビットレートと、前記Ｅ２Ｅ最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするためのビットレートとの間の差を含む。前記Ｅ２Ｅ最適化されたフレームワークを使用して前記画像をコーディングするためのビットレートを調整するために、前記加重和におけるターゲットビットレートは調整され得る。

一実施形態では、前記歪み測度は、前記Ｅ２Ｅ最適化されたフレームワークを最適化するために使用される歪みメトリックタイプとは異なるまたは同じターゲット歪みメトリックタイプに基づくものである。一実施形態では、前記歪み測度は、前記Ｅ２Ｅ最適化されたフレームワークを最適化するために使用される同じ歪みメトリックタイプの歪みレベルとは異なるまたは同じ歪みメトリックタイプのターゲット歪みレベルに基づくものである。

本開示の態様は、ビデオ符号化装置を提供する。前記装置は、回路を含み、前記回路は、画像を受信することと、エンドツーエンド（Ｅ２Ｅ）最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定することと、を行うように構成される。前記Ｅ２Ｅ最適化されたフレームワークは、予め訓練された、ＡＮＮに基づくビデオコーディングフレームワークであり得る。前記回路は、さらに、前記画像の代替表現を符号化することでビットストリームを生成すること、を行うように構成される。

本開示の態様は、命令が記憶されている非一時的なコンピュータ読み取り可能な媒体を提供し、前記命令がプロセッサによって実行されるとき、上記のビデオコーディング方法を前記プロセッサに実行させる。

開示された主題の更なる特徴、性質、および様々な利点は、以下の詳細な説明および添付図面からより明らかになる。

本開示の一実施形態による代替エンドツーエンド（Ｅ２Ｅ）ビデオコーディングシステム（１００）を示す図である。Ｅ２Ｅフレームワーク（１０１）をどのように訓練するかの例を示す図である。本開示の一実施形態による機械学習プロセス（３００）を示す図である。本開示の一実施形態による試験システム（４００）を示す図である。レート損失と歪み損失との間のトレードオフ係数を調整することに基づく第１ビットレート制御メカニズム（５００）を示す図である。レート歪み損失関数におけるビットレート制約（ターゲットビットレート）を設定することに基づく第２ビットレート制御メカニズム（６００）を示す図である。予め訓練されたＥ２Ｅフレームワーク（１０１）を使用して画像を符号化するための歪みメトリックタイプを調整するためのメカニズム（７００）を示す図である。予め訓練されたＥ２Ｅフレームワーク（１０１）を使用して画像を符号化するためのターゲット歪みレベルを調整するためのメカニズム（８００）を示す図である。本開示の一実施形態による、代替画像に基づくＥ２Ｅビデオコーディングプロセス（９００）を示す図である。一実施形態によるコンピュータシステムの概略図である。

図１は、本開示の一実施形態による代替エンドツーエンド（Ｅ２Ｅ）ビデオコーディングシステム（１００）を示す。このシステム（１００）は、エンコーダ１１０と、デコーダ１２０とを含み得る。エンコーダ１１０は、代替画像生成器（１１２）と、人工ニューラルネットワーク（ＡＮＮ）に基づくエンコーダ（ＡＮＮエンコーダ）（１１４）と、量子化器（１１６）と、エントロピーエンコーダ（１１８）とを含み得る。これらの要素（１１２、１１４、１１６、および１１８）は、図１に示すように接続される。デコーダ（１２０）は、エントロピーデコーダ（１２８）と、ＡＮＮに基づくデコーダ（ＡＮＮデコーダ）（１２４）とを含み得る。これらの要素（１２８および１２４）は、図１に示すように互いに接続される。これらの要素（１１４、１１６、１１８、１２８、および１２４）は、Ｅ２Ｅ最適化されたビデオコーディングフレームワーク（Ｅ２Ｅ最適化されたフレームワークまたはＥ２Ｅフレームワーク）（１０１）を形成する。

代替画像生成器（１１２）は、例えば、一連の画像を含むビデオから画像Ｘ（またはイメージＸ）を受信し、入力画像Ｘに対応する代替画像Ｘｓを生成するように構成される。代替画像Ｘｓは、Ｅ２Ｅフレーム（１０１）に供給される。本開示によれば、代替画像Ｘｓは、Ｅ２Ｅフレームワーク（１０１）に基づいて学習され得る。学習された代替画像Ｘｓは、元の入力画像Ｘと視覚的に類似しているが、元の入力画像Ｘよりも優れた変更を有することができる。例えば、いくつかの実施形態では、元の画像ＸをＥ２Ｅフレーム（１０１）に直接に供給するよりも、Ｅ２Ｅフレーム（１０１）を介して代替画像Ｘｓを処理する方は、より良いレート歪み性能を達成することができる。

Ｅ２Ｅフレームワーク（１０１）は、代替画像Ｘｓを処理することで再構成された画像Ｘ’を生成する。具体的には、ＡＮＮエンコーダ（１１４）は、代替画像Ｘｓをよりコンパクトな潜在表現Ｙに変換する。入力画像Ｘｓの画素間の空間相関性は除去され得て、また、重要な特徴情報は、潜在表現Ｙにおいて保持され得る。様々な例では、入力画像Ｘｓの次元数は低減または維持され得る。量子化器（１１６）は、損失のある量子化動作を応用することによって、潜在表現Ｙをさらに圧縮することができる。量子化器（１１６）から出力された量子化表現Ｙ’は、ビットストリーム（１３１）を生成するために、エントロピーエンコーダ（１１８）によってエントロピーコード化され得る。様々な実施形態では、このエントロピー符号化動作は、損失のあるまたは損失のないであってもよい。エントロピーコーディング方法の例には、ハフマンコーディング、算術コーディング、コンテキスト適応バイナリ算術演算などが含まれ得る。ビットストリーム（１３１）は、デコーダ（１２０）に伝送されてもよく、またはデコーダ（１２０）によって記憶され、後で処理されてもよい。

デコーダ（１２０）では、エントロピーデコーダ（１２８）は、ビットストリーム（１３１）から代替画像Ｘｓのコード化ビットを受信し、コード化ビットを復号して量子化表現Ｙ’を復元する。復元された量子化表現Ｙ’は、ＡＮＮに基づく変換を行って再構成された画像Ｘ’を生成することができるＡＮＮデコーダ（１２４）に供給され得る。

様々な実施形態では、ＡＮＮエンコーダ（１１４）またはＡＮＮデコーダ（１２４）は、様々なタイプのＡＮＮを採用することができ、様々なアーキテクチャを有することができ、また、様々な機械学習方法を使用して訓練され得る。例えば、ＡＮＮは、様々なタイプの深いニューラルネットワーク（ＤＮＮ）であり得る。Ｅ２Ｅフレームワーク（１０１）は、ワンタイムフィードフォワードフレームワーク（例えば、一般化された分割正規化（ＧＤＮ）変換、超優先モデル、残差自動エンコーダ、深い残差自動エンコーダ、またはマルチスケールモデル）、マルチステージ再発フレームワーク（ｍｕｌｔｉｓｔａｇｅｒｅｃｕｒｒｅｎｔｆｒａｍｅｗｏｒｋｓ）（例えば、バニラ（ｖａｎｉｌｌａ）、ステートフル（ｓｔａｔｅｆｕｌ）、増分（ｉｎｃｒｅｍｅｎｔａｌ）、スキップ接続、またはステートフル伝播）など、様々なアーキテクチャを有してもよい。

図２は、Ｅ２Ｅフレームワーク（１０１）をどのように訓練するかの例を示す。Ｅ２Ｅフレームワーク（１０１）を訓練するために、図２に示すＥ２Ｅ訓練フレームワーク（２０１）が適用される。この特定の例では、Ｅ２Ｅ訓練フレームワーク（２０１）は、エントロピーエンコーダ（１１８）およびエントロピーデコーダ（１２８）を持たなくて、ＡＮＮエンコーダ（１１４）およびＡＮＮデコーダ（１２４）を含む。さらに、訓練の目的のために、量子化器（１１６）は、微分不可能な量子化動作（ｎｏｎ－ｄｉｆｆｅｒｅｎｔｉａｂｌｅｑｕａｎｔｉｚａｔｉｏｎｏｐｅｒａｔｉｏｎ）のためのノイズ加算動作を代替するために、ノイズインジェクタ（ｎｏｉｓｅｉｎｊｅｃｔｏｒ）（２１６）に置き換えられる。

Ｅ２Ｅ訓練フレームワーク（２０１）のレート歪み性能を示す損失関数は、以下のように確立され得る。図２において、入力画像Ｘは、ＡＮＮエンコーダ（１１４）において受信され得る。ＡＮＮエンコーダ（１１４）は、最適化される変数であるニューラルネットワーク（ＮＮ）パラメータ（Ｐｅとして表記された）を有するＡＮＮを含み得る。ＮＮパラメータＰｅに基づいて、潜在表現Ｙを得ることができる。ノイズインジェクタ（２１６）は、潜在表現Ｙの要素に均一なノイズを付加することで、量子化表現Ｙ’を生成することができる。付加の均一なノイズは、Ｅ２Ｅ訓練フレームワーク（２０１）のエンドツーエンド訓練を可能にするために、図２の例における真の量子化を置き換えるために使用されるが、他の技術は、微分可能なプロセスにより微分不可能な量子化を近似するために、様々な実施形態において使用されてもよい。例えば、直接四捨五入は、勾配の前方向および後方向の伝播に使用されてもよく、ソフトからハードへのベクトル量子化は、直接スカラー量子化を置き換えるために使用されてもよいし、または量子化パラメータは、訓練プロセスによって学習されてもよい。

ＡＮＮデコーダ（１２４）は、また、最適化される変数であるＮＮパラメータ（Ｐｄとして表記された）を有するＡＮＮネットワークを含み得る。ＡＮＮデコーダ（１２４）は、量子化表現Ｙ’を受信し、またＮＮパラメータＰｄに基づいて、量子化Ｙ’を再構成された画像Ｘ’に変換することができる。歪み損失生成器（２１２）は、入力画像Ｘと再構成された画像Ｘ’との間の差に基づいて、歪み損失Ｄ（Ｘ，Ｘ’）を決定することができる。歪み損失Ｄ（Ｘ，Ｘ’）は、パラメータＰｅおよびＰｄの関数であり得る。様々な実施形態では、様々な歪みメトリック（または品質メトリック）は、歪み損失を決定するために使用されてもよい。歪みメトリックの例は、ピーク信号対雑音比（ＰＳＮＲ：ｐｅａｋｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ）、ハイダイナミックレンジ視覚差予測子（ＨＤＲ－ＶＤＰ：ｈｉｇｈ－ｄｙｎａｍｉｃｒａｎｇｅｖｉｓｕａｌｄｉｆｆｅｒｅｎｃｅｐｒｅｄｉｃｔｏｒ）、構造インデックス類似度（ＳＳＩＭ：ｓｔｒｕｃｔｕｒａｌｉｎｄｅｘｓｉｍｉｌａｒｉｔｙ）、マルチスケール構造類似度（ＭＳ－ＳＳＩＭ：ｍｕｌｔｉｓｃａｌｅｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙ）などを含み得る。

さらに、レート損失推定器（２１８）は、量子化表現Ｙ’の各要素に対するエントロピーをエントロピーモデルに従って推定することができる。レート損失推定器（２１８）によって使用されるエントロピーモデルは、最適化される変数であるエントロピーモデルパラメータ（Ｐｒとして表記された）を含み得る。推定されたエントロピーに基づいて、量子化表現Ｙ’をコーディングするために使用されるビット数は、それに応じてレート損失推定器（２１８）によって決定され得る。これにより、ビットレート（例えば、１画素当たりビット（ＢＰＰ）または１秒当たりビット（ＢＰＳ））は決定されて、入力画像Ｘをコーディングするためのレート損失Ｒ（Ｘ）の推定値として使用され得る。レート損失Ｒ（Ｘ）は、ＮＮパラメータＰｅおよびエントロピーモデルパラメータＰｒの関数であり得る。

エントロピーおよびレート損失を推定するための様々な技術は、様々な実施形態において適用され得る。エントロピー推定の例は、要素ごと独立エントロピーモデルを使用して潜在表現の確率分布を推定すること、超優先、予測モデルまたは他の学習されたパラメトリックモデルを使用したエントロピーを明示的に推定することなどを含んでもよい。レート損失推定方法の例は、Ｊ．Ｂａｌｌｅらによって、２０１７年の表現学習国際学会（ＩＣＬＲ：ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ）で、「エンドツーエンド最適化された画像圧縮」によって説明され、その全体が参照により組み込まれる。

損失関数は、ＮＮパラメータＰｅおよびＰｄと、エントロピーモデルパラメータＰｒとに関して、レート損失Ｒ（Ｘ）と歪み損失Ｄ（Ｘ，Ｘ’）との加重和として設定されてもよい。
［式１］
Ｌ（Ｐｅ，Ｐｄ，Ｐｒ）＝Ｒ（Ｘ）＋λＤ（Ｘ，Ｘ’）
ここで、λは、トレードオフ係数である。

訓練プロセス中に、Ｅ２Ｅ訓練フレームワーク（２１０）およびレート損失推定器（２１８）は、全体として、Ｘの入力エンドからＸ’の出力エンドまで最適化され得る。パラメータＰｅ、ＰｄおよびＰｒは、ＮＮパラメータＰｅおよびＰｄと、エントロピーモデルパラメータＰｒとを介した損失関数Ｌ（Ｐｅ、Ｐｄ、Ｐｒ）を最小化するために、ターゲットによってガイドされて更新（または最適化）され得る。例えば、特定の数の画像を訓練サンプルとして使用すると、勾配降下は、損失関数Ｌ（Ｐｅ，Ｐｄ，Ｐｒ）に基づいて実行され得て、これにより、ＮＮパラメータＰｄおよびＰｅと、エントロピーモードパラメータＰｒとは、特定のレート歪み性能が達成されるまでに、段階的に調整されている。勾配降下のアルゴリズムの例は、バッチ勾配降下（ｂａｔｃｈＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、確率的勾配降下（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、ミニバッチ勾配降下などを含み得る。

訓練プロセスから生じる最適化されたパラメータＰｅ、ＰｄおよびＰｒは、ビデオコーディングシステム（１００）を実現するために、Ｅ２Ｅフレームワーク（１０１）において使用され得る。エントロピーコーディングのために、図１の例において、訓練プロセスから得られた最適化されたエントロピーモデルパラメータＰｒを使用したエントロピーモデルは、量子化表現Ｙ’をエントロピー符号化またはエントロピー復号するために、エントロピーエンコーダ（１１８）およびエントロピーデコーダ（１２８）において使用され得ること。

図３は、本開示の一実施形態による機械学習プロセス（または最適化プロセスと呼ばれる）（３００）を示す。学習プロセス（３００）は、図１の例における代替画像生成器（１１２）で実行されて、代替画像Ｘｓを、入力として元の画像Ｘを有する出力として決定することができる。

上記のように、いくつかの実施形態では、Ｅ２Ｅ最適化されたフレームワーク（１０１）は、特定の数の画像を訓練サンプルとして使用することで訓練され得る。結果として得られるフレームワーク（１０１）は、大量の入力画像に対して平均的に最適化された性能を有することができる。しかしながら、Ｅ２Ｅ最適化されたフレームワーク（１０１）は、訓練された後に、可変確率特性を有する画像を処理するための適応性を欠いている可能性がある。例えば、訓練サンプルの平均的な特徴から特定の偏差を有する画像に対して、それらのレート歪み性能は、予想される閾値を下回る可能性がある。元の入力画像を置き換えるために代替表現を見つけることは、Ｅ２Ｅビデオコーディングシステム（１００）の適応性を改善するための方法と考えられ、ここで、Ｅ２Ｅ最適化されたフレームワーク（１０１）が入力画像に適応される代わりに、入力画像がＥ２Ｅ最適化されたフレームワーク（１０１）に適応される。

図１における代替画像Ｘｓは、図３に示すＥ２Ｅ訓練されたフレームワーク（３０１）に基づいて学習され得る。Ｅ２Ｅ訓練されたフレームワーク（３０１）は、Ｅ２Ｅ最適化されたフレームワーク（１０１）からのＡＮＮエンコーダ（１１４）およびＡＮＮデコーダ（１２４）を含み得る。ＡＮＮエンコーダ（１１４）およびＡＮＮデコーダ（１２４）は、それぞれ、最適化されたパラメータＰｅおよびＰｄを使用して既に訓練および構成された。Ｅ２Ｅ訓練されたフレームワーク（３０１）は、また、Ｅ２Ｅフレームワーク（１０１）を訓練するために使用される量子化器（例えば、ノイズインジェクタ）（２１６）を含み得る。さらに、学習プロセス（３００）は、Ｅ２Ｅフレームワーク（１０１）を訓練するために使用されるレート損失推定器（２１８）および歪み損失生成器（２１２）を使用することができる。レート損失推定器（２１８）は、最適化されたパラメータＰｒを使用して既に訓練および構成された。

学習プロセス（３００）は、複数の反復を含み得る。学習プロセス（３００）の期間では、代替画像Ｘｓは徐々にチューニングされている。各反復では、代替画像Ｘｓ（Ｐｓとして表記された）の現在の要素値（画素値）は、更新される変数である。したがって、学習プロセス（３００）をガイドするための損失関数は、Ｌ（Ｐｓ）として表記され得る。図２の例と同様の方式で、損失関数Ｌ（Ｐｓ）は確立され得て、以下の形式が採用され得る。
［式２］
Ｌ（Ｐｓ）＝Ｒ（Ｘｓ）＋λＤ（Ｘ，Ｘｓ’）

損失関数Ｌ（Ｐｅ，Ｐｄ，Ｐｒ）（式１）と比較して、損失関数Ｌ（Ｐｓ）において、Ｒ（Ｘｓ）は、レート損失を表し、このレート損失は、要素値Ｐｓの関数であり、一方、最適化されたパラメータＰｅおよびＰｒは定数とするものである。また、Ｄ（Ｘ，Ｘｓ’）は、歪み損失を表し、この歪み損失も、要素値Ｐｓの関数であり、一方、最適化されたパラメータＰｅおよびＰｄは定数とするものである。さらに、図３における歪み損失生成器（２１２）での動作については、差は、再構成された画像Ｘｓ’と入力画像Ｘｓとの間ではなく、再構成された画像Ｘｓ’と入力画像Ｘとの間では決定される。

例として、図３における学習プロセス（３００）は、以下のように実行され得る。ｔ回目の反復の場合、代替画像Ｘｓは、Ｘｔとして表記され、ＡＮＮエンコーダ（１１４）に入力される。上記学習プロセス（３００）の開始時に、代替画像Ｘｓは、Ｘ_０として初期化され得る。一実施形態では、図１における入力画像Ｘは、Ｘ_０として使用される。一実施形態では、図１における入力画像Ｘの以外の画像は、Ｘ_０として使用される。一実施形態では、ランダムな要素値を有する画像は、Ｘ_０として使用される。

ｔ回目の反復の期間では、図３に示すように、入力Ｘｓ＝Ｘｔに対応して、また、前向き推論計算を介して、潜在表現Ｙｓ、量子化表現Ｙｓ’、再構成された表現Ｘｓ’は決定され得る。歪み損失Ｄ（Ｘ，Ｘｓ’）およびレート損失Ｒ（Ｘｓ）は決定され得る。訓練損失Ｒ（Ｘｓ）＋λＤ（Ｘ，Ｘｓ’）は、例えば逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）およびデータ更新モジュール（３１０）において、これに応じて決定され得る。一例では、訓練損失がレート歪み閾値よりも小さいかどうかが検証される。訓練損失がレート歪み損失以上である場合、モジュール（３１０）は、損失関数Ｌ（Ｘｓ）に基づいて逆伝播を行うことで、入力Ｘｔの要素値に対応する勾配を計算することができる。これらの勾配に基づいて、入力Ｘｔの要素値は調整され、結果として、次の入力Ｘｔ＋１が生成され得る。Ｔ回の反復の後、訓練損失がレート歪み損失より小さい場合、最適なＸＴは、学習プロセス（３００）の出力として使用され得る。

他の実施形態では、他の終了条件は、単独で、またはレート歪み閾値条件と組み合わせて使用されてもよい。例えば、一実施形態では、学習プロセス（３００）の反復は、その反復の回数が閾値に達したときに終了されてもよい。このようにして、代替画像Ｘｓを生成するための時間予算は制御され得てし、また、Ｅ２Ｅビデオコーディングシステム（１００）はリアルタイムで動作することができる。

いくつかの実施形態では、学習プロセス（３００）は、ステップサイズ（または学習率）および反復回数という２つのハイパーパラメータに基づくことができる。これらのハイパーパラメータは、ターゲット損失関数と共に、学習プロセス（３００）のために使用される。例えば、ステップサイズは、勾配降下アルゴリズム、または学習プロセスにおいて実行される逆伝播計算で使用され得る。反復回数は、学習プロセス（３００）をいつ終了させることができるかを制御するために、最大反復回数の閾値として使用され得る。

いくつかの実施形態では、ステップサイズおよび／または反復回数は、学習プロセス（３００）またはエンコーダ（１１０）に入力される画像ごとに予め固定された。例えば、ステップサイズおよび反復回数を含むハイパーパラメータのセットは、エンコーダ（１１０）に対応して予め定義または予め構成されていてもよい。例えば、エンコーダ（１１０）がより高い計算能力を有する場合反復回数のより高い値は配置され得て、結果として、より高い品質を有する代替画像が得られる。代替的に、ステップサイズおよび反復回数を含むハイパーパラメータのセットは、ビデオシーケンスに対応して予め定義または予め構成されていてもよい。例えば、ビデオシーケンスごとに、異なるビデオシーケンスの異なる統計的特徴に対応して、異なるスーパーパラメータの異なるセットは定義／構成されてもよい。

いくつかの実施形態では、ステップサイズおよび／または反復回数は、各画像の統計的特徴に基づいて、学習プロセス（３００）またはエンコーダ（１１０）に入力される画像ごとに調整されてもよい。例えば、非常にダイナミックなコンテンツを含む画像の場合、より少ないステップサイズは、不要な振動を避けて収束をスピードアップするために使用され得る。いくつかの実施形態では、学習プロセスで使用されるハイパーパラメータは、エンコーダ側からデコーダ側に信号で送信される。

図３の例では、図２の例と同じ要素（１１４、２１６、１２４、２１２および２１８）は、代替画像Ｘｓをチューニングするために使用される。しかしながら、他の実施形態では、代替画像Ｘｓをチューニングするために学習プロセス（３００）において使用されるそれらの要素の一部または全部は、図２または図３の例のものと異なり得る。これらの変化の原因には、様々な要因が考えられる。

例えば、それらの要素の異なる構成は、より速い学習プロセス、より低い計算コスト、より良いレート歪み結果、または他の利点に関してより良い性能を達成するのに有用であり得る。例えば、それらの要素は、レート歪み性能の同じレベルまたは許容可能なレベルを達成するために、しかし計算コストを低減するために簡略化され得る。代替的に、いくつかの実施形態では、それらの要素の変形は、特定のレベルのレート歪み性能を維持しながら、以前に訓練されたＥ２Ｅフレームワーク上で、特定のビデオコーディングパラメータを制御または操縦するためのツールを提供することができる。ビデオコーディングパラメータの例は、ターゲットビットレート、ターゲット歪み、画質メトリックなどを含み得る。

一方、いくつかの実施形態では、レート歪みに基づく損失関数（例えば、式１および式２など）は、Ｅ２Ｅフレームワークを訓練するために使用され、または代替画像を検索するために使用され、代替画像に基づくＥ２Ｅビデオコーディングの他の実施形態では、他のタイプの損失関数は使用されてもよい。例えば、損失関数は、異なる最適化目標のために、ビットレート損失および歪み損失の以外の１つまたは複数の損失項を含んでもよい。代替的に、損失関数は、ビットレート損失および／または歪み損失に加えて、１つまたは複数の損失項を含んでもよい。

いくつかの実施形態では、既存のＥ２Ｅ最適化されたコーディングシステム（例えば、図１におけるフレームワーク（１０１））が与えられた場合、代替画像を決定するためのＥ２Ｅ訓練されたフレームワークは、既存のシステムに基づいて決定または導出され、その後、既存のシステムに追加され得る。このようにして、本明細書で開示された代替Ｅ２Ｅビデオコーディング技術は、既存のＥ２Ｅ最適化されたコーディングシステムと組み合わせることができる。

図４は、本開示の一実施形態によるテストシステム（４００）を示す。テストシステム（４００）は、代替画像に基づくＥ２Ｅ最適化されたフレームワークのビデオコーディング性能を検証するために使用され得る。図示するように、システム（４００）は、代替画像生成器（１１２）と、ＡＮＮエンコーダ（１１４）と、量子化器（１１６または２１６）と、ＡＮＮデコーダ（１２４）とを含み得る。代替画像生成器（１１２）は、学習プロセス（３００）を実行するように構成され得る。ＡＮＮエンコーダ（１１４）およびＡＮＮデコーダ（１２４）には、学習されたパラメータＰｅおよびＰｄが配置され得る。量子化器（１１６）は、一実施形態において、一般的な均一量子化方法を取ることができる。量子化器（２１６）は、量子化器（１１６）の効果に近似している均一サンプラーであり得、それは、学習プロセス（３００）において離散的な数を使用する勾配逆伝播の難さを回避する。

テストの期間では、画像Ｘは、テストシステム（４００）を介して供給され得る。入力画像Ｘに対応して、入力画像Ｘの代替画像Ｘｓは学習され得る。続いて、変換された表現Ｙ、圧縮された表現Ｙ’、および再構成された表現Ｘ’は、前向き推論計算によって決定され得る。レート測度（例えば、ＢＰＰ）および歪み測度（例えば、ＰＳＮＲまたはＳＳＩＭ）は、再構成された画像について計算され得る。この結果は、テストシステム（４００）において要素（１１２）をスキップしながら要素（１１４、１１６または２１６、１２４）によって画像Ｘを供給することの結果と比較され得る。様々なデータセットにおける異なるサンプルは、テストシステム（４００）上でテストを行うために使用され得る。

通常、Ｅ２Ｅ最適化されたビデオコーディングフレームワーク（例えば、フレームワーク（１０１）および（２０１））には、２つ大きな問題がある可能性がある。第一に、ビットレート制御を実現することは困難である。例えば、Ｅ２Ｅ最適化されたフレームワークにおけるＡＮＮモデルは、ターゲットビットレートで訓練され得る。訓練後に、ＡＮＮモデルは、他のビットレートで画像を圧縮するために適用される場合、通常にはうまく機能することができない。第二に、ＡＮＮモデルは、例えばＰＳＮＲまたはＳＳＩＭなどのような、特定のタイプの歪みメトリックで定式化された歪み損失を最適化（連合）するか、または特定のタイプの歪みメトリックが与えられた特定レベルの歪みをターゲットとするように訓練され得る。訓練されたＡＮＮモデルは、他のタイプの歪みメトリックや他のレベルの歪みに対して、通常にはうまく機能することができない。

これらの問題のため、異なるビットレート、異なるタイプの歪みメトリック、または特定の歪みメトリックの異なるレベルの歪みを有する入力画像を圧縮するための柔軟性を提供するために、ＡＮＮモデルの複数のインスタンスは、訓練、記憶、展開される必要がある。さらに、Ｅ２Ｅビデオコーディングシステムにおけるエンコーダ側とデコーダ側は、ビットレートや歪みメトリックの変更を実現するために、異なるＡＮＮエンコーダおよびデコーダの間に切り替える必要がある。さらに、これらの変化の制御精度は、ＡＮＮモデルインスタンスの数に依存する。上記のアプローチは、Ｅ２Ｅビデオコーディングシステムに対して過度に高価であるため実用されない。

柔軟なビットレート制御または歪みメトリック／レベル制御は、ＡＮに基づくビデオコーディングシステムにとって非常に望ましい特性である。例えば、使用可能なストレージおよび特定のアプリケーションシナリオに応じて、同じ入力画像を異なるターゲットビットレートで圧縮することが好ましい。本明細書で開示される代替Ｅ２Ｅビデオコーディング方法は、上記の問題を効果的に解決するためのメカニズムを提供する。

図５は、レート損失と歪み損失との間のトレードオフ係数を調整することに基づく第１ビットレート制御メカニズム（５００）を示す。例えば、ターゲットトレードオフパラメータλｔａｒｇｅｔは、代替画像学習プロセス（３００）において使用されるレート歪み損失関数（式２）を調整するために、Ｅ２Ｅビデオコーディングシステム（１００）における代替画像生成器（１１２）に提供され得る。調整されたレート歪み関数は、以下のように示される。
［式３］
Ｌ（Ｐｓ）＝Ｒ（Ｘｓ）＋λ目標Ｄ（Ｘ，Ｘｓ’）

ターゲットトレードオフパラメータλｔａｒｇｅｔは、ターゲットビットレート（これは実験的試験により知られる）に対応する。トレードオフパラメータλｔａｒｇｅｔを設定することにより、ターゲットビットレートは実現され得る。例えば、トレードオフパラメータλｔａｒｇｅｔをより高い値に設定することによって、より高いビットレートおよびより低い歪みが達成され得る。

例えば、損失関数（式３）によってガイドされた代替画像学習プロセス（３００）では、代替画像Ｘｓは、ターゲットトレードオフパラメータλｔａｒｇｅｔに対応するターゲットビットレート（コード化された後）を有するようにチューニングされ得る。次に、代替画像Ｘｓは、Ｅ２Ｅビデオコーディングシステム（１００）に入力され得て、このＥ２Ｅビデオコーディングシステムは、現在のターゲットビットレートとは異なるビットレートをターゲッティングするように予め訓練され得る。ターゲットビットレートに対応するビットストリーム（１３１）は取得され得る。これにより、ビットレート制御は、異なるＡＮＮモデルインスタンス間でＥ２Ｅフレームワーク（１０１）を切り替えることなく実現され得る。

他の実施形態では、レート損失と歪み損失との加重和であるレート歪み損失は、（式２）または（式３）以外の他の形式を取り得る。したがって、λ以外のパラメータは、それぞれのレート損失とそれぞれの歪み損失との間のトレードオフを調整するために使用され得る。

図６は、レート歪み損失関数におけるビットレート制約（ターゲットビットレート）を設定することに基づく第２ビットレート制御メカニズム（６００）を示す。例えば、ターゲットビットレートＲｔａｒｇｅｔは、代替画像学習プロセス（３００）において使用されるレート歪み損失関数（式２）を変更するために、Ｅ２Ｅビデオコーディングシステム（１００）における代替画像生成器（１１２）に提供され得る。変更されたレート歪み関数は、以下のように示される。
［式４］
Ｌ（Ｐｓ）＝ηＬ（Ｒ（Ｘｓ），Ｒ目標）＋Ｄ（Ｘ，Ｘｓ’）
ここで、Ｌ（Ｒ（Ｘｓ），Ｒｔａｒｇｅｔ）は、Ｒ（Ｘｓ）とＲｔａｒｇｅｔとの間の差の損失を測定するものであり、ηは、異なる損失項Ｌ（Ｒ（Ｘｓ），Ｒｔａｒｇｅｔ）とＤ（Ｘ，Ｘｓ’）の寄与をバランスさせるハイパーパラメータ（トレードオフパラメータ）である。一実施形態において、ηは、結果として生成されるビットレートができるだけターゲットビットレートＲｔａｒｇｅｔに近づくことを確保するために、大きな値として設定され得る。損失関数（式４）によってガイドされた代替学習プロセス（３００）の期間では、代替画像Ｘｓは、コード化された後にターゲットビットレートを有するように決定され得る。次いで、代替画像Ｘｓは、異なるＡＮＮモデルインスタンス間で切り替えることなくターゲットビットレートを実現するために、Ｅ２Ｅビデオコーディングシステム（１００）によって処理され得る（現在のターゲットビットレートとは異なるビットレートをターゲッティングするように予め訓練され得る）。

一実施形態では、Ｒ（Ｘｓ）とＲｔａｒｇｅｔとの間の差を測定するための損失Ｌ（Ｒ（Ｘｓ），Ｒｔａｒｇｅｔ）は、以下のように設定される。
［式５］
Ｌ（Ｒ（Ｘｓ），Ｒｔａｒｇｅｔ）＝ｍａｘ（Ｒ（Ｘｓ）－Ｒｔａｒｇｅｔ，ε）
ここで、εは、ハイパーパラメータである。一実施形態は、εは、Ｒ（Ｘｓ）とＲｔａｒｇｅｔとの間の差が、εによって指示された特定の範囲内にあることを確保するために、小さい値に設定され得る。

図７は、予め訓練されたＥ２Ｅフレームワーク（１０１）を使用して画像を符号化するための歪みメトリックタイプを調整するためのメカニズム（７００）を示す。例えば、Ｅ２Ｅビデオコーディングシステム（１００）におけるＥ２Ｅフレームワーク（１０１）は、第１歪みメトリック（例えばＰＳＮＲ）をターゲットとするように訓練され得る。これは、ＰＳＮＲメトリックを使用することで以下に再現されるレート歪み損失関数における歪み損失Ｄ（Ｘ，Ｘ’）を定式化（ｆｏｒｍｕｌａｔｅ）することによって実現され得る。
［式１］
Ｌ（Ｐｅ，Ｐｄ，Ｐｒ）＝Ｒ（Ｘ）＋λＤ（Ｘ，Ｘ’）

予め訓練されたＥ２Ｅフレームワーク（１０１）を使用することで、第１歪みメトリックとは異なる第２歪みメトリック（例えば、ＳＳＩＭ）をターゲッティングする画像を符号化するために、この調整は、以下のように実行され得る。

ターゲット歪みメトリック（ＳＳＩＭ）は、代替画像学習プロセス（３００）において使用されるレート歪み損失関数（式２）における歪み損失Ｄ（Ｘ，Ｘｓ’）を定式化するために、Ｅ２Ｅビデオコーディングシステム（１００）における代替画像生成器（１１２）に提供され得る。レート歪み関数（式２）は、以下に再現される。
［式２］
Ｌ（Ｐｓ）＝Ｒ（Ｘｓ）＋λＤ（Ｘ，Ｘｓ’）

ターゲット歪みメトリックタイプで定式化された損失関数（式２）によってガイドされて、代替画像は決定され得る。代替画像をＥ２Ｅフレームワーク（１０１）に入力することは、再構成された画像Ｘ’を結果として得ることができ、この再構成された画像Ｘ’は、ＡＮＮモデルインスタンスを切り替えることなく、ターゲット歪みメトリックの期待されるレート歪み性能を満足する。

図８は、予め訓練されたＥ２Ｅフレームワーク（１０１）を使用して画像を符号化するためのターゲット歪みレベルを調整するためのメカニズム（８００）を示す。例えば、Ｅ２Ｅビデオコーディングシステム（１００）におけるＥ２Ｅフレーム（１０１）は、レート歪み損失関数（式１）に基づいて所定の歪みメトリック（例えば、ＰＳＮＲ）をターゲットとするように訓練され得る。

所定の歪みのための第２歪みレベルをターゲッティングする画像を符号化するために、ターゲット歪みレベルＤｔａｒｇｅｔは、代替画像学習プロセス（３００）において使用されるレート歪み損失関数（式２）を変更するために、Ｅ２Ｅビデオコーディングシステム（１００）における代替画像生成器（１１２）に提供され得る。変更されたレート歪み関数は、以下に示される。
［式６］
Ｌ（Ｐｓ）＝Ｒ（Ｘｓ）＋ηＬ（Ｄ（Ｘ，Ｘｓ’），Ｄｔａｒｇｅｔ）
ここで、Ｌ（Ｄ（Ｘ，Ｘｓ’），Ｄｔａｒｇｅｔ）は、Ｄ（Ｘ，Ｘｓ’）とＤｔａｒｇｅｔとの差の損失を測定するものであり、ηは、異なる損失項Ｒ（Ｘｓ）とＬ（Ｄ（Ｘ，Ｘｓ’），Ｄｔａｒｇｅｔ）の寄与をバランスさせるハイパーパラメータ（トレードオフパラメータ）である。一実施形態において、ηは、結果として生成される歪みレベルができるだけターゲット歪みレベルＤｔａｒｇｅｔに近づくことを確保するために、大きな値として設定され得る。損失関数（式６）によってガイドされた代替学習プロセス（３００）の期間では、代替画像Ｘｓは、コード化された後にターゲット歪みレベルを有するように決定され得る。次いで、代替画像Ｘｓは、異なるＡＮＮモデルのインスタンス間で切り替えることなくターゲット歪みレベルを実現するために、Ｅ２Ｅビデオコーディングシステム（１００）によって処理され得る。

一実施形態では、Ｄ（Ｘ，Ｘｓ’）とＤｔａｒｇｅｔとの間の差を測定するための損失Ｌ（Ｄ（Ｘ，Ｘｓ’），Ｄｔａｒｇｅｔ）は、以下のように設定される。
［式７］
Ｌ（Ｄ（Ｘ，Ｘｓ’），Ｄｔａｒｇｅｔ）
＝ｍａｘ（Ｄ（Ｘ，Ｘｓ’）－Ｄｔａｒｇｅｔ，ε）
ここで、εは、ハイパーパラメータである。一実施形態では、εは、Ｄ（Ｘ，Ｘｓ’）とＤｔａｒｇｅｔとの間の差が、εによって指示された特定の範囲内にあることを確保するために、小さい値に設定され得る。

ビットレート制御および歪みメトリック／レベル制御メカニズムは、以上の説明において別々に説明されたが、以上のビットレート制御および歪みメトリック／レベル制御メカニズムのうちのいくつかが、ビットレートおよび歪みメトリックを一緒に調整するように、他の実施形態において組み合わせられる。例えば、トレードオフパラメータλの調整およびターゲット歪みメトリックタイプの変更は、損失関数（式２）を調整することによって一緒に実行され得る。ターゲットビットレートＲｔａｒｇｅｔの調整とターゲット歪みメトリックタイプの変更は、損失関数（式２）を調整することによって一緒に実行され得る。

さらに、本明細書で開示されたビットレートまたは歪みメトリック／レベル制御メカニズムは、上記のレート歪みに基づく損失関数の以外の形式を有する損失関数と組み合わせて使用され得る。例えば、ビットレート損失および／または歪み損失に加えて、１つまたは複数の項を含む損失関数の場合、ビットレートまたは歪みメトリック／レベル制御メカニズムは、依然として適用され得る。

図９は、本開示の一実施形態による、代替画像に基づくＥ２Ｅビデオコーディング処理（９００）を示す。プロセス（９００）は、（Ｓ９０１）から開始し、（Ｓ９１０）に進むことができる。

（Ｓ９１０）において、例えばビデオシーケンスから画像を受信することができる。上記の画像は、色の強さを示す要素（画素）を含んでもよい。
（Ｓ９２０）において、画像の代替表現を決定することができる。例えば、機械学習プロセス（最適化プロセスとも呼ばれる）は、画像の代替表現の要素の値をチューニングするために実行され得て、これにより、エンドツーエンド（Ｅ２Ｅ）最適化されたフレームワークに基づいて画像の代替表現をコーディングするレート歪み性能が最適化される。一例では、画像の代替表現の要素の値をチューニングするための機械学習プロセスは、画像の代替表現の要素の値に対する損失関数を最適化するために実行され得る。Ｅ２Ｅ最適化されたフレームワークの例は、図３の例におけるＥ２Ｅ訓練されたフレームワーク（３０１）を含み得る。

機械学習プロセスは、複数の反復を含み得る。機械学習プロセスの現在の反復の期間では、勾配降下は、画像の代替表現の要素の現在値を調整するために実行され得て、これにより、レート歪みに基づく損失関数が最小化される。その後、画像の代替表現の要素の調整された現在値は、機械学習プロセスの次の反復の入力として使用され得る。

一例では、損失関数は、Ｅ２Ｅ最適化されたフレームワークに基づいて画像の代替表現をコーディングするためのビットレート測度と歪み測度との加重和を含む。損失関数の例は、式１～４および６によって示される損失関数を含む。一例では、歪み測度は、画像と、Ｅ２Ｅ最適化されたフレームワークに基づいてコード化されたときの画像の代替表現の再構成された画像との間の差を含む。

（Ｓ９３０）において、画像の代替表現は、ビットストリームを生成するために符号化され得る。例えば、図１の例におけるエンコーダ（１１０）で、代替画像生成器（１１２）から生成された後に、画像の代替表現は、ＡＮＮエンコーダ（１１４）に入力され、またビットストリーム（１３１）に符号化されており、それが、続いて記憶媒体に記憶されるかまたはデコーダ（１２０）に送信され得る。その後、プロセス（９００）は、（Ｓ９９９）に進み、（Ｓ９９９）で終了することができる。

本明細書で開示された技術（例えば、様々な実施形態または例における機能、モジュール、要素、方法、プロセス、動作）は、処理回路（例えば、１つまたは複数のプロセッサ、あるいは、１つまたは複数の集積回路）によって実現され得る。いくつかの例では、この技術は、コンピュータ読み取り可能な命令を使用してコンピュータソフトウェアとして実現され、また１つまたは複数のコンピュータ読み取り可能な媒体に物理的に記憶され得る。

コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用して符号化されることができ、アセンブリ、コンパイル、リンク、または同様のメカニズムを受けて命令を含むコードを作成することができ、命令は、１つ以上のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって、直接的に実行されてもよく、またはコード解釈、マイクロコード実行などによって実行されてもよい。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、オブジェクトネットワークデバイス（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓｄｅｖｉｃｅｓ）などを含む、様々なタイプのコンピュータまたはそのコンポーネントで実行されてもよい。

例えば、図１０は、開示された主題の特定の実施形態を実現するのに適したコンピュータシステム（１０００）を示す。図１０に示されるコンピュータシステム（１０００）のコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実現するコンピュータソフトウェアの使用範囲または機能に関するいかなる制限も示唆することが意図されていない。コンポーネントの構成は、コンピュータシステム（１０００）の例示的な実施形態に示されているコンポーネントのいずれかまたは組み合わせに関連する任意の依存性または要件を有すると解釈されるべきではない。

コンピュータシステム（１０００）は、いくつかのヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、触覚入力（例えば、キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（例えば、音声、拍手など）、視覚入力（例えば、ジェスチャーなど）、嗅覚入力（図示せず）によって、1人以上のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスはまた、例えばオーディオ（例えば、音声、音楽、環境音など）、画像（例えば、スキャンされた画像、静止画像カメラから得られた写真画像など）、ビデオ（例えば、２次元ビデオ、立体映像を含む３次元ビデオなど）などの、人間による意識的な入力に必ずしも直接関連されているとは限らない、特定のメディアを捕捉するために使用されることもできる。

ヒューマンインターフェース入力デバイスは、キーボード（１００１）、マウス（１００２）、トラックパッド（１００３）、タッチスクリーン（１０１０）、データグローブ（図示せず）、ジョイスティック（１００５）、マイクロホン（１００６）、スキャナ（１００７）、カメラ（１００８）（それぞれの1つだけが図示された）のうちの１つまたは複数を含むことができる。

コンピューターシステム（１０００）はまた、いくつかのヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚／味覚によって、１人以上のユーザの感覚を刺激することができる。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（１０１０）、データグローブ（図示せず）またはジョイスティック（１００５）による触覚フィードバックであるが、入力デバイスとして作用しない触覚フィードバックデバイスであってもよい）、オーディオ出力デバイス（例えば、スピーカ（１００９）、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（１０１０）であり、各々は、タッチスクリーン入力機能を備えてもよく、あるいは備えていなくてもよいし、各々は、触覚フィードバック機能を備えてもよく、あるいは備えていなくてもよいし、これらのいくつかは、例えば、ステレオグラフィック出力、仮想現実メガネ（図示せず）、ホログラフィックディスプレイとスモークタンク（図示せず）、およびプリンタ（図示せず）などによって、２次元の視覚出力または３次元以上の視覚出力を出力することができる。

コンピューターシステム（１０００）は、ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（１０２０）を含む光学媒体または類似の媒体（１０２１）、サムドライブ（１０２２）、リムーバブルハードドライブまたはソリッドステートドライブ（１０２３）、テープおよびフロッピーディスク（図示せず）などのようなレガシー磁気媒体、セキュリティドングル（図示せず）などのような特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなどのような、人間がアクセス可能な記憶デバイスおよびそれらに関連する媒体を含むことができる。

当業者はまた、ここで開示されている主題に関連して使用される「コンピュータ読み取り可能な媒体」という用語は、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。

コンピューターシステム（１０００）はまた、一つ以上の通信ネットワーク（１０５５）へのインターフェース（１０５４）を含むことができる。１つまたは複数のネットワーク（１０５５）は、例えば、無線、有線、光学的であってもよい。１つまたは複数のネットワーク（１０５５）はさらに、ローカルネットワーク、広域ネットワーク、大都市圏ネットワーク、車両用ネットワークおよび産業用ネットワーク、リアルタイムネットワーク、遅延耐性ネットワークなどであってもよい。１つまたは複数のネットワーク（１０５５）の例は、イーサネット（登録商標）、無線ＬＡＮ、セルラーネットワーク（ＧＳＭ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなど）などのＬＡＮ、テレビケーブルまたは無線広域デジタルネットワーク（有線テレビ、衛星テレビ、地上放送テレビを含む）、車両用および産業用ネットワーク（ＣＡＮＢｕｓを含む）などを含む。いくつかのネットワークは、一般に、いくつかの汎用データポートまたは周辺バス（１０４９）（例えば、コンピュータシステム（１０００）のＵＳＢポート）に接続された外部ネットワークインターフェースアダプタが必要であり、他のシステムは、通常、以下に説明するようにシステムバスに接続することによって、コンピュータシステムシステム（１０００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェース、またはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（１０００）は、他のエンティティと通信することができる。このような通信は、単方向の受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、Ｃａｎｂｕｓから特定のＣａｎｂｕｓデバイスへ）、あるいは、双方向の、例えばローカルまたは広域デジタルネットワークを使用して他のコンピュータシステムへの通信であってもよい。上述のように、特定のプロトコルおよびプロトコルスタックは、それらのネットワークおよびネットワークインターフェースのそれぞれで使用されることができる。

上記のヒューマンインターフェースデバイス、ヒューマンアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピューターシステム（１０００）のコア（１０４０）に接続されることができる。

コア（１０４０）は、１つ以上の中央処理ユニット（ＣＰＵ）（１０４１）、グラフィック処理ユニット（ＧＰＵ）（１０４２）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）（１０４３）の形式の専用プログラマブル処理ユニット、特定のタスクのためのハードウェア加速器（１０４４）、グラフィックアダプタ（１０５０）などを含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ）（１０４５）、ランダムアクセスメモリ（１０４６）、例えば内部の非ユーザアクセスハードディスクドライブ、ＳＳＤなどの内部大容量ストレージ（１０４７）などとともに、システムバス（１０４８）を介して接続されてもよい。いくつかのコンピュータシステムでは、付加的なＣＰＵ、ＧＰＵなどによって拡張を可能にするために、システムバス（１０４８）に１つ以上の物理的プラグの形でアクセスすることができる。周辺デバイスは、コアのシステムバス（１０４８）に直接的に接続されてもよく、または周辺バス（１０４９）を介して接続されてもよい。一例では、スクリーン（１０１０）は、グラフィックスアダプタ（１０５０）に接続され得る。周辺バスのアーキテクチャは、外部コントローラインターフェース（ＰＣＩ）、汎用シリアルバス（ＵＳＢ）などを含む。

ＣＰＵ（１０４１）、ＧＰＵ（１０４２）、ＦＰＧＡ（１０４３）、および加速器（１０４４）は、いくつかの命令を実行することができ、これらの命令を組み合わせて上述のコンピュータコードを構成することができる。そのコンピュータコードは、ＲＯＭ（１０４５）またはＲＡＭ（１０４６）に記憶されることができる。また、一時的なデータは、ＲＡＭ（１０４６）に記憶されることができる一方、永久的なデータは、例えば内部大容量ストレージ（１０４７）に記憶されることができる。１つ以上のＣＰＵ（１０４１）、ＧＰＵ（１０４２）、大容量ストレージ（１０４７）、ＲＯＭ（１０４５）、ＲＡＭ（１０４６）などと密接に関連することができる、キャッシュメモリを使用することにより、任意のメモリデバイスに対する高速記憶および検索が可能になる。

コンピュータ読み取り可能な媒体は、様々なコンピュータ実行された動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよく、またはコンピュータソフトウェア分野の技術者によって知られ、利用可能な媒体およびコードであってもよい。

限定ではなく例として、アーキテクチャ（１０００）、特にコア（１０４０）を有するコンピュータシステムは、１つ以上の有形な、コンピュータ読み取り可能な媒体に具体化されたソフトウェアを実行する、（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、加速器などを含む）プロセッサとして機能を提供することができる。このようなコンピュータ読み取り可能な媒体は、上記のユーザがアクセス可能な大容量ストレージに関連する媒体であり、コア内部大容量ストレージ（１０４７）またはＲＯＭ（１０４５）などの、不揮発性コア（１０４０）を有する特定のストレージであってもよい。本開示の様々な実施形態を実現するソフトウェアは、そのようなデバイスに記憶され、コア（１０４０）によって実行されてもよい。コンピュータ読み取り可能な媒体は、特定のニーズに応じて、１つ以上のメモリデバイスまたはチップを含むことができる。このソフトウェアは、コア（１０４０）、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（１０４６）に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を変更することとを含む、本明細書に説明された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えてまたは代替として、コンピュータシステムは、ロジックハードワイヤードされているか、または別の方法で回路（例えば、加速器（１０４４））に組み込まれているため、機能を提供することができ、この回路は、ソフトウェアの代わりに動作し、またはソフトウェアと一緒に動作して、本明細書に説明された特定のプロセスの特定のプロセスまたは特定の部分を実行することができる。適切な場合には、ソフトウェアへの参照はロジックを含むことができ、逆もまた然りである。適切な場合には、コンピュータ読み取り可能な媒体への参照は、実行されるソフトウェアを記憶する回路（集積回路（ＩＣ）など）を含み、実行されるロジックを具体化する回路、またはその両方を兼ね備えることができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを包含する。

本開示は、いくつかの例示的な実施形態について説明したが、本開示の範囲内にある変更、配置、および様々な均等置換が存在している。したがって、当業者は、本明細書では明確に示されていないかまたは説明されていないが、本開示の原則を具現しているので、本開示の精神および範囲内にある、様々なシステムおよび方法を設計することができる、ということを理解されたい。

１００代替エンドツーエンド（Ｅ２Ｅ）ビデオコーディングシステム
１０１Ｅ２Ｅフレームワーク
１１０エンコーダ
１１２代替画像生成器
１１４ＡＮＮエンコーダ
１１６量子化器
１１８エントロピーエンコーダ
１２０デコーダ
１２４ＡＮＮデコーダ
１２８エントロピーデコーダ
１３１ビットストリーム
２１２歪み損失生成器
２１６量子化器
２０１Ｅ２Ｅ訓練フレームワーク
２１８レート損失推定器
３００機械学習プロセス
３０１Ｅ２Ｅ訓練されたフレームワーク
４００テストシステム
５００第１ビットレート制御メカニズム
６００第２ビットレート制御メカニズム
７００歪みメトリックタイプを調整するためのメカニズム
８００ターゲット歪みレベルを調整するためのメカニズム
１０００コンピュータシステム
１００１キーボード
１００２マウス
１００３トラックパッド
１００５ジョイスティック
１００６マイクロホン
１００７スキャナ
１００８カメラ
１００９スピーカ
１０１０視覚出力デバイス
１０２０ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ
１０２１光学媒体または類似の媒体
１０２２サムドライブ
１０２３リムーバブルハードドライブ
１０４０コア
１０４１中央処理ユニット（ＣＰＵ）
１０４２グラフィック処理ユニット（ＧＰＵ）
１０４３フィールドプログラマブルゲートアレイ（ＦＰＧＡ）
１０４４ハードウェア加速器
１０４５リードオンリーメモリ（ＲＯＭ）
１０４６ランダムアクセスメモリ
１０４７内部大容量ストレージ
１０４８システムバス
１０４９周辺デバイス
１０５０グラフィックアダプタ
１０５４インターフェース
１０５５１つまたは複数のネットワーク

本開示の態様は、コンピュータデバイスでのビデオコーディング方法を提供する。この方法は、画像を受信するステップと、エンドツーエンド（Ｅ２Ｅ）最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定するステップとを含む。前記Ｅ２Ｅ最適化されたフレームワークは、予め訓練された、人工ニューラルネットワーク（ＡＮＮ）に基づくビデオコーディングフレームワークであり得る。前記画像の代替表現は、ビットストリームを生成するためにコーディングされ得る。

一実施形態では、前記画像の代替表現の要素の値に関する損失関数を最適化するために、前記画像の代替表現の要素をコーディングするための前記最適化プロセスが実行される。一実施形態では、ステップサイズおよび反復回数を含むハイパーパラメータに基づいて、前記最適化プロセスが実行される。前記ステップサイズおよび反復回数は、前記コンピュータデバイスに入力される画像ごとに予め固定または調整された。一実施形態では、前記最適化プロセスの現在の反復は、前記損失関数を最小化するために、前記画像の代替表現の要素の現在値を調整するための勾配降下を実行するステップと、前記画像の代替表現の要素の調整された現在値を、前記最適化プロセスの次の反復の入力として使用するステップと、を含む。

本開示の態様は、ビデオコーディング装置を提供する。前記装置は、回路を含み、前記回路は、画像を受信することと、エンドツーエンド（Ｅ２Ｅ）最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定することと、を行うように構成される。前記Ｅ２Ｅ最適化されたフレームワークは、予め訓練された、ＡＮＮに基づくビデオコーディングフレームワークであり得る。前記回路は、さらに、前記画像の代替表現をコーディングすることでビットストリームを生成すること、を行うように構成される。

本開示の一実施形態による代替エンドツーエンド（Ｅ２Ｅ）ビデオコーディングシステム（１００）を示す図である。Ｅ２Ｅフレームワーク（１０１）をどのように訓練するかの例を示す図である。本開示の一実施形態による機械学習プロセス（３００）を示す図である。本開示の一実施形態による試験システム（４００）を示す図である。レート損失と歪み損失との間のトレードオフ係数を調整することに基づく第１ビットレート制御メカニズム（５００）を示す図である。レート歪み損失関数におけるビットレート制約（ターゲットビットレート）を設定することに基づく第２ビットレート制御メカニズム（６００）を示す図である。予め訓練されたＥ２Ｅフレームワーク（１０１）を使用して画像をコーディングするための歪みメトリックタイプを調整するためのメカニズム（７００）を示す図である。予め訓練されたＥ２Ｅフレームワーク（１０１）を使用して画像をコーディングするためのターゲット歪みレベルを調整するためのメカニズム（８００）を示す図である。本開示の一実施形態による、代替画像に基づくＥ２Ｅビデオコーディングプロセス（９００）を示す図である。一実施形態によるコンピュータシステムの概略図である。

代替画像生成器（１１２）は、例えば、一連の画像を含むビデオから入力画像Ｘ（またはイメージＸ）を受信し、入力画像Ｘに対応する代替画像Ｘｓを生成するように構成される。代替画像Ｘｓは、Ｅ２Ｅフレーム（１０１）に供給される。本開示によれば、代替画像Ｘｓは、Ｅ２Ｅフレームワーク（１０１）に基づいて学習され得る。学習された代替画像Ｘｓは、元の入力画像Ｘと視覚的に類似しているが、元の入力画像Ｘよりも優れた変更を有することができる。例えば、いくつかの実施形態では、元の入力画像ＸをＥ２Ｅフレーム（１０１）に直接に供給するよりも、Ｅ２Ｅフレーム（１０１）を介して代替画像Ｘｓを処理する方は、より良いレート歪み性能を達成することができる。

Ｅ２Ｅフレームワーク（１０１）は、代替画像Ｘｓを処理することで再構成された画像Ｘ’を生成する。具体的には、ＡＮＮエンコーダ（１１４）は、代替画像Ｘｓをよりコンパクトな潜在表現Ｙに変換する。代替画像Ｘｓの画素間の空間相関性は除去され得て、また、重要な特徴情報は、潜在表現Ｙにおいて保持され得る。様々な例では、代替画像Ｘｓの次元数は低減または維持され得る。量子化器（１１６）は、損失のある量子化動作を応用することによって、潜在表現Ｙをさらに圧縮することができる。量子化器（１１６）から出力された量子化表現Ｙ’は、ビットストリーム（１３１）を生成するために、エントロピーエンコーダ（１１８）によってエントロピーコード化され得る。様々な実施形態では、このエントロピー符号化動作は、損失のあるまたは損失のないであってもよい。エントロピーコーディング方法の例には、ハフマンコーディング、算術コーディング、コンテキスト適応バイナリ算術演算などが含まれ得る。ビットストリーム（１３１）は、デコーダ（１２０）に伝送されてもよく、またはデコーダ（１２０）によって記憶され、後で処理されてもよい。

ＡＮＮデコーダ（１２４）は、また、最適化される変数であるＮＮパラメータ（Ｐｄとして表記された）を有するＡＮＮネットワークを含み得る。ＡＮＮデコーダ（１２４）は、量子化表現Ｙ’を受信し、またＮＮパラメータＰｄに基づいて、量子化表現Ｙ’を再構成された画像Ｘ’に変換することができる。歪み損失生成器（２１２）は、入力画像Ｘと再構成された画像Ｘ’との間の差に基づいて、歪み損失Ｄ（Ｘ，Ｘ’）を決定することができる。歪み損失Ｄ（Ｘ，Ｘ’）は、パラメータＰｅおよびＰｄの関数であり得る。様々な実施形態では、様々な歪みメトリック（または品質メトリック）は、歪み損失を決定するために使用されてもよい。歪みメトリックの例は、ピーク信号対雑音比（ＰＳＮＲ：ｐｅａｋｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ）、ハイダイナミックレンジ視覚差予測子（ＨＤＲ－ＶＤＰ：ｈｉｇｈ－ｄｙｎａｍｉｃｒａｎｇｅｖｉｓｕａｌｄｉｆｆｅｒｅｎｃｅｐｒｅｄｉｃｔｏｒ）、構造インデックス類似度（ＳＳＩＭ：ｓｔｒｕｃｔｕｒａｌｉｎｄｅｘｓｉｍｉｌａｒｉｔｙ）、マルチスケール構造類似度（ＭＳ－ＳＳＩＭ：ｍｕｌｔｉｓｃａｌｅｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙ）などを含み得る。

エントロピーおよびレート損失を推定するための様々な技術は、様々な実施形態において適用され得る。エントロピー推定の例は、要素ごと独立エントロピーモデルを使用して潜在表現の確率分布を推定すること、超優先モデル、予測モデルまたは他の学習されたパラメトリックモデルを使用したエントロピーを明示的に推定することなどを含んでもよい。レート損失推定方法の例は、Ｊ．Ｂａｌｌｅらによって、２０１７年の表現学習国際学会（ＩＣＬＲ：ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ）で、「エンドツーエンド最適化された画像圧縮」によって説明され、その全体が参照により組み込まれる。

訓練プロセス中に、Ｅ２Ｅ訓練フレームワーク（２０１）およびレート損失推定器（２１８）は、全体として、Ｘの入力エンドからＸ’の出力エンドまで最適化され得る。パラメータＰｅ、ＰｄおよびＰｒは、ＮＮパラメータＰｅおよびＰｄと、エントロピーモデルパラメータＰｒとを介した損失関数Ｌ（Ｐｅ、Ｐｄ、Ｐｒ）を最小化するために、ターゲットによってガイドされて更新（または最適化）され得る。例えば、特定の数の画像を訓練サンプルとして使用すると、勾配降下は、損失関数Ｌ（Ｐｅ，Ｐｄ，Ｐｒ）に基づいて実行され得て、これにより、ＮＮパラメータＰｄおよびＰｅと、エントロピーモデルパラメータＰｒとは、特定のレート歪み性能が達成されるまでに、段階的に調整されている。勾配降下のアルゴリズムの例は、バッチ勾配降下（ｂａｔｃｈＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、確率的勾配降下（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、ミニバッチ勾配降下などを含み得る。

図３は、本開示の一実施形態による機械学習プロセス（または最適化プロセスと呼ばれる）（３００）を示す。学習プロセス（３００）は、図１の例における代替画像生成器（１１２）で実行されて、代替画像Ｘｓを、入力として元の入力画像Ｘを有する出力として決定することができる。

テストの期間では、入力画像Ｘは、テストシステム（４００）を介して供給され得る。入力画像Ｘに対応して、入力画像Ｘの代替画像Ｘｓは学習され得る。続いて、変換された表現Ｙ、圧縮された表現Ｙ’、および再構成された表現Ｘ’は、前向き推論計算によって決定され得る。レート測度（例えば、ＢＰＰ）および歪み測度（例えば、ＰＳＮＲまたはＳＳＩＭ）は、再構成された画像について計算され得る。この結果は、テストシステム（４００）において要素（１１２）をスキップしながら要素（１１４、１１６または２１６、１２４）によって入力画像Ｘを供給することの結果と比較され得る。様々なデータセットにおける異なるサンプルは、テストシステム（４００）上でテストを行うために使用され得る。

図５は、レート損失と歪み損失との間のトレードオフ係数を調整することに基づく第１ビットレート制御メカニズム（５００）を示す。例えば、ターゲットトレードオフパラメータλｔａｒｇｅｔは、代替画像学習プロセス（３００）において使用されるレート歪み損失関数（式２）を調整するために、Ｅ２Ｅビデオコーディングシステム（１００）における代替画像生成器（１１２）に提供され得る。調整されたレート歪み損失関数は、以下のように示される。
［式３］
Ｌ（Ｐｓ）＝Ｒ（Ｘｓ）＋λ目標Ｄ（Ｘ，Ｘｓ’）

例えば、レート歪み損失関数（式３）によってガイドされた代替画像学習プロセス（３００）では、代替画像Ｘｓは、ターゲットトレードオフパラメータλｔａｒｇｅｔに対応するターゲットビットレート（コード化された後）を有するようにチューニングされ得る。次に、代替画像Ｘｓは、Ｅ２Ｅビデオコーディングシステム（１００）に入力され得て、このＥ２Ｅビデオコーディングシステムは、現在のターゲットビットレートとは異なるビットレートをターゲッティングするように予め訓練され得る。ターゲットビットレートに対応するビットストリーム（１３１）は取得され得る。これにより、ビットレート制御は、異なるＡＮＮモデルインスタンス間でＥ２Ｅフレームワーク（１０１）を切り替えることなく実現され得る。

図６は、レート歪み損失関数におけるビットレート制約（ターゲットビットレート）を設定することに基づく第２ビットレート制御メカニズム（６００）を示す。例えば、ターゲットビットレートＲｔａｒｇｅｔは、代替画像学習プロセス（３００）において使用されるレート歪み損失関数（式２）を変更するために、Ｅ２Ｅビデオコーディングシステム（１００）における代替画像生成器（１１２）に提供され得る。変更されたレート歪み損失関数は、以下のように示される。
［式４］
Ｌ（Ｐｓ）＝ηＬ（Ｒ（Ｘｓ），Ｒ目標）＋Ｄ（Ｘ，Ｘｓ’）
ここで、Ｌ（Ｒ（Ｘｓ），Ｒｔａｒｇｅｔ）は、Ｒ（Ｘｓ）とＲｔａｒｇｅｔとの間の差の損失を測定するものであり、ηは、異なる損失項Ｌ（Ｒ（Ｘｓ），Ｒｔａｒｇｅｔ）とＤ（Ｘ，Ｘｓ’）の寄与をバランスさせるハイパーパラメータ（トレードオフパラメータ）である。一実施形態において、ηは、結果として生成されるビットレートができるだけターゲットビットレートＲｔａｒｇｅｔに近づくことを確保するために、大きな値として設定され得る。レート歪み損失関数（式４）によってガイドされた代替学習プロセス（３００）の期間では、代替画像Ｘｓは、コード化された後にターゲットビットレートを有するように決定され得る。次いで、代替画像Ｘｓは、異なるＡＮＮモデルインスタンス間で切り替えることなくターゲットビットレートを実現するために、Ｅ２Ｅビデオコーディングシステム（１００）によって処理され得る（現在のターゲットビットレートとは異なるビットレートをターゲッティングするように予め訓練され得る）。

図７は、予め訓練されたＥ２Ｅフレームワーク（１０１）を使用して画像をコーディングするための歪みメトリックタイプを調整するためのメカニズム（７００）を示す。例えば、Ｅ２Ｅビデオコーディングシステム（１００）におけるＥ２Ｅフレームワーク（１０１）は、第１歪みメトリック（例えばＰＳＮＲ）をターゲットとするように訓練され得る。これは、ＰＳＮＲメトリックを使用することで以下に再現されるレート歪み損失関数における歪み損失Ｄ（Ｘ，Ｘ’）を定式化（ｆｏｒｍｕｌａｔｅ）することによって実現され得る。
［式１］
Ｌ（Ｐｅ，Ｐｄ，Ｐｒ）＝Ｒ（Ｘ）＋λＤ（Ｘ，Ｘ’）

予め訓練されたＥ２Ｅフレームワーク（１０１）を使用することで、第１歪みメトリックとは異なる第２歪みメトリック（例えば、ＳＳＩＭ）をターゲッティングする画像をコーディングするために、この調整は、以下のように実行され得る。

ターゲット歪みメトリック（ＳＳＩＭ）は、代替画像学習プロセス（３００）において使用されるレート歪み損失関数（式２）における歪み損失Ｄ（Ｘ，Ｘｓ’）を定式化するために、Ｅ２Ｅビデオコーディングシステム（１００）における代替画像生成器（１１２）に提供され得る。レート歪み損失関数（式２）は、以下に再現される。
［式２］
Ｌ（Ｐｓ）＝Ｒ（Ｘｓ）＋λＤ（Ｘ，Ｘｓ’）

図８は、予め訓練されたＥ２Ｅフレームワーク（１０１）を使用して画像をコーディングするためのターゲット歪みレベルを調整するためのメカニズム（８００）を示す。例えば、Ｅ２Ｅビデオコーディングシステム（１００）におけるＥ２Ｅフレーム（１０１）は、レート歪み損失関数（式１）に基づいて所定の歪みメトリック（例えば、ＰＳＮＲ）をターゲットとするように訓練され得る。

所定の歪みのための第２歪みレベルをターゲッティングする画像をコーディングするために、ターゲット歪みレベルＤｔａｒｇｅｔは、代替画像学習プロセス（３００）において使用されるレート歪み損失関数（式２）を変更するために、Ｅ２Ｅビデオコーディングシステム（１００）における代替画像生成器（１１２）に提供され得る。変更されたレート歪み損失関数は、以下に示される。
［式６］
Ｌ（Ｐｓ）＝Ｒ（Ｘｓ）＋ηＬ（Ｄ（Ｘ，Ｘｓ’），Ｄｔａｒｇｅｔ）
ここで、Ｌ（Ｄ（Ｘ，Ｘｓ’），Ｄｔａｒｇｅｔ）は、Ｄ（Ｘ，Ｘｓ’）とＤｔａｒｇｅｔとの差の損失を測定するものであり、ηは、異なる損失項Ｒ（Ｘｓ）とＬ（Ｄ（Ｘ，Ｘｓ’），Ｄｔａｒｇｅｔ）の寄与をバランスさせるハイパーパラメータ（トレードオフパラメータ）である。一実施形態において、ηは、結果として生成される歪みレベルができるだけターゲット歪みレベルＤｔａｒｇｅｔに近づくことを確保するために、大きな値として設定され得る。損失関数（式６）によってガイドされた代替学習プロセス（３００）の期間では、代替画像Ｘｓは、コード化された後にターゲット歪みレベルを有するように決定され得る。次いで、代替画像Ｘｓは、異なるＡＮＮモデルのインスタンス間で切り替えることなくターゲット歪みレベルを実現するために、Ｅ２Ｅビデオコーディングシステム（１００）によって処理され得る。

（Ｓ９３０）において、画像の代替表現は、ビットストリームを生成するためにコーディングされ得る。例えば、図１の例におけるエンコーダ（１１０）で、代替画像生成器（１１２）から生成された後に、画像の代替表現は、ＡＮＮエンコーダ（１１４）に入力され、またビットストリーム（１３１）にコーディングされており、それが、続いて記憶媒体に記憶されるかまたはデコーダ（１２０）に送信され得る。その後、プロセス（９００）は、（Ｓ９９９）に進み、（Ｓ９９９）で終了することができる。

コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用してコーディングされることができ、アセンブリ、コンパイル、リンク、または同様のメカニズムを受けて命令を含むコードを作成することができ、命令は、１つ以上のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって、直接的に実行されてもよく、またはコード解釈、マイクロコード実行などによって実行されてもよい。

コンピューターシステム（１０００）はまた、いくつかのヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚／味覚によって、１人以上のユーザの感覚を刺激することができる。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（１０１０）、データグローブ（図示せず）またはジョイスティック（１００５）による触覚フィードバックであるが、入力デバイスとして作用しない触覚フィードバックデバイスであってもよい）、オーディオ出力デバイス（例えば、スピーカ（１００９）、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むタッチスクリーン（１０１０）であり、各々は、タッチスクリーン入力機能を備えてもよく、あるいは備えていなくてもよいし、各々は、触覚フィードバック機能を備えてもよく、あるいは備えていなくてもよいし、これらのいくつかは、例えば、ステレオグラフィック出力、仮想現実メガネ（図示せず）、ホログラフィックディスプレイとスモークタンク（図示せず）、およびプリンタ（図示せず）などによって、２次元の視覚出力または３次元以上の視覚出力を出力することができる。

コア（１０４０）は、１つ以上の中央処理ユニット（ＣＰＵ）（１０４１）、グラフィック処理ユニット（ＧＰＵ）（１０４２）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）（１０４３）の形式の専用プログラマブル処理ユニット、特定のタスクのためのハードウェア加速器（１０４４）、グラフィックアダプタ（１０５０）などを含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ）（１０４５）、ランダムアクセスメモリ（１０４６）、例えば内部の非ユーザアクセスハードディスクドライブ、ＳＳＤなどの内部大容量ストレージ（１０４７）などとともに、システムバス（１０４８）を介して接続されてもよい。いくつかのコンピュータシステムでは、付加的なＣＰＵ、ＧＰＵなどによって拡張を可能にするために、システムバス（１０４８）に１つ以上の物理的プラグの形でアクセスすることができる。周辺デバイスは、コアのシステムバス（１０４８）に直接的に接続されてもよく、または周辺バス（１０４９）を介して接続されてもよい。一例では、タッチスクリーン（１０１０）は、グラフィックスアダプタ（１０５０）に接続され得る。周辺バスのアーキテクチャは、外部コントローラインターフェース（ＰＣＩ）、汎用シリアルバス（ＵＳＢ）などを含む。

Claims

ビデオエンコーダでのビデオ符号化方法であって、
画像を受信するステップと、
エンドツーエンド（Ｅ２Ｅ）最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定するステップであって、前記Ｅ２Ｅ最適化されたフレームワークは、予め訓練された、人工ニューラルネットワーク（ＡＮＮ）に基づくビデオコーディングフレームワークであるステップと、
前記画像の代替表現を符号化することでビットストリームを生成するステップと、
を含むことを特徴とする方法。
前記画像の代替表現を決定するステップは、
前記画像の代替表現の要素の値に関する損失関数を最適化するために、前記画像の代替表現の要素をコーディングするための前記最適化プロセスを実行するステップを、含む、
ことを特徴とする請求項１に記の方法。
前記最適化プロセスを実行するステップは、
前記ビデオエンコーダに入力される画像ごとに予め固定されたステップサイズおよび反復回数を含むハイパーパラメータに基づいて、前記最適化プロセスを実行するステップを、含む、
ことを特徴とする請求項２に記載の方法。
前記最適化プロセスを実行するステップは、
前記ビデオエンコーダに入力される画像ごとに調整されたステップサイズおよび反復回数を含むハイパーパラメータに基づいて、前記最適化プロセスを実行するステップ、を含む、
ことを特徴とする請求項２に記載の方法。
前記最適化プロセスの現在の反復は、
前記損失関数を最小化するために、前記画像の代替表現の要素の現在値を調整するための勾配降下を実行するステップと、
前記画像の代替表現の要素の調整された現在値を、前記最適化プロセスの次の反復の入力として使用するステップと、を含む、
ことを特徴とする請求項２に記載の方法。
前記損失関数は、前記Ｅ２Ｅ最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするためのビットレート測度と歪み測度との加重和を含む、
ことを特徴とする請求項２に記載の方法。
前記歪み測度は、前記画像と、前記Ｅ２Ｅ最適化されたフレームワークに基づいてコード化されたときの前記画像の代替表現の再構成された画像との間の差を含む、
ことを特徴とする請求項６に記載の方法。
前記Ｅ２Ｅ最適化されたフレームワークに基づいて前記画像をコーディングするためのビットレートを調整するために、前記加重和におけるトレードオフ係数を調整するステップを、含む、
ことを特徴とする請求項６に記載の方法。
前記ビットレート測度は、ターゲットビットレートと、前記Ｅ２Ｅ最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするためのビットレートとの間の差を含み、また、前記方法は、
前記Ｅ２Ｅ最適化されたフレームワークを使用して前記画像をコーディングするためのビットレートを調整するために、前記加重和におけるターゲットビットレートを調整するステップ、をさらに含む、
ことを特徴とする請求項６に記載の方法。
前記歪み測度は、前記Ｅ２Ｅ最適化されたフレームワークを最適化するために使用される歪みメトリックタイプとは異なるターゲット歪みメトリックタイプに基づくものである、
ことを特徴とする請求項６に記載の方法。
前記歪み測度は、前記Ｅ２Ｅ最適化されたフレームワークを最適化するために使用される歪みメトリックタイプと同じターゲット歪みメトリックタイプに基づくものである、
ことを特徴とする請求項６に記載の方法。
前記歪み測度は、前記Ｅ２Ｅ最適化されたフレームワークを最適化するために使用される同じ歪みメトリックタイプの歪みレベルとは異なる歪みメトリックタイプのターゲット歪みレベルに基づくものである、
ことを特徴とする請求項６に記載の方法。
前記歪み測度は、前記Ｅ２Ｅ最適化されたフレームワークを最適化するために使用される同じ歪みメトリックタイプの歪みレベルと同じ歪みメトリックタイプのターゲット歪みレベルに基づくものである、
ことを特徴とする請求項６に記載の方法。
回路を含むビデオ符号化装置であって、前記回路は、
画像を受信することと、
エンドツーエンド（Ｅ２Ｅ）最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定することであって、前記Ｅ２Ｅ最適化されたフレームワークは、予め訓練された、人工ニューラルネットワーク（ＡＮＮ）に基づくビデオコーディングフレームワークであることと、
前記画像の代替表現を符号化することでビットストリームを生成することと、を行うように構成される、
ことを特徴とする装置。
前記回路は、さらに、
前記画像の代替表現の要素の値に関する損失関数を最適化するために、前記画像の代替表現の要素をコーディングするための前記最適化プロセスを実行すること、を行うように構成される、
ことを特徴とする請求項１４に記載の装置。
前記最適化プロセスの現在の反復は、
前記損失関数を最小化するために、前記画像の代替表現の要素の現在値を調整するための勾配降下を実行することと、
前記画像の代替表現の要素の調整された現在値を、前記最適化プロセスの次の反復の入力として使用することと、を含む、
ことを特徴とする請求項１５に記載の装置。
前記損失関数は、前記Ｅ２Ｅ最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするためのビットレート測度と歪み測度との加重和を含む、
ことを特徴とする請求項１５に記載の装置。
前記歪み測度は、前記画像と、前記Ｅ２Ｅ最適化されたフレームワークに基づいてコード化されたときの前記画像の代替表現の再構成された画像との間の差を含む、
ことを特徴とする請求項１７に記載の装置。
前記回路は、さらに、
前記Ｅ２Ｅ最適化されたフレームワークに基づいて前記画像をコーディングするためのビットレートを調整するために、前記加重和におけるトレードオフ係数を調整すること、を行うように構成される、
ことを特徴とする請求項１７に記載の装置。
命令が記憶されている非一時的なコンピュータ読み取り可能な媒体であって、前記命令がプロセッサによって実行されるとき、ビデオ符号化方法を前記プロセッサに実行させ、前記方法は、
画像を受信するステップと、
エンドツーエンド（Ｅ２Ｅ）最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定するステップであって、前記Ｅ２Ｅ最適化されたフレームワークは、予め訓練された、人工ニューラルネットワーク（ＡＮＮ）に基づくビデオコーディングフレームワークであるステップと、
前記画像の代替表現を符号化することでビットストリームを生成するステップと、を含む、
ことを特徴とする媒体。