JP7451591B2

JP7451591B2 - 機械学習モデルベースのビデオ圧縮

Info

Publication number: JP7451591B2
Application number: JP2022062152A
Authority: JP
Inventors: デジェロフアブデルアジズ; マルクスヘルミンガーレオンハルト; ジェルソンデアルバカーキアゼヴェードロベルト; ラブロージースコット; リヒャルトシュロアーズクリストファ; シュエユアンイ
Original assignee: ディズニーエンタープライゼスインコーポレイテッド; イーティーエイチ・チューリッヒ
Priority date: 2021-04-08
Filing date: 2022-04-01
Publication date: 2024-03-18
Anticipated expiration: 2042-04-01
Also published as: US20220329876A1; BR102022006510A2; CN115209154A; EP4087251A1; KR20220139800A; JP2022161861A

Description

関連出願の参照
本出願は、２０２１年４月８日に出願され、「ＮｅｕｒａｌＮｅｔｗｏｒｋＢａｓｅｄＶｉｄｅｏＣｏｄｅｃｓ」と題する仮特許出願シリアル番号６３／１７２，３１５、および２０２１年１０月１３日に出願され、「ＭｉｃｒｏｄｏｓｉｎｇＦｏｒＬｏｗＢｉｔｒａｔｅＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎ」と題する仮特許出願シリアル番号６３／２５５，２８０の利益および優先権を主張するものである。それによって、これらは参照により完全に本出願に組み込まれている。

ビデオコンテンツは、インターネットトラフィック全体の大部分を占めており、空間解像度のフレームレートおよびビデオの色深度が増加し、ストリーミングサービスを採用するユーザが増えるにつれて、さらに増加すると予想される。既存のコーデックは、素晴らしいパフォーマンスを達成しているが、これ以上小さな改良を加えても将来の需要に対応できないところまで作り込まれている。そのため、ビデオコーディングを実行するための根本的に異なる方法を探求することは、有利にも、パフォーマンスおよび柔軟性を改善させた新しいクラスのビデオコーデックにつながる可能性がある。

例えば、例として生成的敵対ネットワーク（ＧＡＮ）の形態のニューラルネットワーク（ＮＮ）などのトレーニング済機械学習（ＭＬ）モデルを使用してビデオ圧縮を行うことの１つの利点は、そうでなければデータ伝送の点から取得するのにコストがかかるであろう視覚的詳細を、ＭＬモデルに推論可能とさせることである。しかしながら、ＧＡＮのようなＭＬモデルのトレーニングは、そのトレーニングが、損失関数の鞍点に収束すべく最小化ステップと最大化ステップを交互に繰り返すため、典型的に困難である。時間ドメインとそれがもたらす複雑さの増加を考慮すると、タスクがより困難になる。

一実装形態による、機械学習（ＭＬ）モデルベースのビデオ圧縮を実行するための例示的なシステムの図である。一実装形態による、例示的なＭＬモデルベースビデオコーデックアーキテクチャの図である。別の実装形態による、例示的なＭＬモデルベースビデオコーデックアーキテクチャの図である。また別の実装形態による、例示的なＭＬモデルベースビデオコーデックアーキテクチャの図である。一実装形態による、ＭＬモデルベースのビデオ圧縮を実行するための例示的な方法を概説するフローチャートである。別の実装形態による、ＭＬモデルベースのビデオ圧縮を実行するための例示的な方法を概説するフローチャートである。

以下の説明は、本開示における実装に関連する特定の情報を含む。当業者は、本開示が、本明細書で具体的に記載されているものとは異なる態様で実装され得ることを認識するであろう。本出願の図面およびそれらに付随する詳細な説明は、単に例示的な実装に向けられている。特に明記しない限り、図中の同様のまたは対応する要素は、同様のまたは対応する参照符号によって示すことができる。さらに、本出願の図面およびイラストレーションは、概して、縮尺通りではなく、実際の相対的な寸法に対応することを意図していない。

上述のように、ビデオコンテンツは、インターネットトラフィック全体の大部分を占めており、空間解像度のフレームレート、ビデオの色深度が増加し、ストリーミングサービスを採用するユーザが増えるにつれて、さらに増加すると予想される。既存のコーデックは、素晴らしいパフォーマンスを達成しているが、これ以上小さな改良を加えても将来の需要に対応できないところまで作り込まれている。そのため、ビデオコーディングを実行するための根本的に異なる方法を探求することは、有利にも、パフォーマンスおよび柔軟性を改善させた新しいクラスのビデオコーデックにつながる可能性がある。

例えば、更に上述のように、例として生成的敵対ネットワーク（ＧＡＮ）の形態のニューラルネットワーク（ＮＮ）などのトレーニング済機械学習（ＭＬ）モデルを使用してビデオ圧縮を行うことの１つの利点は、そうでなければデータ伝送の点から取得するのにコストがかかるであろう視覚的詳細を、ＭＬモデルに推論可能とさせることである。しかしながら、ＧＡＮのようなＭＬモデルのトレーニングは、そのトレーニングが損失関数の鞍点に収束すべく最小化ステップと最大化ステップを交互に繰り返すため、典型的に困難である。データの増加だけが原因だとしても、時間ドメインとそれがもたらす複雑さの増加を考慮すると、タスクがより困難になる。

本出願は、低ビットレートのビデオ圧縮をターゲットとする場合に特に重要なトレーニング済ＧＡＮと同様のハルシネーション能力（ｈａｌｌｕｃｉｎａｔｉｏｃａｐａｃｉｔｙ）を有するビデオ圧縮コーデックを構築するための基礎として、任意の敵対的にトレーニングされた画像圧縮ＭＬモデルを使用する知識蒸留（ｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）および潜在空間残差（ｌａｔｅｎｔｓｐａｃｅｒｅｓｉｄｕａｌ）に基づく枠組みを開示する。本ＭＬモデルベースのビデオ圧縮ソリューションから結果として生じる画像は、高いビットレートを必要とせずに、視覚的に心地よい。ＭＬモデルベースビデオコーデックを使用して合成された画像の細部は、現実的に見えることができるが、一方でグラウンドトゥルースからわずかに逸脱する場合がある。それにもかかわらず、本ＭＬモデルベースのビデオ圧縮ソリューションは、従来のアプローチにおいて同じ量の送信データを使用して不可能であるような画質を提供可能である。さらに、いくつかの実装形態において、本ＭＬモデルベースのビデオ圧縮ソリューションは、実質的に自動化されたシステムおよび方法として実装するこができる。

本出願で使用される場合、用語「自動化」、「自動化された」、および「自動化する」は、人間の編集者またはシステム管理者のような人間のユーザの参加を必要としないシステムおよびプロセスを指すことに留意されたい。いくつかの実装形態においては、人間のシステム管理者が、本明細書に記載の自動化されたプロセスに従って動作する自動化されたシステムのパフォーマンスをレビューすることができる。しかしながら、その人間の関与は任意選択である。したがって、本出願に記載されるプロセスは、開示されるシステムのハードウェア処理コンポーネントの制御下で、実行することができる。

さらに、本出願で定義されるように、「機械学習モデル」（以下「ＭＬモデル」）という表現は、トレーニングデータとして知られる信頼される既知のマッチおよび既知のミスマッチのセットから得られるデータのサンプルから学習されたパターンに基づいて将来の予測を行うための数学的モデルを指すことに留意されたい。入力データと出力データとの間の相関関係をマッピングするために、多様な学習アルゴリズムを使用できる。これらの相関関係は、新しい入力データに対して将来の予測を行うために使用できる数学的モデルを形成する。このような予測モデルは、例えば、１つまたは複数のロジスティック回帰モデル、ベイジアンモデル、またはＮＮを含むことができる。さらに、機械学習モデルは、特定のタスクの機械学習モデルのパフォーマンスを徐々に向上させるように設計することができる。

ディープラーニングの文脈における「ディープニューラルネットワーク」（deep ＮＮ）は、入力層と出力層の間の複数の隠れ層を利用するＮＮを指すことができる。隠れ層によって、生データにおいて明示的に定義されていない特徴に基づく学習ができるようになる。本出願で使用される場合、ＮＮと付された特徴は、ディープニューラルネットワークを指す。多様な実装形態において、ＮＮは、画像処理または自然言語処理を実行するために利用できる。本発明の新規かつ発明的な原理は、ＧＡＮとして知られる例示的なＮＮクラスを参照することによって以下に説明される。しかしながら、その特徴付けは、単に概念を明確にするために提供されるものである。より一般的には、本ＭＬモデルベースのビデオ圧縮ソリューションは、他のタイプのＭＬモデルを用いて実装されてもよく、トレーニングに負担がかかる、高価な、または時間のかかるＭＬモデルと共に使用される場合に、特に有利であり得る。

図１は、一実装態様による、ＭＬモデルベースのビデオ圧縮を実行するための例示的なシステムを示す。図１に示すように、システム１００は、処理ハードウェア１０４と、コンピュータが読み取り可能な非一時的記憶媒体として実装されたシステムメモリ１０６と、を有するコンピューティングプラットフォーム１０２を含む。この例示的な実装形態によれば、システムメモリ１０６は、非圧縮ビデオコンテンツ１１６およびＭＬモデルベースコーデックソフトウェアリソース１３０を格納する。

図１に更に示すように、システム１００は、通信ネットワーク１１０と、ユーザ１１４による使用のために構成されてディスプレイ１２２を含むユーザシステム１２０と、を含む使用環境内部に実装されている。さらに、図１は、通信ネットワーク１１０を介してユーザシステム１２０をシステム１００とインタラクティブに接続するネットワーク通信リンク１１２を示す。また、図１には、システム１００によって出力されて非圧縮ビデオコンテンツ１１６に対応する、圧縮ビデオコンテンツ１１７が示されている。

本出願では、概念を明確にするために、ＭＬモデルベースコーデックソフトウェアリソース１３０がシステムメモリ１０６に格納されていると言及する。しかしながら、より一般的には、システムメモリ１０６は、任意のコンピュータが読み取り可能な非一時的記憶媒体の形態をとることができる。本出願で使用される「コンピュータが読み取り可能な非一時的記憶媒体」という表現は、コンピューティングプラットフォーム１０２の処理ハードウェア１０４に命令を供給する搬送波または他の一時的な信号を除く、任意の媒体を指す。したがって、コンピュータが読み取り可能な非一時的記憶媒体は、例えば、揮発性媒体および不揮発性媒体などの多様な種類の媒体に対応することができる。揮発性媒体は、ダイナミックランダムアクセスメモリ（ダイナミックＲＡＭ）などの動的メモリを含むことができる。一方で、不揮発性メモリは、光学、磁気、または静電記憶デバイスを含むことができる。コンピュータが読み取り可能な非一時的記憶媒体の一般的な形態には、例えば、光ディスク、ＲＡＭ、プログラマブルリードオンリーメモリ（ＰＲＯＭ）、消去可能なＰＲＯＭ（ＥＰＲＯＭ）、およびフラッシュメモリが含まれる。

さらに、図１は、ＭＬモデルベースコーデックソフトウェアリソース１３０を、その全体がシステムメモリ１０６に格納されるものとして描いている。しかしながら、その表現も、単に概念的に明確にするための補助として提供されているに過ぎない。より一般的には、システム１００は、例えばコンピュータサーバなどの１つまたは複数のコンピューティングプラットフォーム１０２を含むことができる。これらは、コロケーテッド（co-located）していてもよく、または、例えばクラウドベースのシステムのような、インタラクティブにリンクされているが分散されたシステムを形成してもよい。その結果、処理ハードウェア１０４およびシステムメモリ１０６は、システム１００内部の分散されたプロセッサおよびメモリリソースに対応することができる。したがって、いくつかの実装形態において、以下に説明するＭＬモデルベースコーデックソフトウェアリソース１３０の１つまたは複数の機能を、システム１００の分散されたメモリリソース上に相互に遠隔で格納することができる。

処理ハードウェア１０４は、例えば、１つまたは複数の中央処理ユニット、１つまたは複数のグラフィックス処理ユニットおよび１つまたは複数のテンソル処理ユニットなどの複数のハードウェア処理ユニット、１つまたは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡｓ）、機械学習トレーニングまたは推論用のカスタムハードウェア、ならびにアプリケーションプログラミングインターフェイス（ＡＰＩ）サーバを含むことができる。定義により、本出願で使用される場合、用語「中央処理ユニット」（ＣＰＵ）、「グラフィックス処理ユニット」（ＧＰＵ）、および「テンソル処理ユニット」（ＴＰＵ）は、当該技術分野における慣習的な意味を有する。すなわち、ＣＰＵは、コンピューティングプラットフォーム１０２の算術演算および論理演算を実行するための算術論理ユニット（ＡＬＵ）と、ＭＬモデルベースコーデックソフトウェアリソース１３０などのプログラムをシステムメモリ１０６から取り出すためのコントロールユニット（ＣＵ）と、を含む。一方、ＧＰＵは、計算集約的なグラフィックスまたは他の処理タスクを実行することによって、ＣＰＵの処理のオーバーヘッドを低減するために実装することができる。ＴＰＵは、機械学習のような人工知能（ＡＩ）処理のために特別に構成された特定用途向け集積回路（ＡＳＩＣ）である。

いくつかの実装形態において、コンピューティングプラットフォーム１０２は、例えば、インターネットなどのパケット交換ネットワークの形態である通信ネットワーク１１０を介してアクセス可能な、１つまたは複数のウェブサーバに対応することができる。さらに、いくつかの実装形態では、通信ネットワーク１１０は、例えば１０ＧｉｇＥネットワークまたはインフィニバンド（登録商標）ネットワークのような、ハイパフォーマンスコンピューティング（ＨＰＣ）に適した高速ネットワークとすることができる。いくつかの実装形態では、コンピューティングプラットフォーム１０２は、私的な広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）をサポートする１つまたは複数のコンピュータサーバに、または別のタイプの限定された配信または私的なネットワークに含まれる１つまたは複数のコンピュータサーバに、対応することができる。さらに別の代替案として、いくつかの実装形態では、システム１００は、データセンター内など、仮想的に実装されてもよい。例えば、いくつかの実装形態では、システム１００は、ソフトウェアにおいて、または仮想マシンとして、実装されてもよい。

図１によって示される実装形態によれば、ユーザ１１４は、通信ネットワーク１１０を介してシステム１００とインターアクト（ｉｎｔｅｒａｃｔ）するためにユーザシステム１２０を利用できる。ユーザシステム１２０および通信ネットワーク１１０は、ユーザ１１４がシステム１００から非圧縮ビデオコンテンツ１１６に対応する圧縮ビデオコンテンツ１１７を取得することを可能にする。ユーザシステム１２０は、図１ではデスクトップコンピュータとして示されている。しかしながら、その表現は単に例として提供されているに過ぎない。より一般的には、ユーザシステム１２０は、ユーザインターフェイスを提供し、通信ネットワーク１１０への接続をサポートし、本明細書においてユーザシステム１２０に帰属する機能を実装するのに十分なデータ処理能力を実装する任意の適切なモバイル型または据え付け型コンピューティング装置またはシステムとすることができる。例えば、いくつかの実装形態では、ユーザシステム１２０は、例えばラップトップコンピュータ、タブレットコンピュータ、スマートフォン、またはゲームコンソールの形態をとることができる。しかしながら、他の実装形態では、ユーザシステム１２０は、ユーザ１１４が、キーボードまたは他の入力デバイスを介して入力を提供すること、およびディスプレイ１２２を介してビデオコンテンツを提供することを可能にする、システム１００の「ダム端末」周辺構成要素であってもよい。それらの実装形態では、ユーザシステム１２０およびディスプレイ１２２は、システム１００の処理ハードウェア１０４によって制御できる。

ユーザシステム１２０のディスプレイ１２２に関して、ディスプレイ１２２は、ユーザシステム１２０と物理的に一体化されてもよく、またはユーザシステム１２０と通信可能に結合されているが物理的に分離されていてもよい。例えば、ユーザシステム１２０が、スマートフォン、ラップトップコンピュータ、またはタブレットコンピュータとして実装される場合、ディスプレイ１２２は、典型的には、ユーザシステム１２０と一体化される。対照的に、ユーザシステム１２０がデスクトップコンピュータとして実装される場合、ディスプレイ１２２は、コンピュータータワーの形態でユーザシステム１２０から分離されたモニタの形態をとることができる。さらに、ディスプレイ１２２は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、量子ドット（ＱＤ）ディスプレイ、または信号を光に物理変換する任意の他の適切なディスプレイ技術を使用するディスプレイとすることができる。

ＭＬモデルベースコーデックソフトウェアリソース１３０は、図２Ａ、図２Ｂ、および図２Ｃを参照して、以下で更に説明される。図２Ａを参照すると、図２Ａは、一実装形態による、例示的なＭＬモデルベースビデオコーデックアーキテクチャ２２４を示す図である。図２Ａに示すように、ＭＬモデルベースビデオコーデックアーキテクチャ２２４は、エンコーダとして機能するトレーニング済画像圧縮ＭＬモデル２３２、およびＭＬモデルベースデコーダ２３８を含む。また、図２Ａには、非圧縮入力画像２１６、入力画像２１６の潜在空間表現（ｌａｔｅｎｔｓｐａｃｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）２３４、量子化された潜在（ｑｕａｎｔｉｆｉｅｄｌａｔｅｎｔｓ）２３６、および非圧縮入力画像２１６に対応する復号された画像２１８が示される。図２Ａに示されるＭＬモデルベースビデオコーデックアーキテクチャ２２４の特徴は、図１における、ＭＬモデルベースコーデックソフトウェアリソース１３０の中に含まれ得ることに留意されたい。

画像圧縮は、形式的に、ビットストリームの予想長、および原画と比較して再構成された画像の予想歪みを最小化することと表現できて、以下のレート‐歪み目的関数を最適化するものとして定式化される。

識別器のトレーニングは、画像圧縮ＭＬモデル２３２のトレーニングと交互に行われる。この場合、敵対的損失（adversarial loss）で増強されたレート‐歪み目標が最適化される。

ビデオ符号化における時間的冗長性を利用するために、ビデオ圧縮は、動き補償による情報伝達に依拠する。より正確には、後続のフレームｘ_ｔ＋１（図２Ｂおよび図２Ｃでは参照番号２１７によって識別される）は、動き情報を考慮してその先行するフレームｘ_ｔから予測できる。本出願で定義されるように、「動き補償」という表現は、動きベクトルを計算し符号化する完全なプロセス、ならびに発生し得るあらゆる後処理を指す。動き補償は、図２Ｂおよび２Ｃにおいて参照番号２４０によってＭＣと示され、結果として動き補償済
が生じる。簡単にするために、動き補償が完了したと仮定し、その結果は、
の推定値および
である。

しかしながら、図２Ｂおよび図２Ｃを参照して以下に説明するビデオ圧縮技術は、単一の先行する基準フレームｘ_ｔを動き推定のために使用することを要求しないことに留意されたい。多様な使用例において、１つの、または複数のフレームを動き補償のために使用できる。さらに、動き補償のために使用される１つの、またはそれらの複数のフレームは、ビデオの因果関係領域に配置される必要はない。例として、特定のフレームが、先行するフレームと同様に、将来のフレームから動き推定を引き出すことができて、それによって再生順序と符号化順序を効果的に切り離すように、双方向の予測を実行することができる。

現在の
を明確するために必要な残差情報を圧縮するために、トレーニング済画像圧縮ＭＬモデルを活用する２つの戦略を以下に説明する。第１戦略は、「潜在空間残差による知識蒸留」と呼ばれ、第２戦略は、「画像空間残差による知識蒸留」と称される。

ターゲットフレームはもはやグラウンドトゥルースｘではなく、画像圧縮ＭＬモデルｇの出力であることに留意されたい。これにより、知識蒸留のパフォーマンスが可能になり、敵対的にトレーニングされた画像圧縮モデルの詳細なハルシネーション能力が保持される。残差マッピング自体は、参照により本出願に完全に組み込まれる「Knowledge Distillation for GAN Based Video Codec」と題する添付の論文でより詳細に説明されているように、複数の技術の組み合わせとして実装することができる。

画像空間残差による知識蒸留
利用可能なトレーニング済画像圧縮ＭＬモデルｇを活用する別のアプローチは、図２Ｃの例示的なＭＬモデルベースビデオコーデックアーキテクチャ２２８で表されるように、画像空間残差で動作することである。潜在残差の場合と同様に、動き補償が完了し、現在のフレームｘ_ｔ＋１と動き
との間の差を符号化することのみが必要であり、図２Ｃにおいて参照番号２１９によって識別される。図２Ｃに示されるように、ＭＬモデルベースビデオコーデックアーキテクチャ２２８は、ＭＬモデルベースビデオ圧縮エンコーダ２３５および画像圧縮ＭＬモデル２３２を含む。図２Ｃに示されるＭＬモデルベースビデオコーデックアーキテクチャ２２８の特徴は、図１における、ＭＬモデルベースコーデックソフトウェアリソース１３０の中に含まれ得ることに留意されたい。すなわち、いくつかの実装形態において、ＭＬモデルベースコーデックソフトウェアリソース１３０は、ＭＬモデルベースビデオ圧縮エンコーダ２３５および画像圧縮ＭＬモデル２３２を含むことができる。

ＭＬモデルベースビデオコーデックアーキテクチャ２２８によって描かれるアプローチにおける違いは、図２Ｃに示す実装形態では、非圧縮フレーム２１７に対応してフレームｚ_ｔ＋１として識別される画像空間残差２３７が、符号化されることである。

ニューラルエンコーダおよびニューラルデコーダ関数は、それぞれ、ｈおよびｈ^－１と表わされる。それらは、図２Ａを参照して上述したように、ニューラルネットワーク層として実装できる。関数ｈは、画像残差２３７を、ｒとして表されるその潜在空間表現２３９にマッピングする。しかしながら、デコーダ関数ｈ^－１は画像を直接に復号化する。トレーニング済画像圧縮ＭＬモデルｇからの特徴を活用する開示されるアプローチと一致して、マージ関数Ｍが設計される。この関数の目的は、画像圧縮ＭＬモデル２３２からの特徴を統合することである。最も単純な形式では、このマージ関数は、どの特徴を使用するかを示すバイナリ値０．１をとるマスキングメカニズムとして実装することができる。可能な組み合わせで徹底的な実験を行った後に、選択を行うことができる。より洗練された設計では、マスクは、トレーニング中に学習されることが可能であり、任意選択で画像自体に条件付けされることも可能である。

トレーニング損失は、次のように表すことができる。

図２Ｃの、例示的なＭＬモデルベースビデオコーデックアーキテクチャ２２８に対応する画像空間残差による知識蒸留アプローチを、図３を参照することによって更に説明する。図３は、一実装形態による、ＭＬモデルベースビデオ圧縮を実行するための例示的な方法を提示するフローチャート３５０を示す。図３に概説される方法に関して、本出願における発明的特徴の議論を不明瞭にしないために、特定の詳細および特徴がフローチャート３５０から省かれていることに留意されたい。

ここで図１および図２Ｃと組み合わせて図３を参照すると、フローチャート３５０は、非圧縮ビデオコンテンツ（例えば、非圧縮フレーム２１７）および非圧縮ビデオコンテンツに対応する動き補償済ビデオコンテンツ（例えば、動き補償済フレーム２１９）を受信すること（アクション３５１）を含む。図２Ｃに示すように、非圧縮フレーム２１７および動き補償済フレーム２１９は、ＭＬモデルベースビデオ圧縮エンコーダ２３５によって、アクション３５１において受信できる。さらに、また、図１を更に参照して上述したように、ＭＬモデルベースビデオ圧縮エンコーダ２３５は、ＭＬモデルベースコーデックソフトウェアリソース１３０の中に含まれ、システムメモリ１０６に格納され得る。したがって、非圧縮フレーム２１７および動き補償済フレーム２１９は、システム１００の処理ハードウェア１０４によって実行されるＭＬモデルベースビデオ圧縮エンコーダ２３５によって、アクション３５１において受信することができる。

フローチャート３５０は、非圧縮ビデオコンテンツに対応する画像空間残差２３７を識別するために、非圧縮ビデオコンテンツを動き補償済ビデオコンテンツと比較すること（アクション３５２）を、更に含む。引き続き図１および図２Ｃを組み合わせて参照すると、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオ圧縮エンコーダ２３５によって、アクション３５２において、非圧縮フレーム２１７および動き補償済フレーム２１９を比較し、画像空間残差を識別することができる。

フローチャート３５０は、画像空間残差２３７を画像空間残差２３７の潜在空間表現２３９に変換すること（アクション３５３）を、更に含む。画像空間残差２３７は、ニューラルエンコーダ関数ｈを使用して、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオ圧縮エンコーダ２３５によって、アクション３５３において、画像空間残差２３７の潜在空間表現２３９に変換することができる。

フローチャート３５０は、トレーニング済画像圧縮ＭＬモデル２３２を使用して、動き補償済ビデオコンテンツ（例えば、動き補償済フレーム２１９）を受信すること（アクション３５４）を、更に含む。上述のように、トレーニング済画像圧縮ＭＬモデル２３２は、例えば、トレーニング済ＧＡＮなどのトレーニング済ＮＮを含むことができる。さらに、また上述のように、いくつかの実装形態において、トレーニング済画像圧縮ＭＬモデル２３２は、敵対的損失を含む目的関数を使用してトレーニングされたＮＮを含むことができる。アクション３５４は、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオ圧縮エンコーダ２３５によって実行することができる。

フローチャート３５０は、トレーニング済画像圧縮ＭＬモデル２３２を使用して、動き補償済フレーム２１９によって表される動き補償済ビデオコンテンツを、動き補償済ビデオコンテンツの潜在空間表現２３４に変換すること（アクション３５５）を、更に含む。図２Ｃに示されるように、動き補償済フレーム２１９は、トレーニング済画像圧縮ＭＬモデル２３２、すなわちｇを使用して、ＭＬモデルベースビデオ圧縮エンコーダ２３５によって、その潜在空間表現２３４に変換できる。ＭＬモデルベースビデオ圧縮エンコーダ２３５は、画像圧縮ＭＬモデル２３２を使用してアクション３５５を実行するために、システム１００の処理ハードウェア１０４によって、実行することができる。

フローチャート３５０は、アクション３５１、３５２、および３５３に続くものとしてアクション３５４および３５５を描いている。しかしながら、その表現は単に例として提供されているに過ぎないことに留意されたい。いくつかの他の実装形態では、アクション３５４および３５５は、順番に、しかしながらアクション３５１、３５２、および３５３と並行して、すなわち、実質的に同時に実行されてもよい。さらに他の実装形態では、アクション３５４、またはアクション３５４および３５５は、アクション３５１、３５２および３５３の１つまたは複数に先行してもよい。

フローチャート３５０は、符号化済潜在残差を制作するために、画像空間残差２３７の潜在空間表現２３９を符号化すること（アクション３５６）を、更に含む。画像空間残差２３７の潜在空間表現２３９は、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオ圧縮エンコーダ２３５によって符号化済潜在残差を制作するために、アクション３５６において符号化することができる。

フローチャート３５０は、符号化済潜在ビデオコンテンツを制作するために、トレーニング済画像圧縮ＭＬモデル２３２を使用して、動き補償済フレーム２１９の潜在空間表現２３４を符号化すること（アクション３５７）を、更に含む。動き補償済フレーム２１９の潜在空間表現２３４は、符号化済潜在ビデオコンテンツを制作するために、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオ圧縮エンコーダ２３５によって、トレーニング済画像圧縮ＭＬモデル２３２を使用して、アクション３５７において符号化することができる。

フローチャート３５０は、アクション３５６に続くものとしてアクション３５７を描いている。しかしながら、その表現は単に例として提供されているに過ぎないことに留意されたい。アクション３５７のタイミングに置かれた唯一の制約は、それがアクション３５５に続くということである。一方、アクション３５６のタイミングに置かれた唯一の制約は、それがアクション３５３に続くということである。したがって、多様な実装形態において、アクション３５７は、アクション３５６に続いてよいし、アクション３５６に先行してもよいし、アクション３５６と並行して、すなわち、実質的に同時に実行されてもよい。すなわち、いくつかの実装形態では、アクション３５６において制作される符号化済潜在残差およびアクション３５７において制作される符号化済潜在ビデオコンテンツは、並行して制作することができる。

図１および図３を組み合わせて参照すると、フローチャート３５０は、アクション３５６において制作される符号化済潜在残差およびアクション３５７において制作される符号化済潜在ビデオコンテンツを使用して、非圧縮ビデオコンテンツ１１６に対応する圧縮ビデオコンテンツ１１７を生成すること（アクション３５８）を、更に含む。いくつかの実装形態では、非圧縮ビデオコンテンツ１１６に対応する圧縮ビデオコンテンツ１１７は、アクション３５６において制作される符号化済潜在残差と、アクション３５７において制作される符号化済潜在ビデオコンテンツとの間の差に基づいて、生成することができる。更に図２Ｃを参照すると、圧縮ビデオコンテンツ１１７は、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオ圧縮エンコーダ２３５によって、アクション３５８において制作することができる。

図２Ｂの、例示的なＭＬモデルベースビデオコーデックアーキテクチャ２２６に対応する潜在空間残差による知識蒸留アプローチを、図４を参照することによって更に説明する。図４は、別の実装形態による、ＭＬモデルベースビデオ圧縮を実行するための例示的な方法を提示するフローチャート４６０を示す。図４に概説される方法に関して、本出願における発明的特徴の議論を不明瞭にしないために、特定の詳細および特徴がフローチャート４６０から省かれていることに留意されたい。

ここで図１および図２Ｂと組み合わせて図４を参照すると、フローチャート４６０は、トレーニング済画像圧縮ＭＬモデル２３２を使用して、非圧縮ビデオコンテンツ（たとえば、非圧縮フレーム２１７）、および非圧縮ビデオコンテンツに対応する動き補償済ビデオコンテンツ（例えば、動き補償済フレーム２１９）を受信すること（アクション４６１）を含む。図２Ｂに示すように、非圧縮フレーム２１７および動き補償済フレーム２１９は、トレーニング済画像圧縮ＭＬモデル２３２を使用して、ＭＬモデルベースビデオ圧縮エンコーダ２３３によってアクション４６１において受信することができる。上述のように、トレーニング済画像圧縮ＭＬモデル２３２は、例えば、トレーニング済ＧＡＮなどのトレーニング済ＮＮを含むことができる。さらに、また上述のように、いくつかの実装形態において、トレーニング済画像圧縮ＭＬモデル２３２は、敵対的損失を含む目的関数を使用してトレーニングされたＮＮを含むことができる。さらに、また図１を更に参照して上述したように、ＭＬモデルベースビデオ圧縮エンコーダ２３３は、ＭＬモデルベースコーデックソフトウェアリソース１３０の中に含まれ、システムメモリ１０６に格納され得る。したがって、非圧縮フレーム２１７および動き補償済フレーム２１９は、システム１００の処理ハードウェア１０４によって実行されるＭＬモデルベースビデオ圧縮エンコーダ２３３によって、アクション４６１において受信することができる。

フローチャート４６０は、トレーニング済画像圧縮ＭＬモデル２３２を使用して、非圧縮フレーム２１７によって表される非圧縮ビデオコンテンツを、非圧縮ビデオコンテンツの第１潜在空間表現２３４ａに変換すること（アクション４６２）を、更に含む。図２Ｂによって示されるように、非圧縮フレーム２１７は、トレーニング済画像圧縮ＭＬモデル２３２、すなわちｇを使用して、ＭＬモデルベースビデオ圧縮エンコーダ２３３によって、その潜在空間表現２３４ａに変換することができる。ＭＬモデルベースビデオ圧縮エンコーダ２３３は、画像圧縮ＭＬモデル２３２を使用してアクション４６２を実行するために、システム１００の処理ハードウェア１０４によって、実行することができる。

フローチャート４６０は、トレーニング済画像圧縮ＭＬモデル２３２を使用して、動き補償済フレーム２１９によって表される非圧縮ビデオコンテンツを、非圧縮ビデオコンテンツの第２潜在空間表現２３４ｂに変換すること（アクション４６３）を、更に含む。図２Ｂによって示されるように、動き補償済フレーム２１９は、トレーニング済画像圧縮ＭＬモデル２３２、すなわちｇを使用して、ＭＬモデルベースビデオ圧縮エンコーダ２３３によって、潜在空間表現２３４ｂに変換することができる。ＭＬモデルベースビデオ圧縮エンコーダ２３３は、画像圧縮ＭＬモデル２３２を使用してアクション４６３を実行するために、システム１００の処理ハードウェア１０４によって、実行することができる。

フローチャート４６０は、アクション４６２に続くものとしてアクション４６３を描いている。しかしながら、その表現は単に例として提供されているに過ぎないことに留意されたい。多様な実装形態において、アクション４６３は、アクション４６２に続いてよいし、アクション４６２に先行してもよいし、またはアクション４６２と並行して、すなわち、実質的に同時に実行されてもよい。すなわち、いくつかの実装形態では、非圧縮ビデオコンテンツの第１潜在空間表現２３４ａへの変換と、動き補償済ビデオコンテンツの第２潜在空間表現２３４ｂへの変換とが、並行して実行されてもよい。

フローチャート４６０は、第１潜在空間表現２３４ａおよび第２潜在空間表現２３４ｂに基づいて、非圧縮ビデオコンテンツ１１６に対応する圧縮ビデオコンテンツ１１７を送信するためのビットストリームを生成すること（アクション４６４）を、更に含む。いくつかの実装形態において、アクション４６４は、第１潜在空間表現２３４ａおよび第２潜在空間表現２３４ｂを使用して、潜在空間残差を決定することを含むことができる。例えば、そのような潜在空間残差は、第１潜在空間表現２３４ａと第２潜在空間表現２３４ｂとの間の差に基づくことができる。潜在空間残差がアクション４６４の一部として決定される実装形態では、非圧縮ビデオコンテンツ１１６に対応する圧縮ビデオコンテンツ１１７を送信するためのビットストリームを、潜在空間残差を使用して生成することができる。アクション４６４において、圧縮ビデオコンテンツ１１７を送信するためのビットストリームを生成することは、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオ圧縮エンコーダ２３３によって実行することができる。

図３および図４に表されたアクションに関して、多様な実装形態において、フローチャート３５０のアクション３５１、３５２、３５３、３５４、３５５、３５６、３５７、および３５８、またはフローチャート４６０のアクション４６１、４６２、４６３、および４６４は、人間の参加を省略できる自動化された処理として、実行できることに留意されたい。

したがって、本出願は、低ビットレートのビデオ圧縮をターゲットとする場合に特に重要なトレーニング済ＧＡＮと同様のハルシネーション能力を有するビデオ圧縮コーデックの使用を可能にするために、知識蒸留および潜在空間残差に基づくＭＬモデルベースのビデオ圧縮ソリューションを含むフレームワークを開示する。本ＭＬモデルベースのビデオ圧縮ソリューションは、高いビットレートを必要とせずに視覚的に心地よい画像を提供することで、最先端技術を進歩させるものである。ＭＬモデルベースビデオコーデックを使用して合成された画像の細部は、現実的に見えることができるが、一方でグラウンドトゥルースからわずかに逸脱する場合がある。それにもかかわらず、本ＭＬモデルベースのビデオ圧縮ソリューションは、従来のアプローチにおいて同じ量の送信データを使用して不可能であるような画質を提供可能である。

以上の説明から、本出願に記載の概念を実施するために、それらの概念の範囲から逸脱することなく、様々な技術を使用可能であることが明らかである。さらに、特定の実装形態を具体的に参照して概念を説明してきたが、当業者は、それらの概念の範囲から逸脱することなく、形態および詳細に変更を行うことができることを認識するであろう。それ故、説明されている実装形態は、あらゆる点で例示的であり、制限的ではないとみなされる。また、本出願は、本明細書に記載の特定の実装形態に限定されず、本開示の範囲から逸脱することなく多くの再構成、修正、および置換が可能であることも理解されたい。

Claims

システムであって、
処理ハードウェアと、機械学習（ＭＬ）モデルベースビデオ圧縮エンコーダおよびトレーニング済画像圧縮ＭＬモデルを格納するシステムメモリと、を含むコンピューティングプラットフォームを備え、
前記処理ハードウェアは前記ＭＬモデルベースビデオ圧縮エンコーダを実行するように構成されて、
非圧縮ビデオコンテンツおよび前記非圧縮ビデオコンテンツに対応する動き補償済ビデオコンテンツを受信し、
前記非圧縮ビデオコンテンツに対応する画像空間残差を識別するために、前記非圧縮ビデオコンテンツを前記動き補償済ビデオコンテンツと比較し、
前記画像空間残差を前記画像空間残差の潜在空間表現に変換し、
前記トレーニング済画像圧縮ＭＬモデルを使用して、前記動き補償済ビデオコンテンツを受信し、
前記トレーニング済画像圧縮ＭＬモデルを使用して、前記動き補償済ビデオコンテンツを、前記動き補償済ビデオコンテンツの潜在空間表現に変換し、
符号化済潜在残差を制作するために、前記画像空間残差の前記潜在空間表現を符号化し、
符号化済潜在ビデオコンテンツを制作するために、前記トレーニング済画像圧縮ＭＬモデルを使用して、前記動き補償済ビデオコンテンツの前記潜在空間表現を符号化し、および、
前記符号化済潜在残差および前記符号化済潜在ビデオコンテンツを使用して、前記非圧縮ビデオコンテンツに対応する圧縮ビデオコンテンツを生成する、システム。
請求項１に記載のシステムであって、前記符号化済潜在残差および前記符号化済潜在ビデオコンテンツは、並行して制作される、システム。
請求項１に記載のシステムであって、前記処理ハードウェアは前記ＭＬモデルベースビデオ圧縮エンコーダを実行するように構成されて、前記符号化済潜在残差と前記符号化済潜在ビデオコンテンツとの間の差に基づいて、前記非圧縮ビデオコンテンツに対応する前記圧縮ビデオコンテンツを生成する、システム。
請求項１に記載のシステムであって、前記トレーニング済画像圧縮ＭＬモデルは、トレーニング済人工ニューラルネットワーク（ＮＮ）を備える、システム。
請求項４に記載のシステムであって、前記トレーニング済みＮＮは敵対的損失を含む目的関数を使用してトレーニングされる、システム。
請求項４に記載のシステムであって、前記トレーニング済みＮＮは生成的敵対ネットワーク（ＧＡＮ）を備える、システム。
処理ハードウェアと、機械学習（ＭＬ）モデルベースビデオ圧縮エンコーダおよびトレーニング済画像圧縮ＭＬモデルを格納するシステムメモリと、を有するコンピューティングプラットフォームを含むシステムによって使用する方法であって、
前記処理ハードウェアによって実行する前記ＭＬモデルベースビデオ圧縮エンコーダによって、非圧縮ビデオコンテンツおよび前記非圧縮ビデオコンテンツに対応する動き補償済ビデオコンテンツを受信するステップと、
前記処理ハードウェアによって実行する前記ＭＬモデルベースビデオ圧縮エンコーダによって、前記非圧縮ビデオコンテンツを前記動き補償済ビデオコンテンツと比較するステップであって、それによって前記非圧縮ビデオコンテンツに対応する画像空間残差を識別するステップと、
前記処理ハードウェアによって実行する前記ＭＬモデルベースビデオ圧縮エンコーダによって、前記画像空間残差を前記画像空間残差の潜在空間表現に変換するステップと、
前記処理ハードウェアによって実行する前記トレーニング済画像圧縮ＭＬモデルによって、前記動き補償済ビデオコンテンツを受信するステップと、
前記処理ハードウェアによって実行する前記トレーニング済画像圧縮ＭＬモデルによって、前記動き補償済ビデオコンテンツを、前記動き補償済ビデオコンテンツの潜在空間表現に変換するステップと、
前記処理ハードウェアによって実行する前記ＭＬモデルベースビデオ圧縮エンコーダによって、符号化済潜在残差を制作するために、前記画像空間残差の前記潜在空間表現を符号化するステップと、
前記処理ハードウェアによって実行する前記トレーニング済画像圧縮ＭＬモデルによって、符号化済潜在ビデオコンテンツを制作するために、前記動き補償済ビデオコンテンツの前記潜在空間表現を符号化するステップと、
前記処理ハードウェアによって実行する前記ＭＬモデルベースビデオ圧縮エンコーダによって、また前記符号化済潜在残差および前記符号化済潜在ビデオコンテンツを使用して、前記非圧縮ビデオコンテンツに対応する圧縮ビデオコンテンツを生成するステップと、
を含む方法。
請求項７に記載の方法であって、前記符号化済潜在残差および前記符号化済潜在ビデオコンテンツを、並行して制作する、方法。
請求項７に記載の方法であって、前記符号化済潜在残差と前記符号化済潜在ビデオコンテンツとの間の差に基づいて、前記非圧縮ビデオコンテンツに対応する前記圧縮ビデオコンテンツを生成する、方法。
請求項７に記載の方法であって、前記トレーニング済画像圧縮ＭＬモデルは、トレーニング済みニューラルネットワーク（ＮＮ）を備える、方法。
請求項１０に記載の方法であって、前記トレーニング済みＮＮを、敵対的損失を含む目的関数を使用してトレーニングする、方法。
請求項１０に記載の方法であって、前記トレーニング済みＮＮは生成的敵対ネットワーク（ＧＡＮ）を備える、方法。