JP7419478B2

JP7419478B2 - コーデックレート歪み補償ダウンサンプラ

Info

Publication number: JP7419478B2
Application number: JP2022163871A
Authority: JP
Inventors: リヒャルトシュロアーズクリストファ; ジェルソンデアルバカーキアゼヴェードロベルト; デイビッドグレゴリーニコラス; シュエユアンイ; ラブロージースコット; デジェロフアブデルアジズ
Original assignee: ディズニーエンタープライゼスインコーポレイテッド; イーティーエイチ・チューリッヒ
Priority date: 2021-10-13
Filing date: 2022-10-12
Publication date: 2024-01-22
Anticipated expiration: 2042-10-12
Also published as: EP4167571A1; US20230116696A1; CN115967803A; JP2023058466A; US11765360B2; US20230379475A1

Description

ダウンサンプリングは、コンテンツストリーミングシステムにおいて、異なる種類のクライアント装置が利用可能なビットレート及び解像度に関して異なる表示を生成するための動作である。最新のストリーミングシステムでは、ストリーミングサーバが、解像度及びビットレートに関して異なる符号化表現を提供し、その結果、クライアント装置は、再生コンテキスト（例えば、表示装置の大きさ及びネットワーク条件）に最も一致する表示を動的にダウンロードすることができる。そのような表示を提供するために、ストリーミングサーバは、符号化の前に、もとの動画を異なる解像度にダウンサンプリングする必要がある。そのダウンサンプリングは、知覚的に最適ではないフィルタを用いて実行される可能性がある。

一実施形態による、訓練された機械学習モデル（ＭＬモデル）に基づくコーデックレート歪み補償ダウンサンプラを含む例示的な動画処理システムの図を示す。一実施形態による、図１に示されたＭＬモデルに基づくコーデックレート歪み補償ダウンサンプラを訓練するための訓練パイプラインシステムの図を示す。様々な実装形態による、図１に示されたＭＬモデルに基づくコーデックレート歪み補償ダウンサンプラについて、代替の例示的な構成を示す。一実施形態による、ＭＬモデルに基づくコーデックレート歪み補償ダウンサンプラを訓練するための例示的な方法を概説するフローチャートを示す。本概念の一態様による、図１の動画処理システムによって実装された例示的な条件付きダウンサンプリングネットワークを示す図を示す。本概念の別の態様による、図１の動画処理システムによって実装された例示的な条件付きダウンサンプリングネットワークを示す図を示す。

以下の説明は、本開示における実施形態に関する具体的な情報を含む。当業者は、本開示が、本明細書で具体的に論じられる方法とは異なる方法で実装され得ることを認識するであろう。本出願における図面及び添付の詳細な説明は、単に例示的な実施形態を対象とする。特に明記しない限り、図面間の同様の又は対応する要素は、同様の又は対応する符号によって示されることができる。さらに、本出願における図面及び図は、概して、縮尺通りではなく、実際の相対的寸法に対応することを意図しない。

本出願は、機械学習モデル（ＭＬモデル）に基づくコーデックレート歪み補償ダウンサンプラを訓練及び利用するためのシステム及び方法を開示し、これは、当技術分野における問題点及び欠点を克服する。バイリニア(bilinear)フィルタ、キュービック(cubic)フィルタ、又はランチョス(Lanczos)フィルタなどのフィルタは、知覚的に最適ではなく、ダウンサンプリング後に、もとのコンテンツが符号化されることを考慮に入れない。そのために、本出願は、ダウンサンプリングに対する知覚的に最適化された手法を開示し、これは、１）学習されたダウンサンプラと、２）標準－互換画像又は動画コーデックをエミュレートするプロキシ動画コーデックと、３）時間認識知覚的損失関数(temporally-aware perceptual loss function)と、４）異なる損失関数間の推論時間補間を可能にする条件付き機構と、５）任意のスケーリングのための機構と、を含む。本出願において開示されるダウンサンプリング解決策は、もとのコンテンツにのみ適用される。したがって、これらの解決策は、既存の画像又は動画コーディングパイプラインと互換性があり、クライアント側のいかなる変更も必要としない一方で、知覚的に認識する品質測定基準に関して改善されたレート歪み性能を提供する。さらに、ある実装形態では、本コーデックレート歪み補償ダウンサンプリング解決策は、自動化された処理として実装されることができる。

本出願で定義されるように、用語「自動化」、「自動化された」、及び「自動化する」は、人間の編集者又はシステム管理者などの人間のユーザの参加を必要としないシステム及び処理を指すことに留意されたい。例えば、ある実装形態では人間のシステム管理者が本明細書で開示されるシステム及び方法の性能を検討することができるが、又は以下で論じられる条件付きダウンサンプリングの場合、人間の関与は任意であるという、ユーザ定義の知覚的損失関数の重みを提供することができる。したがって、ある実装形態では、本出願において説明される処理は、開示されたシステムのハードウェア処理構成要素の制御下で実行されることができる。

さらに、本出願において定義されるように、表現「機械学習モデル」又は「ＭＬモデル」は、データ又は「訓練データ」の標本から学習されたパターンに基づいて将来の予測を行うための数学的モデルを指すことができることに留意されたい。様々な学習アルゴリズムを使用して、入力データと出力データとの間の相関を対応付け(map)することができる。これらの相関は、新しい入力データに関する将来の予測を行うために使用されることができる数学的モデルを形成する。そのような予測モデルは、１つ以上のロジスティック回帰モデル、ベイズモデル、又はニューラルネットワーク（ＮＮ）を含むことができる。さらに、深層学習の文脈における「深層ニューラルネットワーク」は、入力層と出力層との間の複数の隠れ層を利用するＮＮを指すことができ、これは、生のデータにおいて明示的に定義されない特徴に基づく学習を可能にすることができる。様々な実装形態では、ＮＮは、分類器として訓練されることができ、画像処理又は自然言語処理を実行するために利用されることができる。

本出願において定義されるように、「プロキシ動画コーデック」の機能は、例えば、Ｈ．２６４又はＡＶ１などの標準コーデックのレート歪み特性を複製するように事前訓練された、ＮＮに基づく又は他のＭＬモデルに基づくソフトウェアモジュールを指すことにも留意されたい。対照的に、既存の深層学習に基づくコーデックは、標準コーデックの歪み特性を複製するように訓練されない。その結果、既存の深層学習に基づくコーデックによって導入されるダウンサンプリングの画像の乱れ(artifact)は、標準コーデックによって生成され、本明細書で開示されるプロキシ動画コーデックによって複製されるものとは非常に異なる。すなわち、従来の画像／動画コーデックの出力を再現することを目的とする、知識の蒸留に基づくプロキシ動画コーデックを導入することによって、本出願において開示される手法は、有利なことに、標準コーデックによって生成される実際の歪みについてダウンサンプラ性能の最適化を容易にする。

図１は、一実施形態による、訓練されたＭＬモデルに基づくコーデックレート歪み補償動画ダウンサンプラ１１２（以下、「ＭＬモデルに基づく動画ダウンサンプラ１１２」）を含む例示的な動画処理システム１００の図を示す。図１に示されるように、動画処理システム１００は、コンピューティングプラットフォーム１０２を含む。コンピューティングプラットフォーム１０２は、処理ハードウェア１０４と、コンピュータ可読非一時的記憶媒体として実装されるシステム記憶部１０６と、を有する。本例示的な実施形態によれば、システム記憶部１０６は、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２と、動画コーデック１１４と、シミュレーションモジュール１２０と、を格納する。

図１にさらに示されるように、動画処理システム１００は、動画シーケンス１３８（以下、「入力動画シーケンス１３８」）を提供する動画源１３４と、通信ネットワーク１３０と、表示装置１４８を含むクライアント装置１４０を利用する媒体コンテンツ消費者１０８と、を含む使用環境内で実装される。さらに、図１は、ネットワーク通信リンク１３２を示す。ネットワーク通信リンク１３２は、通信ネットワーク１３０を介して、動画源１３４とクライアント装置１４０とを、動画処理システム１００と通信可能に結合する。また、図１には、低解像度動画シーケンス１５２と、入力動画シーケンス１３８に対応する復号されたビットストリーム１４６とが示される。

動画処理システム１００は、通信ネットワーク１３０とネットワーク通信リンク１３２とを介して動画源１３４から入力動画シーケンス１３８を受信することができるが、ある実装形態では、動画源１３４は、コンピューティングプラットフォーム１０２と統合されたコンテンツ源の形態をとることができる、又は破線の通信リンク１３６によって示されるように、動画処理システム１００と直接通信することができる、ことに留意されたい。ある実装形態では、動画処理システム１００は、シミュレーションモジュール１２０を省略し得ることにさらに留意されたい。したがって、ある実装形態では、システム記憶部１０６は、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２と、動画コーデック１１４とを格納することができるが、シミュレーションモジュール１２０を格納しない。

入力動画シーケンス１３８は、例えば、ビデオゲーム、映画、又はストリーミングされたエピソードコンテンツ若しくは放送されたエピソードコンテンツを含むエピソード番組コンテンツ、の形態の音声－映像（ＡＶ）コンテンツを含むことができる。入力動画シーケンス１３８は、高解像度（ＨＤ）又は超ＨＤ（ＵＨＤ）ベースバンド動画信号を含むことができる。これらは、埋め込まれた音声と、字幕と、時間コードと、評価及び父兄同伴指定映画などの他の補助メタデータと、を伴う。ある実装形態では、入力動画シーケンス１３８は、例えば、二次音声プログラム（ＳＡＰ）又は記述的動画サービス（ＤＶＳ）を利用する、ＴＶ放送ネットワーク又は他の媒体配信エンティティ（例えば、映画スタジオ、ストリーミングプラットフォームなど）などの動画源１３４によって提供されることができる。

図１に示される動画処理システム１００の提示に関して、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２と、動画コーデック１１４と、シミュレーションモジュール１２０とは、概念を明確にするためにシステム記憶部１０６内に格納されているものとして示されるが、より一般的には、システム記憶部１０６は、任意のコンピュータ可読非一時的記憶媒体の形態をとることができることに留意されたい。本出願において使用されるような表現「コンピュータ可読非一時的記憶媒体」は、搬送波、又はコンピューティングプラットフォーム１０２の処理ハードウェア１０４などのコンピューティングプラットフォームの処理ハードウェアに命令を提供する他の一時的信号、を除く、任意の媒体を指す。したがって、コンピュータ可読非一時的記憶媒体は、例えば、揮発性媒体及び不揮発性媒体などの様々な種類の媒体に対応することができる。揮発性媒体は、ダイナミックランダムアクセスメモリ（ダイナミックＲＡＭ）などのダイナミックメモリを含むことができ、一方、不揮発性メモリは、光学記憶装置、磁気記憶装置、又は静電記憶装置、を含むことができる。コンピュータ可読非一時的記憶媒体の一般的な形態は、例えば、光ディスクと、ＲＡＭと、プログラマブル読み取り専用メモリ（ＰＲＯＭ）と、消去可能ＰＲＯＭ（ＥＰＲＯＭ）と、フラッシュメモリと、を含む。

図１は、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２と、動画コーデック１１４と、シミュレーションモジュール１２０とを、システム記憶部１０６内に相互に共同配置されているものとして示すが、その提示は、単に、概念を明確にするための補助として提供されることにさらに留意されたい。より一般的には、動画処理システム１００は、共同設置され得る、例えばコンピュータサーバなどの１つ以上のコンピューティングプラットフォームを含むことができる、又は例えば、クラウドに基づくシステムなどの、リンクされるが分散された対話式システムを形成することができる。結果として、処理ハードウェア１０４とシステム記憶部１０６とは、動画処理システム１００内の分散されたプロセッサと記憶部リソースとに対応することができる。したがって、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２と、動画コーデック１１４と、シミュレーションモジュール１２０とは、動画処理システム１００の分散された記憶部リソース内に互いに遠隔に格納されることができることを理解されたい。さらに、上述のように、ある実装形態では、シミュレーションモジュール１２０は、システム記憶部１０６から省略されることができる。

処理ハードウェア１０４は、例えば、１つ以上の中央処理ユニット、１つ以上のグラフィック処理ユニット、及び１つ以上のテンソル処理ユニットなどの複数のハードウェア処理ユニットと、１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）と、機械学習訓練又は推論のためのカスタムハードウェアと、アプリケーションプログラミングインタフェース（ＡＰＩ）サーバと、を含むことができる。定義として、本出願において使用されるような、用語「中央処理ユニット」（ＣＰＵ）、「グラフィック処理ユニット」（ＧＰＵ）、及び「テンソル処理ユニット」（ＴＰＵ）は、当技術分野での慣例的な意味を有する。すなわち、ＣＰＵは、コンピューティングプラットフォーム１０２の算術演算及び論理演算を実行するための算術論理ユニット（ＡＬＵ）と、システム記憶部１０６からプログラムを検索するための制御ユニット（ＣＵ）と、を含み、一方で、ＧＰＵは、計算負荷の大きなグラフィック又は他の処理タスクを実行することによってＣＰＵの処理オーバーヘッドを低減するように実装されることができる。ＴＰＵは、機械学習モデリングなどの人工知能（ＡＩ）アプリケーションのために特に構成された特定用途向け集積回路（ＡＳＩＣ）である。

ある実装形態では、コンピューティングプラットフォーム１０２は、例えば、インターネットなどのパケット交換ネットワークを介してアクセス可能な１つ以上のウェブサーバに対応することができる。代替として、コンピューティングプラットフォーム１０２は、プライベート広域通信網（ＷＡＮ）、構内通信網（ＬＡＮ）を扱う、又は別の種類の限定された配信又はプライベート通信網に含まれる、１つ以上のコンピュータサーバに対応し得る。さらに別の代替として、ある実装形態では、動画処理システム１００は、データセンタなどにおいて仮想的に実装されることができる。例えば、ある実装形態では、動画処理システム１００は、ソフトウェアにおいて、又は仮想機械として、実装されることができる。

クライアント装置１４０は、図１においてスマートＴＶとして示されるが、その提示は、単なる例として提供される。より一般的には、クライアント装置１４０は、ユーザインタフェースを提供し、通信ネットワーク１３０への接続に対応し、本明細書のクライアント装置１４０に帰属する機能を実装するのに十分なデータ処理能力を実装する、任意の適切な移動型又は設置型コンピューティング装置又はシステムとすることができる。例えば、ある実装形態では、クライアント装置１４０は、例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、デジタルメディアプレーヤ、ゲームプラットフォーム、又はスマートウォッチなどのスマートウェアラブル装置、の形態をとることができる。

クライアント装置１４０の表示装置１４８に関して、表示装置１４８は、クライアント装置１４０と物理的に一体化されることができる、又はクライアント装置１４０に通信可能に結合されるが、物理的に分離されることができる。例えば、クライアント装置１４０が、スマートＴＶ、スマートフォン、ラップトップコンピュータ、タブレットコンピュータ、又はスマートウォッチ、として実装される場合、表示装置１４８は、クライアント装置１４０と一体化されることができる。対照的に、クライアント装置１４０が、デスクトップコンピュータ又はゲームプラットフォームとして実装される場合、表示装置１４８は、それぞれコンピュータタワー又はゲームコンソールの形態で、クライアント装置１４０とは別個のモニタの形態をとることができる。さらに、表示装置１４８は、液晶表示装置（ＬＣＤ）、発光ダイオード（ＬＥＤ）表示装置、有機発光ダイオード（ＯＬＥＤ）表示装置、量子ドット（ＱＤ）表示装置、又は信号の光への物理的変換を実行する任意の他の適切な表示装置画面、として実装されることができる。

動画処理システム１００の実行時又は推論時の性能の概要として、コンピューティングプラットフォーム１０２の処理ハードウェア１０４は、第１の表示解像度を有する入力動画シーケンス１３８を受信することができ、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２を使用して、入力動画シーケンス１３８を、第１の表示解像度よりも低い第２の表示解像度を有する低解像度動画シーケンス１５２に対応付けることができることに留意されたい。訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２は、標準動画コーデックの形態において、動画コーデック１１４のレート歪み特性を複製するように事前訓練されたＮＮに基づくプロキシ動画コーデック（図１には図示されない）を使用して訓練される。

訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２の訓練により、ＭＬモデルに基づく動画ダウンサンプラ１１２によって実行される入力動画シーケンス１３８のダウンサンプリングは、動画コーデック１１４による処理のために実質的に最適化される低解像度動画シーケンス１５２をもたらす。処理ハードウェア１４０は、次に、動画コーデック１１４を使用して、低解像度動画シーケンス１５２を、復号されたビットストリーム１４６に変換することができ、復号されたビットストリーム１４６を出力することができる。例えば、図１に示されるように、ある実装形態では、動画処理システム１００は、入力動画シーケンス１３８に対応する出力動画シーケンスとして表示装置１４８の媒体コンテンツ消費者１０８に表示するために、通信ネットワーク１３０及びネットワーク通信リンク１３２を介して、復号されたビットストリーム１４６をクライアント装置１４０に出力することができる。

図２は、一実施形態による、図１の訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２を訓練するための訓練パイプラインシステム２１０の図を示す。図２に示されるように、訓練パイプラインシステム２１０は、ＭＬモデルに基づく動画ダウンサンプラ２１１と、ＮＮに基づくプロキシ動画コーデック２２２を含むシミュレーションモジュール２２０と、アップサンプラ２２６と、最適化ブロック２６０と、を含む。また、図２には、訓練入力動画シーケンス２２７と、訓練入力動画シーケンス２２７からダウンサンプリングされた低解像度動画シーケンス２５０と、ＮＮに基づくプロキシ動画コーデック２２２によって出力された、復号されたプロキシビットストリーム２２４と、訓練入力動画シーケンス２２７に対応する訓練出力動画シーケンス２２８と、が示される。

ＭＬモデルに基づく動画ダウンサンプラ２１１は、概して、訓練パイプラインシステム２１０を使用して、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２を訓練する前の図１の訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２に対応する。したがって、ＭＬモデルに基づく動画ダウンサンプラ２１１は、本開示によって、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２に帰属する任意の構造特性を共有することができ、逆もまた同様である。加えて、図２のシミュレーションモジュール２２０は、概して、図１のシミュレーションモジュール１２０に対応する。したがって、シミュレーションモジュール１２０は、本開示によって、シミュレーションモジュール２２０に帰属する任意の特性を共有することができ、逆もまた同様である。すなわち、シミュレーションモジュール１２０は、ＮＮに基づくプロキシ動画コーデック２２２と、アップサンプラ２２６と、最適化ブロック２６０と、のうちの１つ以上にそれぞれ対応する特徴を含むことができる。

したがって、訓練パイプラインシステム２１０は、ＭＬモデルに基づく動画ダウンサンプラ２１１を含み、これは、第１の表示解像度を有する訓練入力動画シーケンス２２７を受信して、第１の表示解像度よりも低い第２の表示解像度を有する低解像度動画シーケンス２５２に訓練入力動画シーケンス２２７を対応付けるように構成される。また、加えて、訓練パイプラインシステム２１０は、ＮＮに基づくプロキシコーデック２２２（これは、低解像度動画シーケンス２５０を、復号されたプロキシビットストリーム２２４に変換するように構成される）と、アップサンプラ２２６（これは、復号されたプロキシビットストリーム２２４を受信し、入力訓練動画シーケンス２２７に対応して第２の表示解像度よりも高い表示解像度を有する出力訓練動画シーケンス２２８を生成するように構成される）と、を含む。

訓練パイプラインシステム２１０を参照すると、Ｌ個のフレームを有する高解像度入力動画シーケンスが与えられる。

目標(target)ダウンサンプリングスケールは０＜ｓ＜１であり、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２（本明細書では「Ｄ」による記号で表される）は、ダウンサンプリングされたバージョンを生成する動作を実行する。

したがって、数３が得られる。

訓練されたＭＬデルに基づく動画ダウンサンプラＤは、異なる学習戦略を使用して実装されることができる。例えば、Ｄの可能なインスタンス化は、特徴抽出モジュールと、次にダウンサンプリングモジュールと、最後に、ダウンサンプリングされた結果、決められたダウンサンプリングの残差、又は所望の低解像度の結果をサンプリングすることを可能にするカーネル、のいずれかを予測する別のフィルタリングモジュール又は改良(refinement)モジュールと、を含むことができる。この目的のために、図３は、ＭＬモデルに基づく動画ダウンサンプラ２１１又は訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２による採用に適したＭＬモデルに基づく動画ダウンサンプラ構造の４つの代替実装形態を示す。これらは、畳み込みニューラルネットワーク（ＣＮＮ）を使用して、異なる方法で畳み込み層から抽出された特徴のダウンサンプリングを実現する。

動画に基づくダウンサンプリングについて、以下でより詳細に説明されるように、フレーム間の時間的相関も考慮され、知覚的に正しい損失関数が使用される。しかしながら、Ｌ＝１のとき、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２は、単一フレーム入力上で動作する、画像のみのダウンサンプラの場合に低減することが容易に理解される。Ｌ＞１では、ダウンサンプラの入力は、動画フレームシーケンスであり、図２の例示的な訓練パイプラインシステム２１０は、２次元（２Ｄ）又は３次元（３Ｄ）畳み込みを利用することができ、それによって、ダウンサンプリング中の時間フレームシーケンス情報を考慮する。

ＮＮに基づくプロキシ動画コーデック２２２
エンドツーエンドの訓練ＭＬモデルに基づく動画ダウンサンプラ２１１の１つの課題として、現在の圧縮規格が、複雑な発見的決定に基づいており、したがって、区別不可能である場合がある。この制限に対処し、これを克服するために、本出願は、本明細書ではＰによる記号で表される、ＮＮに基づくプロキシ動画コーデック２２２に基づいて、新規かつ進歩的な知識の蒸留手法を開示する。ＮＮに基づくプロキシ動画コーデック２２２は、特定の規格（例えば、Ｈ．２６４、ＨＥＶＣ／Ｈ．２６５、ＭＰＥＧ－４、又はＡＶ１）の特定の動画コーデックから生成されたデータを用いて事前訓練され、区別可能な方法で、特定の標準動画コーデックのレート歪み特性を予測する。すなわち、ＮＮに基づくプロキシ動画コーデック２２２は、その特定の標準動画コーデックに一意とすることができる、標準動画コーデックのレート歪み特性を複製するように事前訓練される。さらに、ＮＮに基づくプロキシ動画コーデック２２２は、有利なことに、区別可能である。

損失関数
損失関数の選択は、特に、アップサンプリングが決められ、ダウンサンプリング動作のみが最適化される制約設定において、非常に重要である。特に、以下の実施例を考慮することが洞察的であり得る。図１において、クライアント装置１４０上の決められたアップスケーリングが、補間のための最近傍／ボックスフィルタ技術を使用して実行されると仮定する。この場合、使用されるダウンサンプリング技術とは無関係に、表示装置１４８上に生成される出力は、ピクセル化されて見え、Ｌ_２損失に関する最適なダウンスケールは、平均化／ボックスフィルタリングによって与えられる。特定のダウンサンプラ構造は、平均を計算することができる限り、問題はない一方で、改善は、損失関数によってのみ生み出されることができる。したがって、より知覚的に正しいダウンサンプリング結果を達成するために、人間の視覚をより良く表す損失関数に向けて最適化することが必要である。

しかしながら、異なる損失は、人間の視覚系の異なる特徴を最もよく表す可能性があるので、本明細書に開示される解決策は、以下のようにレートも考慮しながら、複数の異なる知覚的損失関数を組み合わせる目的関数を採用する。

したがって、訓練パイプラインシステム２１０の最適化ブロック２６０は、訓練入力動画シーケンス２２７と、訓練出力動画シーケンス２２８と、低解像度動画シーケンス２５０の推定レート及び複数の知覚的損失関数に基づく目的関数と、を使用して、ＭＬモデルに基づく動画ダウンサンプラ２１１を訓練することができる。さらに、ある実装形態では、上記の数４によって具体的に示されるように、ＭＬモデルに基づく動画ダウンサンプラ２１１を訓練して、訓練されたＭＬモデルに基づく動画ダウンサンプラ２１２を提供するために使用される目的関数は、複数の知覚的損失関数の加重和と組み合わせる低解像度動画シーケンス２５０の推定レートを含む。

Uは、アップサンプラ２２６を記号で表し、アップサンプラ２２６は、低解像度動画シーケンス２５０よりも大きい表示解像度を有する訓練出力動画シーケンス２２８に対する低解像度動画シーケンス２５０をアップサンプリングし、これは、訓練入力動画シーケンス２２７の表示解像度に実質的に一致する表示解像度を有することができることに留意されたい。様々な実装形態では、アップサンプラ２２６は、決められたアップサンプラとして、又はＭＬモデルに基づく学習されたアップサンプラとして、実装されることができることにさらに留意されたい。さらに、アップサンプラ２２６がＭＬモデルに基づくアップサンプラの形態をとる実装形態では、ＭＬモデルに基づくアップサンプラ２２６とＭＬモデルに基づく動画ダウンサンプラ２１１とは、同時に訓練されることができる。

時間的干渉性
上述のように、Ｌ＞１のとき、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２の入力／出力は、一連のフレームであり、これは、数４の目的関数において一緒に考慮されることができる。そのような手法は、有利なことに、ＭＬモデルに基づく動画ダウンサンプラ１１２の出力として提供される低解像度動画シーケンス１５２に関する時間的安定性の実施を可能にする。一例として、フレームのシーケンスを一緒に考慮して、時間的プロファイルを最適化することができ、これは、時間的干渉性のダウンスケーリング結果に有利に働く。

訓練パイプラインシステム２１０の機能は、図４を参照してさらに説明される。図４は、一実施形態による、ＭＬモデルに基づく動画ダウンサンプラ２１１を訓練するために、動画処理システム１００による使用のための例示的な方法を提示するフローチャート４７０を示す。図４に概説される方法に関して、本出願における発明の特徴の議論を不明瞭にしないために、特定の詳細及び特徴は、フローチャート４７０から除外されたことに留意されたい。

ここで、図２と組み合わせて図４を参照すると、フローチャート４７０は、ＭＬモデルに基づく動画ダウンサンプラ２１１に、第１の表示解像度を有する入力動画シーケンス（すなわち、訓練入力動画シーケンス２２７）を提供すること（動作４７１）から始めることができる。さらに図１を参照すると、訓練入力動画シーケンス２２７は、コンピューティングプラットフォーム１０２の処理ハードウェア１０４によって、動作４７１において、ＭＬモデルに基づく動画ダウンサンプラ２１１に提供されることができる。

また、フローチャート４７０は、ＭＬモデルに基づく動画ダウンサンプラ２１１を使用して、訓練入力動画シーケンス２２７を、訓練入力動画シーケンス２２７の第１の表示解像度よりも低い第２の表示解像度を有する低解像度動画シーケンス２５０に対応付けること（動作４７２）を含む。動作４７２は、高解像度動画シーケンスを、低解像度動画シーケンスに効果的に対応付けて、コンピューティングプラットフォーム１０２の処理ハードウェア１０４の制御下で、ＭＬモデルに基づく動画ダウンサンプラ２１１によって実行される。

フローチャート４７０は、ＮＮに基づくプロキシ動画コーデック２２２を使用して、低解像度動画シーケンス２５０を、復号されたプロキシビットストリーム２２４に変換すること（動作４７３）をさらに含む。上述のように、ＮＮに基づくプロキシ動画コーデック２２４は、動画コーデック１１４のレート歪み特性を複製するように事前訓練される。動作４７３は、シミュレーションモジュール２２０のＮＮに基づくプロキシ動画コーデック２２２を使用して、コンピューティングプラットフォーム１０２の処理ハードウェア１０４によって実行されることができる。

フローチャート４７０は、復号されたプロキシビットストリーム２２４を受信するアップサンプラ２２６を使用して、訓練入力動画シーケンス２２７に対応し、第２の表示解像度よりも高い、すなわち、低解像度動画シーケンス２５０の表示解像度よりも高い、表示解像度を有する出力動画シーケンス（すなわち、訓練出力動画シーケンス２２８）を生成すること（動作４７４）をさらに含む。ある実装形態では、訓練出力動画シーケンス２２８の表示解像度は、訓練入力動画シーケンス２２７の第１の表示解像度と実質的に同じ表示解像度とすることができる。しかしながら、他の実装形態では、訓練出力動画シーケンス２２８の表示解像度は、低解像度動画シーケンス２４０の第２の表示解像度よりも大きい一方で、訓練入力動画シーケンス２２７の第１の表示解像度より低くてもよい。動作４７４は、シミュレーションモジュール２２０のアップサンプラ２２６を使用して、コンピューティングプラットフォーム１０２の処理ハードウェア１０４によって実行されることができる。

フローチャート４７０は、訓練入力動画シーケンス２２７と、訓練出力動画シーケンス２２８と、低解像度動画シーケンスの推定レート及び複数の知覚的損失関数に基づく目的関数と、を使用して、ＭＬモデルに基づく動画ダウンサンプラ２１１を訓練すること（動作４７５）をさらに含む。動作４７５は、数４を参照して上述した方法で、コンピューティングプラットフォーム１０２の処理ハードウェア１０４の制御下で、シミュレーションモジュール２２０の最適化ブロック２６０を使用して実行されることができる。

上述のように、数４として表される目的関数は、複数の知覚的損失関数の加重和と組み合わせる低解像度動画シーケンス２５０の推定レートを含む。ある実装形態では、ＭＬモデルに基づく動画ダウンサンプラ２１１の訓練は、各知覚的損失関数に適用されるそれぞれの
にさらに基づくことができる。これらの重み付け係数は、数４によって表される目的関数の初期最適化に基づいて計算されることができる、訓練パイプラインシステム２１０の管理者によって選択されることができる、又は計算された重み付け係数と管理者が選択した重み付け係数との両方を含むことができる。ある実装形態では、フローチャート４７０によって概説される方法は、重み付け係数の入力をさらに使用して、ＭＬモデルに基づく動画ダウンサンプラ２１１と訓練ＭＬモデルに基づくダウンサンプラ２１１とに、重み付け係数を別の入力として提供することをさらに含むことができる。したがって、ある実装形態では、ＭＬモデルに基づく動画ダウンサンプラ２１１は、数４に含まれる複数の知覚的損失関数の加重和に含まれる重み付け係数を受信するようにさらに構成される。

フローチャート４７０によって概説され、上述された方法に関して、ある実装形態では、動作４７１、４７２、４７３、４７４、及び４７５は、人間の参加を省略することができる自動化された処理において実行され得ることに留意されたい。

図５Ａは、本概念の一態様による、図１の動画処理システム１００によって実装される例示的な条件付きダウンサンプリングネットワークを示す図を示す。図５Ａに示されるように、条件付きダウンサンプリングネットワーク５００Ａは、訓練されたＭＬモデルに基づく動画ダウンサンプラ５１２と、動画コーデック５１４と、アップサンプラ５２６及び最適化ブロック５６０を含むシミュレーションモジュール５２０Ａと、を含む。また、図５Ａには、動画処理システム１００にとっての入力動画シーケンス１３８の標本５４０と、標本５４０からダウンサンプリングされた低解像度標本５５２と、動画コーデック５１４によって出力された、復号されたビットストリーム５５４Ａと、入力標本５４０に対応する出力標本５５６Ａと、重み付け係数５５８と、が示される。

訓練されたＭＬモデルに基づく動画ダウンサンプラ５１２と、動画コーデック５１４と、シミュレーションモジュール５２０Ａとは、概して、図１の訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２と、動画コーデック１１４と、シミュレーションモジュール１２０と、にそれぞれ対応する。したがって、訓練されたＭＬモデルに基づく動画ダウンサンプラ５１２と、動画コーデック５１４と、シミュレーションモジュール５２０Ａとは、それぞれ、本開示による訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２と、動画コーデック１１４と、シミュレーションモジュール１２０とに帰属する任意の特性を共有することができ、逆もまた同様である。加えて、アップサンプラ５２６は、概して、図２のアップサンプラ２２６に対応し、上記の対応する特徴に帰属する任意の特性を共有することができる。すなわち、アップサンプラ５２６は、決められたアップサンプラとして、又はＭＬモデルに基づく学習されたアップサンプラとして、実装されることができる。さらに、重み付け係数５５８は、数４に含まれる知覚的損失関数の各々に適用される重み付け係数に対応し、これは、数４の目的関数の初期最適化に基づいて計算されることができる、動画処理システム１００の管理者によって選択されることができる、又は計算された重み付け係数と管理者が選択した重み付け係数との両方を含むことができる。

図５Ｂを参照すると、図５Ｂは、本概念の別の態様による、図１の動画処理システム１００によって実装される例示的な条件付きダウンサンプリングネットワークを示す図を示す。図５Ｂに示されるように、条件付きダウンサンプリングネットワーク５００Ｂは、訓練されたＭＬモデルに基づく動画ダウンサンプラ５１２と、ＮＮに基づくプロキシ動画コーデック５２２、アップサンプラ５２６、及び最適化ブロック５６０を含むシミュレーションモジュール５２０Ｂと、を含む。また、図５Ｂには、動画処理システム１００にとっての入力動画シーケンス１３８の標本５４０と、標本５４０からダウンサンプリングされた低解像度標本５５２と、プロキシ動画コーデック５２２によって出力された、復号されたビットストリーム５５４Ｂと、入力標本５４０に対応する出力標本５５６Ｂと、重み付け係数５５８と、が示される。

図５Ａで使用された符号と同一の符号によって図５Ｂで識別される任意の特性は、それぞれ、すでに識別された特性に対応し、上記のそれらに帰属する任意の特性を共有し得ることに留意されたい。したがって、訓練されたＭＬモデルに基づく動画ダウンサンプラ５１２と、動画コーデック５１４と、シミュレーションモジュール５２０Ａとは、概して、図１の訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２と、動画コーデック１１４と、シミュレーションモジュール１２０と、にそれぞれ対応する一方で、重み付け係数５５８は、数４に含まれる知覚的損失関数の各々に適用される重み係数に対応する。さらに、ＮＮに基づくプロキシ動画コーデック５２２は、概して、図２のＮＮに基づくプロキシ動画コーデック２２２に対応し、上記の対応する特徴に帰属する任意の特性を共有することができる。すなわち、ＮＮに基づくプロキシ動画コーデック５２２は、動画コーデック１１４／５１４のレート歪み特性を複製するように構成されることができる。

図５Ａおよび５Ｂによって示されるように、様々な実装形態では、シミュレーションモジュール１２０／５２０Ａ又は１２０／５２０Ｂは、アップサンプラ５２６、又はＮＮに基づくプロキシ動画コーデック５２２とアップサンプラ５２６との両方、を含むことができる。

条件付きダウンサンプリングネットワーク５００Ａ及び５００Ｂに関して、これらのネットワークは損失関数間を補間するように訓練され、動画処理システム１００の管理者がダウンサンプリングされた動画に含まれる細部の度合いを制御することを可能にすることに留意されたい。そのような事例では、図５Ａ及び図５Ｂに示されるように、訓練されたＭＬモデルに基づく動画ダウンサンプラ５１２は、重み付け係数５５８も受信することができる。

この条件付き実施形態において適切に機能するために、訓練されたＭＬモデルに基づく動画ダウンサンプラ５１２は、訓練中に、広範囲の異なる損失重み付け係数、例えば、ランダムにサンプリングされた損失重み付け係数、を見るべきである。ランダム損失重み付け係数を用いて訓練された条件付きダウンサンプリングネットワークは、人間の管理者が制御するパラメータを介して推論中に知覚的損失関数間をうまく補間することができる。以下で説明されるいくつかの特定化を参照して論じられるように、同じパラメトリック手法を使用して、異なるアップサンプラ、異なる動画コーデック、異なる量子化パラメータなどについて訓練された単一のネットワークを有することもできる。

ある実装形態では、動画処理システム１００の訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２／５１２が、入力動画シーケンス１３８に含まれるコンテンツの種類に適応して応答することが有利であり得又は望ましい場合がある。したがって、ある実装形態では、入力動画シーケンス１３８が、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２／５１２によって低解像度動画シーケンス１５２に対応付けられる前に、処理ハードウェア１０４は、入力動画シーケンス１３８の標本５４０を抽出することができ、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２／５１２を使用して、標本５４０を低解像度標本５５２に対応付けることができる。処理ハードウェア１０４は、さらに、図５Ａに示される動画コーデック１１４／５１４を使用して、又は図５Ｂに示されるプロキシ動画コーデック５２２を使用して、低解像度標本５５２を、復号されたビットストリーム５５４Ａ又は５５４Ｂに変換し、アップサンプラ５２６と復号された標本ビットストリーム５５４Ａ又は５５４Ｂとを使用して、抽出された標本５４０に対応する出力標本５５６Ａ又は５５６Ｂを予測することができる。次に、処理ハードウェア１０４は、予測された出力標本５５６Ａ又は５５６Ｂに基づいて、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２／５１２の１つ以上のパラメータを修正し、それによって、有利なことに、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２／５１２のコンテンツを適応的にレンダリングすることができる。

上述の知覚的に最適化されたダウンサンプリング構成に加えて、本発明の新規かつ進歩的な手法が対応するいくつかの特定化及び拡張が存在し、以下を含む。

画像のみのダウンサンプリング：上述のように、特定の使用事例として、本解決策は、画像のみのプロキシコーデックを使用して、Ｌ＝１であるとき、画像コーデックのための知覚的に最適化されたダウンサンプリングをさらに可能にする。

単一画像／動画ダウンサンプリング：特定の使用事例として、訓練されたＭＬモデルに基づく動画ダウンサンプラ１１２／５１２は、異なる種類のコンテンツの各々について異なるネットワークを訓練することによって、コンテンツごとにさらに最適化されることができる。

アイデンティティプロキシコーデック：アイデンティティプロキシを使用することによって、知覚的に最適化されたダウンサンプリングを、訓練パイプラインシステム２１０におけるコーデックを必要とすることなく扱うことができる。

複数の出力解像度：本解決策は、例えば、ストリーミングサービスによって必要とされるものと一致し得る複数の出力解像度に対応するように容易に適応されることができる。

学習された超解像度のための最適なダウンサンプリング：上述のように、図２を参照すると、ある実装形態では、アップサンプラ２２６は、学習された超解像度アップサンプラとすることができる。その場合、超解像度アップサンプラは、ＭＬモデルに基づく動画ダウンサンプラ２１１を用いて訓練されたエンドツーエンドとすることもできる。

複数の品質水準及びアップサンプラ：本解決策の構成は柔軟である。一方では、特定のコーデック設定及びアップサンプラについてダウンサンプリングを最適化することが可能である。代替的に、いくつかの異なるコーデック設定及びアップサンプリングアルゴリズムを訓練して、複数の異なる種類のアップサンプラ及びコーデック設定と互換性のある単一のダウンサンプリングを達成することも可能である。

パラメトリックアップサンプリング：上述の条件付きダウンサンプリングと同様に、複数のアップサンプリングカーネルを扱うために、本出願に開示された手法を拡張することも可能である。

パラメトリックコーデック：異なる標準コーデックで条件付けされる、単一のダウンサンプラと単一のプロキシコーデックネットワークとを訓練することも可能である。

クロマサブサンプリング：不必要な変換及びオーバーヘッドを回避するために、本明細書に開示される動画処理解決策のネットワークは、直接クロマサブサンプリングを用いて、ｙｕｖ４２０ｐ又は他のコンテンツ上で動作することもできる。

前処理：ダウンサンプリングの他に、最適化することが有益となる他の前処理タスクが存在する可能性がある。ダウンサンプリング係数＝１のとき、本解決策は、圧縮アーチファクトを軽減するために最適化することに留意する。

したがって、本出願は、機械学習モデルに基づくコーデックレート歪み補償ダウンサンプラを訓練及び利用するためのシステム及び方法を開示し、これは、当技術分野における問題点及び欠点を克服する。本解決策は、いくつかの方法で最新技術を進歩させる。例えば、非学習技術とは対照的に、本解決策は、複数の知覚的損失関数に基づいて最適なダウンサンプリングを識別するためにデータ駆動型手法を利用する。訓練中にコーデックを考慮しない既存の学習型手法とは対照的に、本解決策は、標準動画コーデックのレート歪み特性を複製するように事前訓練されたプロキシ動画コーデックを使用する。既存の学習型方法と比較して、本明細書に開示される知覚的に最適化されたダウンサンプラは、有利なことに、１）より多くの知覚的損失関数（例えば、ＬＰＩＰＳ、ＤＩＳＴＳ、および時間損失）を扱い、２）サブピクセルの位置を認識する畳み込みを提供することができ、３）訓練ループ内にコーデックを統合し、４）コンテンツの種類に基づいて微粒状制御を可能にするシステム管理者が制御可能なパラメータを扱う。

さらに、本解決策で利用される事前訓練されたプロキシコーデックは、標準コーデックによって生成される画像乱れとは非常に異なる画像乱れを生成する既存の深層学習に基づくコーデックとは著しく異なる。したがって、本解決策は、従来のコーデックの出力を再現するために事前訓練されたプロキシコーデックを利用するので、本明細書に開示された手法は、有利なことに、そのような標準コーデックによって生成される歪みをより良好に補償することができる。

上記の説明から、様々な技術が、本出願で説明される概念を実装するために、それらの概念の範囲から逸脱することなく、使用され得ることが明白である。さらに、特定の実装形態を具体的に参照しながら概念を説明したが、当業者は、それらの概念の範囲から逸脱することなく、形態及び細部に変更を行うことができることを認識するであろう。したがって、説明された実装形態は、すべての点で例示的であり、限定的ではないと見なされるべきである。また、本出願は、本明細書に説明された特定の実施形態に限定されず、本開示の範囲から逸脱することなく、多くの再構成、修正、及び置換が可能であることを理解されたい。

Claims

（ａ）複数の入力画像を含み、第１の表示解像度を有する入力動画シーケンスを受信することと、
前記入力動画シーケンスを、複数の低解像度画像を含み、前記第１の表示解像度よりも低い第２の表示解像度を有する低解像度動画シーケンスに対応付けることと、
を実行するように構成された機械学習モデル（ＭＬモデル）に基づく動画ダウンサンプラと、
（ｂ）前記低解像度動画シーケンスを、復号されたプロキシビットストリームに変換するように構成されたニューラルネットワークに基づく（ＮＮに基づく）プロキシ動画コーデックであって、前記ＮＮに基づくプロキシ動画コーデックは、区別可能な方法において、標準動画コーデックのレート歪み特性を複製するように事前訓練される、ニューラルネットワークに基づく（ＮＮに基づく）プロキシ動画コーデックと、
（ｃ）前記復号されたプロキシビットストリームを使用して、複数の出力画像を含む出力動画シーケンスを生成するように構成されたアップサンプラと、
を含む、システム。
請求項１に記載のシステムにおいて、前記出力動画シーケンスを生成することは、
前記復号されたプロキシビットストリームを受信することと、
前記入力動画シーケンスに対応し、前記第２の表示解像度よりも高い表示解像度を有し、前記複数の出力画像を含む前記出力動画シーケンスを生成することと、
を含む、システム。
請求項１に記載のシステムにおいて、前記ＭＬモデルに基づく動画ダウンサンプラは、前記入力動画シーケンスと、前記出力動画シーケンスと、前記低解像度動画シーケンスの推定レート及び複数の知覚的損失関数に基づく目的関数と、を使用して、訓練される、システム。
請求項３に記載のシステムにおいて、前記目的関数は、前記複数の知覚的損失関数の加重和と組み合わせる前記低解像度動画シーケンスの前記推定レートを含む、システム。
請求項４に記載のシステムにおいて、前記ＭＬモデルに基づく動画ダウンサンプラは、前記複数の知覚的損失関数の前記加重和に含まれる複数の重み付け係数を受信するようにさらに構成され、前記ＭＬモデルに基づく動画ダウンサンプラは、前記複数の重み付け係数をさらに使用して訓練される、システム。
請求項１に記載のシステムにおいて、前記アップサンプラは、ＭＬモデルに基づくアップサンプラを含む、システム。
請求項６に記載のシステムにおいて、前記ＭＬモデルに基づくアップサンプラと前記ＭＬモデルに基づく動画ダウンサンプラとは、同時に訓練される、システム。
機械学習モデル（ＭＬモデル）に基づく動画ダウンサンプラを訓練するための方法であって、前記方法は、
前記ＭＬモデルに基づく動画ダウンサンプラに、複数の入力画像を含み、第１の表示解像度を有する入力動画シーケンスを提供することと、
前記ＭＬモデルに基づく動画ダウンサンプラを使用して、前記入力動画シーケンスを、複数の低解像度画像を含み、前記第１の表示解像度よりも低い第２の表示解像度を有する低解像度動画シーケンスに対応付けることと、
ニューラルネットワークに基づく（ＮＮに基づく）プロキシ動画コーデックを使用して、前記低解像度動画シーケンスを、復号されたプロキシビットストリームに変換することであって、前記ＮＮに基づくプロキシ動画コーデックは、区別可能な方法において、標準動画コーデックのレート歪み特性を複製するように事前訓練される、ことと、
前記復号されたプロキシビットストリームを受信するアップサンプラを使用して、複数の出力画像を含み、前記入力動画シーケンスに対応し、前記第２の表示解像度よりも高い表示解像度を有する出力動画シーケンスを生成することと、
前記入力動画シーケンスと、前記出力動画シーケンスと、前記ＮＮに基づくプロキシ動画コーデックによって実行された前記低解像度動画シーケンスの推定レート及び複数の知覚的損失関数に基づく目的関数と、を使用して、前記ＭＬモデルに基づく動画ダウンサンプラを訓練することと、
を含む、方法。
請求項８に記載の方法において、前記ＮＮに基づくプロキシ動画コーデックと前記アップサンプラとは、シミュレーションモジュールの一部である、方法。
請求項８に記載の方法において、前記アップサンプラは、ＭＬモデルに基づくアップサンプラを含む、方法。
請求項１０に記載の方法において、前記ＭＬモデルに基づくアップサンプラと前記ＭＬモデルに基づく動画ダウンサンプラとを、同時に訓練することをさらに含む、方法。
請求項８に記載の方法において、前記目的関数は、前記複数の知覚的損失関数の加重和と組み合わせる前記低解像度動画シーケンスの前記推定レートを含む、方法。
請求項１２に記載の方法において、前記複数の知覚的損失関数の前記加重和に含まれる複数の重み付け係数を、前記ＭＬモデルに基づく動画ダウンサンプラに提供することをさらに含み、前記ＭＬモデルに基づく動画ダウンサンプラを訓練することは、前記複数の重み付け係数をさらに使用して実行される、方法。
動画処理システムであって、
処理ハードウェアと、
動画コーデックと、ニューラルネットワークに基づく（ＮＮに基づく）プロキシ動画コーデックを使用して訓練された、訓練されたＭＬモデルに基づく動画ダウンサンプラとを格納するシステム記憶部と、
を含み、前記処理ハードウェアは、
複数の入力画像を含み、第１の表示解像度を有する入力動画シーケンスを受信することと、
前記訓練されたＭＬモデルに基づく動画ダウンサンプラを使用して、前記入力動画シーケンスを、複数の低解像度画像を含み、前記第１の表示解像度よりも低い第２の表示解像度を有する低解像度動画シーケンスに対応付けることと、
前記動画コーデックを使用して、前記低解像度動画シーケンスを、復号されたビットストリームに変換することであって、前記ＮＮに基づくプロキシ動画コーデックは、区別可能な方法において、標準動画コーデックのレート歪み特性を複製するように事前訓練される、ことと、
前記復号されたビットストリームを出力することと、
を実行するように構成される、動画処理システム。
請求項１４に記載の動画処理システムにおいて、前記訓練されたＭＬモデルに基づく動画ダウンサンプラは、任意のスケーリング係数を扱うように構成される、動画処理システム。
請求項１４に記載の動画処理システムにおいて、前記ＮＮに基づくプロキシ動画コーデックは、区別可能である、動画処理システム。