JP7345654B2

JP7345654B2 - ビデオコーディングのための変形可能な畳み込みによる予測フレーム生成

Info

Publication number: JP7345654B2
Application number: JP2022530792A
Authority: JP
Inventors: ウェイ・ジアン; ウェイ・ワン; ディン・ディン; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-07-15
Filing date: 2021-06-10
Publication date: 2023-09-15
Anticipated expiration: 2041-06-10
Also published as: CN114503576A; WO2022015435A1; US11689713B2; EP4032287A4; KR20220070326A; JP2023502535A; US20220021870A1; EP4032287A1

Description

参照による組み込み
本開示は、２０２０年７月１５日に出願された米国仮出願第６３／０５２，２３１号である「変形可能な畳み込みによる予測フレーム生成」に対する優先権の利益を主張する、２０２１年５月１３日に出願された米国特許出願第１７／３１９，９３２号である「ビデオコーディングのための変形可能な畳み込みによる予測フレーム生成」に対する優先権の利益を主張する。先行出願の開示内容は、その全体が参照により本明細書に組み込まれる。

本開示は、一般に、人工ニューラルネットワークに基づくビデオコーディングに関連する実施形態を説明する。

本明細書で提供される「背景技術」の記載は、本開示の文脈を一般的に提示するためのものである。この背景技術セクションに記載されている範囲で、現在の発明者の研究、並びに、そうでない場合出願時に従来技術として認められない可能性のある記載の態様は、本開示に対する従来技術として明示的又は暗黙的に認められない。

ニューラルネットワークは、生物学的な脳内のニューロンを緩やかにモデリングする、接続ノード（ニューロンとも呼ばれる）の集まりに基づいている。ニューロンは、複数の層に組織化されることができる。ある層のニューロンは、直前及び直後の層のニューロンに接続することができる。

生物学的な脳内のシナプスのような２つのニューロン間の接続は、信号を一方のニューロンから他方のニューロンへ伝達することができる。信号を受信するニューロンは、次にその信号を処理し、他の接続されたニューロンをシグナリングすることができる。いくつかの例では、ニューロンの出力を見つけるために、ニューロンへの入力を、入力からニューロンへの接続の重みによって重み付けし、重み付けされた入力を合計して、重み付き和を生成する。重み付き和にバイアスを加算してもよい。さらに、重み付き和をその後、活性化関数に通して、出力を生成する。

本開示の態様は、ビデオコーディング装置におけるビデオコーディングの方法を提供する。前記方法は、変形可能な畳み込みディープニューラルネットワーク（ＤＮＮ）を介して変形可能な畳み込みを行って、１つ又は複数の以前に再構成された参照フレームのセットに基づいて１つ又は複数の第１特徴マップを生成するステップと、前記１つ又は複数の第１特徴マップに基づいて、予測フレームを生成するステップと、前記予測フレームに基づいて、現在フレームを再構成するステップと、を含むことができる。

一実施形態では、特徴抽出ＤＮＮに基づいて、前記１つ又は複数の以前に再構成された参照フレームに対応する１つ又は複数の第２特徴マップのセットを生成することができる。オフセット生成ＤＮＮを用いて、前記１つ又は複数の第２特徴マップに対応する１つ又は複数のオフセットマップをそれぞれ生成することができる。各オフセットマップは、生成される前記オフセットマップに対応する前記第２特徴マップ、及び、前記１つ又は複数の以前に再構成された参照フレームのうちの１つであるターゲットフレームに対応する前記第２特徴マップ、との前記オフセット生成ＤＮＮへの入力に基づいて生成されることができる。前記１つ又は複数のオフセットマップは、同一のターゲットフレームを有することができる。

一実施形態では、前記現在フレームと前記１つ又は複数の以前に再構成された参照フレームとが表示順に配置される場合、前記ターゲットフレームは前記現在フレームに隣接する。一実施形態では、前記現在フレームがＰフレームである場合、前記ターゲットフレームは、前記１つ又は複数の以前に再構成された参照フレームの最後のフレームである。前記現在フレームがＢフレームである場合、前記ターゲットフレームは、前記１つ又は複数の以前に再構成された参照フレームのうち、表示順で前記現在フレームより前にあるフレームの最後のフレームである。

一実施形態では、前記１つ又は複数の第２特徴マップを前記変形可能な畳み込みＤＮＮへの入力として受け付けることができる。前記１つ又は複数の第２特徴マップに対応する前記１つ又は複数の第１特徴マップをそれぞれ生成することができる。一実施形態では、前記変形可能な畳み込みＤＮＮは、各々が変形可能な畳み込みカーネルに関連付けられる１つ又は複数の変形可能な畳み込み層を含み、前記１つ又は複数の変形可能な畳み込み層のうちの１つで、各第２特徴マップに対応して、それぞれの変形可能な畳み込みカーネルとそれぞれの第２特徴マップのオフセットマップとに基づいて、変形可能な畳み込みが行われる。

一実施形態では、前記１つ又は複数の第１特徴マップと前記１つ又は複数の以前に再構成された参照フレームとに基づいて、フレーム再構成ＤＮＮを用いて１つ又は複数のアライメントフレームを構成することができる。前記１つ又は複数のアライメントフレームに基づいて、フレーム合成ＤＮＮを用いて予測フレームを生成することができる。

一実施形態では、前記方法は、前記１つ又は複数の以前に再構成された参照フレームのセットによって形成された４Ｄテンソルの入力で特徴抽出ＤＮＮを用いて、４次元（４Ｄ）特徴テンソルを生成するステップをさらに含むことができる。各フレームは、多数のチャネルを含むことができる。一実施形態では、前記４Ｄ特徴テンソルを前記変形可能な畳み込みＤＮＮへの入力として受け付けることができる。融合されたアライメントされた特徴マップを生成することができる。

一実施形態では、変形可能な畳み込みＤＮＮは、各々が３Ｄ変形可能な畳み込みカーネル及び３Ｄオフセットマップに関連付けられる１つ又は複数の３Ｄ変形可能な畳み込み層を含み、前記１つ又は複数の変形可能な畳み込み層の１つで、それぞれの３Ｄ変形可能な畳み込みカーネルとそれぞれの３Ｄオフセットマップとに基づいて、３Ｄ変形可能な畳み込みが行われる。一実施形態では、前記方法は、前記融合されたアライメントされた特徴マップを前記フレーム再構成ＤＮＮへの入力として、前記フレーム再構成ＤＮＮを用いて前記予測フレームを生成するステップをさらに含むことができる。

本開示の態様は、ニューラルネットワークのトレーニングの方法をさらに提供する。前記方法は、参照フレームのセットを予測フレーム生成モジュールに入力して、予測フレームを生成するステップを含むことができる。前記予測フレーム生成モジュールは、最適化されるべきパラメータを有するニューラルネットワークを含むことができる。前記ニューラルネットワークは、変形可能な畳み込みＤＮＮを含むことができる。損失関数の損失を決定することができる。前記損失関数は、前記予測フレームとグラウンドトゥルースフレームとの間の差に基づいて推定されたビットレートを示す圧縮損失と、前記グラウンドトゥルースフレームに対する前記予測フレームの品質を示す再構成品質損失と、を含むことができる。前記損失関数の前記損失に基づいてバックプロパゲーションを行って、前記予測フレーム生成モジュール内の前記ニューラルネットワークの前記パラメータを更新することができる。

一実施形態では、前記参照フレームは、時間的ダウンサンプリング操作に基づいて、ビデオ内のフレームのシーケンスから選択され、前記フレームのシーケンス内の、前記ダウンサンプリング操作によって選択されないフレームは、前記グラウンドトゥルースフレームとして使用される。

一実施形態では、前記損失関数は、アライメント誤差を示すアライメント損失をさらに含む。前記トレーニング方法は、前記予測フレーム生成モジュール内の特徴抽出ディープニューラルネットワーク（ＤＮＮ）を用いて、前記参照フレームに対応する第１特徴マップをそれぞれ生成するステップと、前記予測フレーム生成モジュール内の前記変形可能な畳み込みＤＮＮを用いて、前記第１特徴マップに対応する第２特徴マップをそれぞれ生成するステップと、前記第２特徴マップの１つと、前記予測フレーム生成モジュールに入力された前記参照フレームの１つであるターゲットフレームに対応する前記第１特徴マップとの差を決定するステップをさらに含むことができる。前記差は、前記アライメント損失の一部である。一実施形態では、前記ターゲットフレームは、前記グラウンドトゥルースフレームと前記参照フレームとが表示順に配置される場合、前記グラウンドトゥルースフレームに隣接する前記参照フレームである。

一実施形態では、ニューラルネットワークのトレーニング方法は、前記グラウンドトゥルースフレームと前記予測フレームとの間の残差信号を生成するステップと、続いて前記残差信号に対して残差エンコード及びデコードを行って、再構成された残差信号を生成するステップと、前記グラウンドトゥルースフレームを前記再構成された残差信号と組み合わせて、再構成された参照フレームを生成するステップと、前記再構成された参照フレームを参照フレームのセットに含めるステップと、をさらに含むことができる。

本開示の態様は、プロセッサによって実行されると、前記プロセッサにビデオコーディングの方法を行わせる命令を記憶する非一時的なコンピュータ読取可能な媒体をさらに提供する。

開示された主題の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。

本開示の一実施形態による、２Ｄ時間的変形可能な畳み込みを用いた予測フレーム生成プロセス（１００）を示す。本開示の一実施形態による、３Ｄ時間的変形可能な畳み込みを用いた別の予測フレーム生成プロセス（２００）を示す。本開示の一実施形態によるニューラルネットワークトレーニングプロセス（３００）を示す。本開示の一実施形態によるビデオエンコーダ（４００）を示す。本開示の一実施形態によるビデオデコーダ（５００）を示す。本開示の一実施形態によるビデオコーディングプロセス（６００）を示す。本開示の一実施形態によるニューラルネットワークトレーニングプロセス（７００）を示す。一実施形態によるコンピュータシステム（８００）の概略図である。

Ｉ．時間的変形可能な畳み込み

本開示は、人工ニューラルネットワークベースのビデオコーディング方法を提供する。例えば、ディープニューラルネットワーク（ＤＮＮ）において、変形可能な畳み込みを用いて、予測フレームを生成することができる。さらに、一定期間にわたる参照フレームのシーケンスに対して変形可能な畳み込みを行うことができる。別々のフレームにおける時間的に変化した特徴をキャプチャし、ターゲットフレーム（アライメント基準として機能する）にアライメントさせ、その後、予測フレームに合成することができる。したがって、本明細書に開示された予測フレームを生成するための技術は、時間的変形可能な畳み込みベースの予測フレーム生成と称することができる。

２次元（２Ｄ）変形可能な畳み込み又は３次元（３Ｄ）変形可能な畳み込みベースの実施形態を含む、様々な実施形態が提供される。生成された予測フレームの品質と残差（予測フレームとグラウンドトゥルースフレームとの差）の圧縮性とを共同で考慮することにより、時間的変形可能な畳み込みは、ビデオによく見られる複雑で長距離の動き（タイムドメイン（ｔｉｍｅｄｏｍａｉｎ）及び時間領域（ｔｅｍｐｏｒａｌｄｏｍａｉｎ）で）に効果的に対応し、圧縮性能を向上させることができる。本開示では、「フレーム」と「ピクチャ」という用語を交換可能に使用することができる。

ＩＩ．ハンドクラフト（Ｈａｎｄｃｒａｆｔｅｄ）及び学習ベースのビデオコーディング

Ｈ．２６４／アドバンスドビデオコーディング（Ｈ．２６４／ＡＶＣ）、高効率ビデオコーディング（ＨＥＶＣ）、及び多用途ビデオコーディング（ＶＶＣ）などの従来のビデオコーディング規格は、同様のブロックベースのハイブリッド予測／変換フレームワークを共有する。例えば、イントラ／インター予測、整数変換、及び文脈適応型エントロピー符号化などの個々の符号化ツールは、全体的な効率を最適化するために集中的にハンドクラフトされる。時空間的画素近傍を予測信号構築に活用して、後続の変換、量子化、及びエントロピー符号化のための対応する残差を取得する。一方、ＤＮＮの性質は、近傍画素の受容野から時空間情報を分析することにより、時空間刺激の異なるレベル（例えば、ＤＮＮの異なる層に対応する）を抽出することである。高度に非線形かつ非局所的な時空間相関を探索する能力は、圧縮品質を大幅に向上させる有望な機会を提供する。

一例では、ビデオ圧縮フレームワークのインター予測プロセスを以下のように行うことができる。入力ビデオｘは、複数の画像フレーム（又はピクチャ）ｘ₁、・・・、ｘ_Ｔを含む。第１動き推定ステップでは、ビデオ内のフレームを空間ブロックに分割することができる。各ブロックをさらに、例えば、ツリー構造（例えば、四分木又は二分木）に基づいて、より小さいブロックに再帰的に分割することができる。現在フレームｘ_ｔと以前に再構成されたフレームのセット

との間の動きベクトルｍ_ｔのセットを、ブロックごとに算出することができる。なお、添え字ｔは、画像フレームのタイムスタンプと一致しなくてもよい現在のｔ番目のエンコードサイクルを示す。また、

には、複数の以前のエンコードサイクルからのフレームが含まれる。

第２動き補償ステップでは、動きベクトルｍ_ｔに基づいて、以前の

の対応する画素をコピーすることにより、予測フレーム

を取得する。元フレームｘ_ｔと予測フレーム

との間の残差ｒ_ｔは、

で取得されることができる。第３ステップでは、残差ｒ_ｔを（典型的には、より良い量子化性能を得るためにｒ_ｔのＤＣＴ係数を量子化する変換（例えば、ＤＣＴ）の後に）量子化する。量子化ステップは、量子化された

を与える。動きベクトルｍ_ｔと量子化された

の両方を、エントロピー符号化によってビットストリームにエンコードする。このビットストリームをデコーダに送ることができる。

デコーダ側では、まず、量子化された

を（典型的には、非量子化された係数への逆変換（例えば、逆ＤＣＴ）を介して）非量子化して、回復残差

を取得する。次に、

を

に再度加算して、再構成された

を取得する。

動き推定は、上記ビデオ圧縮プロセスにおける重要な構成要素の一つである。従来のブロックベースの動きベクトルｍ_ｔは、非並進運動に対してうまく機能できず、結果として、圧縮効率を大きく損なう無効な予測フレーム

及び残差ｒ_ｔが生じる。この問題に対処するために、様々な学習ベースの技術を採用することができる。例えば、学習ベースのオプティカルフロー法は、画素レベルでの正確な動き情報を提供するために使用されることができる。しかし、オプティカルフローは、特に移動物体の境界に沿って誤差が生じやすい。オプティカルフロー法の例は、Ｒ．Ｙａｎｇ，Ｆ．Ｍｅｎｔｚｅｒ，Ｌ．ＶａｎＧｏｏｌ，ａｎｄＲ．Ｔｉｍｏｆｔｅ， “Ｌｅａｒｎｉｎｇｆｏｒｖｉｄｅｏｃｏｍｐｒｅｓｓｉｏｎｗｉｔｈｈｉｅｒａｒｃｈｉｃａｌｑｕａｌｉｔｙａｎｄｒｅｃｕｒｒｅｎｔｅｎｈａｎｃｅｍｅｎｔ，” ｉｎＣＶＰＲ，２０２０（これを参照により本明細書に組み込むものとする）という著作に記載されている。

明示的な動き推定を行わない場合、フレーム補間法を採用して、以前に再構成された

に基づいて追加の合成フレーム

を直接算出し、より効率的な残差の生成を助けることができる。しかしながら、フレームは、中～大の動きを処理できない空間的同一位置にあるパッチに基づいて補間されたため、このような方法の有効性が制限される。フレーム補間法の例は、Ｈ．Ｃｈｏｉ，Ｉ．Ｂａｊｉｃ， “ＤｅｅｐＦｒａｍｅＰｒｅｄｉｃｔｉｏｎｆｏｒＶｉｄｅｏＣｏｄｉｎｇ，” ｉｎＩＥＥＥＴｒａｎｓ．ＣＳＶＴ，２０１９という著作に記載されており、これを参照により本明細書に組み込むものとする。

ＩＩＩ．時間的変形可能な畳み込みによる予測フレーム生成

様々な実施形態では、以前に再構成された参照フレーム

に基づいて、潜在的に高品質の合成予測フレーム

を生成することができる。したがって、予測フレーム

に基づいて、高度に圧縮可能な残差フレームｒ_ｔを生成することができる。エンドツーエンドでトレーニングされた又は学習可能なＤＮＮ（Ｅ２ＥＤＮＮ）を用いて、予測フレーム

を算出することができる。異なる実施形態では、２Ｄ又は３Ｄの時間的変形可能な畳み込みを採用して、複雑かつ長距離の動きを処理し、高品質の予測フレーム

を生成することができる。時間的変形可能な畳み込みベースのコーディング方法は、明示的な誤差が生じやすい動き推定又は画像歪みなしに、圧縮効率及び視覚品質を含む異なるターゲットを柔軟にサポートすることができる。

１、２Ｄ変形可能な畳み込みによる予測フレーム生成

図１は、本開示の一実施形態による、２Ｄ時間的変形可能な畳み込みを用いた予測フレーム生成プロセス（１００）を示す。プロセス（１００）は、ビデオコーディングシステム（例えば、エンコーダ又はデコーダ）内の予測フレーム生成モジュール（１５０）で行うことができる。予測フレーム生成モジュール（１５０）は、Ｅ２ＥＤＮＮに基づくことができる。図１に示す具体的な例では、Ｅ２ＥＤＮＮは、特徴抽出ＤＮＮ（１１１）、オフセット生成ＤＮＮ（１１２）、変形可能な畳み込みＤＮＮ（１１３）、フレーム再構成ＤＮＮ（１１４）、及びフレーム合成ＤＮＮ（１１５）を含むことができる。

プロセス（１００）を行うことにより、予測フレーム生成モジュール（１５０）は、ｎ個の以前に再構成されたフレームのセット

を入力として、潜在的に高品質の予測フレーム

を生成することができる。例えば、以前に再構成されたフレームを、ビデオコーディングシステム内の参照ピクチャバッファに記憶することができる。予測フレーム

は、エンコーダで現在フレームをエンコードするために、又はデコーダで現在フレームを再構成するために使用されることができる。ｘ_ｔと表記される現在フレームとは、現在処理（エンコード又は再構成）中のフレームを意味する。

プロセス（１００）は、特徴抽出モジュール（１０１）、オフセット生成モジュール（１０２）、変形可能な畳み込みモジュール（１０３）、フレーム再構成モジュール（１０４）、及びフレーム合成モジュール（１０５）において行われる操作を含むことができる。それらのモジュール（１０１～１０５）は、図１の例では、それぞれのＤＮＮ（１１１～１１５）を採用して、それぞれの操作を行う。

図１に示すように、参照フレーム

の各フレーム

を入力として使用して、特徴抽出モジュール（１０１）は、フォワード推論により特徴抽出ＤＮＮ（１１１）を用いて特徴マップ

を算出する。

参照フレーム

中のフレーム

は、

中の他の全てのフレームがアライメントされる参照（ターゲットフレーム）として使用されることができる。いくつかの実施形態では、ターゲットフレーム

は、

から選択され、アライメント基準として使用される任意のフレームであることができる。いくつかの実施形態では、ターゲットフレーム

の選択は、現在フレームｘ_ｔのタイミングに依存することができる。

一例では、ターゲットフレーム

を決定するために、

における参照フレームは、それらのタイムスタンプに基づいてアクセント付け順（例えば、表示順）でランク付けされる。現在のプロセスがＰフレームｘ_ｔのエンコードである場合、これら以前に再構成されたフレームは全てｘ_ｔの前にある。ターゲットフレーム

を、

と設定することができる。

現在のプロセスがＢフレームのエンコードである場合、参照フレーム

の一部はＢフレームより先であることができ、参照フレーム

の一部はＢフレームより後であることができる。従って、参照フレーム

の中で、現在フレームｘ_ｔに隣接する（それより前又は後の）フレームを選択して、ターゲットフレームとすることができる。例えば、以前に再構成されたフレーム

はｘ_ｔの前にあり、一方、残りの

はｘ_ｔの後にある。したがって、フレーム

がターゲットフレームとして使用される。

現在のターゲットが低遅延Ｂフレームのエンコードである場合、ターゲットフレーム

を、最後のフレーム

と設定することができる。これら以前に再構成されたフレームは、全てｘ_ｔの前にある。

オフセット生成モジュール（１０２）は、再構成されたフレーム

及び

に基づいて、又は抽出された特徴

及び

に基づいて、特徴マップ

ごとにオフセットマップ

を算出する。一例では、特徴マップ

及び

は入力として使用され、オフセット生成ＤＮＮ（１１２）に通してオフセットマップ

を生成する。一例では、特徴マップ

及び

を、オフセット生成ＤＮＮ（１１２）に入力する前に、まず連結して、連結された特徴マップを形成することができる。

変形可能な畳み込みモジュール（１０３）は、変形可能な畳み込みＤＮＮ（１１３）を用いて、それぞれの特徴マップ

とそれぞれのオフセットマップ

とに基づいて、アライメントされた特徴マップ

を算出する。各抽出された特徴マップ

に対応して、１つ又は複数のアライメントされた特徴マップ

を生成することができる。

一例として、ｗ_ｋ（ｋ＝１，・・・，Ｋ）が２Ｄ変形可能な畳み込みカーネルの重み係数を示し、ｐ_ｋがカーネル内のｋ番目の位置に対する予め指定されたオフセットを示すとする。例えば、３×３カーネルは、Ｋ＝９及びｐ_ｋ∈｛（－１，－１），（－１，０），・・・，（１，１）｝で定義される。２Ｄ変形可能な畳み込み層は、入力特徴ｆ_ｉｎと学習可能なオフセットマップΔＰとに基づいて出力特徴ｆ_ｏｕｔを算出し、ここで、サンプリング位置ｐ_０における特徴は、次式で与えられる。

不規則な位置ｐ_０＋ｐ_ｋ＋Δｐ_ｋは整数とは限らないため、この変形可能な畳み込み演算は、補間（例えば、バイリニア補間）を用いて行うことができる。

変形可能な畳み込みＤＮＮ（１１３）は、いくつかのこのような変形可能な畳み込み層（各層の後にＲｅＬＵのような非線形活性化層が続く）及び他のＤＮＮ層（たとえば、ボトルネック層）を積層することによって形成されることができる。一例では、変形可能な畳み込み層は、同じ又は異なる２Ｄ変形可能な畳み込みカーネルを使用することができる。一例として、変形可能な畳み込み層は、同じ又は異なるオフセットマップを使用することができる。

変形可能な畳み込みは、空間領域における幾何学的変換（例えば、異なるスケーリング又は異なる位置での変形）を処理する強化された能力を有する。様々なタイプの動きによって引き起こされるフレームのシーケンスに対して、異なるスケーリング又は変形は、異なる時間場面で起こり得る。変形可能な畳み込みＤＮＮ（１１３）での変形可能な畳み込みによって、異なる場面における特徴（異なるように変形／スケーリングされるもの）は、結果として得られた特徴マップにキャプチャされることができる。さらに、それらの特徴マップを、ターゲットフレーム（及び現在フレーム）に対応するターゲット時刻にアライメントする。次いで、アライメントされた特徴マップに基づいて、予測フレームを構築することができる。時間的変形可能な畳み込みは、フレームのシーケンス内の動きを処理して、ターゲットフレーム（及び現在フレーム）の時刻に対応する予測フレームを生成できることが分かる。

アライメント損失

は、アライメント誤差算出モジュール（１０６）において、アライメントされた特徴マップ

と抽出された特徴マップ

との間のズレの誤差を測定するように算出されることができる。例えば、Ｌ_１－ノルム（絶対誤差の平均）又はＬ_２ノルム（二乗誤差の平均）は

に使用されることができる。それらのアライメント損失を、トレーニングプロセス中に同様に算出し、損失関数の一部として使用することができる。

一例では、アライメントされた特徴マップ

及び任意選択で、抽出された特徴マップ

を使用して、フレーム再構成モジュール（１０４）は、フィードフォワード推論算出によりフレーム再構成ＤＮＮ（１１４）を用いて、各アライメントされた特徴マップ

に対応するアライメントフレーム

を生成する。次いで、アライメントフレーム

をフレーム合成モジュール（１０５）に通して、フレーム合成ＤＮＮ（１１５）を用いて、合成された予測フレーム

を生成することができる。

様々な実施形態では、アライメントされた特徴マップ

から予測フレーム

を生成するための異なる方法が存在し得る。一例では、アライメントフレーム

の数はｎ未満であってもよい。一例では、フレーム再構成ＤＮＮ（１１４）及びフレーム合成ＤＮＮ（１１５）の両方の代わりに１つのＤＮＮが動作して、アライメントされた特徴マップ

から予測フレーム

を生成することができる。一例では、まず、アライメントされた特徴マップ

を、後で予測フレーム

を生成するために使用される１つ又は複数（ｎよりも少ない）の特徴マップに合成することができる。

いくつかの実施形態では、オフセット生成モジュール（１０２）及びオフセット生成ＤＮＮ（１１２）は、プロセス１００又は予測フレーム生成モジュール（１５０）から省かれてもよい。従って、オフセットマップは明示的に生成されない。変形可能な畳み込みＤＮＮ（１１３）の各２Ｄ変形可能な畳み込み層で使用される各画素位置でのオフセットΔｐ_ｋは、２Ｄ変形可能な畳み込みカーネルと共にトレーニングプロセス中に学習されることができる、トレーニング可能なモデルパラメータとして扱われ得る。

本開示において、特徴抽出ＤＮＮ（１１１）、オフセット生成ＤＮＮ（１１２）、変形可能な畳み込みＤＮＮ（１１３）、フレーム再構成ＤＮＮ（１１４）、又はフレーム合成ＤＮＮ（１１５）における特定のネットワーク構造（層の種類、層の数、カーネルサイズなど）には制限がないことに留意されたい。例えば、任意のバックボーンネットワーク（例えば、ＲｅｓＮｅｔ）を特徴抽出ＤＮＮとして使用することができ、通常の畳み込み及びボトルネック層のセットをオフセット生成ＤＮＮとして積層することができ、変形可能な畳み込み層のセットを変形可能な畳み込みＤＮＮとして積層することができ、スキップ接続を有するいくつかの畳み込み層をフレーム再構成ＤＮＮとして互いに積層することができ、いくつかの残差ブロック層をフレーム合成ＤＮＮとして互いに積層することができる。

２、３Ｄ変形可能な畳み込みによる予測フレーム生成

図２は、本開示の一実施形態による、３Ｄ時間的変形可能な畳み込みを用いた別の予測フレーム生成プロセス（２００）を示す。プロセス（２００）は、ビデオコーディングシステム（例えば、エンコーダ又はデコーダ）内の予測フレーム生成モジュール（２５０）で行うことができる。予測フレーム生成モジュール（２５０）は、Ｅ２ＥＤＮＮに基づくことができる。図２に示す具体的な例では、Ｅ２ＥＤＮＮは、特徴抽出ＤＮＮ（２１１）、変形可能な畳み込み及び特徴融合ＤＮＮ（２１２）、及びフレーム再構成ＤＮＮ（２１３）を含むことができる。

プロセス（２００）を行うことにより、予測フレーム生成モジュール（２５０）は、ｎ個の以前に再構成されたフレームのセット

を入力として、ビデオのコーディングのための予測フレーム

（潜在的に高品質）を生成することができる。予測フレーム

は、エンコーダで現在フレームをエンコードするために、又はデコーダで現在フレームを再構成するために使用されることができる。

プロセス（２００）は、特徴抽出モジュール（２０１）、変形可能な畳み込み及び特徴融合モジュール（２０２）、及びフレーム再構成モジュール（２０３）において行われる操作を含むことができる。それらのモジュール（２０１～２０３）は、それぞれのＤＮＮ（２１１～２１３）を採用して、それぞれの操作を行う。

一例として、入力フレーム

は、サイズ（ｎ，ｃ，ｈ，ｗ）の４次元（４Ｄ）入力テンソルを形成するように互いに積層されることができ、ここで、ｃはチャネルの数（例えば、カラーフレームの場合は３）であり、（ｈ，ｗ）はビデオフレームの解像度（例えば、高さと幅）を与える。図２に示すように、特徴抽出モジュール（２０１）は、フォワード推論により特徴抽出ＤＮＮ（２１１）を用いて４Ｄ特徴テンソル

を算出することができる。特徴抽出モジュール（２０１）を実装するために、様々な構造を持つ様々なＤＮＮを採用することができる。

一実施形態では、特徴マップ

を算出してビデオ中の時空間特性をキャプチャするために、特徴抽出ＤＮＮ（２１１）は、Ｄ．Ｔｒａｎ，ａｎｄｅｔａｌ．， “Ｌｅａｒｎｉｎｇｓｐａｔｉｏｔｅｍｐｏｒａｌｆｅａｔｕｒｅｓｗｉｔｈ３ｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ，” ｉｎＩＣＣＶ，２０１５（これを参照により全体として組み込むものとする）という著作で記載された３Ｄ畳み込み層（Ｃ３Ｄ）を使用する。

別の実施形態では、各個別の特徴マップ

は、図１の例で説明された方法と同様の２Ｄ畳み込み層を用いて、各入力フレームに基づいて個別に算出され、その後４Ｄテンソルへ連結されることができる。実施形態のいずれの場合にも、特徴抽出モジュール（２０１）の出力は、４Ｄ特徴テンソルであることができる。

３Ｄ時間的変形可能な畳み込みを行うために、ｗ_ｋ（ｋ＝１，・・・，Ｋ）が３Ｄ変形可能な畳み込みカーネルの重み係数を示し、ｐ_ｋがカーネル内のｋ番目の位置に対する予め指定されたオフセットを示すとする。例えば、３×３×３カーネルは、Ｋ＝２７及びｐ_ｋ∈｛（－１、－１、－１）、（－１、－１、０）、・・・、（１、１、１）｝で定義される。３Ｄ変形可能な畳み込み層は、入力特徴ｆ_ｉｎと学習可能なオフセットΔＰとに基づいて出力特徴ｆ_ｏｕｔを算出し、ここで、サンプリング位置ｐ_０における特徴は、次式で与えられる。

不規則な位置ｐ_０＋ｐ_ｋ＋Δｐ_ｋは整数とは限らないため、この変形可能な畳み込み演算は、３Ｄ空間での補間（例えば、バイリニア補間）を用いて行うことができる。

図２に示すように、変形可能な畳み込み及び特徴融合ＤＮＮ（２１２）は、いくつかの上記３Ｄ変形可能な畳み込み層（各層の後にＲｅＬＵのような非線形活性化層が続く）及び他のＤＮＮ層（たとえば、ボトルネック層）を積層することによって形成されることができる。フレーム

は、他のすべてのフレームがアライメントされる参照であることができる。変形可能な畳み込み及び特徴融合モジュール（２０２）は、変形可能な畳み込み及び特徴融合ＤＮＮ（２１２）を用いて、４Ｄ特徴テンソル

に基づいて、融合されたアライメントされた特徴マップ

を算出する。

次いで、フレーム再構成モジュール（２０３）は、フレーム再構成ＤＮＮ（２１３）を用いて、融合されたアライメントされた特徴マップ

に基づいて、再構成された予測フレーム

を算出する。説明されたように、アライメントされた特徴マップが生成される図１の例とは対照的に、図２のこのパイプラインでは、明示的な空間アライメントは実施されない。その代わりに、３Ｄ変形可能な畳み込みは、時空間オフセットを直接学習して、アライメントされた融合された特徴マップ

を生成する。

図１の例と同様に、特徴抽出ＤＮＮ（２１１）、変形可能な畳み込み及び特徴融合ＤＮＮ（２１２）、又はフレーム再構成ＤＮＮ（２１３）における特定のネットワーク構造（層の種類、層の数、カーネルサイズなど）には制限がない。

ＩＶ．時間的変形可能な畳み込みによる予測フレーム生成のためのトレーニングプロセス

図３は、本開示の一実施形態によるニューラルネットワークトレーニングプロセス（３００）を示す。トレーニングプロセス（３００）中に、予測フレーム生成モジュール（３０１）内のニューラルネットワークのモデルパラメータを最適化し、決定することができる。例えば、図１又は図２の例における予測フレーム生成モジュール（１５０）又は（２５０）を予測フレーム生成モジュール（３０１）の代わりに配置し、トレーニングプロセス（３００）を用いてトレーニングすることができる。

一実施形態では、トレーニングプロセス（３００）の現在の反復中、図１及び図２の例と同様に、予測フレーム生成モジュール（３０１）は、参照フレームのセット

を受け付け、現在フレームｘ_ｔに対して予測フレーム

を生成する。予測フレーム生成モジュール（３０１）内のニューラルネットワークは、最後の反復の終わりに更新されたモデルパラメータで構成されることができる。いくつかの実施形態では、トレーニングの目的で、ビデオシーケンス内のダウンサンプリングされた元フレームは、後述する参照フレームのセット

の代わりに使用されることができる。

予測フレーム生成モジュール（３０１）から予測フレーム

を取得した後、元フレーム（現在フレーム）ｘ_ｔと予測フレーム

との間の残差ｒ_ｔは、加算モジュール（３１１）を用いて次のように取得することができる。

次いで、圧縮損失Ｌ_compress（ｒ_ｔ）を圧縮損失算出モジュール（３０４）によって算出して、残差ｒ_ｔの潜在的な圧縮率を測定することができる。例えば、より良い圧縮のために、残差ｒ_ｔのＬ_１－ノルム（平均絶対誤差）を使用して、残差の全体的なスパース性を促進することができる。また、ここではより複雑な統計的レート推定方法を使用することもできる。

例えば、残差ｒ_ｔにおける各要素のエントロピーを推定することができる。推定されたエントロピーに基づいて、残差ｒ_ｔのコーディングのためのビットの数を適宜決定することができる。したがって、ビットレート（例えば、ビット／ピクセル（ＢＰＰ）又はビット／秒（ＢＰＳ））を決定し、現在フレームｘ_ｔのコーディングのための圧縮損失Ｌ_compress（ｒ_ｔ）として使用することができる。様々な実施形態では、エントロピー及びレート損失を推定するための様々な技術が採用されることができる。レート損失推定方法の一例は、Ｊ．Ｂａｌｌｅｅｔａｌ．， “Ｅｎｄ－ｔｏ－ｅｎｄＯｐｔｉｍｉｚｅｄＩｍａｇｅＣｏｍｐｒｅｓｓｉｏｎ” ｉｎｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ）２０１７によって説明されている。

再構成品質損失

を再構成品質損失算出モジュール（３０５）によって算出して、再構成されたアライメントされた予測フレーム

の品質を測定することができる。一例では、再構成されたアライメントされた予測フレーム

の品質は、現在フレームｘ_ｔに関して決定されることができる。

一実施形態では、トレーニングプロセス（３００）中に、合成されたアライメントされた予測フレームのためのグラウンドトゥルースフレームが利用可能となるように、元のビデオシーケンスを時間的にダウンサンプリングする。例えば、元のＴ個のフレームｘ_１，ｘ_{２，．．．,}ｘ_Ｔを、Ｔ／２個のフレームｘ_２，ｘ_{４，．．．,}ｘ_Ｔに時間的にダウンサンプリングすることができる。ダウンサンプリングされたシーケンスを使用して、予測フレーム生成モジュール（３０１）は、与えられた参照フレーム

に対応する予測フレーム

を算出することができる。参照フレーム

に対応するグラウンドトゥルースフレーム

が利用可能となる。一例において、ダウンサンプリングされたフレームｘ_２，ｘ_{４，．．．,}ｘ_Ｔに属さないフレームをグラウンドトゥルースフレーム

として使用することができる。グラウンドトゥルースフレーム

を現在フレームｘ_ｔとして使用することができる。ダウンサンプリングされたフレームｘ_２，ｘ_{４，．．．,}ｘ_Ｔのうち、グラウンドトゥルースフレーム

に隣接するフレームを参照フレーム

として使用することができる。そして、

と

との間のＬ_２－ノルム（ＭＳＥ）を

として使用することができる。

圧縮損失Ｌ_compress（ｒ_ｔ）と品質損失

は、次のように組み合わせることができる。

また、図１に示すように、２Ｄ変形可能な畳み込みが予測フレーム生成モジュール（３０１）によって使用される場合、アライメント損失のセット

は、以下のように上記ジョイント損失に（図１の破線でマークされているオプションとして）加算することができる。

次いで、ジョイント損失Ｌ_{ｊｏｉｎｔ}（式４又は式５）の勾配を算出し、バックプロパゲーションモジュール（３０６）を介してバックプロパゲーションして、予測フレーム生成モジュール（３０１）内のＤＮＮモデルパラメータ（例えば、重み係数、オフセットなど）を更新することができる。例えば、モデルパラメータは、図１の例のＤＮＮ（１１１～１１５）又は図２の例のＤＮＮ（２１１～２１３）におけるモデルパラメータであり得る。

一実施形態では、残差ｒ_ｔを、残差エンコードモジュール（３０２）によってエンコードして、圧縮表現

を生成する。

に基づいて、残差デコードモジュール（３０３）は、新しい再構成されたフレーム

を算出するために加算モジュール（３１２）で予測フレーム

に再度加算される、デコードされた残差

を算出する。次に、一例では、予測フレーム

及び／又は再構成されたフレーム

を加算して、以前に構成されたフレームセット

を更新する。例えば、現在フレームから遠い最も古いフレームをセットから除去することができる。その後、システムは、ｔからｔ＋１までの次のエンコードサイクル（トレーニングサイクル又は反復）に入る。

Ｖ．時間的変形可能な畳み込みによる予測フレーム生成を備えたコーディングシステム

図４は、本開示の一実施形態によるビデオエンコーダ（４００）を示す。ビデオエンコーダ（４００）は、時間的変形可能な畳み込みを行って、現在フレームｘ_ｔをエンコードするための予測フレーム

を生成するように構成される予測フレーム生成モジュール（４０１）を含むことができる。また、ビデオエンコーダ（４００）は、残差エンコードモジュール（４０２）、残差デコードモジュール（４０３）、第１加算モジュール（４１１）、及び第２加算モジュール（４１２）をさらに含むことができる。それらの要素は、図４に示すように、互いにカップリングされる。

ｎ個の以前に再構成されたフレームのセット

（例えば、参照フレームバッファに記憶されている）を入力として、予測フレーム生成モジュール（４０１）は、図１に示されたフレームワーク（２Ｄ変形可能な畳み込みに基づく）又は図２に示されたフレームワーク（３Ｄ変形可能な畳み込みに基づく）を用いることで予測フレーム

を生成することができる。次に、第１加算モジュール（４１１）を用いて、元フレームｘ_ｔと予測フレーム

との間の残差ｒ_ｔを算出することができる。残差ｒ_ｔを、残差エンコードモジュール（４０２）によってエンコードして、圧縮表現

を生成することができる。

圧縮表現

に基づいて、残差デコードモジュール（４０３）は、デコードされた残差

を算出する。デコードされた残差

を、第２加算モジュール（４１２）で予測フレーム

に再度加算して、新しい再構成されたフレーム

を算出する。

圧縮表現

（エントロピーコーディング後）を、例えばビットストリームで伝送して、デコーダ側に送ることができる。その後、再構成された

及び／又は生成された予測フレーム

を加算して、フレームのセット

を更新することができる。エンコードシステム（４００）は、ｔからｔ＋１までの次のエンコードサイクルに入る。

図５は、本開示の一実施形態によるビデオデコーダ（５００）を示す。ビデオデコーダ（５００）は、時間的変形可能な畳み込みを行って、現在フレームｘ_ｔを再構成するための予測フレーム

を生成するように構成される予測フレーム生成モジュール（５０１）を含むことができる。また、ビデオデコーダ（５００）は、残差デコードモジュール（５０２）、及び加算モジュール（５１１）をさらに含むことができる。それらの要素は、図５に示すように、互いにカップリングされる。

示されているように、例えば、ビデオエンコーダ（４００）から生成されたビットストリームから、圧縮表現

を受け付けた後、残差デコードモジュール（５０２）はデコードされた残差

を算出する。以前に再構成されたフレームのセット

が与えられると、予測フレーム生成モジュール（５０１）は予測フレーム

を算出する。次に、加算モジュール（５１１）で予測フレーム

と残差

を一緒に加算して、現在フレームｘ_ｔに対応する再構成されたフレーム

を取得する。

再構成された

及び／又は生成された予測フレーム

を加算して、参照フレームのセット

を更新することができる。デコードシステム（５００）は、ｔからｔ＋１までの次のデコードサイクルに入る。

ビデオエンコーダ（４００）又はデコーダ（５００）における残差エンコードモジュール及び残差デコードモジュールが使用するエンコード方法及びデコード方法の種類には制限がないことに留意されたい。例えば、残差処理モジュール（４０２）、（４０３）、及び（５０２）には、ＨＥＶＣ又はＶＶＣコーディング規格における残差信号処理方法、又は他の非規格化された方法が採用されることができる。

ＶＩ．時間的変形可能な畳み込みによる予測フレーム生成に基づくビデオコーディングプロセス

図６は、本開示の一実施形態によるビデオコーディングプロセス（６００）を示す。プロセス（６００）は、ビデオエンコーダ又はビデオデコーダで行われて、予測フレームを生成することができる。プロセス（６００）は、（Ｓ６０１）から開始し、（Ｓ６１０）へ進むことができる。

（Ｓ６１０）では、変形可能な畳み込みＤＮＮを介して変形可能な畳み込みを行って、１つ又は複数の以前に再構成された参照フレームのセットに基づいて１つ又は複数の第１特徴マップを生成することができる。

例えば、特徴抽出ＤＮＮに基づいて、１つ又は複数の以前に再構成された参照フレームに対応する１つ又は複数の第２特徴マップのセットを生成することができる。オフセット生成ＤＮＮを用いて、１つ又は複数の第２特徴マップにそれぞれ対応する１つ又は複数のオフセットマップを生成することができる。例えば、各オフセットマップは、生成されるオフセットマップに対応する第２特徴マップ、及び、１つ又は複数の以前に再構成された参照フレームのうちの１つであるターゲットフレームに対応する第２特徴マップ、とのオフセット生成ＤＮＮへの入力に基づいて生成されることができる。１つ又は複数のオフセットマップは、同一のターゲットフレームを有することができる。

一例では、ターゲットフレームは、１つ又は複数の再構成された参照フレームのうちのいずれか１つであることができる。一例では、現在フレームと１つ又は複数の以前に再構成された参照フレームとが表示順に配置される場合、ターゲットフレームは現在フレームに隣接する。一例では、現在フレームがＰフレームである場合、ターゲットフレームは、１つ又は複数の以前に再構成された参照フレームの最後のフレームであることができる。現在フレームがＢフレームである場合、ターゲットフレームは、１つ又は複数の以前に再構成された参照フレームのうち、表示順で現在フレームより前にあるフレームの最後のフレームであることができる。

一例では、変形可能な畳み込みＤＮＮは、１つ又は複数の第２特徴マップを入力として受け付け、１つ又は複数の第２特徴マップにそれぞれ対応する１つ又は複数の第１特徴マップを生成することができる。例えば、変形可能な畳み込みＤＮＮは、各々が変形可能な畳み込みカーネルに関連付けられる１つ又は複数の変形可能な畳み込み層を含むことができる。１つ又は複数の変形可能な畳み込み層の１つで、各第２特徴マップに対応して、それぞれの変形可能な畳み込みカーネルとそれぞれの第２特徴マップのオフセットマップとに基づいて変形可能な畳み込みが行われる。

（Ｓ６２０）では、１つ又は複数の第１特徴マップに基づいて予測フレームを生成することができる。例えば、１つ又は複数の第１特徴マップと１つ又は複数の以前に再構成された参照フレームとに基づいて、フレーム再構成ＤＮＮを用いて１つ又は複数のアライメントフレームを再構成することができる。１つ又は複数のアライメントフレームに基づいて、フレーム合成ＤＮＮを用いて予測フレームを生成することができる。

（Ｓ６３０）では、予測フレームに基づいて現在フレームを再構成することができる。例えば、デコーダ側では、予測フレームを再構成された残差フレーム（又は信号）と組み合わせて、再構成された現在フレームを生成することができる。次いで、再構成された現在フレームを、次の現在フレームをデコードするための参照フレームとして使用することができる。

いくつかの例では、現在フレームの再構成は、ブロックベースであることができる。例えば、処理中の現在ブロック（前記現在ブロックから分割された）に対して、対応する予測ブロックを予測フレームから分割し、現在ブロックの残差信号と組み合わせて現在ブロックを再構成することができる。

エンコーダ側では、現在フレームと予測フレームとの間で残差信号を生成することができる。そして、残差信号を圧縮表現にエンコードし、ビットストリームで伝送することができる。その後、圧縮表現をデコードして、再構成された残差信号を生成することができる。次いで、再構成された信号を予測フレームと組み合わせて、再構成された現在フレームを生成することができる。再構成された現在フレームを、次の現在フレームのコーディングのための参照フレームとして使用することができる。プロセス（６００）は、（Ｓ６９９）に進むことができ、（Ｓ６９９）で終了することができる。

図７は、本開示の一実施形態によるニューラルネットワークトレーニングプロセス（７００）を示す。プロセス（７００）は、（Ｓ７０１）から開始し、（Ｓ７１０）に進むことができる。

（Ｓ７１０）では、参照フレームのセットを予測フレーム生成モジュールに入力して、予測フレームを生成する。予測フレーム生成モジュールは、最適化されるべきパラメータを有するニューラルネットワークを含むことができる。ニューラルネットワークは、変形可能な畳み込みディープニューラルネットワーク（ＤＮＮ）を含むことができる。一例では、参照フレームは、時間的ダウンサンプリング操作に基づいて、ビデオ内のフレームのシーケンスから選択される。フレームのシーケンス内の、ダウンサンプリング操作によって選択されないフレームは、グラウンドトゥルースフレームとして使用される。

（Ｓ７２０）では、損失関数の損失を決定することができる。損失関数は、予測フレームとグラウンドトゥルースフレームとの差に基づいて推定されたビットレートを示す圧縮損失と、グラウンドトゥルースフレームに対する予測フレームの品質を示す再構成品質損失とを含むことができる。

一例では、損失関数は、アライメント誤差を示すアライメント損失をさらに含むことができる。アライメント損失を以下のように決定することができる。予測フレーム生成モジュール内の特徴抽出ＤＮＮを用いて、参照フレームに対応する第１特徴マップをそれぞれ生成することができる。予測フレーム生成モジュール内の変形可能な畳み込みＤＮＮを用いて、第１特徴マップに対応する第２特徴マップをそれぞれ生成することができる。第２特徴マップの１つと、グラウンドトゥルースフレームと参照フレームとが表示順に配置される場合、グラウンドトゥルースフレームに隣接する参照フレームに対応する第１特徴マップとの間の差を決定する。グラウンドトゥルースフレームに隣接する参照フレームに対応する第１特徴マップに対して、第２特徴マップごとに、差を決定することができる。この差は、アライメント損失に含まれることができる。

（Ｓ７３０）では、損失及び損失関数に基づいてバックプロパゲーションを行って、予測フレーム生成モジュール内のニューラルネットワークのパラメータを更新することができる。プロセス（７００）は、（Ｓ７９９）に進み、（Ｓ７９９）で終了することができる。

ＶＩＩ．コンピュータシステム

本明細書に開示された技法（例えば、様々な実施形態又は例における機能、モジュール、要素、方法、プロセス、操作）は、処理回路（例えば、１つ又は複数のプロセッサ又は１つ又は複数の集積回路）によって実装されることができる。いくつかの例では、本技法は、コンピュータ読取可能な命令を使用するコンピュータソフトウェアとして実装され、１つ又は複数のコンピュータ読取可能な媒体に物理的に記憶されることができる。

コンピュータソフトウェアは、１つ又は複数のコンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）などによって直接、又は解釈、マイクロコード実行などを通じて実行され得る命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、又は同様のメカニズムに従うことができる任意の適切な機械コード又はコンピュータ言語を用いて符号化されることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置などを含む、様々なタイプのコンピュータ又はそのコンポーネント上で実行されることができる。

図８は、開示された主題のいくつかの実施形態を実装するのに適したコンピュータシステム（８００）を示す。コンピュータシステム（８００）の図８に示されたコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能性に関するいかなる限定も示唆することを意図していない。また、コンポーネントの構成は、コンピュータシステム（８００）の例示的な実施形態では示されたコンポーネントの任意の１つ又は組み合わせに関連する任意の依存又は要件を有すると解釈されるべきではない。

コンピュータシステム（８００）は、特定のヒューマンインタフェース入力装置を含むことができる。このようなヒューマンインタフェース入力装置は、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（声、拍手など）、視覚入力（ジェスチャなど）、嗅覚入力（示されていない）を介して１又は複数の人間ユーザによる入力に応答してもよい。ヒューマンインタフェース装置は、また、オーディオ（音声、音楽、環境音など）、画像（スキャン画像、静止画カメラから取得した写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）など、必ずしも人間の意識的入力に直接関係しないメディアをキャプチャするために使用されることができる。

入力ヒューマンインタフェース装置は、キーボード（８０１）、マウス（８０２）、トラックパッド（８０３）、タッチスクリーン（８１０）、データグローブ（図示せず）、ジョイスティック（８０５）、マイク（８０６）、スキャナ（８０７）、及びカメラ（８０８）のうちの１つ又は複数（それぞれ１つのみ示されている）を含むことができる。

コンピュータシステム（８００）は、また、特定のヒューマンインタフェース出力装置を含むことができる。このようなヒューマンインタフェース出力装置は、例えば、触覚出力、音、光、及び匂い／味を通じて１又は複数の人間ユーザの感覚を刺激するものであってもよい。このようなヒューマンインタフェース出力装置は、触覚出力装置（例えば、タッチスクリーン（８１０）、データグローブ（図示せず）、又はジョイスティック（８０５）による触覚フィードバックなどであるが、入力装置として機能しない触覚フィードバック装置も存在し得る）、オーディオ出力装置（スピーカー（８０９）、ヘッドフォン（示されていない）など）、視覚出力装置（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（８１０）（それぞれタッチスクリーン入力能力を有するか有しないか、それぞれ触覚フィードバック能力を有するか有しないか）（そのうちのいくつかは、ステレオグラフィックス出力などの手段によって二次元視覚出力又は三次元を超えた出力を出力することができる）、仮想現実メガネ（示されていない）、ホログラムディスプレイ及びスモークタンク（示されていない）など）、ならびにプリンタ（示されていない）を含むことができる。

コンピュータシステム（８００）は、また、ＣＤ／ＤＶＤ付きのＣＤ／ＤＶＤＲＯＭ／ＲＷ（８２０）又は類似したメディア（８２１）、サムドライブ（８２２）、リムーバブルハードドライブ又はリッドステートドライブ（８２３）、テープ及びフロッピーディスク等のレガシ磁気メディア（図示せず）、セキュリティドングル等の専用ＲＯＭ／ＡＳＩＣ／ＰＬＤベースの装置（図示せず）などを含む光学メディアなど、人間がアクセス可能な記憶装置及びそれらに関連するメディアを含むことができる。

当業者は、また、現在開示されている主題に関連して使用される「コンピュータ読取可能な媒体」という用語は、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム（８００）は、また、１つ又は複数の通信ネットワーク（８５５）へのインタフェース（８５４）を含むことができる。１つ又は複数のネットワーク（８５５）は、例えば、無線、有線、光であり得る。１つ又は複数のネットワーク（８５５）は、さらに、ローカル、広域、メトロポリタン、車両及び産業、リアルタイム、遅延耐性等であり得る。１つ又は複数のネットワーク（８５５）の例は、イーサネット、無線ＬＡＮ、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワークなどのローカルエリアネットワーク、ケーブルテレビ、衛星テレビ、地上波放送テレビなどを含むテレビ有線又は無線広域デジタルネットワーク、ＣＡＮＢｕｓなどを含む車両及び産業用を含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス（８４９）（例えば、コンピュータシステム（８００）のＵＳＢポートなど）に取り付けられた外部ネットワークインタフェースアダプタを必要とし、他のものは、後述するようにシステムバス（例えば、ＰＣコンピュータシステムへのイーサネットインタフェース又はスマートコンピュータシステムへのセルラーネットワークインタフェースなど）への取り付けによってコンピュータシステム（８００）のコアに一般に統合される。これらのネットワークのいずれかを使用して、コンピュータシステム（８００）は、他のエンティティと通信することができる。このような通信は、単方向、受信のみ（例えば、放送テレビ）、単方向送信のみ（例えば、特定のＣＡＮｂｕｓ装置へのＣＡＮｂｕｓ）、又は双方向、例えば、ローカル又は広域デジタルネットワークを使用して他のコンピュータシステムへ、であることができる。特定のプロトコル及びプロトコルスタックは、上述したように、それらのネットワーク及びネットワークインタフェースの各々で使用されることができる。

前述のヒューマンインタフェース装置、人間がアクセス可能な記憶装置、及びネットワークインタフェースは、コンピュータシステム（８００）のコア（８４０）に取り付けられることができる。

コア（８４０）は、１つ又は複数の中央処理装置（ＣＰＵ）（８４１）、グラフィックス処理装置（ＧＰＵ）（８４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（８４３）の形態の専用プログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ（８４４）、グラフィックスアダプタ（８５０）など、を含むことができる。これらの装置は、リードオンリーメモリ（ＲＯＭ）（８４５）、ランダムアクセスメモリ（８４６）、ユーザがアクセスできない内部ハードディスク、ＳＳＤなどの内部マスストレージ（８４７）と共に、システムバス（８４８）を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス（８４８）は、１つ又は複数の物理的なプラグの形態でアクセス可能であって、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にすることができる。周辺機器は、コアのシステムバス（８４８）に直接、又は周辺バス（８４９）を介して取り付けられることができる。一例として、スクリーン（８１０）は、グラフィックスアダプタ（８５０）に接続されることができる。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢなどを含む。

ＣＰＵ（８４１）、ＧＰＵ（８４２）、ＦＰＧＡ（８４３）、及びアクセラレータ（８４４）は、組み合わせで前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（８４５）又はＲＡＭ（８４６）に記憶されることができる。過渡的なデータもＲＡＭ（８４６）に記憶されることができ、一方、永久的なデータは、例えば、内部大容量ストレージ（８４７）に記憶されることができる。１つ又は複数のＣＰＵ（８４１）、ＧＰＵ（８４２）、大容量ストレージ（８４７）、ＲＯＭ（８４５）、ＲＡＭ（８４６）などに密に関連付けられることができるキャッシュメモリの使用によって、いずれかのメモリ装置への高速な記憶及び検索を可能にすることができる。

コンピュータ読取可能な媒体は、様々なコンピュータ実装操作を実行するためのコンピュータコードをその上に持つことができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであり得るか、又はコンピュータソフトウェア分野の技術を持つ者によく知られ利用可能な種類のものであり得る。

一例として、限定ではなく、アーキテクチャを有するコンピュータシステム（８００）、特にコア（８４０）は、プロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つ又は複数の有形のコンピュータ読取可能な媒体で具現化されたソフトウェアを実行する結果として、機能性を提供することができる。このようなコンピュータ読取可能な媒体は、上記で紹介したようなユーザがアクセス可能な大容量ストレージに関連付けられる媒体、ならびにコア内部大容量ストレージ（８４７）又はＲＯＭ（８４５）などの非一時的な性質を有するコア（８４０）の特定のストレージであることができる。本開示の様々な実施形態を実装するソフトウェアは、このような装置に記憶され、コア（８４０）によって実行されることができる。コンピュータ読取可能な媒体は、特別な必要性に応じて、１つ又は複数のメモリ装置又はチップを含むことができる。ソフトウェアは、コア（８４０）、特にその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（８４６）に記憶されたデータ構造の定義、及びソフトウェアによって定義されたプロセスに従ってこのようなデータ構造の変更を含む、本明細書に記載された特別なプロセス又は特別なプロセスの特別な部分を実行させることができる。加えて、又は代替として、コンピュータシステムは、ソフトウェアの代わりに又はソフトウェアと共に動作して、本明細書に記載された特別なプロセス又は特別なプロセスの特別な部分を実行することができる回路（例えば、アクセラレータ（８４４））にハードワイヤード又はその他の方法で具現化されたロジックの結果として機能性を提供できる。ソフトウェアへの言及は、適切な場合、ロジックを包含することができ、その逆もまた同様である。コンピュータ読取可能な媒体への言及は、適切な場合、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のためのロジックを具現化する回路、又はその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。

本開示は、いくつかの例示的な実施形態を説明したが、本開示の範囲内に入る変更、置換、及び様々な代替の等価物が存在する。したがって、当業者は、本明細書で明示的に示されていないか又は説明されていないが、本開示の原理を具現化し、ゆえにその精神及び範囲内にある多数のシステム及び方法を考案することができることが理解されるであろう。

848 システムバス
850 グラフィックスアダプタ
854 ネットワークインタフェース

Claims

ビデオコーディング装置におけるビデオコーディングの方法であって、
変形可能な畳み込みディープニューラルネットワーク（ＤＮＮ）を介して変形可能な畳み込みを行って、１つ又は複数の以前に再構成された参照フレームのセットに基づいて１つ又は複数の第１特徴マップを生成するステップと、
前記１つ又は複数の第１特徴マップに基づいて、予測フレームを生成するステップと、
前記予測フレームに基づいて、現在フレームを再構成するステップと、を含み、
前記１つ又は複数の以前に再構成された参照フレームの前記セットによって形成された４次元（４Ｄ）テンソルの入力で特徴抽出ＤＮＮを用いて、４Ｄ特徴テンソルを生成するステップをさらに含み、
前記４Ｄテンソルは、各参照フレームのそれぞれに基づいて個別に算出された特徴マップを連結することによって得られる、方法。
特徴抽出ＤＮＮに基づいて、前記１つ又は複数の以前に再構成された参照フレームに対応する１つ又は複数の第２特徴マップのセットを生成するステップと、
オフセット生成ＤＮＮを用いて、前記１つ又は複数の第２特徴マップに対応する１つ又は複数のオフセットマップをそれぞれ生成するステップであって、
各オフセットマップは、
生成される前記オフセットマップに対応する前記第２特徴マップ、及び、
前記１つ又は複数の以前に再構成された参照フレームのうちの１つであるターゲットフレームに対応する前記第２特徴マップ、
との前記オフセット生成ＤＮＮへの入力に基づいて生成され、前記１つ又は複数のオフセットマップは、同一のターゲットフレームを有する、ステップと、をさらに含む、請求項１に記載の方法。
前記現在フレームと前記１つ又は複数の以前に再構成された参照フレームとが表示順に配置される場合、前記ターゲットフレームは前記現在フレームに隣接する、請求項２に記載の方法。
前記現在フレームがＰフレームである場合、前記ターゲットフレームは、前記１つ又は複数の以前に再構成された参照フレームの最後のフレームであり、
前記現在フレームがＢフレームである場合、前記ターゲットフレームは、前記１つ又は複数の以前に再構成された参照フレームのうち、表示順で前記現在フレームより前にあるフレームの最後のフレームである、請求項２に記載の方法。
前記変形可能な畳み込みＤＮＮを介して前記変形可能な畳み込みを行って、前記１つ又は複数の第１特徴マップを生成するステップは、
前記１つ又は複数の第２特徴マップを前記変形可能な畳み込みＤＮＮへの入力として受け付けるステップと、
前記１つ又は複数の第２特徴マップに対応する前記１つ又は複数の第１特徴マップをそれぞれ生成するステップと、を含む、請求項２に記載の方法。
前記変形可能な畳み込みＤＮＮは、各々が変形可能な畳み込みカーネルに関連付けられる１つ又は複数の変形可能な畳み込み層を含み、
前記１つ又は複数の変形可能な畳み込み層のうちの１つで、各第２特徴マップに対応して、それぞれの前記変形可能な畳み込みカーネルとそれぞれの前記第２特徴マップの前記オフセットマップとに基づいて、変形可能な畳み込みが行われる、請求項５に記載の方法。
前記１つ又は複数の第１特徴マップに基づいて、前記予測フレームを生成するステップは、
前記１つ又は複数の第１特徴マップと前記１つ又は複数の以前に再構成された参照フレームとに基づいて、フレーム再構成ＤＮＮを用いて１つ又は複数のアライメントフレームを再構成するステップと、
前記１つ又は複数のアライメントフレームに基づいて、フレーム合成ＤＮＮを用いて前記予測フレームを生成するステップと、を含む、請求項１に記載の方法。
前記参照フレームの前記セットの各フレームは、多数のチャネルを含む、請求項１に記載の方法。
前記変形可能な畳み込みＤＮＮを介して前記変形可能な畳み込みを行って、前記１つ又は複数の第１特徴マップを生成するステップは、
前記４Ｄ特徴テンソルを前記変形可能な畳み込みＤＮＮへの入力として受け付けるステップと、
融合されたアライメントされた特徴マップを生成するステップと、を含む、請求項８に記載の方法。
前記変形可能な畳み込みＤＮＮは、各々が３Ｄ変形可能な畳み込みカーネル及び３Ｄオフセットマップに関連付けられる１つ又は複数の３Ｄ変形可能な畳み込み層を含み、
前記１つ又は複数の３Ｄ変形可能な畳み込み層の１つで、それぞれの前記３Ｄ変形可能な畳み込みカーネルとそれぞれの前記３Ｄオフセットマップとに基づいて、３Ｄ変形可能な畳み込みが行われる、請求項９に記載の方法。
前記融合されたアライメントされた特徴マップをフレーム再構成ＤＮＮへの入力として、前記フレーム再構成ＤＮＮを用いて前記予測フレームを生成するステップをさらに含む、請求項９に記載の方法。
参照フレームのセットを予測フレーム生成モジュールに入力して、予測フレームを生成するステップであって、前記予測フレーム生成モジュールは、最適化されるべきパラメータを有するニューラルネットワークを含み、前記ニューラルネットワークは、変形可能な畳み込みディープニューラルネットワーク（ＤＮＮ）を含む、ステップと、
損失関数の損失を決定するステップであって、前記損失関数は、
前記予測フレームとグラウンドトゥルースフレームとの間の差に基づいて推定されたビットレートを示す圧縮損失と、
前記グラウンドトゥルースフレームに対する前記予測フレームの品質を示す再構成品質損失と、
を含む、ステップと、
前記損失関数の前記損失に基づいてバックプロパゲーションを行って、前記予測フレーム生成モジュール内の前記ニューラルネットワークの前記パラメータを更新するステップと、
をさらに含む、請求項１から１１のいずれか一項に記載の方法。
前記参照フレームは、時間的ダウンサンプリング操作に基づいてビデオ内のフレームのシーケンスから選択され、前記フレームのシーケンス内の、前記ダウンサンプリング操作によって選択されないフレームは、前記グラウンドトゥルースフレームとして使用される、請求項１２に記載の方法。
前記損失関数は、アライメント誤差を示すアライメント損失をさらに含み、
前記方法は、
前記予測フレーム生成モジュール内の特徴抽出ディープニューラルネットワーク（ＤＮＮ）を用いて、前記参照フレームに対応する第１特徴マップをそれぞれ生成するステップと、
前記予測フレーム生成モジュール内の前記変形可能な畳み込みＤＮＮを用いて、前記第１特徴マップに対応する第２特徴マップをそれぞれ生成するステップと、
前記第２特徴マップの１つと、前記予測フレーム生成モジュールに入力された前記参照フレームの１つであるターゲットフレームに対応する前記第１特徴マップとの差を決定するステップであって、前記差は、前記アライメント損失の一部である、ステップと、をさらに含む請求項１２に記載の方法。
前記ターゲットフレームは、前記グラウンドトゥルースフレームと前記参照フレームとが表示順に配置される場合、前記グラウンドトゥルースフレームに隣接する前記参照フレームである、請求項１４に記載の方法。
前記グラウンドトゥルースフレームと前記予測フレームとの間の残差信号を生成するステップと、
続いて前記残差信号に対して残差エンコード及びデコードを行って、再構成された残差信号を生成するステップと、
前記グラウンドトゥルースフレームを前記再構成された残差信号と組み合わせて、再構成された参照フレームを生成するステップと、
前記再構成された参照フレームを前記参照フレームのセットに含めるステップと、をさらに含む、請求項１２に記載の方法。
コンピュータに、請求項１乃至１１のいずれか一項に記載の方法を実行させるように構成される、コンピュータプログラム。