JP7482232B2

JP7482232B2 - 時間変形可能畳み込みによるディープループフィルタ

Info

Publication number: JP7482232B2
Application number: JP2022538953A
Authority: JP
Inventors: ジャン，ウェイ; ワン，ウエイ; リー，ゼチアン; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-10-09
Filing date: 2021-08-18
Publication date: 2024-05-13
Anticipated expiration: 2041-08-18
Also published as: US11601661B2; JP2023509395A; CN114651270A; EP4052214A4; US20220116633A1; KR20220107028A; EP4052214A1; WO2022076085A1

Description

［関連出願の相互参照］
本出願は、米国特許商標庁に2020年10月9日に出願された米国仮出願第63/090,126号、及び2021年8月5日に出願された米国出願第17/394,504号に基づき、これらに対して優先権を主張するものであり、これらの開示はその全体を参照により本明細書に組み込まれる。

１．分野
本開示は、ビデオコーディングの分野に関し、特に、時間変形可能畳み込み（ＴＤＣ）を有するディープニューラルネットワーク（ＤＮＮ）に基づいてデコードされたビデオを処理するためにループフィルタを使用するデバイス及び方法に関する。

２．関連技術の説明
Ｈ．２６４／アドバンストビデオコーディング（Advanced Video Coding）（Ｈ．２６４／ＡＶＣ）、高効率ビデオコーディング（High-Efficiency Video Coding、ＨＥＶＣ）、及び汎用ビデオコーディング（Versatile Video Coding、ＶＶＣ）などの従来のビデオコーディング標準は、同様の（再帰的な）ブロックベースのハイブリッド予測／変換フレームワークを共有しており、これにおいて、イントラ／インター予測、整数変換、及びコンテキスト適応エントロピーコーディングなどの個々のコーディングツールは、全体効率を最適化するために集中的に手作りされている。基本的に、時空間的な画素近傍は、後続の変換、量子化、及びエントロピーコーディングのための対応する残差を取得するために、予測信号構築に利用される。一方、ディープニューラルネットワーク（ＤＮＮ）の性質は、近隣画素の受容野からの時空間情報を分析することにより、異なるレベルの時空間刺激を抽出することである。高度な非線形性及び非局所的な時空間相関を探索する能力は、大きく改善された圧縮品質の有望な機会を提供する。

しかしながら、圧縮されたビデオは必然的に圧縮アーチファクトに悩まされ、それは体感品質（ＱｏＥ）を深刻に劣化させる。ＤＮＮベースの方法は、画像ノイズ除去、超解像、ぼけ除去等など、圧縮された画像の視覚品質を向上させるように開発されてきている。これらの方法がビデオに適用されると、画像ベースの方法は、圧縮されたビデオの品質、ビデオシーン、及びビデオ内のオブジェクトの動きを変えることにより引き起こされる不安定性及び変動に悩まされる。したがって、ビデオ内の近隣のフレームからの情報を利用して、向上させた視覚品質を安定させ、改善することが重要である。

複数の近隣のビデオフレームからの情報を利用することの１つの注意は、移動するカメラ及び動的なシーンにより引き起こされる複雑な動きである。従来のブロックベースの動きベクトルは、非並進運動に対してうまく機能しない。また、学習ベースのオプティカルフロー法は、画素レベルでより正確な動き情報を提供することができるが、それらは、特に移動するオブジェクトの境界に沿って、依然として誤差を生じやすい。

したがって、本開示の１つ以上の実施形態は、明示的な動き推定なしにデータ駆動方式で任意の及び複雑な動きを扱うための、時間変形可能畳み込み（ＴＤＣ）を有するＤＮＮベースのモデルを提供する。

一実施形態によれば、ループフィルタを有する１つ以上のニューラルネットワークを使用してビデオコーディングを実行する方法が提供される。当該方法は、ビデオシーケンスにおける複数の画像フレームを取得するステップと、複数の画像フレームの各々について特徴マップを決定し、特徴マップに基づいてオフセットマップを決定するステップと、特徴マップ及びオフセットマップに対して時間変形可能畳み込み（temporal deformable convolution、ＴＤＣ）を実行することにより整合された（aligned）特徴マップを決定するステップと、複数の整合されたフレームを生成するステップと、を含む。

一実施形態によれば、コンピュータプログラムコードを記憶する少なくとも１つのメモリと、少なくとも１つのメモリにアクセスし、コンピュータプログラムコードにより指示されるとおり動作するように構成された少なくとも１つのプロセッサと、を含む装置が提供される。コンピュータプログラムコードは、少なくとも１つのプロセッサに、ビデオシーケンスにおける複数の画像フレームを取得することをさせるように構成された取得コードと、少なくとも１つのプロセッサに、複数の画像フレームの各々について特徴マップを決定し、特徴マップに基づいてオフセットマップを決定し、特徴マップ及びオフセットマップに対して時間変形可能畳み込み（ＴＤＣ）を実行することにより整合された特徴マップを決定することをさせるように構成された決定コードと、少なくとも１つのプロセッサに、複数の整合されたフレームを生成することをさせるように構成された生成コードと、を含む。

一実施形態によれば、コンピュータプログラムコードを記憶する非一時的コンピュータ読取可能記憶媒体が提供され、コンピュータプログラムコードが少なくとも１つのプロセッサにより実行されると、少なくとも１つのプロセッサは、ビデオシーケンスにおける複数の画像フレームを取得し、複数の画像フレームの各々について特徴マップを決定し、特徴マップに基づいてオフセットマップを決定し、特徴マップ及びオフセットマップに対して時間変形可能畳み込み（ＴＤＣ）を実行することにより整合された特徴マップを決定し、複数の整合されたフレームを生成するように構成される。

以下の説明は、本開示の１つ以上の実施形態を例示する添付の図面を簡潔に紹介する。
一実施形態によるビデオコーディングシステムを示す図である。一実施形態によるエンコーダ及びデコーダを含むコンピューティングデバイスの一例を示す図である。一実施形態によるＤＮＮＬＦモジュールを訓練する方法を示す図である。一実施形態による２ＤＴＤＣを使用するＤＮＮＬＦモジュールの動作を示す図である。一実施形態による３ＤＴＤＣを使用するＤＮＮＬＦモジュールの動作を示す図である。一実施形態によるＴＤＣを有するＤＮＮを使用してビデオデータを処理する装置のブロック図である。

本明細書において添付の図面を参照して、例示的な実施形態について詳細に説明する。本明細書に記載される開示の１つ以上の実施形態は例示的な実施形態に過ぎず、本開示の範囲を限定するものと解釈されるべきではない。

図１は、一実施形態によるビデオコーディングシステムを示す図である。

図１を参照し、ビデオコーディングシステム１００は、ネットワーク１３０を介して互いに接続されたエンコーダ１１０及びデコーダ１２０を含むことができる。エンコーダ１１０は、画像データ又はビデオデータを圧縮するように構成され得る。エンコーダ１１０は、ビデオコーディングシステム１００のサーバ側に配置されてもよい。サーバは、クラウドサーバ、又は複数のサーバを含むサーバラスタであってよい。サーバは、プロセッサ、通信インターフェース、及びデータベースを含むことができる。プロセッサは、ビデオシーケンスの１つ以上の画像フレームをエンコードするように構成され得る。通信インターフェースは、ビデオシーケンスの１つ以上の画像フレーム、又はビデオシーケンスのエンコーディングに関連し得る他のデータを送信及び受信するように構成され得る。データベースは、ビデオシーケンスの１つ以上の画像、エンコードされたデータ、及びデコードされたデータを記憶するように構成され得る。しかしながら、１つ以上の実施形態はこれに限定されない。例えば、エンコーダ１１０は、ネットワーク１３０に接続されたコンピューティングデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルデバイス、パーソナルデジタルアシスタント（ＰＤＡ）、コンソール、ウェアラブルデバイスなど）において実現されてもよい。エンコーダ１１０は、コンピューティングデバイス上で動作するソフトウェアでもよい。

図２は、一実施形態によるエンコーダ及び／又はデコーダとして実現されるコンピューティングデバイスの一例を示す図である。コンピューティングデバイス２００は、図１に示すエンコーダ１１０及び／又はデコーダ１２０として実現されてもよい。

図２を参照し、コンピューティングデバイス２００は、プロセッサ２１０、メモリ２２０、ストレージ２３０、入力インターフェース２４０、出力インターフェース２５０、通信インターフェース２６０、及びバス２７０を含むことができる。

プロセッサ２１０は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実現される。プロセッサ２１０は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、アクセラレーテッド処理ユニット（ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は別のタイプの処理コンポーネントである。いくつかの実装において、プロセッサ２１０は、機能を実行するようにプログラム可能な１つ以上のプロセッサを含む。

メモリ２２０は、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、及び／又は、プロセッサ２１０による使用のための情報及び／又は命令を記憶する別のタイプの動的又は静的記憶デバイス（例えば、フラッシュメモリ、磁気メモリ、及び／又は光学メモリ）を含む。

ストレージ２３０は、コンピューティングデバイス２００の動作及び使用に関連する情報及び／又はソフトウェアを記憶する。例えば、ストレージ２３０は、ハードディスク（例えば、磁気ディスク、光ディスク、磁気光ディスク、及び／又はソリッドステートディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ、及び／又は別のタイプの非一時的コンピュータ読取可能媒体を、対応するドライブと共に含んでもよい。

入力インターフェース２４０は、コンピューティングデバイス２００がユーザ入力を介してなどで情報を受け取ることを可能にするコンポーネント（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び／又はマイクロフォン）を含む。さらに又は代わりに、入力インターフェース２４０は、情報を感知するセンサ（例えば、全地球測位システム（ＧＰＳ）コンポーネント、加速度計、ジャイロスコープ、及び／又はアクチュエータ）を含んでもよい。出力インターフェース２５０は、コンピューティングデバイス２００からの出力情報を提供するコンポーネント（例えば、ディスプレイ、スピーカ、及び／又は１つ以上の発光ダイオード（ＬＥＤ））を含む。

通信インターフェース２６０は、コンピューティングデバイス２００が有線接続、無線接続、又は有線及び無線接続の組み合わせを介してなどで他のデバイスと通信することを可能にするトランシーバ様のコンポーネント（例えば、トランシーバ、及び／又は別個の受信機及び送信機）を含む。通信インターフェース２６０は、コンピューティングデバイス２００が別のデバイスから情報を受信し、及び／又は別のデバイスに情報を提供することを可能にし得る。例えば、通信インターフェース２６０は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数（ＲＦ）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、Ｗｉ－Ｆｉインターフェース、セルラーネットワークインターフェースなどを含んでもよい。

バス２７０は、コンピューティングデバイス２００のコンポーネント間の通信を可能にするコンポーネントを含む。

コンピューティングデバイス２００は、本明細書に記載される１つ以上の動作を実行することができる。コンピューティングデバイス２００は、プロセッサ２１０がメモリ２２０及び／又はストレージ２３０などの非一時的コンピュータ読取可能媒体に記憶されたソフトウェア命令を実行することに応答して、本明細書に記載される動作を実行してもよい。コンピュータ読取可能媒体は、本明細書において非一時的メモリデバイスとして定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、又は複数の物理ストレージデバイスにわたり分散されたメモリ空間を含んでもよい。

ソフトウェア命令は、別のコンピュータ読取可能媒体から、又は通信インターフェース２６０を介して別のデバイスから、メモリ２２０及び／又はストレージ２３０に読み込むことができる。実行されると、メモリ２２０及び／又はストレージ２３０に記憶されたソフトウェア命令は、プロセッサ２１０に、本明細書に記載される１つ以上のプロセスを実行させることができる。さらに又は代わりに、本明細書に記載される１つ以上のプロセスを実行するために、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて、ハードワイヤード回路が使用されてもよい。したがって、本明細書に記載される実装は、ハードウェア回路とソフトウェアの特定の組み合わせに限定されない。

図２に示すコンポーネントの数及び配置は、一例として提供されている。実際には、コンピューティングデバイス２００は、図２に示されるものに対してさらなるコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は別様に配置されたコンポーネントを含んでもよい。さらに又は代わりに、コンピューティングデバイス２００のコンポーネントのセット（例えば、１つ以上のコンポーネント）が、コンピューティングデバイス２００のコンポーネントの別のセットにより実行されるものとして説明される１つ以上の機能を実行してもよい。

図３は、一実施形態によるＤＮＮＬＦモジュールの訓練する方法を示す図である。

まず、典型的なビデオ圧縮フレームワークについて本明細書において説明する。入力ビデオｘが、複数の元の画像フレームｘ_１，．．．，ｘ_ｔを含むと仮定する。第１の動き推定ステップにおいて、複数の元の画像フレームは空間ブロックに分割され、各空間ブロックは反復的により小さいブロックにさらに分割することができ、カレントの（current）元の画像フレームｘ_ｔと前の再構成されたフレームのセット

との間の動きベクトルのセットｍ_ｔが、各空間ブロックについて計算される。ここで、下付き文字ｔは、カレントの第ｔのエンコーディングサイクルを表し、これは、画像フレームのタイムスタンプと一致しないことがある。さらに、前の再構成フレームのセット

は、複数の前のエンコーディングサイクルからのフレームを含むことができる。第２の動き補償ステップにおいて、予測されたフレーム

が、動きベクトルｍ_ｔに基づいて前の再構成フレーム

の対応する画素をコピーすることにより得られ、カレントの元の画像フレームｘ_ｔと、予測フレーム

との間の残差ｒ_ｔが、

により得られる。第３の推定ステップにおいて、空間ブロック上で離散コサイン変換（ＤＣＴ）を実行した後、残差ｒ_ｔのＤＣＴ係数は、量子化された残差

を得るために量子化される。したがって、動きベクトルｍ_ｔと、量子化残差

の双方が、エントロピーコーディングによりビットストリームにエンコードされ、ビットストリームは、１つ以上のデコーダに送信される。デコーダ側において、量子化残差

は、まず、復元された残差

を得るために（例えば、逆離散コサイン変換（ＩＤＣＴ）などの逆変換を通して）量子化解除され（de-quantized）、次いで、復元残差

は、予測フレーム

に加算され、

により、再構成フレームが得られる。

さらに、再構成フレーム

の視覚品質を改善するために、さらなるコンポーネントが使用されてもよい。デブロッキングフィルタ（Deblocking Filter、ＤＦ）、サンプル適応オフセット（Sample-Adaptive Offset、ＳＡＯ）、適応ループフィルタ（Adaptive Loop Filter、ＡＬＦ）、クロスコンポーネント適応フィルタ（Cross-Component Adaptive Filter、ＣＣＡＬＦ）等などのエンハンスメントモジュールの１つ以上が、再構成フレーム

を処理するために選択されてもよい。例えば、デブロッキングフィルタ（ＤＦ）は、ブロックコーディング手法を使用するときにマクロブロック間に形成される鋭いエッジを平滑化することにより視覚品質及び予測性能を改善するために、デコードされたビデオに適用され得るビデオフィルタである。サンプル適応オフセット（ＳＡＯ）は、各サンプルにオフセット値を加えることにより平均サンプル歪みを低減するためのループ内フィルタ手法である。ＳＡＯは、２つのタイプのオフセット手法を含み、それらは、エッジオフセット（ＥＯ）とバンドオフセット（ＢＯ）である。ＥＯは、フィルタリングされる画像フレーム内の局所的な方向構造により駆動され、ＢＯは、近傍への依存なしに画像フレームの強度値を修正する。適応ループフィルタ（ＡＬＦ）は、元のサンプル画像とデコードされたサンプル画像との間の平均二乗誤差を最小化するために使用され得る。エンハンスメントモジュールを処理する順序及びエンハンスメントモジュールの選択は、ユーザ設定に従って様々に修正されてもよい。

一実施形態によれば、ＤＮＮＬＦを訓練する全体的な方法が提供される。図３を参照し、Ｎ個の前の再構成フレームのセット

が、ＤＮＮＬＦモジュール３１０への入力として提供される。ＤＮＮＬＦモジュール３１０は、エンドツーエンド（Ｅ２Ｅ）ＬＦＤＮＮネットワークを使用することにより、高品質フレーム

を生成することができる。生成された高品質フレーム

は、次いで、再構成品質計算モジュール３２０により元の画像フレームｘ_ｔの再構成品質を評価するために計算される。次いで、再構成品質計算モジュール３２０は、再構成品質

を逆伝搬モジュール３３０に出力する。逆伝搬モジュール３３０は、再構成品質計算モジュール３２０により評価された再構成品質に従ってＤＮＮＬＦモジュール３１０を訓練するために、再構成品質

をＤＮＮＬＦモジュール３１０にフィードバックする。

さらに、ＤＮＮＬＦモジュール３１０により出力されるＮ個の前の再構成フレームのセットに対する整合損失

が、逆伝搬モジュール３３０に供給され得、これは次いで、ＤＮＮＬＦモジュール３１０を訓練するために、逆伝搬モジュール３３０を通じてＤＮＮＬＦモジュール３１０にフィードバックされる。整合損失のより詳細な説明は、図４を参照して以下に記載される。

さらに、高品質フレーム

と、元の画像フレームｘ_ｔは、高品質フレーム

と、元の画像フレームｘ_ｔとの間の差を認識及び検出するために、識別モジュール（discrimination module）３４０に入力され得る。すなわち、識別モジュール３４０は、

及びｘ_ｔに基づいて、識別損失

を計算し、識別損失を逆伝搬モジュール３３０に送ることができる。識別損失

は、ＤＮＮＬＦモジュール３１０及び識別モジュール３４０を訓練するために、逆伝搬モジュール３３０を通じてＤＮＮＬＦモジュール３１０及び識別モジュール３４０にフィードバックされ得る。

識別ＤＮＮは、識別特徴マップ

又はｄ（ｘ_ｔ）を計算するために、入力として

及びｘ_ｔのうちの少なくとも１つを使用する分類ネットワークでもよい。識別特徴マップ

又はｄ（ｘ_ｔ）に基づいて、識別ＤＮＮは、入力が元の画像フレームｘ_ｔであるか、又は生成された（又は合成された）高品質フレーム

であるかを分類する。カテゴリ的交差エントロピー損失などの誤分類損失を測定するために、分類損失

を計算することができる。さらに、生成された高品質画像フレーム

に基づいて計算された識別特徴マップと、元の画像フレームｘ_ｔに基づいて計算された識別特徴マップとの間の差を測定するために、特徴識別損失

が計算されてもよい。

全体的な識別損失

は、

の線形結合でもよく、これは、以下の式（１）に従って計算される。

ここで、γは、識別特徴マップ

及びｄ（ｘ_ｔ）に関連づけられた重みである。

上述したように、再構成品質計算モジュール３２０により出力される再構成品質

、ＤＮＮＬＦ３１０により出力される整合損失

、識別モジュール３４０により出力される識別損失

は、逆伝搬モジュール３３０に送られる。それぞれのモジュールからこれらの計算を受け取ることに基づいて、逆伝搬モジュール３３０は、結合損失（joint loss）Ｌ_jointの勾配を計算することができ、これは、ＤＮＮＬＦモジュール３１０及び識別モジュール３４０にフィードバックされ得る。結合損失Ｌ_jointの勾配は、次の式（２）に従って計算されてもよい。

ここで、λは、整合損失に関連づけられた重みであり、βは、識別損失に関連づけられた重みである。

結合損失Ｌ_jointの勾配は、ＬＦＤＮＮ（例えば、特徴抽出ＤＮＮ、オフセット生成ＤＮＮ、ＴＤＣＤＮＮ、フレーム再構成ＤＮＮ、フレーム合成ＤＮＮ、識別ＤＮＮ、並びにＴＤＣ及び特徴融合ＤＮＮ）におけるＤＮＮ重み係数を更新するために、逆伝搬モジュール３３０を通じて逆伝搬することができる。

結合損失Ｌ_jointを上記の１つ以上のＤＮＮにフィードバックすることに基づいて、予測フレーム

は、Ｎ個の前の再構成フレームのセット

を更新するために追加される。例えば、カレントフレームから最大の距離にある最も古いフレームが、Ｎ個の前の再構成フレームのセットから除去されてもよく、予測フレーム

が、除去された最も古いフレームを置き換えるために追加されてもよい。その後、エンコーダは、ｔからｔ＋１へ、次のエンコーディングサイクルに入ることができる。

一実施形態によれば、ＤＮＮＬＦモジュール３１０は、再構成フレーム

の視覚品質を改善するために、上述したさらなるコンポーネント（例えば、ＤＦ、ＳＡＯ、ＡＬＦ、ＣＣＡＬＦなど）の１つ以上と組み合わせて使用されてもよい。例えば、再構成フレーム

は、ＤＦ、ＤＮＮＬＦモジュール、ＳＡＯ、及びＡＬＦを通じて順次処理され得る。しかしながら、１つ以上の実施形態はこれに限定されず、さらなるコンポーネントを処理する順序が様々に構成されてもよい。一実施形態において、ＤＮＮＬＦモジュール３１０は、再構成フレーム

の視覚品質を向上させるために、全ての他のさらなるコンポーネントの代替として単独で使用されてもよい。

図４は、一実施形態による２ＤＴＤＣを使用するＤＮＮＬＦモジュールの動作を示す図である。

図４を参照し、ＤＮＮＬＦモジュール４００は、特徴抽出モジュール４１０、オフセット生成モジュール４２０、ＴＤＣモジュール４３０、フレーム再構成モジュール４４０、フレーム合成モジュール４５０、及び整合誤差計算モジュール４６０を含むことができる。

特徴抽出モジュール４１０は、入力としてＮ個の前の再構成フレームのセット

を受け取り、フォワード推論（forward inference）を通じて特徴抽出ＤＮＮを使用することにより特徴マップ

を計算するように構成され得る。例えば、フレーム

が、全ての他のフレームが整合されなければならない参照フレームとして使用されると仮定し、オフセット生成モジュール４２０は、

に基づいて、特徴マップ

を連結し（concatenating）、連結された特徴マップをオフセット生成ＤＮＮに通すことにより、オフセットマップΔＰ_j→i,tを計算することができる。ここで、フレーム

は、Ｎ個の前の再構成フレームのセット

の、任意のフレームであってよい。一般性を損なうことなく、Ｎ個の前の再構成フレームのセット

は、それらのタイムスタンプに従って昇順にランク付けされる。したがって、視覚品質を向上させるためのフレームは、Ｎ個の再構成フレーム

のタイムスタンプに基づいて選択されてもよい。例えば、ターゲットが、カレント再構成フレーム

を向上させることであるとき、

である。すなわち、全ての他の前に再構成された近隣フレームは、

の前であり得る。別の実施形態において、前に再構成された近隣フレームの一部が、

の前であってよく、残りのフレームは、

の後であってもよい。

オフセット生成モジュール４２０により生成されたオフセットマップΔＰ_j→i,tは、ＴＤＣモジュール４３０に入力され得る。図４において、ＴＤＣＤＮＮは、いくつかのＴＤＣ層を積み重ねる（stacking）ことにより形成され、各層は、正規化線形ユニット（Rectified Linear Unit、ＲｅＬＵ）などの非線形活性化層、及び他のＤＮＮ層（例えば、ボトルネック層）が後に続いてもよい。ＴＤＣモジュール４３０は、ＴＤＣＤＮＮを使用して、特徴抽出モジュール４１０により出力される特徴マップ

と、オフセット生成モジュール４２０により出力されるオフセットマップΔＰ_j→i,tとに基づいて、整合された特徴マップ

を計算する。

一実施形態によれば、ＴＤＣＤＮＮは、二次元（２Ｄ）ＴＤＣ層を含んでもよい。例えば、ｗ_ｋは、２ＤＴＤＣカーネルの重み係数を表し、ｋは、１以上の自然数（例えば、ｋ＝１，．．．，Ｋ）であり、ｐ_ｋは、カーネル内の第ｋの位置に対する所定のオフセットを表す（例えば、３ｘ３カーネルは、Ｋ＝９、及びｐ_ｋ∈｛（－１，－１），（－１，０），．．．，（１，１）｝で定義される）と仮定する。２ＤＴＤＣ層は、入力特徴ｆ_in及び学習可能なオフセットΔＰに基づいて、出力特徴ｆ_outを計算することができ、ここで、サンプリング位置ｐ_０における特徴は、以下の式に基づいて決定される。

ここで、オフセットの合計（ｐ_０＋ｐ_ｋ＋Δｐ_ｋ）は不規則でもよく、整数でなくてもよく、ＴＤＣ演算は、（ｐ_０＋ｐ_ｋ＋Δｐ_ｋ）の不規則な位置を矯正するために、補間（例えば、双線形補間）を実行することができる。

さらに、整合誤差計算モジュール４６０は、整合損失

を計算して、

の間の不整合の誤差を測定するように構成され得る。例えば、不整合を計算するために、Ｌ１ノルム（又は絶対誤差の平均）、又はＬ２ノルム（二乗根誤差の平均）が使用されてもよい。フレーム再構成モジュール４４０は、フィードフォワード推論計算を通じてフレーム再構成ＤＮＮを使用して、特徴抽出モジュール４１０により出力される特徴マップ

と、ＴＤＣモジュール４３０により出力される整合された特徴マップ

とに基づいて、整合されたフレーム

を生成することができる。整合されたフレーム

は、フレーム合成モジュール４５０への入力として使用されてもよく、フレーム合成モジュール４５０は、フレーム合成ＤＮＮを使用して合成された高品質フレーム

を生成することができる。

ＤＮＮＬＦモジュールのいくつかの特定の実施形態が上述されたが、本開示の１つ以上の実施形態はこれに限定されないことを理解されたい。例えば、特徴抽出ＤＮＮ、オフセット生成ＤＮＮ、ＴＤＣＤＮＮ、フレーム再構成ＤＮＮ、及びフレーム合成ＤＮＮの各々に対して、層のタイプ、層の数、カーネルサイズ等は様々に構成されてもよい。例えば、ＲｅｓＮＥＴなどの任意のバックボーンネットワークが、特徴合成ＤＮＮとして使用されてもよい。例えば、規則的な畳み込み層及びボトルネック層のセットが、オフセット生成ＤＮＮとして積み重ねられてもよい。例えば、ＴＤＣ層のセットが、ＴＤＣＤＮＮとして積み重ねられてもよく、スキップ接続を有する少数の畳み込み層が、フレーム再構成ＤＮＮとして一緒に積み重ねられてもよい。例えば、少数の残差ブロック層が、フレーム合成ＤＮＮとして一緒に積み重ねられてもよい。

図５は、一実施形態による３ＤＴＤＣを使用するＤＮＮＬＦモジュールの動作を示す図である。

図５を参照し、ＤＮＮＬＦモジュール５００は、特徴抽出モジュール５１０、ＴＤＣ及び特徴融合モジュール５２０、及び特徴再構成モジュール５３０を含むことができる。ＤＮＮＬＦモジュール５００のコンポーネントの特徴又は機能の一部は、図４を参照して上述されていることを理解されたい。したがって、その繰り返しの記載は省略されることがある。

一実施形態によれば、入力フレーム

は、サイズ（ｎ、ｃ、ｈ、ｗ）の４Ｄ入力テンソルを取得するために一緒に積み重ねられてもよく、ここで、ｃは、チャネルの数（例えば、カラーフレームに対して３）であり、（ｈ、ｗ）は、ビデオフレームの解像度を提供する。特徴抽出モジュール５１０は、フォワード推論を通じて特徴抽出ＤＮＮを使用して、特徴マップ

の４Ｄ特徴テンソルを計算するように構成され得る。一実施形態において、特徴抽出ＤＮＮは、３Ｄ畳込み層（例えば、Ｃ３Ｄ）を使用して、特徴マップ

を計算し、ビデオの時空間特性を捕捉する。別の実施形態において、各個々の特徴マップは、図４を参照して説明したように、２Ｄ畳み込み層を使用して計算されてもよい。ここで、特徴マップ

は、各個々の入力フレームについて特徴マップ

を計算した後、４Ｄテンソルに連結されてもよい。したがって、特徴抽出モジュール５１０は、４Ｄ特徴テンソルを出力することができる。

例えば、ｗ_ｋが、３ＤＴＤＣカーネルの重み係数を表し、ｐ_ｋが、カーネル内の第ｋの位置に対する所定のオフセットを表し、ｋは、１以上の自然数（例えば、ｋ＝１，．．．，Ｋ）であると仮定する。３ＤＴＤＣカーネルは、Ｋ＝２７、及びｐ_ｋ∈｛（－１，－１，－１），（－１，－１，０），．．．，（１，１，１）｝として定義されてもよい。３ＤＴＤＣ層は、入力特徴ｆ_in及び学習可能なオフセットΔＰに基づいて、出力特徴ｆ_outを計算することができ、ここで、サンプリング位置ｐ_０における特徴は、上記で提供された同じ式（３）を使用して与えられる。

図５において、ＴＤＣ及び特徴融合ＤＮＮは、１つ以上の３ＤＴＤＣ層を積み重ねることにより形成されてもよく、各層は、ＲｅＬＵなどの非線形活性化層が後に続く。さらに又は代わりに、各３ＤＴＤＣ層は、ボトルネック層などの他のＤＮＮ層が後に続いてもよい。例えば、フレーム

が、全ての他のフレームが整合される必要がある参照フレームであり、ＴＤＣ及び特徴融合モジュール５２０は、ＴＤＣ及び特徴融合ＤＮＮを使用して、４Ｄ特徴テンソル

に基づいて、融合された整合された特徴マップ

を計算すると仮定する。フレーム再構成モジュール５３０は、フレーム再構成ＤＮＮを使用して、融合された整合された特徴マップ

に基づいて、再構成された高品質フレーム

を計算する。ここで、ＤＮＮＬＦモジュール５００を訓練する際に実行される明示的な空間整合はない。代わりに、３Ｄ変形可能畳み込みは、時空間オフセットを直接学習して、整合された融合された特徴を生成する。

ＤＮＮＬＦモジュールのいくつかの特定の実施形態が上述されたが、本開示の１つ以上の実施形態はこれに限定されないことを理解されたい。例えば、特徴抽出ＤＮＮ、ＴＤＣ及び特徴融合ＤＮＮ、及びフレーム再構成ＤＮＮの各々に対して、層のタイプ、層の数、カーネルサイズ等は様々に構成されてもよい。

図６は、一実施形態によるＴＤＣを有するＤＮＮＬＦを使用してビデオデータを処理する装置のブロック図である。装置６００のコンポーネントの特徴又は機能の一部は、図４及び図５を参照して上述されていることを理解されたい。したがって、その繰り返しの記載は省略されることがある。

装置６００は、コンピュータプログラムコードを記憶する少なくとも１つのメモリと、少なくとも１つのメモリにアクセスし、コンピュータプログラムコードにより指示されるとおり動作するように構成された少なくとも１つのプロセッサとを含むことができる。コンピュータプログラムコード６００は、取得コード６１０、決定コード６２０、及び生成コード６３０を含むことができる。

取得コード６１０は、ビデオシーケンスにおける再構成画像フレームのセットを取得するように構成され得る。一実施形態によれば、取得コード６１０は、図４及び図５に関して上述した特徴抽出モジュール４１０及び５１０の動作を実行するように構成されてもよい。

決定コード６２０は、複数の画像フレームの各々について特徴マップを決定し、特徴マップに基づいてオフセットマップを決定し、特徴マップ及びオフセットマップに対して時間変形可能畳み込み（ＴＤＣ）を実行することにより整合された特徴マップを決定するように構成され得る。一実施形態によれば、決定コード６２０は、図４に関して上述したオフセット生成モジュール４２０、ＴＤＣ４３０、及び整合誤差計算モジュール４６０、並びに図５に関して上述したＴＤＣ及び特徴融合モジュール５２０の動作を実行するように構成されてもよい。

生成コード６３０は、複数の整合されたフレームを生成し、複数の整合されたフレームを合成して、複数の画像フレームに対応する複数の高品質フレームを出力するように構成され得る。一実施形態によれば、生成コード６３０は、図４のフレーム再構成モジュール４３０及びフレーム合成モジュール４５０、並びに図５のフレーム再構成モジュール５３０の動作を実行するように構成されてもよい。

装置６００は、取得コード６１０、決定コード６２０、及び生成コード６３０のみを含むものとして記載されたが、本開示の１つ以上の実施形態はこれに限定されない。１つ以上の実施形態は、図６に示されたものより多くの又は少ないコンポーネント又は部分を含んでもよい。

「ユニット」又は「モジュール」などの、本開示の１つ以上の実施形態で使用される用語は、少なくとも１つの機能又は動作を処理するユニットを示し、ハードウェア、ソフトウェアにおいて、又はハードウェアとソフトウェアの組み合わせで実装することができる。

用語「ユニット」、「コード」、又は「モジュール」は、アドレス指定可能な記憶媒体に記憶され、プロセッサにより実行可能であるプログラムにより実装されてもよい。

例えば、用語「ユニット」、「コード」、又は「モジュール」は、ソフトウェアコンポーネント、オブジェクト指向ソフトウェアコンポーネント、クラスコンポーネント及びタスクコンポーネント、プロセス、機能、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、及び／又は変数を含んでもよい。

本開示の実施形態のいくつかが上記で示され、説明されている。しかしながら、本開示の１つ以上の実施形態は、前述の特定の実施形態に限定されない。本開示の主旨及び範囲から逸脱することなく、様々な修正、置換、改良、及びその同等のものがなされ得ることが理解され得る。このような修正、置換、改良、及びその同等のものは、本開示の保護範囲に含まれるものとし、本開示の発明概念又は見通しから独立していると解釈されるべきではないことを理解されたい。

Claims

ループフィルタを有する１つ以上のニューラルネットワークを使用してビデオコーディングを実行する方法であって、
ビデオシーケンスにおける複数の画像フレームを取得するステップと、
前記複数の画像フレームの各々について特徴マップを決定するステップと、
前記複数の画像フレームの中から参照フレームを選択するステップであって、前記参照フレームは、前記複数の画像フレームにおける他のフレームが整合される必要があるフレームである、選択するステップと、
前記参照フレームの参照特徴マップと前記複数の画像フレームにおける前記他のフレームの各々の特徴マップと、を連結し、前記連結された特徴マップをオフセット生成ディープニューラルネットワーク（ＤＮＮ）に通して、オフセットマップを決定するステップと、
前記特徴マップ及び前記オフセットマップに対して時間変形可能畳み込み（ＴＤＣ）を実行することにより整合された特徴マップを決定するステップと、
前記整合された特徴マップに基づいて複数の整合されたフレームを生成するステップと、
を含む方法。
前記複数の整合されたフレームを合成して前記複数の画像フレームに対応する複数の高品質フレームを出力するステップ、
をさらに含む請求項１に記載の方法。
前記特徴マップと前記整合された特徴マップとの間の不整合の誤差を示す整合損失を決定するステップ、
をさらに含み、
前記１つ以上のニューラルネットワークは、前記整合損失により訓練される、請求項１に記載の方法。
前記複数の画像フレームを取得することは、前記複数の画像フレームを積み重ねて４次元（４Ｄ）入力テンソルを取得することを含む、請求項１に記載の方法。
前記複数の画像フレームは、デブロッキングフィルタ（ＤＦ）、サンプル適応オフセット（ＳＡＯ）、適応ループフィルタ（ＡＬＦ）、又はクロスコンポーネント適応フィルタ（ＣＣＡＬＦ）のうちの少なくとも１つを使用してさらに処理される、請求項１に記載の方法。
前記複数の高品質フレームは、前記複数の画像フレームの再構成品質を決定するために評価され、
前記複数の画像フレームの前記再構成品質は、前記１つ以上のニューラルネットワーク内で逆伝搬され、
前記１つ以上のニューラルネットワークは、前記複数の画像フレームの前記再構成品質により訓練される、請求項２に記載の方法。
前記複数の画像フレームの各々が元の画像フレームであるか又は高品質フレームであるかの分類における誤差を示す識別損失を決定するステップ、
をさらに含み、
前記１つ以上のニューラルネットワークは、前記識別損失により訓練される、請求項１に記載の方法。
前記整合された特徴マップを決定することは、時間変形可能畳み込みディープニューラルネットワーク（ＴＤＣＤＮＮ）を使用することを含み、
前記ＴＤＣＤＮＮは、積み重ねにおける複数のＴＤＣ層を含み、
前記複数のＴＤＣ層の各々は、正規化線形ユニット（ＲｅＬＵ）を含む非線形活性化層が後に続く、請求項１に記載の方法。
装置であって、
コンピュータプログラムコードを記憶する少なくとも１つのメモリと、
前記少なくとも１つのメモリにアクセスし、前記コンピュータプログラムコードを実行するように構成された少なくとも１つのプロセッサと、
を含み、
前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに請求項１乃至８のうちいずれか１項に記載の方法を実行させる、装置。
少なくとも１つのプロセッサに請求項１乃至８のうちいずれか１項に記載の方法を実行させるコンピュータプログラム。