JP2021184594A

JP2021184594A - ビデオフレームの補間装置及び方法

Info

Publication number: JP2021184594A
Application number: JP2021069650A
Authority: JP
Inventors: 思寒温; Sihan Wen; 静周; Jing Zhou; タヌ・ジミン; Tan Zhiming
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-05-20
Filing date: 2021-04-16
Publication date: 2021-12-02
Also published as: US20210368131A1; US11375152B2; CN113727141B; CN113727141A

Abstract

【課題】本発明は、ビデオフレームの補間装置及び方法を提供する。【解決手段】係る方法は、第一フレームと第二フレームとの間の双方向オプティカルフローを計算し；前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、ここで、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、もう１つの畳み込み層を用いて重み係数を生成し；前記双方向オプティカルフロー、前記重み係数及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し；及び、前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む。【選択図】図１

Description

本発明は、ビデオ処理技術分野に関する。

ビデオフレームの補間がコンピュータビジョンにおいてビデオ処理の主な問題の１つであり、連続したフレームにおける補間フレーム（中間フレームとも言う）を合成することができる。ビデオフレームの補間は、多くのアプリケーション、例えば、ビデオ圧縮、スローモーション生成、フレームレート（ｆｒａｍｅｒａｔｅ）アップコンバージョン（ｕｐ−ｃｏｎｖｅｒｓｉｏｎ）などに適用することができる。

ビデオフレームの補間では、入力フレームにおいて各ピクセル値を推定するための参照位置を見つけ、その後、参照ピクセル値により、出力される補間フレームのピクセル値を得ることができる。深層学習に基づくビデオフレームの補間は、カーネル（ｋｅｒｎｅｌ）推定方法が含まれても良く、カーネルが各ピクセルのために適応的に推定され、補間フレームが畳み込み操作により合成され得る。また、フロー推定方法がさらに含まれても良く、各出力ピクセルについて、参照位置に指向するフローベクトルが推定され得る。

今のところ、深層畳み込みニューラルネットワークの発達に伴い、この分野での多くの方法がかなり進歩している。例えば、双方向オプティカルフローを計算し、適応的変換層（ａｄａｐｔｉｖｅｗａｒｐｉｎｇｌａｙｅｒ）に基づいて変換フレーム（ワープフレーム（ｗａｒｐｅｄｆｒａｍｅ）とも言う）を生成し、それから、フレーム合成を行って補間フレームを取得することが提案された参考文献がある。

しかしながら、発明者が次のようなことを発見した。即ち、比較的大きな動き及びブロッキングなどの問題が原因で、オプティカルフローの正確性を依然として保証し難く、高品質の補間フレームを生成することは依然として困難である。

上述の問題の少なくとも１つに鑑み、本発明の実施例は、ピーク信号対雑音比（ＰＳＮＲ、ＰｅａｋＳｉｇｎａｌ−ｔｏ−ＮｏｉｓｅＲａｔｉｏ）をさらに向上させ、高品質の補間フレームを生成し得るビデオフレームの補間装置及び方法を提供する。

本発明の実施例の一側面によれば、ビデオフレームの補間装置が提供され、それは、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算するためのオプティカルフロー計算ユニット；
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行うための推定ユニットであって、そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成する、もの；
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで、変換フレームを生成するための変換ユニット；及び
前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成するための合成ユニットを含む。

本発明の実施例のもう１つの側面によれば、ビデオフレームの補間方法が提供され、それは、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し；
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成し；
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで、変換フレームを生成し；及び
前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む。

本発明の実施例の有利な効果の少なくとも１つは、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成し、これにより、隣接ピクセルからの情報を十分に利用し、ＰＳＮＲをさらに向上させ、高品質の補間フレームを生成し得ることにある。

本発明の実施例におけるビデオフレームの補間方法を示す図である。本発明の実施例におけるカーネル及び重みの推定の例示図である。本発明の実施例におけるビデオフレームの補間方法を示すもう１つの図である。本発明の実施例におけるビデオフレームの補間を示すブロック図である。本発明の実施例におけるフレーム合成のためのネットワーク構成を示す図である。本発明の実施例におけるビデオフレームの補間装置を示す図である。本発明の実施例における電子機器を示す図である。

以下、添付した図面を参照しながら、本発明を実施するための好ましい実施例について詳細に説明する。

＜第一側面の実施例＞
本発明の実施例ではビデオフレームの補間方法が提供される。図１は本発明の実施例におけるビデオフレームの補間方法を示す図である。図１に示すように、該方法は以下のステップを含む。

１０１：第一フレームと第二フレームとの間の双方向オプティカルフローを計算し；
１０２：第一フレーム及び第二フレームに基づいてカーネル（ｋｅｒｎｅｌ）及び重み（ｗｅｉｇｈｔ）推定を行い、そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成し；
１０３：双方向オプティカルフロー、重み係数、及び適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて第一フレーム及び第二フレームに対して変換を行うことで、変換フレームを生成し；
１０４：第一フレーム、第二フレーム、及び変換フレームに対してフレーム合成を行い、第一フレームと第二フレームとの間の補間フレームを生成する。

なお、上述の図１は本発明の実施例を例示的に説明したが、本発明はこれに限定されない。例えば、各ステップ間の実行順序を適切に調整したり、幾つかの操作を増減したりすることもできる。即ち、当業者は、上述の図１の記載に基づいて、上述の内容に対して適切に変更することができる。

本発明の実施例では、補間フレームをフレームｔ、第一フレーム及び第二フレームをそれぞれフレームｔ−１及びフレームｔ＋１と表すことができる。ＰＷＣ−Ｎｅｔを用いて２つの入力フレーム（フレームｔ−１及びフレームｔ＋１）の間の双方向オプティカルフローＦ_{ｔ−１→ｔ＋１}及びＦ_{ｔ＋１→ｔ−１}を推定することができる。ＰＷＣ−Ｎｅｔは、マルチスケール特徴のピラミッドモデルを用いているから、標準のベンチマークテストにおいて優れたパフォーマンスを発揮することができ、且つ計算も非常に効率的である。但し、本発明はこれに限定されず、他の方法を採用して双方向オプティカルフローを計算することもできるが、具体的にどのように計算するかについては関連技術を参照することができる。

本発明の実施例では、Ｕ−Ｎｅｔアーキテクチャを用いて、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行うことができる。ここで、カーネル（ｋｅｒｎｅｌ）とは、例えば、画像中の各ピクセルに割り当てられる適応的ローカル畳み込みカーネルを指し、重み（ｗｅｉｇｈｔ）は、例えば、ピクセルから参照画像中の参照位置までの距離を表す。なお、Ｕ−Ｎｅｔアーキテクチャの具体的な内容については関連技術を参照することができる。

幾つかの実施例において、第一フレーム及び第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行うことで、異なる次元の特徴を取得し；取得した最高（最も高い）次元の特徴に対して複数回のアップサンプリングを行うことで、処理後の特徴を取得し；処理後の特徴に対して第一畳み込み層を適用し、また、正規化線形ユニット（ｒｅｌｕ，ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）関数により適応的ローカル畳み込みカーネルを取得し；及び、処理後の特徴に対して第二畳み込み層を適用し、また、ｓｉｇｍｏｉｄ関数により重み係数を取得することができる。なお、畳み込み操作、畳み込み層、ｒｅｌｕ関数及びｓｉｇｍｏｉｄ関数については関連技術を参照することができ、ここではその具体的な内容の記載を省略する。

図２は、本発明の実施例におけるカーネル及び重みの推定の例示図である。図２に示すように、第一フレーム及び第二フレームを入力として特徴抽出を行い、また、複数回のダウンサンプリングを行うことで、異なる次元のダウンサンプリング特徴を（例えば、図２の左側の２０１〜２０６などに示されるように）取得することができる。例えば、異なる次元は、１６×３×３、３２×３×３／２、６４×３×３／２、１２８×３×３／２、２５６×３×３／２、５１２×３×３／２、５１２×３×３などを含む。

図２に示すように、取得した最高次元の特徴（例えば、２０７に示される「Ｃｏｎｖ５１２×３×３，ｒｅｌｕ」により表される）に対して複数回のアップサンプリングを（例えば、図２の右側の２０８〜２１２などに示されるように）行うことで、処理後の特徴（例えば、２１２に示される「Ｃｏｎｖ１６×３×３／２，ｒｅｌｕ」により表される）を取得することができる。

図２に示すように、処理後の特徴（例えば、２１２に示される「Ｃｏｎｖ１６×３×３／２，ｒｅｌｕ」により表される）に対して第一畳み込み層を適用し、また、ｒｅｌｕ関数（例えば、２１３に示される「Ｃｏｎｖ１６×３×３，ｒｅｌｕ」により表される）を用いることで、適応的ローカル畳み込みカーネルを取得し；及び、処理後の特徴（例えば、２１２に示される「Ｃｏｎｖ１６×３×３／２，ｒｅｌｕ」により表される）に対して第二畳み込み層を適用し、また、ｓｉｇｍｏｉｄ関数（例えば、２１４に示される「Ｃｏｎｖ２×３×３，ｓｉｇｍｏｉｄ」により表される）を用いることで、重み係数を取得することができる。

よって、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成することができる。これにより、隣接ピクセルからの情報を十分に利用し、ＰＳＮＲをさらに向上させ、高品質の補間フレームを生成することができる。

幾つかの実施例において、複数回のダウンサンプリングにより、異なる次元のダウンサンプリング特徴を取得し、複数回のアップサンプリングにより、異なる次元のアップサンプリング特徴を取得することができる。第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得することができる。

例えば、図２に示すように、２５６×３×３／２のダウンサンプリング特徴（例えば、２０５に示される「Ｃｏｎｖ２５６×３×３／２，ｒｅｌｕ」により表される）と、同じ次元のアップサンプリング特徴（例えば、２０８に示される「Ｃｏｎｖ２５６×３×３／２，ｒｅｌｕ」により表される）との和を求めて１つの畳み込み層の入力とすることで、１２８×３×３／２のアップサンプリング特徴（例えば、２０９に示される「Ｃｏｎｖ１２８×３×３／２，ｒｅｌｕ」により表される）を取得することができる。

図２に示すように、１２８×３×３／２のダウンサンプリング特徴（例えば、２０４に示される「Ｃｏｎｖ１２８×３×３／２，ｒｅｌｕ」により表される）と、同じ次元のアップサンプリング特徴（例えば、２０９に示される「Ｃｏｎｖ１２８×３×３／２，ｒｅｌｕ」により表される）との和を求めてもう１つの畳み込み層の入力とすることで、６４×３×３／２のアップサンプリング特徴（例えば、２１０に示される「Ｃｏｎｖ６４×３×３／２，ｒｅｌｕ」により表される）を取得することができる。

図２に示すように、６４×３×３／２のダウンサンプリング特徴（例えば、２０３に示される「Ｃｏｎｖ６４×３×３／２，ｒｅｌｕ」により表される）と、同じ次元のアップサンプリング特徴（例えば、２１０に示される「Ｃｏｎｖ６４×３×３／２，ｒｅｌｕ」により表される）との和を求めてもう１つの畳み込み層の入力とすることで、３２×３×３／２のアップサンプリング特徴（例えば、２１１に示される「Ｃｏｎｖ３２×３×３／２，ｒｅｌｕ」により表される）を取得することができる。

図２に示すように、３２×３×３／２のダウンサンプリング特徴（例えば、２０２に示される「Ｃｏｎｖ３２×３×３／２，ｒｅｌｕ」により表される）と、同じ次元のアップサンプリング特徴（例えば、２１１に示される「Ｃｏｎｖ３２×３×３／２，ｒｅｌｕ」により表される）との和を求めてまたもう１つの畳み込み層の入力とすることで、１６×３×３／２のアップサンプリング特徴（例えば、２１２に示される「Ｃｏｎｖ１６×３×３／２，ｒｅｌｕ」により表される）を取得することができる。

これにより、本発明の実施例では、同じ次元の特徴の和を求めることであり、ダウンサンプリング特徴をアップサンプリング特徴に連結（ｃｏｎｃａｔ）することではない。このようにして、１つ前の層からの情報を保留することができ、画像品質の向上に有利であり、また、ネットワークパラメータをさらに減少させることができる。

幾つかの実施例において、計算した双方向オプティカルフロー、第一フレーム及び第二フレームに基づいて前記カーネル及び重みの推定をさらに行っても良い。双方向オプティカルフローをもカーネル及び重みの推定の入力とすることにより、カーネル及び重みの推定の結果をより正確にすることができる。

図３は、本発明の実施例におけるビデオフレームの補間方法を示す他の図である。図３に示すように、該方法は以下のステップを含む。

３０１：第一フレームと第二フレームとの間の双方向オプティカルフローを計算し；
３０２：双方向オプティカルフロー、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成する。

幾つかの実施例において、双方向オプティカルフロー、第一フレーム及び第二フレームを図２の入力とすることができる。

図３に示すように、該方法はさらに以下のステップを含む。

３０３：重み係数に基づいて双方向オプティカルフローに対して加重を行う。

幾つかの実施例において、カーネル及び重みの推定を行った後に、重み係数に基づいて双方向オプティカルフローに対して加重を行うことができる。例えば、従来の方法では、以下の方式により中間フローを取得する。

Ｆｌｏｗ_{ｔ−１→ｔ}＝Ｆｌｏｗ_{ｔ−１→ｔ＋１}×０．５
しかし、対象の移動が常に線形的なものではなく、上述の従来の方法により画像の品質をさらに向上させることができない。

本発明の実施例では、１つの畳み込み層の後ろに１つのｓｉｇｍｏｉｄ関数が続くというような方式により、重み係数を自動的に生成し、また、この重み係数は０〜１に限定される。これは、参照画像とオプティカルフローとの間に重要な指標を提供することができる。例えば、本発明の実施例では、以下の方式により中間フローを得ることができる。

Ｆｌｏｗ_{ｔ−１→ｔ}＝Ｆｌｏｗ_{ｔ−１→ｔ＋１}×ｗｅｉｇｈｔ_０
そのうち、ｗｅｉｇｈｔ_０は上述の重み係数である。これにより、対象の非線形移動を表すことができるため、画像の品質をさらに向上させることができる。

３０４：加重後の双方向オプティカルフロー及び適応的ローカル畳み込みカーネルに基づいて、適応的変換層により第一フレーム及び第二フレームに対して変換を行うことで、少なくとも２つの変換フレームを生成する。

幾つかの実施例において、適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセル（例えば、４×４個のピクセルであるが、これに限定されない）に割り当て、また、適応的変換層は、隣接する前記複数のピクセルに基づいてカレントピクセルの値を生成する。

これにより、カーネル及び重みの推定から取得した異なる重みによって、オプティカルフローと参照画像との間の距離をより良く表すことができ、周囲の情報をより効率的に用いて変換フレームを得ることができるため、画像の品質をさらに向上させることができる。

幾つかの実施例において、加重後の双方向オプティカルフロー及び適応的ローカル畳み込みカーネルに基づいて、適応的変換（ｗａｒｐ）層を用いて第一フレーム及び第二フレームに対して変換を行うことができる。なお、適応的変換層の具体的な内容については関連技術を参照することができる。

３０５：前記少なくとも２つの変換フレームの間の差及び平均値を計算し；
３０６：第一フレーム及び第二フレーム、並びに少なくとも２つの変換フレームの差及び平均値に対してフレーム合成を行い、第一フレームと第二フレームとの間の補間フレームを生成する。

幾つかの実施例において、適応的変換層は、第一フレーム及び第二フレームに対して変換を行うことで、少なくとも２つの変換フレームを生成することができ、例えば、Ｉ_ｔ１及びＩ_ｔ２と表すことができる。前記少なくとも２つの変換フレームの間の差を計算し、且つ前記少なくとも２つの変換フレームの平均値を計算し；及び、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とすることができる。

これにより、これらの情報によって、より多くの細部を得ることで、出力される画像フレームをよりクリアにすることができる。実験結果によれば、シングル（単一）変換フレームを使用することに比較して、少なくとも２つの変換フレームの差及び平均値を使用することで、より多くの情報を提供することができるため、より良い画像品質を取得することができる。

図４は、本発明の実施例におけるビデオフレームの補間を示すブロック図であり、フレームｔ−１（４０１に示されるように）及びフレームｔ＋１（４０２に示されるように）に基づいて取得された補間フレームｔ（４１３に示されるように）を例にとって説明を行う。

図４に示すように、フレームｔ−１及びフレームｔ＋１の間の双方向オプティカルフローを、４０３に示すように計算することができ；その後、フレームｔ−１及びフレームｔ＋１、並びに双方向オプティカルフロー（４０４に示されるように）に基づいてカーネル（ｋｅｒｎｅｌ）及び重み（ｗｅｉｇｈｔ）推定を、４０５に示すように行うことができ；そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成する。

図４に示すように、双方向オプティカルフロー（４０４に示されるように）、重み係数（４０６に示されるように）、及び適応的ローカル畳み込みカーネル（４０７に示されるように）に基づいて、適応的変換層（４０８に示されるように）を用いてフレームｔ−１及びフレームｔ＋１に対して変換を行うことで、少なくとも２つの変換フレーム（４０９に示されるように）を生成することができる。

図４に示すように、前記少なくとも２つの変換フレームの間の差（４１０に示されるように）及び平均値（４１１に示されるように）を計算することができ；フレームｔ−１及びフレームｔ＋１、並びに前記差及び前記平均値に基づいてフレーム合成を、４１２に示すように行うことで、フレームｔ−１とフレームｔ＋１の間の補間フレームｔ（４１３に示されるように）を生成することができる。

なお、上述の図３及び図４は本発明の実施例を例示的に説明したが、本発明はこれに限られない。例えば、各ステップ間の実行順序を適切に調整したり、幾つかの操作を増減したりすることもできる。即ち、当業者は、上述の図３及び図４の記載に基づいて、上述の内容に対して適切に変更することができる。

幾つかの実施例において、フレーム合成では、残差（Ｒｅｓｉｄｕａｌ）構造を使用することができ、及び、前記残差構造の後に、可変形畳み込みネットワーク（ＤＣＮ、ＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）を使用することができる。

図５は、本発明の実施例におけるフレーム合成のためのネットワーク構成を示す図である。例えば、図５の左側に示すように、入力に対して畳み込み操作（５０１の「Ｃｏｎｖ６４×７×７，ｒｅｌｕ」に示されるように）を行い、その後、残差ブロック（ｒｅｓｉｄｕａｌｂｌｏｃｋ）操作を、５０２に示すように行うことができる。各残差ブロックの後に、可変形畳み込みネットワークｖ２（ＤＣＮｖ２）をフレーム合成ネットワークに５０３に示すように嵌入することができる。また、５０４に示すように、Ｃｏｎｖ３×３×３操作をさらに含んでも良い。

図５の右側に示すように、残差ブロックは残差ネットワークの構造を有しても良く、例えば、５０２１に示すように、Ｃｏｎｖ６４×７×７操作を含み、また、５０２２に示すように、ｒｅｌｕ操作をさらに含む。なお、図５における残差ブロック及びＤＣＮｖ２の具体的な内容については関連技術を参照することができる。

これにより、フレーム合成のネットワーク構造にＤＣＮｖ２を用いることで、フレーム合成は、周囲の関連情報をより良く選択することができ、ブロッキングされているピクセル又は誤って補間されたピクセルに対して補償を行うことができるため、画像の品質をさらに向上させることができる。

以上、本発明に係る各ステップ又はプロセスにのみついて説明したが、本発明はこれに限定されない。ビデオフレームの補間方法はさらに、他のステップ又はプロセスを含んでも良く、これらのステップ又はプロセスの具体的な内容については従来技術を参照することができる。また、以上、深層学習の幾つかのネットワーク構造のみを例として本発明の実施例について提示的に説明したが、本発明はこれらの構造に限られず、これらの構造に対して適切な変形を行うことができる。なお、これらの変形例も本発明の実施例の範囲内に属する。

また、上述の各実施例を用いて本発明の実施例について例示的に説明したが、本発明はこれに限定されず、さらに上述の各実施例をもとに適切な変形を行うこともできる。例えば、上述の各実施例を単独で使用することができ、上述の各実施例のうちの１つ又は複数を組み合わせて使用することもできる。

上述の実施例から分かるように、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成することにより、隣接ピクセルからの情報を十分に利用し、ＰＳＮＲをさらに向上させ、高品質の補間フレームを生成することができる。

＜第二側面の実施例＞
本発明の実施例では、ビデオフレームの補間装置が提供され、また、第一側面の実施例と同じである内容の説明が省略される。

図６は、本発明の実施例におけるビデオフレームの補間装置を示す図である。図６に示すように、ビデオフレームの補間装置６００は以下のものを含む。

オプティカルフロー計算ユニット６０１：第一フレームと第二フレームとの間の双方向オプティカルフローを計算し；
推定ユニット６０２：前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成し；
変換ユニット６０３：前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し；
合成ユニット６０４：前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する。

幾つかの実施例において、図６に示すように、ビデオフレームの補間装置６００はさらに以下のものを含む。

加重ユニット６０５：前記重み係数に基づいて前記双方向オプティカルフローに対して行加重を行う。

幾つかの実施例において、前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセル周囲の隣接する複数のピクセルに割り当て、また、前記適応的変換層は、隣接する前記複数のピクセルに基づいてカレントピクセルの値を生成することができる。

幾つかの実施例において、推定ユニット６０２は、前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し；取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し；前記処理後の特徴に対して第一畳み込み層を適用し、また、ｒｅｌｕ関数により前記適応的ローカル畳み込みカーネルを取得し；及び、前記処理後の特徴に対して第二畳み込み層を適用し、また、ｓｉｇｍｏｉｄ関数により前記重み係数を取得するために用いられる。

幾つかの実施例において、複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得することができる。推定ユニット６０２はさらに、第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得するために用いられる。

幾つかの実施例において、前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行うことで、少なくとも２つの変換フレームを生成する。

計算ユニット６０６：前記少なくとも２つの変換フレームの間の差を計算し、また、前記少なくとも２つの変換フレームの平均値を計算する。

幾つかの実施例において、合成ユニット６０４はさらに、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とするために用いられる。

幾つかの実施例において、前記フレーム合成では、残差構造が使用され、及び、前記残差構造の後に、可変形畳み込みネットワークが使用される。

幾つかの実施例において、推定ユニット６０２はさらに、計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて、前記カーネル及び重みの推定を行うために用いられる。

なお、便宜のため、図６では、各部品又はモジュール間の接続関係又は信号方向のみが示されているが、当業者が理解すべきは、バス接続などの各種の関連技術を採用することもできるということである。また、これらの各部品又はモジュールは、例えば、処理器、記憶器などのハードウェアにより実現されても良いが、本発明の実施例はこれについて限定しない。

上述の各実施例を用いて本発明の実施例を例示的に説明したが、本発明はこれに限定されず、上述の各実施例をもとに適切な変形を行っても良い。例えば、上述の各実施例を単独で使用しても良く、上述の各実施例のうちの１つ又は複数を組み合わせて使用しても良い。

＜第三側面の実施例＞
本発明の実施例では電子機器が提供され、それは第二側面の実施例に記載のビデオフレームの補間装置を含む。なお、第二側面の実施例に記載の内容がここに合併される。該電子機器は、例えば、コンピュータ、サーバー、ワークステーション、デスクトップコンピュータ、スマートフォンなどであっても良いが、本発明の実施例はこれに限定されない。

図７は、本発明の実施例における電子機器を示す図である。図７に示すように、電子機器７００は処理器（例えば、中央処理器ＣＰＵ）７１０及び記憶器７２０を含んでも良く、記憶器７２０は中央処理器７１０に接続される。そのうち、該記憶器７２０は各種のデータを記憶することができ、また、情報処理用のプログラム７２１をさらに含むことができ、且つ処理器７１０の制御下で該プログラム７２１を実行することができる。

幾つかの実施例において、ビデオフレームの補間装置６００の機能が処理器７１０に集積される。そのうち、処理器７１０は、第一側面の実施例に記載のビデオフレームの補間方法を実現するように構成される。

幾つかの実施例において、ビデオフレームの補間装置６００が処理器７１０と別々で配置され、例えば、ビデオフレームの補間装置６００を、処理器７１０に接続されるチップとして構成し、処理器７１０の制御によりビデオフレームの補間装置６００の機能を実現することができる。

幾つかの実施例において、処理器７１０は次のような制御を行うように構成され、即ち、第一フレームと第二フレームとの間の双方向オプティカルフローを計算し；前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成し；前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し；及び、前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する。

幾つかの実施例において、処理器７１０は次のような制御を行うように構成され、即ち、前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行う。

幾つかの実施例において、処理器７１０は次のような制御を行うように構成され、即ち、前記適応的ローカル畳み込みカーネルは、異なる重みをカレントピクセルの周囲の隣接する複数のピクセルに割り当て、また、前記適応的変換層は、前記隣接する複数のピクセルに基づいて前記カレントピクセルの値を生成する。

幾つかの実施例において、処理器７１０は次のような制御を行うように構成され、即ち、前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し；取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し；前記処理後の特徴に対して第一畳み込み層を使用し、また、ｒｅｌｕ関数により前記適応的ローカル畳み込みカーネルを取得し；及び、前記処理後の特徴に対して第二畳み込み層を使用し、また、ｓｉｇｍｏｉｄ関数により前記重み係数を取得する。

幾つかの実施例において、処理器７１０は次のような制御を行うように構成され、即ち、前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得し；及び、第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得する。

幾つかの実施例において、処理器７１０は次のような制御を行うように構成され、即ち、前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行い、少なくとも２つの変換フレームを生成する。

幾つかの実施例において、処理器７１０は次のような制御を行うように構成され、即ち、前記少なくとも２つの変換フレームの間の差を計算し、また、前記少なくとも２つの変換フレームの平均値を計算し；及び、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とする。

幾つかの実施例において、処理器７１０は次のような制御を行うように構成され、即ち、前記フレーム合成では、残差（Ｒｅｓｉｄｕａｌ）構造を使用し、及び、前記残差構造の後に、可変形畳み込みネットワーク（ＤＣＮ、ＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）を使用する。

幾つかの実施例において、処理器７１０は次のような制御を行うように構成され、即ち、計算された前記双方向オプティカルフロー、前記第一フレーム、及び前記第二フレームに基づいて前記カーネル及び重みの推定を行う。

また、図７に示すように、電子機器７００はさらに、入出力（Ｉ／Ｏ）装置７３０、表示器７４０などを含む。そのうち、これらの部品の機能が従来技術と類似したので、ここではその詳しい説明を省略する。なお、電子機器７００は図７に示されるすべての部品を含む必要がない。また、電子機器７００はさらに、図７に無い部品を含んでも良く、これについては関連技術を参照することができる。

本発明の実施例ではさらにコンピュータ可読プログラムが提供され、そのうち、電子機器中で前記プログラムを実行するときに、前記プログラムはコンピュータに、前記電子機器中で第一側面の実施例に記載のビデオフレームの補間方法を実行させる。

本発明の実施例ではさらにコンピュータ可読プログラムを記憶した記憶媒体が提供され、そのうち、前記コンピュータ可読プログラムはコンピュータに、電子機器中で第一側面の実施例に記載のビデオフレームの補間方法を実行させる。

また、本発明の実施例において説明した前記方法、装置などは、ハードウェア、処理器により実行されるソフトウェアモジュール、又は両者の組み合わせにより実現することができる。例えば、機能ブロック図における１つ又は複数の機能及び／又は機能ブロック図における１つ又は複数の機能の組み合わせは、コンピュータプログラムにおける各ソフトウェアモジュールに対応しても良く、各ハードウェアモジュールに対応しても良い。また、これらのソフトウェアモジュールは、それぞれ、方法を示す図に示す各ステップに対応することができる。これらのハードウェアモジュールは、例えば、ＦＰＧＡ（ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）を用いてこれらのソフトウェアモジュールを固化して実現することができる。

また、本発明の実施例による装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行されるときに、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、ＤＶＤ、フレッシュメモリなどにも関する。

また、以上の実施例などに関し、さらに以下の付記を開示する。

（付記１）
ビデオフレームの補間方法であって、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し；
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう１つの畳み込み層を用いて重み係数を生成し；
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し；及び
前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む、方法。

（付記２）
付記１に記載の方法であって、さらに、
前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行うことを含む、方法。

（付記３）
付記１又は２に記載の方法であって、
前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセルに割り当て、前記適応的変換層は、隣接する前記複数のピクセルに基づいて前記カレントピクセルの値を生成する、方法。

（付記４）
付記１乃至３のうちの何れか一項に記載の方法であって、
前記カーネル及び重みの推定では、
前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し；
取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し；
前記処理後の特徴に対して第一畳み込み層を使用し、また、ｒｅｌｕ関数により前記適応的ローカル畳み込みカーネルを取得し；及び
前記処理後の特徴に対して第二畳み込み層を使用し、また、ｓｉｇｍｏｉｄ関数により前記重み係数を取得する、方法。

（付記５）
付記４に記載の方法であって、
前記カーネル及び重みの推定では、前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得する、方法。

（付記６）
付記５に記載の方法であって、さらに、
第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得することを含む、方法。

（付記７）
付記１至６のうちの何れか一項に記載の方法であって、
前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行い、少なくとも２つの変換フレームを生成する、方法。

（付記８）
付記７に記載の方法であって、さらに、
前記少なくとも２つの変換フレームの間の差を計算し、また、前記少なくとも２つの変換フレームの平均値を計算する、方法。

（付記９）
付記８に記載の方法であって、さらに、
前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とすることを含む、方法。

（付記１０）
付記１乃至９のうちの何れか一項に記載の方法であって、
前記フレーム合成では、残差（Ｒｅｓｉｄｕａｌ）構造が用いられ、また、前記残差構造の後に、可変形畳み込みネットワーク（ＤＣＮ、ＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）が用いられる、方法。

（付記１１）
付記１乃至１０のうちの何れか一項に記載の方法であって、さらに、
計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて、前記カーネル及び重みの推定を行うことを含む、方法。

（付記１２）
電子機器であって、
記憶器及び処理器を含み、
前記記憶器は、コンピュータプログラムを記憶し、前記処理器は、前記コンピュータプログラムを実行して付記１乃至１１のうちの何れか一項に記載のビデオフレームの補間方法を実現するように構成される、電子機器。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims

ビデオフレームの補間装置であって、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算するオプティカルフロー計算ユニット；
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行う推定ユニットであって、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、もう１つの畳み込み層を用いて重み係数を生成する、推定ユニット；
前記双方向オプティカルフロー、前記重み係数及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成する変換ユニット；及び
前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する合成ユニットを含む、補間装置。
請求項１に記載の補間装置であって、
前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行う加重ユニットをさらに含む、補間装置。
請求項１に記載の補間装置であって、
前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセルに割り当て、前記適応的変換層は、隣接する前記複数のピクセルに基づいて前記カレントピクセルの値を生成する、補間装置。
請求項１に記載の補間装置であって、
前記推定ユニットは、
前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行うことで、異なる次元の特徴を取得し；
取得された最高次元の特徴に対して複数回のアップサンプリングを行うことで、処理後の特徴を取得し；
処理後の前記特徴に対して第一畳み込み層を使用し、また、ｒｅｌｕ関数により前記適応的ローカル畳み込みカーネルを取得し；及び
処理後の前記特徴に対して第二畳み込み層を使用し、また、ｓｉｇｍｏｉｄ関数により前記重み係数を取得する
ために用いられる、補間装置。
請求項４に記載の補間装置であって、
前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得し、
前記推定ユニットは、さらに、第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得するために用いられる、補間装置。
請求項１に記載の補間装置であって、
前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行うことで少なくとも２つの変換フレームを生成し、
前記補間装置は、前記少なくとも２つの変換フレームの間の差を計算し、また、前記少なくとも２つの変換フレームの平均値を計算する計算ユニットをさらに含む、補間装置。
請求項６に記載の補間装置であって、
前記合成ユニットは、さらに、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とするために用いられる、補間装置。
請求項１に記載の補間装置であって、
前記フレーム合成では、残差構造が用いられる、また、前記残差構造の後に、可変形畳み込みネットワークが用いられる、補間装置。
請求項１に記載の補間装置であって、
前記推定ユニットは、さらに、計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて前記カーネル及び重みの推定を行うために用いられる、補間装置。
ビデオフレームの補間方法であって、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し；
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、ここで、１つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、もう１つの畳み込み層を用いて重み係数を生成し；
前記双方向オプティカルフロー、前記重み係数及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し；及び
前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む、補間方法。