JP2021184594A - ビデオフレームの補間装置及び方法 - Google Patents

ビデオフレームの補間装置及び方法 Download PDF

Info

Publication number
JP2021184594A
JP2021184594A JP2021069650A JP2021069650A JP2021184594A JP 2021184594 A JP2021184594 A JP 2021184594A JP 2021069650 A JP2021069650 A JP 2021069650A JP 2021069650 A JP2021069650 A JP 2021069650A JP 2021184594 A JP2021184594 A JP 2021184594A
Authority
JP
Japan
Prior art keywords
frame
conversion
interpolation device
frames
kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021069650A
Other languages
English (en)
Inventor
思寒 温
Sihan Wen
静 周
Jing Zhou
タヌ・ジミン
Tan Zhiming
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2021184594A publication Critical patent/JP2021184594A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0102Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving the resampling of the incoming video signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • H04N7/0137Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes dependent on presence/absence of motion, e.g. of motion zones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Television Systems (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本発明は、ビデオフレームの補間装置及び方法を提供する。【解決手段】係る方法は、第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、ここで、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、もう1つの畳み込み層を用いて重み係数を生成し;前記双方向オプティカルフロー、前記重み係数及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;及び、前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む。【選択図】図1

Description

本発明は、ビデオ処理技術分野に関する。
ビデオフレームの補間がコンピュータビジョンにおいてビデオ処理の主な問題の1つであり、連続したフレームにおける補間フレーム(中間フレームとも言う)を合成することができる。ビデオフレームの補間は、多くのアプリケーション、例えば、ビデオ圧縮、スローモーション生成、フレームレート(frame rate)アップコンバージョン(up−conversion)などに適用することができる。
ビデオフレームの補間では、入力フレームにおいて各ピクセル値を推定するための参照位置を見つけ、その後、参照ピクセル値により、出力される補間フレームのピクセル値を得ることができる。深層学習に基づくビデオフレームの補間は、カーネル(kernel)推定方法が含まれても良く、カーネルが各ピクセルのために適応的に推定され、補間フレームが畳み込み操作により合成され得る。また、フロー推定方法がさらに含まれても良く、各出力ピクセルについて、参照位置に指向するフローベクトルが推定され得る。
今のところ、深層畳み込みニューラルネットワークの発達に伴い、この分野での多くの方法がかなり進歩している。例えば、双方向オプティカルフローを計算し、適応的変換層(adaptive warping layer)に基づいて変換フレーム(ワープフレーム(warped frame)とも言う)を生成し、それから、フレーム合成を行って補間フレームを取得することが提案された参考文献がある。
しかしながら、発明者が次のようなことを発見した。即ち、比較的大きな動き及びブロッキングなどの問題が原因で、オプティカルフローの正確性を依然として保証し難く、高品質の補間フレームを生成することは依然として困難である。
上述の問題の少なくとも1つに鑑み、本発明の実施例は、ピーク信号対雑音比(PSNR、Peak Signal−to−Noise Ratio)をさらに向上させ、高品質の補間フレームを生成し得るビデオフレームの補間装置及び方法を提供する。
本発明の実施例の一側面によれば、ビデオフレームの補間装置が提供され、それは、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算するためのオプティカルフロー計算ユニット;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行うための推定ユニットであって、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成する、もの;
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで、変換フレームを生成するための変換ユニット;及び
前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成するための合成ユニットを含む。
本発明の実施例のもう1つの側面によれば、ビデオフレームの補間方法が提供され、それは、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで、変換フレームを生成し;及び
前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む。
本発明の実施例の有利な効果の少なくとも1つは、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し、これにより、隣接ピクセルからの情報を十分に利用し、PSNRをさらに向上させ、高品質の補間フレームを生成し得ることにある。
本発明の実施例におけるビデオフレームの補間方法を示す図である。 本発明の実施例におけるカーネル及び重みの推定の例示図である。 本発明の実施例におけるビデオフレームの補間方法を示すもう1つの図である。 本発明の実施例におけるビデオフレームの補間を示すブロック図である。 本発明の実施例におけるフレーム合成のためのネットワーク構成を示す図である。 本発明の実施例におけるビデオフレームの補間装置を示す図である。 本発明の実施例における電子機器を示す図である。
以下、添付した図面を参照しながら、本発明を実施するための好ましい実施例について詳細に説明する。
<第一側面の実施例>
本発明の実施例ではビデオフレームの補間方法が提供される。図1は本発明の実施例におけるビデオフレームの補間方法を示す図である。図1に示すように、該方法は以下のステップを含む。
101:第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
102:第一フレーム及び第二フレームに基づいてカーネル(kernel)及び重み(weight)推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
103:双方向オプティカルフロー、重み係数、及び適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて第一フレーム及び第二フレームに対して変換を行うことで、変換フレームを生成し;
104:第一フレーム、第二フレーム、及び変換フレームに対してフレーム合成を行い、第一フレームと第二フレームとの間の補間フレームを生成する。
なお、上述の図1は本発明の実施例を例示的に説明したが、本発明はこれに限定されない。例えば、各ステップ間の実行順序を適切に調整したり、幾つかの操作を増減したりすることもできる。即ち、当業者は、上述の図1の記載に基づいて、上述の内容に対して適切に変更することができる。
本発明の実施例では、補間フレームをフレームt、第一フレーム及び第二フレームをそれぞれフレームt−1及びフレームt+1と表すことができる。PWC−Netを用いて2つの入力フレーム(フレームt−1及びフレームt+1)の間の双方向オプティカルフローFt−1→t+1及びFt+1→t−1を推定することができる。PWC−Netは、マルチスケール特徴のピラミッドモデルを用いているから、標準のベンチマークテストにおいて優れたパフォーマンスを発揮することができ、且つ計算も非常に効率的である。但し、本発明はこれに限定されず、他の方法を採用して双方向オプティカルフローを計算することもできるが、具体的にどのように計算するかについては関連技術を参照することができる。
本発明の実施例では、U−Netアーキテクチャを用いて、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行うことができる。ここで、カーネル(kernel)とは、例えば、画像中の各ピクセルに割り当てられる適応的ローカル畳み込みカーネルを指し、重み(weight)は、例えば、ピクセルから参照画像中の参照位置までの距離を表す。なお、U−Netアーキテクチャの具体的な内容については関連技術を参照することができる。
幾つかの実施例において、第一フレーム及び第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行うことで、異なる次元の特徴を取得し;取得した最高(最も高い)次元の特徴に対して複数回のアップサンプリングを行うことで、処理後の特徴を取得し;処理後の特徴に対して第一畳み込み層を適用し、また、正規化線形ユニット(relu,rectified linear unit)関数により適応的ローカル畳み込みカーネルを取得し;及び、処理後の特徴に対して第二畳み込み層を適用し、また、sigmoid関数により重み係数を取得することができる。なお、畳み込み操作、畳み込み層、relu関数及びsigmoid関数については関連技術を参照することができ、ここではその具体的な内容の記載を省略する。
図2は、本発明の実施例におけるカーネル及び重みの推定の例示図である。図2に示すように、第一フレーム及び第二フレームを入力として特徴抽出を行い、また、複数回のダウンサンプリングを行うことで、異なる次元のダウンサンプリング特徴を(例えば、図2の左側の201〜206などに示されるように)取得することができる。例えば、異なる次元は、16×3×3、32×3×3/2、64×3×3/2、128×3×3/2、256×3×3/2、512×3×3/2、512×3×3などを含む。
図2に示すように、取得した最高次元の特徴(例えば、207に示される「Conv 512×3×3,relu」により表される)に対して複数回のアップサンプリングを(例えば、図2の右側の208〜212などに示されるように)行うことで、処理後の特徴(例えば、212に示される「Conv 16×3×3/2,relu」により表される)を取得することができる。
図2に示すように、処理後の特徴(例えば、212に示される「Conv 16×3×3/2,relu」により表される)に対して第一畳み込み層を適用し、また、relu関数(例えば、213に示される「Conv 16×3×3,relu」により表される)を用いることで、適応的ローカル畳み込みカーネルを取得し;及び、処理後の特徴(例えば、212に示される「Conv 16×3×3/2,relu」により表される)に対して第二畳み込み層を適用し、また、sigmoid関数(例えば、214に示される「Conv 2×3×3,sigmoid」により表される)を用いることで、重み係数を取得することができる。
よって、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成することができる。これにより、隣接ピクセルからの情報を十分に利用し、PSNRをさらに向上させ、高品質の補間フレームを生成することができる。
幾つかの実施例において、複数回のダウンサンプリングにより、異なる次元のダウンサンプリング特徴を取得し、複数回のアップサンプリングにより、異なる次元のアップサンプリング特徴を取得することができる。第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得することができる。
例えば、図2に示すように、256×3×3/2のダウンサンプリング特徴(例えば、205に示される「Conv 256×3×3/2,relu」により表される)と、同じ次元のアップサンプリング特徴(例えば、208に示される「Conv 256×3×3/2,relu」により表される)との和を求めて1つの畳み込み層の入力とすることで、128×3×3/2のアップサンプリング特徴(例えば、209に示される「Conv 128×3×3/2,relu」により表される)を取得することができる。
図2に示すように、128×3×3/2のダウンサンプリング特徴(例えば、204に示される「Conv 128×3×3/2,relu」により表される)と、同じ次元のアップサンプリング特徴(例えば、209に示される「Conv 128×3×3/2,relu」により表される)との和を求めてもう1つの畳み込み層の入力とすることで、64×3×3/2のアップサンプリング特徴(例えば、210に示される「Conv 64×3×3/2,relu」により表される)を取得することができる。
図2に示すように、64×3×3/2のダウンサンプリング特徴(例えば、203に示される「Conv 64×3×3/2,relu」により表される)と、同じ次元のアップサンプリング特徴(例えば、210に示される「Conv 64×3×3/2,relu」により表される)との和を求めてもう1つの畳み込み層の入力とすることで、32×3×3/2のアップサンプリング特徴(例えば、211に示される「Conv 32×3×3/2,relu」により表される)を取得することができる。
図2に示すように、32×3×3/2のダウンサンプリング特徴(例えば、202に示される「Conv 32×3×3/2,relu」により表される)と、同じ次元のアップサンプリング特徴(例えば、211に示される「Conv 32×3×3/2,relu」により表される)との和を求めてまたもう1つの畳み込み層の入力とすることで、16×3×3/2のアップサンプリング特徴(例えば、212に示される「Conv 16×3×3/2,relu」により表される)を取得することができる。
これにより、本発明の実施例では、同じ次元の特徴の和を求めることであり、ダウンサンプリング特徴をアップサンプリング特徴に連結(concat)することではない。このようにして、1つ前の層からの情報を保留することができ、画像品質の向上に有利であり、また、ネットワークパラメータをさらに減少させることができる。
幾つかの実施例において、計算した双方向オプティカルフロー、第一フレーム及び第二フレームに基づいて前記カーネル及び重みの推定をさらに行っても良い。双方向オプティカルフローをもカーネル及び重みの推定の入力とすることにより、カーネル及び重みの推定の結果をより正確にすることができる。
図3は、本発明の実施例におけるビデオフレームの補間方法を示す他の図である。図3に示すように、該方法は以下のステップを含む。
301:第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
302:双方向オプティカルフロー、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成する。
幾つかの実施例において、双方向オプティカルフロー、第一フレーム及び第二フレームを図2の入力とすることができる。
図3に示すように、該方法はさらに以下のステップを含む。
303:重み係数に基づいて双方向オプティカルフローに対して加重を行う。
幾つかの実施例において、カーネル及び重みの推定を行った後に、重み係数に基づいて双方向オプティカルフローに対して加重を行うことができる。例えば、従来の方法では、以下の方式により中間フローを取得する。
Flowt−1→t=Flowt−1→t+1×0.5
しかし、対象の移動が常に線形的なものではなく、上述の従来の方法により画像の品質をさらに向上させることができない。
本発明の実施例では、1つの畳み込み層の後ろに1つのsigmoid関数が続くというような方式により、重み係数を自動的に生成し、また、この重み係数は0〜1に限定される。これは、参照画像とオプティカルフローとの間に重要な指標を提供することができる。例えば、本発明の実施例では、以下の方式により中間フローを得ることができる。
Flowt−1→t=Flowt−1→t+1×weight
そのうち、weightは上述の重み係数である。これにより、対象の非線形移動を表すことができるため、画像の品質をさらに向上させることができる。
図3に示すように、該方法はさらに以下のステップを含む。
304:加重後の双方向オプティカルフロー及び適応的ローカル畳み込みカーネルに基づいて、適応的変換層により第一フレーム及び第二フレームに対して変換を行うことで、少なくとも2つの変換フレームを生成する。
幾つかの実施例において、適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセル(例えば、4×4個のピクセルであるが、これに限定されない)に割り当て、また、適応的変換層は、隣接する前記複数のピクセルに基づいてカレントピクセルの値を生成する。
これにより、カーネル及び重みの推定から取得した異なる重みによって、オプティカルフローと参照画像との間の距離をより良く表すことができ、周囲の情報をより効率的に用いて変換フレームを得ることができるため、画像の品質をさらに向上させることができる。
幾つかの実施例において、加重後の双方向オプティカルフロー及び適応的ローカル畳み込みカーネルに基づいて、適応的変換(warp)層を用いて第一フレーム及び第二フレームに対して変換を行うことができる。なお、適応的変換層の具体的な内容については関連技術を参照することができる。
図3に示すように、該方法はさらに以下のステップを含む。
305:前記少なくとも2つの変換フレームの間の差及び平均値を計算し;
306:第一フレーム及び第二フレーム、並びに少なくとも2つの変換フレームの差及び平均値に対してフレーム合成を行い、第一フレームと第二フレームとの間の補間フレームを生成する。
幾つかの実施例において、適応的変換層は、第一フレーム及び第二フレームに対して変換を行うことで、少なくとも2つの変換フレームを生成することができ、例えば、It1及びIt2と表すことができる。前記少なくとも2つの変換フレームの間の差を計算し、且つ前記少なくとも2つの変換フレームの平均値を計算し;及び、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とすることができる。
これにより、これらの情報によって、より多くの細部を得ることで、出力される画像フレームをよりクリアにすることができる。実験結果によれば、シングル(単一)変換フレームを使用することに比較して、少なくとも2つの変換フレームの差及び平均値を使用することで、より多くの情報を提供することができるため、より良い画像品質を取得することができる。
図4は、本発明の実施例におけるビデオフレームの補間を示すブロック図であり、フレームt−1(401に示されるように)及びフレームt+1(402に示されるように)に基づいて取得された補間フレームt(413に示されるように)を例にとって説明を行う。
図4に示すように、フレームt−1及びフレームt+1の間の双方向オプティカルフローを、403に示すように計算することができ;その後、フレームt−1及びフレームt+1、並びに双方向オプティカルフロー(404に示されるように)に基づいてカーネル(kernel)及び重み(weight)推定を、405に示すように行うことができ;そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成する。
図4に示すように、双方向オプティカルフロー(404に示されるように)、重み係数(406に示されるように)、及び適応的ローカル畳み込みカーネル(407に示されるように)に基づいて、適応的変換層(408に示されるように)を用いてフレームt−1及びフレームt+1に対して変換を行うことで、少なくとも2つの変換フレーム(409に示されるように)を生成することができる。
図4に示すように、前記少なくとも2つの変換フレームの間の差(410に示されるように)及び平均値(411に示されるように)を計算することができ;フレームt−1及びフレームt+1、並びに前記差及び前記平均値に基づいてフレーム合成を、412に示すように行うことで、フレームt−1とフレームt+1の間の補間フレームt(413に示されるように)を生成することができる。
なお、上述の図3及び図4は本発明の実施例を例示的に説明したが、本発明はこれに限られない。例えば、各ステップ間の実行順序を適切に調整したり、幾つかの操作を増減したりすることもできる。即ち、当業者は、上述の図3及び図4の記載に基づいて、上述の内容に対して適切に変更することができる。
幾つかの実施例において、フレーム合成では、残差(Residual)構造を使用することができ、及び、前記残差構造の後に、可変形畳み込みネットワーク(DCN、Deformable Convolutional Network)を使用することができる。
図5は、本発明の実施例におけるフレーム合成のためのネットワーク構成を示す図である。例えば、図5の左側に示すように、入力に対して畳み込み操作(501の「Conv 64×7×7,relu」に示されるように)を行い、その後、残差ブロック(residual block)操作を、502に示すように行うことができる。各残差ブロックの後に、可変形畳み込みネットワークv2(DCNv2)をフレーム合成ネットワークに503に示すように嵌入することができる。また、504に示すように、Conv 3×3×3操作をさらに含んでも良い。
図5の右側に示すように、残差ブロックは残差ネットワークの構造を有しても良く、例えば、5021に示すように、Conv 64×7×7操作を含み、また、5022に示すように、relu操作をさらに含む。なお、図5における残差ブロック及びDCNv2の具体的な内容については関連技術を参照することができる。
これにより、フレーム合成のネットワーク構造にDCNv2を用いることで、フレーム合成は、周囲の関連情報をより良く選択することができ、ブロッキングされているピクセル又は誤って補間されたピクセルに対して補償を行うことができるため、画像の品質をさらに向上させることができる。
以上、本発明に係る各ステップ又はプロセスにのみついて説明したが、本発明はこれに限定されない。ビデオフレームの補間方法はさらに、他のステップ又はプロセスを含んでも良く、これらのステップ又はプロセスの具体的な内容については従来技術を参照することができる。また、以上、深層学習の幾つかのネットワーク構造のみを例として本発明の実施例について提示的に説明したが、本発明はこれらの構造に限られず、これらの構造に対して適切な変形を行うことができる。なお、これらの変形例も本発明の実施例の範囲内に属する。
また、上述の各実施例を用いて本発明の実施例について例示的に説明したが、本発明はこれに限定されず、さらに上述の各実施例をもとに適切な変形を行うこともできる。例えば、上述の各実施例を単独で使用することができ、上述の各実施例のうちの1つ又は複数を組み合わせて使用することもできる。
上述の実施例から分かるように、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成することにより、隣接ピクセルからの情報を十分に利用し、PSNRをさらに向上させ、高品質の補間フレームを生成することができる。
<第二側面の実施例>
本発明の実施例では、ビデオフレームの補間装置が提供され、また、第一側面の実施例と同じである内容の説明が省略される。
図6は、本発明の実施例におけるビデオフレームの補間装置を示す図である。図6に示すように、ビデオフレームの補間装置600は以下のものを含む。
オプティカルフロー計算ユニット601:第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
推定ユニット602:前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
変換ユニット603:前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;
合成ユニット604:前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する。
幾つかの実施例において、図6に示すように、ビデオフレームの補間装置600はさらに以下のものを含む。
加重ユニット605:前記重み係数に基づいて前記双方向オプティカルフローに対して行加重を行う。
幾つかの実施例において、前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセル周囲の隣接する複数のピクセルに割り当て、また、前記適応的変換層は、隣接する前記複数のピクセルに基づいてカレントピクセルの値を生成することができる。
幾つかの実施例において、推定ユニット602は、前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し;取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し;前記処理後の特徴に対して第一畳み込み層を適用し、また、relu関数により前記適応的ローカル畳み込みカーネルを取得し;及び、前記処理後の特徴に対して第二畳み込み層を適用し、また、sigmoid関数により前記重み係数を取得するために用いられる。
幾つかの実施例において、複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得することができる。推定ユニット602はさらに、第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得するために用いられる。
幾つかの実施例において、前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行うことで、少なくとも2つの変換フレームを生成する。
幾つかの実施例において、図6に示すように、ビデオフレームの補間装置600はさらに以下のものを含む。
計算ユニット606:前記少なくとも2つの変換フレームの間の差を計算し、また、前記少なくとも2つの変換フレームの平均値を計算する。
幾つかの実施例において、合成ユニット604はさらに、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とするために用いられる。
幾つかの実施例において、前記フレーム合成では、残差構造が使用され、及び、前記残差構造の後に、可変形畳み込みネットワークが使用される。
幾つかの実施例において、推定ユニット602はさらに、計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて、前記カーネル及び重みの推定を行うために用いられる。
なお、便宜のため、図6では、各部品又はモジュール間の接続関係又は信号方向のみが示されているが、当業者が理解すべきは、バス接続などの各種の関連技術を採用することもできるということである。また、これらの各部品又はモジュールは、例えば、処理器、記憶器などのハードウェアにより実現されても良いが、本発明の実施例はこれについて限定しない。
上述の各実施例を用いて本発明の実施例を例示的に説明したが、本発明はこれに限定されず、上述の各実施例をもとに適切な変形を行っても良い。例えば、上述の各実施例を単独で使用しても良く、上述の各実施例のうちの1つ又は複数を組み合わせて使用しても良い。
上述の実施例から分かるように、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成することにより、隣接ピクセルからの情報を十分に利用し、PSNRをさらに向上させ、高品質の補間フレームを生成することができる。
<第三側面の実施例>
本発明の実施例では電子機器が提供され、それは第二側面の実施例に記載のビデオフレームの補間装置を含む。なお、第二側面の実施例に記載の内容がここに合併される。該電子機器は、例えば、コンピュータ、サーバー、ワークステーション、デスクトップコンピュータ、スマートフォンなどであっても良いが、本発明の実施例はこれに限定されない。
図7は、本発明の実施例における電子機器を示す図である。図7に示すように、電子機器700は処理器(例えば、中央処理器CPU)710及び記憶器720を含んでも良く、記憶器720は中央処理器710に接続される。そのうち、該記憶器720は各種のデータを記憶することができ、また、情報処理用のプログラム721をさらに含むことができ、且つ処理器710の制御下で該プログラム721を実行することができる。
幾つかの実施例において、ビデオフレームの補間装置600の機能が処理器710に集積される。そのうち、処理器710は、第一側面の実施例に記載のビデオフレームの補間方法を実現するように構成される。
幾つかの実施例において、ビデオフレームの補間装置600が処理器710と別々で配置され、例えば、ビデオフレームの補間装置600を、処理器710に接続されるチップとして構成し、処理器710の制御によりビデオフレームの補間装置600の機能を実現することができる。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;及び、前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行う。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記適応的ローカル畳み込みカーネルは、異なる重みをカレントピクセルの周囲の隣接する複数のピクセルに割り当て、また、前記適応的変換層は、前記隣接する複数のピクセルに基づいて前記カレントピクセルの値を生成する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し;取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し;前記処理後の特徴に対して第一畳み込み層を使用し、また、relu関数により前記適応的ローカル畳み込みカーネルを取得し;及び、前記処理後の特徴に対して第二畳み込み層を使用し、また、sigmoid関数により前記重み係数を取得する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得し;及び、第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行い、少なくとも2つの変換フレームを生成する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記少なくとも2つの変換フレームの間の差を計算し、また、前記少なくとも2つの変換フレームの平均値を計算し;及び、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とする。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記フレーム合成では、残差(Residual)構造を使用し、及び、前記残差構造の後に、可変形畳み込みネットワーク(DCN、Deformable Convolutional Network)を使用する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、計算された前記双方向オプティカルフロー、前記第一フレーム、及び前記第二フレームに基づいて前記カーネル及び重みの推定を行う。
また、図7に示すように、電子機器700はさらに、入出力(I/O)装置730、表示器740などを含む。そのうち、これらの部品の機能が従来技術と類似したので、ここではその詳しい説明を省略する。なお、電子機器700は図7に示されるすべての部品を含む必要がない。また、電子機器700はさらに、図7に無い部品を含んでも良く、これについては関連技術を参照することができる。
本発明の実施例ではさらにコンピュータ可読プログラムが提供され、そのうち、電子機器中で前記プログラムを実行するときに、前記プログラムはコンピュータに、前記電子機器中で第一側面の実施例に記載のビデオフレームの補間方法を実行させる。
本発明の実施例ではさらにコンピュータ可読プログラムを記憶した記憶媒体が提供され、そのうち、前記コンピュータ可読プログラムはコンピュータに、電子機器中で第一側面の実施例に記載のビデオフレームの補間方法を実行させる。
また、本発明の実施例において説明した前記方法、装置などは、ハードウェア、処理器により実行されるソフトウェアモジュール、又は両者の組み合わせにより実現することができる。例えば、機能ブロック図における1つ又は複数の機能及び/又は機能ブロック図における1つ又は複数の機能の組み合わせは、コンピュータプログラムにおける各ソフトウェアモジュールに対応しても良く、各ハードウェアモジュールに対応しても良い。また、これらのソフトウェアモジュールは、それぞれ、方法を示す図に示す各ステップに対応することができる。これらのハードウェアモジュールは、例えば、FPGA(field−programmable gate array)を用いてこれらのソフトウェアモジュールを固化して実現することができる。
また、本発明の実施例による装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行されるときに、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。
また、以上の実施例などに関し、さらに以下の付記を開示する。
(付記1)
ビデオフレームの補間方法であって、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;及び
前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む、方法。
(付記2)
付記1に記載の方法であって、さらに、
前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行うことを含む、方法。
(付記3)
付記1又は2に記載の方法であって、
前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセルに割り当て、前記適応的変換層は、隣接する前記複数のピクセルに基づいて前記カレントピクセルの値を生成する、方法。
(付記4)
付記1乃至3のうちの何れか一項に記載の方法であって、
前記カーネル及び重みの推定では、
前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し;
取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し;
前記処理後の特徴に対して第一畳み込み層を使用し、また、relu関数により前記適応的ローカル畳み込みカーネルを取得し;及び
前記処理後の特徴に対して第二畳み込み層を使用し、また、sigmoid関数により前記重み係数を取得する、方法。
(付記5)
付記4に記載の方法であって、
前記カーネル及び重みの推定では、前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得する、方法。
(付記6)
付記5に記載の方法であって、さらに、
第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得することを含む、方法。
(付記7)
付記1至6のうちの何れか一項に記載の方法であって、
前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行い、少なくとも2つの変換フレームを生成する、方法。
(付記8)
付記7に記載の方法であって、さらに、
前記少なくとも2つの変換フレームの間の差を計算し、また、前記少なくとも2つの変換フレームの平均値を計算する、方法。
(付記9)
付記8に記載の方法であって、さらに、
前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とすることを含む、方法。
(付記10)
付記1乃至9のうちの何れか一項に記載の方法であって、
前記フレーム合成では、残差(Residual)構造が用いられ、また、前記残差構造の後に、可変形畳み込みネットワーク(DCN、Deformable Convolutional Network)が用いられる、方法。
(付記11)
付記1乃至10のうちの何れか一項に記載の方法であって、さらに、
計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて、前記カーネル及び重みの推定を行うことを含む、方法。
(付記12)
電子機器であって、
記憶器及び処理器を含み、
前記記憶器は、コンピュータプログラムを記憶し、前記処理器は、前記コンピュータプログラムを実行して付記1乃至11のうちの何れか一項に記載のビデオフレームの補間方法を実現するように構成される、電子機器。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims (10)

  1. ビデオフレームの補間装置であって、
    第一フレームと第二フレームとの間の双方向オプティカルフローを計算するオプティカルフロー計算ユニット;
    前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行う推定ユニットであって、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、もう1つの畳み込み層を用いて重み係数を生成する、推定ユニット;
    前記双方向オプティカルフロー、前記重み係数及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成する変換ユニット;及び
    前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する合成ユニットを含む、補間装置。
  2. 請求項1に記載の補間装置であって、
    前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行う加重ユニットをさらに含む、補間装置。
  3. 請求項1に記載の補間装置であって、
    前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセルに割り当て、前記適応的変換層は、隣接する前記複数のピクセルに基づいて前記カレントピクセルの値を生成する、補間装置。
  4. 請求項1に記載の補間装置であって、
    前記推定ユニットは、
    前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行うことで、異なる次元の特徴を取得し;
    取得された最高次元の特徴に対して複数回のアップサンプリングを行うことで、処理後の特徴を取得し;
    処理後の前記特徴に対して第一畳み込み層を使用し、また、relu関数により前記適応的ローカル畳み込みカーネルを取得し;及び
    処理後の前記特徴に対して第二畳み込み層を使用し、また、sigmoid関数により前記重み係数を取得する
    ために用いられる、補間装置。
  5. 請求項4に記載の補間装置であって、
    前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得し、
    前記推定ユニットは、さらに、第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得するために用いられる、補間装置。
  6. 請求項1に記載の補間装置であって、
    前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行うことで少なくとも2つの変換フレームを生成し、
    前記補間装置は、前記少なくとも2つの変換フレームの間の差を計算し、また、前記少なくとも2つの変換フレームの平均値を計算する計算ユニットをさらに含む、補間装置。
  7. 請求項6に記載の補間装置であって、
    前記合成ユニットは、さらに、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とするために用いられる、補間装置。
  8. 請求項1に記載の補間装置であって、
    前記フレーム合成では、残差構造が用いられる、また、前記残差構造の後に、可変形畳み込みネットワークが用いられる、補間装置。
  9. 請求項1に記載の補間装置であって、
    前記推定ユニットは、さらに、計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて前記カーネル及び重みの推定を行うために用いられる、補間装置。
  10. ビデオフレームの補間方法であって、
    第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
    前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、ここで、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、もう1つの畳み込み層を用いて重み係数を生成し;
    前記双方向オプティカルフロー、前記重み係数及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;及び
    前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む、補間方法。
JP2021069650A 2020-05-20 2021-04-16 ビデオフレームの補間装置及び方法 Pending JP2021184594A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010431003.6A CN113727141B (zh) 2020-05-20 2020-05-20 视频帧的插值装置以及方法
CN202010431003.6 2020-05-20

Publications (1)

Publication Number Publication Date
JP2021184594A true JP2021184594A (ja) 2021-12-02

Family

ID=78608591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021069650A Pending JP2021184594A (ja) 2020-05-20 2021-04-16 ビデオフレームの補間装置及び方法

Country Status (3)

Country Link
US (1) US11375152B2 (ja)
JP (1) JP2021184594A (ja)
CN (1) CN113727141B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024101891A1 (ko) * 2022-11-08 2024-05-16 삼성전자 주식회사 전자 장치 및 전자 장치의 이미지 처리 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12003885B2 (en) * 2021-06-14 2024-06-04 Microsoft Technology Licensing, Llc Video frame interpolation via feature pyramid flows
CN116684662A (zh) * 2022-02-22 2023-09-01 北京字跳网络技术有限公司 视频处理方法、装置、设备及介质
CN114640885B (zh) * 2022-02-24 2023-12-22 影石创新科技股份有限公司 视频插帧方法、训练方法、装置和电子设备

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101001754B1 (ko) * 2008-08-06 2010-12-15 (주)메디슨 초음파 시스템에서 초음파 영상의 프레임 보간 방법 및장치
US9183618B2 (en) * 2012-05-09 2015-11-10 Nokia Technologies Oy Method, apparatus and computer program product for alignment of frames
CN105517671B (zh) * 2015-05-25 2020-08-14 北京大学深圳研究生院 一种基于光流法的视频插帧方法及系统
KR102474168B1 (ko) * 2017-03-17 2022-12-06 포틀랜드 스테이트 유니버시티 적응형 컨볼루션 및 적응형 분리형 컨볼루션을 통한 프레임 인터폴레이션
WO2019000396A1 (zh) * 2017-06-30 2019-01-03 深圳市大疆创新科技有限公司 光流跟踪装置和方法
CN107613299A (zh) * 2017-09-29 2018-01-19 杭州电子科技大学 一种利用生成网络提高帧速率上转换效果的方法
DE102018127265A1 (de) * 2017-11-06 2019-05-09 Nvidia Corporation Multi-einzelbild-videointerpolation mit optischem fluss
US10776688B2 (en) 2017-11-06 2020-09-15 Nvidia Corporation Multi-frame video interpolation using optical flow
CN108322685B (zh) * 2018-01-12 2020-09-25 广州华多网络科技有限公司 视频插帧方法、存储介质以及终端
WO2019168765A1 (en) * 2018-02-27 2019-09-06 Portland State University Context-aware synthesis for video frame interpolation
CN110392282B (zh) * 2018-04-18 2022-01-07 阿里巴巴(中国)有限公司 一种视频插帧的方法、计算机存储介质及服务器
CN108900848B (zh) * 2018-06-12 2021-03-02 福建帝视信息科技有限公司 一种基于自适应可分离卷积的视频质量增强方法
CN109756690B (zh) * 2018-12-21 2020-11-20 西北工业大学 基于特征级别光流的轻量级视频插值方法
US20220092795A1 (en) * 2019-01-15 2022-03-24 Portland State University Feature pyramid warping for video frame interpolation
CN109905624B (zh) 2019-03-01 2020-10-16 北京大学深圳研究生院 一种视频帧插值方法、装置及设备
CN109862208B (zh) * 2019-03-19 2021-07-02 深圳市商汤科技有限公司 视频处理方法、装置、计算机存储介质以及终端设备
CN112015170A (zh) * 2019-05-29 2020-12-01 北京市商汤科技开发有限公司 运动物体检测及智能驾驶控制方法、装置、介质及设备
CN110351511A (zh) * 2019-06-28 2019-10-18 上海交通大学 基于场景深度估计的视频帧率上变换系统及方法
CN110809126A (zh) * 2019-10-28 2020-02-18 北京影谱科技股份有限公司 一种基于自适应可变形卷积的视频帧插值方法及系统
CN110798630B (zh) * 2019-10-30 2020-12-29 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
US10958869B1 (en) * 2019-11-14 2021-03-23 Huawei Technologies Co., Ltd. System, device and method for video frame interpolation using a structured neural network
US11514573B2 (en) * 2019-11-27 2022-11-29 Shanghai United Imaging Intelligence Co., Ltd. Estimating object thickness with neural networks
CN110969577B (zh) * 2019-11-29 2022-03-11 北京交通大学 一种基于深度双重注意力网络的视频超分辨率重建方法
US11928753B2 (en) * 2020-01-27 2024-03-12 Intel Corporation High fidelity interactive segmentation for video data with deep convolutional tessellations and context aware skip connections
US20220067886A1 (en) * 2020-09-01 2022-03-03 Vingroup Joint Stock Company Face-aware offset calculation module and method for facial frame interpolation and enhancement and a face video deblurring system and method using the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024101891A1 (ko) * 2022-11-08 2024-05-16 삼성전자 주식회사 전자 장치 및 전자 장치의 이미지 처리 방법

Also Published As

Publication number Publication date
US20210368131A1 (en) 2021-11-25
US11375152B2 (en) 2022-06-28
CN113727141B (zh) 2023-05-12
CN113727141A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
JP2021184594A (ja) ビデオフレームの補間装置及び方法
JP7169094B2 (ja) 画像処理システム及び医用情報処理システム
US8768069B2 (en) Image enhancement apparatus and method
Takeda et al. Super-resolution without explicit subpixel motion estimation
US8958484B2 (en) Enhanced image and video super-resolution processing
CN102194216B (zh) 图像处理设备和图像处理方法
JP4968259B2 (ja) 画像高解像度化装置及び画像高解像度化方法並びにプログラム
JP2011237997A (ja) 画像処理装置、および画像処理方法、並びにプログラム
KR101987079B1 (ko) 머신러닝 기반의 동적 파라미터에 의한 업스케일된 동영상의 노이즈 제거방법
US9462220B2 (en) Auto-regressive edge-directed interpolation with backward projection constraint
JP2013021635A (ja) 画像処理装置、画像処理方法、プログラム、及び記録媒体
KR100860968B1 (ko) 해상도 향상 장치 및 방법
Mahajan et al. Adaptive and non-adaptive image interpolation techniques
JP2011237998A (ja) 画像処理装置、および画像処理方法、並びにプログラム
WO2018225133A1 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
Karam et al. An efficient selective perceptual-based super-resolution estimator
Jeong et al. Multi-frame example-based super-resolution using locally directional self-similarity
Makwana et al. Single image super-resolution via iterative back projection based Canny edge detection and a Gabor filter prior
WO2011018878A1 (ja) 画像処理システム、画像処理方法および画像処理用プログラム
Barzigar et al. A video super-resolution framework using SCoBeP
Alvarez-Ramos et al. Image super-resolution via two coupled dictionaries and sparse representation
CN113421186A (zh) 使用生成对抗网络的非监督视频超分辨率的设备和方法
Li et al. Guided iterative back-projection scheme for single-image super-resolution
US8811774B1 (en) Super resolution using an interpretive scaler
Ghassab et al. Plug-and-play video super-resolution using edge-preserving filtering