JP2021184594A - ビデオフレームの補間装置及び方法 - Google Patents
ビデオフレームの補間装置及び方法 Download PDFInfo
- Publication number
- JP2021184594A JP2021184594A JP2021069650A JP2021069650A JP2021184594A JP 2021184594 A JP2021184594 A JP 2021184594A JP 2021069650 A JP2021069650 A JP 2021069650A JP 2021069650 A JP2021069650 A JP 2021069650A JP 2021184594 A JP2021184594 A JP 2021184594A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- conversion
- interpolation device
- frames
- kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000006243 chemical reaction Methods 0.000 claims abstract description 69
- 230000003044 adaptive effect Effects 0.000 claims abstract description 61
- 230000003287 optical effect Effects 0.000 claims abstract description 49
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 41
- 239000000203 mixture Substances 0.000 claims abstract description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0127—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234381—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440281—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0102—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving the resampling of the incoming video signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0135—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
- H04N7/0137—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes dependent on presence/absence of motion, e.g. of motion zones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Television Systems (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
【課題】本発明は、ビデオフレームの補間装置及び方法を提供する。【解決手段】係る方法は、第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、ここで、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、もう1つの畳み込み層を用いて重み係数を生成し;前記双方向オプティカルフロー、前記重み係数及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;及び、前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む。【選択図】図1
Description
本発明は、ビデオ処理技術分野に関する。
ビデオフレームの補間がコンピュータビジョンにおいてビデオ処理の主な問題の1つであり、連続したフレームにおける補間フレーム(中間フレームとも言う)を合成することができる。ビデオフレームの補間は、多くのアプリケーション、例えば、ビデオ圧縮、スローモーション生成、フレームレート(frame rate)アップコンバージョン(up−conversion)などに適用することができる。
ビデオフレームの補間では、入力フレームにおいて各ピクセル値を推定するための参照位置を見つけ、その後、参照ピクセル値により、出力される補間フレームのピクセル値を得ることができる。深層学習に基づくビデオフレームの補間は、カーネル(kernel)推定方法が含まれても良く、カーネルが各ピクセルのために適応的に推定され、補間フレームが畳み込み操作により合成され得る。また、フロー推定方法がさらに含まれても良く、各出力ピクセルについて、参照位置に指向するフローベクトルが推定され得る。
今のところ、深層畳み込みニューラルネットワークの発達に伴い、この分野での多くの方法がかなり進歩している。例えば、双方向オプティカルフローを計算し、適応的変換層(adaptive warping layer)に基づいて変換フレーム(ワープフレーム(warped frame)とも言う)を生成し、それから、フレーム合成を行って補間フレームを取得することが提案された参考文献がある。
しかしながら、発明者が次のようなことを発見した。即ち、比較的大きな動き及びブロッキングなどの問題が原因で、オプティカルフローの正確性を依然として保証し難く、高品質の補間フレームを生成することは依然として困難である。
上述の問題の少なくとも1つに鑑み、本発明の実施例は、ピーク信号対雑音比(PSNR、Peak Signal−to−Noise Ratio)をさらに向上させ、高品質の補間フレームを生成し得るビデオフレームの補間装置及び方法を提供する。
本発明の実施例の一側面によれば、ビデオフレームの補間装置が提供され、それは、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算するためのオプティカルフロー計算ユニット;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行うための推定ユニットであって、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成する、もの;
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで、変換フレームを生成するための変換ユニット;及び
前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成するための合成ユニットを含む。
第一フレームと第二フレームとの間の双方向オプティカルフローを計算するためのオプティカルフロー計算ユニット;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行うための推定ユニットであって、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成する、もの;
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで、変換フレームを生成するための変換ユニット;及び
前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成するための合成ユニットを含む。
本発明の実施例のもう1つの側面によれば、ビデオフレームの補間方法が提供され、それは、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで、変換フレームを生成し;及び
前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む。
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで、変換フレームを生成し;及び
前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む。
本発明の実施例の有利な効果の少なくとも1つは、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し、これにより、隣接ピクセルからの情報を十分に利用し、PSNRをさらに向上させ、高品質の補間フレームを生成し得ることにある。
以下、添付した図面を参照しながら、本発明を実施するための好ましい実施例について詳細に説明する。
<第一側面の実施例>
本発明の実施例ではビデオフレームの補間方法が提供される。図1は本発明の実施例におけるビデオフレームの補間方法を示す図である。図1に示すように、該方法は以下のステップを含む。
本発明の実施例ではビデオフレームの補間方法が提供される。図1は本発明の実施例におけるビデオフレームの補間方法を示す図である。図1に示すように、該方法は以下のステップを含む。
101:第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
102:第一フレーム及び第二フレームに基づいてカーネル(kernel)及び重み(weight)推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
103:双方向オプティカルフロー、重み係数、及び適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて第一フレーム及び第二フレームに対して変換を行うことで、変換フレームを生成し;
104:第一フレーム、第二フレーム、及び変換フレームに対してフレーム合成を行い、第一フレームと第二フレームとの間の補間フレームを生成する。
102:第一フレーム及び第二フレームに基づいてカーネル(kernel)及び重み(weight)推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
103:双方向オプティカルフロー、重み係数、及び適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて第一フレーム及び第二フレームに対して変換を行うことで、変換フレームを生成し;
104:第一フレーム、第二フレーム、及び変換フレームに対してフレーム合成を行い、第一フレームと第二フレームとの間の補間フレームを生成する。
なお、上述の図1は本発明の実施例を例示的に説明したが、本発明はこれに限定されない。例えば、各ステップ間の実行順序を適切に調整したり、幾つかの操作を増減したりすることもできる。即ち、当業者は、上述の図1の記載に基づいて、上述の内容に対して適切に変更することができる。
本発明の実施例では、補間フレームをフレームt、第一フレーム及び第二フレームをそれぞれフレームt−1及びフレームt+1と表すことができる。PWC−Netを用いて2つの入力フレーム(フレームt−1及びフレームt+1)の間の双方向オプティカルフローFt−1→t+1及びFt+1→t−1を推定することができる。PWC−Netは、マルチスケール特徴のピラミッドモデルを用いているから、標準のベンチマークテストにおいて優れたパフォーマンスを発揮することができ、且つ計算も非常に効率的である。但し、本発明はこれに限定されず、他の方法を採用して双方向オプティカルフローを計算することもできるが、具体的にどのように計算するかについては関連技術を参照することができる。
本発明の実施例では、U−Netアーキテクチャを用いて、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行うことができる。ここで、カーネル(kernel)とは、例えば、画像中の各ピクセルに割り当てられる適応的ローカル畳み込みカーネルを指し、重み(weight)は、例えば、ピクセルから参照画像中の参照位置までの距離を表す。なお、U−Netアーキテクチャの具体的な内容については関連技術を参照することができる。
幾つかの実施例において、第一フレーム及び第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行うことで、異なる次元の特徴を取得し;取得した最高(最も高い)次元の特徴に対して複数回のアップサンプリングを行うことで、処理後の特徴を取得し;処理後の特徴に対して第一畳み込み層を適用し、また、正規化線形ユニット(relu,rectified linear unit)関数により適応的ローカル畳み込みカーネルを取得し;及び、処理後の特徴に対して第二畳み込み層を適用し、また、sigmoid関数により重み係数を取得することができる。なお、畳み込み操作、畳み込み層、relu関数及びsigmoid関数については関連技術を参照することができ、ここではその具体的な内容の記載を省略する。
図2は、本発明の実施例におけるカーネル及び重みの推定の例示図である。図2に示すように、第一フレーム及び第二フレームを入力として特徴抽出を行い、また、複数回のダウンサンプリングを行うことで、異なる次元のダウンサンプリング特徴を(例えば、図2の左側の201〜206などに示されるように)取得することができる。例えば、異なる次元は、16×3×3、32×3×3/2、64×3×3/2、128×3×3/2、256×3×3/2、512×3×3/2、512×3×3などを含む。
図2に示すように、取得した最高次元の特徴(例えば、207に示される「Conv 512×3×3,relu」により表される)に対して複数回のアップサンプリングを(例えば、図2の右側の208〜212などに示されるように)行うことで、処理後の特徴(例えば、212に示される「Conv 16×3×3/2,relu」により表される)を取得することができる。
図2に示すように、処理後の特徴(例えば、212に示される「Conv 16×3×3/2,relu」により表される)に対して第一畳み込み層を適用し、また、relu関数(例えば、213に示される「Conv 16×3×3,relu」により表される)を用いることで、適応的ローカル畳み込みカーネルを取得し;及び、処理後の特徴(例えば、212に示される「Conv 16×3×3/2,relu」により表される)に対して第二畳み込み層を適用し、また、sigmoid関数(例えば、214に示される「Conv 2×3×3,sigmoid」により表される)を用いることで、重み係数を取得することができる。
よって、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成することができる。これにより、隣接ピクセルからの情報を十分に利用し、PSNRをさらに向上させ、高品質の補間フレームを生成することができる。
幾つかの実施例において、複数回のダウンサンプリングにより、異なる次元のダウンサンプリング特徴を取得し、複数回のアップサンプリングにより、異なる次元のアップサンプリング特徴を取得することができる。第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得することができる。
例えば、図2に示すように、256×3×3/2のダウンサンプリング特徴(例えば、205に示される「Conv 256×3×3/2,relu」により表される)と、同じ次元のアップサンプリング特徴(例えば、208に示される「Conv 256×3×3/2,relu」により表される)との和を求めて1つの畳み込み層の入力とすることで、128×3×3/2のアップサンプリング特徴(例えば、209に示される「Conv 128×3×3/2,relu」により表される)を取得することができる。
図2に示すように、128×3×3/2のダウンサンプリング特徴(例えば、204に示される「Conv 128×3×3/2,relu」により表される)と、同じ次元のアップサンプリング特徴(例えば、209に示される「Conv 128×3×3/2,relu」により表される)との和を求めてもう1つの畳み込み層の入力とすることで、64×3×3/2のアップサンプリング特徴(例えば、210に示される「Conv 64×3×3/2,relu」により表される)を取得することができる。
図2に示すように、64×3×3/2のダウンサンプリング特徴(例えば、203に示される「Conv 64×3×3/2,relu」により表される)と、同じ次元のアップサンプリング特徴(例えば、210に示される「Conv 64×3×3/2,relu」により表される)との和を求めてもう1つの畳み込み層の入力とすることで、32×3×3/2のアップサンプリング特徴(例えば、211に示される「Conv 32×3×3/2,relu」により表される)を取得することができる。
図2に示すように、32×3×3/2のダウンサンプリング特徴(例えば、202に示される「Conv 32×3×3/2,relu」により表される)と、同じ次元のアップサンプリング特徴(例えば、211に示される「Conv 32×3×3/2,relu」により表される)との和を求めてまたもう1つの畳み込み層の入力とすることで、16×3×3/2のアップサンプリング特徴(例えば、212に示される「Conv 16×3×3/2,relu」により表される)を取得することができる。
これにより、本発明の実施例では、同じ次元の特徴の和を求めることであり、ダウンサンプリング特徴をアップサンプリング特徴に連結(concat)することではない。このようにして、1つ前の層からの情報を保留することができ、画像品質の向上に有利であり、また、ネットワークパラメータをさらに減少させることができる。
幾つかの実施例において、計算した双方向オプティカルフロー、第一フレーム及び第二フレームに基づいて前記カーネル及び重みの推定をさらに行っても良い。双方向オプティカルフローをもカーネル及び重みの推定の入力とすることにより、カーネル及び重みの推定の結果をより正確にすることができる。
図3は、本発明の実施例におけるビデオフレームの補間方法を示す他の図である。図3に示すように、該方法は以下のステップを含む。
301:第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
302:双方向オプティカルフロー、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成する。
302:双方向オプティカルフロー、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成する。
幾つかの実施例において、双方向オプティカルフロー、第一フレーム及び第二フレームを図2の入力とすることができる。
図3に示すように、該方法はさらに以下のステップを含む。
303:重み係数に基づいて双方向オプティカルフローに対して加重を行う。
幾つかの実施例において、カーネル及び重みの推定を行った後に、重み係数に基づいて双方向オプティカルフローに対して加重を行うことができる。例えば、従来の方法では、以下の方式により中間フローを取得する。
Flowt−1→t=Flowt−1→t+1×0.5
しかし、対象の移動が常に線形的なものではなく、上述の従来の方法により画像の品質をさらに向上させることができない。
しかし、対象の移動が常に線形的なものではなく、上述の従来の方法により画像の品質をさらに向上させることができない。
本発明の実施例では、1つの畳み込み層の後ろに1つのsigmoid関数が続くというような方式により、重み係数を自動的に生成し、また、この重み係数は0〜1に限定される。これは、参照画像とオプティカルフローとの間に重要な指標を提供することができる。例えば、本発明の実施例では、以下の方式により中間フローを得ることができる。
Flowt−1→t=Flowt−1→t+1×weight0
そのうち、weight0は上述の重み係数である。これにより、対象の非線形移動を表すことができるため、画像の品質をさらに向上させることができる。
そのうち、weight0は上述の重み係数である。これにより、対象の非線形移動を表すことができるため、画像の品質をさらに向上させることができる。
図3に示すように、該方法はさらに以下のステップを含む。
304:加重後の双方向オプティカルフロー及び適応的ローカル畳み込みカーネルに基づいて、適応的変換層により第一フレーム及び第二フレームに対して変換を行うことで、少なくとも2つの変換フレームを生成する。
幾つかの実施例において、適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセル(例えば、4×4個のピクセルであるが、これに限定されない)に割り当て、また、適応的変換層は、隣接する前記複数のピクセルに基づいてカレントピクセルの値を生成する。
これにより、カーネル及び重みの推定から取得した異なる重みによって、オプティカルフローと参照画像との間の距離をより良く表すことができ、周囲の情報をより効率的に用いて変換フレームを得ることができるため、画像の品質をさらに向上させることができる。
幾つかの実施例において、加重後の双方向オプティカルフロー及び適応的ローカル畳み込みカーネルに基づいて、適応的変換(warp)層を用いて第一フレーム及び第二フレームに対して変換を行うことができる。なお、適応的変換層の具体的な内容については関連技術を参照することができる。
図3に示すように、該方法はさらに以下のステップを含む。
305:前記少なくとも2つの変換フレームの間の差及び平均値を計算し;
306:第一フレーム及び第二フレーム、並びに少なくとも2つの変換フレームの差及び平均値に対してフレーム合成を行い、第一フレームと第二フレームとの間の補間フレームを生成する。
306:第一フレーム及び第二フレーム、並びに少なくとも2つの変換フレームの差及び平均値に対してフレーム合成を行い、第一フレームと第二フレームとの間の補間フレームを生成する。
幾つかの実施例において、適応的変換層は、第一フレーム及び第二フレームに対して変換を行うことで、少なくとも2つの変換フレームを生成することができ、例えば、It1及びIt2と表すことができる。前記少なくとも2つの変換フレームの間の差を計算し、且つ前記少なくとも2つの変換フレームの平均値を計算し;及び、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とすることができる。
これにより、これらの情報によって、より多くの細部を得ることで、出力される画像フレームをよりクリアにすることができる。実験結果によれば、シングル(単一)変換フレームを使用することに比較して、少なくとも2つの変換フレームの差及び平均値を使用することで、より多くの情報を提供することができるため、より良い画像品質を取得することができる。
図4は、本発明の実施例におけるビデオフレームの補間を示すブロック図であり、フレームt−1(401に示されるように)及びフレームt+1(402に示されるように)に基づいて取得された補間フレームt(413に示されるように)を例にとって説明を行う。
図4に示すように、フレームt−1及びフレームt+1の間の双方向オプティカルフローを、403に示すように計算することができ;その後、フレームt−1及びフレームt+1、並びに双方向オプティカルフロー(404に示されるように)に基づいてカーネル(kernel)及び重み(weight)推定を、405に示すように行うことができ;そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成する。
図4に示すように、双方向オプティカルフロー(404に示されるように)、重み係数(406に示されるように)、及び適応的ローカル畳み込みカーネル(407に示されるように)に基づいて、適応的変換層(408に示されるように)を用いてフレームt−1及びフレームt+1に対して変換を行うことで、少なくとも2つの変換フレーム(409に示されるように)を生成することができる。
図4に示すように、前記少なくとも2つの変換フレームの間の差(410に示されるように)及び平均値(411に示されるように)を計算することができ;フレームt−1及びフレームt+1、並びに前記差及び前記平均値に基づいてフレーム合成を、412に示すように行うことで、フレームt−1とフレームt+1の間の補間フレームt(413に示されるように)を生成することができる。
なお、上述の図3及び図4は本発明の実施例を例示的に説明したが、本発明はこれに限られない。例えば、各ステップ間の実行順序を適切に調整したり、幾つかの操作を増減したりすることもできる。即ち、当業者は、上述の図3及び図4の記載に基づいて、上述の内容に対して適切に変更することができる。
幾つかの実施例において、フレーム合成では、残差(Residual)構造を使用することができ、及び、前記残差構造の後に、可変形畳み込みネットワーク(DCN、Deformable Convolutional Network)を使用することができる。
図5は、本発明の実施例におけるフレーム合成のためのネットワーク構成を示す図である。例えば、図5の左側に示すように、入力に対して畳み込み操作(501の「Conv 64×7×7,relu」に示されるように)を行い、その後、残差ブロック(residual block)操作を、502に示すように行うことができる。各残差ブロックの後に、可変形畳み込みネットワークv2(DCNv2)をフレーム合成ネットワークに503に示すように嵌入することができる。また、504に示すように、Conv 3×3×3操作をさらに含んでも良い。
図5の右側に示すように、残差ブロックは残差ネットワークの構造を有しても良く、例えば、5021に示すように、Conv 64×7×7操作を含み、また、5022に示すように、relu操作をさらに含む。なお、図5における残差ブロック及びDCNv2の具体的な内容については関連技術を参照することができる。
これにより、フレーム合成のネットワーク構造にDCNv2を用いることで、フレーム合成は、周囲の関連情報をより良く選択することができ、ブロッキングされているピクセル又は誤って補間されたピクセルに対して補償を行うことができるため、画像の品質をさらに向上させることができる。
以上、本発明に係る各ステップ又はプロセスにのみついて説明したが、本発明はこれに限定されない。ビデオフレームの補間方法はさらに、他のステップ又はプロセスを含んでも良く、これらのステップ又はプロセスの具体的な内容については従来技術を参照することができる。また、以上、深層学習の幾つかのネットワーク構造のみを例として本発明の実施例について提示的に説明したが、本発明はこれらの構造に限られず、これらの構造に対して適切な変形を行うことができる。なお、これらの変形例も本発明の実施例の範囲内に属する。
また、上述の各実施例を用いて本発明の実施例について例示的に説明したが、本発明はこれに限定されず、さらに上述の各実施例をもとに適切な変形を行うこともできる。例えば、上述の各実施例を単独で使用することができ、上述の各実施例のうちの1つ又は複数を組み合わせて使用することもできる。
上述の実施例から分かるように、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成することにより、隣接ピクセルからの情報を十分に利用し、PSNRをさらに向上させ、高品質の補間フレームを生成することができる。
<第二側面の実施例>
本発明の実施例では、ビデオフレームの補間装置が提供され、また、第一側面の実施例と同じである内容の説明が省略される。
本発明の実施例では、ビデオフレームの補間装置が提供され、また、第一側面の実施例と同じである内容の説明が省略される。
図6は、本発明の実施例におけるビデオフレームの補間装置を示す図である。図6に示すように、ビデオフレームの補間装置600は以下のものを含む。
オプティカルフロー計算ユニット601:第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
推定ユニット602:前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
変換ユニット603:前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;
合成ユニット604:前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する。
推定ユニット602:前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
変換ユニット603:前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;
合成ユニット604:前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する。
幾つかの実施例において、図6に示すように、ビデオフレームの補間装置600はさらに以下のものを含む。
加重ユニット605:前記重み係数に基づいて前記双方向オプティカルフローに対して行加重を行う。
幾つかの実施例において、前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセル周囲の隣接する複数のピクセルに割り当て、また、前記適応的変換層は、隣接する前記複数のピクセルに基づいてカレントピクセルの値を生成することができる。
幾つかの実施例において、推定ユニット602は、前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し;取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し;前記処理後の特徴に対して第一畳み込み層を適用し、また、relu関数により前記適応的ローカル畳み込みカーネルを取得し;及び、前記処理後の特徴に対して第二畳み込み層を適用し、また、sigmoid関数により前記重み係数を取得するために用いられる。
幾つかの実施例において、複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得することができる。推定ユニット602はさらに、第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得するために用いられる。
幾つかの実施例において、前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行うことで、少なくとも2つの変換フレームを生成する。
幾つかの実施例において、図6に示すように、ビデオフレームの補間装置600はさらに以下のものを含む。
計算ユニット606:前記少なくとも2つの変換フレームの間の差を計算し、また、前記少なくとも2つの変換フレームの平均値を計算する。
幾つかの実施例において、合成ユニット604はさらに、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とするために用いられる。
幾つかの実施例において、前記フレーム合成では、残差構造が使用され、及び、前記残差構造の後に、可変形畳み込みネットワークが使用される。
幾つかの実施例において、推定ユニット602はさらに、計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて、前記カーネル及び重みの推定を行うために用いられる。
なお、便宜のため、図6では、各部品又はモジュール間の接続関係又は信号方向のみが示されているが、当業者が理解すべきは、バス接続などの各種の関連技術を採用することもできるということである。また、これらの各部品又はモジュールは、例えば、処理器、記憶器などのハードウェアにより実現されても良いが、本発明の実施例はこれについて限定しない。
上述の各実施例を用いて本発明の実施例を例示的に説明したが、本発明はこれに限定されず、上述の各実施例をもとに適切な変形を行っても良い。例えば、上述の各実施例を単独で使用しても良く、上述の各実施例のうちの1つ又は複数を組み合わせて使用しても良い。
上述の実施例から分かるように、第一フレーム及び第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成することにより、隣接ピクセルからの情報を十分に利用し、PSNRをさらに向上させ、高品質の補間フレームを生成することができる。
<第三側面の実施例>
本発明の実施例では電子機器が提供され、それは第二側面の実施例に記載のビデオフレームの補間装置を含む。なお、第二側面の実施例に記載の内容がここに合併される。該電子機器は、例えば、コンピュータ、サーバー、ワークステーション、デスクトップコンピュータ、スマートフォンなどであっても良いが、本発明の実施例はこれに限定されない。
本発明の実施例では電子機器が提供され、それは第二側面の実施例に記載のビデオフレームの補間装置を含む。なお、第二側面の実施例に記載の内容がここに合併される。該電子機器は、例えば、コンピュータ、サーバー、ワークステーション、デスクトップコンピュータ、スマートフォンなどであっても良いが、本発明の実施例はこれに限定されない。
図7は、本発明の実施例における電子機器を示す図である。図7に示すように、電子機器700は処理器(例えば、中央処理器CPU)710及び記憶器720を含んでも良く、記憶器720は中央処理器710に接続される。そのうち、該記憶器720は各種のデータを記憶することができ、また、情報処理用のプログラム721をさらに含むことができ、且つ処理器710の制御下で該プログラム721を実行することができる。
幾つかの実施例において、ビデオフレームの補間装置600の機能が処理器710に集積される。そのうち、処理器710は、第一側面の実施例に記載のビデオフレームの補間方法を実現するように構成される。
幾つかの実施例において、ビデオフレームの補間装置600が処理器710と別々で配置され、例えば、ビデオフレームの補間装置600を、処理器710に接続されるチップとして構成し、処理器710の制御によりビデオフレームの補間装置600の機能を実現することができる。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層を用いて前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;及び、前記第一フレーム、前記第二フレーム、及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行う。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記適応的ローカル畳み込みカーネルは、異なる重みをカレントピクセルの周囲の隣接する複数のピクセルに割り当て、また、前記適応的変換層は、前記隣接する複数のピクセルに基づいて前記カレントピクセルの値を生成する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し;取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し;前記処理後の特徴に対して第一畳み込み層を使用し、また、relu関数により前記適応的ローカル畳み込みカーネルを取得し;及び、前記処理後の特徴に対して第二畳み込み層を使用し、また、sigmoid関数により前記重み係数を取得する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得し;及び、第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行い、少なくとも2つの変換フレームを生成する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記少なくとも2つの変換フレームの間の差を計算し、また、前記少なくとも2つの変換フレームの平均値を計算し;及び、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とする。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、前記フレーム合成では、残差(Residual)構造を使用し、及び、前記残差構造の後に、可変形畳み込みネットワーク(DCN、Deformable Convolutional Network)を使用する。
幾つかの実施例において、処理器710は次のような制御を行うように構成され、即ち、計算された前記双方向オプティカルフロー、前記第一フレーム、及び前記第二フレームに基づいて前記カーネル及び重みの推定を行う。
また、図7に示すように、電子機器700はさらに、入出力(I/O)装置730、表示器740などを含む。そのうち、これらの部品の機能が従来技術と類似したので、ここではその詳しい説明を省略する。なお、電子機器700は図7に示されるすべての部品を含む必要がない。また、電子機器700はさらに、図7に無い部品を含んでも良く、これについては関連技術を参照することができる。
本発明の実施例ではさらにコンピュータ可読プログラムが提供され、そのうち、電子機器中で前記プログラムを実行するときに、前記プログラムはコンピュータに、前記電子機器中で第一側面の実施例に記載のビデオフレームの補間方法を実行させる。
本発明の実施例ではさらにコンピュータ可読プログラムを記憶した記憶媒体が提供され、そのうち、前記コンピュータ可読プログラムはコンピュータに、電子機器中で第一側面の実施例に記載のビデオフレームの補間方法を実行させる。
また、本発明の実施例において説明した前記方法、装置などは、ハードウェア、処理器により実行されるソフトウェアモジュール、又は両者の組み合わせにより実現することができる。例えば、機能ブロック図における1つ又は複数の機能及び/又は機能ブロック図における1つ又は複数の機能の組み合わせは、コンピュータプログラムにおける各ソフトウェアモジュールに対応しても良く、各ハードウェアモジュールに対応しても良い。また、これらのソフトウェアモジュールは、それぞれ、方法を示す図に示す各ステップに対応することができる。これらのハードウェアモジュールは、例えば、FPGA(field−programmable gate array)を用いてこれらのソフトウェアモジュールを固化して実現することができる。
また、本発明の実施例による装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行されるときに、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。
また、以上の実施例などに関し、さらに以下の付記を開示する。
(付記1)
ビデオフレームの補間方法であって、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;及び
前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む、方法。
ビデオフレームの補間方法であって、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、そのうち、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、且つもう1つの畳み込み層を用いて重み係数を生成し;
前記双方向オプティカルフロー、前記重み係数、及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;及び
前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む、方法。
(付記2)
付記1に記載の方法であって、さらに、
前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行うことを含む、方法。
付記1に記載の方法であって、さらに、
前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行うことを含む、方法。
(付記3)
付記1又は2に記載の方法であって、
前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセルに割り当て、前記適応的変換層は、隣接する前記複数のピクセルに基づいて前記カレントピクセルの値を生成する、方法。
付記1又は2に記載の方法であって、
前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセルに割り当て、前記適応的変換層は、隣接する前記複数のピクセルに基づいて前記カレントピクセルの値を生成する、方法。
(付記4)
付記1乃至3のうちの何れか一項に記載の方法であって、
前記カーネル及び重みの推定では、
前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し;
取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し;
前記処理後の特徴に対して第一畳み込み層を使用し、また、relu関数により前記適応的ローカル畳み込みカーネルを取得し;及び
前記処理後の特徴に対して第二畳み込み層を使用し、また、sigmoid関数により前記重み係数を取得する、方法。
付記1乃至3のうちの何れか一項に記載の方法であって、
前記カーネル及び重みの推定では、
前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行い、異なる次元の特徴を取得し;
取得した最高次元の特徴に対して複数回のアップサンプリングを行い、処理後の特徴を取得し;
前記処理後の特徴に対して第一畳み込み層を使用し、また、relu関数により前記適応的ローカル畳み込みカーネルを取得し;及び
前記処理後の特徴に対して第二畳み込み層を使用し、また、sigmoid関数により前記重み係数を取得する、方法。
(付記5)
付記4に記載の方法であって、
前記カーネル及び重みの推定では、前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得する、方法。
付記4に記載の方法であって、
前記カーネル及び重みの推定では、前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得する、方法。
(付記6)
付記5に記載の方法であって、さらに、
第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得することを含む、方法。
付記5に記載の方法であって、さらに、
第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得することを含む、方法。
(付記7)
付記1至6のうちの何れか一項に記載の方法であって、
前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行い、少なくとも2つの変換フレームを生成する、方法。
付記1至6のうちの何れか一項に記載の方法であって、
前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行い、少なくとも2つの変換フレームを生成する、方法。
(付記8)
付記7に記載の方法であって、さらに、
前記少なくとも2つの変換フレームの間の差を計算し、また、前記少なくとも2つの変換フレームの平均値を計算する、方法。
付記7に記載の方法であって、さらに、
前記少なくとも2つの変換フレームの間の差を計算し、また、前記少なくとも2つの変換フレームの平均値を計算する、方法。
(付記9)
付記8に記載の方法であって、さらに、
前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とすることを含む、方法。
付記8に記載の方法であって、さらに、
前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とすることを含む、方法。
(付記10)
付記1乃至9のうちの何れか一項に記載の方法であって、
前記フレーム合成では、残差(Residual)構造が用いられ、また、前記残差構造の後に、可変形畳み込みネットワーク(DCN、Deformable Convolutional Network)が用いられる、方法。
付記1乃至9のうちの何れか一項に記載の方法であって、
前記フレーム合成では、残差(Residual)構造が用いられ、また、前記残差構造の後に、可変形畳み込みネットワーク(DCN、Deformable Convolutional Network)が用いられる、方法。
(付記11)
付記1乃至10のうちの何れか一項に記載の方法であって、さらに、
計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて、前記カーネル及び重みの推定を行うことを含む、方法。
付記1乃至10のうちの何れか一項に記載の方法であって、さらに、
計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて、前記カーネル及び重みの推定を行うことを含む、方法。
(付記12)
電子機器であって、
記憶器及び処理器を含み、
前記記憶器は、コンピュータプログラムを記憶し、前記処理器は、前記コンピュータプログラムを実行して付記1乃至11のうちの何れか一項に記載のビデオフレームの補間方法を実現するように構成される、電子機器。
電子機器であって、
記憶器及び処理器を含み、
前記記憶器は、コンピュータプログラムを記憶し、前記処理器は、前記コンピュータプログラムを実行して付記1乃至11のうちの何れか一項に記載のビデオフレームの補間方法を実現するように構成される、電子機器。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。
Claims (10)
- ビデオフレームの補間装置であって、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算するオプティカルフロー計算ユニット;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行う推定ユニットであって、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、もう1つの畳み込み層を用いて重み係数を生成する、推定ユニット;
前記双方向オプティカルフロー、前記重み係数及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成する変換ユニット;及び
前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成する合成ユニットを含む、補間装置。 - 請求項1に記載の補間装置であって、
前記重み係数に基づいて前記双方向オプティカルフローに対して加重を行う加重ユニットをさらに含む、補間装置。 - 請求項1に記載の補間装置であって、
前記適応的ローカル畳み込みカーネルは、異なる重みを、カレントピクセルの周囲の隣接する複数のピクセルに割り当て、前記適応的変換層は、隣接する前記複数のピクセルに基づいて前記カレントピクセルの値を生成する、補間装置。 - 請求項1に記載の補間装置であって、
前記推定ユニットは、
前記第一フレーム及び前記第二フレームに対して特徴抽出を行い、また、複数回のダウンサンプリングを行うことで、異なる次元の特徴を取得し;
取得された最高次元の特徴に対して複数回のアップサンプリングを行うことで、処理後の特徴を取得し;
処理後の前記特徴に対して第一畳み込み層を使用し、また、relu関数により前記適応的ローカル畳み込みカーネルを取得し;及び
処理後の前記特徴に対して第二畳み込み層を使用し、また、sigmoid関数により前記重み係数を取得する
ために用いられる、補間装置。 - 請求項4に記載の補間装置であって、
前記複数回のダウンサンプリングによって、異なる次元のダウンサンプリング特徴を取得し、前記複数回のアップサンプリングによって、異なる次元のアップサンプリング特徴を取得し、
前記推定ユニットは、さらに、第一次元のダウンサンプリング特徴と、同じ次元のアップサンプリング特徴との和を求めて畳み込み層の入力とすることで、第二次元のアップサンプリング特徴を取得するために用いられる、補間装置。 - 請求項1に記載の補間装置であって、
前記適応的変換層は、前記第一フレーム及び前記第二フレームに対して変換を行うことで少なくとも2つの変換フレームを生成し、
前記補間装置は、前記少なくとも2つの変換フレームの間の差を計算し、また、前記少なくとも2つの変換フレームの平均値を計算する計算ユニットをさらに含む、補間装置。 - 請求項6に記載の補間装置であって、
前記合成ユニットは、さらに、前記第一フレーム及び前記第二フレーム、並びに前記差及び前記平均値を前記フレーム合成の入力とするために用いられる、補間装置。 - 請求項1に記載の補間装置であって、
前記フレーム合成では、残差構造が用いられる、また、前記残差構造の後に、可変形畳み込みネットワークが用いられる、補間装置。 - 請求項1に記載の補間装置であって、
前記推定ユニットは、さらに、計算された前記双方向オプティカルフロー、前記第一フレーム及び前記第二フレームに基づいて前記カーネル及び重みの推定を行うために用いられる、補間装置。 - ビデオフレームの補間方法であって、
第一フレームと第二フレームとの間の双方向オプティカルフローを計算し;
前記第一フレーム及び前記第二フレームに基づいてカーネル及び重みの推定を行い、ここで、1つの畳み込み層を用いて適応的ローカル畳み込みカーネルを生成し、もう1つの畳み込み層を用いて重み係数を生成し;
前記双方向オプティカルフロー、前記重み係数及び前記適応的ローカル畳み込みカーネルに基づいて、適応的変換層により前記第一フレーム及び前記第二フレームに対して変換を行うことで変換フレームを生成し;及び
前記第一フレーム、前記第二フレーム及び前記変換フレームに対してフレーム合成を行い、前記第一フレームと前記第二フレームとの間の補間フレームを生成することを含む、補間方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010431003.6A CN113727141B (zh) | 2020-05-20 | 2020-05-20 | 视频帧的插值装置以及方法 |
CN202010431003.6 | 2020-05-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021184594A true JP2021184594A (ja) | 2021-12-02 |
Family
ID=78608591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021069650A Pending JP2021184594A (ja) | 2020-05-20 | 2021-04-16 | ビデオフレームの補間装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11375152B2 (ja) |
JP (1) | JP2021184594A (ja) |
CN (1) | CN113727141B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024101891A1 (ko) * | 2022-11-08 | 2024-05-16 | 삼성전자 주식회사 | 전자 장치 및 전자 장치의 이미지 처리 방법 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12003885B2 (en) * | 2021-06-14 | 2024-06-04 | Microsoft Technology Licensing, Llc | Video frame interpolation via feature pyramid flows |
CN116684662A (zh) * | 2022-02-22 | 2023-09-01 | 北京字跳网络技术有限公司 | 视频处理方法、装置、设备及介质 |
CN114640885B (zh) * | 2022-02-24 | 2023-12-22 | 影石创新科技股份有限公司 | 视频插帧方法、训练方法、装置和电子设备 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101001754B1 (ko) * | 2008-08-06 | 2010-12-15 | (주)메디슨 | 초음파 시스템에서 초음파 영상의 프레임 보간 방법 및장치 |
US9183618B2 (en) * | 2012-05-09 | 2015-11-10 | Nokia Technologies Oy | Method, apparatus and computer program product for alignment of frames |
CN105517671B (zh) * | 2015-05-25 | 2020-08-14 | 北京大学深圳研究生院 | 一种基于光流法的视频插帧方法及系统 |
KR102474168B1 (ko) * | 2017-03-17 | 2022-12-06 | 포틀랜드 스테이트 유니버시티 | 적응형 컨볼루션 및 적응형 분리형 컨볼루션을 통한 프레임 인터폴레이션 |
WO2019000396A1 (zh) * | 2017-06-30 | 2019-01-03 | 深圳市大疆创新科技有限公司 | 光流跟踪装置和方法 |
CN107613299A (zh) * | 2017-09-29 | 2018-01-19 | 杭州电子科技大学 | 一种利用生成网络提高帧速率上转换效果的方法 |
DE102018127265A1 (de) * | 2017-11-06 | 2019-05-09 | Nvidia Corporation | Multi-einzelbild-videointerpolation mit optischem fluss |
US10776688B2 (en) | 2017-11-06 | 2020-09-15 | Nvidia Corporation | Multi-frame video interpolation using optical flow |
CN108322685B (zh) * | 2018-01-12 | 2020-09-25 | 广州华多网络科技有限公司 | 视频插帧方法、存储介质以及终端 |
WO2019168765A1 (en) * | 2018-02-27 | 2019-09-06 | Portland State University | Context-aware synthesis for video frame interpolation |
CN110392282B (zh) * | 2018-04-18 | 2022-01-07 | 阿里巴巴(中国)有限公司 | 一种视频插帧的方法、计算机存储介质及服务器 |
CN108900848B (zh) * | 2018-06-12 | 2021-03-02 | 福建帝视信息科技有限公司 | 一种基于自适应可分离卷积的视频质量增强方法 |
CN109756690B (zh) * | 2018-12-21 | 2020-11-20 | 西北工业大学 | 基于特征级别光流的轻量级视频插值方法 |
US20220092795A1 (en) * | 2019-01-15 | 2022-03-24 | Portland State University | Feature pyramid warping for video frame interpolation |
CN109905624B (zh) | 2019-03-01 | 2020-10-16 | 北京大学深圳研究生院 | 一种视频帧插值方法、装置及设备 |
CN109862208B (zh) * | 2019-03-19 | 2021-07-02 | 深圳市商汤科技有限公司 | 视频处理方法、装置、计算机存储介质以及终端设备 |
CN112015170A (zh) * | 2019-05-29 | 2020-12-01 | 北京市商汤科技开发有限公司 | 运动物体检测及智能驾驶控制方法、装置、介质及设备 |
CN110351511A (zh) * | 2019-06-28 | 2019-10-18 | 上海交通大学 | 基于场景深度估计的视频帧率上变换系统及方法 |
CN110809126A (zh) * | 2019-10-28 | 2020-02-18 | 北京影谱科技股份有限公司 | 一种基于自适应可变形卷积的视频帧插值方法及系统 |
CN110798630B (zh) * | 2019-10-30 | 2020-12-29 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
US10958869B1 (en) * | 2019-11-14 | 2021-03-23 | Huawei Technologies Co., Ltd. | System, device and method for video frame interpolation using a structured neural network |
US11514573B2 (en) * | 2019-11-27 | 2022-11-29 | Shanghai United Imaging Intelligence Co., Ltd. | Estimating object thickness with neural networks |
CN110969577B (zh) * | 2019-11-29 | 2022-03-11 | 北京交通大学 | 一种基于深度双重注意力网络的视频超分辨率重建方法 |
US11928753B2 (en) * | 2020-01-27 | 2024-03-12 | Intel Corporation | High fidelity interactive segmentation for video data with deep convolutional tessellations and context aware skip connections |
US20220067886A1 (en) * | 2020-09-01 | 2022-03-03 | Vingroup Joint Stock Company | Face-aware offset calculation module and method for facial frame interpolation and enhancement and a face video deblurring system and method using the same |
-
2020
- 2020-05-20 CN CN202010431003.6A patent/CN113727141B/zh active Active
-
2021
- 2021-04-09 US US17/227,051 patent/US11375152B2/en active Active
- 2021-04-16 JP JP2021069650A patent/JP2021184594A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024101891A1 (ko) * | 2022-11-08 | 2024-05-16 | 삼성전자 주식회사 | 전자 장치 및 전자 장치의 이미지 처리 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20210368131A1 (en) | 2021-11-25 |
US11375152B2 (en) | 2022-06-28 |
CN113727141B (zh) | 2023-05-12 |
CN113727141A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021184594A (ja) | ビデオフレームの補間装置及び方法 | |
JP7169094B2 (ja) | 画像処理システム及び医用情報処理システム | |
US8768069B2 (en) | Image enhancement apparatus and method | |
Takeda et al. | Super-resolution without explicit subpixel motion estimation | |
US8958484B2 (en) | Enhanced image and video super-resolution processing | |
CN102194216B (zh) | 图像处理设备和图像处理方法 | |
JP4968259B2 (ja) | 画像高解像度化装置及び画像高解像度化方法並びにプログラム | |
JP2011237997A (ja) | 画像処理装置、および画像処理方法、並びにプログラム | |
KR101987079B1 (ko) | 머신러닝 기반의 동적 파라미터에 의한 업스케일된 동영상의 노이즈 제거방법 | |
US9462220B2 (en) | Auto-regressive edge-directed interpolation with backward projection constraint | |
JP2013021635A (ja) | 画像処理装置、画像処理方法、プログラム、及び記録媒体 | |
KR100860968B1 (ko) | 해상도 향상 장치 및 방법 | |
Mahajan et al. | Adaptive and non-adaptive image interpolation techniques | |
JP2011237998A (ja) | 画像処理装置、および画像処理方法、並びにプログラム | |
WO2018225133A1 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
Karam et al. | An efficient selective perceptual-based super-resolution estimator | |
Jeong et al. | Multi-frame example-based super-resolution using locally directional self-similarity | |
Makwana et al. | Single image super-resolution via iterative back projection based Canny edge detection and a Gabor filter prior | |
WO2011018878A1 (ja) | 画像処理システム、画像処理方法および画像処理用プログラム | |
Barzigar et al. | A video super-resolution framework using SCoBeP | |
Alvarez-Ramos et al. | Image super-resolution via two coupled dictionaries and sparse representation | |
CN113421186A (zh) | 使用生成对抗网络的非监督视频超分辨率的设备和方法 | |
Li et al. | Guided iterative back-projection scheme for single-image super-resolution | |
US8811774B1 (en) | Super resolution using an interpretive scaler | |
Ghassab et al. | Plug-and-play video super-resolution using edge-preserving filtering |