JP7086235B2 - ビデオ処理方法、装置及びコンピュータ記憶媒体 - Google Patents

ビデオ処理方法、装置及びコンピュータ記憶媒体 Download PDF

Info

Publication number
JP7086235B2
JP7086235B2 JP2020573289A JP2020573289A JP7086235B2 JP 7086235 B2 JP7086235 B2 JP 7086235B2 JP 2020573289 A JP2020573289 A JP 2020573289A JP 2020573289 A JP2020573289 A JP 2020573289A JP 7086235 B2 JP7086235 B2 JP 7086235B2
Authority
JP
Japan
Prior art keywords
convolution kernel
sampling
video
deformable convolution
sampling points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020573289A
Other languages
English (en)
Other versions
JP2021530770A (ja
Inventor
▲許▼翔宇
李沐辰
▲孫▼文秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021530770A publication Critical patent/JP2021530770A/ja
Application granted granted Critical
Publication of JP7086235B2 publication Critical patent/JP7086235B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Transforming Electric Information Into Light Information (AREA)
  • Image Analysis (AREA)
  • Picture Signal Circuits (AREA)

Description

(関連出願の相互参照)
本願は、2019年03月19日に提出された、出願番号が201910210075.5である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、コンピュータビジョン技術分野に関し、特に、ビデオ処理方法、装置及びコンピュータ記憶媒体に関する。
ビデオの収集、伝送及び受信過程において、種々の雑音がよく混入され、混入された雑音は、ビデオの視覚的品質を低減させる。例えば、カメラのレンズ絞り値が小さく、しかも弱光であるシーンで得られたビデオに、通常雑音が含まれ、雑音を含むビデオに大量の情報も含まれる。ビデオにおける雑音は、これらの情報に不確実性を持たせ、視聴者の視覚的感受に悪影響を与えてしまう。従って、ビデオに対する雑音除去は、重要な意義があり、これは、コンピュータビジョンにおける重要な検討課題になってきた。
しかしながら、現在の技術的解決手段に依然として欠点がある。特に、ビデオにおける連続したフレームとフレームとの間に動きが存在する場合、又はカメラ自体にブレが存在する場合、雑音を完全に除去できないだけでなく、ビデオにおける画像細部の損失又は画像縁のボケとゴーストも引き起こしやすい。
本願の実施例は、ビデオ処理方法、装置及びコンピュータ記憶媒体を提供する。
本願の技術的解決手段は、以下のように実現する。
第1態様によれば、本願の実施例は、ビデオ処理方法を提供する。前記方法は、
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得することであって、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む、ことと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることと、を含む。
上記技術的解決手段において、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得する前に、前記方法は、
サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得ることを更に含む。
上記技術的解決手段において、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得ることは、
深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得ることであって、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも1つの隣接フレームを含む、ことと、
前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることと、
前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得ることと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとすることと、を含む。
上記技術的解決手段において、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることは、
前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得ることを含む。
上記技術的解決手段において、前記変形可能な畳み込みカーネルのサンプリング点を得た後、前記方法は、
前記サンプル参照フレーム及び前記少なくとも1つの隣接フレームにおける画素点を取得することと、
前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定することと、を更に含む。
上記技術的解決手段において、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることは、
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることを含む。
上記技術的解決手段において、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることは、
前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることと、
各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得ることと、を含む。
上記技術的解決手段において、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることは、
各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行うことと、
演算結果に基づいて、各画素点に対応する雑音除去画素値を得ることと、を含む。
第2態様によれば、本願の実施例は、ビデオ処理装置を提供する。前記ビデオ処理装置は、取得ユニットと、雑音除去ユニットと、を備え、
前記取得ユニットは、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するように構成され、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、
前記雑音除去ユニットは、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るように構成される。
上記技術的解決手段において、前記ビデオ処理装置は、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得るように構成される訓練ユニットを更に備える。
上記技術的解決手段において、前記ビデオ処理装置は、予測ユニットと、サンプリングユニットと、を更に備え、
前記予測ユニットは、深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得るように構成され、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも1つの隣接フレームを含み、
前記サンプリングユニットは、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成され、
前記取得ユニットは更に、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得て、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとするように構成される。
上記技術的解決手段において、前記サンプリングユニットは具体的には、前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成される。
上記技術的解決手段において、前記取得ユニットは更に、前記サンプル参照フレーム及び前記少なくとも1つの隣接フレームにおける画素点を取得するように構成され、
前記サンプリングユニットは更に、前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定するように構成される。
上記技術的解決手段において、上記雑音除去ユニットは具体的には、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得るように構成される。
上記技術的解決手段において、前記ビデオ処理装置は、前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得るように構成される畳み込みユニットを更に備え、
前記雑音除去ユニットは具体的には、各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得るように構成される。
上記技術的解決手段において、前記畳み込みユニットは具体的には、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行い、演算結果に基づいて、各画素点に対応する雑音除去画素値を得るように構成される。
第3態様によれば、本願の実施例は、ビデオ処理装置を提供する。前記ビデオ処理装置は、メモリと、プロセッサと、を備え、
前記メモリは、前記プロセッサによる実行可能なコンピュータプログラムを記憶するように構成され、
前記プロセッサは、前記コンピュータプログラムを実行する時、第1態様におけるいずれか一項に記載の方法の工程を実行するように構成される。
第4態様によれば、本願の実施例は、コンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムが少なくとも1つのプロセッサにより実行される時、第1態様におけるいずれか一項に記載の方法の工程を実現させる。
第5態様によれば、本願の実施例は、端末装置を提供する。前記端末装置は、少なくとも、第2態様におけるいずれか一項、又は第3態様に記載のビデオ処理装置を備える。
第6態様によれば、本願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムは、少なくとも1つのプロセッサにより実行される時、第1態様におけるいずれか一項に記載の方法の工程を実現させる。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
ビデオ処理方法であって、前記方法は、
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得することであって、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む、ことと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることと、を含む、ビデオ処理方法。
(項目2)
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得する前に、前記方法は、
サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得ることを更に含むことを特徴とする
項目1に記載の方法。
(項目3)
サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得ることは、
深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得ることであって、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも1つの隣接フレームを含む、ことと、
前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることと、
前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得ることと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとすることと、を含むことを特徴とする
項目2に記載の方法。
(項目4)
前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることは、
前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得ることを含むことを特徴とする
項目3に記載の方法。
(項目5)
前記変形可能な畳み込みカーネルのサンプリング点を得た後、前記方法は、
前記サンプル参照フレーム及び前記少なくとも1つの隣接フレームにおける画素点を取得することと、
前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定することと、を更に含むことを特徴とする
項目4に記載の方法。
(項目6)
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることは、
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることを含むことを特徴とする
項目1から5のうちいずれか一項に記載の方法。
(項目7)
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることは、
前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることと、
各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得ることと、を含むことを特徴とする
項目6に記載の方法。
(項目8)
各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることは、
各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行うことと、
演算結果に基づいて、各画素点に対応する雑音除去画素値を得ることと、を含むことを特徴とする
項目7に記載の方法。
(項目9)
ビデオ処理装置であって、前記ビデオ処理装置は、取得ユニットと、雑音除去ユニットと、を備え、
前記取得ユニットは、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するように構成され、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、
前記雑音除去ユニットは、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るように構成される、ビデオ処理装置。
(項目10)
前記ビデオ処理装置は、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得るように構成される訓練ユニットを更に備えることを特徴とする
項目9に記載の装置。
(項目11)
前記ビデオ処理装置は、予測ユニットと、サンプリングユニットと、を更に備え、
前記予測ユニットは、深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得るように構成され、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも1つの隣接フレームを含み、
前記サンプリングユニットは、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成され、
前記取得ユニットは更に、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得て、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとするように構成されることを特徴とする
項目10に記載の装置。
(項目12)
前記サンプリングユニットは具体的には、前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成されることを特徴とする
項目11に記載の装置。
(項目13)
前記取得ユニットは更に、前記サンプル参照フレーム及び前記少なくとも1つの隣接フレームにおける画素点を取得するように構成され、
前記サンプリングユニットは更に、前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定するように構成されることを特徴とする
項目12に記載の装置。
(項目14)
前記雑音除去ユニットは具体的には、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得るように構成されることを特徴とする
項目9から13のうちいずれか一項に記載の装置。
(項目15)
前記ビデオ処理装置は、前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得るように構成される畳み込みユニットを更に備え、
前記雑音除去ユニットは具体的には、各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得るように構成されることを特徴とする
項目14に記載の装置。
(項目16)
前記畳み込みユニットは具体的には、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行い、演算結果に基づいて、各画素点に対応する雑音除去画素値を得るように構成されることを特徴とする
項目15に記載の装置。
(項目17)
ビデオ処理装置であって、前記ビデオ処理装置は、メモリと、プロセッサと、を備え、
前記メモリは、前記プロセッサによる実行可能なコンピュータプログラムを記憶するように構成され、
前記プロセッサは、前記コンピュータプログラムを実行する時、項目1から8のうちいずれか一項に記載の方法の工程を実行するように構成される、ビデオ処理装置。
(項目18)
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムが少なくとも1つのプロセッサにより実行される時、前記少なくとも1つのプロセッサに、項目1から8のうちいずれか一項に記載の方法の工程を実現させる、コンピュータ記憶媒体。
(項目19)
端末装置であって、前記端末装置は、少なくとも、項目9から17のうちいずれか一項に記載のビデオ処理装置を備える、端末装置。
(項目20)
コンピュータプログラム製品であって、前記コンピュータプログラム製品にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムは、少なくとも1つのプロセッサにより実行される時、前記少なくとも1つのプロセッサに、項目1から8のうちいずれか一項に記載の方法の工程を実現させる、コンピュータプログラム製品。
本願の実施例で提供されるビデオ処理方法、装置及びコンピュータ記憶媒体は、まず、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得し、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む。該畳み込みパラメータは、ビデオの連続フレームの情報を抽出することで得られたものであるため、ビデオにおけるフレームとフレームとの間の動きによる画像ボケ、細部損失及びゴーストの問題を効果的に減少させることができる。更に、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得る。これにより、サンプリング点の重みがサンプリング点の位置によって変動するため、ビデオの雑音除去効果をより好適にし、ビデオのイメージング品質を向上させることができる。
本願の実施例によるビデオ処理方法を示すフローチャートである。 本願の実施例による深層ニューラルネットワークの構造を示す概略図である。 本願の実施例によるもう1つのビデオ処理方法を示すフローチャートである。 本願の実施例によるまた1つのビデオ処理方法を示すフローチャートである。 本願の実施例による更にもう1つのビデオ処理方法を示すフローチャートである。 本願の実施例によるビデオ処理方法の全体的アーキテクチャを示す概略図である。 本願の実施例による更にもう1つのビデオ処理方法を示すフローチャートである。 本願の実施例によるビデオ処理方法の詳細なアーキテクチャを示す概略図である。 本願の実施例によるビデオ処理装置の構造を示す概略図である。 本願の実施例によるビデオ処理装置の具体的なハードウェア構造を示す概略図である。 本願の実施例による端末装置の構造を示す概略図である。
以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。
本願の実施例は、ビデオ処理方法を提供する。該方法は、ビデオ処理装置に適用され、該装置は、スマートフォン、タブレット、ノートパソコン、パームトップパソコン、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ポータブルメディアプレーヤー(Portable Media Player:PMP)、ウェアラブル機器、ナビゲータなどの携帯型端末装置に配置されてもよく、例えばデジタルTV、デスクトップパソコンなどの固定型端末装置に配置されてもよく、本願の実施例は、これを具体的に限定するものではない。
本願の実施例によるビデオ処理方法を示すフローチャートである図1を参照すると、該方法は、以下を含んでもよい。
S101において、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得し、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む。
ビデオシーケンスは、カメラ、スマートフォン、タブレット及び多くの他の端末装置により収集されて捕捉されたものである。ここで、小型カメラ及びスマートフォン、タブレットなどの端末装置に、一般的には、サイズが小さい画像センサ及び望ましくない光学素子が配置されることが多い。この場合、ビデオフレームの雑音除去処理は、これらの機器にとって極めて重要である。ハイエンドカメラ及びカムコーダ等に、一般的に、サイズがより大きい画像センサ及びより好適な光学素子が配置されることが多い、これらの機器により捕捉されたビデオフレームは、正常な光照射条件で望ましいイメージング品質を有する。しかしながら、弱光のシーンで捕捉されたビデオフレームに、大量の雑音が含まれることも多い。この場合、ビデオフレームの雑音除去処理は、依然として必要である。
従って、カメラ、スマートフォン、タブレット及び多くの他の端末装置による収集で、ビデオシーケンスを取得することができる。ここで、該ビデオシーケンスに、雑音除去を必要とする処理対象フレームが含まれる。該ビデオシーケンスにおける連続フレーム(即ち、連続した複数のビデオフレーム)に対して深層ニューラルネットワーク訓練を行うことで、変形可能な畳み込みカーネルを得ることができる。続いて、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを取得して、処理対象フレームの畳み込みパラメータとする。
幾つかの実施例において、深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks,Deep CNN)は、畳み込み演算を含み且つ深層構造を備えるフィードフォワードニューラルネットワークであり、深層ニューラルネットワークによる深層学習の代表的なアルゴリズムの1つである。
本願の実施例による深層畳み込みニューラルネットワークの構造を示す概略図である図2を参照されたい。図2に示すように、該深層畳み込みニューラルネットワークの構造に、畳み込み層、プーリング層及び双線形アップサンプリング層が含まれる。色で塗りつぶされていない層は、畳み込み層であり、黒色で塗りつぶされている層は、プーリング層であり、灰色で塗りつぶされている層は、双線形アップサンプリング層である。各層に対応するチャネル数(即ち、各畳み込み層に含まれる変形可能な畳み込みカーネルの数)は、表1に示す通りである。表1から分かるように、先頭からの25層の座標予測ネットワーク(Vネットワークで表される)と重み予測ネットワーク(Fネットワークで表される)のチャネル数は同じであり、VネットワークとFネットワークは、先頭からの25層の特徴情報を共有できることを表す。従って、特徴情報の共有により、ネットワークの演算量を低減させることができる。ここで、Fネットワークは、サンプルビデオシーケンス(即ち、連続した複数のビデオフレーム)により、変形可能な畳み込みカーネルの予測重みを取得するために用いられ、Vネットワークは、サンプルビデオシーケンス(即ち、連続した複数のビデオフレーム)により、変形可能な畳み込みカーネルの予測座標を取得するために用いられる。変形可能な畳み込みカーネルの予測座標に基づいて、変形可能な畳み込みカーネルのサンプリング点を得ることができる。変形可能な畳み込みカーネルの予測重み及び変形可能な畳み込みカーネルの予測座標に基づいて、変形可能な畳み込みカーネルのサンプリング点の重みを得て、更に畳み込みパラメータを得ることができる。
Figure 0007086235000001
S102において、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得る。
処理対象フレームに対応する畳み込みパラメータを得た後、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを処理対象フレームと畳み込み演算処理することもできる。畳み込み演算の結果は、雑音除去後のビデオフレームである。
具体的には、幾つかの実施例において、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るS102について、該方法は、
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることを含んでもよい。
つまり、処理対象フレームの雑音除去処理は、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを処理対象フレームと畳み込み処理することで実現してもよい。例えば、処理対象フレームにおける各画素点にに対して、各画素点と変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みに対して加重加算を行うことで、各画素点に対応する雑音除去画素値を得ることで、処理対象フレームの雑音除去処理を実現させることができる。
本願の実施例において、ビデオシーケンスに、雑音除去処理を必要とする処理対象フレームが含まれる。ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得し、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得、該畳み込みパラメータは、ビデオの連続フレームの情報を抽出することで得られたものであるため、ビデオにおけるフレームとフレームとの間の動きによる画像ボケ、細部損失及びゴーストの問題を効果的に減少させることができる。また、サンプリング点の重みがサンプリング点の位置によって変動するため、ビデオの雑音除去効果をより好適にし、ビデオのイメージング品質を向上させることができる。
変形可能な畳み込みカーネルを得るために、幾つかの実施例において、本願の実施例によるもう1つのビデオ処理方法を示すフローチャートである図3に示すように、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するS101の前に、該方法は以下を更に含んでもよい。
S201において、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得る。
ビデオシーケンスから、連続した複数のビデオフレームをサンプルビデオシーケンスとして選択し、サンプルビデオシーケンスに、サンプル参照フレームが含まれるだけでなく、サンプル参照フレームに隣接する少なくとも1つの隣接フレームが更に含まれることに留意されたい。ここで、少なくとも1つの隣接フレームは、該サンプル参照フレームに隣接する前方の少なくとも1つの隣接フレームであってもよく、該サンプル参照フレームに隣接する後方の少なくとも1つの隣接フレームであってもよく、また、該サンプル参照フレームに隣接する前方及び後方の複数の隣接フレームであってもよく、本願は、これを具体的に限定するものではない。以下、該サンプル参照フレームに隣接する前方及び後方の複数の隣接フレームをサンプルビデオシーケンスとすることを例として説明する。例えば、サンプル参照フレームがビデオシーケンスにおける第0フレームとすれば、該サンプル参照フレームに隣接する少なくとも1つの隣接フレームは、前方に隣接する第-Tフレーム、第-(T-1)フレーム、……、第-2フレーム、第-1フレーム、及び後方に隣接する第1フレーム、第2フレーム、…、第(T-1)フレーム、第Tフレームを含み、つまり、該サンプルビデオシーケンスにおいて計(2T+1)フレームがあり、且つこれらのフレームは連続フレームである。
本願の実施例において、サンプルビデオシーケンスに対して深層ニューラルネットワークの訓練を行うことで、変形可能な畳み込みカーネルを得ることができる。処理対象フレームにおける各画素点が、対応する変形可能な畳み込みカーネルと畳み込み演算処理ができ、それによって処理対象フレームを雑音除去処理することができる。従来技術における固定の畳み込みカーネルに比べて、本願の実施例は、変形可能な畳み込みカーネルを用いることで、処理対象フレームのビデオ処理においてより好適な雑音除去効果を達成することができる。なお、本願の実施例は、三次元畳み込み演算を行うため、これに対応する変形可能な畳み込みカーネルも三次元のものである。特に断らない限り、本願の実施例における変形可能な畳み込みカーネルは、いずれも三次元変形可能な畳み込みカーネルを指す。
幾つかの実施例において、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みに対して、深層ニューラルネットワークにより、サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して座標予測及び重み予測を行うことができる。まず、変形可能な畳み込みカーネルの予測座標及び予測重みを得て、続いて、予測座標及び予測重みにより、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを更に得る。
幾つかの実施例において、本願の実施例によるまた1つのビデオ処理方法を示すフローチャートである図4に示すように、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得るS201について、該方法は、以下を含んでもよい。
S201aにおいて、深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得る。
連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも1つの隣接フレームを含むことに留意されたい。少なくとも1つの隣接フレームは、それに隣接する前方のTフレーム及びそれに隣接する後方のTフレームを含むとした場合、連続した複数のビデオフレームは、計(2T+1)フレームである。深層ニューラルネットワークにより、これら連続した複数のビデオフレーム(例えば、計(2T+1)フレーム)に対して深層学習を行い、学習結果に基づいて座標予測ネットワーク及び重み予測ネットワークを確立する。続いて、座標予測ネットワークにより、座標予測を行うことで、変形可能な畳み込みカーネルの予測座標を得ることができる。重み予測ネットワークにより、重み予測を行うことで、変形可能な畳み込みカーネルの予測重みを得ることができる。ここで、処理対象フレームは、サンプルビデオシーケンスにおけるサンプル参照フレームであってもよい。これによりビデオ雑音除去処理を行う。
例示的には、サンプルビデオシーケンスにおける各フレームの幅はWで表され、高さがHで表されるとすれば、処理対象フレームに含まれる画素点の数は、H×W個である。変形可能な畳み込みカーネルが三次元のものであり、且つ変形可能な畳み込みカーネルはN個のサンプリング点でからなるものであるため、処理対象フレームにおける取得可能な変形可能な畳み込みカーネルの予測座標の数は、H×W×N×3個であり、処理対象フレームにおける取得可能な変形可能な畳み込みカーネルの予測重みの数は、H×W×N個である。
S201bにおいて、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得る。
変形可能な畳み込みカーネルの予測座標及び変形可能な畳み込みカーネルの予測重みを得た後、変形可能な畳み込みカーネルの予測座標をサンプリングすることで、変形可能な畳み込みカーネルのサンプリング点を得ることができる。
具体的には、所定サンプリングモデルにより、変形可能な畳み込みカーネルの予測座標に対してサンプリング処理を行うことができる。幾つかの実施例において、本願の実施例による更にもう1つのビデオ処理方法を示すフローチャートである図5に示すように、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るS201bについて、該方法は、以下を含んでもよい。
S201b-1において、前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得る。
所定サンプリングモデルは、事前設定された、変形可能な畳み込みカーネルの予測座標に対してサンプリング処理を行うためのモデルであることに留意されたい。本願の実施例において、所定サンプリングモデルは、三重線形サンプラであってもよく、他のサンプリングモデルであってもよく、本願の実施例は、これを具体的に限定するものではない。
所定サンプリングモデルに基づいて、前記変形可能な畳み込みカーネルのサンプリング点を得た後、前記方法は以下を更に含んでもよい。
S201b-2において、前記サンプル参照フレーム及び前記少なくとも1つの隣接フレームにおける画素点を取得する。
サンプル参照フレーム及び前記少なくとも1つの隣接フレームが計(2T+1)フレームであり、且つ各フレームの幅がWで表され、高さがHで表される場合、取得可能な画素点の数は、H×W×(2T+1)個である。
S201b-3において、前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定する。
所定サンプリングモデルに基づいて、全ての画素点及び変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力することができ、所定サンプリングモデルからの出力は、変形可能な畳み込みカーネルのサンプリング点及のサンプリング点のサンプリング値であることに留意されたい。従って、得られたサンプリング点の数がH×W×N個である場合、対応するサンプリング値の数もH×W×N個である。
例示的には、三重線形サンプラを例として、三重線形サンプラは、変形可能な畳み込みカーネルの予測座標に基づいて、変形可能な畳み込みカーネルのサンプリング点を決定することができるだけでなく、サンプリングに対応するサンプリング値を決定することもできる。ここで、サンプルビデオシーケンスにおける(2T+1)フレームを例として、該(2T+1)フレームは、サンプル参照フレーム、サンプル参照フレームに隣接する前方のT個の隣接フレーム及びサンプル参照フレームに隣接する後方のT個の隣接フレームからなる。該(2T+1)フレームに含まれる画素点の数は、H×W×(2T+1)個である。これらのH×W×(2T+1)個の画素点に対応する画素値及びH×W×N×3個の予測座標を同時に三重線形サンプラに入力してサンプリング演算を行う。例えば、該三重線形サンプラのサンプリング演算は、式(1)に示すとおりである。
Figure 0007086235000002
ただし、
Figure 0007086235000003
は、画素点位置
Figure 0007086235000004
でのn番目のサンプリング点のサンプリング値を表す。nは、1以上N以下の正整数であり、
Figure 0007086235000005
はそれぞれ画素点位置
Figure 0007086235000006
でのn番目のサンプリング点の、3つの次元(水平次元、垂直時間及び時間次元)での予測座標を表す。
Figure 0007086235000007
は、ビデオシーケンスにおける第mフレームの画素点位置
Figure 0007086235000008
での画素値を表す。
なお、変形可能な畳み込みカーネルにとって、変形可能な畳み込みカーネルの予測座標は変動可能なものである。各サンプリング点の位置座標
Figure 0007086235000009
でいずれも相対的なオフセット変数が追加された。具体的には、
Figure 0007086235000010
は、それぞれ下記式で表される。
Figure 0007086235000011
ただし、
Figure 0007086235000012
は、画素点位置
Figure 0007086235000013
でのn番目のサンプリング点の水平次元での予測座標を表す。
Figure 0007086235000014
は、画素点位置
Figure 0007086235000015
でのn番目のサンプリング点の、水平次元でのオフセット変数を表す。
Figure 0007086235000016
は、画素点位置
Figure 0007086235000017
でのn番目のサンプリング点の、垂直次元での予測座標を表す。
Figure 0007086235000018
は、画素点位置
Figure 0007086235000019
でのn番目のサンプリング点の、垂直次元でのオフセット変数を表す。
Figure 0007086235000020
は、画素点位置
Figure 0007086235000021
でのn番目のサンプリング点の、時間次元での予測座標を表す。
Figure 0007086235000022
は、画素点位置
Figure 0007086235000023
でのn番目のサンプリング点の、時間次元でのオフセット変数を表す。
本願の実施例において、変形可能な畳み込みカーネルのサンプリング点を決定することができる。一方で、各サンプリング点のサンプリング値を得ることもできる。変形可能な畳み込みカーネルの予測座標が変動可能であるため、各サンプリング点の位置が固定のものではないことを表す。つまり、本願の実施例における変形可能な畳み込みカーネルは、固定型畳み込みカーネルではなく、変形可能な畳み込みカーネルである。従来技術における固定型畳み込みカーネルに比べて、本願の実施例は、変形可能な畳み込みカーネルを用いることで、処理対象フレームに対するビデオ処理に、より高い雑音除去効果を達成させる。
S201cにおいて、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得る。
S201dにおいて、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとする。
変形可能な畳み込みカーネルのサンプリング点を得た後、取得された変形可能な畳み込みカーネルの予測座標及び変形可能な畳み込みカーネルの予測重みに基づいて、変形可能な畳み込みカーネルのサンプリング点の重みを得ることもでき、これにより、処理対象フレームに対応する畳み込みパラメータを得ることに留意されたい。ここの予測座標は、変形可能な畳み込みカーネルの相対的座標値を指すことに留意されたい。
なお、本願の実施例において、サンプルビデオシーケンスにおける各フレームの幅はWで表され、高さがHで表されるとするとした場合、変形可能な畳み込みカーネルが三次元のものであり、且つ変形可能な畳み込みカーネルはN個のサンプリング点でからなるものであるため、処理対象フレームにおける取得可能な変形可能な畳み込みカーネルの予測座標の数は、H×W×N×3個であり、処理対象フレームにおける取得可能な変形可能な畳み込みカーネルの予測重みの数は、H×W×N個である。幾つかの実施例において、取得可能な変形可能な畳み込みカーネルのサンプリング点の数は、H×W×N個であり、サンプリング点の重みの数もH×W×N個である。
例示的に、同じく、図2に示した深層畳み込みニューラルネットワークを例として、各畳み込み層に含まれる変形可能な畳み込みカーネルのサイズが同じであると仮定し、例えば、変形可能な畳み込みカーネルに含まれるサンプリング点の数はNである。一般的には、Nの値は、9であってもよく、実際の適用において、実際の状況に応じて具体的に設定してもよく、本願の実施例は、これを具体的に限定するものではない。これらN個のサンプリング点について、本願の実施例において、変形可能な畳み込みカーネルの予測座標が変動可能なものであるため、各サンプリング点の位置は固定のものではなく、Vネットワークによれば、各サンプリング点に、相対的オフセットが存在し、更に、本願の実施例における変形可能な畳み込みカーネルが、固定型畳み込みカーネルではなく、変形可能な畳み込みカーネルであり、本願の実施例がフレームとフレームとの間に大きな動きがあるビデオ処理に適用可能であることに留意されたい。なお、サンプリング点によって、Fネットワークで得られた各サンプリング点の重みも異なる。つまり、本願の実施例は、変形可能な畳み込みカーネルを利用するだけでなく、変動可能な重みも利用する。従来技術における固定型畳み込みカーネル又は手動で設定された重みに比べて、処理対象フレームのビデオ処理の雑音除去効果を高くすることができる。
図2に示した深層畳み込みニューラルネットワークについて、該ネットワークは、エンコーダ-デコーダの設計構造を用いることもできる。ここで、エンコーダの作動段階において、畳み込みニューラルネットワークにより、サブサンプリングを4回行うことができる。また、各回のサブサンプリングにおいて、入力された処理対象フレームH×W(Hは、処理対象フレームの高さを表し、Wは、処理対象フレームの幅を表す)に対して、H/2×W/2のビデオフレームを出力することができる。該段階は、主に、処理対象フレームに対して特徴画像抽出を行う。デコーダの作動段階において、畳み込みニューラルネットワークにより、アップサンプリングを4回行うことができる。また、各回のサブサンプリングにおいて、入力された処理対象フレームH×W(Hは、処理対象フレームの高さを表し、Wは、処理対象フレームの幅を表す)に対して、2H×2Wのビデオフレームを出力することができる。該段階は、主に、デコーダにより抽出された特徴画像に基づいて元サイズのビデオフレームを復元する。ここで、サブサンプリング又はアップサンプリングの回数について、実際の状況に応じて具体的に設定することができ、本願の実施例は、具体的に限定するものではない。なお、図2から分かるように、一部の畳み込み層の出力と入力との間に、スキップ接続(skip connection)という接続関係がある。例えば、第6層と第22層との間に、スキップ接続関係がある。第9層と第19層との間に、スキップ接続関係がある。第12層と第16層との間にスキップ接続関係がある。これにより、デコーダ段階において、下位と上位の特徴を総合的に利用して、処理対象フレームのビデオ雑音除去効果をより好適にすることができる。
本願の実施例によるビデオ処理方法の全体的アーキテクチャを示す概略図である図6を参照されたい。図6に示すように、Xは、サンプルビデオシーケンスを入力するための入力側を表す。ここで、サンプルビデオシーケンスは、ビデオシーケンスから選択されたものである。該サンプルビデオシーケンスは、5つの連続フレーム(例えば、サンプル参照フレーム、サンプル参照フレームに隣接する前方の2つの隣接フレーム及びサンプル参照フレームに隣接する後方の2つの隣接フレーム)からなる。続いて、Xにより入力された連続フレームに対して座標予測及び重み予測を行う。座標予測について、座標予測ネットワーク(Vネットワークで表す)を確立し、Vネットワークにより、変形可能な畳み込みカーネルの予測座標を得ることができる。重み予測について、重み予測ネットワーク(Fネットワークで表す)を確立し、Fネットワークにより、変形可能な畳み込みカーネルの予測重みを得ることができる。続いて、Xにより入力された連続フレーム及び予測で得られた変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、所定サンプリングモデルにより、変形可能な畳み込みカーネルのサンプリング点(
Figure 0007086235000024
で表す)を出力する。変形可能な畳み込みカーネルのサンプリング点及び変形可能な畳み込みカーネルの予測重みに基づいて、変形可能な畳み込みカーネルのサンプリング点の重みを得ることができる。最後に、処理対象フレームにおける各画素点に対して、各画素点を変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みと畳み込み演算し、処理対象フレームにおける各画素点に対応する雑音除去値を得る。出力した結果は、雑音除去後のビデオフレーム(Yで表す)である。ビデオシーケンスにおける連続フレーム情報により、処理対象フレームに対する雑音除去処理を実現させるだけでなく、変形可能な畳み込みカーネルのサンプリング点の位置が変動可能なものであり(つまり、変形可能な畳み込みカーネルを用いる)、各サンプリング点の重みも変動可能なものであるため、ビデオ雑音除去の効果をより好適にすることができる。
S101の後に、変形可能な畳み込みカーネルのサンプリング点及のサンプリング点の重みを取得することができる。これにより、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みに基づいて、処理対象フレームに対して雑音除去処理を行うことで、雑音除去後のビデオフレームを得ることができる。
具体的には、雑音除去後のビデオフレームは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理することで得られたものである。幾つかの実施例において、本願の実施例による更にもう1つのビデオ処理方法を示すフローチャートである図7に示すように、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得る。該方法は、以下を含んでもよい。
S102aにおいて、前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得る。
各画素点に対応する雑音除去画素値は、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを加重加算することで得られたものであってもよい。具体的には、幾つかの実施例において、S102aは、以下を含んでもよい。
S102a-1において、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行う。
S102a-2において、演算結果に基づいて、各画素点に対応する雑音除去画素値を得る。
各画素点に対応する雑音除去画素値は、各画素点に対して、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを加重加算することで得られたものであってもよい。具体的には、処理対象フレームにおける各画素点に対して、該画素点と畳み込み演算する変形可能な畳み込みカーネルにN個のサンプリング点が含まれる。まず、各サンプリング点のサンプリング値と各サンプリング点の重みに対して加重加算を行い、続いて、これらN個のサンプリング点に対して加算を行い、最終的な結果は、処理対象フレームにおける各画素点に対応する雑音除去画素値である。具体的には、式(3)に示すとおりである。
Figure 0007086235000025
ただし、
Figure 0007086235000026
は、前記処理対象フレームにおける画素点位置
Figure 0007086235000027
での雑音除去画素値を表し、
Figure 0007086235000028
は、画素点位置
Figure 0007086235000029
でのn番目のサンプリング点のサンプリング値を表す。
Figure 0007086235000030
は、画素点位置
Figure 0007086235000031
でのn番目のサンプリング点の重みを表す。n=1,2,...,Nである。
これにより、上記式(3)で、前記処理対象フレームにおける各画素点に対応する雑音除去画素値を算出することができる。本願の実施例において、各サンプリング点の位置は、固定のものではなく、且つ、各サンプリング点の重みも異なる。つまり、本願の実施例の雑音除去処理は、変形可能な畳み込みカーネルを利用するだけでなく、変動可能な重みも利用する。従来技術における固定型畳み込みカーネル又は手動で設定された重みに比べて、処理対象フレームのビデオ処理の雑音除去効果を高くすることができる。
S102bにおいて、各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得る。
処理対象フレームにおける各画素点と対応する変形可能な畳み込みカーネルに対して畳み込み演算処理を行うことができ、つまり、処理対象フレームにおける各画素点を変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みと畳み込み演算処理を行い、各画素点に対応する雑音除去値を得ることができ、これにより、処理対象フレームに対する雑音除去処理を実現させることに留意されたい。
例示的には、所定サンプリングモデルは三重線形サンプラであると仮定する。図8は、本願の実施例によるビデオ処理方法の詳細なアーキテクチャを示す概略図である。図8に示すように、まず、サンプルビデオシーケンス801を入力する。該サンプルビデオシーケンス801は、連続した複数のビデオフレーム(例えば、サンプル参照フレーム、サンプル参照フレームに隣接する前方の2つの隣接フレーム及びサンプル参照フレームに隣接する後方の2つの隣接フレームを含む)からなる。続いて、深層ニューラルネットワークに基づいて、入力されたサンプルビデオシーケンス801に対して座標予測及び重み予測を行う。例えば、座標予測ネットワーク802及び重み予測ネットワーク803を確立することができる。これにより、座標予測ネットワーク802により、座標予測を行い、変形可能な畳み込みカーネルの予測座標804を得ることができる。重み予測ネットワーク803により、重み予測を行い、変形可能な畳み込みカーネルの予測重み805を得ることができる。入力されたサンプルビデオシーケンス801及び変形可能な畳み込みカーネルの予測座標804を三重線形サンプラ806に入力し、三重線形サンプラ806によりサンプリング処理を行う。三重線形サンプラ806からの出力は、変形可能な畳み込みカーネルのサンプリング点807である。続いて、変形可能な畳み込みカーネルのサンプリング点807及び変形可能な畳み込みカーネルの予測重み805と処理対象フレームに対して畳み込み演算808を行い、最後に、雑音除去後のビデオフレーム809を出力する。畳み込み演算808を行う前に、変形可能な畳み込みカーネルの予測座標804及び変形可能な畳み込みカーネルの予測重み805に基づいて、変形可能な畳み込みカーネルのサンプリング点の重みを得ることもできる。これにより、畳み込み演算808において、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みと処理対象フレームに対して畳み込み演算を行い、処理対象フレームの雑音除去処理を実現させることができる。
図8に示した詳細なアーキテクチャに基づいて、深層ニューラルネットワークにより、サンプルビデオシーケンスに対して深層ニューラルネットワーク訓練を行うことで、変形可能な畳み込みカーネルを得ることができる。なお、変形可能な畳み込みカーネルの予測座標及び予測重みについて、予測座標が変動可能なものであるため、各サンプリング点の位置は変動可能なものであり、更に、本願の実施例における変形可能な畳み込みカーネルが、固定型畳み込みカーネルではなく、変形可能な畳み込みカーネルであり、本願の実施例がフレームとフレームとの間に大きな動きがあるビデオ処理に適用可能であることに留意されたい。なお、サンプリング点によって、各サンプリング点の重みも異なる。つまり、本願の実施例は、変形可能な畳み込みカーネルを利用するだけでなく、変動可能な予測重みも利用する。従来技術における固定型畳み込みカーネル又は手動で設定された重みに比べて、処理対象フレームのビデオ処理の雑音除去効果を高くすることができる。
本願の実施例において、変形可能な畳み込みカーネルを用いることで、ビデオの連続フレームにおけるフレームとフレームとの間の動きによる画像ボケ、細部損失及びゴーストの問題を避けるだけでなく、画素レベルの情報に応じて、様々なサンプリング点を適応的に割り当て、ビデオの連続フレームにおける同一位置の移動を追跡することもできる。また、マルチフレーム情報を利用することで、単一フレーム情報の欠陥をより好適に補うこともでき、本願の実施例の方法をビデオ修復シーンに適用可能にする。なお、変形可能な畳み込みカーネルは、シーケンスオプティカルフローのための高効率抽出器と見做される。ビデオの連続フレームにおけるマルチフレーム情報を利用して、本願の実施例の方法を他の画素レベル情報に依存するビデオ処理シーンに適用することができる。これに加えて、ハードウェア品質が限られるか又は弱光の条件下で、本願の実施例の方法により、高品質のビデオイメージングの目的を達成することもできる。
上記実施例は、ビデオ処理方法を提供する。ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得し、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む。前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得る。該畳み込みパラメータは、ビデオの連続フレームの情報を抽出することで得られたものであるため、ビデオにおけるフレームとフレームとの間の動きによる画像ボケ、細部損失及びゴーストの問題を効果的に減少させることができる。また、サンプリング点の重みがサンプリング点の位置によって変動するため、ビデオの雑音除去効果をより好適にし、ビデオのイメージング品質を向上させることができる。
上記実施例と同様な構想によれば、本願の実施例によるビデオ処理装置90の構造を示す図9を参照すると、前記ビデオ処理装置90は、取得ユニット901と、雑音除去ユニット902と、を備え、
前記取得ユニット901は、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するように構成され、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、
前記雑音除去ユニット902は、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るように構成される。
上記技術的解決手段において、図9に示すように、前記ビデオ処理装置90は、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得るように構成される訓練ユニット903を更に備える。
上記技術的解決手段において、図9に示すように、前記ビデオ処理装置90は、予測ユニット904と、サンプリングユニット905と、を更に備え、
前記予測ユニット904は、深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得るように構成され、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも1つの隣接フレームを含み、
前記サンプリングユニット905は、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成され、
前記取得ユニット901は更に、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得て、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとするように構成される。
上記技術的解決手段において、前記サンプリングユニット905は具体的には、前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成される。
上記技術的解決手段において、前記取得ユニット901は更に、前記サンプル参照フレーム及び前記少なくとも1つの隣接フレームにおける画素点を取得するように構成され、
前記サンプリングユニット905は更に、前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定するように構成される。
上記技術的解決手段において、上記雑音除去ユニット902は具体的には、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得るように構成される。
上記技術的解決手段において、図9に示すように、前記ビデオ処理装置90は、前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得るように構成される畳み込みユニット906を更に備え、
前記雑音除去ユニット902は具体的には、各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得るように構成される。
上記技術的解決手段において、前記畳み込みユニット906は具体的には、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行い、演算結果に基づいて、各画素点に対応する雑音除去画素値を得るように構成される。
本実施例において、「ユニット」は、一部の回路、一部のプロセッサ、一部のプログラム又はソフトウェアであってもよく、勿論、モジュールであってもよく、更に、非モジュール化したものであってもよいことが理解されるべきである。また、本願の各実施例における各構成部分は一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。
上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器(パーソナルコンピュータ、サーバ又はネットワーク装置など)又はprocessor(プロセッサ)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読出し専用メモリ(Read Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
従って、本実施例は、コンピュータ記憶媒体を提供する。該コンピュータ記憶媒体にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムが少なくとも1つのプロセッサにより実行される時、前記実施例に記載の方法の工程を実現させる。
上記ビデオ処理装置90の構造及びコンピュータ記憶媒体によれば、本願の実施例によるビデオ処理装置90の具体的なハードウェア構造を示す図10に示すように、ネットワークインタフェース1001と、メモリ1002と、プロセッサ1003と、を備え、各ユニットは、バスシステム1004を介して結合される。バスシステム1004は、これらのユニットの接続通信に用いられることが理解されるべきである。バスシステム1004は、データバスに加えて、電源バス、制御バス及び状態信号バスを更に含む。説明を明確にするために、図10において、種々のバスをバスシステム1004と表記する。ここで、ネットワークインタフェース1001は、他のネットワーク要素との情報送受信において、信号を送受信するように構成され、
メモリ1002は、プロセッサ1003による実行可能なコンピュータプログラムを記憶するように構成される、
プロセッサ1003は、前記コンピュータプログラムを実行する時、
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得することであって、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む、ことと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることと、を実行するように構成される。
本願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムは、少なくとも1つのプロセッサにより実行される時、前記実施例に記載の方法の工程を実現させる。
理解すべき点として、本願の実施例におけるメモリ1002は、揮発性メモリ又は不揮発性メモリであってもよいし、揮発性メモリと不揮発性メモリの両方であってもよい。ここで、不揮発性メモリは、読み取り専用メモリ(Read Only Memory:ROM)、プログラマブル読み取り専用メモリ(Programmable Read-Only Memory:PROM)、消去可能なプログラマブル読み取り専用メモリ(Erasable Programmable Read-Only Memory:EPROM)、電気的消去可能なプログラマブル読み取り専用メモリ(Electrically Erasable Programmable Read-Only Memory:EEPROM)、又はフラッシュであってもよい。揮発性メモリは、外部キャッシュとして用いられるランダムアクセスメモリ(RAM:Random Access Memory)であってもよい。非限定的な例証として、RAMは、スタティックランダムアクセスメモリ(Static RAM:SRAM)、ダイナミックランダムアクセスメモリ(Dynamic RAM:DRAM)、同期ダイナミックランダムアクセスメモリ(Synchronous DRAM:SDRAM)、ダブルデータレート同期ダイナミックランダムアクセスメモリ(Double Data Rate SDRAM:DDRSDRAM)、エンハンスト同期ダイナミックランダムアクセスメモリ(Enhanced SDRAM:ESDRAM)、同期リンクダイナミックランダムアクセスメモリ(Synchlink DRAM:SLDRAM)及びダイレクトラムバスランダムアクセスメモリ(Direct Rambus RAM:DRRAM)などの多数の形態で使用可能である。本発明の実施例に記載されているメモリ1002は、これら及び任意の他の適切な形態のメモリを含むが、これらに限定されないことに留意されたい。
プロセッサ1003は、信号を処理する能力を有する集積回路チップであり得る。上記方法の各ステップは、実現する過程において、プロセッサ1003におけるハードウェアの集積論理回路又はソフトウェアの形の指令により完成することができる。上記プロセッサ1003は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor:DSP)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェア部材であってもよい。本願の実施例で開示された各方法、工程及びロジックブロック図を実現又は実行することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、該プロセッサは如何なる従来のプロセッサ等であってもよい。本発明の実施例に開示されている方法のステップに合わせて、ハードウェア解読プロセッサによって実行し、又は解読プロセッサ内のハードウェアとソフトウェアモジュールとの組み合わせで実行して完成するように示す。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュ、読出し専用メモリ、プログラマブル読出し専用メモリ又は電気的な消去可能なプログラマブルメモリ、レジスタ等の本分野における成熟した記憶媒体内に存在してもよい。該記憶媒体は、メモリ1002内に位置し、プロセッサ1003はメモリ1002中の情報を読み取り、そのハードウェアと共に上記方法のステップを完了する。
本明細書で説明したこれらの実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はそれらの組み合わせにより実現可能である。ハードウェアにより実現する時、処理ユニットは、1つ又は複数の特定用途向け集積回路(Application Specific Integrated Circuits:ASIC)、デジタル信号プロセッサ(Digital Signal Processing:DSP)、デジタル信号処理機器(DSP Device:DSPD)、プログラマブルロジックデバイス(Programmable Logic Device:PLD)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array:FPGA)、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本願に記載の機能を実行するための他の電子ユニット又は組み合わせにおいて実現されてもよい。
ソフトウェアにより実現する時、本明細書に記載の機能を実行するモジュール(例えば、プロセス、関数など)により、本明細書に記載の技術を実現させることができる。ソフトウェアコードは、メモリに記憶されてプロセッサにより実行される。メモリは、プロセッサ内部又は外部で実現されてもよい。
任意選択的に、もう1つの実施例として、プロセッサ1003は更に、前記コンピュータプログラムを実行する時、前記実施例に記載の方法の工程を実行するように構成される。
本願の実施例による端末装置110の構造を示す概略図である図11を参照されたい。前記端末装置110は、前記実施例に係るいずれか1つのビデオ処理装置90を少なくとも備える。
本明細書において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含むプロセス、方法、品目又は装置は、これらの要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このようなプロセス、方法、品目又は装置に固有の要素も含む。更なる限定が存在しない場合、“・・・を含む”なる文章によって規定される要素は、該要素を有するプロセス、方法、品目又は装置内に、同じ要素が更に存在することを排除しない。
上記の本願に係る実施例の番号は、ただ、記述するためのものであり、実施例の優劣を代表しない。
上記実施形態の説明により、上記実施例の方法は、ソフトウェアと必須な汎用ハードウェアプラットフォームとの組み合わせで実現することができ、勿論、ハードウェアにより実現することもできるが、多くの場合、前者は、より好適な実施形態であることを当業者が理解すべきである。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスク)に記憶しても良く、また、一台のコンピュータ機器(携帯電話、コンピュータ、サーバ、エアコン、又はネットワーク装置等)に、本願の各実施例に記載の方法を実行させるための若干の命令を含む。
以上は図面を参照しながら、本願の実施形態を説明した。本願は、上記具体的な実施形態に限定されず、上記具体的な実施形態は模式的なものに過ぎず、本願を限定するものではない。当業者は、本願に基づいて、本願の要旨及び特許請求の範囲の保護範囲から逸脱することなく、多くの実施形態を想到しうる。これらは、いずれも本願の保護範囲内に含まれる。

Claims (11)

  1. ビデオ処理方法であって、前記ビデオ処理方法は、
    ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得することであって、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む、ことと、
    前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることと
    を含み、
    ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得する前に、前記ビデオ処理方法は、
    深層ニューラルネットワークに基づいてサンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得ることであって、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも1つの隣接フレームを含む、ことと、
    前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることと、
    前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得ることと、
    前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとすることと
    を含む、ビデオ処理方法。
  2. 前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることは、
    前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得ることを含む、請求項1に記載のビデオ処理方法。
  3. 前記変形可能な畳み込みカーネルのサンプリング点を得た後、前記ビデオ処理方法は、
    前記サンプル参照フレーム及び前記少なくとも1つの隣接フレームにおける画素点を取得することと、
    前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定することと
    を更に含む、請求項2に記載のビデオ処理方法。
  4. 前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることは、
    変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることを含む、請求項1~3のうちいずれか一項に記載のビデオ処理方法。
  5. 変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることは、
    前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることと、
    各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得ることと
    を含む、請求項4に記載のビデオ処理方法。
  6. 各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることは、
    各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行うことと、
    演算結果に基づいて、各画素点に対応する雑音除去画素値を得ることと
    を含む、請求項5に記載のビデオ処理方法。
  7. ビデオ処理装置であって、前記ビデオ処理装置は、取得ユニットと雑音除去ユニットと予測ユニットとサンプリングユニットとを備え、
    前記取得ユニットは、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するように構成され、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、
    前記雑音除去ユニットは、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るように構成され、
    前記予測ユニットは、深層ニューラルネットワークに基づいてサンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得るように構成され、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも1つの隣接フレームを含み、
    前記サンプリングユニットは、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成され、
    前記取得ユニットは、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得て、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとするように更に構成される、ビデオ処理装置。
  8. ビデオ処理装置であって、前記ビデオ処理装置は、メモリとプロセッサとを備え、
    前記メモリは、前記プロセッサによって実行可能なコンピュータプログラムを記憶するように構成され、
    前記プロセッサは、前記コンピュータプログラムを実行すると、請求項1~6のうちいずれか一項に記載のビデオ処理方法を実行するように構成される、ビデオ処理装置。
  9. コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、ビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムは、少なくとも1つのプロセッサによって実行されると、請求項1~6のうちいずれか一項に記載のビデオ処理方法を実行することを前記少なくとも1つのプロセッサに行わせる、コンピュータ記憶媒体。
  10. 端末装置であって、前記端末装置は、少なくとも、請求項7に記載のビデオ処理装置を備える、端末装置。
  11. コンピュータプログラムであって、前記コンピュータプログラムは、ビデオ処理プログラムを含み、前記ビデオ処理プログラムは、少なくとも1つのプロセッサによって実行されると、請求項1~6のうちいずれか一項に記載のビデオ処理方法を実行することを前記少なくとも1つのプロセッサに行わせる、コンピュータプログラム。
JP2020573289A 2019-03-19 2019-10-30 ビデオ処理方法、装置及びコンピュータ記憶媒体 Active JP7086235B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910210075.5 2019-03-19
CN201910210075.5A CN109862208B (zh) 2019-03-19 2019-03-19 视频处理方法、装置、计算机存储介质以及终端设备
PCT/CN2019/114458 WO2020186765A1 (zh) 2019-03-19 2019-10-30 视频处理方法、装置以及计算机存储介质

Publications (2)

Publication Number Publication Date
JP2021530770A JP2021530770A (ja) 2021-11-11
JP7086235B2 true JP7086235B2 (ja) 2022-06-17

Family

ID=66901319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020573289A Active JP7086235B2 (ja) 2019-03-19 2019-10-30 ビデオ処理方法、装置及びコンピュータ記憶媒体

Country Status (6)

Country Link
US (1) US20210327033A1 (ja)
JP (1) JP7086235B2 (ja)
CN (1) CN109862208B (ja)
SG (1) SG11202108771RA (ja)
TW (1) TWI714397B (ja)
WO (1) WO2020186765A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862208B (zh) * 2019-03-19 2021-07-02 深圳市商汤科技有限公司 视频处理方法、装置、计算机存储介质以及终端设备
CN112580675A (zh) * 2019-09-29 2021-03-30 北京地平线机器人技术研发有限公司 图像处理方法及装置、计算机可读存储介质
CN113727141B (zh) * 2020-05-20 2023-05-12 富士通株式会社 视频帧的插值装置以及方法
CN113936163A (zh) * 2020-07-14 2022-01-14 武汉Tcl集团工业研究院有限公司 一种图像处理方法、终端以及存储介质
US11689713B2 (en) * 2020-07-15 2023-06-27 Tencent America LLC Predicted frame generation by deformable convolution for video coding
CN113744156B (zh) * 2021-09-06 2022-08-19 中南大学 一种基于可变形卷积神经网络的图像去噪方法
CN114640796B (zh) * 2022-03-24 2024-02-09 北京字跳网络技术有限公司 视频处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292319A (zh) 2017-08-04 2017-10-24 广东工业大学 一种基于可变形卷积层的特征图像提取的方法及装置
CN107689034A (zh) 2017-08-16 2018-02-13 清华-伯克利深圳学院筹备办公室 一种神经网络的训练方法、去噪方法及装置
JP2018523182A (ja) 2015-04-28 2018-08-16 クゥアルコム・インコーポレイテッドQualcomm Incorporated 深層畳み込みネットワークにおいて画像解像度を低減すること

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358069A1 (en) * 2015-06-03 2016-12-08 Samsung Electronics Co., Ltd. Neural network suppression
US10043243B2 (en) * 2016-01-22 2018-08-07 Siemens Healthcare Gmbh Deep unfolding algorithm for efficient image denoising under varying noise conditions
CN106408522A (zh) * 2016-06-27 2017-02-15 深圳市未来媒体技术研究院 一种基于卷积对神经网络的图像去噪方法
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN107103590B (zh) * 2017-03-22 2019-10-18 华南理工大学 一种基于深度卷积对抗生成网络的图像反射去除方法
US10409888B2 (en) * 2017-06-02 2019-09-10 Mitsubishi Electric Research Laboratories, Inc. Online convolutional dictionary learning
CN107495959A (zh) * 2017-07-27 2017-12-22 大连大学 一种基于一维卷积神经网络的心电信号分类方法
WO2019019199A1 (en) * 2017-07-28 2019-01-31 Shenzhen United Imaging Healthcare Co., Ltd. SYSTEM AND METHOD FOR IMAGE CONVERSION
CN107516304A (zh) * 2017-09-07 2017-12-26 广东工业大学 一种图像去噪方法及装置
CN107609519B (zh) * 2017-09-15 2019-01-22 维沃移动通信有限公司 一种人脸特征点的定位方法及装置
CN107609638B (zh) * 2017-10-12 2019-12-10 湖北工业大学 一种基于线性编码器和插值采样优化卷积神经网络的方法
WO2019075669A1 (zh) * 2017-10-18 2019-04-25 深圳市大疆创新科技有限公司 视频处理方法、设备、无人机及计算机可读存储介质
CN107886162A (zh) * 2017-11-14 2018-04-06 华南理工大学 一种基于wgan模型的可变形卷积核方法
CN107909113B (zh) * 2017-11-29 2021-11-16 北京小米移动软件有限公司 交通事故图像处理方法、装置及存储介质
CN108197580B (zh) * 2018-01-09 2019-07-23 吉林大学 一种基于3d卷积神经网络的手势识别方法
CN108805265B (zh) * 2018-05-21 2021-03-30 Oppo广东移动通信有限公司 神经网络模型处理方法和装置、图像处理方法、移动终端
CN109862208B (zh) * 2019-03-19 2021-07-02 深圳市商汤科技有限公司 视频处理方法、装置、计算机存储介质以及终端设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018523182A (ja) 2015-04-28 2018-08-16 クゥアルコム・インコーポレイテッドQualcomm Incorporated 深層畳み込みネットワークにおいて画像解像度を低減すること
CN107292319A (zh) 2017-08-04 2017-10-24 广东工业大学 一种基于可变形卷积层的特征图像提取的方法及装置
CN107689034A (zh) 2017-08-16 2018-02-13 清华-伯克利深圳学院筹备办公室 一种神经网络的训练方法、去噪方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jian Zhu, Leyuan Fang and Pedram Ghamisi,Deformable ConvolutionalNeural Networks for Hyperspectral Image Classification,The IEEE GEOSCIENCEAND REMOTESENSING LETTERS,VOL. 15, NO. 8,IEEE,2018年08月,1254-1258
Qingyang Xu, Chengjin Zhang and Li Zhang,Denoising ConvolutionalNeural Network,The Proceeding of the2015 IEEE International Conference onInformation and Automation Lijiang,IEEE,2015年08月,1184-1187

Also Published As

Publication number Publication date
TWI714397B (zh) 2020-12-21
JP2021530770A (ja) 2021-11-11
SG11202108771RA (en) 2021-09-29
WO2020186765A1 (zh) 2020-09-24
US20210327033A1 (en) 2021-10-21
TW202037145A (zh) 2020-10-01
CN109862208B (zh) 2021-07-02
CN109862208A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
JP7086235B2 (ja) ビデオ処理方法、装置及びコンピュータ記憶媒体
US11354785B2 (en) Image processing method and device, storage medium and electronic device
US9615039B2 (en) Systems and methods for reducing noise in video streams
US8390704B2 (en) Image deblurring using a spatial image prior
US8379120B2 (en) Image deblurring using a combined differential image
US11741581B2 (en) Training method for image processing model, image processing method, network device, and storage medium
WO2020215644A1 (zh) 视频图像处理方法及装置
US8203615B2 (en) Image deblurring using panchromatic pixels
EP3545686B1 (en) Methods and apparatus for generating video content
US20120300122A1 (en) Adaptive super resolution for video enhancement
US20140140626A1 (en) Edge Direction and Curve Based Image De-Blurring
CN110956219B (zh) 视频数据的处理方法、装置和电子系统
WO2020146911A2 (en) Multi-stage multi-reference bootstrapping for video super-resolution
WO2013151873A1 (en) Joint video stabilization and rolling shutter correction on a generic platform
CN113556442B (zh) 视频去噪方法、装置、电子设备及计算机可读存储介质
JPWO2011077659A1 (ja) 画像処理装置、撮像装置、及び画像処理方法
JP7357150B2 (ja) ジョイントローリングシャッター補正及び画像ぼけ除去
CN108629739B (zh) Hdr图像的生成方法、装置及移动终端
CN113379600A (zh) 基于深度学习的短视频超分辨率转换方法、装置及介质
JP4763415B2 (ja) 画像処理装置
WO2024130715A1 (zh) 视频处理方法、视频处理装置和可读存储介质
JP2007081905A (ja) 画像処理装置
Lee et al. A spatiotemporal denoising scheme for a mobile device
CN116962880A (zh) 一种基于深度学习图像分割的前景防抖方法及装置
CN117541507A (zh) 图像数据对的建立方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220607

R150 Certificate of patent or registration of utility model

Ref document number: 7086235

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150