JP7086235B2

JP7086235B2 - ビデオ処理方法、装置及びコンピュータ記憶媒体

Info

Publication number: JP7086235B2
Application number: JP2020573289A
Authority: JP
Inventors: ▲許▼翔宇; 李沐辰; ▲孫▼文秀
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2019-10-30
Publication date: 2022-06-17
Anticipated expiration: 2039-10-30
Also published as: TWI714397B; JP2021530770A; SG11202108771RA; WO2020186765A1; US20210327033A1; TW202037145A; CN109862208B; CN109862208A

Description

（関連出願の相互参照）
本願は、２０１９年０３月１９日に提出された、出願番号が２０１９１０２１００７５．５である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、コンピュータビジョン技術分野に関し、特に、ビデオ処理方法、装置及びコンピュータ記憶媒体に関する。

ビデオの収集、伝送及び受信過程において、種々の雑音がよく混入され、混入された雑音は、ビデオの視覚的品質を低減させる。例えば、カメラのレンズ絞り値が小さく、しかも弱光であるシーンで得られたビデオに、通常雑音が含まれ、雑音を含むビデオに大量の情報も含まれる。ビデオにおける雑音は、これらの情報に不確実性を持たせ、視聴者の視覚的感受に悪影響を与えてしまう。従って、ビデオに対する雑音除去は、重要な意義があり、これは、コンピュータビジョンにおける重要な検討課題になってきた。

しかしながら、現在の技術的解決手段に依然として欠点がある。特に、ビデオにおける連続したフレームとフレームとの間に動きが存在する場合、又はカメラ自体にブレが存在する場合、雑音を完全に除去できないだけでなく、ビデオにおける画像細部の損失又は画像縁のボケとゴーストも引き起こしやすい。

本願の実施例は、ビデオ処理方法、装置及びコンピュータ記憶媒体を提供する。

本願の技術的解決手段は、以下のように実現する。

第１態様によれば、本願の実施例は、ビデオ処理方法を提供する。前記方法は、
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得することであって、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む、ことと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることと、を含む。

上記技術的解決手段において、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得する前に、前記方法は、
サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得ることを更に含む。

上記技術的解決手段において、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得ることは、
深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得ることであって、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも１つの隣接フレームを含む、ことと、
前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることと、
前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得ることと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとすることと、を含む。

上記技術的解決手段において、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることは、
前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得ることを含む。

上記技術的解決手段において、前記変形可能な畳み込みカーネルのサンプリング点を得た後、前記方法は、
前記サンプル参照フレーム及び前記少なくとも１つの隣接フレームにおける画素点を取得することと、
前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定することと、を更に含む。

上記技術的解決手段において、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることは、
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることを含む。

上記技術的解決手段において、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることは、
前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることと、
各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得ることと、を含む。

上記技術的解決手段において、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることは、
各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行うことと、
演算結果に基づいて、各画素点に対応する雑音除去画素値を得ることと、を含む。

第２態様によれば、本願の実施例は、ビデオ処理装置を提供する。前記ビデオ処理装置は、取得ユニットと、雑音除去ユニットと、を備え、
前記取得ユニットは、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するように構成され、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、
前記雑音除去ユニットは、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るように構成される。

上記技術的解決手段において、前記ビデオ処理装置は、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得るように構成される訓練ユニットを更に備える。

上記技術的解決手段において、前記ビデオ処理装置は、予測ユニットと、サンプリングユニットと、を更に備え、
前記予測ユニットは、深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得るように構成され、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも１つの隣接フレームを含み、
前記サンプリングユニットは、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成され、
前記取得ユニットは更に、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得て、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとするように構成される。

上記技術的解決手段において、前記サンプリングユニットは具体的には、前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成される。

上記技術的解決手段において、前記取得ユニットは更に、前記サンプル参照フレーム及び前記少なくとも１つの隣接フレームにおける画素点を取得するように構成され、
前記サンプリングユニットは更に、前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定するように構成される。

上記技術的解決手段において、上記雑音除去ユニットは具体的には、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得るように構成される。

上記技術的解決手段において、前記ビデオ処理装置は、前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得るように構成される畳み込みユニットを更に備え、
前記雑音除去ユニットは具体的には、各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得るように構成される。

上記技術的解決手段において、前記畳み込みユニットは具体的には、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行い、演算結果に基づいて、各画素点に対応する雑音除去画素値を得るように構成される。

第３態様によれば、本願の実施例は、ビデオ処理装置を提供する。前記ビデオ処理装置は、メモリと、プロセッサと、を備え、
前記メモリは、前記プロセッサによる実行可能なコンピュータプログラムを記憶するように構成され、
前記プロセッサは、前記コンピュータプログラムを実行する時、第１態様におけるいずれか一項に記載の方法の工程を実行するように構成される。

第４態様によれば、本願の実施例は、コンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムが少なくとも１つのプロセッサにより実行される時、第１態様におけるいずれか一項に記載の方法の工程を実現させる。

第５態様によれば、本願の実施例は、端末装置を提供する。前記端末装置は、少なくとも、第２態様におけるいずれか一項、又は第３態様に記載のビデオ処理装置を備える。

第６態様によれば、本願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムは、少なくとも１つのプロセッサにより実行される時、第１態様におけるいずれか一項に記載の方法の工程を実現させる。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
ビデオ処理方法であって、前記方法は、
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得することであって、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む、ことと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることと、を含む、ビデオ処理方法。
（項目２）
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得する前に、前記方法は、
サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得ることを更に含むことを特徴とする
項目１に記載の方法。
（項目３）
サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得ることは、
深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得ることであって、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも１つの隣接フレームを含む、ことと、
前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることと、
前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得ることと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとすることと、を含むことを特徴とする
項目２に記載の方法。
（項目４）
前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることは、
前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得ることを含むことを特徴とする
項目３に記載の方法。
（項目５）
前記変形可能な畳み込みカーネルのサンプリング点を得た後、前記方法は、
前記サンプル参照フレーム及び前記少なくとも１つの隣接フレームにおける画素点を取得することと、
前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定することと、を更に含むことを特徴とする
項目４に記載の方法。
（項目６）
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることは、
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることを含むことを特徴とする
項目１から５のうちいずれか一項に記載の方法。
（項目７）
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることは、
前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることと、
各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得ることと、を含むことを特徴とする
項目６に記載の方法。
（項目８）
各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることは、
各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行うことと、
演算結果に基づいて、各画素点に対応する雑音除去画素値を得ることと、を含むことを特徴とする
項目７に記載の方法。
（項目９）
ビデオ処理装置であって、前記ビデオ処理装置は、取得ユニットと、雑音除去ユニットと、を備え、
前記取得ユニットは、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するように構成され、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、
前記雑音除去ユニットは、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るように構成される、ビデオ処理装置。
（項目１０）
前記ビデオ処理装置は、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得るように構成される訓練ユニットを更に備えることを特徴とする
項目９に記載の装置。
（項目１１）
前記ビデオ処理装置は、予測ユニットと、サンプリングユニットと、を更に備え、
前記予測ユニットは、深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得るように構成され、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも１つの隣接フレームを含み、
前記サンプリングユニットは、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成され、
前記取得ユニットは更に、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得て、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとするように構成されることを特徴とする
項目１０に記載の装置。
（項目１２）
前記サンプリングユニットは具体的には、前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成されることを特徴とする
項目１１に記載の装置。
（項目１３）
前記取得ユニットは更に、前記サンプル参照フレーム及び前記少なくとも１つの隣接フレームにおける画素点を取得するように構成され、
前記サンプリングユニットは更に、前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定するように構成されることを特徴とする
項目１２に記載の装置。
（項目１４）
前記雑音除去ユニットは具体的には、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得るように構成されることを特徴とする
項目９から１３のうちいずれか一項に記載の装置。
（項目１５）
前記ビデオ処理装置は、前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得るように構成される畳み込みユニットを更に備え、
前記雑音除去ユニットは具体的には、各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得るように構成されることを特徴とする
項目１４に記載の装置。
（項目１６）
前記畳み込みユニットは具体的には、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行い、演算結果に基づいて、各画素点に対応する雑音除去画素値を得るように構成されることを特徴とする
項目１５に記載の装置。
（項目１７）
ビデオ処理装置であって、前記ビデオ処理装置は、メモリと、プロセッサと、を備え、
前記メモリは、前記プロセッサによる実行可能なコンピュータプログラムを記憶するように構成され、
前記プロセッサは、前記コンピュータプログラムを実行する時、項目１から８のうちいずれか一項に記載の方法の工程を実行するように構成される、ビデオ処理装置。
（項目１８）
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムが少なくとも１つのプロセッサにより実行される時、前記少なくとも１つのプロセッサに、項目１から８のうちいずれか一項に記載の方法の工程を実現させる、コンピュータ記憶媒体。
（項目１９）
端末装置であって、前記端末装置は、少なくとも、項目９から１７のうちいずれか一項に記載のビデオ処理装置を備える、端末装置。
（項目２０）
コンピュータプログラム製品であって、前記コンピュータプログラム製品にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムは、少なくとも１つのプロセッサにより実行される時、前記少なくとも１つのプロセッサに、項目１から８のうちいずれか一項に記載の方法の工程を実現させる、コンピュータプログラム製品。

本願の実施例で提供されるビデオ処理方法、装置及びコンピュータ記憶媒体は、まず、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得し、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む。該畳み込みパラメータは、ビデオの連続フレームの情報を抽出することで得られたものであるため、ビデオにおけるフレームとフレームとの間の動きによる画像ボケ、細部損失及びゴーストの問題を効果的に減少させることができる。更に、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得る。これにより、サンプリング点の重みがサンプリング点の位置によって変動するため、ビデオの雑音除去効果をより好適にし、ビデオのイメージング品質を向上させることができる。

本願の実施例によるビデオ処理方法を示すフローチャートである。本願の実施例による深層ニューラルネットワークの構造を示す概略図である。本願の実施例によるもう１つのビデオ処理方法を示すフローチャートである。本願の実施例によるまた１つのビデオ処理方法を示すフローチャートである。本願の実施例による更にもう１つのビデオ処理方法を示すフローチャートである。本願の実施例によるビデオ処理方法の全体的アーキテクチャを示す概略図である。本願の実施例による更にもう１つのビデオ処理方法を示すフローチャートである。本願の実施例によるビデオ処理方法の詳細なアーキテクチャを示す概略図である。本願の実施例によるビデオ処理装置の構造を示す概略図である。本願の実施例によるビデオ処理装置の具体的なハードウェア構造を示す概略図である。本願の実施例による端末装置の構造を示す概略図である。

以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。

本願の実施例は、ビデオ処理方法を提供する。該方法は、ビデオ処理装置に適用され、該装置は、スマートフォン、タブレット、ノートパソコン、パームトップパソコン、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ポータブルメディアプレーヤー（ＰｏｒｔａｂｌｅＭｅｄｉａＰｌａｙｅｒ：ＰＭＰ）、ウェアラブル機器、ナビゲータなどの携帯型端末装置に配置されてもよく、例えばデジタルＴＶ、デスクトップパソコンなどの固定型端末装置に配置されてもよく、本願の実施例は、これを具体的に限定するものではない。

本願の実施例によるビデオ処理方法を示すフローチャートである図１を参照すると、該方法は、以下を含んでもよい。

Ｓ１０１において、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得し、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む。

ビデオシーケンスは、カメラ、スマートフォン、タブレット及び多くの他の端末装置により収集されて捕捉されたものである。ここで、小型カメラ及びスマートフォン、タブレットなどの端末装置に、一般的には、サイズが小さい画像センサ及び望ましくない光学素子が配置されることが多い。この場合、ビデオフレームの雑音除去処理は、これらの機器にとって極めて重要である。ハイエンドカメラ及びカムコーダ等に、一般的に、サイズがより大きい画像センサ及びより好適な光学素子が配置されることが多い、これらの機器により捕捉されたビデオフレームは、正常な光照射条件で望ましいイメージング品質を有する。しかしながら、弱光のシーンで捕捉されたビデオフレームに、大量の雑音が含まれることも多い。この場合、ビデオフレームの雑音除去処理は、依然として必要である。

従って、カメラ、スマートフォン、タブレット及び多くの他の端末装置による収集で、ビデオシーケンスを取得することができる。ここで、該ビデオシーケンスに、雑音除去を必要とする処理対象フレームが含まれる。該ビデオシーケンスにおける連続フレーム（即ち、連続した複数のビデオフレーム）に対して深層ニューラルネットワーク訓練を行うことで、変形可能な畳み込みカーネルを得ることができる。続いて、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを取得して、処理対象フレームの畳み込みパラメータとする。

幾つかの実施例において、深層畳み込みニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＤｅｅｐＣＮＮ）は、畳み込み演算を含み且つ深層構造を備えるフィードフォワードニューラルネットワークであり、深層ニューラルネットワークによる深層学習の代表的なアルゴリズムの１つである。

本願の実施例による深層畳み込みニューラルネットワークの構造を示す概略図である図２を参照されたい。図２に示すように、該深層畳み込みニューラルネットワークの構造に、畳み込み層、プーリング層及び双線形アップサンプリング層が含まれる。色で塗りつぶされていない層は、畳み込み層であり、黒色で塗りつぶされている層は、プーリング層であり、灰色で塗りつぶされている層は、双線形アップサンプリング層である。各層に対応するチャネル数（即ち、各畳み込み層に含まれる変形可能な畳み込みカーネルの数）は、表１に示す通りである。表１から分かるように、先頭からの２５層の座標予測ネットワーク（Ｖネットワークで表される）と重み予測ネットワーク（Ｆネットワークで表される）のチャネル数は同じであり、ＶネットワークとＦネットワークは、先頭からの２５層の特徴情報を共有できることを表す。従って、特徴情報の共有により、ネットワークの演算量を低減させることができる。ここで、Ｆネットワークは、サンプルビデオシーケンス（即ち、連続した複数のビデオフレーム）により、変形可能な畳み込みカーネルの予測重みを取得するために用いられ、Ｖネットワークは、サンプルビデオシーケンス（即ち、連続した複数のビデオフレーム）により、変形可能な畳み込みカーネルの予測座標を取得するために用いられる。変形可能な畳み込みカーネルの予測座標に基づいて、変形可能な畳み込みカーネルのサンプリング点を得ることができる。変形可能な畳み込みカーネルの予測重み及び変形可能な畳み込みカーネルの予測座標に基づいて、変形可能な畳み込みカーネルのサンプリング点の重みを得て、更に畳み込みパラメータを得ることができる。

Ｓ１０２において、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得る。

処理対象フレームに対応する畳み込みパラメータを得た後、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを処理対象フレームと畳み込み演算処理することもできる。畳み込み演算の結果は、雑音除去後のビデオフレームである。

具体的には、幾つかの実施例において、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るＳ１０２について、該方法は、
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることを含んでもよい。

つまり、処理対象フレームの雑音除去処理は、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを処理対象フレームと畳み込み処理することで実現してもよい。例えば、処理対象フレームにおける各画素点にに対して、各画素点と変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みに対して加重加算を行うことで、各画素点に対応する雑音除去画素値を得ることで、処理対象フレームの雑音除去処理を実現させることができる。

本願の実施例において、ビデオシーケンスに、雑音除去処理を必要とする処理対象フレームが含まれる。ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得し、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得、該畳み込みパラメータは、ビデオの連続フレームの情報を抽出することで得られたものであるため、ビデオにおけるフレームとフレームとの間の動きによる画像ボケ、細部損失及びゴーストの問題を効果的に減少させることができる。また、サンプリング点の重みがサンプリング点の位置によって変動するため、ビデオの雑音除去効果をより好適にし、ビデオのイメージング品質を向上させることができる。

変形可能な畳み込みカーネルを得るために、幾つかの実施例において、本願の実施例によるもう１つのビデオ処理方法を示すフローチャートである図３に示すように、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するＳ１０１の前に、該方法は以下を更に含んでもよい。

Ｓ２０１において、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得る。

ビデオシーケンスから、連続した複数のビデオフレームをサンプルビデオシーケンスとして選択し、サンプルビデオシーケンスに、サンプル参照フレームが含まれるだけでなく、サンプル参照フレームに隣接する少なくとも１つの隣接フレームが更に含まれることに留意されたい。ここで、少なくとも１つの隣接フレームは、該サンプル参照フレームに隣接する前方の少なくとも１つの隣接フレームであってもよく、該サンプル参照フレームに隣接する後方の少なくとも１つの隣接フレームであってもよく、また、該サンプル参照フレームに隣接する前方及び後方の複数の隣接フレームであってもよく、本願は、これを具体的に限定するものではない。以下、該サンプル参照フレームに隣接する前方及び後方の複数の隣接フレームをサンプルビデオシーケンスとすることを例として説明する。例えば、サンプル参照フレームがビデオシーケンスにおける第０フレームとすれば、該サンプル参照フレームに隣接する少なくとも１つの隣接フレームは、前方に隣接する第－Ｔフレーム、第－（Ｔ－１）フレーム、……、第－２フレーム、第－１フレーム、及び後方に隣接する第１フレーム、第２フレーム、…、第（Ｔ－１）フレーム、第Ｔフレームを含み、つまり、該サンプルビデオシーケンスにおいて計（２Ｔ＋１）フレームがあり、且つこれらのフレームは連続フレームである。

本願の実施例において、サンプルビデオシーケンスに対して深層ニューラルネットワークの訓練を行うことで、変形可能な畳み込みカーネルを得ることができる。処理対象フレームにおける各画素点が、対応する変形可能な畳み込みカーネルと畳み込み演算処理ができ、それによって処理対象フレームを雑音除去処理することができる。従来技術における固定の畳み込みカーネルに比べて、本願の実施例は、変形可能な畳み込みカーネルを用いることで、処理対象フレームのビデオ処理においてより好適な雑音除去効果を達成することができる。なお、本願の実施例は、三次元畳み込み演算を行うため、これに対応する変形可能な畳み込みカーネルも三次元のものである。特に断らない限り、本願の実施例における変形可能な畳み込みカーネルは、いずれも三次元変形可能な畳み込みカーネルを指す。

幾つかの実施例において、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みに対して、深層ニューラルネットワークにより、サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して座標予測及び重み予測を行うことができる。まず、変形可能な畳み込みカーネルの予測座標及び予測重みを得て、続いて、予測座標及び予測重みにより、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを更に得る。

幾つかの実施例において、本願の実施例によるまた１つのビデオ処理方法を示すフローチャートである図４に示すように、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得るＳ２０１について、該方法は、以下を含んでもよい。

Ｓ２０１ａにおいて、深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得る。

連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも１つの隣接フレームを含むことに留意されたい。少なくとも１つの隣接フレームは、それに隣接する前方のＴフレーム及びそれに隣接する後方のＴフレームを含むとした場合、連続した複数のビデオフレームは、計（２Ｔ＋１）フレームである。深層ニューラルネットワークにより、これら連続した複数のビデオフレーム（例えば、計（２Ｔ＋１）フレーム）に対して深層学習を行い、学習結果に基づいて座標予測ネットワーク及び重み予測ネットワークを確立する。続いて、座標予測ネットワークにより、座標予測を行うことで、変形可能な畳み込みカーネルの予測座標を得ることができる。重み予測ネットワークにより、重み予測を行うことで、変形可能な畳み込みカーネルの予測重みを得ることができる。ここで、処理対象フレームは、サンプルビデオシーケンスにおけるサンプル参照フレームであってもよい。これによりビデオ雑音除去処理を行う。

例示的には、サンプルビデオシーケンスにおける各フレームの幅はＷで表され、高さがＨで表されるとすれば、処理対象フレームに含まれる画素点の数は、Ｈ×Ｗ個である。変形可能な畳み込みカーネルが三次元のものであり、且つ変形可能な畳み込みカーネルはＮ個のサンプリング点でからなるものであるため、処理対象フレームにおける取得可能な変形可能な畳み込みカーネルの予測座標の数は、Ｈ×Ｗ×Ｎ×３個であり、処理対象フレームにおける取得可能な変形可能な畳み込みカーネルの予測重みの数は、Ｈ×Ｗ×Ｎ個である。

Ｓ２０１ｂにおいて、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得る。

変形可能な畳み込みカーネルの予測座標及び変形可能な畳み込みカーネルの予測重みを得た後、変形可能な畳み込みカーネルの予測座標をサンプリングすることで、変形可能な畳み込みカーネルのサンプリング点を得ることができる。

具体的には、所定サンプリングモデルにより、変形可能な畳み込みカーネルの予測座標に対してサンプリング処理を行うことができる。幾つかの実施例において、本願の実施例による更にもう１つのビデオ処理方法を示すフローチャートである図５に示すように、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るＳ２０１ｂについて、該方法は、以下を含んでもよい。

Ｓ２０１ｂ－１において、前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得る。

所定サンプリングモデルは、事前設定された、変形可能な畳み込みカーネルの予測座標に対してサンプリング処理を行うためのモデルであることに留意されたい。本願の実施例において、所定サンプリングモデルは、三重線形サンプラであってもよく、他のサンプリングモデルであってもよく、本願の実施例は、これを具体的に限定するものではない。

所定サンプリングモデルに基づいて、前記変形可能な畳み込みカーネルのサンプリング点を得た後、前記方法は以下を更に含んでもよい。

Ｓ２０１ｂ－２において、前記サンプル参照フレーム及び前記少なくとも１つの隣接フレームにおける画素点を取得する。

サンプル参照フレーム及び前記少なくとも１つの隣接フレームが計（２Ｔ＋１）フレームであり、且つ各フレームの幅がＷで表され、高さがＨで表される場合、取得可能な画素点の数は、Ｈ×Ｗ×（２Ｔ＋１）個である。

Ｓ２０１ｂ－３において、前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定する。

所定サンプリングモデルに基づいて、全ての画素点及び変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力することができ、所定サンプリングモデルからの出力は、変形可能な畳み込みカーネルのサンプリング点及のサンプリング点のサンプリング値であることに留意されたい。従って、得られたサンプリング点の数がＨ×Ｗ×Ｎ個である場合、対応するサンプリング値の数もＨ×Ｗ×Ｎ個である。

例示的には、三重線形サンプラを例として、三重線形サンプラは、変形可能な畳み込みカーネルの予測座標に基づいて、変形可能な畳み込みカーネルのサンプリング点を決定することができるだけでなく、サンプリングに対応するサンプリング値を決定することもできる。ここで、サンプルビデオシーケンスにおける（２Ｔ＋１）フレームを例として、該（２Ｔ＋１）フレームは、サンプル参照フレーム、サンプル参照フレームに隣接する前方のＴ個の隣接フレーム及びサンプル参照フレームに隣接する後方のＴ個の隣接フレームからなる。該（２Ｔ＋１）フレームに含まれる画素点の数は、Ｈ×Ｗ×（２Ｔ＋１）個である。これらのＨ×Ｗ×（２Ｔ＋１）個の画素点に対応する画素値及びＨ×Ｗ×Ｎ×３個の予測座標を同時に三重線形サンプラに入力してサンプリング演算を行う。例えば、該三重線形サンプラのサンプリング演算は、式（１）に示すとおりである。

ただし、

は、画素点位置

でのｎ番目のサンプリング点のサンプリング値を表す。ｎは、１以上Ｎ以下の正整数であり、

はそれぞれ画素点位置

でのｎ番目のサンプリング点の、３つの次元（水平次元、垂直時間及び時間次元）での予測座標を表す。

は、ビデオシーケンスにおける第ｍフレームの画素点位置

での画素値を表す。

なお、変形可能な畳み込みカーネルにとって、変形可能な畳み込みカーネルの予測座標は変動可能なものである。各サンプリング点の位置座標

でいずれも相対的なオフセット変数が追加された。具体的には、

は、それぞれ下記式で表される。

ただし、

は、画素点位置

でのｎ番目のサンプリング点の水平次元での予測座標を表す。

は、画素点位置

でのｎ番目のサンプリング点の、水平次元でのオフセット変数を表す。

は、画素点位置

でのｎ番目のサンプリング点の、垂直次元での予測座標を表す。

は、画素点位置

でのｎ番目のサンプリング点の、垂直次元でのオフセット変数を表す。

は、画素点位置

でのｎ番目のサンプリング点の、時間次元での予測座標を表す。

は、画素点位置

でのｎ番目のサンプリング点の、時間次元でのオフセット変数を表す。

本願の実施例において、変形可能な畳み込みカーネルのサンプリング点を決定することができる。一方で、各サンプリング点のサンプリング値を得ることもできる。変形可能な畳み込みカーネルの予測座標が変動可能であるため、各サンプリング点の位置が固定のものではないことを表す。つまり、本願の実施例における変形可能な畳み込みカーネルは、固定型畳み込みカーネルではなく、変形可能な畳み込みカーネルである。従来技術における固定型畳み込みカーネルに比べて、本願の実施例は、変形可能な畳み込みカーネルを用いることで、処理対象フレームに対するビデオ処理に、より高い雑音除去効果を達成させる。

Ｓ２０１ｃにおいて、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得る。

Ｓ２０１ｄにおいて、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとする。

変形可能な畳み込みカーネルのサンプリング点を得た後、取得された変形可能な畳み込みカーネルの予測座標及び変形可能な畳み込みカーネルの予測重みに基づいて、変形可能な畳み込みカーネルのサンプリング点の重みを得ることもでき、これにより、処理対象フレームに対応する畳み込みパラメータを得ることに留意されたい。ここの予測座標は、変形可能な畳み込みカーネルの相対的座標値を指すことに留意されたい。

なお、本願の実施例において、サンプルビデオシーケンスにおける各フレームの幅はＷで表され、高さがＨで表されるとするとした場合、変形可能な畳み込みカーネルが三次元のものであり、且つ変形可能な畳み込みカーネルはＮ個のサンプリング点でからなるものであるため、処理対象フレームにおける取得可能な変形可能な畳み込みカーネルの予測座標の数は、Ｈ×Ｗ×Ｎ×３個であり、処理対象フレームにおける取得可能な変形可能な畳み込みカーネルの予測重みの数は、Ｈ×Ｗ×Ｎ個である。幾つかの実施例において、取得可能な変形可能な畳み込みカーネルのサンプリング点の数は、Ｈ×Ｗ×Ｎ個であり、サンプリング点の重みの数もＨ×Ｗ×Ｎ個である。

例示的に、同じく、図２に示した深層畳み込みニューラルネットワークを例として、各畳み込み層に含まれる変形可能な畳み込みカーネルのサイズが同じであると仮定し、例えば、変形可能な畳み込みカーネルに含まれるサンプリング点の数はＮである。一般的には、Ｎの値は、９であってもよく、実際の適用において、実際の状況に応じて具体的に設定してもよく、本願の実施例は、これを具体的に限定するものではない。これらＮ個のサンプリング点について、本願の実施例において、変形可能な畳み込みカーネルの予測座標が変動可能なものであるため、各サンプリング点の位置は固定のものではなく、Ｖネットワークによれば、各サンプリング点に、相対的オフセットが存在し、更に、本願の実施例における変形可能な畳み込みカーネルが、固定型畳み込みカーネルではなく、変形可能な畳み込みカーネルであり、本願の実施例がフレームとフレームとの間に大きな動きがあるビデオ処理に適用可能であることに留意されたい。なお、サンプリング点によって、Ｆネットワークで得られた各サンプリング点の重みも異なる。つまり、本願の実施例は、変形可能な畳み込みカーネルを利用するだけでなく、変動可能な重みも利用する。従来技術における固定型畳み込みカーネル又は手動で設定された重みに比べて、処理対象フレームのビデオ処理の雑音除去効果を高くすることができる。

図２に示した深層畳み込みニューラルネットワークについて、該ネットワークは、エンコーダ－デコーダの設計構造を用いることもできる。ここで、エンコーダの作動段階において、畳み込みニューラルネットワークにより、サブサンプリングを４回行うことができる。また、各回のサブサンプリングにおいて、入力された処理対象フレームＨ×Ｗ（Ｈは、処理対象フレームの高さを表し、Ｗは、処理対象フレームの幅を表す）に対して、Ｈ／２×Ｗ／２のビデオフレームを出力することができる。該段階は、主に、処理対象フレームに対して特徴画像抽出を行う。デコーダの作動段階において、畳み込みニューラルネットワークにより、アップサンプリングを４回行うことができる。また、各回のサブサンプリングにおいて、入力された処理対象フレームＨ×Ｗ（Ｈは、処理対象フレームの高さを表し、Ｗは、処理対象フレームの幅を表す）に対して、２Ｈ×２Ｗのビデオフレームを出力することができる。該段階は、主に、デコーダにより抽出された特徴画像に基づいて元サイズのビデオフレームを復元する。ここで、サブサンプリング又はアップサンプリングの回数について、実際の状況に応じて具体的に設定することができ、本願の実施例は、具体的に限定するものではない。なお、図２から分かるように、一部の畳み込み層の出力と入力との間に、スキップ接続（ｓｋｉｐｃｏｎｎｅｃｔｉｏｎ）という接続関係がある。例えば、第６層と第２２層との間に、スキップ接続関係がある。第９層と第１９層との間に、スキップ接続関係がある。第１２層と第１６層との間にスキップ接続関係がある。これにより、デコーダ段階において、下位と上位の特徴を総合的に利用して、処理対象フレームのビデオ雑音除去効果をより好適にすることができる。

本願の実施例によるビデオ処理方法の全体的アーキテクチャを示す概略図である図６を参照されたい。図６に示すように、Ｘは、サンプルビデオシーケンスを入力するための入力側を表す。ここで、サンプルビデオシーケンスは、ビデオシーケンスから選択されたものである。該サンプルビデオシーケンスは、５つの連続フレーム（例えば、サンプル参照フレーム、サンプル参照フレームに隣接する前方の２つの隣接フレーム及びサンプル参照フレームに隣接する後方の２つの隣接フレーム）からなる。続いて、Ｘにより入力された連続フレームに対して座標予測及び重み予測を行う。座標予測について、座標予測ネットワーク（Ｖネットワークで表す）を確立し、Ｖネットワークにより、変形可能な畳み込みカーネルの予測座標を得ることができる。重み予測について、重み予測ネットワーク（Ｆネットワークで表す）を確立し、Ｆネットワークにより、変形可能な畳み込みカーネルの予測重みを得ることができる。続いて、Ｘにより入力された連続フレーム及び予測で得られた変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、所定サンプリングモデルにより、変形可能な畳み込みカーネルのサンプリング点（

で表す）を出力する。変形可能な畳み込みカーネルのサンプリング点及び変形可能な畳み込みカーネルの予測重みに基づいて、変形可能な畳み込みカーネルのサンプリング点の重みを得ることができる。最後に、処理対象フレームにおける各画素点に対して、各画素点を変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みと畳み込み演算し、処理対象フレームにおける各画素点に対応する雑音除去値を得る。出力した結果は、雑音除去後のビデオフレーム（Ｙで表す）である。ビデオシーケンスにおける連続フレーム情報により、処理対象フレームに対する雑音除去処理を実現させるだけでなく、変形可能な畳み込みカーネルのサンプリング点の位置が変動可能なものであり（つまり、変形可能な畳み込みカーネルを用いる）、各サンプリング点の重みも変動可能なものであるため、ビデオ雑音除去の効果をより好適にすることができる。

Ｓ１０１の後に、変形可能な畳み込みカーネルのサンプリング点及のサンプリング点の重みを取得することができる。これにより、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みに基づいて、処理対象フレームに対して雑音除去処理を行うことで、雑音除去後のビデオフレームを得ることができる。

具体的には、雑音除去後のビデオフレームは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理することで得られたものである。幾つかの実施例において、本願の実施例による更にもう１つのビデオ処理方法を示すフローチャートである図７に示すように、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得る。該方法は、以下を含んでもよい。

Ｓ１０２ａにおいて、前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得る。

各画素点に対応する雑音除去画素値は、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを加重加算することで得られたものであってもよい。具体的には、幾つかの実施例において、Ｓ１０２ａは、以下を含んでもよい。

Ｓ１０２ａ－１において、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行う。

Ｓ１０２ａ－２において、演算結果に基づいて、各画素点に対応する雑音除去画素値を得る。

各画素点に対応する雑音除去画素値は、各画素点に対して、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みを加重加算することで得られたものであってもよい。具体的には、処理対象フレームにおける各画素点に対して、該画素点と畳み込み演算する変形可能な畳み込みカーネルにＮ個のサンプリング点が含まれる。まず、各サンプリング点のサンプリング値と各サンプリング点の重みに対して加重加算を行い、続いて、これらＮ個のサンプリング点に対して加算を行い、最終的な結果は、処理対象フレームにおける各画素点に対応する雑音除去画素値である。具体的には、式（３）に示すとおりである。

ただし、

は、前記処理対象フレームにおける画素点位置

での雑音除去画素値を表し、

は、画素点位置

でのｎ番目のサンプリング点のサンプリング値を表す。

は、画素点位置

でのｎ番目のサンプリング点の重みを表す。ｎ＝１，２，．．．，Ｎである。

これにより、上記式（３）で、前記処理対象フレームにおける各画素点に対応する雑音除去画素値を算出することができる。本願の実施例において、各サンプリング点の位置は、固定のものではなく、且つ、各サンプリング点の重みも異なる。つまり、本願の実施例の雑音除去処理は、変形可能な畳み込みカーネルを利用するだけでなく、変動可能な重みも利用する。従来技術における固定型畳み込みカーネル又は手動で設定された重みに比べて、処理対象フレームのビデオ処理の雑音除去効果を高くすることができる。

Ｓ１０２ｂにおいて、各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得る。

処理対象フレームにおける各画素点と対応する変形可能な畳み込みカーネルに対して畳み込み演算処理を行うことができ、つまり、処理対象フレームにおける各画素点を変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みと畳み込み演算処理を行い、各画素点に対応する雑音除去値を得ることができ、これにより、処理対象フレームに対する雑音除去処理を実現させることに留意されたい。

例示的には、所定サンプリングモデルは三重線形サンプラであると仮定する。図８は、本願の実施例によるビデオ処理方法の詳細なアーキテクチャを示す概略図である。図８に示すように、まず、サンプルビデオシーケンス８０１を入力する。該サンプルビデオシーケンス８０１は、連続した複数のビデオフレーム（例えば、サンプル参照フレーム、サンプル参照フレームに隣接する前方の２つの隣接フレーム及びサンプル参照フレームに隣接する後方の２つの隣接フレームを含む）からなる。続いて、深層ニューラルネットワークに基づいて、入力されたサンプルビデオシーケンス８０１に対して座標予測及び重み予測を行う。例えば、座標予測ネットワーク８０２及び重み予測ネットワーク８０３を確立することができる。これにより、座標予測ネットワーク８０２により、座標予測を行い、変形可能な畳み込みカーネルの予測座標８０４を得ることができる。重み予測ネットワーク８０３により、重み予測を行い、変形可能な畳み込みカーネルの予測重み８０５を得ることができる。入力されたサンプルビデオシーケンス８０１及び変形可能な畳み込みカーネルの予測座標８０４を三重線形サンプラ８０６に入力し、三重線形サンプラ８０６によりサンプリング処理を行う。三重線形サンプラ８０６からの出力は、変形可能な畳み込みカーネルのサンプリング点８０７である。続いて、変形可能な畳み込みカーネルのサンプリング点８０７及び変形可能な畳み込みカーネルの予測重み８０５と処理対象フレームに対して畳み込み演算８０８を行い、最後に、雑音除去後のビデオフレーム８０９を出力する。畳み込み演算８０８を行う前に、変形可能な畳み込みカーネルの予測座標８０４及び変形可能な畳み込みカーネルの予測重み８０５に基づいて、変形可能な畳み込みカーネルのサンプリング点の重みを得ることもできる。これにより、畳み込み演算８０８において、変形可能な畳み込みカーネルのサンプリング点及びサンプリング点の重みと処理対象フレームに対して畳み込み演算を行い、処理対象フレームの雑音除去処理を実現させることができる。

図８に示した詳細なアーキテクチャに基づいて、深層ニューラルネットワークにより、サンプルビデオシーケンスに対して深層ニューラルネットワーク訓練を行うことで、変形可能な畳み込みカーネルを得ることができる。なお、変形可能な畳み込みカーネルの予測座標及び予測重みについて、予測座標が変動可能なものであるため、各サンプリング点の位置は変動可能なものであり、更に、本願の実施例における変形可能な畳み込みカーネルが、固定型畳み込みカーネルではなく、変形可能な畳み込みカーネルであり、本願の実施例がフレームとフレームとの間に大きな動きがあるビデオ処理に適用可能であることに留意されたい。なお、サンプリング点によって、各サンプリング点の重みも異なる。つまり、本願の実施例は、変形可能な畳み込みカーネルを利用するだけでなく、変動可能な予測重みも利用する。従来技術における固定型畳み込みカーネル又は手動で設定された重みに比べて、処理対象フレームのビデオ処理の雑音除去効果を高くすることができる。

本願の実施例において、変形可能な畳み込みカーネルを用いることで、ビデオの連続フレームにおけるフレームとフレームとの間の動きによる画像ボケ、細部損失及びゴーストの問題を避けるだけでなく、画素レベルの情報に応じて、様々なサンプリング点を適応的に割り当て、ビデオの連続フレームにおける同一位置の移動を追跡することもできる。また、マルチフレーム情報を利用することで、単一フレーム情報の欠陥をより好適に補うこともでき、本願の実施例の方法をビデオ修復シーンに適用可能にする。なお、変形可能な畳み込みカーネルは、シーケンスオプティカルフローのための高効率抽出器と見做される。ビデオの連続フレームにおけるマルチフレーム情報を利用して、本願の実施例の方法を他の画素レベル情報に依存するビデオ処理シーンに適用することができる。これに加えて、ハードウェア品質が限られるか又は弱光の条件下で、本願の実施例の方法により、高品質のビデオイメージングの目的を達成することもできる。

上記実施例は、ビデオ処理方法を提供する。ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得し、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む。前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得る。該畳み込みパラメータは、ビデオの連続フレームの情報を抽出することで得られたものであるため、ビデオにおけるフレームとフレームとの間の動きによる画像ボケ、細部損失及びゴーストの問題を効果的に減少させることができる。また、サンプリング点の重みがサンプリング点の位置によって変動するため、ビデオの雑音除去効果をより好適にし、ビデオのイメージング品質を向上させることができる。

上記実施例と同様な構想によれば、本願の実施例によるビデオ処理装置９０の構造を示す図９を参照すると、前記ビデオ処理装置９０は、取得ユニット９０１と、雑音除去ユニット９０２と、を備え、
前記取得ユニット９０１は、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するように構成され、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、
前記雑音除去ユニット９０２は、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るように構成される。

上記技術的解決手段において、図９に示すように、前記ビデオ処理装置９０は、サンプルビデオシーケンスに基づいて、深層ニューラルネットワークの訓練を行い、変形可能な畳み込みカーネルを得るように構成される訓練ユニット９０３を更に備える。

上記技術的解決手段において、図９に示すように、前記ビデオ処理装置９０は、予測ユニット９０４と、サンプリングユニット９０５と、を更に備え、
前記予測ユニット９０４は、深層ニューラルネットワークに基づいて、前記サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得るように構成され、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも１つの隣接フレームを含み、
前記サンプリングユニット９０５は、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成され、
前記取得ユニット９０１は更に、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得て、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとするように構成される。

上記技術的解決手段において、前記サンプリングユニット９０５は具体的には、前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成される。

上記技術的解決手段において、前記取得ユニット９０１は更に、前記サンプル参照フレーム及び前記少なくとも１つの隣接フレームにおける画素点を取得するように構成され、
前記サンプリングユニット９０５は更に、前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定するように構成される。

上記技術的解決手段において、上記雑音除去ユニット９０２は具体的には、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得るように構成される。

上記技術的解決手段において、図９に示すように、前記ビデオ処理装置９０は、前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得るように構成される畳み込みユニット９０６を更に備え、
前記雑音除去ユニット９０２は具体的には、各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得るように構成される。

上記技術的解決手段において、前記畳み込みユニット９０６は具体的には、各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行い、演算結果に基づいて、各画素点に対応する雑音除去画素値を得るように構成される。

本実施例において、「ユニット」は、一部の回路、一部のプロセッサ、一部のプログラム又はソフトウェアであってもよく、勿論、モジュールであってもよく、更に、非モジュール化したものであってもよいことが理解されるべきである。また、本願の各実施例における各構成部分は一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。

上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器（パーソナルコンピュータ、サーバ又はネットワーク装置など）又はｐｒｏｃｅｓｓｏｒ（プロセッサ）に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、読出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

従って、本実施例は、コンピュータ記憶媒体を提供する。該コンピュータ記憶媒体にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムが少なくとも１つのプロセッサにより実行される時、前記実施例に記載の方法の工程を実現させる。

上記ビデオ処理装置９０の構造及びコンピュータ記憶媒体によれば、本願の実施例によるビデオ処理装置９０の具体的なハードウェア構造を示す図１０に示すように、ネットワークインタフェース１００１と、メモリ１００２と、プロセッサ１００３と、を備え、各ユニットは、バスシステム１００４を介して結合される。バスシステム１００４は、これらのユニットの接続通信に用いられることが理解されるべきである。バスシステム１００４は、データバスに加えて、電源バス、制御バス及び状態信号バスを更に含む。説明を明確にするために、図１０において、種々のバスをバスシステム１００４と表記する。ここで、ネットワークインタフェース１００１は、他のネットワーク要素との情報送受信において、信号を送受信するように構成され、
メモリ１００２は、プロセッサ１００３による実行可能なコンピュータプログラムを記憶するように構成される、
プロセッサ１００３は、前記コンピュータプログラムを実行する時、
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得することであって、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む、ことと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることと、を実行するように構成される。

本願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品にビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムは、少なくとも１つのプロセッサにより実行される時、前記実施例に記載の方法の工程を実現させる。

理解すべき点として、本願の実施例におけるメモリ１００２は、揮発性メモリ又は不揮発性メモリであってもよいし、揮発性メモリと不揮発性メモリの両方であってもよい。ここで、不揮発性メモリは、読み取り専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、プログラマブル読み取り専用メモリ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＥＰＲＯＭ）、電気的消去可能なプログラマブル読み取り専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＥＥＰＲＯＭ）、又はフラッシュであってもよい。揮発性メモリは、外部キャッシュとして用いられるランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であってもよい。非限定的な例証として、ＲＡＭは、スタティックランダムアクセスメモリ（ＳｔａｔｉｃＲＡＭ：ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤｙｎａｍｉｃＲＡＭ：ＤＲＡＭ）、同期ダイナミックランダムアクセスメモリ（ＳｙｎｃｈｒｏｎｏｕｓＤＲＡＭ：ＳＤＲＡＭ）、ダブルデータレート同期ダイナミックランダムアクセスメモリ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳＤＲＡＭ：ＤＤＲＳＤＲＡＭ）、エンハンスト同期ダイナミックランダムアクセスメモリ（ＥｎｈａｎｃｅｄＳＤＲＡＭ：ＥＳＤＲＡＭ）、同期リンクダイナミックランダムアクセスメモリ（ＳｙｎｃｈｌｉｎｋＤＲＡＭ：ＳＬＤＲＡＭ）及びダイレクトラムバスランダムアクセスメモリ（ＤｉｒｅｃｔＲａｍｂｕｓＲＡＭ：ＤＲＲＡＭ）などの多数の形態で使用可能である。本発明の実施例に記載されているメモリ１００２は、これら及び任意の他の適切な形態のメモリを含むが、これらに限定されないことに留意されたい。

プロセッサ１００３は、信号を処理する能力を有する集積回路チップであり得る。上記方法の各ステップは、実現する過程において、プロセッサ１００３におけるハードウェアの集積論理回路又はソフトウェアの形の指令により完成することができる。上記プロセッサ１００３は、汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェア部材であってもよい。本願の実施例で開示された各方法、工程及びロジックブロック図を実現又は実行することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、該プロセッサは如何なる従来のプロセッサ等であってもよい。本発明の実施例に開示されている方法のステップに合わせて、ハードウェア解読プロセッサによって実行し、又は解読プロセッサ内のハードウェアとソフトウェアモジュールとの組み合わせで実行して完成するように示す。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュ、読出し専用メモリ、プログラマブル読出し専用メモリ又は電気的な消去可能なプログラマブルメモリ、レジスタ等の本分野における成熟した記憶媒体内に存在してもよい。該記憶媒体は、メモリ１００２内に位置し、プロセッサ１００３はメモリ１００２中の情報を読み取り、そのハードウェアと共に上記方法のステップを完了する。

本明細書で説明したこれらの実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はそれらの組み合わせにより実現可能である。ハードウェアにより実現する時、処理ユニットは、１つ又は複数の特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ：ＡＳＩＣ）、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ：ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤｅｖｉｃｅ：ＤＳＰＤ）、プログラマブルロジックデバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＰＬＤ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本願に記載の機能を実行するための他の電子ユニット又は組み合わせにおいて実現されてもよい。

ソフトウェアにより実現する時、本明細書に記載の機能を実行するモジュール（例えば、プロセス、関数など）により、本明細書に記載の技術を実現させることができる。ソフトウェアコードは、メモリに記憶されてプロセッサにより実行される。メモリは、プロセッサ内部又は外部で実現されてもよい。

任意選択的に、もう１つの実施例として、プロセッサ１００３は更に、前記コンピュータプログラムを実行する時、前記実施例に記載の方法の工程を実行するように構成される。

本願の実施例による端末装置１１０の構造を示す概略図である図１１を参照されたい。前記端末装置１１０は、前記実施例に係るいずれか１つのビデオ処理装置９０を少なくとも備える。

本明細書において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含むプロセス、方法、品目又は装置は、これらの要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このようなプロセス、方法、品目又は装置に固有の要素も含む。更なる限定が存在しない場合、“・・・を含む”なる文章によって規定される要素は、該要素を有するプロセス、方法、品目又は装置内に、同じ要素が更に存在することを排除しない。

上記の本願に係る実施例の番号は、ただ、記述するためのものであり、実施例の優劣を代表しない。

上記実施形態の説明により、上記実施例の方法は、ソフトウェアと必須な汎用ハードウェアプラットフォームとの組み合わせで実現することができ、勿論、ハードウェアにより実現することもできるが、多くの場合、前者は、より好適な実施形態であることを当業者が理解すべきである。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体（例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶しても良く、また、一台のコンピュータ機器（携帯電話、コンピュータ、サーバ、エアコン、又はネットワーク装置等）に、本願の各実施例に記載の方法を実行させるための若干の命令を含む。

以上は図面を参照しながら、本願の実施形態を説明した。本願は、上記具体的な実施形態に限定されず、上記具体的な実施形態は模式的なものに過ぎず、本願を限定するものではない。当業者は、本願に基づいて、本願の要旨及び特許請求の範囲の保護範囲から逸脱することなく、多くの実施形態を想到しうる。これらは、いずれも本願の保護範囲内に含まれる。

Claims

ビデオ処理方法であって、前記ビデオ処理方法は、
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得することであって、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含む、ことと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることと
を含み、
ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得する前に、前記ビデオ処理方法は、
深層ニューラルネットワークに基づいて、サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得ることであって、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも１つの隣接フレームを含む、ことと、
前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることと、
前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得ることと、
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとすることと
を含む、ビデオ処理方法。
前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得ることは、
前記変形可能な畳み込みカーネルの予測座標を所定サンプリングモデルに入力し、前記変形可能な畳み込みカーネルのサンプリング点を得ることを含む、請求項１に記載のビデオ処理方法。
前記変形可能な畳み込みカーネルのサンプリング点を得た後、前記ビデオ処理方法は、
前記サンプル参照フレーム及び前記少なくとも１つの隣接フレームにおける画素点を取得することと、
前記変形可能な畳み込みカーネルのサンプリング点に基づいて、所定サンプリングモデルにより、前記画素点及び前記変形可能な畳み込みカーネルの予測座標に対してサンプリング演算を行い、演算結果に基づいて、前記サンプリング点のサンプリング値を決定することと
を更に含む、請求項２に記載のビデオ処理方法。
前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得ることは、
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることを含む、請求項１～３のうちいずれか一項に記載のビデオ処理方法。
変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記処理対象フレームと畳み込み処理し、前記雑音除去後のビデオフレームを得ることは、
前記処理対象フレームにおける各画素点に対して、各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることと、
各画素点に対応する雑音除去画素値に基づいて、雑音除去後のビデオフレームを得ることと
を含む、請求項４に記載のビデオ処理方法。
各画素点を前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みと畳み込み演算し、各画素点に対応する雑音除去画素値を得ることは、
各画素点と前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに対して加重加算を行うことと、
演算結果に基づいて、各画素点に対応する雑音除去画素値を得ることと
を含む、請求項５に記載のビデオ処理方法。
ビデオ処理装置であって、前記ビデオ処理装置は、取得ユニットと雑音除去ユニットと予測ユニットとサンプリングユニットとを備え、
前記取得ユニットは、ビデオシーケンスにおける処理対象フレームに対応する畳み込みパラメータを取得するように構成され、前記畳み込みパラメータは、変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを含み、
前記雑音除去ユニットは、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みに基づいて、前記処理対象フレームに対して雑音除去処理を行い、雑音除去後のビデオフレームを得るように構成され、
前記予測ユニットは、深層ニューラルネットワークに基づいて、サンプルビデオシーケンスにおいて連続した複数のビデオフレームに対して、それぞれ座標予測及び重み予測を行い、前記変形可能な畳み込みカーネルの予測座標及び予測重みを得るように構成され、前記連続した複数のビデオフレームは、サンプル参照フレーム及び前記サンプル参照フレームの少なくとも１つの隣接フレームを含み、
前記サンプリングユニットは、前記変形可能な畳み込みカーネルの予測座標に対してサンプリングを行い、前記変形可能な畳み込みカーネルのサンプリング点を得るように構成され、
前記取得ユニットは、前記変形可能な畳み込みカーネルの予測座標及び予測重みに基づいて、前記変形可能な畳み込みカーネルのサンプリング点の重みを得て、前記変形可能な畳み込みカーネルのサンプリング点及び前記サンプリング点の重みを前記畳み込みパラメータとするように更に構成される、ビデオ処理装置。
ビデオ処理装置であって、前記ビデオ処理装置は、メモリとプロセッサとを備え、
前記メモリは、前記プロセッサによって実行可能なコンピュータプログラムを記憶するように構成され、
前記プロセッサは、前記コンピュータプログラムを実行すると、請求項１～６のうちいずれか一項に記載のビデオ処理方法を実行するように構成される、ビデオ処理装置。
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、ビデオ処理プログラムが記憶されており、前記ビデオ処理プログラムは、少なくとも１つのプロセッサによって実行されると、請求項１～６のうちいずれか一項に記載のビデオ処理方法を実行することを前記少なくとも１つのプロセッサに行わせる、コンピュータ記憶媒体。
端末装置であって、前記端末装置は、少なくとも、請求項７に記載のビデオ処理装置を備える、端末装置。
コンピュータプログラムであって、前記コンピュータプログラムは、ビデオ処理プログラムを含み、前記ビデオ処理プログラムは、少なくとも１つのプロセッサによって実行されると、請求項１～６のうちいずれか一項に記載のビデオ処理方法を実行することを前記少なくとも１つのプロセッサに行わせる、コンピュータプログラム。