JP7093886B2

JP7093886B2 - 画像処理方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP7093886B2
Application number: JP2021503598A
Authority: JP
Inventors: シャオオウタン; シンタオワン; ジュオジエチェン; コーユー; チャオドン; チェンチャンロイ
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2019-04-30
Filing date: 2019-08-19
Publication date: 2022-06-30
Anticipated expiration: 2039-08-19
Also published as: SG11202104181PA; US20210241470A1; CN110070511A; CN110070511B; TWI728465B; JP2021531588A; WO2020220517A1; TW202042174A

Description

（関連出願の相互参照）
本出願は、２０１９年４月３０日に提出された、出願番号が２０１９１０３６１２０８．９である中国特許出願に基づいて提出され、当該中国特許出願の優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。

本出願は、コンピュータビジョン技術分野に関し、具体的には画像処理方法及び装置、電子機器並びに記憶媒体に関する。

ビデオ修復は、一連の低品質の入力フームを復元して高品質の出力フレームを得るプロセスである。しかしながら、低品質のフレームシーケンスでは、高品質のフレームへの復元に必要な情報が失われている。ビデオ修復の主なタスクは、ビデオの超高解像、ビデオのボケ除去、ビデオノイズ除去等を含む。

通常、ビデオ修復のプロセスは、特徴抽出、マルチフレームアライメント、マルチフレームフュージョン及び再構築という４つのステップを含む。ここで、マルチフレームアライメント及びマルチフレームフュージョンは、ビデオ修復技術のキーポイントである。マルチフレームアライメントは、現在、オプティカルフローに基づいたアルゴリズムを用いることが多い。それはかかる時間が長く、且つ効果が低い。従って、上記アライメントを行ったマルチフレームフュージョン品質も低く、修復の誤差が発生することがある。

本出願の実施例は、画像処理方法及び装置、電子機器並びに記憶媒体を提供する。

本出願の実施例の第１態様において、画像処理方法を提供する。該方法は、
処理対象画像フレームと前記処理対象画像フレームに隣接する１つ又は複数の画像フレームとを含む画像フレームシーケンスを取得し、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることと、
前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定することと、
前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得て、前記フュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであることと、を含む。

任意選択的な実施形態において、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、
第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得て、ここで、前記第１画像特徴セットが、前記処理対象画像フレームの少なくとも１つの異なるスケールの特徴データを含み、前記第２画像特徴セットが、前記画像フレームシーケンスにおける１つの画像フレームの少なくとも１つの異なるスケールの特徴データを含むことを含む。

異なるスケールの画像特徴により画像アライメントを行うことで、アライメント特徴データを得ることにより、ビデオ修復におけるアライメントの課題を解決し、マルチフレームアライメントの精度を向上させることができる。特に、入力画像フレームに複雑かつ大きな動き、遮蔽及び／又はボケが存在するという課題を解決することができる。

任意選択的な実施形態において、第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、
前記第１画像特徴セット内のスケールが最も小さい第１特徴データ、及び前記第２画像特徴セット内のスケールが前記第１特徴データのスケールと同じである第２特徴データを取得し、前記第１特徴データと前記第２特徴データに対して画像アライメントを行い、第１アライメント特徴データを得ることと、
前記第１画像特徴セット内のスケールが二番目に小さい第３特徴データ、及び前記第２画像特徴セット内のスケールが前記第３特徴データのスケールと同じである第４特徴データを取得し、前記第１アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが前記第３特徴データのスケールと同じである第１アライメント特徴データを得ることと、
前記アップサンプリング畳み込み後の第１アライメント特徴データに基づいて、前記第３特徴データと前記第４特徴データに対して画像アライメントを行い、第２アライメント特徴データを得ることと、
スケールが前記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、前記スケールの昇順で上記のステップを繰り返して実行することと、
全ての前記第２画像特徴セットに基づいて上記のステップを実行して、前記複数のアライメント特徴データを得ることとを含む。

任意選択的な実施形態において、複数のアライメント特徴データを得る前に、前記方法は、
変形可能な畳み込みネットワークによって、各前記アライメント特徴データを調整し、調整後の前記複数のアライメント特徴データを得ることを更に含む。

任意選択的な実施形態において、前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することは、
各前記アライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することを含む。

任意選択的な実施形態において、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定することは、
所定の活性化関数、及び前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、前記各アライメント特徴データの重み情報を決定することを含む。

任意選択的な実施形態において、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることは、
フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることを含む。

任意選択的な実施形態において、フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることは、
要素レベル乗算によって、前記各アライメント特徴データと前記各アライメント特徴データの重み情報を乗算し、前記複数のアライメント特徴データの複数の変調特徴データを得ることと、
前記フュージョン畳み込みネットワークを利用して、前記複数の変調特徴データをフュージョンし、前記画像フレームシーケンスのフュージョン情報を得ることとを含む。

任意選択的な実施形態において、フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得た後に、前記方法は、
前記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成することと、
前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得、前記変調後のフュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであることとを更に含む。

任意選択的な実施形態において、前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得ることは、
前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、前記空間的特徴データにおける前記各要素点を対応的に変調し、前記変調後のフュージョン情報を得ることを含む。

任意選択的な実施形態において、前記画像処理方法は、ニューラルネットワークに基づいて実現され、
前記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、前記サンプル画像フレームペアに、複数の第１サンプル画像フレーム及び前記複数の第１サンプル画像フレームにそれぞれ対応する第２サンプル画像フレームが含まれ、前記第１サンプル画像フレームの解像度は、前記第２サンプル画像フレームの解像度より低い。

任意選択的な実施形態において、画像フレームシーケンスを取得する前に、前記方法は、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、前記画像フレームシーケンスを得ることを更に含む。

任意選択的な実施形態において、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、前記方法は、
前記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うことを更に含む。

任意選択的な実施形態において、前記方法は、前記画像フレームシーケンスのフュージョン情報に基づいて、前記処理対象画像フレームに対応する処理後の画像フレームを取得することを更に含む。

本出願の実施例の第２態様は、画像処理方法を提供する。前記方法は、
ビデオ収集装置により収集された第１ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、上記第１態様に記載の方法のステップにより、前記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得ることと、前記処理後の画像フレームシーケンスからなる第２ビデオストリームを出力及び／又は表示することとを含む。

本出願の実施例の第３態様は、画像処理装置を提供する。前記装置は、アライメントモジュールとフュージョンモジュールとを備え、
前記アライメントモジュールは、処理対象画像フレームと前記処理対象画像フレームに隣接する１つ又は複数の画像フレームとを含む画像フレームシーケンスを取得し、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、
前記フュージョンモジュールは、前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定するように構成され、
前記フュージョンモジュールは更に、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得て、前記フュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであるように構成される。

任意選択的な実施形態において、前記アライメントモジュールは、第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、ここで、前記第１画像特徴セットが、前記処理対象画像フレームの少なくとも１つの異なるスケールの特徴データを含み、前記第２画像特徴セットが、前記画像フレームシーケンスにおける１つの画像フレームの少なくとも１つの異なるスケールの特徴データを含む。

任意選択的な実施形態において、前記アライメントモジュールは、前記第１画像特徴セット内のスケールが最も小さい第１特徴データ、及び前記第２画像特徴セット内のスケールが前記第１特徴データのスケールと同じである第２特徴データを取得し、前記第１特徴データと前記第２特徴データに対して画像アライメントを行い、第１アライメント特徴データを得て、前記第１画像特徴セット内のスケールが二番目に小さい第３特徴データ、及び前記第２画像特徴セット内のスケールが前記第３特徴データのスケールと同じである第４特徴データを取得し、前記第１アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが前記第３特徴データのスケールと同じである第１アライメント特徴データを得て、前記アップサンプリング畳み込み後の第１アライメント特徴データに基づいて、前記第３特徴データと前記第４特徴データに対して画像アライメントを行い、第２アライメント特徴データを得て、スケールが前記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、前記スケールの昇順で上記のステップを繰り返して実行し、全ての前記第２画像特徴セットに基づいて上記のステップを実行して、前記複数のアライメント特徴データを得るように構成される。

任意選択的な実施形態において、前記アライメントモジュールは更に、複数のアライメント特徴データを得る前に、変形可能な畳み込みネットワークによって、各前記アライメント特徴データを調整し、調整後の前記複数のアライメント特徴データを得るように構成される。

任意選択的な実施形態において、前記フュージョンモジュールは、各前記アライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定するように構成される。

任意選択的な実施形態において、前記フュージョンモジュールは更に、所定の活性化関数、及び前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、前記各アライメント特徴データの重み情報を決定するように構成される。

任意選択的な実施形態において、前記フュージョンモジュールは、フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得るように構成される。

任意選択的な実施形態において、前記フュージョンモジュールは、要素レベル乗算によって、前記各アライメント特徴データと前記各アライメント特徴データの重み情報を乗算し、前記複数のアライメント特徴データの複数の変調特徴データを得て、前記フュージョン畳み込みネットワークを利用して、前記複数の変調特徴データをフュージョンし、前記画像フレームシーケンスのフュージョン情報を得るように構成される。

任意選択的な実施形態において、前記フュージョンモジュールは、空間的ユニットを備え、前記空間的ユニットは、前記フュージョンモジュールがフュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得た後に、前記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成し、前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得るように構成され、前記変調後のフュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。

任意選択的な実施形態において、前記空間的ユニットは、前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、前記空間的特徴データにおける前記各要素点を対応的に変調し、前記変調後のフュージョン情報を得るように構成される。

任意選択的な実施形態において、前記画像処理装置にニューラルネットワークが配置されており、前記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、前記サンプル画像フレームペアに、複数の第１サンプル画像フレーム及び前記複数の第１サンプル画像フレームにそれぞれ対応する第２サンプル画像フレームが含まれ、前記第１サンプル画像フレームの解像度は、前記第２サンプル画像フレームの解像度より低い。

任意選択的な実施形態において、サンプリングモジュールを更に備え、前記サンプリングモジュールは、画像フレームシーケンスを取得する前に、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、前記画像フレームシーケンスを得るように構成される。

任意選択的な実施形態において、前処理モジュールを更に備え、前記前処理モジュールは、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、前記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うように構成される。

任意選択的な実施形態において、再構築モジュールを更に備え、前記再構築モジュールは、前記画像フレームシーケンスのフュージョン情報に基づいて、前記処理対象画像フレームに対応する処理後の画像フレームを取得するように構成される。

本出願の実施例の第４態様は、もう１つの画像処理装置を提供する。前記画像処理装置は、処理モジュールと、出力モジュールとを備え、
前記処理モジュールは、ビデオ収集装置により収集された第１ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、請求項１－１４のうちいずれか一項に記載の方法により、前記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得るように構成され、
前記出力モジュールは、前記処理後の画像フレームシーケンスからなる第２ビデオストリームを出力及び／又は表示するように構成される。

本出願の実施例の第５態様は、電子機器を提供する。前記電子機器は、プロセッサと、メモリとを備え、前記メモリは、コンピュータプログラムを記憶するためのものであり、前記コンピュータプログラムは、前記プロセッサにより実行されるように構成され、前記プロセッサは、本出願の実施例の第１態様又は第２態様のいずれか１つの方法に記載の一部又は全てのステップを実行するためのものである。

本出願の第６態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体は、コンピュータプログラムを記憶するためのものであり、前記コンピュータプログラムは、コンピュータに本出願の実施例の第１態様又は第２態様のいずれか１つの方法に記載の一部又は全てのステップを実行させる。

本出願の実施例は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。

本出願の実施例による画像処理方法を示すフローチャートである。本出願の実施例によるもう１つの画像処理方法を示すフローチャートである。本出願の実施例によるアライメントモジュールの構造を示す概略図である。本出願の実施例によるフュージョンモジュールの構造を示す概略図である。本出願の実施例によるビデオ修復フレームワークを示す概略図である。本出願の実施例による画像処理装置の構造を示す概略図である。本出願の実施例によるもう１つの画像処理装置の構造を示す概略図である。本出願の実施例による電子機器の構造を示す概略図である。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。

以下、本出願の実施例における図面を参照しながら、本出願の実施例における技術的解決手段を明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本出願の一部の実施例である。本出願における実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本出願の保護の範囲に含まれる。

本出願において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。また、本明細書において、用語「少なくとも１つ」は、複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを表す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。本出願の明細書及び特許請求の範囲並びに上記図面に記載された「第１」、「第２」等の用語は、様々な対象を区別するためのものであり、特定の順番を説明するためのものではない。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、明記されたステップ又はユニットに限定されず、明記されていないかステップ又はユニットを任意選択的に含んでもよいし、又は、これらのプロセス、方法、製品又は装置固有の他のステップ又はユニットを任意選択的に含んでもよい。

本明細書に記載している「実施例」は、実施例を参照しながら記述される特定の特徴、構造又は特徴が本出願の少なくとも１つの実施例に含まれてもよいことを意味する。該用語が明細書中の様々な箇所に登場していても、必ずしもどれもが同一の実施例を指しているとは限らないし、必ずしも他の実施例と相互排他的である独立した実施例又は候補実施例を指しているとは限らない。本明細書に記述される実施例は、他の実施例と組み合わせることができることは、当業者が明示的又は暗黙的に理解すべきである。

本出願の実施例に係る画像処理装置は、画像処理を行うことができる装置である。該装置は、電子機器であってもよい。上記電子機器は、端末装置を含む。具体的な実現において、上記端末装置は、タッチ感知面（例えば、タッチスクリーンディスプレイ及び／又はタッチパネル）を有する携帯電話、ラップトップコンピュータ又はタブレットコンピュータのような他の携帯機器を含むが、これらに限定されない。幾つかの実施例において、前記機器は、携帯型通信機器ではなく、タッチ感知面（例えば、タッチスクリーンディスプレイ及び／又はタッチパネル）を有するデスクトップコンピュータであることは、理解されるべきである。

本出願の実施例における深層学習の概念は、人工ニューラルネットワークの検討に由来する。複数の隠れ層を含む多層パーセプトロンは、深層学習構造である。深層学習は、下位層特徴を組み合わせることで、より抽象的な上位層表示属性カテゴリ又は特徴を形成し、データの分散型特徴表示を発見する。

深層学習は、機械学習における、ペアデータに基づいて表現学習を行う方法である。観測値（例えば、１枚の画像）を、種々の形態で表すことができる。例えば、各画素点の強度値のベクトルで表す。又は、より抽象的に一連の辺、特定の形状の領域などで表す。特定の表現方法によれば、実例からタスク（例えば、顔認識又は顔表情認識）を学習することはより容易である。深層学習の利点は、手動による特徴取得の代わりに、教師なし方式又は半教師あり方式の特徴学習及び効率的な階層的特徴抽出アルゴリズムを利用することである。深層学習は、機械学習検討における新たな分野であり、その動機は、人間の脳を模倣して分析学習を行うニューラルネットワークを構築することである。それは、人間の脳の仕組みを模倣して、例えば画像、音声及びテキストのようなデータを解釈する。

機械学習方法と同様に、深層機械学習方法も、教師あり学習方法と教師なし学習方法に分けられる。様々な学習フレームワークで構築された学習モデルは大きく異なる。例えば、畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：ＣＮＮ）は、深層教師あり学習による機械学習モデルであり、深層学習に基づいたネットワーク構造モデルと呼ばれてもよい。それは、畳み込み演算を含み、且つ深層構造を有するフィードフォワードニューラルネットワーク（ＦｅｅｄｆｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋｓ）であり、深層学習の代表的なアルゴリズムの１つである。深層信念ネットワーク（ＤｅｅｐＢｅｌｉｅｆＮｅｔ：ＤＢＮ）は、教師なし学習による機械学習モデルである。

以下、本出願の実施例を詳しく説明する。

本出願の実施例による画像処理方法を示すフローチャートである図１を参照されたい。図１に示すように、該画像処理方法は下記ステップを含む。

１０１において、処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。

本出願の実施例における画像処理方法の実行主体は、上記画像処理装置であってもよい。例えば、上記画像処理方法は、端末装置、サーバ又は他の処理装置により実行されてもよい。ここで、端末装置は、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの考えられる実現形態において、該画像処理方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。

ここで、上記画像フレームは、単一フレーム画像であってもよいし、画像収集装置により収集された画像であってもよい。例えば、端末装置のカメラにより撮られた写真、又はビデオ収集装置により収集されたビデオデータにおける単一フレーム画像等であってもよく、本出願の実施例はこれを具体的に限定するものではない。少なくとも２つの上記画像フレームは、上記画像フレームシーケンスを構成する。ここで、ビデオデータにおける画像フレームは、時間順に応じて順次配列されてもよい。

本出願の実施例における単一フレーム画像は、一枚の静止画面を表す。連続フレーム画像は、動画効果を有する。連続フレーム画像は、ビデオを形成することができる。一般的なフレーム数は、簡潔に言えば、１秒間で伝送される画像のフレーム数であり、１秒間におけるグラフィックプロセッサのリフレッシュ回数と理解されてもよく、一般的には、フレーム毎秒（ＦｒａｍｅｓＰｅｒＳｅｃｏｎｄ：ＦＰＳ）で表わされる。高いフレームレートによれば、より滑らか且つよりリアルな動画を得ることができる。

本出願の実施例に記載している画像のサブサンプリング（ｓｕｂｓａｍｐｌｅｄ）は、画像を縮小するための具体的な手段であり、ダウンサンプリング（ｄｏｗｎｓａｍｐｌｅｄ）とも呼ばれてもよい。その目的は、一般的には、１、画像を、表示領域の大きさに見なさせること、２、画像に対応するサブサンプリングマップを生成することを含む。

任意選択的に、上記画像フレームシーケンスは、サブサンプリングを行うことで得られた画像フレームシーケンスであってもよい。つまり、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、取得されたビデオシーケンスにおける各ビデオフレームをサブサンプリングすることによって、上記画像フレームシーケンスを得ることができる。例えば、画像又はビデオの超解像処理に対しては、まず、上記サブサンプリングステップを実行してもよく、画像のボケ除去処理に対しては、上記サブサンプリングステップを実行しなくてもよい。

画像フレームアライメントプロセスにおいて、少なくとも１つの画像フレームをアライメント処理のための参照フレームとして選択する必要がある。画像フレームシーケンスにおける前記参照フレーム以外の他の画像フレーム及び該参照フレーム自身は、該参照フレームとアライメントされる。説明を容易にするために、本出願の実施例において、上記参照フレームを処理対象画像フレームと呼ぶ。該処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームは、上記画像フレームシーケンスを構成する。

ここで、上記の隣接するものは、連続したものであってもよいし、間欠的なものであってもよい。処理対象画像フレームをｔと記すると、その隣接フレームは、ｔ－ｉ又はｔ＋ｉと記されてもよい。例えば、１つのビデオデータの、時間順に従って配列される画像フレームシーケンスにおいて、処理対象画像フレームに隣接する画像フレームは、該処理対象画像フレームの１フレーム前のフレーム及び／又は１フレーム後のフレームであってもよいし、該処理対象画像フレームの２フレーム前のフレーム及び／又は２フレーム後のフレームなどであってもよい。上記処理対象画像フレームに隣接する画像フレームは、１つ、２つ、３つ又は３つ以上であってもよく、本出願の実施例はこれを限定するものではない。

本出願の任意選択的な実施例において、上記処理対象画像フレームと該画像フレームシーケンスにおける画像フレームに対して画像アライメントを行うことができる。つまり、該画像フレームシーケンスにおける画像フレーム（該処理対象画像フレームを含んでもよい）をそれぞれ該処理対象画像フレームと画像アライメントし、上記複数のアライメント特徴データを得る。

任意選択的な実施形態において、上記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得て、ここで、上記第１画像特徴セットが、上記処理対象画像フレームの少なくとも１つの異なるスケールの特徴データを含み、上記第２画像特徴セットが、上記画像フレームシーケンスにおける１つの画像フレームの少なくとも１つの異なるスケールの特徴データを含むことを含む。

例として、画像フレームシーケンスにおける画像フレームは、それに対して特徴抽出を行ってから、上記画像フレームに対応する特徴データを得ることができる。これによって、上記画像フレームシーケンスにおける画像フレームの少なくとも１つの異なるスケールの特徴データを得て、画像特徴セットを構成することができる。

上記画像フレームに対して畳み込み処理を行うことで、該画像フレームの異なるスケールの特徴データを得ることができる。ここで、処理対象画像フレームを特徴抽出（即ち、畳み込み処理）してから、第１画像特徴セットを得ることができる。画像フレームシーケンスにおける１つの画像フレームを特徴抽出（即ち、畳み込み処理）してから、第２画像特徴セットを得ることができる。

本出願の実施例において、各画像フレームの少なくとも１つの異なるスケールの特徴データを得ることができる。例えば、１つの第２画像特徴セットは、１つの画像フレームに対応する２つの異なるスケールの特徴データを含んでもよく、本出願の実施例はこれを限定するものではない。

説明を容易にするために、上記処理対象画像フレームの少なくとも１つの異なるスケールの特徴データ（第１特徴データと呼ばれてもよい）は、上記第１画像特徴セットを構成し、上記画像フレームシーケンスにおける１つの画像フレームの少なくとも１つの異なるスケールの特徴データ（第２特徴データと呼ばれてもよい）は、上記第２画像特徴セットを構成する。上記画像フレームシーケンスが、複数の画像フレームを含むことができるため、それぞれ１つの画像フレームに対応して複数の第２画像特徴セットを形成することができる。従って、更に、第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて、画像アライメントを行うことができる。

一実施形態として、全ての上記第２画像特徴セット及び第１画像特徴セットに基づいて画像アライメントを行うことで、上記複数のアライメント特徴データを得ることができる。つまり、処理対象画像フレームに対応する画像特徴セットと画像フレームシーケンスにおける各画像フレームに対応する画像特徴セットとに基づいて、アライメント処理を行い、対応する複数のアライメント特徴データを得る。なお、該アライメント処理には、第１画像特徴セットと第１画像特徴セットとのアライメントも含まれることに留意されたい。第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて画像アライメントを行う具体的な方法は、後続で説明する。

任意選択的な実施形態において、上記第１画像特徴セット及び第２画像特徴セットにおける特徴データは、スケールの昇順で配列されてピラミッド構造を構成することができる。

本出願の実施例に記載している画像ピラミッドは、画像のマルチスケール表現の１つであり、複数の解像度により画像を解釈するための概念が簡単である効果的な構造である。一枚の画像のピラミッドは、ピラミッド形状で配列された解像度が次第に小さくなり、且つ同一のオリジナルマップからの一連の画像セットである。本出願の実施例における画像特徴データは、所定の終了条件を満たすまで、段階的にダウンサンプリング畳み込みを実行し続けることで得られる。多層の画像特徴データをピラミッドに例え、段階が高いほど、スケールが小さくなる。

同一のスケールにおける第１特徴データと第２特徴データのアライメント結果は、他のスケールにおける画像アライメントのための参考及び調整にも用いられる。異なるスケールにおける各層に対するアライメントにより、該処理対象画像フレーム及び上記画像フレームシーケンスにおけるいずれか１つの画像フレームのアライメント特徴データを得ることができる。各画像フレームと処理対象画像フレームに対して上記アライメント処理プロセスを実行することで、上記複数のアライメント特徴データを得ることができる。得られた上記アライメント特徴データの数は、画像フレームシーケンスにおける画像フレームの数と一致する。

本出願の任意選択的な実施例において、第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて、処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、上記第１画像特徴セット内のスケールが最も小さい第１特徴データ、及び上記第２画像特徴セットにおけるスケールが上記第１特徴データのスケールと同じである第２特徴データを取得し、上記第１特徴データと上記第２特徴データに対して画像アライメントを行い、第１アライメント特徴データを得ることと、上記第１画像特徴セット内のスケールが二番目に小さい第３特徴データ、及び上記第２画像特徴セットにおけるスケールが上記第３特徴データのスケールと同じである第４特徴データを取得し、上記第１アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが上記第３特徴データのスケールと同じである第１アライメント特徴データを得ることと、上記アップサンプリング畳み込み後の第１アライメント特徴データに基づいて、上記第３特徴データと上記第４特徴データに対して画像アライメントを行い、第２アライメント特徴データを得ることと、スケールが上記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、上記スケールの昇順で上記のステップを繰り返して実行することと、全ての上記第２画像特徴セットに基づいて上記のステップを実行して、上記複数のアライメント特徴データを得ることとを含んでもよい。

入力された任意の数の画像フレームに対して、そのうちの１フレームを別の１フレームとアライメントすることを直接的な目標とする。上記プロセスは、主に、処理対象画像フレームと画像フレームシーケンスにおけるいずれか１つの画像フレームとに対してアライメントすることを例として説明する。即ち、第１画像特徴セット及びいずれか１つの第２画像特徴セットに基づいて画像アライメントを行うことを例として説明する。具体的には、スケールが最も小さいものから、第１特徴データと第２特徴データを順にアライメントすることができる。

例として、上記各画像フレームの特徴データに対して、小さいスケールでアライメントを行ってから、拡大（上記アップサンプリング畳み込みにより実現することができる）を行い、相対的に大きなスケールでアライメントを行い、そして、処理対象画像フレームと画像フレームシーケンスにおける各画像フレームとに対してそれぞれ上記アライメント処理を行い、複数の上記アライメント特徴データを得ることができる。上記プロセスにおいて、各段階のアライメント結果が、アップサンプリング畳み込みによって拡大されてから、上の段階（より大きいスケール）に入力され、該スケールにおける第１特徴データと第２特徴データとのアライメントに用いられる。上記一段階ずつアライメント調整を行うことによって、画像アライメントの正確度を向上させ、複雑な動き及びボケしている場合の画像アライメントをより好適に実行することができる。

ここで、アライメントの回数は、画像フレームの特徴データの数によるものであってもよい。つまり、アライメント操作を、スケールが処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまでに実行し続けることができる。全ての上記第２画像特徴セットに基づいて、上記のステップを実行して、上記複数のアライメント特徴データを得ることができる。つまり、処理対象画像フレームに対応する画像特徴セットと画像フレームシーケンスにおける各画像フレームに対応する画像特徴セットを、上記記載に従ってアライメントを行い、対応する複数のアライメント特徴データを得る。なお、該アライメント処理には、第１画像特徴セットと第１画像特徴セットとのアライメントも含まれる。本出願の実施例は、特徴データのスケール及び異なるスケールの数を限定するものではなく、つまり、上記アライメント操作の層数（回数）を限定するものではない。

本出願の任意選択的な実施例において、複数のアライメント特徴データを得る前に、変形可能な畳み込みネットワークによって、各上記アライメント特徴データを調整し、調整後の上記複数のアライメント特徴データを得ることができる。

任意選択的な実施形態において、変形可能な畳み込みネットワーク（ＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ：ＤＣＮ）に基づいて、各上記アライメント特徴データを調整し、上記調整後の上記複数のアライメント特徴データを得る。上記ピラミッド構造以外に、更なるカスケードされた変形可能な畳み込みネットワークによって、得られたアライメント特徴データを更に調整することができる。本出願の実施例におけるマルチフレームのアライメントの方式の上で、アライメント結果を更に微細化に調整し、それによって、画像アライメントの精度を更に向上させることができる。

１０２において、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定する。

画像類似度演算は主に、２枚の画像のコンテンツの類似程度を採点し、点数の高低に応じて画像のコンテンツの類似程度を判定する。本出願の実施例において、類似度特徴の演算は、ニューラルネットワークにより実現することができる。任意選択的に、画像特徴点に基づいた画像類似度アルゴリズムを利用することができる。画像を、例えば、Ｔｒａｃｅ変換、画像ハッシュ又はＳｉｆｔ特徴ベクトルなどの特徴値で抽象的に表し、上記アライメント特徴データに基づいて特徴マッチングを行うことで、効率を向上させることもできる。本出願の実施例は、これを限定するものではない。

任意選択的な実施形態において、上記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することは、各上記アライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することを含む。

上記複数のアライメント特徴データと処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴により、上記各アライメント特徴データの重み情報をそれぞれ決定することができる。ここで、上記重み情報は、全てのアライメント特徴データにおける異なるフレームの異なる重要度を表すことができる。その類似度の度合いに基づいて、異なる画像フレームの重要度を決定すると理解される。

類似度が高いほど、重みが大きく、即ち、該画像フレームと該処理対象画像フレームとのアライメントにおいて提供される特徴情報の重なり合う度合いが高くなり、後続のマルチフレームフュージョン及び再構築にとってより重要であることを表すと一般的に理解される。

任意選択的な実施形態において、上記アライメント特徴データの重み情報は、重み値を含んでもよい。重み値の算出は、アライメント特徴データに基づいて所定のアルゴリズム又は所定のニューラルネットワークにより実現することができる。ここで、任意の２つのアライメント特徴データに対して、ベクトルのドット積（ｄｏｔｐｒｏｄｕｃｔ）によって、重み情報の演算を行うことができる。任意選択的に、演算により、所定の範囲内の重み値を得ることができる。一般的には、重み値が高いほど、全てのフレームの中で、該アライメント特徴データが重要であり、残す必要があるものであることを表す。重み値が低いほど、全てのフレームにおける該アライメント特徴データの重要度が低くなり、処理対象画像フレームに対して、誤差、遮蔽要素が存在するか又はアライメント段階の効果が好ましくなく、無視してもよいものであることを表す。本出願の実施例はこれを限定するものではない。

本出願の実施例におけるマルチフレームフュージョンは、アテンションメカニズム（ＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ）に基づいて実現することができる。本出願の実施例に記載しているアテンションメカニズムは、人間の視覚の研究に由来する。認知科学において、情報処理にボトルネットが存在するため、人間は、全ての情報のうちの一部に選択的に注目すると共に、他の可視情報を無視する。上記メカニズムは、一般的には、アテンションメカニズムと呼ばれる。人間の網膜の異なる部位は、程度の異なる情報処理能力である鋭敏さ（Ａｃｕｉｔｙ）を有する。網膜の中央凹部のみは、最も高い鋭敏さを有する。限られた視覚情報をリソース処理に合理的に用いるために、人間は、視覚領域における特定の部分を選択して、該部分に注目する必要がある。例えば、人間が読書している時、一般的には、読み取られる少量のワードのみを注目及び処理を行う。要するに、アテンションメカニズムは主に、入力のどの部分に注目する必要があるかを決定することと、限られた情報処理リソースを重要な部分に割り当てることとを含む。

フレーム間の時間的関係及びフレーム内の空間的関係は、マルチフレームフュージョンにおいて極めて重要である。その原因は、遮蔽、ボケ領域及び視差等の関係で、異なる隣接フレームの情報量が異なり、以前のマルチフレームアライメント段階で生じた位置ズレ及びアライメントの不良が、後続の再構築の性能に対して悪影響を与えることである。従って、画素レベルで隣接フレームを動的に集めることは、効果的なマルチフレームフュージョンにとって不可欠なものである。本出願の実施例において、時間的アテンションの目標は、空間に埋め込まれたフレームの類似度を算出することである。直観的に言えば、各アライメント特徴データに対して、その隣接フレームもより多大な関心が寄せられる必要がある。上記時間的及び空間的アテンションメカニズムに基づくマルチフレームのフュージョン方式によって、異なるフレームに含まれる異なる情報をマイニングすることができ、通常のマルチフレームのフュージョンに関する方策における、マルチフレームに含まれる情報が異なることを考慮していないという問題を改善することができる。

上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定してから、ステップ１０３を実行することができる。

１０３において、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。

上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対して、フュージョンを行い、即ち、異なる画像フレームのアライメント特徴データ間の差異及び重要度を考慮し、重み情報に基づいて、フュージョン時のこれらのアライメント特徴データの割合を調整し、マルチフレームフュージョンの課題を効果的に解決し、異なるフレームに含まれる異なる情報をマイニングし、前のアライメント段階でアライメントが芳しくない状況を改善することができる。

任意選択的な実施形態において、上記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得ることは、フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得ることを含む。

任意選択的な実施形態において、フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得ることは、要素レベル乗算によって、上記各アライメント特徴データと上記各アライメント特徴データの重み情報を乗算し、上記複数のアライメント特徴データの複数の変調特徴データを得ることと、上記フュージョン畳み込みネットワークを利用して上記複数の変調特徴データをフュージョンし、上記画像フレームシーケンスのフュージョン情報を得ることとを含む。

時間的アテンションをマッピング（即ち上記重み情報を利用する）し、画素レベルの方式で、以前に得られたアライメント特徴データと乗算することができる。上記重み情報で変調されたアライメント特徴データは、上記変調特徴データと呼ばれる。そして、フュージョン畳み込みネットワークを利用して、上記複数の変調特徴データを集め、上記画像フレームシーケンスのフュージョン情報を得る。

本出願の任意選択的な実施例において、該方法は、上記画像フレームシーケンスのフュージョン情報に基づいて、上記処理対象画像フレームに対応する処理後の画像フレームを取得することを更に含む。

上記方法によれば、画像フレームシーケンスのフュージョン情報を得ることができ、更に、上記フュージョン情報に基づいて画像再構築を行い、上記処理対象画像フレームに対応する処理後の画像フレームを得ることができる。通常、修復により、品質の高いフレームを得て、画像の修復を実現させることができる。任意選択的に、複数の処理対象画像フレームに対して上記画像処理を行い、処理後の画像フレームシーケンスを得ることができる。処理後の画像フレームシーケンスに複数の上記処理後の画像フレームが含まれ、即ち、ビデオデータを構成することができる。従って、ビデオ修復の効果を達成することができる。

本出願の実施例は、種々のビデオ修復の問題を解決できる統一なフレームワークを提供する。ビデオの超解像、ビデオのボケ除去、ビデオのノイズ除去などを含むが、これらに限定されない。任意選択的に、本出願の実施例で提供される画像処理方法は、汎用性を有し、各種の画像処理シーンに適用可能であり、例えば顔画像のアライメント処理が挙げられ、ビデオデータ及び画像処理に関わる他の技術に組み込まれてもよく、本出願の実施例はこれを限定するものではない。

具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。

本出願の実施例において、処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。異なるスケールにおけるアライメントによれば、画像アライメントの精度を向上させる。また、重み情報に基づいたマルチフレームフュージョンは、異なる画像フレームのアライメント特徴データ間の差異及び重要度を考慮しており、マルチフレームフュージョンの問題を効果的に解決し、異なるフレームに含まれる異なる情報をマイニングし、前のアライメント段階でアライメントが芳しくない状況を改善することができる。従って、画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。

本出願の実施例によるもう１つの画像処理方法を示すフローチャートである図２を参照されたい。本出願の実施例のステップを実行する主体は、上述した画像処理装置であってもよい。図２に示すように、該画像処理方法は、下記ステップを含んでもよい。

２０１において、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、画像フレームシーケンスを得る。

本出願の実施例における画像処理方法の実行主体は、上記画像処理装置であってもよい。例えば、画像処理方法は、端末装置、サーバ又は他の処理装置により実行されてもよい。ここで、端末装置は、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの考えられる実現形態において、該画像処理方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。

ここで、上記画像フレームは、単一フレーム画像であってもよいし、画像収集装置により収集された画像であってもよい。例えば、端末装置のカメラにより撮られた写真、又はビデオ収集装置により収集されたビデオデータにおける単一フレーム画像等が、上記ビデオシーケンスを構成することができる。本出願の実施例はこれを具体的に限定するものではない。上記サブサンプリングにより、解像度がより低い画像フレームを得ることができ、後続の画像アライメントの精度の向上に寄与する。

本出願の任意選択的な実施例において、所定の時間間隔で、上記ビデオデータにおける複数の画像フレームを順に抽出し、上記ビデオシーケンスを構成することができる。上記抽出された画像フレームの数は、所定の数であってもよい。一般的には、５フレームのような奇数であってもよい。これにより、そのうちの１フレームを処理対象画像フレームとして選択してアライメント操作を行うことを容易にする。ここで、ビデオデータから切り出されたビデオフレームは、時間順に応じて順に配列されてもよい。

図１に示した実施例と同様に、上記画像フレームを特徴抽出して得られた特徴データについて、ピラミッド構造において、畳み込みフィルタを利用して階層（Ｌ－１）における特徴データに対してサブサンプリング畳み込み処理を行い、階層Ｌの特徴データを得ることができる。上記階層Ｌの特徴データに対して、階層（Ｌ＋１）の特徴データをそれぞれ利用してアライメント予測を行うことができる。なお、予測の前に、階層（Ｌ＋１）の特徴データに対して、アップサンプリング畳み込みを行い、階層Ｌの特徴データのスケールと同じであるようにする必要がある。

任意選択的な実施形態において、３階層のピラミッド構造を利用することができる。つまり、Ｌ＝３である。上記列挙された実現形態は、演算コストを低減させるためのものである。任意選択的に、空間の大きさの減少に伴ってチャネル数を増加させることもできる。本出願の実施例は、これを限定するものではない。

２０２において、処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームを含む上記画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。

入力された任意の２フレームの画像について、直接的な目標は、そのうちの１フレームを別の１フレームとアライメントすることであり、この場合、上記画像フレームシーケンスから少なくとも１フレームの画像を参照用処理対象画像フレームとして選択することができる。上記処理対象画像フレームの第１特徴セットと該画像フレームシーケンスにおける各画像フレームをアライメントし、複数のアライメント特徴データを得る。例えば、上記抽出された画像フレームの数は５フレームであると、中央にある第３フレームを処理対象画像フレームとして選択し、アライメント操作を行う。更に例を挙げると、実際の適用において、ビデオデータ、即ち、複数のビデオフレームを含む画像フレームシーケンスについて、同じ時間間隔で、連続した５フレームの画像を抽出し、５フレーム分ずつの画像の中間フレームを、該５フレームの画像のアライメントのための参照フレームとし、即ち、該シーケンスにおける処理対象画像フレームとすることができる。

ここで、上記のステップ２０２におけるマルチフレームアライメント方法は、図１に示した実施例におけるステップ１０２を参照することができ、ここで詳細な説明を省略する。

一例として、上記のステップ１０２において主に、ピラミッド構造、サンプリング処理プロセス及びアライメント処理の詳細を説明する。そのうちの１つの画像フレームＸを処理対象画像フレームとし、該画像フレームＸにより異なるスケールの特徴データａと特徴データｂを得ること例として、ａのスケールは、ｂのスケールよりも小さい。つまり、ピラミッド構造において、ａは、ｂの次の階層に位置してもよい。説明を容易にするために、画像フレームシーケンスにおける１つの画像フレームＹ（処理対象画像フレームであってもよい）を選択する。Ｙに対して同様な処理を行うことで得られた特徴データは、異なるスケールの特徴データｃと特徴データｄを含んでもよい。ｃのスケールは、ｄのスケールよりも小さく、且つａのスケールは、ｃのスケールと同じであり、ｂのスケールは、ｄのスケールと同じである。この場合、スケールが小さいａとｃをアライメントし、アライメント特徴データＭを得る。更に、アライメント特徴データＭに対して、アップサンプリング畳み込みを行い、拡大されたアライメント特徴データＭを得て、スケールが大きいｂとｄとのアライメントに用いる。ｂ及びｄの所在する階層において、アライメント特徴データＮを得ることができる。このように類推すると、画像フレームシーケンスにおける画像フレームに対して、各画像フレームを上記アライメント処理し、複数の上記画像フレームの、処理対象画像フレームに対するアライメント特徴データを得ることができる。例えば、５フレームの画像の場合、上記処理対象画像フレームのアライメントに基づいた５つのアライメント特徴データをそれぞれ得ることができる。つまり、処理対象画像フレーム自体のアライメント結果が含まれる。

任意選択的な実施形態において、上記アライメント操作は、ピラミッド（Ｐｙｒａｍｉｄ）、カスケード（Ｃａｓｃａｄｉｎｇ）及び変形可能な畳み込み（Ｄｅｆｏｒｍａｂｌｅｃｏｎｖｏｌｕｔｉｏｎ）構造を持つアライメントモジュールにより実現することができる。該アライメントモジュールは、ＰＣＤアライメントモジュールと略称されてもよい。

例えば、図３に示したアライメント処理構造の模式図を参照することができる。図３は、画像処理方法におけるアライメント処理時のピラミッド構造及びカスケードの詳細を示す。画像ｔ及びｔ＋ｉは、入力された画像フレームを表す。

図３における点線Ａ１及びＡ２に示すように、まず、畳み込みフィルタを利用して階層（Ｌ－１）における特徴（ｆｅａｔｕｒｅ）をサブサンプリング畳み込み処理し、階層Ｌの特徴を得ることができる。上記階層Ｌについて、オフセットｏ及びアライメント特徴を、それぞれ階層（Ｌ＋１）のアップサンプリング畳み込みのオフセットｏ及びアライメント特徴により予測することができる（例えば、図３における点線Ｂ１～Ｂ４）。下記式（１）及び式（２）を参照されたい。

（１）

（２）

オプティカルフローに基づいた方法と異なっており、本出願の実施例において、各フレームの特徴について変形可能なアライメントを行い、

で表し、

である。

が画像フレームｔ＋ｉの特徴データを表し、

が画像フレームｔの特徴データを表し、一般的には上記処理対象画像フレームと見なす。ここで、

及び

はそれぞれ、階層Ｌ及び階層（Ｌ＋１）のオフセット（ｏｆｆｓｅｔ）である。

及び

はそれぞれ階層Ｌ及び階層（Ｌ＋１）のアライメント特徴データである。（・）^↑ｓとは、要素ｓの向上を指す。ＤＣｏｎｖは、上記変形可能な畳み込みＤを表す。ｇは、複数の畳み込み層を有する一般化された関数を表す。双線形補間により、×２のアップサンプリング畳み込みを実現させることができる。該模式図において三階層のピラミッドを用いる。つまり、Ｌ＝３である。

画像におけるｃは、行列の統合及び画像のスティッチングのための埋め込み（ｃｏｎｃａｔ）関数と理解されてもよい。

ピラミッド構造に、アライメント調整のための更なる変形可能な畳み込みをカスケードすることで、予備アライメントされた特徴（図３における影付き背景を持つ部分）を更に細かくすることができる。ＰＣＤアライメントモジュールは、粗から細への形態により、サブピクセル精度の画像アライメント効果を向上させることができる。

上記ＰＣＤアライメントモジュールは、余分な教師あり学習又はオプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）のような他のタスクに対する事前訓練を必要とせず、ネットワークフレームワーク全体と共に学習することができる。

本出願の任意選択的な実施例において、本出願の実施例における画像処理方法は、異なるタスクに基づいて、上記アライメントモジュールの機能を設定して調整することができる。アライメントモジュールへの入力は、サブサンプリングされた画像フレームであってもよい。アライメントモジュールは、該画像処理方法におけるアライメント処理を直接的に実行することができる。アライメントモジュールによるアライメントの前に、サブサンプリング処理を行ってもよい。つまり、アライメントモジュールへの入力に対して、まずサブサンプリングを行い、上記サブサンプリング後の画像フレームを得てから、アライメント処理を行う。例えば、画像又は上記ビデオの超解像は、上記の前者のように行ってもよく、ビデオのボケ除去及びビデオのノイズ除去は、上記の後者のように行ってもよい。本出願の実施例は、これを限定するものではない。

本出願の任意選択的な実施例において、アライメント処理を行う前に、該方法は、上記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うことを更に含む。

異なる要因による画像のボケに対して異なる処理方法を実行することが多い。本出願の実施例におけるボケ除去処理は、任意の画像強調、画像修復及び／又は超解像再構築方法であってもよい。ボケ除去処理によれば、本出願の画像処理方法は、アライメント及びフュージョン処理をより正確に行うことができる。

２０３において、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定する。

ここで、上記のステップ２０３は、図１に示した実施例におけるステップ１０２の具体的な説明を参照することができる。ここで、詳細な説明を省略する。

２０４において、所定の活性化関数、及び上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、上記各アライメント特徴データの重み情報を決定する。

本出願の実施例に記載している活性化関数（ＡｃｔｉｖａｔｉｏｎＦｕｎｃｔｉｏｎ）は、人工ニューラルネットワークのニューロン上で実行される関数であり、ニューロンの入力を出力側にマッピングする役割をしている。ニューラルネットワークにおいて、活性化関数は、非線形要素をニューロンに取り込んでいる。これにより、ニューラルネットワークを如何なる非線形関数に近似させることができる。従って、ニューラルネットワークは、多くの非線形モデルに適用可能である。任意選択的に、上記所定の活性化関数は、Ｓｉｇｍｏｉｄ関数であってもよい。

Ｓｉｇｍｏｉｄ関数は、生物学における一般的なＳ型関数であり、Ｓ型成長曲線とも呼ばれる。情報科学の分野において、単調増加及び逆関数の単調増加などの特性により、Ｓｉｇｍｏｉｄ関数は、一般的には、ニューラルネットワークの閾値関数として、変数を０－１の間にマッピングするためのものである。

任意選択的な実施形態において、入力された各フレームｉ∈［－ｎ：＋ｎ］は、類似距離ｈを上記重み情報として参照することができる。ｈは、下記式（３）により決定される。

（３）

ただし、

及び

は、２つの埋め込み（ｅｍｂｅｄｄｉｎｇ）と理解されてもよく、簡単な畳み込みフィルタにより実現することができる。Ｓｉｇｍｉｄ函数は、出力結果の範囲を［０，１］に限定するためのものである。つなり、重み値は、０～１以内の数値であってもよい。それは、安定したグラジエントバックプロバゲーションに基づいて実現する。上記重み値を利用して行われるアライメント特徴データ変調は、２つの所定の閾値により判定されてもよい。その所定の閾値の範囲は、（０，１）であってもよい。例えば、重み値が所定の閾値未満であるアライメント特徴データは、無視されてもよい。重み値が上記所定の閾値を超えるアライメント特徴データが保留される。つまり、重み値に基づいて、上記アライメント特徴データの重要度を選別して表示すると、合理的なマルチフレームフュージョン及び再構築に寄与する。

ここで、上記のステップ２０４は、図１に示した実施例におけるステップ１０２の具体的な説明を参照することもできる。ここで、詳細な説明を省略する。

上記各アライメント特徴データの重み情報を決定してから、ステップ２０５を実行することができる。

２０５において、フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得る。

上記画像フレームのフュージョン情報は、画像フレームの異なる空間的位置及び異なる特徴チャネルにおける情報と理解されてもよい。

上記要素レベル乗算は、アライメント特徴データにおける画素点単位までの乗算と理解されてもよい。各アライメント特徴データの重み情報をアライメント特徴データにおける画素点で対応的に乗算し、特徴変調を行い、上記複数の変調特徴データをそれぞれ得ることができる。

ここで、上記のステップ２０５は、図１に示した実施例におけるステップ１０３の具体的な説明を参照することもできる。ここで、詳細な説明を省略する。

２０６において、上記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成する。

上記画像フレームシーケンスのフュージョン情報に基づいて、空間的な特徴データを生成することができる。つまり、上記空間的特徴データは具体的には、空間的アテンションマスク（ｍａｓｋｓ）であってもよい。

本出願の実施例において、画像処理におけるマスク（Ｍａｓｋｓ）は、関心エリアの抽出に用いられる。予め作成された関心エリアマスクと処理されるべき画像を乗算し、関心エリア画像を得る。関心エリア内の画像値は、変更しないままであるが、関心エリア外の画像値はいずれも０である。マスクは、シールドのためのものであってもよい。マスクを利用して画像における幾つかの領域をシールドし、それを処理に関与しないか又は処理パラメータの演算に関与しないようにする。又は、シールドエリアのみに対して処理又は統計を行う。

本出願の任意選択的な実施例において、依然として、上記ピラミッド構造の設計を利用することで、空間的アテンションの許容範囲を増加させることもできる。

２０７において、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、上記空間的特徴データを変調し、変調後のフュージョン情報を得、前記変調後のフュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。

一例として、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、上記空間的特徴データを変調し、変調後のフュージョン情報を得ることは、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、上記空間的特徴データにおける上記各要素点を変調し、上記変調後のフュージョン情報を得ることを含む。

ここで、上記空間的アテンション情報は、空間的な点と周辺点との関係を表す。つまり、上記空間的特徴データにおける各要素点の空間的アテンション情報は、該空間的特徴データにおける該要素点と周辺要素点との関係を表す。それは、空間的な重み情報に類似する。該要素点の重要度を反映することができる。

空間的アテンションメカニズムに基づいて、上記空間的特徴データにおける各要素点の空間的アテンション情報により、要素レベル乗算と加算で、上記空間的特徴データにおける上記各要素点を変調することができる。

本実施例において、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算（ｅｌｅｍｅｎｔ－ｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎａｎｄａｄｄｉｔｉｏｎ）により、上記空間的特徴データにおける各要素点を変調し、上記変調後のフュージョン情報を得ることができる。

任意選択的な実施形態において、上記フュージョン操作は、時間的及び空間的アテンション（ＴｅｍｐｏｒａｌａｎｄＳｐａｔｉａｌＡｔｔｅｎｔｉｏｎ）を有するフュージョンモジュールにより実現することができる。該モジュールは、ＴＳＡフュージョンモジュールと略称されてもよい。

一例として、図４に示すようなマルチフレームフュージョンの概略図を参照することができる。図４に示したフュージョンプロセスは、図３に示したアライメントモジュールによる操作の後に実行されてもよい。ここで、ｔ－１、ｔ、ｔ＋１はそれぞれ、隣接する連続的な３フレームの特徴を表し、つまり、前記得られたアライメント特徴データである。Ｄは、上記変形可能な畳み込みを表す。Ｓは、上記Ｓｉｇｍｏｉｄ関数を表す。特徴ｔ＋１を例として、変形可能な畳み込みＤ及びドット積により、特徴ｔ＋１の、特徴ｔに対する重み情報ｔ＋１を算出することができる。更に、画素の形態（要素レベル乗算）で、上記重み情報（時間的アテンション情報）マッピングにオリジナルのアライメント特徴データ

を乗算する。例えば、特徴ｔ＋１に対して、対応する重み情報ｔ＋１を利用して変調する。図面に示したフュージョン畳み込みネットワークを利用して、上記変調されたアライメント特徴データ

を集める。続いて、フュージョン特徴データに基づいて、空間的特徴データを演算する。該空間的特徴データは、空間的アテンションマスク（ｍａｓｋｓ）であってもよい。続いて、各画素の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、空間的特徴データを変調し、上記変調後のフュージョン情報を最終的に得ることができる。

前記ステップ２０４における例に基づいて、更に列挙すると、上記フュージョンプロセスを、下記式で表すことができる。

（４）

（５）

ただし、

及び［・，・，・］は、それぞれ要素レベル乗算及びカスケードを表す。

図４に示した空間的特徴データの変調は、ピラミッド構造である。図面における立方体１～５に示すように、得られた空間的特徴データ１に対して、２回のサブサンプリング畳み込みを行い、スケールがより小さい２つの空間的特徴データ２及び３をそれぞれ得る。続いて、最も小さい空間的特徴データ３に対してアップサンプリング畳み込みを行ってから、空間的特徴データ２に対して要素レベル加算を行い、スケールが空間的特徴データ２のスケールと同じである空間的特徴データ４を得る。続いて、空間的特徴データ４に対してアップサンプリング畳み込みを行ってから、空間的特徴データ１に対して要素レベル乗算を行い、得られた結果とアップサンプリング畳み込みされた空間的特徴データに対して要素レベル加算を行い、スケールが空間的特徴データ１のスケールと同じである空間的特徴データ５を得る。つまり、上記変調後のフュージョン情報を得る。

本出願の実施例は、上記ピラミッド構造の層数を限定しない。上記方法は、異なるスケールの空間的特徴において実行され、異なる空間的位置における情報を更にマイニングし、品質がより高くてより正確であるフュージョン情報を得ることができる。

本出願の任意選択的な実施例において、上記変調後のフュージョン情報に基づいて画像再構築を行い、上記処理対象画像フレームに対応する処理後の画像フレームを得ることができる。一般的には、修復により、品質の高いフレームを得て、画像の修復を実現させることができる。

上記フュージョン情報により、画像再構築を行い、品質の高いフレームを得てから、画像のアップサンプリングを行い、画像を処理前の大きさに修復することができる。本出願の実施例において、画像のアップサンプリング（ｕｐｓａｍｐｌｉｎｇ）は、画像の補間（ｉｎｔｅｒｐｏｌａｔｉｎｇ）とも呼ばれ、その主な目的は、元画像を拡大し、より高い解像度で表示することである。前記アップサンプリング畳み込みの目的は、主に、画像特徴データ及びアライメント特徴データのスケールを変更することである。任意選択的には、サンプリング形態は、例えば、最近傍補間、双線形補間、平均値補間、中央値補間などの種々の方法を含んでもよい。本出願の実施例はこれを限定するものではない。具体的な適用は、図５及びその関連説明を参照することができる。

任意選択的な実施形態において、ビデオ収集装置により収集された第１ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、本出願の実施例の画像処理方法におけるステップにより、上記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得る。上記処理後の画像フレームシーケンスからなる第２ビデオストリームを出力及び／又は表示する。

本実施形態において、ビデオ収集装置により収集されたビデオストリームにおける画像フレームを処理することができる。一例として、画像処理装置には、上記所定の閾値が記憶されてもよい。ビデオ収集装置により収集された第１ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、本出願の実施例の画像処理方法におけるステップにより、上記画像フレームシーケンスにおける各画像フレームを処理することで、対応する処理された複数の画像フレームを得て、上記処理後の画像フレームシーケンスを構成することができる。更に、上記処理後の画像フレームシーケンスからなる第２ビデオストリームを出力及び／又は表示することができる。ビデオデータにおける画像フレームの品質を向上させ、ビデオ修復、ビデオの超解像の効果を達成することができる。

任意選択的な実施形態において、上記画像処理方法は、ニューラルネットワークに基づいて実現され、上記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、上記サンプル画像フレームペアには、複数の第１サンプル画像フレーム及び上記複数の第１サンプル画像フレームにそれぞれ対応する第２サンプル画像フレームが含まれ、上記第１サンプル画像フレームの解像度は、上記第２サンプル画像フレームの解像度より低い。

訓練されたニューラルネットワークにより、画像フレームシーケンスを入力し、フュージョン情報を出力し、上記処理後の画像フレームを取得するという画像処理プロセスを完了することができる。本出願の実施例におけるニューラルネットワークは、更なる人工的ラベル付けを必要とせず、上記サンプル画像フレームペアのみを必要とする。訓練時、上記第１サンプル画像フレームに基づいて、上記第２サンプル画像フレームをターゲットとして訓練を行うことができる。例えば、訓練されるデータセットには、高精細度及び低精細度のサンプル画像フレームペア（ｐａｉｒ）、又はボケあり（ｂｌｕｒ）及びボケ無しサンプル画像フレームペア等が含まれてもよい。上記サンプル画像フレームペアは、データ収集の時に制御可能である。本出願の実施例はこれを限定するものではない。任意選択的に、上記データセットとして、開示されたＲＥＤＳデータセット、ｖｉｍｅｏ９０データセット等を用いてもよい。

本出願の実施例は、種々のビデオ修復の問題を解決できる統一的なフレームワークを提供する。ビデオの超解像、ビデオのボケ除去、ビデオのノイズ除去などを含むが、これらに限定されない。

一例として、図５に示したビデオ修復フレームワークの概略図を参照することができる。図５に示すように、処理されるべきビデオデータにおける画像フレームシーケンスに対して、ニューラルネットワークにより画像処理を行う。ビデオの超解像を例として、ビデオの超解像については、一般的には、入力された複数の低解像度のフレームを取得し、上記複数の低解像度のフレームの一連の画像特徴を得て、複数の高解像度のフレームを生成して出力する。例えば、２Ｎ＋１個の低解像度のフレームを入力として、高解像度のフレームを生成して出力する。Ｎは正整数である。図面において、ｔ－１、ｔ及びｔ＋１という隣接する３フレームを入力として、まずボケ除去モジュールにより、ボケ除去処理を行ってから、順にＰＣＤアライメントモジュール及びＴＳＡフュージョンモジュールに入力して、本出願の実施例における画像処理方法を実行する。つまり、隣接フレームとマルチフレームアライメント及びフュージョンを行い、最後にフュージョン情報を得る。更に、再構築モジュールに入力し、上記フュージョン情報に基づいて、処理後の画像フレームを取得し、ネットワークの末端でアップサンプリング操作を行い、空間的大きさを増加させる。最後に、予測画像残差をオリジナル画像フレームが直接的にアップサンプリングされた画像に加え、高解像度のフレームを得ることができる。現在の画像／ビデオ修復処理形態と同様に、上記加入の目的は、上記画像残差を学習することである。従って、訓練の収束速度及び効果を向上させることができる。

例えば、ビデオのボケ除去のような、高解像度入力を有する他のタスクについて、まずストライド畳み込み層を利用して入力フレームをサブサンプリング畳み込み処理し、続いて、低解像度の空間で大部分の演算を行う。演算コストを大幅に節約する。最後に、アップサンプリングにより、特徴をオリジナルの入力解像度に調整する。アライメントモジュールによる操作の前に、ボケ予備除去モジュールを利用して、ボケ入力を前処理し、アライメント精度を向上させることができる。

本出願の実施例で提供される画像処理方法は、汎用性を有し、例えば顔画像のアライメント処理のような種々の画像処理シーンに適用可能であってもよいし、ビデオデータ及び画像処理に関わる他の技術に組み込まれてもよく、本出願の実施例はこれを限定するものではない。

本出願の実施例で提供される画像処理方法によれば、変形可能な畳み込みネットワークに基づいたビデオ修復システムを構成することができる。該システムは、上記２つのコアモジュールを含む。つまり、種々のビデオ修復の問題を解決できる統一的なフレームワークを提供する。ビデオの超解像、ビデオのボケ除去、ビデオのノイズ除去などを含むが、これらに限定されない。

本出願の実施例は、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、画像フレームシーケンスを得る。処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームを含む上記画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、所定の活性化関数、及び上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、上記各アライメント特徴データの重み情報を決定する。フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得る。続いて、上記画像フレームシーケンスのフュージョン情報に基づいて空間的特徴データを生成し、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、上記空間的特徴データを変調し、変調後のフュージョン情報を得る。上記変調後のフュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。

本出願の実施例において、上記アライメント操作は、ピラミッド構造、カスケード及び変形可能な畳み込みに基づいて実現する。アライメントモジュールは、変形可能な畳み込みネットワークに基づいて、動きを暗黙的に推定することでアライメントを行う。それは、ピラミッド構造を用いることで、スケールが小さい入力で、まず、大まかにアライメントを行う。続いて、該予備的結果をより大きなスケールに入力して調整する。従って、複雑かつ過大な動きによるアライメントの問題を効果的に解決することができる。カスケード構造を利用して、予備的な結果を更に微調整し、アライメント結果の精度を更に向上させることができる。上記アライメントモジュールを利用してマルチフレームアライメントを行うことで、ビデオ修復におけるアライメントの問題を効果的に解決することができる。特に、入力フレームに複雑かつ大きな動き、遮蔽及びボケなどが存在するという問題を解決することができる。

上記フュージョン操作は、時間的及び空間的なアテンションメカニズムに基づいたものである。入力された一連のフレームに含まれる情報が異なり、自体の動き、ボケ及びアライメント状況も異なることを考慮して、時間的アテンションメカニズムは、異なるフレームの異なる領域の情報に異なる重要度を付けることができる。空間的アテンションメカニズムは、空間的関係及び異なる特徴チャネル間の関係を更にマイニングすることで効果を更に向上させることができる。上記フュージョンモジュールを利用して、マルチフレームアライメントが実行されたフュージョンを行うことで、マルチフレームのフュージョンの問題を効果的に解決し、異なるフレームに含まれる異なる情報をマイニングし、前のアライメント段階でアライメントが芳しくない状況を改善することができる。

要するに、本出願の実施例における画像処理方法は、画像処理におけるマルチフレームアライメント及びフュージョンの品質を向上させ、画像処理による表示効果を向上させることができる。また、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させる。

以上は、方法実行プロセスの点から本出願の実施例の解決手段を説明した。画像処理装置は、上記機能を実現させるために、各機能を実行するためのハードウェア構造及び／又はソフトウェアモジュールを備える。本明細書に開示されている実施例に記載の各例におけるユニット及びアルゴリズムステップと合わせて、本出願は、ハードウェア又はハードウェアとコンピュータソフトウェアの組み合わせにより実現することができることは、当業者であれば容易に理解すべきである。機能がハードウェアによって実行されるかコンピュータソフトウェアによるハードウェア駆動の形態で実行されるかは、技術的解決手段の、特定の適用例、及び設計制約条件に依存する。当業者は、特定の適用について、説明された機能を様々な方法で実現させることができるが、このような実現も本出願の範囲に属する。

本出願の実施例は、上記方法の例に基づいて、画像処理装置について機能ユニットの分割を行うことができる。例えば、各機能に対応するように、各機能ユニットを分割することができる。また、２つ又は２つ以上の機能を１つの処理ユニットに集積することもできる。上記集積ユニットは、ハードウェアの形態で実現してもよいし、ソフトウェア機能ユニットの形態で実現してもよい。本出願の実施例において、ユニットの分割は模式的なものであり、ただロジック機能の分割であり、実際に実現する時は他の分割方式によってもよい。

本出願の実施例による画像処理装置の構造を示す概略図である図６を参照されたい。図６に示すように、該画像処理装置３００は、アライメントモジュール３１０と、フュージョンモジュール３２０とを備え、
上記アライメントモジュール３１０は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、
上記フュージョンモジュール３２０は、上記複数のアライメント特徴データに基づいて、上複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定するように構成され、
上記フュージョンモジュール３２０は更に、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであるように構成される。

本出願の任意選択的な実施例において、上記アライメントモジュール３１０は、第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、ここで、上記第１画像特徴セットが、上記処理対象画像フレームの少なくとも１つの異なるスケールの特徴データを含み、上記第２画像特徴セットが、前記画像フレームシーケンスにおける１つの画像フレームの少なくとも１つの異なるスケールの特徴データを含む。

本出願の任意選択的な実施例において、上記アライメントモジュール３１０は、上記第１画像特徴セット内のスケールが最も小さい第１特徴データ、及び上記第２画像特徴セットにおけるスケールが上記第１特徴データのスケールと同じである第２特徴データを取得し、上記第１特徴データと上記第２特徴データについて画像アライメントを行い、第１アライメント特徴データを得て、上記第１画像特徴セット内のスケールが二番目に小さい第３特徴データ、及び上記第２画像特徴セットにおけるスケールが上記第３特徴データのスケールと同じである第４特徴データを取得し、上記第１アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが上記第３特徴データのスケールと同じである第１アライメント特徴データを得て、上記アップサンプリング畳み込み後の第１アライメント特徴データに基づいて、上記第３特徴データと前記第４特徴データに対して画像アライメントを行い、第２アライメント特徴データを得て、スケールが上記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、上記スケールの昇順で上記のステップを繰り返して実行し、全ての上記第２画像特徴セットに基づいて上記のステップを実行して、上記複数のアライメント特徴データを得るように構成される。

本出願の任意選択的な実施例において、上記アライメントモジュール３１０は更に、複数のアライメント特徴データを得る前に、変形可能な畳み込みネットワークによって、各上記アライメント特徴データを調整し、調整後の上記複数のアライメント特徴データを得るように構成される。

本出願の任意選択的な実施例において、上記フュージョンモジュール３２０は、各上記アライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定するように構成される。

本出願の任意選択的な実施例において、上記フュージョンモジュール３２０は更に、所定の活性化関数、及び上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、上記各アライメント特徴データの重み情報を決定するように構成される。

本出願の任意選択的な実施例において、上記フュージョンモジュール３２０は、フュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得るように構成される。

本出願の任意選択的な実施例において、上記フュージョンモジュール３２０は、要素レベル乗算によって、上記各アライメント特徴データと上記各アライメント特徴データの重み情報を乗算し、上記複数のアライメント特徴データの複数の変調特徴データを得て、上記フュージョン畳み込みネットワークを利用して上記複数の変調特徴データをフュージョンし、上記画像フレームシーケンスのフュージョン情報を得るように構成される。

任意選択的な実施形態において、上記フュージョンモジュール３２０は、空間的ユニット３２１を備え、前記空間的ユニットは、上記フュージョンモジュールがフュージョン畳み込みネットワークを利用して、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得た後に、上記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成し、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、上記空間的特徴データを変調し、上記処理対象画像フレームに対応する処理後の画像フレームを取得するための変調後のフュージョン情報を得るように構成される。

任意選択的な実施形態において、上記空間的ユニット３２１は、上記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、上記空間的特徴データにおける前記各要素点を対応的に変調し、上記変調後のフュージョン情報を得るように構成される。

本出願の任意選択的な実施例において、上記画像処理装置３００にニューラルネットワークが配置されており、上記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、上記サンプル画像フレームペアには、複数の第１サンプル画像フレーム及び上記複数の第１サンプル画像フレームにそれぞれ対応する第２サンプル画像フレームが含まれ、上記第１サンプル画像フレームの解像度は、上記第２サンプル画像フレームの解像度より低い。

本出願の任意選択的な実施例において、上記画像処理装置３００は、サンプリングモジュール３３０を更に備え、前記サンプリングモジュールは、画像フレームシーケンスを取得する前に、取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、上記画像フレームシーケンスを得るように構成される。

本出願の任意選択的な実施例において、上記画像処理装置３００は、前処理モジュール３４０を更に備え、前記前処理モジュールは、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、上記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うように構成される。

本出願の任意選択的な実施例において、上記画像処理装置３００は、再構築モジュール３５０を更に備え、前記再構築モジュールは、上記画像フレームシーケンスのフュージョン情報に基づいて、上記処理対象画像フレームに対応する処理後の画像フレームを取得するように構成される。

本出願の実施例における画像処理装置３００によれば、上記図１及び図２に示した実施例における画像処理方法を実現させることができる。

図６に示した画像処理装置３００を実行すると、画像処理装置３００は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。

本出願の実施例によるもう１つの画像処理装置の構造を示す概略図である図７を参照されたい。該画像処理装置４００は、処理モジュール４１０と出力モジュール４２０とを備え、
上記処理モジュール４１０は、ビデオ収集装置により収集された第１ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、図１及び／又は図２に示した実施例の方法における任意のステップにより、上記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得るように構成され、
上記出力モジュール４２０は、上記処理後の画像フレームシーケンスからなる第２ビデオストリームを出力及び／又は表示するように構成される。

図７に示した画像処理装置４００を実行すると、画像処理装置４００は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。

本出願の実施例による電子機器の構造を示す概略図である図８を参照されたい。図８に示すように、該電子機器５００は、プロセッサ５０１とメモリ５０２とを備える。ここで、電子機器５００は、バス５０３を更に備えてもよい。プロセッサ５０１とメモリ５０２はバス５０３を介して接続される。バス５０３は、ペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ：ＰＣＩ）バス又は拡張業界標準アーキテクチャ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ：ＥＩＳＡ）バスなどであってもよい。バス５０３は、アドレスバス、データバス、制御バスなどに分けられてもよい。表示を容易にするために、図８において、１本の太線のみで表すが、１本のバス又は１つのタイプのバスのみを有することを意味しない。ここで、電子機器５００は、入力出力装置５０４を更に備えてもよい。入力出力装置５０４は、液晶ディスプレイのようなディスプレイを含んでもよい。メモリ５０２は、コンピュータプログラムを記憶するためのものである。プロセッサ５０１は、メモリ５０２に記憶されたコンピュータプログラムを呼び出して上記図１及び図２に示した実施例における一部又は全ての方法のステップを実行するためのものである。

図８に示した電子機器５００を実行すると、電子機器５００は、処理対象画像フレーム及び上記処理対象画像フレームに隣接する１つ又は複数の画像フレームを含む画像フレームシーケンスを取得し、上記処理対象画像フレームと上記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得る。更に、上記複数のアライメント特徴データに基づいて、上記複数のアライメント特徴データと上記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、上記複数の類似度特徴に基づいて、上記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定し、上記各アライメント特徴データの重み情報に基づいて、上記複数のアライメント特徴データに対してフュージョンを行い、上記画像フレームシーケンスのフュージョン情報を得て、上記フュージョン情報が、上記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものである。画像処理におけるマルチフレームアライメント及びフュージョンの品質を大幅に向上させ、画像処理による表示効果を向上させると共に、画像修復及びビデオ修復を実現させ、修復の正確度及び修復効果を向上させることができる。

本出願の実施例は、コンピュータ記憶媒体を更に提供する。該コンピュータ記憶媒体は、コンピュータプログラムを記憶するためのものである。該コンピュータプログラムは、コンピュータに、上記方法実施例に記載のいずれか１つの画像処理方法の一部又は全てのステップを実行させる。

前記各方法実施例について、説明の簡素化のため、一連の動作の組み合わせとして説明するが。本出願は、記述された動作の順番に限定されないことは、当業者であれば、理解すべきである。本出願によれば、これらのステップは他の順番で実行してもよいし、同時に実行してもよい。また、明細書に記述された実施例はいずれも好適な実施例であり、関わる動作及びモジュールが、本出願にとって必ずしも不可欠ではないことは、当業者であれば、理解すべきである。

前記実施例において、各々の実施例に対する説明はそれぞれ偏りがあって、ある実施例に詳しく説明されていない部分に対して、ほかの実施例に関する説明を参照することができる。

本出願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載している装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明したユニット（モジュール）は、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせで実現してもよい。

上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本出願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、メモリに記憶しても良く、また、コンピュータ設備（パソコン、サーバ、又はネットワーク装置など）に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記のメモリは、ＵＳＢスティック、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、バブルハードディスク、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

上記実施例における各方法の全ての又は一部のステップを、プログラムにより関連ハードウェアを命令することで実行することができることは、当業者であれば理解されるべきである。該プログラムは、コンピュータ可読メモリに記憶されてもよい。メモリは、フラッシュディスク、読み出し専用メモリ、ランダムアクセスメモリ、磁気ディスク又は光ディスクなどを含んでもよい。

以上、本出願の実施例を詳しく説明した。本明細書において具体的な例を利用して本出願の原理及び実施形態を説明する。上記実施例の説明は、本出願の方法及びその要旨を理解しやすくするためのものに過ぎない。また、当業者であれば、本出願の要旨に基づいて、具体的な実施形態及び適用範囲を変更することもできる。要するに、本明細書は、本出願を限定するものと理解されない。

Claims

画像処理方法であって、前記方法は、
処理対象画像フレームと前記処理対象画像フレームに隣接する１つ又は複数の画像フレームとを含む画像フレームシーケンスを取得し、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることと、
前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定することと、
前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得て、前記フュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであることと、を含み、
前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることは、
フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることを含むことを特徴とする、
画像処理方法。
前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、
第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得て、ここで、前記第１画像特徴セットが、前記処理対象画像フレームの少なくとも１つの異なるスケールの特徴データを含み、前記第２画像特徴セットが、前記画像フレームシーケンスにおける１つの画像フレームの少なくとも１つの異なるスケールの特徴データを含むことを含むことを特徴とする
請求項１に記載の画像処理方法。
第１画像特徴セット及び１つ又は複数の第２画像特徴セットに基づいて、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得ることは、
前記第１画像特徴セット内のスケールが最も小さい第１特徴データ、及び前記第２画像特徴セット内のスケールが前記第１特徴データのスケールと同じである第２特徴データを取得し、前記第１特徴データと前記第２特徴データに対して画像アライメントを行い、第１アライメント特徴データを得ることと、
前記第１画像特徴セット内のスケールが二番目に小さい第３特徴データ、及び前記第２画像特徴セット内のスケールが前記第３特徴データのスケールと同じである第４特徴データを取得し、前記第１アライメント特徴データに対してアップサンプリング畳み込みを行い、スケールが前記第３特徴データのスケールと同じである第１アライメント特徴データを得ることと、
前記アップサンプリング畳み込み後の第１アライメント特徴データに基づいて、前記第３特徴データと前記第４特徴データに対して画像アライメントを行い、第２アライメント特徴データを得ることと、
スケールが前記処理対象画像フレームのスケールと同じであるアライメント特徴データを得るまで、前記スケールの昇順で上記のステップを繰り返して実行することと、
全ての前記第２画像特徴セットに基づいて上記のステップを実行して、前記複数のアライメント特徴データを得ることと、を含むことを特徴とする
請求項２に記載の画像処理方法。
複数のアライメント特徴データを得る前に、前記方法は、
変形可能な畳み込みネットワークによって、各前記アライメント特徴データを調整し、調整後の前記複数のアライメント特徴データを得ることを更に含むことを特徴とする
請求項３に記載の画像処理方法。
前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することは、
各前記アライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとのドット積を計算するによって、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定することを含むことを特徴とする
請求項１から４のうちいずれか一項に記載の画像処理方法。
前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定することは、
所定の活性化関数、及び前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴に基づいて、前記各アライメント特徴データの重み情報を決定することを含むことを特徴とする
請求項５に記載の画像処理方法。
フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得ることは、
要素レベル乗算によって、前記各アライメント特徴データと前記各アライメント特徴データの重み情報を乗算し、前記複数のアライメント特徴データの複数の変調特徴データを得ることと、
前記フュージョン畳み込みネットワークを利用して、前記複数の変調特徴データをフュージョンし、前記画像フレームシーケンスのフュージョン情報を得ることとを含むことを特徴とする
請求項１に記載の画像処理方法。
フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得た後に、前記方法は、
前記画像フレームシーケンスのフュージョン情報に基づいて、空間的特徴データを生成することと、
前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得、前記変調後のフュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであることとを更に含むことを特徴とする
請求項７に記載の画像処理方法。
前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、前記空間的特徴データを変調し、変調後のフュージョン情報を得ることは、
前記空間的特徴データにおける各要素点の空間的アテンション情報に基づいて、要素レベル乗算と加算によって、前記空間的特徴データにおける前記各要素点を対応的に変調し、前記変調後のフュージョン情報を得ることを含むことを特徴とする
請求項８に記載の画像処理方法。
前記画像処理方法は、ニューラルネットワークに基づいて実現され、
前記ニューラルネットワークは、複数のサンプル画像フレームペアを含むデータセットを利用して訓練されたものであり、前記サンプル画像フレームペアに、複数の第１サンプル画像フレーム及び前記複数の第１サンプル画像フレームにそれぞれ対応する第２サンプル画像フレームが含まれ、前記第１サンプル画像フレームの解像度は、前記第２サンプル画像フレームの解像度より低いことを特徴とする
請求項１から９のうちいずれか一項に記載の画像処理方法。
画像フレームシーケンスを取得する前に、前記方法は、
取得されたビデオシーケンスにおける各ビデオフレームに対してサブサンプリングを行い、前記画像フレームシーケンスを得ることを更に含むことを特徴とする
請求項１から１０のうちいずれか一項に記載の画像処理方法。
前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行う前に、前記方法は、
前記画像フレームシーケンスにおける画像フレームに対してボケ除去処理を行うことを更に含むことを特徴とする
請求項１から１１のうちいずれか一項に記載の画像処理方法。
前記方法は、
前記画像フレームシーケンスのフュージョン情報に基づいて、前記処理対象画像フレームに対応する処理後の画像フレームを取得することを更に含むことを特徴とする
請求項１から１２のうちいずれか一項に記載の画像処理方法。
画像処理方法であって、前記方法は、
ビデオ収集装置により収集された第１ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、請求項１－１３のうちいずれか一項に記載の方法により、前記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得ることと、
前記処理後の画像フレームシーケンスからなる第２ビデオストリームを出力及び／又は表示することとを含む、画像処理方法。
画像処理装置であって、アライメントモジュールとフュージョンモジュールとを備え、
前記アライメントモジュールは、処理対象画像フレームと前記処理対象画像フレームに隣接する１つ又は複数の画像フレームとを含む画像フレームシーケンスを取得し、前記処理対象画像フレームと前記画像フレームシーケンスにおける画像フレームに対して画像アライメントを行い、複数のアライメント特徴データを得るように構成され、
前記フュージョンモジュールは、前記複数のアライメント特徴データに基づいて、前記複数のアライメント特徴データと前記処理対象画像フレームに対応するアライメント特徴データとの複数の類似度特徴を決定し、前記複数の類似度特徴に基づいて、前記複数のアライメント特徴データのうちの各アライメント特徴データの重み情報を決定するように構成され、
前記フュージョンモジュールは更に、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得て、前記フュージョン情報が、前記処理対象画像フレームに対応する処理後の画像フレームを取得するためのものであるように構成され、
前記フュージョンモジュールは更に、フュージョン畳み込みネットワークを利用して、前記各アライメント特徴データの重み情報に基づいて、前記複数のアライメント特徴データに対してフュージョンを行い、前記画像フレームシーケンスのフュージョン情報を得るように構成される、
画像処理装置。
画像処理装置であって、処理モジュールと、出力モジュールとを備え、
前記処理モジュールは、ビデオ収集装置により収集された第１ビデオストリームにおける画像フレームシーケンスの解像度が所定の閾値以下である場合、請求項１－１３のうちいずれか一項に記載の方法により、前記画像フレームシーケンスにおける各画像フレームを順に処理し、処理後の画像フレームシーケンスを得るように構成され、
前記出力モジュールは、前記処理後の画像フレームシーケンスからなる第２ビデオストリームを出力及び／又は表示するように構成される、画像処理装置。
電子機器であって、前記電子機器は、プロセッサと、メモリとを備え、前記メモリは、コンピュータプログラムを記憶するためのものであり、前記コンピュータプログラムは、前記プロセッサにより実行されるように構成され、前記プロセッサは、請求項１－１３のうちいずれか一項に記載の方法を実行するためのものであるか、又は、前記プロセッサは、請求項１４に記載の方法を実行するためのものである、電子機器。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は、コンピュータプログラムを記憶するためのものであり、前記コンピュータプログラムは、コンピュータに請求項１－１３のうちいずれか一項に記載の方法を実行させるか、又は、前記コンピュータプログラムは、コンピュータに請求項１４に記載の方法を実行させる、コンピュータ可読記憶媒体。