JP7112595B2

JP7112595B2 - 画像処理方法及びその装置、コンピュータ機器並びにコンピュータプログラム

Info

Publication number: JP7112595B2
Application number: JP2021518115A
Authority: JP
Inventors: ジャン，カイハオ; ルゥオ，ウェンハン; リ，ホォンドン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2019-03-07
Filing date: 2020-03-04
Publication date: 2022-08-03
Anticipated expiration: 2040-03-04
Also published as: KR102509817B1; US20210256663A1; CN109919874B; EP3937123A1; CN109919874A; WO2020177701A1; KR20210107084A; JP2022522564A; EP3937123A4; US11900567B2

Description

本願は、２０１９年０３月０７日に中国特許局に提出された、出願番号が２０１９１０１７１８３１．８、発明名称「画像処理方法及びその装置、コンピュータ機器並びに記憶媒体」の中国特許出願に基づく優先権を主張し、その内容の全てが引用により本願に組み込まれている。

本願は、画像処理分野に関する。具体的には、画像処理方法及びその装置、コンピュータ機器並びにコンピュータプログラムに関する。

モバイル端末の普及に伴い、モバイル端末を使って画像を撮影するプロセスでは、機器の揺れや被写体の動きによって、撮影された画像がぼやけやすくなる。ボケ画像を復元するために、近年では、通常畳み込みニューラルネットワークを使用して、ボケ画像に対して画像処理を実行する。

現在、一枚のボケ画像を少なくとも１つの畳み込みニューラルネットワークに同時に入力することができ、当該少なくとも１つの畳み込みニューラルネットワークは並列に配置され、各畳み込みニューラルネットワークは、一枚の鮮明画像を出力し、それにより、少なくとも一枚の鮮明画像を取得することができる。ここで、当該ボケ画像は、精細度がプリセットされた値よりも低い任意の画像である。

上記の並列式畳み込みニューラルネットワークアーキテクチャにおいて、並列に配置された畳み込みニューラルネットワークの間には相互作用が足りないため、上記のネットワークアーキテクチャでの畳み込みニューラルネットワーク情報の相互作用能力が弱くなり、より多くの鮮明画像を必要とする場合、より多くの畳み込みニューラルネットワークをトレーニングする必要があるが、畳み込みニューラルネットワークの数が増加したため、画像処理プロセスにおける計算量も増加する。

本願で提供される様々な実施例に基づき、画像処理方法及びその装置、コンピュータ機器並びにコンピュータプログラムを提供する。

コンピュータ機器が実行する画像処理方法は、
初期ネットワークをトレーニングして、第１ネットワークを取得するステップであって、当該第１ネットワークは、第１サンプル画像に基づいて、当該第１サンプル画像よりも高い精細度を有する複数の第１処理画像を取得するために使用される、ステップと、
当該第１ネットワークをトレーニングして、第２ネットワークを取得するステップであって、当該第２ネットワークは、第２サンプル画像に基づいて、当該第２サンプル画像よりも高い精細度を有する複数の第２処理画像を取得するために使用され、当該複数の第２処理画像は、動きの違いがある、ステップと、
当該第２ネットワークをトレーニングして、第３ネットワークを取得するステップであって、当該第３ネットワークは、第３サンプル画像に基づいて、当該第３サンプル画像よりも高い精細度を有する複数の第３処理画像を取得するために使用され、当該複数の第３処理画像は、動きの違いがあり、且つ当該第３サンプル画像で隠された情報を保持する、ステップと、
画像処理命令を受信した場合、当該第３ネットワークに基づき、原画像に対して画像処理を実行して、複数の目標画像を取得するステップと、を含む。

画像処理装置は、トレーニングモジュール及び処理モジュールを備え、
当該トレーニングモジュールは、初期ネットワークをトレーニングして、第１ネットワークを取得するように構成され、当該第１ネットワークは、第１サンプル画像に基づいて、当該第１サンプル画像よりも高い精細度を有する複数の第１処理画像を取得するために使用され、
当該トレーニングモジュールは更に、当該第１ネットワークをトレーニングして、第２ネットワークを取得するように構成され、当該第２ネットワークは、第２サンプル画像に基づいて、当該第２サンプル画像よりも高い精細度を有する複数の第２処理画像を取得するために使用され、当該複数の第２処理画は、動きの違いがあり、
当該トレーニングモジュールは更に、当該第２ネットワークをトレーニングして、第３ネットワークを取得するように構成され、当該第３ネットワークは、第３サンプル画像に基づいて、当該第３サンプル画像よりも高い精細度を有する複数の第３処理画像を取得するために使用され、当該複数の第３処理画像は、動きの違いがあり、且つ当該第３サンプル画像で隠された情報を保持し、
当該処理モジュールは、画像処理命令を受信した場合、当該第３ネットワークに基づき、原画像に対して画像処理を実行して、複数の目標画像を取得するように構成される。

コンピュータ可読命令が記憶された不揮発性記憶媒体は、前記コンピュータ可読命令が１つ以上のプロセッサによって実行される際に、１つ以上のプロセッサに画像処理方法のステップを実行させる。

コンピュータプログラムは、コンピュータに、１つ以上のプロセッサに画像処理方法のステップを実行させる。

コンピュータ機器は、メモリ及びプロセッサを備え、前記メモリは、コンピュータ可読命令を記憶し、前記コンピュータ可読命令が前記プロセッサによって実行される際に、前記プロセッサに画像処理方法のステップを実行させる。

本願の１つ以上の実施例の詳細は、以下の図面及び説明で提案される。本願の他の特徴、目的及び利点は、明細書、図面及び特許請求の範囲から
明らかになる。

本願実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。以下に説明される図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な作業なしに、これらの図面にしたがって他の図面を得ることもできることは自明である。
本願実施例で提供される画像処理方法の実施環境の概略図である。本願実施例で提供される画像処理方法のフローチャートである。本願実施例で提供される画像処理方法の概略図である。本願実施例で提供される初期ネットワークのトレーニングのフローチャートである。は、本願実施例で提供される初期ネットワークのトレーニングの概略図である。本願実施例で提供される第１ネットワークのトレーニングのフローチャートである。本願実施例で提供される第１ネットワークのトレーニングの概略図である。本願実施例で提供される第２ネットワークのトレーニングのフローチャートである。本願実施例で提供される第２ネットワークのトレーニングの概略図である。本願実施例で提供される画像処理装置の概略的な構造図である。本願実施例で提供されるコンピュータ機器の概略的な構造図である。

本願の目的、技術的解決策及び利点をより明確且つ明らかにするために、以下、図面及び実施例を参照して、本願について、さらに詳細に説明する。ここで説明された具体的な実施例は、本願を説明するものに過ぎず、本願を限定しないことを理解されたい。

図１は、本願実施例で提供される画像処理方法の実施環境の概略図である。図１を参照すると、当該実施環境は、少なくとも１つの端末１０１及びサーバ１０２を含み得る。

ここで、当該端末１０１は、画像処理サービスを提供することができる任意の電子機器であってもよく、それにより、初期ネットワークを当該端末１０１でトレーニングすることができ、端末１０１が画像処理命令のトリガー操作を検出すると、トレーニング後のネットワークに基づき、原画像に対して画像処理を実行し、それにより、複数の目標画像を取得するように当該端末１０１をトリガーすることができる。ここで、当該複数の目標画像は、当該原画像に基づいて再構成された、原画像よりも高い精細度を有する複数のフレームの動的画像である。例えば、当該端末１０１は、デジタルカメラであってもよく、ユーザがプリセットされた値よりも低い精細度を有するボケ画像を撮影した場合、画像処理命令をトリガーして、当該複数の目標画像を取得することができる。

いくつかの実施例において、初期ネットワークを当該サーバ１０２でトレーニングすることができ、端末１０１が画像処理命令のトリガー操作を検出すると、端末１０１は、原画像が搬送された画像処理命令をサーバ１０２に送信し、サーバ１０２は、当該画像処理命令に基づき、当該原画像に対して画像処理を実行して、当該複数の目標画像を生成し、当該複数の目標画像を端末１０１に送信する。

ここで、当該サーバ１０２は、画像処理サービスを提供することができるコンピュータ機器であってもよく、当該サーバは、少なくとも１つのトレーニングセットのうちの少なくとも１つのサンプル画像を介してネットワークをトレーニングして生成し、それにより、トレーニング完了後のネットワークに基づいて画像処理を実行することができる。もちろん、当該サーバ１０２は、トレーニングデータベースを記憶することができ、それにより、画像処理命令を受信するたびに、より多くのサンプル画像を取得するために、当該画像処理命令によって搬送される原画像をトレーニングデータベースの任意のトレーニングセットに記憶する。

以下、上記の実施環境に基づき、本願実施例のコンピュータ機器が実行する画像処理方法について説明する。当該コンピュータ機器は、具体的に、サーバであってもよい。図２は、本願実施例で提供される画像処理方法のフローチャートである。図２を参照すると、当該実施例は、次のステップを含む。

ステップ２０１において、サーバが、初期ネットワークをトレーニングして、第１ネットワークを取得し、当該第１ネットワークは、第１サンプル画像に基づいて、当該第１サンプル画像よりも高い精細度を有する複数の第１処理画像を取得するために使用される。

ステップ２０２において、サーバが、当該第１ネットワークをトレーニングして、第２ネットワークを取得し、当該第２ネットワークは、第２サンプル画像に基づいて、当該第２サンプル画像よりも高い精細度を有する複数の第２処理画像を取得するために使用される。当該複数の第２処理画像は、動きの違いがある。

ステップ２０３において、サーバが、当該第２ネットワークをトレーニングして、第３ネットワークを取得し、当該第３ネットワークは、第３サンプル画像に基づいて、当該第３サンプル画像よりも高い精細度を有する複数の第３処理画像を取得するために使用される。当該複数の第３処理画像は、動きの違いがあり、且つ、当該第３サンプル画像で隠された情報を保持する。

ステップ２０４において、画像処理命令を受信した場合、サーバが、当該第３ネットワークに基づき、原画像に対して画像処理を実行して、複数の目標画像を取得する。

本願実施例で提供される画像処理方法によれば、サーバは、初期ネットワークをトレーニングして、第１ネットワークを取得し、それにより、畳み込みニューラルネットワークのボケ除去能力をトレーニングし、当該第１ネットワークをトレーニングして、第２ネットワークを取得し、それにより、動きの違いがある複数の処理画像を出力する畳み込みニューラルネットワークの能力をトレーニングし、当該第２ネットワークをトレーニングして、第３ネットワークを取得し、それにより、サンプル画像の非表示情報を回復する畳み込みニューラルネットワークの能力をトレーニングし、それにより、画像処理命令を受信した場合、当該第３ネットワークに基づき、原画像に対して画像処理を実行して、複数の目標画像を取得することができる。１つの畳み込みニューラルネットワークのみを使用して、原画像よりも精細度が高く、動きの違いがあり、且つ原画像の非表示情報を保持する複数の目標画像を出力するため、当該ネットワークの各畳み込み層の情報交換機能は強力である。より多くの鮮明画像を必要とする場合、並列式ネットワークアーキテクチャと比較すると、各画像処理プロセスにおける計算量が削減され、画像処理の効率が向上する。

図３は、上記の実施例に基づき、本願実施例で提供される画像処理方法の概略図であり、図３に示されるように、初期ネットワークをトレーニングして第３ネットワークを取得するプロセスは、３つの段階に分割することができる。いくつかの実施例において、第１段階では、サーバが、初期ネットワークをトレーニングして第１ネットワークを取得し、第２段階では、サーバが、第１ネットワークをトレーニングして第２ネットワークを取得し、第３段階では、サーバが、第２ネットワークをトレーニングして第３ネットワークを取得する。

上記の３つのトレーニング段階に基づき、以下、第１段階のトレーニングプロセスについて詳細に説明する。図４は、本願実施例で提供される初期ネットワークのトレーニングのフローチャートであり、図４を参照すると、当該実施例は、次のステップを含む。

ステップ４０１において、サーバが、少なくとも１つの第１サンプル画像を初期ネットワークに入力して、第１サンプル画像ごとに複数の第１処理画像を出力する。

ここで、当該少なくとも１つの第１サンプル画像は、処理対象となるボケ画像であり、当該ボケ画像は、精細度が第１プリセットされた閾値よりも低い画像であってもよく、当該複数の第１処理画像は、第１サンプル画像に対してボケ除去処理を実行する複数の鮮明画像である。例えば、当該鮮明画像は、精細度が当該ボケ画像よりも高い画像であってもよく、当該鮮明画像は、精細度が当該ボケ画像よりも高く、且つ第２プリセットされた閾値より高い画像であってもよい。ここで、当該第２プリセットされた閾値は、当該第１プリセットされた閾値より高い任意の値である。本願実施例は、当該第１プリセットされた閾値及び第２プリセットされた閾値の値について特に限定しない。

図５は、本願実施例で提供される初期ネットワークのトレーニングの概略図であり、図５に示されるように、以下、入力及び出力の２つのプロセスからの初期ネットワークのトレーニングをそれぞれ紹介する。

１）上記のステップ４０１の入力プロセスでは、各第１サンプル画像について、サーバは、先ず、当該第１サンプル画像をデコーディングし、それにより、当該第１サンプル画像の各画素点の配置行列を取得し、当該配置行列を当該初期ネットワークに入力する。例示的に、当該第１サンプル画像は、シングルチャネル画像（１次元の配置行列に対応する）であってもよく、マルチチャネル画像（多次元の配置行列に対応する）であってもよい。本願実施例は、当該第１サンプル画像のチャネル数について特に限定しない。例えば、当該第１サンプル画像は、赤緑青（ＲＧＢ）などの３つのチャネルの画像であってもよく、それにより、当該第１サンプル画像をデコーディングした後で、画素点の３次元行列を取得することができる。

いくつかの実施例において、サーバは、前処理プロセスにより当該第１サンプル画像を取得することができる。即ち、サーバは、複数の動きの違いがある複数の鮮明画像（図５に示されるＩ_{ｓｈａｒｐ}）を１つのぼやけた第１サンプル画像（図５に示されるＩ_{ｂｌｕｒｒｙ}）に合成し、それにより、複数の第１処理画像（図５に示されるＩ_ｓｙｎ）と当該複数の鮮明画像Ｉ_{ｓｈａｒｐ}との間の差異情報を取得するのに便利であるため、第１損失関数を取得するのに便利である。ここで、当該複数の鮮明画像は、人が移動するという動的プロセス中に連続して撮影された画像であってもよく、ビデオからインターセプトされた連続するビデオ画像フレームであってもよく、当該複数の鮮明画像は、ローカルに記憶されてもよく、クラウドから取得されたものであってもよいが、本願実施例は、当該複数の鮮明画像の取得方法について特に限定しない。

例示的に、トレーニングデータが十分である場合、サーバは、前処理プロセスを実行せず、データベースに少なくとも１つのトレーニングセットを記憶する。各トレーニングセットはいずれも、少なくとも１つの第１サンプル画像を含み、サーバは、当該少なくとも１つのトレーニングセットの全ての第１サンプル画像を当該少なくとも１つの第１サンプル画像として取得することができ、それにより、データベースから既存のトレーニングデータを直接抽出する。これにより、第１サンプル画像の前処理を回避し、初期ネットワークのトレーニング効率を向上させる。

上記のプロセスにおいて、当該初期ネットワークは、少なくとも１つの隠れ層を含み、当該少なくとも１つの隠れ層は直列に接続され、前の隠れ層の出力画像を現在の隠れ層の入力画像として使用することができる。例示的に、各隠れ層は、畳み込み層、正規化層、及び非線形層を含み、これは、上記の少なくとも１つの隠れ層の連結と同様である。

ここで、当該畳み込み層は、特徴情報を抽出するための畳み込み処理を実行するために使用され、当該畳み込み層は、少なくとも１つの畳み込みカーネルを含み得る。各畳み込みカーネルは、畳み込み操作を実行する時の重み行列を指示するために使用される。当該正規化層は、前の畳み込み層の出力画像を正規化処理するために使用され、当該非線形層は、前の正規化層の出力画像に非線形の活性化関数を追加するために使用される。

上記の初期ネットワークのアーキテクチャにおいては、例として、ｉ番目の隠れ層の場合、ｉ－１番目の隠れ層の非線形層の出力画像を当該ｉ番目の隠れ層の畳み込み層に入力し、ｉ番目の隠れ層の畳み込み層の出力画像を当該ｉ番目の隠れ層の正規化層に入力し、ｉ番目の隠れ層の正規化層の出力画像を当該ｉ番目の隠れ層の非線形層に入力し、当該ｉ番目の隠れ層の非線形層の出力画像をｉ＋１番目の隠れ層の畳み込み層に入力し、これによって類推する。ここで、ｉは、１より大きいか等しい任意の正の整数であり、即ち、ｉ番目の隠れ層は、当該パス内の任意の隠れ層であってもよく、上記の入力画像及び出力画像は、両方とも特徴マップ（ｆｅａｔｕｒｅｍａｐ）であることに留意されたい。

いくつかの実施例において、サーバは、第１サンプル画像のチャネル数に従って、最後の隠れ層の畳み込み層のうちの畳み込みカーネルの数を設定し、それにより、初期ネットワークによって出力される当該複数の第１処理画像の数を制御することができる。一つの可能な実施形態において、第１サンプル画像のチャネル数がＮである場合、最後の隠れ層の畳み込み層の畳み込みカーネル数をＮ＊Ｋに設定し、それにより、複数の第１処理画像の出力数をＫに制御することができる。ここで、Ｎ及びＫは、正の整数である。例えば、第１サンプル画像が３チャネル画像である場合、上記の畳み込みカーネルの数を２１に設定することにより、当該第１サンプル画像を初期ネットワークに入力した後で、７つの３チャネルの第１処理画像を出力することができるようにする。

２）上記の状況に基づき、上記のステップ４０１の出力プロセスにおいて、サーバは、第１サンプル画像ごとに、当該少なくとも１つの隠れ層を順次入力して、複数の第１処理画像を出力することができ、それにより、１つの初期ネットワークを使用して複数の第１処理画像を取得することにより、複数の畳み込みニューラルネットワークを構築して複数の第１処理画像を取得するという煩わしいアーキテクチャを回避し、１つの画像処理プロセスにおける計算量を減らし、画像処理ロジックを最適化する。

例示的に、上記の各隠れ層間を接続する場合、残差ブロック（ｒｅｓｉｄｕａｌｂｌｏｃｋ）を導入することもでき、これは、各隠れ層について、前の隠れ層の非線形層の出力画像を現在の隠れ層の正規化層の出力画像と重ね合わせた後で、残差ブロックを取得し、当該残差ブロックを当前隠れ層の非線形層の入力画像として使用することができ、それにより、ニューラルネットワークの劣化問題が解決され、初期ネットワークが深くなるほど、画像処理の効果が向上する。

例示的に、上記の正規化層は、バッチ正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ、ＢＮと略称）を使用して線形操作を実行することは、１次元又は多次元の特徴行列を持つ入力画像について、各次元の行列点の平均値と分散を取得し、当該平均値と分散に従って、当該次元の各行列点を正規化し、正規化された行列点のそれぞれを線形変換して、出力画像の多次元特徴行列を取得する。上記のバッチ正規化操作により、各隠れ層の出力画像を同様に分布させることができ、それにより、初期ネットワークのトレーニング速度を高速化させ、初期ネットワークの勾配分散問題を改善する。

例示的に、上記の非線形層で使用する活性化関数は、ｓｉｇｍｏｉｄ関数、ｔａｎｈ関数、及びＲｅＬＵ関数などであってもよい。いくつかの実施例において、ＲｅＬＵ関数を使用して非線形層の計算量を減らし、逆伝播による深層ネットワークの勾配消失の問題を回避することができる。

いくつかの実施例において、当該隠れ層は、正規化層を含まなくてもよく、即ち、各隠れ層は、畳み込み層及び非線形層のみを含み、それにより、初期ネットワークのアーキテクチャを単純化する。もちろん、当該隠れ層は、正規化層及び非線形層を含まなくてもよく、畳み込み層のみを介して入力画像に対して特徴抽出を実行し、それにより、初期ネットワークのアーキテクチャを単純化する。

いくつかの実施例において、第１サンプル画像及び第１処理画像のサイズが変化しないことを保証するために、サーバは、各畳み込みプロセス中にゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）処理を実行して、畳み込み後の特徴行列のサイズが変更しないようにする。

ステップ４０２において、サーバが、当該複数の第１処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力する。

ここで、当該オプティカルフローネットワークは、当該複数の第１処理画像と当該第１サンプル画像との間のオプティカルフロー損失を計算するために使用され、当該オプティカルフロー損失は、当該複数の第１処理画像と第１サンプル画像との間のオブジェクトの時空的相関情報（動きの違い）を表す。

いくつかの実施例において、オプティカルフローネットワークは、収縮部分及び拡大部分を含み得る。当該収縮部分は、当該複数の第１処理画像の特徴情報を深く抽出し、当該拡大部分は、収縮部分の出力画像を高画素の画像に回復するために使用される。

上記の収縮部分は、少なくとも１つの隠れ層を含み得る。各隠れ層は、接続順序に従って、１つの畳み込み層、１つの非線形層及び１つのプーリング層を含み得る。ここで、畳み込み層及び非線形層は、上記のステップ４０１で紹介された初期ネットワークと同様であり、それに応じて参照することができ、当該プーリング層は、畳み込み層及び非線形層によって処理された出力画像を圧縮するために使用され、当該出力画像のサイズを縮小し、それにより、より深い時空的相関情報の抽出が容易になり、それとともに、オプティカルフローネットワークの計算の複雑さも簡素化される。

例示的に、上記の収縮部分において、拡張畳み込み（ｄｉｌａｔｅｄｃｏｎｖｏｌｕｔｉｏｎ）方法により畳み込み演算を行い、それにより、受容野（ｒｅｃｅｐｔｉｖｅｆｉｅｌｄ）を効果的に増加させ、より多くの時空的相関情報を抽出することができ、オプティカルフローネットワークの計算量を減らすことができる。

上記の拡大部分において、アンプーリング（ｕｎｐｏｏｌｉｎｇ）方法、アップサンプリング（ｕｎｓａｍｐｌｉｎｇ）方法、又は逆畳み込み（ｄｅｃｏｎｖｏｌｕｔｉｏｎ、転置畳み込みとも呼ばれる）方法のうちの少なくとも１つの拡大方法を使用することができ、それにより、収縮部分の出力画像のサイズを増加させ、収縮部分の出力画像の解像度を向上させる。

上記のプロセスにおいて、サーバは、当該オプティカルフローネットワークを介して、当該複数の第１処理画像に対して、第１サンプル画像の画素に対する当該複数の第１処理画像の画素の時間領域及び空間領域の変化（即ち、時空的相関情報）を抽出することができ、それにより、当該第１処理画像の画素と当該第１サンプル画像の画素との間の画素対応関係を取得する。サーバは、当該画素対応関係に従って、当該第１処理画像と第１サンプル画像との間のオブジェクトのオプティカルフロー損失を取得することができる。

いくつかの実施例において、上記のステップ４０２のオプティカルフロー損失の損失関数は、次の式で表すことができる。

以上の式において、Ｉ_{ｂｌｕｒｒｙ}は、第１サンプル画像（即ち、初期ネットワークの入力画像）を表し、Ｇは、初期ネットワークの作用を表し、それにより、Ｇ（Ｉ_{ｂｌｕｒｒｙ}）は、第１処理画像（即ち、初期ネットワークによって処理された第１サンプル画像）を表し、ｘは、幅方向における第１処理画像の画素点の位置を表し、ｙは、高さ方向における第１処理画像の画素点の位置を表し、Ｗは、第１処理画像の幅を表し、Ｈは、第１処理画像の高さを表し、Ｉ_ｆｌｏｗは、オプティカルフローネットワークによって抽出された第１処理画像の時空的相関情報を表す特徴マップを表し、それにより、Ｌ_ｆｌｏｗは、複数の第１処理画像と元の鮮明画像との間の時空的相関情報を表すことができる。

ステップ４０３において、サーバが、当該複数の第１処理画像を知覚ネットワークに入力して、知覚損失を出力する。

ここで、当該知覚ネットワークは、当該複数の第１処理画像と、第１サンプル画像を合成した鮮明画像との間の知覚損失を計算するために使用され、当該知覚損失は、当該複数の第１処理画像と当該鮮明画像との間の高レベルの特徴損失を表す。

いくつかの実施例において、当該知覚ネットワークは、事前にトレーニングされたＶＧＧネットワーク（ｖｉｓｕａｌｇｅｏｍｅｔｒｙｇｒｏｕｐｎｅｔｗｏｒｋ、ＶＧＧＮｅｔと略称）であってもよく、当該複数の第１処理画像と当該鮮明画像との間の知覚の類似度を測定し、それにより、当該初期ネットワークのボケ除去効果を評価することができる。例えば、当該知覚ネットワークは、ＶＧＧ－１６又はＶＧＧ－１９であり、本願実施例は、当該知覚ネットワークのアーキテクチャについて特に限定しない。

当該知覚ネットワークがＶＧＧ－１６であることを例とすると、ＶＧＧ－１６は１６個の隠れ層を含み、各隠れ層はいずれも、３＊３の小型畳み込みカーネル、及び２＊２の最大プーリング層を使用し、ネットワークの深化に伴い、毎回プーリング後の画像のサイズは半分に縮小し、深さは２倍になり、それにより、知覚ネットワークの構造を簡素化し、高レベルの特徴損失を抽出するのに便利である。

いくつかの実施例において、上記のステップ４０３の知覚損失の損失関数は、次の式で表すことができる。

以上の式において、Ｉ_{ｓｈａｒｐ}は、第１サンプル画像を合成した鮮明画像（即ち、第１サンプル画像を前処理するときに使用される鮮明画像）を表し、Ｉ_{ｂｌｕｒｒｙ}は、第１サンプル画像（即ち、初期ネットワークの入力画像）を表し、Ｇは、初期ネットワークの作用を表し、それにより、Ｇ（Ｉ_{ｂｌｕｒｒｙ}）は、第１処理画像（即ち、初期ネットワークによって処理された第１サンプル画像）を表すことができ、Фは、知覚ネットワークの作用を表し、それにより、Ｌ_{ｐｅｒｃｅｐｔｕａｌ}は、第１処理画像と元の鮮明画像との間の高レベルの特徴損失を表すことができる。

上記のプロセスにおいて、前処理する場合、鮮明画像を介して第１サンプル画像を合成することができることは、鮮明画像に対してファジィ処理を行うことと同等であり、その後、ぼやけた第１サンプル画像を初期ネットワークＧに入力して、第１処理画像Ｇ（Ｉ_{ｂｌｕｒｒｙ}）を出力することは、第１サンプル画像に対して精細度の復元を実行することと同等であるため、初期ネットワークＧのボケ除去効果がよくなるほど、第１処理画像Ｇ（Ｉ_{ｂｌｕｒｒｙ}）は元の鮮明画像にますます近くなり、知覚損失の損失関数Ｌ_{ｐｅｒｃｅｐｔｕａｌ}も０に近づき、それにより、損失関数Ｌ_{ｐｅｒｃｅｐｔｕａｌ}の値に従って、初期ネットワークＧのボケ除去効果を評価することができる。

ステップ４０４においては、サーバが、当該オプティカルフロー損失、当該知覚損失及び忠実度損失に従って、第１損失関数の関数値を取得する。

上記のプロセスにおいては、当該第１損失関数が、当該複数の第１処理画像の精細度が当該第１サンプル画像よりも高いことを保証するために使用され、第１損失関数Ｌ_１は、オプティカルフロー損失Ｌ_ｆｌｏｗ、知覚損失Ｌ_{ｐｅｒｃｅｐｔｕａｌ}、及び忠実度損失Ｌ_ＭＳＥを含んでよく、次の式で表すことができる。

ここで、オプティカルフロー損失Ｌ_ｆｌｏｗ及び知覚損失Ｌ_{ｐｅｒｃｅｐｔｕａｌ}の関数項は、上記のステップ４０３で既に紹介されており、それに応じて参照することができるが、忠実度損失Ｌ_ＭＳＥの関数項では、ｘ、ｙ、Ｗ、及びＨの意味は、オプティカルフロー損失Ｌ_ｆｌｏｗと同じである。

上記のプロセスにおいて、忠実度損失は、第１処理画像と鮮明画像との間の画素の平均二乗誤差（ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ、ＭＳＥと略称）を計算した結果を表すために使用される。オプティカルフロー損失、忠実度損失、及び、知覚損失の寄与を共同で考慮することにより、第１処理画像と鮮明画像との間の画素及び時空的相関情報の違いを判断することができるだけでなく、第１処理画像と鮮明画像との間の知覚の違いがあるため、より正確なパラメータ調整を行うことができる。

ステップ４０５において、当該複数の第１処理画像の当該第１損失関数の関数値が第１目標値より大きい場合、サーバは、逆伝播アルゴリズムを介して当該初期ネットワークのパラメータを変更する。

ここで、当該第１目標値は、０より大きく１より小さい任意の値であってもよく、逆伝播アルゴリズム（ｂａｃｋｐｒｏｐａｇａｔｉｏｎａｌｇｏｒｉｔｈｍ、ＢＰアルゴリズムとも呼ばれる）は、伝播及び重み更新などの２つのリンクの繰り返しループの反復である。

例示的に、当該第１目標値は０．０１であってもよく、それにより、第１損失関数の関数値が０．０１より大きい場合、サーバは、逆伝播アルゴリズムを介して初期ネットワークのパラメータを変更する。

上記のプロセスにおいて、当該第１損失関数の関数値が第１目標値より大きい場合、連鎖導出式を通じて、重み行列を変更するための基礎を取得することができ、それにより、当該基礎に従って初期ネットワークのパラメータを変更する。

ステップ４０６において、サーバが、上記のステップ４０１～４０５の反復実行を行い、当該第１損失関数の関数値が当該第１目標値以下になった後で、当該第１ネットワークを取得する。

ここで、当該第１ネットワークは、第１サンプル画像に基づいて、当該第１サンプル画像よりも高い精細度を有する複数の第１処理画像を取得するために使用される。

上記のステップ４０５により、第１損失関数の関数値が所望値を満たさない場合、逆伝播アルゴリズムを介して初期ネットワークのパラメータを変更し、それにより、第１損失関数の関数値が当該第１目標値以下になるまで、上記のステップ４０１～４０５で実行される操作を反復実行する。これは、初期ネットワークのボケ除去能力に対するトレーニングを完了したと見なすことができ、それにより、トレーニング後のボケ除去能力を備えた初期ネットワークを第１ネットワークとして使用する。

上記のステップ４０１～４０６において、サーバは、第１損失関数に基づき、初期ネットワークをトレーニングして、第１ネットワークを取得し、それにより、第１段階のトレーニングを完了して、第１ネットワークが、第１サンプル画像よりも精細度が高い複数の第１処理画像を出力することができるようにする。例示的に、サーバは、オプティカルフロー損失及び／又は知覚損失を取得しなくてもよいため、トレーニングプロセスを簡素化させる。

上記の第１段階のトレーニングに基づき、本願実施例で提供される第２段階のトレーニング方法を実行することができ、図６は、本願実施例で提供される第１ネットワークのトレーニングのフローチャートであり、図６を参照して、以下、第２段階のトレーニング方法について詳細に説明する。

ステップ６０１において、サーバが、当該複数の第１処理画像に従って、少なくとも１つの第２サンプル画像を合成する。

図７は、本願実施例で提供される第１ネットワークのトレーニングの概略図であり、図７に示されるように、上記のプロセスにおいて、サーバは、当該複数の第１処理画像の各画素点の平均値を当該第２サンプル画像の各画素点の値として使用する。例えば、初期ネットワークが７枚の第１処理画像を出力することができる場合、サーバは、当該７枚の第１処理画像に対応する位置の画素点の画素値を合計し、７で割って、第２サンプル画像を取得することができる。

もちろん、上記の例に基づいて、サーバは、当該７枚の第１処理画像から任意の３枚の第１処理画像を選択し、当該３枚の第１処理画像の対応する位置の画素点の画素値を合計し、３で割って、１枚の第２サンプル画像を取得することもできる。残りの４枚の第１処理画像に対して、同様な操作を実行して、３枚の第１処理画像を選択して画素の平均値によって、もう１枚の第２サンプル画像を取得することもでき、それにより、当該７枚の第１処理画像から、２枚の第２サンプル画像を取得することができる。

上記のステップ６０１において、サーバは、当該複数の第１処理画像に従って、少なくとも１つの第２サンプル画像を合成することができ、それにより、ローカルのサンプル容量がトレーニング要件を満たさない場合、トレーニングプロセス中に新しいサンプル画像を継続的に生成することができ、大量のインターネットデータから第２サンプル画像を選別することを回避し、それにより、第１ネットワークに対する更なるトレーニングによるコストを低減させる。

いくつかの実施例において、サーバは、第１処理画像なしに当該第２サンプル画像を取得することもできる。即ち、サーバは、時空的相関情報を有する任意の複数の鮮明画像を１つのぼやけた第２サンプル画像に合成し、それにより、複数の第２処理画像と当該複数の鮮明画像との間の差異情報を取得するのに便利であるため、第２損失関数を取得するのに便利である。ここで、当該複数の鮮明画像は、人が移動するという動的プロセス中に連続して撮影された画像であってもよく、ビデオからインターセプトされた連続するビデオ画像フレームであってもよく、当該複数の鮮明画像は、ローカルに記憶されてもよく、クラウドから取得されたものであってもよいが、本願実施例は、当該複数の鮮明画像の取得方法について特に限定しない。

いくつかの実施例において、データベースに少なくとも１つのトレーニングセットが記憶されている場合、サーバは、第１処理画像に従って第２サンプル画像を生成せず、当該少なくとも１つのトレーニングセット内の全てのトレーニングデータを当該少なくとも１つの第２サンプル画像として取得することもでき、それにより、データベースから既存のトレーニングデータを直接抽出し、畳み込みニューラルネットワークのトレーニングプロセスを簡素化する。

ステップ６０２において、サーバが、少なくとも１つの第２サンプル画像を当該第１ネットワークに入力して、第２サンプル画像ごとに複数の第２処理画像を出力する。

上記のステップ６０２は、上記のステップ４０１と同様であるが、初期ネットワークのボケ除去能力を初期トレーニングして、第１ネットワークを取得したため、更なるトレーニングのために第２サンプル画像を第１ネットワークに入力し、それに応じて参照することができる。

ステップ６０３において、サーバが、当該複数の第２処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力する。

上記のステップ６０３は、上記のステップ４０２と同様であるため、それに応じて参照することができる。

ステップ６０４において、サーバが、当該複数の第２処理画像を知覚ネットワークに入力して、知覚損失を出力する。

上記のステップ６０４は、上記のステップ４０３と同様であるため、それに応じて参照することができる。

ステップ６０５において、サーバが、当該知覚損失に従って、特徴行列損失を取得する。

上記のプロセスにおいて、サーバは、ステップ６０４から取得した知覚損失に基づき、次の式でグラム行列（ｇｒａｍｍａｔｒｉｘ、Ｇｒａｍ行列とも呼ばれる）を取得することができる。

ここで、Ｆ_ｉは、ｉ番目の第２サンプル画像に対応する複数の第２処理画像の特徴行列（即ち、当該複数の第２処理画像が知覚ネットワークを介して出力された特徴マップ）を表し、Ｆ_i ^Ｔは、ｉ番目の第２サンプル画像に対応する複数の第２処理画像の特徴行列の転置行列を表し、Ｎは、毎回トレーニングするときのサンプル数を表し、Ｍ＝Ｃ＊Ｈ＊Ｗであり、Ｃは、特徴行列Ｆ_ｉのチャネル数を表し、Ｈは、特徴行列Ｆ_ｉの高さを表し、Ｗは、特徴行列Ｆ_ｉの幅を表す。

例示的に、ｉ（ｉは、１より大きくＮより小さい任意の整数である）番目の第２サンプル画像に対応する複数の第２処理画像の場合、Ｆ_i ^Ｔ・Ｆ_iを計算する場合、先ず、知覚ネットワークの各畳み込み層の複数の特徴を２対２で内積を取得して、各畳み込み層のＧｒａｍ行列を取得し、それにより、対応する畳み込み層間のユークリッド距離を計算し、異なる畳み込み層のユークリッド距離を合計して得られた結果をｉ番目の第２サンプル画像に対応する複数の第２処理画像の特徴行列として使用し、即ち、任意の第２サンプル画像に対応する複数の第２処理画像の場合、上記の方法により特徴行列を計算することができる。

上記のステップ６０５において、当該特徴行列損失は、第１処理画像と第２処理画像との間の動きの違い情報を表し、Ｇｒａｍ行列の特徴行列損失に基づく関数式を以下に示す。

ここで、Ｋは、第１ネットワークによって毎回出力される第２処理画像の数を表し、Ｉ^’ _{ｓｈａｒｐ}は、第２サンプル画像を合成する鮮明画像（即ち、ステップ６０１の複数の第１処理画像）を表し、Ｉ^‘ _{ｂｌｕｒｒｙ}は、第２サンプル画像（即ち、第１ネットワークの入力画像）を表し、Ｇは、第１ネットワークの作用を表し、それにより、Ｇ（Ｉ^‘ _{ｂｌｕｒｒｙ}）は、第２処理画像（即ち、第１ネットワークによって処理された第２サンプル画像）を表すことができ、Ｇｒａｍは、Ｇｒａｍ行列の演算を表し、それにより、Ｌ_Ｇｒａｍは、第２処理画像と元の鮮明画像（第１処理画像）との間の特徴行列損失（即ち、動きの差異情報）を表すことができる。

ステップ６０６において、サーバが、当該オプティカルフロー損失、知覚損失、当該特徴行列損失及び忠実度損失に従って、第２損失関数の関数値を取得する。

上記のプロセスにおいて、当該第２損失関数は、当該複数の第２処理画像の精細度が当該第２サンプル画像よりも高く、且つ動きの違いがあることを保証するために使用され、第２損失関数Ｌ_２は、オプティカルフロー損失Ｌ^’ _ｆｌｏｗ、知覚損失Ｌ^’ _{ｐｅｒｃｅｐｔｕａｌ}、特徴行列損失Ｌ_Ｇｒａｍ、及び忠実度損失Ｌ^’ _ＭＳＥを含んでよく、次の式で表すことができる。

ここで、特徴行列損失Ｌ_Ｇｒａｍの関数項は、上記のステップ６０５で紹介されており、それに応じて参照することができる。ここで、Ｌ^’ _ｆｌｏｗは、オプティカルフローネットワークによって抽出された、第２処理画像の時空的相関情報を表す特徴マップを表し、知覚損失Ｌ^’ _{ｐｅｒｃｅｐｔｕａｌ}及び忠実度損失Ｌ^’ _ＭＳＥの関数項では、Ｉ^’ _{ｓｈａｒｐ}、Ｉ^’ _{ｂｌｕｒｒｙ}、及びＧ（Ｉ^’ _{ｂｕｒｒｙ}）は、特徴行列損失Ｌ_Ｇｒａｍでの意味と同じである。

さらに、ｘは、幅方向における第２処理画像の画素点の位置を表し、ｙは、高さ方向における第２処理画像の画素点の位置を表し、Ｗは、第２処理画像の幅（第１処理画像Ｉ^’ _{ｓｈａｒｐ}の幅と同じである）を表し、Ｈは、第２処理画像の高さ（第１処理画像Ｉ^’ _{ｓｈａｒｐ}の高さと同じである）を表し、Фは、知覚ネットワークの作用を表す。

上記のプロセスにおいて、忠実度損失は、第２処理画像と第１処理画像との間の画素の平均二乗誤差（ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ、ＭＳＥと略称）を計算した結果を表すために使用される。オプティカルフロー損失、オプティカルフロー損失、忠実度損失、知覚損失、及び特徴行列の寄与を共同で考慮することにより、第１処理画像と第２処理画像との間の画素及び時空的相関情報の違いを判断することができるだけでなく、第１処理画像と第２処理画像との間の知覚の違い及び動きの違いがあると考慮するため、より正確なパラメータ調整を行うことができる。

ステップ６０７において、当該複数の第２処理画像の当該第２損失関数の関数値が第２目標値より大きい場合、サーバは、逆伝播アルゴリズムを介して当該第１ネットワークのパラメータを変更する。

ここで、当該第２目標値は、０より大きいか１より小さい任意の値であってもよく、当該第２目標値は、第１目標値と同じであってもよく、第１目標値と異なってもよいが、本願実施例は、当該第２目標値の値について特に限定しない。

上記のステップ６０７は、ステップ４０５と同様であるため、それに応じて参照することができる。

ステップ６０８において、サーバが、上記のステップ６０１～６０７の反復実行を行い、当該第２損失関数の関数値が当該第２目標値以下になった後で、当該第２ネットワークを取得する。

ここで、当該第２ネットワークは、第２サンプル画像に基づいて、当該第２サンプル画像よりも高い精細度を有する複数の第２処理画像を取得するために使用され、当該複数の第２処理画像は、動きの違いがある。

上記のステップ６０８により、第２損失関数の関数値が所望値を満たさない場合、逆伝播アルゴリズムを介して第１ネットワークのパラメータを変更し、それにより、第２損失関数の関数値が当該第２目標値以下になるまで、上記のステップ６０１～６０７で実行される操作を繰り返して実行するが、これは、動きの違いがある画像を出力する第１ネットワークのトレーニングが完了したと見なすことができ、それにより、トレーニング後の第１ネットワークを当該第２ネットワークとして使用する。

上記のステップ６０１～６０８において、サーバは、第２損失関数に基づき、第１ネットワークをトレーニングして、第２ネットワークを取得し、それにより、第２段階のトレーニングを完了して、第２ネットワークが、精細度が第２サンプル画像よりも高く、且つ、動きの違いがある複数の第２処理画像を出力することができるようにする。例示的に、サーバは、オプティカルフロー損失及び／又は知覚損失を取得しなくてもよいため、トレーニングプロセスを簡素化させる。

上記の第２段階のトレーニングに基づき、本願実施例で提供される第３段階のトレーニング方法を実行することができ、図８は、本願実施例で提供される第２ネットワークのトレーニングのフローチャートである。図８を参照して、以下、第２段階のトレーニング方法について詳細に説明する。

ステップ８０１において、サーバが、当該複数の第２処理画像に従って、少なくとも１つの第３サンプル画像を合成する。

図９は、本願実施例で提供される第２ネットワークのトレーニングの概略図であり、図９に示されるように、上記のステップ８０１は、ステップ６０１と同様であり、それに応じて参照することができる。

ステップ８０２において、サーバが、少なくとも１つの第３サンプル画像を当該第２ネットワークに入力して、第３サンプル画像ごとに複数の第３処理画像を出力する。

上記のステップ８０２は、ステップ６０２又はステップ４０１と同様であるため、それに応じて参照することができる。

ステップ８０３において、サーバが、当該複数の第３処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力する。

上記のステップ８０３は、ステップ６０３又はステップ４０２と同様であるため、それに応じて参照することができる。

ステップ８０４において、サーバが、当該複数の第３処理画像を知覚ネットワークに入力して、知覚損失を出力する。

上記のステップ８０４は、ステップ６０４又はステップ４０３と同様であるため、それに応じて参照することができる。

ステップ８０５において、サーバが、当該知覚損失に従って、特徴行列損失を取得する。

上記のステップ８０５は、ステップ６０５と同様であるため、それに応じて参照することができる。

ステップ８０６において、サーバが、当該オプティカルフロー損失、知覚損失、当該特徴行列損失、忠実度損失、及びぼかし損失に従って、第３損失関数の関数値を取得する。

ここで、当該ぼかし損失は、特徴の欠落による第３サンプル画像と第３処理画像との間の非表示差異情報を指示し、当該ぼかし損失は、次の式で表すことができる。

以上の式では、Ｉ_ｉｎは、第３サンプル画像を合成するための鮮明な第２処理画像を表し、Ｂは、ボケ画像を生成する操作を表し、Ｇは、第２ネットワークの作用を表し、Ｋは、当該第２ネットワークによって毎回出力された複数の第３処理画像の数を表し、Ｎは、第３サンプル画像の数を表す。

以上の式から分かるように、ぼかし損失は２つの部分を含み、１つは第２処理画像と第３処理画像との間の非表示差異情報であり、１つは、第３サンプル画像と、複数の第３処理画像に従って合成されたボケ画像との間の非表示差異情報であり、それにより、特徴の欠落による第２ネットワークの非表示差異情報全体を表すことができる。

上記のステップ８０６において、当該第３損失関数は、当該複数の第３処理画像の精細度が当該第３サンプル画像よりも高く、動きの違いがあり、且つ当該第３サンプル画像で隠された情報を保持することを保証するために使用され、第３損失関数Ｌ_３は、オプティカルフロー損失Ｌ^’
^’ _ｆｌｏｗ、知覚損失Ｌ^’’ _{ｐｅｒｃｅｐｔｕａｌ}、忠実度損失Ｌ^’’ _ＭＳＥ、特徴行列損失Ｌ^’ _Ｇｒａｍ、及びぼかし損失Ｌ^’’ _ＭＳＥを含んでよく、次の式で表すことができる。

ここで、ぼかし損失Ｌ_ｃは、上記と同じであり、それに応じて参照することができる。オプティカルフロー損失Ｌ^’’ _ｆｌｏｗ、特徴行列損失Ｌ^’ _Ｇｒａｍ、知覚損失Ｌ^’’ _{ｐｅｒｃｐｔｕａｌ}、及び忠実度損失Ｌ^’’ _ＭＳＥの関数式は、上記のステップ６０６と同様であり、それに応じて参照することができる。

さらに、ｘは、幅方向における第３処理画像の画素点の位置を表し、ｙは、高さ方向における第３処理画像の画素点の位置を表し、Ｗは、第３処理画像の幅（第２処理画像Ｉ^’’ _{ｓｈａｒｐ}の幅と同じである）、Ｈは、第２処理画像の高さ（第２処理画像Ｉ^’’ _{ｓｈａｒｐ}の高さと同じである）を表し、Ｉ^’’ _ｆｌｏｗは、オプティカルフローネットワークによって抽出された、第３処理画像の時空的相関情報を表す特徴マップを表し、Фは、知覚ネットワークの作用を表し、Ｇｒａｍは、Ｇｒａｍ行列の演算を表す。

上記のプロセスにおいて、忠実度損失は、第３処理画像と第２処理画像との間の画素の平均二乗誤差（ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ、ＭＳＥと略称）を計算した結果を表すために使用される。オプティカルフロー損失、オプティカルフロー損失、忠実度損失、知覚損失、特徴行列、及びぼかし損失の寄与を共同で考慮することにより、第１処理画像と第２処理画像との間の画素及び時空的相関情報の違いを判断することができるだけでなく、第１処理画像と第２処理画像との間の知覚の違い及び動きの違いがあると考慮し、第２ネットワークの作用により、元のボケ画像の非表示差異情報が欠落されているかどうかを考慮することもできるため、欠落されたボケ画像の元の非表示情報を復元するように、より正確なパラメータ調整を行うことができる。

ステップ８０７において、当該複数の第３処理画像の当該第３損失関数の関数値が第３目標値より大きい場合、サーバは、逆伝播アルゴリズムを介して当該第２ネットワークのパラメータを変更する。

ここで、当該第３目標値は、０より大きいか１より小さい任意の値であってもよく、当該第３目標値は、第１目標値及び／又は第２目標値と同じであってもよく、異なってもよいが、本願実施例は、当該第３目標値の値について特に限定しない。

いくつかの実施例において、第２ネットワークのパラメータを調整する場合、前回トレーニングする時に出力された複数の第３処理画像を１枚のボケ画像に合成することができ、それにより、当該ボケ画像を当該第２ネットワークに入力して今回のトレーニングを行う。それにより、当該複数の鮮明な第３処理画像を教師情報として使用し、これにより、第３損失関数の値を取得するのに便利であるため、トレーニング速度を加速させる。

上記のステップ８０７は、ステップ６０７又はステップ４０５と同様であるため、それに応じて参照することができる。

ステップ８０８において、サーバが、上記のステップ８０１～８０７の反復実行を行い、当該第３損失関数の関数値が当該第３目標値以下になった後で、当該第３ネットワークを取得する。

ここで、当該第３ネットワークは、第３サンプル画像に基づいて、当該第３サンプル画像よりも高い精細度を有する複数の第３処理画像を取得するために使用され、当該複数の第３処理画像は、動きの違いがあり、且つ、当該第３サンプル画像で隠された情報を保持する。

上記のステップ８０８により、第３損失関数の関数値が所望値を満たさない場合、逆伝播アルゴリズムを介して第２ネットワークのパラメータを変更し、それにより、第３損失関数の関数値が当該第３目標値以下になるまで、上記のステップ８０１～８０７で実行される操作を繰り返して実行する。これは、元のボケ画像の非表示情報を保持する画像を出力する第２ネットワークのトレーニングが完了したと見なすことができ、それにより、トレーニング後の第２ネットワークを当該第３ネットワークとして使用する。

上記のステップ８０１～８０８において、サーバが、第３損失関数に従って、第２ネットワークをトレーニングして、第３ネットワークを取得し、これにより、第３ネットワークは、精細度が第３サンプル画像より高く、動きの違いがあり、且つ、第３サンプル画像で隠された情報を保持する複数の第３処理画像を出力することができ、例示的に、サーバは、オプティカルフロー損失及び／又は知覚損失を取得しないこともでき、それにより、トレーニングプロセスを簡素化する。

ステップ８０９において、画像処理命令を受信した場合、サーバが、当該原画像を当該第３ネットワークに入力して、当該複数の目標画像を出力する。

上記のステップ４０１～４０６、ステップ６０１～６０８、及びステップ８０１～８０９において、サーバが、初期ネットワークをトレーニングして、第３ネットワークを取得し、これにより、当該第３ネットワークの原画像を入力して、精細度が当該原画像よりも高く、動きの違いがあり、且つ、原画像の非表示情報を保持する複数の目標画像を出力することができる。ここで、当該画像処理命令は、原画像を少なくとも搬送する。

上記の各実施例で言及された「ボケ画像」は、精細度が第１プリセットされた閾値よりも低い任意の画像であってもよく、上記の各実施例で言及された「鮮明画像」は、精細度が当該ボケ画像よりも高い任意の画像であってもよいことに留意されたい。もちろん、当該鮮明画像は、精細度が当該ボケ画像よりも高く、且つ、第２プリセットされた閾値よりも高い任意の画像であってもよく、ここで、当該第２プリセットされた閾値は、当該第１プリセットされた閾値より高いも高い任意の値であるが、本願実施例は、当該第１プリセットされた閾値及び第２プリセットされた閾値の値について特に限定しない。

本願実施例で提供される画像処理方法によると、サーバは、第１損失関数に従って、初期ネットワークをトレーニングして、第１ネットワークを取得し、それにより、畳み込みニューラルネットワークのボケ除去能力をトレーニングし、第２損失関数に従って、当該第１ネットワークをトレーニングして、第２ネットワークを取得し、それにより、動きの違いがある複数の処理画像を出力する畳み込みニューラルネットワークの能力をトレーニングし、第３損失関数に従って、当該第２ネットワークをトレーニングして、第３ネットワークを取得し、それにより、当該第２ネットワークに基づき、入力画像の非表示情報を最大限に復元し、それにより、画像処理命令を受信した場合、当該第３ネットワークに基づき、原画像に対して画像処理を実行して、複数の目標画像を取得することができる。１つの畳み込みニューラルネットワークを使用して、複数の精細度が原画像よりも高く、動きの違いがあり、且つ原画像の非表示情報を保持する目標画像を出力するためには、当該ネットワーク内の各畳み込み層の情報相互作用は強い。より多くの鮮明画像を必要とする場合、並列式ネットワークアーキテクチャと比較すると、各画像処理プロセスにおける計算量が削減され、画像処理の効率が向上する。

さらに、オプティカルフローネットワークを介してオプティカルフロー損失を取得し、出力画像の時空的相関情報を深く抽出することができ、知覚ネットワークを介して知覚損失を取得し、出力画像と元の鮮明画像の知覚の違いを抽出することができる。さらに、知覚損失に従って特徴行列損失を取得し、動きの違い情報を取得することができ、さらに、ぼかし損失を取得することにより、非表示差異情報を判断し、それにより、畳み込みニューラルネットワークのパラメータを正確に調整することができる。

上記の全ての例示的な技術案を任意の組み合わることにより、本発明の例示的な実施例を形成することができる。

図１０は、本願実施例で提供される画像処理装置の概略的な構造図であり、図１０を参照すると、当該装置は、トレーニングモジュール１００１及び処理モジュール１００２を備える。画像処理装置が備える各モジュールの全て又は一部は、ソフトウェア、ハードウェア、又はそれらの組み合わせによって実現され得る。

トレーニングモジュール１００１は、初期ネットワークをトレーニングして、第１ネットワークを取得するように構成され、当該第１ネットワークは、第１サンプル画像に基づいて、当該第１サンプル画像よりも高い精細度を有する複数の第１処理画像を取得するために使用される。

当該トレーニングモジュール１００１は、更に、当該第１ネットワークをトレーニングして、第２ネットワークを取得するように構成され、当該第２ネットワークは、第２サンプル画像に基づいて、当該第２サンプル画像よりも高い精細度を有する複数の第２処理画像を取得するために使用され、当該複数の第２処理画像は、動きの違いがある。

当該トレーニングモジュール１００１は、更に、当該第２ネットワークをトレーニングして、第３ネットワークを取得するように構成され、当該第３ネットワークは、第３サンプル画像に基づいて、当該第３サンプル画像よりも高い精細度を有する複数の第３処理画像を取得するために使用され、当該複数の第３処理画像は、動きの違いがあり、且つ、当該第３サンプル画像で隠された情報を保持する。

当該処理モジュール１００２は、画像処理命令を受信した場合、当該第３ネットワークに基づき、原画像に対して画像処理を実行して、複数の目標画像を取得するように構成される。

本願実施例で提供される画像処理装置によると、サーバは、初期ネットワークをトレーニングして、第１ネットワークを取得し、それにより、畳み込みニューラルネットワークのボケ除去能力をトレーニングし、当該第１ネットワークをトレーニングして、第２ネットワークを取得する。それにより、動きの違いがある複数の処理画像を出力する畳み込みニューラルネットワークの能力をトレーニングし、当該第２ネットワークをトレーニングして、第３ネットワークを取得する。それにより、サンプル画像の非表示情報を回復する畳み込みニューラルネットワークの能力をトレーニングし、それにより、画像処理命令を受信した場合、当該第３ネットワークに基づき、原画像に対して画像処理を実行して、複数の目標画像を取得することができる。１つの畳み込みニューラルネットワークのみを使用して、複数の精細度が原画像よりも高く、動きの違いがあり、且つ、原画像の非表示情報を保持する目標画像を出力するためには、当該ネットワーク内の各畳み込み層の情報相互作用は、強い。より多くの鮮明画像を必要とする場合、並列式ネットワークアーキテクチャと比較すると、各画像処理プロセスにおける計算量が削減され、画像処理の効率が向上する。

一つの可能な実施形態において、図１０の装置構成に基づき、当該トレーニングモジュール１００１は、更に、少なくとも１つの第１サンプル画像を当該初期ネットワークに入力して、第１サンプル画像ごとに複数の第１処理画像を出力し、当該複数の第１処理画像の第１損失関数の関数値が第１目標値より大きい場合、逆伝播アルゴリズムを介して当該初期ネットワークのパラメータを変更し、当該第１損失関数は、当該複数の第１処理画像の精細度が当該第１サンプル画像よりも高いことを保証するために使用され、当該第１損失関数の関数値が当該第１目標値以下になった後、当該第１ネットワークを取得するように構成される。

一つの可能な実施形態において、図１０の装置構成に基づき、当該トレーニングモジュール１００１は、更に、当該複数の第１処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力し、当該複数の第１処理画像を知覚ネットワーク入力して、知覚損失を出力し、当該オプティカルフロー損失、当該知覚損失、及び忠実度損失に従って、第１損失関数の関数値を取得するように構成される。

一つの可能な実施形態において、図１０の装置構成に基づき、当該トレーニングモジュール１００１は、更に、少なくとも１つの第２サンプル画像を当該第１ネットワークに入力して、第２サンプル画像ごとに複数の第２処理画像を出力し、当該複数の第２処理画像の第２損失関数の関数値が第２目標値より大きい場合、逆伝播アルゴリズムを介して当該第１ネットワークのパラメータを変更し、当該第２損失関数は、当該複数の第２処理画像の精細度が当該第２サンプル画像よりも高く、且つ、動きの違いがあることを保証するために使用され、当該第２損失関数の関数値が当該第２目標値以下になった後、当該第２ネットワークを取得するように構成される。

一つの可能な実施形態において、図１０の装置構成に基づき、当該トレーニングモジュール１００１は、更に、当該複数の第２処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力し、当該複数の第２処理画像を知覚ネットワーク入力して、知覚損失を出力し、当該知覚損失に従って、特徴行列損失を取得し、当該オプティカルフロー損失、知覚損失、当該特徴行列損失、及び忠実度損失に従って、第２損失関数の関数値を取得するように構成される。

一つの可能な実施形態において、図１０の装置構成に基づき、当該トレーニングモジュール１００１は、更に、少なくとも１つの第３サンプル画像を当該第２ネットワークに入力して、第３サンプル画像ごとに複数の第３処理画像を出力し、当該複数の第３処理画像の第３損失関数の関数値が第３目標値より大きい場合、逆伝播アルゴリズムを介して当該第２ネットワークのパラメータを変更し、当該第３損失関数は、当該複数の第３処理画像の精細度が当該第３サンプル画像よりも高く、動きの違いがあり、且つ、当該第３サンプル画像で隠された情報を保持することを保証するために使用され、当該第３損失関数の関数値が当該第３目標値以下になった後、当該第３ネットワークを取得するように構成される。

一つの可能な実施形態において、図１０の装置構成に基づき、当該トレーニングモジュール１００１は、更に、当該複数の第３処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力し、当該複数の第３処理画像を知覚ネットワーク入力して、知覚損失を出力し、当該知覚損失に従って、特徴行列損失を取得し、当該オプティカルフロー損失、知覚損失、当該特徴行列損失、忠実度損失、及びぼかし損失に従って、第３損失関数の関数値を取得するように構成される。

一つの可能な実施形態において、図１０の装置構成に基づき、当該トレーニングモジュール１００１は、更に、当該複数の第１処理画像に従って、少なくとも１つの第２サンプル画像を合成し、当該複数の第２処理画像に従って、少なくとも１つの第３サンプル画像を合成するように構成される。

一つの可能な実施形態において、当該初期ネットワークは少なくとも１つの隠れ層を含み、各隠れ層は、畳み込み層、正規化層及び非線形層を含む。

上述の実施例で開示された画像処理装置が画像を処理する場合、上記の各機能モジュールの分割のみを例に挙げて説明したが、実際の応用では、必要に応じて上述の機能を異なる機能モジュールに割り当てられることにより完了してもよく、即ち、コンピュータ機器の内部構造を異なる機能モジュールに分割して、上述の機能のすべて又は一部を完了することができることに留意されたい。なお、上述の実施例で開示された画像処理装置は、画像処理方法の実施例と同じ構想に属し、その具体的な実現プロセスについては方法の実施例を参照する。

図１１は、本願実施例で提供されるコンピュータ機器の概略的な構造図であり、当該コンピュータ機器１１００は、構成やパフォーマンスが異なることにより大きな差を有し得る。当該コンピュータ機器は、１つ又は１つ以上のプロセッサ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵと略称）１１０１、及び、１つ又は１つ以上のメモリ１１０２を備える。いくつかの実施例において、当該コンピュータ機器１１００は、スマートフォン、タブレットコンピュータ、動画エキスパートグループオーディオレイヤー３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ、ＭＰ３と略称）プレーヤー、動画エキスパートグループオーディオレイヤー４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、ＭＰ４と略称）プレーヤー、ラップトップコンピュータ又はデスクトップコンピュータであってもよい。コンピュータ機器１１００は、端末、サーバ、ユーザ機器、携帯式端末、ラップトップ端末、デスクトップ端末などの他の名称で称されてもよい。

ここで、当該メモリ１１０２は、少なくとも１つの命令を記憶し、上記の各画像処理方法の実施例で提供される方法を実現するために、当該少なくとも１つの命令は、当該プロセッサ１１０１によってローディング及び実行される。もちろん、入力及び出力するように、当該コンピュータ機器は、更に、有線又は無線ネットワークインターフェース、キーボード、及び入力／出力インターフェースなどのコンポーネントを備えることができ、当該コンピュータ機器は、更に、機器機能を実現するための他のコンポーネントを備えることができる。

一つの実施例において、メモリ及びプロセッサを備えるコンピュータ機器を提供し、メモリは、コンピュータ可読命令を記憶し、コンピュータ可読命令がプロセッサによって実行されると、プロセッサに上記の画像処理方法のステップを実行させる。ここで、画像処理方法のステップは、上述の各実施例の画像処理方法におけるステップであってもよい。

一つの実施例において、コンピュータ可読命令が記憶されたコンピュータ機器を提供し、コンピュータ可読命令がプロセッサによって実行されると、プロセッサに上記の画像処理方法のステップを実行させる。ここで、画像処理方法のステップは、上述の各実施例の画像処理方法におけるステップであってもよい。

上記の実施例の方法の全て又は一部のプロセスは、コンピュータ可読命令によって、関連するハードウェアに命令することにより完了してもよいことが当業者であれば自明である。前記プログラムは、不揮発性コンピュータ可読取記憶媒体に記憶されてもよく、当該プログラムは実行されると、上記の各方法の実施例のプロセスを含み得る。ここで、本願で提供される各実施例で使用されるメモリ、ストレージ、データベース又は他の媒体への参照の全ては、不揮発性及び／又は揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）又は外部キャッシュメモリを含み得る。説明するものであり、限定するものではないが、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、デュアルデータ率ＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、強化型ＳＤＲＡＭ（ＥＳＤＲＡＭ）、同期接続（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、ラムバス（Ｒａｍｂｕｓ）直接ＲＡＭ（ＲＤＲＡＭ）、直接メモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）などの様々な形であってもよい。

以上、実施例の各技術的特徴を任意に組み合わせることができ、説明を簡潔にするために、上述の実施例における各技術的特徴の全ての可能な組み合わせについては説明していない。しかしながら、これらの技術的特徴の組み合わせに矛盾がない限り、それらの全ては、本明細書の範囲と見なされるべきである。

以上、実施例は本願のいくつかの実施形態のみを説明しており、それらの説明はより具体的且つ詳細であるが、本発明の特許の範囲を限定するものとして解釈されるべきではない。当業者にとって、本願の構想から逸脱することなく、いくつかの変形又は改善を加えることもでき、これらの変形又は改善は、両方とも、本願の保護範囲に属することに留意されたい。したがって、本願の特許の保護範囲は、特許請求を基準とするべきである。

（注：「特許請求の範囲」は、自発補正として手続補正書を提出するので、いただいた”2100809-Japanese-amended-claims-”の方だけを修正しています。従って、翻訳文提出時には、以下の「特許請求の範囲」をそのまま使用します。）

Claims

コンピュータ機器が実行する画像処理方法であって、
初期ネットワークをトレーニングして、第１ネットワークを取得するステップであり、前記第１ネットワークは、第１サンプル画像に基づいて、前記第１サンプル画像よりも高い精細度を有する複数の第１処理画像を取得するために使用される、ステップと、
前記第１ネットワークをトレーニングして、第２ネットワークを取得するステップであり、前記第２ネットワークは、第２サンプル画像に基づいて、前記第２サンプル画像よりも高い精細度を有する複数の第２処理画像を取得するために使用され、前記複数の第２処理画像は、動きの違いがある、ステップと、
前記第２ネットワークをトレーニングして、第３ネットワークを取得するステップであり、前記第３ネットワークは、第３サンプル画像に基づいて、前記第３サンプル画像よりも高い精細度を有する複数の第３処理画像を取得するために使用され、前記複数の第３処理画像は、動きの違いがあり、且つ、前記第３サンプル画像に隠された情報を保持する、ステップと、
画像処理命令を受信した場合に、前記第３ネットワークに基づき、原画像に対して画像処理を実行して、複数の目標画像を取得するステップと、を含む、
ことを特徴とする、方法。
前記初期ネットワークをトレーニングして、第１ネットワークを取得するステップは、
少なくとも１つの第１サンプル画像を前記初期ネットワークに入力して、第１サンプル画像ごとに複数の第１処理画像を出力するステップと、
前記複数の第１処理画像の第１損失関数の関数値が第１目標値より大きい場合に、逆伝播アルゴリズムを介して前記初期ネットワークのパラメータを変更するステップである、前記第１損失関数は、前記複数の第１処理画像の精細度が前記第１サンプル画像よりも高いことを保証するために使用される、ステップと、
前記第１損失関数の関数値が前記第１目標値以下になった後で、前記第１ネットワークを取得するステップと、を含む、
ことを特徴とする、請求項１に記載の方法。
前記方法は、さらに、
前記複数の第１処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力するステップと、
前記複数の第１処理画像を知覚ネットワークに入力して、知覚損失を出力するステップと、
前記オプティカルフロー損失、前記知覚損失及び忠実度損失に従って、前記第１損失関数の関数値を取得するステップと、
を含む、
ことを特徴とする、請求項２に記載の方法。
前記第１ネットワークをトレーニングして、第２ネットワークを取得するステップは、
少なくとも１つの第２サンプル画像を前記第１ネットワークに入力して、第２サンプル画像ごとに複数の第２処理画像を出力するステップと、
前記複数の第２処理画像の第２損失関数の関数値が第２目標値より大きい場合に、逆伝播アルゴリズムを介して前記第１ネットワークのパラメータを変更するステップであり、前記第２損失関数は、前記複数の第２処理画像の精細度が前記第２サンプル画像よりも高く、且つ、動きの違いがあることを保証するために使用される、ステップと、
前記第２損失関数の関数値が前記第２目標値以下になった後で、前記第２ネットワークを取得するステップと、を含む、
ことを特徴とする、請求項１に記載の方法。
前記方法は、さらに、
前記複数の第２処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力するステップと、
前記複数の第２処理画像を知覚ネットワークに入力して、知覚損失を出力するステップと、
前記知覚損失に従って、特徴行列損失を取得するステップと、
前記オプティカルフロー損失、前記知覚損失、前記特徴行列損失及び忠実度損失に従って、前記第２損失関数の関数値を取得するステップと、含む、
ことを特徴とする、請求項４に記載の方法。
前記第２ネットワークをトレーニングして、第３ネットワークを取得するステップは、
少なくとも１つの第３サンプル画像を前記第２ネットワークに入力して、第３サンプル画像ごとに複数の第３処理画像を出力するステップと、
前記複数の第３処理画像の第３損失関数の関数値が第３目標値より大きい場合に、逆伝播アルゴリズムを介して前記第２ネットワークのパラメータを変更するステップであり、前記第３損失関数は、前記複数の第３処理画像の精細度が前記第３サンプル画像よりも高く、動きの違いがあり、且つ、前記第３サンプル画像で隠された情報を保持することを保証するために使用される、ステップと、
前記第３損失関数の関数値が前記第３目標値以下になった後で、前記第３ネットワークを取得するステップと、を含む、
ことを特徴とする、請求項１に記載の方法。
前記方法は、さらに、
前記複数の第３処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力するステップと、
前記複数の第３処理画像を知覚ネットワークに入力して、知覚損失を出力するステップと、
前記知覚損失に従って、特徴行列損失を取得するステップと、
前記オプティカルフロー損失、前記知覚損失、前記特徴行列損失、忠実度損失、及びぼかし損失に従って、前記第３損失関数の関数値を取得するステップと、を含む、
ことを特徴とする、請求項６に記載の方法。
前記方法は、さらに、
前記複数の第１処理画像に従って、少なくとも１つの第２サンプル画像を合成するステップと、
前記複数の第２処理画像に従って、少なくとも１つの第３サンプル画像を合成するステップと、を含む、
ことを特徴とする、請求項１ないし７のいずれか一項に記載の方法。
前記初期ネットワークは、少なくとも１つの隠れ層を含み、各隠れ層は、畳み込み層、正規化層、及び非線形層を含む、
ことを特徴とする、請求項１に記載の方法。
画像処理装置であって、
トレーニングモジュール及び処理モジュールを備え、
前記トレーニングモジュールは、初期ネットワークをトレーニングして、第１ネットワークを取得するように構成され、前記第１ネットワークは、第１サンプル画像に基づいて、前記第１サンプル画像よりも高い精細度を有する複数の第１処理画像を取得するために使用され、
前記トレーニングモジュールは、更に、前記第１ネットワークをトレーニングして、第２ネットワークを取得するように構成され、前記第２ネットワークは、第２サンプル画像に基づいて、前記第２サンプル画像よりも高い精細度を有する複数の第２処理画像を取得するために使用され、前記複数の第２処理画像は、動きの違いがあり、
前記トレーニングモジュールは、更に、前記第２ネットワークをトレーニングして、第３ネットワークを取得するように構成され、前記第３ネットワークは、第３サンプル画像に基づいて、前記第３サンプル画像よりも高い精細度を有する複数の第３処理画像を取得するために使用され、前記複数の第３処理画像は、動きの違いがあり、且つ、前記第３サンプル画像で隠された情報を保持し、
前記処理モジュールは、画像処理命令を受信した場合に、前記第３ネットワークに基づき、原画像に対して画像処理を実行して、複数の目標画像を取得する、ように構成される、
ことを特徴とする、装置。
前記トレーニングモジュールは、更に、
少なくとも１つの第１サンプル画像を前記初期ネットワークに入力して、第１サンプル画像ごとに複数の第１処理画像を出力し、
前記複数の第１処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力し、
前記複数の第１処理画像を知覚ネットワークに入力して、知覚損失を出力し、
前記オプティカルフロー損失、前記知覚損失及び忠実度損失に従って、第１損失関数の関数値を取得し、
前記複数の第１処理画像の前記第１損失関数の関数値が第１目標値より大きい場合に、逆伝播アルゴリズムを介して、前記初期ネットワークのパラメータを変更し、前記第１損失関数は、前記複数の第１処理画像の精細度が前記第１サンプル画像よりも高いことを保証するために使用され、
前記第１損失関数の関数値が前記第１目標値以下になった後で、前記第１ネットワークを取得する、
ように構成される、
ことを特徴とする、請求項１０に記載の装置。
前記トレーニングモジュールは、更に、
少なくとも１つの第２サンプル画像を前記第１ネットワークに入力して、第２サンプル画像ごとに複数の第２処理画像を出力し、
前記複数の第２処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力し、
前記複数の第２処理画像を知覚ネットワークに入力して、知覚損失を出力し、
前記知覚損失に従って、特徴行列損失を取得し、
前記オプティカルフロー損失、前記知覚損失、前記特徴行列損失、及び忠実度損失に従って、第２損失関数の関数値を取得し、
前記複数の第２処理画像の前記第２損失関数の関数値が第２目標値より大きい場合に、逆伝播アルゴリズムを介して、前記第１ネットワークのパラメータを変更し、前記第２損失関数は、前記複数の第２処理画像の精細度が前記第２サンプル画像よりも高く、且つ、動きの違いがあることを保証するために使用され、
前記第２損失関数の関数値が前記第２目標値以下になった後で、前記第２ネットワークを取得する、
ように構成される、
ことを特徴とする、請求項１０に記載の装置。
前記トレーニングモジュールは、更に、
少なくとも１つの第３サンプル画像を前記第２ネットワークに入力して、第３サンプル画像ごとに複数の第３処理画像を出力し、
前記複数の第３処理画像をオプティカルフローネットワークに入力して、オプティカルフロー損失を出力し、
前記複数の第３処理画像を知覚ネットワークに入力して、知覚損失を出力し、
前記知覚損失に従って、特徴行列損失を取得し、
前記オプティカルフロー損失、前記知覚損失、前記特徴行列損失、忠実度損失、及びぼかし損失に従って、第３損失関数の関数値を取得し、
前記複数の第３処理画像の前記第３損失関数の関数値が第３目標値より大きい場合に、逆伝播アルゴリズムを介して、前記第２ネットワークのパラメータを変更し、前記第３損失関数は、前記複数の第３処理画像の精細度が前記第３サンプル画像よりも高く、動きの違いがあり、且つ、前記第３サンプル画像で隠された情報を保持することを保証するために使用され、
前記第３損失関数の関数値が前記第３目標値以下になった後で、前記第３ネットワークを取得する、
ように構成される、
ことを特徴とする、請求項１０に記載の装置。
コンピュータ機器であって、
メモリ及びプロセッサを備え、前記メモリは、コンピュータ可読命令を記憶し、前記コンピュータ可読命令が前記プロセッサによって実行されると、前記プロセッサに、請求項１ないし９のいずれか一項に記載の方法を実行させる、コンピュータ機器。
複数のコンピュータ可読命令を含むコンピュータプログラムであって、コンピュータによって実行されると、前記コンピュータに請求項１ないし９のいずれか一項に記載の方法を実施させる、
コンピュータプログラム。