JP2024517359A

JP2024517359A - 画像処理ネットワークの訓練方法、装置、コンピュータ機器及びコンピュータプログラム

Info

Publication number: JP2024517359A
Application number: JP2023570432A
Authority: JP
Inventors: 世昌石; ▲飛▼ 黄; 超 ▲華▼; 唯熊; 梁 ▲楊▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-12
Filing date: 2022-09-08
Publication date: 2024-04-19
Also published as: EP4300411A4; EP4300411A1; CN113628116A; US20230334833A1; WO2023061116A1; CN113628116B

Abstract

画像処理ネットワークの訓練方法であって、画像処理ネットワークを呼び出すことによって、低解像度画像データに対応するサンプル超解像画像データを取得して、高解像度画像データを結合して超解像損失関数を生成するステップ（Ｓ１０２）と、サンプル超解像画像データに対応する第１のサンプル補強画像データを取得して、高解像度画像データを結合して画質損失関数を生成するステップ（Ｓ１０３）と、第１のサンプル補強画像データに対応する第２のサンプル補強画像データを取得して、高解像度画像データを結合して顔損失関数を生成するステップ（Ｓ１０４）と、第２のサンプル補強画像データに対応するサンプル鮮鋭化画像データを取得して、高解像度画像データを結合して鮮鋭化損失関数を生成するステップ（Ｓ１０５）と、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新するステップ（Ｓ１０６）と、を含む。

Description

本出願は２０２１年１０月１２日にて中国特許庁に提出され、出願番号が２０２１１１１８８４４４.９であり、出願名称が「画像処理ネットワークの訓練方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張して、その全て内容は本出願に援用されている。

本出願は画像処理の技術分野に関して、特に画像処理ネットワークの訓練方法、装置、コンピュータ機器及び記憶媒体に関する。

コンピュータネットワークの継続的な発展に連れて、画像を最適化するシナリオ、例えばユーザーのある写真を最適化し、又はビデオデータにおける画像フレームを最適化するなどのシナリオがますます多くなっている。画像モデルを訓練することで、画像を最適化する。

関連技術では、画像モデルを訓練する時、異なる最適化タスクを備える複数の画像モデルをそれぞれ訓練し、さらに、訓練による複数の画像モデルによって画像を順に重ね合わせるように最適化すればよい。ところが、複数の画像モデルによって画像を最適化する場合、１つの画像モデルは別の画像モデルに対して逆最適化の作用を有する恐れがあるため、各画像モデルの間の最適化の効果が互いに弱めされ、訓練による画像モデルの画像に対する最適化の効果が悪くなる。

本出願の１つの態様は画像処理ネットワークの訓練方法を提供し、当該方法は、
サンプル画像ペアを取得するステップであって、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有するステップと、
前記画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成するステップと、
前記画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第１のサンプル補強画像データを取得して、第１のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成するステップと、
前記画像処理ネットワークを呼び出すことによって、第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第１のサンプル補強画像データとを融合させて、第２のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成するステップと、
前記画像処理ネットワークを呼び出すことによって、第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成するステップと、
超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得するステップと、を含む。

１つの態様は画像処理方法を提供し、当該方法は、
訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得するステップであって、超解像画像データの解像度はターゲット解像度の以上であるステップと、
訓練された画像処理ネットワークを呼び出すことによって、超解像画像データに対して画質補強処理を行って、第１の補強画像データを取得するステップと、
訓練された画像処理ネットワークを呼び出すことによって、第１の補強画像データに対応する第２の補強画像データを取得するステップであって、第１の補強画像データには顔画像が含まれると、第２の補強画像データは第１の補強画像データにおける顔画像に対して顔補強を行った後、取得された画像データであるステップと、
訓練された画像処理ネットワークを呼び出すことによって、第２の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、鮮鋭化画像データを出力するステップと、を含む。

１つの態様は画像処理ネットワークの訓練装置を提供し、当該装置は、
サンプル画像ペアを取得するサンプル取得モジュールであって、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有するサンプル取得モジュールと、
画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成する呼出モジュールであって、
画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第１のサンプル補強画像データを取得して、第１のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成する呼出モジュールであって、
ように、画像処理ネットワークを呼び出すことによって、第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第１のサンプル補強画像データとを融合させて、第２のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成する呼出モジュールであって、
画像処理ネットワークを呼び出すことによって、第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成する呼出モジュールと、
超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する更新モジュールと、を含む。

１つの態様は画像処理装置を提供し、当該装置は、
訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得する超解像呼出モジュールであって、超解像画像データの解像度はターゲット解像度の以上である超解像呼出モジュールと、
訓練された画像処理ネットワークを呼び出すことによって、超解像画像データに対して画質補強処理を行って、第１の補強画像データを取得する画質補強モジュールと、
訓練された画像処理ネットワークを呼び出すことによって、第１の補強画像データに対応する第２の補強画像データを取得する顔補強モジュールであって、第１の補強画像データには顔画像が含まれると、第２の補強画像データは第１の補強画像データにおける顔画像に対して顔補強を行った後、取得された画像データである顔補強モジュールと、
訓練された画像処理ネットワークを呼び出すことによって、第２の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、鮮鋭化画像データを出力する鮮鋭化モジュールと、を含む。

１つの態様はコンピュータ機器を提供し、メモリ及びプロセッサーを含み、メモリにはコンピュータ可読命令が記憶され、コンピュータ可読命令はプロセッサーによって実行されると、プロセッサーに本出願の１つの態様の方法を実行させる。

１つの態様は不揮発性コンピュータ可読記憶媒体を提供し、当該コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶され、当該コンピュータ可読命令はプロセッサーによって実行されると、当該プロセッサーに上記の１つの態様の方法を実行させる。

１つの態様はコンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ可読命令を含み、当該コンピュータ可読命令はコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータ可読命令を読み取り、プロセッサーは当該コンピュータ可読命令を実行することで、当該コンピュータ機器に、上記の１つの態様などの各種の可能な形態が提供する方法を実行させる。

本出願又は従来技術の技術案をより明らかに記載するために、以下、実施例又は従来技術の記載の必要な図面を簡単に紹介し、明らかに、以下に記載の図面は本出願のいくつかの実施例に過ぎず、当業者にとって、進歩性に値する労働をしないことを前提として、これらの図面に基づいて他の図面を取得できる。
本出願の実施例が提供するネットワークアーキテクチャの構造概略図である。本出願が提供するネットワーク訓練のシナリオ概略図である。本出願が提供する画像処理ネットワークの訓練方法のフロー概略図である。本出願が提供する符号化・復号化ネットワークの構造概略図である。本出願が提供する基本ユニットの構造概略図である。本出願が提供する損失関数を取得するシナリオの概略図である。本出願が提供する画像処理方法のフロー概略図である。本出願が提供する顔を最適化するシナリオの概略図である。本出願が提供する画像最適化シナリオの概略図である。本出願が提供するデータプッシュのシナリオの概略図である。本出願が提供する画像処理ネットワークの訓練装置の構造概略図である。本出願が提供する画像処理装置の構造概略図である。本出願が提供するコンピュータ機器の構造概略図である。

以下、本出願の実施例の図面を結合して、本出願の実施例の技術案を明らか且つ完全に記載し、明らかに、記載される実施例は全ての実施例ではなく、本出願の一部の実施例である。本出願の実施例に基づいて、当業者が進歩性に値する労働をしないことを前提として、取得した他の全ての実施例は何れも本出願の保護範囲に属している。

図１を参照し、図１は本出願の実施例が提供するネットワークアーキテクチャの構造概略図である。図１に示すように、ネットワークアーキテクチャはサーバー２００及び端末機器クラスタを含み、端末機器クラスタは１つ又は複数の端末機器を含み、ここで、端末機器の数を限定していない。図１に示すように、複数の端末機器は具体的に、端末機器１００ａ、端末機器１０１ａ、端末機器１０２ａ、…、端末機器１０３ａを含み、図１に示すように、端末機器１００ａ、端末機器１０１ａ、端末機器１０２ａ、…、端末機器１０３ａは何れもサーバー２００とネットワーク接続を行うことができるため、各端末機器はネットワーク接続を介してサーバー２００とデータインタラクションを行う。

図１のサーバー２００は独立の物理サーバーであってもよいし、複数の物理サーバーからなるサーバークラスタ又は分散型システムであってもよいし、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、安全サービスサービス、ＣＤＮ、ビッグデータ及び人工知能プラットフォームなどの基礎的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。端末機器はスマートフォン、タブレット、ノートパソコン、デスクトップパソコン、スマートテレビ、車載端末などのスマート端末であってもよい。以下、端末機器１００ａとサーバー２００との間の通信を例として、本出願の実施例を具体的に記載する。

図２を併せて参照し、図２は本出願が提供するネットワーク訓練のシナリオの概略図である。上記の端末機器１００ａはアプリケーションクライアントを有してもよく、サーバー２００は当該アプリケーションクライアントのバックグランドサーバーであってもよく、サーバー２００はアプリケーションクライアントにビデオデータをプッシュでき、アプリケーションクライアントにビデオデータをプッシュする場合、サーバー２００は当該ビデオデータを最適化してから、アプリケーションクライアントにプッシュし、ビデオデータを最適化することは、ビデオデータに含まれる各画像フレームに対する最適化を指してもよい。サーバー２００は訓練された画像処理ネットワークによってビデオデータにおける画像フレームを最適化し、当該画像処理ネットワークの訓練過程について、以下の内容の記載を参照すればよい。

訓練を必要とする画像処理ネットワークは超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含む。サーバー２００はサンプル画像ペアを取得し、当該サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、サーバー２００は当該サンプル画像ペアを画像処理ネットワークに入力し、まず、画像処理ネットワークにおける超解像ネットワークによって低解像度画像データに対して超解像処理（即ち、低解像度画像データの解像度を高める）を行って、サンプル超解像画像データを取得し、サンプル超解像画像データ及び高解像度画像データによって超解像損失関数を生成する。

そして、画像処理ネットワークにおける画質補強ネットワークによってサンプル超解像画像データに対して画質補強処理（「エンハンスメント処理」とも呼ばれる）を行って、第１のサンプル補強画像データを取得し、第１のサンプル補強画像データ及び高解像度画像データによって画質損失関数を生成する。

次に、画像処理ネットワークにおける顔補強ネットワークによって第１のサンプル補強画像データにおける顔画像に対して顔補強を行って、サンプル顔補強画像を取得し、サンプル顔補強画像及び高解像度画像データにおける高解像度顔画像によって顔損失関数を生成し、サンプル顔補強画像と第１のサンプル補強画像データとを融合させることで、第２のサンプル補強画像データを生成し、具体的に、下記の図３に対応する実施例における相応的な記載を参照すればよい。

次に、画像処理ネットワークにおける鮮鋭化ネットワークによって第２のサンプル補強画像データに対して鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得し、サンプル鮮鋭化画像データ及び高解像度画像データによって鮮鋭化損失関数を生成する。

画像処理ネットワークにおいてサーバー２００は上記生成された超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数を前へ伝達し、さらに、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数によって、画像処理ネットワークに伝達されたネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワーク（「訓練済み画像処理ネットワーク」とも呼ばれる）を取得する。そうすれば、訓練された画像処理ネットワークは画像、例えば下記の初期画像データを最適化し、当該最適化の具体的な過程について、下記の図７に対応する実施例の関連記載を参照すればよい。

関連技術において、画像モデルを訓練する場合、異なる最適化タスク（例えば、画像解像度を高める画像処理タスク、画像画質を補強する画像処理タスク、顔補強効果を向上する画像処理タスクなど）を具備する複数の画像モデルをそれぞれ訓練し、さらに、それぞれ独立する訓練によって複数の画像モデルを取得し、これらの互いに独立する複数の画像モデルを使用して、画像を順に重ね合わせて最適化する。ところが、異なるタスクは、互いに衝突するという問題が存在する恐れがあり、即ち、画像は１つの画像モデルによって相応的な効果を向上した後、別の画像モデルによって処理されると、かえって全体効果が悪くなり、即ち、当該２つの画像モデルのそれぞれの画像処理タスクが衝突し、この現象は破壊的な干渉と呼ばれる。例えば、画像解像度を高める画像モデルによって画像を最適化することで、画像の解像度を高めることができ、画像画質を補強する画像モデルによって画像を最適化することで、画像画質を補強でき、ところが、画像画質を補強する画像モデルによって、解像度を高めた画像に対してさらに重合処理を行って、取得された画像はかえって歪みが生じて、画像の全体的な効果が悪くなると、当該２つの画像モデルのそれぞれの画像処理タスクは衝突が存在することを示す。

本出願の実施例が提供するモデル訓練方法によれば、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワークから鮮鋭化ネットワークまでのマルチタスク共同訓練フレームワークを提供し、当該共同訓練フレームワークは、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク～鮮鋭化ネットワークを順にカスケード接続し、このように、訓練過程で、超解像ネットワークは入力されたサンプル画像ペア及び自体のネットワークの出力に基づいて、超解像損失関数を取得し、超解像ネットワーク以外の他のネットワークであれば、前のネットワークの出力（即ち、自体のネットワークの入力）及び自体のネットワークの出力に基づいて、画質損失関数、顔損失関数及び鮮鋭化損失関数を順に取得し、各損失関数にはそれぞれのネットワークパラメータが含まれ、また、各損失関数はネットワーク全体において前へ伝達されることができるため、これらのネットワークのそれぞれのネットワークパラメータの間は互いに制約、影響でき、さらに、伝達されたネットワーク（例えば、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワーク）のネットワークパラメータを更新して、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークの間の相互関連、相互融合、相互促進の訓練を実現でき、訓練された超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークのそれぞれの訓練効果がよくなる上に、画像を重ね合わせて最適化する場合、衝突が生じていなく、訓練されたネットワーク全体の、画像に対する重ね合わせ・最適化の効果がよりよくなる。

図３を参照し、図３は本出願が提供する画像処理ネットワークの訓練方法のフロー概略図である。本出願の実施例における実行本体は１つのコンピュータ機器又は複数のコンピュータ機器からなるコンピュータ機器クラスタであってもよい。当該コンピュータ機器はサーバーであってもよいし、端末機器であってもよい。従って、本出願の実施例における実行本体はサーバーであってもよいし、端末機器であってもよいし、さらに、サーバーと端末機器とが共同で構成されてもよい。ここで、本出願の実施例における実行本体がサーバーであることを例として説明する。図３に示すように、当該方法は以下のステップを含み、
ステップＳ１０１：サンプル画像ペアを取得し、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有する。

本出願において、サーバーはサンプル画像ペアを取得し、当該サンプル画像ペアは画像処理ネットワークを訓練する画像ペアであり、１つのサンプル画像ペアは１つの低解像度画像データ、及び当該低解像度画像データに対応する１つの高解像度画像データを含み、各サンプル画像ペアを採用して画像処理ネットワークを訓練する原理は同様であるため、ここで、１つのサンプル画像ペア（以下、サンプル画像ペアと総称される）によって画像処理ネットワークを訓練する過程を例として説明し、以下の内容の記載を参照すればよい。

サンプル画像ペアに含まれる低解像度画像データ及び高解像度画像データは、同じ画像コンテンツを具備するが、異なる画像精細度（精細度と略称される）を具備する画像であり、低解像度画像データの精細度は、高解像度画像データの精細度より低い。低解像度画像データの解像度はターゲット解像度より小さく、高解像度画像データの解像度はターゲット解像度の以上であり、ターゲット解像度は実際の適用シナリオに基づいて設定され、例えばターゲット解像度は１９２０＊１０８０であってもよい。

本出願の実施例のサンプル画像ペアの取得方式は以下の方式のうちの１つ又は複数であってもよい。
１つの実施例において、サーバーは高解像度のサンプルビデオデータを取得し、当該サンプルビデオデータはサンプル画像ペアを取得するビデオデータである。１つのビデオデータは複数の画像フレームを含むことができるため、当該高解像度のサンプルビデオデータは、含まれる画像フレームの精細度が精細度閾値より大きいビデオデータを指してもよく、当該精細度閾値は実際の適用シナリオに基づいて設定される。また、当該サンプルビデオデータはさらに、含まれる画像フレームの解像度が上記のターゲット解像度より大きいビデオデータを指してもよい。

従って、サーバーはサンプルビデオデータに対してフレーム分割を行うことで、サンプルビデオデータに含まれる複数の画像フレームを取得し、サンプルビデオデータに含まれる画像フレームはサンプル画像フレームと呼ばれる。サーバーはさらにターゲットビットレート（当該ターゲットビットレートは低ビットレートである）を採用してサンプルビデオデータに対して符号化・復号化処理（即ち、符号化してから復号化する）を行って、符号化・復号化後のビデオデータは低画質ビデオデータと呼ばれる。当該低画質ビデオデータの画像フレームの画質は、サンプルビデオデータの画像フレームの画質より低く、即ち、低画質ビデオデータに含まれる画像フレームの精細度はサンプルビデオデータに含まれる画像フレームの精細度より低い。ターゲットビットレートは、ビットレート閾値より低いビットレートであり、当該ビットレート閾値は実際の適用シナリオに基づいて設定され、ターゲットビットレートは低いビットレートであってもよいため、ターゲットビットレートによってサンプルビデオデータに対して符号化・復号化を行った後、取得された低画質ビデオデータの画質が悪くなり、低画質ビデオデータに含まれる画像フレームの精細度が低くなる。

上記の低画質ビデオデータに含まれる画像フレームは低画質画像フレームと呼ばれ、低画質ビデオデータは、各サンプル画像フレームにそれぞれ対応する低画質画像フレームを含み、１つのサンプル画像フレームは１つの低画質画像フレームに対応する。符号化・復号化は画像フレームの解像度を変更していないため、この際、取得された低画質画像フレームは実際に、高解像度の画像フレームであり、従って、低画質ビデオデータにおける各低画質画像フレームの解像度を低く調整し、例えば、ターゲット解像度以下に調整し、解像度を低く調整した低画質画像フレームは低解像度画像フレームと呼ばれ、従って、サーバーは各サンプル画像フレーム及び対応する低画質画像フレームが所属する低解像度画像フレームに基づいてサンプル画像ペアを構築し、１つのサンプル画像ペアは１つのサンプル画像フレーム及び当該サンプル画像フレームに対応する１つの低解像度画像フレーム（即ち、当該サンプル画像フレームに対応する低画質画像フレームの解像度を小さくした後、取得された画像フレーム）を含み、１つのサンプル画像ペアに含まれるサンプル画像フレームは１つの高解像度画像データであり、１つのサンプル画像ペアに含まれる低解像度画像データは１つの低解像度画像データである。従って、上記のサンプルビデオデータによって複数のサンプル画像ペアを取得できる。

１つの実施例において、同じように、サーバーはサンプルビデオデータを取得して、当該サンプルビデオデータに対してフレーム分割を行って、サンプルビデオデータに含まれる複数のサンプル画像フレームを取得し、さらに、当該複数のサンプル画像フレームからターゲット画像フレームを上記の高解像度画像データとして選択し、当該ターゲット画像フレーム及び複数のサンプル画像フレームにおける当該ターゲット画像フレームの隣接画像フレームに対して平均融合処理を行って、平均融合処理後の画像フレームは平均画像フレームと呼ばれ、さらに、当該平均画像フレームの解像度を低く調整すれば（例えば、ターゲット解像度以下に調整する）、低解像度画像データを取得できる。１つのターゲット画像フレームは、サンプルビデオデータに含まれる複数の画像フレームのうちの何れか１つの画像フレームであってもよく、１つのターゲット画像フレームは１つの高解像度画像データであってもよく、ターゲット画像フレームは複数であってもよい。ターゲット画像フレームの隣接画像フレームは複数のサンプル画像フレームにおけるターゲット画像フレームの左側の１つ又は複数の画像フレーム、及びターゲット画像フレームの右側の１つ又は複数の画像フレームを含んでもよく、ターゲット画像フレームの隣接画像フレームの数は実際の適用シナリオに基づいて决定され、これに対して限定していない。

１つの実施例において、サーバーは高解像度画像データを直接的に取得し、例えば、当該高解像度画像データはウェブページからダウロードされてもよいし、又はロカールの高解像度画像データであってもよい。従って、サーバーは当該高解像度画像データに対してガウスぼかし処理を行って、ガウスぼかし処理後の画像フレームの解像度を低く調整すれば（例えば、ターゲット解像度以下に調整する）、当該高解像度画像データに対応する低解像度画像データを取得できる。ガウスぼかしはガウス平滑化とも呼ばれる。

１つの実施例において、サーバーは高解像度画像データを直接的に取得し、当該高解像度画像データに対して歪みフォーマット変換を行ってから、歪みフォーマット変換後の画像フレームの解像度を低く調整すれば（例えば、ターゲット解像度以下に調整する）、当該高解像度画像データに対応する低解像度画像データを取得する。例えば、高解像度画像データに対する歪みフォーマット変換は、高解像度画像データに対する圧縮であり、圧縮後の画像フレームの画質は高解像度画像データの画質より低く、例えば高解像度画像データに対する歪みフォーマット変換は、高解像度画像データのデータフォーマットをｐｎｇ（可逆圧縮画像フォーマット）からｊｐｇ（非可逆圧縮画像フォーマット）に変換する。

１つの実施例において、サーバーは高解像度画像データを直接的に取得する。サーバーはさらに、サンプル低画質ビデオデータを取得し、当該サンプル低画質ビデオデータは、含まれる画像フレームの精細度が精細度閾値より低いビデオデータであってもよいため、サーバーは機械学習の方式でサンプル低画質ビデオデータのノイズデータを学習して、高解像度画像データに当該ノイズデータを融合させてから、当該ノイズデータが融合された高解像度画像データの解像度を低く調整すれば、低解像度画像データを取得する。高解像度画像データにノイズデータを融合させる方式は、高解像度画像データにノイズデータを加入させる。サーバーは機械学習の方式でサンプル低画質ビデオデータのノイズデータを学習する過程は以下の通り、即ち、サーバーはノイズ学習ネットワークを取得し、当該ノイズ学習ネットワークはビデオデータにおけるノイズデータを学習できるモデルであってもよいため、サーバーはサンプル低画質ビデオデータをノイズ学習ネットワークに入力すれば、当該ノイズ学習ネットワークを介してサンプル低画質ビデオデータのノイズデータを学習できる。

高解像度画像データ及び低解像度画像データを取得した後、取得された高解像度画像データ及び低解像度画像データによってサンプル画像ペアを構築する。

構築されたサンプル画像ペアは画像処理ネットワークを訓練し、当該画像処理ネットワークは超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含む。

画像処理ネットワークの各生成ネットワーク（例えば、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク）に対して、ｅｎｃｏｄｅｒ（符号化）－ｄｅｃｏｄｅｒ（復号化）構想によるＵ－Ｎｅｔ構造（ネットワーク構造）を採用してもよい。各生成ネットワークは基本ユニット（ｂｌｏｃｋ、即ち、ブロック）から構成され、超解像ネットワークのｅｎｃｏｄｅｒ及びｄｅｃｏｄｅｒはそれぞれ３つのｂｌｏｃｋ（符号器及び復号器における１層は３つのｂｌｏｃｋを採用する）を採用し、画質補強ネットワーク及び顔補強ネットワークはそれぞれ５つのｂｌｏｃｋ（符号器及び復号器における１層は５つのｂｌｏｃｋを採用する）を採用し、各ｂｌｏｃｋの基本チャネルの数は１６個であってもよい。また、本出願において、ｂｌｏｃｋ内部の１番目の３ｘ３畳み込みに対してチャネル拡大を行うことで、特徴次元を高めて、さらに、出力された３ｘ３畳み込みに対して特徴圧縮を行うことで、入力チャネルの次元が不変であるように保持され、これによって、画像のより多くの特徴情報を学習できる。

また、本出願において、超解像ネットワークにおいて画像に対して超解像処理を行う場合、ＰｉｘｅｌＳｈｕｆｆｌｅ（アップサンプリング方法）を使用してアップサンプリング操作を行って、チャネルから空間への次元変換を補間アップサンプリングの解決策の代わりとすることで、よりよい視覚効果を実現できる。

本出願において、多種の方式でサンプル画像ペアを取得することで、取得されたサンプル画像ペアのタイプを豊かにして、さらに、多種のサンプル画像ペアによって画像処理ネットワークを訓練することで、画像処理ネットワークに対する訓練効果を向上でき、具体的に、以下の内容の記載を参照すればよい。

図４及び図５を参照し、図４は本出願が提供する符号化・復号化ネットワークの構造概略図であり、図５は本出願が提供する基本ユニットの構造概略図である。上記の超解像ネットワーク、画質補強ネットワーク、顔補強ネットワークに対して何れも図４のネットワーク構造を採用でき、当該ネットワーク構造は符号器及び復号器を含み、符号器は３層を有し、復号器は３層を有する。符号器及び復号器の各層はさらに図５の基本ユニットから構成されてもよく、１つの基本ユニットは３＊３の畳み込み層、正規化ネットワーク層、活性化層（即ち、ＬｅａｋｙＲｅｌｕ）、３＊３の畳み込み層及び１＊１の畳み込み層を順に含む。

ステップＳ１０２：画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成する。

本出願において、サーバーは、画像処理ネットワークにおける超解像ネットワークを呼び出すことによって、低解像度画像データの解像度を高く調整して、例えばターゲット解像度に調整して、低解像度画像データに対応するサンプ超解像画像データを生成し、当該サンプル超解像画像データは超解像ネットワークによって低解像度画像データの解像度をターゲット解像度に高く調整した後、取得された画像データである。

そして、サーバーはサンプル超解像画像データ及び高解像度画像データによって超解像損失関数を生成し、具体的に、
超解像損失関数は、画素レベルの損失関数及び特徴レベルの損失関数という２つの部分を含み、画素レベルの損失関数と特徴レベルの損失関数とを結合して超解像効果を制約することで、超解像の訓練効果がより正確且つよくなる。

画素レベルの損失関数は第１の超解像損失関数と呼ばれ、特徴レベルの損失関数は第２の超解像損失関数と呼ばれる。

サーバーはサンプル超解像画像データに含まれる画素値要素、及び高解像度画像データに含まれる画素値要素によって当該第１の超解像損失関数を生成し、当該第１の超解像損失関数
について、下記の式（１）を参照すればよい：
なお、サンプル超解像画像データ及び高解像度画像データに含まれる画素点の数は同じであり、何れもＮであり、１つの画素点における画素値は１つの画素値要素と呼ばれ、
Ｎの以下であり、Ｎは画像データにおける画素値要素の総数である。

サーバーはサンプル超解像画像データの、超解像ネットワークにおける特徴マップに含まれる特徴値要素、及び高解像度画像データの、超解像ネットワークにおける特徴マップに含まれる特徴値要素によって、第２の超解像損失関数を生成し、当該第２の超解像損失関数
について、下記の式（２）を参照すればよい：

さらに、

従って、超解像損失関数は、上記の第１の超解像損失関数
と第２の超解像損失関数
との和である。

ステップＳ１０３：画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第１のサンプル補強画像データを取得して、第１のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成する。

本出願において、上記の超解像画像によって取得されたサンプル超解像画像データは画質補強ネットワークの入力であってもよく、サーバーは画像処理ネットワークにおける画質補強ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、サンプル超解像画像データに対応する第１のサンプル補強画像データ生成し、当該第１のサンプル補強画像データはサンプル超解像画像データに対して画質補強処理を行った後、取得された画像データである。

さらに、サーバーは第１のサンプル補強画像データと高解像度画像データとの間の平均二乗誤差によって取得されたピーク信号対雑音比（ＰＳＮＲ）を画質損失関数とし、当該画質損失関数
について、下記の式（３）を参照すればよい：

なお、
ｂｉｔｓは精度を示し、当該精度はバイナリの、ビット数が１６である精度又はバイナリの、ビット数が３２である精度であってもよい。

ステップＳ１０４：画像処理ネットワークを呼び出すことによって、第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第１のサンプル補強画像データとを融合させて、第２のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成する。

本出願において、上記の画質補強ネットワークによって取得された第１のサンプル補強画像データを顔補強ネットワークの入力とし、第１のサンプル補強画像データには顔画像が含まれ、サーバーは画像処理ネットワークにおける顔補強ネットワークを呼び出すことによって、第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、第２のサンプル補強画像データを生成し、当該第２のサンプル補強画像データは第１のサンプル補強画像データにおける顔画像に対し顔補強処理を行った後、取得された画像データであり、具体的に、以下の記載の内容を参照すればよい。

顔補強ネットワークは顔検出ネットワーク、顔補強サブネットワーク及び顔融合ネットワークを含んでもよく、顔補強サブネットワークは色判別ネットワーク及びテクスチャ判別ネットワークを含んでもよく、サーバーは顔検出ネットワークを呼び出すことによって、第１のサンプル補強画像データにおける顔画像が所在する検出枠を検出し、当該検出枠は顔検出枠と呼ばれ、第１のサンプル補強画像データには、第１のサンプル補強画像データにおける顔画像が実際に所在する位置を指示するマーキング枠がマーキングされ、当該マーキング枠は顔マーキング枠と呼ばれる。サーバーは顔検出枠に含まれる顔画像を第１のサンプル補強画像データから切り抜いて、検出された顔画像を取得し、さらに、サーバーは検出された顔画像（即ち、第１のサンプル補強画像データから切り抜かれた顔画像）に対して顔補強処理を行うように、顔補強サブネットワークを呼び出すと、補強後の顔画像を取得でき、当該補強後の顔画像はサンプル顔補強画像と呼ばれ、当該サンプル顔補強画像は、第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行った後、取得された顔画像である。サーバーは当該サンプル顔補強画像と第１のサンプル補強画像データとを融合させるように、顔融合ネットワークを呼び出すことで、融合された画像データは第２のサンプル補強画像データと呼ばれる。

従って、サーバーは上記の顔検出枠及び顔マーキング枠によって検出損失関数を生成し、名称から分かるように、当該検出損失関数は、第１のサンプル補強画像データにおける顔画像に対して検出された位置と当該顔画像の実際位置との間のずれからもたされ、当該検出損失関数
について、下記の式（４）を参照すればよい：

サーバーはさらに、高解像度画像データにおける顔画像を切り抜くことで、高解像度画像データにおける顔画像を取得し、切り抜かれた高解像度画像データにおける顔画像は高解像度顔画像と呼ばれる。

サーバーはさらに、高解像度顔画像、サンプル顔補強画像及び色判別装置によって色損失関数を生成し、当該色損失関数は、補強されたサンプル顔補強画像の色と高解像度顔画像の色との間の差を表徴し、例えば、色判別装置によって、サンプル顔補強画像の色が高解像度顔画像の色である確率を判別し、当該確率で色損失関数を表徴し、判別された当該確率を０.５に接近させることを目的とし、そうすれば、この時、色判別装置はサンプル顔補強画像の色と高解像度顔画像の色とを区別できず、この場合、予期した効果に達する。

サーバーは高解像度顔画像及びサンプル顔補強画像に対してそれぞれガウスぼかしを行ってから、ガウスぼかし後のサンプル顔補強画像の色がガウスぼかし後の高解像度顔画像の色である確率を判別し、当該確率で色損失関数を表徴する。

サーバーはさらに、高解像度顔画像、サンプル顔補強画像及びテクスチャ判別装置によってテクスチャ損失関数を生成し、当該テクスチャ損失関数は補強されたサンプル顔補強画像のテクスチャと高解像度顔画像のテクスチャとの間の差を表徴し、例えば、テクスチャ判別装置によって、サンプル顔補強画像のテクスチャが高解像度顔画像のテクスチャである確率を判別し、当該確率でテクスチャ損失関数を表徴し、判別された当該確率を０.５に接近させることを目的とし、そうすれば、この時、テクスチャ判別装置はサンプル顔補強画像のテクスチャと高解像度顔画像のテクスチャとを区別できず、この場合、予期した効果に達する。

サーバーは高解像度顔画像及びサンプル顔補強画像に対してそれぞれグレースケール化を行ってから、グレースケール化後のサンプル顔補強画像のテクスチャがグレースケール化後の高解像度顔画像のテクスチャである確率を判別し、当該確率でテクスチャ損失関数を表徴する。

サーバーはさらに、サンプル顔補強画像の特徴マップに含まれる特徴値要素、及び高解像度顔画像の特徴マップに含まれる特徴値要素によって、コンテンツ損失関数を生成し、当該コンテンツ損失関数は、第２のサンプル補強画像データと高解像度画像データとの間のコンテンツ差を表徴し、当該コンテンツ損失関数
について、下記の式（５）を参照すればよい：

さらに、

従って、顔損失関数は上記の検出損失関数
と、色損失関数と、テクスチャ損失関数と、コンテンツ損失関数
との和である。

以上から分かるように、顔検出ネットワークによって検出損失関数を取得し、顔補強サブネットワークによって色損失関数、テクスチャ損失関数及びコンテンツ損失関数を取得し、顔損失関数は上記の検出損失関数と、色損失関数と、テクスチャ損失関数と、コンテンツ損失関数との和である。

好ましくは、顔補強ネットワークは第１のサンプル補強画像データから切り抜かれた顔画像を使用して訓練する上に、上記の顔画像以外の顔画像を使用して訓練してもよく、２つの顔画像（一方は訓練セット（最適化対象となる顔画像が含まれる任意の訓練セット）における訓練対象となる顔画像（即ち、第１のサンプル補強画像データから切り抜かれた顔画像ではない）であり、他方は画質補強ネットワークによって取得された第１のサンプル補強画像データにおける顔画像）を結合して顔補強ネットワークを訓練することで、その訓練効果がよりよくなる。

ステップＳ１０５：画像処理ネットワークを呼び出すことによって、第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成する。

本出願において、上記の第２のサンプル補強画像データを鮮鋭化ネットワークの入力とし、サーバーは画像処理ネットワークにおける鮮鋭化ネットワークを呼び出すことによって、第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、第２のサンプル補強画像データに対して画像鮮鋭化処理を行った後の画像データを取得し、当該画像データはサンプル鮮鋭化画像データと呼ばれる。

サーバーはサンプル鮮鋭化画像データ及び高解像度画像データによって鮮鋭化ネットワークの損失関数を生成し、当該損失関数は鮮鋭化損失関数と呼ばれる。当該鮮鋭化損失関数は客観的損失関数及び感覚的損失関数という２つの部分を含み、客観的損失関数は品質損失関数と呼ばれ、感覚的損失関数は感知損失関数と呼ばれる。

当該品質損失関数はサンプル鮮鋭化画像データと高解像度画像データとの間のピーク信号対雑音比ＰＳＮＲであり、当該感知損失関数はサンプル鮮鋭化画像データと高解像度画像データとの間の感知類似度によって取得され、当該感知類似度はサンプル鮮鋭化画像データと高解像度画像データとの間の感知損失値（ＬｅａｒｎｅｄＰｅｒｃｅｐｔｕａｌＩｍａｇｅＰａｔｃｈＳｉｍｉｌａｒｉｔｙ,ＬＰＩＰＳ）によって取得され、感知損失値ＬＰＩＰＳが小さいほど、感覚レベルでサンプル鮮鋭化画像データと高解像度画像データとの間が類似し、これに対して、感知損失値ＬＰＩＰＳが大きいほど、感覚レベルでサンプル鮮鋭化画像データと高解像度画像データとの間が類似していなく（即ち、差が大きい）、従って、感知損失関数の使用は、サンプル鮮鋭化画像データと高解像度画像データとの間の感知損失値を最小にすることを目的とする。

従って、鮮鋭化損失関数は上記の品質損失関数と感知損失関数との和である。

図６を参照し、図６は本出願が提供する損失関数を取得するシナリオの概略図である。図６に示すように、サーバーはサンプル画像ペアを超解像ネットワークに入力し、超解像ネットワークにおいて低解像度画像データに対応するサンプル超解像画像データを生成し、サンプル超解像画像データ及び高解像度画像データによって超解像損失関数を生成する。

サーバーはさらに、サンプル超解像画像データを画質補強ネットワークに入力し、画質補強ネットワークにおいて第１のサンプル補強画像データを生成し、第１のサンプル補強画像データ及び高解像度画像データによって画質損失関数を生成する。

サーバーはさらに、第１のサンプル補強画像データを顔補強ネットワークに入力し、顔補強ネットワークにおいて第１のサンプル補強画像データにおける顔画像を補強した後、取得されたサンプル顔補強画像を生成し、当該サンプル顔補強画像及び高解像度画像データにおける高解像度顔画像によって、顔損失関数を生成する。顔補強ネットワークにおいて、さらにサンプル顔補強画像と第１のサンプル補強画像データとを融合させ、第２のサンプル補強画像データを取得する。

サーバーはさらに、第２のサンプル補強画像データを鮮鋭化ネットワークに入力し、鮮鋭化ネットワークにおいて第２のサンプル補強画像データに対して鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データによって鮮鋭化損失関数を生成する。

ステップＳ１０６：超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する。

本出願において、画像処理ネットワークのネットワークパラメータは超解像ネットワークのネットワークパラメータ、画質補強ネットワークのネットワークパラメータ、顔補強ネットワークのネットワークパラメータ及び鮮鋭化ネットワークのネットワークパラメータを含み、サーバーは上記の超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数によって画像処理ネットワークのネットワークパラメータを更新し、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数によって画像処理ネットワークのネットワークパラメータを更新する方式は２つがあり、具体的に以下の通りである。

画像処理ネットワークにおける各ネットワークの前から後ろへの順序は超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク、鮮鋭化ネットワークであり、顔補強ネットワークは前から後ろへ、顔検出ネットワーク、顔補強サブネットワーク、顔融合ネットワークという３つの顔画像処理ネットワークを順に含む。損失関数は画像処理ネットワークにおいて前へ伝達されて、伝達されたネットワーク（例えば超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワーク）のネットワークパラメータを更新し、従って、ネットワークのネットワークパラメータを更新する第１の方式は、あるネットワークに伝達された複数の損失関数を加算して、加算後の損失関数によって、当該ネットワークのネットワークパラメータを直接的に更新すればよく、ネットワークのネットワークパラメータを更新する第２の方式は、あるネットワークに伝達された複数の損失関数を順に使用して当該ネットワークのネットワークパラメータに対して反復更新を行う。ここで、ネットワークのネットワークパラメータを更新する２つの方式が達成した、ネットワークパラメータに対する更新効果は同様である。

具体的に、超解像損失関数の前への伝達は、超解像ネットワーク自体のみに伝達されることができ、画質損失関数の前への伝達は、画質補強ネットワーク及び超解像ネットワークに伝達されることができ、顔損失関数の前への伝達は、顔補強ネットワーク、画質補強ネットワーク及び超解像ネットワークに伝達されることができ、ところが、ここで、顔補強ネットワークは前から後ろへ顔検出ネットワーク、顔補強サブネットワーク、顔融合ネットワークを含むため、顔補強ネットワークの内部で、顔損失関数の伝達について、顔検出ネットワークに伝達された損失関数は顔損失関数であってもよく、顔補強サブネットワークに伝達された損失関数は顔損失関数における色損失関数、テクスチャ損失関数及びコンテンツ損失関数（即ち、顔補強サブネットワーク自体から生成された損失関数）であってもよく、顔損失関数は後ろへ顔融合ネットワークに伝達されることができず、鮮鋭化損失関数の前への伝達は鮮鋭化ネットワーク、顔補強ネットワーク、画質補強ネットワーク及び超解像ネットワークに伝達されることができる。

従って、上記の第１の方式で各ネットワークのネットワークパラメータを更新（即ち、修正）すれば、当該過程は以下の通り、上記の超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数を加算して、加算後の損失関数によって超解像ネットワークのネットワークパラメータを更新することで、訓練された超解像ネットワークを取得し、上記の画質損失関数、顔損失関数及び鮮鋭化損失関数を加算して、加算後の損失関数によって画質補強ネットワークのネットワークパラメータを更新することで、訓練された画質補強ネットワークを取得し、顔補強ネットワークの内部で、上記の鮮鋭化損失関数と顔損失関数とを加算して、加算後の損失関数によって顔検出ネットワークのネットワークパラメータを更新し、さらに、上記の鮮鋭化損失関数、色損失関数、テクスチャ損失関数及びコンテンツ損失関数を加算して、加算後の損失関数によって顔補強サブネットワークのネットワークパラメータを更新し、さらに、鮮鋭化損失関数によって顔融合ネットワークのネットワークパラメータを更新し、結果として、訓練された顔補強ネットワークを取得し、鮮鋭化損失関数によって鮮鋭化ネットワークのネットワークパラメータを更新して、訓練された鮮鋭化ネットワークを取得する。

上記の第２の方式で各ネットワークのネットワークパラメータを更新（即ち、修正）すれば、当該過程は以下の通り、上記の超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数によって超解像ネットワークのネットワークパラメータに対して順に反復更新を行って、反復更新後、訓練された超解像ネットワークを取得し、例えば、まず、超解像損失関数によって超解像ネットワークのネットワークパラメータを更新してから、画質損失関数によって超解像損失関数を更新した超解像ネットワークのネットワークパラメータを更新し、そして、顔損失関数によって画質損失関数を更新した超解像ネットワークのネットワークパラメータを更新し、さらに、鮮鋭化損失関数によって顔損失関数を更新した超解像ネットワークのネットワークパラメータを更新する。

同じように、上記の画質損失関数、顔損失関数及び鮮鋭化損失関数によって画質補強ネットワークのネットワークパラメータに対して順に反復更新を行って、反復更新後、訓練された画質補強ネットワークを取得できる。

同じように、鮮鋭化損失関数及び顔損失関数によって顔検出ネットワークのネットワークパラメータに対して順に反復更新を行って、反復更新後、訓練された顔検出ネットワークを取得し、鮮鋭化損失関数、色損失関数、テクスチャ損失関数及びコンテンツ損失関数によって、顔補強サブネットワークのネットワークパラメータに対して順に反復更新を行って、反復更新後、訓練された顔補強サブネットワークを取得し、鮮鋭化損失関数によって顔融合ネットワークのネットワークパラメータを更新して、訓練された顔融合ネットワークを取得し、訓練された顔検出ネットワーク、訓練された顔補強サブネットワーク及び訓練された顔融合ネットワークによって、訓練された顔補強ネットワークを取得する。鮮鋭化損失関数によって鮮鋭化ネットワークのネットワークパラメータを更新して、訓練された鮮鋭化ネットワークを取得する。

従って、上記の訓練された超解像ネットワーク、訓練された画質補強ネットワーク、訓練された顔補強ネットワーク及び訓練された鮮鋭化ネットワークによって、訓練された画像処理ネットワークを生成する（即ち、取得する）。訓練された画像処理ネットワークは、ビデオデータ又は画像データを全面的に最適化し、具体的に、以下の図７に対応する実施例の具体的な記載を参照すればよい。

本出願において各ネットワーク（超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含む）を関連して訓練することで、各ネットワーク自体の訓練効果を保証することを前提として、各ネットワークの間の相互促進、相互融合の訓練効果を実現し、訓練された画像処理ネットワークがより正確になり、従って、訓練された画像処理ネットワークによって、画像データに対するより正確且つ優れた最適化効果を実現する。即ち、画像処理ネットワークを訓練する場合、本出願はエンドツーエンド（例えば、全体的に、超解像ネットワークというエンドから順に鮮鋭化ネットワークというエンドまで）のマルチタスク（１つのネットワークの訓練は１つの訓練タスクである）共同訓練フレームワークを提供し、当該共同訓練フレームワークはカスケード接続されているフレームワーク、例えば超解像ネットワークから画質補強ネットワーク及び顔補強ネットワークを介して順に鮮鋭化ネットワークまで連結されるフレームワークであり、このようなカスケード接続されているフレームワークによって各ネットワークを訓練することで、各ネットワークの間のデータの協働訓練効果がよりよくなり、異なるタスクの間の訓練効果の相互促進及び融合を実現し、タスクの間の衝突を回避して、優れた総合効果を実現する。また、カーネル学習劣化（例えば、上記のノイズ学習ネットワークによってサンプル画像ペアを取得する）、符号化・復号化モジュールによるデータのランダム生成（例えば、上記のターゲットビットレートによってサンプルビデオデータに対して符号化・復号化を行うことでサンプル画像ペアを取得する）、モーションブラーのシミュレーション（例えば、上記のターゲット画像フレーム及びターゲット画像フレームの隣接画像フレームに対して平均融合処理を行うことでサンプル画像ペアを取得する）、及びノイズ圧縮（例えば、上記の高解像度画像データに対して歪みフォーマット変換を行うことでサンプル画像ペアを取得する）が含まれる、適切な訓練データ生成解決策によって、幅広く分布される訓練データを生成し、当該訓練データによって訓練された画像処理ネットワークは、より幅広い画像最適化シナリオに適用され、より強いロバスト性を具備する。

本出願において、サンプル画像ペアを取得し、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有し、画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整し、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成し、画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第１のサンプル補強画像データを取得して、第１のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成し、画像処理ネットワークを呼び出すことによって、第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第１のサンプル補強画像データとを融合させて、第２のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成し、画像処理ネットワークを呼び出すことによって、第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成し、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する。このように、本出願が提出する方法は、画像処理ネットワークに対してマルチタスク（例えば、超解像タスク、画質補強タスク、顔補強タスク及び鮮鋭化タスクを含む）の相互関連、相互融合の訓練を行って、訓練後の画像処理ネットワークは画像に対してマルチタスクの最適化を同時に行う時、各タスクの間は衝突することがなく、最適化効果がよりよくなる。

図７を参照し、図７は本出願が提供する画像処理方法のフロー概略図である。本出願の実施例は、訓練された画像処理ネットワークの適用過程を記載し、本出願の実施例に記載の内容は、上記の図３に対応する出願の実施例に記載の内容と結合されてもよく、本出願の実施例における実行本体はサーバーであってもよい。図７に示すように、当該方法は以下のステップを含み、
ステップＳ２０１：訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得し、超解像画像データの解像度はターゲット解像度の以上である。

本出願において、ここで、呼出対象となる超解像ネットワークは上記の訓練された画像処理ネットワークにおける超解像ネットワークであり、即ち、ここで、呼び出される超解像ネットワークは訓練された超解像ネットワークである。

サーバーは初期画像データを取得し、当該初期画像データは最適化を必要とする何れか１つの画像であってもよい。高解像度の画像データで最適化を行うと、その最適化の効果がよりよくなるため、サーバーは超解像ネットワークを呼び出すことによって、初期画像データの解像度を検出し、初期画像データの解像度がターゲット解像度より小さいと検出した場合、初期画像データは低解像度の画像データであり、従って、超解像ネットワークを呼び出すことによって、初期画像データの解像度を高め、例えば、ように、超解像ネットワークを呼び出すことによって、初期画像データの解像度をターゲット解像度（当該ターゲット解像度は実際の適用シナリオに基づいて自分で設置された高解像度である）に調整して、ターゲット解像度に調整された初期画像データを超解像画像データとする。

又は、初期画像データの解像度がターゲット解像度の以上であると検出した場合、初期画像データ自体は高解像度の画像データであり、従って、初期画像データの解像度を調整していなく、直接的に初期画像データを超解像画像データとする。

ステップＳ２０２：訓練された画像処理ネットワークを呼び出すことによって、超解像画像データに対して画質補強処理を行って、第１の補強画像データを取得する。

本出願において、ここで、呼出対象となる画質補強ネットワークは、上記の訓練された画像処理ネットワークにおける画質補強ネットワークであり、即ち、ここで、呼び出される画質補強ネットワークは訓練された画質補強ネットワークである。

超解像後の画像の画質が悪い恐れがあるため、サーバーはさらに、画質補強ネットワークを呼び出することによって、超解像画像データの画質を全体的に最適化し（即ち、超解像画像データに対して画質補強処理を行う）、画質補強ネットワークによって超解像画像データに対して画質最適化を行った後の画像データを第１の補強画像データとする。

ステップＳ２０３：訓練された画像処理ネットワークを呼び出すことによって、第１の補強画像データに対応する第２の補強画像データを取得し、第１の補強画像データには顔画像が含まれると、第２の補強画像データは第１の補強画像データにおける顔画像に対して顔補強を行った後、取得された画像データである。

本出願において、ここで、呼出対象となる顔補強ネットワークは上記の訓練された画像処理ネットワークにおける顔補強ネットワークであり、即ち、ここで、呼び出される顔補強ネットワークは訓練された顔補強ネットワークである。

呼び出された顔補強ネットワークは顔検出ネットワーク、顔補強サブネットワーク及び顔融合ネットワークを含み、画像データにおける顔は一般的に重要な要素であるため、サーバーはさらに顔検出ネットワークによって第１の補強画像データに対して顔検出を行って、即ち、第１の補強画像データには顔画像が含まれるかどうかを検出する。

第１の補強画像データには顔画像が含まれていないと検出した場合、直接的に第１の補強画像データを第２の補強画像データとする。

第１の補強画像データには顔画像が含まれると検出した場合、顔補強サブネットワークを呼び出することによって、第１の補強画像データにおける顔画像を最適化し、さらに、顔画像を最適化した第１の補強画像データを第２の補強画像データとする。

顔補強サブネットワークを呼び出すことによって第１の補強画像データにおける顔画像を最適化する過程は以下の通りである。
サーバーは顔検出ネットワークを呼び出すことによって、第１の補強画像データから検出された顔画像を切り抜いて、第１の補強画像データにおける顔画像を取得し、当該顔画像は顔切り抜き画像と呼ばれる。

サーバーはさらに、顔補強サブネットワークを呼び出すことによて、顔切り抜き画像に対して顔補強処理を行い、即ち、顔切り抜き画像に対して顔最適化を行って、顔を最適化した顔切り抜き画像は顔補強画像と呼ばれる。

また、サーバーはさらに顔融合ネットワークを呼び出すことによって、顔融合マスク（即ち、融合Ｍａｓｋ）を生成し、当該顔融合マスクは顔補強画像と第１の補強画像データに対して加重融合を行って、第２の補強画像データを取得する。当該適応型顔融合マスクによって顔補強画像と第１の補強画像データとの間のシームレス融合を実現する。

例えば、顔補強画像をａとして示し、顔融合マスクをｂとして示し、第１の補強画像データをｃとして示すと、第２の補強画像データはｂ＊ａ＋（１－ｂ）＊ｃである。

第１の補強画像データにおける顔画像を補強することで、第２の補強画像データを取得する過程は、上記の第１のサンプル補強画像データにおける顔画像を補強することで、第２のサンプル補強画像データを取得する過程と同様である。

図８を参照し、図８は本出願が提供する顔を最適化するシナリオの概略図である。図８に示すように、サーバーは画質補強ネットワークによって取得された第１の補強画像データを訓練された顔検出ネットワークに入力し、顔検出ネットワークによって第１の補強画像データにおける顔画像を切り抜くことで、顔切り抜き画像を取得し、顔切り抜き画像を訓練された顔補強サブネットワークに入力し、当該顔補強サブネットワークによって顔切り抜き画像に対して顔補強を行って、顔補強画像を取得する。さらに、顔補強画像及び第１の補強画像データを顔融合ネットワークに入力することで、顔補強画像と第１の補強画像データとの画像融合を実現し、結果として、第２の補強画像データを取得する。

ステップＳ２０４：訓練された画像処理ネットワークを呼び出すことによって、第２の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、鮮鋭化画像データを出力する。

本出願において、ここで、呼出対象となる鮮鋭化ネットワークは上記の訓練された画像処理ネットワークにおける鮮鋭化ネットワークであり、即ち、ここで、呼び出される鮮鋭化ネットワークは訓練された鮮鋭化ネットワークである。

最後、鮮鋭化ネットワークによって第２の補強画像データにおける細部を補強することで、細部がより明晰になる。サーバーは鮮鋭化ネットワークを呼び出すことによって、第２の補強画像データにおける高周波成分を抽出し、例えば、第２の補強画像データに対してガウスぼかしを行った後、元の第２の補強画像データとの差分を求め、これによって、第２の補強画像データにおける高周波画像情報（即ち、高周波成分）を取得する。

サーバーはさらに鮮鋭化ネットワークを呼び出すことによって、第２の補強画像データの鮮鋭化マスクを生成し、当該鮮鋭化マスクは第２の補強画像データにおける、鮮鋭化補強を必要とする細部部分を指示し、サーバーは当該鮮鋭化マスクと第２の補強画像データとのドット積を求めて、第２の補強画像データにおける鮮鋭化画像情報（即ち、細部成分）を取得する。例えば、サーバーは鮮鋭化ネットワークに含まれる畳み込み層（例えば１＊１の畳み込み層）及びＰｒｅｌｕ（活性化層）を使用して第２の補強画像データの鮮鋭化マスクを生成する。

また、鮮鋭化ネットワークはさらに、上記の高周波画像情報に対する加重重み（第１の加重重みと呼ばれる）、上記の鮮鋭化画像情報に対する加重重み（第２の加重重みと呼ばれる）、及び第２の補強画像データに対する加重重み（第３の加重重みと呼ばれる）を生成して、第１の加重重み、第２の加重重み及び第３の加重重みによって高周波画像情報、鮮鋭化画像情報及び第２の補強画像データに対して対応する加重合計を行うことで、鮮鋭化画像データを取得する。

例えば、第１の加重重みと高周波画像情報との間の積を第１の加重結果とし、第２の加重重みと鮮鋭化画像情報との間の積を第２の加重結果とし、第３の加重重みと第２の補強画像データとの間の積を第３の加重結果とし、さらに、第１の加重結果と、第２の加重結果と、第３の加重結果との和を求めることで、鮮鋭化画像データを取得する。

当該鮮鋭化画像データは、初期画像データを最適化した後、取得された最終の画像データであり、サーバーは画像処理ネットワークから当該鮮鋭化画像データを出力する。第２の補強画像データを補強して鮮鋭化画像データを取得する過程は、上記の第２のサンプル補強画像データを補強してサンプル鮮鋭化画像データを取得する過程と同様である。

図９を参照し、図９は本出願が提供する画像を最適化するシナリオの概略図である。図９に示すように、サーバーは初期画像データを訓練された画像処理ネットワークに入力し、画像処理ネットワークにおける超解像ネットワークによって初期画像データに対応する超解像画像データを取得する。そして、画質補強ネットワークによって超解像画像データに対して画質補強を行って、第１の補強画像データを取得する。次に、顔補強ネットワークにおける顔検出ネットワークによって第１の補強画像データにおける顔画像（即ち、顔切り抜き画像）を切り抜いて取得し、顔補強サブネットワークによって当該顔切り抜き画像に対して顔補強を行って、顔補強画像を取得し、顔融合ネットワークによって顔補強画像と第１の補強画像データとを融合させて、第２の補強画像データを取得する。最後、鮮鋭化ネットワークによって第２の補強画像データに対して鮮鋭化処理を行って、鮮鋭化画像データを取得して、当該鮮鋭化画像データを出力する。

上記の初期画像データはさらに、ビデオデータに対してフレーム分割を行うことで、取得された複数の画像フレームのうちの何れか１つの画像フレームであってもよく、サーバーはアプリケーションクライアントのバックグランドサーバーであってもよく、当該ビデオデータはアプリケーションクライアントにプッシュされるデータであってもよい。従って、サーバーはビデオデータに含まれる各画像フレームを何れも初期画像データとし、上記の過程でビデオデータに含まれる各画像フレームにそれぞれ対応する鮮鋭化画像データを取得し、さらに、各画像フレームにそれぞれ対応する鮮鋭化画像データによって、当該ビデオデータの最適化ビデオデータを生成し、当該最適化ビデオデータは、当該ビデオデータにおける各フレームの画像フレームを最適化した後、取得されたビデオデータである。サーバーは当該最適化ビデオデータをアプリケーションクライアントにプッシュし、アプリケーションクライアントはクライアントインターフェースに当該最適化ビデオデータを出力することで、ユーザーはそれを閲覧してチェックできる。

図１０を参照し、図１０は本出願が提供するデータをプッシュするシナリオの概略図である。図１０に示すように、サーバーはビデオデータに対してフレーム分割を行って、ビデオデータに含まれる複数の画像フレーム（例えば、画像フレーム１～画像フレームｎ）を取得し、上記の訓練された画像処理ネットワークによってフレーム分割による各画像フレームを最適化して、各画像フレームにそれぞれ対応する鮮鋭化画像データ（例えば、鮮鋭化画像データ１～鮮鋭化画像データｎ）を取得する。

さらに、各画像フレームにそれぞれ対応する鮮鋭化画像データによってビデオデータの最適化ビデオデータを取得でき、サーバーは当該最適化ビデオデータをアプリケーションクライアントにプッシュする。

本出願が提供する方法によれば、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワークから鮮鋭化ネットワークまでのマルチタスク共同訓練フレームワークによって、超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークの間の相互関連、相互融合、相互促進の訓練を実現し、訓練後の超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークのそれぞれの訓練効果がよりよくなる上に、画像に対して重ね合わせ及び最適化を同時に行う場合、衝突が生じていなく、全体的な最適化効果がよりよくなり、訓練された超解像ネットワーク、画質補強ネットワーク及び鮮鋭化ネットワークは画像データのグローバルな画質、色、テクスチャ及び精細度という属性を全面的に補強でき、衝突が存在していなく、画像データ効果を多方面にわたって向上して、訓練された顔補強ネットワークは画像データにおける局所の顔に対して専門の補強効果を有し、グローバル的補強及び局所的な補強を実現する。

図１１を参照し、図１１は本出願が提供する画像処理ネットワークの訓練装置の構造概略図である。当該画像処理ネットワークの訓練装置は、コンピュータ機器に運転するコンピュータ可読命令（プログラムコードを含む）、例えばアプリケーションソフトウェアであってもよく、当該画像処理ネットワークの訓練装置は本出願の実施例が提供する方法における相応的なステップを実行する。図１１に示すように、当該画像処理ネットワークの訓練装置１は、
サンプル画像ペアを取得するサンプル取得モジュール１１であって、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有するサンプル取得モジュール１１と、
画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成する呼出モジュール１２であって、
ように画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第１のサンプル補強画像データを取得して、第１のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成する呼出モジュール１２であって、
画像処理ネットワークを呼び出すことによって、第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第１のサンプル補強画像データとを融合させて、第２のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成する呼出モジュール１２であって、
画像処理ネットワークを呼び出すことによって、第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成する呼出モジュール１２と、
超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する更新モジュール１３と、を含む。

好ましくは、画像処理ネットワークは超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含み、サンプル超解像画像データは超解像ネットワークに基づいて取得され、第１のサンプル補強画像データは画質補強ネットワークに基づいて取得され、第２のサンプル補強画像データは顔補強ネットワークに基づいて取得され、サンプル鮮鋭化画像データは鮮鋭化ネットワークに基づいて取得され、
更新モジュール１３が超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する方式は、
超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて超解像ネットワークのネットワークパラメータを更新して、訓練された超解像ネットワークを取得するステップと、
画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画質補強ネットワークのネットワークパラメータを更新して、訓練された画質補強ネットワークを取得するステップと、
顔損失関数及び鮮鋭化損失関数に基づいて顔補強ネットワークのネットワークパラメータを更新して、訓練された顔補強ネットワークを取得するステップと、
鮮鋭化損失関数に基づいて鮮鋭化ネットワークのネットワークパラメータを更新して、訓練された鮮鋭化ネットワークを取得するステップと、
訓練された超解像ネットワーク、訓練された画質補強ネットワーク、訓練された顔補強ネットワーク及び訓練された鮮鋭化ネットワークに基づいて、訓練された画像処理ネットワークを生成するステップと、を含む。

好ましくは、呼出モジュール１２がサンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成する方式は、
サンプル超解像画像データに含まれる画素値要素、及び高解像度画像データに含まれる画素値要素に基づいて、第１の超解像損失関数を生成するステップと、
サンプル超解像画像データの特徴マップに含まれる特徴値要素及び高解像度画像データの特徴マップに含まれる特徴値要素に基づいて、第２の超解像損失関数を生成するステップと、
第１の超解像損失関数及び第２の超解像損失関数に基づいて、超解像損失関数を生成するステップと、を含む。

好ましくは、画像処理ネットワークは顔補強ネットワークを含み、第２のサンプル補強画像データは顔補強ネットワークに基づいて取得され、顔補強ネットワークは顔検出ネットワーク、色判別ネットワーク及びテクスチャ判別ネットワークを含み、第１のサンプル補強画像データにおける顔画像は、顔検出ネットワークによって生成された顔検出枠、及び実際の顔位置を指示する顔マーキング枠を備え、
呼出モジュール１２がサンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成する方式は、
顔検出枠及び顔マーキング枠に基づいて、検出損失関数を生成するステップと、
高解像度画像データにおける顔画像を切り抜いて、高解像度顔画像を取得するステップと、
高解像度顔画像、サンプル顔補強画像及び色判別ネットワークに基づいて色損失関数を生成するステップと、
高解像度顔画像、サンプル顔補強画像及びテクスチャ判別ネットワークに基づいて、テクスチャ損失関数を生成するステップと、
サンプル顔補強画像の特徴マップに含まれる特徴値要素、及び高解像度顔画像の特徴マップに含まれる特徴値要素に基づいて、コンテンツ損失関数を生成するステップと、
検出損失関数、色損失関数、テクスチャ損失関数及びコンテンツ損失関数に基づいて、顔損失関数を生成するステップと、を含む。

好ましくは、呼出モジュール１２がサンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成する方式は、
サンプル鮮鋭化画像データと高解像度画像データとの間のピーク信号対雑音比に基づいて、品質損失関数を生成するステップと、
サンプル鮮鋭化画像データと高解像度画像データとの間の感知類似度に基づいて、感知損失関数を生成するステップと、
品質損失関数及び感知損失関数に基づいて鮮鋭化損失関数を生成するステップと、を含む。

好ましくは、サンプル取得モジュール１１がサンプル画像ペアを取得する方式は、
サンプルビデオデータを取得するステップと、
サンプルビデオデータに対してフレーム分割を行って、サンプルビデオデータに含まれる複数のサンプル画像フレームを取得するステップと、
ターゲットビットレートを採用してサンプルビデオデータに対して符号化・復号化処理を行って、サンプルビデオデータに対応する低画質ビデオデータを取得するステップであって、低画質ビデオデータの画像フレームの画質はサンプルビデオデータの画像フレームの画質より低く、低画質ビデオデータは、各サンプル画像フレームにそれぞれ対応する低画質画像フレームを含み、ターゲットビットレートはビットレート閾値より低いステップと、
各サンプル画像フレーム、及び対応する低画質画像フレームに基づいてサンプル画像ペアを構築するステップと、を含む。

好ましくは、サンプル取得モジュール１１がサンプル画像ペアを取得する方式は、
サンプルビデオデータを取得するステップと、
サンプルビデオデータに対してフレーム分割を行って、サンプルビデオデータに含まれる複数のサンプル画像フレームを取得するステップと、
複数のサンプル画像フレームからターゲット画像フレームを高解像度画像データとして選択するステップと、
ターゲット画像フレーム及び複数のサンプル画像フレームにおけるターゲット画像フレームの隣接画像フレームに対して平均融合処理を行って、低解像度画像データを取得するステップと、を含む。

好ましくは、サンプル取得モジュール１１がサンプル画像ペアを取得する方式は、
高解像度画像データを取得するステップと、
高解像度画像データに対してガウスぼかし処理を行って、低解像度画像データを取得するステップと、を含む。

好ましくは、サンプル取得がモジュールサンプル画像ペアを取得する方式は、
高解像度画像データを取得するステップと、
高解像度画像データに対して歪みフォーマット変換を行って、低解像度画像データを取得するステップと、を含む。

好ましくは、サンプル取得モジュール１１がサンプル画像ペアを取得する方式は、
高解像度画像データを取得するステップと、
サンプル低解像度ビデオデータを取得して、サンプル低解像度ビデオデータをノイズ学習ネットワークに入力するステップであって、サンプル低解像度ビデオデータの精細度は精細度閾値より低いステップと、
ノイズ学習ネットワークに基づいてサンプル低解像度ビデオデータのノイズデータを学習するステップと、
高解像度画像データにノイズデータを融合させて、低解像度画像データを取得するステップと、を含む。

本出願の１つの実施例によれば、図３の画像処理ネットワークの訓練方法が係るステップは、図１１の画像処理ネットワークの訓練装置１における各モジュールによって実行される。例えば、図３のステップＳ１０１は図１１のサンプル取得モジュール１１によって実行され、図３のステップＳ１０２～ステップＳ１０５は図１１の呼出モジュール１２によって実行され、図３のステップＳ１０６は図１１の更新モジュール１３によって実行される。

本出願によれば、サンプル画像ペアを取得し、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有し、画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成し、画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第１のサンプル補強画像データを取得して、第１のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成し、画像処理ネットワークを呼び出すことによって、第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第１のサンプル補強画像データとを融合させて、第２のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成し、画像処理ネットワークを呼び出すことによって、第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成し、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する。このように、本出願が提出する装置は画像処理ネットワークに対してマルチタスク（例えば、超解像タスク、画質補強タスク、顔補強タスク及び鮮鋭化タスクを含む）の相互関連、相互融合の訓練を行って、訓練後の画像処理ネットワークは画像に対してマルチタスクの最適化を同時に行う時、各タスクの間は衝突することがなく、最適化効果がよりよくなる。

本出願の１つの実施例によれば、図１１の画像処理ネットワークの訓練装置１における各モジュールはそれぞれ、又は全部的に１つ又はいくつかのユニットとして合併されて構成されてもよいし、又はそのうちのある（いくつかの）ユニットはさらに機能でより小さい複数のサブユニットとして分解されてもよく、本出願の実施例の技術効果の実現に影響していなく、同じ操作を実現できる。上記のモジュールは論理機能に基づいて区画され、実際適用において、１つのモジュールの機能は複数のユニットによって実現されてもよく、又は複数のモジュールの機能は１つのユニットによって実現されてもよい。本出願の他の実施例において、画像処理ネットワークの訓練装置１は他のユニットを含んでもよく、実際適用において、これらの機能は他のユニットが協働することで実現されてもよいし、複数のユニットが協働することで実現されてもよい。

本出願の１つの実施例によれば、中央処理ユニット（ＣＰＵ）、ランダムアクセス記憶媒体（ＲＡＭ）、読み取り専用記憶媒体（ＲＯＭ）などの処理素子及び記憶素子を含む、例えばコンピュータの汎用コンピュータ機器で、図３の相応的な方法が係る各ステップを実行できるコンピュータ可読命令（プログラムコードを含む）を運転させることで、図１１の画像処理ネットワークの訓練装置１を構成して、本出願の実施例の画像処理ネットワークの訓練方法を実現する。上記のコンピュータ可読命令は、例えばコンピュータ可読記録媒体に読み込まれ、コンピュータ可読記録媒体によって上記のコンピューティング機器に搭載されて、運転する。

図１２を参照し、図１２は本出願が提供する画像処理装置の構造概略図である。当該画像処理装置は、コンピュータ機器に運転するコンピュータ可読命令（プログラムコードを含む）、例えばアプリケーションソフトウェアであってもよく、当該画像処理装置は本出願の実施例が提供する方法の相応的なステップを実行する。図１２に示すように、当該画像処理装置２は、
訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得する超解像呼出モジュール２１であって、超解像画像データの解像度はターゲット解像度の以上である超解像呼出モジュール２１と、
訓練された画像処理ネットワークを呼び出すことによって、超解像画像データに対して画質補強処理を行って、第１の補強画像データを取得する画質補強モジュール２２と、
訓練された画像処理ネットワークを呼び出すことによって、第１の補強画像データに対応する第２の補強画像データを取得する顔補強モジュール２３であって、第１の補強画像データには顔画像が含まれると、第２の補強画像データは第１の補強画像データにおける顔画像に対して顔補強を行った後、取得された画像データである顔補強モジュール２３と、
訓練された画像処理ネットワークを呼び出すことによって、第２の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、鮮鋭化画像データを出力する鮮鋭化モジュール２４と、を含む。

好ましくは、訓練された画像処理ネットワークは超解像ネットワークを含み、訓練された画像処理ネットワークを呼び出すことによって、超解像呼出モジュール２１が初期画像データに対応する超解像画像データを取得する方式は、
初期画像データを取得するステップと、
超解像ネットワークを呼び出すことによって、初期画像データの解像度を検出するステップと、
初期画像データの解像度がターゲット解像度の以上であれば、初期画像データを超解像画像データに決定するステップと、
超解像ネットワークを呼び出すことによって、初期画像データの解像度がターゲット解像度より小さいと、初期画像データの解像度をターゲット解像度に調整して、超解像画像データを取得するステップと、を含む。

好ましくは、訓練された画像処理ネットワークは顔補強ネットワークを含み、訓練された画像処理ネットワークを呼び出すことによって、顔補強モジュール２３が第１の補強画像データに対応する第２の補強画像データを取得する方式は、
顔補強ネットワークを呼び出すことによって、第１の補強画像データに対して顔検出を行うステップと、
第１の補強画像データには顔画像が含まれていないと、第１の補強画像データを第２の補強画像データに決定するステップと、
第１の補強画像データには顔画像が含まれると、顔補強ネットワークを呼び出すことによって、第１の補強画像データにおける顔画像に対して顔補強処理を行って、第２の補強画像データを取得するステップと、を含む。

好ましくは、顔補強ネットワークは顔検出ネットワーク、顔補強サブネットワーク及び顔融合ネットワークを含み、
顔補強ネットワークを呼び出すことによって、顔補強モジュール２３が第１の補強画像データにおける顔画像に対して顔補強処理を行って、第２の補強画像データを取得する方式は、
顔検出ネットワークを呼び出すことによって、第１の補強画像データにおける顔画像を切り抜いて、顔切り抜き画像を取得するステップと、
顔補強サブネットワークを呼び出すことによって、顔切り抜き画像に対して顔補強処理を行って、顔補強画像を取得するステップと、
顔融合ネットワークを呼び出すことによって、顔融合マスクを生成するステップと、
顔融合マスクに基づいて第１の補強画像データと顔補強画像に対して画像融合処理を行って、第２の補強画像データを取得するステップと、を含む。

好ましくは、訓練された画像処理ネットワークは鮮鋭化ネットワークを含み、訓練された画像処理ネットワークを呼び出すことによって、鮮鋭化モジュール２４が第２の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得する方式は、
鮮鋭化ネットワークを呼び出すことによって、第２の補強画像データにおける高周波画像情報を抽出するステップと、
鮮鋭化ネットワークに基づいて第２の補強画像データに対する鮮鋭化マスクを生成して、鮮鋭化マスクに基づいて第２の補強画像データにおける鮮鋭化画像情報を抽出するステップと、
鮮鋭化ネットワークに基づいて高周波画像情報に対する第１の加重重み、鮮鋭化画像情報に対する第２の加重重み及び第２の補強画像データに対する第３の加重重みを予測するステップと、
第１の加重重み、第２の加重重み及び第３の加重重みに基づいて対応するように高周波画像情報、鮮鋭化画像情報及び第２の補強画像データに対して加重合計を行って、鮮鋭化画像データを取得するステップと、を含む。

好ましくは、初期画像データはビデオデータに対してフレーム分割を行うことで、取得された複数の画像フレームのうちの何れか１つの画像フレームであり、上記の装置２はさらに、
複数の画像フレームのうちの各画像フレームにそれぞれ対応する鮮鋭化画像データに基づいて、ビデオデータの最適化ビデオデータを生成し、
最適化ビデオデータをアプリケーションクライアントにプッシュすることで、アプリケーションクライアントが最適化ビデオデータを出力する。

本出願の１つの実施例によれば、図７の画像処理方法が係るステップは図１２の画像処理装置２における各モジュールによって実行される。例えば、図７のステップＳ２０１は図１２における超解像呼出モジュール２１によって実行され、図７のステップＳ２０２は図１２における画質補強モジュール２２によって実行され、図７のステップＳ２０３は図１２における顔補強モジュール２３によって実行され、図７のステップＳ２０４は図１２における鮮鋭化モジュール２４によって実行される。

本出願によれば、サンプル画像ペアを取得し、サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、低解像度画像データと高解像度画像データとは同じ画像コンテンツを有し、画像処理ネットワークを呼び出すことによって、低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、サンプル超解像画像データ及び高解像度画像データに基づいて超解像損失関数を生成し、画像処理ネットワークを呼び出すことによって、サンプル超解像画像データに対して画質補強処理を行って、第１のサンプル補強画像データを取得して、第１のサンプル補強画像データ及び高解像度画像データに基づいて画質損失関数を生成し、画像処理ネットワークを呼び出すことによって、第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、サンプル顔補強画像と第１のサンプル補強画像データとを融合させて、第２のサンプル補強画像データを取得し、サンプル顔補強画像及び高解像度画像データにおける顔画像に基づいて顔損失関数を生成し、画像処理ネットワークを呼び出すことによて、第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、サンプル鮮鋭化画像データ及び高解像度画像データに基づいて鮮鋭化損失関数を生成し、超解像損失関数、画質損失関数、顔損失関数及び鮮鋭化損失関数に基づいて画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得する。このように、本出願が提出する装置は画像処理ネットワークに対してマルチタスク（例えば超解像タスク、画質補強タスク、顔補強タスク及び鮮鋭化タスクを含む））の相互関連、相互融合の訓練を行って、訓練後の画像処理ネットワークは画像に対してマルチタスクの最適化を同時に行う時、各タスクの間は衝突することがなく、最適化効果がよりよくなる。

本出願の１つの実施例によれば、図１２の画像処理装置２における各モジュールはそれぞれ、又は全部的に１つ又はいくつかのユニットとして合併されて構成されてもよいし、又はそのうちのある（いくつかの）ユニットはさらに機能でより小さい複数のサブユニットとして分解されてもよく、本出願の実施例の技術効果の実現に影響していなく、同じ操作を実現できる。モジュールは論理機能に基づいて区画され、実際適用において、１つのモジュールの機能は複数のユニットによって実現されてもよく、又は複数のモジュールの機能は１つのユニットによって実現されてもよい。本出願の他の実施例において、画像処理装置２は他のユニットを含んでもよく、実際適用において、これらの機能は他のユニットが協働することで実現されてもよいし、複数のユニットが協働することで実現されてもよい。

本出願の１つの実施例によれば、中央処理ユニット（ＣＰＵ）、ランダムアクセス記憶媒体（ＲＡＭ）、読み取り専用記憶媒体（ＲＯＭ）などの処理素子及び記憶素子を含む、例えばコンピュータの汎用コンピュータ機器で、図７の相応的な方法が係る各ステップを実行できるコンピュータ可読命令（プログラムコードを含む）を運転させることで、図１２の画像処理装置２を構成して、本出願の実施例の画像処理ネットワークの訓練方法を実現する。上記のコンピュータ可読命令は、例えばコンピュータ可読記録媒体に読み込まれ、コンピュータ可読記録媒体によって上記のコンピューティング機器に搭載されて、運転する。

図１３を参照し、図１３は本出願が提供するコンピュータ機器の構造概略図である。図１３に示すように、コンピュータ機器１０００はプロセッサー１００１、ネットワークインターフェース１００４及びメモリ１００５を含み、また、コンピュータ機器１０００はユーザーインターフェース１００３及び少なくとも１つの通信バス１００２をさらに含む。通信バス１００２はこれらのコンポーネントの間の接続通信を実現する。ユーザーインターフェース１００３はディスプレイ（Ｄｉｓｐｌａｙ）、キーボード（Ｋｅｙｂｏａｒｄ）を含んでもよく、好ましくは、ユーザーインターフェース１００３は標準的な有線インターフェース、無線インターフェースをさらに含んでもよい。好ましくは、ネットワークインターフェース１００４は準的な有線インターフェース、無線インターフェース（例えば、ＷＩ－ＦＩインターフェース）を含んでもよい。メモリ１００５は高速ＲＡＭメモリであってもよいし、不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えば少なくとも１つの磁気ディスクメモリであってもよい。好ましくは、メモリ１００５は上記プロセッサー１００１から離れた少なくとも１つの記憶装置であってもよい。図１３に示すように、コンピュータ記憶媒体としてのメモリ１００５にはオペレーティングシステム、ネットワーク通信モジュール、ユーザーインターフェースモジュール及びコンピュータ可読命令が含まれてもよく、当該コンピュータ可読命令を実行することで、本出願の実施例が提供する画像処理ネットワークの訓練方法及び画像処理方法のうちの少なくとも１つを実現できる。

図１３のコンピュータ機器１０００において、ネットワークインターフェース１００４はネットワーク通信機能を提供し、ユーザーインターフェース１００３は主にユーザーに入力を提供するインターフェースであり、プロセッサー１００１はメモリ１００５に記憶されるコンピュータ可読命令を呼び出すことによって、本出願の実施例が提供する画像処理ネットワークの訓練方法を実現する。

プロセッサー１００１はさらに、メモリ１００５に記憶されるコンピュータ可読命令を呼び出すことによって本出願の実施例が提供する画像処理方法を実現するために用いられる。

ここで、本出願の実施例に記載のコンピュータ機器１０００は以上の図３に対応する実施例における、上記の画像処理ネットワークの訓練方法の記載を実行してもよいし、以上の図７に対応する実施例における、上記の画像処理方法の記載を実行してもよく、ここで、贅言していない。また、同一方法による有益な効果の記載についても、贅言していない。

また、ここで、本出願はコンピュータ可読記憶媒体をさらに提供し、コンピュータ可読記憶媒体には、以上に言及された画像処理ネットワークの訓練装置１及び画像処理装置２が実行するコンピュータ可読命令が記憶され、プロセッサーはプログラム命令を実行すると、以上の図３に対応する実施例における、画像処理ネットワークの訓練方法の記載、及び以上の図７に対応する実施例における、画像処理方法の記載を実行するため、ここで、贅言していない。また、同一方法による有益な効果記載についても、贅言していない。本出願が係るコンピュータ記憶媒体の実施例の未開示の技術細部について、本出願の方法実施例の記載を参照すればよい。

例示として、上記のプログラム命令は１つのコンピュータ機器で実行され、又は１つの箇所に位置する複数のコンピュータ機器で実行され、或いは、複数の箇所に分布されて、通信ネットワークを介して互いに連結される複数のコンピュータ機器で実行されるように配置され、複数の箇所に分布されて、通信ネットワークを介して互いに連結される複数のコンピュータ機器はブロックチェーンネットワークを形成できる。

上記のコンピュータ可読記憶媒体は、上記の何れか１つの実施例が提供する画像処理ネットワークの訓練装置又は上記のコンピュータ機器の内部記憶ユニット、例えばコンピュータ機器のハードディスク又はメモリであってもよい。当該コンピュータ可読記憶媒体は当該コンピュータ機器の外部記憶機器、例えば当該コンピュータ機器に配置される接続型ハードディスク、スマートメディアカード（ｓｍａｒｔｍｅｄｉａｃａｒｄ、ＳＭＣ）、セキュアデジタル（ｓｅｃｕｒｅｄｉｇｉｔａｌ、ＳＤ）カード、フラッシュメモリカード（ｆｌａｓｈｃａｒｄ）などであってもよい。さらに、当該コンピュータ可読記憶媒体は、当該コンピュータ機器の内部記憶ユニットを含む上に、外部記憶機器も含んでもよい。当該コンピュータ可読記憶媒体は当該コンピュータ可読命令、当該コンピュータ機器の必要な他のプログラム及びデータを記憶する。当該コンピュータ可読記憶媒体はさらに、出力済みの又は出力対象となるデータを一時的に記憶してもよい。

本出願はコンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ可読命令を含み、当該コンピュータ可読命令はコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータ可読命令を読み取って実行することで、当該コンピュータ機器に、以上の図３に対応する実施例における、上記の画像処理ネットワークの訓練方法の記載、及び以上の図７に対応する実施例における、画像処理方法の記載を実行させるため、ここで将贅言していない。また、同一方法による有益な効果記載についても、贅言していない。本出願が係るコンピュータ可読記憶媒体の実施例の未開示の技術細部について、本出願の方法実施例の記載を参照すればよい。

本出願の実施例の明細書、請求項及び図面における「第１」、「第２」などの用語は特定の順序を記載していなく、異なるオブジェクトを区別するためのものである。また、用語の「含む」及びその任意の変形は非排他的包含を含むように意図される。例えば、一連のステップ又はユニットを含む過程、方法、装置、製品又は機器は挙げられたステップまたはモジュールに限定されず、好ましくは、列挙されていないステップ又はモジュールを含み、或いは、更にこのような過程、方法、装置、製品又は機器の固有の他のステップ、ユニットを含む。

当業者であれば意識できるように、本明細書が開示した実施例を結合して記載される各例示的なユニット及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア又は両者の結合によって実現されてもよく、ハードウェアとソフトウェアとの互換性を明らかに説明するために、上記の説明において、機能に応じて各例示の構成及びステップを一般的に記載した。これらの機能はハードウェア形態で実行されるか、それともソフトウェア形態で実行されるかということは、技術案の特定の適用及び設計制約条件に依存する。当業者は各特定の適用に対して異なる方法を使用して、記載される機能を実現するが、このような実現は本出願の範囲を超えていない。

本出願の実施例が提供する方法及び関連装置は、本出願の実施例が提供する方法フローチャート及び／又は構造概略図を参照して記載され、具体的に、コンピュータ可読命令は方法フローチャート及び／又は構造概略図の各フロー及び／又はブロック、及びフローチャート及び／又はブロック図におけるフロー及び／又はブロックの結合を実現する。これらのコンピュータ可読命令は汎用コンピュータ、専用コンピュータ、埋込型プロセッサー又は他のプログラマブルデータ処理機器のプロセッサーに提供されて、１つのマシンを生成して、コンピュータ又は他のプログラマブルデータ処理機器のプロセッサーによって実行される命令は、フローチャートの１つのフロー又は複数のフロー、及び／又は構造概略図の１つのブロック又は複数のブロックが指定する機能を実現する装置を生成する。これらのコンピュータ可読命令はさらに、特定の方式で動作するようにコンピュータ又は他のプログラマブルデータ処理機器をガイドするコンピュータ可読メモリに記憶されて、当該コンピュータ可読メモリに記憶される命令は、命令装置を含む製品を生成し、当該命令装置はフローチャートの１つのフロー又は複数のフロー、及び／又は構造概略図の１つのブロック又は複数のブロックが指定する機能を実現する。これらのコンピュータ可読命令はさらに、コンピュータ又は他のプログラマブルデータ処理機器に読み込まれることで、コンピュータ又は他のプログラマブル機器で一連の操作ステップを実行してコンピュータが実現する処理を生成して、コンピュータ又は他のプログラマブル機器で実行する命令は、フローチャートの１つのフロー又は複数のフロー、及び／又は構造概略図の１つのブロック又は複数のブロックが指定する機能を実現するステップを提供する。

以上の開示は本出願の請求項の範囲を限定していなく、本出願の好適な実施例に過ぎないため、本出願請求項に基づいて完成した均等変更は依然的に本出願のカバー範囲に属する。

１画像処理ネットワークの訓練装置
２画像処理装置
１１サンプル取得モジュール
１２呼出モジュール
１３更新モジュール
２１超解像呼出モジュール
２２画質補強モジュール
２３顔補強モジュール
２４鮮鋭化モジュール
１００ａ端末機器
１０１ａ端末機器
１０２ａ端末機器
１０３ａ端末機器
２００サーバー
１０００コンピュータ機器
１００１プロセッサー
１００２通信バス
１００３ユーザーインターフェース
１００４ネットワークインターフェース
１００５メモリ

Claims

コンピュータ機器が実行する画像処理ネットワークの訓練方法であって、
サンプル画像ペアを取得するステップであって、前記サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、前記低解像度画像データと前記高解像度画像データとは同じ画像コンテンツを有するステップと、
前記画像処理ネットワークを呼び出すことによって、前記低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、前記サンプル超解像画像データ及び前記高解像度画像データに基づいて超解像損失関数を生成するステップと、
前記画像処理ネットワークを呼び出すことによって、前記サンプル超解像画像データに対して画質補強処理を行って、第１のサンプル補強画像データを取得して、前記第１のサンプル補強画像データ及び前記高解像度画像データに基づいて画質損失関数を生成するステップと、
前記画像処理ネットワークを呼び出すことによって、前記第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、前記サンプル顔補強画像と前記第１のサンプル補強画像データとを融合させて、第２のサンプル補強画像データを取得し、前記サンプル顔補強画像及び前記高解像度画像データにおける顔画像に基づいて顔損失関数を生成するステップと、
前記画像処理ネットワークを呼び出すことによって、前記第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、前記サンプル鮮鋭化画像データ及び前記高解像度画像データに基づいて鮮鋭化損失関数を生成するステップと、
前記超解像損失関数、前記画質損失関数、前記顔損失関数及前記鮮鋭化損失関数に基づいて前記画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得するステップと、を含む方法。
前記画像処理ネットワークは超解像ネットワーク、画質補強ネットワーク、顔補強ネットワーク及び鮮鋭化ネットワークを含み、前記サンプル超解像画像データは前記超解像ネットワークに基づいて取得され、前記第１のサンプル補強画像データは前記画質補強ネットワークに基づいて取得され、前記第２のサンプル補強画像データは前記顔補強ネットワークに基づいて取得され、前記サンプル鮮鋭化画像データは前記鮮鋭化ネットワークに基づいて取得され、
前記超解像損失関数、前記画質損失関数、前記顔損失関数及前記鮮鋭化損失関数に基づいて前記画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得するステップは、
前記超解像損失関数、前記画質損失関数、前記顔損失関数及前記鮮鋭化損失関数に基づいて前記超解像ネットワークのネットワークパラメータを更新して、訓練された超解像ネットワークを取得するステップと、
前記画質損失関数、前記顔損失関数及び前記鮮鋭化損失関数に基づいて前記画質補強ネットワークのネットワークパラメータを更新して、訓練された画質補強ネットワークを取得するステップと、
前記顔損失関数及び前記鮮鋭化損失関数に基づいて前記顔補強ネットワークのネットワークパラメータを更新して、訓練された顔補強ネットワークを取得するステップと、
前記鮮鋭化損失関数に基づいて前記鮮鋭化ネットワークのネットワークパラメータを更新して、訓練された鮮鋭化ネットワークを取得するステップと、
訓練された超解像ネットワーク、訓練された画質補強ネットワーク、訓練された顔補強ネットワーク及び訓練された鮮鋭化ネットワークに基づいて、訓練された画像処理ネットワークを生成するステップと、を含むことを特徴とする請求項１に記載の方法。
前記サンプル超解像画像データ及び前記高解像度画像データに基づいて超解像損失関数を生成するステップは、
前記サンプル超解像画像データに含まれる画素値要素、及び前記高解像度画像データに含まれる画素値要素に基づいて、第１の超解像損失関数を生成するステップと、
前記サンプル超解像画像データの特徴マップに含まれる特徴値要素、及び前記高解像度画像データの特徴マップに含まれる特徴値要素に基づいて、第２の超解像損失関数を生成するステップと、
前記第１の超解像損失関数及び前記第２の超解像損失関数に基づいて、前記超解像損失関数を生成するステップと、を含むことを特徴とする請求項１に記載の方法。
前記画像処理ネットワークは顔補強ネットワークを含み、前記第２のサンプル補強画像データは前記顔補強ネットワークに基づいて取得され、前記顔補強ネットワークは顔検出ネットワーク、色判別ネットワーク及びテクスチャ判別ネットワークを含み、前記第１のサンプル補強画像データにおける顔画像は、前記顔検出ネットワークによって生成された顔検出枠、及び実際の顔位置を指示する顔マーキング枠を備え、
前記サンプル顔補強画像及び前記高解像度画像データにおける顔画像に基づいて、顔損失関数を生成するステップは、
前記顔検出枠及び前記顔マーキング枠に基づいて検出損失関数を生成するステップと、
前記高解像度画像データにおける顔画像を切り抜いて、高解像度顔画像を取得するステップと、
前記高解像度顔画像、前記サンプル顔補強画像及び前記色判別ネットワークに基づいて、色損失関数を生成するステップと、
前記高解像度顔画像、前記サンプル顔補強画像及び前記テクスチャ判別ネットワークに基づいて、テクスチャ損失関数を生成するステップと、
前記サンプル顔補強画像の特徴マップに含まれる特徴値要素、及び前記高解像度顔画像の特徴マップに含まれる特徴値要素に基づいて、コンテンツ損失関数を生成するステップと、
前記検出損失関数、前記色損失関数、前記テクスチャ損失関数及び前記コンテンツ損失関数に基づいて、前記顔損失関数を生成するするステップと、を含むことを特徴とする請求項１に記載の方法。
前記サンプル鮮鋭化画像データ及び前記高解像度画像データに基づいて、鮮鋭化損失関数を生成するステップは、
前記サンプル鮮鋭化画像データと前記高解像度画像データとの間のピーク信号対雑音比に基づいて、品質損失関数を生成するステップと、
前記サンプル鮮鋭化画像データと前記高解像度画像データとの間の感知類似度に基づいて、感知損失関数を生成するステップと、
前記品質損失関数及び前記感知損失関数に基づいて、前記鮮鋭化損失関数を生成するステップと、を含むことを特徴とする請求項１に記載の方法。
前記サンプル画像ペアを取得するステップは、
サンプルビデオデータを取得するステップと、
前記サンプルビデオデータに対してフレーム分割を行って、前記サンプルビデオデータに含まれる複数のサンプル画像フレームを取得するステップと、
ターゲットビットレートを採用して前記サンプルビデオデータに対して符号化・復号化処理を行って、前記サンプルビデオデータに対応する低画質ビデオデータを取得するステップであって、前記低画質ビデオデータの画像フレームの画質は前記サンプルビデオデータの画像フレームの画質より低く、前記低画質ビデオデータは、各サンプル画像フレームにそれぞれ対応する低画質画像フレームを含み、前記ターゲットビットレートはビットレート閾値より低いステップと、
前記各サンプル画像フレーム及び対応する低画質画像フレームに基づいて、前記サンプル画像ペアを構築するステップと、を含むことを特徴とする請求項１に記載の方法。
前記サンプル画像ペアを取得するステップは、
サンプルビデオデータを取得するステップと、
前記サンプルビデオデータに対してフレーム分割を行って、前記サンプルビデオデータに含まれる複数のサンプル画像フレームを取得するステップと、
前記複数のサンプル画像フレームから、ターゲット画像フレームを前記高解像度画像データとして選択するステップと、
前記ターゲット画像フレーム及び前記複数のサンプル画像フレームにおける前記ターゲット画像フレームの隣接画像フレームに対して平均融合処理を行って、前記低解像度画像データを取得するステップと、を含むことを特徴とする請求項１に記載の方法。
前記サンプル画像ペアを取得するステップは、
前記高解像度画像データを取得するステップと、
前記高解像度画像データに対してガウスぼかし処理を行って、前記低解像度画像データを取得するステップと、を含むことを特徴とする請求項１に記載の方法。
前記サンプル画像ペアを取得するステップは、
前記高解像度画像データを取得するステップと、
前記高解像度画像データに対して歪みフォーマット変換を行って、前記低解像度画像データを取得するステップと、を含むことを特徴とする請求項１に記載の方法。
前記サンプル画像ペアを取得するステップは、
前記高解像度画像データを取得するステップと、
サンプル低解像度ビデオデータを取得して、前記サンプル低解像度ビデオデータをノイズ学習ネットワークに入力するステップであって、前記サンプル低解像度ビデオデータの精細度は精細度閾値より低いステップと、
前記ノイズ学習ネットワークに基づいて、前記サンプル低解像度ビデオデータのノイズデータを学習するステップと、
前記高解像度画像データに前記ノイズデータを融合させて、前記低解像度画像データを取得するステップと、を含むことを特徴とする請求項１に記載の方法。
コンピュータ機器が実行する画像処理方法であって、
訓練された画像処理ネットワークを呼び出すことによって、初期画像データに対応する超解像画像データを取得するステップであって、前記超解像画像データの解像度はターゲット解像度の以上であるステップと、
訓練された画像処理ネットワークを呼び出すことによって、前記超解像画像データに対して画質補強処理を行って、第１の補強画像データを取得するステップと、
訓練された画像処理ネットワークを呼び出すことによって、前記第１の補強画像データに対応する第２の補強画像データを取得するステップであって、前記第１の補強画像データに顔画像が含まれる場合、前記第２の補強画像データは前記第１の補強画像データにおける顔画像に対して顔補強を行った後に取得された画像データであるステップと、
訓練された画像処理ネットワークを呼び出すことによって、前記第２の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得して、前記鮮鋭化画像データを出力するステップと、を含み、
前記訓練された画像処理ネットワークは上記の請求項１～１０の何れか１項に記載の方法を使用して訓練することで取得される方法。
訓練された画像処理ネットワークは超解像ネットワークを含み、訓練された画像処理ネットワークを呼び出すことによって、前記初期画像データに対応する超解像画像データを取得ステップは、
前記初期画像データを取得するステップと、
前記超解像ネットワークを呼び出すことによって、前記初期画像データの解像度を検出するステップと、
前記初期画像データの解像度が前記ターゲット解像度の以上である場合、前記初期画像データを前記超解像画像データに決定するステップと、
前記初期画像データの解像度が前記ターゲット解像度より小さい場合、前記超解像ネットワークを呼び出すことによって、前記初期画像データの解像度を前記ターゲット解像度に調整して、前記超解像画像データを取得するステップと、を含むことを特徴とする請求項１１に記載の方法。
訓練された画像処理ネットワークは顔補強ネットワークを含み、前記訓練された画像処理ネットワークを呼び出すことによって、前記第１の補強画像データに対応する第２の補強画像データを取得するステップは、
前記顔補強ネットワークを呼び出すことによって、前記第１の補強画像データに対して顔検出を行うステップと、
前記第１の補強画像データに顔画像が含まれていない場合、前記第１の補強画像データを前記第２の補強画像データに決定するステップと、
前記第１の補強画像データに顔画像が含まれる場合、前記顔補強ネットワークを呼び出すことによって、前記第１の補強画像データにおける顔画像に対して顔補強処理を行って、前記第２の補強画像データを取得するステップと、を含むことを特徴とする請求項１１に記載の方法。
前記顔補強ネットワークは顔検出ネットワーク、顔補強サブネットワーク及び顔融合ネットワークを含み、
前記顔補強ネットワークを呼び出すことによって、前記第１の補強画像データにおける顔画像に対して顔補強処理を行って、前記第２の補強画像データを取得するステップは、
前記顔検出ネットワークを呼び出すことによって、前記第１の補強画像データにおける顔画像を切り抜いて、顔切り抜き画像を取得するステップと、
前記顔補強サブネットワークを呼び出すことによって、前記顔切り抜き画像に対して顔補強処理を行って、顔補強画像を取得するステップと、
前記顔融合ネットワークを呼び出すことによって、顔融合マスクを生成するステップと、
前記顔融合マスクに基づいて前記第１の補強画像データと前記顔補強画像に対して画像融合処理を行って、前記第２の補強画像データを取得するステップと、を含むことを特徴とする請求項１３に記載の方法。
訓練された画像処理ネットワークは鮮鋭化ネットワークを含み、前記訓練された画像処理ネットワークを呼び出すことによって、前記第２の補強画像データに対して画像鮮鋭化処理を行って、鮮鋭化画像データを取得するステップは、
前記鮮鋭化ネットワークを呼び出すことによって、前記第２の補強画像データにおける高周波画像情報を抽出するステップと、
前記鮮鋭化ネットワークに基づいて、前記第２の補強画像データに対する鮮鋭化マスクを生成して、前記鮮鋭化マスクに基づいて前記第２の補強画像データにおける鮮鋭化画像情報を抽出するステップと、
前記鮮鋭化ネットワークに基づいて、前記高周波画像情報に対する第１の加重重み、前記鮮鋭化画像情報に対する第２の加重重み及び前記第２の補強画像データに対する第３の加重重みを予測するステップと、
前記第１の加重重み、前記第２の加重重み及び前記第３の加重重みに基づいて、対応するように、前記高周波画像情報、前記鮮鋭化画像情報及び前記第２の補強画像データに対して加重合計を行って、前記鮮鋭化画像データを取得するステップと、を含むことを特徴とする請求項１１に記載の方法。
前記初期画像データはビデオデータに対してフレーム分割を行って取得された複数の画像フレームのうちの何れか１つの画像フレームであり、前記方法は、
前記複数の画像フレームのうちの各画像フレームにそれぞれ対応する前記鮮鋭化画像データに基づいて、前記ビデオデータの最適化ビデオデータを生成するステップと、
前記最適化ビデオデータをアプリケーションクライアントにプッシュすることで、前記アプリケーションクライアントが前記最適化ビデオデータを出力するステップと、を含むことを特徴とする請求項１１に記載の方法。
画像処理ネットワークの訓練装置であって、
サンプル画像ペアを取得する取得モジュールであって、前記サンプル画像ペアは低解像度画像データ及び高解像度画像データを含み、前記低解像度画像データと前記高解像度画像データとは同じ画像コンテンツを有するモジュールと、
前記画像処理ネットワークを呼び出すことによって、前記低解像度画像データの解像度をターゲット解像度に調整して、サンプル超解像画像データを取得して、前記サンプル超解像画像データ及び前記高解像度画像データに基づいて超解像損失関数を生成するモジュールと、
前記画像処理ネットワークを呼び出すことによって、前記サンプル超解像画像データに対して画質補強処理を行って、第１のサンプル補強画像データを取得して、前記第１のサンプル補強画像データ及び前記高解像度画像データに基づいて画質損失関数を生成するモジュールと、
前記画像処理ネットワークを呼び出すことによって、前記第１のサンプル補強画像データにおける顔画像に対して顔補強処理を行って、サンプル顔補強画像を取得して、前記サンプル顔補強画像と前記第１のサンプル補強画像データとを融合させて、第２のサンプル補強画像データを取得し、前記サンプル顔補強画像及び前記高解像度画像データにおける顔画像に基づいて顔損失関数を生成するモジュールと、
前記画像処理ネットワークを呼び出すことによって、前記第２のサンプル補強画像データに対して画像鮮鋭化処理を行って、サンプル鮮鋭化画像データを取得して、前記サンプル鮮鋭化画像データ及び前記高解像度画像データに基づいて鮮鋭化損失関数を生成するモジュールと、
前記超解像損失関数、前記画質損失関数、前記顔損失関数及前記鮮鋭化損失関数に基づいて前記画像処理ネットワークのネットワークパラメータを更新して、訓練された画像処理ネットワークを取得するモジュールと、を含む装置。
コンピュータプログラム製品であって、コンピュータプログラムを含み、当該コンピュータプログラムはプロセッサーによって実行されると、請求項１～１６の何れか１項に記載の方法のステップを実現するコンピュータプログラム製品。
コンピュータ機器であって、メモリ及びプロセッサーを含み、前記メモリにはコンピュータ可読命令が記憶され、前記コンピュータ可読命令は前記プロセッサーによって実行されると、前記プロセッサーに請求項１～１６の何れか１項に記載の方法のステップを実行させるコンピュータ機器。
不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶され、前記コンピュータ可読命令はプロセッサーによって読み込まれて、請求項１～１６の何れか１項に記載の方法を実行することを特徴とする不揮発性コンピュータ可読記憶媒体。