JP2021502644A

JP2021502644A - 画像処理方法、処理装置及び処理デバイス

Info

Publication number: JP2021502644A
Application number: JP2020526028A
Authority: JP
Inventors: 瀚文 ▲劉▼; 彦波那
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-11-09
Filing date: 2018-11-09
Publication date: 2021-01-28
Anticipated expiration: 2038-11-09
Also published as: US10430683B2; CN107767343A; WO2019091459A1; US20190138838A1; EP3709255A4; EP3709255A1; CN107767343B; JP7438108B2

Abstract

画像処理方法、処理装置および処理デバイスを提供している。当該画像処理方法は、生成ニューラルネットワークによって、入力画像および第１のノイズ画像に基づき、前記入力画像に対して画像変換処理を行い、変換された第１の出力画像を出力することと、超解像度ニューラルネットワークによって、第１の出力画像および第２のノイズ画像に基づき、第１の出力画像に対して高解像度変換処理を行い、第２の出力画像を出力することと、を含む。

Description

関連出願の相互参照
本願は、２０１７年１１月９日に出願された、発明名称が「画像処理方法、処理装置及び処理デバイス」である中国特許出願（出願番号２０１７１１１０００１５.５）の優先権を主張し、当該中国特許出願を全文引用によりここに援用する。

本開示は、画像処理に関し、特に、画像処理方法、処理装置および処理デバイスに関する。

ディープニューラルネットワークによって画像処理及び変換を行うことは、ディープ学習技術の発展に伴って新たに登場した技術である。しかしながら、関連技術における画像処理及び変換システムは、構成が複雑で、トレーニングが困難であり、出力画像の多様性に欠ける。したがって、出力画像と入力画像との一致性と、異なる出力画像間の多様性とを両立させることができる画像変換を実現する画像処理方法、装置及びデバイスが必要である。

本開示の実施例は、生成ニューラルネットワークによって、入力画像および第１のノイズ画像に基づき、前記入力画像に対して画像変換処理を行い、変換された第１の出力画像を出力することと、超解像度ニューラルネットワークによって、第１の出力画像および第２のノイズ画像に基づき、第１の出力画像に対して高解像度変換処理を行い、第２の出力画像を出力することと、を含むことを特徴とする画像処理方法を提供している。

本開示の実施例によれば、前記入力画像は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含み、前記第１のノイズ画像は、Ｎ個（Ｎは１以上の正整数である）のチャンネルを含み、前記第２のノイズ画像は、Ｍ個（Ｍは１以上の正整数である）のチャンネルを含み、前記生成ニューラルネットワークの入力は、第１のノイズ画像チャンネル、および入力画像の第１の色チャンネル、第２の色チャンネル、第３の色チャンネルを含み、前記生成ニューラルネットワークの出力は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含む第１の出力画像である。

本開示の実施例によれば、前記生成ニューラルネットワークは、１つ以上のダウンサンプリングモジュールと、１つ以上の残差モジュールと、１つ以上のアップサンプリングモジュールとを含み、前記ダウンサンプリングモジュールは、順次に接続される畳み込み層、ダウンサンプリング層、および実例標準化層を含み、前記残差モジュールは、順次に接続される畳み込み層、および実例標準化層を含み、前記アップサンプリングモジュールは、順次に接続されるアップサンプリング層、実例標準化層、及び畳み込み層を含み、前記アップサンプリングモジュールの個数は、前記ダウンサンプリングモジュールの個数と同じである。

本開示の実施例によれば、前記超解像度ニューラルネットワークの入力は、第２のノイズ画像チャンネル、および第１の出力画像の第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含み、前記超解像度ニューラルネットワークの出力は、第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含む第２の出力画像である。

本開示の実施例によれば、前記超解像度ニューラルネットワークは、順次に接続されるアップグレーディングモジュールおよび変換モジュールを含み、超解像度ニューラルネットワークによって高解像度変換処理を行うことは、前記アップグレーディングモジュールによって、第１の出力画像および第２のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第１の色差チャンネルおよび第２の色差チャンネルを含む第１の中間画像を出力することと、前記変換モジュールによって、アップグレーディングモジュールにより出力された第１の中間画像を、第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含む第２の出力画像に変換することと、を含む。

本開示の実施例によれば、前記アップグレーディングモジュールは、第１のサブネットワーク、第２のサブネットワーク、および第３のサブネットワークを含み、各サブネットワークの入力は、いずれも第１の出力画像および第２のノイズ画像であり、各サブネットワークは、同じ構成を有しており、同じ個数の畳み込み層およびアップグレーディング層を含む。

本開示の実施例によれば、前記生成ニューラルネットワークによって、第１のトレーニング画像および第１のトレーニングノイズ画像に基づき、第１のトレーニング出力画像を生成することと、前記生成ニューラルネットワークによって、前記第１のトレーニング画像、および、前記第１のトレーニングノイズ画像と異なる第２のトレーニングノイズ画像に基づき、第２のトレーニング出力画像を生成することと、第１のトレーニング画像、第１のトレーニング出力画像、及び第２のトレーニング出力画像に基づいて、前記生成ニューラルネットワークをトレーニングさせることと、をさらに含む。

本開示の実施例によれば、前記生成ニューラルネットワークをトレーニングさせることは、前記第１のトレーニング出力画像を識別ニューラルネットワークに入力し、前記第１のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力することと、前記第２のトレーニング出力画像を識別ニューラルネットワークに入力し、前記第２のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力することと、第１の損失算出手段によって、前記第１のトレーニング画像、第１のトレーニング出力画像、第２のトレーニング出力画像、および該当する識別ラベルに基づき、前記生成ニューラルネットワークの損失値を算出し、前記生成ニューラルネットワークのパラメータを最適化することと、を含み、前記第１の損失算出手段は、分析ネットワーク、第１の損失算出器、及び最適化器を含み、前記第１の損失算出手段によって前記生成ニューラルネットワークの損失値を算出することは、分析ネットワークによって、前記第１のトレーニング画像、第１のトレーニング出力画像、第２のトレーニング出力画像のコンテンツ特徴を出力し、前記分析ネットワークによって、前記第１のトレーニング出力画像および第２のトレーニング出力画像のスタイル特徴を出力することと、第１の損失算出器によって、分析ネットワークで抽出されたコンテンツ特徴、スタイル特徴、前記第１のトレーニング出力画像及び前記第２のトレーニング出力画像の識別ラベルに基づき、第１の損失関数によって前記生成ニューラルネットワークの損失値を算出することと、最適化器によって、前記生成ニューラルネットワークの損失値に基づき、前記生成ニューラルネットワークのパラメータを最適化することと、を含む。

本開示の実施例によれば、前記第１の損失関数は、スタイル相違損失関数を含み、前記生成ニューラルネットワークの損失値を算出することは、前記第１の損失算出器によって、第１のトレーニング出力画像のスタイル特徴と第２のトレーニング出力画像のスタイル特徴に基づき、スタイル相違損失関数に従って前記生成ニューラルネットワークのスタイル損失値を算出することを含み、前記第１の損失関数は、コンテンツ損失関数をさらに含み、前記生成ニューラルネットワークの損失値を算出することは、第１のトレーニング画像、第１のトレーニング出力画像、及び第２のトレーニング出力画像のコンテンツ特性に基づき、コンテンツ損失関数に従って前記生成ニューラルネットワークモジュールのコンテンツ損失値を算出することを含む。

本開示の実施例によれば、第１のサンプル画像から低解像度の画像を、解像度が前記第１のサンプル画像よりも低の超解像度トレーニング画像として抽出することと、超解像度ニューラルネットワークによって、超解像度トレーニング画像と超解像度トレーニングノイズ画像に基づき、解像度が前記第１のサンプル画像と同じ第２のサンプル画像を出力することと、第１のサンプル画像および第２のサンプル画像に基づいて、前記超解像度ニューラルネットワークのコスト関数を低減することにより、超解像度ニューラルネットワークのパラメータを最適化することと、をさらに含む。

本開示の実施例は、入力画像および第１のノイズ画像に基づき、前記入力画像に対して画像変換処理を行い、変換された第１の出力画像を出力するように配置される生成ニューラルネットワークと、第１の出力画像および第２のノイズ画像に基づき、第１の出力画像に対して高解像度変換処理を行い、第２の出力画像を出力するように配置される超解像度ニューラルネットワークと、を含む画像処理装置をさらに提供している。

本開示の実施例によれば、前記入力画像は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含み、前記生成ニューラルネットワークの入力は、第１のノイズ画像チャンネル、および入力画像の第１の色チャンネル、第２の色チャンネル、第３の色チャンネルを含み、前記生成ニューラルネットワークの出力は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含む第１の出力画像である。

本開示の実施例によれば、前記超解像度ニューラルネットワークは、順次に接続されるアップグレーディングモジュールおよび変換モジュールを含み、前記アップグレーディングモジュールは、第１の出力画像および第２のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第１の色差チャンネルおよび第２の色差チャンネルを含む第１の中間画像を出力するように配置され、前記変換モジュールは、アップグレーディングモジュールにより出力された第１の中間画像を、第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含む第２の出力画像に変換するように配置され、前記アップグレーディングモジュールは、第１のサブネットワーク、第２のサブネットワーク、および第３のサブネットワークを含むように配置される。

本開示の実施例によれば、前記第１のサブネットワーク、第２のサブネットワーク、および第３のサブネットワークの入力は、第１の出力画像および第２のノイズ画像であり、出力画像は、輝度チャンネル、第１の色差チャンネルおよび第２の色差チャンネルを含む３つのチャンネルを有し、前記第１のサブネットワーク、第２のサブネットワーク、および第３のサブネットワークは、同じ構成を有しており、各サブネットワークは、順次に接続される１つ以上の畳み込み層および１つのアップグレーディング層を含む少なくとも１つのアップグレーディングサブモジュールを有する。

本開示の実施例によれば、前記画像処理装置は、前記生成ニューラルネットワークモジュールの出力画像に基づき、前記生成ニューラルネットワークモジュールをトレーニングさせるように配置されるトレーニングニューラルネットワークモジュールをさらに含む。前記生成ニューラルネットワークモジュールは、さらに、第１のトレーニング画像および第１のトレーニングノイズ画像に基づき、変換された第１のトレーニング出力画像を出力し、前記生成ニューラルネットワークモジュールは、さらに、第１のトレーニング画像、および、前記第１のトレーニングノイズ画像と異なる第２のトレーニングノイズ画像に基づき、変換された第２のトレーニング出力画像を出力し、前記トレーニングニューラルネットワークモジュールは、第１のトレーニング画像、第１のトレーニング出力画像、及び第２のトレーニング出力画像に基づき、前記生成ニューラルネットワークモジュールをトレーニングさせる。

前記トレーニングニューラルネットワークモジュールは、前記第１のトレーニング出力画像および前記第２のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力するように配置される識別ニューラルネットワークモジュールと、前記第１のトレーニング画像、第１のトレーニング出力画像、第２のトレーニング出力画像、および該当する識別ラベルに基づき、前記生成ニューラルネットワークモジュールの損失値を算出し、前記生成ニューラルネットワークモジュールのパラメータを最適化するように配置される第１の損失算出手段と、を含み、前記第１の損失算出手段は、前記第１のトレーニング画像、第１のトレーニング出力画像、第２のトレーニング出力画像のコンテンツ特徴を出力するように配置される分析ネットワークと、分析ネットワークで抽出されたコンテンツ特徴、スタイル特徴、前記第１のトレーニング出力画像及び前記第２のトレーニング出力画像の識別ラベルに基づき、第１の損失関数に従って前記生成ニューラルネットワークモジュールの損失値を算出するように配置される第１の損失算出器と、前記生成ニューラルネットワークの損失値に基づき、前記生成ニューラルネットワークモジュールのパラメータを最適化する最適化器と、を含む。

本開示の実施例によれば、前記第１の損失関数は、スタイル相違損失関数を含み、第１のトレーニング出力画像のスタイル特徴と第２のトレーニング出力画像のスタイル特徴に基づき、前記生成ニューラルネットワークモジュールのスタイル損失値を算出し、前記第１の損失関数は、コンテンツ損失関数をさらに含み、第１のトレーニング画像、第１のトレーニング出力画像、及び第２のトレーニング出力画像のコンテンツ特性に基づき、前記生成ニューラルネットワークモジュールのコンテンツ損失値を算出する。

本開示の実施例によれば、トレーニングニューラルネットワークモジュールは、さらに、超解像度ニューラルネットワークの出力に基づいて超解像度ニューラルネットワークモジュールをトレーニングさせるように配置され、前記超解像度ニューラルネットワークモジュールは、第１のサンプル画像から抽出された低解像度の画像である超解像度トレーニング画像、および、取得された超解像度トレーニングノイズ画像に基づいて、第２のサンプル画像を出力し、前記トレーニングニューラルネットワークモジュールは、第１のサンプル画像および第２のサンプル画像に基づいて識別ラベルを出力するように配置される第２の識別ニューラルネットワークモジュールをさらに含み、前記最適化器は、前記超解像度ニューラルネットワークモジュールのコスト関数を低減することにより、前記超解像度ニューラルネットワークモジュールのパラメータを最適化する。

本開示の実施例は、画像処理デバイスを提供し、１つ以上のプロセッサと、１つ以上のメモリと、を含む。前記メモリは、前記１つ以上のプロセッサによって実行されると、上記画像処理方法を実行し、又は上記画像処理装置を実現するコンピュータ読み取り可能なコードを記憶する。

本開示の実施例又は関連技術における技術案をより明確に説明するために、以下、実施例又は関連技術の説明に必要な図面を簡単に説明し、以下の説明における図面が、本開示の実施形態の一部に過ぎず、当業者にとって、創造的な労動を伴うことなく、これらの図面に基づいて他の図面を取得することができることは明らかである。

図１は、本開示の実施例による画像処理方法の例示的なフローチャートを示す。図２は、図１に示した画像処理方法を実現するためのニューラルネットワークの概略的な構成を示す概略図である。図３は、図２における生成ニューラルネットワークの具体例の構成図である。図４は、リフト層の例示的な概略図である。図５は、図２における超解像度ニューラルネットワークの例示的な構造の模式図である。図６は、図５における超解像度ニューラルネットワークの具体的な例示の構成図である。図７は、生成ニューラルネットワークをトレーニングさせる例示的なフローチャートである。図８は、生成ニューラルネットワークをトレーニングさせる例示的なブロック図である。図９は、解析ネットワークの具体的な例示の構成図である。図１０は、ニューラルネットワークを判別する具体的な例示の構成図である。図１１は、超解像度ニューラルネットワークをトレーニングさせる例示的なフローチャートである。図１２は、第２の解析ニューラルネットワークの具体的な例示の構成図である。図１３は、本開示の実施例による画像処理装置の概略的な例示のブロック図である。図１４は、本開示の実施例による画像処理デバイスの概略的な例示のブロック図である。

以下、本開示の実施例における図面を組合せ、本開示の実施例における技術案を、明確かつ完全に説明する。もちろん、説明された実施例は、本開示の一部の実施例にすぎず、全ての実施形例はない。本開示の実施例に基づいて、当業者が創造的な労力を要することなく得られる全ての他の実施例は、本開示の保護範囲に属する。

本開示の実施例は、画像変換を実現する画像処理方法、処理装置および処理デバイスを提供する。前記画像処理方法、処理装置および処理デバイスは、生成ニューラルネットワーク、超解像度ニューラルネットワーク、およびコンテンツパーセプトに基づいて画像変換を行う。入力にノイズ画像を付加することで、変換画像の詳細情報を生成する。コンテンツ特徴損失関数を用いて生成ニューラルネットワークをトレーニングさせることにより、変換後の出力画像と入力画像とのコンテンツ一致性を確保し、処理結果間のスタイル相違損失関数を用いて生成ニューラルネットワークをトレーニングさせることにより、出力結果間の多様性を確保し、システムを簡単にし、トレーニングを容易にする。これに基づき、製品の画像解像度に対する要求を満たすように、超解像度ニューラルネットワークを用いて生成ニューラルネットワークが出力する変換画像の解像度を向上させ、解像度が高い変換画像を取得する。

本開示の実施例による画像処理方法の例示的なフローチャートは、図１に示すように、ステップＳ１１０において、画像変換処理を受けるべき入力画像を取得し、当該入力画像は、元情報として、第１の色チャンネル、第２の色チャンネル及び第３の色チャンネルを含む。本開示のいくつかの実施例では、ＲＧＢ３チャンネルであるが、本開示はこれに限定されない。次に、ステップＳ１２０において、第１のノイズ画像と第２のノイズ画像を取得し、前記第１のノイズ画像は、Ｎ個のチャンネル（Ｎは１以上の正整数）を含む。いくつかの実施例では、第１のノイズ画像は、第２のノイズ画像と同一ではないことがある。本開示の実施例において、Ｎは、例えば１であり、即ち、第１のノイズ画像は、第４のチャンネルとして、入力画像のＲＧＢチャンネル情報とともに生成ニューラルネットワークに入力される。前記ノイズは、例えば、ガウスノイズのようなランダムノイズであってもよい。本開示の他の実施例では、Ｎは、例えば３であってもよく、第１のノイズ画像の３つのチャンネルをそれぞれ画像変換処理を行いたい元画像のＲＧＢチャンネルに追加することによって、ノイズ情報を含む入力画像を生成し、前記生成ニューラルネットワークが前記入力画像に基づいて前記元画像に対して画像変換処理を行う。この場合について、本明細書では贅言しない。毎回に入力されるノイズ画像にランダムノイズが含まれるため、同一組の生成ニューラルネットワークを用いて同一の入力画像によって行われる複数回の画像処理を行うことで、詳細情報の異なる変換結果を得ることができ、即ち、変換結果の多様性を図ることができる。また、入力画像の取得とノイズ画像の取得とは、プロセス上の前後順序が画像処理結果に影響を与えない。

ステップＳ１３０では、取得した入力画像を第１のノイズ画像とともに生成ニューラルネットワークに入力し（例えば、いくつかの実施例では、生成ニューラルネットワークの具体的な実現に応じて、入力画像と第１のノイズ画像とを重ね合わせて、単一の画像データとして生成ニューラルネットワークに入力してもよいし、入力画像と第１のノイズ画像とのデータを異なるデータチャンネルとして生成ニューラルネットワークにそれぞれ入力してもよい）、画像処理操作（例えば、画像変換処理）を終了する。ステップＳ１４０では、当該生成ニューラルネットワークは、画像変換処理を行った第１の出力画像を出力し、前記第１の出力画像は、３つのチャンネルを有し、本開示の実施例では、ＲＧＢ３チャンネルであるが、本開示はこれに限定されない。当該生成ニューラルネットワークは、異なるトレーニング過程を経て例えば、画風、シーン、季節、効果、又は他の特徴に基づく画像変換など、異なる画像処理を実現することができる。ステップＳ１５０では、生成ニューラルネットワークから出力される第１の出力画像を第２のノイズ画像とともに超解像度ニューラルネットワークに入力し（例えば、いくつかの実施例では、超解像度ニューラルネットワークの具体的な実現に応じて、第１の出力画像と第２のノイズ画像とを重ね合わせて、単一の画像データとして超解像度ニューラルネットワークに入力してもよいし、第１の出力画像と第２のノイズ画像とのデータを異なるデータ経路として、超解像度ニューラルネットワークに入力してもよい）、高解像度変換処理を終了し、第１の出力画像の解像度を向上させる。ただし、前記第２のノイズ画像は、Ｍ個のチャンネル（Ｍは、１以上の正整数である）を含み、本開示の実施例では、例えば、Ｍは、１である。すなわち、前記第２のノイズ画像は、単独のチャンネルとして、超解像度ニューラルネットワークに入力し、超解像度変換過程に画像詳細情報を生成する。本開示の他の実施例では、例えば、Ｍは、３であってもよく、第２のノイズ画像の３つのチャンネルを前記第１の出力画像のＲＧＢチャンネルにそれぞれ追加することによって、ノイズ情報を含む第１の出力画像を生成し、前記超解像度ニューラルネットワークは、前記第１の出力画像に対して解像度向上処理を行う。この場合について、本明細書では贅言しない。

ステップＳ１６０では、当該超解像度ニューラルネットワークは、解像度を向上させた第２の出力画像を出力する。超解像度ニューラルネットワークが解像度を向上させる過程に第２のノイズ画像の情報を組み合わせたため、同一組の超解像度ニューラルネットワークを用いて同一枚の入力画像によって行われる複数回の画像処理操作は、詳細情報の異なる出力結果を得ることができ、変換結果の多様性をさらに図ることができる。

図２は、上記画像処理方法を実現するためのニューラルネットワークの例示的な構成概略図を示し、主に、生成ニューラルネットワークと超解像度ニューラルネットワークという２つの部分を含む。図３は、図２に示す生成ニューラルネットワークの具体的な例示構成図を示す。以下、図２及び図３を組み合わせて、前記生成ニューラルネットワークを詳細に説明する。

図２に示すように、前記生成ニューラルネットワークの入力は、入力画像の３つのチャンネル（特徴）、例えば、具体的に第１の色チャンネル、第２の色チャンネルおよび第３の色チャンネルを含む。本開示の実施例ではＲＧＢ３チャンネルであり、前記第１のノイズ画像をさらに含む。前記生成ニューラルネットワークの出力は、３つのチャンネルを有する第１の出力画像であり、本開示の実施例ではＲＧＢ３チャンネルであるが、本開示はこれに限定されない。前記生成ニューラルネットワークは、１つまたは複数のダウンサンプリングモジュールと、１つまたは複数の残差モジュールと、１つまたは複数のアップサンプリングモジュールとを含む。生成ニューラルネットワークの深さは、前記ダウンサンプリングモジュール、残差モジュール、ダウンサンプリングモジュールの個数によって決定され、具体的な変換アプリケーションによって決定される。また、いくつかの実施例において、出力画像と入力画像とが同じ画像サイズを有するように、前記ダウンサンプリングモジュールとアップサンプリングモジュールとの個数は、同じであってもよい。

前記ダウンサンプリングモジュールは、入力画像とノイズ画像に対して畳み込み処理を行って画像特徴を抽出し、特徴画像のサイズを小さくする。前記残差モジュールは、特徴画像サイズを変えずに、畳み込みによって、ダウンサンプリングモジュールから出力された特徴画像をさらに処理する。前記アップサンプリングモジュールは、残差モジュールから出力された前記特徴画像に対して拡大及び標準化処理を行い、特徴を変換した出力画像を出力する。当該出力画像の変換特徴は、前記生成ニューラルネットワークのパラメータにより決定され、変換アプリケーションに応じて、トレーニング画像を用いて前記生成ニューラルネットワークをトレーニングさせ、変換目的を達成するように前記パラメータを最適化する。前記画像変換アプリケーションは、例えば、風景画像をゴッホ作品の特徴を有する画像に変換し、夏の特徴を有する画像を冬の特徴を有する画像に変換し、茶色の馬の画像をゼブラの特徴に変換し、猫を犬に変換するなど、画像のスタイル、季節、効果、シーンなどの変換であってもよい。

例えば、図３に示すように、ダウンサンプリングモジュールは、順次連結された畳み込み層、ダウンサンプリング層、及び実例標準化層を含む。

畳み込み層では、１つの畳み込みカーネルが、1つ前の畳み込み層の出力特徴画像の一部のピクセルのみに接続され、畳み込み層は、入力画像にいくつかの畳み込みカーネルを適用して、複数類型の特徴を抽出することができる。各畳み込みカーネルは、１つの類型の特徴を抽出し、生成ニューラルネットワークのトレーニング過程において、畳み込みカーネルは、学習によって妥当な重み付け値となる。入力された画像に１つの畳み込みカーネルを適用した結果を、特徴画像とし、その数量は、畳み込みカーネルの数量と同じである。各特徴画像は、矩形状に配置された、畳み込みカーネルによって畳み込まれる画素からなり、同一の特徴画像の畳み込みカーネルは、重み付け値を共用することができる。１つの畳み込み層によって出力された特徴画像は、次の畳み込み層で処理された後、新たな特徴画像が得られる。例えば、入力画像が１つの畳み込み層で処理された後に、そのコンテンツ特徴が取得され、前記コンテンツ特徴が次の畳み込み層で処理された後に、スタイル特徴が取得される。

ダウンサンプリング層は、画像に対してダウンサンプリング処理（例えば、プール層）を行い、特徴画像の個数を変えずに特徴画像のサイズを縮小して特徴圧縮を行い、主要特徴を抽出することができる。また、ダウンサンプリング層は、特徴画像のサイズを縮小して算出の複雑度を簡単にし、オーバーフィッティングの現象をある程度に減少させることができる。

実例標準化層は、上層で出力された特徴画像に対して標準化処理を行い、本開示の実施例では、各特徴画像の平均値及び分散値に基づいて標準化する。当該生成ニューラルネットワークのトレーニング際（例えば、ｍｉｎｉ−ｂａｔｃｈトレーニング方式を採用する）に用いられるバッチサイズ（ｂａｔｃｈｓｉｚｅ）をＴとし、ある畳み込み層から出力される特徴画像の数をＣとし、各特徴画像をＨ行Ｗ列の行列とすれば、特徴画像は（Ｔ，Ｃ，Ｗ，Ｈ）と表され、標準化式は以下のようになる：

ただし、x_tijkは、ある畳み込み層から出力される特徴画像集合におけるｔ番目のバッチ（ｂａｔｃｈ）のｉ番目の特徴画像のｊ列目、ｋ行目の値である。y_tijkは、x_tijkが実例標準化層処理によってえられる結果を示し、分母が０にならないように、εが非常に小さい正数となっている。

図３に示すように、残差モジュールでは、畳み込み層および実例標準化層の両方を含むとともに、クロスレイヤー接続も含まれる。これにより、残差モジュールは、畳み込み層および実例標準化層を有する処理部分と、入力画像を処理しないクロスレイヤー部分という２つの部分を有している。当該クロスレイヤー接続は、残差モジュールの入力を直接に前記処理部分の出力に重ね合わせる。残差モジュールにクロスレイヤー接続を導入することにより、生成ニューラルネットワークをより柔軟させることができる。生成ニューラルネットワークに対するトレーニングが完了すると、システムの展開段階で、画像処理結果に対する残差モジュールにおける処理部分及びクロスレイヤー部分の影響度合いを判断することができる。ネットワークの稼働率や処理速度を向上させるように、当該影響度合いに応じて生成ニューラルネットワークの構造をある程度にクリッピングすることができる。例えば、判定により、画像処理結果に対するクロスレイヤー接続部分の影響が処理部分に比べて非常に大きい場合には、当該生成ニューラルネットワークによって画像処理を行う場合、残差モジュールにおけるクロスレイヤー接続部分のみを利用し、ネットワークの処理効率を向上させることができる。

図３に示すように、アップサンプリングモジュールは、順次に接続されるアップサンプリング層、実例標準化層及び畳み込み層を含み、入力された画像の特徴を抽出し、特徴画像に対して標準化処理を行う。

前記アップサンプリング層は、例えば、アップグレーディング層（またはＭＵＸ層）であってもよく、入力された若干の画像に対して画素のインターリーブ再配置処理を行うことにより、画像数が変わらずに、各画像のサイズを大きくすることができる。これにより、ＭＵＸ層は、異なる画像間の画素の配列組合により、各画像の画素数を増加させる。図４は、２＊２のＭＵＸ層を用いてアップサンプリングを行う例示的な概略図を示す。入力された４枚の画像ＩＮＰＵＴ４ｎ、ＩＮＰＵＴ４ｎ＋１、ＩＮＰＵＴ４ｎ＋２、ＩＮＰＵＴ４ｎ＋３に対して、入力された画像の画素数をａ＊ｂとすれば、２＊２のＭＵＸ層の画素再配列を経て、画素数が２ａ＊２ｂである４枚の画像ＯＵＴＰＵＴ４ｎ、ＯＵＴＰＵＴ４ｎ＋１、ＯＵＴＰＵＴ４ｎ＋２、ＯＵＴＰＵＴ４ｎ＋３が出力され、各画像の画素情報を増加させる。

本開示の実施例では、第１のノイズ画像チャンネルは、入力画像のＮ個のチャンネル（本開示の実施例では、ＲＧＢチャンネル）とともに、前記生成ニューラルネットワークに入力され、前記入力画像およびノイズ画像は、上記ダウンサンプリングモジュール、残差モジュール、およびアップサンプリングモジュールの処理を経て、その特徴画像を抽出し、変換特徴を有する第１の出力画像を最終的に出力する。前記ノイズ画像は、ランダムノイズを有し、第１の出力画像における詳細情報を生成し、そして、入力されるノイズ画像が毎回異なるため、同一の生成ニューラルネットワークに対して前後２回の同じ入力画像を入力しても、詳細が異なる変換画像を得ることができ、変換画像における詳細情報が豊富になり、より良いユーザ体験を提供することができる。

図５は、図２に示した超解像度ニューラルネットワークの例示構造概略図であり、図６は、図２に示した超解像度ニューラルネットワークの具体的な例示構成例であり、以下、図２、図５及び図６を参照して、前記超解像度ニューラルネットワークを詳細に説明する。

図２に示すように、前記超解像度ニューラルネットワークの入力は、第２のノイズ画像チャンネル、並びに第１の出力画像の第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含む。前記超解像度ニューラルネットワークの出力は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含む、高解像度変換処理が行われた第２の出力画像であるが、本開示はこれに限定されない。本開示の実施例では、前記第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルは、ＲＧＢチャンネルであってもよい。前記第２のノイズ画像は、例えば、ガウシアンノイズなどのランダムノイズを有し、超解像度ニューラルネットワークによる画像の高解像度変換の過程で、画像詳細情報を生成し、出力される第２の出力画像は、高解像度を有するとともに画像詳細情報を含み、即ち、出力結果は、画像多様性を有している。

図５に示すように、前記超解像度ニューラルネットワークは、順次に接続されるアップグレーディングモジュール及び変換モジュールを含み、ただし、超解像度ニューラルネットワークによって高解像度変換処理を行うことは、以下のことを含む。前記アップグレーディングモジュールによって第１の出力画像および第２のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第１の色差チャンネル、第２の色差チャンネルを含む第１の中間画像を出力し、本開示の実施例では、ＹＵＶ３チャンネルである。前記変換モジュールにより、アップグレーディングモジュールから出力された第１の中間画像を、第１の色チャンネル、第２の色チャンネル、第３の色チャンネルを含む第２の出力画像に変換し、本開示の実施例ではＲＧＢ３チャンネルである。ただし、前記第１の中間画像は、前記第１の出力画像に比べて、向上された画像解像度を有し、前記画像解像度の向上倍数は、前記アップグレーディングモジュールの具体的な構成によって決定される。本開示の実施例では、例えば、前記アップグレーディングモジュールは、入力画像の画素数を１６倍にアップグレーディングし、４＊４のアップグレーディングモジュールと呼ばれることができる。すなわち、前記第１の出力画像の画素数がｍ＊ｎである場合、４＊４のアップグレーディングモジュールによって処理されて出力される第１の中間画像の画素数は、４ｍ＊４ｎである。解像度及び画像詳細情報が増加された前記第１の中間画像は、変換モジュールによって、ＲＧＢ３チャンネルを有する第２の出力画像に変換される。

図６は、４＊４のアップグレーディングモジュールを含む超解像度ニューラルネットワークの具体的な例示構成例を示している。前記４＊４のアップグレーディングモジュールは、第１のサブネットワーク、第２のサブネットワーク、及び第３のサブネットワークを含み、各サブネットワークの入力は、第１の出力画像及び第２のノイズ画像であり、且つ、各サブネットワークは、同一構造を有しており、すなわち、同一個数の畳み込み層ＣＯ及びアップグレーディング層ＭＵＸを含む。各サブネットワークの具体的なパラメータが異なることが理解されるべきである。本開示の実施例では、超解像度ニューラルネットワークは、複数のアップグレーディングモジュールを含め、前記アップグレーディングモジュールは、複数のサブネットワークを含め、本開示の実施例では、３つのサブネットワークを含む。前記アップグレーディングモジュールが、他の実施例では、１つ以上のサブネットワークを含んでもよく、例えばＢｉｃｕｂｉｃなどの標準技術を含んで画像解像度の拡大を実現してもよいことが理解されるべきである。さらに、各サブネットワークは、少なくとも１つのアップグレーディングサブモジュールを含み、各アップグレーディングサブモジュールは、順次に接続された少なくとも１つの畳み込み層および１つのＭＵＸ層を含む。そして、各サブネットワークは、複数のアップグレーディングサブモジュールの後に、少なくとも１つの畳み込み層をさらに含むことができる。例えば、前記各サブネットワークにおける各アップグレーディングサブモジュールは、具体的に、順次に接続された２つの畳み込み層ＣＯおよびＭＵＸ層（具体的な構成図は、図６に示す）を含み、前記畳み込み層ＣＯは、画像特徴を抽出し、前記ＭＵＸ層は、前記畳み込み層により抽出された特徴画像に対してアップサンプリング処理を行う。前記畳み込み層およびＭＵＸ層の具体的な機能は、上記生成ニューラルネットワークと同様であるので、ここでは贅言しない。

本開示の実施例では、前記第１のサブネットワークは、第１の中間画像の輝度チャンネル情報であるＹチャンネル情報を出力し、前記第２のサブネットワークは、第１の中間画像の第１の色差チャンネル情報であるＵチャンネル情報を出力し、前記第３のサブネットワークは、第１の中間画像の第２の色差チャンネル情報であるＶチャンネル情報を出力するが、本開示はこれに限定されない。ＹＵＶチャンネルを含む第１の中間画像は、前記変換モジュール処理を経て、ＲＧＢチャンネルを含む第２の出力画像に変換される。

本開示の実施例では、超解像度ネットワークにより、生成ニューラルネットワークから出力される、解像度が低い第１の出力画像の解像度を向上させ、最終的に解像度が高い第２の出力画像を出力し、画像変換結果を画像解像度に対する表示製品の要求にさらに満たさせ、より良いユーザ体験が得られる。

図７は、前記生成ニューラルネットワークをトレーニングさせる例示的なフローチャートを示し、図８は、前記生成ニューラルネットワークをトレーニングさせる例示的なブロック図を示している。以下、図７及び図８を参照して、前記生成ニューラルネットワークをトレーニングさせる過程を具体的に説明する。

本開示の実施例による画像処理方法において、図７に示すように、ステップＳ７１０では、３つのチャンネルを含む第１のトレーニング画像Ｉ１を取得する。いくつかの実施例において、第１のトレーニング画像Ｉ１は、図１を参照して説明した入力画像と類似する画像であってよい。

ステップＳ７２０では、第１のトレーニングノイズ画像Ｎ１及び第２のトレーニングノイズ画像Ｎ２を取得し、ここで、前記ノイズ画像Ｎ１及びＮ２は、異なるランダムノイズを有しており、例えばガウシアンノイズであってよい。いくつかの実施例において、第１のトレーニングノイズ画像Ｎ１及び／又は第２のトレーニングノイズ画像Ｎ２は、図１を参照して説明した第１のノイズ画像と類似するノイズ画像であってよい。

ステップＳ７３０では、前記生成ニューラルネットワークは、前記第１のトレーニング画像Ｉ１と第１のトレーニングノイズ画像Ｎ１によって、第１のトレーニング出力画像Ｒａを生成し、前記第１のトレーニング画像Ｉ１と第２のトレーニングノイズ画像Ｎ２によって、第２のトレーニング出力画像Ｒｂを生成するが、生成ニューラルネットワークによって入力画像とノイズ画像に基づいて入力画像に対して変換処理を行い変換画像を出力するフローは図１に示すフローと同じであるので、ここでは具体的に贅言しない。

次に、ステップＳ７４０では、第１のトレーニング画像Ｉ１、第１のトレーニング出力画像Ｒａ、および第２のトレーニング出力画像Ｒｂに基づいて、前記生成ニューラルネットワークをトレーニングさせる。当該トレーニングは、生成ニューラルネットワークの処理結果に応じて、変換目標を達成できるようにネットワークにおけるパラメータを最適化することを目的とする。

図８に示すように、ステップＳ７４０の生成ニューラルネットワークをトレーニングさせる具体的な過程は、前記第１のトレーニング出力画像Ｒａを識別ニューラルネットワークに入力して、前記第１のトレーニング出力画像Ｒａが変換特徴を有するか否かの識別ラベルを出力するステップと、第１の損失算出手段により、前記第１のトレーニング画像Ｉ_１、第１のトレーニング出力画像Ｒａ、第２のトレーニング出力画像Ｒｂおよび識別ラベルに基づいて、前記生成ニューラルネットワークの損失値を算出して、前記生成ニューラルネットワークのパラメータを最適化するステップとを含む。本開示の実施例では、第１のトレーニング出力画像Ｒａを第２のトレーニング出力画像Ｒｂとともに識別ニューラルネットワークに入力し、識別ラベルをそれぞれ出力して共に前記生成ニューラルネットワークのトレーニングに用いることができる。

図８に示すように、前記第１の損失算出手段は、分析ネットワーク、第１の損失算出器、最適化器という３つの部分を含む。前記分析ネットワークの具体的な構成は、図９に示すように、若干の畳み込みネットワークとおよびプール層からなり、入力画像のコンテンツ特徴を抽出する。ここで、各畳み込み層の出力は、いずれも入力画像から抽出された特徴であり、プール層は、特徴画像の解像度を低下させて次の畳み込み層に伝送する。各畳み込み層を介した特徴画像は、いずれも異なるレベルにおける入力画像の特徴（例えば、テクスチャ、エッジ、物体等）を示している。本開示の実施例では、分析ネットワークによって、第１のトレーニング画像Ｉ１、第１のトレーニング出力画像Ｒａ及び第２のトレーニング出力画像Ｒｂを処理し、それらのコンテンツ特徴を抽出して第１の損失算出器に入力する。

前記第１の損失算出器は、第１のトレーニング画像Ｉ１、第１のトレーニング出力画像Ｒａ及び第２のトレーニング出力画像Ｒｂのコンテンツ特徴および識別ラベルに基づいて、第１の損失算出関数に従って生成ネットワークの損失値を算出する。第１の損失算出器は、算出された生成ニューラルネットワークの総損失値を最適化器に入力し、前記最適化器は、損失値に基づいて、生成ニューラルネットワークの畳み込み層における畳み込みカーネル及びバイアスを最適化して、画像変換目標により近い処理効果を実現することができる。

本開示の実施例では、第１の損失算出関数は、スタイル相違損失関数を含み、第１のトレーニング出力画像Ｒａのスタイル特徴及び第２のトレーニング出力画像Ｒｂのスタイル特徴に基づいて、前記生成ニューラルネットワークのスタイル損失値を算出する。分析ネットワーク（図９に示すように）では、各畳み込み層の出力はいずれも入力画像の特徴である。N_l個の畳み込みカーネルを有する畳み込み層を仮定し、その出力は、N_l個の特徴画像を含み、各特徴画像のサイズがM_l（特徴画像の幅×高）であると仮定する。そのようなl層の出力は、マトリックス

に記憶され得る。

は、l層目におけるｉ番目の畳み込みカーネルが出力する特徴画像におけるｊ番目の位置の値を示している。

本開示の実施例では、トレーニング出力画像ＲａとＲｂとのスタイル損失値に応じて、出力画像間の相違を示している。仮に、

と

はそれぞれ分析ネットワークに入力される画像であれば（例えば、第１のトレーニング出力画像Ｒａ及び第２のトレーニング出力画像Ｒｂ）、l層目で出力されるグラム（Gram）行列は、ぞれぞれA^lとG^lであり、当該層における

と

のスタイル損失関数は、

である。

ただし、Ｅ_ｌは、前記スタイル損失関数を示し、C2は、結果に対して標準化処理を行うための定数である。N_lは、分析ネットワークにおけるl層目にN_l個の畳み込みカーネルがあることを示し、当該畳み込み層の出力にN_l個の特徴画像を含む。各特徴画像のサイズはいずれもM_lである（特徴画像の幅×高）。前記Gram行列A^lとG^lは、

に定義される。

ただし、

は、前記ｌ番目の畳み込み層におけるｉ番目の畳み込みカーネルに対応するグラム行列（

のスタイル特徴）におけるｊ番目の位置の値を示し、

は、前記ｌ番目の畳み込み層におけるｉ番目の畳み込みカーネルに対応するグラム行列（

のスタイル特徴）におけるｊ番目の位置の値を示す。

したがって、分析ネットワークがＬ個の畳み込み層を介して入力画像のスタイル特徴を抽出する場合、全体的なスタイル損失関数は、

に示される。

ただし、w_lは、全体的なスタイル損失におけるl層目のスタイル損失が占める重み付けである。

本開示の実施例では、スタイル特徴は、分析ネットワークにおける複数の畳み込み層を介して抽出されてもよく、１つの畳み込み層を介して抽出されてもよく、ここで、特に限定されない。

従って、２枚のトレーニング出力画像Ｒａ及びＲｂのスタイル相違は

である。

ただし、Ｃ３は、結果に対して標準化処理を行うための定数である。

出力結果間の多様性をより明確にするために、すなわち、２つの出力結果のスタイル損失は、大きいほど良いと要求するため、スタイル損失は

に示される。

第１の損失算出器は、分析ネットワークから出力された第１のトレーニング出力画像Ｒａ及び第２のトレーニング出力画像Ｒｂのスタイル特徴に基づいて、上述全体的なスタイル損失関数Ｌ_ＤＶＳＴにしたがって出力画像間のスタイル損失値を算出し、出力画像間の結果の多様性を保証する。

本開示の実施例では、第１の損失算出関数は、コンテンツ損失関数をさらに含むことができる。入力画像をＩ１とし、第１のトレーニング出力画像をＲａとし、分析ネットワークにおけるl層目で出力される特徴画像をそれぞれP^lとF^lとした場合、コンテンツ損失関数は以下のように定義される：

ただし、C1は、結果に対して標準化処理を行うための定数であり、

は、分析ネットワークにおけるｌ番目の畳み込み層におけるｉ番目の畳み込みカーネルから出力されるF^lにおけるｊ番目の位置の値を示し、

は、ｌ番目の畳み込み層におけるｉ番目の畳み込みカーネルから出力されるP^lにおけるｊ番目の位置の値を示す。

コンテンツ損失式によれば、分析ネットワークで第１のトレーニング画像Ｉ１、第１のトレーニング出力画像Ｒａ、及び第２のトレーニング出力画像Ｒｂが出力された特徴画像に基づいて、生成ニューラルネットワークが処理した第１のトレーニング画像に対する第１のトレーニング出力画像Ｒａ及び第２のトレーニング出力画像Ｒｂのコンテンツ損失値Ｌ_{ｃｏｎｔｅｎｔ＿ａ}及びＬ_{ｃｏｎｔｅｎｔ＿ｂ}を算出することができる。

前記生成ニューラルネットワークの内容損失値を算出することにより、出力される変換画像と入力画像とを一致させることができ、出力画像が処理された後に、変換特徴を有するとともに、十分な元情報が保留される。本開示の実施例では、生成ニューラルネットワークによってコンテンツ損失関数を組み合わせて、生成ニューラルネットワークをトレーニングさせることにより、変換画像を入力画像と一致させ、システムが簡単であり、トレーニングさせやすい。

本開示の実施例では、第１の損失算出関数は、生成器の損失関数をさらに含むことができる：

ただし、Pdataは、識別ニューラルネットワークの出力を１とする画像セットである。Pzは、生成ニューラルネットワークの入力画像セットである。Dは、識別ニューラルネットワークであり、Gは、生成ニューラルネットワークである。第１の損失算出器は、Ｌ＿Ｇに基づいて生成ニューラルネットワークの対抗損失値を算出することができる。

本開示の実施例では、第１の損失算出関数は、パラメータ正則化損失関数Ｌ_Ｌ1をさらに含むことができる。ニューラルネットワークでは、畳み込みカーネル及びバイアスは、いずれもトレーニングによって得られるパラメータである。畳み込みカーネルは、入力画像をどのように処理するかを決定し、バイアスは、当該畳み込みカーネルの出力が次の層に入力されるかを決定する。したがって、ニューラルネットワークでは、バイアスは「スイッチ」に見立てられ、当該畳み込みカーネルが「オン」にするか、または「オフ」にするかを決定する。異なる処理効果を達成するように、異なる入力画像に対して、ネットワークは、異なる畳み込みカーネルをオン又はオフにする。

ニューラルネットワークにおける全ての畳み込みカーネルの絶対値の平均値は

である。

ただし、C_wは、ネットワークにおける畳み込みカーネルの数である。ニューラルネットワークにおける全てのバイアス絶対値の平均値：

である。

ただし、C_bはネットワークにおけるバイアスの数である。パラメータ正則化損失関数は、

である。

ただし、εは、分母が０にならないようにするための極く小さな正数である。

本開示の実施例では、バイアスの「スイッチ」の効果がより有効に働くように、畳み込み層におけるバイアスは、畳み込みカーネルに比べて、より大きい絶対値を有することが望ましい。トレーニング過程で、第１の損失算出器は、Ｌ_Ｌ１に基づいて生成ニューラルネットワークのパラメータ正則化損失値を算出する。

以上のように、いくつかの実施例では、生成ニューラルネットワークの総損失は

であることができる。

ただし、Rは、生成ニューラルネットワークの標準化損失値であり、α、β、χおよびδは、それぞれ総損失におけるコンテンツ損失値、対抗損失値、スタイル損失値及び標準化損失値の重み付けであり、本開示の実施例では、上記パラメータ正則化損失値を用いて標準化損失値を表したが、他の類型の正則化損失を用いてもよい。

生成ニューラルネットワークのトレーニング過程に用いる識別ニューラルネットワークは、前記生成ニューラルネットワークとともに、対抗ネットワークを構成する。前記識別ニューラルネットワークは、若干の畳み込み層およびプール層を用いて、入力画像のコンテンツ特徴を抽出し、特徴画像のサイズを縮小し、次の畳み込み層が画像特徴をさらに抽出する。さらに、完全接続層及び活性層を用いて画像特徴を処理し、最終的に入力画像が変換特徴を有するか否かの識別ラベルのスカラー値を出力する。前記完全接続層は、畳み込みニューラルネットワークと同じ構成を有しており、畳み込みカーネルをスカラー値に置き換えただけである。前記活性層は、通常、ＲＥＬＵ又はｓｉｇｍｏｉｄ関数である。本開示の実施例では、識別ニューラルネットワークの具体的な構造は、図１０に示すように、活性層がｓｉｇｍｏｉｄ関数であり、最終的に識別ラベルを出力するが、本開示がこれに限定されるものではない。

対抗ネットワークでは、生成ニューラルネットワークは、入力画像を、効果Ａから効果Ｂを有する出力画像に変換し、前記識別ニューラルネットワークは、出力画像が効果Ｂの特徴を有するか否かを判定し、識別ラベルを出力する。例えば、出力画像が効果Ｂの特徴を有すると判断されると、出力は「１」に近くなり、出力画像が効果Ｂの特徴を有さないと判断されると、「０」が出力される。トレーニングにより、生成ニューラルネットワークは、識別ニューラルネットワークが「１」を出力させる出力画像を徐々に生成していくことで、識別ニューラルネットワークは、出力画像が変換特性を有するか否かを徐々により正確に判定することが可能となり、両方が同期にトレーニングし、互いに対抗して、より最適なパラメータを得る。

前記識別ニューラルネットワークのトレーニングは、生成ニューラルネットワークを用いて、入力画像および第１のノイズ画像に基づいて、第１の出力画像を第１のサンプル画像Ｒａとして出力するステップと、データセットからサンプル画像Ｒｃを取得するステップと、を含む。前記第１のサンプル画像Ｒａは、生成ニューラルネットワークによって効果Ａから効果Ｂに変換して得られる出力画像であり、「偽」サンプルに相当する。データセットから取得されるサンプル画像Ｒｃは、効果Ｂを有する「真」サンプルである。識別ニューラルネットワークによる前記ＲａとＲｃが効果Ｂを有するか否かに対する判定に基づいて、判別ラベルを出力する。前記第２のサンプル画像Ｒｃに、本来、変換特徴である「真」ラベルを有しており、第１のサンプル画像Ｒａに、本来、「偽」ラベルを有しており、生成ニューラルネットワークによる画像処理によって変換特徴を取得するが理解されるべきである。入力画像が該当する画像特徴を有するか否かを徐々により正確に判断することができるように、識別ラベルに基づいて前記識別ニューラルネットワークをトレーニングさせる。

本開示の実施例による画像処理方法において、前記超解像度ニューラルネットワークのトレーニングフローは、図１１に示すようなものであり、以下、図１１を参照して前記超解像度ニューラルネットワークのトレーニングを詳細に説明する。

図１１に示すように、ステップＳ１１１０では、３つのチャンネル（本開示の実施例ではＲＧＢ３チャンネル）を有する入力画像および第１のノイズ画像を取得し、本開示は、これに限定されるものではない。前記第１のノイズ画像は、例えばガウシアンノイズ等のランダムノイズを有し、画像変換過程において画像詳細情報を生成する。ステップＳ１１２０では、生成ニューラルネットワークは、取得した入力画像および第１のノイズ画像に基づいて、前記入力画像に対して画像変換処理を行い、第１の出力画像を出力し、前記第１の出力画像は、第１のサンプル画像Ｒ１として、前記超解像度ニューラルネットワークをトレーニングさせる。

ステップＳ１１３０では、超解像度トレーニングノイズ画像Ｎ３を取得し、ステップＳ１１４０では、第１のサンプル画像Ｒ１から低解像度画像を超解像度トレーニング画像Ｉ２として抽出する。前記超解像度トレーニング画像Ｉ２は、解像度が第１のサンプル画像Ｒ１よりも低く、第１のサンプル画像Ｒ１のコンテンツ特徴を含む。超解像度トレーニング画像Ｉ２から前記第１のサンプル画像Ｒ１を復元することができることが理解されるべきである。

そして、ステップＳ１１５０では、超解像度ニューラルネットワークを用いて超解像度トレーニング画像Ｉ２と超解像度トレーニングノイズ画像Ｎ３から第２のサンプル画像Ｒ２を出力する。前記第２のサンプル画像Ｒ２は、解像度が超解像度トレーニング画像Ｉ２より高く、前記第１のサンプル画像Ｒ１と同一であってもよい。このステップでは、超解像度トレーニングノイズ画像Ｎ３を前記超解像度トレーニング画像Ｉ２とともに、超解像度ニューラルネットワークに入力してトレーニングさせ、出力画像における詳細情報を生成し、入力されるノイズ画像が毎回異なるため、毎回の画像処理過程に変化がある画像の詳細を生じさせ、出力される超解像度画像に多様性を持たせることができる。

ステップＳ１１６０では、第１のサンプル画像Ｒ１および第２のサンプル画像Ｒ２に基づいて、前記超解像度ニューラルネットワークのコスト関数を減少させることで、超解像度ニューラルネットワークのパラメータを最適化する。

本開示の実施例では、前記超解像度ニューラルネットワークのコスト関数は、第２の識別ニューラルネットワークの識別ラベルに基づくことができる。前記識別ラベルの生成過程は以下のことを含む：第１のサンプル画像Ｒ１および第２のサンプル画像Ｒ２を第２の識別ニューラルネットワークに入力し、当該第２の識別ニューラルネットワークは、解像度を向上させた第２のサンプル画像Ｒ２の画質を評価し、前記サンプル画像が超解像度ニューラルネットワークの出力画像（第２のサンプル画像Ｒ２）であるか、低解像度画像が抽出された元画像（第１のサンプル画像Ｒ１）であるかを示す識別ラベルを出力する。本開示の実施例では、第２の識別ニューラルネットワークは、ＲＧＢ３チャンネルを有する入力画像（本開示の実施例では、第２のサンプル画像Ｒ２）を受信して、例えば−１または１などの数値を出力することができる。出力が１である場合、第２の識別ニューラルネットワークは、入力画像が元の高解像度コンテンツ（本開示の実施例では第１のサンプル画像Ｒ１）に対応すると判断する。出力が−１であれば、第２の識別ニューラルネットワークは、第２のサンプル画像Ｒ２が、生成ニューラルネットワークにより解像度化を向上させた出力画像であると判断する。超解像度ニューラルネットワークをトレーニングさせることで、第２の識別ニューラルネットワークの識別ラベルを最大化し、徐々に当該識別ラベルをできるだけリアルにする。そして、元の高解像度画像と、解像度化を向上させた画像とを正確に区別するように、第２の識別ニューラルネットワークをトレーニングさせる。前記超解像度ニューラルネットワークは、前記第２の識別ニューラルネットワークとともに対抗ネットワークを構成する。２組のネットワークは、交互にトレーニングし、互いに競合して最適なパラメータを取得する。

前記第２の識別ニューラルネットワークの具体的な構造は、図１２に示すように、少なくともディグレーディングサブモジュールを含み、各ディグレーディングサブモジュールは、順次に接続される少なくとも１つの畳み込み層と１つのディグレーディングＴＭＵＸ層とを含む。そして、複数のディグレーディングサブモジュールの後に、前記第２の識別ニューラルネットワークは、少なくとも１つの畳み込み層をさらに含み得る。例えば、各ディグレーディングサブモジュールは、具体的には、順次に接続された２つの畳み込み層ＣＯ及びＴＭＵＸ層を含む。前記ＴＭＵＸ層は、超解像度ニューラルネットワークのＭＵＸ層に対応するディグレーディング過程を行い、第２の識別ニューラルネットワークに入力された第２のサンプル画像に基づいて生成された出力画像を、第２のサンプル画像と同じ解像度の低解像度画像にディグレーディングする。前記ＴＭＵＸ層による入力画像に対するデステージングする過程は、前記ＭＵＸ層のアップグレーディング過程と逆である。第２の識別ニューラルネットワークは、畳み込み層を使用して、他の画質メトリック（例えば、構造類似度（ｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙｉｎｄｅｘ、ＳＳＩＭ））に類似する画像「ＩＱマップ（Ｍａｐ）」を出力する。「ＩＱマップ」における全ての画素を平均した平均値を単一数字の「識別ラベル」として前記識別ラベルを出力する。

本開示の実施例は、画像変換を実現するための画像処理方法を提供し、前記画像処理方法は、生成ニューラルネットワーク、超解像度ニューラルネットワークおよびコンテンツパーセプトロンによって画像変換処理を行う。入力にノイズ画像を追加することにより、変換画像の詳細情報を生成する。コンテンツ特徴損失関数を用いて前記生成ニューラルネットワークをトレーニングさせ、変換された出力画像と入力画像のコンテンツを一致させ、処理結果間のスタイル相違損失関数を用いて、生成ニューラルネットワークをトレーニングさせ、出力結果間の多様性を保証し、システムを簡単にし、トレーニングさせやすい。これに基づいて、超解像度ニューラルネットワークを用いて、生成ニューラル出力の変換画像の解像度を向上させ、前記超解像度ニューラルネットワークのコスト関数を低減することで、超解像度ニューラルネットワークのパラメータを最適化する。これにより、トレーニング済みの生成ニューラルネットワークおよび超解像度ニューラルネットワークを用いることで、高解像度の変換画像を得ることができる。前記変換画像は変換特性も含まれており、画像解像度に対する製品の要求も満足することができる。

本開示の実施例によれば、図１３に示すように、入力画像と、Ｎ（Ｎは１以上の正の整数）個のチャンネルを含む第１のノイズ画像とに基づいて、前記入力画像に画像変換処理を行い、変換された第１の出力画像を出力する生成ニューラルネットワークモジュール１３０２を備える画像処理装置が提供される。前記生成ニューラルネットワークモジュールは、上記生成ニューラルネットワークを含み得る。本開示の実施例による画像処理装置は、生成ニューラルネットワークモジュールを用いて、入力画像とノイズ画像に対して画像変換処理を行い、変換された出力画像を出力する。前記画像処理装置は、超解像度ニューラルネットワークモジュール１３０４をさらに備え、超解像度ニューラルネットワークモジュールを用いて、第１の出力画像と、Ｍ（Ｍは１以上の正の整数）個のチャンネルを含む第２のノイズ画像に対して、高解像度変換処理を行い、第２の出力画像を出力し、ただし、前記第１のノイズ画像と前記第２のノイズ画像とは異なる。

前記入力画像は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含み、本開示の実施例では、ＲＧＢチャンネルである。前記生成ニューラルネットワークモジュールの入力は、第１のノイズ画像チャンネルと、入力画像のＲＧＢチャンネルとを含む。前記生成ニューラルネットワークモジュールの出力は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネル（本開示の実施例では、ＲＧＢチャンネルである）を含む第１の出力画像である。

前記生成ニューラルネットワークモジュールは、１つまたは複数のダウンサンプリングモジュールと、１つまたは複数の残差モジュールと、１つまたは複数のアップサンプリングモジュールとを含む。前記ダウンサンプリングモジュールは、順次に接続された畳み込み層と、ダウンサンプリング層と、実例標準化層とを有し、前記残差モジュールは、順次に接続された畳み込み層と、実例標準化層とを有し、前記アップサンプリングモジュールは、順次に接続されたアップサンプリング層と、実例標準化層と、畳み込み層とを有し、前記アップサンプリングモジュールの数は、前記ダウンサンプリングモジュールの数に等しい。

前記超解像度ニューラルネットワークモジュールの入力は、第２のノイズ画像チャンネルと、第１の出力画像のＲＧＢチャンネルとを含む。前記超解像度ニューラルネットワークモジュールの出力は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネル（本開示の実施例ではＲＧＢチャンネルである）を含む第２の出力画像である。

前記超解像度ニューラルネットワークモジュールは、順次に接続されたアップグレーディングモジュールと、変換モジュールとを含む。前記アップグレーディングモジュールは第１の出力画像と第２のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第１の色差チャンネル、及び第２の色差チャンネルを含む第１の中間画像（本開示の実施例では、ＹＵＶチャンネルである）を出力する。前記変換モジュールはアップグレーディングモジュールから出力される第１の中間画像を、ＲＧＢのチャンネルを含む第２の出力画像に変換する。前記アップグレーディングモジュールは、第１のサブネットワーク、第２のサブネットワーク、及び第３のサブネットワークを含み、各サブネットワークの入力は、第１の出力画像及び第２のノイズ画像であり、各サブネットワークは、同じ構造を有し、同じ個数の畳み込み層及びアップグレーディング層を含む。

本開示の実施例では、前記生成ニューラルネットワークモジュールは、第１のトレーニング画像Ｉ１と第１のトレーニングノイズ画像Ｎ１を用いて画像変換を行って変換された第１のトレーニング出力画像Ｒａを出力し、第１のトレーニング画像Ｉ１と第２のトレーニングノイズ画像Ｎ２を用いて画像変換を行って変換された第１のトレーニング出力画像Ｒｂを出力する。

前記トレーニングニューラルネットワークモジュールは、第１のトレーニング画像Ｉ１、第１のトレーニング出力画像Ｒａ、及び第２のトレーニング出力画像Ｒｂに基づいて、前記生成ニューラルネットワークモジュールをトレーニングさせる。このトレーニングは、生成ニューラルネットワークモジュールの処理結果に応じて、ネットワーク内のパラメータを最適化し、変換目標を達成することができるようにしている。

前記トレーニングニューラルネットワークモジュールは、前記第１のトレーニング出力画像Ｒａが変換特徴を有するか否かを識別する識別ラベルを出力する識別ニューラルネットワークモジュールと、前記第１のトレーニング画像Ｉ_１、第１のトレーニング出力画像Ｒａ、第２のトレーニング出力画像Ｒｂ、及び識別ラベルに基づいて、前記生成ニューラルネットワークの損失値を算出し、前記生成ニューラルネットワークモジュールのパラメータを最適化する第１の損失算出手段と、を備える。例えば、前記パラメータは、生成ニューラルネットワークモジュールにおける畳み込み層の畳み込みカーネル及びバイアスを含む。本開示の実施例では、第１のトレーニング出力画像Ｒａと第２のトレーニング出力画像Ｒｂをともに識別ニューラルネットワークモジュールに入力し、識別ラベルをそれぞれ出力して、前記生成ニューラルネットワークのトレーニングに用いることができる。

トレーニング後の前記生成ニューラルネットワークモジュールは、最適化されたパラメータを有しており、目標画像変換処理を実現することができる。本開示では、第１の損失算出手段によって、入力画像、第１の出力画像、及び第２の出力画像のコンテンツ特徴を組み合わせてトレーニングさせ、システムが簡単化され、よりトレーニングさせやすい。ここで、結果多様性損失関数により、生成ニューラルネットワークモジュールによって出力される変換画像間の多様性が保証される。コンテンツ損失関数により、出力された変換画像と入力画像との一致性が保証され、すなわち、変換された画像が、変換特性を有しつつ、元画像情報を十分に含み、画像処理過程に元画像情報が多くなくされることを避ける。

本開示の実施例によれば、前記トレーニングニューラルネットワークモジュールは、前記第１のサンプル画像Ｒ１と第２のサンプル画像Ｒ２とに基づいて、第２のサンプル画像Ｒ２が第１のサンプル画像に対応するコンテンツ特徴を有するか否かを示す識別ラベルを出力する第２の識別ニューラルネットワークモジュールをさらに含む。前記トレーニングニューラルネットワークモジュールは、さらに、前記第２の識別ニューラルネットワークによって出力された識別ラベルに応じて前記超解像度ニューラルモジュールをトレーニングさせる。例えば、前記最適化器は、前記超解像度ニューラルネットワークモジュールのコスト関数を低減することによって、前記超解像度ニューラルネットワークモジュールのパラメータを最適化する。

本開示の実施例では、前記生成ニューラルネットワークが、入力画像と、第１のノイズ画像とに基づいて、第１の出力画像を生成し、前記第１の出力画像は、第１のサンプル画像として、変換特徴を有し、ＲＧＢのチャンネルを含む。前記超解像度ニューラルネットワークモジュールは、第１のサンプル画像から抽出された低解像度画像である超解像度トレーニング画像と、取得された超解像度トレーニングノイズ画像とに基づいて、第２のサンプル画像をさらに出力する。前記トレーニングニューラルネットワークモジュールは、第１のサンプル画像と第２のサンプル画像に基づいて、超解像度ニューラルネットワークモジュールのコスト関数を低減することにより、前記超解像度ニューラルネットワークモジュールのパラメータを最適化し、前記パラメータは、前記超解像度ニューラルネットワークモジュールにおける畳み込み層の畳み込みカーネル及びバイアスを含んでもよい。

本開示の実施例による、画像変換を実現する画像処理装置は、生成ニューラルネットワーク、超解像度ニューラルネットワーク、およびコンテンツパーセプトロンに基づいて画像変換処理を行い、生成ニューラルネットワークモジュールおよび超解像度ネットワークモジュールとを備える。変換画像の詳細情報は、入力にノイズ画像を付加することで生成される。コンテンツ特徴損失関数を用いて前記生成ニューラルネットワークモジュールをトレーニングさせ、変換された出力画像と入力画像とのコンテンツ一致性を保証し、処理結果間のスタイル相違損失関数を用いて生成ニューラルネットワークをトレーニングさせ、出力結果間の多様性を保証し、システムを簡単にし、トレーニングさせやすい。これに基づいて、超解像度ニューラルネットワークモジュールを用いて生成ニューラルから出力される変換画像の解像度を向上させ、超解像度ニューラルネットワークモジュールのコスト関数を低減することによって超解像度ニューラルネットワークモジュールのパラメータを最適化する。これにより、トレーニングさせた生成ニューラルネットワークモジュールと超解像度ニューラルネットワークモジュールによって、高解像度の変換画像を取得することができ、当該変換画像は、変換特徴も含んでおり、画像解像度に対する製品の要求も満足することができる。

本開示の実施例は、画像処理デバイスをさらに提供しており、図１４に示すように、プロセッサ１４０２とメモリ１４０４とを含む。なお、図１４に示す画像処理デバイスの構成は示例だけであり、制限的なものではなく、実際の用途に応じて他の構成要素を備えるようにしてもよい。

本開示の実施例では、プロセッサ１４０２とメモリ１４０４との間は、直接的に又は間接的に互いに通信し得る。プロセッサ１４０２とメモリ１４０４などの構成要素との間は、ネットワーク接続を介して通信し得る。ネットワークは、無線ネットワーク、有線ネットワーク、及び／又は無線ネットワークと有線ネットワークとの任意の組み合わせを含み得る。ネットワークは、ローカルエリアネットワーク、インターネット、電気通信ネットワーク、インターネット及び／又は電気通信ネットワークに基づくモノのネットワーク（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）、並びに／又は上記のネットワークの任意の組み合わせなどを含み得る。有線ネットワークは、例えばツイストペア、同軸ケーブル又は光ファイバ伝送等の方式で通信を行うことができ、無線ネットワークは、例えば３Ｇ／４Ｇ／５Ｇ移動通信ネットワーク、ブルートゥース（登録商標）、Ｚｉｇｂｅｅ又はＷｉＦｉ等の通信方式を用いることができる。本開示は、ネットワークのタイプ及び機能に対して、ここで制限しない。

プロセッサ１４０２は、所望の機能を実行するように、画像処理装置における他のコンポーネントを制御してもよい。プロセッサ１４０２は、中央処理装置（ＣＰＵ）、テンポプロセッサ（ＴＰＵ）、またはグラフィクスプロセッサＧＰＵなどのデータ処理能力および／またはプログラム実行能力を有するデバイスであり得る。中央処理装置（ＣＰＵ）は、Ｘ８６又はＡＲＭアーキテクチャなどであり得る。ＧＰＵは、マザーボードに単一に直接に集積されてもよいし、マザーボードのノースブリッジチップに内蔵されてもよい。ＧＰＵは、中央処理装置（ＣＰＵ）に内蔵されてもよい。ＧＰＵは強力な画像処理能力を有するからである。

メモリ１４０４は、揮発性メモリ及び／又は不揮発性メモリなどの様々な形態のコンピュータ可読記憶媒体を含み得る、１つ又は複数のコンピュータプログラム製品の任意の組み合わせを含み得る。揮発性メモリは、例えば、ランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュメモリ（ｃａｃｈｅ）等を含み得る。不揮発性メモリは、例えば、リードオンリーメモリ（ＲＯＭ）、ハードディスク、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、ＵＳＢメモリ、フラッシュメモリなどを含み得る。

メモリ１４０４には、１つまたは複数のコンピュータ読み取り可能なコードまたは命令を記憶することができ、プロセッサ１４０２は、上記画像処理方法を実行し、または上記画像処理装置を実装するように、前記コンピュータ命令を実行することができる。前記画像処理方法及び画像処理装置の詳細な説明は、本明細書における画像処理方法及び画像処理装置に関する説明を参照することができ、ここで贅言しない。コンピュータ読み取り可能な記憶媒体には、様々なアプリケーションプログラムおよび様々なデータ、例えば、画像データセット、ならびに、アプリケーションプログラムによって使用および／または生成される様々なデータ（例えば、トレーニングデータ）なども記憶され得る。

上記は、本開示の具体的な実施形態にすぎず、本開示の保護範囲は、それらに限定されず、本開示の保護範囲は、特許請求の範囲の保護範囲によって決定されるべきである。

1302 生成ニューラルネットワークモジュール
1304 超解像度ニューラルネットワークモジュール
1402 プロセッサ
1404 メモリ

Claims

生成ニューラルネットワークによって、入力画像および第１のノイズ画像に基づき、前記入力画像に対して画像変換処理を行い、変換された第１の出力画像を出力することと、
超解像度ニューラルネットワークによって、第１の出力画像および第２のノイズ画像に基づき、前記第１の出力画像に対して高解像度変換処理を行い、第２の出力画像を出力することと、を含む
ことを特徴とする画像処理方法。
前記入力画像は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含み、
前記第１のノイズ画像は、Ｎ個（Ｎは１以上の正整数である）のチャンネルを含み、
前記生成ニューラルネットワークの入力は、第１のノイズ画像チャンネル、および入力画像の第１の色チャンネル、第２の色チャンネル、第３の色チャンネルを含み、
前記生成ニューラルネットワークの出力は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含む第１の出力画像である
ことを特徴とする請求項１に記載の画像処理方法。
前記生成ニューラルネットワークは、１つ以上のダウンサンプリングモジュールと、１つ以上の残差モジュールと、１つ以上のアップサンプリングモジュールとを含み、
前記ダウンサンプリングモジュールは、順次に接続される畳み込み層、ダウンサンプリング層、および実例標準化層を含み、
前記残差モジュールは、順次に接続される畳み込み層、および実例標準化層を含み、
前記アップサンプリングモジュールは、順次に接続されるアップサンプリング層、実例標準化層、及び畳み込み層を含み、
前記アップサンプリングモジュールの個数は、前記ダウンサンプリングモジュールの個数と同じである
ことを特徴とする請求項１に記載の画像処理方法。
前記第２のノイズ画像は、Ｍ個（Ｍは１以上の正整数である）のチャンネルを含み、
前記超解像度ニューラルネットワークの入力は、第２のノイズ画像チャンネル、および第１の出力画像の第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含み、
前記超解像度ニューラルネットワークの出力は、第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含む第２の出力画像である
ことを特徴とする請求項１に記載の画像処理方法。
前記超解像度ニューラルネットワークは、順次に接続されるアップグレーディングモジュールおよび変換モジュールを含み、超解像度ニューラルネットワークによって高解像度変換処理を行うことは、
前記アップグレーディングモジュールによって、第１の出力画像および第２のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第１の色差チャンネルおよび第２の色差チャンネルを含む第１の中間画像を出力することと、
前記変換モジュールによって、アップグレーディングモジュールにより出力された第１の中間画像を、第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含む第２の出力画像に変換することと、を含む
ことを特徴とする請求項１に記載の画像処理方法。
前記アップグレーディングモジュールは、第１のサブネットワーク、第２のサブネットワーク、および第３のサブネットワークを含み、
各サブネットワークの入力は、いずれも第１の出力画像および第２のノイズ画像であり、
各サブネットワークは、同じ構成を有しており、同じ個数の畳み込み層およびアップグレーディング層を含む
ことを特徴とする請求項５に記載の画像処理方法。
前記生成ニューラルネットワークによって、第１のトレーニング画像および第１のトレーニングノイズ画像に基づき、第１のトレーニング出力画像を生成することと、
前記生成ニューラルネットワークによって、前記第１のトレーニング画像、および、前記第１のトレーニングノイズ画像と異なる第２のトレーニングノイズ画像に基づき、第２のトレーニング出力画像を生成することと、
第１のトレーニング画像、第１のトレーニング出力画像、及び第２のトレーニング出力画像に基づいて、前記生成ニューラルネットワークをトレーニングさせることと、を含む
ことを特徴とする請求項１に記載の画像処理方法。
前記生成ニューラルネットワークをトレーニングさせることは、
前記第１のトレーニング出力画像を識別ニューラルネットワークに入力し、前記第１のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力することと、
前記第２のトレーニング出力画像を識別ニューラルネットワークに入力し、前記第２のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力することと、
第１の損失算出手段によって、前記第１のトレーニング画像、第１のトレーニング出力画像、第２のトレーニング出力画像、および該当する識別ラベルに基づき、前記生成ニューラルネットワークの損失値を算出し、前記生成ニューラルネットワークのパラメータを最適化することと、を含み、
前記第１の損失算出手段は、分析ネットワーク、第１の損失算出器、及び最適化器を含み、前記第１の損失算出手段によって前記生成ニューラルネットワークの損失値を算出することは、
分析ネットワークによって、前記第１のトレーニング画像、第１のトレーニング出力画像、第２のトレーニング出力画像のコンテンツ特徴を出力し、分析ネットワークによって、前記第１のトレーニング出力画像および第２のトレーニング出力画像のスタイル特徴を出力することと、
第１の損失算出器によって、分析ネットワークで抽出されたコンテンツ特徴、スタイル特徴、前記第１のトレーニング出力画像及び前記第２のトレーニング出力画像の識別ラベルに基づき、第１の損失関数に従って前記生成ニューラルネットワークの損失値を算出することと、
最適化器によって、前記生成ニューラルネットワークの損失値に基づき、前記生成ニューラルネットワークのパラメータを最適化することと、を含む
ことを特徴とする請求項７に記載の画像処理方法。
前記第１の損失関数は、スタイル相違損失関数を含み、前記生成ニューラルネットワークの損失値を算出することは、前記第１の損失算出器によって、第１のトレーニング出力画像のスタイル特徴と第２のトレーニング出力画像のスタイル特徴に基づき、スタイル相違損失関数に従って前記生成ニューラルネットワークのスタイル損失値を算出することを含み、
前記第１の損失関数は、コンテンツ損失関数をさらに含み、前記生成ニューラルネットワークの損失値を算出することは、第１のトレーニング画像、第１のトレーニング出力画像、及び第２のトレーニング出力画像のコンテンツ特性に基づき、コンテンツ損失関数に従って前記生成ニューラルネットワークのコンテンツ損失値を算出することを含む
ことを特徴とする請求項８に記載の画像処理方法。
第１のサンプル画像から低解像度の画像を、解像度が前記第１のサンプル画像より低の超解像度トレーニング画像として抽出することと、
超解像度ニューラルネットワークによって、超解像度トレーニング画像と超解像度トレーニングノイズ画像に基づき、解像度が前記第１のサンプル画像と同じ第２のサンプル画像を出力することと、
第１のサンプル画像および第２のサンプル画像に基づいて、前記超解像度ニューラルネットワークのコスト関数を低減することにより、超解像度ニューラルネットワークのパラメータを最適化することと、をさらに含む
ことを特徴とする請求項１に記載の画像処理方法。
入力画像および第１のノイズ画像に基づき、前記入力画像に対して画像変換処理を行い、変換された第１の出力画像を出力するように配置される生成ニューラルネットワークモジュールと、
第１の出力画像および第２のノイズ画像に基づき、前記第１の出力画像に対して高解像度変換処理を行い、第２の出力画像を出力するように配置される超解像度ニューラルネットワークモジュールと、を含む
ことを特徴とする画像処理装置。
前記入力画像は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含み、
前記生成ニューラルネットワークモジュールの入力は、第１のノイズ画像チャンネル、および入力画像の第１の色チャンネル、第２の色チャンネル、第３の色チャンネルを含み、
前記生成ニューラルネットワークモジュールの出力は、第１の色チャンネル、第２の色チャンネル、及び第３の色チャンネルを含む第１の出力画像である
ことを特徴とする請求項１１に記載の画像処理装置。
前記生成ニューラルネットワークモジュールは、１つ以上のダウンサンプリングモジュールと、１つ以上の残差モジュールと、１つ以上のアップサンプリングモジュールとを含み、
前記ダウンサンプリングモジュールは、順次に接続される畳み込み層、ダウンサンプリング層、および実例標準化層を含み、
前記残差モジュールは、順次に接続される畳み込み層、および実例標準化層を含み、
前記アップサンプリングモジュールは、順次に接続されるアップサンプリング層、実例標準化層、及び畳み込み層を含み、
前記アップサンプリングモジュールの個数は、前記ダウンサンプリングモジュールの個数と同じである
ことを特徴とする請求項１１に記載の画像処理装置。
前記超解像度ニューラルネットワークモジュールの入力は、第２のノイズ画像チャンネル、および第１の出力画像の第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含み、
前記超解像度ニューラルネットワークモジュールの出力は、第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含む第２の出力画像である
ことを特徴とする請求項１１に記載の画像処理装置。
前記超解像度ニューラルネットワークモジュールは、順次に接続されるアップグレーディングモジュールおよび変換モジュールを含み、
前記アップグレーディングモジュールは、第１の出力画像および第２のノイズ画像に対してアップサンプリング処理を行い、輝度チャンネル、第１の色差チャンネルおよび第２の色差チャンネルを含む第１の中間画像を出力するように配置され、
前記変換モジュールは、アップグレーディングモジュールにより出力された第１の中間画像を、第１の色チャンネル、第２の色チャンネル、および第３の色チャンネルを含む第２の出力画像に変換するように配置され、
前記アップグレーディングモジュールは、第１のサブネットワーク、第２のサブネットワーク、および第３のサブネットワークを含むように配置される
ことを特徴とする請求項１１に記載の画像処理装置。
前記第１のサブネットワーク、第２のサブネットワーク、および第３のサブネットワークの入力は、第１の出力画像および第２のノイズ画像であり、出力画像は、輝度チャンネル、第１の色差チャンネルおよび第２の色差チャンネルを含む３つのチャンネルを有し、
前記第１のサブネットワーク、第２のサブネットワーク、および第３のサブネットワークは、同じ構成を有しており、各サブネットワークは、順次に接続される１つ以上の畳み込み層および１つのアップグレーディング層を含む少なくとも１つのアップグレーディングサブモジュールを有する
ことを特徴とする請求項１５に記載の画像処理装置。
前記生成ニューラルネットワークモジュールの出力画像に基づき、前記生成ニューラルネットワークモジュールをトレーニングさせるように配置されるトレーニングニューラルネットワークモジュールをさらに含み、
前記生成ニューラルネットワークモジュールは、さらに、第１のトレーニング画像および第１のトレーニングノイズ画像に基づき、変換された第１のトレーニング出力画像を出力し、前記生成ニューラルネットワークモジュールは、さらに、第１のトレーニング画像、および、前記第１のトレーニングノイズ画像と異なる第２のトレーニングノイズ画像に基づき、変換された第２のトレーニング出力画像を出力し、
前記トレーニングニューラルネットワークモジュールは、第１のトレーニング画像、第１のトレーニング出力画像、及び第２のトレーニング出力画像に基づき、前記生成ニューラルネットワークモジュールをトレーニングさせ、
前記トレーニングニューラルネットワークモジュールは、
前記第１のトレーニング出力画像および前記第２のトレーニング出力画像が変換特徴を有するか否かを識別する識別ラベルを出力するように配置される識別ニューラルネットワークモジュールと、
前記第１のトレーニング画像、第１のトレーニング出力画像、第２のトレーニング出力画像、および該当する識別ラベルに基づき、前記生成ニューラルネットワークモジュールの損失値を算出し、前記生成ニューラルネットワークモジュールのパラメータを最適化するように配置される第１の損失算出手段と、を含み、
前記第１の損失算出手段は、
前記第１のトレーニング画像、第１のトレーニング出力画像、第２のトレーニング出力画像のコンテンツ特徴を出力するように配置される分析ネットワークと、
分析ネットワークで抽出されたコンテンツ特徴、スタイル特徴、前記第１のトレーニング出力画像及び前記第２のトレーニング出力画像の識別ラベルに基づき、第１の損失関数に従って前記生成ニューラルネットワークモジュールの損失値を算出するように配置される第１の損失算出器と、
前記生成ニューラルネットワークモジュールの損失値に基づき、前記生成ニューラルネットワークモジュールのパラメータを最適化する最適化器と、を含む
ことを特徴とする請求項１１に記載の画像処理装置。
前記第１の損失関数は、スタイル相違損失関数を含み、第１のトレーニング出力画像のスタイル特徴と第２のトレーニング出力画像のスタイル特徴に基づき、前記生成ニューラルネットワークモジュールのスタイル損失値を算出し、
前記第１の損失関数は、コンテンツ損失関数をさらに含み、第１のトレーニング画像、第１のトレーニング出力画像、及び第２のトレーニング出力画像のコンテンツ特性に基づき、前記生成ニューラルネットワークモジュールのコンテンツ損失値を算出する
ことを特徴とする請求項１７に記載の画像処理装置。
トレーニングニューラルネットワークモジュールは、さらに、超解像度ニューラルネットワークの出力に基づいて超解像度ニューラルネットワークモジュールをトレーニングさせるように配置され、
前記超解像度ニューラルネットワークモジュールは、第１のサンプル画像から抽出された低解像度の画像である超解像度トレーニング画像、および、取得された超解像度トレーニングノイズ画像に基づいて、第２のサンプル画像を出力し、
前記トレーニングニューラルネットワークモジュールは、
第１のサンプル画像および第２のサンプル画像に基づいて識別ラベルを出力するように配置される第２の識別ニューラルネットワークモジュールをさらに含み、
前記最適化器は、
前記超解像度ニューラルネットワークモジュールのコスト関数を低減することにより、前記超解像度ニューラルネットワークモジュールのパラメータを最適化する
ことを特徴とする請求項１７に記載の画像処理装置。
１つ以上のプロセッサと、
１つ以上のメモリと、を含み、
前記メモリは、前記１つ以上のプロセッサによって実行されると、請求項１〜１０に記載の画像処理方法を実行し、又は請求項１１〜１９に記載の画像処理装置を実現するコンピュータ読み取り可能なコードを記憶する
ことを特徴とする画像処理デバイス。