JP2022500734A

JP2022500734A - 畳み込みニューラルネットワークを利用したコンピュータ実現方法、合成画像生成用の装置及びコンピュータプログラム製品

Info

Publication number: JP2022500734A
Application number: JP2021511534A
Authority: JP
Inventors: ダンヂュー; ミケリーニパブロナバレッテ; リージエジャン; ハンウェンリウ
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-09-25
Filing date: 2019-05-17
Publication date: 2022-01-04
Anticipated expiration: 2039-05-17
Also published as: US11227364B2; EP3857501A4; JP7350841B2; WO2020062894A1; US20210358082A1; CN109285112A; EP3857501A1

Abstract

畳み込みニューラルネットワークを利用したコンピュータ実現方法が提供される。当該コンピュータ実現方法は、畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するステップを含む。畳み込みニューラルネットワークは、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含む。畳み込みニューラルネットワークにより入力画像を処理するプロセスは、特徴抽出サブネットワークにより、画調画像の画調特徴を抽出して、複数の画調特徴マップを生成する段階と、特徴抽出サブネットワークにより、入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成する段階と、融合部を用いて複数のコンテンツ特徴マップと複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成する段階と、復号サブネットワークにより、複数の出力特徴マップを再構成して、出力画像を生成する段階と、を含む。【選択図】図６Ａ

Description

本発明は、表示技術に関し、特に畳み込みニューラルネットワークを利用したコンピュータ実現方法、合成画像生成用の装置及びコンピュータプログラム製品に関する。

現在、人工ニューラルネットワークに基づく深層学習は、すでに、アイテム分類、テキスト処理、エンジン推薦、画像検索、顔認識、年齢及び音声認識、マンマシン対話などの分野で大きな進展を遂げている。例えば、深層学習技術は、画像コンテンツの説明、画像中の複雑な環境からの物体認識、騒々しい環境での音声認識等に適用可能である。また、深層学習技術は、画像を生成し融合させることが可能である。

一態様では、本発明は、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含む畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するステップを含み、前記畳み込みニューラルネットワークにより前記入力画像を処理するプロセスは、前記特徴抽出サブネットワークにより前記画調画像の画調特徴を抽出して、複数の画調特徴マップを生成する段階と、前記特徴抽出サブネットワークにより前記入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成する段階と、前記融合部を用いて前記複数のコンテンツ特徴マップと前記複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成する段階と、前記復号サブネットワークにより前記複数の出力特徴マップを再構成して、前記出力画像を生成する段階と、を含み、前記復号サブネットワークにより前記複数の出力特徴マップを再構成するプロセスは、前記復号サブネットワークにおいて順次接続され、各々が順次接続されたＮ個（Ｎは２以上の整数）の畳み込みブロックを含むＭ個（Ｍは１以上の整数）の密集して接続される（ｄｅｎｓｅｌｙｃｏｎｎｅｃｔｅｄ）算出モジュールにより前記複数の出力特徴マップを処理することを含み、前記Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成し、前記Ｍ個の密集して接続される算出モジュールのうちのｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールからの出力は、前記ｍ番目の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む、畳み込みニューラルネットワークを利用したコンピュータ実現方法を提供する。

任意選択的に、前記Ｎ個の畳み込みブロックのそれぞれは、畳み込み層と活性化層とを含む。

任意選択的に、前記復号サブネットワークは、複数の逆プーリングブロックをさらに含み、前記複数の逆プーリングブロックのそれぞれは、畳み込み層と、活性化層と、アップサンプリング動作を実行するための逆プーリング層とを含む。

任意選択的に、前記特徴抽出サブネットワークは、前記復号サブネットワークの前記複数の逆プーリングブロックにそれぞれ対応する複数のプーリングブロックを含む。

任意選択的に、前記復号サブネットワークは、出力層をさらに含み、前記Ｍ個の密集して接続される算出モジュールは、第１の密集して接続される算出モジュール、第２の密集して接続される算出モジュール、及び第３の密集して接続される算出モジュールを含み、前記複数の逆プーリングブロックは、第１の逆プーリングブロック、第２の逆プーリングブロック、及び第３の逆プーリングブロックを含み、前記復号サブネットワークにより前記複数の出力特徴マップを再構成するプロセスは、前記第１の逆プーリングブロックにより前記複数の出力特徴マップを処理して、複数の第１の逆プーリング特徴マップを生成するステップと、前記第１の密集して接続される算出モジュールを用いて前記複数の第１の逆プーリング特徴マップの特徴を抽出して、複数の第１の中間復号特徴マップを生成するステップと、前記第２の逆プーリングブロックにより前記複数の第１の中間復号特徴マップを処理して、複数の第２の逆プーリング特徴マップを生成するステップと、前記第２の密集して接続される算出モジュールを用いて前記複数の第２の逆プーリング特徴マップの特徴を抽出して、複数の第２の中間復号特徴マップを生成するステップと、前記第３の逆プーリングブロックにより前記複数の第２の中間復号特徴マップを処理して、複数の第３の逆プーリング特徴マップを生成するステップと、前記第３の密集して接続される算出モジュールを用いて前記複数の第３の逆プーリング特徴マップの特徴を抽出して、複数の第３の中間復号特徴マップを生成するステップと、前記出力層を用いて前記複数の第３の中間復号特徴マップを特徴空間から画像空間へ変換して、前記出力画像を生成するステップと、を含む。

任意選択的に、前記特徴抽出サブネットワークは、第１の畳み込み層群、第２の畳み込み層群、第３の畳み込み層群、第４の畳み込み層群、第１のプーリング層、第２のプーリング層、及び第３のプーリング層を含み、前記第１のプーリング層は、前記第１の畳み込み層群と前記第２の畳み込み層群との間に位置し、前記第２のプーリング層は、前記第２の畳み込み層群と前記第３の畳み込み層群との間に位置し、前記第３のプーリング層は、前記第３の畳み込み層群と前記第４の畳み込み層群との間に位置する。

任意選択的に、前記第１の畳み込み層群は、２つの畳み込み層と２つの活性化層とを含み、前記第２の畳み込み層群は、２つの畳み込み層と２つの活性化層とを含み、前記第３の畳み込み層群は、３つの畳み込み層と３つの活性化層とを含み、前記第４の畳み込み層群は、１つの畳み込み層と１つの活性化層とを含む。

任意選択的に、前記特徴抽出サブネットワークを用いて前記画調画像の画調特徴を抽出して前記複数の画調特徴マップを生成するステップは、前記第１の畳み込み層群を用いて前記画調画像の画調特徴を抽出して複数の第１の中間画調特徴マップを生成するステップと、前記第１のプーリング層を用いて前記複数の第１の中間画調特徴マップをダウンサンプリングして複数の第１のプーリング画調特徴マップを生成するステップと、前記第２の畳み込み層群を用いて前記複数の第１のプーリング画調特徴マップの画調特徴を抽出して複数の第２の中間画調特徴マップを生成するステップと、前記第２のプーリング層を用いて前記複数の第２の中間画調特徴マップをダウンサンプリングして複数の第２のプーリング画調特徴マップを生成するステップと、前記第３の畳み込み層群を用いて前記複数の第２のプーリング画調特徴マップの画調特徴を抽出して複数の第３の中間画調特徴マップを生成するステップと、前記第３のプーリング層を用いて前記複数の第３の中間画調特徴マップをダウンサンプリングして複数の第３のプーリング画調特徴マップを生成するステップと、前記第４の畳み込み層群を用いて前記複数の第３のプーリング画調特徴マップの画調特徴を抽出して複数の第４の中間画調特徴マップを生成するステップと、を含み、前記複数の画調特徴マップは、前記複数の第４の中間画調特徴マップを含む。

任意選択的に、前記特徴抽出サブネットワークを用いて前記入力画像のコンテンツ特徴を抽出して前記複数のコンテンツ特徴マップを生成するステップは、前記第１の畳み込み層群を用いて前記入力画像のコンテンツ特徴を抽出して複数の第１の中間コンテンツ特徴マップを生成するステップと、前記第１のプーリング層を用いて前記複数の第１の中間コンテンツ特徴マップをダウンサンプリングして複数の第１のプーリングコンテンツ特徴マップを生成するステップと、前記第２の畳み込み層群を用いて前記複数の第１のプーリングコンテンツ特徴マップのコンテンツ特徴を抽出して複数の第２の中間コンテンツ特徴マップを生成するステップと、前記第２のプーリング層を用いて前記複数の第２の中間コンテンツ特徴マップをダウンサンプリングして複数の第２のプーリングコンテンツ特徴マップを生成するステップと、前記第３の畳み込み層群を用いて前記複数の第２のプーリングコンテンツ特徴マップのコンテンツ特徴を抽出して複数の第３の中間コンテンツ特徴マップを生成するステップと、前記第３のプーリング層を用いて前記複数の第３の中間コンテンツ特徴マップをダウンサンプリングして複数の第３のプーリングコンテンツ特徴マップを生成するステップと、前記第４の畳み込み層群を用いて前記複数の第３のプーリングコンテンツ特徴マップのコンテンツ特徴を抽出して複数の第４の中間コンテンツ特徴マップを生成するステップと、を含み、前記複数のコンテンツ特徴マップは、前記複数の第４の中間コンテンツ特徴マップを含む。

任意選択的に、前記複数の出力特徴マップは、下式により表される。

Ａ（ｘ，ｙ）は、前記複数の出力特徴マップからなる３次元マトリクスを表し、ｘは、前記複数のコンテンツ特徴マップからなる３次元マトリクスを表し、ｙは、前記複数の画調特徴マップからなる３次元マトリクスを表し、μ（ｘ）は、前記複数のコンテンツ特徴マップのそれぞれから導出された複数の平均値からなる３次元マトリクスを表し、σ（ｘ）は、前記複数のコンテンツ特徴マップのそれぞれから導出された複数の分散値からなる３次元マトリクスを表し、μ（ｙ）は、前記複数の画調特徴マップのそれぞれから導出された複数の平均値からなる３次元マトリクスを表し、σ（ｙ）は、前記複数の画調特徴マップのそれぞれから導出された複数の分散値からなる３次元マトリクスを表す。

任意選択的に、本明細書に記載の方法は、前記畳み込みニューラルネットワークを予めトレーニングするステップを含み、前記畳み込みニューラルネットワークを予めトレーニングするステップは、トレーニングコンテンツ画像とトレーニング画調画像を前記畳み込みニューラルネットワークに入力する段階と、前記復号サブネットワークを用いて複数のトレーニング出力画像を生成し、融合部を用いて複数のトレーニング出力特徴マップを生成する段階と、解析ネットワークを用いて前記複数のトレーニング出力画像の画調特徴及びコンテンツ特徴を抽出して、複数の第１のトレーニング画調特徴マップ及び複数のトレーニングコンテンツ特徴マップとを生成する段階と、前記解析ネットワークを用いて前記トレーニング画調画像の画調特徴を抽出し、複数の第２のトレーニング画調特徴マップを生成する段階と、前記複数の第１のトレーニング画調特徴マップ、前記複数の第２のトレーニング画調特徴マップ、前記複数のトレーニングコンテンツ特徴マップ、及び前記複数のトレーニング出力特徴マップに基づいて、損失関数を用いて前記復号サブネットワークのパラメータ損失を算出する段階と、前記損失に応じて前記復号サブネットワークのパラメータを調整する段階と、を含む。

任意選択的に、本明細書で説明する方法は、前記畳み込みニューラルネットワークを繰り返し予めトレーニングするステップを含む。

任意選択的に、前記損失関数は、コンテンツ損失関数と画調損失関数とを含み、前記損失は、コンテンツ損失と画調損失とを含み、前記復号サブネットワークのパラメータ損失を算出する段階は、前記複数のトレーニングコンテンツ特徴マップ及び前記複数のトレーニング出力特徴マップに基づいて、前記コンテンツ損失関数を用いて前記復号サブネットワークのパラメータのコンテンツ損失を算出することと、前記複数の第１のトレーニング画調特徴マップ及び前記複数の第２のトレーニング画調特徴マップに基づいて、前記画調損失関数を用いて前記復号サブネットワークのパラメータの画調損失を算出することと、を含む。

任意選択的に、前記損失関数は、下式により表される。

Ｌｃは、前記コンテンツ損失関数を表し、Ｌｓは、前記画調損失関数を表し、αは、前記コンテンツ損失関数の重みを表し、βは前記画調損失関数の重みを表し、前記コンテンツ損失関数Ｌｃは、下式により表される。

ｔは前記トレーニングコンテンツ画像を表し、ｇ（ｔ）は、前記複数のトレーニング出力画像を表し、ｆ_１１（ｇ（ｔ））は、前記複数のトレーニングコンテンツ特徴マップからなる３次元マトリクスを表し、ｆ_２（ｔ）は、前記複数のトレーニング出力特徴マップからなる３次元マトリクスを表し、Ｃ１は、正規化を実行するための定数であり、前記画調損失関数Ｌｓは、下式により表される。

ｓは、トレーニング画調画像を表し、ｆ_１２（ｓ）は、前記複数の第２のトレーニング画調特徴マップからなる３次元マトリクスを示し、ｆ_１２（ｇ（ｔ））は、前記複数の第１のトレーニング画調特徴マップからなる３次元マトリクスを表し、μ_ｋ（ｆ_１２（ｇ（ｔ）））は、前記複数の第１のトレーニング画調特徴マップの平均値からなる３次元マトリクスを表し、μ_ｋ（ｆ_１２（ｓ））は、前記複数の第２のトレーニング画調特徴マップの平均値からなる３次元マトリクスを表し、σ_ｋ（ｆ_１２（ｇ（ｔ）））は、前記複数の第１のトレーニング画調特徴マップの分散値からなる３次元マトリクスを表し、σ_ｋ（ｆ_１２（ｓ））は、前記複数の第２のトレーニング画調特徴マップの分散値からなる３次元マトリクスを表し、ｋは、整数である。

任意選択的に、前記解析ネットワークと前記特徴抽出サブネットワークとは、同じ構成及び同じパラメータを含む。

別の態様では、本発明は、メモリと、１つ以上のプロセッサとを含む合成画像生成用の装置を提供する。前記メモリと前記１つ以上のプロセッサとが相互に接続され、前記メモリには、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含む畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令が記憶される。前記メモリには、前記特徴抽出サブネットワークを用いて前記画調画像の画調特徴を抽出して、複数の画調特徴マップを生成し、前記特徴抽出サブネットワークを用いて前記入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成し、前記融合部を用いて前記複数のコンテンツ特徴マップと前記複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成し、前記復号サブネットワークを用いて前記複数の出力特徴マップを再構成して、前記出力画像を生成するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令が記憶される。前記復号サブネットワークにより前記複数の出力特徴マップを再構成するために、前記メモリには、前記復号サブネットワークにおいて順次接続され、各々が順次接続されたＮ個（Ｎは２以上の整数）の畳み込みブロックを含むＭ個（Ｍは１以上の整数）の密集して接続される算出モジュールにより前記複数の出力特徴マップを処理するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶され、前記Ｍ個の密集して接続される算出モジュールのそれぞれの前記Ｎ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を、前記Ｍ個の密集して接続される算出モジュールのそれぞれの前記Ｎ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成し、前記Ｍ個の密集して接続される算出モジュールのうちのｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールの出力は、前記ｍ番目の密集して接続される算出モジュールの前記Ｎ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む。

任意選択的に、前記特徴抽出サブネットワークは、前記復号サブネットワークにおける複数の逆プーリングブロックにそれぞれ対応する複数のプーリングブロックを含む。

任意選択的に、前記復号サブネットワークは、出力層をさらに含み、前記Ｍ個の密集して接続される算出モジュールは、第１の密集して接続される算出モジュール、第２の密集して接続される算出モジュール、及び第３の密集して接続される算出モジュールを含み、前記複数の逆プーリングブロックは、第１の逆プーリングブロック、第２の逆プーリングブロック、及び第３の逆プーリングブロックを含み、前記復号サブネットワークにより前記複数の出力特徴マップを再構成するプロセスは、前記第１の逆プーリングブロックにより前記複数の出力特徴マップを処理して、複数の第１の逆プーリング特徴マップを生成することと、前記第１の密集して接続される算出モジュールを用いて前記複数の第１の逆プーリング特徴マップの特徴を抽出して、複数の第１の中間復号特徴マップを生成することと、前記第２の逆プーリングブロックにより前記複数の第１の中間復号特徴マップを処理して、複数の第２の逆プーリング特徴マップを生成することと、前記第２の密集して接続される算出モジュールを用いて前記複数の第２の逆プーリング特徴マップの特徴を抽出して、複数の第２の中間復号特徴マップを生成することと、前記第３の逆プーリングブロックにより前記複数の第２の中間復号特徴マップを処理して、複数の第３の逆プーリング特徴マップを生成することと、前記第３の密集して接続される算出モジュールを用いて前記複数の第３の逆プーリング特徴マップの特徴を抽出して、複数の第３の中間復号特徴マップを生成することと、前記出力層を用いて前記複数の第３の中間復号特徴マップを特徴空間から画像空間へ変換して、前記出力画像を生成することと、を含む。

別の態様では、本発明は、コンピュータ可読命令を有する非一時的な有形のコンピュータ可読媒体を含むコンピュータプログラム製品を提供する。前記コンピュータ可読命令は、プロセッサにより実行されると、前記プロセッサに、畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するようにさせ、前記畳み込みニューラルネットワークは、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含み、前記畳み込みニューラルネットワークにより前記入力画像を処理するプロセスは、前記特徴抽出サブネットワークを用いて前記画調画像の画調特徴を抽出して、複数の画調特徴マップを生成することと、前記特徴抽出サブネットワークを用いて前記入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成することと、前記融合部を用いて前記複数のコンテンツ特徴マップと前記複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成することと、前記復号サブネットワークにより前記複数の出力特徴マップを再構成して、前記出力画像を生成することと、を含み、前記復号サブネットワークにより前記複数の出力特徴マップを再構成するプロセスは、前記復号サブネットワークにおいて順次接続され、各々が順次接続されたＮ個（Ｎは２以上の整数）の畳み込みブロックを含むＭ個（Ｍは１以上の整数）の密集して接続される算出モジュールにより前記複数の出力特徴マップを処理することを含み、前記Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成し、前記Ｍ個の密集して接続される算出モジュールのうちのｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールの出力は、ｍ番目の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む。

以下の図面は、開示される様々な実施例に基づく説明的な目的のための例にすぎず、本発明の範囲を限定することが意図されていない。

本開示の一部の実施例に係る畳み込みニューラルネットワークの概略図である。本開示の一部の実施例に係る、畳み込みニューラルネットワークを用いて画像を処理するコンピュータ実現方法のフローチャートである。本開示の一部の実施例に係る、畳み込みニューラルネットワークにより入力画像を処理するフローチャートである。本開示の一部の実施例に係る畳み込みニューラルネットワークの概略構成図である。本開示の一部の実施例に係る密集畳み込みネットワークの概略構成図である。本開示の一部の実施例に係る、密集畳み込みネットワークにおける密集ブロックの概略構成図である。本開示の一部の実施例に係る復号サブネットワークの概略構成図である。本開示の一部の実施例に係る、復号サブネットワークにおける密集して接続される算出モジュールの概略構成図である。本開示の一部の実施例に係る、復号サブネットワークにおける逆プーリングブロックの概略構成図である。本開示の一部の実施例に係る、復号サブネットワークにおける出力層の概略構成図である。本開示の一部の実施例に係る畳み込みニューラルネットワークの概略構成図である。本開示の一部の実施例に係る畳み込みニューラルネットワークの概略構成図である。本開示の一部の実施例に係る、プーリングプロセス及び逆プーリングプロセスの概略図である。本開示の一部の実施例に係る、畳み込みニューラルネットワークを予めトレーニングする方法のフローチャートである。本開示の一部の実施例に係る、畳み込みニューラルネットワークを予めトレーニングする事前トレーニングネットワークの概略構成図である。本開示の一部の実施例に係る、合成画像生成用の装置の概略図である。本開示の一部の実施例に係る、合成画像生成用の装置の概略図である。

以下、実施例を挙げて本発明をより具体的に記載する。なお、本明細書では、説明及び記載を目的として一部の実施例の以下の記載を提示する。網羅したり、開示される正確な形態に限定したりすることが意図されていない。

最近では、画像と参照画調画像の画調との融合が盛んに行われるようになってきた。画像を参照画調画像の画調と融合する技術は、クラウドコンピューティングに基づく画像処理機能、画調レンダリング、及びデジタルギャラリ機能を有する製品及びサービスにより使用され得る。

したがって、本発明は、特に、関連技術の制限及び欠点による問題点のいずれか１つ又は複数を実質的に解消することができる、畳み込みニューラルネットワークを利用したコンピュータ実現方法、合成画像生成用の装置、及びコンピュータプログラム製品を提供する。一態様では、本開示は、畳み込みニューラルネットワークを利用したコンピュータ実現方法を提供する。一部の実施例では、コンピュータ実現方法は、畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するステップを含む。任意選択的に、畳み込みニューラルネットワークは、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含む。任意選択的に、畳み込みニューラルネットワークにより入力画像を処理するプロセスは、特徴抽出サブネットワークを用いて画調画像の画調特徴を抽出して、複数の画調特徴マップを生成する段階と、特徴抽出サブネットワークを用いて入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成する段階と、融合部を用いて複数のコンテンツ特徴マップと複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成する段階と、復号サブネットワークにより複数の出力特徴マップを再構成して、出力画像を生成する段階と、を含む。任意選択的に、復号サブネットワークにより複数の出力特徴マップを再構成するプロセスは、復号サブネットワークにおいて順次接続され、各々が順次接続されたＮ個（Ｎは２以上の整数）の畳み込みブロックを含むＭ個（Ｍは１以上の整数）の密集して接続される算出モジュールにより複数の出力特徴マップを処理することを含む。例えば、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップを、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成し、Ｍ個の密集して接続される算出モジュールのうちのｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールからの出力は、ｍ番目の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む。

本明細書では、畳み込みニューラルネットワークを利用したコンピュータ実現方法は、任意の画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成することができる。本明細書のコンピュータ実現方法は、畳み込みニューラルネットワーク内のアセンブリの数を減らすことができ、従来の開示内容と比較して、より少ない数のパラメータを用いて出力画像を生成することができる。本明細書の方法により生成される出力画像の品質は、従来の開示内容により生成される出力画像の品質と同程度に良い。畳み込みニューラルネットワークで使用されるパラメータの数が減少するため、本明細書の方法で使用される畳み込みニューラルネットワークは、より速い処理速度と短い処理時間を有する。

図１は本開示の一部の実施例に係る、畳み込みニューラルネットワークの概略図である。図１を参照すると、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）は、画像認識、顔認識、テキスト認識、動物認識、及び画像処理を含む分野に適用することができる。例えば、畳み込みニューラルネットワークが画像処理に適用される。畳み込みニューラルネットワークの入出力は画像である。畳み込みニューラルネットワークの畳み込みカーネルでスカラーの重みを置換する。一部の実施例では、図１に示される畳み込みニューラルネットワークは、３つの層のみを有する。任意選択的に、畳み込みニューラルネットワークは、入力層６０１、隠れ層６０２、及び出力層６０３を含む。任意選択的に、入力層６０１には、４つの入力６２１が入力される。隠れ層６０２からは３つの出力６２２が出力される。出力層６０３からは２つの出力６２３が出力される。したがって、畳み込みニューラルネットワークは、２つの出力画像（例えば、２つの出力６２３）を出力することができる。例えば、入力層６０１に入力される４つの入力６２１は、４つの画像、あるいは１つの画像の４種類の特徴である。隠れ層６０２から出力される３つの出力６２２は、４つの画像の３つの特徴マップであってもよいし、入力層６０１に入力される１つの画像の４つの特徴の３つの特徴マップであってもよい。

本明細書で使用される場合、用語「畳み込みニューラルネットワーク」は、ディープフィードフォワード人工ニューラルネットワークを指す。任意選択的に、畳み込みニューラルネットワークは、複数の畳み込み層、複数のアップサンプリング層、及び複数のダウンサンプリング層を含む。例えば、複数の畳み込み層のそれぞれは、画像を処理することができる。アップサンプリング層及びダウンサンプリング層は、入力画像のサイズをある畳み込み層に対応するサイズに変更することができる。そして、アップサンプリング層又はダウンサンプリング層からの出力は、対応するサイズの畳み込み層により処理され得る。これにより、畳み込み層が入力画像とは異なるサイズを有する特徴を追加又は抽出できるようにする。

本明細書で使用される場合、用語「畳み込みカーネル」は、畳み込みプロセスで使用される２次元マトリクスを指す。任意選択的に、２次元マトリクスの複数の項目のそれぞれ１つが特定の値を有する。

本明細書で使用される場合、用語「畳み込み」は、画像処理のプロセスを指す。畳み込みに畳み込みカーネルが用いられる。入力画像の各画素には値があり、畳み込みカーネルは入力画像の１つの画素から、入力画像内の各画素へ順次移動する。畳み込みカーネルの各位置において、畳み込みカーネルは、そのサイズに応じて画像上のいくつかの画素と重複する。畳み込みカーネルの位置において、いくつかの重複画素のうちの１つの値に畳み込みカーネルにおける対応する１つの値を乗算して、いくつかの重複画素のうちの１つの乗算値を取得する。そして、全ての重複画素の乗算値を加算して、入力画像上の畳み込みカーネルの位置に対応する合計を取得する。畳み込みカーネルを入力画像の各画素上で移動させることにより、畳み込みカーネルの全ての位置に対応する全ての合計が収集され、出力画像として出力される。一例では、畳み込みは、異なる畳み込みカーネルを用いて入力画像の異なる特徴を抽出することができる。別の例では、畳み込みプロセスは、異なる畳み込みカーネルを用いて入力画像により多くの特徴を追加することができる。

本明細書で使用される場合、用語「畳み込み層」は、畳み込みニューラルネットワーク内の層を指す。畳み込み層は、入力画像に畳み込みを実行して出力画像を得るために使用される。任意選択的に、異なる畳み込みカーネルが、同じ入力画像に対して異なる畳み込みを実行するために使用される。任意選択的に、異なる畳み込みカーネルが、同じ入力画像の異なる部分に対して畳み込みを実行するために使用される。任意選択的に、異なる畳み込みカーネルが、異なる入力画像に対して畳み込みを実行するために使用され、例えば、畳み込み層に複数の画像を入力し、対応する畳み込みカーネルが、複数の画像のうちの画像に対して畳み込みを実行するために使用される。任意選択的に、入力画像の状況に応じて異なる畳み込みカーネルが使用される。

図１を参照すると、一部の実施例では、隠れ層６０２は第１の隠れ畳み込み層６１１と第２の隠れ畳み込み層６１２とを含む。任意選択的に、第１の隠れ畳み込み層６１１及び第２の隠れ畳み込み層６１２のいずれも、重み

及びバイアス

を有する。重み

は畳み込みカーネルを表す。バイアス

は、畳み込み層の出力に重畳されるスカラー量である。ｋは、畳み込みニューラルネットワークのｋ番目の入力層を表す。ｉは、入力層のそれぞれに入力される複数の入力画像のうちのｉ番目の入力画像を表す。ｊは、複数の入力画像のそれぞれを処理して得られた複数の出力のうちのｊ番目の出力を表す。ｋ、ｉ、ｊは正の整数である。例えば、第１の隠れ畳み込み層６１１は、第１の畳み込みカーネル群（例えば、

）と第１の重み群（例えば、

）とを含む。第２の隠れ畳み込み層６１２は、第２の畳み込みカーネル群（例えば、

）と第２の重み群（例えば、

）とを含む。通常、各畳み込み層は、数百の畳み込みカーネルを含む。例えば、深層畳み込みニューラルネットワークでは、当該深層畳み込みニューラルネットワークの隠れ層は少なくとも５つの畳み込み層を含む。

図１を参照すると、畳み込みニューラルネットワークの隠れ層６０２は、第１の隠れ活性化層６１３と第２の隠れ活性化層６１４とをさらに含む。第１の隠れ活性化層６１３は、第１の隠れ畳み込み層６１１と第２の隠れ畳み込み層６１２との間に位置する。第２隠れ活性化層６１４は第２隠れ畳み込み層６１２の後に位置する。任意選択的に、活性化層（例えば、第１の隠れ活性化層６１３及び第２の隠れ活性化層６１４）は、活性化関数を含む。活性化関数は、畳み込みニューラルネットワークが比較的複雑な問題を効果的に解決できるように、畳み込みニューラルネットワークに非線形要素を追加するために使用される。

本明細書で使用される場合、用語「活性化層」は、畳み込みニューラルネットワーク内の層を指す。活性化層は、畳み込み層の出力からの出力信号に対して非線形マッピングを実行することができる。活性化層に、種々の関数を用いることができる。活性化層に適用される関数としては、例えば、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）関数、Ｓｉｇｍｏｉｄ関数、双曲線正接関数（例えば、ｔａｎｈ関数）などが挙げられるが、これらに限定されない。一例では、活性化層は、畳み込み層に含まれない。別の例では、活性化層は、畳み込み層に含まれる。例えば、第１の隠れ畳み込み層６１１は第１の隠れ活性化層６１３を含む。第２の隠れ畳み込み層６１２は第２の隠れ活性化層６１４を含む。

一部の実施例では、第１の隠れ畳み込み層６１１において、第１の隠れ畳み込み層６１１から複数の出力が生成されるように、第１の畳み込みカーネル群

及び第１の重み群

は、４つの入力６２１のそれぞれに適用される。第１の隠れ活性化層６１３から複数の出力が生成されるように、第１の隠れ畳み込み層６１１からの複数の出力は、第１の隠れ活性化層６１３により処理することができる。

一部の実施例では、第２の隠れ畳み込み層６１２において、第２の隠れ畳み込み層６１２から複数の出力が生成されるように、第２の畳み込みカーネル群

及び第２の重み群

は、第１の隠れ活性化層６１３からの複数の出力のそれぞれに適用される。第２隠れ活性化層６１４の複数の出力が生成されるように、第２の隠れ畳み込み層６１２からの複数の出力は、第２の隠れ活性化層６１４により処理することができる。

一例では、第１の隠れ畳み込み層６１１から複数の出力のそれぞれを生成することは、第１の畳み込みカーネル群

のそれぞれを４つの入力６２１のそれぞれに適用して、第１の隠れ中間出力を生成し、第１の重み群

のそれぞれを中間出力に追加して、第１の隠れ層６１１から複数の出力のそれぞれを生成することを含む。

別の例では、第２の隠れ畳み込み層６１２から複数の出力のそれぞれを生成することは、第２の畳み込みカーネル群

のそれぞれを、第１の隠れ畳み込み層６１１からの複数の出力のそれぞれに適用して、第２の隠れ中間出力を生成し、第２の重み群

のそれぞれを第２の隠れ中間出力に追加して、第２の隠れ畳み込み層６１２から複数の出力のそれぞれを生成することを含む。

例えば、第１の隠れ活性化層６１３からの出力は、隠れ層６０２の３つの出力６２２である。第２の隠れ活性化層６１４からの出力は、出力層６０３の２つの出力６２３である。

一部の実施例では、畳み込み層は、畳み込みニューラルネットワークのカーネル層である。畳み込み層では、ニューロンは、直接隣接する畳み込み層のいくつかのニューロンに接続される。任意選択的に、畳み込み層は、入力画像に複数の畳み込みカーネルを適用して、入力画像から複数の特徴を抽出することができる。畳み込み層は、入力画像から１種類の特徴を抽出することができる。任意選択的に、初期化された畳み込みカーネルは、ランダムな分数マトリクスである。畳み込みニューラルネットワークの事前トレーニングプロセスにおいて、畳み込みカーネルは、学習により合理的な値を取得する。

任意選択的に、入力画像に畳み込みカーネルを適用した結果を特徴マップと呼ぶ。複数の特徴マップの数は、複数の畳み込みカーネルの数と等しい。複数の特徴マップのそれぞれは、複数の畳み込みカーネルのそれぞれに対応する。

任意選択的に、複数の特徴マップのそれぞれは、矩形状に配列されたニューロンからなる。複数の特徴マップのうちの対応する特徴マップのニューロンは、複数の畳み込みカーネルのうちの対応する畳み込みカーネルを共有する。

任意選択的に、畳み込みニューラルネットワークは複数の畳み込み層を有する。複数の畳み込み層のそれぞれから出力される特徴マップは、複数の畳み込み層のうちの下流の畳み込み層に入力される。複数の畳み込み層のうちの下流の畳み込み層は、複数の畳み込み層のそれぞれから出力される特徴マップを処理し、複数の特徴マップのうちの下流の特徴マップを出力する。

一部の実施例では、プーリング層は、２つの隣接する畳み込み層の間に位置する。一例では、計算の複雑性を単純化し、過剰適合の現象を低減するために、プーリング層は、入力画像のサイズを低減するために使用することができる。別の一例では、プーリング層は、特徴を圧縮し、入力画像の主な特徴を抽出する。任意選択的に、プーリング層は、特徴マップの数を変えることなく、それぞれの特徴マップのサイズを低減することができる。例えば、サイズ１２×１２の入力画像を、６×６のフィルタでサンプリングし、そして、この６×６のフィルタが、サイズ２×２の出力画像を出力する。これは、サイズ１２×１２の入力画像の１４４画素を４つの部分に分割し、それぞれの部分が３６画素を有することを意味する。６×６のフィルタを用いてプーリング処理を行った後、各部分の３６画素を１画素にまとめ、生成した出力画像のサイズは２×２となる。

本明細書で使用される場合、用語「プーリング」は、ダウンサンプリングの１種類を指す。プーリングは、種々の方法を用いて行うことができる。プーリングに適した方法の例は、最大プーリング、平均プーリング、アンダーサンプリング、及び逆多重化出力を含むが、これらに限定されない。本明細書で使用される場合、、用語「ダウンサンプリング」とは、入力画像の特徴を抽出し、より小さなサイズの出力画像を出力するプロセスを意味する。

図２Ａは本開示の一部の実施例に係る、畳み込みニューラルネットワークを利用した画像処理のためのコンピュータ実現方法のフローチャートである。図２Ａを参照すると、一部の実施例では、畳み込みニューラルネットワークを利用したコンピュータ実現方法は、畳み込みニューラルネットワークに画調画像及び入力画像を入力するステップと、畳み込みニューラルネットワークにより入力画像を処理して画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するステップとを含む。

一部の実施例では、入力画像は、任意のタイプの画像であってもよい。任意選択的に、入力画像は、デジタルカメラや携帯電話等の撮像装置で撮影された画像であってもよい。任意選択的に、入力画像は、人物画像、動物画像、植物画像、風景画像からなる群から選択されてもよい。

一部の実施例では、画調は、アーティスト画調、異なる顔料で描かれた芸術的な画調からなる群から選択されてもよい。任意選択的に、アーティストの画調は、モナ画調、ヴァンゴッホ画調、及びピカソ画調を含むが、これらに限定されない。任意選択的に、芸術的な画調としては、水墨画、油絵、スケッチを含むが、これらに限定されない。

図３は本開示の一部の実施例に係る畳み込みニューラルネットワークの概略構成図である。図３を参照すると、畳み込みニューラルネットワーク１００は、特徴抽出サブネットワーク１０１、融合部１０２、及び復号サブネットワーク１０３を含む。任意選択的に、特徴抽出サブネットワーク１０１は、画調画像の画調特徴を抽出して複数の画調特徴マップを生成し、入力画像のコンテンツ特徴を抽出して複数のコンテンツ特徴マップを生成するように構成される。任意選択的に、融合部１０２は、複数の画調特徴マップと複数のコンテンツ特徴マップとをそれぞれ融合させて複数の出力特徴マップを生成するように構成される。任意選択的に、復号サブネットワーク１０３は、複数の出力特徴マップを再構成して出力画像を生成するように構成される。

図２Ｂは本開示の一部の実施例に係る、畳み込みニューラルネットワークにより入力画像を処理するフローチャートである。図２Ａ、図２Ｂ及び図３を参照すると、畳み込みニューラルネットワーク１００により入力画像を処理するステップは、特徴抽出サブネットワーク１０１を用いて、画調画像の画調特徴を抽出して、複数の画調特徴マップを生成するステップと、特徴抽出サブネットワーク１０１を用いて、入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成するステップと、融合部１０２を用いて、複数のコンテンツ特徴マップと複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成するステップと、復号サブネットワーク１０３により、複数の出力特徴マップを再構成して、出力画像を生成するステップと、を含む。

一部の実施例では、特徴マップは、複数の画調特徴マップ、複数のコンテンツ特徴マップ、及び複数の出力特徴マップを含む。特徴マップについて、２次元マトリクスを用いて説明する。一例では、複数の画調特徴マップのそれぞれは、２次元マトリクスである。したがって、３次元マトリクスを用いて複数の画調特徴マップを記載することができる。別の例では、複数のコンテンツ特徴マップのそれぞれは、２次元マトリクスである。したがって、複数のコンテンツ特徴マップを３次元マトリクスで記載することができる。別の例では、複数の出力特徴マップのそれぞれは、２次元マトリクスである。３次元マトリクスを用いて複数の出力特徴マップを記載することができる。

一部の実施例では、復号サブネットワーク１０３により複数の出力特徴マップを再構成するプロセスは、復号サブネットワーク１０３において順次接続されたＭ個の密集して接続される算出モジュールにより、複数の出力特徴マップを処理する段階を含む。任意選択的に、Ｍ個の密集して接続される算出モジュールのそれぞれは、順次接続されたＮ個の畳み込みブロックを含み、Ｍは１以上の整数であり、Ｎは２以上の整数である。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成する。

任意選択的に、Ｍ個の密集して接続される算出モジュールのそれぞれの入力を、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目の畳み込みブロックに入力する。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールからの出力は、ｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む。

任意選択的に、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールからの出力は、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールの入力を含む。

図４Ａは本開示の一部の実施例に係る、密集畳み込みネットワークの概略構成図である。図４Ｂは本開示の一部の実施例に係る、密集畳み込みネットワークにおける密集ブロックの概略構成図である。図４Ａ及び図４Ｂを参照すると、密集畳み込みネットワークは、画像分類のために使用され得る。密集畳み込みネットワーク以外の畳み込みニューラルネットワークでは、第Ｎの畳み込み層からの出力は第Ｎ＋１の畳み込み層の入力となる。例えば、密集畳み込みネットワーク以外の畳み込みニューラルネットワークは、Ｌ層畳み込み層を有する。密集畳み込みネットワーク以外の畳み込みニューラルネットワークは、Ｌ個の接続を有する（Ｎ及びＬのいずれも正の整数であり、Ｌ＞Ｎ＞１である）。

密集畳み込みネットワークの場合、密集畳み込みネットワークは密集畳み込み接続を有する。密集畳み込み接続は、複数の畳み込み層のうちの任意の前段の畳み込み層からの出力を、密集畳み込みネットワーク内の複数の畳み込み層のそれぞれに入力するように構成される。例えば、密集畳み込みネットワークはＬ層畳み込み層を有する。Ｌ個の畳み込み層のうちの２つの畳み込み層間の接続数は、Ｌ（Ｌ＋１）／２である。Ｌ個の畳み込み層のうちの２つは直列に接続される。

一部の実施例では、密集畳み込みネットワークにおいて、Ｌ個の畳み込み層のうちの１番目の畳み込み層から出力される特徴マップｘ_ｌは、下式となる。

は、特徴を抽出するプロセスを表す。任意選択的に、

は、バッチ正規化演算、活性化演算、及び畳み込み演算の群から選択される演算の組み合わせである。例えば、

は、バッチ正規化（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、ＢＮ）演算、活性化演算（例えば、ＲｅＬＵ）及び畳み込み演算（例えば、３×３畳み込みカーネルを用いた畳み込み演算）の組み合わせである。ｘ_０は入力画像を表す。ｘ_１，…，ｘ_ｌ−１は、それぞれ畳み込み層の第１層から畳み込み層の第ｌ−１層まで出力される出力特徴マップを示す。ｘ_１，…，ｘ_ｌ−１のサイズは同じである。

一部の実施例では、密集畳み込みネットワークは、複数の密集ブロック及び複数の遷移層（ｔｒａｎｓｉｔｉｏｎｌａｙｅｒ）を含む。任意選択的に、複数の密集ブロック及び複数の遷移層は、交互に配置される。例えば、複数の遷移層のそれぞれは、複数の密集ブロックのうちの直接隣接する２つのブロックの間に位置する。

一部の実施例では、複数の密集ブロックのそれぞれは、複数の畳み込み照合特徴マップを用いて畳み込み演算を実行して特徴マップから特徴を抽出する。

図４Ａを参照すると、一部の実施例では、複数の密集ブロックは、第１密集ブロック５１、第２密集ブロック５２、及び第３密集ブロック５３を含む。図４Ｂを参照すると、図４Ｂには、第１密集ブロック５１の構成が示されている。一部の実施例では、第１密集ブロック５１は、第１の畳み込み算出モジュール５１０、第２の畳み込み算出モジュール５１１、第３の畳み込み算出モジュール５１２、及び第４の畳み込み算出モジュール５１３を含む。例えば、入力画像Ｘ_０を処理するために、第１畳み込み算出モジュール５１０は、画像Ｘ_０に対して第１の特徴抽出演算Ｈ_１を実行して複数の第１特徴マップＸ_１を生成する。第２の畳み込み算出モジュール５１１は、入力画像Ｘ_０及び複数の第１特徴マップＸ_１に対して第２の特徴抽出演算Ｈ_２を実行して、複数の第２特徴マップＸ_２を生成する。第３の畳み込み算出モジュール５１２は、入力画像Ｘ_０、複数の第１特徴マップＸ_１及び複数の第２特徴マップＸ_２に対して第３の特徴抽出演算Ｈ_３を実行して、複数の第３の特徴マップＸ_３を生成する。第４の畳み込み算出モジュール５１３は、入力画像Ｘ_０、複数の第１特徴マップＸ_１、複数の第２特徴マップＸ_２、及び複数の第３の特徴マップＸ_３に対して第４の特徴抽出演算Ｈ_４を実行して、複数の第４特徴マップＸ_４を生成する。入力画像Ｘ_０、複数の第１特徴マップＸ_１、複数の第２特徴マップＸ_２、複数の第３の特徴マップＸ_３、及び複数の第４特徴マップＸ_４は、いずれも複数の遷移層のそれぞれに出力される。

一部の実施例では、複数の密集ブロックのそれぞれは１×１畳み込みカーネルをさらに含む。１×１畳み込みカーネルは、畳み込み算出モジュールにより抽出される特徴マップの数を減らし（例えば、次元削減）、特徴マップの数をさらに減らし、計算量をさらに減らすことができる。

一部の実施例では、複数の密集ブロックのそれぞれにおいて、複数の畳み込み算出モジュールのそれぞれは、１つの特徴マップ群を出力する。各特徴マップ群は、同数の特徴マップを有する。任意選択的に、ｋｔは、当該密集畳み込みネットワークから出力される特徴マップの数を制御するための増加率を表す。密集畳み込みネットワークでは、増加率ｋｔは比較的小さい。例えば、密集畳み込みネットワークの増加率ｋｔは３２である。

一部の実施例では、密集畳み込みネットワーク（ＤｅｎｓｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、ＤｅｎｓｅＮｅｔ）は、以下の利点を有する。第一に、密集畳み込みネットワークは、密集畳み込みネットワークにおけるパラメータの数を大きく低減することができる。例えば、密集畳み込みネットワークの精度が残差ニューラルネットワーク（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲｅｓＮｅｔ）の精度と等しい場合、密集畳み込みネットワーク内のパラメータの数は残差ニューラルネットワーク内のパラメータの数の半分未満である。第２に、密集畳み込みネットワークは、計算量を低減することができる。例えば、密集畳み込みネットワークの精度が残差ニューラルネットワークの精度と等しい場合、密集畳み込みネットワークの計算量は、残差ニューラルネットワークの計算量のほぼ半分である。第３に、密集畳み込みネットワークは、勾配消失の問題を効果的に解決することができる。第４に、密集畳み込みネットワークは、特徴を繰り返し利用することができるため、特徴の伝搬を強化することができる。第５に、密集畳み込みネットワークは、特に事前トレーニングプロセスのデータ欠如の場合、非常に優れた過剰適合防止性能を有する。密集畳み込みネットワークの利点に基づいて、本開示に記載の畳み込みニューラルネットワークの復号サブネットワーク１０３は、改良された密集畳み込みネットワークを用いて、任意の画調が融合された入力画像のコンテンツ特徴を含む出力画像を生成することができる。

一部の実施例では、特徴マップの数を減らす特徴マップの数を減らすために複数の遷移層が用いられることにより、畳み込みニューラルネットワークにおけるパラメータの数及び計算量の削減をもたらす。任意選択的に、複数の遷移層が、異なるチャネルからの特徴を組み合わせるために用いられる。任意選択的に、複数の遷移層のそれぞれは、畳み込み演算を実行するように構成される畳み込み層（例えば、１×１畳み込みカーネルを用いる畳み込み層）と、ダウンプーリング演算を実行するように構成されるプーリング層（例えば、平均プーリング層）とを含む。

任意選択的に、各遷移層のそれぞれにおいて、畳み込み層から出力される特徴マップの数は、畳み込み層に入力される特徴マップの数の半分である。図４Ａを参照すると、任意選択的に、複数の遷移層は、第１の遷移層６１及び第２の遷移層６２を含む。任意選択的に、第１の遷移層６１は、畳み込み層Ｃと、プーリング層Ｐとを含む。任意選択的に、第２の遷移層６２は、畳み込み層Ｃと、プーリング層Ｐとを含む。

図５Ａは本開示の一部の実施例に係る復号サブネットワークの概略構成図である。図５Ａを参照すると、復号サブネットワークは、Ｍ個の密集して接続される算出モジュールを含み、Ｍは１以上の整数である。任意選択的に、図５Ａに示す復号サブネットワークは、第１の密集して接続される算出モジュールＤＢ１と、第２の密集して接続される算出モジュールＤＢ２と、第３の密集して接続される算出モジュールＤＢ３とを含む。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのそれぞれは、Ｎ個の順次接続された畳み込みブロックを含み、Ｎは２以上の整数である。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックは、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を受信、処理してｎ番目の出力特徴マップ群を生成するように構成され、Ｎは整数である。

任意選択的に、Ｍ個の密集して接続される算出モジュールのそれぞれの入力は、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目の畳み込みブロックに入力される。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールからの出力は、ｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含み、Ｍは整数である。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールの出力は、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールの入力をさらに含む。

密集畳み込みネットワークの入力フォーマットは画像フォーマットであるが、復号サブネットワーク１０３は、畳み込みニューラルネットワークの一部として、融合部１０２からの出力を受信、処理するように構成される。復号サブネットワーク１０３の入力のフォーマットは、画像フォーマットとは異なる特徴マップフォーマットである。したがって、密集畳み込みネットワークの改善された構成を用いる復号サブネットワーク１０３が、特徴マップフォーマットを有する入力を受信、処理することができるように、密集畳み込みネットワークの従来の構成を改善された構成に修正すべきである。

密集畳み込みネットワークは、バッチ正規化ＢＮ演算、活性化演算（例えば、ＲｅＬＵ）及び畳み込み演算を実行するように構成される複数の密集ブロックを含む。例えば、複数の密集ブロックのそれぞれは、正規化層、活性化層、及び畳み込み層を有し、当該複数の密集ブロックのそれぞれの関数は、ＢＮ−ＲｅＬＵ−Ｃｏｎｖ（３×３）で表されてもよい。任意選択的に、畳み込み演算は、３×３畳み込みカーネルを使用する。任意選択的に、バッチ正規化ＢＮ演算は、特徴を正規化し、正規化後、事前トレーニング速度を向上させ、出力画像の品質を改善することができる。一例では、バッチ正規化ＢＮは、インスタンス規格化ＩＮと同様である。バッチ正規化ＢＮ演算及びインスタンス正規化ＩＮ演算の両方は、入力画像を１つの所定画調のみと融合させるプロセスに用いられる。入力画像を任意の画調と融合させる（例えば、選択された画調画像の画調に依存する）ために、バッチ正規化ＢＮ演算及びインスタンス正規化ＩＮ演算は、当該プロセスを最適化せず、むしろ、バッチ正規化ＢＮ演算及びインスタンス正規化ＩＮ演算は、事前トレーニングプロセスに悪影響を及ぼすおそれがある。

一部の実施例では、本開示の畳み込みニューラルネットワークは、任意の画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成することができ、これは、畳み込みニューラルネットワークが入力画像を任意の画調と融合することができることを意味する。インスタンス正規化ＩＮ演算又はバッチ正規化ＢＮ演算は、事前トレーニングプロセスに悪影響を及ぼすおそれがあるので、畳み込みニューラルネットワーク内の複数の密集ブロックのそれぞれは、正規化層を使用することができない。したがって、改善された構成を取得するために、密集畳み込みネットワークにおける複数の密集ブロックのそれぞれの通常の構成での正規化層を取り除くべきである。復号サブネットワーク１０３が用いる密集畳み込みネットワークの改善された構成は、それぞれが畳み込み層及び活性化層を有する複数の密集ブロックを含む。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのそれぞれは、改善された密集畳み込みネットワーク構成を採用する。任意選択的に、Ｎ個の畳み込みブロックのそれぞれの関数は、密集畳み込みネットワークにおける複数の密集ブロックのそれぞれの関数と同じである。例えば、Ｎ個の畳み込みブロックのそれぞれの関数は、活性化演算（例えば、ＲｅＬＵ）と畳み込み演算（例えば、畳み込み演算は３×３畳み込みカーネルを用いる）とを含む。

密集畳み込みネットワークの通常の構成では、複数の遷移層のそれぞれは、複数の密集ブロックのそれぞれの後に配置される。複数の遷移層のそれぞれは、プーリング層を含む。本開示において、特徴抽出サブネットワーク１０１は、複数のプーリングブロックを有し、復号サブネットワーク１０３の構成を特徴抽出サブネットワーク１０１の構成に対応させるために、復号サブネットワーク１０３は、特徴抽出サブネットワーク１０１における複数のプーリングブロックに対応する複数の逆プーリングブロックを有するべきである。したがって、復号サブネットワーク１０３が用いる密集畳み込みネットワークの改善された構成は、密集畳み込みネットワークの通常の構成における複数のプーリングブロック（層）の代わりに、複数の逆プーリングブロック（層）を適用する。また、密集して接続される算出モジュールのそれぞれは、逆プーリングブロックのそれぞれの後に配置され、これに対し、通常の構成が有する複数のプーリングブロックのそれぞれは、複数の密集ブロックのそれぞれの後に配置される。

図５Ｂは本開示の一部の実施例に係る、復号サブネットワークにおける密集して接続される算出モジュールの概略構成図である。

図５Ｂを参照すると、一部の実施例では、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールは、Ｎ個の畳み込みブロックを含む。任意選択的に、Ｎ個の畳み込みブロックのそれぞれは畳み込み層と活性化層とを含む。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのｍ番目の密集して接続される算出モジュールは、２つの畳み込みブロックを含む（例えば、Ｎ個の畳み込みブロックのＮは２である）。また、２つの畳み込みブロックのいずれも畳み込み層と活性化層とを有する。一部の実施例では、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールは、３つの畳み込みブロックを含む（例えば、Ｎ個の畳み込みブロックのＮは３である）。一部の実施例では、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールは、４つの畳み込みブロックを含む（例えば、Ｎ個の畳み込みブロックのＮは４である）。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのそれぞれは、同数の畳み込みブロックを有する。一部の実施例では、Ｍ個の密集して接続される算出モジュールは、異なる数の畳み込みブロックを有してもよい。一例では、Ｍ個の密集して接続される算出モジュールのうちの１番目の密集して接続される算出モジュールは、Ｎ１個の畳み込みブロックを有し、Ｍ個の密集して接続される算出モジュールのうちの２番目の密集して接続される算出モジュールは、Ｎ２個の畳み込みブロックを有し、Ｎ１は、Ｎ２とは異なる。

例えば、図５Ａを参照すると、第１の密集して接続される算出モジュールＤＢ１は、２つの畳み込みブロックを含む。第２の密集して接続される算出モジュールＤＢ２は、４つの畳み込みブロックを含む。第３の密集して接続される算出モジュールＤＢ３は、３つの畳み込みブロックを含む。

図５Ｂを参照すると、一部の実施例では、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールは、２つの畳み込みブロックを含む（例えば、Ｎ個の畳み込みブロックのＮは２である）。任意選択的に、第ｍの密集して接続される算出モジュールに含まれる２つの畳み込みブロックは、第１の畳み込みブロック２１ａ及び第２の畳み込みブロック２１ｂである。任意選択的に、第１の畳み込みブロック２１ａは、第１の畳み込み層２０１及び第１の活性化層２０２を含む。任意選択的に、第２の畳み込みブロック２１ｂは、第２の畳み込み層２０３及び第２の活性化層２０４を含む。任意選択的に、第１の畳み込み層２０１及び第２の畳み込み層２０３は、畳み込み演算を実行するように構成される。

一部の実施例では、第１の畳み込み層２０１は、複数種類の特徴をそれぞれ抽出するための複数の第１の畳み込みカーネルを含む。例えば、複数の第１の畳み込みカーネルのそれぞれは、３×３畳み込みカーネルである。任意選択的に、第２の畳み込み層２０３は、複数種類の特徴をそれぞれ抽出するための複数の第２の畳み込みカーネルを含む。例えば、複数の第２の畳み込みカーネルのそれぞれは、３×３畳み込みカーネルである。

一部の実施例では、Ｎ個の畳み込みブロックのそれぞれにおける畳み込み層は、同数の畳み込みカーネルを有し、これで、Ｎ個の畳み込みブロックのそれぞれから出力される出力特徴マップ群が同数の出力特徴マップを有することが保証される。一例では、第１の畳み込み層２０１における第１の畳み込みカーネルの数は、第２の畳み込み層２０３における第２の畳み込みカーネルの数と同じである。別の例では、第１の畳み込み層２０１は、１２個の第１の畳み込みカーネルを含む。第２の畳み込み層２０３は１２個の第２の畳み込みカーネルを含む。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうち、異なる畳み込みブロックにおける畳み込みカーネルの数は異なる。

一部の実施例では、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうち、異なる畳み込みブロックの畳み込み層は異なる。一部の実施例では、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうち、異なる畳み込みブロックにおける活性化層は異なる。例えば、第１の畳み込み層２０１は、第２の畳み込み層２０３と異なる。第１の活性化層２０２は、第２の活性化層２０４と異なる。

一部の実施例では、復号サブネットワーク１０３において、Ｎ個の畳み込みブロックのうちの少なくとも２つは、同じ畳み込み層及び同じ活性化層を有し、同じ畳み込み層は、同数の畳み込みカーネル及び同じパラメータを有する畳み込み層を指し、同じ活性化層は、同じパラメータを有する活性化層を指す。

一部の実施例では、第１の畳み込み層２０１は、複数の３×３畳み込みカーネルを含む。任意選択的に、第１の畳み込み層２０１は、複数の３×３畳み込みカーネルと複数の１×１畳み込みカーネルとを含む。一部の実施例では、第２の畳み込み層２０３は、複数の３×３畳み込みカーネルを含む。任意選択的に、第２の畳み込み層２０３は、複数の３×３畳み込みカーネルと複数の１×１畳み込みカーネルとを含む。

一部の実施例では、第１の活性化層２０２は、第１の畳み込み層２０１からの１番目の出力特徴マップ群に対して活性化演算を実行するように構成される。一部の実施例では、第２の活性化層２０４は、第２の畳み込み層２０３からの２番目の出力特徴マップ群に対して活性化演算を実行するように構成される。

一部の実施例では、第１の活性化層２０２及び第２の活性化層２０４のいずれも、活性化関数を有する。復号サブネットワーク１０３が比較的複雑な問題を効果的に解決できるように、活性化関数は、復号サブネットワーク１０３に非線形要素を追加するために用いられる。任意選択的に、活性化関数は、ＲｅＬＵ関数を含む。ＲｅＬＵ関数は、Ｌｅａｋｙ−ＲｅＬＵ関数、Ｐ−ＲｅＬＵ関数、及びＲ−ＲｅＬＵ関数を含む非飽和非線形関数である。一例では、第１の活性化層２０２で用いられる活性化関数は、第２の活性化層２０４で用いられる活性化関数と同じである。別の一例、第１の活性化層２０２で用いられる活性化関数は、第２の活性化層２０４で用いられる活性化関数とは異なる。

一部の実施例では、図５Ａを参照すると、復号サブネットワーク１０３は、複数の逆プーリングブロックをさらに含む。例えば、複数の逆プーリングブロックは、第１の逆プーリングブロックＴ１、第２の逆プーリングブロックＴ２、及び第３の逆プーリングブロックＴ３を含む。

図５Ｃは本開示の一部の実施例に係る、復号サブネットワークの逆プーリングブロックの概略構成図である。図５Ｃを参照すると、一部の実施例では、複数の逆プーリングブロックのそれぞれは、畳み込み層、活性化層、及びアップサンプリング動作を実施するための逆プーリング層を含む。例えば、図５Ｃには、第１の逆プーリングブロックＴ１の構成が示されている。図５Ｃ及び図５Ａを参照すると、第１の逆プーリングブロックＴ１は、第１の逆プーリング畳み込み層２１１、第１の逆プーリング活性化層２１２、及びアップサンプリング動作を実行するための第１の逆プーリング層２１３を含む。第２の逆プーリングブロックＴ２は、第２の逆プーリング畳み込み層、第２の逆プーリング活性化層、及びアップサンプリング動作を実施するための第２の逆プーリング層を含む。第３の逆プーリングブロックＴ３は、第３の逆プーリング畳み込み層、第３の逆プーリング活性化層、及びアップサンプリング動作を実行するための第３の逆プーリング層を含む。

一部の実施例では、Ｎ個の畳み込みブロックにおける畳み込み層は、複数の逆プーリングブロックにおける畳み込み層と異なる。一部の実施例では、Ｎ個の畳み込みブロックにおける畳み込み層の少なくとも１つは、複数の逆プーリングブロックにおける畳み込み層の１つと同じである。

一部の実施例では、Ｎ個の畳み込みブロックにおける活性化層は、複数の逆プーリングブロックにおける活性化層と異なる。一部の実施例では、Ｎ個の畳み込みブロックにおける活性化層の少なくとも１つは、複数の逆プーリングブロックにおける活性化層の１つと同じである。

一部の実施例では、第１の逆プーリング畳み込み層２１１は、畳み込み演算を実行するための複数の第３の畳み込みカーネルを含む。任意選択的に、複数の第３の畳み込みカーネルは、１×１畳み込みカーネルを含む。任意選択的に、第１の逆プーリング畳み込み層２１１は、第１の逆プーリング畳み込み層２１１に入力される特徴マップの数を低減するために用いられることにより、特徴マップの数を低減することができる。

一部の実施例では、第２の逆プーリングブロックＴ２の畳み込み層の畳み込みカーネルの数は、第３の逆プーリングブロックＴ３の畳み込み層の畳み込みカーネルの数と同じである。しかし、第２の逆プーリングブロックＴ２の畳み込み層の畳み込みカーネル数は、第１の逆プーリングブロックＴ１の畳み込み層の畳み込みカーネル数と異なる。例えば、第２の逆プーリングブロックＴ２の畳み込み層は１２個の畳み込みカーネルを有する。第３の逆プーリングブロックＴ３の畳み込み層は１２個の畳み込みカーネルを有する。第１のプーリングブロックＴ１の畳み込み層は、６４個の畳み込みカーネルを有する。

一部の実施例では、第１の逆プーリング活性化層２１２は、第１の逆プーリング畳み込み層２１１から出力される特徴マップに対して活性化操作を実行するように構成される。任意選択的に、第１の逆プーリング活性化層２１２は、ＲｅＬＵ関数を有する。

一部の実施例では、第１の逆プーリング層２１３は、第１の逆プーリング活性化層２１２からの出力に対してアップサンプリング動作を実施するように構成される。第１の逆プーリング層２１３は、第１の逆プーリング層２１３に入力される特徴マップのデータ量を増加させることができる。復号サブネットワーク１０２は、第１の逆プーリング層２１３を用いてアップサンプリングを実行することにより、アップサンプリングの計算量を低減し、畳み込みニューラルネットワークの計算速度を向上させ、メモリ使用量を低減することができる。

一部の実施例では、第１の逆プーリングブロックＴ１により実行されるアップサンプリング、第２の逆プーリングブロックＴ２により実行されるアップサンプリング、及び第３の逆プーリングブロックＴ３により実行されるアップサンプリングは同じである。一部の実施例では、第１の逆プーリングブロックＴ１により実行されるアップサンプリング、第２の逆プーリングブロックＴ２により実行されるアップサンプリング、及び第３の逆プーリングブロックＴ３により実行されるアップサンプリングのうちの少なくとも２つは異なる。

アッププーリング層は、様々な適切な方法を用いてアップサンプリングを実行することができる。任意選択的に、第１の逆プーリング層２１３は、最大プーリングを用いてアップサンプリングを実行してもよい。サンプリングファクタは、２×２マトリクスである。任意選択的に、第１の逆プーリング層２１３は、ストライド転置畳み込み又は補間（例えば、補間、バイキュービック補間など）を用いてアップサンプリングを実行してもよい。

復号サブネットワークにおける密集して接続される算出モジュールを、密集畳み込みネットワークにおける密集ブロックと比較すると、復号サブネットワークにおける密集して接続される算出モジュールは、正規化層を含まないが、密集畳み込みネットワークにおける密集ブロックは、正規化層を含む。

密集畳み込みネットワークは、複数の遷移層を含む。復号サブネットワークにおける複数の逆プーリングブロックは、それぞれ、密集畳み込みネットワークにおける複数の遷移層に対応する。復号サブネットワークにおける複数の逆プーリングブロックを、密集畳み込みネットワークにおける複数の遷移層と比較すると、復号サブネットワークにおける複数の逆プーリングブロックは、アップサンプリングを実行するように構成され、これに対し、密集畳み込みネットワークにおける複数の遷移層は、ダウンサンプリングを実行するように構成される。

図５Ｄは本開示の一部の実施例に係る、復号サブネットワークにおける出力層の概略構成図である。図５Ａ及び図５Ｄを参照すると、一部の実施例では、復号サブネットワーク１０３は出力層ＯＰをさらに含む。任意選択的に、出力層ＯＰは出力畳み込み層２２１を含む。任意選択的に、出力層ＯＰは、第３の密集して接続される算出モジュールＤＢ３からの特徴マップを特徴空間から画像空間へ変換して出力画像を生成するように構成される。

図５Ａを参照すると、一部の実施例では、Ｍ個の密集して接続される算出モジュールは、第１の密集して接続される算出モジュールＤＢ１、第２の密集して接続される算出モジュールＤＢ２、及び第３の密集して接続される算出モジュールＤＢ３を含む。複数の逆プーリングブロックは、第１の逆プーリングブロックＴ１、第２の逆プーリングブロックＴ２、及び第３の逆プーリングブロックＴ３を含む。

任意選択的に、第１の逆プーリングブロックＴ１、第１の密集して接続される算出モジュールＤＢ１、第２の逆プーリングブロックＴ２、第２の密集して接続される算出モジュールＤＢ２、第３の逆プーリングブロックＴ３、第３の密集して接続される算出モジュールＤＢ３が順次接続される。一例では、第１の逆プーリングブロックＴ１は、第１の密集して接続される算出モジュールＤＢ１の前に位置する。別の一例では、第２の逆プーリングブロックＴ２は、第１の密集して接続される算出モジュールＤＢ１と第２の密集して接続される算出モジュールＤＢ２との間に位置する。別の一例では、第３の逆プーリングブロックＴ３は、第２の密集して接続される算出モジュールＤＢ２と第３の密集して接続される算出モジュールＤＢ３との間に位置する。

任意選択的に、第１の密集して接続される算出モジュールＤＢ１は、第１の逆プーリングブロックＴ１からの出力を受信し、第２の逆プーリングブロックＴ２への出力を生成するように構成される。任意選択的に、第２の密集して接続される算出モジュールＤＢ２は、第２の逆プーリングブロックＴ２からの出力を受信し、第３の逆プーリングブロックＴ３への出力を生成するように構成される。第３の密集して接続される算出モジュールＤＢ３は、第３の逆プーリングブロックＴ３からの出力を受信し、出力層ＯＰへの出力を生成するように構成される。

図６Ａは本開示の一部の実施例に係る畳み込みニューラルネットワークの概略構成図である。図２Ｂ及び図６Ａを参照すると、一部の実施例では、復号サブネットワーク１０３により複数の出力特徴マップを再構成するプロセスは、第１の逆プーリングブロックＴ１により複数の出力特徴マップＦ１を処理して、複数の第１の逆プーリング特徴マップＰ１を生成する段階と、第１の密集して接続される算出モジュールＤＢ１を用いて複数の第１の逆プーリング特徴マップＰ１の特徴を抽出して、複数の第１の中間復号特徴マップＭ１を生成する段階と、第２の逆プーリングブロックＴ２により複数の第１の中間復号特徴マップＭ１を処理して、複数の第２の逆プーリング特徴マップＰ２を生成する段階と、第２の密集して接続される算出モジュールＤＢ２を用いて複数の第２の逆プーリング特徴マップＰ２の特徴を抽出して、複数の第２の中間復号特徴マップＭ２を生成する段階と、第３の逆プーリングブロックＴ３により複数の第２の中間復号特徴マップＭ２を処理して、複数の第３の逆プーリング特徴マップＰ３を生成する段階と、第３の密集して接続される算出モジュールＤＢ３を用いて複数の第３の逆プーリング特徴マップＰ３の特徴を抽出して、複数の第３の中間復号特徴マップＭ３を生成する段階と、出力層ＯＰを用いて複数の第３の中間復号特徴マップＭ３を特徴空間から画像空間へ変換して、出力画像Ｆ２を生成する段階とをさらに含む。

一部の実施例では、複数の出力特徴マップＦ１の数は５１２であり、複数の出力特徴マップは同じサイズ（例えば、２８×２８）を有する。図５Ｃ及び図６Ａを参照すると、一部の実施例では、第１の逆プーリングブロックＴ１により複数の出力特徴マップＦ１を処理して複数の第１の逆プーリング特徴マップＰ１を生成するプロセスにおいて、第１の逆プーリングブロックＴ１は、複数の出力特徴マップＦ１に対して畳み込み演算、活性化演算、及びアップサンプリング動作を順次実行して、複数の第１の逆プーリング特徴マップＰ１を生成するように構成される。任意選択的に、複数の第１の逆プーリング特徴マップＰ１における特徴マップの数が６４に低減される。複数の第１の逆プーリング特徴マップＰ１は、同じサイズ（例えば、５６×５６）を有する。

一部の実施例では、第１の密集して接続される算出モジュールＤＢ１を用いて複数の第１の逆プーリング特徴マップＰ１の特徴を抽出して複数の第１の中間復号特徴マップＭ１を生成するプロセスにおいて、第１の密集して接続される算出モジュールＤＢ１は、第１の畳み込みブロック２１ａ及び第２の畳み込みブロック２１ｂを含む。

任意選択的に、第１の密集して接続される算出モジュールＤＢ１の第１の畳み込みブロック２１ａは、複数の第１の逆プーリング特徴マップＰ１に対して畳み込み演算及び活性化演算を順次実行して、１番目の出力特徴マップ群Ｍ１１を生成するように構成される。

任意選択的に、第１の密集して接続される算出モジュールＤＢ１の第２の畳み込みブロック２１ｂは、複数の第１の逆プーリング特徴マップＰ１及び１番目の出力特徴マップ群Ｍ１１に対して、畳み込み演算及び活性化演算を順次実行して、２番目の出力特徴マップ群Ｍ１２を生成するように構成される。

任意選択的に、複数の第１の中間復号特徴マップＭ１は、複数の第１の逆プーリング特徴マップＰ１と、１番目の出力特徴マップ群Ｍ１１と、２番目の出力特徴マップ群Ｍ１２とを含む。複数の第１の逆プーリング特徴マップＰ１における特徴マップの数は６４である。１番目の出力特徴マップ群Ｍ１１における特徴マップの数は１２である。２番目の出力特徴マップ群Ｍ１２における特徴マップの数は１２である。したがって、複数の第１の中間復号特徴マップＭ１における特徴マップの数は、８８（例えば、６４＋１２＋１２）である。複数の第１の中間復号特徴マップＭ１は、同じサイズ（例えば、５６×５６）を有する。

一部の実施例では、第２の逆プーリングブロックＴ２により複数の第１の中間復号特徴マップＭ１を処理して複数の第２の逆プーリング特徴マップＰ２を生成するプロセスにおいて、第２の逆プーリングブロックＴ２は、複数の第１の中間復号特徴マップＭｌに対して畳み込み演算、活性化演算、及びアップサンプリング動作を順次実行して、複数の第２の逆プーリング特徴マップＰ２を生成するように構成される。任意選択的に、複数の第２の逆プーリング特徴マップＰ２内の特徴マップの数は４４に低減される。複数の第２の逆プーリング特徴マップＰ２は、同じサイズ（例えば、１１２×１１２）を有する。

一部の実施例では、第２の密集して接続される算出モジュールＤＢ２を用いて複数の第２の逆プーリング特徴マップＰ２の特徴を抽出して複数の第２の中間復号特徴マップＭ２を生成するプロセスにおいて、第２の密集して接続される算出モジュールＤＢ２は、第３の畳み込みブロック２１ｃ及び第４の畳み込みブロック２１ｄを含む。

任意選択的に、第２の密集して接続される算出モジュールＤＢ２の第３の畳み込みブロック２１ｃは、複数の第２の逆プーリング特徴マップＰ２に対して、畳み込み演算及び活性化演算を順次実行して、３番目の出力特徴マップ群Ｍ２１を生成する。

任意選択的に、第２の密集して接続される算出モジュールＤＢ２の第４の畳み込みブロック２１ｄは、複数の第２の逆プーリング特徴マップＰ２及び３番目の出力特徴マップ群Ｍ２１に対して、畳み込み演算及び活性化演算を順次実行して、４番目の出力特徴マップ群Ｍ２２を生成するように構成される。

任意選択的に、複数の第２の中間復号特徴マップＭ２は、複数の第２の逆プーリング特徴マップＰ２、３番目の出力特徴マップ群Ｍ２１、及び４番目の出力特徴マップ群Ｍ２２を含む。複数の第２逆プーリング特徴マップＰ２内の特徴マップの数は４４である。３番目の出力特徴マップ群Ｍ２１における特徴マップの数は１２である。４番目の出力特徴マップ群Ｍ２２における特徴マップの数は１２である。したがって、複数の第２の中間復号特徴マップＭ２における特徴マップの数は、６８（例えば、４４＋１２＋１２）である。複数の第２の中間復号特徴マップＭ２は、同じサイズ（例えば、１１２×１１２）を有する。

一部の実施例では、第３の逆プーリングブロックＴ３により複数の第２の中間復号特徴マップＭ２を処理して複数の第３の逆プーリング特徴マップＰ３を生成するプロセスにおいて、第３の逆プーリングブロックＴ３は、複数の第２の中間復号特徴マップＭ２に対して畳み込み演算、活性化演算、及びアップサンプリング動作を順次実行して、複数の第３の逆プーリング特徴マップＰ３を生成するように構成される。任意選択的に、複数の第３の逆プーリング特徴マップＰ３内の特徴マップの数は３４に低減される。複数の第３の逆プーリング特徴マップＰ３は、同じサイズ（例えば、２２４×２２４）を有する。

一部の実施例では、第３の密集して接続される算出モジュールＤＢ３を用いて複数の第３の逆プーリング特徴マップＰ３の特徴を抽出して複数の第３の中間復号特徴マップＭ３を生成するプロセスにおいて、第３の密集して接続される算出モジュールＤＢ３は、第５の畳み込みブロック２１ｅ及び第６の畳み込みブロック２１ｆを含む。

任意選択的に、第３の密集して接続される算出モジュールＤＢ３の第５の畳み込みブロック２１ｅは、複数の第３の逆プーリング特徴マップＰ３に対して、畳み込み演算及び活性化演算を順次実行して、５番目の出力特徴マップ群Ｍ３１を生成する。

任意選択的に、第３の密集して接続される算出モジュールＤＢ３の第６の畳み込みブロック２１ｆは、複数の第３の逆プーリング特徴マップＰ３及び５番目の出力特徴マップ群Ｍ３１に対して、畳み込み演算及び活性化演算を順次実行して、６番目の出力特徴マップ群Ｍ３２を生成する。

任意選択的に、複数の第３の中間復号特徴マップＭ３は、複数の第３の逆プーリング特徴マップＰ３、５番目の出力特徴マップ群Ｍ３１、及び６番目の出力特徴マップ群Ｍ３２を含む。複数の第３逆プーリング特徴マップＰ３における特徴マップの数は３４である。５番目の出力特徴マップ群Ｍ３１における特徴マップの数は１２である。６番目の出力特徴マップ群Ｍ３２における特徴マップの数は１２である。したがって、複数の第３の中間復号特徴マップＭ３における特徴マップの数は、５８（例えば、３４＋１２＋１２）である。複数の第３の中間復号特徴マップＭ３は、同じサイズ（例えば、２２４×２２４）を有する。

一部の実施例では、出力層ＯＰを用いて複数の第３の中間復号特徴マップＭ３を特徴空間から画像空間へ変換して、出力画像Ｆ２を生成するプロセスにおいて、出力層ＯＰは、複数の第３の中間復号特徴マップＭ３を特徴空間から画像空間へ変換して出力画像Ｆ２を生成するように構成される。任意選択的に、出力画像Ｆ２は、３つのカラーチャンネル、例えば赤チャネルＲ、緑チャネルＧ及び青チャネルＢを含む。

一部の実施例では、畳み込み層の畳み込みカーネルは異なる。一例では、特徴抽出サブネットワーク１０１内の畳み込み層の畳み込みカーネルは異なる。別の一例では、復号サブネットワーク１０３内の畳み込み層の畳み込みカーネルは異なる。一部の実施例では、畳み込み層における少なくとも２つの畳み込みカーネルは、同じである。一例では、特徴抽出サブネットワーク１０１の畳み込み層における少なくとも２つの畳み込みカーネルは同じである。別の一例では、復号サブネットワーク１０３の畳み込み層における少なくとも２つの畳み込みカーネルは、同じである。

一部の実施例では、特徴抽出サブネットワーク１０１は、複数のプーリングブロックを含む。任意選択的に、特徴抽出サブネットワーク１０１の複数のプーリングブロックは、それぞれ、復号サブネットワーク１０３における複数の逆プーリングブロックに対応する。図６Ａを参照すると、一部の実施例では、特徴抽出サブネットワーク１０１は、第１のプーリングブロックＰＢ１、第２のプーリングブロックＰＢ２、及び第３のプーリングブロックＰＢ３を含む。任意選択的に、第１のプーリングブロックＰＢ１は、第１のプーリング層ＰＬ１を含む。第２のプーリングブロックＰＢ２は、第２のプーリング層ＰＬ２を含む。第３のプーリングブロックＰＢ３は、第３のプーリング層ＰＬ３を含む。例えば、第１のプーリングブロックＰＢ１は、第３の逆プーリングブロックＴ３に対応する。第２のプーリングブロックＰＢ２は、第３の逆プーリングブロックＴ２に対応する。第３のプーリングブロックＰＢ３は、第１の逆プーリングブロックＴ１に対応する。

一部の実施例では、特徴抽出サブネットワーク１０１は、第１の畳み込み層群ＣＰ１、第２の畳み込み層群ＣＰ２、第３の畳み込み層群ＣＰ３、及び第４の畳み込み層群ＣＰ４をさらに含む。任意選択的に、第１のプーリング層ＰＬ１は、第１の畳み込み層群ＣＰ１と第２の畳み込み層群ＣＰ２との間に位置し、第２のプーリング層ＰＬ２は、第２の畳み込み層群ＣＰ２と第３の畳み込み層群ＣＰ３との間に位置し、第３のプーリング層ＰＬ３は、第３の畳み込み層群ＣＰ３と第４の畳み込み層群ＣＰ４との間に位置する。

一部の実施例では、特徴抽出サブネットワーク１０１は、予めトレーニングされたＶＧＧ１６ネットワークの上位８層を用いることができる。任意選択的に、複数の画調特徴マップは、ＶＧＧ１６ネットワークの第ＲｅＬｕ４＿１層から出力される特徴マップを含む。任意選択的に、複数のコンテンツ特徴は、ＶＧＧ１６ネットワークの第ＲｅＬｕ４＿１層から出力される特徴マップを含む。

例えば、特徴抽出サブネットワーク１０１を用いて、画調画像から特徴を抽出することにより、複数の画調特徴マップが生成される。特徴抽出サブネットワーク１０１を用いて入力画像から特徴を抽出することにより、複数のコンテンツ特徴マップが生成される。

一部の実施例では、特徴抽出サブネットワーク１０１は、予めトレーニングされたＶＧＧ１９ネットワークの上位１４層を用いることができる。任意選択的に、複数の画調特徴マップは、ＶＧＧ１９ネットワークの第ＲｅＬｕ５＿２層から出力される特徴マップを含む。任意選択的に、複数のコンテンツ特徴は、ＶＧＧ１９ネットワークの第ＲｅＬｕ５＿２層から出力される特徴マップを含む。

本明細書で用いられる場合、用語「ＶＧＧ１６ネットワーク」は、「ＯｘｆｏｒｄＮｅｔ」とも呼ばれ、オックスフォード大学のＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐにより開発された畳み込みニューラルネットワークである。ＶＧＧ１６ネットワークは、１６個の畳み込み層を含む。同様に、ＶＧＧ１９ネットワークは、１９個の畳み込み層を含む。

一部の実施例では、ＶＧＧ１６ネットワークは、１番目の畳み込み層群、第１のプーリング層、２番目の畳み込み層群、第２のプーリング層、３番目の畳み込み層群、第３のプーリング層、４番目の畳み込み層群、第４のプーリング層、及び全結合層を含む。

任意選択的に、１番目の畳み込み層群は、２つの畳み込み層と２つの活性化層とを含む。２つの畳み込み層のそれぞれにおける３×３畳み込みカーネルの数は６４である。任意選択的に、２番目の畳み込み層群は、２つの畳み込み層と２つの活性化層とを含む。２つの畳み込み層のそれぞれにおける３×３畳み込みカーネルの数は１２８である。任意選択的に、３番目の畳み込み層群は、３つの畳み込み層と３つの活性化層とを含む。３つの畳み込み層のそれぞれにおける３×３畳み込みカーネルの数は２５６である。任意選択的に、４番目の畳み込み層群は、３つの畳み込み層と３つの活性化層とを含む。３つの畳み込み層のそれぞれにおける３×３畳み込みカーネルの数は５１２である。任意選択的に、ＶＧＧ１６ネットワークの第ＲｅＬｕ４＿１層は、４番目の畳み込み層群における第１の活性化層を表す。

図２Ｂ及び図６Ａを参照すると、特徴抽出サブネットワーク１０１において、複数の畳み込み層群は、第１の畳み込み層群ＣＰ１、第２の畳み込み層群ＣＰ２、第３の畳み込み層群ＣＰ３、及び第４の畳み込み層群ＣＰ４を含む。複数の畳み込み層群のそれぞれは、画調画像から画調特徴を抽出するように構成される。画調特徴は、畳み込みニューラルネットワークの異なる層からの特徴マップ間の関係を表す。画調特徴には、テクスチャ情報、色情報などが含まれる。例えば、テクスチャ情報（特徴マップ間の相関を示す）は、位置に依存しない。

一部の実施例では、複数の畳み込み層群のそれぞれは、入力画像のコンテンツ特徴を抽出するように構成される。コンテンツ特徴は、画像内の物体の分布を表す。例えば、コンテンツ特徴は、入力画像のコンテンツ情報を含む。

一部の実施例では、第１の畳み込み層群ＣＰ１は、２つの畳み込み層と２つの活性化層とを含み、第２の畳み込み層群ＣＰ２は、２つの畳み込み層と２つの活性化層とを含み、第３の畳み込み層群ＣＰ３は３つの畳み込み層と３つの活性化層を含み、第４の畳み込み層群は、１つの畳み込み層と１つの活性化層とを含む。

一部の実施例では、特徴抽出サブネットワーク１０１において、複数のプーリング層は、第１のプーリング層ＰＬ１、第２のプーリング層ＰＬ２、及び第３のプーリング層ＰＬ３を含む。複数のプーリング層は、ダウンサンプリング演算を用いて特徴マップをサンプリングすることができる。任意選択的に、複数のプーリング層のそれぞれは、複数の畳み込み層群のそれぞれからの出力に対してダウンサンプリング演算を実行するように構成される。例えば、第１のプーリング層ＰＬ１は第１の畳み込み層群ＣＰ１の出力をダウンサンプリングする。

一部の実施例では、複数のプーリング層は、特徴マップのサイズを縮小することにより特徴マップのデータ量を低減することができる。特徴マップの数は、ダウンサンプリング演算前の数と同じであるように維持される。

ダウンサンプリング演算では、様々な適切な方法を用いることができる。ダウンサンプリング演算に適した方法の例としては、最大プーリング、平均プーリング、ランダムプーリング、ダウンサンプリング（例えば、固定位置の画素のアンダーサンプリングを選択する）、及び逆多重化出力（例えば、入力画像を複数のより小さい画像に分割する）を含むが、これらに限定されない。

一部の実施例では、特徴抽出サブネットワーク１０１の複数のプーリングブロックが、それぞれ、復号サブネットワーク１０３の複数の逆プーリングブロックに対応するということは、特徴抽出サブネットワーク１０１の複数のプーリングブロックにおける複数のプーリング層のそれぞれのアップサンプリングファクタが、それぞれ、復号サブネットワーク１０３の複数の逆プーリングブロックにおける複数の逆プーリング層のそれぞれのダウンサンプリングファクタに対応することを意味する。

一部の実施例では、図６Ａ及び図５Ｃを参照すると、第３のプーリングブロックＰＢ３は、第１の逆プーリングブロックＴ１に対応する。第３のプーリングブロックＰＢ３は、第３のプーリング層ＰＬ３を含み、第１の逆プーリングブロックＴ３は、第１の逆プーリング層２１３を含む。第３のプーリング層ＰＬ３は、第１の逆プーリング層２１３に対応する。例えば、第３のプーリング層ＰＬ３のダウンサンプリングファクタはＱであり、第３のプーリング層ＰＬ３は、第３のプーリング層ＰＬ３に入力される特徴マップのデータ量をＱ分の１に縮減することができる。第１の逆プーリング層２１３のアップサンプリング層ファクタは１／Ｑであり、第１の逆プーリング層２１３は、第１の逆プーリング層２１３に入力される特徴マップのデータ量をＱ倍に増加させることができる。任意選択的に、第２のプーリングブロックＰＢ２内の第２のプーリング層ＰＬ２は、第２の逆プーリングブロックＴ２内の第２逆プーリング層に対応する。任意選択的に、第１のプーリングブロックＰＢ１内の第１のプーリング層ＰＬ１は、第３の逆プーリングブロックＴ３内の第３の逆プーリング層に対応する。

一部の実施例では、畳み込みニューラルネットワーク１００からの出力画像のサイズが入力画像のサイズと同じであれば、複数のプーリング層の数と複数の逆プーリング層の数は異なってもよい。

図７は本開示の一部の実施例に係る、プーリングプロセス及び逆プーリングプロセスの概略図である。図７を参照すると、図７の左側は、プーリング演算を示し、図７の右側は、逆プーリング演算を示す。プーリング演算は、ダウンサンプリング演算を含む。逆プーリング演算は、アップサンプリング動作を含む。

図７の左の部分を参照すると、一部の実施例では、プーリング演算において、第１の入力特徴マップ７０１のサイズは、３×３である。第１の入力特徴マップ７０１の９個の画素のそれぞれは、値を有する。９個の画素のうち、最大値を有する画素の座標は（０，１）であり、当該最大値を有する画素の最大値は８である。

任意選択的に、プーリング演算は、最大プーリングを採用し、最大プーリングで採用されるダウンサンプリングファクタは、３×３マトリクスである。例えば、第１の入力特徴マップ７０１に対してプーリング演算を実行して、第１の出力特徴マップ７０２を生成する。第１の出力特徴マップ７０２のサイズは、１×１である。第１の出力特徴７０２は１画素を有し、第１の出力特徴７０２の当該１画素の値は８である。

図７の右側部分を参照すると、一部の実施例では、第２の入力特徴マップ７０３のサイズは１×１である。第２の入力特徴マップ７０３のサイズは、３×３に拡大され、これは、逆プーリング演算により実現され得る。

一部の実施例では、逆プーリング層は、逆プーリング演算を実行する場合、対応するプーリング層が実行するプーリング演算のパラメータを取得する必要がある。

逆プーリング演算では、アップサンプリングファクタは３×３マトリクスである。例えば、逆プーリング演算は、この前のプーリング演算に対応する。この前のプーリング演算では、最大値を有する画素の座標が取得された。逆プーリング演算では、画素のうち最大値を有する画素の座標が用いられる。例えば、画素のうち最大値を有する画素の座標は（０，１）である。座標が（０、１）である画素に最大活性化値（例えば、７．８）でパディングし、９個の画素のうち残りの画素を０でパディングすることにより、第２の出力特徴マップ７０４を生成し、第２の出力特徴マップ７０４のサイズは、３×３である。

一部の実施例では、図２Ｂ、図３及び図６Ａを参照すると、特徴抽出サブネットワーク１０１を用いて画調画像Ｆ０の画調特徴を抽出して複数の画調特徴マップＦ１１を生成するプロセスは、第１の畳み込み層ＣＰ１を用いて画調画像Ｆ０の画調特徴を抽出して複数の第１の中間画調特徴マップＦＳ１１を生成するステップと、第１のプーリング層ＰＬ１を用いて複数の第１の中間画調特徴マップＦＳ１１をダウンサンプリングして複数の第１のプーリング画調特徴マップＰＳ１を生成するステップと、第２の畳み込み層ＣＰ２を用いて複数の第１のプーリング画調特徴マップＰＳ１の画調特徴を抽出して複数の第２の中間画調特徴マップＦＳ２１を生成するステップと、第２のプーリング層ＰＬ２を用いて複数の第２の中間画調特徴マップＦＳ２１をダウンサンプリングして複数の第２のプーリング画調特徴マップＰＳ２を生成するステップと、第３の畳み込み層ＣＰ３を用いて複数の第２のプーリング画調特徴マップＰＳ２の画調特徴を抽出して複数の第３の中間画調特徴マップＦＳ３１を生成するステップと、第３のプーリング層ＰＬ３を用いて複数の第３の中間画調特徴マップＦＳ３１をダウンサンプリングして複数の第３のプーリング画調特徴マップＰＳ３を生成するステップと、第４の畳み込み層ＣＰ４を用いて複数の第３のプーリング画調特徴マップＰＳ３の画調特徴を抽出して複数の第４の中間画調特徴マップＦＳ４を生成するステップと、を含む。任意選択的に、複数の画調特徴マップＦ１１は複数の第４中間画調特徴マップＦＳ４を含む。

図６Ｂは本開示の一部の実施例に係る畳み込みニューラルネットワークの概略構成図である。図２Ｂ、図３、及び図６Ｂを参照すると、特徴抽出サブネットワーク１０１を用いて入力画像Ｃ０のコンテンツ特徴を抽出して複数のコンテンツ特徴マップＣ１１を生成するプロセスは、第１の畳み込み層群ＣＰ１を用いて入力画像Ｃ０のコンテンツ特徴を抽出して複数の第１の中間コンテンツ特徴マップＦＣ１１を生成するステップと、第１のプーリング層ＰＬ１を用いて複数の第１の中間コンテンツ特徴マップＦＣ１１をダウンサンプリングして複数の第１のプーリングコンテンツ特徴マップＰＣ１を生成するステップと、第２の畳み込み層群ＣＰ２を用いて複数の第１のプーリングコンテンツ特徴マップＰＣ１のコンテンツ特徴を抽出して複数の第２の中間コンテンツ特徴マップＦＣ２１を生成するステップと、第２のプーリング層ＰＬ２を用いて複数の第２の中間コンテンツ特徴マップＦＣ２１をダウンサンプリングして複数の第２のプーリングコンテンツ特徴マップＰＣ２を生成するステップと、第３の畳み込み層群ＣＰ３を用いて複数の第２のプーリングコンテンツ特徴マップＰＣ２のコンテンツ特徴を抽出して複数の第３の中間コンテンツ特徴マップＦＣ３１を生成するステップと、第３のプーリング層ＰＬ３を用いて複数の第３の中間コンテンツ特徴マップＦＣ３１をダウンサンプリングして複数の第３のプーリングコンテンツ特徴マップＰＣ３を生成するステップと、第４の畳み込み層群ＣＰ４を用いて複数の第３のプーリングコンテンツ特徴マップＰＣ３のコンテンツ特徴を抽出して複数の第４の中間コンテンツ特徴マップＦＣ４を生成するステップとを含む。任意選択的に、複数のコンテンツ特徴マップＣ１１は、複数の第４の中間コンテンツ特徴マップＦＣ４を含む。

一部の実施例では、入力画像Ｃ０は、画調画像Ｆ０と同じサイズを有する。一例では、入力画像Ｃ０のサイズと画調画像Ｆ０のサイズのいずれも２２４×２２４である。別の一例では、入力画像Ｃ０のサイズと画調画像Ｆ０のサイズのいずれも２５６×２５６である。任意選択的に、入力画像Ｃ０のサイズと、画調画像Ｆ０のサイズとが異なる。例えば、入力画像Ｃ０のサイズは８００×８００であり、画調画像Ｆ０のサイズは２５６×２５６である。

一部の実施例では、画調画像Ｆ０のサイズは、２２４×２２４である。任意選択的に、画調画像Ｆ０は、３つのカラーチャンネル、例えば赤チャンネルＲ、緑チャンネルＧ及び青チャンネルＢを含む。

一部の実施例では、図６Ａを参照すると、第１の畳み込み層群ＣＰ１は、第１の抽出畳み込み層Ｃ１１、第２の抽出畳み込み層Ｃ１２、第１の抽出活性化層Ｒ１１、及び第２の抽出活性化層Ｒ１２を含む。任意選択的に、第１の畳み込み層群ＣＰ１の各抽出畳み込み層は、複数の３×３畳み込みカーネルを有する。第１の畳み込み層群ＣＰ１における複数の３×３畳み込みカーネルの数は６４である。

一部の実施例では、第１の抽出畳み込み層Ｃ１１及び第１の抽出活性化層Ｒ１１は、画調画像Ｆ０の画調特徴を抽出して、複数の第５の中間画調特徴マップＦＳ１０を生成するように構成される。一部の実施例では、第２の抽出畳み込み層Ｃ１２及び第２の抽出活性化層Ｒ１２は、複数の第５の中間画調特徴マップＦＳ１０の画調特徴を抽出して、複数の第１の中間画調特徴マップＦＳ１１を生成するように構成される。

任意選択的に、複数の第５の中間画調特徴マップＦＳ１０の数は６４である。任意選択的に、複数の第５の中間画調特徴マップＦＳ１０は、同じサイズを有し、例えば、複数の第５の中間画調特徴マップＦＳ１０のそれぞれのサイズは２２４×２２４である。任意選択的に、複数の第１の中間画調特徴マップＦＳ１１の数は６４である。また、複数の第１の中間画調特徴マップＦＳ１１は同じサイズを有し、例えば、複数の第１の中間画調特徴マップＦＳ１１のそれぞれのサイズは２２４×２２４である。

一部の実施例では、第１のプーリング層ＰＬ１は、複数の第１の中間画調特徴マップＦＳ１１に対してダウンサンプリング演算を実行して、複数の第１のプーリング画調特徴マップＰＳ１を生成するように構成される。任意選択的に、複数の第１のプーリング画調特徴マップＰＳ１は、同じサイズを有する。

一部の実施例では、第１のプーリング層ＰＬ１のダウンサンプリングファクタは、ステップサイズが２である２×２マトリクスである。任意選択的に、複数の第１の中間画調特徴マップＦＳ１１のサイズは２２４×２２４である。ダウンサンプリング演算後に、複数の第１のプーリング画調特徴マップＰＳ１は複数の第１の中間画調特徴マップＦＳ１１に基づいて生成され、複数の第１のプーリング画調特徴マップＰＳ１のそれぞれのサイズは１１２×１１２である。任意選択的に、複数の第１の中間画調特徴マップＦＳ１１の数は６４であり、複数の第１のプーリング画調特徴マップＰＳ１の数も６４である。例えば、複数の第１の中間画調特徴マップＦＳ１１の数は、複数の第１のプーリング画調特徴マップＰＳ１の数と同じである。複数の第１のプーリング画調特徴マップＰＳ１のそれぞれのサイズは、複数の第１の中間画調特徴マップＦＳ１１のそれぞれのサイズの０．２５倍である。

一部の実施例では、第２の畳み込み層群ＣＰ２は、第３の抽出畳み込み層Ｃ２１、第４の抽出畳み込み層Ｃ２２、第３の抽出活性化層Ｒ２１、及び第４の抽出活性化層Ｒ２２を含む。任意選択的に、第２の畳み込み層群ＣＰ２の各抽出畳み込み層は、複数の３×３畳み込みカーネルを有する。第２の畳み込み層群ＣＰ２における複数の３×３畳み込みカーネルの数は１２８である。

一部の実施例では、第３の抽出畳み込み層Ｃ２１及び第３の抽出活性化層Ｒ２１は、複数の第１のプーリング画調特徴マップＰＳ１の画調特徴を抽出して、複数の第６の中間画調特徴マップＦＳ２０を生成するように構成される。一部の実施例では、第４の抽出畳み込み層Ｃ２２及び第４の抽出活性化層Ｒ２２は、複数の第６の中間画調特徴マップＦＳ２０の画調特徴を抽出して、複数の第２の中間画調特徴マップＦＳ２１を生成するように構成される。

任意選択的に、複数の第６の中間画調特徴マップＦＳ２０の数は１２８である。任意選択的に、複数の第６の中間画調特徴マップＦＳ２０は、同じサイズを有し、例えば、複数の第６の中間画調特徴マップＦＳ２０のそれぞれのサイズは１１２×１１２である。任意選択的に、複数の第２の中間画調特徴マップＦＳ２１の数は１２８である。任意選択的に、複数の第２の中間画調特徴マップＦＳ２１は、同じサイズを有し、例えば、複数の第２の中間画調特徴マップＦＳ２１のそれぞれのサイズは１１２×１１２である。

一部の実施例では、第２のプーリング層ＰＬ２は、複数の第２の中間画調特徴マップＦＳ２１に対してダウンサンプリング演算を実行して、複数の第２のプーリング画調特徴マップＰＳ２を生成するように構成される。任意選択的に、複数の第２のプーリング画調特徴マップＰＳ２は、同じサイズを有する。

一部の実施例では、第２のプーリング層ＰＬ２のダウンサンプリングファクタは、ステップサイズが２である２×２マトリクスである。任意選択的に、複数の第２の中間画調特徴マップＦＳ２１のサイズは１１２×１１２である。ダウンサンプリング演算後に、複数の第２のプーリング画調特徴マップＰＳ２は複数の第２の中間画調特徴マップＦＳ２１に基づいて生成され、複数の第２のプーリング画調特徴マップＰＳ２のそれぞれのサイズは５６×５６である。任意選択的に、複数の第２の中間画調特徴マップＦＳ２１の数は１２８であり、複数の第２のプーリング画調特徴マップＰＳ２の数も１２８である。例えば、複数の第２の中間画調特徴マップＦＳ２１の数は、複数の第２のプーリング画調特徴マップＰＳ２の数と同じである。複数の第２のプーリング画調特徴マップＰＳ２のそれぞれのサイズは、複数の第２の中間画調特徴マップＦＳ２１のそれぞれのサイズの０．２５倍である。

一部の実施例では、第３の畳み込み層群ＣＰ３は、第５の抽出畳み込み層Ｃ３１、第６の抽出畳み込み層Ｃ３２、第７の抽出畳み込み層Ｃ３３、第５の抽出活性化層Ｒ３１、第６の抽出活性化層Ｒ３２、及び第７の抽出活性化層Ｒ３３を含む。任意選択的に、第３の畳み込み層群ＣＰ３の各抽出畳み込み層は、複数の３×３畳み込みカーネルを有する。第３の畳み込み層群ＣＰ３における複数の３×３畳み込みカーネルの数は２５６である。

一部の実施例では、第５の抽出畳み込み層Ｃ３１及び第５の抽出活性化層Ｒ３１は、複数の第２のプーリング画調特徴マップＰＳ２の画調特徴を抽出して、複数の第７の中間画調特徴マップＦＳ３０を生成するように構成される。一部の実施例では、第６の抽出畳み込み層Ｃ３２及び第６の抽出活性化層Ｒ３２は、複数の第７の中間画調特徴マップＦＳ３０の画調特徴を抽出して、複数の第８の中間画調特徴マップＦＳ３２を生成するように構成される。一部の実施例では、第７の抽出畳み込み層Ｃ３３及び第７の抽出活性化層Ｒ３３は、複数の第８の中間画調特徴マップＦＳ３２の画調特徴を抽出して、複数の第３の中間画調特徴マップＦＳ３１を生成するように構成される。

任意選択的に、複数の第７の中間画調特徴マップＦＳ３０の数は２５６である。任意選択的に、複数の第７の中間画調特徴マップＦＳ３０は、同じサイズを有し、例えば、複数の第７の中間画調特徴マップＦＳ３０のそれぞれのサイズは５６×５６である。任意選択的に、複数の第３の中間画調特徴マップＦＳ３１の数は２５６である。任意選択的に、複数の第３中間画調特徴マップＦＳ３１は、同じサイズを有し、例えば、複数の第３の中間画調特徴マップＦＳ３１のそれぞれのサイズは５６×５６である。

一部の実施例では、第３のプーリング層ＰＬ３は、複数の第３の中間画調特徴マップＦＳ３１に対してダウンサンプリング演算を実行して、複数の第３のプーリング画調特徴マップＰＳ３を生成するように構成される。任意選択的に、複数の第３のプーリング画調特徴マップＰＳ３は、同じサイズを有する。

一部の実施例では、第３のプーリング層ＰＬ３のダウンサンプリングファクタは、ステップサイズが２である２×２マトリクスである。任意選択的に、複数の第３の中間画調特徴マップＦＳ３１のサイズは５６×５６である。ダウンサンプリング演算後に、複数の第３のプーリング画調特徴マップＰＳ３は、複数の第３の中間画調特徴マップＦＳ３１に基づいて生成され、複数の第３のプーリング画調特徴マップＰＳ３のそれぞれのサイズは２８×２８である。任意選択的に、複数の第３の中間画調特徴マップＦＳ３１の数は２５６であり、複数の第３のプーリング画調特徴マップＰＳ３の数も２５６である。例えば、複数の第３の中間画調特徴マップＦＳ３１の数は、複数の第３のプーリング画調特徴マップＰＳ３の数と同じである。複数の第３のプーリング画調特徴マップＰＳ３のそれぞれのサイズは、複数の第３の中間画調特徴マップＦＳ３１のそれぞれのサイズの０．２５倍である。

一部の実施例では、第４の畳み込み層群ＣＰ４は、第８の抽出畳み込み層Ｃ４１及び第８の抽出活性化層Ｒ４１を含む。任意選択的に、第４の畳み込み層群ＣＰ４の各抽出畳み込み層は、複数の３×３畳み込みカーネルを有する。第４の畳み込み層群ＣＰ４における複数の３×３畳み込みカーネルの数は５１２である。

一部の実施例では、第８の抽出畳み込み層Ｃ４１及び第８の抽出活性化層Ｒ４１は、複数の第３のプーリング画調の特徴マップＰＳ３の画調特徴を抽出して、複数の第４の中間画調特徴マップＦＳ４を生成するように構成される。

任意選択的に、複数の第４の中間画調特徴マップＦＳ４の数は５１２である。任意選択的に、複数の第４の中間画調特徴マップＦＳ４は、同じサイズを有し、例えば、複数の第４の中間画調特徴マップＦＳ４のそれぞれのサイズは２８×２８である。

一部の実施例では、複数の画調特徴マップＦ１１は、複数の第４の中間画調特徴マップＦＳ４を含む。したがって、複数の画調特徴マップＦ１１の数は５１２である。複数の画調特徴マップＦ１１は同じサイズを有し、例えば、複数の画調特徴マップＦ１１のそれぞれのサイズは２８×２８である。

一部の実施例では、入力画像Ｃ０のサイズは２２４×２２４である。任意選択的に、入力画像Ｃ０は、３つのカラーチャネル、例えば、赤チャネルＲ、緑チャネルＧ及び青チャネルＢを含む。

一部の実施例では、図６Ｂを参照すると、第１の畳み込み層群ＣＰ１は、第１の抽出畳み込み層Ｃ１１、第２の抽出畳み込み層Ｃ１２、第１の抽出活性化層Ｒ１１、及び第２の抽出活性化層Ｒ１２を含む。任意選択的に、第１の畳み込み層群ＣＰ１の各抽出畳み込み層は、複数の３×３畳み込みカーネルを有する。第１の畳み込み層群ＣＰ１における複数の３×３畳み込みカーネルの数は６４である。

一部の実施例では、第１の抽出畳み込み層Ｃ１１及び第１の抽出活性化層Ｒ１１は、入力画像Ｃ０のコンテンツ特徴を抽出して、複数の第５の中間コンテンツ特徴マップＦＣ１０を生成するように構成される。一部の実施例では、第２の抽出畳み込み層Ｃ１２及び第２の抽出活性化層Ｒ１２は、複数の第５の中間コンテンツ特徴マップＦＣ１０のコンテンツ特徴を抽出して、複数の第１の中間コンテンツ特徴マップＦＣ１１を生成するように構成される。

任意選択的に、複数の第５の中間コンテンツ特徴マップＦＣ１０の数は６４である。任意選択的に、複数の第５の中間コンテンツ特徴マップＦＣ１０は、同じサイズを有し、例えば、複数の第５の中間コンテンツ特徴マップＦＣ１０のそれぞれのサイズは、２２４×２２４である。任意選択的に、複数の第１の中間コンテンツ特徴マップＦＣ１１の数は６４である。任意選択的に、複数の第１の中間コンテンツ特徴マップＦＣ１１は、同じサイズを有し、例えば、複数の第１の中間コンテンツ特徴マップＦＣ１１のそれぞれのサイズは２２４×２２４である。

一部の実施例では、第１のプーリング層ＰＬ１は、複数の第１の中間コンテンツ特徴マップＦＣ１１に対してダウンサンプリング演算を実行して、複数の第１のプーリングコンテンツ特徴マップＰＣ１を生成するよう構成される。任意選択的に、複数の第１のプーリングコンテンツ特徴マップＰＣ１は、同じサイズを有する。

一部の実施例では、第１のプーリング層ＰＬ１のダウンサンプリングファクタは、ステップサイズが２である２×２マトリクスである。任意選択的に、複数の第１の中間コンテンツ特徴マップＦＣ１１のサイズは、２２４×２２４である。ダウンサンプリング演算後に、複数の第１のプーリングコンテンツ特徴マップＰＣ１が、複数の第１の中間コンテンツ特徴マップＦＣ１１から生成され、複数の第１のプーリングコンテンツ特徴マップＰＣ１のそれぞれのサイズは、１１２×１１２である。任意選択的に、複数の第１の中間コンテンツ特徴マップＦＣ１１の数は６４であり、複数の第１のプーリングコンテンツ特徴マップＰＣ１の数も６４である。例えば、複数の第１の中間コンテンツ特徴マップＦＣ１１の数は、複数の第１のプーリングコンテンツ特徴マップＰＣ１の数と同じである。複数の第１のプーリングコンテンツ特徴マップＰＣ１のそれぞれのサイズは、複数の第１の中間コンテンツ特徴マップＦＣ１１のそれぞれのサイズの０．２５倍である。

一部の実施例では、第３の抽出畳み込み層Ｃ２１及び第３の抽出活性化層Ｒ２１は、複数の第１のプーリングコンテンツ特徴マップＰＣ１のコンテンツ特徴を抽出して、複数の第６の中間コンテンツ特徴マップＦＣ２０を生成するように構成される。一部の実施例では、第４の抽出畳み込み層Ｃ２２及び第４の抽出活性化層Ｒ２２は、複数の第６の中間コンテンツ特徴マップＦＣ２０のコンテンツ特徴を抽出して、複数の第２の中間コンテンツ特徴マップＦＣ２１を生成するように構成される。

任意選択的に、複数の第６の中間コンテンツ特徴マップＦＣ２０の数は１２８である。任意選択的に、複数の第６の中間コンテンツ特徴マップＦＣ２０は、同じサイズを有し、例えば、複数の第６の中間コンテンツ特徴マップＦＣ２０のそれぞれのサイズは、１１２×１１２である。任意選択的に、複数の第２の中間コンテンツ特徴マップＦＣ２１の数は１２８である。任意選択的に、複数の第２の中間コンテンツ特徴マップＦＣ２１は、同じサイズを有し、例えば、複数の第２の中間コンテンツ特徴マップＦＣ２１のそれぞれのサイズは、１１２×１１２である。

一部の実施例では、第２のプーリング層ＰＬ２は、複数の第２の中間コンテンツ特徴マップＦＣ２１に対してダウンサンプリング演算を実行して、複数の第２のプーリングコンテンツ特徴マップＰＣ２を生成するように構成される。任意選択的に、複数の第２のプーリングコンテンツ特徴マップＰＣ２は、同じサイズを有する。

一部の実施例では、第２のプーリング層ＰＬ２のダウンサンプリングファクタは、ステップサイズが２である２×２マトリクスである。任意選択的に、複数の第２の中間コンテンツ特徴マップＦＣ２１のサイズは、１１２×１１２である。ダウンサンプリング演算後に、複数の第２のプーリングコンテンツ特徴マップＰＣ２が、複数の第２の中間コンテンツ特徴マップＦＣ２１に基づいて生成され、複数の第２のプーリングコンテンツ特徴マップＰＣ２のそれぞれのサイズは、５６×５６である。任意選択的に、複数の第２の中間コンテンツ特徴マップＦＣ２１の数は１２８であり、複数の第２のプーリングコンテンツ特徴マップＰＣ２の数も１２８である。例えば、複数の第２の中間コンテンツ特徴マップＦＣ２１の数は、複数の第２のプーリングコンテンツ特徴マップＰＣ２の数と同じである。複数の第２のプーリングコンテンツ特徴マップＰＣ２のそれぞれのサイズは、複数の第２の中間コンテンツ特徴マップＦＣ２１のそれぞれのサイズの０．２５倍である。

一部の実施例では、第５の抽出畳み込み層Ｃ３１及び第５の抽出活性化層Ｒ３１は、複数の第２のプーリングコンテンツ特徴マップＰＣ２のコンテンツ特徴を抽出して、複数の第７の中間コンテンツ特徴マップＦＣ３０を生成するように構成される。一部の実施例では、第６の抽出畳み込み層Ｃ３２及び第６の抽出活性化層Ｒ３２は、複数の第７の中間コンテンツ特徴マップＦＣ３０のコンテンツ特徴を抽出して、複数の第８の中間コンテンツ特徴マップＦＣ３２を生成するように構成される。一部の実施例では、第７の抽出畳み込み層Ｃ３３及び第７の抽出活性化層Ｒ３３は、複数の第８の中間コンテンツ特徴マップＦＣ３２のコンテンツ特徴を抽出して、複数の第３の中間コンテンツ特徴マップＦＣ３１を生成するように構成される。

任意選択的に、複数の第７の中間コンテンツ特徴マップＦＣ３０の数は２５６である。任意選択的に、複数の第７の中間コンテンツ特徴マップＦＣ３０は、同じサイズを有し、例えば、複数の第７の中間コンテンツ特徴マップＦＣ３０それぞれのサイズは、５６×５６である。任意選択的に、複数の第３の中間コンテンツ特徴マップＦＣ３１の数は２５６である。任意選択的に、複数の第３の中間コンテンツ特徴マップＦＣ３１は、同じサイズを有し、例えば、複数の第３の中間コンテンツ特徴マップＦＣ３１のそれぞれのサイズは５６×５６である。

一部の実施例では、第３のプーリング層ＰＬ３は、複数の第３の中間コンテンツ特徴マップＦＣ３１に対してダウンサンプリング演算を実行して複数の第３のプーリングコンテンツ特徴マップＰＣ３を生成するように構成される。任意選択的に、複数の第３のプーリングコンテンツ特徴マップＰＣ３は、同じサイズを有する。

一部の実施例では、第３のプーリング層ＰＬ３のダウンサンプリングファクタは、ステップサイズが２である２×２マトリクスである。任意選択的に、複数の第３の中間コンテンツ特徴マップＦＣ３１のサイズは、５６×５６である。ダウンサンプリング演算後に、複数の第３のプーリングコンテンツ特徴マップＰＣ３が、複数の第３の中間コンテンツ特徴マップＦＣ３１に基づいて生成され、複数の第３のプーリングコンテンツ特徴マップＰＣ３のそれぞれのサイズは、２８×２８である。任意選択的に、複数の第３の中間コンテンツ特徴マップＦＣ３１の数は２５６であり、複数の第３のプーリングコンテンツ特徴マップＰＣ３の数も２５６である。例えば、複数の第３の中間コンテンツ特徴マップＦＣ３１の数は、複数の第３のプーリングコンテンツ特徴マップＰＣ３の数と同じである。複数の第３のプーリングコンテンツ特徴マップＰＣ３のそれぞれのサイズは、複数の第３の中間コンテンツ特徴マップＦＣ３１のそれぞれのサイズの０．２５倍である。

一部の実施例では、第８の抽出畳み込み層Ｃ４１及び第８の抽出活性化層Ｒ４１は、複数の第３のプーリングコンテンツ特徴マップＰＣ３のコンテンツ特徴を抽出して、複数の第４の中間コンテンツ特徴マップＦＣ４を生成するように構成される。

任意選択的に、複数の第４の中間コンテンツ特徴マップＦＣ４の数は５１２である。任意選択的に、複数の第４の中間コンテンツ特徴マップＦＣ４は、同じサイズを有し、例えば、複数の第４の中間コンテンツ特徴マップＦＣ４のそれぞれのサイズは、２８×２８である。

一部の実施例では、複数のコンテンツ特徴マップＣ１１は、複数の第４の中間コンテンツ特徴マップＦＣ４を含む。したがって、複数のコンテンツ特徴マップＣ１１の数は５１２である。複数のコンテンツ特徴マップＣ１１は、同じサイズを有し、例えば、複数のコンテンツ特徴マップＣ１１のそれぞれのサイズは、２８×２８である。

一部の実施例では、特徴抽出サブネットワーク１０１における抽出活性化層は、ＲｅＬＵ関数を含む。

一部の実施例では、特徴抽出サブネットワークにおいて、特徴マップは特徴チャネルを示す。例えば、複数の第４の中間画調特徴マップＦＳ４の数は５１２であり、複数の第４の中間画調特徴マップＦＳ４に対応する特徴チャンネルの数も５１２である。

一部の実施例では、図２Ｂ、図３、及び図６Ｂを参照すると、融合部１０２を用いて複数の画調特徴マップＦ１１を複数のコンテンツ特徴マップＣ１１にそれぞれ融合させて複数の出力特徴マップＦ１を生成するプロセスにおいて、融合部１０２は、複数のコンテンツ特徴マップＣ１１のそれぞれに対して正規化演算を実行して、複数のコンテンツ特徴マップＣ１１のそれぞれについての平均値及び分散値を生成し、複数の画調特徴マップＦ１１のそれぞれについての平均値及び分散値を生成し、複数のコンテンツ特徴マップＣ１１のそれぞれについての平均値及び分散値と、複数の画調特徴マップＦ１１のそれぞれについての平均値及び分散値とをマッチングさせることで、画調画像Ｆ０の画調特徴を入力画像Ｃ０に伝送するように構成される。

一部の実施例では、複数の出力特徴マップＦ１は、以下の関数で表すことができる。

Ａ（ｘ，ｙ）は、複数の出力特徴マップＦ１からなる３次元マトリクスを表し、ｘは、複数のコンテンツ特徴マップＣ１１からなる３次元マトリクスを表し、ｙは、複数の画調特徴マップＦ１１からなる３次元マトリクスを表し、μ（ｘ）は、複数のコンテンツ特徴マップＣ１１のそれぞれから導出された複数の平均値からなる３次元マトリクス（例えば、複数のコンテンツ特徴マップＣ１１のそれぞれは、個別の平均値を有する）を表し、σ（ｘ）は、複数のコンテンツ特徴マップＣ１１のそれぞれから導出された複数の分散値からなる３次元マトリクス（例えば、複数のコンテンツ特徴マップＣ１１のそれぞれは、個別の分散値を有する）を表し、μ（ｙ）は、複数の画調特徴マップＦ１１のそれぞれから導出された複数の平均値からなる３次元マトリクス（例えば、複数の画調特徴マップＦ１１のそれぞれは、個別の平均値を有する）を表し、σ（ｙ）は、複数の画調特徴マップＦ１１のそれぞれから導出された複数の分散値からなる３次元マトリクス（例えば、複数の画調特徴マップＦ１１のそれぞれは、個別の分散値を有する）を表す。

一部の実施例では、複数の出力特徴マップＦ１の数、複数のコンテンツ特徴マップＣ１１の数、及び複数の画調特徴マップＦ１１の数は、同一である。例えば、複数の出力特徴マップＦ１の数、複数のコンテンツ特徴マップＣ１１の数、及び複数の画調特徴マップＦ１１の数のいずれも、ｊ０であり、ｊ０は正の整数である。任意選択的に、Ａ（ｘ，ｙ）は、［Ａ_１（ｘ_１，ｙ_１），Ａ_２（ｘ_２，ｙ_２），．．．，Ａ_ｇ（ｘ_ｇ，ｙ_ｇ），．．．，Ａ_ｊ０（ｘ_ｊ０，ｙ_ｊ０）］と表すことができ、Ａ_ｇ（ｘ_ｇ，ｙ_ｇ）は二次元マトリクスを表し、ｇは整数であり、ｊ０≧ｇ≧１である。任意選択的に、ｘは［ｘ_１，ｘ_２，…，ｘ_ｇ，…，ｘ_ｊ０］と表すことができ、ｘ_ｊ０は２次元マトリクスを表す。任意選択的に、ｙは［ｙ_１，ｙ_２，…，ｙ_ｇ，…，ｙ_ｊ０］と表すことができ、ｙ_ｊ０は２次元マトリクスを表す。任意選択的に、μ（ｘ）は、［μ_１（ｘ_１），μ_２（ｘ_２），…，μ_ｇ（ｘ_ｇ），…，μ_ｊ０（ｘ_ｊ０）］と表すことができ、μ_ｇ（ｘ_ｇ）は２次元マトリクスを表し、μ_ｇ（ｘ_ｇ）はｘ_ｇの平均値である。任意選択的に、σ（ｘ）は、［σ_１（ｘ_１），σ_２（ｘ_２），…，σ_ｇ（ｘ_ｇ），…，σ_ｊ０（ｘ_ｊ０）］と表すことができ、σ_ｇ（ｘ_ｇ）は２次元マトリクスを表し、σ_ｇ（ｘ_ｇ）はｘ_ｇの分散値である。任意選択的に、μ（ｙ）は、［μ_１（ｙ_１），μ_２（ｙ_２），…，μ_ｇ（ｙ_ｇ），…，μ_ｊ０（ｙ_ｊ０）］と表すことができ、μ_ｇ（ｙ_ｇ）は２次元マトリクスを表し、μ_ｇ（ｙ_ｇ）はｙ_ｇの平均値である。任意選択的に、σ（ｙ））は、［σ_１（ｘ_１），σ_２（ｘ_２），…，σ_ｇ（ｙ_ｇ），…，σ_ｊ０（ｙ_ｊ０）］と表すことができ、σ_ｇ（ｙ_ｇ）は２次元マトリクスを表し、σ_ｇ（ｙ_ｇ）はｙ_ｇの分散値である。

一部の実施例では、図６Ａを参照すると、ｊ０は５１２である。複数の出力特徴マップＦ１は、同じサイズを有する。例えば、複数の出力特徴マップＦ１のそれぞれのサイズは２８×２８である。一部の実施例では、複数の画調特徴マップＦ１１は、同じサイズを有する。例えば、複数の画調特徴マップＦ１１のそれぞれのサイズは２８×２８である。一部の実施例では、図６Ｂを参照すると、複数のコンテンツ特徴マップＣ１１は、同じサイズを有する。例えば、複数のコンテンツ特徴マップＣ１１のそれぞれのサイズは、２８×２８である。したがって、Ａ（ｘ，ｙ）は、２８×２８×５１２の３次元マトリクスである。ｘは、２８×２８×５１２の３次元マトリクスである。ｙは、２８×２８×５１２の３次元マトリクスである。μ（ｘ）は、２８×２８×５１２の３次元マトリクスである。σ（ｘ）は、２８×２８×５１２の３次元マトリクスである。μ（ｙ）は、２８×２８×５１２の３次元マトリクスである。σ（ｙ）は、２８×２８×５１２の３次元マトリクスである。

一部の実施例では、融合部１０２は、複数のコンテンツ特徴マップＣ１１からなる３次元マトリクスのｇ番目のコンテンツ特徴マップｘ_ｇを、複数の画調特徴マップＦ１１からなる３次元マトリクスのｇ番目の画調特徴マップｙ_ｇと融合させて、複数の出力特徴マップＦ１からなる３次元マトリクスのｇ番目の出力特徴マップＡ_ｇ（ｘ_ｇ，ｙ_ｇ）を生成することができる。したがって、Ａ_ｇ（ｘ_ｇ，ｙ_ｇ）は、以下の関数で表すことができる。

一部の実施例では、画調画像及び入力画像を入力する前に、畳み込みニューラルネットワークを利用したコンピュータ実現方法は、畳み込みニューラルネットワークを予めトレーニングするステップをさらに含む。

図８は本開示の一部の実施例に係る、畳み込みニューラルネットワークを予めトレーニングする方法のフローチャートである。図８を参照すると、畳み込みニューラルネットワークを予めトレーニングするステップは、トレーニングコンテンツ画像及びトレーニング画調画像を畳み込みニューラルネットワークに入力する段階と、復号サブネットワークを用いて複数のトレーニング出力画像を生成し、融合部を用いて複数のトレーニング出力特徴マップを生成する段階と、解析ネットワークを用いて複数のトレーニング出力画像の画調特徴及びコンテンツ特徴を抽出して、複数の第１のトレーニング画調特徴マップ及び複数のトレーニングコンテンツ特徴マップを生成する段階と、解析ネットワークを用いてトレーニング画調画像の画調特徴を抽出して、複数の第２のトレーニング画調特徴マップを生成する段階と、複数の第１のトレーニング画調特徴マップ、複数の第２のトレーニング画調特徴マップ、複数のトレーニングコンテンツ特徴マップ及び複数のトレーニング出力特徴マップに基づいて、損失関数を用いて復号サブネットワークのパラメータ損失を算出する段階と、損失に応じて復号サブネットワークのパラメータを調整する段階とを含む。

任意選択的に、復号サブネットワークを用いて複数のトレーニング出力画像を生成し、融合部を用いて複数のトレーニング出力特徴マップを生成するプロセスにおいて、トレーニングコンテンツ画像とトレーニング画調画像の画調とを融合させて、複数のトレーニング出力画像及び複数のトレーニング出力特徴マップを生成する。

一部の実施例では、畳み込みニューラルネットワークを予めトレーニングするステップは、損失関数が条件を満たすか否かを決定するステップをさらに含む。損失関数が条件を満たす場合、予めトレーニングされた畳み込みニューラルネットワークが得られる。損失関数が条件を満たさない場合、畳み込みニューラルネットワークを予めトレーニングするステップは、畳み込みニューラルネットワークを繰り返し予めトレーニングするステップをさらに含む。例えば、損失関数が条件を満たさない場合、トレーニングコンテンツ画像及びトレーニング画調画像が入力されるプロセスで、事前トレーニングプロセスを繰り返す。

図９は本開示の一部の実施例に係る、畳み込みニューラルネットワークを予めトレーニングする事前トレーニングネットワークの概略構成図である。図９を参照すると、一部の実施例では、事前トレーニングネットワークは、畳み込みニューラルネットワーク１００、解析ネットワーク２００、及び損失関数を含む。任意選択的に、損失関数は、畳み込みニューラルネットワーク１００のパラメータ損失を算出するように構成される。任意選択的に、畳み込みニューラルネットワーク１００のパラメータ損失に基づいて、畳み込みニューラルネットワーク１００のパラメータを調整してもよい。

一部の実施例では、解析ネットワーク２００及び特徴抽出サブネットワーク１０１は、同じ構成及び同じパラメータを含む。例えば、解析ネットワーク２００として、ＶＧＧ１６ネットワーク又はＶＧＧ１９ネットワークを用いてもよい。

一例では、事前トレーニングプロセスにおいて、解析ネットワーク２００における複数の畳み込み層の一部を用いて画調特徴を抽出することができる。例えば、解析ネットワーク２００内の２つ又は３つの畳み込み層を用いて画調特徴を抽出することができる。任意選択的に、複数の畳み込み層のうちの１つを用いてコンテンツ特徴を抽出してもよい。

別の一例では、事前トレーニングプロセスにおいて、解析ネットワーク２００内の複数の畳み込み層のうちの１つを用いて、画調特徴を抽出することができる。任意選択的に、解析ネットワーク２００内の複数の畳み込み層の一部を用いてコンテンツ特徴を抽出してもよい。

一部の実施例では、解析ネットワーク２００の構成及びパラメータは、特徴抽出サブネットワーク１０１の構成及びパラメータとは少なくとも部分的に異なる。

一部の実施例では、解析ネットワーク２００がＶＧＧ１６ネットワークの複数の層を含む場合、複数のトレーニングコンテンツ特徴マップは、ＶＧＧ１６ネットワークの第ＲｅＬｕ４＿１層から出力される特徴マップを含み、複数の第１のトレーニング画調特徴マップは、ＶＧＧ１６ネットワークの第ＲｅＬｕ１＿１層、第ＲｅＬｕ２＿１層、第ＲｅＬｕ３＿１層及び第ＲｅＬｕ４＿１層から出力される特徴マップを含み、複数の第２のトレーニング画調特徴マップは、ＶＧＧ１６ネットワークの第ＲｅＬｕ１＿１層、第ＲｅＬｕ２＿１層、第ＲｅＬｕ３＿１層及び第ＲｅＬｕ４＿１層から出力される特徴マップを含む。

任意選択的に、複数のトレーニングコンテンツ特徴マップは、ＶＧＧ１６ネットワークの第ＲｅＬｕ４＿３層から出力される特徴マップを含む。任意選択的に、複数の第１のトレーニング画調特徴マップは、ＶＧＧ１６ネットワークの第ＲｅＬｕ１＿２層、第ＲｅＬｕ２＿２層、第ＲｅＬｕ３＿３層及び第ＲｅＬｕ４＿３層から出力される特徴マップを含む。任意選択的に、複数の第２のトレーニング画調特徴マップは、ＶＧＧ１６ネットワークの第ＲｅＬｕ１＿２層、第ＲｅＬｕ２＿２層、第ＲｅＬｕ３＿３層、及び第ＲｅＬｕ４＿３層から出力される特徴マップを含む。

一部の実施例では、解析ネットワーク２００がＶＧＧ１９ネットワークの複数の層を含む場合、複数のトレーニングコンテンツ特徴マップは、ＶＧＧ１９ネットワークの第ＲｅＬｕ５＿２層から出力される特徴マップを含み、複数の第１のトレーニング画調特徴マップは、ＶＧＧ１９ネットワークの第ＲｅＬｕ１＿１層、第ＲｅＬｕ２＿１層、第ＲｅＬｕ３＿２層、第ＲｅＬｕ４＿２層、及び第ＲｅＬｕ５＿２層から出力される特徴マップを含み、複数の第２のトレーニング画調特徴マップは、ＶＧＧ１９ネットワークの第ＲｅＬｕ１＿１層、第ＲｅＬｕ２＿１層、第ＲｅＬｕ３＿２層、第ＲｅＬｕ４＿２層、及び第ＲｅＬｕ５＿２層から出力される特徴マップを含む。

一部の実施例では、特徴抽出サブネットワーク１０１における、コンテンツ特徴マップを出力するように構成される複数の層のそれぞれは、解析ネットワーク２００における、コンテンツ特徴マップを出力するように構成される複数の層のそれぞれに対応する。例えば、特徴抽出サブネットワーク１０１は、第１のＶＧＧ１６ネットワークの複数の層を含み、解析ネットワーク２００は、第２のＶＧＧ１６ネットワークの複数の層を含む。特徴抽出サブネットワーク１０１において、第１のＶＧＧ１６ネットワークの第ＲｅＬｕ４＿１層から出力される特徴マップは、コンテンツ特徴マップである。解析ネットワーク２００において、第２のＶＧＧ１６ネットワークの第ＲｅＬｕ４＿１層から出力される特徴マップは、コンテンツ特徴マップである。したがって、融合部１０２が生成した複数のトレーニング出力特徴マップの数は、解析ネットワーク２００が生成した複数のトレーニングコンテンツ特徴マップの数と同じである。そして、融合部１０２が生成した複数のトレーニング出力特徴マップのそれぞれのサイズは、解析ネットワーク２００が生成した複数のトレーニングコンテンツ特徴マップのそれぞれのサイズと同じである。

一部の実施例では、事前トレーニングプロセスを繰り返すべきか否かを決定するための条件は、畳み込みニューラルネットワークを予めトレーニングした回数である。一部の実施例では、当該条件は、トレーニングコンテンツ画像及びトレーニング画調画像が入力される場合に、畳み込みニューラルネットワークの損失の最小値である。

一部の実施例では、事前トレーニングプロセスにおいて、複数のサンプル画像を用いて畳み込みニューラルネットワークを予めトレーニングすべきである。一部の実施例では、事前トレーニングを繰り返すことは、畳み込みニューラルネットワークのパラメータを調整することに寄与する。一部の実施例では、事前トレーニングプロセスは、より最適化されたパラメータを有するように、畳み込みニューラルネットワークを微調整するステップをさらに含む。

一部の実施例では、復号サブネットワーク１０３の初期パラメータは、乱数である。例えば、乱数はガウス分布に従う。任意選択的に、復号サブネットワーク１０３の初期パラメータは、ＩｍａｇｅＮｅｔなどの画像データベース内の予めトレーニングされたパラメータを用いてもよい。

一部の実施例では、損失関数は、復号サブネットワーク１０３の初期パラメータに基づいて損失を算出することができる。任意選択的に、損失は、復号サブネットワーク１０３の出力層から復号サブネットワーク１０３の入力層へ１層ずつに逆伝搬されてもよい。これにより、損失を復号サブネットワーク１０３の各層の各要素に分散させて、復号サブネットワーク１０３の各要素の誤差値を取得することができる。この誤差値は、復号サブネットワーク１０３の各要素のパラメータを修正する基礎とされる。任意選択的に、誤差値は、各要素のパラメータに対する損失関数の偏導関数と表されてもよい。

一部の実施例では、特徴抽出サブネットワーク１０１は、特徴抽出サブネットワーク１０１内のパラメータを調整する必要なく、予めトレーニングされたＶＧＧ１６ネットワークの複数の層を利用する。また、融合部１０２は、ネットワークのパラメータを含まないため、融合部１０２を予めトレーニングしておく必要がない。事前トレーニングプロセスは、復号サブネットワーク１０３を予めトレーニングするステップと、損失を用いて復号サブネットワーク１０３内のパラメータを調整するステップとのみを含む。

一部の実施例では、特徴抽出サブネットワーク１０１は、非事前トレーニング済みのニューラルネットワークを使用するので、事前トレーニングプロセスは、特徴抽出サブネットワーク１０１を予めトレーニングするステップをさらに含む。

一部の実施例では、事前トレーニングネットワークは、最適化関数をさらに含む。任意選択的に、最適化関数は、復号サブネットワーク１０３内のパラメータの損失に基づいて復号サブネットワーク１０３内のパラメータの誤差値を算出してもよい。任意選択的に、復号サブネットワーク１０３内のパラメータの誤差値に応じて、復号サブネットワーク１０３内のパラメータを調整する。最適化関数は、様々な適切なアルゴリズムを用いて、復号サブネットワーク１０３内のパラメータの誤差値を算出することができる。適切なアルゴリズムの例は、確率的勾配降下法（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ、ＳＧＤ）及びバッチ勾配降下法（ＢａｔｃｈＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ、ＢＧＤ）を含むが、これらに限定されない。

一部の実施例では、トレーニングコンテンツ画像は、様々なタイプの画像からなる群から選択することができる。任意選択的に、トレーニングコンテンツ画像は、デジタルカメラや携帯電話により撮影された画像であってよい。任意選択的に、トレーニングコンテンツ画像は、人物画像、動物画像、植物画像、及び風景画像であってもよい。

一部の実施例では、トレーニング画調画像は、様々なアーティスト（例えば、モネム、ヴァンゴッホ、ピガソン等）の名画であってもよい。任意選択的に、トレーニング画調画像は、水墨画、油絵、スケッチ等であってもよい。

図８を参照すると、一部の実施例では、損失関数は、コンテンツ損失関数Ｌｃ及び画調損失関数Ｌｓを含む。任意選択的に、コンテンツ損失関数Ｌｃは、トレーニングコンテンツ画像と複数のトレーニング出力画像との間のコンテンツの相違を記載するように構成される。任意選択的に、画調損失関数Ｌｓは、トレーニング画調画像と複数のトレーニング出力画像との間の画調の相違を記載するように構成される。

一部の実施例では、損失関数は、以下のように表すことができる。

Ｌｃは、コンテンツ損失関数を表し、Ｌｓは、画調損失関数を表し、αは、コンテンツ損失関数Ｌｃの重みを表し、βは、画調損失関数Ｌｓの重みを表す。

一部の実施例では、損失は、コンテンツ損失と画調損失とを含む。任意選択的に、コンテンツ損失は、複数のトレーニングコンテンツ特徴マップと複数のトレーニング出力特徴マップとの間のユークリッド距離である。任意選択的に、コンテンツ損失関数Ｌｃは、以下のように表すことができる。

ｔは、トレーニングコンテンツ画像を表し、ｇ（ｔ）は、複数のトレーニング出力画像を表し、ｆ_１１（ｇ（ｔ））は、複数のトレーニングコンテンツ特徴マップからなる３次元マトリクスを表し、ｆ_２（ｔ）は、複数のトレーニング出力特徴マップからなる３次元マトリクスを表し、Ｃ１は、正規化を実行するための定数である。

例えば、複数のトレーニングコンテンツ特徴マップの数は、複数のトレーニング出力特徴マップの数と同じである。また、複数のトレーニングコンテンツ特徴マップのそれぞれは、複数のトレーニング出力特徴マップのそれぞれに対応する。

一部の実施例では、融合部１０２は、画調特徴の平均値及び分散値のみを伝送する。平均値と分散値とをマッチングすることで画調損失を算出する。任意選択的に、画調損失関数Ｌｓは、以下のように表される。

ｓはトレーニング画調画像を表し、Ｆ_１２（ｓ）は複数の第２のトレーニング画調特徴マップからなる３次元マトリクスを示し、Ｆ_１２（ｇ（ｔ））は、複数の第１のトレーニング画調特徴マップからなる３次元マトリクスを表し、μ_ｋ（ｆ_１２（ｇ（ｔ）））は複数の第１のトレーニング画調特徴マップの平均値からなる３次元マトリクスを表し、μ_ｋ（ｆ_１２（ｓ））は複数の第２のトレーニング画調特徴マップの平均値からなる３次元マトリクスを表し、σ_ｋ（ｆ_１２（ｇ（ｔ）））は複数の第１のトレーニング画調特徴マップの分散値からなる３次元マトリクスを表し、σ_ｋ（ｆ_１２（ｓ））は複数の第２のトレーニング画調特徴マップの分散値からなる３次元マトリクスを表し、ｋは整数である。

一例では、複数の第１のトレーニング画調特徴マップは、ＶＧＧ１６ネットワークの第ＲｅＬｕ１＿１層から出力される1番目の第１のトレーニング画調特徴マップ群、ＶＧＧ１６ネットワークの第ＲｅＬｕ２＿１層から出力される２番目の第１のトレーニング画調特徴マップ群、ＶＧＧ１６ネットワークの第ＲｅＬｕ３＿１層から出力される３番目の第１のトレーニング画調特徴マップ群、及びＶＧＧ１６ネットワークの第ＲｅＬｕ４＿１層から出力される４番目の第１のトレーニング画調特徴マップ群を含む。別の一例では、複数の第２のトレーニング画調特徴マップは、ＶＧＧ１６ネットワークの第ＲｅＬｕ１＿１層から出力される１番目の第２のトレーニング画調特徴マップ群、ＶＧＧ１６ネットワークの第ＲｅＬｕ２＿１層から出力される２番目の第２のトレーニング画調特徴マップ群、ＶＧＧ１６ネットワークの第ＲｅＬｕ３＿１層から出力される３番目の第２のトレーニング画調特徴マップ群、及びＶＧＧ１６ネットワークの第ＲｅＬｕ４＿１層から出力される４番目の第２のトレーニング画調特徴マップ群を含む。

一部の実施例では、ｋ＝１の場合、μ_１（ｆ_１２（ｇ（ｔ）））は、１番目の第１のトレーニング画調特徴マップ群の平均値からなる３次元マトリクスを表し、μ_１（ｆ_１２（ｓ））は、１番目の第２のトレーニング画調特徴マップ群の平均値からなる３次元マトリクスを表し、σ_１（ｆ_１２（ｇ（ｔ）））は、１番目の第１のトレーニング画調特徴マップ群の分散値からなる３次元マトリクスを表し、σ_１（ｆ_１２（ｓ））は、１番目の第２のトレーニング画調特徴マップ群の分散値からなる３次元マトリクスを表す。

一部の実施例では、ｋ＝２の場合、μ_２（ｆ_１２（ｇ（ｔ）））は、２番目の第１のトレーニング画調特徴マップ群の平均値からなる３次元マトリクスを表し、μ_２（ｆ_１２（ｓ））は、２番目の第２のトレーニング画調特徴マップ群の平均値からなる３次元マトリクスを表し、σ_２（ｆ_１２（ｇ（ｔ）））は、２番目の第１のトレーニング画調特徴マップ群の分散値からなる３次元マトリクスを表し、σ_２（ｆ_１２（ｓ））は、２番目の第２のトレーニング画調特徴マップ群の分散値からなる３次元マトリクスを表す。

一部の実施例では、ｋ＝３の場合、μ_３（ｆ_１２（ｇ（ｔ）））は、３番目の第１のトレーニング画調特徴マップ群の平均値からなる３次元マトリクスを表し、μ_３（ｆ_１２（ｓ））は、３番目の第２のトレーニング画調特徴マップ群の平均値からなる３次元マトリクスを表し、σ_３（ｆ_１２（ｇ（ｔ）））は、３番目の第１のトレーニング画調特徴マップ群の分散値からなる３次元マトリクスを表し、σ_３（ｆ_１２（ｓ））は、３番目の第２のトレーニング画調特徴マップ群の分散値からなる３次元マトリクスを表す。

一部の実施例では、ｋ＝４の場合、μ_４（ｆ_１２（ｇ（ｔ）））は、４番目の第１のトレーニング画調特徴マップ群の平均値からなる３次元マトリクスを表し、μ_４（ｆ_１２（ｓ））は、４番目の第２のトレーニング画調特徴マップ群の平均値からなる３次元マトリクスを表し、σ_４（ｆ_１２（ｇ（ｔ）））は、４番目の第１のトレーニング画調特徴マップ群の分散値からなる３次元マトリクスを表し、σ_４（ｆ_１２（ｓ））は、４番目の第２のトレーニング画調特徴マップ群の分散値からなる３次元マトリクスを表す。

一部の実施例では、復号サブネットワーク１０３のパラメータ損失を算出する段階は、複数のトレーニングコンテンツ特徴マップ及び複数のトレーニング出力特徴マップに基づいて、コンテンツ損失関数を用いて復号サブネットワーク１０３のパラメータのコンテンツ損失を算出することと、複数の第１のトレーニング画調特徴マップ及び複数の第２のトレーニング画調特徴マップに基づいて、画調損失関数を用いて、復号サブネットワーク１０３のパラメータの画調損失を算出することとを含む。

一部の実施例では、第１の畳み込みニューラルネットワークは、特徴抽出サブネットワーク、融合部、及び第１の復号サブネットワークを含む。任意選択的に、第１の復号サブネットワークは、特徴抽出サブネットワークの構成と対称な構成を有する。一部の実施例では、第２の畳み込みニューラルネットワークは、特徴抽出サブネットワークと、融合部と、復号サブネットワークとして本明細書に開示される第２の復号サブネットワークとを含む。

一部の実施例では、第１の復号サブネットワークのパラメータの数は３５０５０００であり、第２の復号サブネットワークのパラメータの数は３３７０００である。第２の復号サブネットワークのパラメータの数は、第１の復号サブネットワークのパラメータの数の１０分の１である。同じ条件では、第１の畳み込みニューラルネットワークの事前トレーニングにかかる時間は７時間であり、第２の畳み込みニューラルネットワークの事前トレーニングにかかるは５時間である。例えば、第１及び第２の畳み込みニューラルネットワークに、同じ入力画像（サイズが８００×８００である）及び同じ画調画像（サイズが２５６×２５６である）が入力される。１番目の畳み込みニューラルネットワークによる入力画像及び画調画像に対する１００回の処理の処理時間は０．８５秒である。２回目の畳み込みニューラルネットワークによる入力画像及び画調画像に対する１００回の処理の処理時間は０．５２秒である。本明細書で開示される復号サブネットワークを利用する第２の畳み込みニューラルネットワークは、処理効率を向上させ、パラメータの数を低減し、事前トレーニングプロセスを短縮することができる。

他の一様態では、本開示は、合成画像生成用の第１の装置を提供する。図１０は本開示の一部の実施例に係る、合成画像生成用の第１の装置の概略図である。図１０を参照すると、合成画像生成用の第１の装置７０は、画像取得部７１と、画像処理部７２とを含む。任意選択的に、画像取得部７１と画像処理部７２とは相互に接続される。例えば、画像取得部７１と画像処理部７２は、１又は複数の集積回路により相互に接続される。

一部の実施例では、画像取得部７１は、画調画像及び入力画像を取得するように構成される。任意選択的に、画像取得部７１は、メモリを含む。メモリには、画調画像及び入力画像が記憶される。任意選択的に、画像取得部７１は、１以上のカメラを含み、入力画像及び画調画像を取得する。任意選択的に、画像取得部７１は、ハードウェア、ソフトウェア、及びファームウェアからなる群から選択される構成要素の組み合わせである。

一部の実施例では、画像処理部７２は、畳み込みニューラルネットワーク７２０を含む。当該畳み込みニューラルネットワークは、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するように構成される。任意選択的に、畳み込みニューラルネットワーク７２０は、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含む。復号サブネットワークは、Ｍ個の密集して接続される算出モジュールを含み、Ｍは１以上の整数である。Ｍ個の密集して接続される算出モジュールのそれぞれは、順次接続されたＮ個の畳み込みブロックを含み、Ｎは２以上の整数である。任意選択的に、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックは、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を受信、処理して、ｎ番目の出力特徴マップ群を生成するように構成され、ｎは整数である。任意選択的に、Ｍ個の密集して接続される算出モジュールのうちのｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールからの出力は、ｍ番目の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含み、Ｍは整数である。

一部の実施例では、画像処理部７１は、特徴抽出サブネットワーク１０１を用いて画調画像の画調特徴を抽出して、複数の画調特徴マップを生成し、特徴抽出サブネットワーク１０１を用いて入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成し、融合部を用いて複数のコンテンツ特徴マップと複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成し、復号サブネットワークにより複数の出力特徴マップを再構成して、出力画像を生成するように構成される。

一部の実施例では、画像処理部７２の畳み込みニューラルネットワーク７２０と、本明細書に記載のコンピュータ実現方法における畳み込みニューラルネットワークとは、同じ構成及び同じ関数を有する。

一部の実施例では、合成画像生成用の第１の装置７０は、事前トレーニングネットワークを含む。任意選択的に、事前トレーニングネットワークは、畳み込みニューラルネットワーク７２０、解析ネットワーク、及び損失関数を含む。任意選択的に、事前トレーニングネットワークは、畳み込みニューラルネットワーク７０を予めトレーニングするように構成される。

図１１は、本開示の一部の実施例に係る、合成画像生成装置の概略図である。図１１を参照すると、一部の実施例では、本開示は、合成画像生成用の第２の装置８０を提供する。合成画像生成用の第２の装置８０は、メモリ８２と、１つ以上のプロセッサ８１とを含む。任意選択的に、メモリ８２と１つ以上のプロセッサ８１とが相互に接続される。一例では、メモリ８２と１つ以上のプロセッサ８１とは、直接的に相互に接続される。別の一例では、メモリ８２と１つ以上のプロセッサ８１とは、間接的に相互に接続される。

一部の実施例では、メモリ８２及び１つ以上のプロセッサ８１は、ネットワークを介して相互に接続される。メモリ８２と１つ以上のプロセッサ８１とを接続するのに適したネットワークの例は、無線ネットワーク、有線ネットワーク、無線ネットワークと有線ネットワークとの組み合わせ、ローカルエリアネットワーク、インターネット、電気通信ネットワーク、及びインターネット又は電気通信ネットワークに基づくモノのインターネットを含むが、これらに限定されない。任意選択的に、有線ネットワークは、ツイストペア線、同軸ケーブル、又は光ファイバを用いてデータを伝送してもよい。任意選択的に、無線ネットワークは、３Ｇ／４Ｇ／５Ｇ移動通信ネットワーク、ブルートゥース、Ｚｉｇｂｅｅ又はＷｉＦｉを用いてデータを伝送してもよい。

一部の実施例では、プロセッサ８１は、データ処理能力及びプログラム実行能力を有するデバイスであり、このデバイスは、ＣＰＵ、ＴＰＵ、及びＧＰＵからなる群から選択されてもよい。任意選択的に、ＣＰＵは、Ｘ８６構成又はＡＲＭ構成を有してもよい。

一部の実施例では、１つ以上のメモリ８２は、記憶媒体を含み、１つ以上のプログラム命令を記憶する。適切な記憶媒体の例は、スマートフォンのメモリカード、タブレットの記憶アセンブリ、パーソナルコンピュータのハードディスク、ＲＯＭ（Ｒｅａｄ−ｏｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄ−ｏｎｌｙＭｅｍｏｒｙ）、ＵＳＢメモリ、又はこれらの任意の組み合わせを含むが、これらに限定されない。

任意選択的に、畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がメモリに記憶される。畳み込みニューラルネットワークは、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含む。

任意選択的に、特徴抽出サブネットワークを用いて画調画像の画調特徴を抽出して、複数の画調特徴マップを生成し、特徴抽出サブネットワークを用いて入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成し、融合部を用いて複数のコンテンツ特徴マップと複数の画調特徴マップとを融合させて、複数の出力特徴マップを生成し、復号サブネットワークにより複数の出力特徴マップを再構成して、出力画像を生成するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がメモリに記憶される。

任意選択的に、復号サブネットワークにより複数の出力特徴マップを再構成するために、メモリには、復号サブネットワークにおいて順次接続され、各々が順次接続されたＮ個（Ｎは２以上の整数）の畳み込みブロックを含むＭ個（Ｍは１以上の整数）の密集して接続される算出モジュールにより複数の出力特徴マップを処理するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶される。Ｍ個の密集して接続される算出モジュールのそれぞれは、順次接続されたＮ個の畳み込みブロックを含み、Ｍは１以上の整数であり、Ｎは２以上の整数である。

任意選択的に、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成する。

任意選択的に、Ｍ個の密集して接続される算出モジュールのうちのｍ番目の密集して接続される算出モジュールからの出力は、ｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む。

一部の実施例では、復号サブネットワークは、複数の逆プーリングブロックをさらに含む。任意選択的に、複数の逆プーリングブロックのそれぞれは、畳み込み層、活性化層、及びアップサンプリング動作を実行するための逆プーリング層を含む。

一部の実施例では、特徴抽出サブネットワークは、復号サブネットワークにおける複数の逆プーリングブロックにそれぞれ対応する複数のプーリングブロックを含む。

一部の実施例では、復号サブネットワークは、出力層をさらに含む。任意選択的に、Ｍ個の密集して接続される算出モジュールは、第１の密集して接続される算出モジュール、第２の密集して接続される算出モジュール、及び第３の密集して接続される算出モジュールを含む。任意選択的に、複数の逆プーリングブロックは、第１の逆プーリングブロック、第２の逆プーリングブロック、及び第３の逆プーリングブロックを含む。

任意選択的に、復号サブネットワークにより複数の出力特徴マップを再構成するために、メモリには、第１の逆プーリングブロックにより複数の出力特徴マップを処理して複数の第１の逆プーリング特徴マップを生成し、第１の密集して接続される算出モジュールを用いて複数の第１の逆プーリング特徴マップの特徴を抽出して複数の第１の中間復号特徴マップを生成し、第２の逆プーリングブロックにより複数の第１の中間復号特徴マップを処理して、複数の第２の逆プーリング特徴マップを生成し、第２の密集して接続される算出モジュールにより、複数の第２の逆プーリング特徴マップの特徴を抽出して、複数の第２の中間復号特徴マップを生成し、第３の逆プーリングブロックにより複数の第２の中間復号特徴マップを処理して、複数の第３の逆プーリング特徴マップを生成し、第３の密集して接続される算出モジュールを用いて、複数の第３の逆プーリング特徴マップの特徴を抽出して、複数の第３の中間復号特徴マップを生成し、出力層を用いて、複数の第３の中間復号特徴マップを特徴空間から画像空間へ変換することにより、出力画像を生成するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶される。

一部の実施例では、特徴抽出サブネットは、第１の畳み込み層群、第２の畳み込み層群、第３の畳み込み層群、第４の畳み込み層群、第１のプーリング層、第２のプーリング層、及び第３のプーリング層を含み、第１のプーリング層が第１の畳み込み層群と第２の畳み込み層群との間に位置し、第２のプーリング層は、第２の畳み込み層群と第３の畳み込み層群との間に位置し、第３のプーリング層は、第３の畳み込み層群と第４の畳み込み層群との間に位置する。

一部の実施例では、第１の畳み込み層群は、２つの畳み込み層と２つの活性化層とを含む。任意選択的に、第２の畳み込み層群は、２つの畳み込み層と２つの活性化層とを含む。任意選択的に、第３の畳み込み層群は、３つの畳み込み層と３つの活性化層とを含む。任意選択的に、第４の畳み込み層群は、１つの畳み込み層と１つの活性化層とを含む。

一部の実施例では、特徴抽出サブネットワークを用いて画調画像の画調特徴を抽出して複数の画調特徴マップを生成するために、メモリには、第１の畳み込み層群を用いて画調画像の画調特徴を抽出して複数の第１の中間画調特徴マップを生成し、第１のプーリング層を用いて複数の第１の中間画調特徴マップをダウンサンプルして、複数の第１のプーリング画調特徴マップを生成し、第２の畳み込み層群を用いて第１のプーリング画調特徴マップの画調特徴を抽出して、複数の第２の中間画調特徴マップを生成し、第２のプーリング層を用いて複数の第２の中間画調特徴マップをダウンサンプルして、複数の第２のプーリング画調特徴マップを生成し、第３の畳み込み層群を用いて複数の第２のプーリング画調特徴マップの画調特徴を抽出して複数の第３の中間画調特徴マップを生成し、第３のプーリング層を用いて複数の第３の中間画調特徴マップをダウンサンプルして、複数の第３のプーリング画調特徴マップを生成し、第４の畳み込み層群を用いて第３のプーリング画調特徴マップの画調特徴を抽出して、複数の第４の中間画調特徴マップを生成するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶される。任意選択的に、複数の画調特徴マップは複数の第４の中間画調特徴マップを含む。

一部の実施例では、特徴抽出サブネットワークを用いて入力画像のコンテンツ特徴を抽出して複数のコンテンツ特徴マップを生成するために、メモリには、第１の畳み込み層群を用いて入力画像のコンテンツ特徴を抽出して複数の第１の中間コンテンツ特徴マップを生成し、第１のプーリング層を用いて、複数の第１の中間コンテンツ特徴マップをダウンサンプリングして、複数の第１のプーリングコンテンツ特徴マップを生成し、第２の畳み込み層群を用いて複数の第１のプーリングコンテンツ特徴マップのコンテンツ特徴を抽出して、複数の第２の中間コンテンツ特徴マップを生成し、第２のプーリング層を用いて、複数の第２の中間コンテンツ特徴マップをダウンサンプリングして、複数の第２のプーリングコンテンツ特徴マップを生成し、第３の畳み込み層群を用いて前記複数の第２のプーリングコンテンツ特徴マップのコンテンツ特徴を抽出して、複数の第３の中間コンテンツ特徴マップを生成し、第３のプーリング層を用いて複数の第３の中間コンテンツ特徴マップをダウンサンプリングして、複数の第３のプーリングコンテンツ特徴マップを生成し、第４の畳み込み層群を用いて、複数の第３のプーリングコンテンツ特徴マップのコンテンツ特徴を抽出して、複数の第４の中間コンテンツ特徴マップを生成するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶される。任意選択的に、複数のコンテンツ特徴マップは、複数の第４の中間コンテンツ特徴マップを含む。

任意選択的に、複数の出力特徴マップは下式で表される。

Ａ（ｘ，ｙ）は、複数の出力特徴マップからなる３次元マトリクスを表し、ｘは、複数のコンテンツ特徴マップからなる３次元マトリクスを表し、ｙは、複数の画調特徴マップからなる３次元マトリクスを表し、μ（ｘ）は、複数のコンテンツ特徴マップのそれぞれから導出された複数の平均値からなる３次元マトリクスを表し、σ（ｘ）は、複数のコンテンツ特徴マップの分散値からなる３次元マトリクスを表し、μ（ｙ）は、複数の画調特徴マップのそれぞれから導出された複数の平均値からなる３次元マトリクスを表し、σ（ｙ）は、複数の画調特徴マップのそれぞれから導出された複数の分散値からなる３次元マトリクスを表す。

一部の実施例では、メモリには、畳み込みニューラルネットワークを予めトレーニングするように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶される。任意選択的に、畳み込みニューラルネットワークを予めトレーニングするために、メモリには、トレーニングコンテンツ画像とトレーニング画調画像を畳み込みニューラルネットワークに入力し、復号サブネットワークにより複数のトレーニング出力画像を生成し、融合部を用いて複数のトレーニング出力特徴マップを生成し、解析ネットワークを用いて、複数のトレーニング出力画像の画調特徴及びコンテンツ特徴を抽出して、複数の第１のトレーニング画調特徴マップ及び複数のトレーニングコンテンツ特徴マップを生成し、解析ネットワークを用いてトレーニング画調画像の画調特徴を抽出して、複数の第２のトレーニング画調特徴マップを生成し、複数の第１のトレーニング画調特徴マップ、複数の第２のトレーニング画調特徴マップ、複数のトレーニングコンテンツ特徴マップ及び複数のトレーニング出力特徴マップに基づいて、損失関数を用いて復号サブネットワークのパラメータ損失を算出し、損失に応じて復号サブネットワークのパラメータを調整するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶される。

一部の実施例では、メモリには、畳み込みニューラルネットワークを繰り返し予めトレーニングするように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶される。

任意選択的に、損失関数は、コンテンツ損失関数と画調損失関数とを含む。任意選択的に、損失は、コンテンツ損失と画調損失とを含む。

一部の実施例では、復号サブネットワークのパラメータ損失を算出するために、メモリには、複数のトレーニングコンテンツ特徴マップ及び複数のトレーニング出力特徴マップに基づいて、コンテンツ損失関数を用いて復号サブネットワークのパラメータのコンテンツ損失を算出し、複数の第１のトレーニング画調特徴マップと複数の第２のトレーニング画調特徴マップとに基づいて、画調損失関数を用いて、復号サブネットワークのパラメータの画調損失を算出するように１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶される。

任意選択的に、損失関数は、下式で表される。

Ｌｃはコンテンツ損失関数を表し、Ｌｓは、画調損失関数を表し、αはコンテンツ損失関数の重みを表し、βは、画調損失関数の重みを表す。

任意選択的に、コンテンツ損失関数Ｌｃは下式で表される。

ｔはトレーニングコンテンツ画像を表し、ｇ（ｔ）は、複数のトレーニング出力画像を表し、Ｆ_１１（ｇ（ｔ））は、複数のトレーニングコンテンツ特徴マップからなる３次元マトリクスを表し、Ｆ_２（ｔ）は、複数のトレーニング出力特徴マップからなる３次元マトリクスを表し、Ｃは、正規化を実行するための定数である。

任意選択的に、画調損失関数Ｌｓは、下式で表現される。

任意選択的に、解析ネットワーク及び特徴抽出サブネットワークは、同じ構成及び同じパラメータを含む。

別の態様では、本開示は、コンピュータプログラム製品を提供する。一部の実施例では、コンピュータプログラム製品は、コンピュータ可読命令を有する非一時的な有形のコンピュータ可読媒体を含む。任意選択的に、コンピュータ可読命令は、プロセッサにより実行されると、プロセッサに、畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するようにさせる。任意選択的に、畳み込みニューラルネットワークは、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含む。

一部の実施例では、畳み込みニューラルネットワークにより入力画像を処理するために、コンピュータ可読命令は、プロセッサにより実行されると、プロセッサに、特徴抽出サブネットワークを用いて画調画像の画調特徴を抽出して複数の画調特徴マップを生成し、特徴抽出サブネットワークを用いて入力画像のコンテンツ特徴を抽出して複数のコンテンツ特徴マップを生成し、融合部を用いて複数のコンテンツ特徴マップと複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成し、復号サブネットワークにより複数の出力特徴マップを再構成して、出力画像を生成するようにさせる。

一部の実施例では、復号サブネットワークにより複数の出力特徴マップを再構成するために、コンピュータ可読命令は、プロセッサにより実行されると、プロセッサに、復号サブネットワークにおいて順次接続されたＭ個の密集接続の算出モジュールにより、複数の出力特徴マップを処理するようにさせる。任意選択的に、Ｍ個（Ｍは１以上の整数）の密集して接続される算出モジュールのそれぞれは、順次接続されたＮ個（Ｎは２以上の整数）の畳み込みブロックを含む。任意選択的に、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を、Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成する。任意選択的に、Ｍ個の密集して接続される算出モジュールのうちのｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールの出力は、ｍ番目の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む。

本発明の実施例の以上の記載は、説明及び記載を目的として行われたものであり、網羅的である、又は、本発明を開示された正確な形態又は例示的な実施例に限定することを意図するものではない。そのため、以上の記載は、限定的なものではなく例示的なものであると見なされるべきである。多くの修正及び変形は、当業者にとって明らかである。当業者が本発明の様々な実施例を理解可能なように、実施例は、本発明の原理及びその最良の態様の実際の適用を説明するために選択され記載され、それに、予期される特定の用途又は実施に適した様々な修正を備える。本発明の範囲は、添付された特許請求の範囲及びその均等物により限定されることを意図しており、別段の定めがない限り、全ての用語は、その最も広い合理的な意味で示される。したがって、「発明」、「本発明」などの用語は、必ずしも特許請求の範囲を特定の実施例に限定するものではなく、本発明の例示的な実施例への参照は、本発明を限定する意味合いはなく、このような限定を推論すべきでもない。本発明は、添付された特許請求の範囲の趣旨及び範囲のみで限定される。また、これらの請求項は、名詞又は要素の使用後の「第１の」、「第２の」などを指し得る。具体的な数字が与えられていない限り、これらの文語は、用語として理解されるべきであり、修飾される要素に対する数量限定として解釈されるべきではない。記載された利点及びメリットは、本発明のすべての実施例に合うわけではない。なお、添付された特許請求の範囲により限定される本発明の範囲から逸脱しない限り、当業者が説明する実施例では、変更可能であることを理解されたい。また、構成要素又はアセンブリが以下の特許請求の範囲に明示的に記載されているか否かにかかわらず、本開示の任意の構成要素及びアセンブリが一般向け専用のものであることが意図されていない。

本願は、２０１８年９月２５日に出願された、出願番号が２０１８１１１１８５２２．６である中国特許出願を基礎とする優先権を主張し、その内容の全てが参照によって本明細書に組み込まれる。

Claims

畳み込みニューラルネットワークを利用したコンピュータ実現方法であって、
特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含む畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された前記入力画像のコンテンツ特徴を含む出力画像を生成するステップを含み、
前記畳み込みニューラルネットワークにより前記入力画像を処理するプロセスは、
前記特徴抽出サブネットワークにより前記画調画像の画調特徴を抽出して、複数の画調特徴マップを生成する段階と、
前記特徴抽出サブネットワークにより前記入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成する段階と、
前記融合部を用いて前記複数のコンテンツ特徴マップと前記複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成する段階と、
前記復号サブネットワークにより前記複数の出力特徴マップを再構成して、前記出力画像を生成する段階と、を含み、
前記復号サブネットワークにより前記複数の出力特徴マップを再構成するプロセスは、
前記復号サブネットワークにおいて順次接続され、各々が順次接続されたＮ個（Ｎは２以上の整数）の畳み込みブロックを含むＭ個（Ｍは１以上の整数）の密集して接続される算出モジュールにより前記複数の出力特徴マップを処理することを含み、
前記Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を、前記Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成し、
前記Ｍ個の密集して接続される算出モジュールのうちのｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールからの出力は、前記ｍ番目の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む、方法。
前記Ｎ個の畳み込みブロックのそれぞれは、畳み込み層と活性化層とを含む、請求項１に記載の方法。
前記復号サブネットワークは、複数の逆プーリングブロックをさらに含み、
前記複数の逆プーリングブロックのそれぞれは、
畳み込み層と、
活性化層と、
アップサンプリング動作を実行するための逆プーリング層とを含む、請求項１に記載の方法。
前記特徴抽出サブネットワークは、前記復号サブネットワークにおける前記複数の逆プーリングブロックにそれぞれ対応する複数のプーリングブロックを含む、請求項３に記載の方法。
前記復号サブネットワークは、出力層をさらに含み、
前記Ｍ個の密集して接続される算出モジュールは、第１の密集して接続される算出モジュール、第２の密集して接続される算出モジュール、及び第３の密集して接続される算出モジュールを含み、
前記複数の逆プーリングブロックは、第１の逆プーリングブロック、第２の逆プーリングブロック、及び第３の逆プーリングブロックを含み、
前記復号サブネットワークにより前記複数の出力特徴マップを再構成するプロセスは、
前記第１の逆プーリングブロックにより前記複数の出力特徴マップを処理して、複数の第１の逆プーリング特徴マップを生成する段階と、
前記第１の密集して接続される算出モジュールを用いて前記複数の第１の逆プーリング特徴マップの特徴を抽出して、複数の第１の中間復号特徴マップを生成する段階と、
前記第２の逆プーリングブロックにより前記複数の第１の中間復号特徴マップを処理して、複数の第２の逆プーリング特徴マップを生成する段階と、
前記第２の密集して接続される算出モジュールを用いて前記複数の第２の逆プーリング特徴マップの特徴を抽出して、複数の第２の中間復号特徴マップを生成する段階と、
前記第３の逆プーリングブロックにより前記複数の第２の中間復号特徴マップを処理して、複数の第３の逆プーリング特徴マップを生成する段階と、
前記第３の密集して接続される算出モジュールを用いて前記複数の第３の逆プーリング特徴マップの特徴を抽出して、複数の第３の中間復号特徴マップを生成する段階と、
前記出力層を用いて前記複数の第３の中間復号特徴マップを特徴空間から画像空間へ変換して、前記出力画像を生成する段階とを含む、請求項４に記載の方法。
前記特徴抽出サブネットワークは、第１の畳み込み層群、第２の畳み込み層群、第３の畳み込み層群、第４の畳み込み層群、第１のプーリング層、第２のプーリング層、及び第３のプーリング層を含み、
前記第１のプーリング層は、前記第１の畳み込み層群と前記第２の畳み込み層群との間に位置し、
前記第２のプーリング層は、前記第２の畳み込み層群と前記第３の畳み込み層群との間に位置し、
前記第３のプーリング層は、前記第３の畳み込み層群と前記第４の畳み込み層群との間に位置する、請求項１に記載の方法。
前記第１の畳み込み層群は、２つの畳み込み層と２つの活性化層とを含み、
前記第２の畳み込み層群は、２つの畳み込み層と２つの活性化層とを含み、
前記第３の畳み込み層群は、３つの畳み込み層と３つの活性化層とを含み、
前記第４の畳み込み層群は、１つの畳み込み層と１つの活性化層とを含む、請求項６に記載の方法。
前記特徴抽出サブネットワークを用いて前記画調画像の画調特徴を抽出して、前記複数の画調特徴マップを生成する段階は、
前記第１の畳み込み層群を用いて前記画調画像の画調特徴を抽出して、複数の第１の中間画調特徴マップを生成することと、
前記第１のプーリング層を用いて前記複数の第１の中間画調特徴マップをダウンサンプリングして、複数の第１のプーリング画調特徴マップを生成することと、
前記第２の畳み込み層群を用いて前記複数の第１のプーリング画調特徴マップの画調特徴を抽出して、複数の第２の中間画調特徴マップを生成することと、
前記第２のプーリング層を用いて前記複数の第２の中間画調特徴マップをダウンサンプリングして、複数の第２のプーリング画調特徴マップを生成することと、
前記第３の畳み込み層群を用いて前記複数の第２のプーリング画調特徴マップの画調特徴を抽出して、複数の第３の中間画調特徴マップを生成することと、
前記第３のプーリング層を用いて前記複数の第３の中間画調特徴マップをダウンサンプリングして、複数の第３のプーリング画調特徴マップを生成することと、
前記第４の畳み込み層群を用いて前記複数の第３のプーリング画調特徴マップの画調特徴を抽出して、複数の第４の中間画調特徴マップを生成することと、を含み、
前記複数の画調特徴マップは、前記複数の第４の中間画調特徴マップを含む、請求項７に記載の方法。
前記特徴抽出サブネットワークを用いて前記入力画像のコンテンツ特徴を抽出して、前記複数のコンテンツ特徴マップを生成する段階は、
前記第１の畳み込み層群を用いて前記入力画像のコンテンツ特徴を抽出して、複数の第１の中間コンテンツ特徴マップを生成することと、
前記第１のプーリング層を用いて前記複数の第１の中間コンテンツ特徴マップをダウンサンプリングして、複数の第１のプーリングコンテンツ特徴マップを生成することと、
前記第２の畳み込み層群を用いて前記複数の第１のプーリングコンテンツ特徴マップのコンテンツ特徴を抽出して、複数の第２の中間コンテンツ特徴マップを生成することと、
前記第２のプーリング層を用いて前記複数の第２の中間コンテンツ特徴マップをダウンサンプリングして、複数の第２のプーリングコンテンツ特徴マップを生成することと、
前記第３の畳み込み層群を用いて前記複数の第２のプーリングコンテンツ特徴マップのコンテンツ特徴を抽出して、複数の第３の中間コンテンツ特徴マップを生成することと、
前記第３のプーリング層を用いて前記複数の第３の中間コンテンツ特徴マップをダウンサンプリングして、複数の第３のプーリングコンテンツ特徴マップを生成することと、
前記第４の畳み込み層群を用いて前記複数の第３のプーリングコンテンツ特徴マップのコンテンツ特徴を抽出して、複数の第４の中間コンテンツ特徴マップを生成することと、を含み、
前記複数のコンテンツ特徴マップは、前記複数の第４の中間コンテンツ特徴マップを含む、請求項７に記載の方法。
前記複数の出力特徴マップは、下式により表され、

Ａ（ｘ，ｙ）は、前記複数の出力特徴マップからなる３次元マトリクスを表し、ｘは、前記複数のコンテンツ特徴マップからなる３次元マトリクスを表し、ｙは、前記複数の画調特徴マップからなる３次元マトリクスを表し、μ（ｘ）は、前記複数のコンテンツ特徴マップのそれぞれから導出された複数の平均値からなる３次元マトリクスを表し、σ（ｘ）は、前記複数のコンテンツ特徴マップのそれぞれから導出された複数の分散値からなる３次元マトリクスを表し、μ（ｙ）は、前記複数の画調特徴マップのそれぞれから導出された複数の平均値からなる３次元マトリクスを表し、σ（ｙ）は、前記複数の画調特徴マップのそれぞれから導出された複数の分散値からなる３次元マトリクスを表す、請求項１に記載の方法。
前記畳み込みニューラルネットワークを予めトレーニングするステップをさらに含み、
前記畳み込みニューラルネットワークを予めトレーニングするステップは、
トレーニングコンテンツ画像とトレーニング画調画像を前記畳み込みニューラルネットワークに入力する段階と、
前記復号サブネットワークを用いて複数のトレーニング出力画像を生成し、前記融合部を用いて複数のトレーニング出力特徴マップを生成する段階と、
解析ネットワークを用いて前記複数のトレーニング出力画像の画調特徴及びコンテンツ特徴を抽出して、複数の第１のトレーニング画調特徴マップ及び複数のトレーニングコンテンツ特徴マップを生成する段階と、
前記解析ネットワークを用いて前記トレーニング画調画像の画調特徴を抽出して、複数の第２のトレーニング画調特徴マップを生成する段階と、
前記複数の第１のトレーニング画調特徴マップ、前記複数の第２のトレーニング画調特徴マップ、前記複数のトレーニングコンテンツ特徴マップ、及び前記複数のトレーニング出力特徴マップに基づいて、損失関数を用いて前記復号サブネットワークのパラメータ損失を算出する段階と、
前記損失に応じて前記復号サブネットワークのパラメータを調整する段階と、を含む、請求項１に記載の方法。
前記畳み込みニューラルネットワークを繰り返し予めトレーニングするステップをさらに含む、請求項１１に記載の方法。
前記損失関数は、コンテンツ損失関数と画調損失関数とを含み、
前記損失は、コンテンツ損失と画調損失とを含み、
前記復号サブネットワークのパラメータ損失を算出する段階は、
前記複数のトレーニングコンテンツ特徴マップ及び前記複数のトレーニング出力特徴マップに基づいて、前記コンテンツ損失関数を用いて前記復号サブネットワークのパラメータのコンテンツ損失を算出することと、
前記複数の第１のトレーニング画調特徴マップ及び前記複数の第２のトレーニング画調特徴マップに基づいて、前記画調損失関数を用いて前記復号サブネットワークのパラメータの画調損失を算出することと、を含む、請求項１１に記載の方法。
前記損失関数は、下式により表され、

Ｌｃは、前記コンテンツ損失関数を表し、Ｌｓは、前記画調損失関数を表し、αは、前記コンテンツ損失関数の重みを表し、βは、前記画調損失関数の重みを表し、
前記コンテンツ損失関数Ｌｃは、下式により表され、

ｔは前記トレーニングコンテンツ画像を表し、ｇ（ｔ）は、前記複数のトレーニング出力画像を表し、ｆ_１１（ｇ（ｔ））は、前記複数のトレーニングコンテンツ特徴マップからなる３次元マトリクスを表し、ｆ_２（ｔ）は、前記複数のトレーニング出力特徴マップからなる３次元マトリクスを表し、Ｃ１は、正規化を実行するための定数であり、
前記画調損失関数Ｌｓは、下式により表され、

ｓは、トレーニング画調画像を表し、ｆ_１２（ｓ）は、前記複数の第２のトレーニング画調特徴マップからなる３次元マトリクスを示し、ｆ_１２（ｇ（ｔ））は、前記複数の第１のトレーニング画調特徴マップからなる３次元マトリクスを表し、μ_ｋ（ｆ_１２（ｇ（ｔ）））は、前記複数の第１のトレーニング画調特徴マップの平均値からなる３次元マトリクスを表し、μ_ｋ（ｆ_１２（ｓ））は、前記複数の第２のトレーニング画調特徴マップの平均値からなる３次元マトリクスを表し、σ_ｋ（ｆ_１２（ｇ（ｔ）））は、前記複数の第１のトレーニング画調特徴マップの分散値からなる３次元マトリクスを表し、σ_ｋ（ｆ_１２（ｓ））は、前記複数の第２のトレーニング画調特徴マップの分散値からなる３次元マトリクスを表し、ｋは、整数である、請求項１３に記載の方法。
前記解析ネットワークと前記特徴抽出サブネットワークとは、同じ構成及び同じパラメータを含む、請求項１１に記載の方法。
合成画像生成用の装置であって、
メモリと、
１つ以上のプロセッサとを含み、
前記メモリと前記１つ以上のプロセッサとが相互に接続され、
前記メモリには、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含む畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するように前記１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令が記憶され、
前記メモリには、
前記特徴抽出サブネットワークを用いて前記画調画像の画調特徴を抽出して、複数の画調特徴マップを生成し、
前記特徴抽出サブネットワークを用いて前記入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成し、
前記融合部を用いて前記複数のコンテンツ特徴マップと前記複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成し、
前記復号サブネットワークを用いて前記複数の出力特徴マップを再構成して、前記出力画像を生成するように前記１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令が記憶され、
前記復号サブネットワークにより前記複数の出力特徴マップを再構成するために、前記メモリには、
前記復号サブネットワークにおいて順次接続され、各々が順次接続されたＮ個（Ｎは２以上の整数）の畳み込みブロックを含むＭ個（Ｍは１以上の整数）の密集して接続される算出モジュールにより前記複数の出力特徴マップを処理するように前記１つ以上のプロセッサを制御するためのコンピュータ実行可能な命令がさらに記憶され、
前記Ｍ個の密集して接続される算出モジュールのそれぞれの前記Ｎ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を、前記Ｍ個の密集して接続される算出モジュールのそれぞれの前記Ｎ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成し、
前記Ｍ個の密集して接続される算出モジュールのうちのｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールの出力は、前記ｍ番目の密集して接続される算出モジュールの前記Ｎ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む、装置。
前記復号サブネットワークは、複数の逆プーリングブロックをさらに含み、
前記複数の逆プーリングブロックのそれぞれは、
畳み込み層と、
活性化層と、
アップサンプリング動作を実行するための逆プーリング層とを含む、請求項１６に記載の装置。
前記特徴抽出サブネットワークは、前記復号サブネットワークにおける前記複数の逆プーリングブロックにそれぞれ対応する複数のプーリングブロックを含む、請求項１７に記載の装置。
前記復号サブネットワークは、出力層をさらに含み、
前記Ｍ個の密集して接続される算出モジュールは、第１の密集して接続される算出モジュール、第２の密集して接続される算出モジュール、及び第３の密集して接続される算出モジュールを含み、
前記複数の逆プーリングブロックは、第１の逆プーリングブロック、第２の逆プーリングブロック、及び第３の逆プーリングブロックを含み、
前記復号サブネットワークにより前記複数の出力特徴マップを再構成するプロセスは、
前記第１の逆プーリングブロックにより前記複数の出力特徴マップを処理して、複数の第１の逆プーリング特徴マップを生成することと、
前記第１の密集して接続される算出モジュールを用いて前記複数の第１の逆プーリング特徴マップの特徴を抽出して、複数の第１の中間復号特徴マップを生成することと、
前記第２の逆プーリングブロックにより前記複数の第１の中間復号特徴マップを処理して、複数の第２の逆プーリング特徴マップを生成することと、
前記第２の密集して接続される算出モジュールを用いて前記複数の第２の逆プーリング特徴マップの特徴を抽出して、複数の第２の中間復号特徴マップを生成することと、
前記第３の逆プーリングブロックにより前記複数の第２の中間復号特徴マップを処理して、複数の第３の逆プーリング特徴マップを生成することと、
前記第３の密集して接続される算出モジュールを用いて前記複数の第３の逆プーリング特徴マップの特徴を抽出して、複数の第３の中間復号特徴マップを生成することと、
前記出力層を用いて前記複数の第３の中間復号特徴マップを特徴空間から画像空間へ変換して、前記出力画像を生成することとを含む、請求項１８に記載の装置。
コンピュータ可読命令を有する非一時的な有形のコンピュータ可読媒体を含むコンピュータプログラム製品であって、
前記コンピュータ可読命令は、プロセッサにより実行されると、前記プロセッサに、畳み込みニューラルネットワークにより入力画像を処理して、画調画像の画調特徴が融合された入力画像のコンテンツ特徴を含む出力画像を生成するようにさせ、前記畳み込みニューラルネットワークは、特徴抽出サブネットワーク、融合部、及び復号サブネットワークを含み、
前記畳み込みニューラルネットワークにより前記入力画像を処理するプロセスは、
前記特徴抽出サブネットワークを用いて前記画調画像の画調特徴を抽出して、複数の画調特徴マップを生成することと、
前記特徴抽出サブネットワークを用いて前記入力画像のコンテンツ特徴を抽出して、複数のコンテンツ特徴マップを生成することと、
前記融合部を用いて前記複数のコンテンツ特徴マップと前記複数の画調特徴マップとをそれぞれ融合させて、複数の出力特徴マップを生成することと、
前記復号サブネットワークにより前記複数の出力特徴マップを再構成して、前記出力画像を生成することと、を含み、
前記復号サブネットワークにより前記複数の出力特徴マップを再構成するプロセスは、
前記復号サブネットワークにおいて順次接続され、各々が順次接続されたＮ個（Ｎは２以上の整数）の畳み込みブロックを含むＭ個（Ｍは１以上の整数）の密集して接続される算出モジュールにより前記複数の出力特徴マップを処理することを含み、
前記Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちの任意の先行する畳み込みブロックからの出力特徴マップ群を、前記Ｍ個の密集して接続される算出モジュールのそれぞれのＮ個の畳み込みブロックのうちのｎ番目（２≦ｎ≦Ｎ）の畳み込みブロックに入力して、ｎ番目の出力特徴マップ群を生成し、
前記Ｍ個の密集して接続される算出モジュールのうちのｍ番目（１≦ｍ≦Ｍ）の密集して接続される算出モジュールの出力は、前記ｍ番目の密集して接続される算出モジュールのＮ個の畳み込みブロックのそれぞれからのＮ個の出力特徴マップ群を含む、コンピュータプログラム製品。