JP7042092B2

JP7042092B2 - 画像情報変換器およびそのプログラム

Info

Publication number: JP7042092B2
Application number: JP2018011613A
Authority: JP
Inventors: 伶遠藤; 吉彦河合
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2022-03-25
Anticipated expiration: 2038-01-26
Also published as: JP2019128889A

Description

本発明は、ニューラルネットワークにより画像情報を、目的とする画像情報に変換する画像情報変換器およびそのプログラムに関する。

近年、ディープラーニングやディープニューラルネットワーク（ＤＮＮ）と呼ばれる機械学習技術が活発に研究開発されている。
ＤＮＮは、１つまたは複数の値を入力して、１つの値を出力するニューロンと呼ばれる単純なユニットを大量に組み合わせることで、複雑な数値情報を変換する変換器（ネットワーク）である。ニューロンは、それぞれの内部に変更可能なパラメータを持ち、そのパラメータを適切に調整することで、目的に応じた変換器を構築することができる。例えば、白黒画像の画素値を入力して、カラー画像の画素値を出力するカラー変換器等である。このパラメータの調整を学習と呼び、この学習は、一般的に誤差逆伝搬法と呼ばれる手法により行われる。

誤差逆伝搬法は、予めネットワーク構造を定義した変換器の出力の誤差（例えば、カラー変換器が出力したカラー画像の画素値と、人間が与えた正解カラー画像の画素値との差）をなるべく小さくするようにパラメータを更新する手法である。この手法で求められるパラメータは、最適解ではなく局所解であるため、ネットワーク構造をどのように決定するかが、変換器の最終的な性能に大きく影響を与える。なぜなら、一般にニューロンの組み合わせ方を複雑にすればするほど、より優れた変換性能が得られる可能性が高まるが、その代わりに、局所解を最適解に近づけるパラメータの学習が難しくなるからである。

そこで、近年よく用いられるのが、コンボリューション（畳み込み）層と呼ばれるニューロン構造を多数重ねたコンボリューションネットワークである。一般に、コンボリューション層では、画像のように３次元（縦×横×チャンネル）の配列でニューロンを配置し、第Ｎ番目の層であるニューロンは、第（Ｎ－１）番目の層のニューロンの中で空間的位置が近いニューロンとのみ接続関係を持つため、学習対象のパラメータ数を削減することができる。このコンボリューション層の構造を多層化することで、少ないパラメータ数であっても高い性能の変換器を構成することができる。

例えば、画像を入力して変換後の画像を出力するネットワーク構造として、図１５に示すネットワーク（ＦＣＮ：Fully Convolutional Networks）により、高精度な変換器を構築できることが報告されている（非特許文献１参照）。
図１５に示すＦＣＮは、コンボリューション層（Ｃｏｎｖ）Ｃにおける畳み込みにより、画像の空間的サイズを徐々に浅い層から深い層に向かって縮小していくことで特徴を抽出し、その後、深い層から浅い層に向かって徐々に拡大することで画像内の領域を抽出する構造を有している。ここでは、画像の空間的サイズがより小さいコンボリューション層Ｃを、深い層と呼ぶ。

また、例えば、画像を入力して変換後の画像を出力する他のネットワーク構造として、図１６に示すネットワーク（Ｕ－Ｎｅｔ）により、さらに高精度な変換器を構築できることが報告されている（非特許文献２参照）。
図１６に示すＵ－Ｎｅｔは、ＦＣＮと同様に、コンボリューション層Ｃにおける畳み込みにより、画像の空間的サイズを徐々に浅い層から深い層に向かって縮小し、その後、徐々に拡大するネットワークである。しかし、Ｕ－Ｎｅｔは、縮小される前のコンボリューション層（例えば、Ｃ_１）の出力を、中間のコンボリューション層を飛ばして、直接後方の同じ画像の空間的サイズを対象とするコンボリューション層（例えば、Ｃ_２）に伝達する（スキップ・コネクション）。これによって、局所的特徴（例えば、入力画像のエッジ特徴等）を劣化させずに直接後方に伝達している。

Evan Shelhamer, Jonathan Long, and Trevor Darrell,"Fully Convolutional Networks for Semantic Segmentation", IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 39 Issue 4, April 2017, pp640-651. Olaf Ronneberger,Philipp Fischer,Thomas Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation", Medical Image Computing and Computer-Assisted Intervention -MICCAI 2015, pp234-241.

従来のＦＣＮのネットワーク構造では、コンボリューション層の空間的サイズを徐々に深い層に向かって縮小するため、画像の局所的な特徴（エッジの位置情報等）が曖昧になり、出力画像の細部の精度が落ちるという問題がある。
一方、従来のＵ－Ｎｅｔは、スキップ・コネクションにより、コンボリューション層の空間的サイズの大きい特徴から小さい特徴まで段階的に後方に伝達することができる。しかし、Ｕ－Ｎｅｔが浅い層で伝達する空間的サイズのより大きい画像の特徴ほど、画像の大域的特徴（形状等）が十分に抽出されていない。そのため、Ｕ－Ｎｅｔは、浅い層において有効な特徴を抽出できておらず、出力画像の細部の精度を高めるためにさらなる改善の余地があった。

本発明は、以上のような問題に鑑みてなされたものであり、画像の局所的特徴に大域的特徴を対応付けることで、大域的特徴と局所的特徴とをバランスよく伝達して、精度よく画像情報の変換を行うことが可能なニューラルネットワークの画像情報変換器およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る画像情報変換器は、ｍ（ｍは１以上の整数）個の解像度の画像情報を入力し、ｎ（ｎは１以上の整数）個の解像度の画像情報に変換する複数のマルチスケール変換器を、入力側から出力側に向かって連結した畳み込みニューラルネットワークの画像情報変換器であって、マルチスケール変換器が、特徴量生成部と、画像情報生成部と、画像合成部と、を備える構成とした。

かかる構成において、画像情報変換器は、マルチスケール変換器の特徴量生成部によって、ｍ個の解像度の画像情報から、学習済みのパラメータを用いた畳み込み演算により予め定めた１個の解像度分の特徴量を生成する。そして、画像情報変換器は、マルチスケール変換器の画像情報生成部によって、特徴量生成部で生成された特徴量から、学習済みのパラメータを用いた畳み込み演算によりｎ個の解像度の画像情報を生成する。
画像情報変換器は、複数のマルチスケール変換器を連結することで、特徴量生成部および画像情報生成部において、畳み込み演算によるスケールの異なる解像度における特徴量の抽出と異なるスケールへの振り分けとを繰り返し実行する。これによって、画像情報変換器は、異なるスケールの特徴の組み合わせにより、画像情報の複雑な特徴をより正確に抽出可能な構成となる。

また、画像情報変換器は、マルチスケール変換器の画像合成部によって、画像情報生成部で生成された画像情報に対して、入力した画像情報の中で解像度が同じ画像情報を合成する。
マルチスケール変換器に画像合成部を備えることで、画像情報変換器は、マルチスケール変換器が順次後段のマルチスケール変換器に出力する画像情報に対して、畳み込み演算を行わない画像情報をさらに合成して後段に伝達する。これによって、画像情報変換器は、畳み込み演算による空間的な縮小により失われる可能性のある情報を後段に伝達することが可能になる。

また、本発明は、コンピュータを、前記画像情報変換器として機能させるための画像情報変換プログラムで実現することもできる。

本発明は、以下に示す優れた効果を奏するものである。
本発明に係る画像情報変換器によれば、複数のマルチスケール変換器によって、逐次、画像情報の畳み込み演算による複数の解像度における特徴量の抽出を繰り返すとともに、畳み込み演算を行わない画像情報と畳み込み演算を行った画像情報とを直接合成することができる。
これによって、本発明に係る画像情報変換器は、曖昧性を抑えた局所的特徴を大域的特徴とともに伝達することができ、出力画像情報における細部の精度の劣化を抑えることができる。

本発明の第１実施形態に係る画像情報変換器の全体構成の例を示す構成図である。本発明の第１実施形態に係る画像情報変換器のマルチスケール変換器の概要を説明するための説明図である。本発明の第１実施形態に係る画像情報変換器のマルチスケール変換器の構成例を示すブロック構成図である。図３のマルチスケール変換器の個別特徴計算部および合成特徴計算部の動作内容を説明するための説明図である。図３のマルチスケール変換器の特徴合成部の動作内容を説明するための説明図である。図３のマルチスケール変換器の個別情報振分部の動作内容を説明するための説明図である。１入力２出力のマルチスケール変換器の構成例を示すブロック構成図である。２入力３出力のマルチスケール変換器の構成例を示すブロック構成図である。３入力２出力のマルチスケール変換器の構成例を示すブロック構成図である。２入力１出力のマルチスケール変換器の構成例を示すブロック構成図である。マルチスケール変換器の変形例の構成を示すブロック構成図である。本発明の第１実施形態に係る画像情報変換器の動作を示すフローチャートである。本発明の第２実施形態に係る画像情報変換器の全体構成の例を示す構成図である。本発明の実施形態に係る画像情報変換器を適用したカラー化装置の構成を示すブロック構成図である。従来の画像情報変換器（ＦＣＮ）のネットワーク構造を示す図である。従来の画像情報変換器（Ｕ－Ｎｅｔ）のネットワーク構造を示す図である。

以下、本発明の実施形態について図面を参照して説明する。
≪第１実施形態≫
＜画像情報変換器の構成＞
まず、図１を参照して、本発明の第１実施形態に係る画像情報変換器１の構成について説明する。

画像情報変換器１は、予め学習したニューラルネットワークにより、画像情報を変換対象の情報に変換するものである。
入力する画像情報は、空間的構造を有する画像データであって、１チャンネルの白黒画像、３チャンネル（ＲＧＢ）のカラー画像等である。また、出力する変換対象の情報は、空間的構造を有する画像データ、画像に類似する高次元の数値情報等である。
例えば、画像情報変換器１は、白黒画像の画素値を入力し、カラー画像の画素値（ＲＧＢ）を出力する変換器として構成することができる。また、例えば、画像情報変換器１は、白黒画像の画素値やカラー画像の画素値（ＲＧＢ）を入力し、画像内の被写体の領域を分類（領域分割）した情報を出力する変換器として構成することができる。

ここでは、入力する画像情報の次元を、縦Ｈ〔画素〕、横Ｗ〔画素〕の解像度（フル解像度）とし、チャンネル数をＣ_１とする。また、変換後の画像情報の次元も、縦Ｈ、横Ｗ、チャンネル数Ｃ_１の画像情報とする。
図１に示すように、画像情報変換器１は、入力側から出力側に向かって、複数のマルチスケール変換器１０（１０_１，…１０_１５）を、入出力を対応付けて連結して構成する。

マルチスケール変換器１０（ＭＳＮＢ：Multi-Scale Neural Block）は、ｍ（ｍは１以上の整数）個の解像度の画像情報を入力し、ニューラルネットワークの畳み込み演算により、ｎ（ｎは１以上の整数）個の解像度の画像情報に変換するものである。以下、マルチスケール変換器をＭＳＮＢと呼ぶ。
入力側から予め定めた中間のＭＳＮＢ１０_８までのＭＳＮＢ１０_１～１０_７については、出力する画像情報の解像度の数（種類）を段階的に増加させた構成とする。また、予め定めた中間のＭＳＮＢ１０_８から出力側までのＭＳＮＢ１０_９～１０_１５については、出力する画像情報の解像度の数（種類）を段階的に減少させた構成とする。
なお、図１に示すように、入出力が同じＭＳＮＢ１０（例えば、ＭＳＮＢ１０_５，１０_６等）を続けて連結してもよい。また、なお、中間のＭＳＮＢ１０は、複数のＭＳＮＢ１０の厳密な中間（前段のＭＳＮＢ１０の数と後段のＭＳＮＢ１０の数とが同じ）に位置する必要はない。

さらに、ＭＳＮＢ１０は、入力した画像情報を、畳み込み演算を行わない状態で、畳み込み演算により生成した画像情報と合成することで、縮小を伴わない画像情報の特徴を後段に伝達する経路を有する。図１の例では、Ｒ_１がフル解像度の画像情報を後段に伝達する経路、Ｒ_２が１／２解像度の画像情報を後段に伝達する経路、Ｒ_３が１／４解像度の画像情報を後段に伝達する経路、Ｒ_４が１／８解像度の画像情報を後段に伝達する経路である。
なお、画像情報変換器１を構成するＭＳＮＢ１０の畳み込み演算に用いるフィルタの重み等のパラメータは、予め変換前の画像情報と変換後の既知の正解情報である画像情報とから、誤差逆伝搬法等により、学習しておく。

このように、画像情報変換器１は、複数のＭＳＮＢ１０によって、畳み込み演算によりスケールの異なる段階的な解像度で生成される画像情報と、畳み込み演算を行わない画像情報とを合成して伝達する。
これによって、画像情報変換器１は、ＭＳＮＢ１０単位で、畳み込みを行っていない画像情報（曖昧性を抑えた局所的特徴）を、畳み込みを行って生成された特徴が抽出された画像情報（大域的特徴）に合成して後段に伝達することができる。

以下、画像情報変換器１の基本構成であるＭＳＮＢ１０について説明する。なお、ＭＳＮＢ１０は、入力側から出力側に向かって、必ずしも入出力数が同じではない。そこで、ここでは、基本的な構成をすべて含む入力数３、出力数３のＭＳＮＢ１０（例えば、ＭＳＮＢ１０_５）を例として、その概要と構成について説明を行う。

＜マルチスケール変換器（ＭＳＮＢ）の概要＞
まず、図２を参照して、ＭＳＮＢ１０_５（１０）の概要について説明する。図２に示すように、ＭＳＮＢ１０_５は、入力系統が３つ（入力１～３）である画像情報を出力系統が３つ（出力１～３）の画像情報に変換するものである。ＭＳＮＢ１０_５は、入力１として、縦Ｈ〔画素〕、横Ｗ〔画素〕の空間的サイズ、チャンネル数Ｃ_１のフル解像度［Ｈ×Ｗ×Ｃ_１］の画像情報を入力する。また、ＭＳＮＢ１０_５は、入力２として、縦Ｈ／２〔画素〕、横Ｗ／２〔画素〕の空間的サイズ、チャンネル数Ｃ_２の１／２解像度［Ｈ／２×Ｗ／２×Ｃ_２］の画像情報を入力する。また、ＭＳＮＢ１０_５は、入力３として、縦Ｈ／４〔画素〕、横Ｗ／４〔画素〕の空間的サイズ、チャンネル数Ｃ_３の１／４解像度［Ｈ／４×Ｗ／４×Ｃ_３］の画像情報を入力する。なお、出力１～３は、入力１～３と同じ空間的サイズの画像情報である。ただし、チャンネル数は入出力で同じである必要はない。

ＭＳＮＢ１０_５は、入力１～３で入力されるそれぞれの画像情報の次元（チャンネル数、空間的サイズ）を畳み込み演算（Ｃｏ１）により揃える。ここでは、ＭＳＮＢ１０_５は、空間的サイズの最も小さい入力３の画像情報に次元を揃える。そして、ＭＳＮＢ１０_５は、畳み込み演算（Ｃｏ１）後の特徴量を合成し（Ｓｕ１）、畳み込み演算（Ｃｏ２）により特徴量を抽出する。これによって、ＭＳＮＢ１０_５は、３つの画像情報から１つの解像度（１／４解像度）分の特徴量を抽出する。

そして、ＭＳＮＢ１０_５は、１つの解像度（１／４解像度）分の特徴量から、畳み込み演算（Ｃｏ２）により、出力１～３のチャンネル数に変換し、拡大処理Ｅｘ１により、出力１，２の空間的サイズに変換する。
そして、ＭＳＮＢ１０_５は、出力１～３の次元（チャンネル数、空間的サイズ）に変換された画像情報と、経路Ｓｋ１（スキップ・コネクション）により入力される畳み込み演算を行わない画像情報とを合成し（Ｓｕ２）、出力する。
これによって、ＭＳＮＢ１０_５は、空間的サイズの大きい画像情報であっても、有効に特徴量が抽出された画像情報とともに、後段に伝達することができる。

＜マルチスケール変換器（ＭＳＮＢ）の構成＞
次に、図３を参照して、ＭＳＮＢ１０_５（１０）の構成について説明する。
図３に示すように、ＭＳＮＢ１０_５は、特徴量生成部２０と、画像情報生成部３０と、画像合成部４０と、を備える。

特徴量生成部２０は、複数（ここでは“３”）の解像度の画像情報から畳み込み演算により予め定めた１個の解像度分の特徴量を生成するものである。
特徴量生成部２０は、解像度ごとの個別特徴計算部２１（２１_１，２１_２，２１_３）と、特徴合成部２２と、合成特徴計算部２３と、を備える。

個別特徴計算部２１は、画像情報から、畳み込み演算により特徴量を計算するものである。なお、入力側のＭＳＮＢ１０（図１のＭＳＮＢ１０_１）以外のＭＳＮＢ１０に入力される画像情報は、前段のＭＳＮＢ１０から出力される特徴量（画像情報）である。

個別特徴計算部２１_１は、フル解像度［Ｈ×Ｗ×Ｃ_１］の画像情報を入力し、学習済みのパラメータを用いた畳み込み演算により特徴量を計算する。
個別特徴計算部２１_２は、１／２解像度［Ｈ／２×Ｗ／２×Ｃ_２］の画像情報を入力し、学習済みのパラメータを用いた畳み込み演算により特徴量を計算する。
個別特徴計算部２１_３は、１／４解像度［Ｈ／４×Ｗ／４×Ｃ_３］の画像情報を入力し、学習済みのパラメータを用いた畳み込み演算により特徴量を計算する。

個別特徴計算部２１（２１_１，２１_２，２１_３）は、例えば、図４に示すように、カーネル（kernel）“３”（３×３の畳み込みフィルタ）、パディング（padding）“１”、ストライド（stride）“１”で畳み込み演算を行うことで、画像情報Ｄ_１から、特徴量Ｄ_２を生成する。なお、畳み込み後のチャンネル数は任意の数でよいが、例えば、入力した画像情報と同じとする。また、畳み込みフィルタの値（重み）は、ニューラルネットワークの学習により求められるパラメータである。
個別特徴計算部２１（２１_１，２１_２，２１_３）は、計算した特徴量を特徴合成部２２に出力する。

特徴合成部２２は、個別特徴計算部２１（２１_１，２１_２，２１_３）で計算された特徴量を合成するものである。特徴合成部２２は、それぞれの個別特徴計算部２１_１，２１_２，２１_３で計算された特徴量の次元（チャンネル数、空間的サイズ）を予め定めた解像度に揃え、要素ごとに加算することで、特徴量を生成する。なお、ここで予め定めた解像度は、ＭＳＮＢ１０の入力側および出力側のスケールで最小の解像度（ここでは、１／４解像度）であることが好ましい。また、特徴合成部２２は、個別特徴計算部２１_１，２１_２，２１_３で計算された特徴量の次元を揃え、連結することとしてもよい。
特徴合成部２２は、合成した特徴量を合成特徴計算部２３に出力する。

ここで、図５を参照して、特徴合成部２２の処理内容の例について説明する。
図５に示すように、特徴合成部２２は、カーネル（kernel）“３”（３×３の畳み込みフィルタ）、パディング（padding）“１”、ストライド（stride）“４”、チャンネル（channel）“Ｃ_３”で畳み込み演算を行うことで、フル解像度の画像情報Ｄ_１から、最小の解像度（ここでは、１／４解像度）と同じ次元（チャンネル数、空間的サイズ）の特徴量Ｄ_２を生成する。
また、特徴合成部２２は、カーネル“３”、パディング“１”、ストライド“２”、チャンネル“Ｃ_３”で畳み込み演算を行うことで、１／２解像度の画像情報Ｄ_３から、最小の解像度（ここでは、１／４解像度）と同じ次元の特徴量Ｄ_４を生成する。
また、特徴合成部２２は、カーネル“３”、パディング“１”、ストライド“１”、チャンネル“Ｃ_３”で畳み込み演算を行うことで、１／４解像度の画像情報Ｄ_５から、最小の解像度（ここでは、１／４解像度）と同じ次元の特徴量Ｄ_６を生成する。

そして、特徴合成部２２は、同じ次元の特徴量Ｄ_２、特徴量Ｄ_４および特徴量Ｄ_６を要素ごとに加算（または連結）することで、特徴量Ｄ_７を生成する。
この各解像度の画像情報の畳み込み演算に使用する畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。

なお、特徴合成部２２は、特徴量を連結して生成する場合、個別の特徴量（ここでは、特徴量Ｄ_２，Ｄ_４，Ｄ_６）の空間的サイズさえ揃えればよく、チャンネル数を揃える必要はない。その場合、特徴合成部２２は、図５に示すようなコンボリューション層による畳み込みではなく、単に最大値や平均値を演算するプーリング層によるプーリングを行えばよい。例えば、ニューラルネットワークを学習するコンピュータのメモリ量に制限がある場合、学習を要しないプーリング層を用いる方が適している。

図５に示した例の場合、特徴合成部２２は、フル解像度の画像情報Ｄ_１に対して、カーネル“４”、ストライド“４”の最大プーリング（Max Pooling）または平均プーリング（Average Pooling）を行うことで、１／４解像度［Ｈ／４×Ｗ／４×Ｃ_１］の特徴量Ｄ_２を生成する。同様に、特徴合成部２２は、１／２解像度の画像情報Ｄ_３に対して、カーネル“２”、ストライド“２”の最大プーリングまたは平均プーリングを行うことで、１／４解像度［Ｈ／４×Ｗ／４×Ｃ_２］の特徴量Ｄ_４を生成する。
そして、特徴合成部２２は、生成した特徴量Ｄ_２および特徴量Ｄ_４を、１／４解像度の特徴量Ｄ_６と連結することで、［Ｈ／４×Ｗ／４×（Ｃ_１＋Ｃ_２＋Ｃ_３）］の特徴量Ｄ_７を生成する。
図３に戻って、ＭＳＮＢ１０_５の構成について説明を続ける。

合成特徴計算部２３は、特徴合成部２２で合成された特徴量に対して、畳み込み演算を行うことで、合成特徴量を抽出するものである。この合成特徴計算部２３は、個別特徴計算部２１と同様の演算であって、図４で説明した例と同様の畳み込み演算により合成特徴量を抽出する。なお、畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。
合成特徴計算部２３は、計算した合成特徴量を、画像情報生成部３０に出力する。

画像情報生成部３０は、特徴量生成部２０で生成された特徴量（合成特徴量）から、畳み込み演算により、出力の解像度に応じた複数（ここでは“３”）のスケールの画像情報（特徴量）を生成するものである。
画像情報生成部３０は、個別情報振分部３１と、スケールの異なる解像度ごとの個別特徴計算部３２（３２_１，３２_２，３２_３）と、を備える。

個別情報振分部３１は、合成特徴計算部２３で計算された合成特徴量を、出力系統の解像度に応じた次元（チャンネル数、空間的サイズ）の画像情報に振り分けるものである。
個別情報振分部３１は、合成特徴量のチャンネル数を、出力する画像情報のチャンネル数と同じにするため、畳み込み演算を行い、さらに、空間的サイズを同じにするために、拡大処理を行う。なお、個別情報振分部３１は、合成特徴量から、出力の解像度に応じた次元（チャンネル数、空間的サイズ）の画像情報を生成するために、逆畳み込み（デコンボリューション）演算を行ってもよい。
個別情報振分部３１は、解像度別の画像情報を、それぞれの解像度に対応する個別特徴計算部３２（３２_１，３２_２，３２_３）に出力する。

ここで、図６を参照して、個別情報振分部３１の処理内容の例について説明する。
図６に示すように、個別情報振分部３１は、カーネル“３”、パディング“１”、ストライド“２”、チャンネル“Ｃ_３”で畳み込み演算を行うことで、空間的サイズがＨ／４×Ｗ／４で、チャンネル数Ｃ_３の１／４解像度の画像情報（特徴量）Ｄ_１から、空間的サイズが同じ（Ｈ／４×Ｗ／４）で、チャンネル数をＣ_１とした画像情報Ｄ_２を生成する。
そして、個別情報振分部３１は、画像情報Ｄ_２の空間的サイズをチャンネル単位で縦横４倍に拡大することで、空間的サイズがＨ×Ｗで、チャンネル数Ｃ_１のフル解像度の画像情報Ｄ_３を生成する。なお、個別情報振分部３１が行う拡大には、バイリニア拡大、ニアレストネイバー拡大等の一般的な手法を用いればよい。

また、個別情報振分部３１は、カーネル“３”、パディング“１”、ストライド“１”、チャンネル “Ｃ_３”で畳み込み演算を行うことで、１／４解像度の画像情報（特徴量）Ｄ_１から、空間的サイズが同じ（Ｈ／４×Ｗ／４）で、チャンネル数をＣ_２とした画像情報Ｄ_４を生成する。
そして、個別情報振分部３１は、画像情報Ｄ_４の空間的サイズをチャンネル単位で縦横２倍に拡大することで、空間的サイズがＨ／２×Ｗ／２で、チャンネル数Ｃ_２の１／２解像度の画像情報Ｄ_５を生成する。

また、個別情報振分部３１は、カーネル“３”、パディング“１”、ストライド“１”、チャンネル “Ｃ_３”で畳み込み演算を行うことで、１／４解像度の画像情報（特徴量）Ｄ_１から、空間的サイズが同じ（Ｈ／４×Ｗ／４）で、チャンネル数をＣ_３とした画像情報Ｄ_６を生成する。なお、画像情報Ｄ_６は、出力する１／４解像度と空間的サイズが同じであるため、拡大を行わない。
なお、各解像度の画像情報の畳み込み演算に使用する畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。
これによって、個別情報振分部３１は、１つの合成特徴量から、出力する解像度に合わせた次元の画像情報を生成することができる。
図３に戻って、ＭＳＮＢ１０_５の構成について説明を続ける。

個別特徴計算部３２は、個別情報振分部３１で生成された解像度別の画像情報に対して、畳み込み演算を行うことで、特徴量を計算するものである。この個別特徴計算部３２は、個別特徴計算部２１と同様の演算であって、図４で説明した例と同様の畳み込み演算により特徴量を抽出する。なお、畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。
個別特徴計算部３２は、計算した特徴量を、画像合成部４０に出力する。

画像合成部４０は、個別特徴計算部３２（３２_１，３２_２，３２_３）で計算された解像度別の特徴量（画像情報）に、ＭＳＮＢ１０_５に入力された画像情報の中で同じ解像度の画像情報を合成するものである。
画像合成部４０は、出力する画像情報（特徴量）の解像度に応じて、複数のスキップ合成部４１（４１_１，４１_２，４１_３）を備える。

スキップ合成部４１は、画像情報生成部３０（個別特徴計算部３２）で生成された解像度別の画像情報に、ＭＳＮＢ１０_５に入力され、ＭＳＮＢ１０_５内で畳み込み演算を行っていない同じ解像度の画像情報を合成するものである。

スキップ合成部４１_１は、個別特徴計算部３２_１で畳み込み演算により生成されたフル解像度の画像情報（特徴量）と、ＭＳＮＢ１０_５に入力されたフル解像度の画像情報（特徴量）とを、要素ごとに加算（または連結）し、後段に出力する。
スキップ合成部４１_２は、個別特徴計算部３２_２で畳み込み演算により生成された１／２解像度の画像情報（特徴量）と、ＭＳＮＢ１０_５に入力された１／２解像度の画像情報（特徴量）とを、要素ごとに加算（または連結）し、後段に出力する。
スキップ合成部４１_３は、個別特徴計算部３２_３で畳み込み演算により生成された１／４解像度の画像情報（特徴量）と、ＭＳＮＢ１０_５に入力された１／４解像度の画像情報（特徴量）とを、要素ごとに加算（または連結）し、後段に出力する。

以上説明したようにＭＳＮＢ１０_５（１０）を構成することで、ＭＳＮＢ１０は、各解像度の画像情報の特徴量を他の解像度の特徴量を利用して複雑な特徴を学習したモデルとなる。また、ＭＳＮＢ１０は、空間的に縮小されることにより失われる特徴を、スキップ・コネクションにより保持したままで伝達することができる。
以上、基本構成をすべて含むＭＳＮＢ１０_５の構成について説明したが、ＭＳＮＢ１０_５以外のＭＳＮＢ１０については、各基本構成を増減させて構成すればよい。
以下、代表的な構成について説明する。

＜マルチスケール変換器（ＭＳＮＢ）の他の構成＞
（１入力２出力のＭＳＮＢ）
図７を参照して、１つの解像度の画像情報を２つの解像度の画像情報に変換する非対称なＭＳＮＢ１０_１（１０）の構成について説明する。
図７に示すように、１入力２出力のＭＳＮＢ１０_１は、図３で説明したＭＳＮＢ１０_５から、個別特徴計算部２１_２，２１_３，３２_３およびスキップ合成部４１_２，４１_３を省略して構成することができる。

ここで、特徴合成部２２は、個別特徴計算部２１_１で計算されたフル解像度の特徴量から、出力側の最小の解像度（ここでは、１／２解像度）と同じ次元（チャンネル数、空間的サイズ）の特徴量を畳み込み演算により生成する。例えば、特徴合成部２２は、カーネル“３”、パディング“１”、ストライド“２”、チャンネル“Ｃ_２”で畳み込み演算を行うことで、フル解像度の特徴量から、１／２解像度の特徴量を生成する。
なお、個別特徴計算部２１は１つであるため、特徴合成部２２は合成を行わず、生成した１／２解像度の特徴量を合成特徴量として、合成特徴計算部２３に出力する。他の構成は、図３で説明したＭＳＮＢ１０_５の構成と同じであるため、説明を省略する。

（２入力３出力のＭＳＮＢ）
図８に、２つの解像度の画像情報を３つの解像度の画像情報に変換する非対称なＭＳＮＢ１０_４（１０）の構成例を示す。
図８に示すように、２入力３出力のＭＳＮＢ１０_４は、図３で説明したＭＳＮＢ１０_５から、個別特徴計算部２１_３およびスキップ合成部４１_３を省略して構成することができる。

（３入力２出力のＭＳＮＢ）
図９に、３つの解像度の画像情報を２つの解像度の画像情報に変換する非対称なＭＳＮＢ１０_１２（１０）の構成例を示す。
図９に示すように、３入力２出力のＭＳＮＢ１０_１２は、図３で説明したＭＳＮＢ１０_５から、個別特徴計算部３２_３およびスキップ合成部４１_３を省略して構成することができる。

（２入力１出力のＭＳＮＢ）
図１０に、２つの解像度の画像情報を１つの解像度の画像情報に変換する非対称なＭＳＮＢ１０_１５（１０）の構成例を示す。
図１０に示すように、２入力１出力のＭＳＮＢ１０_１５は、図３で説明したＭＳＮＢ１０_５から、個別特徴計算部２１_３，３２_２，３２_３およびスキップ合成部４１_２，４１_３を省略して構成することができる。
以上、ＭＳＮＢ１０の構成例について説明したが、例示したＭＳＮＢ１０よりも多くの入力および出力とする場合、個別特徴計算部２１，３２およびスキップ合成部４１を、入出力の数に応じて備える構成とすればよい。

また、ＭＳＮＢ１０において、特徴量生成部２０は、必ずしもすべての解像度の経路に個別特徴計算部２１を設ける必要はない。例えば、入出力の数が同じ、あるいは、出力数が入力数よりも少ないＭＳＮＢ１０（例えば、図１の１０_５，１０_１２等）においては、すでに前段のＭＳＮＢ１０において特徴量を計算しているため、最小解像度の特徴量を抽出する個別特徴計算部２１以外を省略しても構わない。
例えば、図３で説明したＭＳＮＢ１０_５を、図１１に示すＭＳＮＢ１０Ｂ_５として構成してもよい。なお、図１１に示したＭＳＮＢ１０Ｂ_５は、個別特徴計算部２１_１，２１_２を省略したことに伴い特徴合成部２２および合成特徴計算部２３も省略している。

以上説明したＭＳＮＢ１０を、画像情報の入力側から出力側に連結することで、画像情報変換器１は、大域的特徴を後段に伝達する際に、併せて、スキップ・オペレーションにより、畳み込みを行っていない局所的特徴を後段に伝達することができる。
これによって、画像情報変換器１は、エッジの位置情報等の局所的特徴の曖昧性を抑えることができ、出力画像の細部の精度を高めることができる。
なお、画像情報変換器１は、図示を省略したコンピュータを、ＭＳＮＢ１０を連結したニューラルモデルネットワークとして機能するためのプログラムで動作させることができる。

＜画像情報変換器の動作＞
次に、図１２を参照（構成については、適宜図１，図３参照）して、本発明の第１実施形態に係る画像情報変換器１の動作について説明する。
ステップＳ１において、ＭＳＮＢ１０の個別特徴計算部２１は、入力系統の数だけ、畳み込み演算により、特徴量を計算する。
ステップＳ２において、ＭＳＮＢ１０の特徴合成部２２は、ステップＳ１で計算した入力系統数分の特徴量を、次元（チャンネル数、空間的サイズ）を揃えるように畳み込み演算により変換する。このとき、特徴合成部２２は、次元をＭＳＮＢ１０の出力となる最小の解像度と同じにする。

ステップＳ３において、ＭＳＮＢ１０の特徴合成部２２は、さらに、ステップＳ２で変換した次元（チャンネル数、空間的サイズ）が揃った特徴量を、要素ごとに加算または連結することで合成する。
ステップＳ４において、ＭＳＮＢ１０の合成特徴計算部２３は、ステップＳ３で合成された特徴量に対して、畳み込み演算を行うことで、合成特徴量を生成する。

ステップＳ５において、ＭＳＮＢ１０の個別情報振分部３１は、ステップＳ４で生成された合成特徴量を、出力系統のそれぞれのチャンネル数に合わせて畳み込み演算を行って出力系統ごとに振り分ける。
ステップＳ６において、ＭＳＮＢ１０の個別情報振分部３１は、さらに、ステップＳ５で出力系統に振り分けたそれぞれの画像情報を、出力系統のそれぞれの空間的サイズに合わせて拡大する。

なお、個別情報振分部３１は、ステップＳ５およびＳ６において、ステップＳ４で生成された合成特徴量を、出力系統のそれぞれの次元（チャンネル数、空間的サイズ）となるように逆畳み込み（デコンボリューション）演算を行ってもよい。

ステップＳ７において、ＭＳＮＢ１０のスキップ合成部４１は、ステップＳ６で生成した出力系統分の画像情報に対して、同じ系統の入力系統の画像情報を合成する。これによって、出力系統の畳み込み演算を行った各解像度の画像情報には、ＭＳＮＢ１０に入力された画像情報がそのまま合成されることになる。

ステップＳ８において、後段にＭＳＮＢ１０が接続されている場合（Ｙｅｓ）、画像情報変換器１は、ステップＳ１に戻って、後段のＭＳＮＢ１０において、ステップＳ１からＳ７までの動作を繰り返す。
一方、ステップＳ８において、後段にＭＳＮＢ１０が接続されていない場合（Ｎｏ）、画像情報変換器１は、動作を終了する。

以上の動作によって、画像情報変換器１は、画像情報の畳み込み演算によるスケールの異なる解像度における特徴量の抽出（合成）と振り分けを繰り返すとともに、畳み込み演算を行わない画像情報と畳み込み演算を行った画像情報と逐次合成する。
これによって、画像情報変換器１は、局所的特徴に対して大局的特徴を対応付けた精度の高い特徴量を抽出することができ、変換精度の高いニューラルネットワークとして動作することができる。

≪第２実施形態≫
次に、図１３を参照して、本発明の第２実施形態に係る画像情報変換器１Ｂについて説明する。
図１で説明した画像情報変換器１は、予め定めた中間のＭＳＮＢ１０_８から出力側までのＭＳＮＢ１０については、出力する画像情報の解像度の数（種類）を段階的に減少させた構成としている。この解像度の数の減少は、中間のＭＳＮＢ１０_８からの出力を合成することで実現してもよい。

図１３に示すように、画像情報変換器１Ｂは、入力側から出力側に向かって、複数のＭＳＮＢ１０を、出力する画像情報の解像度の数（種類）を段階的に増加させるとともに、入出力を対応付けて連結して構成する。さらに、画像情報変換器１Ｂは、スケール統合部５０を備える。ＭＳＮＢ１０は、図１で説明した画像情報変換器１と同じ構成であるため説明を省略する。なお、最後段のＭＳＮＢ１０の出力は、２以上とする。

スケール統合部５０は、複数のＭＳＮＢ１０で生成した複数の画像情報（特徴量）を、１つの画像情報に統合するものである。
図１３に示すように、スケール統合部５０は、スケール変換部５１と、合成部５２と、特徴計算部５３と、を備える。

スケール変換部５１は、最後段のＭＳＮＢ１０（１０_８）の最大解像度（フル解像度）を除く他の解像度の画像情報を最大解像度にスケール変換するものである。ここでは、スケール変換部５１は、１／２解像度、１／４解像度、１／８解像度に応じた３つのスケール変換部５１（５１_１，５１_２，５１_３）を備える。
スケール変換部５１は、解像度をフル解像度の空間サイズに揃えるため、拡大処理を行う。このスケール変換部５１における拡大には、バイリニア拡大、ニアレストネイバー拡大等の一般的な手法を用いればよい。

スケール変換部５１_１は、１／２解像度の画像情報を縦２倍、横２倍に拡大することで、フル解像度の画像情報に変換し、合成部５２に出力する。
スケール変換部５１_２は、１／４解像度の画像情報を縦４倍、横４倍に拡大することで、フル解像度の画像情報に変換し、合成部５２に出力する。
スケール変換部５１_３は、１／８解像度の画像情報を縦８倍、横８倍に拡大することで、フル解像度の画像情報に変換し、合成部５２に出力する。

合成部５２は、複数の経路で伝達された画像情報（特徴量）を合成するものである。
合成部５２は、最後段のＭＳＮＢ１０（１０_８）の出力であるフル解像度の画像情報と、スケール変換部５１（５１_１，５１_２，５１_３）でフル解像度にスケール変換された画像情報とを合成する。合成部５２の合成処理は、例えば、すべてのフル解像度の画像情報を連結することで行うことができる。
合成部５２は、合成した画像情報を、特徴計算部５３に出力する。

なお、合成部５２の合成処理は、すべてのフル解像度の画像情報を要素ごとに加算することとしてもよい。その場合、すべてのフル解像度の画像情報においてチャンネル数を揃える必要がある。具体的には、スケール変換部５１において、フル解像度の画像情報に拡大する前に、チャンネル数を揃える畳み込み演算を行えばよい。もちろん、スケール変換部５１は、それぞれ入力した画像情報を、フル解像度の次元（チャンネル数、空間的サイズ）となるように逆畳み込み（デコンボリューション）演算を行ってもよい。

特徴計算部５３は、合成部５２で合成された画像情報（特徴量）を、変換対象の次元の画像情報に変換するものである。
特徴計算部５３は、入力された画像情報に対して、畳み込み演算を行うことで、変換対象の画像情報に変換する。また、畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。

以上説明したように画像情報変換器１Ｂを構成することで、画像情報変換器１Ｂは、画像情報変換器１と同様に、局所的特徴に対して大局的特徴を対応付けた精度の高い特徴量を抽出することができ、変換精度の高いニューラルネットワークとして動作することができる。
なお、画像情報変換器１Ｂは、図示を省略したコンピュータを、複数のＭＳＮＢ１０とスケール統合部５０とで構成されたニューラルモデルネットワークとして機能するためのプログラムで動作させることができる。

以上、本発明の実施形態に係る画像情報変換器１，１Ｂについて説明したが、本発明は、これらの実施形態に限定されるものではない。
例えば、ＭＳＮＢ１０の前後、あるいは、ＭＳＮＢ１０の内部の伝達経路において、他の演算処理、例えば、ノーマライゼーション層を設け、画像情報の全体の数値を正規化することとしてもよい。

また、ここでは、画像情報変換器１ではＭＳＮＢ１０を１５個、画像情報変換器１ＢではＭＳＮＢ１０を８個連結し、４つのスケールの解像度（フル解像度～１／８解像度）で画像情報を変換するものとして例示した。しかし、これらの数はこの実施形態に限定されず、変換対象の画像の解像度によって、数十から数百のＭＳＮＢ１０を連結してもよいし、スケールの数も２、３あるいは５以上であっても構わない。

また、ここでは、画像情報変換器１，１Ｂは、ＭＳＮＢ１０の画像情報の伝達経路において直列に連結した構成とした。しかし、画像情報変換器１，Ｂは、ＭＳＮＢ１０を並列に連結する構成としてもよい。例えば、図１の画像情報変換器１において、ＭＳＮＢ１０_１の出力を２つのＭＳＮＢ１０に出力し、それぞれＭＳＮＢ１０を直列に連結した後、最後段のＭＳＮＢ１０（例えば、図１の１０_１５）に連結する構成としてもよい。

また、ここでは、画像情報変換器１，１Ｂは、１つの画像情報を入力し、１つの変換後の画像情報を出力することとしたが、入出力は、１つに限定されない。例えば、入力として、白黒画像と、白黒画像が属するジャンル（例えば、スポーツ、アニメーション等）の２つとしてもよい。その場合、ジャンルは、例えば、白黒画像と同じ空間的サイズの１つのチャンネルに１つのジャンルを対応付け、該当ジャンルに対応するチャンネルのみにジャンルが設定されていることを示す値（例えば、“１”）、それ以外のチャンネルにはジャンルが設定されていないことを示す値（例えば“０”）を設定すればよい。
また、例えば、出力として、３チャンネルのカラー画像と、カラー画像の画素に対応した色の確率分布（例えば、ｘクラスに量子化した色の確率分布〔ｘチャンネル分〕）の２つとしてもよい。

＜画像情報変換器の適用例＞
次に、本発明の実施形態に係る画像情報変換器１，１Ｂの適用例について説明する。
図１４は、画像情報変換器１，Ｂを、カラー化装置として構成した例を示す構成図である。図１４に示すカラー化装置１００は、縦Ｈ〔画素〕、横Ｗ〔画素〕、１チャンネルの白黒画像ＢＷを、縦Ｈ〔画素〕、横Ｗ〔画素〕、３チャンネル（ＲＧＢ）のカラー画像ＣＬに変換するものである。
図１４に示すように、カラー化装置１００は、情報入力手段１１０と、情報変換手段１２０と、情報出力手段１３０と、を備える。

情報入力手段１１０は、外部から変換対象の白黒画像ＢＷを入力するものである。なお、情報入力手段１１０は、白黒動画像をフレーム単位で入力することとしてもよい。
情報入力手段１１０は、入力した白黒画像ＢＷを情報変換手段１２０に出力する。

情報変換手段１２０は、情報入力手段１１０で入力した画像情報である白黒画像を、予め学習した学習モデルにより変換するものである。情報変換手段１２０は、予め学習した学習モデルとして、画像情報変換器１または画像情報変換器１Ｂを用いて、白黒画像ＢＷをカラー画像ＣＬに変換する。情報変換手段１２０は、変換後のカラー画像ＣＬを情報出力手段１３０に出力する。

情報出力手段１３０は、情報変換手段１２０で変換された画像情報であるカラー画像ＣＬを外部に出力するものである。例えば、情報出力手段１３０は、カラー画像ＣＬを、図示を省略した記憶装置に記憶する。
これによって、カラー化装置１００は、画像情報変換器１，１Ｂにより、例えば、エッジの色の区分等、精度の高いカラー画像を生成することができる。

なお、画像情報変換器１，１Ｂの適用は、白黒画像のカラー化以外にも、種々適用することができる。例えば、３チャンネルのカラー画像を入力し、その画像に含まれる被写体の領域を区分した１チャンネルの領域情報を出力する領域分割装置として構成することも可能である。

１，１Ｂ画像情報変換器
１０マルチスケール変換器（ＭＳＮＢ）
２０特徴量生成部
２１個別特徴計算部
２２特徴合成部
２３合成特徴計算部
３０画像情報生成部
３１個別情報振分部
３２個別特徴計算部
４０画像合成部
４１スキップ合成部
５０スケール統合部
５１スケール変換部
５２合成部
５３特徴計算部
１００カラー化装置
１１０情報入力手段
１２０情報変換手段
１３０情報出力手段

Claims

ｍ（ｍは１以上の整数）個の解像度の画像情報を入力し、ｎ（ｎは１以上の整数）個の解像度の画像情報に変換する複数のマルチスケール変換器を、入力側から出力側に向かって連結した畳み込みニューラルネットワークの画像情報変換器であって、
前記マルチスケール変換器は、
前記ｍ個の解像度の画像情報から、学習済みのパラメータを用いた畳み込み演算により予め定めた１個の解像度分の特徴量を生成する特徴量生成部と、
前記特徴量生成部で生成された特徴量から、学習済みのパラメータを用いた畳み込み演算により前記ｎ個の解像度の画像情報を生成する画像情報生成部と、
前記画像情報生成部で生成された画像情報に対して、当該マルチスケール変換器に入力された画像情報の中で解像度が同じ画像情報を合成する画像合成部と、を備え、
前記ｍが２以上である前記マルチスケール変換器の前記特徴量生成部は、前記ｍ個の解像度の画像情報を、当該マルチスケール変換器の入出力の中で最小の解像度の画像情報に畳み込み演算し、演算結果を加算または連結することで、前記特徴量を生成することを特徴とする画像情報変換器。
ｍ（ｍは１以上の整数）個の解像度の画像情報を入力し、ｎ（ｎは１以上の整数）個の解像度の画像情報に変換する複数のマルチスケール変換器を、入力側から出力側に向かって連結した畳み込みニューラルネットワークの画像情報変換器であって、
前記マルチスケール変換器は、
前記ｍ個の解像度の画像情報から、学習済みのパラメータを用いた畳み込み演算により予め定めた１個の解像度分の特徴量を生成する特徴量生成部と、
前記特徴量生成部で生成された特徴量から、学習済みのパラメータを用いた畳み込み演算により前記ｎ個の解像度の画像情報を生成する画像情報生成部と、
前記画像情報生成部で生成された画像情報に対して、当該マルチスケール変換器に入力された画像情報の中で解像度が同じ画像情報を合成する画像合成部と、を備え、
前記ｎが２以上である前記マルチスケール変換器の前記画像情報生成部は、前記特徴量に対してｎ個分の畳み込み演算を行い、演算結果を前記ｎ個の解像度に応じて拡大することで前記ｎ個の解像度の画像情報を生成することを特徴とする画像情報変換器。
ｍ（ｍは１以上の整数）個の解像度の画像情報を入力し、ｎ（ｎは１以上の整数）個の解像度の画像情報に変換する複数のマルチスケール変換器を、入力側から出力側に向かって連結した畳み込みニューラルネットワークの画像情報変換器であって、
前記マルチスケール変換器は、
前記ｍ個の解像度の画像情報から、学習済みのパラメータを用いた畳み込み演算により予め定めた１個の解像度分の特徴量を生成する特徴量生成部と、
前記特徴量生成部で生成された特徴量から、学習済みのパラメータを用いた畳み込み演算により前記ｎ個の解像度の画像情報を生成する画像情報生成部と、
前記画像情報生成部で生成された画像情報に対して、当該マルチスケール変換器に入力された画像情報の中で解像度が同じ画像情報を合成する画像合成部と、を備え、
前記ｎが２以上である前記マルチスケール変換器の前記画像情報生成部は、前記特徴量に対してｎ個分の逆畳み込み演算を行い、前記ｎ個の解像度の画像情報を生成することを特徴とする画像情報変換器。
ｍ（ｍは１以上の整数）個の解像度の画像情報を入力し、ｎ（ｎは１以上の整数）個の解像度の画像情報に変換する複数のマルチスケール変換器を、入力側から出力側に向かって連結した畳み込みニューラルネットワークの画像情報変換器であって、
前記マルチスケール変換器は、
前記ｍ個の解像度の画像情報から、学習済みのパラメータを用いた畳み込み演算により予め定めた１個の解像度分の特徴量を生成する特徴量生成部と、
前記特徴量生成部で生成された特徴量から、学習済みのパラメータを用いた畳み込み演算により前記ｎ個の解像度の画像情報を生成する画像情報生成部と、
前記画像情報生成部で生成された画像情報に対して、当該マルチスケール変換器に入力された画像情報の中で解像度が同じ画像情報を合成する画像合成部と、を備え、
前記入力側から予め定めた中間のマルチスケール変換器までの前記マルチスケール変換器が出力する画像情報の解像度の数を段階的に増加させ、
前記中間のマルチスケール変換器から前記出力側までの前記マルチスケール変換器が出力する画像情報の解像度の数を段階的に減少させて構成したことを特徴とする画像情報変換器。
ｍ（ｍは１以上の整数）個の解像度の画像情報を入力し、ｎ（ｎは１以上の整数）個の解像度の画像情報に変換する複数のマルチスケール変換器を、入力側から出力側に向かって連結した畳み込みニューラルネットワークの画像情報変換器であって、
前記マルチスケール変換器は、
前記ｍ個の解像度の画像情報から、学習済みのパラメータを用いた畳み込み演算により予め定めた１個の解像度分の特徴量を生成する特徴量生成部と、
前記特徴量生成部で生成された特徴量から、学習済みのパラメータを用いた畳み込み演算により前記ｎ個の解像度の画像情報を生成する画像情報生成部と、
前記画像情報生成部で生成された画像情報に対して、当該マルチスケール変換器に入力された画像情報の中で解像度が同じ画像情報を合成する画像合成部と、
最後段のマルチスケール変換器の出力を統合するスケール統合部と、を備え、
前記マルチスケール変換器は、
前記ｍ個の解像度の画像情報から畳み込み演算により予め定めた１個の解像度分の特徴量を生成する特徴量生成部と、
前記特徴量生成部で生成された特徴量から、前記ｎ個の解像度の画像情報を畳み込み演算により生成する画像情報生成部と、
前記画像情報生成部で生成された画像情報に対して、入力した画像情報の中で解像度が同じ画像情報を合成する画像合成部と、を備え、
前記スケール統合部は、
前記最後段のマルチスケール変換器で生成された複数の解像度の画像情報の解像度を揃えるスケール変換部と、
前記スケール変換部で解像度を揃えた複数の画像情報を合成する合成部と、
前記合成部で合成された画像情報から畳み込み演算により変換後の画像情報を生成する特徴計算部と、
を備えることを特徴とする画像情報変換器。
コンピュータを、請求項１から請求項５のいずれか一項に記載の画像情報変換器として機能させるための画像情報変換プログラム。