JP2019128889A - Image information converter and program therefor - Google Patents

Image information converter and program therefor Download PDF

Info

Publication number
JP2019128889A
JP2019128889A JP2018011613A JP2018011613A JP2019128889A JP 2019128889 A JP2019128889 A JP 2019128889A JP 2018011613 A JP2018011613 A JP 2018011613A JP 2018011613 A JP2018011613 A JP 2018011613A JP 2019128889 A JP2019128889 A JP 2019128889A
Authority
JP
Japan
Prior art keywords
image information
converter
unit
resolutions
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018011613A
Other languages
Japanese (ja)
Other versions
JP7042092B2 (en
Inventor
伶 遠藤
Rei Endo
伶 遠藤
吉彦 河合
Yoshihiko Kawai
吉彦 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2018011613A priority Critical patent/JP7042092B2/en
Publication of JP2019128889A publication Critical patent/JP2019128889A/en
Application granted granted Critical
Publication of JP7042092B2 publication Critical patent/JP7042092B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide an image information converter that can accurately perform image conversion.SOLUTION: An image information converter is configured by connecting multi-scale converters 10, and the multi-scale converters 10 each include: a feature quantity creation unit 20 that creates, from image information with m (m is an integer of 1 or more) resolutions, a feature quantity for one resolution predetermined through convolution using a learned parameter; an image information creation unit 30 that creates, from the feature quantity created by the feature quantity creation unit, image information with n (n is an integer of 1 or more) resolutions using the learned parameter; and an image composition unit 40 that composites image information having the same resolution, of input image information, on the image information created by the image information creation unit.SELECTED DRAWING: Figure 3

Description

本発明は、ニューラルネットワークにより画像情報を、目的とする画像情報に変換する画像情報変換器およびそのプログラムに関する。   The present invention relates to an image information converter for converting image information into target image information by a neural network and a program thereof.

近年、ディープラーニングやディープニューラルネットワーク(DNN)と呼ばれる機械学習技術が活発に研究開発されている。
DNNは、1つまたは複数の値を入力して、1つの値を出力するニューロンと呼ばれる単純なユニットを大量に組み合わせることで、複雑な数値情報を変換する変換器(ネットワーク)である。ニューロンは、それぞれの内部に変更可能なパラメータを持ち、そのパラメータを適切に調整することで、目的に応じた変換器を構築することができる。例えば、白黒画像の画素値を入力して、カラー画像の画素値を出力するカラー変換器等である。このパラメータの調整を学習と呼び、この学習は、一般的に誤差逆伝搬法と呼ばれる手法により行われる。
In recent years, machine learning techniques called deep learning and deep neural networks (DNN) have been actively researched and developed.
DNN is a converter (network) that converts complex numerical information by inputting one or more values and combining a large number of simple units called neurons that output one value. Each neuron has a parameter that can be changed inside, and by adjusting the parameter appropriately, it is possible to construct a transducer according to the purpose. For example, a color converter or the like that inputs a pixel value of a monochrome image and outputs a pixel value of a color image. This parameter adjustment is called learning, and this learning is generally performed by a method called an error back propagation method.

誤差逆伝搬法は、予めネットワーク構造を定義した変換器の出力の誤差(例えば、カラー変換器が出力したカラー画像の画素値と、人間が与えた正解カラー画像の画素値との差)をなるべく小さくするようにパラメータを更新する手法である。この手法で求められるパラメータは、最適解ではなく局所解であるため、ネットワーク構造をどのように決定するかが、変換器の最終的な性能に大きく影響を与える。なぜなら、一般にニューロンの組み合わせ方を複雑にすればするほど、より優れた変換性能が得られる可能性が高まるが、その代わりに、局所解を最適解に近づけるパラメータの学習が難しくなるからである。   The error back-propagation method makes possible, as much as possible, the error of the output of the converter whose network structure is defined in advance (for example, the difference between the pixel value of the color image output by the color converter and the pixel value of the correct color image given by human). This is a method of updating the parameters so as to be small. Since the parameters obtained by this method are not optimal solutions but local solutions, how the network structure is determined greatly affects the final performance of the converter. This is because, in general, the more complex the combination of neurons, the higher the possibility that better conversion performance can be obtained, but instead, it becomes difficult to learn the parameter that brings the local solution closer to the optimal solution.

そこで、近年よく用いられるのが、コンボリューション(畳み込み)層と呼ばれるニューロン構造を多数重ねたコンボリューションネットワークである。一般に、コンボリューション層では、画像のように3次元(縦×横×チャンネル)の配列でニューロンを配置し、第N番目の層であるニューロンは、第(N−1)番目の層のニューロンの中で空間的位置が近いニューロンとのみ接続関係を持つため、学習対象のパラメータ数を削減することができる。このコンボリューション層の構造を多層化することで、少ないパラメータ数であっても高い性能の変換器を構成することができる。   Therefore, a convolution network in which a large number of neuron structures called convolution layers are stacked is often used in recent years. In general, in the convolution layer, neurons are arranged in a three-dimensional (vertical × horizontal × channel) arrangement like an image, and the neuron which is the Nth layer is the neuron of the (N−1) th layer. The number of parameters to be learned can be reduced because it is connected only to neurons that are close to each other in spatial position. By layering the structure of this convolution layer, a converter with high performance can be configured even with a small number of parameters.

例えば、画像を入力して変換後の画像を出力するネットワーク構造として、図15に示すネットワーク(FCN:Fully Convolutional Networks)により、高精度な変換器を構築できることが報告されている(非特許文献1参照)。
図15に示すFCNは、コンボリューション層(Conv)Cにおける畳み込みにより、画像の空間的サイズを徐々に浅い層から深い層に向かって縮小していくことで特徴を抽出し、その後、深い層から浅い層に向かって徐々に拡大することで画像内の領域を抽出する構造を有している。ここでは、画像の空間的サイズがより小さいコンボリューション層Cを、深い層と呼ぶ。
For example, it has been reported that a highly accurate converter can be constructed by a network (FCN: Fully Convolutional Networks) shown in FIG. 15 as a network structure for inputting an image and outputting a converted image (Non-patent Document 1). reference).
The FCN shown in FIG. 15 extracts features by gradually reducing the spatial size of the image from the shallow layer to the deep layer by convolution in the convolution layer (Conv) C, and then from the deep layer It has a structure that extracts a region in an image by gradually expanding toward a shallow layer. Here, the convolution layer C having a smaller image spatial size is referred to as a deep layer.

また、例えば、画像を入力して変換後の画像を出力する他のネットワーク構造として、図16に示すネットワーク(U−Net)により、さらに高精度な変換器を構築できることが報告されている(非特許文献2参照)。
図16に示すU−Netは、FCNと同様に、コンボリューション層Cにおける畳み込みにより、画像の空間的サイズを徐々に浅い層から深い層に向かって縮小し、その後、徐々に拡大するネットワークである。しかし、U−Netは、縮小される前のコンボリューション層(例えば、C)の出力を、中間のコンボリューション層を飛ばして、直接後方の同じ画像の空間的サイズを対象とするコンボリューション層(例えば、C)に伝達する(スキップ・コネクション)。これによって、局所的特徴(例えば、入力画像のエッジ特徴等)を劣化させずに直接後方に伝達している。
Further, for example, as another network structure for inputting an image and outputting a converted image, it has been reported that a more accurate converter can be constructed by the network (U-Net) shown in FIG. Patent Document 2).
Similar to FCN, U-Net shown in FIG. 16 is a network in which the spatial size of an image is gradually reduced from a shallow layer to a deep layer by convolution in convolution layer C, and then gradually enlarged. . However, U-Net is convolution layer before being reduced (e.g., C 1) the output of skipping intermediate convolution layer, convolution layer intended for spatial size of the same image directly behind Transfer to (for example, C 2 ) (skip connection). As a result, the local features (eg, edge features of the input image, etc.) are directly transmitted backward without deterioration.

Evan Shelhamer, Jonathan Long, and Trevor Darrell,“Fully Convolutional Networks for Semantic Segmentation”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 39 Issue 4, April 2017, pp640-651.Evan Shelhamer, Jonathan Long, and Trevor Darrell, “Fully Convolutional Networks for Semantic Segmentation”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 39 Issue 4, April 2017, pp640-651. Olaf Ronneberger,Philipp Fischer,Thomas Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation”, Medical Image Computing and Computer-Assisted Intervention -MICCAI 2015, pp234-241.Olaf Ronneberger, Philipp Fischer, Thomas Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation”, Medical Image Computing and Computer-Assisted Intervention -MICCAI 2015, pp234-241.

従来のFCNのネットワーク構造では、コンボリューション層の空間的サイズを徐々に深い層に向かって縮小するため、画像の局所的な特徴(エッジの位置情報等)が曖昧になり、出力画像の細部の精度が落ちるという問題がある。
一方、従来のU−Netは、スキップ・コネクションにより、コンボリューション層の空間的サイズの大きい特徴から小さい特徴まで段階的に後方に伝達することができる。しかし、U−Netが浅い層で伝達する空間的サイズのより大きい画像の特徴ほど、画像の大域的特徴(形状等)が十分に抽出されていない。そのため、U−Netは、浅い層において有効な特徴を抽出できておらず、出力画像の細部の精度を高めるためにさらなる改善の余地があった。
In the conventional FCN network structure, since the spatial size of the convolution layer is gradually reduced toward the deep layer, local features of the image (such as edge position information) become ambiguous and the detail of the output image is There is a problem that accuracy falls.
On the other hand, the conventional U-Net can transmit backward gradually from the spatial size feature to the small feature of the convolution layer by the skip connection. However, global features (such as shape) of the image are not sufficiently extracted as large spatial features of the image that U-Net transmits in shallow layers. Therefore, U-Net can not extract effective features in the shallow layer, and there is room for further improvement in order to improve the precision of the output image.

本発明は、以上のような問題に鑑みてなされたものであり、画像の局所的特徴に大域的特徴を対応付けることで、大域的特徴と局所的特徴とをバランスよく伝達して、精度よく画像情報の変換を行うことが可能なニューラルネットワークの画像情報変換器およびそのプログラムを提供することを課題とする。   The present invention has been made in view of the problems as described above, and by associating global features with local features of an image, the global features and the local features are transmitted in a well-balanced manner, and the image is accurately produced. It is an object of the present invention to provide a neural network image information converter capable of converting information and a program thereof.

前記課題を解決するため、本発明に係る画像情報変換器は、m(mは1以上の整数)個の解像度の画像情報を入力し、n(nは1以上の整数)個の解像度の画像情報に変換する複数のマルチスケール変換器を、入力側から出力側に向かって連結した畳み込みニューラルネットワークの画像情報変換器であって、マルチスケール変換器が、特徴量生成部と、画像情報生成部と、画像合成部と、を備える構成とした。   In order to solve the above problems, an image information converter according to the present invention inputs image information of m (m is an integer of 1 or more) resolutions, and images of n (n is an integer of 1 or more) resolutions. An image information converter of a convolutional neural network in which a plurality of multi-scale converters for converting information into information are connected from the input side to the output side, the multi-scale converter comprising: a feature amount generation unit; And an image composition unit.

かかる構成において、画像情報変換器は、マルチスケール変換器の特徴量生成部によって、m個の解像度の画像情報から、学習済みのパラメータを用いた畳み込み演算により予め定めた1個の解像度分の特徴量を生成する。そして、画像情報変換器は、マルチスケール変換器の画像情報生成部によって、特徴量生成部で生成された特徴量から、学習済みのパラメータを用いた畳み込み演算によりn個の解像度の画像情報を生成する。
画像情報変換器は、複数のマルチスケール変換器を連結することで、特徴量生成部および画像情報生成部において、畳み込み演算によるスケールの異なる解像度における特徴量の抽出と異なるスケールへの振り分けとを繰り返し実行する。これによって、画像情報変換器は、異なるスケールの特徴の組み合わせにより、画像情報の複雑な特徴をより正確に抽出可能な構成となる。
In such a configuration, the image information converter uses the feature amount generation unit of the multi-scale converter to extract one of the features for one resolution predetermined by convolution operation using learned parameters from image information of m resolutions. Generate quantity. Then, the image information converter generates image information of n resolutions by a convolution operation using learned parameters from the feature amounts generated by the feature amount generating unit by the image information generating unit of the multi-scale converter. To do.
The image information converter connects multiple multi-scale converters so that the feature value generation unit and the image information generation unit repeatedly extract feature values at different resolutions by convolution and distribute them to different scales. Run. As a result, the image information converter can be configured to more accurately extract complex features of image information by combining features of different scales.

また、画像情報変換器は、マルチスケール変換器の画像合成部によって、画像情報生成部で生成された画像情報に対して、入力した画像情報の中で解像度が同じ画像情報を合成する。
マルチスケール変換器に画像合成部を備えることで、画像情報変換器は、マルチスケール変換器が順次後段のマルチスケール変換器に出力する画像情報に対して、畳み込み演算を行わない画像情報をさらに合成して後段に伝達する。これによって、画像情報変換器は、畳み込み演算による空間的な縮小により失われる可能性のある情報を後段に伝達することが可能になる。
Further, the image information converter combines the image information having the same resolution among the input image information with the image information generated by the image information generation unit by the image synthesis unit of the multi-scale converter.
By providing the image synthesizing unit in the multi-scale converter, the image information converter further synthesizes the image information for which the convolution operation is not performed on the image information sequentially output by the multi-scale converter to the subsequent multi-scale converter. And transmit it to the next stage. This enables the image information converter to transmit information that may be lost due to spatial reduction by the convolution operation to the subsequent stage.

また、本発明は、コンピュータを、前記画像情報変換器として機能させるための画像情報変換プログラムで実現することもできる。   The present invention can also be realized by an image information conversion program for causing a computer to function as the image information converter.

本発明は、以下に示す優れた効果を奏するものである。
本発明に係る画像情報変換器によれば、複数のマルチスケール変換器によって、逐次、画像情報の畳み込み演算による複数の解像度における特徴量の抽出を繰り返すとともに、畳み込み演算を行わない画像情報と畳み込み演算を行った画像情報とを直接合成することができる。
これによって、本発明に係る画像情報変換器は、曖昧性を抑えた局所的特徴を大域的特徴とともに伝達することができ、出力画像情報における細部の精度の劣化を抑えることができる。
The present invention has the following excellent effects.
According to the image information converter of the present invention, extraction of feature quantities at a plurality of resolutions is sequentially repeated by a plurality of multi-scale converters by convolution operation of image information, and image information not to be subjected to convolution operation and convolution operation Can be directly synthesized with the image information that has been
As a result, the image information converter according to the present invention can transmit local features with reduced ambiguity together with global features, and can suppress deterioration in the accuracy of details in output image information.

本発明の第1実施形態に係る画像情報変換器の全体構成の例を示す構成図である。It is a block diagram which shows the example of the whole structure of the image information converter which concerns on 1st Embodiment of this invention. 本発明の第1実施形態に係る画像情報変換器のマルチスケール変換器の概要を説明するための説明図である。It is an explanatory view for explaining an outline of a multi-scale converter of an image information converter concerning a 1st embodiment of the present invention. 本発明の第1実施形態に係る画像情報変換器のマルチスケール変換器の構成例を示すブロック構成図である。It is a block block diagram which shows the structural example of the multiscale converter of the image information converter which concerns on 1st Embodiment of this invention. 図3のマルチスケール変換器の個別特徴計算部および合成特徴計算部の動作内容を説明するための説明図である。FIG. 6 is an explanatory diagram for describing the operation content of an individual feature calculation unit and a combined feature calculation unit of the multi-scale converter of FIG. 3; 図3のマルチスケール変換器の特徴合成部の動作内容を説明するための説明図である。It is explanatory drawing for demonstrating the operation | movement content of the characteristic synthetic | combination part of the multiscale converter of FIG. 図3のマルチスケール変換器の個別情報振分部の動作内容を説明するための説明図である。It is explanatory drawing for demonstrating the operation | movement content of the separate information distribution part of the multiscale converter of FIG. 1入力2出力のマルチスケール変換器の構成例を示すブロック構成図である。It is a block block diagram which shows the structural example of the multiscale converter of 1 input 2 output. 2入力3出力のマルチスケール変換器の構成例を示すブロック構成図である。It is a block block diagram which shows the structural example of the multi-scale converter of 2 inputs 3 outputs. 3入力2出力のマルチスケール変換器の構成例を示すブロック構成図である。It is a block block diagram which shows the structural example of the multi-scale converter of 3 inputs 2 outputs. 2入力1出力のマルチスケール変換器の構成例を示すブロック構成図である。It is a block block diagram which shows the structural example of the multi-scale converter of 2 inputs 1 output. マルチスケール変換器の変形例の構成を示すブロック構成図である。It is a block block diagram which shows the structure of the modification of a multi scale converter. 本発明の第1実施形態に係る画像情報変換器の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the image information converter which concerns on 1st Embodiment of this invention. 本発明の第2実施形態に係る画像情報変換器の全体構成の例を示す構成図である。It is a block diagram which shows the example of the whole structure of the image information converter which concerns on 2nd Embodiment of this invention. 本発明の実施形態に係る画像情報変換器を適用したカラー化装置の構成を示すブロック構成図である。It is a block block diagram which shows the structure of the colorization apparatus to which the image information converter which concerns on embodiment of this invention is applied. 従来の画像情報変換器(FCN)のネットワーク構造を示す図である。It is a figure which shows the network structure of the conventional image information converter (FCN). 従来の画像情報変換器(U−Net)のネットワーク構造を示す図である。It is a figure which shows the network structure of the conventional image information converter (U-Net).

以下、本発明の実施形態について図面を参照して説明する。
≪第1実施形態≫
<画像情報変換器の構成>
まず、図1を参照して、本発明の第1実施形態に係る画像情報変換器1の構成について説明する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
First Embodiment
<Configuration of image information converter>
First, the configuration of the image information converter 1 according to the first embodiment of the present invention will be described with reference to FIG.

画像情報変換器1は、予め学習したニューラルネットワークにより、画像情報を変換対象の情報に変換するものである。
入力する画像情報は、空間的構造を有する画像データであって、1チャンネルの白黒画像、3チャンネル(RGB)のカラー画像等である。また、出力する変換対象の情報は、空間的構造を有する画像データ、画像に類似する高次元の数値情報等である。
例えば、画像情報変換器1は、白黒画像の画素値を入力し、カラー画像の画素値(RGB)を出力する変換器として構成することができる。また、例えば、画像情報変換器1は、白黒画像の画素値やカラー画像の画素値(RGB)を入力し、画像内の被写体の領域を分類(領域分割)した情報を出力する変換器として構成することができる。
The image information converter 1 converts image information into information to be converted by a previously learned neural network.
The image information to be input is image data having a spatial structure, and is a monochrome image of one channel, a color image of three channels (RGB), or the like. The information to be converted to be output is image data having a spatial structure, high-dimensional numerical information similar to the image, or the like.
For example, the image information converter 1 can be configured as a converter that receives pixel values of a black and white image and outputs pixel values (RGB) of a color image. Also, for example, the image information converter 1 is configured as a converter that inputs pixel values of a black and white image and pixel values (RGB) of a color image and outputs information obtained by classifying (dividing an area of) a subject area in the image. can do.

ここでは、入力する画像情報の次元を、縦H〔画素〕、横W〔画素〕の解像度(フル解像度)とし、チャンネル数をCとする。また、変換後の画像情報の次元も、縦H、横W、チャンネル数Cの画像情報とする。
図1に示すように、画像情報変換器1は、入力側から出力側に向かって、複数のマルチスケール変換器10(10,…1015)を、入出力を対応付けて連結して構成する。
Here, the dimension of input image information is assumed to be resolution (full resolution) of vertical H [pixel] and horizontal W [pixel], and the number of channels is C 1 . Further, the dimension of the image information after conversion is also vertically H, and lateral W, the image information of a channel number C 1.
1, the image information converter 1 toward the output side from the input side, a plurality of multi-scale converter 10 (10 1, ... 10 15) and by connecting in association with input and output configuration To do.

マルチスケール変換器10(MSNB:Multi-Scale Neural Block)は、m(mは1以上の整数)個の解像度の画像情報を入力し、ニューラルネットワークの畳み込み演算により、n(nは1以上の整数)個の解像度の画像情報に変換するものである。以下、マルチスケール変換器をMSNBと呼ぶ。
入力側から予め定めた中間のMSNB10までのMSNB10〜10については、出力する画像情報の解像度の数(種類)を段階的に増加させた構成とする。また、予め定めた中間のMSNB10から出力側までのMSNB10〜1015については、出力する画像情報の解像度の数(種類)を段階的に減少させた構成とする。
なお、図1に示すように、入出力が同じMSNB10(例えば、MSNB10,10等)を続けて連結してもよい。また、なお、中間のMSNB10は、複数のMSNB10の厳密な中間(前段のMSNB10の数と後段のMSNB10の数とが同じ)に位置する必要はない。
A multi-scale converter 10 (MSNB: Multi-Scale Neural Block) inputs image information of m (m is an integer of 1 or more) resolutions, and n (n is an integer of 1 or more) by convolution operation of a neural network. ) To convert image information of individual resolutions. The multiscale converter is hereinafter referred to as MSNB.
The MSNBs 10 1 to 10 7 from the input side to the predetermined intermediate MSNB 10 8 have a configuration in which the number (type) of resolution of the image information to be output is increased stepwise. In addition, for the MSNBs 10 9 to 10 15 from the predetermined MSNB 10 8 to the output side, the number (type) of resolutions of the image information to be output is gradually reduced.
In addition, as shown in FIG. 1, MSNBs 10 (for example, MSNBs 10 5 , 10 6, etc.) having the same input and output may be connected successively. Furthermore, the intermediate MSNB 10 does not have to be located strictly between the plurality of MSNBs 10 (the number of MSNBs 10 in the former stage is the same as the number of MSNBs 10 in the latter stage).

さらに、MSNB10は、入力した画像情報を、畳み込み演算を行わない状態で、畳み込み演算により生成した画像情報と合成することで、縮小を伴わない画像情報の特徴を後段に伝達する経路を有する。図1の例では、Rがフル解像度の画像情報を後段に伝達する経路、Rが1/2解像度の画像情報を後段に伝達する経路、Rが1/4解像度の画像情報を後段に伝達する経路、Rが1/8解像度の画像情報を後段に伝達する経路である。
なお、画像情報変換器1を構成するMSNB10の畳み込み演算に用いるフィルタの重み等のパラメータは、予め変換前の画像情報と変換後の既知の正解情報である画像情報とから、誤差逆伝搬法等により、学習しておく。
Furthermore, the MSNB 10 has a path for transmitting the feature of the image information not accompanied by the reduction to the subsequent stage by combining the input image information with the image information generated by the convolution operation without performing the convolution operation. In the example of FIG. 1, R 1 is a path for transmitting full resolution image information to the subsequent stage, R 2 is a path for transmitting 1/2 resolution image information to the subsequent stage, and R 3 is a path for transmitting 1/4 resolution image information to the subsequent stage. R 4 is a path for transmitting image information of 1/8 resolution to the subsequent stage.
It should be noted that parameters such as filter weights used for the convolution calculation of the MSNB 10 constituting the image information converter 1 are preliminarily calculated from the image information before conversion and the image information which is known correct answer information after conversion, etc. To learn.

このように、画像情報変換器1は、複数のMSNB10によって、畳み込み演算によりスケールの異なる段階的な解像度で生成される画像情報と、畳み込み演算を行わない画像情報とを合成して伝達する。
これによって、画像情報変換器1は、MSNB10単位で、畳み込みを行っていない画像情報(曖昧性を抑えた局所的特徴)を、畳み込みを行って生成された特徴が抽出された画像情報(大域的特徴)に合成して後段に伝達することができる。
As described above, the image information converter 1 combines and transmits the image information generated at the stepwise resolutions having different scales by the convolution calculation and the image information not to be subjected to the convolution calculation by the plurality of MSNBs 10.
As a result, the image information converter 1 generates image information (globally extracted) in which features generated by performing convolution on non-convoluted image information (local features with reduced ambiguity) are generated in MSNB 10 units. Can be transmitted to the subsequent stage.

以下、画像情報変換器1の基本構成であるMSNB10について説明する。なお、MSNB10は、入力側から出力側に向かって、必ずしも入出力数が同じではない。そこで、ここでは、基本的な構成をすべて含む入力数3、出力数3のMSNB10(例えば、MSNB10)を例として、その概要と構成について説明を行う。 Hereinafter, the MSNB 10 that is the basic configuration of the image information converter 1 will be described. Note that the number of inputs and outputs of the MSNB 10 is not necessarily the same from the input side to the output side. Therefore, here, the outline and configuration of the MSNB 10 (for example, MSNB 10 5 ) having three inputs and three outputs including all the basic configurations will be described as an example.

<マルチスケール変換器(MSNB)の概要>
まず、図2を参照して、MSNB10(10)の概要について説明する。図2に示すように、MSNB10は、入力系統が3つ(入力1〜3)である画像情報を出力系統が3つ(出力1〜3)の画像情報に変換するものである。MSNB10は、入力1として、縦H〔画素〕、横W〔画素〕の空間的サイズ、チャンネル数Cのフル解像度[H×W×C]の画像情報を入力する。また、MSNB10は、入力2として、縦H/2〔画素〕、横W/2〔画素〕の空間的サイズ、チャンネル数Cの1/2解像度[H/2×W/2×C]の画像情報を入力する。また、MSNB10は、入力3として、縦H/4〔画素〕、横W/4〔画素〕の空間的サイズ、チャンネル数Cの1/4解像度[H/4×W/4×C]の画像情報を入力する。なお、出力1〜3は、入力1〜3と同じ空間的サイズの画像情報である。ただし、チャンネル数は入出力で同じである必要はない。
<Overview of Multi-scale Converter (MSNB)>
First, the outline of MSNB10 5 (10) will be described with reference to FIG. As shown in FIG. 2, MSNB10 5 is for converting the image information input system 3 (input 1-3) image information output system is three is (output 1-3). MSNB10 5 as input 1, the vertical H [pixel], enter the spatial size, the image information of the full resolution of the number of channels C 1 [H × W × C 1] of horizontal W [pixel]. Further, MSNB10 5 as input 2, the vertical H / 2 [pixel], horizontal W / spatial size of 2 [pixel], ½ resolution channel number C 2 [H / 2 × W / 2 × C 2 Enter the image information of]. Further, MSNB10 5 as an input 3, the vertical H / 4 [pixels], the lateral W / 4 spatial size, 1/4 resolution channel number C 3 [H / 4 × W / 4 × C 3 of [pixel] ] Image information is input. The outputs 1 to 3 are image information having the same spatial size as the inputs 1 to 3. However, the number of channels does not have to be the same for input and output.

MSNB10は、入力1〜3で入力されるそれぞれの画像情報の次元(チャンネル数、空間的サイズ)を畳み込み演算(Co1)により揃える。ここでは、MSNB10は、空間的サイズの最も小さい入力3の画像情報に次元を揃える。そして、MSNB10は、畳み込み演算(Co1)後の特徴量を合成し(Su1)、畳み込み演算(Co2)により特徴量を抽出する。これによって、MSNB10は、3つの画像情報から1つの解像度(1/4解像度)分の特徴量を抽出する。 MSNB10 5 is the dimension (the number of channels, spatial size) of each image information inputted by the input 1-3 aligned by the convolution operation (Co1). Here, MSNB10 5 aligns the dimension to smallest input 3 of the image information of the spatial size. Then, MSNB10 5 combines the feature amount after convolution (Co1) (Su1), extracts the feature amount by convolution (Co2). Thus, MSNB10 5 extracts one resolution (1/4 resolution) worth of features from the three image information.

そして、MSNB10は、1つの解像度(1/4解像度)分の特徴量から、畳み込み演算(Co2)により、出力1〜3のチャンネル数に変換し、拡大処理Ex1により、出力1,2の空間的サイズに変換する。
そして、MSNB10は、出力1〜3の次元(チャンネル数、空間的サイズ)に変換された画像情報と、経路Sk1(スキップ・コネクション)により入力される畳み込み演算を行わない画像情報とを合成し(Su2)、出力する。
これによって、MSNB10は、空間的サイズの大きい画像情報であっても、有効に特徴量が抽出された画像情報とともに、後段に伝達することができる。
Then, MSNB10 5 from one resolution (1/4 resolution) partial feature quantity, the convolution operation (Co2), into a number of channels of the output 1-3, the expansion process Ex1, space of the output 1 and 2 Convert to the desired size.
Then, MSNB10 5, the output 1-3 of dimensions (the number of channels, spatial size) and the image information converted into the image information is not performed convolution inputted by the path Sk1 (skip connection) synthesized (Su2) and output.
Thus, MSNB10 5, even large picture information spatial size effectively with the image information whose feature amount has been extracted, can be transmitted to the subsequent stage.

<マルチスケール変換器(MSNB)の構成>
次に、図3を参照して、MSNB10(10)の構成について説明する。
図3に示すように、MSNB10は、特徴量生成部20と、画像情報生成部30と、画像合成部40と、を備える。
<Configuration of Multi-scale Converter (MSNB)>
Next, the configuration of MSNB10 5 (10) will be described with reference to FIG.
As shown in FIG. 3, comprises MSNB10 5 includes a feature amount generating unit 20, an image information generating unit 30, an image combining unit 40, a.

特徴量生成部20は、複数(ここでは“3”)の解像度の画像情報から畳み込み演算により予め定めた1個の解像度分の特徴量を生成するものである。
特徴量生成部20は、解像度ごとの個別特徴計算部21(21,21,21)と、特徴合成部22と、合成特徴計算部23と、を備える。
The feature amount generation unit 20 generates a feature amount for one predetermined resolution by convolution operation from image information having a plurality of resolutions (here, “3”).
The feature quantity generation unit 20 includes an individual feature calculation unit 21 (21 1 , 21 2 , 21 3 ) for each resolution, a feature combination unit 22, and a combined feature calculation unit 23.

個別特徴計算部21は、画像情報から、畳み込み演算により特徴量を計算するものである。なお、入力側のMSNB10(図1のMSNB10)以外のMSNB10に入力される画像情報は、前段のMSNB10から出力される特徴量(画像情報)である。 The individual feature calculation unit 21 calculates feature amounts from image information by a convolution operation. Note that the image information input to the MSNB 10 other than the input-side MSNB 10 (MSNB 10 1 in FIG. 1) is a feature amount (image information) output from the preceding MSNB 10.

個別特徴計算部21は、フル解像度[H×W×C]の画像情報を入力し、学習済みのパラメータを用いた畳み込み演算により特徴量を計算する。
個別特徴計算部21は、1/2解像度[H/2×W/2×C]の画像情報を入力し、学習済みのパラメータを用いた畳み込み演算により特徴量を計算する。
個別特徴計算部21は、1/4解像度[H/4×W/4×C]の画像情報を入力し、学習済みのパラメータを用いた畳み込み演算により特徴量を計算する。
Individual characteristic calculation unit 21 1 receives the image information of the full resolution [H × W × C 1] , to calculate the characteristic amount by the convolution operation using the learned parameters.
Individual characteristic calculation unit 21 2, 1/2 inputs the image information of the resolution [H / 2 × W / 2 × C 2], calculates the feature amount by a convolution operation using the learned parameters.
Individual characteristic calculation unit 21 3, 1/4 receives the image information of the resolution [H / 4 × W / 4 × C 3], to compute the characteristic quantity by the convolution operation using the learned parameters.

個別特徴計算部21(21,21,21)は、例えば、図4に示すように、カーネル(kernel)“3”(3×3の畳み込みフィルタ)、パディング(padding)“1”、ストライド(stride)“1”で畳み込み演算を行うことで、画像情報Dから、特徴量Dを生成する。なお、畳み込み後のチャンネル数は任意の数でよいが、例えば、入力した画像情報と同じとする。また、畳み込みフィルタの値(重み)は、ニューラルネットワークの学習により求められるパラメータである。
個別特徴計算部21(21,21,21)は、計算した特徴量を特徴合成部22に出力する。
The individual feature calculation unit 21 (21 1 , 21 2 , 21 3 ), for example, as shown in FIG. 4, kernel (3) (3 × 3 convolution filter), padding (1), by performing the convolution operation stride (stride) "1", from the image information D 1, to produce a feature amount D 2. The number of channels after convolution may be any number, but for example, is the same as the input image information. The value (weight) of the convolution filter is a parameter obtained by learning of the neural network.
The individual feature calculation unit 21 (21 1 , 21 2 , 21 3 ) outputs the calculated feature amount to the feature combination unit 22.

特徴合成部22は、個別特徴計算部21(21,21,21)で計算された特徴量を合成するものである。特徴合成部22は、それぞれの個別特徴計算部21,21,21で計算された特徴量の次元(チャンネル数、空間的サイズ)を予め定めた解像度に揃え、要素ごとに加算することで、特徴量を生成する。なお、ここで予め定めた解像度は、MSNB10の入力側および出力側のスケールで最小の解像度(ここでは、1/4解像度)であることが好ましい。また、特徴合成部22は、個別特徴計算部21,21,21で計算された特徴量の次元を揃え、連結することとしてもよい。
特徴合成部22は、合成した特徴量を合成特徴計算部23に出力する。
The feature synthesis unit 22 synthesizes the feature amounts calculated by the individual feature calculation unit 21 (21 1 , 21 2 , 21 3 ). The feature synthesis unit 22 aligns the dimensions (number of channels, spatial size) of the feature amounts calculated by the individual feature calculation units 21 1 , 21 2 , and 21 3 to a predetermined resolution, and adds them for each element. To generate feature quantities. Here, it is preferable that the predetermined resolution here be the minimum resolution (here, 1⁄4 resolution) in the scale on the input side and the output side of the MSNB 10. In addition, the feature combining unit 22 may align and connect the dimensions of the feature amounts calculated by the individual feature calculation units 21 1 , 21 2 , and 21 3 .
The feature synthesis unit 22 outputs the synthesized feature quantity to the synthesis feature calculation unit 23.

ここで、図5を参照して、特徴合成部22の処理内容の例について説明する。
図5に示すように、特徴合成部22は、カーネル(kernel)“3”(3×3の畳み込みフィルタ)、パディング(padding)“1”、ストライド(stride)“4”、チャンネル(channel)“C”で畳み込み演算を行うことで、フル解像度の画像情報Dから、最小の解像度(ここでは、1/4解像度)と同じ次元(チャンネル数、空間的サイズ)の特徴量Dを生成する。
また、特徴合成部22は、カーネル“3”、パディング“1”、ストライド“2”、チャンネル“C”で畳み込み演算を行うことで、1/2解像度の画像情報Dから、最小の解像度(ここでは、1/4解像度)と同じ次元の特徴量Dを生成する。
また、特徴合成部22は、カーネル“3”、パディング“1”、ストライド“1”、チャンネル“C”で畳み込み演算を行うことで、1/4解像度の画像情報Dから、最小の解像度(ここでは、1/4解像度)と同じ次元の特徴量Dを生成する。
Here, an example of the processing content of the feature synthesis unit 22 will be described with reference to FIG.
As shown in FIG. 5, the feature synthesis unit 22 is configured to use kernel “3” (3 × 3 convolution filter), padding “1”, stride “4”, channel “channel” By performing a convolution operation using C 3 ′ ′, a feature amount D 2 of the same dimension (number of channels, spatial size) as the minimum resolution (here, 1/4 resolution) is generated from the full resolution image information D 1 To do.
Also, the feature composition unit 22 performs the convolution operation on the kernel “3”, padding “1”, stride “2”, and channel “C 3 ” to obtain the minimum resolution from the half resolution image information D 3. A feature quantity D 4 having the same dimension as (here, ¼ resolution) is generated.
The feature synthesis unit 22 performs a convolution operation with the kernel “3”, the padding “1”, the stride “1”, and the channel “C 3 ” to obtain the minimum resolution from the 1/4 resolution image information D 5. (here, 1/4 resolution) generates a feature amount D 6 of the same dimensions.

そして、特徴合成部22は、同じ次元の特徴量D、特徴量Dおよび特徴量Dを要素ごとに加算(または連結)することで、特徴量Dを生成する。
この各解像度の画像情報の畳み込み演算に使用する畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。
Then, the feature synthesis unit 22 adds (or concatenates) the feature quantity D 2 , the feature quantity D 4, and the feature quantity D 6 of the same dimension for each element to generate the feature quantity D 7 .
The value of the convolution filter used for the convolution calculation of the image information of each resolution is a parameter obtained by learning of the neural network.

なお、特徴合成部22は、特徴量を連結して生成する場合、個別の特徴量(ここでは、特徴量D,D,D)の空間的サイズさえ揃えればよく、チャンネル数を揃える必要はない。その場合、特徴合成部22は、図5に示すようなコンボリューション層による畳み込みではなく、単に最大値や平均値を演算するプーリング層によるプーリングを行えばよい。例えば、ニューラルネットワークを学習するコンピュータのメモリ量に制限がある場合、学習を要しないプーリング層を用いる方が適している。 In the case where the feature synthesizing unit 22 generates the feature quantities by linking them, the spatial sizes of the individual feature quantities (here, the feature quantities D 2 , D 4 , and D 6 ) may be equalized, and the number of channels is equalized. There is no need. In that case, the feature synthesis unit 22 may perform pooling by a pooling layer that simply calculates a maximum value or an average value, instead of convolution by a convolution layer as shown in FIG. For example, when the memory capacity of a computer that learns a neural network is limited, it is more appropriate to use a pooling layer that does not require learning.

図5に示した例の場合、特徴合成部22は、フル解像度の画像情報Dに対して、カーネル“4”、ストライド“4”の最大プーリング(Max Pooling)または平均プーリング(Average Pooling)を行うことで、1/4解像度[H/4×W/4×C]の特徴量Dを生成する。同様に、特徴合成部22は、1/2解像度の画像情報Dに対して、カーネル“2”、ストライド“2”の最大プーリングまたは平均プーリングを行うことで、1/4解像度[H/4×W/4×C]の特徴量Dを生成する。
そして、特徴合成部22は、生成した特徴量Dおよび特徴量Dを、1/4解像度の特徴量Dと連結することで、[H/4×W/4×(C+C+C)]の特徴量Dを生成する。
図3に戻って、MSNB10の構成について説明を続ける。
In the example shown in FIG. 5, wherein the combining unit 22, the image information D 1 of the full resolution, the kernel "4", the maximum pooling stride "4" (Max Pooling) or average pooling (Average, which Pooling) By performing this, a feature amount D 2 having a 1/4 resolution [H / 4 × W / 4 × C 1 ] is generated. Similarly, the feature combining unit 22 performs maximum pooling or average pooling of the kernel “2” and the stride “2” on the image information D 3 of half resolution to obtain 1/4 resolution [H / 4]. A feature amount D 4 of × W / 4 × C 2 ] is generated.
Then, the feature synthesizer 22 concatenates the generated feature quantity D 2 and feature quantity D 4 with the feature quantity D 6 of ¼ resolution, thereby [H / 4 × W / 4 × (C 1 + C 2 + C 3 )] feature amount D 7 is generated.
Returning to FIG. 3, continued explanation of the structure of MSNB10 5.

合成特徴計算部23は、特徴合成部22で合成された特徴量に対して、畳み込み演算を行うことで、合成特徴量を抽出するものである。この合成特徴計算部23は、個別特徴計算部21と同様の演算であって、図4で説明した例と同様の畳み込み演算により合成特徴量を抽出する。なお、畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。
合成特徴計算部23は、計算した合成特徴量を、画像情報生成部30に出力する。
The combined feature calculation unit 23 extracts combined feature amounts by performing a convolution operation on the feature amounts combined by the feature combining unit 22. The combined feature calculation unit 23 performs the same operation as the individual feature calculation unit 21 and extracts the combined feature amount by the same convolution operation as the example described in FIG. 4. Note that the value of the convolution filter is a parameter obtained by learning of the neural network.
The composite feature calculation unit 23 outputs the calculated composite feature amount to the image information generation unit 30.

画像情報生成部30は、特徴量生成部20で生成された特徴量(合成特徴量)から、畳み込み演算により、出力の解像度に応じた複数(ここでは“3”)のスケールの画像情報(特徴量)を生成するものである。
画像情報生成部30は、個別情報振分部31と、スケールの異なる解像度ごとの個別特徴計算部32(32,32,32)と、を備える。
The image information generation unit 30 performs a plurality of (here, “3”) scale image information (features) according to the resolution of the output from the feature amounts (combined feature amounts) generated by the feature amount generation unit 20 by convolution. Amount).
The image information generation unit 30 includes an individual information distribution unit 31 and an individual feature calculation unit 32 (32 1 , 32 2 , 32 3 ) for each resolution with different scales.

個別情報振分部31は、合成特徴計算部23で計算された合成特徴量を、出力系統の解像度に応じた次元(チャンネル数、空間的サイズ)の画像情報に振り分けるものである。
個別情報振分部31は、合成特徴量のチャンネル数を、出力する画像情報のチャンネル数と同じにするため、畳み込み演算を行い、さらに、空間的サイズを同じにするために、拡大処理を行う。なお、個別情報振分部31は、合成特徴量から、出力の解像度に応じた次元(チャンネル数、空間的サイズ)の画像情報を生成するために、逆畳み込み(デコンボリューション)演算を行ってもよい。
個別情報振分部31は、解像度別の画像情報を、それぞれの解像度に対応する個別特徴計算部32(32,32,32)に出力する。
The individual information distribution unit 31 distributes the combined feature amount calculated by the combined feature calculation unit 23 to image information of dimensions (number of channels, spatial size) corresponding to the resolution of the output system.
The individual information distribution unit 31 performs a convolution operation to make the number of channels of the combined feature amount the same as the number of channels of image information to be output, and performs an enlargement process to make the spatial size the same. . The individual information distribution unit 31 may perform a deconvolution operation to generate image information of dimensions (number of channels, spatial size) according to the resolution of the output from the combined feature amount. Good.
The individual information distribution unit 31 outputs the image information classified by resolution to the individual feature calculation unit 32 (32 1 , 32 2 , 32 3 ) corresponding to each resolution.

ここで、図6を参照して、個別情報振分部31の処理内容の例について説明する。
図6に示すように、個別情報振分部31は、カーネル“3”、パディング“1”、ストライド“2”、チャンネル“C”で畳み込み演算を行うことで、空間的サイズがH/4×W/4で、チャンネル数Cの1/4解像度の画像情報(特徴量)Dから、空間的サイズが同じ(H/4×W/4)で、チャンネル数をCとした画像情報Dを生成する。
そして、個別情報振分部31は、画像情報Dの空間的サイズをチャンネル単位で縦横4倍に拡大することで、空間的サイズがH×Wで、チャンネル数Cのフル解像度の画像情報Dを生成する。なお、個別情報振分部31が行う拡大には、バイリニア拡大、ニアレストネイバー拡大等の一般的な手法を用いればよい。
Here, with reference to FIG. 6, an example of the processing content of the individual information distribution unit 31 will be described.
As shown in FIG. 6, the individual information distribution unit 31 performs the convolution operation on the kernel “3”, padding “1”, stride “2”, and channel “C 3 ” so that the spatial size is H / 4. in × W / 4, 1/4 resolution image data of the channel number C 3 (feature quantity) from D 1, with the spatial size of the same (H / 4 × W / 4 ), an image in which the number of channels and C 1 It generates information D 2.
Then, the individual information distribution unit 31 enlarges the spatial size of the image information D 2 by 4 in vertical and horizontal directions in channel units, so that the full-resolution image information with a spatial size of H × W and the number of channels C 1 to generate a D 3. In addition, what is necessary is just to use general methods, such as bi-linear expansion and nearest neighbor expansion, for the expansion which the separate information distribution part 31 performs.

また、個別情報振分部31は、カーネル“3”、パディング“1”、ストライド“1”、チャンネル “C”で畳み込み演算を行うことで、1/4解像度の画像情報(特徴量)Dから、空間的サイズが同じ(H/4×W/4)で、チャンネル数をCとした画像情報Dを生成する。
そして、個別情報振分部31は、画像情報Dの空間的サイズをチャンネル単位で縦横2倍に拡大することで、空間的サイズがH/2×W/2で、チャンネル数Cの1/2解像度の画像情報Dを生成する。
Further, the individual information allocating unit 31 performs convolution calculation with the kernel “3”, the padding “1”, the stride “1”, and the channel “C 3 ”, so that the image information (feature amount) D of ¼ resolution is obtained. 1 , image information D 4 having the same spatial size (H / 4 × W / 4) and the number of channels as C 2 is generated.
Then, the individual information sorting unit 31, to enlarge the spatial size of the image information D 4 doubled vertically and horizontally in units of channel, spatially size H / 2 × W / 2, 1 channel number C 2 / 2 to generate image data D 5 resolution.

また、個別情報振分部31は、カーネル“3”、パディング“1”、ストライド“1”、チャンネル “C”で畳み込み演算を行うことで、1/4解像度の画像情報(特徴量)Dから、空間的サイズが同じ(H/4×W/4)で、チャンネル数をCとした画像情報Dを生成する。なお、画像情報Dは、出力する1/4解像度と空間的サイズが同じであるため、拡大を行わない。
なお、各解像度の画像情報の畳み込み演算に使用する畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。
これによって、個別情報振分部31は、1つの合成特徴量から、出力する解像度に合わせた次元の画像情報を生成することができる。
図3に戻って、MSNB10の構成について説明を続ける。
Also, the individual information distribution unit 31 performs a convolution operation on kernel “3”, padding “1”, stride “1”, and channel “C 3 ” to obtain image information (feature amount) D of 1⁄4 resolution. 1 , image information D 6 having the same spatial size (H / 4 × W / 4) and the number of channels as C 3 is generated. Note that the image information D 6, since 1/4 resolution and spatial size of the output is the same and does not expand.
Note that the value of the convolution filter used for the convolution calculation of the image information of each resolution is a parameter obtained by learning of the neural network.
Thus, the individual information sorting unit 31 can generate image information of a dimension that matches the resolution to be output from one composite feature amount.
Returning to FIG. 3, continued explanation of the structure of MSNB10 5.

個別特徴計算部32は、個別情報振分部31で生成された解像度別の画像情報に対して、畳み込み演算を行うことで、特徴量を計算するものである。この個別特徴計算部32は、個別特徴計算部21と同様の演算であって、図4で説明した例と同様の畳み込み演算により特徴量を抽出する。なお、畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。
個別特徴計算部32は、計算した特徴量を、画像合成部40に出力する。
The individual feature calculation unit 32 calculates a feature amount by performing a convolution operation on the resolution-based image information generated by the individual information distribution unit 31. The individual feature calculation unit 32 is the same operation as the individual feature calculation unit 21 and extracts the feature amount by the same convolution operation as the example described in FIG. 4. Note that the value of the convolution filter is a parameter obtained by learning of the neural network.
The individual feature calculation unit 32 outputs the calculated feature amount to the image composition unit 40.

画像合成部40は、個別特徴計算部32(32,32,32)で計算された解像度別の特徴量(画像情報)に、MSNB10に入力された画像情報の中で同じ解像度の画像情報を合成するものである。
画像合成部40は、出力する画像情報(特徴量)の解像度に応じて、複数のスキップ合成部41(41,41,41)を備える。
Image synthesizing unit 40, individual characteristic calculation unit 32 (32 1, 32 2, 32 3) is calculated resolution another feature quantity (image information), the same resolution in the image information input to MSNB10 5 Image information is synthesized.
The image combining unit 40 includes a plurality of skip combining units 41 (41 1 , 41 2 , 41 3 ) according to the resolution of the image information (feature amount) to be output.

スキップ合成部41は、画像情報生成部30(個別特徴計算部32)で生成された解像度別の画像情報に、MSNB10に入力され、MSNB10内で畳み込み演算を行っていない同じ解像度の画像情報を合成するものである。 Skip combining unit 41, the image information generation unit 30 (individual characteristic calculation unit 32) resolution-specific image information generated by, MSNB10 is inputted to 5, MSNB10 not done convolution operation in the fifth image information of the same resolution Is synthesized.

スキップ合成部41は、個別特徴計算部32で畳み込み演算により生成されたフル解像度の画像情報(特徴量)と、MSNB10に入力されたフル解像度の画像情報(特徴量)とを、要素ごとに加算(または連結)し、後段に出力する。
スキップ合成部41は、個別特徴計算部32で畳み込み演算により生成された1/2解像度の画像情報(特徴量)と、MSNB10に入力された1/2解像度の画像情報(特徴量)とを、要素ごとに加算(または連結)し、後段に出力する。
スキップ合成部41は、個別特徴計算部32で畳み込み演算により生成された1/4解像度の画像情報(特徴量)と、MSNB10に入力された1/4解像度の画像情報(特徴量)とを、要素ごとに加算(または連結)し、後段に出力する。
Skip combining unit 41 1 includes a full-resolution image information generated by the convolution operation individual characteristic calculation unit 32 1 (features), and image information of the full resolution input to MSNB10 5 (features), the element Each addition (or concatenation), and output to the latter stage.
Skip combining unit 41 2, 1/2 resolution image information generated by the convolution operation individual characteristic calculation unit 32 2 (feature quantity), 1/2 resolution image information input to MSNB10 5 (features) Are added (or concatenated) for each element and output to the subsequent stage.
Skip combining unit 41 3, 1/4 resolution image information generated by the convolution operation individual characteristic calculation unit 32 3 (feature quantity), ¼ resolution image information input to MSNB10 5 (features) Are added (or concatenated) for each element and output to the subsequent stage.

以上説明したようにMSNB10(10)を構成することで、MSNB10は、各解像度の画像情報の特徴量を他の解像度の特徴量を利用して複雑な特徴を学習したモデルとなる。また、MSNB10は、空間的に縮小されることにより失われる特徴を、スキップ・コネクションにより保持したままで伝達することができる。
以上、基本構成をすべて含むMSNB10の構成について説明したが、MSNB10以外のMSNB10については、各基本構成を増減させて構成すればよい。
以下、代表的な構成について説明する。
As described above, by configuring the MSNB 10 5 (10), the MSNB 10 becomes a model in which the feature quantities of the image information of each resolution are learned as complex features using feature quantities of other resolutions. In addition, the MSNB 10 can transmit the feature lost due to the spatial reduction while being held by the skip connection.
Although the configuration of the MSNB 10 5 including all the basic configurations has been described above, the MSNB 10 other than the MSNB 10 5 may be configured by increasing or decreasing each basic configuration.
Hereinafter, representative configurations will be described.

<マルチスケール変換器(MSNB)の他の構成>
(1入力2出力のMSNB)
図7を参照して、1つの解像度の画像情報を2つの解像度の画像情報に変換する非対称なMSNB10(10)の構成について説明する。
図7に示すように、1入力2出力のMSNB10は、図3で説明したMSNB10から、個別特徴計算部21,21,32およびスキップ合成部41,41を省略して構成することができる。
<Other Configurations of Multi-scale Converter (MSNB)>
(1 input 2 output MSNB)
The configuration of the asymmetric MSNB 10 1 (10) for converting image information of one resolution into image information of two resolutions will be described with reference to FIG.
As shown in FIG. 7, the 1-input 2-output MSNB 10 1 omits the individual feature calculation units 21 2 , 21 3 , 32 3 and the skip synthesis units 41 2 , 41 3 from the MSNB 10 5 described in FIG. Can be configured.

ここで、特徴合成部22は、個別特徴計算部21で計算されたフル解像度の特徴量から、出力側の最小の解像度(ここでは、1/2解像度)と同じ次元(チャンネル数、空間的サイズ)の特徴量を畳み込み演算により生成する。例えば、特徴合成部22は、カーネル“3”、パディング“1”、ストライド“2”、チャンネル“C”で畳み込み演算を行うことで、フル解像度の特徴量から、1/2解像度の特徴量を生成する。
なお、個別特徴計算部21は1つであるため、特徴合成部22は合成を行わず、生成した1/2解像度の特徴量を合成特徴量として、合成特徴計算部23に出力する。他の構成は、図3で説明したMSNB10の構成と同じであるため、説明を省略する。
Here, characterized synthesizing unit 22, from the output side of the minimum resolution (here, 1/2 resolution) feature amounts of full resolution calculated by the individual characteristic calculation unit 21 1 and the same dimension (the number of channels, spatial Feature quantities of size) are generated by convolution operation. For example, the feature synthesizing unit 22 performs a convolution operation on the kernel “3”, padding “1”, stride “2”, and channel “C 2 ” to obtain half-resolution feature amounts from full-resolution feature amounts. Is generated.
Note that, since there is one individual feature calculation unit 21, the feature synthesis unit 22 does not perform synthesis, and outputs the generated 1/2 resolution feature quantity as a synthesis feature quantity to the synthesis feature calculation unit 23. Other configurations are the same as the configuration of MSNB10 5 described in FIG. 3, the description thereof is omitted.

(2入力3出力のMSNB)
図8に、2つの解像度の画像情報を3つの解像度の画像情報に変換する非対称なMSNB10(10)の構成例を示す。
図8に示すように、2入力3出力のMSNB10は、図3で説明したMSNB10から、個別特徴計算部21およびスキップ合成部41を省略して構成することができる。
(MSNB with 2 inputs and 3 outputs)
FIG. 8 shows a configuration example of the asymmetric MSNB 10 4 (10) that converts image information of two resolutions into image information of three resolutions.
As shown in FIG. 8, 2 inputs 3 outputs MSNB10 4 can be from MSNB10 5 described in FIG. 3, it is constructed by omitting individual characteristic calculation unit 21 3 and the skip combining unit 41 3.

(3入力2出力のMSNB)
図9に、3つの解像度の画像情報を2つの解像度の画像情報に変換する非対称なMSNB1012(10)の構成例を示す。
図9に示すように、3入力2出力のMSNB1012は、図3で説明したMSNB10から、個別特徴計算部32およびスキップ合成部41を省略して構成することができる。
(MSNB with 3 inputs and 2 outputs)
FIG. 9 shows an exemplary configuration of an asymmetric MSNB 10 12 (10) that converts image information of three resolutions into image information of two resolutions.
As shown in FIG. 9, MSNB10 12 of the three-input two-output may be from MSNB10 5 described in FIG. 3, it is constructed by omitting individual characteristic calculation unit 32 3 and the skip combining unit 41 3.

(2入力1出力のMSNB)
図10に、2つの解像度の画像情報を1つの解像度の画像情報に変換する非対称なMSNB1015(10)の構成例を示す。
図10に示すように、2入力1出力のMSNB1015は、図3で説明したMSNB10から、個別特徴計算部21,32,32およびスキップ合成部41,41を省略して構成することができる。
以上、MSNB10の構成例について説明したが、例示したMSNB10よりも多くの入力および出力とする場合、個別特徴計算部21,32およびスキップ合成部41を、入出力の数に応じて備える構成とすればよい。
(MSNB with 2 inputs and 1 output)
FIG. 10 shows an exemplary configuration of an asymmetric MSNB 10 15 (10) that converts image information of two resolutions into image information of one resolution.
As shown in FIG. 10, the 2-input 1-output MSNB 10 15 omits the individual feature calculation units 21 3 , 32 2 , 32 3 and the skip synthesis units 41 2 , 41 3 from the MSNB 10 5 described in FIG. Can be configured.
The configuration example of the MSNB 10 has been described above. However, when the number of inputs and outputs is larger than that of the illustrated MSNB 10, the individual feature calculation units 21 and 32 and the skip synthesis unit 41 may be configured according to the number of inputs and outputs. That's fine.

また、MSNB10において、特徴量生成部20は、必ずしもすべての解像度の経路に個別特徴計算部21を設ける必要はない。例えば、入出力の数が同じ、あるいは、出力数が入力数よりも少ないMSNB10(例えば、図1の10,1012等)においては、すでに前段のMSNB10において特徴量を計算しているため、最小解像度の特徴量を抽出する個別特徴計算部21以外を省略しても構わない。
例えば、図3で説明したMSNB10を、図11に示すMSNB10Bとして構成してもよい。なお、図11に示したMSNB10Bは、個別特徴計算部21,21を省略したことに伴い特徴合成部22および合成特徴計算部23も省略している。
Further, in the MSNB 10, the feature quantity generation unit 20 does not necessarily need to provide the individual feature calculation unit 21 in all resolution paths. For example, in the case of MSNBs 10 with the same number of inputs / outputs or with a smaller number of outputs than the number of inputs (for example, 10 5 , 10 12 etc. in FIG. Other than the individual feature calculation unit 21 that extracts the feature quantity with the minimum resolution may be omitted.
For example, the MSNB10 5 described in FIG. 3, may be configured as MSNB10B 5 shown in FIG. 11. Note that the MSNB 10B 5 shown in FIG. 11 omits the feature synthesis unit 22 and the synthesis feature calculation unit 23 due to the omission of the individual feature calculation units 21 1 and 21 2 .

以上説明したMSNB10を、画像情報の入力側から出力側に連結することで、画像情報変換器1は、大域的特徴を後段に伝達する際に、併せて、スキップ・オペレーションにより、畳み込みを行っていない局所的特徴を後段に伝達することができる。
これによって、画像情報変換器1は、エッジの位置情報等の局所的特徴の曖昧性を抑えることができ、出力画像の細部の精度を高めることができる。
なお、画像情報変換器1は、図示を省略したコンピュータを、MSNB10を連結したニューラルモデルネットワークとして機能するためのプログラムで動作させることができる。
By connecting the MSNB 10 described above from the input side to the output side of the image information, the image information converter 1 performs the convolution by the skip operation when transmitting the global features to the subsequent stage. Not local features can be transmitted to a later stage.
As a result, the image information converter 1 can suppress the ambiguity of local features such as edge position information, and can improve the accuracy of details of the output image.
In addition, the image information converter 1 can operate the computer which abbreviate | omitted illustration with the program for functioning as a neural model network which connected MSNB10.

<画像情報変換器の動作>
次に、図12を参照(構成については、適宜図1,図3参照)して、本発明の第1実施形態に係る画像情報変換器1の動作について説明する。
ステップS1において、MSNB10の個別特徴計算部21は、入力系統の数だけ、畳み込み演算により、特徴量を計算する。
ステップS2において、MSNB10の特徴合成部22は、ステップS1で計算した入力系統数分の特徴量を、次元(チャンネル数、空間的サイズ)を揃えるように畳み込み演算により変換する。このとき、特徴合成部22は、次元をMSNB10の出力となる最小の解像度と同じにする。
<Operation of image information converter>
Next, the operation of the image information converter 1 according to the first embodiment of the present invention will be described with reference to FIG. 12 (for the configuration, refer to FIG. 1 and FIG. 3 as needed).
In step S <b> 1, the individual feature calculation unit 21 of the MSNB 10 calculates the feature amount by the convolution calculation for the number of input systems.
In step S2, the feature synthesizing unit 22 of the MSNB 10 converts the feature quantities for the number of input systems calculated in step S1 by convolution operation so as to make dimensions (number of channels, spatial size) uniform. At this time, the feature synthesis unit 22 sets the dimension to be the same as the minimum resolution that is the output of the MSNB 10.

ステップS3において、MSNB10の特徴合成部22は、さらに、ステップS2で変換した次元(チャンネル数、空間的サイズ)が揃った特徴量を、要素ごとに加算または連結することで合成する。
ステップS4において、MSNB10の合成特徴計算部23は、ステップS3で合成された特徴量に対して、畳み込み演算を行うことで、合成特徴量を生成する。
In step S3, the feature synthesis unit 22 of the MSNB 10 further synthesizes the feature quantities having the same dimensions (number of channels and spatial size) converted in step S2 by adding or concatenating them for each element.
In step S4, the combined feature calculation unit 23 of the MSNB 10 generates a combined feature amount by performing a convolution operation on the feature amount combined in step S3.

ステップS5において、MSNB10の個別情報振分部31は、ステップS4で生成された合成特徴量を、出力系統のそれぞれのチャンネル数に合わせて畳み込み演算を行って出力系統ごとに振り分ける。
ステップS6において、MSNB10の個別情報振分部31は、さらに、ステップS5で出力系統に振り分けたそれぞれの画像情報を、出力系統のそれぞれの空間的サイズに合わせて拡大する。
In step S5, the individual information allocating unit 31 of the MSNB 10 performs the convolution operation according to the number of channels of the output system and distributes the combined feature value generated in step S4 for each output system.
In step S6, the individual information distribution unit 31 of the MSNB 10 further expands each image information allocated to the output system in step S5 in accordance with the spatial size of the output system.

なお、個別情報振分部31は、ステップS5およびS6において、ステップS4で生成された合成特徴量を、出力系統のそれぞれの次元(チャンネル数、空間的サイズ)となるように逆畳み込み(デコンボリューション)演算を行ってもよい。   The individual information distribution unit 31 deconvolves (deconvolutes) the combined feature quantities generated in step S4 in steps S5 and S6 into the dimensions (number of channels, spatial size) of the output system. ) Operation may be performed.

ステップS7において、MSNB10のスキップ合成部41は、ステップS6で生成した出力系統分の画像情報に対して、同じ系統の入力系統の画像情報を合成する。これによって、出力系統の畳み込み演算を行った各解像度の画像情報には、MSNB10に入力された画像情報がそのまま合成されることになる。   In step S7, the skip composition unit 41 of the MSNB 10 synthesizes the image information of the input system of the same system with the image information of the output system generated in step S6. As a result, the image information input to the MSNB 10 is synthesized as it is with the image information of each resolution subjected to the convolution calculation of the output system.

ステップS8において、後段にMSNB10が接続されている場合(Yes)、画像情報変換器1は、ステップS1に戻って、後段のMSNB10において、ステップS1からS7までの動作を繰り返す。
一方、ステップS8において、後段にMSNB10が接続されていない場合(No)、画像情報変換器1は、動作を終了する。
If the MSNB 10 is connected to the subsequent stage in step S8 (Yes), the image information converter 1 returns to step S1 and repeats the operations from step S1 to S7 in the subsequent MSNB 10.
On the other hand, when the MSNB 10 is not connected to the subsequent stage in step S8 (No), the image information converter 1 ends the operation.

以上の動作によって、画像情報変換器1は、画像情報の畳み込み演算によるスケールの異なる解像度における特徴量の抽出(合成)と振り分けを繰り返すとともに、畳み込み演算を行わない画像情報と畳み込み演算を行った画像情報と逐次合成する。
これによって、画像情報変換器1は、局所的特徴に対して大局的特徴を対応付けた精度の高い特徴量を抽出することができ、変換精度の高いニューラルネットワークとして動作することができる。
By the above operation, the image information converter 1 repeats extraction (composition) and distribution of feature quantities at resolutions with different scales by convolution of image information, and an image subjected to convolution with image information not to be subjected to convolution. Sequentially synthesize with information.
As a result, the image information converter 1 can extract feature quantities with high accuracy in which global features are associated with local features, and can operate as a neural network with high conversion accuracy.

≪第2実施形態≫
次に、図13を参照して、本発明の第2実施形態に係る画像情報変換器1Bについて説明する。
図1で説明した画像情報変換器1は、予め定めた中間のMSNB10から出力側までのMSNB10については、出力する画像情報の解像度の数(種類)を段階的に減少させた構成としている。この解像度の数の減少は、中間のMSNB10からの出力を合成することで実現してもよい。
Second Embodiment
Next, an image information converter 1B according to a second embodiment of the present invention will be described with reference to FIG.
The image information converter 1 described with reference to FIG. 1 is configured such that the number (type) of resolutions of image information to be output is gradually reduced for the MSNB 10 from the intermediate MSNB 108 to the output side determined in advance. Reduction in the number of the resolution may be achieved by combining the output from the intermediate MSNB10 8.

図13に示すように、画像情報変換器1Bは、入力側から出力側に向かって、複数のMSNB10を、出力する画像情報の解像度の数(種類)を段階的に増加させるとともに、入出力を対応付けて連結して構成する。さらに、画像情報変換器1Bは、スケール統合部50を備える。MSNB10は、図1で説明した画像情報変換器1と同じ構成であるため説明を省略する。なお、最後段のMSNB10の出力は、2以上とする。   As shown in FIG. 13, the image information converter 1 B increases the number (types) of resolutions of image information to be output stepwise from the input side to the output side, It is configured by associating and connecting. Furthermore, the image information converter 1B includes a scale integration unit 50. The MSNB 10 has the same configuration as the image information converter 1 described in FIG. The output of MSNB 10 at the last stage is 2 or more.

スケール統合部50は、複数のMSNB10で生成した複数の画像情報(特徴量)を、1つの画像情報に統合するものである。
図13に示すように、スケール統合部50は、スケール変換部51と、合成部52と、特徴計算部53と、を備える。
The scale integration unit 50 integrates a plurality of pieces of image information (features) generated by a plurality of MSNBs 10 into one piece of image information.
As illustrated in FIG. 13, the scale integration unit 50 includes a scale conversion unit 51, a synthesis unit 52, and a feature calculation unit 53.

スケール変換部51は、最後段のMSNB10(10)の最大解像度(フル解像度)を除く他の解像度の画像情報を最大解像度にスケール変換するものである。ここでは、スケール変換部51は、1/2解像度、1/4解像度、1/8解像度に応じた3つのスケール変換部51(51,51,51)を備える。
スケール変換部51は、解像度をフル解像度の空間サイズに揃えるため、拡大処理を行う。このスケール変換部51における拡大には、バイリニア拡大、ニアレストネイバー拡大等の一般的な手法を用いればよい。
The scale conversion unit 51 performs scale conversion of image information of other resolutions except for the maximum resolution (full resolution) of the MSNB 10 (10 8 ) at the last stage to the maximum resolution. Here, the scale conversion unit 51 includes three scale conversion units 51 (51 1 , 51 2 , 51 3 ) according to 1/2 resolution, 1/4 resolution, and 1/8 resolution.
The scale conversion unit 51 performs enlargement processing in order to align the resolution to the full resolution space size. For the enlargement in the scale converter 51, a general method such as bilinear enlargement or nearest neighbor enlargement may be used.

スケール変換部51は、1/2解像度の画像情報を縦2倍、横2倍に拡大することで、フル解像度の画像情報に変換し、合成部52に出力する。
スケール変換部51は、1/4解像度の画像情報を縦4倍、横4倍に拡大することで、フル解像度の画像情報に変換し、合成部52に出力する。
スケール変換部51は、1/8解像度の画像情報を縦8倍、横8倍に拡大することで、フル解像度の画像情報に変換し、合成部52に出力する。
Scale conversion unit 51 1, 1/2-resolution vertical doubling image information, by expanding doubled horizontal, into a full-resolution image information, and outputs to the combining unit 52.
Scaling portion 51 2, the vertical quadruple image information of 1/4-resolution, by expanding laterally fourfold, into image information of full resolution, and outputs to the combining unit 52.
Scaling portion 51 3, 1/8-resolution vertical 8 times the image information, by expanding laterally 8 times, into a full-resolution image information, and outputs to the combining unit 52.

合成部52は、複数の経路で伝達された画像情報(特徴量)を合成するものである。
合成部52は、最後段のMSNB10(10)の出力であるフル解像度の画像情報と、スケール変換部51(51,51,51)でフル解像度にスケール変換された画像情報とを合成する。合成部52の合成処理は、例えば、すべてのフル解像度の画像情報を連結することで行うことができる。
合成部52は、合成した画像情報を、特徴計算部53に出力する。
The synthesizing unit 52 synthesizes image information (feature amount) transmitted through a plurality of routes.
The combining unit 52 combines the full-resolution image information output from the MSNB 10 (10 8 ) at the last stage and the image information scaled to full resolution by the scale conversion unit 51 (51 1 51 2 51 3 ). Synthesize. The combining process of the combining unit 52 can be performed, for example, by connecting all full resolution image information.
The combining unit 52 outputs the combined image information to the feature calculation unit 53.

なお、合成部52の合成処理は、すべてのフル解像度の画像情報を要素ごとに加算することとしてもよい。その場合、すべてのフル解像度の画像情報においてチャンネル数を揃える必要がある。具体的には、スケール変換部51において、フル解像度の画像情報に拡大する前に、チャンネル数を揃える畳み込み演算を行えばよい。もちろん、スケール変換部51は、それぞれ入力した画像情報を、フル解像度の次元(チャンネル数、空間的サイズ)となるように逆畳み込み(デコンボリューション)演算を行ってもよい。   Note that the composition processing of the composition unit 52 may add all the full-resolution image information for each element. In that case, it is necessary to make the number of channels uniform in all full-resolution image information. Specifically, the scale conversion unit 51 may perform a convolution operation to equalize the number of channels before expanding to full-resolution image information. Of course, the scale conversion unit 51 may perform a deconvolution operation so that the input image information has dimensions (number of channels, spatial size) of full resolution.

特徴計算部53は、合成部52で合成された画像情報(特徴量)を、変換対象の次元の画像情報に変換するものである。
特徴計算部53は、入力された画像情報に対して、畳み込み演算を行うことで、変換対象の画像情報に変換する。また、畳み込みフィルタの値は、ニューラルネットワークの学習により求められるパラメータである。
The feature calculation unit 53 converts the image information (feature amount) synthesized by the synthesis unit 52 into image information of a conversion target dimension.
The feature calculation unit 53 converts the input image information into image information to be converted by performing a convolution operation. The value of the convolution filter is a parameter obtained by learning of the neural network.

以上説明したように画像情報変換器1Bを構成することで、画像情報変換器1Bは、画像情報変換器1と同様に、局所的特徴に対して大局的特徴を対応付けた精度の高い特徴量を抽出することができ、変換精度の高いニューラルネットワークとして動作することができる。
なお、画像情報変換器1Bは、図示を省略したコンピュータを、複数のMSNB10とスケール統合部50とで構成されたニューラルモデルネットワークとして機能するためのプログラムで動作させることができる。
By configuring the image information converter 1B as described above, the image information converter 1B has a high-precision feature value in which global features are associated with local features in the same manner as the image information converter 1. And can operate as a neural network with high conversion accuracy.
The image information converter 1B can operate a computer (not shown) with a program for functioning as a neural model network configured of a plurality of MSNBs 10 and a scale integration unit 50.

以上、本発明の実施形態に係る画像情報変換器1,1Bについて説明したが、本発明は、これらの実施形態に限定されるものではない。
例えば、MSNB10の前後、あるいは、MSNB10の内部の伝達経路において、他の演算処理、例えば、ノーマライゼーション層を設け、画像情報の全体の数値を正規化することとしてもよい。
As mentioned above, although image information converter 1 and 1B concerning the embodiment of the present invention was explained, the present invention is not limited to these embodiments.
For example, other arithmetic processing, for example, a normalization layer may be provided before and after MSNB 10 or in a transfer path inside MSNB 10 to normalize the overall numerical value of the image information.

また、ここでは、画像情報変換器1ではMSNB10を15個、画像情報変換器1BではMSNB10を8個連結し、4つのスケールの解像度(フル解像度〜1/8解像度)で画像情報を変換するものとして例示した。しかし、これらの数はこの実施形態に限定されず、変換対象の画像の解像度によって、数十から数百のMSNB10を連結してもよいし、スケールの数も2、3あるいは5以上であっても構わない。   Furthermore, here, the image information converter 1 connects 15 MSNBs 10 and the image information converter 1 B connects 8 MSNBs 10, and converts image information with four scale resolutions (full resolution to 1/8 resolution). As an example. However, these numbers are not limited to this embodiment, and depending on the resolution of the image to be converted, several tens to several hundreds of MSNBs 10 may be connected, and the number of scales is two, three or five or more. It doesn't matter.

また、ここでは、画像情報変換器1,1Bは、MSNB10の画像情報の伝達経路において直列に連結した構成とした。しかし、画像情報変換器1,Bは、MSNB10を並列に連結する構成としてもよい。例えば、図1の画像情報変換器1において、MSNB10の出力を2つのMSNB10に出力し、それぞれMSNB10を直列に連結した後、最後段のMSNB10(例えば、図1の1015)に連結する構成としてもよい。 Here, the image information converters 1 and 1B are connected in series in the image information transmission path of the MSNB 10. However, the image information converters 1 and B may be configured to connect the MSNBs 10 in parallel. For example, in the image information converter 1 of FIG. 1, the output of the MSNB 101 is output to two MSNBs 10, and the MSNBs 10 are connected in series and then connected to the MSNB 10 at the last stage (e.g., 10 15 in FIG. 1). It is good.

また、ここでは、画像情報変換器1,1Bは、1つの画像情報を入力し、1つの変換後の画像情報を出力することとしたが、入出力は、1つに限定されない。例えば、入力として、白黒画像と、白黒画像が属するジャンル(例えば、スポーツ、アニメーション等)の2つとしてもよい。その場合、ジャンルは、例えば、白黒画像と同じ空間的サイズの1つのチャンネルに1つのジャンルを対応付け、該当ジャンルに対応するチャンネルのみにジャンルが設定されていることを示す値(例えば、“1”)、それ以外のチャンネルにはジャンルが設定されていないことを示す値(例えば“0”)を設定すればよい。
また、例えば、出力として、3チャンネルのカラー画像と、カラー画像の画素に対応した色の確率分布(例えば、xクラスに量子化した色の確率分布〔xチャンネル分〕)の2つとしてもよい。
Here, the image information converters 1 and 1B input one piece of image information and output one piece of converted image information. However, input / output is not limited to one. For example, the input may be a black and white image and a genre to which the black and white image belongs (for example, sports, animation, etc.). In this case, the genre is, for example, a value indicating that one channel is associated with one channel of the same spatial size as the black and white image and only the channel corresponding to the corresponding genre is set (for example, “1 A value (for example, “0”) may be set to indicate that no genre is set for the other channels.
Also, for example, the output may be a color image of three channels and a probability distribution of colors corresponding to the pixels of the color image (for example, probability distributions of colors quantized to x class [for x channels]). .

<画像情報変換器の適用例>
次に、本発明の実施形態に係る画像情報変換器1,1Bの適用例について説明する。
図14は、画像情報変換器1,Bを、カラー化装置として構成した例を示す構成図である。図14に示すカラー化装置100は、縦H〔画素〕、横W〔画素〕、1チャンネルの白黒画像BWを、縦H〔画素〕、横W〔画素〕、3チャンネル(RGB)のカラー画像CLに変換するものである。
図14に示すように、カラー化装置100は、情報入力手段110と、情報変換手段120と、情報出力手段130と、を備える。
<Example of application of image information converter>
Next, application examples of the image information converters 1 and 1B according to the embodiment of the present invention will be described.
FIG. 14 is a configuration diagram showing an example in which the image information converters 1 and B are configured as a colorization apparatus. A colorizing apparatus 100 shown in FIG. 14 converts a vertical H [pixel], horizontal W [pixel], 1 channel monochrome image BW into a vertical H [pixel], horizontal W [pixel], 3 channel (RGB) color image. This is converted to CL.
As shown in FIG. 14, the colorization apparatus 100 includes an information input unit 110, an information conversion unit 120, and an information output unit 130.

情報入力手段110は、外部から変換対象の白黒画像BWを入力するものである。なお、情報入力手段110は、白黒動画像をフレーム単位で入力することとしてもよい。
情報入力手段110は、入力した白黒画像BWを情報変換手段120に出力する。
The information input unit 110 inputs a monochrome image BW to be converted from the outside. Note that the information input unit 110 may input a monochrome moving image in units of frames.
The information input unit 110 outputs the input monochrome image BW to the information conversion unit 120.

情報変換手段120は、情報入力手段110で入力した画像情報である白黒画像を、予め学習した学習モデルにより変換するものである。情報変換手段120は、予め学習した学習モデルとして、画像情報変換器1または画像情報変換器1Bを用いて、白黒画像BWをカラー画像CLに変換する。情報変換手段120は、変換後のカラー画像CLを情報出力手段130に出力する。   The information conversion means 120 converts the black and white image which is the image information input by the information input means 110 with a learning model learned in advance. The information conversion unit 120 converts the monochrome image BW into a color image CL using the image information converter 1 or the image information converter 1B as a learning model learned in advance. The information conversion means 120 outputs the converted color image CL to the information output means 130.

情報出力手段130は、情報変換手段120で変換された画像情報であるカラー画像CLを外部に出力するものである。例えば、情報出力手段130は、カラー画像CLを、図示を省略した記憶装置に記憶する。
これによって、カラー化装置100は、画像情報変換器1,1Bにより、例えば、エッジの色の区分等、精度の高いカラー画像を生成することができる。
The information output unit 130 outputs the color image CL, which is the image information converted by the information conversion unit 120, to the outside. For example, the information output unit 130 stores the color image CL in a storage device (not shown).
By this, the colorization apparatus 100 can generate a color image with high accuracy, such as division of edge color, by the image information converters 1 and 1B.

なお、画像情報変換器1,1Bの適用は、白黒画像のカラー化以外にも、種々適用することができる。例えば、3チャンネルのカラー画像を入力し、その画像に含まれる被写体の領域を区分した1チャンネルの領域情報を出力する領域分割装置として構成することも可能である。   The application of the image information converters 1 and 1B can be variously applied in addition to the colorization of black and white images. For example, it is possible to configure as an area dividing device that inputs a color image of 3 channels and outputs area information of 1 channel obtained by dividing an area of a subject included in the image.

1,1B 画像情報変換器
10 マルチスケール変換器(MSNB)
20 特徴量生成部
21 個別特徴計算部
22 特徴合成部
23 合成特徴計算部
30 画像情報生成部
31 個別情報振分部
32 個別特徴計算部
40 画像合成部
41 スキップ合成部
50 スケール統合部
51 スケール変換部
52 合成部
53 特徴計算部
100 カラー化装置
110 情報入力手段
120 情報変換手段
130 情報出力手段
1,1B Image information converter 10 Multiscale converter (MSNB)
DESCRIPTION OF SYMBOLS 20 Feature-value production | generation part 21 Individual feature calculation part 22 Feature composition part 23 Synthesis | combination feature calculation part 30 Image information generation part 31 Individual information distribution part 32 Individual feature calculation part 40 Image composition part 41 Skip composition part 50 Scale integration part 51 Scale conversion Unit 52 Combining Unit 53 Feature Calculation Unit 100 Coloring Device 110 Information Input Unit 120 Information Conversion Unit 130 Information Output Unit

Claims (7)

m(mは1以上の整数)個の解像度の画像情報を入力し、n(nは1以上の整数)個の解像度の画像情報に変換する複数のマルチスケール変換器を、入力側から出力側に向かって連結した畳み込みニューラルネットワークの画像情報変換器であって、
前記マルチスケール変換器は、
前記m個の解像度の画像情報から、学習済みのパラメータを用いた畳み込み演算により予め定めた1個の解像度分の特徴量を生成する特徴量生成部と、
前記特徴量生成部で生成された特徴量から、学習済みのパラメータを用いた畳み込み演算により前記n個の解像度の画像情報を生成する画像情報生成部と、
前記画像情報生成部で生成された画像情報に対して、当該マルチスケール変換器に入力された画像情報の中で解像度が同じ画像情報を合成する画像合成部と、
を備えることを特徴とする画像情報変換器。
A plurality of multi-scale converters for inputting image information of m (m is an integer of 1 or more) resolutions and converting them into image information of n (n is an integer of 1 or more) resolutions An image information converter of a convolutional neural network connected toward
The multi-scale converter is
A feature amount generation unit that generates a feature amount for one resolution determined in advance by convolution operation using learned parameters from the image information of the m resolutions;
An image information generation unit that generates image information of the n resolutions by performing a convolution operation using learned parameters from the feature amounts generated by the feature amount generation unit;
An image synthesis unit that synthesizes image information having the same resolution among the image information input to the multi-scale converter with respect to the image information generated by the image information generation unit;
An image information converter characterized by comprising:
前記mが2以上である前記マルチスケール変換器の前記特徴量生成部は、前記m個の解像度の画像情報を、当該マルチスケール変換器の入出力の中で最小の解像度の画像情報に畳み込み演算し、演算結果を加算または連結することで、前記特徴量を生成することを特徴とする請求項1に記載の画像情報変換器。   The feature value generation unit of the multi-scale converter in which m is 2 or more performs convolution operation on the image information of the m resolutions to the image information of the smallest resolution among the input and output of the multi-scale converter. The image information converter according to claim 1, wherein the feature amount is generated by adding or concatenating calculation results. 前記nが2以上である前記マルチスケール変換器の前記画像情報生成部は、前記特徴量に対してn個分の畳み込み演算を行い、演算結果を前記n個の解像度に応じて拡大することで前記n個の解像度の画像情報を生成することを特徴とする請求項1または請求項2に記載の画像情報変換器。   The image information generation unit of the multi-scale converter in which the n is 2 or more performs n convolution operations on the feature amount, and expands a calculation result according to the n resolutions. The image information converter according to claim 1 or 2, wherein the image information of the n resolutions is generated. 前記nが2以上である前記マルチスケール変換器の前記画像情報生成部は、前記特徴量に対してn個分の逆畳み込み演算を行い、前記n個の解像度の画像情報を生成することを特徴とする請求項1から請求項3のいずれか一項に記載の画像情報変換器。   The image information generation unit of the multiscale converter in which the n is 2 or more performs n deconvolution operations on the feature amount to generate image information of the n resolutions. The image information converter according to any one of claims 1 to 3. 前記入力側から予め定めた中間のマルチスケール変換器までの前記マルチスケール変換器が出力する画像情報の解像度の数を段階的に増加させ、
前記中間のマルチスケール変換器から前記出力側までの前記マルチスケール変換器が出力する画像情報の解像度の数を段階的に減少させて構成したことを特徴とする請求項1から請求項4のいずれか一項に記載の画像情報変換器。
Gradually increasing the number of resolutions of the image information output by the multi-scale converter from the input side to a predetermined intermediate multi-scale converter;
The method according to any one of claims 1 to 4, wherein the number of resolutions of the image information output from the multiscale converter from the intermediate multiscale converter to the output side is gradually reduced. The image information converter according to any one of the items.
最後段のマルチスケール変換器の出力を統合するスケール統合部をさらに備え、
前記マルチスケール変換器は、
前記m個の解像度の画像情報から畳み込み演算により予め定めた1個の解像度分の特徴量を生成する特徴量生成部と、
前記特徴量生成部で生成された特徴量から、前記n個の解像度の画像情報を畳み込み演算により生成する画像情報生成部と、
前記画像情報生成部で生成された画像情報に対して、入力した画像情報の中で解像度が同じ画像情報を合成する画像合成部と、を備え、
前記スケール統合部は、
前記最後段のマルチスケール変換器で生成された複数の解像度の画像情報の解像度を揃えるスケール変換部と、
前記スケール変換部で解像度を揃えた複数の画像情報を合成する合成部と、
前記合成部で合成された画像情報から畳み込み演算により変換後の画像情報を生成する特徴計算部と、
を備えることを特徴とする請求項1から請求項4のいずれか一項に記載の画像情報変換器。
It further includes a scale integration unit that integrates the output of the multi-scale converter at the last stage,
The multi-scale converter is
A feature amount generation unit that generates a feature amount for one resolution predetermined by convolution calculation from the image information of m resolutions;
An image information generation unit that generates the image information of the n resolutions by a convolution operation from the feature amounts generated by the feature amount generation unit;
And an image combining unit configured to combine the image information generated at the image information generation unit with the image information having the same resolution among the input image information,
The scale integration unit
A scale conversion unit for equalizing resolutions of image information of a plurality of resolutions generated by the last stage multi-scale converter;
A combining unit that combines a plurality of pieces of image information with the same resolution in the scale conversion unit;
A feature calculation unit that generates image information after conversion by convolution operation from the image information synthesized by the synthesis unit;
The image information converter according to any one of claims 1 to 4, further comprising:
コンピュータを、請求項1から請求項6のいずれか一項に記載の画像情報変換器として機能させるための画像情報変換プログラム。   The image information conversion program for functioning a computer as an image information converter as described in any one of Claims 1-6.
JP2018011613A 2018-01-26 2018-01-26 Image information converter and its program Active JP7042092B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018011613A JP7042092B2 (en) 2018-01-26 2018-01-26 Image information converter and its program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018011613A JP7042092B2 (en) 2018-01-26 2018-01-26 Image information converter and its program

Publications (2)

Publication Number Publication Date
JP2019128889A true JP2019128889A (en) 2019-08-01
JP7042092B2 JP7042092B2 (en) 2022-03-25

Family

ID=67473173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018011613A Active JP7042092B2 (en) 2018-01-26 2018-01-26 Image information converter and its program

Country Status (1)

Country Link
JP (1) JP7042092B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110392264A (en) * 2019-08-26 2019-10-29 中国科学技术大学 A kind of outer frame interpolation method of alignment neural network based
CN111402140A (en) * 2020-03-25 2020-07-10 中国计量大学 Single image super-resolution reconstruction system and method
WO2021070000A1 (en) * 2019-10-11 2021-04-15 株式会社半導体エネルギー研究所 Imaging system and surveillance system
WO2021130593A1 (en) * 2019-12-27 2021-07-01 株式会社半導体エネルギー研究所 Imaging system
JPWO2021161453A1 (en) * 2020-02-13 2021-08-19
JPWO2021161454A1 (en) * 2020-02-13 2021-08-19
JP7166415B1 (en) 2021-09-28 2022-11-07 Pciソリューションズ株式会社 Feature extractor
JP7365697B2 (en) 2020-01-17 2023-10-20 国立大学法人東京農工大学 Program and clustering device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010093816A (en) * 2008-10-09 2010-04-22 Samsung Electronics Co Ltd Apparatus and method for converting 2d image to 3d image based on visual attention
JP2016168046A (en) * 2015-03-09 2016-09-23 学校法人法政大学 Plant disease diagnostic system, plant disease diagnostic method, and program
JP2017045430A (en) * 2015-08-28 2017-03-02 パナソニックIpマネジメント株式会社 Image processing device, image processing system, image processing method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010093816A (en) * 2008-10-09 2010-04-22 Samsung Electronics Co Ltd Apparatus and method for converting 2d image to 3d image based on visual attention
US20100266198A1 (en) * 2008-10-09 2010-10-21 Samsung Electronics Co., Ltd. Apparatus, method, and medium of converting 2D image 3D image based on visual attention
JP2016168046A (en) * 2015-03-09 2016-09-23 学校法人法政大学 Plant disease diagnostic system, plant disease diagnostic method, and program
JP2017045430A (en) * 2015-08-28 2017-03-02 パナソニックIpマネジメント株式会社 Image processing device, image processing system, image processing method and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岡谷 貴之: "画像認識のための深層学習の研究動向 −畳込みニューラルネットワークとその利用法の発展−", 人工知能 第31巻 第2号, vol. 第31巻 第2号, JPN6021049498, 2016, pages 169 - 179, ISSN: 0004661363 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110392264B (en) * 2019-08-26 2022-10-28 中国科学技术大学 Alignment extrapolation frame method based on neural network
CN110392264A (en) * 2019-08-26 2019-10-29 中国科学技术大学 A kind of outer frame interpolation method of alignment neural network based
WO2021070000A1 (en) * 2019-10-11 2021-04-15 株式会社半導体エネルギー研究所 Imaging system and surveillance system
US11863728B2 (en) 2019-10-11 2024-01-02 Semiconductor Energy Laboratory Co., Ltd. Imaging system and monitoring system with training data that includes a color picture image and a color animation image
US20220417390A1 (en) * 2019-10-11 2022-12-29 Semiconductor Energy Laboratory Co., Ltd. Imaging system and monitoring system
US11924589B2 (en) 2019-12-27 2024-03-05 Semiconductor Energy Laboratory Co., Ltd. Imaging system
WO2021130593A1 (en) * 2019-12-27 2021-07-01 株式会社半導体エネルギー研究所 Imaging system
JP7365697B2 (en) 2020-01-17 2023-10-20 国立大学法人東京農工大学 Program and clustering device
JPWO2021161453A1 (en) * 2020-02-13 2021-08-19
WO2021161453A1 (en) * 2020-02-13 2021-08-19 日本電気株式会社 Image processing system, image processing method, and nontemporary computer-readable medium
JP7351358B2 (en) 2020-02-13 2023-09-27 日本電気株式会社 Image processing system, image processing method, and image processing program
WO2021161454A1 (en) * 2020-02-13 2021-08-19 日本電気株式会社 Image processing system, image processing method, and non-transitory computer-readable medium
JPWO2021161454A1 (en) * 2020-02-13 2021-08-19
JP7444179B2 (en) 2020-02-13 2024-03-06 日本電気株式会社 Image processing system, image processing method, and image processing program
CN111402140B (en) * 2020-03-25 2023-08-22 中国计量大学 Single image super-resolution reconstruction system and method
CN111402140A (en) * 2020-03-25 2020-07-10 中国计量大学 Single image super-resolution reconstruction system and method
JP7166415B1 (en) 2021-09-28 2022-11-07 Pciソリューションズ株式会社 Feature extractor
JP2023048794A (en) * 2021-09-28 2023-04-07 Pciソリューションズ株式会社 Feature amount extraction device

Also Published As

Publication number Publication date
JP7042092B2 (en) 2022-03-25

Similar Documents

Publication Publication Date Title
JP7042092B2 (en) Image information converter and its program
He et al. Learning depth from single images with deep neural network embedding focal length
US11610082B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
KR102061408B1 (en) Apparatus and method for analyzing images using semi 3d deep neural network
CN110059598B (en) Long-term fast-slow network fusion behavior identification method based on attitude joint points
CN110136067B (en) Real-time image generation method for super-resolution B-mode ultrasound image
CN109361934B (en) Image processing method, device, equipment and storage medium
US20180268297A1 (en) Network training device, network training system, network training method, and computer program product
WO2018086354A1 (en) Image upscaling system, training method therefor, and image upscaling method
JP2018081672A (en) New view composition using deep-layer convolutional neural network
CN110889370B (en) System and method for synthesizing face by end-to-end side face based on condition generation countermeasure network
CN112508794B (en) Medical image super-resolution reconstruction method and system
JP5901362B2 (en) Color conversion device, color sub-sampling device, and programs thereof
CN113298717A (en) Medical image super-resolution reconstruction method based on multi-attention residual error feature fusion
CN111724458A (en) Voice-driven three-dimensional human face animation generation method and network structure
Han et al. TSR-VFD: Generating temporal super-resolution for unsteady vector field data
US20230162409A1 (en) System and method for generating images of the same style based on layout
CN113066475B (en) Speech synthesis method based on generating type countermeasure network
JP7010783B2 (en) Image processing equipment, image processing system, image processing method and program
CN109936766B (en) End-to-end-based method for generating audio of water scene
WO2016002020A1 (en) Matrix generation device, matrix generation method, and matrix generation program
Zou et al. LMSN: a lightweight multi-scale network for single image super-resolution
CN114298979A (en) Liver nuclear magnetic image sequence generation method guided by focal lesion symptom description
Zhang et al. Lightweight Portrait Segmentation Via Edge-Optimized Attention
Cai et al. Ske2Grid: skeleton-to-grid representation learning for action recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220314

R150 Certificate of patent or registration of utility model

Ref document number: 7042092

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150