JP7122155B2 - Image super-resolution device and its program, and parameter learning device and its program - Google Patents
Image super-resolution device and its program, and parameter learning device and its program Download PDFInfo
- Publication number
- JP7122155B2 JP7122155B2 JP2018097195A JP2018097195A JP7122155B2 JP 7122155 B2 JP7122155 B2 JP 7122155B2 JP 2018097195 A JP2018097195 A JP 2018097195A JP 2018097195 A JP2018097195 A JP 2018097195A JP 7122155 B2 JP7122155 B2 JP 7122155B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- resolution
- block
- super
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 claims description 104
- 230000006870 function Effects 0.000 claims description 61
- 238000000354 decomposition reaction Methods 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims 2
- 230000004913 activation Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 13
- 230000003595 spectral effect Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
Description
本発明は、畳み込みニューラルネットワークにより画像を高解像度化させる画像超解像装置およびそのプログラム、ならびに、画像超解像装置に用いる畳み込みニューラルネットワークのパラメータを学習するパラメータ学習装置およびそのプログラムに関する。 The present invention relates to an image super-resolution apparatus and program for increasing the resolution of an image using a convolutional neural network, and a parameter learning apparatus and program for learning parameters of the convolutional neural network used in the image super-resolution apparatus.
従来、画像の解像度を向上させる手法として、入力画像に対して、ウェーブレット変換等の直交変換を行った後、高解像度化した画像の空間高周波スペクトルを推定し、入力画像と逆直交変換を行うことで、入力画像を高解像度化する手法が開示されている(特許文献1参照)。 Conventionally, as a method to improve the resolution of an image, after performing orthogonal transformation such as wavelet transformation on the input image, the spatial high-frequency spectrum of the high-resolution image is estimated, and inverse orthogonal transformation is performed with the input image. discloses a technique for increasing the resolution of an input image (see Patent Document 1).
この手法は、入力画像と高解像度化後の画像との間には自己相似性が存在すると仮定して、入力画像を直交変換した空間高周波スペクトルから、高解像度化後の帯域の空間高周波スペクトルを補間生成する。
そして、この手法は、入力画像が予め原画像を低解像度化した画像であって、原画像をオクターブ分解した帯域別のスペクトルパワー代表値を既知の情報として外部から入力する。あるいは、この手法は、自己相似性を前提として、入力画像をオクターブ分解した帯域別のスペクトルパワー代表値を、そのまま、水平・垂直方向に2倍した帯域のスペクトルパワー代表値とする。
そして、この手法は、入力画像のスペクトルと空間高周波スペクトルとを、外部から入力したスペクトルパワー代表値、あるいは、帯域別に入力画像から求めたスペクトルパワー代表値となるように補正する。
そして、この手法は、補正した入力画像のスペクトルと空間高周波スペクトルとに対して、逆直交変換を行うことで、高解像度化した画像を生成する。
This method assumes that there is self-similarity between the input image and the image after resolution enhancement. Generate interpolation.
In this method, the input image is an image obtained by reducing the resolution of the original image in advance, and the spectrum power representative value for each band obtained by octave-decomposing the original image is input from the outside as known information. Alternatively, in this method, on the premise of self-similarity, the spectral power representative value for each band obtained by octave-decomposing the input image is directly doubled in the horizontal and vertical directions to obtain the spectral power representative value for the band.
In this method, the spectrum of the input image and the spatial high-frequency spectrum are corrected to the spectral power representative value input from the outside or the spectral power representative value obtained from the input image for each band.
Then, in this method, an inverse orthogonal transform is performed on the corrected spectrum of the input image and the spatial high-frequency spectrum to generate a high-resolution image.
前記した特許文献1に記載された従来の手法は、空間高周波スペクトルを推定するために、入力画像を生成した原画像をオクターブ分解した帯域別のスペクトルパワー代表値を既知の情報として用い、空間高周波スペクトルを推定する。
しかし、このような原画像に対する情報は、必ずしも得られるわけではない。そのため、この手法では、元となる原画像がない画像からは、高解像度の画像を生成することができないという問題がある。
In the conventional method described in
However, such information on the original image is not necessarily obtained. Therefore, this method has a problem that a high-resolution image cannot be generated from an image that does not have an original image.
また、従来の手法は、別の手法として、自己相似性を前提として、入力画像をオクターブ分解した帯域別のスペクトルパワー代表値を用いて、空間高周波スペクトルを推定する。
しかし、この場合、従来の手法は、スペクトルパワーの調整のみでしか、空間高周波スペクトルを推定することができない。このように、スペクトルパワー代表値を用いたスペクトルパワーの調整のみでは、細かい空間周波数単位でのスペクトルの調整には限界がある。そのため、従来の手法に対して、さらなる高画質化の要望があった。
As another method, the conventional method estimates a spatial high-frequency spectrum using spectral power representative values for each band obtained by octave-decomposing an input image on the premise of self-similarity.
However, in this case, the conventional method can estimate the spatial high-frequency spectrum only by adjusting the spectral power. Thus, there is a limit to adjusting the spectrum in fine spatial frequency units only by adjusting the spectral power using the spectral power representative value. Therefore, there has been a demand for higher image quality than the conventional method.
本発明は、このような問題や要望に鑑みてなされたものであり、学習済みの畳み込みニューラルネットワークを用いて、元となる原画像がなくても高画質な高解像度画像を生成することが可能な画像超解像装置およびそのプログラム、ならびに、その畳み込みニューラルネットワークのパラメータを学習するパラメータ学習装置およびそのプログラムを提供することを課題とする。 The present invention has been made in view of such problems and demands, and uses a trained convolutional neural network to generate a high-quality, high-resolution image without the original image. It is an object of the present invention to provide an image super-resolution device and its program, and a parameter learning device and its program for learning the parameters of the convolutional neural network.
前記課題を解決するため、本発明に係る画像超解像装置は、画像をウェーブレット分解した水平方向および垂直方向の両方が低域である低域成分から、水平方向および垂直方向のいずれか一方または両方が高域である高域成分を推定する予めパラメータが学習された畳み込みニューラルネットワークを用いて、入力画像の解像度を向上させる画像超解像装置であって、ブロック切り出し手段と、畳み込みニューラルネットワーク手段と、ウェーブレット再構成手段と、ブロック配置手段と、を備える構成とした。 In order to solve the above-mentioned problems, the image super-resolution device according to the present invention is a low-frequency component that is low-frequency in both the horizontal direction and the vertical direction obtained by wavelet decomposition of an image. An image super-resolution device for improving the resolution of an input image by using a convolutional neural network with pre-learned parameters for estimating high-frequency components both of which are high-frequency components, comprising block segmentation means and convolutional neural network means. , wavelet reconstruction means, and block arrangement means.
かかる構成において、画像超解像装置は、ブロック切り出し手段によって、高解像度化の対象となる入力画像から予め定めたサイズのブロックを順次切り出す。
そして、画像超解像装置は、畳み込みニューラルネットワーク手段によって、切り出したブロックを低域成分として、畳み込みニューラルネットワークを用いて当該ブロックに対応する高域成分を推定する。
In such a configuration, the image super-resolution device sequentially cuts out blocks of a predetermined size from the input image to be increased in resolution by the block cutout means.
Then, the image super-resolution apparatus uses the convolutional neural network means to estimate the high-frequency component corresponding to the block using the convolutional neural network, with the extracted block as the low-frequency component.
そして、画像超解像装置は、ウェーブレット再構成手段によって、低域成分であるブロックと畳み込みニューラルネットワーク手段で推定された高域成分とをウェーブレット再構成し、ブロックを超解像した超解像ブロックを生成する。これによって、ブロックの水平方向および垂直方向に2倍の解像度の画像(超解像ブロック)が生成されることになる。 Then, the image super-resolution device uses wavelet reconstruction means to perform wavelet reconstruction of the block that is the low-frequency component and the high-frequency component estimated by the convolutional neural network means, and super-resolves the block. to generate This will produce a double resolution image (super-resolution block) in the horizontal and vertical direction of the block.
そして、画像超解像装置は、ブロック配置手段によって、ブロックを切り出した位置に応じて超解像ブロックを再配置する。これによって、画像超解像装置は、超解像ブロックが画像全体に配置された高解像度画像(超解像画像)を生成する。
なお、画像超解像装置は、コンピュータを、前記した各手段として機能させるための画像超解像プログラムで動作させることができる。
Then, the image super-resolution device rearranges the super-resolution blocks according to the positions where the blocks are cut out by the block arrangement means. As a result, the image super-resolution device generates a high-resolution image (super-resolution image) in which super-resolution blocks are arranged over the entire image.
Note that the image super-resolution apparatus can be operated with an image super-resolution program for causing a computer to function as each means described above.
また、前記課題を解決するため、本発明に係るパラメータ学習装置は、画像超解像装置で用いる畳み込みニューラルネットワークのパラメータを学習するパラメータ学習装置であって、ブロック切り出し手段と、ウェーブレット分解手段と、学習用畳み込みニューラルネットワーク手段と、誤差演算手段と、を備える構成とした。 Further, in order to solve the above problems, a parameter learning device according to the present invention is a parameter learning device for learning parameters of a convolutional neural network used in an image super-resolution device, comprising: block extraction means; wavelet decomposition means; The configuration includes learning convolutional neural network means and error calculation means.
かかる構成において、パラメータ学習装置は、ブロック切り出し手段によって、入力画像から、畳み込みニューラルネットワークの入力となる画像の水平方向および垂直方向に2倍の解像度のブロックを順次切り出す。
そして、パラメータ学習装置は、ウェーブレット分解手段によって、ブロックをウェーブレット分解した水平方向および垂直方向の両方が低域である低域成分と、水平方向および垂直方向のいずれか一方または両方が高域である高域成分とを生成する。
In such a configuration, the parameter learning device sequentially cuts out from the input image blocks having twice the resolution in the horizontal direction and the vertical direction of the image to be input to the convolutional neural network by the block cutting means.
Then, the parameter learning device uses the wavelet decomposition means to wavelet decompose the block into a low-frequency component that is low-frequency in both the horizontal direction and the vertical direction, and a high-frequency component in either or both of the horizontal direction and the vertical direction. generates high-frequency components.
そして、パラメータ学習装置は、学習用畳み込みニューラルネットワーク手段によって、ウェーブレット分解手段で生成された低域成分を入力し、畳み込みニューラルネットワークにおいて順方向に伝播させることで高域成分を推定する。
さらに、パラメータ学習装置は、誤差演算手段によって、ウェーブレット分解手段で生成された高域成分と、学習用畳み込みニューラルネットワーク手段で推定された高域成分との誤差を演算する。
Then, the parameter learning device inputs the low-frequency component generated by the wavelet decomposition means by the learning convolutional neural network means, and propagates it forward in the convolutional neural network to estimate the high-frequency component.
Further, the parameter learning device uses the error computing means to compute the error between the high frequency component generated by the wavelet decomposition means and the high frequency component estimated by the learning convolutional neural network means.
そして、パラメータ学習装置は、学習用畳み込みニューラルネットワーク手段によって、誤差演算手段で演算された誤差を誤差逆伝播法により、畳み込みニューラルネットワークにおいて逆方向に伝播させることで、畳み込みニューラルネットワークの結合重み係数を学習する。
これによって、パラメータ学習装置は、画像超解像装置が用いる畳み込みニューラルネットワークのパラメータである結合重み係数を学習する。
なお、パラメータ学習装置は、コンピュータを、前記した各手段として機能させるためのパラメータ学習プログラムで動作させることができる。
Then, the parameter learning device uses the convolutional neural network means for learning to propagate the error calculated by the error calculation means in the reverse direction in the convolutional neural network by the error backpropagation method, thereby setting the connection weight coefficient of the convolutional neural network. learn.
Thereby, the parameter learning device learns connection weight coefficients, which are parameters of the convolutional neural network used by the image super-resolution device.
The parameter learning device can operate a computer with a parameter learning program for functioning as each of the means described above.
本発明は、以下に示す優れた効果を奏するものである。
本発明にかかる画像超解像装置によれば、畳み込みニューラルネットワークを用いて、入力画像に対して高域成分を合成することで、超解像画像を生成することができる。この高域成分は、種々の波形の高域成分を学習したものである。そのため、本発明は、従来のような高域成分のパワー調整のみではないため、高画質な超解像画像を生成することができる。
本発明にかかるパラメータ学習装置によれば、学習用の画像を用いて、画像超解像装置が用いる畳み込みニューラルネットワークのパラメータを学習することができる。そのため、本発明は、画像超解像装置が対象とする画像に応じて、学習用の画像を変えることができ、画像超解像装置が用いる畳み込みニューラルネットワークを最適化することができる。
ADVANTAGE OF THE INVENTION This invention has the outstanding effect shown below.
According to the image super-resolution apparatus of the present invention, a super-resolution image can be generated by synthesizing high-frequency components with respect to an input image using a convolutional neural network. This high-frequency component is obtained by learning high-frequency components of various waveforms. Therefore, the present invention can generate a high-quality super-resolution image because it does not only adjust the power of high-frequency components as in the conventional art.
According to the parameter learning device of the present invention, learning images can be used to learn the parameters of the convolutional neural network used by the image super-resolution device. Therefore, according to the present invention, the image for learning can be changed according to the image targeted by the image super-resolution device, and the convolutional neural network used by the image super-resolution device can be optimized.
以下、本発明の実施形態について図面を参照して説明する。
<発明の概要>
まず、図1を参照して、本発明の概要について説明する。図1(a)は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いた本発明の画像超解像装置1(図2)の処理概要を示す図である。図1(b)は、本発明の画像超解像装置1(図2)で用いるCNNのパラメータを学習するパラメータ学習装置(図7)の処理概要を示す図である。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<Overview of the invention>
First, an outline of the present invention will be described with reference to FIG. FIG. 1(a) is a diagram showing an overview of the processing of the image super-resolution device 1 (FIG. 2) of the present invention using a convolutional neural network (CNN). FIG. 1(b) is a diagram showing an overview of the processing of the parameter learning device (FIG. 7) for learning CNN parameters used in the image super-resolution device 1 (FIG. 2) of the present invention.
画像超解像装置1(図2)は、画像L(低解像画像)を、水平方向および垂直方向に2倍した画像H(超解像画像)に高解像度化するものである。
図1(a)に示すように、画像超解像装置1は、画像LのブロックB(例えば、8×8画素)を順次切り出し、当該ブロックBを、2次元ウェーブレット分解における水平、垂直ともに低域成分であるLL画像(LL1)とする。また、画像超解像装置1は、LL画像(LL1)から、予めパラメータPaを学習したCNNによって、高域3成分として、LL画像(LL1)に対応する水平が高域成分、垂直が低域成分であるHL画像(HL1^)と、水平が低域成分、垂直が高域成分であるLH画像(LH1^)と、水平、垂直ともに高域成分であるHH画像(HH1^)とを推定する。
The image super-resolution device 1 (FIG. 2) increases the resolution of an image L (low-resolution image) to an image H (super-resolution image) that is doubled in the horizontal and vertical directions.
As shown in FIG. 1A, the image
そして、画像超解像装置1は、LL画像(LL1)と、HL画像(HL1^)と、LH画像(LH1^)と、HH画像(HH1^)とをウェーブレット再構成することで、ブロックBに対応した超解像ブロックS(LL0^)を生成する。
このように、画像超解像装置1は、ブロックBごとにCNNを用いた高解像度化を行うことで、低解像度の画像Lから高解像度(超解像)の画像Hを生成する。
Then, the image
In this manner, the image
パラメータ学習装置2(図7)は、画像超解像装置1が用いるCNNのパラメータPaを学習するものである。
図1(b)に示すように、パラメータ学習装置2は、学習用画像DのブロックE(例えば、16×16画素)を順次切り出す。そして、パラメータ学習装置2は、2次元ウェーブレット分解により、ブロックE(LL0′)を、LL画像(LL1′)と、HL画像(HL1′)と、LH画像(LH1′)と、HH画像(HH1′)とに分解する。
そして、パラメータ学習装置2は、LL画像(LL1′)をCNNに入力し、その出力であるHL画像(HL1^)、LH画像(LH1^)およびHH画像(HH1^)と、正解データであるウェーブレット分解後のHL画像(HL1′)、LH画像(LH1′)およびHH画像(HH1′)との誤差をなくすように誤差逆伝播法により、CNNのパラメータPaを学習する。
The parameter learning device 2 ( FIG. 7 ) learns the CNN parameter Pa used by the image
As shown in FIG. 1B, the
Then, the
なお、パラメータ学習装置2は、学習用画像Dとして、画像超解像装置1が高解像度化する対象となる画像の特徴(絵柄等)を含んだ画像を用いることで、画像超解像装置1が用いるCNNを最適化することができる。例えば、パラメータ学習装置2は、学習用画像Dとして、高解像度化の対象となる低解像の画像Lを用いてパラメータ学習を行ってもよい。
また、パラメータ学習装置2は、学習用画像Dとして、汎用的な画像を用いれば、汎用的な画像を高解像度化するための画像超解像装置1が用いるCNNを学習することができる。
なお、学習用画像Dは、1枚である必要なく、複数枚の画像を用いてもよい。
以下、画像超解像装置1およびパラメータ学習装置2の構成および動作について詳細に説明する。
Note that the
Also, if a general-purpose image is used as the learning image D, the
Note that the learning image D does not have to be one, and a plurality of images may be used.
The configurations and operations of the
<画像超解像装置の構成>
図2を参照して、画像超解像装置1の構成について説明する。なお、ここでは、画像超解像装置1に入力する画像Lの解像度を水平Ax画素、垂直Ay画素とする。また、画像超解像装置1が出力する画像Hの解像度を、画像Lを水平方向および垂直方向にそれぞれ2倍した水平2Ax画素、垂直2Ay画素とする。
図2に示すように、画像超解像装置1は、ブロック切り出し手段10と、ブロック走査手段11と、畳み込みニューラルネットワーク手段12と、ウェーブレット再構成手段13と、ブロック配置手段14と、を備える。
<Configuration of image super-resolution device>
The configuration of the
As shown in FIG. 2 , the
ブロック切り出し手段10は、入力画像(画像L)の部分画像であるブロックを切り出すものである。以下、画像Lの画像座標(x,y)における第cの色成分の画素値をL(x,y,c)と記す。ここで、画像Lをモノクロ画像とした場合、c=0、画像LをC原色のカラー画像とした場合、cは0以上C未満(Cは2以上の整数、例えば、RGB画像の場合C=3)である。
ブロック切り出し手段10は、水平P画素および垂直Q画素(P×Q画素)の矩形領域のブロックを画像Lから切り出す。ここで、PおよびQはともに自然数とし、かつ、P×Qは2以上とする。例えば、P=8およびQ=8である。
The block clipping means 10 clips a block which is a partial image of an input image (image L). Hereinafter, the pixel value of the c-th color component at the image coordinates (x, y) of the image L is denoted as L(x, y, c). Here, when the image L is a monochrome image, c = 0, and when the image L is a C primary color image, c is 0 or more and less than C (C is an integer of 2 or more, for example, in the case of an RGB image, C = 3).
The block cutout means 10 cuts out from the image L a block of a rectangular area of horizontal P pixels and vertical Q pixels (P×Q pixels). Here, both P and Q are natural numbers, and P×Q is 2 or more. For example, P=8 and Q=8.
ここで、ブロック切り出し手段10は、後記するブロック走査手段11が指定する切り出し座標(p,q)を基準に切り出しを行う。例えば、ブロック走査手段11から、切り出し座標(p,q)を指定された場合、ブロック切り出し手段10は、画像座標(p,q)と画像座標(p+P-1,q+Q-1)とを対角の2点とする矩形内(境界を含む)の画像Lの画素値列を部分画像(ブロック)として切り出す。
ブロック切り出し手段10は、切り出したブロックを畳み込みニューラルネットワーク手段12と、ウェーブレット再構成手段13とに出力する。
Here, the block cutout means 10 cuts out based on the cutout coordinates (p, q) specified by the block scanning means 11, which will be described later. For example, when the block scanning means 11 designates the cutout coordinates (p, q), the block cutout means 10 sets the image coordinates (p, q) and the image coordinates (p+P−1, q+Q−1) to the diagonal A pixel value string of the image L within the rectangle (including the boundary) with two points is cut out as a partial image (block).
The block extraction means 10 outputs the extracted blocks to the convolutional neural network means 12 and the wavelet reconstruction means 13 .
なお、ブロック切り出し手段10は、ブロックの切り出しとともに、色成分cごとの画素値の正規化(係数αc,オフセットβc)を施しても構わない。
具体的には、ブロック切り出し手段10は、以下の式(1)により正規化を行いブロックBの画素値(x,y,c)とする。
Note that the block extraction means 10 may normalize the pixel values (coefficient α c , offset β c ) for each color component c along with the block extraction.
Specifically, the block cut-out means 10 performs normalization using the following equation (1) to obtain the pixel values (x, y, c) of the block B.
例えば、画像Lが、輝度・色差表現によるカラー画像(C=3)であって、c=0(輝度)については、画素値が16~235の範囲、c=1およびc=2(色差)については、画素値が16~240の範囲である場合、α0=1/219、β0=-16/219、α1=α2=1/224、β1=β2=-16/224とする。 For example, the image L is a color image (C=3) expressed by luminance and color difference, and for c=0 (luminance), the pixel value ranges from 16 to 235, c=1 and c=2 (color difference). , when the pixel values are in the range of 16 to 240, α 0 =1/219, β 0 =−16/219, α 1 =α 2 =1/224, β 1 =β 2 =−16/224 and
ブロック走査手段11は、ブロック切り出し手段10がブロックを切り出す基準となる切り出し座標(p,q)を逐次生成するものである。ブロック走査手段11は、例えば、時点u(uは0以上の整数)において、以下の式(2)により、水平方向P画素および垂直方向Q画素の間隔で、ラスタ走査の順序に座標(p,q)を生成する。 The block scanning means 11 sequentially generates cut-out coordinates (p, q) that serve as references for the block cut-out means 10 to cut out blocks. The block scanning means 11 scans the coordinates (p, q).
また、二項演算子%は、a%bが非負の整数aを正の整数bで除したときの剰余を求めるものとして定義する。また、Bxは、水平方向のブロックの切り出し数である。
あるいは、ブロック走査手段11は、例えば、時点u(uは0以上の整数)において、以下の式(3)により、時間の前後で切り出し画像が重なり合うように、水平方向P/2画素および垂直方向Q/2画素の間隔で、ラスタ走査の順序に座標(p,q)を生成することとしてもよい。
Also, the binary operator % is defined as a %b that obtains the remainder when a non-negative integer a is divided by a positive integer b. Also, Bx is the number of cut-out blocks in the horizontal direction.
Alternatively, the block scanning means 11, for example, at time u (u is an integer equal to or greater than 0), according to the following equation (3), P/2 pixels in the horizontal direction and P/2 pixels in the vertical direction so that the clipped images overlap before and after the time. Coordinates (p,q) may be generated in raster scan order at intervals of Q/2 pixels.
ブロック走査手段11は、生成した切り出し座標(p,q)を、ブロック切り出し手段10と、ブロック配置手段14とに出力する。 The block scanning means 11 outputs the generated cutout coordinates (p, q) to the block cutout means 10 and the block arrangement means 14 .
畳み込みニューラルネットワーク手段12は、ブロック切り出し手段10で切り出したブロックを入力して予め学習した畳み込みニューラルネットワークによる処理を実行するものである。畳み込みニューラルネットワーク手段12は、入力したブロックと同じ標本数のブロックを3チャンネル分生成する。すなわち、畳み込みニューラルネットワーク手段12は、ブロックの標本数の3倍の標本数のデータを出力する。
例えば、畳み込みニューラルネットワーク手段12は、ブロック切り出し手段10から、P×Q画素の矩形のブロックが入力された場合、P×Q画素の画像を3チャンネル分出力する。
畳み込みニューラルネットワーク手段12は、例えば、1個以上の畳込手段120と、1個以上の活性化関数適用手段121とを交互に縦続接続した構成とすることができる。
図2に示すように、畳み込みニューラルネットワーク手段12は、L個の畳込手段120(1201,1202,…,120L)と、L個の活性化関数適用手段121(1211,1212,…,121L)と、を備える。
The convolutional neural network means 12 inputs the blocks cut out by the block cutout means 10 and executes processing by a pre-learned convolutional neural network. The convolutional neural network means 12 generates three channels of blocks having the same number of samples as the input block. That is, the convolutional neural network means 12 outputs the data of the number of samples three times the number of samples of the block.
For example, when a rectangular block of P.times.Q pixels is input from the block extraction means 10, the convolutional neural network means 12 outputs an image of P.times.Q pixels for three channels.
The convolutional neural network means 12 can have, for example, a configuration in which one or more convolution means 120 and one or more activation function application means 121 are alternately connected in cascade.
As shown in FIG. 2, the convolutional neural network means 12 includes L convolution means 120 (120 1 , 120 2 , . . . , 120 L ) and L activation function application means 121 (121 1 , 121 2 , . . . , 121 L ).
畳込手段120は、予め定めたサイズの学習済みの結合重み係数(パラメータ)を有するカーネルを用いて畳み込み演算を行うものである。
畳込手段120i(iは1以上L以下の整数)は、カーネルサイズMi×Ni×Ki-1の3階テンソルの畳み込み演算器(カーネル:不図示)をKi種類(Ti
(0)(r,s,t)~Ti
(Ki-1)(r,s,t))備え、サイズP×Q×Ki-1の3階テンソルIi-1(r,s,t)の入力に対して、畳み込み演算を行い、サイズP×Q×Kiの3階テンソルJi(r,s,t)として出力する。
具体的には、畳込手段120iは、以下の式(4)により、Ji(r,s,t)を算出する。
The convolution means 120 performs a convolution operation using a kernel having learned connection weighting coefficients (parameters) of a predetermined size.
The convolution means 120 i ( i is an integer of 1 or more and L or less ) converts K i types (T i (0) (r,s,t) to T i (Ki−1) (r,s,t)) and of size P×Q×K i−1 3rd order tensor I i−1 (r,s,t) t) is subjected to a convolution operation and output as a third-order tensor J i (r, s, t) of size P×Q×K i .
Specifically, the convolution means 120 i calculates J i (r, s, t) by the following equation (4).
なお、テンソルTi (k)(ρ,σ,τ)(kは0以上Ki未満の整数)は、ri (0)以上ri (1)以下の整数ρ、si (0)以上si (1)以下の整数σ、0以上Ki-1未満の整数τに対して、定義されているものとする。 Note that the tensor T i (k) (ρ, σ, τ) (k is an integer greater than or equal to 0 and less than K i ) is an integer ρ greater than or equal to ri (0) and less than or equal to ri (1 ), si (0) or greater s i (1 ) or less, and an integer τ of 0 or more and less than K i−1 are defined.
また、畳込手段120iは、式(4)において、Ii-1(r-ρ,s-σ,τ)を参照するにあたって、r-ρ<0、r-ρ≧P、s-σ<0またはs-σ≧Qの場合(テンソルの定義域外を参照した場合)には、その値として、例えば、Ii-1(r-ρ,s-σ,τ)=0(ゼロパディング)として定義した値を用いる。あるいは、畳込手段120iは、定義域内の最近傍の要素の値(0次外挿値)を用いてもよい。
なお、ri
(0)、ri
(1)、si
(0)およびsi
(1)は、例えば、以下の式(5)、あるいは、式(6)により定義した値を用いる。
In addition, the convolution means 120 i refers to I i−1 (r−ρ, s−σ, τ) in Equation (4), r−ρ<0, r−ρ≧P, s−σ <0 or s−σ≧Q (when referring to outside the domain of the tensor), the value is, for example, I i−1 (r−ρ, s−σ, τ)=0 (zero padding) Use the value defined as Alternatively, the convolution means 120 i may use the value of the closest element within the domain (zero-order extrapolated value).
For r i (0) , r i (1) , s i (0) and s i (1) , for example, values defined by the following equations (5) or (6) are used.
例えば、Mi=5、Ni=5の場合、式(5)および式(6)のいずれによっても、ri
(0)=-2、ri
(1)=+2、si
(0)=-2、si
(1)=+2となる。
また、例えば、Mi=4、Ni=4の場合、式(5)によれば、ri
(0)=-1、ri
(1)=+2、si
(0)=-1、si
(1)=+2となり、式(6)によれば、ri
(0)=-2、ri
(1)=+1、si
(0)=-2、si
(1)=+1となる。
For example, if M i =5, N i =5, both equations (5) and (6) yield r i (0) =−2, r i (1) =+2, s i (0) =-2 and s i (1) =+2.
Also, for example, when M i =4 and N i =4, according to equation (5), r i (0) =−1, r i (1) =+2, s i (0) =−1, s i (1) =+2, and according to equation (6), r i (0) =−2, r i (1) =+1, s i (0) =−2, s i (1) =+1 becomes.
なお、初段の畳込手段1201への入力は、サイズP×Q×K0の3階テンソルI0(r,s,t)であるが、K0は入力画像Lがモノクロ画像の場合にはK0=1、Cチャンネルのカラー画像の場合にはK0=Cと定義する(Cは原色の数、例えば、RGB画像等の典型的なカラー画像においてはC=3)。
また、畳込手段1201への入力であるI0(r,s,t)には、以下の式(7)に示すように、ブロック切り出し手段10から入力されるブロックB(r,s,t)を設定する。
The input to the first-stage convolution means 120 1 is a third-order tensor I 0 (r, s, t) of size P×Q×K 0 . defines K 0 =1, and K 0 =C for a C-channel color image (where C is the number of primary colors, eg C=3 for a typical color image such as an RGB image).
Also, I 0 (r, s, t), which is input to the convolution means 120 1 , is represented by the following equation (7), the block B (r, s, t).
一方、最終段の畳込手段120Lにおける畳み込み演算器(不図示)の種類数KLは、入力画像Lがモノクロ画像の場合にはKL=3、Cチャンネル(Cは原色の数、典型的にはC=3)のカラー画像の場合にはKL=3Cと定義する On the other hand, when the input image L is a monochrome image, the number of types of convolution calculators (not shown) in the convolution means 120 L at the final stage is K L =3, C channels (C is the number of primary colors, typically For a color image with C=3), define K L =3C
活性化関数適用手段121は、畳込手段120の出力に対して、活性化関数を用いた演算を行うものである。
活性化関数適用手段121i(iは1以上L以下の整数)は、以下の式(8)に示すように、畳込手段120iから入力されるサイズP×Q×Kiの3階テンソルJi(r,s,t)の各成分に対して、活性化関数φを適用し、その適用結果を、サイズP×Q×Kiの3階テンソルIi(r,s,t)として出力する。
The activation function applying means 121 performs calculation using the activation function on the output of the convolution means 120 .
Activation function application means 121 i (i is an integer of 1 or more and L or less), as shown in the following equation (8), a third-order tensor of size P×Q×K i input from convolution means 120 i To each component of J i (r, s, t), apply an activation function φ and denote the result of the application as a 3rd order tensor I i (r, s, t) of size P×Q×K i Output.
テンソルJの各成分に対して適用する活性化関数φi,tは、iまたはtのいずれか、あるいは、その両方に関してすべて同一でなくても構わないし、iおよびtのすべての組み合わせについて同一であっても構わない。典型的な例としては、iおよびtのすべての組み合わせについて同一とするか、同一とは限らない活性化関数をiごとに設定する。
例えば、i=1,2,…,L-1については、ReLU(Rectified Linear Unit:正規化線形関数)を用い(式(9)参照)、i=Lについては活性化関数を用いない(式(13)参照)等である。以下に、活性化関数適用手段121で適用する活性化関数の具体例である関数φを示す。
例えば、関数φは、以下の式(9)に示すReLUを用いることができる。
The activation functions φ i,t applied to each component of tensor J need not all be the same for either i or t, or both, or be the same for all combinations of i and t. It doesn't matter if there is. A typical example is to set the same activation function for all combinations of i and t, or to set an activation function that is not necessarily the same for each i.
For example, for i = 1, 2, . (13)) and the like. A function φ, which is a specific example of the activation function applied by the activation function applying means 121, is shown below.
For example, the function φ can use ReLU shown in the following equation (9).
また、関数φは、以下の式(10)に示すシグモイド(sigmoid)関数を用いることができる。 A sigmoid function shown in the following equation (10) can be used as the function φ.
また、関数φは、以下の式(11)に示す双曲線正接関数を用いることができる。 Also, the function φ can use the hyperbolic tangent function shown in the following equation (11).
また、関数φは、以下の式(12)に示すソフトサイン(softsign)関数を用いることができる。 Also, the function φ can use the softsign function shown in the following equation (12).
また、関数φは、以下の式(13)に示す恒等写像(活性化関数を適用しない)を用いても構わない。 Also, as the function φ, the identity map (without applying the activation function) shown in the following equation (13) may be used.
この式(13)に示すように、テンソルJの全成分について活性化関数を適用しない場合、活性化関数適用手段121iそのものを構成から省略しても構わない。
なお、最終段の畳込手段120L以外の畳込手段120に接続される活性化関数適用手段121には、ニューラルネットワークの滑らかな表現を学習するため、非線形な活性化関数(式(13)以外)を用いることする。
最終段の畳込手段120Lの後段に接続される活性化関数適用手段121Lには、すべての出力を活性化させるため、正、負および零の値をとり得る活性化関数(例えば、式(11)の双曲線正接関数、式(12)のソフトサイン関数)を用いるか、活性化関数を適用しない関数(式(13))を用いるか、あるいは、活性化関数適用手段121Lそのものを省略するものとする。
畳み込みニューラルネットワーク手段12は、畳み込みニューラルネットワークによる処理を実行した最終段の演算結果JLを、ウェーブレット再構成手段13に出力する。
As shown in this equation (13), when the activation function is not applied to all the components of tensor J, the activation function applying means 121 i itself may be omitted from the configuration.
Note that the activation function applying means 121 connected to the convolution means 120 other than the convolution means 120L at the final stage is provided with a nonlinear activation function (equation (13) ) should be used.
Activation function application means 121 L connected to the rear stage of convolution means 120 L in the final stage has an activation function (for example, the formula Either the hyperbolic tangent function of (11), the soft sine function of formula (12)) is used, the function that does not apply the activation function (formula (13)) is used, or the activation function applying means 121 L itself is omitted. It shall be.
The convolutional neural network means 12 outputs to the wavelet reconstruction means 13 the operation result JL of the final stage that has been processed by the convolutional neural network.
図3に、本発明の実施形態に係る画像超解像装置1のカラー画像を対象としたウェーブレット再構成手段13の構成を示す。
ウェーブレット再構成手段13は、色成分ごとにウェーブレット再構成を行う第1ウェーブレット再構成手段131と、第2ウェーブレット再構成手段132と、第3ウェーブレット再構成手段133と、を有し、ブロック切り出し手段10で切り出されるブロックBと、畳み込みニューラルネットワーク手段12で演算されたブロックBの3倍の標本数のデータJLとに基づいて、ウェーブレット再構成を行い、超解像ブロックSを生成するものである。なお、以下では、超解像ブロックSの座標(x,y)における色成分cの画素値をS(x,y,c)と表す。ただし、入力画像Lがモノクロ画像の場合には、色成分cは、c=0のみとする。この場合、ウェーブレット再構成手段13は図2に示すように1つの構成とすればよい。
FIG. 3 shows the configuration of the wavelet reconstruction means 13 for color images of the
The wavelet reconstruction means 13 has a first wavelet reconstruction means 13-1, a second wavelet reconstruction means 13-2 , and a third wavelet reconstruction means 13-3 that perform wavelet reconstruction for each color component, Wavelet reconstruction is performed based on the block B cut out by the block cutout means 10 and the data J L whose number of samples is three times that of the block B calculated by the convolutional neural network means 12, and the super-resolution block S is generated. It is something to do. In addition, below, the pixel value of the color component c at the coordinates (x, y) of the super-resolution block S is expressed as S(x, y, c). However, when the input image L is a monochrome image, the color component c is only c=0. In this case, the wavelet reconstruction means 13 may have a single configuration as shown in FIG.
ウェーブレット再構成手段13がウェーブレット再構成に用いる基底関数は任意であるが、例えば、ハール(Haar)基底を用いることができる。
例えば、入力画像Lがモノクロ画像で、基底関数がハール基底の場合、ウェーブレット再構成手段13は、ブロック切り出し手段10の出力であるブロックB(r,s,0)と、畳み込みニューラルネットワーク手段12の出力であるJL(r,s,0)、JL(r,s,1)およびJL(r,s,2)とに基づいて、以下の式(14)により、超解像ブロックSを生成する。
The wavelet reconstruction means 13 can use any basis function for wavelet reconstruction, but for example, a Haar basis can be used.
For example, when the input image L is a monochrome image and the basis function is the Haar basis, the wavelet reconstruction means 13 converts the block B (r, s, 0) which is the output of the block extraction means 10 and the convolutional neural network means 12 Based on the outputs J L (r, s, 0), J L (r, s, 1) and J L (r, s, 2), the super-resolution block S to generate
また、例えば、入力画像Lがカラー画像で、基底関数がハール基底の場合、ウェーブレット再構成手段13は、以下の式(15)により、超解像ブロックSを生成する。 Further, for example, when the input image L is a color image and the basis functions are Haar basis, the wavelet reconstruction means 13 generates the super-resolution block S by the following equation (15).
ウェーブレット再構成手段13は、生成した超解像ブロックSを、ブロック配置手段14に出力する。 The wavelet reconstruction means 13 outputs the generated super-resolution block S to the block arrangement means 14 .
ブロック配置手段14は、ブロック走査手段11で生成されるブロックBの切り出し座標(p,q)に基づいて、当該ブロックBに対応してウェーブレット再構成手段13で生成される超解像ブロックSを配置して、超解像画像を生成するものである。 Based on the cut-out coordinates (p, q) of the block B generated by the block scanning means 11, the block placement means 14 selects the super-resolution block S generated by the wavelet reconstruction means 13 corresponding to the block B. arranged to generate a super-resolution image.
なお、ブロック走査手段11が生成する座標を、ブロックが重なり合わない切り出し座標(p,q)とする場合、ブロック配置手段14は、切り出し座標(p,q)に応じて、超解像ブロックSを配置することで、超解像画像を生成する。
また、ブロック走査手段11が生成する座標を、ブロックが重なる切り出し座標(p,q)とする場合、ブロック配置手段14は、切り出し座標(p,q)に応じて、超解像ブロックSをブレンディングにより合成することで、超解像画像を生成する
具体的には、ブロック配置手段14は、ブロックが重なり合わない切り出し座標の場合(前記式(2)参照)、以下の式(16)により、ブロック走査手段11の走査に応じた座標(p,q)に対応して、超解像ブロックSを超解像画像Hに配置する。
In addition, when the coordinates generated by the block scanning means 11 are the cutout coordinates (p, q) where the blocks do not overlap, the block arrangement means 14 arranges the super-resolution block S according to the cutout coordinates (p, q) to generate a super-resolution image.
Further, when the coordinates generated by the
なお、入力画像Lがモノクロ画像の場合、C=1とし、出力画像Hの第3引数のcはc=0のみとする。
また、ブロック配置手段14は、ブロックが重なり合う切り出し座標の場合(前記式(3)参照)、以下の式(17)により、所定の重みWp,q(ρ,σ,c)を付加して、オーバーラップ部分のブレンディングを行い、超解像画像Hを合成する。
Note that when the input image L is a monochrome image, C=1, and the third argument c of the output image H is only c=0.
In addition, in the case of cut coordinates where blocks overlap (see the above formula (3)), the block placement means 14 adds a predetermined weight W p,q (ρ, σ, c) according to the following formula (17) to , and super-resolution image H is synthesized by blending the overlapping portions.
ブロック配置手段14は、式(17)に示すように、1時点前までに足し込まれた結果であるHoldに、現時点で得られた超解像ブロックSに空間的な重みWp,qを付加したものを足し込む。ここで、1時点前とは、ブロック走査手段11が前記式(3)の演算で用いる時点uを、u-1とした時点である。なお、走査開始前の出力画像Hには、初期値として、すべて“0”を設定する。
重みWp,qには、以下の式(18)、式(19)に示すように、水平方向の因子Wp,q
(Hor)と垂直方向の因子Wp,q
(Ver)の積を用いることができる。
As shown in equation (17), the block placement means 14 adds spatial weights W p , q is added. Here, one time point before is a time point where the time point u used by the block scanning means 11 in the calculation of the formula (3) is set to u-1. Note that the output image H before scanning is set to all "0" as an initial value.
The weight W p,q is the product of the horizontal factor W p,q (Hor) and the vertical factor W p,q (Ver) , as shown in the following equations (18) and (19). can be used.
前記式(18)の重みを用いることで、ブロック配置手段14は、ブロックの中心部分が最大の重み付けとなり、ブロックの重なり合う部分が水平方向および垂直方向のそれぞれについて線形に減衰する重み付けとなるように、ブロックをブレンディングする。これによって、ブロック配置手段14は、ブロック間の境界を目立たなくすることができる。
ブロック配置手段14は、ブロック走査手段11が入力画像Lの走査を終えた時点で、入力画像Lの4倍(水平2倍、垂直2倍)の解像度を有する出力画像(超解像画像)Hを生成することができる。
By using the weights of the above equation (18), the block arranging means 14 assigns the maximum weighting to the central portion of the block and the weighting to linearly attenuate the overlapping portion of the block in each of the horizontal and vertical directions. , to blend blocks. This allows the block placement means 14 to make the boundaries between blocks inconspicuous.
When the
以上説明したように画像超解像装置1を構成することで、画像超解像装置1は、予め学習したパラメータを用いた畳み込みニューラルネットワークにより、高解像度の画像(超解像画像)を生成することができる。
このとき、入力画像Lが原画像を縮小して生成したものであっても、画像超解像装置1は、原画像を参照することなく、入力画像Lに対するウェーブレット再構成可能な空間高周波スペクトルを推定し、超解像画像Hを生成することができる。
なお、画像超解像装置1は、コンピュータを、前記した各手段として機能させるためのプログラム(画像超解像プログラム)により動作させることができる。
By configuring the
At this time, even if the input image L is generated by reducing the original image, the
Note that the
<画像超解像装置の動作>
図4を参照(構成については、適宜図2参照)して、画像超解像装置1の動作について説明する。なお、畳み込みニューラルネットワーク手段12の畳込手段120の結合重み係数は、予めパラメータ学習装置2(図7)によって学習されたパラメータが設定されているものとする。
<Operation of image super-resolution device>
The operation of the
ステップS1において、ブロック走査手段11は、入力画像Lにおいて、ラスタ走査の順序で、P×Q画素のブロックの切り出し位置となる座標(p,q)を生成する。
なお、ブロックの切り出し位置は、ブロックが重ならない位置としてもよいし、ブロックが重複する位置としてもよく、予め定めたいずれか一方の切り出し位置とする。
In step S1, the block scanning means 11 generates coordinates (p, q) as a cut-out position of a block of P×Q pixels in the input image L in the order of raster scanning.
The block cutout position may be a position where the blocks do not overlap or a position where the blocks overlap, and either one of the predetermined cutout positions may be used.
ステップS2において、ブロック切り出し手段10は、入力画像Lから、ステップS1で生成された座標(p,q)を切り出し位置として、入力画像LからP×Q画素のブロックを切り出す。ブロック切り出し手段10が切り出すブロックは、図1(a)に示したブロックBのLL画像(LL1)に相当する。 In step S2, the block clipping means 10 clips a block of P×Q pixels from the input image L using the coordinates (p, q) generated in step S1 as the clipping position. The block cut out by the block cutout means 10 corresponds to the LL image (LL 1 ) of the block B shown in FIG. 1(a).
ステップS3において、畳み込みニューラルネットワーク手段12は、ステップS2で切り出したブロックを入力し、畳込手段120および活性化関数適用手段121で構成された畳み込みニューラルネットワーク(CNN)による演算を実行することで、ブロックの標本数の3倍の標本数のデータを出力する。
この畳み込みニューラルネットワーク手段12が出力するデータは、図1(a)に示したHL画像(HL1^)、LH画像(LH1^)およびHH画像(HH1^)に相当する。
In step S3, the convolutional neural network means 12 inputs the block cut out in step S2, and performs an operation by a convolutional neural network (CNN) composed of the convolution means 120 and the activation function application means 121. Output data with the number of samples three times the number of samples in the block.
The data output from the convolutional neural network means 12 correspond to the HL image (HL 1 ̂), LH image (LH 1 ̂) and HH image (HH 1 ̂) shown in FIG. 1(a).
ステップS4において、ウェーブレット再構成手段13は、ステップS2で切り出したブロック(LL画像)と、ステップS3で生成したデータ(HL画像、LH画像およびHH画像)とをウェーブレット再構成し、超解像ブロックを生成する。 In step S4, the wavelet reconstruction means 13 wavelet-reconstructs the block (LL image) cut out in step S2 and the data (HL image, LH image and HH image) generated in step S3, and super-resolution block to generate
ステップS5において、ブロック配置手段14は、ステップS4で生成された超解像ブロックを、ステップS1で生成された座標(p,q)に対して、出力画像H上の座標(2p,2q)の位置に配置する。なお、ステップS1で、ブロックの切り出し位置をブロックが重ならない位置とした場合、ブロック配置手段14は、出力画像H上の座標(2p,2q)の位置にそのまま超解像ブロックを配置する。一方、ステップS1で、ブロックの切り出し位置をブロックが重ならない位置とした場合、ブロック配置手段14は、出力画像H上の座標(2p,2q)の位置において、すでに配置済みの超解像ブロックと重なる部分のブレンディングを行う。
In step S5, the
ステップS6において、ブロック走査手段11は、入力画像Lのすべてのブロックを走査したか否かを判定する。
ここで、入力画像Lのすべてのブロックを走査していない場合(ステップS6でNo)、画像超解像装置1は、ステップS1に戻って、動作を継続する。
In step S6, the block scanning means 11 determines whether or not all blocks of the input image L have been scanned.
Here, if all the blocks of the input image L have not been scanned (No in step S6), the
一方、入力画像Lのすべてのブロックを走査した場合(ステップS6でYes)、ステップS7において、画像超解像装置1は、超解像ブロックを配置した出力画像(超解像画像)Hを出力する。
以上の動作により、画像超解像装置1は、畳み込みニューラルネットワークによって、高解像度の画像(超解像画像)を生成することができる。
On the other hand, when all blocks of the input image L have been scanned (Yes in step S6), in step S7, the
By the operation described above, the
(畳み込みニューラルネットワークの具体例)
ここで、画像超解像装置1が用いる畳み込みニューラルネットワークの一例について説明する。
図5は、画像超解像装置1の具体例を示すブロック構成図であって、畳み込みニューラルネットワークN1として、5層CNNの例を示している。図5で、Conv.(5,5,16)は、畳込手段120を示し、5×5のカーネルを16種類備えていることを示している。また、ReLUは、正規化線形関数を用いた活性化関数適用手段121を示している。
最終段の畳込手段であるConv.(5,5,3)は、5×5のカーネルを3種類備えていることを示している。また、ここでは、最終段に、活性化関数適用手段121を用いない例を示している。なお、Conv.が使用するカーネルの結合重み係数は、パラメータ学習装置2(図7)からパラメータPaとして与えられる。
(Concrete example of convolutional neural network)
An example of the convolutional neural network used by the
FIG. 5 is a block configuration diagram showing a specific example of the image super-resolution device 1 , showing an example of a 5-layer CNN as the convolutional neural network N1. In FIG. 5, Conv. (5, 5, 16) indicates that the convolution means 120 has 16 kinds of 5×5 kernels. ReLU also indicates activation function application means 121 using a normalized linear function.
Conv. (5, 5, 3) indicates that three types of 5×5 kernels are provided. Also, here, an example is shown in which the activation function applying means 121 is not used in the final stage. In addition, Conv. is given as a parameter Pa from the parameter learning device 2 (FIG. 7).
最終段のConv.(5,5,3)のカーネルを3種類とすることで、畳み込みニューラルネットワークN1は、HL画像(HL1^)、LH画像(LH1^)およびHH画像(HH1^)の3種類の画像を出力する。
これによって、画像超解像装置1は、ブロックBをLL画像(LL1)とし、畳み込みニューラルネットワークN1の出力であるHL画像(HL1^)、LH画像(LH1^)およびHH画像(HH1^)とを、ウェーブレット再構成することで、超解像ブロックS(LL0^)を生成することができる。
Conv. By using three types of (5, 5, 3) kernels, the convolutional neural network N 1 has three types of HL images (HL 1 ^), LH images (LH 1 ^) and HH images (HH 1 ^). image.
As a result, the image super-resolution device 1 uses the block B as an LL image (LL 1 ), and the HL image (HL 1 ^), LH image (LH 1 ^) and HH image ( HH 1 ̂) and wavelet reconstruction can generate a super-resolution block S(LL 0 ̂).
図6は、画像超解像装置1の他の具体例を示すブロック構成図であって、畳み込みニューラルネットワークN2として、8層CNNの例を示している。
なお、ここでは、図5の畳み込みニューラルネットワークN1と層数が異なる以外に、各層間に適宜加算器Aを備え、直前の層の出力に、その層よりも前の層の出力を加算する構成としている。
このように、畳み込みニューラルネットワークN2は、ResNet(Residual Network)の構成としてもよい。これによって、少ない層数でも層の深度を深めることで、より推定精度の高い畳み込みニューラルネットワークを構成することができる。
FIG. 6 is a block configuration diagram showing another specific example of the
In this case, in addition to the number of layers being different from that of the convolutional neural network N1 in FIG. It is configured.
Thus, the convolutional neural network N2 may be configured as a ResNet (Residual Network). As a result, it is possible to configure a convolutional neural network with higher estimation accuracy by increasing the depth of layers even with a small number of layers.
<パラメータ学習装置の構成>
次に、図7を参照して、パラメータ学習装置2の構成について説明する。なお、ここでは、パラメータ学習装置2に入力される画像Dの解像度を水平Dx画素、垂直Dy画素とする。
図7に示すように、パラメータ学習装置2は、ブロック切り出し手段20と、ブロック走査手段21と、ウェーブレット分解手段22と、学習用畳み込みニューラルネットワーク手段23と、誤差演算手段24と、パラメータ出力手段25と、を備える。
<Configuration of parameter learning device>
Next, the configuration of the
As shown in FIG. 7, the
ブロック切り出し手段20は、入力画像(画像D)の部分画像であるブロックを切り出すものである。以下、画像Dの画像座標(x,y)における第cの色成分の画素値をD(x,y,c)と記す。ここで、画像Dをモノクロ画像とした場合、c=0、画像DをC原色のカラー画像とした場合、cは0以上C未満(Cは2以上の整数、例えば、RGB画像の場合C=3)である。 The block cutout means 20 cuts out a block which is a partial image of the input image (image D). Hereinafter, the pixel value of the c-th color component at the image coordinates (x, y) of the image D is denoted as D(x, y, c). Here, when the image D is a monochrome image, c = 0, and when the image D is a C primary color image, c is 0 or more and less than C (C is an integer of 2 or more, for example, in the case of an RGB image, C = 3).
ブロック切り出し手段20は、水平2P画素および垂直2Q画素(2P×2Q画素)の矩形領域のブロックを画像Dから切り出す。ここで、PおよびQはともに自然数とし、かつ、P×Qは2以上とする。なお、PおよびQは、画像超解像装置1のブロック切り出し手段10(図2)が切り出すブロックの水平画素数(P)および垂直画素数(Q)と同じとする。例えば、P=8およびQ=8である。
The block cutout means 20 cuts out from the image D a rectangular block of 2P pixels in the horizontal direction and 2Q pixels in the vertical direction (2P×2Q pixels). Here, both P and Q are natural numbers, and P×Q is 2 or more. Note that P and Q are the same as the number of horizontal pixels (P) and the number of vertical pixels (Q) of the block cut out by the block cutout means 10 (FIG. 2) of the
ここで、ブロック切り出し手段20は、後記するブロック走査手段21が指定する切り出し座標(p,q)を基準に切り出しを行う。例えば、ブロック走査手段21から、切り出し座標(p,q)を指定された場合、ブロック切り出し手段20は、画像座標(p,q)と画像座標(p+2P-1,q+2Q-1)とを対角の2点とする矩形内(境界を含む)の画像Dの画素値列を部分画像(ブロック)として切り出す。
ブロック切り出し手段20は、切り出したブロックをウェーブレット分解手段22に出力する。
Here, the block cutout means 20 cuts out based on the cutout coordinates (p, q) specified by the block scanning means 21, which will be described later. For example, when the block scanning means 21 designates cut-out coordinates (p, q), the block cut-out means 20 converts the image coordinates (p, q) and the image coordinates (p+2P-1, q+2Q-1) diagonally. A pixel value string of the image D within the rectangle (including the boundary) with two points is cut out as a partial image (block).
The block cutting means 20 outputs the cut blocks to the wavelet decomposition means 22 .
なお、ブロック切り出し手段20は、ブロックの切り出しとともに、色成分cごとの画素値の正規化(係数αc,オフセットβc)を施しても構わない。
具体的には、ブロック切り出し手段20は、以下の式(20)により正規化を行いブロックEの画素値(x,y,c)とする。
Note that the
Specifically, the block cut-out means 20 performs normalization according to the following equation (20) to obtain the pixel values (x, y, c) of the block E.
例えば、画像Dが、輝度・色差表現によるカラー画像(C=3)であって、c=0(輝度)については、画素値が16~235の範囲、c=1およびc=2(色差)については、画素値が16~240の範囲である場合、α0=1/219、β0=-16/219、α1=α2=1/224、β1=β2=-16/224とする。 For example, the image D is a color image (C=3) expressed by luminance and color difference, and for c=0 (luminance), the pixel values are in the range of 16 to 235, c=1 and c=2 (color difference). , when the pixel values are in the range of 16 to 240, α 0 =1/219, β 0 =−16/219, α 1 =α 2 =1/224, β 1 =β 2 =−16/224 and
ブロック走査手段21は、ブロック切り出し手段10がブロックを切り出す基準となる切り出し座標(p,q)を逐次生成するものである。
ブロック走査手段21は、画像D内を所定の画素間隔でラスタスキャンするように走査しても構わないし、乱数により座標(p,q)を生成することとしても構わない。
ブロック走査手段21が乱数により座標(p,q)を生成する場合、例えば、pは0以上(Dx-2P)以下の一様乱数、また、qは0以上(Dy-2Q)以下の一様乱数とする。なお、この一様乱数は、それを近似する疑似乱数としても構わない。
ブロック走査手段21は、生成した切り出し座標(p,q)を、ブロック切り出し手段20に出力する。
The block scanning means 21 sequentially generates cut-out coordinates (p, q) that serve as references for the block cut-out means 10 to cut out blocks.
The block scanning means 21 may perform raster scanning within the image D at predetermined pixel intervals, or may generate coordinates (p, q) from random numbers.
When the block scanning means 21 generates coordinates (p, q) from random numbers, for example, p is a uniform random number of 0 or more (D x −2P) or less, and q is a uniform random number of 0 or more (D y −2Q) or less. Uniform random numbers. The uniform random numbers may be pseudo-random numbers that approximate them.
The block scanning means 21 outputs the generated clipping coordinates (p, q) to the block clipping means 20 .
図8に、本発明の実施形態に係るパラメータ学習装置2のカラー画像を対象としたウェーブレット分解手段22の構成を示す。
ウェーブレット分解手段22は、色成分ごとにウェーブレット分解を行う第1ウェーブレット分解手段221と、第2ウェーブレット分解手段222と、第3ウェーブレット分解手段223と、を有し、ブロック切り出し手段20で切り出したブロックを入力して、ウェーブレット分解を行うものである。なお、入力画像Dがモノクロ画像の場合には、ウェーブレット分解手段22は図7に示すように1つの構成とすればよい。
FIG. 8 shows the configuration of the wavelet decomposition means 22 for color images of the
The wavelet decomposition means 22 has a first wavelet decomposition means 22-1, a second wavelet decomposition means 22-2, and a third wavelet decomposition means 22-3 that perform wavelet decomposition for each color component. Input the extracted block and perform wavelet decomposition. Note that when the input image D is a monochrome image, the wavelet decomposition means 22 may have a single configuration as shown in FIG.
ウェーブレット分解手段22は、入力したブロックに対して、2次元ウェーブレット分解を適用することで、水平、垂直ともに低域成分であるLL画像、水平が高域成分、垂直が低域成分であるHL画像、水平が低域成分、垂直が高域成分であるLH画像、および、水平、垂直ともに高域成分であるHH画像を生成する。LL画像、HL画像、LH画像およびHH画像は、いずれもP×Q画素の解像度を有する。 By applying two-dimensional wavelet decomposition to the input block, the wavelet decomposition means 22 generates an LL image that is both horizontal and vertical low-frequency components, and an HL image that is horizontal high-frequency components and vertical low-frequency components. , an LH image with horizontal low-frequency components and vertical high-frequency components, and an HH image with both horizontal and vertical high-frequency components. The LL, HL, LH and HH images all have a resolution of P×Q pixels.
2次元ウェーブレット分解に用いる基底関数は、画像超解像装置1のウェーブレット再構成手段13(図2)が用いた基底関数と同じ(例えば、ハール基底)であることが好ましい。
例えば、基底関数としてハール基底を用いる場合、ウェーブレット分解手段22は、以下の式(21)により、ブロック切り出し手段20で切り出したブロックEから、LL画像(LL(r,s,t))、HL画像(HL(r,s,t))、LH画像(LH(r,s,t))およびHH画像(HH(r,s,t))を生成する。
The basis functions used for two-dimensional wavelet decomposition are preferably the same (for example, Haar basis) as the basis functions used by the wavelet reconstruction means 13 (FIG. 2) of the
For example, when Haar bases are used as the basis functions, the wavelet decomposition means 22 extracts the LL image (LL (r, s, t)), HL Generate images (HL(r,s,t)), LH images (LH(r,s,t)) and HH images (HH(r,s,t)).
ただし、入力画像Dがモノクロ画像の場合には、C=1とする。
ウェーブレット分解手段22は、生成したLL画像を、学習用畳み込みニューラルネットワーク手段23に出力し、HL画像、LH画像およびHH画像を、誤差演算手段24に出力する。
However, when the input image D is a monochrome image, C=1.
The wavelet decomposition means 22 outputs the generated LL image to the learning convolutional neural network means 23 and outputs the HL, LH and HH images to the error calculation means 24 .
学習用畳み込みニューラルネットワーク手段23は、ウェーブレット分解手段22で生成されたLL画像を入力し、出力がウェーブレット分解手段22で生成されたHL画像、LH画像およびHH画像となるように、畳み込みニューラルネットワークのパラメータ(カーネルの結合重み係数)を学習するものである。
図7に示すように、学習用畳み込みニューラルネットワーク手段23は、L個の畳込手段230(2301,2302,…,230L)と、L個の活性化関数適用手段231(2311,2312,…,231L)と、を備える。畳込手段230および活性化関数適用手段231は、画像超解像装置1の畳み込みニューラルネットワーク手段12(図2)の畳込手段120および活性化関数適用手段121と同じ接続構成とする。
The learning convolutional neural network means 23 inputs the LL image generated by the wavelet decomposition means 22, and performs the convolutional neural network so that the output is the HL image, the LH image and the HH image generated by the wavelet decomposition means 22. It learns parameters (coupling weight coefficients of kernels).
As shown in FIG. 7, the learning convolutional neural network means 23 includes L convolution means 230 (230 1 , 230 2 , . . . , 230 L ) and L activation function application means 231 (231 1 , 231 2 , . . . , 231 L ). The convolution means 230 and activation function application means 231 have the same connection configuration as the convolution means 120 and activation function application means 121 of the convolution neural network means 12 ( FIG. 2 ) of the
畳込手段230は、逐次学習される結合重み係数(パラメータ)を用いて畳み込み演算を行うものである。さらに、畳込手段230は、畳み込みニューラルネットワークの後段から入力される誤差に基づいて誤差逆伝播法により結合重み係数を更新し、誤差を前段に伝播するものでもある。
畳込手段230i(iは1以上L以下の整数)は、サイズP×Q×Ki-1の3階テンソルIi-1(r,s,t)の入力に対して、畳み込み演算を行い、サイズP×Q×Kiの3階テンソルJi(r,s,t)として出力する(前記式(4)参照)。
なお、畳込手段230iが用いるカーネルのサイズおよび種類は、畳込手段120i(図2)と同じとする。
The convolution means 230 performs a convolution operation using connection weight coefficients (parameters) that are successively learned. Further, the convolution means 230 updates the coupling weight coefficients by error backpropagation based on the error input from the latter stage of the convolutional neural network, and propagates the error to the previous stage.
The convolution means 230 i (i is an integer of 1 or more and L or less) performs a convolution operation on the input of the third order tensor I i−1 (r, s, t) of size P×Q×K i−1 . and output as a third-order tensor J i (r, s, t) of size P×Q×K i (see equation (4) above).
It is assumed that the size and type of kernel used by the convolution means 230 i are the same as those used by the convolution means 120 i (FIG. 2).
ここで。初段の畳込手段2301への入力は、サイズP×Q×K0の3階テンソルI0(r,s,t)であるが、K0は入力画像Dがモノクロ画像の場合にはK0=1、Cチャンネルのカラー画像の場合にはK0=Cと定義する(Cは原色の数、例えば、RGB画像等の典型的なカラー画像においてはC=3)。
また、畳込手段2301への入力であるI0(r,s,t)には、以下の式(22)に示すように、ウェーブレット分解手段22から入力されるLL画像(LL(r,s,t))を設定する。
here. The input to the first-stage convolution means 230 1 is a third-order tensor I 0 (r, s, t) of size P×Q×K 0 , where K 0 is K if the input image D is a monochrome image. Define 0 = 1 and K 0 =C for a color image with a C channel (where C is the number of primary colors, eg C=3 for a typical color image such as an RGB image).
Also, the LL image input from the wavelet decomposition means 22 ( LL (r, s, t)).
活性化関数適用手段231は、畳込手段230の出力に対して、活性化関数を用いた演算を行うものである。さらに、活性化関数適用手段231は、畳み込みニューラルネットワークの後段から入力される誤差を前段に伝播するものでもある。
活性化関数適用手段231i(iは1以上L以下の整数)は、畳込手段230iから入力されるサイズP×Q×Kiの3階テンソルJi(r,s,t)の各成分に対して、活性化関数φを適用し、その適用結果を、サイズP×Q×Kiの3階テンソルIi(r,s,t)として出力する。なお、活性化関数適用手段231iが用いる活性化関数は、活性化関数適用手段121iと同じとする。
The activation function applying means 231 performs calculation using the activation function on the output of the convolution means 230 . Furthermore, the activation function applying means 231 also propagates the error inputted from the latter stage of the convolutional neural network to the former stage.
Activation function application means 231 i ( i is an integer of 1 or more and L or less ) receives each To the components, we apply an activation function φ and output the result as a third-order tensor I i (r, s, t) of size P×Q×K i . It is assumed that the activation function used by the activation function application means 231i is the same as that used by the activation function application means 121i .
学習用畳み込みニューラルネットワーク手段23は、畳み込みニューラルネットワーク手段12(図2)と同様に、畳込手段2301から活性化関数適用手段231Lへとテンソルを順伝播することで、サイズP×Q×3Cの3階テンソルJL(r,s,t)を算出する。なお、畳込手段2301から畳込手段230Lまでのそれぞれの畳込手段230の結合重み係数(パラメータ)の初期値は、予め無作為的または作為的に設定しておく。例えば、結合重み係数の初期値は、一様乱数またはこれを近似する疑似乱数により生成し、設定することができる。
学習用畳み込みニューラルネットワーク手段23は、算出した3階テンソルJLを誤差演算手段24に出力する。
Similarly to the convolutional neural network means 12 (FIG. 2), the learning convolutional neural network means 23 propagates the tensor forward from the convolution means 2301 to the activation function application means 231L to obtain a tensor of size P×Q× Compute the third-order tensor J L (r, s, t) of 3C. The initial values of the connection weight coefficients (parameters) of the convolution means 230 1 to 230 L are set randomly or intentionally in advance. For example, the initial values of the connection weight coefficients can be generated and set using uniform random numbers or pseudo-random numbers that approximate them.
The learning convolutional neural network means 23 outputs the calculated third order tensor J L to the error calculation means 24 .
また、学習用畳み込みニューラルネットワーク手段23は、逐次、誤差演算手段24から誤差を入力されるたびに、繰り返し、誤差逆伝播法により結合重み係数を更新する。この繰り返しの回数は、予め定めた回数(例えば、100万回)であってもよいし、学習用畳み込みニューラルネットワーク手段23が畳込手段230の結合重み係数の変化の度合いを監視し、その変化の度合いが予め定めた閾値を下回るまでであってもよい。あるいは、繰り返しの回数は、予め定めた回数を超え、かつ、結合重み係数の変化の度合いが閾値を下回るまでとしてもよい。
学習用畳み込みニューラルネットワーク手段23は、誤差逆伝播法による結合重み係数の更新を完了(学習完了)した後、それぞれの畳込手段230の結合重み係数をパラメータ出力手段25に出力する。
Further, the learning convolutional neural network means 23 repetitively updates the connection weighting coefficients by the error backpropagation method each time an error is successively input from the error computing means 24 . The number of repetitions may be a predetermined number (for example, one million times), or the learning convolutional neural network means 23 monitors the degree of change in the connection weighting coefficients of the convolution means 230 and may fall below a predetermined threshold. Alternatively, the number of repetitions may exceed a predetermined number of times and the degree of change in the connection weighting coefficients may be less than the threshold.
The learning convolutional neural network means 23 outputs the connection weight coefficients of the respective convolution means 230 to the parameter output means 25 after completing the update of the connection weight coefficients by the error backpropagation method (learning completion).
誤差演算手段24は、学習用畳み込みニューラルネットワーク手段23で演算された3階テンソルJLと、ウェーブレット分解手段22で生成されたHL画像、LH画像およびHH画像との誤差を演算するものである。
誤差演算手段24は、以下の式(23)に示すように、3階テンソルJL(r,s,t)と、HL画像(HL(r,s,t))、LH画像(LH(r,s,t))およびHH画像(HH(r,s,t))とから、サイズP×Q×3Cの3階テンソル値である誤差テンソルΔを演算し、学習用畳み込みニューラルネットワーク手段23に出力する。
The error computing means 24 computes the errors between the 3rd order tensor J L computed by the learning convolutional neural network means 23 and the HL, LH and HH images generated by the wavelet decomposition means 22 .
As shown in the following equation (23), the error calculation means 24 calculates the third-order tensor J L (r, s, t), the HL image (HL (r, s, t)), the LH image (LH (r , s, t)) and the HH image (HH (r, s, t)), an error tensor Δ, which is a third-order tensor value of size P×Q×3C, is calculated, and sent to the learning convolutional neural network means 23 Output.
パラメータ出力手段25は、学習用畳み込みニューラルネットワーク手段23の学習完了後出力されるそれぞれの畳込手段230における結合重み係数を、出力パラメータとして出力するものである。
このパラメータ出力手段25が出力するパラメータは、画像超解像装置1(図2)の畳み込みニューラルネットワーク手段12を構成する畳込手段120(1201,1202,…,120L)に設定されることで、画像超解像装置1を最適な状態で動作させることができる。
The parameter output means 25 outputs, as output parameters, the connection weighting coefficients of the respective convolution means 230 output after the learning convolution neural network means 23 completes learning.
The parameters output by the parameter output means 25 are set in the convolution means 120 (120 1 , 120 2 , . Thus, the
以上説明したようにパラメータ学習装置2を構成することで、パラメータ学習装置2は、画像超解像装置1で画像を高解像度化するための畳み込みニューラルネットワークのパラメータを学習することができる。
なお、パラメータ学習装置2は、コンピュータを、前記した各手段として機能させるためのプログラム(パラメータ学習プログラム)により動作させることができる。
By configuring the
The
<パラメータ学習装置の動作>
図9を参照(構成については、適宜図7参照して、パラメータ学習装置2の動作について説明する。なお、畳み込みニューラルネットワーク手段12の畳込手段120の結合重み係数は、予めパラメータ学習装置2(図7)によって学習されたパラメータが設定されているものとする。
<Operation of parameter learning device>
9 (for the configuration, the operation of the
ステップS10において、ブロック走査手段21は、入力画像Dにおいて、ラスタ走査またはランダムに、2P×2Q画素のブロックの切り出し位置となる座標(p,q)を生成する。 In step S10, the block scanning means 21 generates coordinates (p, q) that are positions for cutting out a block of 2P×2Q pixels in the input image D by raster scanning or randomly.
ステップS11において、ブロック切り出し手段20は、入力画像Dから、ステップS10で生成された座標(p,q)を切り出し位置として、入力画像Dから2P×2Q画素のブロックを切り出す。ブロック切り出し手段20が切り出すブロックは、図1(b)に示したブロックEのLL画像(LL0′)に相当する。 In step S11, the block clipping means 20 clips a block of 2P×2Q pixels from the input image D using the coordinates (p, q) generated in step S10 as the clipping position. The block cut out by the block cutout means 20 corresponds to the LL image (LL 0 ′) of block E shown in FIG. 1(b).
ステップS12において、ウェーブレット分解手段22は、ステップS11で切り出したブロックに対して、2次元ウェーブレット分解を適用する。これによって、ウェーブレット分解手段22は、ブロックから、水平、垂直ともに低域成分であるLL画像、水平が高域成分、垂直が低域成分であるHL画像、水平が低域成分、垂直が高域成分であるLH画像、および、水平、垂直ともに高域成分であるHH画像を生成する。ウェーブレット分解後の画像は、図1(b)に示したLL画像(LL1′)、HL画像(HL1′)、LH画像(LH1′)およびHH画像(HH1′)に相当する。 In step S12, the wavelet decomposition means 22 applies two-dimensional wavelet decomposition to the blocks cut out in step S11. As a result, the wavelet decomposition means 22 extracts, from the blocks, an LL image that is both horizontal and vertical low-frequency components, an HL image that is horizontal high-frequency components and vertical low-frequency components, a horizontal low-frequency component and a vertical high-frequency image. An LH image, which is a component, and an HH image, which is both horizontal and vertical high frequency components, are generated. The images after wavelet decomposition correspond to the LL image (LL 1 '), HL image (HL 1 '), LH image (LH 1 ') and HH image (HH 1 ') shown in FIG. 1(b).
ステップS13において、学習用畳み込みニューラルネットワーク手段23は、ステップS12で生成したLL画像を入力し、畳込手段230および活性化関数適用手段231で構成された畳み込みニューラルネットワーク(CNN)による演算を実行することで、ブロックの標本数の3倍の標本数のデータを出力する。この学習用畳み込みニューラルネットワーク手段23の出力は、図1(b)に示したHL画像(HL1^)、LH画像(LH1^)、および、HH画像(HH1^)に相当する。 In step S13, the learning convolutional neural network means 23 inputs the LL image generated in step S12, and performs an operation by a convolutional neural network (CNN) composed of the convolution means 230 and the activation function application means 231. By doing so, the data of the number of samples three times the number of samples of the block is output. The output of this learning convolutional neural network means 23 corresponds to the HL image (HL 1 ̂), the LH image (LH 1 ̂), and the HH image (HH 1 ̂) shown in FIG. 1(b).
ステップS14において、誤差演算手段24は、ステップS12でウェーブレット分解で生成したHL画像(HL1′)、LH画像(LH1′)およびHH画像(HH1′)と、ステップS13でCNNの演算で生成したHL画像(HL1^)、LH画像(LH1^)およびHH画像(HH1^)との誤差を演算する。 In step S14, the error computing means 24 computes the HL image (HL 1 '), the LH image (LH 1 '), and the HH image (HH 1 ') generated by wavelet decomposition in step S12, and the CNN in step S13. Errors with the generated HL image (HL 1 ̂), LH image (LH 1 ̂) and HH image (HH 1 ̂) are calculated.
ステップS15において、学習用畳み込みニューラルネットワーク手段23は、ステップS14で演算された誤差に基づいて、誤差逆伝播法により、畳み込みニューラルネットワーク(CNN)の結合重み係数を更新する。
ステップS16において、学習用畳み込みニューラルネットワーク手段23は、予め定めた繰り返し回数等によって、学習が完了したか否かを判定する。
ここで、学習が完了していない場合(ステップS16でNo)、パラメータ学習装置2は、ステップS10に戻って、動作を継続する。
In step S15, the learning convolutional neural network means 23 updates the connection weight coefficients of the convolutional neural network (CNN) by error backpropagation based on the error calculated in step S14.
In step S16, the learning convolutional neural network means 23 determines whether or not learning has been completed based on a predetermined number of iterations or the like.
Here, if the learning is not completed (No in step S16), the
一方、学習が完了した場合(ステップS16でYes)、ステップS17において、パラメータ出力手段25は、学習用畳み込みニューラルネットワーク手段23の畳込手段230における結合重み係数を、出力パラメータとして出力する
以上の動作により、パラメータ学習装置2は、画像超解像装置1が用いる畳み込みニューラルネットワークのパラメータを学習することができる。
On the other hand, when the learning is completed (Yes in step S16), in step S17, the parameter output means 25 outputs the connection weighting coefficient in the convolution means 230 of the learning convolutional neural network means 23 as an output parameter. Thus, the
なお、パラメータ学習装置2におけるパラメータの学習は画像超解像装置1を製造する前に行い、学習後のパラメータを画像超解像装置1に反映すればよい。
また、画像超解像装置1の製造後、適宜の時期にパラメータ学習装置2におけるパラメータの学習を行い、画像超解像装置1のパラメータを再設定することとしてもよい。
また、例えば、パラメータ学習装置2が画像超解像装置1と同一の入力画像で学習を行う場合、画像超解像装置1の動作中の適宜の時期(例えば、入力画像の毎入力時)に、パラメータ学習装置2を動作させ、学習後のパラメータを画像超解像装置1に設定することとしてもよい。
Note that parameter learning in the
Further, after the
Further, for example, when the
1 画像超解像装置
10 ブロック切り出し手段
11 ブロック走査手段
12 畳み込みニューラルネットワーク手段
120 畳込手段
121 活性化関数適用手段
13 ウェーブレット再構成手段
14 ブロック配置手段
2 パラメータ学習装置
20 ブロック切り出し手段
21 ブロック走査手段
22 ウェーブレット分解手段
23 学習用畳み込みニューラルネットワーク手段
230 畳込手段
231 活性化関数適用手段
24 誤差演算手段
25 パラメータ出力手段
REFERENCE SIGNS
Claims (9)
前記入力画像から予め定めたサイズのブロックを切り出すブロック切り出し手段と、
前記ブロックを前記低域成分として、前記畳み込みニューラルネットワークを用いて前記ブロックに対応する前記高域成分を推定する畳み込みニューラルネットワーク手段と、
前記ブロックと前記高域成分とをウェーブレット再構成し、前記ブロックを超解像した超解像ブロックを生成するウェーブレット再構成手段と、
前記ブロックを切り出した位置に応じて前記超解像ブロックを再配置し、前記入力画像に対する超解像画像を生成するブロック配置手段と、
を備えることを特徴とする画像超解像装置。 An image super-resolution device that increases the resolution of an input image using a convolutional neural network that estimates high-frequency components of the image from low-frequency components obtained by wavelet decomposition of the image,
a block extraction means for extracting a block of a predetermined size from the input image;
Convolutional neural network means for estimating the high-frequency component corresponding to the block using the convolutional neural network, with the block as the low-frequency component;
wavelet reconstruction means for wavelet reconstruction of the block and the high-frequency component to generate a super-resolution block by super-resolving the block;
a block placement unit that rearranges the super-resolution blocks according to the positions from which the blocks are cut out to generate a super-resolution image for the input image;
An image super-resolution device comprising:
前記ウェーブレット再構成手段は、前記チャンネル分のブロックと、前記畳み込みニューラルネットワーク手段で推定される前記チャンネル分の高域成分とから、前記チャンネル分の超解像ブロックを生成し、
前記ブロック配置手段は、前記チャンネル分の超解像ブロックをチャンネル別に配置することで、チャンネルの数に対応した超解像画像を生成することを特徴とする請求項2に記載の画像超解像装置。 The block cutout means cuts out the blocks for the channels from the images for the channels and inputs them to the convolutional neural network means,
The wavelet reconstruction means generates super-resolution blocks for the channels from the blocks for the channels and high-frequency components for the channels estimated by the convolutional neural network means,
3. The super-resolution image according to claim 2, wherein the block arranging unit arranges the super-resolution blocks for each channel to generate a super-resolution image corresponding to the number of channels. Device.
前記ブロック配置手段は、前記超解像ブロックの重複した領域を合成して前記超解像画像を生成することを特徴とする請求項1から請求項3のいずれか一項に記載の画像超解像装置。 The block clipping means clips the input image so that regions overlap,
4. The image super-resolution according to any one of claims 1 to 3, wherein the block arrangement means generates the super-resolution image by synthesizing overlapping regions of the super-resolution blocks. image device.
入力画像から、前記畳み込みニューラルネットワークの入力となる画像の水平方向および垂直方向に2倍の解像度のブロックを順次切り出すブロック切り出し手段と、
前記ブロックをウェーブレット分解した低域成分と、高域成分とを生成するウェーブレット分解手段と、
前記低域成分を入力し、前記畳み込みニューラルネットワークにおいて順方向に伝播させることで高域成分を推定する学習用畳み込みニューラルネットワーク手段と、
前記ウェーブレット分解手段で生成された高域成分と、前記学習用畳み込みニューラルネットワーク手段で推定された高域成分との誤差を演算する誤差演算手段と、を備え、
前記学習用畳み込みニューラルネットワーク手段は、前記誤差を誤差逆伝播法により、前記畳み込みニューラルネットワークにおいて逆方向に伝播させることで、前記畳み込みニューラルネットワークの結合重み係数を前記パラメータとして学習することを特徴とするパラメータ学習装置。 A parameter learning device for learning parameters of a convolutional neural network used in the image super-resolution device according to any one of claims 1 to 4,
a block extraction means for sequentially extracting blocks having twice the resolution in the horizontal direction and the vertical direction of the input image of the convolutional neural network from the input image;
Wavelet decomposition means for generating a low-frequency component and a high-frequency component by wavelet-decomposing the block;
learning convolutional neural network means for estimating high-frequency components by inputting the low-frequency components and propagating them forward in the convolutional neural network;
an error calculation means for calculating an error between the high frequency component generated by the wavelet decomposition means and the high frequency component estimated by the learning convolutional neural network means;
The learning convolutional neural network means learns the connection weighting coefficient of the convolutional neural network as the parameter by propagating the error backward in the convolutional neural network by an error backpropagation method. Parameter learning device.
前記ウェーブレット分解手段は、前記チャンネル分のブロックから、前記チャンネル分の低域成分と高域成分とを生成することを特徴とする請求項6に記載のパラメータ学習装置。 The block cutout means cuts out blocks for the channel from the image for the channel,
7. The parameter learning apparatus according to claim 6, wherein said wavelet decomposition means generates low frequency components and high frequency components for said channels from blocks for said channels.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018097195A JP7122155B2 (en) | 2018-05-21 | 2018-05-21 | Image super-resolution device and its program, and parameter learning device and its program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018097195A JP7122155B2 (en) | 2018-05-21 | 2018-05-21 | Image super-resolution device and its program, and parameter learning device and its program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204167A JP2019204167A (en) | 2019-11-28 |
JP7122155B2 true JP7122155B2 (en) | 2022-08-19 |
Family
ID=68726915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018097195A Active JP7122155B2 (en) | 2018-05-21 | 2018-05-21 | Image super-resolution device and its program, and parameter learning device and its program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7122155B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111355965B (en) * | 2020-02-28 | 2022-02-25 | 中国工商银行股份有限公司 | Image compression and restoration method and device based on deep learning |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030053717A1 (en) | 2001-08-28 | 2003-03-20 | Akhan Mehmet Bilgay | Image enhancement and data loss recovery using wavelet transforms |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016091060A (en) * | 2014-10-29 | 2016-05-23 | キヤノン株式会社 | Image processing apparatus, image processing method, and program |
-
2018
- 2018-05-21 JP JP2018097195A patent/JP7122155B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030053717A1 (en) | 2001-08-28 | 2003-03-20 | Akhan Mehmet Bilgay | Image enhancement and data loss recovery using wavelet transforms |
Non-Patent Citations (3)
Title |
---|
Chao Dong, 外3名,"Image Super-Resolution Using Deep Convolutional Networks",IEEE Transactions on Pattern Analysis and Machine Intelligence,米国,2015年06月01日,第38巻, 第2号,p.295-307 |
Tingwei Wang, 外3名,"Aerial Image Super Resolution via Wavelet Multiscale Convolutional Neural Networks",IEEE Geoscience and Remote Sensing Letters,米国,2018年03月15日,第15巻, 第5号,p.769-773 |
河畑則文,"CNNの構造に基づいた多視点超解像画像の最適設計と符号化画質評価",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2018年05月18日,第118巻, 第65号,p.15-20 |
Also Published As
Publication number | Publication date |
---|---|
JP2019204167A (en) | 2019-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5419897B2 (en) | Reduction of noise and / or flicker in video sequences using spatial and temporal processing | |
JP4465112B2 (en) | Upsampling algorithm based on DWT suitable for image display on LCD panel | |
US10192286B2 (en) | Device and method for image enlargement and display panel driver using the same | |
US20050134734A1 (en) | Noise reduction in color digital images using pyramid decomposition | |
JPH05502534A (en) | Digital image denoising system and method | |
US9984442B2 (en) | Method and device for enhancing quality of an image | |
TW200414752A (en) | Method and system for advanced edge-adaptive interpolation for interlace-to-progressive conversion | |
JPWO2006041127A1 (en) | Degradation information restoration method and restoration device | |
US20060182359A1 (en) | Method and apparatus for image processing based on a mapping function | |
US20070086650A1 (en) | Method and Device for Color Saturation and Sharpness Enhancement | |
JP7122155B2 (en) | Image super-resolution device and its program, and parameter learning device and its program | |
CN110189264B (en) | Image processing method | |
WO2020022519A1 (en) | Image processing device, image processing method, and image processing program | |
US20180218477A1 (en) | Data interpolation device, method therefor, and image processing apparatus | |
WO2016051716A1 (en) | Image processing method, image processing device, and recording medium for storing image processing program | |
JP4081926B2 (en) | Image enlargement device | |
JP2016115318A (en) | Blurring correction device, super-resolution device, and program | |
US7711204B2 (en) | 1-D image restoration using a sliding window method | |
JP2007265055A (en) | Resolution conversion processing method of binary image | |
Dar et al. | Modular admm-based strategies for optimized compression, restoration, and distributed representations of visual data | |
JP2016019554A (en) | Ultrasonic diagnostic device | |
Zhou et al. | Low cost implementation for the multi-xcale Retinex filter | |
JP2012156968A (en) | Image processing device, image processing method, and program | |
Easley et al. | Inverse halftoning using a shearlet representation | |
JP6661434B2 (en) | Image processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7122155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |