JP7167832B2 - 画像変換装置、画像変換モデル学習装置、方法、及びプログラム - Google Patents
画像変換装置、画像変換モデル学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP7167832B2 JP7167832B2 JP2019080429A JP2019080429A JP7167832B2 JP 7167832 B2 JP7167832 B2 JP 7167832B2 JP 2019080429 A JP2019080429 A JP 2019080429A JP 2019080429 A JP2019080429 A JP 2019080429A JP 7167832 B2 JP7167832 B2 JP 7167832B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- differential value
- conversion
- correct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 118
- 238000000034 method Methods 0.000 title claims description 23
- 230000009466 transformation Effects 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 64
- 230000001131 transforming effect Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
Description
本発明は、画像変換装置、画像変換モデル学習装置、方法、及びプログラムに関する。
近年、スマートフォン等の小型撮像デバイスの普及に伴い、様々な場所又は環境において任意の物体が撮影され、撮影された画像中に写る物体を認識する技術への要望が高まってきている。
従来から、画像中の物体を認識する種々の技術が発明され、開示されている。例えば、クエリとして入力された画像について、同一の物体が写っている画像をあらかじめ登録しておいた参照画像中から取得する類似画像取得装置が知られている(例えば、特許文献1を参照)。
この類似画像取得装置は、まず、画像から特徴的な部分領域を複数検出し、各部分領域の特徴を実数値又は整数値からなる特徴量ベクトルとして表現する。この特徴量ベクトルは、一般的には、「局所特徴量」と呼ばれる。局所特徴量としては、Scale Invariant Feature Transform (SIFT)(例えば、非特許文献1を参照)が用いられることが多い。
次に、類似画像取得装置は、互いに異なる二つの画像に含まれる部分領域について特徴量ベクトルを比較し、同一性を判定する。類似度が高い特徴量ベクトルの数が多い場合、比較された二つの画像には、同一の物体が含まれている可能性が高い。一方、類似度が高い特徴量ベクトルの数が少ない場合、比較された二つの画像には、同一の物体が含まれている可能性は低い。
このように、上記特許文献1に記載されている類似画像取得装置は、認識対象の物体を含む画像(参照画像)の各々が格納された参照画像データベースを構築し、新たに入力された画像(クエリ画像)と同一の物体が写っている参照画像を検索することにより、クエリ画像中に存在する物体を特定することができる。このため、上記特許文献1に記載されている類似画像取得装置によれば、画像から一つ以上の局所特徴量を算出し、部分領域ごとに画像間の同一性を判定することにより、同一の物体を含む画像を探し出すことができる。
しかしながら、クエリ画像又は参照画像の解像度が低い場合、画像検索の検索精度が低下する、という問題がある。検索精度が低下する原因としては、クエリ画像と参照画像との解像度が大きく乖離するほど、クエリ画像と正解となる参照画像との間において、異なる局所特徴量が得られやすくなってしまう点が挙げられる。また、検索精度が低下する原因としては、クエリ画像又は参照画像の解像度が低いほど、画像に含まれる物体を十分に識別することのできる局所特徴量が得られなくなる点が挙げられる。
例えば、解像度が高い参照画像の各々に対して、解像度が低い画像をクエリ画像として検索するような場合には、低解像度画像であるクエリ画像中から高周波成分が失われていることが多く、上述のような問題が発生しやすい。
このような場合、高解像度画像の解像度を低下させることにより画像間の解像度を揃えた場合には、解像度の乖離は解消されるが、多くの詳細な情報が失われてしまうため、異なる画像間の局所特徴量が類似してしまい、検索精度は十分には改善されない。そのため、低解像度な画像の高周波成分を復元する、いくつかの技術が提案され、開示されている。
例えば、学習型超解像(例えば、非特許文献2を参照)が知られている。学習型超解像は、畳み込みニューラルネットワーク(CNN : Convolutional Neural Network)を用いて低解像度画像を高解像度画像へ変換する方法である。非特許文献2に開示されている学習型超解像では、任意の低解像度画像と当該低解像度画像の高解像度の画像である正解の高解像度画像とのペアを用いて、低解像度画像を高解像度画像へ変換するためのCNNを学習させる。具体的には、CNNによって得られた高解像度画像の画素値と正解の高解像度画像の画素値との間の平均二乗誤差(MSE : Mean squared error)を損失関数として設定して、CNNを学習させることで、低解像度画像を高解像度画像に変換させるためのCNNを得る。学習されたCNNを用いて低解像度画像を高解像度画像へ変換することにより、低解像度画像に含まれない高周波成分が高精度に復元される。
D.G.Lowe. "Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision", pp.91-110, 2004
C. Dong, C. C. Loy, K. He, and X. Tang, "Image super-resolution using deep convolutional networks", In CVPR, 2014.
しかしながら、上記非特許文献2に開示されている学習型超解像は、画像検索の際に抽出される局所特徴量が必ずしも改善されるとは限らない点が課題となる。
例えば、上記非特許文献1に記載のSIFTでは、画像の勾配の大きさと向きとに応じて局所特徴量としての特徴量ベクトルが算出される。一方、上記非特許文献1において損失関数として設定されるMSEは、CNNによって変換された高解像度画像の各画素の画素値と、正解の高解像度画像の各画素の画素値との間の誤差を小さくするものであり、局所特徴量における勾配の大きさと向きとの誤差が小さくなるとは限らない。そのため、CNNによって得られた高解像度画像と正解の高解像度画像とで同様の局所特徴量が得られるとは限らず、検索精度は十分には改善されない。
本発明は、上記事情を鑑みて成されたものであり、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行う画像変換装置、方法、及びプログラムを提供することを目的とする。
また、本発明は、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うための変換処理モデルを得る画像変換モデル学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明の画像変換装置は、第1の画像を、該第1の画像よりも解像度が高い第2の画像へ変換する画像変換装置であって、変換対象の第1の画像を取得する取得部と、前記取得部によって取得された変換対象の第1の画像を、第1の画像を第2の画像へ変換するための変換処理モデルであって、かつ学習用の第1の画像を変換処理モデルへ入力することにより出力される学習用の第2の画像から得られる微分値と、学習用の第1の画像に対応する正解の第2の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第1の画像に対応する第2の画像を得る変換部と、を含んで構成されている。
また、画像変換装置において、前記変換処理モデルは、学習用の第2の画像の微分値と、学習用の第1の画像に対応する正解の第2の画像の微分値と、の間の差を用いて表される損失関数が小さくなるように、予め学習されたモデルであるようにすることができる。
第2の発明の画像変換モデル学習装置は、学習用の第1の画像を、第1の画像を該第1の画像よりも解像度が高い第2の画像へ変換するための変換処理モデルへ入力して、学習用の第1の画像に対応する学習用の第2の画像を得る学習用変換部と、前記学習用変換部によって得られた学習用の第2の画像から微分値を算出し、学習用の第1の画像に対応する正解の第2の画像から微分値を算出する微分値算出部と、前記微分値算出部によって算出された学習用の第2の画像の微分値と、前記微分値算出部によって算出された正解の第2の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる学習部と、を含んで構成されている。
画像変換モデル学習装置において、前記学習部は、学習用の第2の画像の微分値と、正解の第2の画像の微分値と、の間の差を用いて表される損失関数が小さくなるように、前記変換処理モデルを学習させるようにすることができる。
第3の発明の画像変換方法は、第1の画像を、該第1の画像よりも解像度が高い第2の画像へ変換する画像変換方法であって、変換対象の第1の画像を取得し、取得された変換対象の第1の画像を、第1の画像を第2の画像へ変換するための変換処理モデルであって、かつ学習用の第1の画像を変換処理モデルへ入力することにより出力される学習用の第2の画像から得られる微分値と、学習用の第1の画像に対応する正解の第2の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第1の画像に対応する第2の画像を得る、処理をコンピュータが実行する画像変換方法である。
第4の発明の画像変換モデル学習方法は、学習用の第1の画像を、第1の画像を該第1の画像よりも解像度が高い第2の画像へ変換するための変換処理モデルへ入力して、学習用の第1の画像に対応する学習用の第2の画像を得て、得られた学習用の第2の画像から微分値を算出し、学習用の第1の画像に対応する正解の第2の画像から微分値を算出し、算出された学習用の第2の画像の微分値と、算出された正解の第2の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる、処理をコンピュータが実行する画像変換モデル学習方法である。
第5の発明のプログラムは、第1の画像を、該第1の画像よりも解像度が高い第2の画像へ変換するためのプログラムであって、変換対象の第1の画像を取得し、取得された変換対象の第1の画像を、第1の画像を第2の画像へ変換するための変換処理モデルであって、かつ学習用の第1の画像を変換処理モデルへ入力することにより出力される学習用の第2の画像から得られる微分値と、学習用の第1の画像に対応する正解の第2の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第1の画像に対応する第2の画像を得る、処理をコンピュータに実行させるためのプログラムである。
第6の発明のプログラムは、学習用の第1の画像を、第1の画像を該第1の画像よりも解像度が高い第2の画像へ変換するための変換処理モデルへ入力して、学習用の第1の画像に対応する学習用の第2の画像を得て、得られた学習用の第2の画像から微分値を算出し、学習用の第1の画像に対応する正解の第2の画像から微分値を算出し、算出された学習用の第2の画像の微分値と、算出された正解の第2の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる、処理をコンピュータに実行させるためのプログラムである。
本発明の画像変換装置、方法、及びプログラムによれば、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うことができる、という効果が得られる。
また、画像変換モデル学習装置、方法、及びプログラムによれば、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うための変換処理モデルを得ることができる、という効果が得られる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本実施形態に係る画像変換モデル学習装置の構成>
図1は、本実施形態に係る画像変換モデル学習装置10の構成の一例を示すブロック図である。本実施形態に係る画像変換モデル学習装置10は、CPU(Central Processing Unit)と、GPU(Graphics Processing Unit)と、RAM(Random Access Memory)と、後述する画像変換モデル学習処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。画像変換モデル学習装置10は、機能的には、学習用入力部12と、学習用演算部14とを備えている。
本実施形態に係る画像変換モデル学習装置10は、解像度が低い第1の画像を、当該第1の画像よりも解像度が高い第2の画像へ変換するための変換処理モデルを生成する。
学習用入力部12は、学習用の第1の画像ILと正解の第2の画像IHとのペアであるデータを複数受け付ける。正解の第2の画像IHは任意の画像であり、学習用の第1の画像ILは対応する正解の第2の画像IHを低解像度化させた低解像度画像である。
学習用の第1の画像ILは、例えば、公知の低解像度化処理を用いて作成することができる。例えば、既存の手法であるBicubic法によって正解の第2の画像IHを縮小することにより、学習用の第1の画像ILが作成される。以下では、1つの学習用の第1の画像ILと、当該学習用の第1の画像ILの高解像度画像である1つの正解の第2の画像IHとが、1つのペアのデータとして扱われる。
学習用演算部14は、図1に示されるように、学習用取得部16と、画像記憶部18と、変換処理モデル記憶部20と、学習用変換部22と、微分値算出部24と、学習部26とを備える。
学習用取得部16は、学習用入力部12によって受け付けられた複数のデータの各々を取得し、画像記憶部18へ格納する。画像記憶部18には、学習用の第1の画像ILと正解の第2の画像IHとのペアであるデータが複数格納される。
変換処理モデル記憶部20には、低解像度画像である第1の画像を、当該第1の画像よりも解像度が高い高解像度画像である第2の画像へ変換するための変換処理モデルのパラメータが格納されている。
本実施形態では、変換処理モデルとして、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いる場合を例に説明する。このため、変換処理モデル記憶部20には、畳み込みニューラルネットワーク(以下、単に「CNN」と称する。)のパラメータが格納されている。
本実施形態のCNNは、入力された画像を高解像度化して出力するCNNである。CNNの層の構成は、任意の公知の構成を用いる。本実施形態では、以下の非特許文献3に記載の層の構成を用いる。
(非特許文献3)M. Haris, G. Shakhnarovich, and N. Ukita, "Deep back-projection networks for super-resolution", In CVPR, 2018.
学習用変換部22は、画像記憶部18に格納された学習用の第1の画像ILの各々を、CNNへ入力して、入力された学習用の第1の画像ILに対応する学習用の第2の画像ISの各々を得る。
具体的には、まず、学習用変換部22は、変換処理モデル記憶部20に格納されたCNNのパラメータを読み出す。次に、学習用変換部22は、読み出したパラメータをCNNへ反映させ、画像変換を行うCNNを構成する。
次に、学習用変換部22は、画像記憶部18に格納された学習用の第1の画像ILの各々を読み出す。そして、学習用変換部22は、学習用の第1の画像ILの各々をCNNへ入力して、学習用の第1の画像ILに対応する学習用の第2の画像ISの各々を生成する。これにより、学習用の第1の画像ILと当該学習用の第1の画像ILが高解像度化された学習用の第2の画像ISとの複数のペアが生成される。正解の第2の画像IHは、低解像度画像である学習用の第1の画像ILの元画像となる高解像度な画像である。このため、正解の第2の画像IHと学習用の第1の画像ILとがCNNのパラメータを学習させるための教師データともいえる。
なお、本実施形態における画像の高解像度化は、上記非特許文献3に記載の構成のCNNによって入力された画像を畳み込むことにより実施するが、ニューラルネットワークを用いて畳み込む方法であればこれに限定されるものではない。
微分値算出部24は、学習用変換部22によって生成された学習用の第2の画像IHの各々から微分値を算出する。また、微分値算出部24は、学習用の第1の画像ILに対応する正解の第2の画像IHを画像記憶部18から読み出し、正解の第2の画像IHの各々から微分値を算出する。なお、処理対象の画像が3チャネルである場合は、微分値算出部24は、公知のグレースケール化処理を画像に対して行い、1チャネルへと統合した画像の微分値を算出する。
微分値算出部24は、例えば、微分値として、画像の横方向の微分(差分)値及び縦方向の微分(差分)値の各々を出力する。例えば、微分値算出部24は、注目画素と当該注目画素の右の画素との差、及び、注目画素と当該注目画素の下の画素との差を微分値として出力する。この場合には、例えば、図2(a)(b)に示されるような微分フィルタを用いた畳み込み処理を画像に対して行うことで微分値を算出すると好例である。なお、図2(a)は縦方向の微分フィルタ、図2(b)は横方向の微分フィルタである。
または、微分値算出部24は、図2(c)(d)に示されるソーベルフィルタを用いた畳み込み処理を画像に対して行うことで、微分値を算出してもよい。図2(c)(d)に示されるソーベルフィルタを用いた場合、処理時間は長くなるが、ノイズの影響を抑制することが可能である。
なお、微分値算出部24によって算出される微分値は一次微分値に限定されるものではなく、微分値算出部24は、任意の回数の微分を繰り返して算出した値を微分値として出力してもよい。
例えば、微分値算出部24は、図2(e)に示すラプラシアンフィルタを用いた畳み込み処理を画像に対して行うことで、二次微分値を算出して出力するようにしてもよい。この他にも、微分値算出部24は、上記非特許文献1に記載される、LoG(Laplacian of Gaussian)フィルタを用いて畳み込み処理を画像に対して行い、微分値を算出するようにしてもよい。
本実施形態においては、微分値算出部24が、各画像から一次微分値と二次微分値とを算出する場合を例に説明する。
微分値算出部24の処理により、学習用の第1の画像ILから学習済みのCNNによって生成された学習用の第2の画像ISの微分値と、学習用の第1の画像ILの正解の画像である正解の第2の画像IHの微分値が得られたことになる。
学習部26は、微分値算出部24によって算出された学習用の第2の画像ISの微分値と、正解の第2の画像IHの微分値と、を関連付けることにより、CNNのパラメータを学習させる。
具体的には、学習部26は、同一の学習用の第1の画像ILに対応する、学習用の第2の画像ISの微分値と、正解の第2の画像IHの微分値との間の差を用いて表される損失関数が小さくなるように、CNNのパラメータを学習させる。
上述したように、微分値としては1種類に限定されず、2種類以上の微分値を用いることができる。また、微分値に加えて、正解の第2の画像IHの画素値と学習用の第2の画像ISの画素値との間の差を損失関数に含めても良い。本実施形態では、正解の第2の画像IHと学習用の第2の画像ISとの画素値、一次微分値、及び二次微分値とから損失関数を計算する場合を例に説明する。
具体的には、学習部26は、以下(1)式の損失関数を最小化するようにCNNのパラメータを学習させる。そして、学習部26は、CNNのパラメータを最適化する。
上記式(1)におけるIHは高解像度画像である正解の第2の画像の画素値を表す。また、上記式(1)におけるISは、学習用の第1の画像ILをCNNへ入力した際に出力される学習用の第2の画像の画素値を表す。
また、上記式(1)における∇xIは、画像Iの横方向の一次微分値を表し、∇yIは、画像Iの縦方向の一次微分値を表す。また、上記式(1)における∇2Iは、画像Iの二次微分値を示す。また、||・||1はL1正則化を示す。λ1、λ2、λ3は重みのパラメータであり、0.5など任意の実数を用いる。
上記式(1)に示されるように、本実施形態の損失関数は、正解の第2の画像IHと学習用の第2の画像ISとの間における、画素値の差、一次微分値の差、及び二次微分値の差を用いて表される。学習部26は、上記式(1)に示される損失関数が小さくなるように、誤差逆伝搬法を用いてCNNの全パラメータを更新する。これにより、画像から抽出される微分値に基づく局所特徴量が、正解の第2の画像IHの微分値と学習用の第2の画像ISとで類似するように、CNNのパラメータが最適化される。
なお、損失関数としては、画像の微分値を用いた項が含まれているのであれば、他の項が追加されていてもよい。例えば、上記式(1)に加えて、以下の非特許文献4に記載されるcontent loss、adversarial loss等を足し合わせた式を損失関数としてもよい。
(非特許文献4)C. Ledig, L. Theis, F. Husz´ar, J. Caballero, A. Cunningham,A. Acosta, A. P. Aitken, A. Tejani, J. Totz, Z. Wang et al., Photorealistic single image super-resolution using a generative adversarial network, In CVPR, 2017.
そして、学習部26は、学習させたCNNのパラメータを変換処理モデル記憶部20へ格納する。これにより、画像の微分値を考慮して低解像度画像を高解像度画像へ画像変換をするためのCNNのパラメータが得られたことになる。
例えば、画像検索が行われる際、クエリ画像の解像度が低い場合、又は、検索対象のデータベースに格納された参照画像の各々の解像度が低い場合、低解像度画像がCNNによって高解像度画像へ変換される場合がある。
例えば、クエリ画像が低解像度画像であり、参照画像の各々は高解像度画像である場合を考える。この場合、例えば、CNNによってクエリ画像が高解像度画像に変換される。このとき、CNNの変換処理によって得られた高解像度画像と、参照画像の各々に対応する高解像度画像とからは、同様の局所特徴量が抽出されるとは限らない。このため、CNNによってクエリ画像が高解像度化されたとしても、検索精度は改善されないことがある。
これに対し、本実施形態の画像変換モデル学習装置10は、低解像度画像である第1の学習用画像ILをCNNによって高解像度化して学習用の第2の画像ISを得る。そして、本実施形態の画像変換モデル学習装置10は、学習用の第2の画像ISから微分値を算出し、学習用の第1の画像ILに対応する正解の高解像度画像である正解の第2の画像IHから微分値を算出し、学習用の第2の画像ISの微分値と、正解の第2の画像IHの微分値との差が小さくなるように、CNNを学習させる。これにより、画像から抽出される微分値を考慮した画像変換を行うCNNのパラメータが得られる。このため、学習済みのCNNは、画像の微分値を考慮して低解像度画像を高解像度画像へ変換することになる。これにより、例えば、低解像度画像に含まれる物体を検索する際に、微分値に基づく局所特徴量を適切に抽出するための画像変換が可能なCNNのパラメータを得ることができる。
<本実施形態に係る画像変換装置の構成>
図3は、本実施形態に係る画像変換装置30の構成の一例を示すブロック図である。本実施形態に係る画像変換装置30は、CPU(Central Processing Unit)と、GPU(Graphics Processing Unit)と、RAM(Random Access Memory)と、後述する画像変換処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。画像変換装置30は、機能的には、入力部32と、演算部34と、出力部42とを備えている。画像変換装置30は、学習済みのCNNを用いて、低解像度画像を高解像度画像へ変換する。
入力部32は、変換対象の第1の画像を取得する。第1の画像は、低解像度画像である。
演算部34は、図3に示されるように、取得部36と、変換処理モデル記憶部38と、変換部40とを備える。
取得部36は、入力部32により受け付けられた変換対象の第1の画像を取得する。
変換処理モデル記憶部20には、上記の画像変換モデル学習装置10によって学習されたCNNのパラメータが格納されている。
変換部40は、変換処理モデル記憶部38に格納された学習済みのCNNのパラメータを読み出す。次に、学習用変換部22は、読み出したパラメータをCNNへ反映させ、学習済みのCNNを構成する。
そして、変換部40は、取得部36によって取得された変換対象の第1の画像を、学習済みのCNNへ入力して、変換対象の第1の画像に対応する第2の画像を得る。第2の画像は、入力された第1の画像よりも解像度が高い画像であり、入力された第1の画像を高解像度化した画像である。
出力部42は、変換部40によって得られた第2の画像を結果として出力する。以上のようにして得られた第2の画像は、画像から抽出される微分値を考慮して変換されたものとなる。
<本実施形態に係る画像変換装置及び画像変換モデル学習装置の作用>
次に、本実施形態に係る画像変換装置30及び画像変換モデル学習装置10の作用について説明する。まず、画像変換モデル学習装置10の作用を図4に示すフローチャートを用いて説明する。
<画像変換モデル学習処理ルーチン>
まず、学習用入力部12が学習用の第1の画像ILと正解の第2の画像IHとのペアであるデータを複数受け付ける。次に、学習用取得部16が、学習用入力部12によって受け付けられた複数のデータの各々を取得し、画像記憶部18へ格納する。そして、画像変換装置30が学習処理開始の指示信号を受け付けると、図4に示す画像変換モデル学習処理ルーチンを実行する。
ステップS100において、画像記憶部18に格納された学習用の第1の画像ILの各々を読み出す。
ステップS102において、学習用変換部22は、変換処理モデル記憶部20に格納されたCNNのパラメータを読み出す。次に、学習用変換部22は、読み出したパラメータに基づき、画像変換を行うCNNを構成する。
ステップS104において、学習用変換部22は、上記ステップS100で読み出された学習用の第1の画像ILの各々をCNNへ入力して、学習用の第1の画像ILに対応する学習用の第2の画像ISの各々を生成する。
ステップS106において、微分値算出部24は、上記ステップS104で生成された学習用の第2の画像IHの各々から微分値を算出する。また、微分値算出部24は、上記ステップS100で読み出された学習用の第1の画像ILに対応する正解の第2の画像IHを画像記憶部18から読み出し、正解の第2の画像IHの各々から微分値を算出する。
ステップS108において、学習部26は、上記ステップS106で算出された、学習用の第2の画像ISの微分値と正解の第2の画像の微分値IHとに基づいて、上記式(1)の損失関数を最小化するように、CNNのパラメータを学習させる。
ステップS110において、学習部26は、上記ステップS108で得られた学習済みのCNNのパラメータを、変換処理モデル記憶部20へ格納して、画像変換モデル学習処理ルーチンの処理を終了する。
これにより、画像から抽出される微分値を考慮した画像変換を行うCNNのパラメータが得られたことになる。
次に画像変換装置30の作用を図5に示すフローチャートを用いて説明する。
<画像変換処理ルーチン>
変換対象の第1の画像が画像変換装置30へ入力されると、画像変換装置30は、図5に示す画像変換処理ルーチンを実行する。
ステップS200において、取得部36は、入力された変換対象の第1の画像を取得する。
ステップS202において、変換部40は、変換処理モデル記憶部20に格納された学習済みのCNNのパラメータを読み出す。次に、変換部40は、読み出したパラメータをCNNへ反映させ、学習済みのCNNを構成する。
ステップS204において、変換部40は、上記ステップS200で取得された変換対象の第1の画像を、上記ステップS202で得られた学習済みのCNNへ入力して、変換対象の第1の画像に対応する第2の画像を得る。第2の画像は、入力された第1の画像よりも解像度が高い画像であり、入力された第1の画像を高解像度化した画像である。
ステップS206において、出力部42は、上記ステップS204で得られた第2の画像を結果として出力し、画像変換処理ルーチンを終了する。
以上説明したように、本実施形態の画像変換モデル学習装置は、学習用の第1の画像を、第1の画像を該第1の画像よりも解像度が高い第2の画像へ変換するためのCNNへ入力して、学習用の第1の画像に対応する学習用の第2の画像を得る。そして、画像変換モデル学習装置は、学習用の第2の画像から微分値を算出し、学習用の第1の画像に対応する正解の第2の画像から微分値を算出する。そして、画像変換モデル学習装置は、学習用の第2の画像の微分値と、正解の第2の画像の微分値と、を関連付けることにより、CNNを学習させる。これにより、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うための変換処理モデルを得ることができる。
また、本実施形態の画像変換装置は、変換対象の第1の画像を、学習用の第1の画像をCNNへ入力することにより出力される学習用の第2の画像から得られる微分値と、学習用の第1の画像に対応する正解の第2の画像から得られる微分値と、を関連付けることにより予め学習されたCNNへ入力して、変換対象の第1の画像に対応する第2の画像を得る。これにより、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うことができる。
また、低解像度画像に含まれる物体を検索する際に、微分値に応じた局所特徴量を適切に抽出することのできる、低解像度画像から高解像度画像への変換処理を実施することができる。これにより、低解像度画像に写る物体を高解像度画像の中から検索する際には、微分値を考慮して低解像度画像から高解像度画像へ画像変換がなされるため、高解像度画像からは精度のよい検索結果を得るための局所特徴量を抽出することができる。
また、低解像度画像に含まれる物体を検索する際に、微分値に応じた局所特徴量を適切に抽出することのできる変換処理を実施するための変換処理モデルとして、ニューラルネットワークの一例であるCNNを学習させることができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 画像変換モデル学習装置
12 学習用入力部
14 学習用演算部
16 学習用取得部
18 画像記憶部
20 変換処理モデル記憶部
22 学習用変換部
24 微分値算出部
26 学習部
30 画像変換装置
32 入力部
34 演算部
36 取得部
38 変換処理モデル記憶部
40 変換部
42 出力部
12 学習用入力部
14 学習用演算部
16 学習用取得部
18 画像記憶部
20 変換処理モデル記憶部
22 学習用変換部
24 微分値算出部
26 学習部
30 画像変換装置
32 入力部
34 演算部
36 取得部
38 変換処理モデル記憶部
40 変換部
42 出力部
Claims (7)
- 第1の画像を、該第1の画像よりも解像度が高い第2の画像へ変換する画像変換装置であって、
変換対象の第1の画像を取得する取得部と、
前記取得部によって取得された変換対象の第1の画像を、第1の画像を第2の画像へ変換するための変換処理モデルであって、かつ学習用の第1の画像を変換処理モデルへ入力することにより出力される学習用の第2の画像から得られる微分値と、学習用の第1の画像に対応する正解の第2の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第1の画像に対応する第2の画像を得る変換部と、
を含む画像変換装置。 - 前記変換処理モデルは、学習用の第2の画像の微分値と、学習用の第1の画像に対応する正解の第2の画像の微分値と、の間の差を用いて表される損失関数が小さくなるように、予め学習されたモデルである、
請求項1に記載の画像変換装置。 - 学習用の第1の画像を、第1の画像を該第1の画像よりも解像度が高い第2の画像へ変換するための変換処理モデルへ入力して、学習用の第1の画像に対応する学習用の第2の画像を得る学習用変換部と、
前記学習用変換部によって得られた学習用の第2の画像から微分値を算出し、学習用の第1の画像に対応する正解の第2の画像から微分値を算出する微分値算出部と、
前記微分値算出部によって算出された学習用の第2の画像の微分値と、前記微分値算出部によって算出された正解の第2の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる学習部と、
を含む画像変換モデル学習装置。 - 前記学習部は、学習用の第2の画像の微分値と、正解の第2の画像の微分値と、の間の差を用いて表される損失関数が小さくなるように、前記変換処理モデルを学習させる、
請求項3に記載の画像変換モデル学習装置。 - 第1の画像を、該第1の画像よりも解像度が高い第2の画像へ変換する画像変換方法であって、
変換対象の第1の画像を取得し、
取得された変換対象の第1の画像を、第1の画像を第2の画像へ変換するための変換処理モデルであって、かつ学習用の第1の画像を変換処理モデルへ入力することにより出力される学習用の第2の画像から得られる微分値と、学習用の第1の画像に対応する正解の第2の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第1の画像に対応する第2の画像を得る、
処理をコンピュータが実行する画像変換方法。 - 学習用の第1の画像を、第1の画像を該第1の画像よりも解像度が高い第2の画像へ変換するための変換処理モデルへ入力して、学習用の第1の画像に対応する学習用の第2の画像を得て、
得られた学習用の第2の画像から微分値を算出し、学習用の第1の画像に対応する正解の第2の画像から微分値を算出し、
算出された学習用の第2の画像の微分値と、算出された正解の第2の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる、
処理をコンピュータが実行する画像変換モデル学習方法。 - 第1の画像を、該第1の画像よりも解像度が高い第2の画像へ変換するためのプログラムであって、
変換対象の第1の画像を取得し、
取得された変換対象の第1の画像を、第1の画像を第2の画像へ変換するための変換処理モデルであって、かつ学習用の第1の画像を変換処理モデルへ入力することにより出力される学習用の第2の画像から得られる微分値と、学習用の第1の画像に対応する正解の第2の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第1の画像に対応する第2の画像を得る、
処理をコンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019080429A JP7167832B2 (ja) | 2019-04-19 | 2019-04-19 | 画像変換装置、画像変換モデル学習装置、方法、及びプログラム |
PCT/JP2020/017068 WO2020213742A1 (ja) | 2019-04-19 | 2020-04-20 | 画像変換装置、画像変換モデル学習装置、方法、及びプログラム |
US17/604,307 US20220188975A1 (en) | 2019-04-19 | 2020-04-20 | Image conversion device, image conversion model learning device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019080429A JP7167832B2 (ja) | 2019-04-19 | 2019-04-19 | 画像変換装置、画像変換モデル学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020177528A JP2020177528A (ja) | 2020-10-29 |
JP7167832B2 true JP7167832B2 (ja) | 2022-11-09 |
Family
ID=72837356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019080429A Active JP7167832B2 (ja) | 2019-04-19 | 2019-04-19 | 画像変換装置、画像変換モデル学習装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220188975A1 (ja) |
JP (1) | JP7167832B2 (ja) |
WO (1) | WO2020213742A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020255227A1 (ja) * | 2019-06-17 | 2020-12-24 | 日本電信電話株式会社 | 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム |
JP7446903B2 (ja) * | 2020-04-23 | 2024-03-11 | 株式会社日立製作所 | 画像処理装置、画像処理方法及び画像処理システム |
CN117196957B (zh) * | 2023-11-03 | 2024-03-22 | 广东省电信规划设计院有限公司 | 基于人工智能的图像分辨率转换方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007304900A (ja) | 2006-05-12 | 2007-11-22 | Nippon Telegr & Teleph Corp <Ntt> | オブジェクト認識装置及びオブジェクト認識プログラム |
JP2018195069A (ja) | 2017-05-17 | 2018-12-06 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10516415B2 (en) * | 2018-02-09 | 2019-12-24 | Kneron, Inc. | Method of compressing convolution parameters, convolution operation chip and system |
-
2019
- 2019-04-19 JP JP2019080429A patent/JP7167832B2/ja active Active
-
2020
- 2020-04-20 US US17/604,307 patent/US20220188975A1/en active Pending
- 2020-04-20 WO PCT/JP2020/017068 patent/WO2020213742A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007304900A (ja) | 2006-05-12 | 2007-11-22 | Nippon Telegr & Teleph Corp <Ntt> | オブジェクト認識装置及びオブジェクト認識プログラム |
JP2018195069A (ja) | 2017-05-17 | 2018-12-06 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2020177528A (ja) | 2020-10-29 |
WO2020213742A1 (ja) | 2020-10-22 |
US20220188975A1 (en) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7167832B2 (ja) | 画像変換装置、画像変換モデル学習装置、方法、及びプログラム | |
Zhu et al. | Recover canonical-view faces in the wild with deep neural networks | |
JP5234469B2 (ja) | 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム | |
US9053388B2 (en) | Image processing apparatus and method, and computer-readable storage medium | |
US11928790B2 (en) | Object recognition device, object recognition learning device, method, and program | |
CN117152584A (zh) | 用于分析卷积神经网络中的图像的方法和系统 | |
US9305359B2 (en) | Image processing method, image processing apparatus, and computer program product | |
Chen et al. | Convolutional neural network based dem super resolution | |
JP2004192603A (ja) | パターン特徴抽出方法及びその装置 | |
Shao et al. | E-FCNN for tiny facial expression recognition | |
Liu et al. | Iterative relaxed collaborative representation with adaptive weights learning for noise robust face hallucination | |
Peng et al. | Building super-resolution image generator for OCR accuracy improvement | |
Song et al. | Multi-focus image fusion with PCA filters of PCANet | |
Peng et al. | Document image quality assessment using discriminative sparse representation | |
JP4383990B2 (ja) | パラメータ推定装置、パラメータ推定方法、パラメータ推定プログラム、および、パラメータ推定プログラムの記録媒体 | |
US20230196715A1 (en) | Image processing apparatus, learning method, and storage medium | |
Lee et al. | Backbone alignment and cascade tiny object detecting techniques for dolphin detection and classification | |
Bongini et al. | GADA: Generative adversarial data augmentation for image quality assessment | |
CN108334884B (zh) | 一种基于机器学习的手写文档检索方法 | |
JP2006252504A (ja) | パターン認識装置、パターン認識方法、パターン認識プログラム、及びパターン認識プログラムの記録媒体 | |
CN113052209A (zh) | 融合胶囊相似性的单样本语义分割方法 | |
Wong et al. | Perceptual image super-resolution with progressive adversarial network | |
JP2009295130A (ja) | 画像解析装置、画像登録装置および画像検索装置 | |
Dey et al. | Variational Augmentation for Enhancing Historical Document Image Binarization✱ | |
Verma et al. | Text deblurring using OCR word confidence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7167832 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |