JP7167832B2

JP7167832B2 - 画像変換装置、画像変換モデル学習装置、方法、及びプログラム

Info

Publication number: JP7167832B2
Application number: JP2019080429A
Authority: JP
Inventors: 之人渡邉; 香織熊谷; 峻司細野; 潤島村; 淳嵯峨田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2022-11-09
Anticipated expiration: 2039-04-19
Also published as: JP2020177528A; WO2020213742A1; US20220188975A1

Description

本発明は、画像変換装置、画像変換モデル学習装置、方法、及びプログラムに関する。

近年、スマートフォン等の小型撮像デバイスの普及に伴い、様々な場所又は環境において任意の物体が撮影され、撮影された画像中に写る物体を認識する技術への要望が高まってきている。

従来から、画像中の物体を認識する種々の技術が発明され、開示されている。例えば、クエリとして入力された画像について、同一の物体が写っている画像をあらかじめ登録しておいた参照画像中から取得する類似画像取得装置が知られている（例えば、特許文献１を参照）。

この類似画像取得装置は、まず、画像から特徴的な部分領域を複数検出し、各部分領域の特徴を実数値又は整数値からなる特徴量ベクトルとして表現する。この特徴量ベクトルは、一般的には、「局所特徴量」と呼ばれる。局所特徴量としては、Scale Invariant Feature Transform (SIFT)（例えば、非特許文献１を参照）が用いられることが多い。

次に、類似画像取得装置は、互いに異なる二つの画像に含まれる部分領域について特徴量ベクトルを比較し、同一性を判定する。類似度が高い特徴量ベクトルの数が多い場合、比較された二つの画像には、同一の物体が含まれている可能性が高い。一方、類似度が高い特徴量ベクトルの数が少ない場合、比較された二つの画像には、同一の物体が含まれている可能性は低い。

このように、上記特許文献１に記載されている類似画像取得装置は、認識対象の物体を含む画像（参照画像）の各々が格納された参照画像データベースを構築し、新たに入力された画像（クエリ画像）と同一の物体が写っている参照画像を検索することにより、クエリ画像中に存在する物体を特定することができる。このため、上記特許文献１に記載されている類似画像取得装置によれば、画像から一つ以上の局所特徴量を算出し、部分領域ごとに画像間の同一性を判定することにより、同一の物体を含む画像を探し出すことができる。

しかしながら、クエリ画像又は参照画像の解像度が低い場合、画像検索の検索精度が低下する、という問題がある。検索精度が低下する原因としては、クエリ画像と参照画像との解像度が大きく乖離するほど、クエリ画像と正解となる参照画像との間において、異なる局所特徴量が得られやすくなってしまう点が挙げられる。また、検索精度が低下する原因としては、クエリ画像又は参照画像の解像度が低いほど、画像に含まれる物体を十分に識別することのできる局所特徴量が得られなくなる点が挙げられる。

例えば、解像度が高い参照画像の各々に対して、解像度が低い画像をクエリ画像として検索するような場合には、低解像度画像であるクエリ画像中から高周波成分が失われていることが多く、上述のような問題が発生しやすい。

このような場合、高解像度画像の解像度を低下させることにより画像間の解像度を揃えた場合には、解像度の乖離は解消されるが、多くの詳細な情報が失われてしまうため、異なる画像間の局所特徴量が類似してしまい、検索精度は十分には改善されない。そのため、低解像度な画像の高周波成分を復元する、いくつかの技術が提案され、開示されている。

例えば、学習型超解像（例えば、非特許文献２を参照）が知られている。学習型超解像は、畳み込みニューラルネットワーク（CNN : Convolutional Neural Network）を用いて低解像度画像を高解像度画像へ変換する方法である。非特許文献２に開示されている学習型超解像では、任意の低解像度画像と当該低解像度画像の高解像度の画像である正解の高解像度画像とのペアを用いて、低解像度画像を高解像度画像へ変換するためのCNNを学習させる。具体的には、CNNによって得られた高解像度画像の画素値と正解の高解像度画像の画素値との間の平均二乗誤差（MSE : Mean squared error）を損失関数として設定して、CNNを学習させることで、低解像度画像を高解像度画像に変換させるためのCNNを得る。学習されたCNNを用いて低解像度画像を高解像度画像へ変換することにより、低解像度画像に含まれない高周波成分が高精度に復元される。

特開2017-16501号公報

D.G.Lowe. "Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision", pp.91-110, 2004 C. Dong, C. C. Loy, K. He, and X. Tang, "Image super-resolution using deep convolutional networks", In CVPR, 2014.

しかしながら、上記非特許文献２に開示されている学習型超解像は、画像検索の際に抽出される局所特徴量が必ずしも改善されるとは限らない点が課題となる。

例えば、上記非特許文献１に記載のSIFTでは、画像の勾配の大きさと向きとに応じて局所特徴量としての特徴量ベクトルが算出される。一方、上記非特許文献１において損失関数として設定されるMSEは、CNNによって変換された高解像度画像の各画素の画素値と、正解の高解像度画像の各画素の画素値との間の誤差を小さくするものであり、局所特徴量における勾配の大きさと向きとの誤差が小さくなるとは限らない。そのため、CNNによって得られた高解像度画像と正解の高解像度画像とで同様の局所特徴量が得られるとは限らず、検索精度は十分には改善されない。

本発明は、上記事情を鑑みて成されたものであり、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行う画像変換装置、方法、及びプログラムを提供することを目的とする。

また、本発明は、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うための変換処理モデルを得る画像変換モデル学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明の画像変換装置は、第１の画像を、該第１の画像よりも解像度が高い第２の画像へ変換する画像変換装置であって、変換対象の第１の画像を取得する取得部と、前記取得部によって取得された変換対象の第１の画像を、第１の画像を第２の画像へ変換するための変換処理モデルであって、かつ学習用の第１の画像を変換処理モデルへ入力することにより出力される学習用の第２の画像から得られる微分値と、学習用の第１の画像に対応する正解の第２の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第１の画像に対応する第２の画像を得る変換部と、を含んで構成されている。

また、画像変換装置において、前記変換処理モデルは、学習用の第２の画像の微分値と、学習用の第１の画像に対応する正解の第２の画像の微分値と、の間の差を用いて表される損失関数が小さくなるように、予め学習されたモデルであるようにすることができる。

第２の発明の画像変換モデル学習装置は、学習用の第１の画像を、第１の画像を該第１の画像よりも解像度が高い第２の画像へ変換するための変換処理モデルへ入力して、学習用の第１の画像に対応する学習用の第２の画像を得る学習用変換部と、前記学習用変換部によって得られた学習用の第２の画像から微分値を算出し、学習用の第１の画像に対応する正解の第２の画像から微分値を算出する微分値算出部と、前記微分値算出部によって算出された学習用の第２の画像の微分値と、前記微分値算出部によって算出された正解の第２の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる学習部と、を含んで構成されている。

画像変換モデル学習装置において、前記学習部は、学習用の第２の画像の微分値と、正解の第２の画像の微分値と、の間の差を用いて表される損失関数が小さくなるように、前記変換処理モデルを学習させるようにすることができる。

第３の発明の画像変換方法は、第１の画像を、該第１の画像よりも解像度が高い第２の画像へ変換する画像変換方法であって、変換対象の第１の画像を取得し、取得された変換対象の第１の画像を、第１の画像を第２の画像へ変換するための変換処理モデルであって、かつ学習用の第１の画像を変換処理モデルへ入力することにより出力される学習用の第２の画像から得られる微分値と、学習用の第１の画像に対応する正解の第２の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第１の画像に対応する第２の画像を得る、処理をコンピュータが実行する画像変換方法である。

第４の発明の画像変換モデル学習方法は、学習用の第１の画像を、第１の画像を該第１の画像よりも解像度が高い第２の画像へ変換するための変換処理モデルへ入力して、学習用の第１の画像に対応する学習用の第２の画像を得て、得られた学習用の第２の画像から微分値を算出し、学習用の第１の画像に対応する正解の第２の画像から微分値を算出し、算出された学習用の第２の画像の微分値と、算出された正解の第２の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる、処理をコンピュータが実行する画像変換モデル学習方法である。

第５の発明のプログラムは、第１の画像を、該第１の画像よりも解像度が高い第２の画像へ変換するためのプログラムであって、変換対象の第１の画像を取得し、取得された変換対象の第１の画像を、第１の画像を第２の画像へ変換するための変換処理モデルであって、かつ学習用の第１の画像を変換処理モデルへ入力することにより出力される学習用の第２の画像から得られる微分値と、学習用の第１の画像に対応する正解の第２の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第１の画像に対応する第２の画像を得る、処理をコンピュータに実行させるためのプログラムである。

第６の発明のプログラムは、学習用の第１の画像を、第１の画像を該第１の画像よりも解像度が高い第２の画像へ変換するための変換処理モデルへ入力して、学習用の第１の画像に対応する学習用の第２の画像を得て、得られた学習用の第２の画像から微分値を算出し、学習用の第１の画像に対応する正解の第２の画像から微分値を算出し、算出された学習用の第２の画像の微分値と、算出された正解の第２の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる、処理をコンピュータに実行させるためのプログラムである。

本発明の画像変換装置、方法、及びプログラムによれば、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うことができる、という効果が得られる。

また、画像変換モデル学習装置、方法、及びプログラムによれば、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うための変換処理モデルを得ることができる、という効果が得られる。

本実施形態に係る画像変換モデル学習装置の構成を示すブロック図である。微分値を算出するためのフィルタの一例を示す図である。本実施形態に係る画像変換装置の構成を示すブロック図である。本実施形態に係る画像変換モデル学習装置において実行される画像変換モデル学習処理ルーチンを示すフローチャートである。本実施形態に係る画像変換装置において実行される画像変換処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本実施形態に係る画像変換モデル学習装置の構成＞

図１は、本実施形態に係る画像変換モデル学習装置１０の構成の一例を示すブロック図である。本実施形態に係る画像変換モデル学習装置１０は、CPU（Central Processing Unit）と、GPU（Graphics Processing Unit）と、RAM（Random Access Memory）と、後述する画像変換モデル学習処理ルーチンを実行するためのプログラムを記憶したROM（Read Only Memory）とを備えたコンピュータで構成されている。画像変換モデル学習装置１０は、機能的には、学習用入力部１２と、学習用演算部１４とを備えている。

本実施形態に係る画像変換モデル学習装置１０は、解像度が低い第１の画像を、当該第１の画像よりも解像度が高い第２の画像へ変換するための変換処理モデルを生成する。

学習用入力部１２は、学習用の第１の画像Ｉ_Ｌと正解の第２の画像Ｉ_Ｈとのペアであるデータを複数受け付ける。正解の第２の画像Ｉ_Ｈは任意の画像であり、学習用の第１の画像Ｉ_Ｌは対応する正解の第２の画像Ｉ_Ｈを低解像度化させた低解像度画像である。

学習用の第１の画像Ｉ_Ｌは、例えば、公知の低解像度化処理を用いて作成することができる。例えば、既存の手法であるBicubic法によって正解の第２の画像Ｉ_Ｈを縮小することにより、学習用の第１の画像Ｉ_Ｌが作成される。以下では、１つの学習用の第１の画像Ｉ_Ｌと、当該学習用の第１の画像Ｉ_Ｌの高解像度画像である１つの正解の第２の画像Ｉ_Ｈとが、１つのペアのデータとして扱われる。

学習用演算部１４は、図１に示されるように、学習用取得部１６と、画像記憶部１８と、変換処理モデル記憶部２０と、学習用変換部２２と、微分値算出部２４と、学習部２６とを備える。

学習用取得部１６は、学習用入力部１２によって受け付けられた複数のデータの各々を取得し、画像記憶部１８へ格納する。画像記憶部１８には、学習用の第１の画像Ｉ_Ｌと正解の第２の画像Ｉ_Ｈとのペアであるデータが複数格納される。

変換処理モデル記憶部２０には、低解像度画像である第１の画像を、当該第１の画像よりも解像度が高い高解像度画像である第２の画像へ変換するための変換処理モデルのパラメータが格納されている。

本実施形態では、変換処理モデルとして、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network）を用いる場合を例に説明する。このため、変換処理モデル記憶部２０には、畳み込みニューラルネットワーク（以下、単に「CNN」と称する。）のパラメータが格納されている。

本実施形態のCNNは、入力された画像を高解像度化して出力するCNNである。ＣＮＮの層の構成は、任意の公知の構成を用いる。本実施形態では、以下の非特許文献３に記載の層の構成を用いる。

（非特許文献３）M. Haris, G. Shakhnarovich, and N. Ukita, "Deep back-projection networks for super-resolution", In CVPR, 2018.

学習用変換部２２は、画像記憶部１８に格納された学習用の第１の画像Ｉ_Ｌの各々を、CNNへ入力して、入力された学習用の第１の画像Ｉ_Ｌに対応する学習用の第２の画像Ｉ_Ｓの各々を得る。

具体的には、まず、学習用変換部２２は、変換処理モデル記憶部２０に格納されたCNNのパラメータを読み出す。次に、学習用変換部２２は、読み出したパラメータをCNNへ反映させ、画像変換を行うCNNを構成する。

次に、学習用変換部２２は、画像記憶部１８に格納された学習用の第１の画像Ｉ_Ｌの各々を読み出す。そして、学習用変換部２２は、学習用の第１の画像Ｉ_Ｌの各々をCNNへ入力して、学習用の第１の画像Ｉ_Ｌに対応する学習用の第２の画像Ｉ_Ｓの各々を生成する。これにより、学習用の第１の画像Ｉ_Ｌと当該学習用の第１の画像Ｉ_Ｌが高解像度化された学習用の第２の画像Ｉ_Ｓとの複数のペアが生成される。正解の第２の画像Ｉ_Ｈは、低解像度画像である学習用の第１の画像Ｉ_Ｌの元画像となる高解像度な画像である。このため、正解の第２の画像Ｉ_Ｈと学習用の第１の画像Ｉ_ＬとがCNNのパラメータを学習させるための教師データともいえる。

なお、本実施形態における画像の高解像度化は、上記非特許文献３に記載の構成のCNNによって入力された画像を畳み込むことにより実施するが、ニューラルネットワークを用いて畳み込む方法であればこれに限定されるものではない。

微分値算出部２４は、学習用変換部２２によって生成された学習用の第２の画像Ｉ_Ｈの各々から微分値を算出する。また、微分値算出部２４は、学習用の第１の画像Ｉ_Ｌに対応する正解の第２の画像Ｉ_Ｈを画像記憶部１８から読み出し、正解の第２の画像Ｉ_Ｈの各々から微分値を算出する。なお、処理対象の画像が３チャネルである場合は、微分値算出部２４は、公知のグレースケール化処理を画像に対して行い、１チャネルへと統合した画像の微分値を算出する。

微分値算出部２４は、例えば、微分値として、画像の横方向の微分（差分）値及び縦方向の微分（差分）値の各々を出力する。例えば、微分値算出部２４は、注目画素と当該注目画素の右の画素との差、及び、注目画素と当該注目画素の下の画素との差を微分値として出力する。この場合には、例えば、図２（ａ）（ｂ）に示されるような微分フィルタを用いた畳み込み処理を画像に対して行うことで微分値を算出すると好例である。なお、図２（ａ）は縦方向の微分フィルタ、図２（ｂ）は横方向の微分フィルタである。

または、微分値算出部２４は、図２（ｃ）（ｄ）に示されるソーベルフィルタを用いた畳み込み処理を画像に対して行うことで、微分値を算出してもよい。図２（ｃ）（ｄ）に示されるソーベルフィルタを用いた場合、処理時間は長くなるが、ノイズの影響を抑制することが可能である。

なお、微分値算出部２４によって算出される微分値は一次微分値に限定されるものではなく、微分値算出部２４は、任意の回数の微分を繰り返して算出した値を微分値として出力してもよい。

例えば、微分値算出部２４は、図２（ｅ）に示すラプラシアンフィルタを用いた畳み込み処理を画像に対して行うことで、二次微分値を算出して出力するようにしてもよい。この他にも、微分値算出部２４は、上記非特許文献１に記載される、ＬｏＧ(Laplacian of Gaussian)フィルタを用いて畳み込み処理を画像に対して行い、微分値を算出するようにしてもよい。

本実施形態においては、微分値算出部２４が、各画像から一次微分値と二次微分値とを算出する場合を例に説明する。

微分値算出部２４の処理により、学習用の第１の画像Ｉ_Ｌから学習済みのCNNによって生成された学習用の第２の画像Ｉ_Ｓの微分値と、学習用の第１の画像Ｉ_Ｌの正解の画像である正解の第２の画像Ｉ_Ｈの微分値が得られたことになる。

学習部２６は、微分値算出部２４によって算出された学習用の第２の画像Ｉ_Ｓの微分値と、正解の第２の画像Ｉ_Ｈの微分値と、を関連付けることにより、CNNのパラメータを学習させる。

具体的には、学習部２６は、同一の学習用の第１の画像Ｉ_Ｌに対応する、学習用の第２の画像Ｉ_Ｓの微分値と、正解の第２の画像Ｉ_Ｈの微分値との間の差を用いて表される損失関数が小さくなるように、CNNのパラメータを学習させる。

上述したように、微分値としては１種類に限定されず、２種類以上の微分値を用いることができる。また、微分値に加えて、正解の第２の画像Ｉ_Ｈの画素値と学習用の第２の画像Ｉ_Ｓの画素値との間の差を損失関数に含めても良い。本実施形態では、正解の第２の画像Ｉ_Ｈと学習用の第２の画像Ｉ_Ｓとの画素値、一次微分値、及び二次微分値とから損失関数を計算する場合を例に説明する。

具体的には、学習部２６は、以下（１）式の損失関数を最小化するようにCNNのパラメータを学習させる。そして、学習部２６は、CNNのパラメータを最適化する。

（１）

上記式（１）におけるＩ_Ｈは高解像度画像である正解の第２の画像の画素値を表す。また、上記式（１）におけるＩ_Ｓは、学習用の第１の画像Ｉ_ＬをCNNへ入力した際に出力される学習用の第２の画像の画素値を表す。

また、上記式（１）における∇_ｘＩは、画像Ｉの横方向の一次微分値を表し、∇_ｙＩは、画像Ｉの縦方向の一次微分値を表す。また、上記式（１）における∇_２Ｉは、画像Ｉの二次微分値を示す。また、||・||_１はＬ１正則化を示す。λ１、λ２、λ３は重みのパラメータであり、0.5など任意の実数を用いる。

上記式（１）に示されるように、本実施形態の損失関数は、正解の第２の画像Ｉ_Ｈと学習用の第２の画像Ｉ_Ｓとの間における、画素値の差、一次微分値の差、及び二次微分値の差を用いて表される。学習部２６は、上記式（１）に示される損失関数が小さくなるように、誤差逆伝搬法を用いてCNNの全パラメータを更新する。これにより、画像から抽出される微分値に基づく局所特徴量が、正解の第２の画像Ｉ_Ｈの微分値と学習用の第２の画像Ｉ_Ｓとで類似するように、CNNのパラメータが最適化される。

なお、損失関数としては、画像の微分値を用いた項が含まれているのであれば、他の項が追加されていてもよい。例えば、上記式（１）に加えて、以下の非特許文献４に記載されるcontent loss、adversarial loss等を足し合わせた式を損失関数としてもよい。

（非特許文献４）C. Ledig, L. Theis, F. Husz´ar, J. Caballero, A. Cunningham,A. Acosta, A. P. Aitken, A. Tejani, J. Totz, Z. Wang et al., Photorealistic single image super-resolution using a generative adversarial network, In CVPR, 2017.

そして、学習部２６は、学習させたCNNのパラメータを変換処理モデル記憶部２０へ格納する。これにより、画像の微分値を考慮して低解像度画像を高解像度画像へ画像変換をするためのCNNのパラメータが得られたことになる。

例えば、画像検索が行われる際、クエリ画像の解像度が低い場合、又は、検索対象のデータベースに格納された参照画像の各々の解像度が低い場合、低解像度画像がCNNによって高解像度画像へ変換される場合がある。

例えば、クエリ画像が低解像度画像であり、参照画像の各々は高解像度画像である場合を考える。この場合、例えば、CNNによってクエリ画像が高解像度画像に変換される。このとき、CNNの変換処理によって得られた高解像度画像と、参照画像の各々に対応する高解像度画像とからは、同様の局所特徴量が抽出されるとは限らない。このため、CNNによってクエリ画像が高解像度化されたとしても、検索精度は改善されないことがある。

これに対し、本実施形態の画像変換モデル学習装置１０は、低解像度画像である第１の学習用画像Ｉ_ＬをCNNによって高解像度化して学習用の第２の画像Ｉ_Sを得る。そして、本実施形態の画像変換モデル学習装置１０は、学習用の第２の画像Ｉ_Ｓから微分値を算出し、学習用の第１の画像Ｉ_Ｌに対応する正解の高解像度画像である正解の第２の画像Ｉ_Ｈから微分値を算出し、学習用の第２の画像Ｉ_Ｓの微分値と、正解の第２の画像Ｉ_Ｈの微分値との差が小さくなるように、CNNを学習させる。これにより、画像から抽出される微分値を考慮した画像変換を行うCNNのパラメータが得られる。このため、学習済みのCNNは、画像の微分値を考慮して低解像度画像を高解像度画像へ変換することになる。これにより、例えば、低解像度画像に含まれる物体を検索する際に、微分値に基づく局所特徴量を適切に抽出するための画像変換が可能なCNNのパラメータを得ることができる。

＜本実施形態に係る画像変換装置の構成＞

図３は、本実施形態に係る画像変換装置３０の構成の一例を示すブロック図である。本実施形態に係る画像変換装置３０は、CPU（Central Processing Unit）と、GPU（Graphics Processing Unit）と、RAM（Random Access Memory）と、後述する画像変換処理ルーチンを実行するためのプログラムを記憶したROM（Read Only Memory）とを備えたコンピュータで構成されている。画像変換装置３０は、機能的には、入力部３２と、演算部３４と、出力部４２とを備えている。画像変換装置３０は、学習済みのCNNを用いて、低解像度画像を高解像度画像へ変換する。

入力部３２は、変換対象の第１の画像を取得する。第１の画像は、低解像度画像である。

演算部３４は、図３に示されるように、取得部３６と、変換処理モデル記憶部３８と、変換部４０とを備える。

取得部３６は、入力部３２により受け付けられた変換対象の第１の画像を取得する。

変換処理モデル記憶部２０には、上記の画像変換モデル学習装置１０によって学習されたCNNのパラメータが格納されている。

変換部４０は、変換処理モデル記憶部３８に格納された学習済みのCNNのパラメータを読み出す。次に、学習用変換部２２は、読み出したパラメータをCNNへ反映させ、学習済みのCNNを構成する。

そして、変換部４０は、取得部３６によって取得された変換対象の第１の画像を、学習済みのCNNへ入力して、変換対象の第１の画像に対応する第２の画像を得る。第２の画像は、入力された第１の画像よりも解像度が高い画像であり、入力された第１の画像を高解像度化した画像である。

出力部４２は、変換部４０によって得られた第２の画像を結果として出力する。以上のようにして得られた第２の画像は、画像から抽出される微分値を考慮して変換されたものとなる。

＜本実施形態に係る画像変換装置及び画像変換モデル学習装置の作用＞

次に、本実施形態に係る画像変換装置３０及び画像変換モデル学習装置１０の作用について説明する。まず、画像変換モデル学習装置１０の作用を図４に示すフローチャートを用いて説明する。

＜画像変換モデル学習処理ルーチン＞

まず、学習用入力部１２が学習用の第１の画像Ｉ_Ｌと正解の第２の画像Ｉ_Ｈとのペアであるデータを複数受け付ける。次に、学習用取得部１６が、学習用入力部１２によって受け付けられた複数のデータの各々を取得し、画像記憶部１８へ格納する。そして、画像変換装置３０が学習処理開始の指示信号を受け付けると、図４に示す画像変換モデル学習処理ルーチンを実行する。

ステップＳ１００において、画像記憶部１８に格納された学習用の第１の画像Ｉ_Ｌの各々を読み出す。

ステップＳ１０２において、学習用変換部２２は、変換処理モデル記憶部２０に格納されたCNNのパラメータを読み出す。次に、学習用変換部２２は、読み出したパラメータに基づき、画像変換を行うCNNを構成する。

ステップＳ１０４において、学習用変換部２２は、上記ステップＳ１００で読み出された学習用の第１の画像Ｉ_Ｌの各々をCNNへ入力して、学習用の第１の画像Ｉ_Ｌに対応する学習用の第２の画像Ｉ_Ｓの各々を生成する。

ステップＳ１０６において、微分値算出部２４は、上記ステップＳ１０４で生成された学習用の第２の画像Ｉ_Ｈの各々から微分値を算出する。また、微分値算出部２４は、上記ステップＳ１００で読み出された学習用の第１の画像Ｉ_Ｌに対応する正解の第２の画像Ｉ_Ｈを画像記憶部１８から読み出し、正解の第２の画像Ｉ_Ｈの各々から微分値を算出する。

ステップＳ１０８において、学習部２６は、上記ステップＳ１０６で算出された、学習用の第２の画像Ｉ_Ｓの微分値と正解の第２の画像の微分値Ｉ_Ｈとに基づいて、上記式（１）の損失関数を最小化するように、CNNのパラメータを学習させる。

ステップＳ１１０において、学習部２６は、上記ステップＳ１０８で得られた学習済みのCNNのパラメータを、変換処理モデル記憶部２０へ格納して、画像変換モデル学習処理ルーチンの処理を終了する。

これにより、画像から抽出される微分値を考慮した画像変換を行うCNNのパラメータが得られたことになる。

次に画像変換装置３０の作用を図５に示すフローチャートを用いて説明する。

＜画像変換処理ルーチン＞

変換対象の第１の画像が画像変換装置３０へ入力されると、画像変換装置３０は、図５に示す画像変換処理ルーチンを実行する。

ステップＳ２００において、取得部３６は、入力された変換対象の第１の画像を取得する。

ステップＳ２０２において、変換部４０は、変換処理モデル記憶部２０に格納された学習済みのCNNのパラメータを読み出す。次に、変換部４０は、読み出したパラメータをCNNへ反映させ、学習済みのCNNを構成する。

ステップＳ２０４において、変換部４０は、上記ステップＳ２００で取得された変換対象の第１の画像を、上記ステップＳ２０２で得られた学習済みのCNNへ入力して、変換対象の第１の画像に対応する第２の画像を得る。第２の画像は、入力された第１の画像よりも解像度が高い画像であり、入力された第１の画像を高解像度化した画像である。

ステップＳ２０６において、出力部４２は、上記ステップＳ２０４で得られた第２の画像を結果として出力し、画像変換処理ルーチンを終了する。

以上説明したように、本実施形態の画像変換モデル学習装置は、学習用の第１の画像を、第１の画像を該第１の画像よりも解像度が高い第２の画像へ変換するためのCNNへ入力して、学習用の第１の画像に対応する学習用の第２の画像を得る。そして、画像変換モデル学習装置は、学習用の第２の画像から微分値を算出し、学習用の第１の画像に対応する正解の第２の画像から微分値を算出する。そして、画像変換モデル学習装置は、学習用の第２の画像の微分値と、正解の第２の画像の微分値と、を関連付けることにより、CNNを学習させる。これにより、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うための変換処理モデルを得ることができる。

また、本実施形態の画像変換装置は、変換対象の第１の画像を、学習用の第１の画像をCNNへ入力することにより出力される学習用の第２の画像から得られる微分値と、学習用の第１の画像に対応する正解の第２の画像から得られる微分値と、を関連付けることにより予め学習されたCNNへ入力して、変換対象の第１の画像に対応する第２の画像を得る。これにより、画像の微分値を考慮して低解像度画像から高解像度画像への画像変換を行うことができる。

また、低解像度画像に含まれる物体を検索する際に、微分値に応じた局所特徴量を適切に抽出することのできる、低解像度画像から高解像度画像への変換処理を実施することができる。これにより、低解像度画像に写る物体を高解像度画像の中から検索する際には、微分値を考慮して低解像度画像から高解像度画像へ画像変換がなされるため、高解像度画像からは精度のよい検索結果を得るための局所特徴量を抽出することができる。

また、低解像度画像に含まれる物体を検索する際に、微分値に応じた局所特徴量を適切に抽出することのできる変換処理を実施するための変換処理モデルとして、ニューラルネットワークの一例であるCNNを学習させることができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０画像変換モデル学習装置
１２学習用入力部
１４学習用演算部
１６学習用取得部
１８画像記憶部
２０変換処理モデル記憶部
２２学習用変換部
２４微分値算出部
２６学習部
３０画像変換装置
３２入力部
３４演算部
３６取得部
３８変換処理モデル記憶部
４０変換部
４２出力部

Claims

第１の画像を、該第１の画像よりも解像度が高い第２の画像へ変換する画像変換装置であって、
変換対象の第１の画像を取得する取得部と、
前記取得部によって取得された変換対象の第１の画像を、第１の画像を第２の画像へ変換するための変換処理モデルであって、かつ学習用の第１の画像を変換処理モデルへ入力することにより出力される学習用の第２の画像から得られる微分値と、学習用の第１の画像に対応する正解の第２の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第１の画像に対応する第２の画像を得る変換部と、
を含む画像変換装置。
前記変換処理モデルは、学習用の第２の画像の微分値と、学習用の第１の画像に対応する正解の第２の画像の微分値と、の間の差を用いて表される損失関数が小さくなるように、予め学習されたモデルである、
請求項１に記載の画像変換装置。
学習用の第１の画像を、第１の画像を該第１の画像よりも解像度が高い第２の画像へ変換するための変換処理モデルへ入力して、学習用の第１の画像に対応する学習用の第２の画像を得る学習用変換部と、
前記学習用変換部によって得られた学習用の第２の画像から微分値を算出し、学習用の第１の画像に対応する正解の第２の画像から微分値を算出する微分値算出部と、
前記微分値算出部によって算出された学習用の第２の画像の微分値と、前記微分値算出部によって算出された正解の第２の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる学習部と、
を含む画像変換モデル学習装置。
前記学習部は、学習用の第２の画像の微分値と、正解の第２の画像の微分値と、の間の差を用いて表される損失関数が小さくなるように、前記変換処理モデルを学習させる、
請求項３に記載の画像変換モデル学習装置。
第１の画像を、該第１の画像よりも解像度が高い第２の画像へ変換する画像変換方法であって、
変換対象の第１の画像を取得し、
取得された変換対象の第１の画像を、第１の画像を第２の画像へ変換するための変換処理モデルであって、かつ学習用の第１の画像を変換処理モデルへ入力することにより出力される学習用の第２の画像から得られる微分値と、学習用の第１の画像に対応する正解の第２の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第１の画像に対応する第２の画像を得る、
処理をコンピュータが実行する画像変換方法。
学習用の第１の画像を、第１の画像を該第１の画像よりも解像度が高い第２の画像へ変換するための変換処理モデルへ入力して、学習用の第１の画像に対応する学習用の第２の画像を得て、
得られた学習用の第２の画像から微分値を算出し、学習用の第１の画像に対応する正解の第２の画像から微分値を算出し、
算出された学習用の第２の画像の微分値と、算出された正解の第２の画像の微分値と、を関連付けることにより、前記変換処理モデルを学習させる、
処理をコンピュータが実行する画像変換モデル学習方法。
第１の画像を、該第１の画像よりも解像度が高い第２の画像へ変換するためのプログラムであって、
変換対象の第１の画像を取得し、
取得された変換対象の第１の画像を、第１の画像を第２の画像へ変換するための変換処理モデルであって、かつ学習用の第１の画像を変換処理モデルへ入力することにより出力される学習用の第２の画像から得られる微分値と、学習用の第１の画像に対応する正解の第２の画像から得られる微分値と、を関連付けることにより予め学習された変換処理モデルへ入力して、変換対象の第１の画像に対応する第２の画像を得る、
処理をコンピュータに実行させるためのプログラム。