JP7146372B2 - 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体 - Google Patents

画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体 Download PDF

Info

Publication number
JP7146372B2
JP7146372B2 JP2017120955A JP2017120955A JP7146372B2 JP 7146372 B2 JP7146372 B2 JP 7146372B2 JP 2017120955 A JP2017120955 A JP 2017120955A JP 2017120955 A JP2017120955 A JP 2017120955A JP 7146372 B2 JP7146372 B2 JP 7146372B2
Authority
JP
Japan
Prior art keywords
information
feature amount
input image
image
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017120955A
Other languages
English (en)
Other versions
JP2019008383A (ja
Inventor
良範 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017120955A priority Critical patent/JP7146372B2/ja
Priority to PCT/JP2018/022997 priority patent/WO2018235746A1/ja
Priority to EP18821356.5A priority patent/EP3644270A4/en
Priority to CN201880040227.5A priority patent/CN110770784B/zh
Publication of JP2019008383A publication Critical patent/JP2019008383A/ja
Priority to US16/715,042 priority patent/US11354537B2/en
Application granted granted Critical
Publication of JP7146372B2 publication Critical patent/JP7146372B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Multimedia (AREA)

Description

本発明は、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を用いて高精度に画像処理する画像処理装置に関する。
従来、CNNとして、多層CNN(Multi-layer CNN)および多重解像度CNN(Multi-scale CNN)が知られている。非特許文献1には、代表的な多層CNNであるResNetが開示されている。非特許文献2には、代表的な多重解像度CNNであるHED(Holistically-nested Edge Detection)が開示されている。
Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jiang Sun、「Deep residual learning for image recognition」、The IEEE Conference on Computer Vision and Pattern Recognition、アメリカ合衆国、2015、pp.770-778 Saining Xie、Zhuown Tu、「Holistically-nested edge detection」、The IEEE International Conference on Computer Vision、アメリカ合衆国、2015、pp.1395-1403 Xavier Glorot、Yoshua Bengio、「Understanding the difficulty of training deep feedforward neural networks」、Proceedings of the 13th International Conference on Artificial Intelligence and Statistics、2010、pp.249-256 Xia-Jiao Mao、Chunhua Shen、Yu-Bin Yang、「Image restoration using convolutional auto-encoders with symmetric skip connections」、arXiv:1606.08921、2016
しかしながら、非特許文献1で開示されているResNetでは、多層ネットワークの学習は可能であるが、多重解像度表現の情報を利用することはできない。また、非特許文献2で開示されているHEDでは、多層CNNの中間層から多重解像度情報である特徴マップを抽出する。しかし、HEDは、多層ネットワークの学習を促進させる工夫を行っていないため、ネットワークが多層になった場合に学習することができない。
このように、従来のCNNは、多重解像度表現の情報の利用が可能であるとともに多層ネットワークの学習が可能なネットワーク構造ではない。このため、従来のCNNを用いて高精度な画像処理を行うことは困難である。
そこで本発明は、多重解像度表現の情報の利用が可能であるとともに多層ネットワークの学習が可能なネットワーク構造を用いて、高精度な画像処理が可能な画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体を提供することを目的とする。
本発明の一側面としての画像処理装置は、入力画像を少なくとも2層の第1の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第1の特徴量の情報に変換するメイン部と、前記第1の畳み込みニューラルネットワークに入力された前記入力画像と同じ解像度である前記入力画像を第2の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第2の特徴量の情報に変換する入力部と、第3の畳み込みニューラルネットワークを用いて、前記第1の特徴量の情報と前記第2の特徴量の情報との加算により生成された第3の特徴量の情報を含む特徴量の情報を出力画像に変換する出力部とを有し、前記メイン部は、前記入力画像に対して、複数のフィルタを畳み込んだ後、非線形演算する処理を繰り返すことにより、前記第1の特徴量の情報として複数解像度の特徴マップを生成し、前記入力部は、前記入力画像に対して、複数種類のサイズを含む複数のフィルタを畳み込むことにより、前記第2の特徴量の情報として複数解像度の特徴マップを生成する
本発明の他の側面としての撮像装置は、入力画像を取得する撮像部と、前記画像処理装置とを有する。
本発明の他の側面としての画像処理方法は、入力画像を少なくとも2層の第1の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第1の特徴量の情報に変換するステップと、前記第1の畳み込みニューラルネットワークに入力された前記入力画像と同じ解像度である前記入力画像を第2の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第2の特徴量の情報に変換するステップと、第3の畳み込みニューラルネットワークを用いて、前記第1の特徴量の情報と前記第2の特徴量の情報との加算により生成された第3の特徴量の情報を含む特徴量の情報を出力画像に変換するステップとを有し、前記入力画像を第1の特徴量の情報に変換するステップは、前記入力画像に対して、複数のフィルタを畳み込んだ後、非線形演算する処理を繰り返すことにより、前記第1の特徴量の情報として複数解像度の特徴マップを生成し、前記入力画像を第2の特徴量の情報に変換するステップは、前記入力画像に対して、複数種類のサイズを含む複数のフィルタを畳み込むことにより、前記第2の特徴量の情報として複数解像度の特徴マップを生成する。
本発明の他の側面としてのプログラムは、前記画像処理方法をコンピュータに実行させる。
本発明の他の側面としての記憶媒体は、前記プログラムを記憶している。
本発明の他の目的及び特徴は、以下の実施形態において説明される。
本発明によれば、多重解像度表現の情報の利用が可能であるとともに多層ネットワークの学習が可能なネットワーク構造を用いて、高精度な画像処理が可能な画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体を提供することができる。
各実施例における画像処理装置のブロック図である。 各実施例における画像処理装置の別の構成図である。 各実施例における画像処理装置を撮像装置として実現した構成図である。 各実施例における画像処理方法を示すフローチャートである。 実施例1におけるネットワーク構造を示す図である。 実施例1における画像処理結果の説明図である。 従来技術の画像処理結果の説明図である。 実施例1と従来技術との比較図である。
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。
まず、本発明の背景であるCNNについて説明する。CNNとは、学習(trainingまたはlearning)により生成したフィルタを画像に対して畳み込んだ(convolution)後、非線形演算することを繰り返す、学習型の画像処理技術である。フィルタは、局所受容野(Local Receptive Field:LPF)とも呼ばれる。画像に対してフィルタを畳み込んだ後、非線形演算して得られる画像は、特徴マップ(feature map)と呼ばれる。また、畳み込みの他に逆(転置)畳み込みという処理も後に出てくるが、これは畳み込みの一種であるため、その都度説明を行う。また、学習は入力画像と出力画像のペアからなる訓練画像(training imagesまたはdata sets)を用いて行われる。簡単には、入力画像から対応する出力画像へ高精度に変換可能なフィルタの値を、訓練画像から生成することが学習である。この詳細については後述する。
画像がRGBカラーチャンネルを有する場合や、特徴マップが複数枚の画像から構成されている場合、畳み込みに用いるフィルタも、それに応じて複数のチャンネルを有する。すなわち、畳み込みフィルタは、縦横サイズと枚数の他に、チャンネル数を加えた、4次元配列で表現される。
画像(または特徴マップ)にフィルタを畳み込んだ後、非線形演算する処理は、層(layer)という単位で表現される。例えば、m層目の特徴マップやn層目のフィルタなどと呼ばれる。また、例えばフィルタの畳み込みと非線形演算を3回繰り返すようなCNNは、3層のネットワーク構造を有するという。
この処理は、以下の式(1)のように定式化することができる。
Figure 0007146372000001
式(1)において、Wはn層目のフィルタ、bはn層目のバイアス、fは非線形演算子、Xはn層目の特徴マップ、*は畳み込み演算子である。なお、右肩の(l)はl番目のフィルタまたは特徴マップであることを表している。フィルタおよびバイアスは、後述する学習により生成され、まとめてネットワークパラメータとも呼ばれる。非線形演算としては、例えばシグモイド関数(sigmoid function)やReLU(Rectified Linear Unit)が用いられる。
ReLUは、以下の式(2)で与えられる。
Figure 0007146372000002
すなわち、入力したベクトルXの要素のうち負のものはゼロ、正のものはそのままとする非線形な処理である。なお、負値も出力したい用途によっては、ReLUは向いていないこともある。その場合、LReLU(Leaky ReLU)やPReLU(Parametric ReLU)を用いると良いことが知られている。
LReLUは、以下の式(3)で与えられる。
Figure 0007146372000003
すなわち、入力したベクトルXの要素のうち負のものは0.01倍、正のものはそのままとする非線形な処理である。なお、PReLUは入力したベクトルXの要素のうち負のものに加える重みを可変(パラメトリック)としたものであり、LReLUより高精度な学習が期待できるが、その分学習に時間と計算負荷がかかることが知られている。
次に、CNNの学習について説明する。CNNの学習は、入力訓練画像(劣化画像)と対応する出力訓練画像(鮮鋭な正解画像)の組からなる訓練画像に対して、一般に以下の式(4)で表される目的関数を最小化することで行われる。
Figure 0007146372000004
ここで、Lは正解とその推定との誤差を測る損失関数(loss function)である。また、Yはi番目の出力訓練画像、Xはi番目の入力訓練画像である。また、FはCNNの各層で行う演算(数式1参照)を、まとめて表した関数である。また、θはネットワークパラメータ(フィルタおよびバイアス)である。また、∥Z∥はL2ノルムであり、簡単にはベクトルZの要素の2乗和の平方根である。
また、nは学習に用いる訓練画像の全枚数であるが、一般に訓練画像の全枚数は多い(~数万枚)ため、確率的勾配降下法(Stochastic Gradient Descent:SGD)では、訓練画像の一部をランダムに選び学習に用いている。これにより、多くの訓練画像を用いた学習における、計算負荷が低減できる。
また、目的関数の最小化(=最適化)法として、モーメンタム(momentum)法やAdaGrad法、AdaDelta法、Adam法など、様々な方法が知られている。
Adam法は、以下の式(5)で与えられる。
Figure 0007146372000005
式(5)において、θ は反復t回目におけるi番目のネットワークパラメータ、gはθ に関する損失関数Lの勾配である。また、m、vはモーメントベクトル、αは基本学習率(base learning rate)、β、βはハイパーパラメータ、εは小さい定数である。なお、学習における最適化法の選択指針は現状存在しないため、基本的に何を用いても良いが、方法ごとの収束性には違いがあるため、学習時間の違いが生じることが知られている。
次に、CNNの分類について説明する。CNNは、大きく多層CNN(Multi-layer CNN)と多重解像度CNN(Multi-scale CNN)の2つに分類できる。
多層CNNは、フィルタの畳み込みを何度も行うことで、処理の高精度化を図るCNNであり、画像認識分野のResNetや超解像分野におけるその応用RED-Netが有名である。ここで、ResNetは畳み込み層をショートカットする経路を設けたネットワーク構造を特徴とし、これにより152層もの多層ネットワークを実現し、人間の認識率に迫る高精度な認識を実現している。詳細は非特許文献1に記載されている。なお、多層CNNにより処理が高精度化する理由は、簡単には非線形演算を何度も繰り返すことで、入出力間の非線形な関係を表現できるためである。
多重解像度CNNは、多重解像度表現した情報を利用して、処理の高精度化を図るCNNである。多重解像度表現の方法としては、(1)多重解像度表現の画像を入力画像とする方法、(2)フィルタサイズを変えた複数のネットワークを用いる方法、(3)多層CNNの中間層から多重解像度情報である特徴マップを抽出する方法が代表的である。ここで、方法(1)、(2)は理解し易いが、方法(3)は理解し難いので簡単に説明する。直感的には、画像に対してフィルタの畳み込みを行い、得られる特徴マップは、元の画像より解像度が低下する(後述する式(6)参照)。よって、フィルタの畳み込みを何度も行い、中間層で得られる特徴マップは、元の画像を多重解像度表現した情報であるといえる。より詳細な説明は、非特許文献2に記載されている。なお、多重解像度CNNにより処理が高精度化する理由は、簡単には入力画像において、様々な範囲(解像度)の情報を処理に利用できるためである。
次に、図1を参照して、本実施形態における画像処理装置の構成例を説明する。図1は、画像処理装置100のブロック図である。画像処理装置100は、取得部101、メイン部102、入力部103、および、出力部104を備えて構成されている。
取得部101は、入力画像を取得する。取得部101は、デジタル画像データを取得可能に構成されていればよく、例えばデジタルカメラやデジタルスキャナでもよい。また入力画像は、一般に、劣化した劣化画像である。例えば、デジタルカメラであれば、結像光学系や光学ローパスフィルタに起因するぼけ、イメージセンサに起因するノイズ、デモザイキングのエラーなどが劣化要因として挙げられる。画像の劣化過程は、既知であることが好ましい。これは、前述したCNNの学習において大量に必要となる訓練画像を、数値計算で生成できるためである。ただし、場合によっては訓練画像を準備できることもあるため、画像の劣化過程が既知であることは必須ではない。
画像データの形式は計算機に読み込み可能なデジタルデータであればよく、例えばRAW、BMP(Bitmap)、JPEG(Joint Photographic Experts Group)でもよい。入力画像は、カラー画像、モノクロ画像、動画像(複数枚の画像)のいずれでもよい。本実施形態では、簡単のため、入力画像および出力画像はそれぞれモノクロ画像であるとする。
メイン部102は、前述したCNNであり、例えばPC(Personal Computer)やワークステーション、FPGA(Field Programmable Gate Array)、サーバで構成される。メイン部102は、CNNの演算を実現することが可能な計算機であればよい。またメイン部102は、少なくとも2層以上のネットワーク構造を有する。すなわちメイン部102は、取得部101により取得された入力画像に対して、2回以上かつ複数枚のフィルタを用いた畳み込み、それに続くバイアスの加算、および、非線形演算を行う。そしてメイン部102は、中間層において解像度の異なる特徴マップ(第1の特徴量の情報)を出力する。
中間層で得られる特徴マップの解像度は、畳み込みに用いるフィルタの縦横サイズから、以下の式(6)で与えられる。
Figure 0007146372000006
式(6)において、H、Wはそれぞれ入力画像(または畳み込まれる特徴マップ)の縦横サイズ、YH、YWはそれぞれ出力画像(または畳み込みで得られる特徴マップ)の縦横サイズ、FH、FWはそれぞれ畳み込みに用いるフィルタの縦横サイズである。これより、画像に対してフィルタを畳み込み、得られる特徴マップは、元の画像よりサイズが小さい(すなわち、解像度が低下する)ことが分かる。また、例えば縦横サイズ3×3のフィルタを2回畳み込み得られる特徴マップと、縦横サイズ5×5のフィルタを1回畳み込み得られる特徴マップの縦横サイズ(解像度)は、互いに等しい。
入力画像はモノクロ画像(チャンネル数が1)を仮定しているため、1層目のフィルタのチャンネル数は1である。一方、1層目以降の中間層で得られる特徴マップの枚数(チャンネル数)は、前の層で畳み込みに用いたフィルタの枚数である。このため、中間層のフィルタのチャンネル数は、前の層で畳み込みに用いたフィルタの枚数に応じて決定される。
畳み込みにはいくつかのテクニックが知られている。例えば、畳み込みで得られる特徴マップをダウンサンプリングするストライド(stride)や、特徴マップの周囲をゼロパディングした後に畳み込みを行うパディング(padding)などがある。これらのテクニックを用いて畳み込みを行っても良いが、その場合に得られる特徴マップの解像度は、式(6)で与えられるものではない。これは、式(6)で与えられる解像度が、ストライドなし、パディングなしの畳み込みを前提とした定義であるためである。したがって、前述した畳み込みのテクニックを用いた場合、それに応じた解像度の定義を用いて、本実施形態の画像処理を行えばよい。
入力部103は、前述したCNNであり、例えばPCやワークステーション、FPGA、サーバで構成されるが、これらに限定されるものではなく、CNNの演算を実現することができる計算機であればよい。入力部103は、複数枚かつ複数種類のサイズのフィルタを有する、複数のCNNからなる。すなわち入力部103は、取得部101で取得された入力画像に対して、複数種類のサイズのフィルタを畳み込むことで、解像度の異なる特徴マップ(第2の特徴量の情報)を出力する。
式(6)より、複数種類のサイズのフィルタを使わなくても、解像度の異なる特徴マップを生成することはできる。例えば、縦横サイズ3×3のフィルタを畳み込む回数を変える(多層CNNの層数を変える)ことで、解像度の異なる特徴マップを生成することは可能である。しかし、入力部103の機能は、メイン部102の中間層へ、入力画像の情報を送り込み、学習を促進させることである。このため、学習が難しい多層CNNを入力部103としては用いないことが好ましい。
メイン部102で得られる解像度の異なる特徴マップ(第1の特徴量の情報)と、入力部103で得られる解像度の異なる特徴マップ(第2の特徴量の情報)に関しては、これらの特徴マップの解像度が互いに等しい状態で加算する。この加算は、より具体的には特徴マップの要素ごとの和である。また、加算の結果得られる新たな特徴マップ(第3の特徴量の情報)は、非線形演算の後、メイン部102の次の畳み込み層、または後述する出力部104へ送られる。特徴マップの加算(第1の特徴量の情報と第2の特徴量の情報との加算)は、メイン部102、入力部103、または、出力部104のいずれで行ってもよい。
入力部103におけるフィルタの縦横サイズおよび枚数は、メイン部102で得られる解像度の異なる特徴マップに応じて決定される。これは、メイン部102で得られる特徴マップと解像度の等しい、入力部103で得られる特徴マップと足し合わせるためである。特徴マップの解像度と枚数に関しては、式(6)で表される。入力画像はモノクロ画像(チャンネル数が1)を仮定しているため、入力部103におけるフィルタのチャンネル数は1である。しかし、入力画像がカラー画像や動画像(複数枚の画像)の場合、それに応じてチャンネル数を決定すればよい。
出力部104は、前述したCNNであり、例えばPCやワークステーション、FPGA、サーバで構成されるが、これらに限定されるものではなく、CNNの演算を実現することが可能な計算機であればよい。出力部104は、メイン部102(または入力部103)で得られる多重解像度の特徴マップ(第3の特徴量の情報)に対して、複数枚かつ複数種類のサイズのフィルタを用いた逆(転置)畳み込み、それに続くバイアスの加算、および、非線形演算を行う。そして出力部104は、得られる特徴マップに対して重み付けして、特徴マップを出力画像へ変換する。
また、逆(転置)畳み込みはdeconvolutionまたはtransposed convolutionと呼ばれ、直感的には畳み込みの逆操作である。以下、逆(転置)畳み込みについて簡単に説明する。畳み込みと逆(転置)畳み込みは、以下の式(7)で与えられる。
Figure 0007146372000007
式(7)において、U、Vはそれぞれ、畳み込みで得られる特徴マップと畳み込む特徴マップ、Mは畳み込みを表した行列である。なお、特徴マップは適当な変換(辞書式配列など)でベクトルとして表現している。また、式(6)より、ベクトルUの長さは、ベクトルVの長さより短い(すなわち、解像度が低下している)。このため、畳み込み行列Mは横長の行列である。
同様に、Y、Xはそれぞれ、逆(転置)畳み込みで得られる特徴マップと逆(転置)畳み込みされる特徴マップのベクトル表記である。式(7)から明らかなように、ベクトルYとベクトルXは、畳み込み行列Mの転置行列Mで関係付けられる。転置行列Mは縦長の行列である。このため、ベクトルYの長さは、ベクトルXの長さより長く(すなわち、解像度が高く)なり、逆(転置)畳み込みは畳み込みの逆操作と見ることができる。
逆(転置)畳み込みで得られる特徴マップの解像度は、逆(転置)畳み込みに用いるフィルタサイズから、以下の式(8)で与えられる。
Figure 0007146372000008
式(8)において、H、Wはそれぞれ入力画像(または逆畳み込みされる特徴マップ)の縦横サイズ、YH、YWはそれぞれ出力画像(または逆畳み込みで得られる特徴マップ)の縦横サイズ、FH、FWは逆(転置)畳み込みに用いるフィルタの縦横サイズである。これより、特徴マップに対してフィルタを逆(転置)畳み込みして得られる画像は、元の特徴マップよりサイズが大きい(解像度が高くなる)ことが分かる。また、逆(転置)畳み込みで得られる特徴マップの枚数は、畳み込みと同様に、逆(転置)畳み込みに用いるフィルタの枚数である
本実施形態において、逆(転置)畳み込みは、メイン部102の中間層で得られる特徴マップに対して行われる。よって、逆(転置)畳み込みに用いるフィルタのサイズおよびチャンネル数は、メイン部102の中間層で得られる特徴マップの解像度と枚数に応じて決定すればよい。逆(転置)畳み込みに用いるフィルタの枚数は任意である。フィルタの枚数が多いほど画像処理の高精度化が期待できる。ただし、その分パラメータ数が多くなるため、学習に時間がかかることが予想される。
出力部104における非線形演算には、例えば、特徴マップの負値も出力するLReLUやPReLUが用いられる。これは、ある解像度の特徴マップに対して逆畳み込みを行い、その結果得られる特徴マップが、負値しか含まなかった場合、非線形演算にReLUを使うと、その解像度の情報は画像処理に使われないこととなるためである。よって、出力部104における非線形演算にReLUを用いてもよいが、その場合はLReLUやPReLUを用いる場合に比べて画像処理精度が低下する。
出力部104において得られる特徴マップに対する重み付けは、以下の式(9)で与えられる。
Figure 0007146372000009
式(9)において、Yはi番目の特徴マップ、αはYに対する重み、bは定数、Zは出力画像、Mは特徴マップの全枚数である。この操作は、縦横サイズ1×1、チャンネル数Mのフィルタの畳み込みと見ることもできる。よって、重み付けも畳み込み層とし、ネットワーク学習と同時に、重み付けを最適化することも可能である。なお、出力画像はモノクロ画像(チャンネル数が1)を仮定しているため、重み付けを畳み込みと解釈した場合のフィルタ枚数は1である。しかし、出力画像がカラー画像や動画像(複数枚の画像)の場合、それに応じてフィルタ枚数を決定すればよい。また、得られた出力画像に対して、画素値の規格化(画素値が[0 1]の範囲になるようにするなど)を行ってもよい。
本実施形態では、メイン部102の中間層へ、入力部103により入力画像の情報を送り込み、多層CNNの学習を促進させる。加えて、メイン部102の中間層からの多重解像度の特徴マップを、出力部104により解像度を元に戻し、重みを付けて出力画像とする。換言すると、本実施形態では、多重解像度表現の情報を利用する。このため本実施形態によれば、多重解像度表現の情報の利用が可能であって、かつ多層ネットワークの学習が可能なネットワーク構造を提供することができる。
また、学習の際には、出力訓練画像とその推定との誤差が、出力部104を介してメイン部102の中間層へ送り込まれる。よって、出力部104は、多重解像度表現する役割に加え、多層CNNの学習を促進させる役割も担っている。
メイン部102、入力部103、および、出力部104のネットワークパラメータ(フィルタおよびバイアス)としては、訓練画像から前述した学習により、予め生成しておいたものが用いられる。また、学習の際には、メイン部102、入力部103、および、出力部104を連結し、1つのCNNとして学習を行う。すなわち、入力訓練画像をCNN(のメイン部102および入力部103)へ入力し、CNN(の出力部104)から出力される画像と、出力訓練画像との誤差が小さくなるように学習を行う。また、ネットワークパラメータの初期値はXavier(非特許文献3参照)や正規乱数などの乱数でも良く、または、予め学習で生成した値を用いても良い。学習に用いる訓練画像は、前述したように取得部101での劣化過程を考慮して、数値計算で生成しても良く、または、別の方法で準備しても良い。具体的な訓練画像の生成方法や準備方法は、以下の実施例で説明する。
出力部104で得られる画像処理結果である出力画像は、画像処理装置100内の不図示の記憶部に記憶しても良く、画像処理装置100の外部の不図示の表示部に表示しても良い。または、出力画像を、不図示のCD-ROMドライブやUSBインターフェースなどインターフェース機器を介して、画像処理装置100の外部の不図示の記憶媒体に記憶しても良い。なお、取得部101、メイン部102、入力部103、および、出力部104の間で情報(データ)をやり取りするための配線や無線に関しては、公知の構成を利用することができるため、それらの説明は省略する。
メイン部102、入力部103、および、出力部104の機能を記述したプログラムを計算機に実行させることで、画像処理装置100の機能を、計算機上で実現しても良い。同様に、メイン部102、入力部103、出力部104の機能を記述したプログラムをVLSIへ電子回路として実装し、画像処理装置100の機能を実現しても良い。
図2は、別形態の画像処理装置100aの構成図である。図2において、取得部101はデジタルカメラ(撮像装置)、メイン部102、入力部103、および、出力部104はPCであり、画像処理結果である出力画像はディスプレイに表示する例を示している。
図3は、更に別形態の画像処理装置100bの構成図であり、画像処理装置100をデジタルカメラ(撮像装置)として実現した構成図である。図3の画像処理装置100bは、レンズ、イメージセンサ、画像処理エンジン、および、モニタを備えている。図3において、取得部101は、レンズ(撮像光学系)およびイメージセンサ(撮像素子)を含む撮像部に相当する。メイン部102、入力部103、および、出力部104は、デジタルカメラの画像処理エンジンに相当する。
図4は、本実施形態における画像処理方法を示すフローチャートである。図4の各ステップは、例えば画像処理装置100の記憶部に記憶されたプログラムに従って、取得部101、メイン部102、入力部103、または、出力部104により実行される。
まずステップS401において、取得部101は、入力画像を取得する。入力画像は、例えば、撮像光学系により劣化した劣化画像である。続いてステップS402において、メイン部102は、少なくとも2層(複数層)の第1の畳み込みニューラルネットワーク(第1のCNN)を用いて、入力画像を第1の特徴量の情報に変換する。例えばメイン部102は、入力画像に対して、複数枚のフィルタを畳み込んだ後、非線形演算する処理を繰り返すことにより、第1の特徴量の情報として複数解像度の特徴マップを生成する。
続いてステップS403において、入力部103は、第2の畳み込みニューラルネットワーク(第2のCNN)を用いて、入力画像を第2の特徴量の情報に変換する。例えば入力部103は、入力画像に対して、複数枚かつ複数種類のサイズのフィルタを畳み込むことにより、第2の特徴量の情報として複数解像度の特徴マップを生成する。
続いてステップS404において、メイン部102、入力部103、または、出力部104の少なくとも一つは、第1の特徴量の情報と第2の特徴量の情報とを加算して第3の特徴量の情報を生成する。ここで、第1の特徴量の情報と第2の特徴量の情報との加算は、例えば、第1の特徴量の情報と、第1の特徴量の情報と解像度が等しい第2の特徴量の情報と、に関する要素ごとの和を算出することで行われる。
続いてステップS405において、出力部104は、第3の畳み込みニューラルネットワーク(第3のCNN)を用いて、第1の特徴量の情報と第2の特徴量の情報とを加算して生成された第3の特徴量の情報を出力画像に変換する。例えば出力部104は、第3の特徴量の情報に対して、複数枚かつ複数種類のサイズのフィルタの逆畳み込みを行った後、非線形演算を行うことで得られる特徴マップに対して重み付けを行うことにより、第3の特徴量の情報を出力画像へ変換する。非線形演算としては、例えば、LReLUまたはPReLUが用いられる。出力画像は、入力画像を鮮鋭化した鮮鋭画像である。なお本実施形態において、好ましくは、第1のCNNで用いられる第1のフィルタおよび第1のバイアスは、第2のCNNで用いられる第2のフィルタおよび第2のバイアスとそれぞれ互いに異なる。
以下、本発明の各効果を示す実施例を説明する。
まず、本発明の実施例1について説明する。本実施例では、画像処理装置100の機能を記述したプログラムを用いて、超解像(super resolution)した数値計算の結果を示す。ここで、超解像とは低解像度のイメージセンサを備えた撮像装置で取得される低解像度画像から、高解像度画像を生成する画像処理技術である。
図5を参照して、本実施例におけるCNNのネットワーク構造について説明する。図5は、CNNのネットワーク構造を示す図である。CNNは、図5において、convは畳み込み層を、deconvは逆(転置)畳み込み層を表している。また、各層の上の数字列はフィルタの縦横サイズ、チャンネル数、および枚数を表している。例えば、図5中「3×3×1×8」は縦横サイズ3×3、チャンネル数1、枚数8枚のフィルタで畳み込み、または逆(転置)畳み込みを行うことを表している。また、図5中の
Figure 0007146372000010
印は、特徴マップの要素ごとの和を表している。また、図5中の「☆」印については後述する。なお図5において、取得部101は省略して入力(低解像度)画像で代えている。
メイン部102は、6回のフィルタの畳み込み、それに続くバイアスの加算、および、非線形演算を行う多層CNNからなる。なお、フィルタの縦横サイズはいずれも3×3であるが、これは簡単のためであり、本実施例はこれに限定されるものではない。非線形演算はReLUを用いているが、簡単のためであり、本実施例はこれに限定されるものではない。メイン部102は6層の多層CNNであるが、本実施例はこれに限定されるものではなく、7層や8層などでも良い。
入力部103は、5つの互いに異なるフィルタサイズを有するCNNからなる。なお、フィルタサイズは図5に示される通りである。ここで、ネットワークの「☆」印に着目すると、メイン部102からは入力画像に対して、縦横サイズ3×3のフィルタが2回畳み込まれて得られる特徴マップが送られてくる。一方、入力部103からは入力画像に対して、縦横サイズ5×5のフィルタが1回畳み込まれて得られる特徴マップが送られてくる。これらの解像度の等しい特徴マップ(式(6)参照)に対して、前述した足し合わせの後、非線形演算を行い、メイン部102の次の畳み込み層と出力部104へ送られる。なお、入力部103は5つの互い異なるフィルタサイズを有するCNNからなるが、本実施例はこれに限定されるものではない。例えば、メイン部102が7層になれば、入力部103は6つのCNNで構成されても良い。また、入力画像にある解像度の情報が存在しない、または、計算機のメモリを削減したい場合、入力部103のCNNを削減してもよい。
出力部104は、6つの互いに異なるフィルタサイズを有するCNNからなる。なお、フィルタサイズは図5に示した通りである。また、非線形演算にはLReLUが用いられている。なお、出力部104は6つの互い異なるフィルタサイズを有するCNNからなるが、本実施例はこれに限定されるものではない。例えば、メイン部102が7層であれば、入力部103は7つのCNNで構成されても良い。また、入力部103と同様に、入力画像にある解像度の情報が存在しない、または、計算機のメモリを削減したい場合、出力部104のCNNを削減することもできる。
訓練画像としては、高解像度画像(出力訓練画像)に対して適当なぼけを加えたのち、得られた画像の2×2画素を平均化することで、1/2にダウンサンプリングして生成した低解像度画像(入力訓練画像)を用いている。より正確には、この低解像度画像をバイキュービック(Bicubic)補間により2倍アップサンプリングした画像を、入力訓練画像として用いている。これは、画像処理精度向上のための処理ではなく、単に入出力画像の画素数を合わせるためである。また、訓練画像はモノクロ画像であり、画素値は[0 1]の範囲になるように規格化している。これは、以下の全ての画像において同様である。
ネットワークパラメータ(フィルタおよびバイアス)の初期値は、全ての層でXavierを用いている。なお、学習で得られるネットワークパラメータのうち、一部を用いて画像処理を行っても良い。これにより、画像処理精度は低下するが、畳み込みの回数が減ることで、処理の高速化が期待できる。例えば、学習で生成した入力部103の5つのCNNのうち、画像処理ではそのうち3つを用いて処理を行っても良い。また、以下では学習で得られるネットワークパラメータを省略せず、全てを用いて画像処理を行っている。
学習は、最適化法としてAdam法を用いたSGDである。なお、Adam法のパラメータはα=10-4、β=0.9、β=0.999、ε=10-8である。また、SGDは訓練画像全枚数76800枚から、ランダムに128枚選択して用いている。学習の反復回数は、18×10回(300エポック)である。
図6は、本実施例における画像処理結果の説明図である。図6(a)は低解像度画像のバイキュービック補間画像、図6(b)は本実施例による高解像度画像、図6(c)は正解画像をそれぞれ示している。なお、各図の下段には分かり易さのため、各図の一部を拡大した図が示してある。これより、本実施例によれば、補間画像に比べて正解画像に近い鮮鋭な(ぼけのない)画像が得られることが定性的に分かる。
次に、本実施例の効果を2乗平均平方根誤差(Root Mean Square Error:RMSE)で定量的に評価した。なお、RMSEは以下の式(10)で与えられる。
Figure 0007146372000011
式(10)において、P、Qは任意のM×1次元ベクトル、p、qは各々P、Qのi番目の要素、である。なお、RMSEがゼロに近いほど、P、Qが類似していることを意味する。すなわち、回復画像と正解画像とのRMSEがゼロに近いほど、高精度に回復できていると言える。
表1に、低解像画像のバイキュービック補間画像と正解画像のRMSE、本発明による高解像度画像と正解画像のRMSEを示す。これより、前者より後者の方がゼロに近いことから、超解像できていることが定量的に分かる。
Figure 0007146372000012
次に、本実施例に関して、従来技術との比較を行う。なお、従来技術として非特許文献4で開示されている、多層CNNに基づく超解像手法RED-Net(Residual Encoder-Decoder Networks)を用いた。また、RED-Netは5層の畳み込み層と、それと対称に配置した5層の逆(転置)畳み込み層との間を、ショートカット経路で結んだ、全10層のネットワーク構造である。学習は、本実施例と同様に、最適化法としてAdam法を用いたSGDである。また、Adam法とSGDに用いたパラメータおよび訓練画像も本実施例と同様である。より詳細なネットワーク構造や学習方法に関しては、非特許文献4に記載されている。
図7は、従来技術による高解像度画像である。これより、補間画像と比べると正解画像に近い鮮鋭な(ぼけのない)画像が得られることが分かる。ただし、拡大図を見ると従来技術による高解像度画像には、エッジ付近に偽エッジ(リンギング)が生じていることが分かる。一方、本実施例による画像処理後の画像には、偽エッジは生じていない。
表2に、従来技術による高解像度画像と正解画像とのRMSEを示す。
Figure 0007146372000013
これより、本実施例による高解像度画像と正解画像とのRMSEの方が、従来技術による高解像度画像と正解画像とのRMSEより、ゼロに近いことから、本実施例の方が高精度に超解像できていることが定量的に分かる。
分かり易さのため、本実施例と従来技術、正解画像の拡大図の一断面図を図8に示す。図8において、実線(―)が正解画像、破線(--)が従来技術、点線(・・)が本発明である。また、図8中の横軸は断面の画素位置、縦軸は画素値をそれぞれ示している。画素値は[0 1]の範囲になるように規格化し示している。これより、本実施例によれば、(1)グラフ左の平坦部に従来技術では見られるアーティファクトが抑制されていること、および、(2)画素値のピークの裾野に従来技術では見られるアーティファクトが抑制されていることが分かる。
次に、本発明の実施例2について説明する。本実施例では、画像処理装置100を用いた、ぼけ除去(deblur)を説明する。ぼけ除去とは、ぼけ画像から、主に画像処理装置100の取得部101に起因するぼけ(結像光学系の回折限界が代表的)を除去する画像処理技術である。なお本実施例は、訓練画像の生成方法の点で実施例1と異なるため、訓練画像の生成方法についてのみ説明する。
訓練画像としては、鮮鋭画像(出力訓練画像)に対してぼけを加えて生成したぼけ画像(入力訓練画像)が用いられる。ここで、ぼけは取得部101の劣化要因により生じる。具体的には、取得部101がデジタルカメラの場合、結像光学系の収差、光学ローパスフィルタ、イメージセンサの画素開口などにより生じる。これらの劣化過程を全て既知であるとして、数値計算により訓練画像を生成する。または、既知の対象をデジタルカメラで取得することにより、訓練画像を準備する。この訓練画像を用いてネットワークパラメータを学習した後、得られたパラメータを用いて、実施例1と同様に入力画像(ぼけ画像)を画像処理装置100で処理することにより、ぼけを除去した鮮鋭な画像が得られる。
次に、本発明の実施例3について説明する。本実施例では、画像処理装置100を用いた画像認識(image recognition)を説明する。画像認識とは、入力画像を予め定めたクラス(集合)に分類する画像処理技術である。例えば、アルファベット文字画像を26クラスに分類する画像処理技術は、光学文字認識(Optical Character Recognition:OCR)として知られている。なお、画像認識には様々な定義や種類があるが、本実施例では簡単のため前述の定義とする。なお本実施例では、実施例1または実施例2と異なる点のみを説明する。
画像認識において、出力部104の出力は画像ではなく、一般に認識結果であるクラスを表した数字である。よって、出力部104には数字を出力することに特化したネットワーク(全結合のニューラルネットワーク)を追加する。学習に用いる訓練画像は、入力訓練画像とそれが属するクラスからなるデータセットである。この訓練画像を数値計算で生成することは難しいため、人の手を使って準備するのが一般的である。すなわち、ウエブ上で多くの画像を収集し、それらを適当なサイズ・解像度にトリミング・ダウンサンプリングし、人の目でクラス分類することで、訓練画像を準備する。最後に、この訓練画像を用いてネットワークパラメータを学習した後、得られたパラメータを用いて、実施例1と同様に入力画像を画像処理装置100で処理することにより、入力画像を認識することができる。
なお、全結合のニューラルネットワークの学習方法は、CNNの学習方法と同じである。これは、CNNは突き詰めると全結合のニューラルネットワークの一種だからであるが、ここでは詳細な説明は割愛する。
また、全結合のニューラルネットワークの代わりに、適当な分類器(classifer)を用いても良い。例えば、サポートベクターマシン(Support Vector Machines;SVMs)や、ランダム決定木(Randam Forest;RF)などを用いても良い。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
各実施例によれば、多重解像度表現の情報の利用が可能であるとともに多層ネットワークの学習が可能なネットワーク構造を用いて、高精度な画像処理が可能な画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体を提供することができる。
以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
100 画像処理装置
102 メイン部
103 入力部
104 出力部

Claims (13)

  1. 入力画像を少なくとも2層の第1の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第1の特徴量の情報に変換するメイン部と、
    前記第1の畳み込みニューラルネットワークに入力された前記入力画像と同じ解像度である前記入力画像を第2の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第2の特徴量の情報に変換する入力部と、
    第3の畳み込みニューラルネットワークを用いて、前記第1の特徴量の情報と前記第2の特徴量の情報との加算により生成された第3の特徴量の情報を含む特徴量の情報を出力画像に変換する出力部と、を有し、
    前記メイン部は、前記入力画像に対して、複数のフィルタを畳み込んだ後、非線形演算する処理を繰り返すことにより、前記第1の特徴量の情報として複数解像度の特徴マップを生成し、
    前記入力部は、前記入力画像に対して、複数種類のサイズを含む複数のフィルタを畳み込むことにより、前記第2の特徴量の情報として複数解像度の特徴マップを生成することを特徴とする画像処理装置。
  2. 前記第1の特徴量の情報と前記第2の特徴量の情報との加算は、前記第1の特徴量の情報と、該第1の特徴量の情報と解像度が等しい前記第2の特徴量の情報と、に関する要素ごとの和を算出することで行われることを特徴とする請求項1に記載の画像処理装置。
  3. 前記メイン部、前記入力部、または、前記出力部の少なくとも一つは、前記第1の特徴量の情報と前記第2の特徴量の情報との加算により前記第3の特徴量の情報を生成することを特徴とする請求項1または2に記載の画像処理装置。
  4. 前記出力部は、前記第3の特徴量の情報に対して、複数種類のサイズのフィルタで逆畳み込みを行った後、非線形演算を行うことで得られる特徴マップに対して重み付けを行うことにより、前記第3の特徴量の情報を前記出力画像に変換することを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  5. 前記出力部は、前記非線形演算として、Leaky ReLUまたはParametric ReLUを用いることを特徴とする請求項に記載の画像処理装置。
  6. 前記第1のニューラルネットワークで用いられる第1のフィルタおよび第1のバイアスは、前記第2のニューラルネットワークで用いられる第2のフィルタおよび第2のバイアスとそれぞれ互いに異なることを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  7. 前記入力画像を取得する取得部を更に有し、
    前記メイン部は、前記取得部により取得された前記入力画像を前記第1の特徴量の情報に変換し、
    前記入力部は、前記取得部により取得された前記入力画像を前記第2の特徴量の情報に変換することを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  8. 前記取得部は、前記入力画像として劣化画像を取得することを特徴とする請求項に記載の画像処理装置。
  9. 前記出力部は、前記出力画像として、前記入力画像を鮮鋭化した鮮鋭画像を出力することを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  10. 入力画像を取得する撮像部と、
    前記入力画像を少なくとも2層の第1の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第1の特徴量の情報に変換するメイン部と、
    前記第1の畳み込みニューラルネットワークに入力された前記入力画像と同じ解像度である前記入力画像を第2の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第2の特徴量の情報に変換する入力部と、
    第3の畳み込みニューラルネットワークを用いて、前記第1の特徴量の情報と前記第2の特徴量の情報との加算により生成された第3の特徴量の情報を含む特徴量の情報を出力画像に変換する出力部と、を有し、
    前記メイン部は、前記入力画像に対して、複数のフィルタを畳み込んだ後、非線形演算する処理を繰り返すことにより、前記第1の特徴量の情報として複数解像度の特徴マップを生成し、
    前記入力部は、前記入力画像に対して、複数種類のサイズを含む複数のフィルタを畳み込むことにより、前記第2の特徴量の情報として複数解像度の特徴マップを生成することを特徴とする撮像装置。
  11. 入力画像を少なくとも2層の第1の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第1の特徴量の情報に変換するステップと、
    前記第1の畳み込みニューラルネットワークに入力された前記入力画像と同じ解像度である前記入力画像を第2の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第2の特徴量の情報に変換するステップと、
    第3の畳み込みニューラルネットワークを用いて、前記第1の特徴量の情報と前記第2の特徴量の情報との加算により生成された第3の特徴量の情報を含む特徴量の情報を出力画像に変換するステップと、を有し、
    前記入力画像を第1の特徴量の情報に変換するステップは、前記入力画像に対して、複数のフィルタを畳み込んだ後、非線形演算する処理を繰り返すことにより、前記第1の特徴量の情報として複数解像度の特徴マップを生成し、
    前記入力画像を第2の特徴量の情報に変換するステップは、前記入力画像に対して、複数種類のサイズを含む複数のフィルタを畳み込むことにより、前記第2の特徴量の情報として複数解像度の特徴マップを生成することを特徴とする画像処理方法。
  12. 入力画像を少なくとも2層の第1の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第1の特徴量の情報に変換するステップと、
    前記第1の畳み込みニューラルネットワークに入力された前記入力画像と同じ解像度である前記入力画像を第2の畳み込みニューラルネットワークの畳み込み層に入力することで、前記入力画像を第2の特徴量の情報に変換するステップと、
    第3の畳み込みニューラルネットワークを用いて、前記第1の特徴量の情報と前記第2の特徴量の情報との加算により生成された第3の特徴量の情報を含む特徴量の情報を出力画像に変換するステップと、をコンピュータに実行させ
    前記入力画像を第1の特徴量の情報に変換するステップは、前記入力画像に対して、複数のフィルタを畳み込んだ後、非線形演算する処理を繰り返すことにより、前記第1の特徴量の情報として複数解像度の特徴マップを生成し、
    前記入力画像を第2の特徴量の情報に変換するステップは、前記入力画像に対して、複数種類のサイズを含む複数のフィルタを畳み込むことにより、前記第2の特徴量の情報として複数解像度の特徴マップを生成することを特徴とするプログラム。
  13. 請求項12に記載のプログラムを記憶していることを特徴とするコンピュータが読み取り可能な記憶媒体。
JP2017120955A 2017-06-21 2017-06-21 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体 Active JP7146372B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2017120955A JP7146372B2 (ja) 2017-06-21 2017-06-21 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体
PCT/JP2018/022997 WO2018235746A1 (ja) 2017-06-21 2018-06-15 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体
EP18821356.5A EP3644270A4 (en) 2017-06-21 2018-06-15 IMAGE PROCESSING DEVICE, IMAGING DEVICE, IMAGE PROCESSING METHOD, PROGRAM AND STORAGE MEDIUM
CN201880040227.5A CN110770784B (zh) 2017-06-21 2018-06-15 图像处理装置、成像装置、图像处理方法、程序、以及存储介质
US16/715,042 US11354537B2 (en) 2017-06-21 2019-12-16 Image processing apparatus, imaging apparatus, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017120955A JP7146372B2 (ja) 2017-06-21 2017-06-21 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体

Publications (2)

Publication Number Publication Date
JP2019008383A JP2019008383A (ja) 2019-01-17
JP7146372B2 true JP7146372B2 (ja) 2022-10-04

Family

ID=64736973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017120955A Active JP7146372B2 (ja) 2017-06-21 2017-06-21 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体

Country Status (5)

Country Link
US (1) US11354537B2 (ja)
EP (1) EP3644270A4 (ja)
JP (1) JP7146372B2 (ja)
CN (1) CN110770784B (ja)
WO (1) WO2018235746A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7225831B2 (ja) * 2019-01-23 2023-02-21 富士通株式会社 演算処理装置,プログラム及び演算処理装置の制御方法
CN113490955B (zh) * 2019-02-25 2024-09-10 谷歌有限责任公司 用于产生金字塔层的架构的系统和方法
CN109919874B (zh) * 2019-03-07 2023-06-02 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
JP6737997B1 (ja) * 2019-03-14 2020-08-12 Navier株式会社 画像処理学習プログラム、画像処理プログラム、情報処理装置及び画像処理システム
CN110097522B (zh) * 2019-05-14 2021-03-19 燕山大学 一种基于多尺度卷积神经网络的单幅户外图像去雾方法
JP7133585B2 (ja) * 2019-06-13 2022-09-08 ネイバー コーポレーション オブジェクト認識装置およびオブジェクト認識方法
AU2019461061B2 (en) * 2019-08-14 2023-03-30 Nippon Telegraph And Telephone Corporation Secure gradient descent computation method, secure deep learning method, secure gradient descent computation system, secure deep learning system, secure computation apparatus, and program
CN110567887A (zh) * 2019-09-12 2019-12-13 中国计量大学 一种基于光谱成像和深度学习技术的干茧茧层丝胶溶失率的无损检测方法
EP4042341A4 (en) * 2019-10-10 2024-02-07 B.G. Negev Technologies and Applications Ltd., at Ben-Gurion University TEMPORAL MODELING OF NEURODEGENERATIVE DISEASES
JP2023058758A (ja) * 2020-03-19 2023-04-26 ソニーセミコンダクタソリューションズ株式会社 データ生成方法、学習方法、推定方法、データ生成装置及びプログラム
CN111915481B (zh) * 2020-06-08 2024-03-29 北京大米未来科技有限公司 图像处理方法、装置、电子设备及介质
CN112184573B (zh) * 2020-09-15 2023-05-16 西安理工大学 基于卷积神经网络的上下文聚合残差单幅图像去雨方法
WO2022099710A1 (zh) * 2020-11-16 2022-05-19 京东方科技集团股份有限公司 图像重建方法、电子设备和计算机可读存储介质
CN112488943B (zh) * 2020-12-02 2024-02-02 北京字跳网络技术有限公司 模型训练和图像去雾方法、装置、设备
CN113591675A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 图像识别模型的构建方法、装置、设备以及存储介质
CN113361496B (zh) * 2021-08-09 2021-12-17 深圳市勘察研究院有限公司 一种基于U-Net的城市建成区统计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
JP2018195293A (ja) 2017-05-18 2018-12-06 三菱電機株式会社 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3117204B2 (ja) * 1989-09-08 2000-12-11 株式会社東芝 制御物理変量発生用および物体識別用ニューラル・ネット
EP0892956A4 (en) * 1996-02-09 2002-07-24 Sarnoff Corp METHOD AND APPARATUS FOR FORMING A NEURONAL NETWORK FOR THE DETECTION AND CLASSIFICATION OF OBJECTS WITH UNCERTAINED TRAINING DATA
JP2001005967A (ja) * 1999-06-21 2001-01-12 Matsushita Electric Ind Co Ltd 画像送信装置及びニューラルネットワーク
US8514303B2 (en) * 2006-04-03 2013-08-20 Omnivision Technologies, Inc. Advanced imaging systems and methods utilizing nonlinear and/or spatially varying image processing
US9811775B2 (en) * 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
WO2016054802A1 (en) * 2014-10-10 2016-04-14 Beijing Kuangshi Technology Co., Ltd. Hierarchical interlinked multi-scale convolutional network for image parsing
JP6360802B2 (ja) * 2015-02-20 2018-07-18 株式会社デンソーアイティーラボラトリ ニューラルネットワーク処理装置、ニューラルネットワーク処理方法、検出装置、検出方法、および、車両
CN105120130B (zh) * 2015-09-17 2018-06-29 京东方科技集团股份有限公司 一种图像升频系统、其训练方法及图像升频方法
JP6158882B2 (ja) * 2015-09-18 2017-07-05 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
GB2549554A (en) * 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
CN106709875B (zh) * 2016-12-30 2020-02-18 北京工业大学 一种基于联合深度网络的压缩低分辨率图像复原方法
US11354577B2 (en) * 2017-03-15 2022-06-07 Samsung Electronics Co., Ltd System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
JP2018195293A (ja) 2017-05-18 2018-12-06 三菱電機株式会社 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Gabriel L. Oliveira,et al.,Efficient and Robust Deep Networks for Semantic Segmentation,The International Journal of Robotics Research,2017,インターネット <URL:http://lmb.informatik.uni-freibrug.de/Publications/2017/OB17a>
Guosheng Lin,et al.,RefineNet:Multi-Path Refinement Networks for High-Resolution Semantic Segmentation,Proc. of IEEE Conf. on Computer Vision and Pattern Recognition,pp.1925-1934,2017.
Saining Xie,et al.,Holistically-nested edge detection,Proc. of IEEE Int.Conf. on Computer Vision,pp.1395-1403,2015
Satoshi Iizuka, et al., Let there be color!:joint end-to-end learning of global and local image prior for automatic image colorization with simultaneous classification, ACM Trans. On Graphics, Vol.35,issue 4,pp.1-11,2016.7

Also Published As

Publication number Publication date
EP3644270A4 (en) 2021-03-24
EP3644270A1 (en) 2020-04-29
US11354537B2 (en) 2022-06-07
WO2018235746A1 (ja) 2018-12-27
CN110770784A (zh) 2020-02-07
CN110770784B (zh) 2023-09-01
US20200117949A1 (en) 2020-04-16
JP2019008383A (ja) 2019-01-17

Similar Documents

Publication Publication Date Title
JP7146372B2 (ja) 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体
Sun et al. Learned image downscaling for upscaling using content adaptive resampler
CN109064396B (zh) 一种基于深度成分学习网络的单幅图像超分辨率重建方法
Yuan et al. Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks
JP6957197B2 (ja) 画像処理装置および画像処理方法
Liu et al. Robust single image super-resolution via deep networks with sparse prior
CN112446383B (zh) 车牌识别方法及装置、存储介质、终端
Wang et al. Deep networks for image super-resolution with sparse prior
Ren et al. Single image super-resolution via adaptive high-dimensional non-local total variation and adaptive geometric feature
Zhang et al. Image super-resolution based on structure-modulated sparse representation
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN111553867B (zh) 一种图像去模糊方法、装置、计算机设备及存储介质
Xu et al. Joint demosaicing and super-resolution (JDSR): Network design and perceptual optimization
Zhang et al. Accurate and efficient image super-resolution via global-local adjusting dense network
Ren et al. Adjusted non-local regression and directional smoothness for image restoration
CN116188272B (zh) 适用于多模糊核的两阶段深度网络图像超分辨率重建方法
Shoeiby et al. PIRM2018 challenge on spectral image super-resolution: methods and results
JP2021087201A (ja) 画像処理装置、画像処理方法、学習装置、学習方法、撮像装置、及びプログラム
CN118052717A (zh) 图像超分模型的训练方法和图像超分方法
JP2023003763A (ja) 学習装置、画像処理装置、学習処理方法、及びプログラム
Liu et al. A densely connected face super-resolution network based on attention mechanism
Que et al. Single image super-resolution via deep progressive multi-scale fusion networks
Albluwi et al. Super-resolution on degraded low-resolution images using convolutional neural networks
CN116740399A (zh) 异源图像匹配模型的训练方法、匹配方法及介质
JP2020064557A (ja) 画像処理装置、画像処理システム、撮像装置、画像処理方法、および、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210611

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210924

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210924

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211004

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211005

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20211015

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20211019

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220510

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220708

C302 Record of communication

Free format text: JAPANESE INTERMEDIATE CODE: C302

Effective date: 20220722

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220726

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220823

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220921

R151 Written notification of patent or utility model registration

Ref document number: 7146372

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151