JP6873600B2 - 画像認識装置、画像認識方法及びプログラム - Google Patents

画像認識装置、画像認識方法及びプログラム Download PDF

Info

Publication number
JP6873600B2
JP6873600B2 JP2016042166A JP2016042166A JP6873600B2 JP 6873600 B2 JP6873600 B2 JP 6873600B2 JP 2016042166 A JP2016042166 A JP 2016042166A JP 2016042166 A JP2016042166 A JP 2016042166A JP 6873600 B2 JP6873600 B2 JP 6873600B2
Authority
JP
Japan
Prior art keywords
feature
image
region
scale
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016042166A
Other languages
English (en)
Other versions
JP2017157138A (ja
Inventor
俊太 舘
俊太 舘
小川 修平
修平 小川
奥野 泰弘
泰弘 奥野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016042166A priority Critical patent/JP6873600B2/ja
Publication of JP2017157138A publication Critical patent/JP2017157138A/ja
Application granted granted Critical
Publication of JP6873600B2 publication Critical patent/JP6873600B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、対象画像を認識する画像認識技術に関する。
画像中の被写体を学習、認識するために、非特許文献1のような深層学習と呼ばれる手法が存在する。深層学習の代表的な手法として、コンボリューショナル・ニューラル・ネットワーク(以下、CNNと略記する)と呼ばれる手法がある。一般的なCNNは、多段階の演算からなる。CNNの各段階では畳み込み演算を行って画像の局所の特徴を空間的に統合し、次の段階の中間層のニューロンへ入力する。さらにプーリングやサブサンプリングと呼ばれる、特徴量を空間方向へ圧縮する操作を行う。CNNは、このような多段階の特徴変換を通じて複雑な特徴表現を獲得することができる。そのため同特徴量に基づいて画像中の被写体のカテゴリ認識を高精度に行うことができる。
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25 (NIPS’12), 2012 R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, and S. Susstrunk, SLIC Superpixels Compared to State−of−the−art Superpixel Methods, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, num. 11, p. 2274 − 2282, 2012. Koen E. A. van de Sande, Jasper R. R. Uijlings, Theo Gevers, Arnold W. M. Smeulders, Segmentation As Selective Search for Object Recognition, IEEE International Conference on Computer Vision, 2011 Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik, Rich feature hierarchies for accurate object detection and semantic segmentation, In Proceedings of the Conference on Computer Vision and Pattern Recognition, 2014
空間方向に画像情報の畳み込みおよび圧縮等を行う従来の深層学習は、被写体の見えのパターンの変形や位置ずれに対して柔軟に認識を行うことができる。一方で、この特性により認識結果の位置精度や解像度が低下し、高精度に画像認識を行うことができないという問題があった。
上記課題を解決するために、本発明は、対象画像を取得する取得手段と、前記取得した対象画像を、それぞれ異なる分割数の領域に分割し、互いに分割数の異なる少なくとも3つの領域群を生成する生成手段と、前記領域群の領域ごとに特徴量を抽出し、当該領域内の各位置に割り当てる抽出手段と、前記領域群のそれぞれにおける同一の位置の特徴量を、前記領域群を前記分割数の順に並べた順位において順位の隣接する複数の領域群を、重複を許して所定個ずつグループ化し、グループごとに特徴量を統合し、各グループの特徴量を再度グループ化してグループごとに統合する処理を繰り返すことで、前記領域群のそれぞれにおける同一の位置の特徴量を段階的に統合する統合手段と、前記統合された特徴量に基づいて前記対象画像のカテゴリを判定する判定手段と、を有することを特徴とする。
以上の構成によれば、本発明は、画像認識の精度を高めることができる。
第1の実施形態に係る画像認識装置の機能構成を示すブロック図。 第1の実施形態に係る画像認識装置による認識処理の概略図。 第1の実施形態に係る画像認識装置による認識処理のフローチャート。 第1の実施形態に係る認識処理の詳細を示すフローチャート。 第1の実施形態において特徴変換の処理結果の一例を示す図。 第1の実施形態に係る認識処理により得られる特徴量の一例を示す図。 第1の実施形態に係る認識処理の詳細を示すフローチャート。 第1の実施形態の変形例に係る特徴変換の処理を模式的に示す図。 第2の実施形態に係る画像認識装置の機能構成を示すブロック図。 第2の実施形態に係る画像認識装置による認識処理の概略図。 第2の実施形態に係る特徴抽出処理の詳細の概略図。 第2の実施形態に係る特徴変換の演算を説明する概略図。 第2の実施形態に係る画像認識装置による認識処理のフローチャート。 第2の実施形態に係る特徴変換に関するパラメータの例を示す図。 第3の実施形態に係る特徴変換の処理を模式的に示す図。 第3の実施形態に係る画像認識装置による認識処理のフローチャート。 第4の実施形態に係る画像認識装置の認識処理を概略的に示す概略図。 第4の実施形態に係る画像認識装置による認識処理のフローチャート。 第4の実施形態に係る特徴変換の変形例を示す図。
[第1の実施形態]
以下、本発明の第1の実施形態について、図面を参照しながら説明する。なお、本実施形態に係る画像認識装置は、対象画像中の被写体のカテゴリを判別し被写体ごとの領域に分割する意味的領域分割を行うものとする。また、被写体のカテゴリとしては、空、建物、山、道路の4種類の一般的なカテゴリであるとする。
図1は、本実施形態に係る画像認識装置の機能構成を示す概略ブロック図である。画像認識装置100は、CPU、ROM、RAM、HDD等のハードウェア構成を備え、CPUがROMやHD等に格納されたプログラムを実行することにより、例えば、後述する各機能構成やフローチャートの処理が実現される。RAMは、CPUがプログラムを展開して実行するワークエリアとして機能する記憶領域を有する。ROMは、CPUが実行するプログラム等を格納する記憶領域を有する。HDは、CPUが処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域を有する。
画像認識装置100は、画像認識を行う対象の画像を取得するための画像取得部101、取得された画像から少なくとも3つの異なる空間スケールの特徴量(以降、マルチスケール特徴)を生成する生成処理を行うマルチスケール特徴生成部102を有する。また、マルチスケール特徴を変換する処理を段階的に複数回実行して新たなマルチスケールの特徴量を得るための特徴変換部103を有する。また、特徴変換部103に演算処理の制御データを供給する変換制御データメモリ104、変換された特徴量を保持する中間結果保持部105を有する。またさらに、変換された結果の特徴量に基づいて画像中の領域のカテゴリの判定を行うカテゴリ判定部106、特徴量の生成および変換動作を画像のどの領域に対して、どのようなタイミングで行うかを制御する制御部107を有する。
図2は、本実施形態に係る画像認識処理による認識処理の流れを概略的に説明する図である。同図に示すように、処理が開始されると、画像認識装置100は、まず入力画像から少なくとも3以上の空間スケールの領域群601を生成する。図2には、スケールの異なる5つの領域群601a〜601eを示している。次に、本画像認識装置は領域群601からマルチスケール特徴602を生成する。ここでの特徴量とは、色やテクスチャといった画像の多次元特徴量である。
図2では、領域群601a〜601eの各領域から上記特徴量を抽出することで特徴マップ602a〜602eを生成している。ここで、特徴マップ602a〜602eの各立方体の高さは特徴量のチャンネル数(特徴次元数)を表している。画像認識装置100はこのマルチスケール特徴602に対して複数回の特徴変換処理を段階的に施す。これにより、マルチスケール特徴のスケールの数は段階的に圧縮され、最終的により少数のスケールの中に情報が統合された特徴量605が得られる。なお、特徴変換処理の詳細については後述する。
そして、画像認識装置100は、この特徴量605に基づいて、識別器によって画像の各画素のカテゴリを判定し、その結果をカテゴリ尤度606として出力する。なお、ここでは、白地の部分がそのカテゴリの尤度が高いことを示している。以上が、本実施形態に係る画像認識装置100による認識処理の概略となる。なお、本実施形態の画像認識装置100はCNNを利用する構成となっている。その特徴変換に関するパラメータは非特許文献2等で用いられる確率勾配法を用いた学習の方法などによって予め上記のカテゴリが判定できるように学習済みであるとする(学習方法の詳細については後述する。)
次に、画像認識装置100による認識処理の詳細な流れについて説明する。図3は、画像認識装置100による認識処理のフローチャートである。まず、ステップS101では、画像取得部101が、画像認識装置の記憶領域(ストレージ)やカメラ等の撮像装置等から画像を1枚取得する。ここでの画像は、静止画像もしくは動画像中の1フレームの画像である。
次に、ステップS102では、マルチスケール特徴生成部102が、1枚の画像から複数の空間スケールの領域群を生成する。ここで、どのようなパラメータで特徴を抽出するかの制御情報は制御部107より適宜供給される。
このステップS102の詳細な処理フローを、図4(A)に示す。まず、ステップS1021からS1024まではループの処理であり、以下に説明する処理を所定のS回繰り返す。ここでSは予め定められた画像のスケールの数であり、少なくとも3以上の数が設定される。本実施形態では、S=8とする。次に、ステップS1022では、画像の各画素の特徴に基づいて画像を所定の数の小領域に分割する。分割にはk−meansクラスタリングなどの公知の手法を用いる。画素の特徴としてはRGBの値および画素の位置の情報XYなどを用いるが、必要に応じて他の特徴量を用いてもよい。クラスタリングによって生成する小領域の数は、スケールの深さをkとして、数列2k−1で表される数とする([1,2,4,8,16,32,64,128])。
なお、別の形態の分割手法として、mean Shiftなどの方法を用いてもよい。また、画像を複数の領域に分割するアルゴリズムで、且つ、生成する領域の数や平均のサイズといったスケールに関するパラメータを制御できる手法であれば、他の手法も適用可能である。
また、領域の分割数を2k−1で定めるとしたが、他にも、例えば以下の数式1のようにτ段階で1オクターブ増加する数列([1,2,3,4,6,8,11])等を用いるようにしてもよい。ただし、ここでRound(・)は実数値を整数に丸める演算である。スケールの深さkと分割数、あるいはkと領域の平均の面積の関係は、ここに示すような指数関数が好適であるが、kの増加に伴い単調増加あるいは単調減少するような数列であれば基本的に種々のものが適用可能である。
[数1]
Round(2(k−α)/τ),
α=0.5,τ=2 ・・・(数式1)
ステップS1023では、前段のステップS1022で生成された領域群を認識装置の記憶領域に保存する。このようにしてS個の領域群が得られたら、ステップS1021〜S1024のループ処理を抜け、ステップS102の処理を終了する。図5には、ステップS102の処理結果の一例を示す図であり、同図に示すように、本実施形態ではS個の空間スケールからなる複数スケール領域群401が得られる。
図3のフローチャートに戻ると、次にステップS103では、マルチスケール特徴生成部102が前段で得られた複数の領域群について特徴量を生成する。マルチスケール特徴生成部102が行う処理のフローチャートを、図4(B)に示す。同図において、ステップS1031からS1039はループ処理であり、S個の各スケールについての処理を繰り返す。さらにステップS1032からS1338は、k番目のスケールの領域群のうちの個々の領域jについて繰り返すループ処理である。
ステップS1033からステップS1036までは、各領域jに関する特徴量を抽出する処理である。ここでは、領域の特徴として一般的な3つの特徴量を用いる。それは(1)RGB色ヒストグラム、(2)Local Binary Patternヒストグラム(以下、LBPと略す)、(3)以下の数式2として表わされる領域の形状の二次の重心モーメントである。
[数2]
= 1/n × Σ(I(x)−μ
= 1/n × Σ(I(y)−μ・・・(数式2)
ここで、nは領域jの画素数、μ,μはそれぞれ領域jの重心の座標xおよびy、I(x),I(y)は領域jに含まれる各画素の座標xおよびyである。次に、ステップS1036では、このようにして得られた全特徴を連結して、数式3のように領域jの特徴ベクトルfとする。
[数3]
=[色ヒストグラム特徴,LBP特徴,モーメント特徴・・・(数式3)
ただし、記号Tはベクトルの転置である。ここでは、領域の特徴として3種類の特徴量を利用するとしたが、これ以外に特徴量の形態は様々に考えられる。特徴量は、画像認識装置100で判別すべき被写体の性質や計算量に応じて選択すればよい。
次に、ステップS1037では、このようにして得られた領域jの特徴量fを、画素についての特徴量f(p)として割り当てる。ただし、ここでpとは領域jの内部の各画素のことである。以上の処理を、各スケールと各局所領域について繰り返す。
図3のフローチャートに戻ると、次に、ステップS104では、マルチスケール特徴生成部102が、前段のステップで得られた特徴量f(p)を画素pごとに連結して、複数スケールの特徴ベクトルから成る特徴セットである特徴量F(p)を生成する。特徴量F(p)は、以下の数式4のようにして各スケールの特徴量f(p)〜fS0(p)を並べた行列である。
[数4]
(p)=[f(p), f(p), ...,f(p), ...,fS0(p)]・・・(数式4)
こうして得られた特徴量F(p)の結果の一例を、図6(A)に示す。特徴量F(p)はスケール数S×d次元の2次元行列であり、ここで記号col,LBP,Mx,およびMはそれぞれ色ヒストグラム、LBP、二次モーメントの特徴であることを表している。dは、これらの特徴量の次元の総数である。
図3のフローチャートに戻り、ステップS105からS110において、制御部107が特徴変換部103および中間結果保持部105を制御して、以下で述べる処理をn回繰り返す。ただし、ここで、nはマルチスケールの特徴量F(p)に対して段階的に行う特徴変換の回数であり、本実施形態ではn=3段階とする。
まず、ステップS106では、特徴変換部103が、i段階目の変換用のパラメータを変換制御データメモリ104から読み出す。本実施形態において、特徴変換は畳み込み演算で実現されるものとする。そのため、本ステップでは畳み込みのカーネルCの重みパラメータの値を読み出す。この畳み込みカーネルCは、図5に示すようにc×di+1×dの三次元行列からなる。dとdi+1は、それぞれ特徴変換前と変換後の特徴量の次元数である。cは畳み込みカーネルが畳み込みを行うスケール方向の幅の大きさであり、何スケール分を畳み込んで変換するかを表す(図の例ではc=3としている)。
次に、図3のステップS107からステップS109は、ステップS108の特徴変換処理を画像の全画素について繰り返す処理である。ステップS108では、特徴変換部103が、前段で読み出した畳み込みのカーネルCの値を用いて、各画素pの特徴量F(p)に対して特徴変換を行う。その結果、特徴量F(p)は変換されて、異なるスケールの特徴量F(p)となる。なお、この変換によって得られる特徴量のチャンネル数(次元数)di+1は設定次第である。ここでは、d≦di+1であるとして段階的に特徴チャンネルの次元数が増加する形態であるとする。
ステップS108の詳細な処理のフローを、図7に示す。また、図5には、畳み込み演算404の概略を示す模式図が示されている。まず、ステップS1081では、前段で読み出した畳み込みのカーネルCを使って、数式5の畳み込み演算を行う。
[数5]
i+1(p)=F(p)*C ・・・(数式5)
ただし、この畳み込み演算を詳細化すると数式6のように表される。
[数6]
i+1(p,k,d’)=ΣΣ−1≦τ≦1(p,τ,d)×C(k−τ,d’,d) ・・・(数式6)
ここで、F(p,k,d)は、特徴量F(p)のうち、k番目のスケール且つd番目の特徴チャンネルの値のことである。畳み込み変換後の特徴量Gi+1(p,k,d)についても、同様である。次に、上記の畳み込み演算で得られた特徴量Gi+1(p)に対して、スップS1082では、数式7で表わされる活性化関数θによる非線形な演算処理を行う。
[数7]
G’i+1(p)=θ(Gi+1(p)),
θ(x)= Max(0,x) ・・・(数式7)
上記の活性化関数θは、半波整流の関数である。ただし、活性化関数θとしては、これに限らず、シグモイド関数や区分線形凸関数等、様々な形態を用いることができる。次に、ステップS1083では、プーリングと呼ばれる圧縮処理を行ってスケールの数を半減させる。ここでは、特徴量G’i+1(p)を構成するm個のスケールの特徴量を平均し、1個の特徴量に代表させる平均化プーリング演算406を行う。上記の畳み込みおよびプーリング処理により、特徴変換前のスケール数sは以下の数式8で表わされるスケール数si+1に圧縮される。
[数8]
i+1=(s−c+1)/m・・・(数式8)
次に、ステップS1084では、上記プーリング演算の結果得られた特徴量をL2正規化し、結果を新たな特徴量Fi+1(p)とする。なお、上記プーリング演算の処理は、例えば非特許文献1などの先行手法に開示されているように、最大値プーリングや、サンプリング処理など他の形態も有り得る。また、特徴変換の段階によっては、m=1(即ちプーリング演算を行わない)をとるような段階があってもよい。L2正規化の他の形態についても同様であり、これらの手法は公知の内容であるため、ここでは詳細の説明は省略する。
図3に戻り、ステップS110のループを抜けると、最終的に中間結果保持部105には各画素pについての特徴量F(p)が保持されることになる。特徴量F(p)は1つの画像スケールのみからなるd次元の特徴ベクトルである。図6(C)には、特徴量F(p)の一例を示す。図6(A)〜(C)に示すように、特徴変換を施すことにより、画像のスケール方向の情報は徐々に圧縮されていく。同時に、特徴量の各チャンネルには複数のスケールのパターンの組み合わせの情報が畳み込まれていく。
従来のCNNにおいては、畳み込みおよびプーリングといった特徴変換処理を画像の空間方向に対して段階的に行う。この結果、線分や曲線といった局所パターン、およびそれらが統合された顔のような複雑なパターンに反応するような受容野が形成されることが知られている。
これに対して、本実施形態の場合は、これまで説明したように特徴量のスケールの方向に対して畳み込みやプーリング処理を行う。そのため、スケール方向に分布する特定のパターンに反応するような受容野が形成される。例えば、空のように大きなスケールに広がる領域の特徴と、その中の明るい小領域である太陽といったような複数のスケールの特徴を複合したようなパターンの受容野が形成される。
次に、ステップS111で、カテゴリ判定部106は、前段で得られた画素pの特徴ベクトルF(p)を用いて、画素pのカテゴリを判定する。この処理では、あらかじめカテゴリの数d個と同じ数のニューロンを用意しておく(ここではd=4とする)。詳細については後述するが、各ニューロンは、特徴ベクトルF(p)が入力されるとカテゴリに対応するニューロンのみ1、それ以外は0に近い値が出力されるように予め結合重みWが調整されている。上記の演算は数式9で表される。
[数9]
l(p)=softmax(W・F(p)+b) ・・・(数式9)
ここで、l(p)は画素pの各カテゴリの尤度を表す要素数dのベクトルである。Wは全結合型の重みパラメータであり、d行d列の行列である。bは長さdのバイアス項のベクトルであり、Wと共に予め学習によって調整されている。関数softmax(・)は、xをi番目の要素に持つベクトルxが入力されると、数式10の値をi番目の要素とするベクトルyを出力する関数である。
[数10]
yのi番目の要素:=exi/Σxj ・・・(数式10)
数式10の演算の結果が、画素pのカテゴリの尤度となる。これをd種類のカテゴリごとにスコアのマップとして集計したものを、図2のカテゴリ尤度606として図示する。ここで重要なのは、カテゴリ尤度606の解像度が入力画像600と等しいことである。本実施形態では、従来の方法のように空間方向に対しての畳み込みは行わず、数式6に表されるような方法で、画像のスケールkの方向に対して特徴量を畳み込む変換を行っている。そのため、本実施形態では従来の方法と異なり、カテゴリ尤度606として解像度の高い結果が最終的に得られる。
<学習方法>
ここで、特徴変換部103の畳み込みカーネルCの重みパラメータの学習方法について述べる。深層学習においては、数式11のように、クロスエントロピー最小化を損失関数として重みの値を調整する方法が広く知られている。ただし、ここでq(x)はカテゴリxの真の確率分布である。q’(x)は認識システムが推定したカテゴリxの分布である(ここで認識システムはカーネルCの演算を部分として含むものとする)。
[数11]
H(q,q’)= −Σq(x)・Log q’(x) ・・・(数式11)
畳み込みカーネルCの重みパラメータの学習には、数式11のクロスエントロピーを損失関数L=H(q,q’)として用いる。学習時には、まず全ての畳み込みカーネルCの重みWを乱数で初期化する(Wはc×di+1×d個の重み変数である)。次に、学習画像のセットを与えて得た認識システムの出力から、各学習画像の各画素についてカテゴリの推定分布q’(x)を計算する。そして下の更新式(数式12)に従って、重みWのj番目の要素wnjの値を更新する。
[数12]
nj(t+1)=wnj(t)−η∂L/∂wnj(t),
L=ΣΣip ・・・(数式12)
ただし、ここで、Lipは学習画像iの画素pに関する損失関数である。また、ηは1より小さな値をとる学習係数である。最終層以外の重みパラメータWについては、ニューラルネットで一般的な手法である誤差逆伝搬手法により各層ごとに順次計算して更新すればよい。なお、上記の更新式に慣性項や重みwの減衰項と呼ばれる項を加えたタイプなど派生の形態も様々に存在する。ここで示した学習計算の個々の要素は、深層学習の技術として広く知られているため、ここではこれ以上は詳述しない。
また、ここでは、教師付学習と呼ばれるタイプの学習方法の形態について述べた。しかし、他にも、非特許文献1に開示されるような、中間層のみ非教師型学習を行う形態や、入力層に近い層から一段ずつ教師付学習を行って一層ずつ追加していく形態など、本実施形態は様々な形態を採用することができる。
[第1の実施形態の変形例]
上述の第1の実施形態では、画素ごとに特徴の抽出と畳み込み等の演算を行った。しかしながら、例えば非特許文献2のような方法によって、予め画像をN個のSuper−pixelと呼ばれる小領域に分け、この小領域を最小単位として認識の演算処理を行うようにしてもよい。これにより、画像認識時の演算の回数を画像サイズであるh×w回からN回のオーダへと減らすことができる。その際には、図4(A)のフロー図で説明した複数の領域群を作成する際に、画素ではなく上述のSuper−pixelに基づいてクラスタリングを行えばよい。
また、別の変形例として、対象画像中の離れた異なる領域間の関係性を学習できる形態について述べる。例えば、人間の被験者が赤い領域の下方に暗い領域のある画像を見た場合、夕焼けの空と地面ではないか、というようにパターンの組み合わせから被写体を推定することがある。この変形例は、このように位置的に離れた領域間のパターンも積極的に学習できるようにするものである。
この変形例では、画像認識装置100に以下のような構成を加えることで実現される。図8は、本変形例に係る特徴変換の処理を模式的に示しており、これは図5で示した特徴変換の処理を一部拡張した形態である。ただし、図8では、図5では示した畳み込み演算とプーリング演算を省略している。
本変形例が、第1の実施形態(図5)と異なるのは、特徴量F(p)を変換して特徴量Fi+1(p)を得た後に、さらにマルチスケール特徴生成部102が特徴量Fi+1(p)から付加的な特徴量Ai+1(p)を生成する点である。本変形例では、付加的な特徴量Ai+1(p)を特徴量Fi+1と連結して新たな特徴量F’i+1(p)とし、Fi+1(p)の代わりに次の段階のマルチスケール特徴として用いる。
ここで、付加的な特徴量Ai+1は、図8に示すように、特徴量Fi+1の特徴マップ802をそれぞれのスケールごとに畳み込みカーネル804で空間方向に畳み込んだ特徴マップ803から成っている。畳み込みカーネル804は、ガボールフィルタなど既存のフィルタを用いればよい。この結果、新たな特徴量F’i+1(p)は、図8に示すようにスケール数Si+1、特徴次元数2×di+1の行列となる。
このようにして、特徴量F’i+1を用いることにより、大きなスケールの領域間のパターンと小さなスケールの領域間のパターンとを同時に考慮するような認識が行われることになる。これは、例えば夕焼けのシーンの画像が入力されると、「明るい領域の下側の暗い領域」のような大まかなパターンと、「雲のテクスチャとその下側のビル群のテクスチャ」といった細かなパターンとが同時に考慮されることを意味する。
なお、ここでは畳み込みカーネル804はガボールフィルタのような既存のフィルタを用いて空間方向に画像特徴を畳み込むこととしたが、他の形態として、学習によって畳み込みカーネル804のパラメータを獲得する形態でもよい。上記の形態の場合、付加的な特徴量Ai+1(p)の特徴次元数d’i+1は畳み込みカーネル804の出力チャンネルの数で決まる。d’i+1は自由に設定してよい。連結後の特徴量F’i+1(p)のサイズはスケール数がsi+1、特徴次元数がd’i+1+d’i+1となる。
学習によって空間方向の畳み込みカーネルを得る手法については、非特許文献1等で広く知られているため、ここでの詳細な説明を省略する。以上のように、本変形例では、空間的に離れた領域間の関係性も考慮して認識を行うことができる。
また更に、上述の実施形態に係る画像認識装置は、特定の認識機能に限定されるものではない。第1の実施形態では、画像の各画素を4種類のカテゴリに分類する構成について説明したが、他の種々の目的の画像認識に利用することが可能である。例えば、画像中の主被写体の前景領域と背景領域を区別するための教師データを用意して学習することで、主被写体領域を判別するような画像認識装置を実現することができる。また例えば、判定する対象を顔が検出された領域に限定し、顔の各領域を目、鼻、口、髪の毛といったカテゴリに細分化するような形態も考えられる。
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。第2の実施形態は、スケール方向の変換を全結合型の重みで実現するものである。第2の実施形態においては、スケール方向の特徴変換と、従来型のCNNに特徴的な空間方向の特徴変換とが、1回の演算で同時に行えることを示す。以下、図面を参照しつつ、本発明の第2の実施形態について説明する。なお、第1の実施形態で既に説明をした構成については、その説明を省略し、同一の符号を付す。
本実施形態に係る画像認識装置は、対象画像内の物体検出を目的とするものである。ここで、物体の検出は、画像中の対象物体の大よその位置とサイズとを同定することをタスクとするものであるとする。また、検出する対象物体のカテゴリとしては、例えば犬や車といった一般的な物体とする。ここでは、自転車、建物、車、犬、人物の5つのカテゴリの物体を検出するものとする。
図9は、本実施形態に係る画像認識装置の機能構成を示す概略ブロック図である。本実施形態が第1の実施形態と異なる点は、候補領域抽出部208を有することである。候補領域抽出部208による処理の詳細については、後述する。
図10は、本実施形態に係る画像認識処理による認識処理の流れを概略的に説明する図である。同図に示すように、まず入力画像901が入力されると、画像から複数の物体の候補領域902が抽出される。次に、物体の候補領域を所定の正方形の画像903に変換し、それぞれについて特徴抽出904を行う。次に、抽出した特徴量に基づいて、カテゴリ判定905を行う。判定結果906が所定の閾値を超えていれば、その候補領域は当該物体であるとして認識結果907を出力する。
ここで、本実施形態の特徴構成である、特徴抽出904の処理の詳細について説明する。図11は、本実施形態に係る特徴抽出904の処理の詳細を概略的に示す図であり、同図には、特徴量F〜Fが示されている。物体の候補領域903が入力されると、まず同領域から特徴量Fが生成される。特徴量Fは、4つの異なるスケールの特徴マップ1001a〜1001dから成っている。図11において、各特徴マップ1001a〜1001dは、それぞれd=7次元の特徴チャンネルで構成されている。これらは、候補領域903の解像度を4段階に変更し、それぞれの解像度から色やテクスチャといった合計7種類の特徴を抽出することで生成したものである。
次に、特徴量Fに特徴変換Wを施すことで、中間的な特徴量Fを得る。同様に、特徴量Fに特徴変換Wを施して、特徴量Fi+1を得る。このように段階的に特徴変換を施すと、最終的に特徴量Fが得られるので、これを出力とする。以上が、図10で示した特徴抽出904で行われる処理の概略である。
次に、特徴変換Wに関して詳述する。図11に示すように、各特徴変換Wは更にサブモジュールの演算Wi(j)の集合により構成されている。例えば、特徴変換Wの場合、W0(1),W0(2),W0(3)の3つの演算で構成される。演算Wi(j)は複数のスケールの特徴マップを統合し、一つのスケールの特徴マップに変換する処理である。図11では、2つのスケールの特徴マップを1つのスケールの特徴に変換している。統合するスケールの数は設計値次第であるが、ここでは、i番目の特徴変換で統合されるスケールの数を記号mとすると、m=m=m=2,m=1と設定する。特徴変換Wにより、各段階では、m−1個の数だけ特徴マップのスケール数が減ることになる。そして、最終的に特徴量Fでは、1つのスケールの特徴マップに統合されている。
次に、図12を用いて、演算W0(1)の詳細について説明する。図12(A)において、特徴マップ1001abは、図11の特徴マップ1001aと特徴マップ1001bとを連結したものである。演算W0(1)は、まず、特徴マップ1001abに対して畳み込み演算を行う。この畳み込み演算は、図中に符号1010abを付して示すように空間方向のサイズが7×7であり、入力特徴のチャンネル数はd×2=14チャンネルである。また、演算結果の出力の特徴チャンネル数dは、16チャンネルである。したがって、本畳み込み演算は、全部で16×14×7×7個の重みパラメータを持つ。
ここで、画像上のある1箇所の畳み込み演算にのみ着目すると、これは、図12(B)に示すように、全結合の重み付き和の演算として図示できる(ただし、ここでは結合線の全てを表示していない)。この重み付き和の演算は、数式13のようになる。
[数13]
F’=θ(Wc0(1)・F) ・・・(数式13)
ここで、Fは長さ686(=カーネルのサイズ14×7×7に等しい)の特徴ベクトル、F’は長さ16の特徴ベクトル、Wc0(1)は16行686列の行列からなる重み付き和のパラメータ、θは第1の実施形態で用いたものと同じ非線形の活性化関数である。
演算W0(1)は、上記の重み付き和の演算を特徴マップ1001abの空間方向に走査しながら行う。これにより、14×64×64のサイズの特徴マップ1001abは16×58×58のサイズの特徴マップ1002a’に変換される。さらに、特徴マップ1002a’に対して2×2の画素ごとに平均値を取ることでダウンサンプリングを行う(平均値プーリング)。これにより、最終的に16×29×29のサイズの特徴マップ1002aが得られる。なお、上記の重み付き和のパラメータWcは3つの演算W0(1),W0(2),W0(3)で共通であってもよいが、ここではそれぞれ異なる値を学習するものとする。
以降、特徴変換W〜Wについても特徴変換Wと同様の変換操作が行われ、段階的に特徴量F〜Fが得られる。各段階の処理は全て同タイプの演算であるが、カーネルのサイズ、特徴チャンネルの数、および結合重みの値は各段階によって異なる。空間方向の解像度は変換の段階をF→F→…→Fと経るにつれ、64→29→12→4→1と順次圧縮される。
次に、図13(A)を用いて、本実施形態の画像認識装置による認識処理の全体のフローについて説明する。同図において、まずステップS201で、画像取得部201が画像を取得すると、候補領域抽出部208は取得した画像中の物体らしいと思われる領域を物体らしい候補領域として同定する。これは一般に知られている手法、例えば非特許文献3に記載の手法を用いることにより行うことができる。
次に、ステップS203からS214までは、各候補領域について同じ処理を繰り返す。ステップS204では、マルチスケール特徴生成部202が、候補領域の画像を変換して64×64の画像に正規化する。次に、ステップS205で、マルチスケール特徴生成部202が、64×64の画像およびこれをダウンサンプリングした32×32,16×16,8×8の画像から、計4つのスケールに関する特徴マップを生成する。
このステップS205の処理を細分化したフローチャートを、図13(B)に示す。ここでは、まずステップS2051において、64×64の画像について傾きが45度ずつ異なる4種類のガボールフィルタの応答マップを得る。そして、ステップS2052において、前段で得た応答マップにRGBの3次元の値を連結して7次元の特徴マップを生成する。次に。ステップS2053からステップS2057までの処理を繰り返して、画像の平均化とダウンサンプリングとを繰り返すことで、64×64から8×8までの4つのスケールの特徴マップを生成する。最後に、ステップS2058で、画像をアップサンプリングして全てのスケールの特徴マップを7×64×64次元に揃える。なお、ここでは、特徴チャンネルとしてガボールとRGBの値を用いたが、画素を単位として算出される特徴であれば、他のものであってもよい。
図13(A)のフローチャートに戻ると、ステップS206では、マルチスケール特徴生成部202が、前段で得られた複数スケールの特徴量fをまとめて連結し、4スケール×7次元の特徴量Fを得る。
次に、ステップS207からステップS211までは、特徴量Fを複数回変換することで特徴量Fを得る処理である。ステップS207では、制御部207が、カウンターiを0にセットし、ステップS208では、制御部207が、i+1番目の特徴変換Wの変換パラメータを変換制御データメモリ204から読み出す。次にステップS209では、特徴変換部203が、特徴変換Wのパラメータを用いて、各画素pの特徴量F(p)を特徴量Fi+1(p)へと変換する。
さらに、ステップS212で、特徴変換部203が、特徴量Fi+1を2×2の画素で平均化して半分の解像度へ圧縮する。ステップS213では、中間結果保持部205が、特徴量Fi+1を保持する。さらに、制御部207が、保持された特徴量Fi+1を特徴変換部203へ再入力し、i=0〜3のループを繰り返す。
i=4でループが終了したら、ステップS214で、カテゴリ判定部206が特徴量Fをサポートベクトルマシン(以下、SVM)に入力し、カテゴリ判定のスコアを得る。そして、いずれかのカテゴリのSVMのスコアが所定値を超えていれば、候補領域のサイズ、位置および判定結果を制御部207の保持部に記憶しておく。超えていない場合、候補領域は物体でないとして破棄する。
ステップS215において、全ての候補領域について以上の特徴抽出とカテゴリ判定とが完了するまで上述のループの処理を繰り返し、ステップS216で、制御部207は各候補領域についてのカテゴリ判定結果を出力する。以上で、本実施形態の認識処理のフローが終了する。
<特徴変換のパラメータ>
ここで、図14に、本実施形態に係る特徴変換に関するパラメータの例(パラメータ設定1)を示す。図14(A)の表は、その各数値が図11に示した特徴変換の構成と一致するものである。この数値は、あくまでも本実施形態を実現する際の一例であり、これらの数値を変化させることによりネットワークの性能も変化する。
図14(B)に、よりネットワークの規模を大きくした際のパラメータの設定例(パラメータ設定例2)を示す。図14(A)に示すパラメータ設定1では、特徴量Fに含まれる特徴のスケールの数は4であった(解像度64×64,32×32,16×16,8×8の4オクターブ4スケール)。これに対し、パラメータ設定2では、この特徴のスケールを64×64から2×2までの6オクターブとし、且つ、0.5オクターブごとに特徴マップを用意する。これにより特徴量Fには、11個のスケールの特徴が含まれる。さらに、特徴量Fの各スケールの特徴マップには、RGBの3次元のチャンネルが含まれるとする。
ここで、スケール方向の特徴量の変換として、パラメータ設定1では各段階で2スケールを統合して1スケールへ変換する演算を用いていたが、パラメータ設定2では3スケールを1スケールへ統合するように変更した。このパラメータ設定2のネットワークは、スケール方向の規模が大きいため、パラメータ設定1のネットワークに比べて、より複雑なスケール間の特徴の関係性を学習することが期待できる。ただし、必要なメモリ量、学習時間、および実行時の計算量は増大する。
以上のように、本実施形態では、スケール方向の特徴の変換を全結合型の重みで行うようにしている。そのため、スケール方向の特徴の変換に関して、第1の実施形態で示した畳み込み演算の形態に限らず、本実施形態のような、特徴マップを段階的に全結合したような形態のネットワークに対しても適用できるようになる。
<学習方法>
ここで、本実施形態に係る各段階の特徴量の変換の学習方法について説明する。図12(C)は、本実施形態の特徴量変換の学習方法を説明する模式図である。ここでは、オートエンコーダーと呼ばれる非教師型の学習方法を用いることとする。これは、以下の数式14で表される。
[数14]
z=θ(W・x+b),
x’=θ(W・z+b’) ・・・(数式14)
ここで、xは入力特徴量1010pを1列のベクトルとして並べたもの、zは中間層の出力、x’は出力特徴量1010qを1列のベクトルとして並べたものである。Wはxとzの間を結合する全結合型の重み行列、Wはzとx’の間を結合する全結合型の重み行列であり、Wの転置行列である。bとb’はバイアス項のベクトルである。θは以下の数式15で定義されるシグモイド関数である。
[数15]
θ(x)=1/(1+e−x) ・・・(数式15)
オートエンコーダーの学習は、数式15の入力xと出力x’がなるべく同じ値になるように重みパラメータWを調節することで行われる。学習時には、まずWを乱数で初期化する。次に、学習用画像から物体候補領域を抽出し、各候補領域から特徴マップFを抽出して学習データセットとする。次に、損失関数Lは数式16で定義され、これを最小化するように以下の更新式(数式17)を用いて重みWおよびバイアス項bとb’を更新する。ここでxはj番目の学習データの特徴量である。
[数16]
L = Σ1/2||x’−x|| ・・・(数式16)
[数17]
w(t+1)=w(t)−η∂L/∂w(t),
b(t+1)=b(t)−η∂L/∂b(t),
b’(t+1)=b’(t)−η∂L/∂b’(t) ・・・(数式17)
また、ηは1より小さな値をとる学習係数である。以上の処理を特徴変換の全段階、全スケールで行い、学習された重みWとバイアス項をそれぞれ記憶する。学習の順番は、特徴量Fと特徴量Fの変換に関する重みパラメータから始める。学習で獲得されたWを用いて特徴量Fi−1から特徴量Fを算出し、次の段階の重みパラメータWi+1を学習する。このような順番で学習処理を行う。
以上の学習方法は、深層学習において広く知られた方法である。また、オートエンコーダーに関しては、スパース性を用いるものなど様々な方法が提案されている。なお、オートエンコーダーではなく、第1の実施形態で述べたような教師付学習の方法を用いてもよい。詳細については非特許文献1に記載されているため、ここでの説明は省略する。
上記のようにして特徴変換のための重みW〜Wのセットが全て得られたら、次に最終の特徴量Fからカテゴリ判定結果を得る変換についての学習を行う。これは、まず重みW〜Wを用いて学習データの候補領域から特徴量Fを得る。次に、特徴量Fと物体のカテゴリの教師値をペアとし、SVMの学習を行う。ここでは1 versus all(1対全)方式などの一般的なマルチクラスの学習方法を用いることとする。以上が各段階の特徴変換のパラメータの学習の仕方である。
[第2の実施形態の変形例]
上述の第2の実施形態に係る画像認識装置は物体検出を目的としたが、例えばこれを画像のシーン分類のような認識タスクに応用することも可能である。それには物体の候補領域を画像全体とし、判定する対象をシーンのカテゴリに変更して学習、認識を行えばよい。また、例えば、物体候補領域を、人体検出器を用いて検出した人物の候補領域に変更し、カテゴリ判定部206が対象とするカテゴリを人物のポーズの種別や人物の行動カテゴリに変更してもよい。これにより、人物の姿勢認識や行動認識の機能を実現することが可能にある。第2の実施形態はスケール方向の特徴変換の方法に特徴を有し、その適用先としてのパターン認識については特定のタスクに限定されるものではない。
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。第3の実施形態は、スケール方向の特徴変換と画像の空間方向の特徴変換とを別々に行うものである。以下、図面を参照しつつ、本発明の第3の実施形態について説明する。なお、第1、第2の実施形態で既に説明をした構成については、その説明を省略し、同一の符号を付す。
図15は、本実施形態に係る特徴変換を模式的に説明する図であり、図15(A)は画像の空間方向の特徴変換Wsp 、図15(B)は画像のスケール方向の特徴変換Wsc を示している。本実施形態では、この二種類の特徴変換を所定の順序で行うこととする。ここではi=0,2,4の偶数番号の変換の時に特徴変換Wsp を、i=1,3,5の奇数番号の変換の時に特徴変換Wsc を、それぞれ行うこととする。ただし、上記記載のような交互順に限る必要はなく、二つの変換をどのような順序で行ってもよい。本実施形態の一部の処理のブロック図を図15(C)に示す。入力画像から生成された特徴量は次々と特徴変換を施され、最終的に特徴量Fが得られる。これを判別器で判定し、画素ごとにカテゴリの尤度Lを求めるという処理の流れになっている。
ここで、特徴量の変換処理の詳細について説明する。本実施形態では、まず特徴量Fを生成する。これには、まずマルチスケール特徴生成部102が、入力画像に対して平均化およびダウンサンプリングを行い、解像度の異なる複数の階層解像画像を生成する。ここではスケール数をs=7とする。7階層の画像それぞれはRGB値の3チャンネルの特徴量を持っている。このk番目の階層の画像のRGBの値それぞれを特徴量Fの各スケールの特徴マップf0,kとする。
次に、図15(A)に示すように、特徴変換部103が各スケールの特徴マップf0,kに対して画像の空間方向の特徴変換Wsp を施す。この変換の個々の演算要素は特徴マップf0,k上の3チャンネル×3×3ピクセルの範囲の値を重み付け和し、特徴マップf1,k上のdi+1次元×1×1ピクセルの特徴チャンネルに変換する処理から成る。なお、本実施形態では、簡単のために特徴量Fは3次元の特徴チャンネル、特徴量F〜Fは全て32次元の特徴チャンネルで構成されているものとする。そのため、特徴変換Wsp の重みパラメータは32×3×3×3個の値から成る。また、特徴変換Wsp およびWsp の重みパラメータは32×32×3×3個の値から成る。
特徴変換Wsp の演算を特徴マップf0,kの画像上の全位置に対して行うことで、特徴マップf1,kが得られる。この処理は、第2の実施形態で述べた重み付き和による演算処理と同一であるので繰り返しての説明は行わない。次に、第2の実施形態と同様に、特徴マップf1,kに対して活性化関数による非線形変換を行う。なお、本実施形態において、画像解像度を半分にするプーリング処理は行わない。
なお、特徴変換Wsp は空間方向に3×3の畳み込みを行う処理であるため、単純に変換処理を行うと特徴マップf1,kは特徴マップf0,kよりも周囲1画素分だけサイズが小さくなる。これを防ぐために、特徴マップf0,kは予め周囲1画素分の画素について、元の画像を鏡像反転させた画素によって充填しておくこととする。これにより、変換によって変換前と同一の空間方向の解像度の特徴量Fi+1が得られるようにする。
次に、階層画像の特徴マップf1,kをアップサンプリングし、各階層の画像の解像度を元の画像のサイズh×wに揃える。最後に、全てのスケールの特徴マップf1,1〜f1,S1を連結して特徴量Fとする。なおこの特徴変換Wsp の処理においては、スケールに関しての変換はなされないので新たな特徴量Fのスケールの数はs=s=7である。
続いて、特徴量Fに対して、図15(B)に示すスケール方向の特徴変換処理Wsp を行う。これは、第1の実施形態で述べた方法と同様であり、特徴量Fの各画素pの特徴量F(p)ごとに変換を行う。ここでは、特徴量F(p)の7つのスケールのうち、隣接する3つのスケールの特徴を統合し、特徴量F(p)の1つのスケールの特徴へと変換する。ここでは、特徴量f1,1(p)〜f3,1(p)を変換して、特徴量f2,1(p)を得ている。これは第1の実施形態と同様に、畳み込みの演算と活性化関数による非線形の変換とから成り、この畳み込みのカーネルは3×d×d個の重みのパラメータから成る。この重みパラメータはどの3つのスケールを統合する時にも共通の値を使ってもよいし、スケールによってそれぞれ独立に学習した値を用いてもよい。本実施形態では、簡単のためにスケールに関係なく共通であるとする。このような特徴変換Wsp により、特徴量のスケールは各段階で2スケール削減されてsi+1=s−2となる。
以上説明した変換処理WspとWscとを交互に繰り返して、特徴量を逐次的に変換していく。図15(C)の各特徴量Fの下に、変換による特徴量Fのサイズの変化を数値で示す。このうちhとwとは画像の縦と横のサイズである。各数値の3つ目の値はスケールの数、4つ目の値は特徴チャンネルの次元数である。なお、特徴変換Wsp およびWsc の重みパラメータの学習については、第1、第2の実施形態と同様の方法を用いればよい。すなわち、誤差逆伝搬あるいはオートエンコーダーの方法で学習すればよい。
最後に、図16を用いて、本実施形態の画像認識装置による認識処理の全体のフローについて説明する。図16のフローチャートは、第1の実施形態に係る図3のフローのチャートに部分的に同一であり、異なる点は以下のとおりである。まず、ステップS304で制御部107が、所定の順番に従ってi番目の特徴変換として画像の空間方向の特徴変換か、スケール方向の特徴変換かのいずれかを行うトリガーを送出する。
そして、空間方向の特徴変換を行う場合は、ステップS305〜S310の処理が行われる。まず、ステップS305で、特徴変換部103が、各スケールの特徴マップをダウンサンプリングして、解像度がピラミッド状に異なる特徴マップを生成する。生成される特徴マップの一例を、図15(A)に、特徴マップfi,1〜fi,Siとして示す。次に、特徴変換部103は、s個のスケールからなる特徴量Fに対して、スケールごとに特徴変換Wsp による変換処理を行う(ステップS307)。その結果、各スケールkの特徴マップfi,kは、特徴マップfi+1,kに変換される。次に、ステップS309では、特徴変換部103が、特徴マップfi+1,1〜fi+1,si+1それぞれをアップサンプルして全て元の画像サイズh×wに戻す。そして、ステップS310では、特徴変換部103が、全ての特徴マップを連結して特徴量Fi+1とし、中間結果保持部105に保存する。そして、次のi+1番目の特徴変換の処理に進む。
一方、スケール方向の特徴変換を行う場合は、ステップS311〜S314の処理が行われる。この処理では、特徴変換部103は、特徴量Fの各画素pの特徴量F(p)に対して特徴変換Wsc を用いた変換処理を行う(ステップS312)。変換の結果、特徴量Fi+1(p)が得られるので、全画素の結果をまとめて、それを特徴量Fi+1として得る(ステップS314)。中間結果保持部105は特徴量Fi+1を保存し、次のi+1番目の特徴変換の処理に進む。
このようにして、所定回数(ここでは、i=0〜5)の特徴変換が行われたら、得られた特徴量F(p)を用いて、カテゴリ判定部106が判定処理を行う。以上が、本実施形態に係る認識処理の全体的なフローである。
以上、本実施形態によれば、スケールに関する特徴変換と画像の空間方向の特徴変換とを別々に行うことにより、精度よく画像認識を行うことができる。
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。上述の各実施形態において、マルチスケールの特徴量Fは、スケールの異なる複数の特徴量f0,1〜f0,s0で構成されていた。そして、各特徴量f0,iの特徴の属性およびその次元数は、どのスケールiでも共通であった。これに対し、第4の実施形態は、特徴量Fを構成する各スケールの特徴量f0,1〜f0,s0の属性および次元数がそれぞれ異なるものである。以下、図面を参照しつつ、本発明の第3の実施形態について説明する。なお、第1〜第3の実施形態で既に説明をした構成については、その説明を省略し、同一の符号を付す。
図17は、本実施形態に係る画像認識装置の全体の処理を概略的に示す概略図である。本実施形態の各機能部は第1の実施形態と同様である。また、本実施形態の画像認識装置は、入力画像の被写体のカテゴリを判別し、入力画像を判別したカテゴリ毎の領域に分ける意味的領域分割を行うものである。
次に、図18を用いて、本実施形態に係る画像認識装置の認識処理のフローを説明する。まず、ステップS401で、画像取得部101は処理対象の画像を取得する。ステップS402で、マルチスケール特徴生成手段1部は、入力画像からS個の特徴マップ111a〜111eを生成する。後述するように、この特徴マップはそれぞれ特徴の属性が異なる。また、i番目の特徴マップはd0,i次元の特徴次元を持つ。
図17には、特徴マップ111aの一例として、画像のシーンの尤度を用いた例を示す。ここで、画像のシーンとは、予めユーザが任意に定めた「夜景」、「海岸」、「山岳」といったd0,1種類の画像シーンである。シーンのクラス数d0,1は、ユーザが任意に決定しておく。また、事前に事例画像データおよび教師データを用意して識別器を学習することで、任意の画像についてシーンクラスの尤度が推定できるようにしておく。このようなシーン識別器は、例えば非特許文献1に記載の方法により実現できる。なお、一般的なシーン識別手法は、1枚の入力画像に対してシーンクラスの数だけ尤度を出力する。ここでは、上記のようなd0,1個の出力結果を画素数の分だけ複製してH×W×d0,1の行列とし、これを特徴マップとする。以上が、特徴マップ111aの詳細である。
また、図17には、特徴マップ111bの一例として、物体検出器の検出結果を用いる例を示す。ここでの物体とは、予めユーザが任意に定めた「人間」、「車」、「犬」などといった、d0,2種類の物体である。また、物体検出結果とは、これらの物体が画像中のどこに存在する確度がどの程度高いかを示した、H×W×d0,2の尤度スコアのマップである。物体検出の手法としては、例えば非特許文献4に記載された手法を用いればよい。図17では、検出結果を特徴マップ111b中の複数の矩形として表現している。ここでは、分かりやすくするために、検出結果を物体が検出された位置の矩形として図示している。物体の検出結果は、検出か不検出かのような二値であってもよいし、存在確率のような連続値でもよい。また、矩形ではなく不定形の分布形状でもよい。どのような物体検出結果のマップを特徴マップ111bとして用いるかは、利用する物体検出器の出力形態によって決めればよい。
また、図17には、特徴マップ111cとして、特徴マップ111aと同じくd0,1種類の画像シーンを推定したシーンクラスの尤度を用いる。特徴マップ111aと異なる点は、特徴マップ111cの方がシーン認識の結果のスケールがより細かいことである。具体的には、画像の局所領域(ここでは、画像を4分割した領域)を入力画像とし、それぞれをシーンクラス判別器で推定させる。これにより、2×2×d0,1の尤度の結果が得られるので、これを縦横それぞれH/2倍、W/2倍に複製して、H×W×d0,1の行列を得る。以上が、特徴マップ111cの詳細である。なお、推定するシーンクラスの種類が特徴マップ111aと同一である必要はなく、シーンの種類や数をそれぞれのスケールで変えてもよい。
また、図17には、特徴マップ111dとして、特徴マップ111bと同じくd0,2種類の物体の検出結果によって構成されたマップを用いる。ただし、特徴マップ111bの物体検出よりも、小さなサイズの検出窓で物体の検出を行った結果を用いる。この物体検出の結果を、図中では特徴マップ111dの中の小さな複数の矩形として表現する。特徴マップ111dにおいて、物体の種類は特徴マップ111bと同一である必要はない。
また、図17に示す特徴マップ111eは、上述の実施形態で既に説明をした、画像のRGB情報であるとする。この特徴マップ111eの次元数d0,5は、3である。以上のように、本実施形態では、属性および特徴次元数の異なる複数の特徴マップ111a〜111eがマルチスケール特徴量Fを構成している。そして、これらの特徴マップは、それぞれの特徴量のスケールの大小を考慮して、おおよそのスケールの大きさの順に配列させている。ただし、属性の異なる特徴間のスケールについては、大小関係の判断しにくい部分もあり、このような場合は厳密な定義は必要なく、おおよその順序をユーザが決めればよい。
図18に戻り、ステップS403〜S410では、特徴変換部103がマルチスケール特徴Fに対して段階的に特徴変換WおよびWを加える。これにより、特徴量FはF→F→Fと順に変換される。ここで、特徴変換Wはsi+1個の変換処理Wi(1)〜Wi(si+1)から成っている。なお、Wi(j)の添え字iは変換を施す特徴量F、添え字jは変換により得られる特徴量Fi+1を構成するj番目のスケールの特徴マップに対応している。変換の詳細は、数式18のようになる。
[数18]
i+1,j(p)=θ(Wi(j) i,m(j)(p)+b)
・・・(数式18)
ここで、fi+1,j(p)は変換後のj番目の特徴マップ中の画素pの特徴ベクトルである。特徴ベクトルfi+1,j(p)の次元数は、スケールjごとにユーザが任意に設定したものである。このときの次元数を記号di+1,jで表す。fi,m(j)(p)は、上層の特徴ベクトルfi+1,j(p)に結合を持つ下層の全ての特徴ベクトルを縦に連結したものである。また、bはバイアス項、θは第1の実施形態と同じく非線形の活性化関数である。変換処理Wi(j)は全結合型の変換であり、di,m(j)行di+1,j列の行列である。次元数di+1,jは、スケールjごとにユーザが異なる値を決めてもよいし、全て同一の値としてもよい。
ステップS405は、特徴変換部103が、上記の変換処理を行うために、変換制御データメモリ104から変換処理Wi(j)およびバイアス項bのパラメータを読み込む処理である。変換処理Wi(j)およびバイアス項bのパラメータは、第2の実施形態と同様に、予めオートエンコーダーあるいは教師付学習の方法を用いてパラメータを学習し、保存してあるものとする。そして、ステップS407では、特徴変換部103が上記変換処理を行う。
図17では、特徴量F(p)が特徴ベクトルf0,1(p)〜f0,5(p)で構成されている。そのうちの特徴ベクトルf0,1(p)〜f0,3(p)は変換処理W0(1)によって特徴ベクトルf1,1(p)へと変換される。同様に、特徴ベクトルf0,2(p)〜f0,4(p)は変換処理W0(2)によって特徴ベクトルf1,2(p)へと変換される。なお、変換前の各特徴量f0,iは、シーン分類や物体検出など互いに区別される属性を持つものであるが、変換後の各特徴量f1,iは複数の属性の特徴量が混合された情報となる。また、本実施形態では、各スケールの特徴マップfi,1〜fi,Siは属性および次元数が異なるため、第1の実施形態で用いたような畳み込み演算を変換処理として用いることはできない。そのため、数式18に示したような全結合型の変換処理が好適である。
ステップS406〜S408では、以上の変換処理を全画素pについて行い、特徴量Fから特徴量Fへの変換が完了する。このような特徴量の変換をn段階繰り返すことで、スケールの異なる異種の情報が最終的に一つのスケールの特徴マップである特徴量Fへと統合される。ステップS411では、得られた特徴量Fを用いて、カテゴリ判定部106が各画素pのカテゴリの尤度を求めて、結果を出力する。以上により、本実施形態の認識処理が終了する。
以上、本実施形態によれば、シーンクラスの尤度、物体検出の結果、色の情報のように、情報のスケールおよび属性の異なる特徴量を段階的に統合し、精度よく画像認識を行うことが可能になる。
なお、異種情報を段階的に統合する形態として、他の構成も考えられる。図19は、本実施形態の変形例を説明する図であり、変換前後の二層分のみを抜粋して示している。図19では、特徴マップ間の太線はどの下層の特徴マップが変換処理によってどの上層の特徴マップに変換されるかを示している。
図19(A)には、上層の特徴マップfi+1,1に対応する下層の特徴マップfi,1〜fi,6と、上層の特徴マップfi+1,2に対応する下層の特徴マップfi,4〜fi,9とが部分的に重複した例を示している。図19(B)には、上層の特徴マップfi+1,1に対応する下層の特徴マップと、fi+1,2に対応する下層の特徴マップとが互い違いに重なるような例を示している。図19(C)には、上層の特徴マップfi+1,1,fi+1,2,fi+1,3が下層の特徴マップfi,1〜fi,12と、不規則な対応関係を持って結合している例を示している。図19(C)は不規則性があるものの、スケールの大きな特徴マップはスケールの大きな特徴マップへ、小さなスケールの特徴マップはスケールの小さな特徴マップへと統合される頻度が高いという関係性を持っている。このような対応関係は、例えば数式19のような確率式で上下層の結合関係を決めることで実現できる。
[数19]
P(v(q,r)=1)=1/Z・exp{−1/σ・(q−r+0.5)
・・・(数式19)
ただし、P(v(q,r)=1)は、上層の特徴量Fi+1のq番目のスケールの特徴マップfi+1,qが下層の特徴量Fのr番目のスケールの特徴マップfi,rと結合を持つ確率である。また、Zは正規化係数、σはスケールについての制御パラメータである。
以上、本実施形態では、階層スケールを持つ特徴マップを段階的に統合する形態について複数の例を示した。これらの形態は様々に考えられ、本発明が特定の形態に限定されるものではない。本実施形態で示したように、何らかの情報のスケールに沿って配置された特徴マップと、それらの順序関係を保ったまま特徴量を段階的に統合する特徴量の変換という2つの要件を備える形態であれば、本発明は広く適応可能である。特徴量Fを構成する各特徴マップは同種の特徴量、同数の特徴次元でもよいし、本実施形態で示したように相異なる特徴量でもよい。また、特徴量の段階的な統合の際の上層と下層の結合関係は、図19(A)および(B)に例示したような規則的な関係であってよいし、図19(C)に例示したような一部に不規則性のある対応関係でもよい。
[その他の実施形態]
また、本発明は、上記実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読出し実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
101 画像取得部
102 マルチスケール特徴生成部
103 特徴変換部
104 変換制御データメモリ
105 中間結果保持部
106 カテゴリ判定部
107 制御部

Claims (7)

  1. 対象画像を取得する取得手段と、
    前記取得した対象画像を、それぞれ異なる分割数の領域に分割し、互いに分割数の異なる少なくとも3つの領域群を生成する生成手段と、
    前記領域群の領域ごとに特徴量を抽出し、当該領域内の各位置に割り当てる抽出手段と、
    前記領域群を前記分割数の順に並べた順位において順位の隣接する複数の領域群を、重複を許して所定個ずつグループ化し、グループごとに特徴量を統合し、各グループの特徴量を再度グループ化してグループごとに統合する処理を繰り返すことで、前記領域群のそれぞれにおける同一の位置の特徴量を段階的に統合する統合手段と、
    前記統合された特徴量に基づいて前記対象画像のカテゴリを判定する判定手段と、
    を有することを特徴とする画像認識装置。
  2. 前記統合手段は畳み込みニューラルネットワークを用いることを特徴とする請求項に記載の画像認識装置。
  3. 前記統合手段は全結合型のニューラルネットワークを用いることを特徴とする請求項に記載の画像認識装置。
  4. 前記抽出手段は、前記領域群ごとの特徴量を空間方向に統合し、該統合の結果と、前記領域群の特徴量とを連結することを特徴とする請求項1に記載の画像認識装置。
  5. 前記判定手段は、前記対象画像のシーンの種別、前記対象画像の被写体の種別、前記対象画像の被写体の行動の種別、前記対象画像の被写体が主被写体か否か、のいずれか1つ以上を判定することを特徴とする請求項1からのいずれか1項に記載の画像認識装置。
  6. 対象画像を取得するステップと、
    前記取得した対象画像を、それぞれ異なる分割数の領域に分割し、互いに分割数の異なる少なくとも3つの領域群を生成するステップと、
    前記領域群の領域ごとに特徴量を抽出し、当該領域内の各位置に割り当てるステップと、
    前記領域群を前記分割数の順に並べた順位において順位の隣接する複数の領域群を、重複を許して所定個ずつグループ化し、グループごとに特徴量を統合し、各グループの特徴量を再度グループ化してグループごとに統合する処理を繰り返すことで、前記領域群のそれぞれにおける同一の位置の特徴量を段階的に統合するステップと、
    前記統合された特徴量に基づいて前記対象画像のカテゴリを判定するステップと、
    を有することを特徴とする画像認識方法。
  7. コンピュータを請求項1からのいずれか1項に記載の画像認識装置として機能させるためのプログラム。
JP2016042166A 2016-03-04 2016-03-04 画像認識装置、画像認識方法及びプログラム Active JP6873600B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016042166A JP6873600B2 (ja) 2016-03-04 2016-03-04 画像認識装置、画像認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016042166A JP6873600B2 (ja) 2016-03-04 2016-03-04 画像認識装置、画像認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017157138A JP2017157138A (ja) 2017-09-07
JP6873600B2 true JP6873600B2 (ja) 2021-05-19

Family

ID=59810329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016042166A Active JP6873600B2 (ja) 2016-03-04 2016-03-04 画像認識装置、画像認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6873600B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7029981B2 (ja) 2018-03-01 2022-03-04 国立大学法人北海道大学 汚水越流検知装置、汚水越流検知方法、プログラム、及び汚水処理装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6861600B2 (ja) * 2017-09-11 2021-04-21 株式会社日立製作所 学習装置、および学習方法
EP3462373A1 (en) * 2017-10-02 2019-04-03 Promaton Holding B.V. Automated classification and taxonomy of 3d teeth data using deep learning methods
US10043113B1 (en) * 2017-10-04 2018-08-07 StradVision, Inc. Method and device for generating feature maps by using feature upsampling networks
CN109684901B (zh) * 2017-10-19 2023-06-06 富士通株式会社 图像处理装置和图像处理方法
JP6949671B2 (ja) * 2017-11-02 2021-10-13 キヤノン株式会社 情報処理装置、画像領域選択方法、コンピュータプログラム、及び記憶媒体
JP7062923B2 (ja) * 2017-11-21 2022-05-09 富士通株式会社 可視化方法、可視化装置及び可視化プログラム
JP2019159910A (ja) * 2018-03-14 2019-09-19 国立大学法人豊橋技術科学大学 三次元画像分類装置および三次元画像分類方法
EP3561778A1 (en) 2018-04-26 2019-10-30 Promaton Holding B.V. Automated correction of metal affected voxel representations of x-ray data using deep learning techniques
CA3105272A1 (en) * 2018-06-29 2020-01-02 Wrnch Inc. Human pose analysis system and method
KR102195940B1 (ko) * 2018-09-18 2020-12-28 전남대학교 산학협력단 적응적 비최대억제 방법을 이용하는 딥러닝기반 영상객체 탐지를 위한 장치 및 방법
CN111476067B (zh) * 2019-01-23 2023-04-07 腾讯科技(深圳)有限公司 图像的文字识别方法、装置、电子设备及可读存储介质
US10387754B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
CN109800737B (zh) * 2019-02-02 2021-06-25 深圳市商汤科技有限公司 面部识别方法及装置、电子设备和存储介质
JP6965299B2 (ja) * 2019-03-18 2021-11-10 株式会社東芝 物体検出装置、物体検出方法、プログラム、および移動体
JP6965298B2 (ja) * 2019-03-18 2021-11-10 株式会社東芝 物体検出装置、物体検出方法、プログラム、および移動体
EP3745153A1 (en) * 2019-05-28 2020-12-02 Koninklijke Philips N.V. A method for motion artifact detection
JP7235308B2 (ja) * 2019-09-10 2023-03-08 株式会社豊田中央研究所 物体識別装置、及び物体識別プログラム
CN111178369B (zh) * 2019-12-11 2023-12-19 中国科学院苏州生物医学工程技术研究所 一种医学影像的识别方法及系统、电子设备、存储介质
CN112560893B (zh) * 2020-11-13 2022-11-04 贝壳技术有限公司 图片纹理匹配方法、装置、电子介质及存储介质
CN115453990B (zh) * 2022-08-31 2023-02-17 福建天甫电子材料有限公司 用于氟化铵生产的生产管理控制系统及其控制方法
CN116715560B (zh) * 2023-08-10 2023-11-14 吉林隆源农业服务有限公司 控释肥料的智能化制备方法及其系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06139410A (ja) * 1992-10-23 1994-05-20 Fujitsu Ltd ニューラル・ネットワークによるテンプレート・マッチング型文字認識方式
JP2007072530A (ja) * 2005-09-02 2007-03-22 Canon Inc 画像処理装置、画像処理方法、及び撮像装置
JP4859025B2 (ja) * 2005-12-16 2012-01-18 株式会社リコー 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
JP4842197B2 (ja) * 2007-04-17 2011-12-21 財団法人ソフトピアジャパン 多重分割画像を用いた異常動作検出装置、異常動作検出方法及び異常動作検出用プログラム
US9530073B2 (en) * 2010-04-20 2016-12-27 Qualcomm Incorporated Efficient descriptor extraction over multiple levels of an image scale space
JP6151908B2 (ja) * 2012-11-14 2017-06-21 日本放送協会 学習装置、識別装置、およびそのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7029981B2 (ja) 2018-03-01 2022-03-04 国立大学法人北海道大学 汚水越流検知装置、汚水越流検知方法、プログラム、及び汚水処理装置

Also Published As

Publication number Publication date
JP2017157138A (ja) 2017-09-07

Similar Documents

Publication Publication Date Title
JP6873600B2 (ja) 画像認識装置、画像認識方法及びプログラム
Abbas et al. Region-based object detection and classification using faster R-CNN
KR102224253B1 (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN108182441B (zh) 平行多通道卷积神经网络、构建方法及图像特征提取方法
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
JP7386545B2 (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
Thériault et al. Dynamic scene classification: Learning motion descriptors with slow features analysis
US20210264144A1 (en) Human pose analysis system and method
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
JP7026456B2 (ja) 画像処理装置、学習装置、フォーカス制御装置、露出制御装置、画像処理方法、学習方法、及びプログラム
CN104778476B (zh) 一种图像分类方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
JP2014041476A (ja) 画像処理装置、画像処理方法及びプログラム
CN115116054B (zh) 一种基于多尺度轻量级网络的病虫害识别方法
CN109165698A (zh) 一种面向智慧交通的图像分类识别方法及其存储介质
JP2023115104A (ja) 画像処理装置、画像処理方法、及びプログラム
KR101612779B1 (ko) 부분 기저 및 랜덤 포레스트를 이용하여 복수의 정적 이미지에서 부분적으로 가려진 사람을 시점 변화에 관계없이 감지하는 방법 및 이를 수행하는 컴퓨팅 장치
Greche et al. Histogram of oriented gradient and multi layer feed forward neural network for facial expression identification
CN110728238A (zh) 一种融合型神经网络的人员再检测方法
CN112560824B (zh) 一种基于多特征自适应融合的人脸表情识别方法
KR20180092453A (ko) Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법
Roslan et al. Individual tree crown detection using GAN and RetinaNet on tropical forest
Yang et al. Fast image mosaicing for panoramic face recognition.
CN112580442B (zh) 一种基于多维金字塔层次模型的行为识别方法
Kasinets et al. Layered convolutional neural networks for multi-class image classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200218

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210421

R151 Written notification of patent or utility model registration

Ref document number: 6873600

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151