JP2017157138A

JP2017157138A - 画像認識装置、画像認識方法及びプログラム

Info

Publication number: JP2017157138A
Application number: JP2016042166A
Authority: JP
Inventors: 俊太舘; Shunta Tachi; 小川　修平; Shuhei Ogawa; 修平小川; 奥野　泰弘; Yasuhiro Okuno; 泰弘奥野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-03-04
Filing date: 2016-03-04
Publication date: 2017-09-07
Anticipated expiration: 2036-03-04
Also published as: JP6873600B2

Abstract

【課題】精度よく画像認識を行えるようにすること。【解決手段】本発明は、対象画像から３以上の異なるスケールの特徴ベクトルを抽出し、その抽出した特徴ベクトルを異なるスケールへと変換する処理を段階的に複数回実行して、対象画像の認識を行う。【選択図】図５

Description

本発明は、対象画像を認識する画像認識技術に関する。

画像中の被写体を学習、認識するために、非特許文献１のような深層学習と呼ばれる手法が存在する。深層学習の代表的な手法として、コンボリューショナル・ニューラル・ネットワーク（以下、ＣＮＮと略記する）と呼ばれる手法がある。一般的なＣＮＮは、多段階の演算からなる。ＣＮＮの各段階では畳み込み演算を行って画像の局所の特徴を空間的に統合し、次の段階の中間層のニューロンへ入力する。さらにプーリングやサブサンプリングと呼ばれる、特徴量を空間方向へ圧縮する操作を行う。ＣＮＮは、このような多段階の特徴変換を通じて複雑な特徴表現を獲得することができる。そのため同特徴量に基づいて画像中の被写体のカテゴリ認識を高精度に行うことができる。

ＡｌｅｘＫｒｉｚｈｅｖｓｋｙ，ＩｌｙａＳｕｔｓｋｅｖｅｒ，ＧｅｏｆｆｒｅｙＥ．Ｈｉｎｔｏｎ，ＩｍａｇｅＮｅｔＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２５（ＮＩＰＳ’１２），２０１２Ｒ．Ａｃｈａｎｔａ，Ａ．Ｓｈａｊｉ，Ｋ．Ｓｍｉｔｈ，Ａ．Ｌｕｃｃｈｉ，Ｐ．Ｆｕａ，ａｎｄＳ．Ｓｕｓｓｔｒｕｎｋ，ＳＬＩＣＳｕｐｅｒｐｉｘｅｌｓＣｏｍｐａｒｅｄｔｏＳｔａｔｅ−ｏｆ−ｔｈｅ−ａｒｔＳｕｐｅｒｐｉｘｅｌＭｅｔｈｏｄｓ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．３４，ｎｕｍ．１１，ｐ．２２７４ − ２２８２，２０１２．ＫｏｅｎＥ．Ａ．ｖａｎｄｅＳａｎｄｅ，ＪａｓｐｅｒＲ．Ｒ．Ｕｉｊｌｉｎｇｓ，ＴｈｅｏＧｅｖｅｒｓ，ＡｒｎｏｌｄＷ．Ｍ．Ｓｍｅｕｌｄｅｒｓ，ＳｅｇｍｅｎｔａｔｉｏｎＡｓＳｅｌｅｃｔｉｖｅＳｅａｒｃｈｆｏｒＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎ，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２０１１ＲｏｓｓＧｉｒｓｈｉｃｋＪｅｆｆＤｏｎａｈｕｅＴｒｅｖｏｒＤａｒｒｅｌｌＪｉｔｅｎｄｒａＭａｌｉｋ，Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１４

空間方向に画像情報の畳み込みおよび圧縮等を行う従来の深層学習は、被写体の見えのパターンの変形や位置ずれに対して柔軟に認識を行うことができる。一方で、この特性により認識結果の位置精度や解像度が低下し、高精度に画像認識を行うことができないという問題があった。

上記課題を解決するために、本発明は、対象画像を取得する取得手段と、前記取得した対象画像に基づいて、少なくとも３つの異なるスケールの特徴ベクトルからなる特徴セットを生成する生成手段と、前記生成した特徴セットとは異なるスケールの特徴セットに変換する変換処理を行う変換手段と、前記変換手段による変換処理を複数回実行させる制御手段と、を有することを特徴とする。

以上の構成によれば、本発明は、画像認識の精度を高めることができる。

第１の実施形態に係る画像認識装置の機能構成を示すブロック図。第１の実施形態に係る画像認識装置による認識処理の概略図。第１の実施形態に係る画像認識装置による認識処理のフローチャート。第１の実施形態に係る認識処理の詳細を示すフローチャート。第１の実施形態において特徴変換の処理結果の一例を示す図。第１の実施形態に係る認識処理により得られる特徴量の一例を示す図。第１の実施形態に係る認識処理の詳細を示すフローチャート。第１の実施形態の変形例に係る特徴変換の処理を模式的に示す図。第２の実施形態に係る画像認識装置の機能構成を示すブロック図。第２の実施形態に係る画像認識装置による認識処理の概略図。第２の実施形態に係る特徴抽出処理の詳細の概略図。第２の実施形態に係る特徴変換の演算を説明する概略図。第２の実施形態に係る画像認識装置による認識処理のフローチャート。第２の実施形態に係る特徴変換に関するパラメータの例を示す図。第３の実施形態に係る特徴変換の処理を模式的に示す図。第３の実施形態に係る画像認識装置による認識処理のフローチャート。第４の実施形態に係る画像認識装置の認識処理を概略的に示す概略図。第４の実施形態に係る画像認識装置による認識処理のフローチャート。第４の実施形態に係る特徴変換の変形例を示す図。

［第１の実施形態］
以下、本発明の第１の実施形態について、図面を参照しながら説明する。なお、本実施形態に係る画像認識装置は、対象画像中の被写体のカテゴリを判別し被写体ごとの領域に分割する意味的領域分割を行うものとする。また、被写体のカテゴリとしては、空、建物、山、道路の４種類の一般的なカテゴリであるとする。

図１は、本実施形態に係る画像認識装置の機能構成を示す概略ブロック図である。画像認識装置１００は、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＨＤＤ等のハードウェア構成を備え、ＣＰＵがＲＯＭやＨＤ等に格納されたプログラムを実行することにより、例えば、後述する各機能構成やフローチャートの処理が実現される。ＲＡＭは、ＣＰＵがプログラムを展開して実行するワークエリアとして機能する記憶領域を有する。ＲＯＭは、ＣＰＵが実行するプログラム等を格納する記憶領域を有する。ＨＤは、ＣＰＵが処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域を有する。
画像認識装置１００は、画像認識を行う対象の画像を取得するための画像取得部１０１、取得された画像から少なくとも３つの異なる空間スケールの特徴量（以降、マルチスケール特徴）を生成する生成処理を行うマルチスケール特徴生成部１０２を有する。また、マルチスケール特徴を変換する処理を段階的に複数回実行して新たなマルチスケールの特徴量を得るための特徴変換部１０３を有する。また、特徴変換部１０３に演算処理の制御データを供給する変換制御データメモリ１０４、変換された特徴量を保持する中間結果保持部１０５を有する。またさらに、変換された結果の特徴量に基づいて画像中の領域のカテゴリの判定を行うカテゴリ判定部１０６、特徴量の生成および変換動作を画像のどの領域に対して、どのようなタイミングで行うかを制御する制御部１０７を有する。

図２は、本実施形態に係る画像認識処理による認識処理の流れを概略的に説明する図である。同図に示すように、処理が開始されると、画像認識装置１００は、まず入力画像から少なくとも３以上の空間スケールの領域群６０１を生成する。図２には、スケールの異なる５つの領域群６０１ａ〜６０１ｅを示している。次に、本画像認識装置は領域群６０１からマルチスケール特徴６０２を生成する。ここでの特徴量とは、色やテクスチャといった画像の多次元特徴量である。

図２では、領域群６０１ａ〜６０１ｅの各領域から上記特徴量を抽出することで特徴マップ６０２ａ〜６０２ｅを生成している。ここで、特徴マップ６０２ａ〜６０２ｅの各立方体の高さは特徴量のチャンネル数（特徴次元数）を表している。画像認識装置１００はこのマルチスケール特徴６０２に対して複数回の特徴変換処理を段階的に施す。これにより、マルチスケール特徴のスケールの数は段階的に圧縮され、最終的により少数のスケールの中に情報が統合された特徴量６０５が得られる。なお、特徴変換処理の詳細については後述する。

そして、画像認識装置１００は、この特徴量６０５に基づいて、識別器によって画像の各画素のカテゴリを判定し、その結果をカテゴリ尤度６０６として出力する。なお、ここでは、白地の部分がそのカテゴリの尤度が高いことを示している。以上が、本実施形態に係る画像認識装置１００による認識処理の概略となる。なお、本実施形態の画像認識装置１００はＣＮＮを利用する構成となっている。その特徴変換に関するパラメータは非特許文献２等で用いられる確率勾配法を用いた学習の方法などによって予め上記のカテゴリが判定できるように学習済みであるとする（学習方法の詳細については後述する。）
次に、画像認識装置１００による認識処理の詳細な流れについて説明する。図３は、画像認識装置１００による認識処理のフローチャートである。まず、ステップＳ１０１では、画像取得部１０１が、画像認識装置の記憶領域（ストレージ）やカメラ等の撮像装置等から画像を１枚取得する。ここでの画像は、静止画像もしくは動画像中の１フレームの画像である。

次に、ステップＳ１０２では、マルチスケール特徴生成部１０２が、１枚の画像から複数の空間スケールの領域群を生成する。ここで、どのようなパラメータで特徴を抽出するかの制御情報は制御部１０７より適宜供給される。

このステップＳ１０２の詳細な処理フローを、図４（Ａ）に示す。まず、ステップＳ１０２１からＳ１０２４まではループの処理であり、以下に説明する処理を所定のＳ_０回繰り返す。ここでＳ_０は予め定められた画像のスケールの数であり、少なくとも３以上の数が設定される。本実施形態では、Ｓ_０＝８とする。次に、ステップＳ１０２２では、画像の各画素の特徴に基づいて画像を所定の数の小領域に分割する。分割にはｋ−ｍｅａｎｓクラスタリングなどの公知の手法を用いる。画素の特徴としてはＲＧＢの値および画素の位置の情報ＸＹなどを用いるが、必要に応じて他の特徴量を用いてもよい。クラスタリングによって生成する小領域の数は、スケールの深さをｋとして、数列２^ｋ−１で表される数とする（［１，２，４，８，１６，３２，６４，１２８］）。

なお、別の形態の分割手法として、ｍｅａｎＳｈｉｆｔなどの方法を用いてもよい。また、画像を複数の領域に分割するアルゴリズムで、且つ、生成する領域の数や平均のサイズといったスケールに関するパラメータを制御できる手法であれば、他の手法も適用可能である。

また、領域の分割数を２^ｋ−１で定めるとしたが、他にも、例えば以下の数式１のようにτ段階で１オクターブ増加する数列（［１，２，３，４，６，８，１１］）等を用いるようにしてもよい。ただし、ここでＲｏｕｎｄ（・）は実数値を整数に丸める演算である。スケールの深さｋと分割数、あるいはｋと領域の平均の面積の関係は、ここに示すような指数関数が好適であるが、ｋの増加に伴い単調増加あるいは単調減少するような数列であれば基本的に種々のものが適用可能である。

［数１］
Ｒｏｕｎｄ（２^{（ｋ−α）／τ}），
α＝０．５，τ＝２・・・（数式１）
ステップＳ１０２３では、前段のステップＳ１０２２で生成された領域群を認識装置の記憶領域に保存する。このようにしてＳ_０個の領域群が得られたら、ステップＳ１０２１〜Ｓ１０２４のループ処理を抜け、ステップＳ１０２の処理を終了する。図５には、ステップＳ１０２の処理結果の一例を示す図であり、同図に示すように、本実施形態ではＳ_０個の空間スケールからなる複数スケール領域群４０１が得られる。

図３のフローチャートに戻ると、次にステップＳ１０３では、マルチスケール特徴生成部１０２が前段で得られた複数の領域群について特徴量を生成する。マルチスケール特徴生成部１０２が行う処理のフローチャートを、図４（Ｂ）に示す。同図において、ステップＳ１０３１からＳ１０３９はループ処理であり、Ｓ_０個の各スケールについての処理を繰り返す。さらにステップＳ１０３２からＳ１３３８は、ｋ番目のスケールの領域群のうちの個々の領域ｊについて繰り返すループ処理である。

ステップＳ１０３３からステップＳ１０３６までは、各領域ｊに関する特徴量を抽出する処理である。ここでは、領域の特徴として一般的な３つの特徴量を用いる。それは（１）ＲＧＢ色ヒストグラム、（２）ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎヒストグラム（以下、ＬＢＰと略す）、（３）以下の数式２として表わされる領域の形状の二次の重心モーメントである。

［数２］
Ｍ_ｘ＝１／ｎ × Σ_ｘ（Ｉ（ｘ）−μ_ｘ）^２
Ｍ_ｙ＝１／ｎ × Σ_ｙ（Ｉ（ｙ）−μ_ｙ）^２・・・（数式２）
ここで、ｎは領域ｊの画素数、μ_ｘ，μ_ｙはそれぞれ領域ｊの重心の座標ｘおよびｙ、Ｉ（ｘ），Ｉ（ｙ）は領域ｊに含まれる各画素の座標ｘおよびｙである。次に、ステップＳ１０３６では、このようにして得られた全特徴を連結して、数式３のように領域ｊの特徴ベクトルｆ_ｊとする。

［数３］
ｆ_ｊ＝［色ヒストグラム特徴^Ｔ，ＬＢＰ特徴^Ｔ，モーメント特徴^Ｔ］^Ｔ・・・（数式３）
ただし、記号Ｔはベクトルの転置である。ここでは、領域の特徴として３種類の特徴量を利用するとしたが、これ以外に特徴量の形態は様々に考えられる。特徴量は、画像認識装置１００で判別すべき被写体の性質や計算量に応じて選択すればよい。

次に、ステップＳ１０３７では、このようにして得られた領域ｊの特徴量ｆ_ｊを、画素についての特徴量ｆ_ｋ（ｐ）として割り当てる。ただし、ここでｐとは領域ｊの内部の各画素のことである。以上の処理を、各スケールと各局所領域について繰り返す。

図３のフローチャートに戻ると、次に、ステップＳ１０４では、マルチスケール特徴生成部１０２が、前段のステップで得られた特徴量ｆ_ｋ（ｐ）を画素ｐごとに連結して、複数スケールの特徴ベクトルから成る特徴セットである特徴量Ｆ_０（ｐ）を生成する。特徴量Ｆ_０（ｐ）は、以下の数式４のようにして各スケールの特徴量ｆ_１（ｐ）〜ｆ_Ｓ０（ｐ）を並べた行列である。

［数４］
Ｆ_０（ｐ）＝［ｆ_１（ｐ），ｆ_２（ｐ），．．．，ｆ_ｋ（ｐ），．．．，ｆ_Ｓ０（ｐ）］^Ｔ・・・（数式４）
こうして得られた特徴量Ｆ_０（ｐ）の結果の一例を、図６（Ａ）に示す。特徴量Ｆ_０（ｐ）はスケール数Ｓ_０×ｄ_０次元の２次元行列であり、ここで記号ｃｏｌ，ＬＢＰ，Ｍ_ｘ，およびＭ_ｙはそれぞれ色ヒストグラム、ＬＢＰ、二次モーメントの特徴であることを表している。ｄ_０は、これらの特徴量の次元の総数である。

図３のフローチャートに戻り、ステップＳ１０５からＳ１１０において、制御部１０７が特徴変換部１０３および中間結果保持部１０５を制御して、以下で述べる処理をｎ回繰り返す。ただし、ここで、ｎはマルチスケールの特徴量Ｆ_０（ｐ）に対して段階的に行う特徴変換の回数であり、本実施形態ではｎ＝３段階とする。

まず、ステップＳ１０６では、特徴変換部１０３が、ｉ段階目の変換用のパラメータを変換制御データメモリ１０４から読み出す。本実施形態において、特徴変換は畳み込み演算で実現されるものとする。そのため、本ステップでは畳み込みのカーネルＣ_ｉの重みパラメータの値を読み出す。この畳み込みカーネルＣ_ｉは、図５に示すようにｃ_ｉ×ｄ_ｉ＋１×ｄ_ｉの三次元行列からなる。ｄ_ｉとｄ_ｉ＋１は、それぞれ特徴変換前と変換後の特徴量の次元数である。ｃ_ｉは畳み込みカーネル_ｉが畳み込みを行うスケール方向の幅の大きさであり、何スケール分を畳み込んで変換するかを表す（図の例ではｃ_ｉ＝３としている）。

次に、図３のステップＳ１０７からステップＳ１０９は、ステップＳ１０８の特徴変換処理を画像の全画素について繰り返す処理である。ステップＳ１０８では、特徴変換部１０３が、前段で読み出した畳み込みのカーネルＣ_ｉの値を用いて、各画素ｐの特徴量Ｆ_０（ｐ）に対して特徴変換を行う。その結果、特徴量Ｆ_０（ｐ）は変換されて、異なるスケールの特徴量Ｆ_１（ｐ）となる。なお、この変換によって得られる特徴量のチャンネル数（次元数）ｄ_ｉ＋１は設定次第である。ここでは、ｄ_ｉ≦ｄ_ｉ＋１であるとして段階的に特徴チャンネルの次元数が増加する形態であるとする。

ステップＳ１０８の詳細な処理のフローを、図７に示す。また、図５には、畳み込み演算４０４の概略を示す模式図が示されている。まず、ステップＳ１０８１では、前段で読み出した畳み込みのカーネルＣ_ｉを使って、数式５の畳み込み演算を行う。

［数５］
Ｇ_ｉ＋１（ｐ）＝Ｆ_ｉ（ｐ）＊Ｃ_ｉ・・・（数式５）
ただし、この畳み込み演算を詳細化すると数式６のように表される。

［数６］
Ｇ_ｉ＋１（ｐ，ｋ，ｄ’）＝Σ_ｄΣ_{−１≦τ≦１} Ｆ_ｉ（ｐ，τ，ｄ）×Ｃ_ｉ（ｋ−τ，ｄ’，ｄ）・・・（数式６）
ここで、Ｆ_ｉ（ｐ，ｋ，ｄ）は、特徴量Ｆ_ｉ（ｐ）のうち、ｋ番目のスケール且つｄ番目の特徴チャンネルの値のことである。畳み込み変換後の特徴量Ｇ_ｉ＋１（ｐ，ｋ，ｄ）についても、同様である。次に、上記の畳み込み演算で得られた特徴量Ｇ_ｉ＋１（ｐ）に対して、スップＳ１０８２では、数式７で表わされる活性化関数θによる非線形な演算処理を行う。

［数７］
Ｇ’_ｉ＋１（ｐ）＝θ（Ｇ_ｉ＋１（ｐ）），
θ（ｘ）＝Ｍａｘ（０，ｘ）・・・（数式７）
上記の活性化関数θは、半波整流の関数である。ただし、活性化関数θとしては、これに限らず、シグモイド関数や区分線形凸関数等、様々な形態を用いることができる。次に、ステップＳ１０８３では、プーリングと呼ばれる圧縮処理を行ってスケールの数を半減させる。ここでは、特徴量Ｇ’_ｉ＋１（ｐ）を構成するｍ_ｉ個のスケールの特徴量を平均し、１個の特徴量に代表させる平均化プーリング演算４０６を行う。上記の畳み込みおよびプーリング処理により、特徴変換前のスケール数ｓ_ｉは以下の数式８で表わされるスケール数ｓ_ｉ＋１に圧縮される。

［数８］
ｓ_ｉ＋１＝（ｓ_ｉ−ｃ_ｉ＋１）／ｍ_ｉ・・・（数式８）
次に、ステップＳ１０８４では、上記プーリング演算の結果得られた特徴量をＬ２正規化し、結果を新たな特徴量Ｆ_ｉ＋１（ｐ）とする。なお、上記プーリング演算の処理は、例えば非特許文献１などの先行手法に開示されているように、最大値プーリングや、サンプリング処理など他の形態も有り得る。また、特徴変換の段階によっては、ｍ_ｉ＝１（即ちプーリング演算を行わない）をとるような段階があってもよい。Ｌ２正規化の他の形態についても同様であり、これらの手法は公知の内容であるため、ここでは詳細の説明は省略する。

図３に戻り、ステップＳ１１０のループを抜けると、最終的に中間結果保持部１０５には各画素ｐについての特徴量Ｆ_ｎ（ｐ）が保持されることになる。特徴量Ｆ_ｎ（ｐ）は１つの画像スケールのみからなるｄ_ｎ次元の特徴ベクトルである。図６（Ｃ）には、特徴量Ｆ_ｎ（ｐ）の一例を示す。図６（Ａ）〜（Ｃ）に示すように、特徴変換を施すことにより、画像のスケール方向の情報は徐々に圧縮されていく。同時に、特徴量の各チャンネルには複数のスケールのパターンの組み合わせの情報が畳み込まれていく。

従来のＣＮＮにおいては、畳み込みおよびプーリングといった特徴変換処理を画像の空間方向に対して段階的に行う。この結果、線分や曲線といった局所パターン、およびそれらが統合された顔のような複雑なパターンに反応するような受容野が形成されることが知られている。

これに対して、本実施形態の場合は、これまで説明したように特徴量のスケールの方向に対して畳み込みやプーリング処理を行う。そのため、スケール方向に分布する特定のパターンに反応するような受容野が形成される。例えば、空のように大きなスケールに広がる領域の特徴と、その中の明るい小領域である太陽といったような複数のスケールの特徴を複合したようなパターンの受容野が形成される。

次に、ステップＳ１１１で、カテゴリ判定部１０６は、前段で得られた画素ｐの特徴ベクトルＦ_ｎ（ｐ）を用いて、画素ｐのカテゴリを判定する。この処理では、あらかじめカテゴリの数ｄ_ｃ個と同じ数のニューロンを用意しておく（ここではｄ_ｃ＝４とする）。詳細については後述するが、各ニューロンは、特徴ベクトルＦ_ｎ（ｐ）が入力されるとカテゴリに対応するニューロンのみ１、それ以外は０に近い値が出力されるように予め結合重みＷ_ｎが調整されている。上記の演算は数式９で表される。

［数９］
ｌ（ｐ）＝ｓｏｆｔｍａｘ（Ｗ_ｎ・Ｆ_ｎ（ｐ）＋ｂ）・・・（数式９）
ここで、ｌ（ｐ）は画素ｐの各カテゴリの尤度を表す要素数ｄ_ｃのベクトルである。Ｗ_ｎは全結合型の重みパラメータであり、ｄ_ｃ行ｄ_ｎ列の行列である。ｂは長さｄ_ｎのバイアス項のベクトルであり、Ｗ_ｎと共に予め学習によって調整されている。関数ｓｏｆｔｍａｘ（・）は、ｘ_ｉをｉ番目の要素に持つベクトルｘが入力されると、数式１０の値をｉ番目の要素とするベクトルｙを出力する関数である。

［数１０］
ｙのｉ番目の要素：＝ｅ^ｘｉ／Σ_ｊｅ^ｘｊ・・・（数式１０）
数式１０の演算の結果が、画素ｐのカテゴリの尤度となる。これをｄ_ｃ種類のカテゴリごとにスコアのマップとして集計したものを、図２のカテゴリ尤度６０６として図示する。ここで重要なのは、カテゴリ尤度６０６の解像度が入力画像６００と等しいことである。本実施形態では、従来の方法のように空間方向に対しての畳み込みは行わず、数式６に表されるような方法で、画像のスケールｋの方向に対して特徴量を畳み込む変換を行っている。そのため、本実施形態では従来の方法と異なり、カテゴリ尤度６０６として解像度の高い結果が最終的に得られる。

＜学習方法＞
ここで、特徴変換部１０３の畳み込みカーネルＣ_ｉの重みパラメータの学習方法について述べる。深層学習においては、数式１１のように、クロスエントロピー最小化を損失関数として重みの値を調整する方法が広く知られている。ただし、ここでｑ（ｘ）はカテゴリｘの真の確率分布である。ｑ’（ｘ）は認識システムが推定したカテゴリｘの分布である（ここで認識システムはカーネルＣ_ｉの演算を部分として含むものとする）。

［数１１］
Ｈ（ｑ，ｑ’）＝ −Σ_ｘｑ（ｘ）・Ｌｏｇｑ’（ｘ）・・・（数式１１）
畳み込みカーネルＣ_ｉの重みパラメータの学習には、数式１１のクロスエントロピーを損失関数Ｌ＝Ｈ（ｑ，ｑ’）として用いる。学習時には、まず全ての畳み込みカーネルＣ_ｉの重みＷ_ｉを乱数で初期化する（Ｗ_ｉはｃ_ｉ×ｄ_ｉ＋１×ｄ_ｉ個の重み変数である）。次に、学習画像のセットを与えて得た認識システムの出力から、各学習画像の各画素についてカテゴリの推定分布ｑ’（ｘ）を計算する。そして下の更新式（数式１２）に従って、重みＷ_ｎのｊ番目の要素ｗ_ｎｊの値を更新する。

［数１２］
ｗ_ｎｊ（ｔ＋１）＝ｗ_ｎｊ（ｔ）−η∂Ｌ／∂ｗ_ｎｊ（ｔ），
Ｌ＝Σ_ｉΣ_ｐＬ_ｉｐ・・・（数式１２）
ただし、ここで、Ｌ_ｉｐは学習画像ｉの画素ｐに関する損失関数である。また、ηは１より小さな値をとる学習係数である。最終層以外の重みパラメータＷ_ｉについては、ニューラルネットで一般的な手法である誤差逆伝搬手法により各層ごとに順次計算して更新すればよい。なお、上記の更新式に慣性項や重みｗ_ｎの減衰項と呼ばれる項を加えたタイプなど派生の形態も様々に存在する。ここで示した学習計算の個々の要素は、深層学習の技術として広く知られているため、ここではこれ以上は詳述しない。

また、ここでは、教師付学習と呼ばれるタイプの学習方法の形態について述べた。しかし、他にも、非特許文献１に開示されるような、中間層のみ非教師型学習を行う形態や、入力層に近い層から一段ずつ教師付学習を行って一層ずつ追加していく形態など、本実施形態は様々な形態を採用することができる。

［第１の実施形態の変形例］
上述の第１の実施形態では、画素ごとに特徴の抽出と畳み込み等の演算を行った。しかしながら、例えば非特許文献２のような方法によって、予め画像をＮ個のＳｕｐｅｒ−ｐｉｘｅｌと呼ばれる小領域に分け、この小領域を最小単位として認識の演算処理を行うようにしてもよい。これにより、画像認識時の演算の回数を画像サイズであるｈ×ｗ回からＮ回のオーダへと減らすことができる。その際には、図４（Ａ）のフロー図で説明した複数の領域群を作成する際に、画素ではなく上述のＳｕｐｅｒ−ｐｉｘｅｌに基づいてクラスタリングを行えばよい。

また、別の変形例として、対象画像中の離れた異なる領域間の関係性を学習できる形態について述べる。例えば、人間の被験者が赤い領域の下方に暗い領域のある画像を見た場合、夕焼けの空と地面ではないか、というようにパターンの組み合わせから被写体を推定することがある。この変形例は、このように位置的に離れた領域間のパターンも積極的に学習できるようにするものである。

この変形例では、画像認識装置１００に以下のような構成を加えることで実現される。図８は、本変形例に係る特徴変換の処理を模式的に示しており、これは図５で示した特徴変換の処理を一部拡張した形態である。ただし、図８では、図５では示した畳み込み演算とプーリング演算を省略している。

本変形例が、第１の実施形態（図５）と異なるのは、特徴量Ｆ_ｉ（ｐ）を変換して特徴量Ｆ_ｉ＋１（ｐ）を得た後に、さらにマルチスケール特徴生成部１０２が特徴量Ｆ_ｉ＋１（ｐ）から付加的な特徴量Ａ_ｉ＋１（ｐ）を生成する点である。本変形例では、付加的な特徴量Ａ_ｉ＋１（ｐ）を特徴量Ｆ_ｉ＋１と連結して新たな特徴量Ｆ’_ｉ＋１（ｐ）とし、Ｆ_ｉ＋１（ｐ）の代わりに次の段階のマルチスケール特徴として用いる。

ここで、付加的な特徴量Ａ_ｉ＋１は、図８に示すように、特徴量Ｆ_ｉ＋１の特徴マップ８０２をそれぞれのスケールごとに畳み込みカーネル８０４で空間方向に畳み込んだ特徴マップ８０３から成っている。畳み込みカーネル８０４は、ガボールフィルタなど既存のフィルタを用いればよい。この結果、新たな特徴量Ｆ’_ｉ＋１（ｐ）は、図８に示すようにスケール数Ｓ_ｉ＋１、特徴次元数２×ｄ_ｉ＋１の行列となる。

このようにして、特徴量Ｆ’_ｉ＋１を用いることにより、大きなスケールの領域間のパターンと小さなスケールの領域間のパターンとを同時に考慮するような認識が行われることになる。これは、例えば夕焼けのシーンの画像が入力されると、「明るい領域の下側の暗い領域」のような大まかなパターンと、「雲のテクスチャとその下側のビル群のテクスチャ」といった細かなパターンとが同時に考慮されることを意味する。

なお、ここでは畳み込みカーネル８０４はガボールフィルタのような既存のフィルタを用いて空間方向に画像特徴を畳み込むこととしたが、他の形態として、学習によって畳み込みカーネル８０４のパラメータを獲得する形態でもよい。上記の形態の場合、付加的な特徴量Ａ_ｉ＋１（ｐ）の特徴次元数ｄ’_ｉ＋１は畳み込みカーネル８０４の出力チャンネルの数で決まる。ｄ’_ｉ＋１は自由に設定してよい。連結後の特徴量Ｆ’_ｉ＋１（ｐ）のサイズはスケール数がｓ_ｉ＋１、特徴次元数がｄ’_ｉ＋１＋ｄ’_ｉ＋１となる。

学習によって空間方向の畳み込みカーネルを得る手法については、非特許文献１等で広く知られているため、ここでの詳細な説明を省略する。以上のように、本変形例では、空間的に離れた領域間の関係性も考慮して認識を行うことができる。

また更に、上述の実施形態に係る画像認識装置は、特定の認識機能に限定されるものではない。第１の実施形態では、画像の各画素を４種類のカテゴリに分類する構成について説明したが、他の種々の目的の画像認識に利用することが可能である。例えば、画像中の主被写体の前景領域と背景領域を区別するための教師データを用意して学習することで、主被写体領域を判別するような画像認識装置を実現することができる。また例えば、判定する対象を顔が検出された領域に限定し、顔の各領域を目、鼻、口、髪の毛といったカテゴリに細分化するような形態も考えられる。

［第２の実施形態］
次に、本発明の第２の実施形態について説明する。第２の実施形態は、スケール方向の変換を全結合型の重みで実現するものである。第２の実施形態においては、スケール方向の特徴変換と、従来型のＣＮＮに特徴的な空間方向の特徴変換とが、１回の演算で同時に行えることを示す。以下、図面を参照しつつ、本発明の第２の実施形態について説明する。なお、第１の実施形態で既に説明をした構成については、その説明を省略し、同一の符号を付す。

本実施形態に係る画像認識装置は、対象画像内の物体検出を目的とするものである。ここで、物体の検出は、画像中の対象物体の大よその位置とサイズとを同定することをタスクとするものであるとする。また、検出する対象物体のカテゴリとしては、例えば犬や車といった一般的な物体とする。ここでは、自転車、建物、車、犬、人物の５つのカテゴリの物体を検出するものとする。

図９は、本実施形態に係る画像認識装置の機能構成を示す概略ブロック図である。本実施形態が第１の実施形態と異なる点は、候補領域抽出部２０８を有することである。候補領域抽出部２０８による処理の詳細については、後述する。

図１０は、本実施形態に係る画像認識処理による認識処理の流れを概略的に説明する図である。同図に示すように、まず入力画像９０１が入力されると、画像から複数の物体の候補領域９０２が抽出される。次に、物体の候補領域を所定の正方形の画像９０３に変換し、それぞれについて特徴抽出９０４を行う。次に、抽出した特徴量に基づいて、カテゴリ判定９０５を行う。判定結果９０６が所定の閾値を超えていれば、その候補領域は当該物体であるとして認識結果９０７を出力する。

ここで、本実施形態の特徴構成である、特徴抽出９０４の処理の詳細について説明する。図１１は、本実施形態に係る特徴抽出９０４の処理の詳細を概略的に示す図であり、同図には、特徴量Ｆ_０〜Ｆ_４が示されている。物体の候補領域９０３が入力されると、まず同領域から特徴量Ｆ_０が生成される。特徴量Ｆ_０は、４つの異なるスケールの特徴マップ１００１ａ〜１００１ｄから成っている。図１１において、各特徴マップ１００１ａ〜１００１ｄは、それぞれｄ_０＝７次元の特徴チャンネルで構成されている。これらは、候補領域９０３の解像度を４段階に変更し、それぞれの解像度から色やテクスチャといった合計７種類の特徴を抽出することで生成したものである。

次に、特徴量Ｆ_０に特徴変換Ｗ_０を施すことで、中間的な特徴量Ｆ_１を得る。同様に、特徴量Ｆ_ｉに特徴変換Ｗ_ｉを施して、特徴量Ｆ_ｉ＋１を得る。このように段階的に特徴変換を施すと、最終的に特徴量Ｆ_４が得られるので、これを出力とする。以上が、図１０で示した特徴抽出９０４で行われる処理の概略である。

次に、特徴変換Ｗ_ｉに関して詳述する。図１１に示すように、各特徴変換Ｗ_ｉは更にサブモジュールの演算Ｗ_ｉ（ｊ）の集合により構成されている。例えば、特徴変換Ｗ_０の場合、Ｗ_０（１），Ｗ_０（２），Ｗ_０（３）の３つの演算で構成される。演算Ｗ_ｉ（ｊ）は複数のスケールの特徴マップを統合し、一つのスケールの特徴マップに変換する処理である。図１１では、２つのスケールの特徴マップを１つのスケールの特徴に変換している。統合するスケールの数は設計値次第であるが、ここでは、ｉ番目の特徴変換で統合されるスケールの数を記号ｍ_ｉとすると、ｍ_０＝ｍ_１＝ｍ_２＝２，ｍ_３＝１と設定する。特徴変換Ｗ_ｉにより、各段階では、ｍ_ｉ−１個の数だけ特徴マップのスケール数が減ることになる。そして、最終的に特徴量Ｆ_４では、１つのスケールの特徴マップに統合されている。

次に、図１２を用いて、演算Ｗ_０（１）の詳細について説明する。図１２（Ａ）において、特徴マップ１００１ａｂは、図１１の特徴マップ１００１ａと特徴マップ１００１ｂとを連結したものである。演算Ｗ_０（１）は、まず、特徴マップ１００１ａｂに対して畳み込み演算を行う。この畳み込み演算は、図中に符号１０１０ａｂを付して示すように空間方向のサイズが７×７であり、入力特徴のチャンネル数はｄ_０×２＝１４チャンネルである。また、演算結果の出力の特徴チャンネル数ｄ_１は、１６チャンネルである。したがって、本畳み込み演算は、全部で１６×１４×７×７個の重みパラメータを持つ。

ここで、画像上のある１箇所の畳み込み演算にのみ着目すると、これは、図１２（Ｂ）に示すように、全結合の重み付き和の演算として図示できる（ただし、ここでは結合線の全てを表示していない）。この重み付き和の演算は、数式１３のようになる。

［数１３］
Ｆ’＝θ（Ｗｃ_０（１）・Ｆ）・・・（数式１３）
ここで、Ｆは長さ６８６（＝カーネルのサイズ１４×７×７に等しい）の特徴ベクトル、Ｆ’は長さ１６の特徴ベクトル、Ｗｃ_０（１）は１６行６８６列の行列からなる重み付き和のパラメータ、θは第１の実施形態で用いたものと同じ非線形の活性化関数である。

演算Ｗ_０（１）は、上記の重み付き和の演算を特徴マップ１００１ａｂの空間方向に走査しながら行う。これにより、１４×６４×６４のサイズの特徴マップ１００１ａｂは１６×５８×５８のサイズの特徴マップ１００２ａ’に変換される。さらに、特徴マップ１００２ａ’に対して２×２の画素ごとに平均値を取ることでダウンサンプリングを行う（平均値プーリング）。これにより、最終的に１６×２９×２９のサイズの特徴マップ１００２ａが得られる。なお、上記の重み付き和のパラメータＷｃは３つの演算Ｗ_０（１），Ｗ_０（２），Ｗ_０（３）で共通であってもよいが、ここではそれぞれ異なる値を学習するものとする。

以降、特徴変換Ｗ_１〜Ｗ_３についても特徴変換Ｗ_０と同様の変換操作が行われ、段階的に特徴量Ｆ_１〜Ｆ_３が得られる。各段階の処理は全て同タイプの演算であるが、カーネルのサイズ、特徴チャンネルの数、および結合重みの値は各段階によって異なる。空間方向の解像度は変換の段階をＦ_０→Ｆ_１→…→Ｆ_４と経るにつれ、６４→２９→１２→４→１と順次圧縮される。

次に、図１３（Ａ）を用いて、本実施形態の画像認識装置による認識処理の全体のフローについて説明する。同図において、まずステップＳ２０１で、画像取得部２０１が画像を取得すると、候補領域抽出部２０８は取得した画像中の物体らしいと思われる領域を物体らしい候補領域として同定する。これは一般に知られている手法、例えば非特許文献３に記載の手法を用いることにより行うことができる。

次に、ステップＳ２０３からＳ２１４までは、各候補領域について同じ処理を繰り返す。ステップＳ２０４では、マルチスケール特徴生成部２０２が、候補領域の画像を変換して６４×６４の画像に正規化する。次に、ステップＳ２０５で、マルチスケール特徴生成部２０２が、６４×６４の画像およびこれをダウンサンプリングした３２×３２，１６×１６，８×８の画像から、計４つのスケールに関する特徴マップを生成する。

このステップＳ２０５の処理を細分化したフローチャートを、図１３（Ｂ）に示す。ここでは、まずステップＳ２０５１において、６４×６４の画像について傾きが４５度ずつ異なる４種類のガボールフィルタの応答マップを得る。そして、ステップＳ２０５２において、前段で得た応答マップにＲＧＢの３次元の値を連結して７次元の特徴マップを生成する。次に。ステップＳ２０５３からステップＳ２０５７までの処理を繰り返して、画像の平均化とダウンサンプリングとを繰り返すことで、６４×６４から８×８までの４つのスケールの特徴マップを生成する。最後に、ステップＳ２０５８で、画像をアップサンプリングして全てのスケールの特徴マップを７×６４×６４次元に揃える。なお、ここでは、特徴チャンネルとしてガボールとＲＧＢの値を用いたが、画素を単位として算出される特徴であれば、他のものであってもよい。

図１３（Ａ）のフローチャートに戻ると、ステップＳ２０６では、マルチスケール特徴生成部２０２が、前段で得られた複数スケールの特徴量ｆ_ｋをまとめて連結し、４スケール×７次元の特徴量Ｆ_０を得る。

次に、ステップＳ２０７からステップＳ２１１までは、特徴量Ｆ_０を複数回変換することで特徴量Ｆ_４を得る処理である。ステップＳ２０７では、制御部２０７が、カウンターｉを０にセットし、ステップＳ２０８では、制御部２０７が、ｉ＋１番目の特徴変換Ｗ_ｉの変換パラメータを変換制御データメモリ２０４から読み出す。次にステップＳ２０９では、特徴変換部２０３が、特徴変換Ｗ_ｉのパラメータを用いて、各画素ｐの特徴量Ｆ_ｉ（ｐ）を特徴量Ｆ_ｉ＋１（ｐ）へと変換する。

さらに、ステップＳ２１２で、特徴変換部２０３が、特徴量Ｆ_ｉ＋１を２×２の画素で平均化して半分の解像度へ圧縮する。ステップＳ２１３では、中間結果保持部２０５が、特徴量Ｆ_ｉ＋１を保持する。さらに、制御部２０７が、保持された特徴量Ｆ_ｉ＋１を特徴変換部２０３へ再入力し、ｉ＝０〜３のループを繰り返す。

ｉ＝４でループが終了したら、ステップＳ２１４で、カテゴリ判定部２０６が特徴量Ｆ_４をサポートベクトルマシン（以下、ＳＶＭ）に入力し、カテゴリ判定のスコアを得る。そして、いずれかのカテゴリのＳＶＭのスコアが所定値を超えていれば、候補領域のサイズ、位置および判定結果を制御部２０７の保持部に記憶しておく。超えていない場合、候補領域は物体でないとして破棄する。

ステップＳ２１５において、全ての候補領域について以上の特徴抽出とカテゴリ判定とが完了するまで上述のループの処理を繰り返し、ステップＳ２１６で、制御部２０７は各候補領域についてのカテゴリ判定結果を出力する。以上で、本実施形態の認識処理のフローが終了する。

＜特徴変換のパラメータ＞
ここで、図１４に、本実施形態に係る特徴変換に関するパラメータの例（パラメータ設定１）を示す。図１４（Ａ）の表は、その各数値が図１１に示した特徴変換の構成と一致するものである。この数値は、あくまでも本実施形態を実現する際の一例であり、これらの数値を変化させることによりネットワークの性能も変化する。

図１４（Ｂ）に、よりネットワークの規模を大きくした際のパラメータの設定例（パラメータ設定例２）を示す。図１４（Ａ）に示すパラメータ設定１では、特徴量Ｆ_０に含まれる特徴のスケールの数は４であった（解像度６４×６４，３２×３２，１６×１６，８×８の４オクターブ４スケール）。これに対し、パラメータ設定２では、この特徴のスケールを６４×６４から２×２までの６オクターブとし、且つ、０．５オクターブごとに特徴マップを用意する。これにより特徴量Ｆ_０には、１１個のスケールの特徴が含まれる。さらに、特徴量Ｆ_０の各スケールの特徴マップには、ＲＧＢの３次元のチャンネルが含まれるとする。

ここで、スケール方向の特徴量の変換として、パラメータ設定１では各段階で２スケールを統合して１スケールへ変換する演算を用いていたが、パラメータ設定２では３スケールを１スケールへ統合するように変更した。このパラメータ設定２のネットワークは、スケール方向の規模が大きいため、パラメータ設定１のネットワークに比べて、より複雑なスケール間の特徴の関係性を学習することが期待できる。ただし、必要なメモリ量、学習時間、および実行時の計算量は増大する。

以上のように、本実施形態では、スケール方向の特徴の変換を全結合型の重みで行うようにしている。そのため、スケール方向の特徴の変換に関して、第１の実施形態で示した畳み込み演算の形態に限らず、本実施形態のような、特徴マップを段階的に全結合したような形態のネットワークに対しても適用できるようになる。

＜学習方法＞
ここで、本実施形態に係る各段階の特徴量の変換の学習方法について説明する。図１２（Ｃ）は、本実施形態の特徴量変換の学習方法を説明する模式図である。ここでは、オートエンコーダーと呼ばれる非教師型の学習方法を用いることとする。これは、以下の数式１４で表される。

［数１４］
ｚ＝θ（Ｗ・ｘ＋ｂ），
ｘ’＝θ（Ｗ^Ｔ・ｚ＋ｂ’）・・・（数式１４）
ここで、ｘは入力特徴量１０１０ｐを１列のベクトルとして並べたもの、ｚは中間層の出力、ｘ’は出力特徴量１０１０ｑを１列のベクトルとして並べたものである。Ｗはｘとｚの間を結合する全結合型の重み行列、Ｗ^Ｔはｚとｘ’の間を結合する全結合型の重み行列であり、Ｗの転置行列である。ｂとｂ’はバイアス項のベクトルである。θは以下の数式１５で定義されるシグモイド関数である。

［数１５］
θ（ｘ）＝１／（１＋ｅ^−ｘ）・・・（数式１５）
オートエンコーダーの学習は、数式１５の入力ｘと出力ｘ’がなるべく同じ値になるように重みパラメータＷを調節することで行われる。学習時には、まずＷを乱数で初期化する。次に、学習用画像から物体候補領域を抽出し、各候補領域から特徴マップＦ_０を抽出して学習データセットとする。次に、損失関数Ｌは数式１６で定義され、これを最小化するように以下の更新式（数式１７）を用いて重みＷおよびバイアス項ｂとｂ’を更新する。ここでｘ_ｊはｊ番目の学習データの特徴量である。

［数１６］
Ｌ＝ Σ_ｊ１／２｜｜ｘ’_ｊ−ｘ_ｊ｜｜^２・・・（数式１６）
［数１７］
ｗ（ｔ＋１）＝ｗ（ｔ）−η∂Ｌ／∂ｗ（ｔ），
ｂ（ｔ＋１）＝ｂ（ｔ）−η∂Ｌ／∂ｂ（ｔ），
ｂ’（ｔ＋１）＝ｂ’（ｔ）−η∂Ｌ／∂ｂ’（ｔ）・・・（数式１７）
また、ηは１より小さな値をとる学習係数である。以上の処理を特徴変換の全段階、全スケールで行い、学習された重みＷとバイアス項をそれぞれ記憶する。学習の順番は、特徴量Ｆ_０と特徴量Ｆ_１の変換に関する重みパラメータから始める。学習で獲得されたＷ_ｉを用いて特徴量Ｆ_ｉ−１から特徴量Ｆ_ｉを算出し、次の段階の重みパラメータＷ_ｉ＋１を学習する。このような順番で学習処理を行う。

以上の学習方法は、深層学習において広く知られた方法である。また、オートエンコーダーに関しては、スパース性を用いるものなど様々な方法が提案されている。なお、オートエンコーダーではなく、第１の実施形態で述べたような教師付学習の方法を用いてもよい。詳細については非特許文献１に記載されているため、ここでの説明は省略する。

上記のようにして特徴変換のための重みＷ_０〜Ｗ_３のセットが全て得られたら、次に最終の特徴量Ｆ_４からカテゴリ判定結果を得る変換についての学習を行う。これは、まず重みＷ_０〜Ｗ_３を用いて学習データの候補領域から特徴量Ｆ_４を得る。次に、特徴量Ｆ_４と物体のカテゴリの教師値をペアとし、ＳＶＭの学習を行う。ここでは１ｖｅｒｓｕｓａｌｌ（１対全）方式などの一般的なマルチクラスの学習方法を用いることとする。以上が各段階の特徴変換のパラメータの学習の仕方である。

［第２の実施形態の変形例］
上述の第２の実施形態に係る画像認識装置は物体検出を目的としたが、例えばこれを画像のシーン分類のような認識タスクに応用することも可能である。それには物体の候補領域を画像全体とし、判定する対象をシーンのカテゴリに変更して学習、認識を行えばよい。また、例えば、物体候補領域を、人体検出器を用いて検出した人物の候補領域に変更し、カテゴリ判定部２０６が対象とするカテゴリを人物のポーズの種別や人物の行動カテゴリに変更してもよい。これにより、人物の姿勢認識や行動認識の機能を実現することが可能にある。第２の実施形態はスケール方向の特徴変換の方法に特徴を有し、その適用先としてのパターン認識については特定のタスクに限定されるものではない。

［第３の実施形態］
次に、本発明の第３の実施形態について説明する。第３の実施形態は、スケール方向の特徴変換と画像の空間方向の特徴変換とを別々に行うものである。以下、図面を参照しつつ、本発明の第３の実施形態について説明する。なお、第１、第２の実施形態で既に説明をした構成については、その説明を省略し、同一の符号を付す。

図１５は、本実施形態に係る特徴変換を模式的に説明する図であり、図１５（Ａ）は画像の空間方向の特徴変換Ｗ^ｓｐ _ｉ、図１５（Ｂ）は画像のスケール方向の特徴変換Ｗ^ｓｃ _ｉを示している。本実施形態では、この二種類の特徴変換を所定の順序で行うこととする。ここではｉ＝０，２，４の偶数番号の変換の時に特徴変換Ｗ^ｓｐ _ｉを、ｉ＝１，３，５の奇数番号の変換の時に特徴変換Ｗ^ｓｃ _ｉを、それぞれ行うこととする。ただし、上記記載のような交互順に限る必要はなく、二つの変換をどのような順序で行ってもよい。本実施形態の一部の処理のブロック図を図１５（Ｃ）に示す。入力画像から生成された特徴量は次々と特徴変換を施され、最終的に特徴量Ｆ_６が得られる。これを判別器で判定し、画素ごとにカテゴリの尤度Ｌを求めるという処理の流れになっている。

ここで、特徴量の変換処理の詳細について説明する。本実施形態では、まず特徴量Ｆ_０を生成する。これには、まずマルチスケール特徴生成部１０２が、入力画像に対して平均化およびダウンサンプリングを行い、解像度の異なる複数の階層解像画像を生成する。ここではスケール数をｓ_０＝７とする。７階層の画像それぞれはＲＧＢ値の３チャンネルの特徴量を持っている。このｋ番目の階層の画像のＲＧＢの値それぞれを特徴量Ｆ_０の各スケールの特徴マップｆ_０，ｋとする。

次に、図１５（Ａ）に示すように、特徴変換部１０３が各スケールの特徴マップｆ_０，ｋに対して画像の空間方向の特徴変換Ｗ^ｓｐ _０を施す。この変換の個々の演算要素は特徴マップｆ_０，ｋ上の３チャンネル×３×３ピクセルの範囲の値を重み付け和し、特徴マップｆ_１，ｋ上のｄ_ｉ＋１次元×１×１ピクセルの特徴チャンネルに変換する処理から成る。なお、本実施形態では、簡単のために特徴量Ｆ_０は３次元の特徴チャンネル、特徴量Ｆ_１〜Ｆ_６は全て３２次元の特徴チャンネルで構成されているものとする。そのため、特徴変換Ｗ^ｓｐ _０の重みパラメータは３２×３×３×３個の値から成る。また、特徴変換Ｗ^ｓｐ _２およびＷ^ｓｐ _４の重みパラメータは３２×３２×３×３個の値から成る。

特徴変換Ｗ^ｓｐ _０の演算を特徴マップｆ_０，ｋの画像上の全位置に対して行うことで、特徴マップｆ_１，ｋが得られる。この処理は、第２の実施形態で述べた重み付き和による演算処理と同一であるので繰り返しての説明は行わない。次に、第２の実施形態と同様に、特徴マップｆ_１，ｋに対して活性化関数による非線形変換を行う。なお、本実施形態において、画像解像度を半分にするプーリング処理は行わない。

なお、特徴変換Ｗ^ｓｐ _０は空間方向に３×３の畳み込みを行う処理であるため、単純に変換処理を行うと特徴マップｆ_１，ｋは特徴マップｆ_０，ｋよりも周囲１画素分だけサイズが小さくなる。これを防ぐために、特徴マップｆ_０，ｋは予め周囲１画素分の画素について、元の画像を鏡像反転させた画素によって充填しておくこととする。これにより、変換によって変換前と同一の空間方向の解像度の特徴量Ｆ_ｉ＋１が得られるようにする。
次に、階層画像の特徴マップｆ_１，ｋをアップサンプリングし、各階層の画像の解像度を元の画像のサイズｈ×ｗに揃える。最後に、全てのスケールの特徴マップｆ_１，１〜ｆ_１，Ｓ１を連結して特徴量Ｆ_１とする。なおこの特徴変換Ｗ^ｓｐ _ｉの処理においては、スケールに関しての変換はなされないので新たな特徴量Ｆ_１のスケールの数はｓ_１＝ｓ_０＝７である。

続いて、特徴量Ｆ_１に対して、図１５（Ｂ）に示すスケール方向の特徴変換処理Ｗ^ｓｐ _１を行う。これは、第１の実施形態で述べた方法と同様であり、特徴量Ｆ_１の各画素ｐの特徴量Ｆ_１（ｐ）ごとに変換を行う。ここでは、特徴量Ｆ_１（ｐ）の７つのスケールのうち、隣接する３つのスケールの特徴を統合し、特徴量Ｆ_２（ｐ）の１つのスケールの特徴へと変換する。ここでは、特徴量ｆ_１，１（ｐ）〜ｆ_３，１（ｐ）を変換して、特徴量ｆ_２，１（ｐ）を得ている。これは第１の実施形態と同様に、畳み込みの演算と活性化関数による非線形の変換とから成り、この畳み込みのカーネルは３×ｄ_２×ｄ_１個の重みのパラメータから成る。この重みパラメータはどの３つのスケールを統合する時にも共通の値を使ってもよいし、スケールによってそれぞれ独立に学習した値を用いてもよい。本実施形態では、簡単のためにスケールに関係なく共通であるとする。このような特徴変換Ｗ^ｓｐ _ｉにより、特徴量のスケールは各段階で２スケール削減されてｓ_ｉ＋１＝ｓ_ｉ−２となる。

以上説明した変換処理Ｗ^ｓｐとＷ^ｓｃとを交互に繰り返して、特徴量を逐次的に変換していく。図１５（Ｃ）の各特徴量Ｆ_ｉの下に、変換による特徴量Ｆ_ｉのサイズの変化を数値で示す。このうちｈとｗとは画像の縦と横のサイズである。各数値の３つ目の値はスケールの数、４つ目の値は特徴チャンネルの次元数である。なお、特徴変換Ｗ^ｓｐ _ｉおよびＷ^ｓｃ _ｉの重みパラメータの学習については、第１、第２の実施形態と同様の方法を用いればよい。すなわち、誤差逆伝搬あるいはオートエンコーダーの方法で学習すればよい。

最後に、図１６を用いて、本実施形態の画像認識装置による認識処理の全体のフローについて説明する。図１６のフローチャートは、第１の実施形態に係る図３のフローのチャートに部分的に同一であり、異なる点は以下のとおりである。まず、ステップＳ３０４で制御部１０７が、所定の順番に従ってｉ番目の特徴変換として画像の空間方向の特徴変換か、スケール方向の特徴変換かのいずれかを行うトリガーを送出する。

そして、空間方向の特徴変換を行う場合は、ステップＳ３０５〜Ｓ３１０の処理が行われる。まず、ステップＳ３０５で、特徴変換部１０３が、各スケールの特徴マップをダウンサンプリングして、解像度がピラミッド状に異なる特徴マップを生成する。生成される特徴マップの一例を、図１５（Ａ）に、特徴マップｆ_ｉ，１〜ｆ_ｉ，Ｓｉとして示す。次に、特徴変換部１０３は、ｓ_ｉ個のスケールからなる特徴量Ｆ_ｉに対して、スケールごとに特徴変換Ｗ^ｓｐ _ｉによる変換処理を行う（ステップＳ３０７）。その結果、各スケールｋの特徴マップｆ_ｉ，ｋは、特徴マップｆ_{ｉ＋１，ｋ}に変換される。次に、ステップＳ３０９では、特徴変換部１０３が、特徴マップｆ_{ｉ＋１，１}〜ｆ_{ｉ＋１，ｓｉ＋１}それぞれをアップサンプルして全て元の画像サイズｈ×ｗに戻す。そして、ステップＳ３１０では、特徴変換部１０３が、全ての特徴マップを連結して特徴量Ｆ_ｉ＋１とし、中間結果保持部１０５に保存する。そして、次のｉ＋１番目の特徴変換の処理に進む。

一方、スケール方向の特徴変換を行う場合は、ステップＳ３１１〜Ｓ３１４の処理が行われる。この処理では、特徴変換部１０３は、特徴量Ｆ_ｉの各画素ｐの特徴量Ｆ_ｉ（ｐ）に対して特徴変換Ｗ^ｓｃ _ｉを用いた変換処理を行う（ステップＳ３１２）。変換の結果、特徴量Ｆ_ｉ＋１（ｐ）が得られるので、全画素の結果をまとめて、それを特徴量Ｆ_ｉ＋１として得る（ステップＳ３１４）。中間結果保持部１０５は特徴量Ｆ_ｉ＋１を保存し、次のｉ＋１番目の特徴変換の処理に進む。

このようにして、所定回数（ここでは、ｉ＝０〜５）の特徴変換が行われたら、得られた特徴量Ｆ_６（ｐ）を用いて、カテゴリ判定部１０６が判定処理を行う。以上が、本実施形態に係る認識処理の全体的なフローである。

以上、本実施形態によれば、スケールに関する特徴変換と画像の空間方向の特徴変換とを別々に行うことにより、精度よく画像認識を行うことができる。

［第４の実施形態］
次に、本発明の第４の実施形態について説明する。上述の各実施形態において、マルチスケールの特徴量Ｆ_０は、スケールの異なる複数の特徴量ｆ_０，１〜ｆ_０，ｓ０で構成されていた。そして、各特徴量ｆ_０，ｉの特徴の属性およびその次元数は、どのスケールｉでも共通であった。これに対し、第４の実施形態は、特徴量Ｆ_０を構成する各スケールの特徴量ｆ_０，１〜ｆ_０，ｓ０の属性および次元数がそれぞれ異なるものである。以下、図面を参照しつつ、本発明の第３の実施形態について説明する。なお、第１〜第３の実施形態で既に説明をした構成については、その説明を省略し、同一の符号を付す。

図１７は、本実施形態に係る画像認識装置の全体の処理を概略的に示す概略図である。本実施形態の各機能部は第１の実施形態と同様である。また、本実施形態の画像認識装置は、入力画像の被写体のカテゴリを判別し、入力画像を判別したカテゴリ毎の領域に分ける意味的領域分割を行うものである。

次に、図１８を用いて、本実施形態に係る画像認識装置の認識処理のフローを説明する。まず、ステップＳ４０１で、画像取得部１０１は処理対象の画像を取得する。ステップＳ４０２で、マルチスケール特徴生成手段１部は、入力画像からＳ_０個の特徴マップ１１１ａ〜１１１ｅを生成する。後述するように、この特徴マップはそれぞれ特徴の属性が異なる。また、ｉ番目の特徴マップはｄ_０，ｉ次元の特徴次元を持つ。

図１７には、特徴マップ１１１ａの一例として、画像のシーンの尤度を用いた例を示す。ここで、画像のシーンとは、予めユーザが任意に定めた「夜景」、「海岸」、「山岳」といったｄ_０，１種類の画像シーンである。シーンのクラス数ｄ_０，１は、ユーザが任意に決定しておく。また、事前に事例画像データおよび教師データを用意して識別器を学習することで、任意の画像についてシーンクラスの尤度が推定できるようにしておく。このようなシーン識別器は、例えば非特許文献１に記載の方法により実現できる。なお、一般的なシーン識別手法は、１枚の入力画像に対してシーンクラスの数だけ尤度を出力する。ここでは、上記のようなｄ_０，１個の出力結果を画素数の分だけ複製してＨ×Ｗ×ｄ_０，１の行列とし、これを特徴マップとする。以上が、特徴マップ１１１ａの詳細である。

また、図１７には、特徴マップ１１１ｂの一例として、物体検出器の検出結果を用いる例を示す。ここでの物体とは、予めユーザが任意に定めた「人間」、「車」、「犬」などといった、ｄ_０，２種類の物体である。また、物体検出結果とは、これらの物体が画像中のどこに存在する確度がどの程度高いかを示した、Ｈ×Ｗ×ｄ_０，２の尤度スコアのマップである。物体検出の手法としては、例えば非特許文献４に記載された手法を用いればよい。図１７では、検出結果を特徴マップ１１１ｂ中の複数の矩形として表現している。ここでは、分かりやすくするために、検出結果を物体が検出された位置の矩形として図示している。物体の検出結果は、検出か不検出かのような二値であってもよいし、存在確率のような連続値でもよい。また、矩形ではなく不定形の分布形状でもよい。どのような物体検出結果のマップを特徴マップ１１１ｂとして用いるかは、利用する物体検出器の出力形態によって決めればよい。

また、図１７には、特徴マップ１１１ｃとして、特徴マップ１１１ａと同じくｄ_０，１種類の画像シーンを推定したシーンクラスの尤度を用いる。特徴マップ１１１ａと異なる点は、特徴マップ１１１ｃの方がシーン認識の結果のスケールがより細かいことである。具体的には、画像の局所領域（ここでは、画像を４分割した領域）を入力画像とし、それぞれをシーンクラス判別器で推定させる。これにより、２×２×ｄ_０，１の尤度の結果が得られるので、これを縦横それぞれＨ／２倍、Ｗ／２倍に複製して、Ｈ×Ｗ×ｄ_０，１の行列を得る。以上が、特徴マップ１１１ｃの詳細である。なお、推定するシーンクラスの種類が特徴マップ１１１ａと同一である必要はなく、シーンの種類や数をそれぞれのスケールで変えてもよい。

また、図１７には、特徴マップ１１１ｄとして、特徴マップ１１１ｂと同じくｄ_０，２種類の物体の検出結果によって構成されたマップを用いる。ただし、特徴マップ１１１ｂの物体検出よりも、小さなサイズの検出窓で物体の検出を行った結果を用いる。この物体検出の結果を、図中では特徴マップ１１１ｄの中の小さな複数の矩形として表現する。特徴マップ１１１ｄにおいて、物体の種類は特徴マップ１１１ｂと同一である必要はない。

また、図１７に示す特徴マップ１１１ｅは、上述の実施形態で既に説明をした、画像のＲＧＢ情報であるとする。この特徴マップ１１１ｅの次元数ｄ_０，５は、３である。以上のように、本実施形態では、属性および特徴次元数の異なる複数の特徴マップ１１１ａ〜１１１ｅがマルチスケール特徴量Ｆ_０を構成している。そして、これらの特徴マップは、それぞれの特徴量のスケールの大小を考慮して、おおよそのスケールの大きさの順に配列させている。ただし、属性の異なる特徴間のスケールについては、大小関係の判断しにくい部分もあり、このような場合は厳密な定義は必要なく、おおよその順序をユーザが決めればよい。

図１８に戻り、ステップＳ４０３〜Ｓ４１０では、特徴変換部１０３がマルチスケール特徴Ｆ_０に対して段階的に特徴変換Ｗ_０およびＷ_１を加える。これにより、特徴量Ｆ_０はＦ_０→Ｆ_１→Ｆ_２と順に変換される。ここで、特徴変換Ｗ_ｉはｓ_ｉ＋１個の変換処理Ｗ_ｉ（１）〜Ｗ_{ｉ（ｓｉ＋１）}から成っている。なお、Ｗ_ｉ（ｊ）の添え字ｉは変換を施す特徴量Ｆ_ｉ、添え字ｊは変換により得られる特徴量Ｆ_ｉ＋１を構成するｊ番目のスケールの特徴マップに対応している。変換の詳細は、数式１８のようになる。

［数１８］
ｆ_{ｉ＋１，ｊ}（ｐ）＝θ（Ｗ_ｉ（ｊ） ^Ｔｆ_{ｉ，ｍ（ｊ）}（ｐ）＋ｂ）
・・・（数式１８）
ここで、ｆ_{ｉ＋１，ｊ}（ｐ）は変換後のｊ番目の特徴マップ中の画素ｐの特徴ベクトルである。特徴ベクトルｆ_{ｉ＋１，ｊ}（ｐ）の次元数は、スケールｊごとにユーザが任意に設定したものである。このときの次元数を記号ｄ_{ｉ＋１，ｊ}で表す。ｆ_{ｉ，ｍ（ｊ）}（ｐ）は、上層の特徴ベクトルｆ_{ｉ＋１，ｊ}（ｐ）に結合を持つ下層の全ての特徴ベクトルを縦に連結したものである。また、ｂはバイアス項、θは第１の実施形態と同じく非線形の活性化関数である。変換処理Ｗ_ｉ（ｊ）は全結合型の変換であり、ｄ_{ｉ，ｍ（ｊ）}行ｄ_{ｉ＋１，ｊ}列の行列である。次元数ｄ_{ｉ＋１，ｊ}は、スケールｊごとにユーザが異なる値を決めてもよいし、全て同一の値としてもよい。

ステップＳ４０５は、特徴変換部１０３が、上記の変換処理を行うために、変換制御データメモリ１０４から変換処理Ｗ_ｉ（ｊ）およびバイアス項ｂのパラメータを読み込む処理である。変換処理Ｗ_ｉ（ｊ）およびバイアス項ｂのパラメータは、第２の実施形態と同様に、予めオートエンコーダーあるいは教師付学習の方法を用いてパラメータを学習し、保存してあるものとする。そして、ステップＳ４０７では、特徴変換部１０３が上記変換処理を行う。

図１７では、特徴量Ｆ_０（ｐ）が特徴ベクトルｆ_０，１（ｐ）〜ｆ_０，５（ｐ）で構成されている。そのうちの特徴ベクトルｆ_０，１（ｐ）〜ｆ_０，３（ｐ）は変換処理Ｗ_０（１）によって特徴ベクトルｆ_１，１（ｐ）へと変換される。同様に、特徴ベクトルｆ_０，２（ｐ）〜ｆ_０，４（ｐ）は変換処理Ｗ_０（２）によって特徴ベクトルｆ_１，２（ｐ）へと変換される。なお、変換前の各特徴量ｆ_０，ｉは、シーン分類や物体検出など互いに区別される属性を持つものであるが、変換後の各特徴量ｆ_１，ｉは複数の属性の特徴量が混合された情報となる。また、本実施形態では、各スケールの特徴マップｆ_ｉ，１〜ｆ_ｉ，Ｓｉは属性および次元数が異なるため、第１の実施形態で用いたような畳み込み演算を変換処理として用いることはできない。そのため、数式１８に示したような全結合型の変換処理が好適である。

ステップＳ４０６〜Ｓ４０８では、以上の変換処理を全画素ｐについて行い、特徴量Ｆ_０から特徴量Ｆ_１への変換が完了する。このような特徴量の変換をｎ段階繰り返すことで、スケールの異なる異種の情報が最終的に一つのスケールの特徴マップである特徴量Ｆ_ｎへと統合される。ステップＳ４１１では、得られた特徴量Ｆ_ｎを用いて、カテゴリ判定部１０６が各画素ｐのカテゴリの尤度を求めて、結果を出力する。以上により、本実施形態の認識処理が終了する。

以上、本実施形態によれば、シーンクラスの尤度、物体検出の結果、色の情報のように、情報のスケールおよび属性の異なる特徴量を段階的に統合し、精度よく画像認識を行うことが可能になる。

なお、異種情報を段階的に統合する形態として、他の構成も考えられる。図１９は、本実施形態の変形例を説明する図であり、変換前後の二層分のみを抜粋して示している。図１９では、特徴マップ間の太線はどの下層の特徴マップが変換処理によってどの上層の特徴マップに変換されるかを示している。

図１９（Ａ）には、上層の特徴マップｆ_{ｉ＋１，１}に対応する下層の特徴マップｆ_ｉ，１〜ｆ_ｉ，６と、上層の特徴マップｆ_{ｉ＋１，２}に対応する下層の特徴マップｆ_ｉ，４〜ｆ_ｉ，９とが部分的に重複した例を示している。図１９（Ｂ）には、上層の特徴マップｆ_{ｉ＋１，１}に対応する下層の特徴マップと、ｆ_{ｉ＋１，２}に対応する下層の特徴マップとが互い違いに重なるような例を示している。図１９（Ｃ）には、上層の特徴マップｆ_{ｉ＋１，１}，ｆ_{ｉ＋１，２}，ｆ_{ｉ＋１，３}が下層の特徴マップｆ_ｉ，１〜ｆ_ｉ，１２と、不規則な対応関係を持って結合している例を示している。図１９（Ｃ）は不規則性があるものの、スケールの大きな特徴マップはスケールの大きな特徴マップへ、小さなスケールの特徴マップはスケールの小さな特徴マップへと統合される頻度が高いという関係性を持っている。このような対応関係は、例えば数式１９のような確率式で上下層の結合関係を決めることで実現できる。

［数１９］
Ｐ（ｖ（ｑ，ｒ）＝１）＝１／Ｚ・ｅｘｐ｛−１／σ・（ｑ−ｒ＋０．５）^２｝
・・・（数式１９）
ただし、Ｐ（ｖ（ｑ，ｒ）＝１）は、上層の特徴量Ｆ_ｉ＋１のｑ番目のスケールの特徴マップｆ_{ｉ＋１，ｑ}が下層の特徴量Ｆ_ｉのｒ番目のスケールの特徴マップｆ_ｉ，ｒと結合を持つ確率である。また、Ｚは正規化係数、σはスケールについての制御パラメータである。

以上、本実施形態では、階層スケールを持つ特徴マップを段階的に統合する形態について複数の例を示した。これらの形態は様々に考えられ、本発明が特定の形態に限定されるものではない。本実施形態で示したように、何らかの情報のスケールに沿って配置された特徴マップと、それらの順序関係を保ったまま特徴量を段階的に統合する特徴量の変換という２つの要件を備える形態であれば、本発明は広く適応可能である。特徴量Ｆ_０を構成する各特徴マップは同種の特徴量、同数の特徴次元でもよいし、本実施形態で示したように相異なる特徴量でもよい。また、特徴量の段階的な統合の際の上層と下層の結合関係は、図１９（Ａ）および（Ｂ）に例示したような規則的な関係であってよいし、図１９（Ｃ）に例示したような一部に不規則性のある対応関係でもよい。
［その他の実施形態］
また、本発明は、上記実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読出し実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形（各実施例の有機的な組合せを含む）が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

１０１画像取得部
１０２マルチスケール特徴生成部
１０３特徴変換部
１０４変換制御データメモリ
１０５中間結果保持部
１０６カテゴリ判定部
１０７制御部

Claims

対象画像を取得する取得手段と、
前記取得した対象画像に基づいて、少なくとも３つの異なるスケールの特徴ベクトルからなる特徴セットを生成する生成手段と、
前記生成した特徴セットとは異なるスケールの特徴セットに変換する変換処理を行う変換手段と、
前記変換手段による変換処理を複数回実行させる制御手段と、
を有することを特徴とする画像認識装置。
前記生成手段が生成した特徴セットと前記変換手段が変換した特徴セットとは同一のスケール方向の順序を持つマルチスケールの特徴セットであることを特徴とする請求項１に記載の画像認識装置。
前記変換手段は畳み込みニューラルネットからなることを特徴とする請求項１または２に記載の画像認識装置。
前記変換手段は全結合型のニューラルネットであることを特徴とする請求項１または２に記載の画像認識装置。
前記生成手段は、前記取得した対象画像に基づいてスケールの異なる複数の画像を生成し、当該生成した複数の画像に対して空間方向の特徴を統合するニューラルネットをそれぞれ適応した結果に基づいて前記特徴セットを生成する生成処理を実行することを特徴とする請求項１から４のいずれか１項に記載の画像認識装置。
前記制御手段は、前記生成手段による生成処理と前記変換手段による変換処理を段階的に複数回実行させることを特徴とする請求項５に記載の画像認識装置。
前記生成手段は、スケールに関する制御パラメータを変更することによりスケールの異なる複数の局所領域を生成し、当該局所領域の特徴量に基づいて前記特徴セットを生成することを特徴とする請求項１から６のいずれか１項に記載の画像認識装置。
前記生成手段は、前記取得した対象画像に基づいてスケールの異なる複数の画像を生成し、当該生成した複数の画像について空間方向の特徴を統合する演算の結果と、前記局所領域との特徴量とを連結することを特徴とする請求項７に記載の画像認識装置。
前記生成手段は、スケールおよび特徴の種別が異なる特徴のセットを生成することを特徴とする請求項１から８のいずれか１項に記載の画像認識装置。
前記制御手段により前記変換処理が複数回実行された特徴セットに基づいて、前記対象画像に含まれるカテゴリを判断する判定手段を、更に有することを特徴とする請求項１から９のいずれか１項に記載の画像認識装置。
前記制御手段により前記変換処理が複数回実行された特徴セットに基づいて、前記対象画像のシーンの種別、前記対象画像の被写体の種別、前記対象画像の被写体の行動の種別、前記対象画像の被写体が主被写体か否か、のいずれか１つ以上を判定する判定手段を、更に有することを特徴とする請求項１から９のいずれか１項に記載の画像認識装置。
対象画像を取得するステップと、
前記取得した対象画像に基づいて、少なくとも３つの異なるスケールの特徴ベクトルからなる特徴セットを生成するステップと、
前記生成した特徴セットとは異なるスケールの特徴セットに変換する変換処理を行うステップと、
前記変換処理を複数回実行させるステップと、
を有することを特徴とする画像認識方法。
コンピュータを請求項１から１１のいずれか１項に記載の画像認識装置として機能させるためのプログラム。