JP6050223B2

JP6050223B2 - 画像認識装置、画像認識方法、及び集積回路

Info

Publication number: JP6050223B2
Application number: JP2013500706A
Authority: JP
Inventors: チョンヤンヒュアン; ヤンフア; シュイチェンイェン; チアーンチェン; 亮一川西
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2011-11-02
Filing date: 2012-08-29
Publication date: 2016-12-21
Anticipated expiration: 2032-08-29
Also published as: US8897578B2; US20140193074A1; CN103189897A; CN103189897B; JPWO2013065220A1; WO2013065220A1

Description

本発明は、一般物体認識を行う画像認識技術に関し、特に、階層化マッチング技術に関する。

近年、一般物体認識に関し、空間階層化マッチング（ＳＰＭ）（非特許文献１参照）を用いる手法が提案されている。ＳＰＭでは、入力画像の特徴を表現するヒストグラムを算出する際に、まず、入力画像を複数の領域に分割し、分割された各領域を、更に、複数の領域に分割するというように、入力画像を階層的に分割する。そして各階層における分割された領域それぞれについてヒストグラムを算出し、これらを結合して、入力画像の特徴を表すヒストグラムを算出している。

これにより、入力画像の特徴を表すヒストグラムに、分割された各領域の入力画像における幾何学的な位置関係を反映させることができ、一般物体認識の精度を向上させることができる。

Ｓ．Ｌａｚｅｂｎｉｋ，Ｃ．Ｓｃｈｍｉｄ，ａｎｄＪ．Ｐｏｎｃｅ、「ＢｅｙｏｎｄＢａｇｓｏｆＦｅａｔｕｒｅｓ：ＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇＮａｔｕｒａｌＳｃｅｎｅＣａｔｅｇｏｒｉｅｓ」、Ｐｒｏｃ．ｏｆＩＥＥＥＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ．２１６９−２１７８（２００６）．Ｇ．Ｗａｎｇ、Ｄ．Ｆｏｒｓｙｔｈ著、Ｊｏｉｎｔｌｅａｒｎｉｎｇｏｆｖｉｓｕａｌａｔｔｒｉｂｕｔｅｓ，ｏｂｊｅｃｔｃｌａｓｓｅｓａｎｄｖｉｓｕａｌｓａｌｉｅｎｃｙ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ｐａｇｅｓ５３７−５４４，２００９．ＬａｕｒｅｎｔＩｔｔｉ、ＣｈｒｉｓｔｏｆＫｏｃｈ、ＥｒｎｓｔＮｉｅｂｕｒ著、Ａｍｏｄｅｌｏｆｓａｌｉｅｎｃｙ−ｂａｓｅｄｖｉｓｕａｌａｔｔｅｎｔｉｏｎｆｏｒｒａｐｉｄｓｃｅｎｅａｎａｌｙｓｉｓ、ＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＰＡＴＴＥＲＮＡＮＡＬＹＳＩＳＡＮＤＭＡＣＨＩＮＥＩＮＴＥＬＬＩＧＥＮＣＥ，ＶＯＬ．２０，ＮＯ．１１，ＮＯＶＥＭＢＥＲ１９９８

ところで、上記のように、入力画像を複数の領域に分割する手法を用いた一般物体認識においても、さらなる精度の向上を図る必要がある。

そこで、本発明は、一般物体認識における、入力画像における認識対象である物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる画像認識装置を提供することを目的とする。

上記課題を解決するために、本発明に係る画像認識装置は、一般物体認識を行う画像認識装置であって、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割手段と、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備える。

上述の構成により、本発明に係る画像認識装置は、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容に係る情報に基づいて分割するので、分割された画像から生成するヒストグラムに入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象である物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。

階層化マッチングに基づく一般物体認識処理の流れを示すフローチャート画像認識装置２００の構成を示すブロック図（ａ）意味マップ（位置マップ）を用いた入力画像分割処理手順を示すフローチャート、（ｂ）入力画像分割処理で用いられる画像等の一例を模式的に示す図入力画像のヒストグラムの生成について説明するための図、（ａ）入力画像を示す図、（ｂ）分割画像を示す図、（ｃ）空間サブ領域のヒストグラムを示す図、（ｄ）入力画像のヒストグラムを示す図入力画像のヒストグラムを用いた、マッチング処理による、各認識対象物体の存在有無の判断について説明するための図（ａ）意味マップ（顕著性マップ）を用いた入力画像分割処理手順を示すフローチャート、（ｂ）入力画像分割処理で用いられる画像等の一例を模式的に示す図入力画像のヒストグラムの生成について説明するための図、（ａ）入力画像を示す図、（ｂ）分割画像を示す図、（ｃ）空間サブ領域のヒストグラムを示す図、（ｄ）入力画像のヒストグラムを示す図（ａ）一般的な階層化マッチングにおける入力画像（階層０）の画像及びそのヒストグラムの一例を示す模式図、（ｂ）階層１の分割画像及びそのヒストグラムの一例を示す模式図、（ｃ）階層２の分割画像及びそのヒストグラムの一例を示す模式図

＜本発明に係る一形態を得るに至った経緯＞
発明者らは、前述した、ＳＰＭによる一般物体認識について詳細に検討した。

ＳＰＭでは、入力画像を分割する際に等分割している。このため、入力画像について生成するヒストグラムが、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を受けて変化し、一般物体認識の能力を低下させる場合があるという課題を見出した。以下、この点について説明する。

認識対象物体の位置について、例えば、入力画像を、４等分（縦、横それぞれ２等分）し、左上の領域に認識対象物体が写っていた場合を想定する。

この入力画像について得られるヒストグラムは、右下の領域に認識対象物体が写っている画像について得られるヒストグラムとは異なるものとなる。よって、分類器が、例えば、学習用画像として右下の領域に認識対象物体が写っている画像について多く学習していた場合には、分類器におけるこの入力画像についての認識対象物体の認識精度は、右下の領域に認識対象物体が写っている場合よりも低くなってしまう。

また、認識対象物体の大きさ、背景クラッタについては、例えば、入力画像の一領域中に認識対象物体が小さく写っていた場合を想定する。

この場合、認識対象物体が大きく写っている場合よりも、この領域についてのヒストグラムにおける背景部分の特徴量の影響が大きくなり、逆に認識対象物体の特徴量の影響が小さくなってしまう。よって、分類器が、認識対象物体について予め行った学習結果とマッチングしにくくなり、この入力画像についての認識対象物体の認識精度は、認識対象物体が大きく写っている場合よりも低くなってしまう。

そして、この点に関して、本発明者は検討を重ねた結果、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容に係る情報に基づいて分割することで、分割された画像から生成するヒストグラムに入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象である物体の位置、大きさ、背景クラッタなどの影響を低減できることを見出し、本発明に至った。
＜１．概要＞
図１は、本発明の一実施形態に係る画像認識装置による、階層化マッチングに基づく一般物体認識処理の流れを示すフローチャートである。

階層化マッチングに基づく一般物体認識処理は、入力画像中の各特徴点について特徴量を抽出する処理（Ｓ１０１）、入力画像を階層的に分割する処理（Ｓ１０２）、分割により生じた各空間サブ領域について、それぞれの特徴を表現するヒストグラムを生成する処理（Ｓ１０３）、生成した各空間サブ領域のヒストグラムから、入力画像のヒストグラムを生成する処理（Ｓ１０４）、入力画像のヒストグラムを用いて、分類器により、入力画像中に認識対象物体が存在するか否かを判定する分類処理（Ｓ１０５）から成る。

これらの処理のうち、本願発明の特徴部分に係る処理は、「入力画像を階層的に分割する処理（Ｓ１０２）」である。

入力画像を「階層的に分割する」とは、入力画像（階層０）を複数の領域に分割し（階層１）、分割により生じた各領域（以下、「空間サブ領域」という。）を、更に、複数の領域に分割する（階層２）というように、入力画像を再帰的に細かく分割することである。

ここで、一般的な階層化マッチング（空間階層化マッチング：ＳＰＭ）では、入力画像を階層的に空間サブ領域に分割する場合に、等分割している。具体的には、図８に一例として示すように、入力画像である画像８０１をまずＮ等分（本実施形態では、４等分（縦方向に２等分、横方向に２等分））し（空間サブ領域８１１〜８１４）、更に、分割により生じた各空間サブ領域を、それぞれＮ分割（空間サブ領域８２１〜８２４、８３１〜８３４、８４１〜８４４、８５１〜８５４）する。

そして、これらの等分割された空間サブ領域それぞれから、各空間サブ領域の特徴を表すヒストグラム（８０１Ｈ、８１１Ｈ〜８１４Ｈ、８２１Ｈ〜８２４Ｈ、８３１Ｈ〜８３４Ｈ、８４１Ｈ〜８４４Ｈ、８５１Ｈ〜８５４Ｈ）を生成している。入力画像についての最終的なヒストグラムは、例えば、８０１Ｈ、８１１Ｈ〜８１４Ｈ、８２１Ｈ〜８２４Ｈ、８３１Ｈ〜８３４Ｈ、８４１Ｈ〜８４４Ｈ、及び８５１Ｈ〜８５４Ｈを横方向に連結したものとなる。

しかしながら、このように入力画像を規則的に等分割した場合、この入力画像について生成するヒストグラムが、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を受け、このヒストグラムを用いた場合に、分類器による一般物体認識の能力が低下する場合がある。

このため、本実施形態では、Ｓ１０２において、入力画像を階層的に分割する場合に、等分割のように規則的に分割するのではなく、入力画像から各階層について意味マップを生成し、その意味マップを用いて入力画像を分割する。

意味マップは、入力画像の内容から抽出した意味を表現するマップであり、入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けしたものである。

本実施形態では、意味マップの一例として、位置マップを用いる。位置マップは、入力画像における各画素について、認識対象物体の一部である確率をマッピングすることにより生成したスコアマップを、複数のレベル（本実施形態では４レベル）にレベル分けしたマップである。

そして、意味マップを用いて分割された各空間サブ領域についてヒストグラムを生成する。この場合、各ヒストグラムには、その空間サブ領域を構成する各画素について認識対象物体の一部である確率が反映される。

例えば、位置マップの第１レベルの（認識対象物体の一部である確率が最も高い）領域に対応する、空間サブ領域のヒストグラムは、認識対象物体の特徴が色濃く反映されたヒストグラムとなり、背景クラッタの特徴は反映されにくくなる。

この第１レベルに対応する空間サブ領域のヒストグラムは、入力画像のヒストグラムの一部として連結される。すなわち、入力画像のヒストグラムは、認識対象物体の特徴が色濃く反映された部分を含んだものとなる。よって、分類器がこのヒストグラムを用いた場合、認識対象物体を認識できる確率が高まる。

また、入力画像における第１レベルの領域が、入力画像のいずれの位置に存在し、いずれの大きさであっても、入力画像について生成されるヒストグラムに変わりはない。すなわち、認識対象物体の一部である確率の高い領域について、位置、大きさの影響が排除されることになる。

以上のように、本実施形態では、意味マップを用いて入力画像を分割することにより、生成するヒストグラムに対する、入力画像における物体の位置、大きさなどの悪影響を小さくし、一般物体認識の精度を向上させている。

以下、本実施形態について、より詳細に説明する。
＜２．構成＞
以下、本発明の一実施形態に係る、一般物体認識を行う画像認識装置２００の構成について説明する。

図２は、画像認識装置２００の構成を示すブロック図である。

画像認識装置２００は、図２に示すように、入力部２０１、特徴量抽出部２０２、領域情報生成部２０３、ヒストグラム生成部２０４、分類器２０５、及び記憶部２０６を含んで構成される。

また、画像認識装置２００は、プロセッサ及びメモリを含んで構成されており、特徴量抽出部２０２、領域情報生成部２０３、ヒストグラム生成部２０４、及び分類器２０５の機能は、メモリに記憶されているプログラムをプロセッサが実行することにより実現される。
（１）入力部２０１
入力部２０１は、通信用ＬＳＩ又はメモリアクセス用ＩＣなどで構成されており、入力画像を、通信により又はメモリデバイスから読み出すことによって取得する機能を有する。
（２）特徴量抽出部２０２
特徴量抽出部２０２は、入力画像における特徴点を選出し、各特徴点についての特徴量を抽出する機能を有する。この機能に係る処理は、図１のＳ１０１に相当する。

特徴量を抽出する機能は、具体的には、以下のように実現される。

特徴量抽出部２０２は、まず、入力画像における特徴点を選出する。特徴点は、一例として、入力画像上の一定間隔で位置する格子点、及び／又は、特徴的な離散点である。特徴的な離散点とは、輝度、形状が急激に変化するような特徴的な点であり、例えば、猫の目の一部や、耳の先端を示す点などが該当する。以下、上述の格子点、離散点を総称して「特徴点」という場合もある。

次に、特徴量抽出部２０２は、特徴点とその周辺で特徴量としての記述子を抽出する。

記述子の抽出は、一例として、周知であるＳＩＦＴ（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）アルゴリズムを用いる。ＳＩＦＴは、特徴点の代表輝度勾配方向を決定し、その方向を基準として、他方向の輝度勾配ヒストグラムを作成し、多次元ベクトルで特徴量を記述するものである。
（３）領域情報生成部２０３
領域情報生成部２０３は、意味マップ生成機能、及び入力画像を意味マップを用いて階層的に空間サブ領域に分割する入力画像分割機能を有する。

＜意味マップ生成機能＞
意味マップ生成機能として、領域情報生成部２０３は、意味マップを生成する。本実施形態では、領域情報生成部２０３は、意味マップの一例として位置マップを生成する。

位置マップは、教師あり学習を用いて、入力画像の各画素位置における、検出対象である物体の存在確率を表すものである。より具体的には、位置マップは、入力画像における各画素について、認識対象物体の一部である確率をマッピングすることにより生成したスコアマップを、複数（本実施形態では４つ）のレベルに分けたものである。

この意味マップ生成機能に係る処理は、図１のＳ１０２、図３のＳ３０１〜Ｓ３０３に相当する。

なお、領域情報生成部２０３は、位置マップの生成に複数の検出器を用いる。各検出器は、例えば、「正面顔」、「右横顔」、「腹部」、「脚部」など、それぞれが検出対象とする物体又はその一部を表す画像（以下、便宜上「要素画像」という。）について予め学習している。

このように、複数の検出器を用いるのは、例えば、入力画像から「顔」を検出することを想定した場合、「顔」には「正面顔」、「右横顔」、「左横顔」、「斜め右顔」、「斜め左顔」・・・など色々あり、また、顔の大きさも「大」「中」「小」・・・など色々あり、１つの検出器でこれら全てを検出することはできないためである。

なお、位置マップの詳細は、「Ｇ．Ｗａｎｇ、Ｄ．Ｆｏｒｓｙｔｈ著、Ｊｏｉｎｔｌｅａｒｎｉｎｇｏｆｖｉｓｕａｌａｔｔｒｉｂｕｔｅｓ，ｏｂｊｅｃｔｃｌａｓｓｅｓａｎｄｖｉｓｕａｌｓａｌｉｅｎｃｙ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ｐａｇｅｓ５３７−５４４，２００９．」などに記載されている。

＜入力画像分割機能＞
入力画像分割機能は、入力画像を意味マップを用いて階層的に分割することにより、空間サブ領域を得る機能である。意味マップは、階層それぞれについて生成する。

この意味マップ生成機能に係る処理は、図１のＳ１０２、図３のＳ３０４に相当する。
（４）ヒストグラム生成部２０４
ヒストグラム生成部２０４は、領域情報生成部２０３による分割処理の結果である空間サブ領域それぞれについてヒストグラムを生成し、生成したヒストグラムを連結することにより、入力画像のヒストグラムを生成する機能を有する。この機能に係る処理は、図１のＳ１０３、Ｓ１０４に相当する。

各空間サブ領域についてのヒストグラムの生成は、その空間サブ領域に含まれる各特徴点について、特徴量抽出部２０２により抽出された特徴量（記述子）に最も近似する画像語彙に対して投票を行うことで実現する。ここで、画像語彙は、ＳＩＦＴ特徴量をベクトル量子化したものである。画像語彙の集合である画像語彙辞書（２１１）は、学習画像群について機械学習を行うことにより生成され、予め記憶部２０６に記憶されている。

ＳＩＦＴ特徴量、ヒストグラムの生成については周知であり、これ以上の説明は省略する。
（５）分類器２０５
分類器２０５は、一例として、サポートベクターマシン（ＳＶＭ）で構成されており、入力画像のヒストグラムを用いて、入力画像を複数クラスの少なくとも１つに割り当てる機能（分類機能）を有し、入力画像中に認識対象物体が存在するか否かを判断する。

認識対象物体が存在するか否かを判断する機能は、具体的には、分類器２０５が、ヒストグラム生成部２０４により生成された入力画像のヒストグラムと、記憶部２０６に記憶されている分類モデル辞書２１２とを比較することによって実現する。この機能は、図１のＳ１０５に相当する。

ここで、分類モデル辞書２１２は、認識対象となっている物体それぞれを含む画像についてのヒストグラムを記憶するものである。分類モデル辞書２１２は、学習画像群についての機械学習により予め生成され、記憶部２０６に記憶されている。

ＳＶＭについては、周知であるので、これ以上の詳細な説明は省略する。
（６）記憶部２０６
記憶部２０６は、不揮発性メモリで構成されており、上述した画像語彙辞書２１１、分類モデル辞書２１２など各種の情報を記憶する。
＜３．動作＞
＜３−１．意味マップを用いた入力画像分割処理＞
図３は、意味マップとして位置マップを用いた入力画像分割処理について説明するための図である。

図３（ａ）は、位置マップを用いた入力画像分割処理を示すフローチャートであり、図１のＳ１０２に相当する。また、図３（ｂ）は、入力画像分割処理で用いられる画像等の一例を模式的に示す図である。

まず、領域情報生成部２０３における各検出器は、所定サイズ（例えば、８ピクセル×８ピクセル）の判定窓を入力画像上で走査させ、前述した要素画像の検出処理を行う（Ｓ３０１）。

より詳細には、入力画像（一例として図３（ｂ）の入力画像３１１）において、判定窓を走査して要素画像を検出する。要素画像を検出した場合に、その検出結果に対する信頼性（確度）も記憶しておく。そして、これらの信頼性（検出しなかった場合は、信頼性０とする。）を入力画像の当該範囲にマッピングしていくことにより、信頼性マップを生成する。

次に、領域情報生成部２０３は、ポスト処理として、入力画像を構成する各画素について、要素画像を検出した検出器の個数と、信頼性マップを用いて、入力画像の各画素位置における「認識対象物体」の存在確率を表すスコアマップを生成する（Ｓ３０２）。

一例として、入力画像の各画素について、検出数が２以上であり、信頼性の合計が０．５以上であった場合に、その画素については、「認識対象物体」の存在確率をその信頼性の合計値とする。

このようにして得られたスコアマップは、グレーレベル画像（一例として、図３（ｂ）のグレーレベル画像３１２）のようになる。存在確率が高い位置は、明度が高く、存在確率が低い位置は、明度が低くなっている。

次に、領域情報生成部２０３は、スコアマップを表現するグレーレベル画像の階調を、所定の閾値（一例として、３個の閾値）などを用いて、所定画像分割数と同数の階調数（例えば、４つ）にレベル分けすることにより、位置マップ（一例として、図３（ｂ）の位置マップ３１３）を取得する（Ｓ３０３）。

位置マップ３１３は、レベル１の領域３３１、レベル２の領域３３２、レベル３の領域３３３、レベル４の領域３３４に分かれる４階調のグレーレベル画像となっている。

最後に、領域情報生成部２０３は、入力画像３１１を、位置マップ３１３を用いて分割する（Ｓ３０４）。入力画像３１１を複数の領域に分割する場合の領域間の境界線は、分割後の画像を表す図３の画像３１４のように、位置マップ３１３の各レベルを区切る境界線を入力画像３１１に写像したものと一致させる。以下、画像３１４のように、領域に分けられた画像を「分割画像」という。

入力画像３１１は、位置マップ３１３のレベル１に相当する領域、レベル２に相当する領域、レベル３に相当する領域、及びレベル４に相当する領域の４つの領域に分割されることになる。位置マップ３１３における領域３３１の位置、形状と、分割画像３１４における領域３４１の位置、形状とは同じになる。また、位置マップ３１３における領域３３２、３３３、及び３３４の位置、形状と、分割画像３１４における領域（空間サブ領域）３４２、３４３、及び３４４の位置、形状とは同じになる。

上述の入力画像分割処理は、階層１についてのみ説明したものであるが、階層２以下の階層についても同様の処理を行うものとする。なお、階層数については、「牛」、「猫」というようなレベルの物体概念について認識処理を行う場合、一般的に２〜３階層程度が望ましいといわれており、これに従い、本実施形態では階層数として３を用いている。

なお、グレーレベル画像３１２、位置マップ３１３、分割画像３１４は、説明のための模式的な図であって、入力画像３１１から実際に生成した正確な画像、マップ等ではない。
＜３−２．階層化マッチングに基づく一般物体認識処理＞
画像認識装置２００による、階層化マッチングに基づく一般物体認識処理について、図１、図４及び図５を用いて、詳細に説明する。

まず、入力部２０１が、入力画像（一例として、図４（ａ）の入力画像３１１）を取得し、特徴量抽出部２０２に出力する。

特徴量抽出部２０２は、入力画像中の各特徴点について特徴量を抽出する（Ｓ１０１）。

次に、領域情報生成部２０３が、入力画像を階層的に空間サブ領域へと分割する処理を行う（Ｓ１０２）。この処理は、図３を用いて既に説明した入力画像分割処理に相当する。

ここで、Ｓ１０２において生成された階層１の分割画像が、一例として図４（ｂ）の分割画像３１４であるとする。なお、図４（ｂ）の分割画像３１４と、図３（ｂ）分割画像３１４とは同じである。

次に、ヒストグラム生成部２０４が、各空間サブ領域のヒストグラムを生成する処理を行う（Ｓ１０３）。

図４（ｃ）は、階層１に係る各空間サブ領域のヒストグラムの一例を模式的に示した図である。

各ヒストグラムの横軸は、画像語彙を並べたものであり、縦軸は、入力画像における各画像語彙の出現頻度である。

ヒストグラム３４１Ｈは、空間サブ領域３４１に対応するヒストグラムである。同様に、ヒストグラム３４２Ｈ〜３４４Ｈが、空間サブ領域３４２〜３４４にそれぞれ対応するヒストグラムである。

そして、ヒストグラム生成部２０４は、生成したヒストグラムを連結することにより、入力画像のヒストグラム（一例として、図４（ｄ）のヒストグラム４１０Ｈ）を生成する（Ｓ１０４）。

なお、階層０である入力画像３１１、及び、入力画像を１６分割した階層２の分割画像についても同様に、ヒストグラムを生成する。そして、階層０、階層１、階層２の各ヒストグラムを連結したものが、入力画像３１１の最終的なヒストグラムになる。

最後に、分類器２０５が、入力画像のヒストグラムを用い、入力画像中に認識対象物体が存在するか否かを判断する（Ｓ１０５）。

分類器２０５は、入力画像中に認識対象物体が存在するか否かを判断する。

なお、図５では、入力画像のヒストグラムとして、階層１のヒストグラム４１０Ｈのみ抽出して示しているが、実際には、前述のように、階層０、階層１、階層２の各ヒストグラムを連結したものを、入力画像のヒストグラムとして用いる。分類モデル辞書２１２として記憶されている、認識対象物体を現すヒストグラムについても、階層１のヒストグラム５０１Ｈ、５０２Ｈのみ抽出して示しているが、実際には、階層０、階層１、階層２の各ヒストグラムを連結したものを、認識対象物体を現すヒストグラムとして用いる。
＜４．変形例＞
以上、本発明に係る画像認識装置の実施形態を説明したが、例示した画像認識装置を以下のように変形することも可能であり、本発明が上述の実施形態で示した通りの画像認識装置に限られないことは勿論である。
（１）上述の実施形態では、意味マップとして、位置マップを用いていたが、入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けしたものであれば足りる。

例えば、意味マップとして、顕著性マップを用いてもよい。

顕著性マップは、入力画像における、各画素について、視覚注意を引く強さ（確率）をマッピングすることにより生成したスコアマップを、複数のレベルにレベル分けしたマップである。画像の各画素位置における顕著性は、その位置における刺激が、当該位置を取り巻く局所的、又は大域的な刺激と比較してどれほど顕著であるかによって決定される。顕著性マップには、例えば、画像のある領域が前景に相当する確率、及び背景に相当する確率などが画素レベルで反映される。

図６（ａ）は、意味マップとして顕著性マップを用いた場合の、入力画像分割処理を示すフローチャートであり、図１のＳ１０２に相当する処理である。

また、図６（ｂ）は、入力画像分割処理で用いられる画像等の一例を模式的に示す図である。

まず、領域情報生成部２０３は、検出対象とする１以上の属性（例えば、輝度、色、テクスチャや形など）それぞれについて、周囲と異なる特徴を有する画像領域を検出する（Ｓ６０１）。以下、各属性について得られた検出結果を「顕著性レスポンス」という。

次に、領域情報生成部２０３は、Ｓ６０１において得られた、複数の顕著性レスポンスを統合するためのポスト処理を行うことにより、スコアマップを得る（Ｓ６０２）。ポスト処理では、例えば、輝度、色、テクスチャや形についての各顕著性レスポンスを所定割合で加算するなどして、複数の顕著性レスポンスを統合することにより、スコアマップを得る。

スコアマップは、画像の各位置における、当該画素の顕著性を表している。このようにして得られたスコアマップは、グレーレベル画像（一例として、図６（ｂ）のグレーレベル画像６１２）として表現される。例えば、顕著性が高い位置は、明度が高く、顕著性が低い位置は、明度が低くなる。

Ｓ６０３は、上述の図３のＳ３０３と同様の処理であり、Ｓ６０４は、Ｓ３０４と同様の処理であるので、説明は省略する。

なお、図６の顕著性マップ６１３が、意味マップとしての顕著性マップの一例を示している。

また、図６の分割画像６１４が、入力画像６１１を、顕著性マップ６１３を用いて分割した、階層１の分割画像の一例を示している。

なお、グレーレベル画像６１２、位置マップ６１３、分割画像６１４は、説明のための模式的な図であって、入力画像６１１から実際に生成した正確な画像、マップ等ではない。

なお、顕著性マップについては、「ＬａｕｒｅｎｔＩｔｔｉ、ＣｈｒｉｓｔｏｆＫｏｃｈ、ＥｒｎｓｔＮｉｅｂｕｒ著、Ａｍｏｄｅｌｏｆｓａｌｉｅｎｃｙ−ｂａｓｅｄｖｉｓｕａｌａｔｔｅｎｔｉｏｎｆｏｒｒａｐｉｄｓｃｅｎｅａｎａｌｙｓｉｓ、ＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＰＡＴＴＥＲＮＡＮＡＬＹＳＩＳＡＮＤＭＡＣＨＩＮＥＩＮＴＥＬＬＩＧＥＮＣＥ，ＶＯＬ．２０，ＮＯ．１１，ＮＯＶＥＭＢＥＲ１９９８」などに記載されている。

次に、顕著性マップ６１３等を用いて分割した分割画像における各空間サブ領域のヒストグラムを生成する処理を行う。この処理は、図１のＳ１０３に相当する処理である。

図７は、入力画像のヒストグラムの生成について説明するための図である。

ここで、入力画像が、一例として図７（ａ）の画像６１１であり、Ｓ１０２において生成された階層１の分割画像が、一例として図７（ｂ）の分割画像６１４であるとする。なお、図７（ａ）の画像６１１は、図６（ｂ）の画像６１１と同じものであり、図７（ｂ）の分割画像６１４は、図６（ｂ）の分割画像６１４と同じものである。

図７（ｃ）は、階層１に係る各空間サブ領域のヒストグラムの一例を模式的に示した図である。

ヒストグラム６４１Ｈは、空間サブ領域６４１に対応するヒストグラムである。同様に、ヒストグラム６４２Ｈ〜６４４Ｈが、空間サブ領域６４２〜６４４にそれぞれ対応するヒストグラムである。

そして、ヒストグラム生成部２０４は、生成したヒストグラムを連結することにより、入力画像のヒストグラムを生成する。この処理は、図１のＳ１０４に相当する処理である。

なお、階層０である入力画像６１１、及び、入力画像を１６分割した階層２の分割画像についても同様に、ヒストグラムを生成する。そして、階層０、階層１、階層２の各ヒストグラムを連結したものが、入力画像６１１の最終的なヒストグラムになる。

最後に、分類器２０５が、入力画像のヒストグラムを用い、入力画像中に認識対象物体が存在するか否かを判断する。

この処理は、図１のＳ１０５に相当する処理である。Ｓ１０５の詳細については、既に説明しているので、これ以上の説明は省略する。
（２）上述の実施形態、及び変形例では、意味マップとして、位置マップ又は顕著性マップを用いることとしていたが、これら複数のマップを統合したマップを意味マップとして用いてもよい。

例えば、位置マップに係るスコアマップと、顕著性マップに係るスコアマップを統合し、統合されたスコアマップから１つの意味マップを生成してもよい。

異なるスコアマップを統合する際には、それぞれのスコアマップに対して同等の重みづけをしてもよいし、それぞれのスコアマップに対して学習などにより得た重みづけをしてもよい。

以上のように、複数のスコアマップを用いて意味マップを生成することにより、意味マップに、入力画像の各画素が有する複数の意味内容を反映させることができる。

また、単純な幾何学的分割と、意味マップを用いた分割とを組み合わせて用いてもよい。
（３）上述の実施形態では、特徴量としてＳＩＦＴ特徴量を算出していたが、特徴量を表現できれば足りる。例えば、特徴量として、周知の特徴量である、Ｃｏｌｏｒ、ＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）等を用いてもよいし、画像データそのものを用いてもよい。
（４）上述の実施形態では、入力画像を階層的に分割する場合の階層化の深さを３階層（階層０、１、及び２）とし、階層が深くなる度に上位階層の画像（部分画像）を４分割したが、これに限らず、学習、経験則等により得られる階層の深さ、分割数を採用してよい。
（５）上述の実施形態では、分類器２０５が、ヒストグラム生成部２０４により生成されたヒストグラムを用いて、入力画像中に認識対象物体が存在するか否かを判断することとしたが、ヒストグラム生成部２０４により生成されたヒストグラムを用いて認識対象物体に関する検査を行えば足りる。例えば、分類器２０５が検出器として動作し、ヒストグラム生成部２０４により生成されたヒストグラムを用いて、入力画像中に存在する認識対象物体を検出することとしてもよい。
（６）上述の実施形態では、分類器２０５は、ＳＶＭで構成するとしたが、入力画像を複数クラスの少なくとも１つに割り当てることができれば足りる。

例えば、マッチング処理技術を適用することとしてもよい。

一例としては、予め、学習画像群について機械学習により生成された分類モデル辞書２１２を記憶部２０６に記憶しておく。

分類モデル辞書２１２は、認識対象となっている物体それぞれについての、その物体が画像中に存在する場合のヒストグラム（一例として、図５における、認識対象物体が「牛」である場合のヒストグラム５０１Ｈ、認識対象物体が「猫」である場合のヒストグラム５０２Ｈ）である。分類器２０５は、入力画像のヒストグラムと、分類モデル辞書２１２中の各ヒストグラムとを比較し、その一致度合を算出する。そして、分類器２０５は、一致度合が所定割合以上か否かを判断し、一致度合が所定値以上の場合には、認識対象物体が入力画像中に存在し、所定値未満の場合には、認識対象物体が入力画像中に存在しないと決定する。
（７）上述の実施形態で示した特徴量を抽出する処理、意味マップ生成処理、入力画像分割処理、ヒストグラム生成処理、認識対象物体が存在するか否かを判断する処理などを画像認識装置２００のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるための機械語或いは高級言語のプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布することもできる。

このような記録媒体には、ＩＣカード、ハードディスク、光ディスク、フレキシブルディスク、ＲＯＭ、フラッシュメモリ等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような各機能が実現されるようになる。

なお、プロセッサは、制御プログラムを直接実行する他、コンパイルして実行或いはインタプリタにより実行してもよい。
（８）上述の実施形態で示した各機能構成要素（入力部２０１、特徴量抽出部２０２、領域情報生成部２０３、ヒストグラム生成部２０４、及び分類器２０５など）は、その機能を実行する回路として実現されてもよいし、１又は複数のプロセッサによりプログラムを実行することで実現されてもよい。

なお、上述の各機能構成要素は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップされてもよいし、一部又は全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
（９）上述の実施形態及び各変形例を、部分的に組み合せてもよい。
＜５．補足＞
以下、更に本発明の一実施形態としての画像認識装置の構成及びその変形例と効果について説明する。
（１）本発明の一実施形態に係る画像認識装置は、一般物体認識を行う画像認識装置であって、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割手段と、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備える。

この構成により、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容から抽出した意味に基づいて分割するので、分割された画像から生成する特徴情報に入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。

なお、「検査」の用語は、「分類」と「検出」の両方を含むものとして用いている。
（２）また、前記分割手段は、前記入力画像の内容から抽出した意味を表現する情報として、前記入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けした意味マップを生成して用いることとしてもよい。

この構成により、入力画像を、認識対象物体に関連する確率のレベル毎に分割することとなるので、認識対象物体に関連する確率の高い領域から算出される特徴情報には、認識対象物体の特徴が、認識対象物体の位置、大きさによらず強く現れることとなる。よって、入力画像の特徴情報に、認識対象物体の特徴が強く現れるので、従来よりも一般物体認識の精度を向上することができる。
（３）また、前記分割手段は、前記スコアマップを、前記入力画像の各画素について、認識対象物体の一部を表す画素である確率をマッピングすることにより生成することとしてもよい。

この構成により、入力画像を、認識対象物体の一部を表す画素である確率のレベル毎に分割することとなるので、認識対象物体の一部を表す確率の高い領域から算出される特徴情報には、認識対象物体の特徴が、認識対象物体の位置、大きさによらず強く現れることとなる。よって、入力画像の特徴情報に、認識対象物体の特徴が強く現れるので、従来よりも一般物体認識の精度を向上することができる。
（４）また、前記分割手段は、前記スコアマップを、前記入力画像の各画素についての、周囲の画素と比較して顕著な度合をマッピングすることにより生成することとしてもよい。

この構成により、入力画像を、視覚注意を引く度合のレベル毎に分割することとなるので、視覚注意を引く度合の高い領域から算出される特徴情報には、視覚注意を引く度合の高い物体である認識対象物体の特徴が、認識対象物体の位置、大きさによらず強く現れることとなる。よって、入力画像の特徴情報に、認識対象物体の特徴が強く現れるので、従来よりも一般物体認識の精度を向上することができる。
（５）また、前記分割手段は、前記入力画像を、前記意味マップを用いて階層的に分割することとしてもよい。

この構成により、一般物体認識における、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。
（６）また、前記検査手段は、学習画像を用いて学習した分類器であり、前記認識対象物体の存在についての検査として、前記学習の結果を用いて、前記入力画像中に前記認識対象物体が存在するか否かを判断することとしてもよい。

本発明の一実施形態に係る画像認識方法は、分割手段と、生成手段と、検査手段とを備えた一般物体認識を行う画像認識装置に用いられる画像認識方法であって、前記分割手段が、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割ステップと、前記生成手段が、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成ステップと、前記検査手段が、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査ステップとを含む。

本発明の一実施形態に係る集積回路は、一般物体認識を行う画像認識装置に用いられる集積回路であって、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割手段と、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備える。

本発明の一形態に係る画像認識装置は、入力画像における認識対象である物体の位置、大きさ、背景クラッタなどの影響を低減し、一般物体認識の能力を向上するものであり、一般物体が撮影される写真データを分類して管理する装置等として用いるのに好適である。

２００画像認識装置
２０１入力部
２０２特徴量抽出部
２０３領域情報生成部
２０４ヒストグラム生成部
２０５分類器
２０６記憶部
２１１画像語彙辞書
２１２分類モデル辞書
３１１入力画像
３１２グレーレベル画像
３１３位置マップ
３１４分割画像

Claims

一般物体認識を行う画像認識装置であって、
入力画像を、当該入力画像の内容から抽出した意味に基づいて複数の領域に分割する分割手段と、
前記分割された複数の領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、
前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備え、
前記分割手段は、前記入力画像の内容から抽出した意味を表現する情報として、前記入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けした意味マップを生成して用い、
前記分割手段は、前記入力画像の内容から抽出した意味に基づく複数の領域への分割を所定の回数再帰的に行う
ことを特徴とする画像認識装置。
前記分割手段は、前記スコアマップを、前記入力画像の各画素について、認識対象物体の一部を表す画素である確率をマッピングすることにより生成する
ことを特徴とする請求項１記載の画像認識装置。
前記分割手段は、前記スコアマップを、前記入力画像の各画素についての、周囲の画素と比較して顕著な度合をマッピングすることにより生成する
ことを特徴とする請求項１記載の画像認識装置。
前記検査手段は、学習画像を用いて学習した分類器であり、前記認識対象物体の存在についての検査として、前記学習の結果を用いて、前記入力画像中に前記認識対象物体が存在するか否かを判断する
ことを特徴とする請求項１記載の画像認識装置。
分割手段と、生成手段と、検査手段とを備えた一般物体認識を行う画像認識装置に用いられる画像認識方法であって、
前記分割手段が、入力画像を、当該入力画像の内容から抽出した意味に基づいて複数の領域に分割する分割ステップと、
前記生成手段が、前記分割された複数の領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成ステップと、
前記検査手段が、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査ステップとを含み、
前記分割ステップにおいて、前記分割手段が、前記入力画像の内容から抽出した意味を表現する情報として、前記入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けした意味マップを生成して用い、
前記分割ステップにおいて、前記分割手段が、前記入力画像の内容から抽出した意味に基づく複数の領域への分割を所定の回数再帰的に行う
ことを特徴とする画像認識方法。
一般物体認識を行う画像認識装置に用いられる集積回路であって、
入力画像を、当該入力画像の内容から抽出した意味に基づいて複数の領域に分割する分割手段と、
前記分割された複数の領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、
前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備え、
前記分割手段は、前記入力画像の内容から抽出した意味を表現する情報として、前記入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けした意味マップを生成して用い、
前記分割手段は、前記入力画像の内容から抽出した意味に基づく複数の領域への分割を所定の回数再帰的に行う
ことを特徴とする集積回路。