JP5755046B2

JP5755046B2 - 画像認識装置、画像認識方法及びプログラム

Info

Publication number: JP5755046B2
Application number: JP2011138693A
Authority: JP
Inventors: 潔考高橋; 矢野　光太郎; 光太郎矢野; 崇士鈴木; 佐藤　博; 博佐藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-06-22
Filing date: 2011-06-22
Publication date: 2015-07-29
Anticipated expiration: 2031-06-22
Also published as: US9002115B2; JP2013008093A; US20120328198A1

Description

本発明は、画像認識装置、画像認識方法及びプログラムに関する。

従来から、人物の顔を含む画像から顔の領域を抽出し、抽出した顔画像を予め登録した特定人物の顔画像と比較することにより、個人識別を行う顔認識技術が知られている。この技術は、例えば、カメラに写っている人物が登録者であると認証されたときにオフィスへの入室を許可するといったセキュリティ用途に使用されている。一方、この技術を同一人物が写っている写真の検索に利用したいといった要望もある。前者の用途においては人物を撮影する際の条件に制約を付けて高精度の認識を可能としているが、後者の場合は人物の撮影条件が多岐におよび認識精度が低下するといった問題がある。例えば、顔の向きや表情、撮影時の照明が異なった写真間では同一人物が写っていても、別人物と誤判定してしまうことがあった。
このような問題を解決するために様々な条件を含む複数の顔画像を登録して認識を行う方法が提案されている。例えば、特許文献１では入力された動画像から上を向いた顔、ひげを生やした顔、口を開いた顔等、さまざまな状態の顔を登録して認識精度を向上させる方法が開示されている。また、特許文献２では顔の向きを変えた顔画像を複数枚登録して認識精度を向上させている。

特開２００７−２４９５８８号公報特開２００９−２５８９９１号公報

しかしながら、顔の向き、表情、照明等の条件の組み合わせが異なる画像をそれぞれ登録しようとすると、登録すべき顔画像の枚数が多くなってしまう問題があった。また、多数の画像を登録すると、認識処理を行う際に多くの登録画像との照合を行う必要があるので処理量も多くなってしまう問題があった。

本発明はこのような問題点に鑑みなされたもので、認識対象や撮影条件が変化する場合に、比較的、登録データ量が少なくても高精度に認識することを目的とする。

そこで、本発明は、画像認識装置であって、各カテゴリに属する複数の登録用画像から抽出した局所特徴量を当該カテゴリの辞書に登録する辞書登録手段と、入力画像の複数の領域から局所特徴量を抽出する局所特徴抽出手段と、前記局所特徴抽出手段で抽出された入力画像の局所特徴量と前記辞書登録手段により前記辞書に事前に登録された局所特徴量とを比較して前記入力画像の属するカテゴリを決定するカテゴリ決定手段と、を有し、前記辞書登録手段は、各カテゴリに対して、前記複数の登録用画像の複数の所定の領域から抽出された局所特徴量の属性を判別する判別手段と、前記複数の登録用画像から抽出された局所特徴量の中から、前記所定の領域毎に、前記判別手段により判別された各局所特徴量の属性と各領域の代表的属性の情報とに基づいて、代表的局所特徴量を選択する第１の選択手段と、前記所定の領域毎に、該領域から抽出された局所特徴量の間の類似度を算出し、算出した類似度に基づいて、互いに類似していない局所特徴量を選択する第２の選択手段と、を有し、前記第２の選択手段により選択された局所特徴量と前記代表的局所特徴量とをそのカテゴリに関するその領域の局所特徴量として前記辞書に登録する。

本発明によれば、認識対象や撮影条件が変化する場合に、比較的、登録データ量が少なくても高精度に認識することができる。

画像認識装置のハードウェア構成の一例を示す図（その１）である。辞書データを作成する登録処理の一例を示すフローチャートである。顔領域から局所領域を切り出した一例を示す図である。認識処理の一例を示すフローチャートである。画像認識装置のハードウェア構成の一例を示す図（その２）である。

以下、本発明の実施形態について図面に基づいて説明する。

＜実施形態１＞
以下、添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。
本実施形態では、同一カテゴリに属することが保証される画像として、人物の顔画像を時間的に連続した時系列画像である動画像から複数枚入力し、辞書データを作成する場合について説明する。
図１は、画像認識装置のハードウェア構成の一例を示す図である。
画像取得部１０は、カメラ等の撮像部で撮像した画像データを取得する。
顔検出部２０は、画像取得部１０で取得された画像データから画像中の顔領域画像を抽出する。
局所領域切出部３０は、顔検出部２０で取得された顔領域から局所領域画像を切り出す。
局所特徴抽出部４０は、局所領域切出部３０で切り出された局所領域画像から顔認識するための特徴量を求め、局所特徴記憶部２１０に記憶する。
属性情報抽出部５０は、属性判別モデル記憶部２２０に記憶されている属性判別モデルを基に局所特徴抽出部４０で求められた局所特徴量の属性情報を求める。
代表的局所特徴選択部６０は、代表的属性情報記憶部２３０に記憶されている代表的属性情報と属性情報抽出部５０で求められた属性情報とを基に局所特徴記憶部２１０の局所特徴量から代表的な変動をもつ局所特徴量を選択する。

類似度算出部７０は、局所特徴抽出部４０で取得され、局所特徴記憶部２１０内に記憶された局所特徴量の全組合せにおける類似度を各々算出し、局所特徴量の類似度の分布（類似度分布）として類似度記憶部２４０に記憶する。また、類似度算出部７０は、局所特徴記憶部２１０に記憶されている局所特徴量と辞書データ記憶部２５０に登録されている局所特徴量との類似度を算出する。
局所特徴選択部８０は、類似度記憶部２４０に記憶されている類似度を基に局所特徴記憶部２１０の局所特徴量から所定の登録条件に合致する局所特徴量を登録対象として選択する。
辞書登録部９０は、代表的局所特徴選択部６０及び局所特徴選択部８０で選択された局所特徴量を辞書データ記憶部２５０に登録する。
類似度統合部１００は、類似度記憶部２４０に記憶されている類似度を基に入力画像と辞書データとの間の類似度を求める。
カテゴリ決定部１１０は、類似度統合部１００で求められた類似度を基に入力画像のカテゴリを決定する。

まず、人物の顔画像を動画像から複数枚入力し、辞書データを作成する登録処理について図２を用いて説明する。図２は、辞書データを作成する登録処理の一例を示すフローチャートである。
画像取得部１０は、カメラ等の撮像部で撮像した画像データを取得する（Ｓ１０００）。
顔検出部２０は、画像取得部１０で取得した画像データから、顔の検出を行う（Ｓ１００１）。画像中から人物の顔を検出する方法としては、公知の技術を用いればよい。顔が検出された場合、顔検出部２０は、顔領域画像を取得する。このとき、顔領域のサイズは撮像時のカメラとの距離や角度に応じて変化する。そのため、顔検出部２０は、本実施形態の後段処理で想定している、予め定められた又は設定された入力画像サイズに合うように変倍処理を施す。顔が検出されなかった場合、顔検出部２０は、Ｓ１０００に処理を移す。そして、画像取得部１０は、後続する画像の取得を行う。なお、顔検出部２０は、顔を検出した場合に、不図示のディスプレイに顔画像と共に検出した顔枠を重畳して表示し、不図示のユーザインタフェースによって、登録対象とする顔をユーザが指定するようにしてもよい。
局所領域切出部３０は、顔検出部２０で取得された顔画像データから局所領域画像を切り出す（Ｓ１００２）。より具体的には、局所領域切出部３０は、人物の顔画像から複数の特徴点を検出し、その特徴点との相対的な位置関係に基づいて所定の矩形画像を顔領域から切り出す。顔領域から局所領域を切り出した様子を図３に示す。図３は、顔領域から局所領域を切り出した一例を示す図である。図３に示したように、局所領域切出部３０は、特徴点として目、口、鼻等の構成要素の端点を検出する。これらの端点は、左右の目の端、口角、鼻等、個人の特徴を表すと考えられる部位から予め選択しておいたものである。局所領域切出部３０は、局所領域画像を、これらの端点との幾何学的位置関係を基に各々、例えば５×５画素の画像領域として切り出す。なお、局所領域切出部３０は、局所領域の一つとして顔画像全体を切り出すようにしてもよい。

局所特徴抽出部４０は、局所領域切出部３０で切り出した局所領域画像から、顔を認識するための特徴量を求め、局所特徴記憶部２１０に記憶する（Ｓ１００３）。例えば、局所特徴抽出部４０は、局所領域画像から輝度値を抽出し、抽出した輝度値から２５次元の特徴ベクトルを作成して局所特徴量とする。局所特徴抽出部４０は、その他にも、色の特徴を表すカラーヒストグラムや、エッジを表すエッジ方向の勾配ヒストグラム、増分符号等を抽出してもよい。局所特徴抽出部４０は、それらを組み合せて一つの特徴ベクトルとする。
属性情報抽出部５０は、属性判別モデル記憶部２２０に記憶されている属性判別モデルを基に局所特徴抽出部４０で求めた局所特徴量の属性情報を求める（Ｓ１００４）。属性判別モデルは、多種多様な顔画像における目、口、鼻、等の局所領域画像を教師データとして学習し、入力された同領域画像のクラス判別に用いる多クラス判別用識別モデルである。例えば、画像認識装置は、口元を局所領域とした場合、予め口元の閉じた画像から口元が最大限に開くまでの画像を教師データとして学習することにより、口元の開き具合の属性判別モデルを属性判別モデル記憶部２２０に記憶しておく。画像認識装置は、属性判別モデルの学習を、例えば、サポートベクター回帰等の方法を用いて行う。特徴量の属性情報は「口元の開き具合０．８」等の数値で出力され、一旦、属性情報抽出部５０の内部メモリに記憶される。属性判別の処理は局所領域毎に行われる。顔画像の認識においては、属性判別は顔向き、表情の何れか、又は両方を用いることが効果的である。
画像データ取得（Ｓ１０００）から属性情報抽出処理（Ｓ１００４）までの一連の処理は、動画内の各画像に対して行われる。但し、処理する画像は動画内の画像全てである必要はない。例えば、画像認識装置は、処理量の削減を目的として、動画の全フレームではなく、２フレーム毎、３フレーム毎、等、幾つかのフレームを処理対象から外してもよい。また、画像認識装置は、動画内の顔画像の変動具合に応じて処理対象とするフレームを決定してもよい。例えば、画像認識装置は、過去に処理したフレームとの差分が一定以上であった場合に、そのフレームを処理対象とする。

代表的局所特徴選択部６０は、予め代表的属性情報記憶部２３０に記憶されている代表的属性情報と属性情報抽出部５０で求めた属性情報とを基に局所特徴記憶部２１０の局所特徴量から代表的局所特徴量を選択する（Ｓ１００５）。まず、代表的局所特徴選択部６０は、各局所領域において複数画像夫々から抽出した属性情報と代表的属性情報記憶部２３０に記憶されている対応する局所領域の代表的属性情報との差を算出する。そして、代表的局所特徴選択部６０は、その差の最も小さい属性情報に対応した局所特徴量を局所特徴記憶部２１０から選択する。ここで、局所特徴記憶部２１０に記憶されている局所特徴量と属性情報抽出部５０で取得された属性情報とは全て局所領域毎に対応付けられている。代表的局所特徴選択部６０は、以上の処理を全ての局所領域に対して行う。
ここで、代表的属性情報記憶部２３０に記憶されている代表的属性情報は、目、口、鼻、等の局所領域毎に代表的だと考えられる局所領域画像から属性情報抽出部５０がＳ１００４の処理を行って抽出したものである。例えば、口の領域においては、代表的顔画像として入力した様々な顔画像から口の領域の属性情報が抽出される。そして、属性情報抽出部５０は、その平均出力値を代表的属性情報として代表的属性情報記憶部２３０に記憶する。代表的顔画像は、例えば、正面顔向きで口元は閉じた状態の顔画像である。その他、例えば、目は自然に開いている状態を代表的属性情報とするのがよい。
類似度算出部７０は、局所特徴抽出部４０で取得され、局所特徴記憶部２１０内に記憶された局所特徴量の全組合せにおける類似度を各々算出し、局所特徴量の類似度分布として類似度記憶部２４０に記憶する（Ｓ１００６）。類似度算出部７０は、局所特徴量間の類似度の尺度としてユークリッド距離を用いる。その他にも、類似度算出部７０は、マハラノビス距離等を用いることができる。類似度算出部７０は、この類似度算出処理を、全ての局所領域に対し行う。

局所特徴選択部８０は、類似度算出部７０で算出され、類似度記憶部２４０に記憶されている類似度を基に局所特徴記憶部２１０の局所特徴量から所定の登録条件に合致する局所特徴量を登録対象として選択する（Ｓ１００７）。より具体的に説明すると、局所特徴選択部８０は、一つの局所領域における局所特徴量全てに対して、類似度記憶部２４０を参照し、登録条件として所定範囲内に代表的局所特徴量との距離が収まるか否かを判定し、所定範囲内に収まる局所特徴量を抽出する。ここで、代表的局所特徴量は、局所領域毎にＳ１００５の処理で選択されたものである。また、ここで定める局所特徴量間の距離の範囲は、後述する認識処理において同一人物か否かの基準である閾値を基に定められた値である。そして、局所特徴選択部８０は、上記処理で抽出した局所特徴量の中から互いに類似度が低い局所特徴量を、所定の局所特徴量の数の分だけ登録対象として選択する。ここで、局所特徴選択部８０は、互いに類似度が低い局所特徴量の組合せは、登録局所特徴量の数の分だけ局所特徴量を任意に選択した場合の、局所特徴量間の類似度と類似度との標準偏差により求める。
例えば、選択すべき局所特徴量の数をｆ、類似度算出部７０で算出された局所特徴量間の類似度を示す距離をｄｉ、その標準偏差をσとし、距離の総和をσで正規化した値を評価関数Ｅとする。そして、最大の評価関数Ｅを与える組の局所特徴量を登録対象とする。

但し、ｎ＝ _fＣ₂、Ｃは、組み合わせの記号

例えば、登録すべき局所特徴量の数を「３つ」とした場合、局所特徴選択部８０は、局所特徴記憶部２１０内の代表的局所特徴量を含む３つの局所特徴量の全組み合わせを抽出し、各組み合わせに対して評価関数を算出し、その評価関数が最大となる組み合わせを登録対象とする。
なお、登録局所特徴量の数を予め決めずに、局所特徴選択部８０は、各局所特徴量間の類似度のばらつきに応じて局所特徴量を選択するようにしてもよい。更に、局所特徴選択部８０は、登録可能な類似度の範囲を、局所特徴抽出部４０で取得した局所特徴量のばらつきに応じて動的に変えるようにしてもよい。
局所特徴選択部８０は、全ての局所領域に対して前記処理を行う。なお、登録する局所特徴量の数は全局所領域で同一でなくてもよい。
登録条件に合致する局所特徴量が選択できない場合には、局所特徴選択部８０は、代表的局所特徴量を変更したり、動画の再入力をユーザに促したりしてもよい。
辞書登録部９０は、代表的局所特徴選択部６０及び局所特徴選択部８０で選択された局所特徴量を辞書データ記憶部２５０に登録する（Ｓ１００８）。そして、辞書登録部９０は、辞書データにカテゴリ名を付与し、認識時に付与する。辞書登録部９０は、カテゴリ名として「個人の顔にユニークな名称」を付与する。例えば、辞書登録部９０は、カテゴリ名として個人の名前等を付与する。なお、辞書登録部９０は、全ての局所領域に対し行う。
なお、辞書登録部９０は、カテゴリ名として、自動的に各個人に固有なＩＤ番号を付与してもよい。また、任意のキーワードをユーザが登録できるようにしてもよい。例えば、画像認識装置は、不図示のディスプレイに登録対象となった顔画像と共に固有なＩＤ番号か任意のキーワードを登録するか否かの質問ウインドウを表示する。そして、任意のキーワードを登録する場合、画像認識装置は、文字入力欄を表示し、そこにユーザが不図示のユーザインタフェースによって入力した文字をカテゴリ名として登録する。

本実施形態では、登録対象となる人物の辞書データが未登録の場合について記述した。しかしながら、画像認識装置は、既登録の場合には本実施形態の辞書データを作成する処理で取得することができる局所特徴量を用いて、辞書データの追加登録や置換をしてもよい。
例えば、Ｓ１００６において、類似度算出部７０は、新たに入力した画像から得られた局所特徴量を追加して類似度の算出を行う。そして、Ｓ１００７において、局所特徴選択部８０は、上述したと同様の処理により局所特徴量の選択をする。
なお、上述した例では、画像認識装置は、動画像から複数の入力画像を抽出するようにしたが、同一人物の顔画像を関連付けて取得する方法であれば他の方法を用いてもよい。例えば、画像認識装置は、人物写真のデータベースから登録対象の人物の複数写真を関連付け、関連付けた画像群でＳ１０００からＳ１００４までの処理を繰り返して局所特徴量を抽出するようにする。

次に、人物の顔画像を入力し、上述の登録処理により事前に作成した辞書データを基に行う顔認識処理について図４を用いて説明する。図４は、認識処理の一例を示すフローチャートである。なお、ここでは入力顔画像一枚を想定して動作を説明する。図４のＳ１１００、Ｓ１１０１、Ｓ１１０２、Ｓ１１０３は夫々図２のＳ１０００、Ｓ１００１、Ｓ１００２、Ｓ１００３と同様の処理を行うので説明は省略する。
類似度算出部７０は、局所特徴記憶部２１０の局所特徴量と辞書データ記憶部２５０の個人毎の辞書データの局所特徴量との類似度を登録時と同様の処理を行って計算し、類似度記憶部２４０に記憶する（Ｓ１１０４）。例えば、顔を認識するための局所領域がＮ_R領域、局所領域毎に辞書データ記憶部２５０に登録した個人別の局所特徴量の数をｆとすると、類似度算出部７０は、Ｎ_R×ｆ個の類似度を計算する。これらの類似度は局所領域毎に分類されて類似度記憶部２４０に記憶される。

類似度統合部１００は、類似度算出部７０で計算され、類似度記憶部２４０に記憶された類似度から、入力画像と辞書データとの間の類似度を求める（Ｓ１１０５）。まず、類似度統合部１００は、局所領域毎に類似度算出部７０で計算された類似度のうち、最も類似度の高い値がその局所領域を代表する類似度として選択する。そして、類似度統合部１００は、局所領域毎の最大の類似度の全局所領域での総和を求め、入力画像と個人別の辞書データとの類似度として出力する。なお、顔画像に隠れや著しい表情の変化がある場合に対応するために、類似度統合部１００は、全局所領域でなく類似度が上位所定数の局所領域での総和を求めるようにしてもよい。
ここで説明したＳ１１０４、Ｓ１１０５の処理は辞書データ記憶部２５０にある個人毎の辞書データの分だけ繰り返される。
カテゴリ決定部１１０は、類似度統合部１００で求められた類似度を基に入力画像のカテゴリを決定する（Ｓ１１０６）。より具体的には、カテゴリ決定部１１０は、各カテゴリに属する辞書データについて得られた入力画像・辞書データ間の類似度を比較し、入力画像と辞書データとの間の類似度が最大となる辞書データが属するカテゴリを入力画像が属するカテゴリと決定する。但し、カテゴリ決定部１１０は、類似度の最大値が予め定めた閾値を超えない場合には入力画像に該当するカテゴリは無いとして結果を出力する。以上により、入力画像が属するカテゴリ、即ち入力画像中の顔がどの個人の顔であるかが識別される。
入力画像・辞書データの間の類似度の最大値に対する閾値の大きさは任意であるが、大きすぎる閾値を設定した場合、本来何れかのカテゴリに属す入力画像が「どのカテゴリにも属さない」と出力されてしまう可能性がある。また、小さすぎる閾値を設定した場合、本来どのカテゴリにも属さない入力画像も「何れかのカテゴリに属する」と出力されてしまう可能性がある。この閾値は、予め調整を重ねて決めておくとよいし、また、変更可能にしてもよい。

仮に、画像認識装置が、代表的局所特徴量を選出せずに全局所特徴量をクラスタリングして辞書データを抽出してしまうと、代表的局所特徴量及びその近傍が認識できない辞書データを抽出する可能性がある。また、登録範囲に制約を設けない場合、画像認識装置は、同様に代表的局所特徴量及びその近傍が認識できない辞書データを抽出する可能性がある。
したがって、本実施形態では、代表的局所特徴選択部６０において代表的局所特徴量を選択し、且つ、局所特徴選択部８０において認識処理における閾値を基に登録範囲に制約を設けることにより、代表的局所特徴量及びその近傍を確実に認識可能としている。また、評価関数として局所特徴量間の距離の標準偏差を導入することにより、辞書データに登録する局所特徴量の偏りを軽減し、認識可能な範囲をより広範囲に広げる事を可能としている。
以上により、従来、複数顔画像を登録する際、顔の様々な変動を表現するために画像単位で登録する必要があったのに対し、本実施形態では局所領域単位で登録することにより、上記画像を表現するための登録特徴量を削減することができる。例えば、５枚の画像分の画像情報を辞書データとして登録する場合、従来は５枚の画像を全て登録する必要があったのに対し、本実施形態では５つ分の登録特徴量を表現可能な分だけ局所特徴量を局所領域毎に登録すればよい。つまり、必ずしも全局所領域で５つの局所特徴量を登録する必要はないため、登録特徴量を削減し、且つ、効率的な登録処理が可能となる。また、認識処理において、登録する辞書データが少なくても高い識別性能で図ることが可能であるため、認識処理における処理効率の向上も期待できる。
例えば、辞書データとして全局所領域で５つの局所特徴量ずつ登録してある場合は、任意の入力画像から抽出する５つの局所特徴量との類似度算出処理が行われる。しかしながら、本実施形態では、同様の識別性能を得られる情報量として、全局所領域の半分で３つの局所特徴量ずつ登録してあり、残り半分で２つの局所特徴量ずつ登録する場合、１／２の処理量で、同程度の性能の識別器を生成する事ができる。

＜実施形態２＞
実施形態１では図１に示したように画像認識装置の各部をハードウェアとして実装した例を説明したが、図５に示すように、ＣＰＵ１がメモリ２に記憶されたプログラムを実行することによって各部として機能させるソフトウェアで実現するようにしてもよい。なお、図５のハードウェア構成の場合、図１の２１０、２２０、２３０、２４０、２５０の各記憶部はメモリ２に構成されるが、このことは本実施形態を制限するものではない。各記憶部をそれぞれ異なる記憶媒体（例えば、メモリ、レジスタ、ディスク装置等）で構成してもよい。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

以上、上述した画像認識装置では、複数枚の画像から局所特徴量を抽出し、局所特徴量の分布に応じて領域毎に複数の局所特徴量を選択して辞書として登録するようにした。即ち、上述した画像認識装置は、領域毎に代表的な変動をもつ特徴量を保持し、その組み合わせで認識対象全体の変動を表現するようにしたため、比較的、登録データ量が少なくても高精度に認識を行うことができる。
以上、上述した各実施形態によれば、認識対象や撮影条件が変化する場合に、比較的、登録データ量が少なくても高精度に認識することができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

４０局所特徴抽出部、９０辞書登録部、１１０カテゴリ決定部

Claims

各カテゴリに属する複数の登録用画像から抽出した局所特徴量を当該カテゴリの辞書に登録する辞書登録手段と、
入力画像の複数の領域から局所特徴量を抽出する局所特徴抽出手段と、
前記局所特徴抽出手段で抽出された入力画像の局所特徴量と前記辞書登録手段により前記辞書に事前に登録された局所特徴量とを比較して前記入力画像の属するカテゴリを決定するカテゴリ決定手段と、
を有し、
前記辞書登録手段は、各カテゴリに対して、
前記複数の登録用画像の複数の所定の領域から抽出された局所特徴量の属性を判別する判別手段と、
前記複数の登録用画像から抽出された局所特徴量の中から、前記所定の領域毎に、前記判別手段により判別された各局所特徴量の属性と各領域の代表的属性の情報とに基づいて、代表的局所特徴量を選択する第１の選択手段と、
前記所定の領域毎に、該領域から抽出された局所特徴量の間の類似度を算出し、算出した類似度に基づいて、互いに類似していない局所特徴量を選択する第２の選択手段と、
を有し、
前記第２の選択手段により選択された局所特徴量と前記代表的局所特徴量とをそのカテゴリに関するその領域の局所特徴量として前記辞書に登録する画像認識装置。
前記第１の選択手段は、前記複数の登録用画像から抽出された局所特徴量の中から、前記代表的属性との差が最小の属性を有する局所特徴量を前記代表的局所特徴量として選択する請求項１記載の画像認識装置。
前記第２の選択手段は、選択する局所特徴量の数を前記類似度のばらつきに応じて決定する請求項１又は２記載の画像認識装置。
前記カテゴリとは、個人の顔である請求項１乃至３何れか１項記載の画像認識装置。
画像認識装置が実行する画像認識方法であって、
各カテゴリに属する複数の登録用画像から抽出した局所特徴量を当該カテゴリの辞書に登録する辞書登録ステップと、
入力画像の複数の領域から局所特徴量を抽出する局所特徴抽出ステップと、
前記局所特徴抽出ステップで抽出された入力画像の局所特徴量と前記辞書登録ステップにおいて前記辞書に事前に登録された局所特徴量とを比較して前記入力画像の属するカテゴリを決定するカテゴリ決定ステップと、
を含み、
前記辞書登録ステップは、各カテゴリに対して、
前記複数の登録用画像の複数の所定の領域から抽出された局所特徴量の属性を判別する判別ステップと、
前記複数の登録用画像から抽出された局所特徴量の中から、前記所定の領域毎に、前記判別ステップにおいて判別された各局所特徴量の属性と各領域の代表的属性の情報とに基づいて、代表的局所特徴量を選択する第１の選択ステップと、
前記所定の領域毎に、該領域から抽出された局所特徴量の間の類似度を算出し、算出した類似度に基づいて、互いに類似していない局所特徴量を選択する第２の選択ステップと、
を含み、
前記第２の選択ステップにおいて選択された局所特徴量と前記代表的局所特徴量とをそのカテゴリに関するその領域の局所特徴量として前記辞書に登録する画像認識方法。
入力画像があるカテゴリの画像かどうかを認識するコンピュータに、
各カテゴリに属する複数の登録用画像から抽出した局所特徴量を当該カテゴリの辞書に登録する辞書登録ステップと、
入力画像の複数の領域から局所特徴量を抽出する局所特徴抽出ステップと、
前記局所特徴抽出ステップで抽出された入力画像の局所特徴量と前記辞書登録ステップにおいて前記辞書に事前に登録された局所特徴量とを比較して前記入力画像の属するカテゴリを決定するカテゴリ決定ステップと、
を実行させ、
前記辞書登録ステップは、各カテゴリに対して、
前記複数の登録用画像の複数の所定の領域から抽出された局所特徴量の属性を判別する判別ステップと、
前記複数の登録用画像から抽出された局所特徴量の中から、前記所定の領域毎に、前記判別ステップにおいて判別された各局所特徴量の属性と各領域の代表的属性の情報とに基づいて、代表的局所特徴量を選択する第１の選択ステップと、
前記所定の領域毎に、該領域から抽出された局所特徴量の間の類似度を算出し、算出した類似度に基づいて、互いに類似していない局所特徴量を選択する第２の選択ステップと、
を含み、
前記第２の選択ステップにおいて選択された局所特徴量と前記代表的局所特徴量とをそのカテゴリに関するその領域の局所特徴量として前記辞書に登録するプログラム。