JP2018041273A

JP2018041273A - 画像認識装置、画像認識装置の制御方法およびプログラム

Info

Publication number: JP2018041273A
Application number: JP2016174961A
Authority: JP
Inventors: 雄司金田; Yuji Kaneda; 伊藤　嘉則; Yoshinori Ito; 嘉則伊藤; 佐藤　博; Hiroshi Sato; 博佐藤; 俊亮中野; Toshiaki Nakano; 敦夫野本; Atsuo Nomoto; 山本　貴久; Takahisa Yamamoto; 貴久山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-09-07
Filing date: 2016-09-07
Publication date: 2018-03-15

Abstract

【課題】高精度な属性認識を実現する。
【解決手段】画像認識装置であって、画像中の物体に対して特徴抽出領域を設定する設定部と、設定部により設定された特徴抽出領域から物体の特徴を抽出する抽出部と、抽出部により抽出された特徴に基づいて物体の属性を認識する認識部と、認識部により認識された属性の信頼性を評価する評価部とを備え、設定部は、設定された第１の特徴抽出領域から抽出された特徴に基づいて認識された属性の信頼性に対する評価部による評価結果が所定の条件を満たさない場合、物体に対して第１の特徴抽出領域より拡張された第２の特徴抽出領域を設定する。
【選択図】図４

Description

本発明は、画像認識装置、画像認識装置の制御方法およびプログラムに関するものである。

近年、画像中の顔に対して表情や個人を特定するだけでなく、人種、年代、性別、ヒゲなどの顔に関する属性、更には服装などの人体に関する様々な属性を認識する技術を開発し、マーケティングなど様々な応用ソリューションへ展開する動きが加速している。

非特許文献１では、顔に関する属性に関して、画像中から目、口、鼻の位置を検出して、これらの位置に基づいてＲＧＢやＨＳＶの色特徴、エッジやヒストグラム系の特徴などの多種多様な特徴量を抽出しておく。そして、これらの特徴量をＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（以下、ＳＶＭ）と呼ばれる識別器に入力することで、メガネ、性別、年代、ヒゲ、髪の毛など６５種類もの顔に関する属性を認識している。

また、特許文献１では、顔に対して局所領域を設定し、領域毎に各年代に対するスコアを算出するとともに、顔の向きに基づいて精度を低下させる部分の影響が小さくなるように各年代のスコアを修正して年齢値を求めている。

一方、非特許文献２では、人体に関する属性に関して、上半身や下半身などの人体領域を特定した上でロングパンツ、ジーンズ、Ｔシャツなど、服装を認識している。

通常、人間は、顔の情報だけで年齢や人種などの属性を判断できない場合、顔だけでなく頭部や更には人体など、参照する領域を拡張して様々な情報を把握した上で属性を判断する。

特開２００８−２８２０８９号公報

N. Kumer, "Attribute and Simile Classifier for Face Verification", IEEE ICCV, 2009 L. Bourdev, "Describing People: A Poselet-Based Approach to Attribute Classification", IEEE ICCV, 2011 P. Viola, M. Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", in Proc. Of CVPR, vol.1, pp.511-518, December, 2001 Xudong Cao, Yichen Wei, Fang Wen, Jian Sun, "Face Alignment by Explicit Shape Regression", CVPR, pp. 2887-2894, 2012 Jacky S. C. Yuk, "Real-time Head Shape Detection and Tracking System with Decentralized Trackers", IEEE Proceedings of the Sixth International Conference on Intelligent Systems Design and Applications, 2006 M. Bertozzi, A. Broggi, M. Del Rose, M. Felisa, A. Rakotomamonjy and F. Suard, "A Pedestrian Detector Using Histograms of Oriented Gradients and a Support Vector Machine Classifier", IEEE Intelligent Transportation Systems Conference, 2007 Daniel Weinland, "A Survey of Vision-Based Methods for Action Representation, Segmentation and Recognition", Computer Vision and Image Understanding, 2011

しかしながら、従来の属性認識技術では、参照する領域は顔などの特定の領域に固定されており、また、認識結果の信頼性についても考慮されていないことから、高精度な属性認識を行えないことがあるという課題がある。

本発明は、上記の課題に鑑みてなされたものであり、高精度な属性認識を実現する技術を提供することを目的とする。

上記の目的を達成する本発明に係る画像認識装置は、
画像中の物体に対して特徴抽出領域を設定する設定手段と、
前記設定手段により設定された特徴抽出領域から前記物体の特徴を抽出する抽出手段と、
前記抽出手段により抽出された特徴に基づいて前記物体の属性を認識する認識手段と、
前記認識手段により認識された属性の信頼性を評価する評価手段と、
を備え、
前記設定手段は、設定された第１の特徴抽出領域から抽出された特徴に基づいて認識された属性の信頼性に対する前記評価手段による評価結果が所定の条件を満たさない場合、前記物体に対して前記第１の特徴抽出領域より拡張された第２の特徴抽出領域を設定することを特徴とする。

本発明によれば、高精度な属性認識を実現することが可能となる。

第１の実施形態の概要を説明する図である。第１の実施形態に係る画像認識装置の構成例を示す図である。第１の実施形態に係る属性認識部の構成例を示す図である。第１の実施形態に係る画像認識装置が実施する処理の手順を示すフローチャート。第１の実施形態に係る画像認識装置が実施する特徴抽出領域の設定処理の詳細な手順を示すフローチャート。第１の実施形態に係る顔領域を示す図である。第１の実施形態に係る頭部領域を示す図である。第１の実施形態に係る人体領域を示す図である。第１の実施形態に係る年齢認識部の詳細な構成を示す図である。第１の実施形態に係る年齢認識部からの出力値の例を示す図である。第１の実施形態に係る年齢認識部からの出力値の分布の例を示す図である。第２の実施形態の概要を説明する図である。第２の実施形態に係る属性認識結果に応じて拡張領域を設定するためのテーブルの例を示す図である。

以下、図面を参照しながら実施形態を説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

（第１の実施形態）
＜概要＞
本実施形態では、年齢や人種などの属性を認識した認識結果が信頼できる場合には当該認識結果を出力し、当該認識結果が信頼できない場合には参照領域を顔から頭部や人体など他の領域に拡張して属性認識を行う例を説明する。

図１は、第１の実施形態に係る、属性認識結果に対する信頼性に基づいて参照する領域を顔、頭部、人体へ順に拡大する際の説明図を示している。顔内部（ｗ１×ｈ１）による属性認識結果の信頼性が低い場合には参照領域を顔から拡張して頭部（ｗ２×ｈ２）による属性認識を実施する。更に頭部（ｗ２×ｈ２）による属性認識結果の信頼性も低い場合には参照領域を頭部から拡張して人体（ｗ３×ｈ３）による属性認識を実施する。もちろん、属性認識結果の信頼度が高いと判定された場合には参照領域を人体（ｗ３×ｈ３）まで拡張する前に打ち切りを実施する。このように段階的に実施することで高精度な属性認識を実現することができる。

＜装置構成＞
図２は、第１の実施形態に係る画像認識装置の構成例を示す。画像認識装置１００は、画像取得部１１００、物体検出部１２００、領域設定部１３００、属性認識部１４００、信頼性判定部１５００、および属性出力部１６００を備えている。各処理部は不図示のＣＰＵがメモリからプログラムを読み出して実行することにより制御される。なお、図３に示すように、属性認識部１４００は、特徴抽出部１４１０を備えており、年齢認識部１４２０、性別認識部１４３０、人種認識部１４４０、体型認識部１４５０などの様々な属性を認識する認識部で構成されている。属性とは年齢、性別、人種、体型など人物の特徴を表すカテゴリであり、属性毎にその属性を有するかどうかを判定する識別器を持っている。更に、上述の通り、属性認識結果に対する信頼性に基づいて参照する領域を顔、頭部、人体へ順に拡大していくため、顔、頭部、人体に対する認識部も用意されている。一例として、性別認識部１４３０は、顔による性別認識部１４３１、頭部による性別認識部１４３２、人体による性別認識部１４３３を備えている。他の認識部についても同様である。

＜処理＞
続いて、図４のフローチャートを参照して、第１の実施形態に係る画像認識装置が実施する処理の手順を説明する。

ステップＳ１１００では、画像取得部１１００は、レンズなどの集光素子、光を電気信号に変換するＣＭＯＳやＣＣＤなどの撮像素子、アナログ信号をデジタル信号に変換するＡＤ変換器を通過することによって得られたデジタル画像を取得する。また、間引き処理等を行うことによって、例えば、ＶＧＡ（６４０×４８０[ｐｉｘｅｌ]）やＱＶＧＡ(３２０×２４０[ｐｉｘｅｌ])に変換した画像を取得することも可能である。

ステップＳ１２００では、物体検出部１２００は、ステップＳ１１００で取得した画像から特定物体を検出する処理を行う。特定物体の種類に限定はないが、本実施形態では特定物体は人物であるものとする。具体的には、図１に示すように人物の顔、頭部、人体領域を検出する。

なお、人物の顔を検出する技術（以下、顔検出）としては非特許文献３の技術などがあり、主に顔領域とその中心などを検出することができるが、非特許文献４の技術を利用することで目尻や目頭など顔の特徴点を検出することもできる。人物の頭部を検出する技術（以下、頭部検出）としては、非特許文献５の技術などがあり、頭部から肩の領域とその中心を検出することができる。人物の人体を検出する技術（以下、人体検出）は、非特許文献６の技術などがあり、近年では人体領域とその中心だけでなく、非特許文献７の技術のように上半身や下半身の領域とその中心も検出することができるようになってきている。

ステップＳ１２１０では、物体検出部１２００は、ステップＳ１１００で取得された画像の中に特定物体（人物）が含まれるか否かを判定する。特定物体が検出された場合、Ｓ１２２０へ進む。一方、特定物体が検出されなかった場合、Ｓ１１００に戻る。

ステップＳ１２２０では、物体検出部１２００は、ステップＳ１２００で検出された特定物体が複数存在する場合、当該複数の特定物体から１つの特定物体を選択する。例えば、複数の中から１名の人物を選択する。選択は自動的に行ってもよいし、ユーザの指定により行ってもよい。

ステップＳ１３００では、領域設定部１３００は、ステップＳ１２２０で選択された特定物体（人物）に対して特徴抽出領域を設定する。

ここで、図５は、ステップＳ１３００の特徴抽出領域設定処理の詳細を示すフローチャートである。

ステップＳ１３１０では、領域設定部１３００は、顔領域に対して属性認識を実施したか否かを判定する。顔領域に対して属性認識を実施したか否かは、領域設定部１３００自身が既に設定した領域の情報を記憶しておくことにより判定可能である。顔領域に対して属性認識を実施していない場合、ステップＳ１３１１へ進む。一方、顔領域に対して属性認識を既に実施している場合、ステップＳ１３１２へ進む。なお、ステップＳ１２２０で選択された特定物体（人物）に対して属性認識を１度も実施していない場合には、ステップＳ１３１１へ進む。

ステップＳ１３１１では、図６に示すようにステップＳ１２００での顔検出結果（顔領域の中心１３０１など）に基づいて、顔全体あるいは局所的な領域を特徴抽出領域として設定する。

ステップＳ１３１２では、領域設定部１３００は、頭部領域に対して属性認識を実施したか否かを判定する。頭部領域に対して属性認識を実施したか否かは、領域設定部１３００自身が既に設定した領域の情報を記憶しておくことにより判定可能である。頭部領域に対して属性認識を実施していない場合、ステップＳ１３１３へ進む。一方、頭部領域に対して属性認識を既に実施している場合、ステップＳ１３１４へ進む。

ステップＳ１３１３では、図７に示すようにステップS１２００での頭部検出結果（頭部領域の中心１３０２など）に基づいて、頭部全体あるいは局所的な領域を特徴抽出領域として設定する。

ステップＳ１３１４では、図８に示すようにステップＳ１２００での人体検出結果（頭部領域の中心１３０３など）に基づいて、人体全体、あるいは局所的な領域を特徴抽出領域として設定する。

以上説明したように、ステップＳ１３００では、ステップＳ１２００での顔検出結果、頭部検出結果、人体検出結果に基づいて顔の特徴抽出領域、頭部の特徴抽出領域、または人体の特徴抽出領域が設定される。以上で図５の一連の処理が終了する。

続いて図４のステップＳ１４００では、まず始めに、特徴抽出部１４１０は、ステップＳ１３００で設定された特徴抽出領域から特徴抽出を行う。ｉ番目人物の顔の特徴抽出領域から抽出した特徴を

、頭部の特徴抽出領域から抽出した特徴を

、人体の特徴抽出領域から抽出した特徴を

とする。なお、特徴Ｆ_ｉは、非特許文献１に記載のようにＲＧＢ画素値ｆ_１、ヒストグラムｆ_２などＬｏｗ−ｌｅｖｅｌＦｅａｔｕｒｅｓと呼ばれる様々な特徴を抽出し、連結して１つの特徴ベクトルＦ_ｉ＝（ｆ_１，ｆ_２，...，ｆ_ｎ）にすることにより生成する。

次に、属性認識部１４００は、生成した特徴ベクトルＦ_ｉを各属性認識を行う識別器へ投入することで属性を認識する。属性は、年齢、性別、人種の顔に関する属性と、服装、体型の人体に関する属性である。ステップＳ１３００では、顔、頭部、人体のいずれかの領域が設定されるため、識別器も図３に示したように、顔特徴

、頭部特徴

、人体特徴

に対応したものをそれぞれ用意しておき、設定された領域に応じて識別器を選択する。

識別器には、例えば非特許文献１と同様にＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（以下、ＳＶＭ）を利用し、カーネルが線形であれば、計算は重み係数Ｗと特徴ベクトルＦとの内積

のみである。学習では、予め学習サンプルから抽出した特徴ベクトルＦ_ｊと正解の出力ラベルＹ_ｊを利用して重み係数Ｗを学習する。

以下では、特徴抽出領域を顔に設定した場合の各識別器の学習方法例を簡単に説明する。他の種類の特徴抽出領域についても同様の学習方法を用いることができる。

[顔による性別認識部]
ステップＳ１３１０で特徴抽出領域として顔が設定され、かつ、属性が性別の場合について説明する。学習は、男性サンプルの顔の特徴抽出領域から抽出した特徴

に対しては出力ラベル

を１、女性サンプルの顔の特徴抽出領域から抽出した特徴

に対しては出力ラベル

を０として大量のサンプルを集めてＳＶＭを学習する。

従って、顔による性別認識部１４３１からは１つの出力値

を取得することができる。

[顔による年齢認識部]
ステップＳ１３１０で特徴抽出領域として顔が設定され、かつ、属性が年齢の場合について説明する。年齢認識部１４２０は、図９に示すように更に０−９代認識部１４２１、１０代認識部１４２２、２０代認識部１４２３、３０代認識部１４２４、４０代認識部１４２５、５０代認識部１４２６、６０代認識部１４２７の複数の認識部で構成されている。

１つの年代認識部、例えば、０−９代認識部１４２１は、性別同様に０−９代サンプルの特徴抽出領域から抽出した特徴

に対しては出力ラベル

を１、それ以外の年代サンプルの特徴抽出領域から抽出した特徴

に対しては出力ラベル

を０として、大量のサンプルを集めて学習する。

従って、年齢認識部１４２０のように、１つの属性認識部が更に複数の認識部から構成されている属性については、複数の出力値

を取得することができる。図１０の例では、０−９代認識部１４２１および６０代認識部１４２７は出力値０．１を出力し、１０代認識部１４２２および５０代認識部１４２６は出力値０．２を出力している。また、２０代認識部１４２３および４０代認識部１４２５は出力値０．４を出力し、３０代認識部１４２４は出力値０．７を出力している。

次に、ステップＳ１５００では、信頼性判定部１５００は、ステップＳ１４００での各属性認識部からの各出力(

)が信頼できる値であるかどうかを評価する。具体的には、各属性の出力に対する信頼度

を出力する。以下では、評価方法について幾つか説明する。

[顔による性別認識結果の評価]
例えば、各属性認識部からの出力

の中で性別認識の出力

に対して信頼できる値であるかどうかを評価する方法について説明する。

顔による性別認識部１４３１は上述のような学習をしているため、出力値

が０．５付近の値である場合、性別認識部１４３０が男性とも女性とも判定できていないことを示している。

従って、以下のようなルールベースの判定に従って信頼できるかどうかの評価結果を得る。

[顔による年齢認識結果の評価]
例えば、各属性認識部からの出力

の中の年齢認識の出力

に対して信頼できる値であるかどうかを判定する方法について説明する。

年齢認識部１４２０の各年代認識部からの出力

について、横軸を年代、縦軸を出力値とした分布を考える。各年代認識部からの出力値

が信頼できる値であるならば、その分布は図１１（ａ）に示すように最も高い値を出力した年代認識部を中心とした正規分布１５０１の形状になる。一方で、各年代認識部からの出力値

が信頼できない値であるならば、その分布は図１１（ｂ）に示すように複数の極大値を持つ分布１５０２のようになる。つまり、３０代の人物に対して、各年代認識部が正しく識別できているならば、２０代認識部１４２３や４０代認識部１４２５からも高い値が出力され、１０代認識部１４２２や５０代認識部１４２６からは低い値が出力される。

ここでは、各年代認識部と同様にＳＶＭを利用する。各年代認識部からの出力値

を１つの特徴ベクトルとして考え、各年代認識部からの出力値

が正規分布の場合には出力ラベル

を１、そうでない場合には出力ラベル

を０として学習する。そして、学習された識別器からの出力値

を閾値処理することで信頼できるかどうかの評価結果を取得する。

なお、正規分布かどうかの判断は人間が判断してもよいし、統計的に求めても構わない。

他には、各年代認識部からの出力値

と各年代の中央値ＣｅｎｔｅｒＶａｌｕｅとの重み付き平均から年齢値ＡｇｅＶａｌｕｅを計算する。

計算した年齢値ＡｇｅＶａｌｕｅと実際の年齢との差が所定閾値以下であるならば出力ラベル

を１、そうでないならば出力ラベル

以上、属性認識部１４００を構成する各属性認識部からの各出力結果について信頼できるかどうかを評価する方法について説明した。

続いて図４に戻り、ステップＳ１５１０では、信頼性判定部１５００は、ステップＳ１５００における結果が所定の条件を満たすか否か、つまり、ステップＳ１４００から出力される属性認識結果が信頼できるか否かを判定する。

ステップＳ１４００から出力される属性認識結果が信頼できると判定される場合には、ステップＳ１６００へ進む。一方で、ステップＳ１４００から出力される属性認識結果が信頼できないと判定されている場合にはステップＳ１３００に戻り、再び特徴抽出領域の設定を行う。つまり、参照領域を拡張する。

ステップＳ１６００では、属性出力部１６００は、ステップＳ１４００で認識した属性を、ステップＳ１２２０で選択した人物の属性として出力する。

ステップＳ１６１０では、属性出力部１６００は、ステップＳ１２００で検出した全ての人物に対して処理をしたか否かを判定する。全ての人物に対して処理した場合にはステップＳ１１００で取得した画像に対する処理を終了する。一方で、全ての人物に対して処理をしていない場合にはステップＳ１２２０に戻り、処理をしていない人物に対する処理を実施する。

以上説明したように、本実施形態では、はじめに顔領域に対して属性認識を行い、その結果に対する信頼性が高い場合には顔領域を用いることにより判定した属性認識結果をその人物の属性として決定する。一方で、その結果に対する信頼性が低い場合には参照領域を拡大して再び属性認識を行う。このように、参照領域を徐々に拡大することによって高速で高精度な属性認識を実現することができる。

（第２の実施形態）
第１の実施形態では、年齢や人種などの属性を認識した認識結果が信頼できる場合には当該認識結果を出力し、当該認識結果が信頼できない場合には参照領域を顔から頭部や人体など他の領域に順に拡張して属性認識を行う例を説明した。これに対して、本実施形態では、当該認識結果が著しく信頼できない場合には、参照領域を順に拡大するのではなく、例えば顔から人体へ一気に拡大する例を説明する。

図１２は、第２の実施形態に係る、属性認識結果に対する信頼性に基づいて参照する領域を顔から頭部や人体へ順に拡大するのではなく、顔から人体へ一気に拡大する際の説明図を示している。参照領域を顔内部として属性認識した結果が著しく信頼できないものである場合には参照領域を頭部に拡張したとしても属性認識した結果は信頼できないと想定されるため、参照領域を一気に人体へ拡張する。

装置の全体構成や処理の手順は第１の実施形態と同様であるので説明を省略する。

第１の実施形態では、信頼度

が各属性認識部からの出力

が信頼できるかどうかを示していたが、本実施形態では、拡張領域を設定する場合にも信頼度

を利用する。

例えば、図１３に示すように、属性と条件と拡張領域との関係を示すテーブルを予め用意しておき、認識対象の属性や各属性認識結果の信頼度

に基づいて拡張領域を設定する方法などがある。

図１３の例では、例えば

の信頼度

が０．０以上であり０．３未満である場合、すなわち、信頼度が閾値未満であり信頼性が著しく低い場合、拡張領域は頭部ではなく人体とする。一方、

が０．３以上であり０．６未満である場合、すなわち、信頼度が閾値以上であり信頼性が著しく低くはない場合、拡張領域は頭部とする。

同様に、

の信頼度

が０．０以上であり０．４未満である場合、すなわち、信頼性が著しく低い場合、拡張領域は頭部ではなく人体とする。一方、

が０．４以上であり０．７未満である場合、すなわち、信頼性が著しく低くはない場合、拡張領域は頭部とする。

なお、閾値として用いる値は図示の例に限定されるものではなく、適宜設定可能であってもよい。

以上説明したように、本実施形態では、認識結果が著しく信頼できない場合には、参照領域を順に拡大するのではなく、例えば顔から人体へ一気に拡大する例を説明した。これにより、信頼度に応じて参照領域の拡大を調整することによって、更に高速かつ高精度な属性認識を実現することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００：画像認識装置、１１００：画像取得部、１２００：物体検出部、１３００：領域設定部、１４００：属性認識部、１５００：信頼性判定部、１６００：属性出力部

Claims

画像中の物体に対して特徴抽出領域を設定する設定手段と、
前記設定手段により設定された特徴抽出領域から前記物体の特徴を抽出する抽出手段と、
前記抽出手段により抽出された特徴に基づいて前記物体の属性を認識する認識手段と、
前記認識手段により認識された属性の信頼性を評価する評価手段と、
を備え、
前記設定手段は、設定された第１の特徴抽出領域から抽出された特徴に基づいて認識された属性の信頼性に対する前記評価手段による評価結果が所定の条件を満たさない場合、前記物体に対して前記第１の特徴抽出領域より拡張された第２の特徴抽出領域を設定することを特徴とする画像認識装置。
前記評価結果が前記所定の条件を満たす場合、前記認識手段により認識された前記属性を出力する出力手段をさらに備えることを特徴とする請求項１に記載の画像認識装置。
前記物体は人物であって、前記第１の特徴抽出領域は顔領域であり、前記第２の特徴抽出領域は頭部領域であることを特徴とする請求項１又は２に記載の画像認識装置。
前記設定手段は、前記第２の特徴抽出領域から抽出された特徴に基づいて認識された属性の信頼性に対する前記評価手段による評価結果が所定の条件を満たさない場合、前記物体に対して前記第２の特徴抽出領域より拡張された第３の特徴抽出領域を設定することを特徴とする請求項１乃至３の何れか１項に記載の画像認識装置。
前記物体は人物であって、前記第１の特徴抽出領域は顔領域であり、前記第２の特徴抽出領域は頭部領域であり、前記第３の特徴抽出領域は人体領域であることを特徴とする請求項４に記載の画像認識装置。
前記物体は人物であって、前記属性は、年齢、性別、人種および体型の少なくとも何れかを含むことを特徴とする請求項１乃至５の何れか１項に記載の画像認識装置。
前記認識手段は、特徴抽出領域の種類ごとに、各種類に対応する認識手段を備えることを特徴とする請求項１乃至６の何れか１項に記載の画像認識装置。
前記設定手段は、前記第１の特徴抽出領域から抽出された特徴に基づいて認識された属性の信頼性に対する前記評価手段による評価結果としての信頼度が閾値よりも小さい場合、前記物体に対して、前記第２の特徴抽出領域ではなく当該第２の特徴抽出領域より拡張された第３の特徴抽出領域を設定することを特徴とする請求項１に記載の画像認識装置。
前記設定手段は、前記第１の特徴抽出領域から抽出された特徴に基づいて認識された属性の信頼性に対する前記評価手段による評価結果としての信頼度が閾値以上である場合、前記物体に対して前記第２の特徴抽出領域を設定することを特徴とする請求項８に記載の画像認識装置。
画像認識装置の制御方法であって、
画像中の物体に対して特徴抽出領域を設定する設定工程と、
前記設定工程により設定された特徴抽出領域から前記物体の特徴を抽出する抽出工程と、
前記抽出工程により抽出された特徴に基づいて前記物体の属性を認識する認識工程と、
前記認識工程により認識された属性の信頼性を評価する評価工程と、
を有し、
前記設定工程では、設定された第１の特徴抽出領域から抽出された特徴に基づいて認識された属性の信頼性に対する前記評価工程による評価結果が所定の条件を満たさない場合、前記物体に対して前記第１の特徴抽出領域より拡張された第２の特徴抽出領域が設定されることを特徴とする画像認識装置の制御方法。
コンピュータを、請求項１乃至９の何れか１項に記載の画像認識装置の各手段として実行させるためのプログラム。