JP6112801B2

JP6112801B2 - 画像認識装置及び画像認識方法

Info

Publication number: JP6112801B2
Application number: JP2012183456A
Authority: JP
Inventors: 矢野　光太郎; 光太郎矢野; 一郎梅田; 佐藤　博; 博佐藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-08-22
Filing date: 2012-08-22
Publication date: 2017-04-12
Anticipated expiration: 2032-08-22
Also published as: JP2014041477A; US20140140583A1; US9489566B2

Description

本発明は、特に、精度良く物体を識別するために用いて好適な画像認識装置、画像認識方法、プログラム及び記憶媒体に関する。

従来、人物の顔を含む画像から顔の領域を顔画像として抽出し、抽出した顔画像を予め登録した特定人物の顔画像と比較することにより個人の識別を行う顔認識技術が知られている。この顔認識技術は、例えば、カメラに写っている人物が登録者であると認識されたときに入室を許可するといったセキュリティ用途に使用されている。

一方、この顔認識技術を用いて同一人物が写っている写真の画像検索を行いたいといった要望もある。セキュリティ用途においては、人物を撮影する際の条件に制約を付けて高精度の認識を可能としているが、画像検索の場合は人物の撮影条件が多岐に亘っているため認識精度が低下するといった問題がある。例えば、顔の向きや表情、撮影時の照明が異なった写真間では、同一人物が写っていても別人物と誤判定してしまうことがあった。

そこで、撮影条件が異なる場合においても高精度に認識を行う方法としては、複数の顔画像を登録する方式が提案されている。例えば、特許文献１には、複数の顔画像から部分空間を作成し、登録顔及び入力顔の部分空間同士の類似度から認識を行う方法が開示されている。

一方、識別対象の複数のサンプルから対象が属するクラスのサンプルを包含する最小の超球を用いて表現する方法として、ＳＶＤＤ（Support Vector Data Description）が知られている（例えば、非特許文献１参照）。また、非特許文献２には、ＳＶＤＤを用いた一般物体カテゴリの分類方法が開示されている。

特開平１１−１７５７１８号公報

D.Tax and R.Duin. Support Vector Data Description. Machine Learning, 54(1):45-66, 2004. X.Yu, D.DeMenthon and D.Doermann. Support Vector Data Description for Image Categorization From Internet Images. 19th International Conference on Pattern Recognition, 2008. P.Viola and M.Jones. Rapid Object Detection using Boosted Cascade of Simple Features. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2001) C.Shan and T.Gritti, Learning Discriminative LBP-Histogram Bins For Facial Expression Recognition. In Proc. British Machine Vision Conference, 2008 S.Maji, A.C.Berg and J.Malik, Classification using intersection kernel support vector machines are efficient. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2008) A. Vedaldi and A. Zisserman, Efficient Additive Kernels via Explicit Feature Maps. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2010)

しかしながら、特許文献１に記載の部分空間によって顔の認識を行う方法においては、入力する顔画像も複数必要であり、その分、処理量が増大してしまう。また、登録した顔画像と同一人物の顔画像を入力したとしても同一人物として識別しない場合がある。これは、登録された顔画像及び入力された顔画像の部分空間の広がりが大きいと、それらの部分空間の類似度が必ずしも高くならないからである。さらに、クラス数の増加に伴う部分空間の重なりにより誤認識が生じてしまう。このような特性は、特に登録された顔画像のサンプル数が少ない場合に生じやすい。

一方、非特許文献２で提案された方法を顔認識に適用すると、登録された顔画像のうち識別境界に近いサンプルをサポートベクターとして抽出するので、上記課題は解決できる。しかしながら、単純にＳＶＤＤを適用すると入力サンプルが対象カテゴリかどうかは識別できるが、そのカテゴリに属する信頼度を求めることができない。したがって、複数の似た人物が登録されている場合には、最も類似した人物を識別結果として出力することができないという問題がある。

本発明は前述の問題点に鑑み、複数の登録画像から高精度に物体を認識できるようにすることを目的としている。

本発明の画像認識装置は、物体画像を取得する取得手段と、前記取得手段によって取得された物体画像から特徴量を抽出する特徴抽出手段と、複数のクラスの各クラスについて、前記特徴抽出手段によって該クラスの物体を含む複数の物体画像から抽出されたそれぞれの特徴量を当該クラスの訓練サンプルの集合とし、該訓練サンプルの集合を包含する領域の境界付近に存在する複数の訓練サンプルのそれぞれを前記クラスの境界サンプルと判別して、該境界サンプルと当該境界サンプルのそれぞれに対するパラメータとを前記クラスのモデルとして登録する登録手段と、前記複数のクラスの各クラスについて、前記取得手段により取得された認識対象の物体画像から前記特徴抽出手段により抽出された特徴量と、当該クラスのモデルとして登録された各境界サンプルとの所定のカーネル関数値を求め、当該各境界サンプルに対する前記カーネル関数値及びパラメータに基づいて、前記認識対象の物体画像に対して、クラスごとの信頼度を算出する算出手段と、前記算出手段により算出されたクラスごとの信頼度に基づいて、前記認識対象の物体画像の認識結果を出力する識別手段とを備えたことを特徴とする。

本発明によれば、複数の似た物体が登録されている場合であっても、複数の登録画像から高精度に物体認識を行うことができる。

本発明の実施形態に係る画像認識装置の機能構成例を示すブロック図である。実施形態において、顔画像を登録する処理手順の一例を示すフローチャートである。顔画像を取得する詳細な処理手順の一例を示すフローチャートである。特徴量を抽出する詳細な処理手順の一例を示すフローチャートである。顔モデルを登録する詳細な処理手順の一例を示すフローチャートである。顔画像を領域分割する様子を説明するための図である。実施形態において、入力された顔画像を識別する処理手順の一例を示すフローチャートである。信頼度を求める詳細な処理手順の一例を示すフローチャートである。入力された顔画像の人物を識別する詳細な処理手順の一例を示すフローチャートである。

（第１の実施形態）
以下、添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。本実施形態では、複数の顔画像から顔の個人識別を行う例について説明する。

図１は、本実施形態に係る画像認識装置１００の機能構成例を示すブロック図である。
図１において、顔画像取得部１０１は、画像データを取得する撮像装置、及び取得した画像データから顔の領域を切り出して顔画像データを出力する画像処理装置により構成されている。特徴抽出部１０２は、顔画像取得部１０１で取得した顔画像データから顔の個人識別を行うための特徴量を求める。

登録部１０３は、特徴抽出部１０２で求めた複数の顔の特徴量から個人毎に顔識別を行うための顔モデルを抽出する。また、登録部１０３は、訓練サンプル記憶部１１１、第１のＨＩＫ算出部１１２、及び境界サンプル判別部１１３により構成されている。顔モデル記憶部１０４は、登録部１０３で求めた個人毎の顔モデルを記憶するメモリである。

算出部１０５は、特徴抽出部１０２で抽出した特徴量を入力し、顔モデル記憶部１０４に登録されている顔モデルから、入力された特徴量が顔モデルのクラスである信頼度を求める。算出部１０５は、第２のＨＩＫ算出部１２１、及び信頼度算出部１２２により構成されている。なお、第１のＨＩＫ算出部１１２及び第２のＨＩＫ算出部１２１は同じ機能を有するため、第２のＨＩＫ算出部１２１は登録部１０３の第１のＨＩＫ算出部１１２で代用してもよい。顔識別部１０６は、複数の個人について、算出部１０５から出力される信頼度から顔の識別を行う。

次に、本実施形態の動作について説明する。まず、顔画像の顔モデルを登録する処理について図２〜図５を参照しながら説明する。

図２は、顔画像の顔モデルを登録する処理手順の一例を示すフローチャートである。本実施形態では、動画像を構成する複数のフレームから特徴量を抽出するため、Ｓ２０１及びＳ２０２の処理は、フレームが入力されるたびに逐次実行されるものとする。
図２において、まず、顔画像取得部１０１は、物体画像（顔画像）を取得する（Ｓ２０１）。Ｓ２０１の処理の詳細については、以下の図３のフローチャートを参照しながら説明する。

図３は、図２のＳ２０１において、顔画像取得部１０１が顔画像を取得する詳細な処理手順の一例を示すフローチャートである。
まず、動画像を撮影するために、登録する人物の顔を撮像し、動画像をフレーム毎に切り出して静止画像として画像データを取得する。そして、取得した画像データを顔画像取得部１０１内部のメモリに記憶する（Ｓ３０１）。このとき、取得する画像データは輝度画像とし、ＲＧＢ等のカラー画像を取得した場合は輝度画像に変換して記憶する。

次に、Ｓ３０１で取得した画像データから、顔領域の正確な位置及び大きさを求める（Ｓ３０２）。具体的には、例えば、非特許文献３に開示されている顔検出方法によって、画像中の顔領域の位置を求める。

次に、Ｓ３０２で検出した顔の位置及び大きさに基づいて、顔画像の正規化を行う（Ｓ３０３）。具体的には、検出した顔領域が所定の配置及び大きさになるように幾何学変換を行う。例えば、両目の夫々の位置が画像中の所定の位置に配置される１００×１００画素の顔画像になるように変換する。そして、顔画像取得部１０１は、正規化した顔画像を出力し、処理を終了する。

図２の説明に戻り、次に、特徴抽出部１０２は、正規化した顔画像から顔の特徴を表す特徴量を抽出する（Ｓ２０２）。Ｓ２０２の処理の詳細については、以下の図４のフローチャートを参照しながら説明する。

図４は、図２のＳ２０２において、特徴抽出部１０２が特徴量を抽出する詳細な処理手順の一例を示すフローチャートである。
まず、入力した顔画像を領域分割する（Ｓ４０１）。この処理では、図６に示すように、水平方向及び垂直方向に同じ大きさの矩形領域になるようにブロックに分割する。このとき、例えば、一つのブロックが２５×２５画素の４×４の領域に分割する。その他にも、顔の目、口、鼻といった位置毎に領域の形状や大きさを変えて分割してもよく、夫々の領域が重なるようにしてもよい。

次に、Ｓ４０１で分割した領域から特徴量を抽出する（Ｓ４０２）。本実施形態では、特徴量としてＬＢＰ（Local Binary Pattern）特徴量を求める。ＬＢＰ特徴量は、非特許文献４に記載されているように近傍の画素の輝度の増加傾向あるいは減少傾向を符号化したものである。ＬＢＰ特徴量は顔認識に有効であり、照明変動にロバストな特性を持つ。

次に、Ｓ４０２で抽出した特徴量の領域内での分布を求め、ヒストグラム特徴として抽出する（Ｓ４０３）。すなわち、Ｓ４０２で求めたＬＢＰ特徴量の符号化した値毎に度数を求め、その度数分布をヒストグラム特徴とする。なお、例えば、Ｓ４０２で輝度勾配を求め、Ｓ４０３でそのヒストグラムを抽出してＨＯＧ（Histogram of Oriented Gradients）特徴量を抽出するようにその他のヒストグラム特徴を抽出してもよい。但し、ここで抽出したヒストグラム特徴の総和が変動する場合には、抽出したヒストグラム特徴を正規化して総和が不変になるようにする。

次に、Ｓ４０１で分割したすべての領域において、Ｓ４０２及びＳ４０３の処理を行ったか否かを判定する（Ｓ４０４）。この判定の結果、まだ処理を行っていない領域が存在する場合はＳ４０２に戻り、次の領域に対して処理を行う。一方、全ての領域において処理を行った場合はＳ４０５に進む。

次に、Ｓ４０３で抽出した領域毎のヒストグラム特徴を全て結合し、結合した特徴量を出力する（Ｓ４０５）。例えば、Ｓ４０１で分割した領域の数がｎ_Rであり、Ｓ４０３で求めたヒストグラムのビンの数がｎ_Bである場合には、結合した特徴量は、ｎ_R×ｎ_B次元の特徴量になる。

図２の説明に戻り、次に、登録部１０３は、特徴抽出部１０２から特徴量を入力し、登録部１０３の訓練サンプル記憶部１１１に記憶する。そして、逐次入力される複数の特徴量から顔モデルを抽出し、顔モデル記憶部１０４に登録する（Ｓ２０３）。これにより、同一人物の顔画像の特徴量に係る複数の顔モデルを登録することができる。

ここで、非特許文献１に記載されているＳＶＤＤ（Support Vector Data Description）について簡単に説明する。本実施形態では、特徴抽出部１０２で抽出した複数の特徴量はＳＶＤＤにおける訓練サンプルの集合であり、訓練サンプルをｘ_i（ｉ＝１，・・・Ｎ、Ｎはサンプル数）とする。ＳＶＤＤでは、以下の（１）式に示す２次計画問題を解いて、訓練サンプルを包含する最小半径の超球を算出する。

ここで、Ｒは超球の半径、ａは超球の中心、ξ_iはスラック変数、Φは高次元特徴空間への非線形写像、Ｃは超球の体積と超球の外側のサンプル数とのトレードオフを制御するパラメータである。また、ラグランジュ乗数α_i≧０を導入すると、（１）式は以下の（２）式を解く問題として表すことができる。

ここで、Ｋ（ｘ_i，ｘ_j）＝（Φ（ｘ_i），Φ（ｘ_j））はカーネル関数である。（２）式を満たすラグランジュ乗数α_iのうち、非ゼロの係数に対応するサンプルで球体を表すことができ、ＳＶＤＤでは球体の境界付近にあたるこれらの訓練サンプルをサポートベクター（境界サンプル）として抽出する。このとき、入力サンプルｚの超球の中心からの距離をＲ_zとすると、以下の（３）式が成り立つ。

但し、Ｎ_SVは抽出したサポートベクターの数を表し、Σは抽出したサポートベクターに対する総和を表す。

図５は、図２のＳ２０３において、登録部１０３が顔モデルを登録する詳細な処理手順の一例を示すフローチャートである。
まず、特徴抽出部１０２が抽出した複数の特徴量から第１のＨＩＫ算出部１１２は、ＨＩＫ（Histogram Intersection Kernel）を算出する（Ｓ５０１）。ＨＩＫは以下の（４）式により算出する。

ここで、ｘ_il，ｘ_jlは夫々、特徴量ｘ_i，ｘ_jのｌ番目の特徴、ｄは特徴量の次元、ｍｉｎ（）は小さい方の値を返す関数である。本実施形態では、このようにＳＶＤＤのカーネル関数としてＨＩＫを用い、算出した値を次のＳ５０２で用いるために訓練サンプル記憶部１１１に保持しておく。

次に、境界サンプル判別部１１３は、Ｓ５０１で求めた特徴量同士のＨＩＫの値からＳＶＤＤによって境界サンプルを判別する（Ｓ５０２）。すなわち、前述の（２）式を満たすラグランジュ乗数α_iのうち、非ゼロの係数に対応する訓練サンプルをサポートベクター（境界サンプル）として判別する。

次に、Ｓ５０２で境界サンプルとして判別した訓練サンプルｘ_i及びラグランジュ乗数α_iを顔モデルとして顔モデル記憶部１０４に登録する（Ｓ５０３）。

以上、人物の顔を撮像して動画像を生成し、顔モデルを登録する動作について説明した。なお、複数の人物の顔モデルを登録する場合には以上の処理を繰り返す。顔画像（顔モデル）を登録する際には、顔の向き、表情、等の変動のバリエーションが大きい動画像から登録することにより、登録した人物の多様な見えをモデル化できるので、高精度な認識が可能である。

次に、認識対象の人物の顔画像を入力し、登録した顔画像と照合する処理について図７〜図９を参照しながら説明する。
図７は、入力された顔画像を識別する処理手順の一例を示すフローチャートである。
まず、顔画像取得部１０１は、認識対象の人物の顔画像を取得する（Ｓ７０１）。そして、特徴抽出部１０２、は取得した顔画像から顔の特徴を表す特徴量を抽出する（Ｓ７０２）。図７のＳ７０１及びＳ７０２の処理はそれぞれ、顔画像を登録する時のＳ２０１及びＳ２０２の処理と同様の処理を行う。なお、特徴抽出部１０２が特徴量を抽出すると、その情報は算出部１０５に出力される。

次に、算出部１０５は、特徴抽出部１０２で抽出した特徴量を入力し、顔モデル記憶部１０４に登録されている顔モデルから、特徴量がその顔モデルのクラスである信頼度を算出する（Ｓ７０３）。Ｓ７０３の処理の詳細については、以下の図８のフローチャートを参照しながら説明する。

図８は、図７のＳ７０３において、算出部１０５が信頼度を算出する詳細な処理手順の一例を示すフローチャートである。
まず、算出部１０５は顔モデル記憶部１０４から照合すべき登録データ（顔モデル）を取得する（Ｓ８０１）。次に、入力された特徴量とＳ８０１で取得した登録データの境界サンプルとから、第２のＨＩＫ算出部１２１はＨＩＫを算出する。ＨＩＫは以下の（５）式により算出する。

ここで、ｘ_iは登録データの境界サンプル、ｚは入力特徴量、ｘ_il、ｚ_lは夫々ｘ_i、ｚのｌ番目の特徴である。第２のＨＩＫ算出部１２１は、登録データの全ての境界サンプルについてＨＩＫを算出し、係数α_iとの重み付き総和を信頼度算出部１２２に出力する（Ｓ８０２）。

次に、信頼度算出部１２２は、Ｓ８０２の出力と登録データから入力特徴量が登録した顔モデルのクラスである信頼度を算出する（Ｓ８０３）。以下、信頼度を算出する詳細な方法について説明する。入力された特徴量の信頼度Ｐは以下の（６）式により定義することができる。

但し、Ｒ_zは（３）式に示した入力特徴量の超球の中心からの距離、Ｒ_max、Ｒ_minは夫々、Ｒ_zが取りうる最大値及び最小値である。ここで、Ｒ² _maxは（３）式より以下の（７）式により算出することができる。

（７）式において（３）式の第二項にあたる項はＨＩＫの性質から０である。また、Ｋ（ｚ，ｚ）は正規化したヒストグラム特徴を使用することにより固定値となるので、登録処理時に境界サンプルを抽出する際に、Ｒ² _maxを事前に算出しておくことができる。一方、Ｒ² _minは（３）式及び（７）式より以下の（８）式により算出することができる。

但し、ｍａｘ＿ｈｉｋは（３）式の第二項のΣα_iＫ（ｘ_i，ｚ）が取りうる最大値である。ｍａｘ＿ｈｉｋは、以下の方法により推定する。まず、以下の（９）式に示すβを算出する。

ここで、ｈ_meanはＳ８０２で出力されるＨＩＫの総和を特徴量の次元数で割った値、すなわち、ヒストグラム特徴のビン毎のＨＩＫの総和の平均値である。また、ｈ_mean＿maxはヒストグラム特徴のビン毎のＨＩＫの総和の平均値の最大値であり、登録処理を行う時に事前に算出しておいてもよい。ＳＶＤＤの性質からβはｈ_meanの信頼度を表し、一方、ｈ_meanは正規分布に従うので、標準正規分布の累積分布関数から信頼度βの信頼区間を算出することができる。そして、信頼区間の上限に特徴量の次元数を乗じた値をｍａｘ＿ｈｉｋの推定値とする。

以上の手順により、（６）式から入力された特徴量の信頼度を、第２のＨＩＫ算出部１２１から出力されるＨＩＫの総和と登録データとから算出することができる。なお、登録された顔モデルが複数ある場合には、Ｓ７０３の処理を登録人物毎に人数分繰り返し、夫々の信頼度を得る。

次に、顔識別部１０６は、複数の個人についての算出部１０５の出力から顔の識別を行う（Ｓ７０４）。Ｓ７０４の処理の詳細については、以下の図９のフローチャートを参照しながら説明する。

図９は、図７のＳ７０４において、顔識別部１０６が入力された顔画像の人物を識別する詳細な処理手順の一例を示すフローチャートである。
まず、算出部１０５により算出された人物毎の信頼度のうち、信頼度が所定値以上であるものを抽出する（Ｓ９０１）。そして、抽出した信頼度が所定値以上のもののうち、最も高い信頼度を持つ人物を認識結果とする（Ｓ９０２）。なお、信頼度が所定値以上のものが存在しない場合には、登録人物ではないという認識結果とする。また、信頼度が所定値以上の人物が複数存在した場合に、それら複数の人物を認識結果として、それぞれの信頼度とともに出力したり、信頼度順にソートして出力することもできる。

以上説明したように本実施形態では、入力された顔画像から得られた特徴量と登録された顔画像から得られた特徴量の境界サンプルとから入力された顔画像に係る人物が登録人物である信頼度を算出するようにしている。このとき、複数の登録人物について信頼度を夫々算出して顔認識結果を得るようにしている。さらに本実施形態では、夫々の顔画像からヒストグラム特徴を抽出するようにし、ＨＩＫで信頼度を求めるようにしたので安定した信頼度を得ることができる。

なお、本実施形態では、図８のＳ８０２において境界サンプルとのＨＩＫを（５）式にて随時算出するようにしたが、非特許文献５に記載されている方法によって処理をより高速化することも可能である。この場合、図５に示した手順により求めた境界サンプルとパラメータとからヒストグラムインターセクションの取りうる最大値を事前に算出してソーティングしたテーブルを作成する。そして、図８のＳ８０２において（５）式の代わりにテーブルを利用した近似計算を行うようにする。

また、本実施形態において得られた顔識別部１０６の識別結果を登録部１０３にフィードバックして、より高精度な顔モデルを得ることができる。この場合、識別結果に対応した人物の訓練サンプルに入力サンプルを追加してＳ２０３の処理を行い、顔モデルを更新すればよい。このとき、入力サンプルの超球の中心からの距離Ｒ_zが、対応する人物の境界サンプルにより表すことができる超球の半径Ｒより小さい場合は入力サンプルが超球の内側に位置するので顔モデルを更新する必要はない。また、入力サンプル及び境界サンプルのＨＩＫの値については、照合処理時にＳ８０２で求めた結果を再利用し、図５のＳ５０２で境界サンプルを判別することにより更新処理を効率よく行うことができる。

また、本実施形態では、ヒストグラム特徴同士のＨＩＫを算出して境界サンプルの判別を行い、入力サンプルの信頼度を算出したが、その他のカーネル関数を用いるようにしてもよい。非特許文献６に示すように、ＨＩＫはヒストグラム特徴のビン毎に算出した所定の正定値関数の和として表現可能な関数であるadditive kernelの一種であり、ＨＩＫの代わりにadditive kernelならば適用可能である。そのようなカーネル関数として、例えば、カイ自乗カーネル、Hellinger's kernelがある。その場合、第１のＨＩＫ算出部１１２及び第２のＨＩＫ算出部１２１の代わりに代用するカーネル関数を算出するようにする。また、その場合には、非特許文献６に記載された方法によって処理をより高速化することが可能である。

本実施形態では、顔全体から一つの特徴量を抽出して認識処理を行うようにしたが、顔画像から目、口、鼻といった特徴的な部分領域を抽出し、夫々の領域において入力された特徴量の信頼度を（６）式によって算出するようにしてもよい。この場合、求めた結果を統合してＳ７０４において顔の識別を行うようにする。顔全体から特徴量を抽出して認識を行う場合に比べ、顔の向きや表情、隠れによって生じる顔の見えの変化に対して、よりロバストな顔認識を行うことができる。

本発明の本質は、登録サンプルが少ない場合において境界サンプルを用いて識別処理をより高精度に行うこと、その場合に安定した信頼度を与えること、にある。したがって、本発明を顔の個人識別に適用する実施形態について説明したが、本発明は顔の認識だけでなく他の物体の認識に対しても適用可能である。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。また、当該プログラムを記憶したコンピュータ読み取り可能な記憶媒体も本発明に含まれる。

１０１顔画像取得部
１０２特徴抽出部
１０３登録部
１０４顔モデル記憶部
１０５算出部
１０６顔識別部

Claims

物体画像を取得する取得手段と、
前記取得手段によって取得された物体画像から特徴量を抽出する特徴抽出手段と、
複数のクラスの各クラスについて、前記特徴抽出手段によって該クラスの物体を含む複数の物体画像から抽出されたそれぞれの特徴量を当該クラスの訓練サンプルの集合とし、該訓練サンプルの集合を包含する領域の境界付近に存在する複数の訓練サンプルのそれぞれを前記クラスの境界サンプルと判別して、該境界サンプルと当該境界サンプルのそれぞれに対するパラメータとを前記クラスのモデルとして登録する登録手段と、
前記複数のクラスの各クラスについて、前記取得手段により取得された認識対象の物体画像から前記特徴抽出手段により抽出された特徴量と、当該クラスのモデルとして登録された各境界サンプルとの所定のカーネル関数値を求め、当該各境界サンプルに対する前記カーネル関数値及びパラメータに基づいて、前記認識対象の物体画像に対して、クラスごとの信頼度を算出する算出手段と、
前記算出手段により算出されたクラスごとの信頼度に基づいて、前記認識対象の物体画像の認識結果を出力する識別手段とを備えたことを特徴とする画像認識装置。
前記クラスは、ＳＶＤＤ（Support Vector Data Description）により定義された超球であることを特徴とする請求項１に記載の画像認識装置。
前記特徴抽出手段は、前記特徴量として前記物体画像から正規化したヒストグラム特徴を抽出し、
前記登録手段は、前記ヒストグラム特徴のビン毎に算出した所定の正定値関数の和として表現可能なカーネル関数を算出することにより前記訓練サンプルの集合を包含する超球の境界付近に存在する訓練サンプルを境界サンプルと判別し、
前記算出手段は、前記各クラスについて、前記認識対象の物体画像から抽出されたヒストグラム特徴と、当該クラスのモデルとして登録された各境界サンプルとの前記所定のカーネル関数値と当該各境界サンプルに対するパラメータとを用いて前記クラスごとの信頼度を算出することを特徴とする請求項２に記載の画像認識装置。
前記取得手段は、動画像を構成するフレームから物体画像を取得し、
前記登録手段は、前記動画像を構成するそれぞれのフレームにおける同一の物体を対象とした訓練サンプルを登録することを特徴とする請求項１〜３の何れか１項に記載の画像認識装置。
前記物体画像は、人物の顔画像であることを特徴とする請求項１〜４の何れか１項に記載の画像認識装置。
物体画像を取得する取得工程と、
前記取得工程において取得された物体画像から特徴量を抽出する特徴抽出工程と、
複数のクラスの各クラスについて、前記特徴抽出工程において該クラスの物体を含む複数の物体画像から抽出されたそれぞれの特徴量を当該クラスの訓練サンプルの集合とし、該訓練サンプルの集合を包含する領域の境界付近に存在する複数の訓練サンプルのそれぞれを前記クラスの境界サンプルと判別して、該境界サンプルと当該境界サンプルのそれぞれに対するパラメータとを前記クラスのモデルとして登録する登録工程と、
前記複数のクラスの各クラスについて、前記取得工程において取得された認識対象の物体画像から前記特徴抽出工程において抽出された特徴量と、当該クラスのモデルとして登録された各境界サンプルとの所定のカーネル関数値を求め、当該各境界サンプルに対する前記カーネル関数値及びパラメータに基づいて、前記認識対象の物体画像に対して、クラスごとの信頼度を算出する算出工程と、
前記算出工程において算出されたクラスごとの信頼度に基づいて、前記認識対象の物体画像の認識結果を出力する識別工程とを備えたことを特徴とする画像認識方法。
物体画像を取得する取得工程と、
前記取得工程において取得された物体画像から特徴量を抽出する特徴抽出工程と、
複数のクラスの各クラスについて、前記特徴抽出工程において該クラスの物体を含む複数の物体画像から抽出されたそれぞれの特徴量を当該クラスの訓練サンプルの集合とし、該訓練サンプルの集合を包含する領域の境界付近に存在する複数の訓練サンプルのそれぞれを前記クラスの境界サンプルと判別して、該境界サンプルと当該境界サンプルのそれぞれに対するパラメータとを前記クラスのモデルとして登録する登録工程と、
前記複数のクラスの各クラスについて、前記取得工程において取得された認識対象の物体画像から前記特徴抽出工程において抽出された特徴量と、当該クラスのモデルとして登録された各境界サンプルとの所定のカーネル関数値を求め、当該各境界サンプルに対する前記カーネル関数値及びパラメータに基づいて、前記認識対象の物体画像に対して、クラスごとの信頼度を算出する算出工程と、
前記算出工程において算出されたクラスごとの信頼度に基づいて、前記認識対象の物体画像の認識結果を出力する識別工程とをコンピュータに実行させることを特徴とするプログラム。
請求項７に記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。