JP5929896B2

JP5929896B2 - 画像認識システム、画像認識方法および画像認識用プログラム

Info

Publication number: JP5929896B2
Application number: JP2013504406A
Authority: JP
Inventors: 和之櫻井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-03-17
Filing date: 2011-11-16
Publication date: 2016-06-08
Anticipated expiration: 2031-11-16
Also published as: JPWO2012124000A1; US9600745B2; US20140010410A1; WO2012124000A1

Description

本発明は画像認識システム、画像認識方法および画像認識用プログラムに関し、高い認識精度で画像内の物体を認識することができる画像認識システム、画像認識方法および画像認識用プログラムに関する。

学習装置の一例が、特許文献１に記載されている。図１４に示すように、この学習装置は、記憶装置１０００と、特徴点検出部１００１と、特徴量計算部１００２と、投票学習部１００３と、識別器学習部１００４から構成されている。本学習装置は、特徴点の投票により対象を認識しているため、認識対象個々の形状等の違いに対して比較的頑健であるという特徴を有している。

このような構成を有する学習装置は次のように動作する。
すなわち、記憶装置１０００は、認識対象物体に関する画像群及び認識対象物体以外の物体の画像群で構成される学習画像を格納する。特徴点検出部１００１は、学習画像のそれぞれの画像から多数の特徴点を検出する。特徴量計算部１００２は、特徴点とその周辺画像領域に関する特徴量として特徴ベクトルを計算する。投票学習部１００３は、学習画像の認識対象物体に関する画像から計算された特徴ベクトルに対応する特徴点に関して、投票空間であるパラメータ空間内での投票位置情報を算出して記憶する。識別器学習部１００４は、認識対象物体の認識の際に検出された任意の特徴点が認識対象物体に属するか否かを識別するための識別器を、特徴ベクトルを用いて学習する。

特許文献２には、識別性能を向上させることを目的とした学習装置が開示されている。この学習装置は、サンプル画像上の点毎に、その点を中心とする矩形ウィンドウを用いて、パターン認識に必要な局所情報を計算する。また、学習装置は、サンプル画像上の点毎に、注目点の周辺の領域の識別クラスを特定する配置情報を計算する。そして、学習装置は、局所情報と配置情報とを組み合わせた複数の組合せ情報の中から、１つの組合せ情報を選択し、選択した組合せ情報に基づいて、１つの弱識別器の識別パラメータを計算する。

非特許文献１〜４にも、画像認識に関する技術が開示されている。

特開２０１０−２０４８２６号公報特開２００８−２１７５８９号公報

Paul Viola, John C. Platt and Cha Zhang, "Multiple Instance Boosting For Object Detection", Proc. Conference on Advances in Neural Information Processing Systems 18, pp.1419-1426, 2006. P. Viola, M. Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Vol. 1, pp.511-518, December 2001. N. Dalal and B. Triggs: "Histograms of Oriented Gradients for Human Detection", IEEE Proc. CVPR2005, pp.829-836, 2005. Subhransu Maji, Jitendra Malik: "Object Detection using a Max-Margin Hough Transform", IEEE Proc. CVPR2009, pp.1038-1045, 2009.

上述した特許文献１に開示の技術は、人物等の曲線により構成される認識対象物を正確に認識することができない、という課題がある。その理由は、認識対象物が人物等の曲線より構成される物体である場合、特徴点の正確な検出が困難だからである。具体的には、特許文献１に開示の技術で用いられている特徴点検出はコーナー点やblob等を検出するものであり、比較的曲率がなだらかに変化する輪郭線をもつ人物等の物体にはそのような特徴は少ないためである。

ここで、上述したように、特許文献２には、識別性能を向上させることを目的とした技術が開示されている。しかし、特許文献２に開示の技術は、本願発明のように、部分領域集合から選択した領域に基づいて識別器を学習する技術を開示したのもではない。

本発明の目的は、上述したような課題を解決するために、曲線を含む認識対象物についても、頑健な認識を行なうことができる画像認識システム、画像認識方法および画像認識用プログラムを提供することにある。

本発明の第１の態様にかかる画像認識システムは、識別対象物を有する認識対象物を含む入力画像のうち、任意の領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度を判定する識別器の判定結果に基づいて、前記入力画像に含まれる認識対象物を認識する画像認識手段と、前記認識対象物を含む学習用画像において、複数の学習部分領域を決定する部分領域決定手段と、前記学習部分領域に基づいて、当該学習部分領域と、当該学習部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む学習部分領域集合を生成する部分領域集合生成手段と、前記学習部分領域について前記識別器の学習を行う場合に、当該学習部分領域から生成された学習部分領域集合に含まれる複数の領域から、前記識別対象物であると判定するのに適している画像を含む領域を選択して、選択した領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度をより高く判定するように、前記識別器を学習する学習手段と、を備えた画像認識システム。

本発明の第２の態様にかかる画像認識方法は、識別対象物を有する認識対象物を含む学習用画像において、複数の学習部分領域を決定し、前記学習部分領域に基づいて、当該学習部分領域と、当該学習部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む学習部分領域集合を生成し、前記学習部分領域について、前記認識対象物を含む入力画像のうち、任意の領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度を判定する識別器の学習を行う場合に、当該学習部分領域から生成された学習部分領域集合に含まれる複数の領域から、前記識別対象物であると判定するのに適している画像を含む領域を選択して、選択した領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度をより高く判定するように、前記識別器を学習し、前記識別器によって前記入力画像を判定した結果に基づいて、前記入力画像に含まれる認識対象物を認識する、画像認識方法。

本発明の第３の態様にかかる画像認識プログラムは、識別対象物を有する認識対象物を含む学習用画像において、複数の学習部分領域を決定する処理と、前記学習部分領域に基づいて、当該学習部分領域と、当該学習部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む学習部分領域集合を生成する処理と、前記学習部分領域について、前記認識対象物を含む入力画像のうち、任意の領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度を判定する識別器の学習を行う場合に、当該学習部分領域から生成された学習部分領域集合に含まれる複数の領域から、前記識別対象物であると判定するのに適している画像を含む領域を選択して、選択した領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度をより高く判定するように、前記識別器を学習する処理と、前記識別器によって前記入力画像を判定した結果に基づいて、前記入力画像に含まれる認識対象物を認識する処理と、をコンピュータに実行させる画像認識プログラム。

上述した本発明の各態様によれば、曲線を含む認識対象物についても、頑健な認識を行なうことができる画像認識システム、画像認識方法および画像認識用プログラムを提供することができる。

本発明の実施の形態にかかる画像認識システムの概要構成を示すブロック図である。本発明の実施の形態にかかる画像認識システムの構成を示すブロック図である。部分領域集合からの部分領域の探索を説明する図である。投票パターンの生成方法を示す図である。投票を説明する図である。本発明の実施の形態にかかる画像認識システムの学習動作を示す流れ図である。本発明の実施の形態にかかる画像認識システムの認識動作を示す流れ図である。認識対象である原画像の例を示す図である。本発明の実施の形態にかかる画像認識システムの具体例の構成を示すブロック図である。部分領域への分割を説明する図である。本発明の実施の形態にかかる画像認識システムの具体例の学習動作を示す流れ図である。本発明の実施の形態にかかる画像認識システムの具体例の認識動作を示す流れ図である。本発明の実施の形態にかかるコンピュータのハードウェア構成を示すブロック図である。背景技術にかかる学習装置の一例の構成を示すブロック図である。

まず、図１を参照して、本発明の実施の形態にかかる画像認識システム５の概要について説明する。図１は、本発明の実施の形態にかかる画像認識システム５の概要構成を示すブロック図である。

画像認識システム５は、部分領域決定手段５０、部分領域集合生成手段５１、及び学習手段５２を有する。画像認識システム５は、識別器の判定結果に基づいて、入力画像に含まれる認識対象物を認識する。入力画像には、識別対象物を有する認識対象物が含まれる。識別器は、入力画像のうち、任意の領域に関する特徴量に基づいてその領域に含まれる画像が識別対象物である尤度を判定する。

部分領域決定手段５０は、認識対象物を含む学習用画像において、複数の学習部分領域を決定する。

部分領域集合生成手段５１は、学習部分領域に基づいて、学習部分領域と、学習部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む学習部分領域集合を生成する。

学習手段５２は、学習部分領域集合に含まれる複数の領域から、識別対象物であると判定するのに適している画像を含む領域を選択して、選択した領域に関する特徴量に基づいて領域に含まれる画像が識別対象物である尤度をより高く判定するように、識別器を学習する。

続いて、本発明の実施の形態にかかる画像認識システム５の動作について説明する。
部分領域決定手段５０は、認識対象物を含む学習用画像において、複数の学習部分領域を決定する。部分領域集合生成手段５１は、部分領域決定手段５０が決定した学習部分領域に基づいて、学習部分領域と、学習部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む学習部分領域集合を生成する。学習手段５２は、部分領域集合生成手段５１が生成した学習部分領域集合に含まれる複数の領域から、識別対象物であると判定するのに適している画像を含む領域を選択する。そして、学習手段５２は、選択した領域に関する特徴量に基づいて領域に含まれる画像が識別対象物である尤度をより高く判定するように、識別器を学習する。

次に、本発明の実施の形態にかかる画像認識システム１０について図面を参照して詳細に説明する。

図２を参照すると、本発明の実施の形態にかかる画像認識システム１０は、プログラム制御により動作するコンピュータ１００、１２０と、画像データベース１１０と、画像入力装置１３０と、を有する。コンピュータ１００、１２０のそれぞれは、プロセッサ（中央処理装置又はデータ処理装置とも言う）（図示せず）を含む。

コンピュータ１００は、画像分割機能１０１と、部分領域集合生成機能１０２と、特徴ベクトル生成機能１０３と、識別器パラメータ・部分領域位置学習機能１０４と、部分領域投票パターン生成機能１０５と、部分領域重み計算機能１０６と、認識パラメータ出力機能１０７とを含む。

コンピュータ１２０は、部分領域画像識別機能１２１と、部分領域投票機能１２２と、投票ピーク検出機能１２３と、対象物認識機能１２４と、認識結果出力機能１２５とを含む。

これらの手段はそれぞれ概略つぎのように動作する。
画像データベース１１０は、識別器パラメータ・部分領域位置学習機能１０４の学習に必要な認識対象物を含む画像を格納する。ここで、画像データベース１１０は必要に応じて、さらに認識対象物を含まない画像を格納してもよい。画像データベース１１０に格納される画像は、後述する部分領域識別器を学習するための学習用画像となる。画像データベース１１０は、例えば、コンピュータ１００が有するメモリ、ハードディスクドライブ又は光ディスクドライブ等の記憶手段であってもよく、画像を格納する記憶装置を有し、コンピュータ１００と任意の通信手段によって画像を送受信可能なコンピュータであってもよい。

ここで、認識対象物とは、画像のうち、画像認識システムによって認識する対象となる物体のことである。認識対象物とは、例えば、人である。また、本実施の形態では、認識対象物に含まれる物体のうち、任意の物体を識別対象物として定義する。識別対象物は、例えば、人の手、足、及び頭等である。後述するように、画像認識システムは、画像に含まれる識別対象物を識別する。画像認識システムは、識別した識別対象物の種類に対応する投票パターンを、その識別した識別対象物の種類に対応する投票空間に投票する。そして、画像認識システムは、この投票結果に基づいて、識別対象物の位置関係に基づいた認識対象物の位置を認識する。

画像分割機能１０１は、画像データベース１１０内の各画像を、複数の部分領域に分割する。部分領域集合生成機能１０２は、部分領域毎に、部分領域とその周辺の領域とを含む複数の領域の集合である部分領域集合を生成する。特徴ベクトル生成機能１０３は、部分領域集合の各領域から特徴ベクトルを生成する。

識別器パラメータ・部分領域位置学習機能１０４は、後述のMultiple Instance Learningの枠組みに基づき、特徴ベクトルを用いて、部分領域識別器のパラメータを学習する。部分領域識別器は、特徴ベクトルに基づいて、その特徴ベクトルが生成された領域を部分領域クラスへと識別する識別器である。ここで、部分領域クラスとは、識別対象の領域に含まれる画像が認識対象物に含まれる識別対象物のうち、いずれの識別対象物であるか、又はいずれの認識対象物でもないか、を定義したものである。つまり、部分領域識別器は、特徴ベクトルに基づいて、その特徴ベクトルが生成された領域に含まれる画像が、識別対象物であるか否かを識別する。よって、部分領域識別器は、例えば、識別対象物のそれぞれに対応するように複数用意されるか、もしくは複数の識別対象物への識別が可能な識別器として１つもしくは複数用意される。

識別器パラメータ・部分領域位置学習機能１０４は、ある識別対象物の部分領域クラスへと識別する部分領域識別器を学習する場合、部分領域集合の中から、その部分領域クラスとして最も適している領域を選択して、選択した領域の特徴ベクトルを用いてその部分領域識別器のパラメータを計算する。なお、最も適している領域の選択は、Multiple Instance Learningによる技術を利用して行う。また、識別器パラメータ・部分領域位置学習機能１０４は、学習後の部分領域識別器によって、部分領域集合の中から最も識別対象物らしい画像を含む領域を特定して、特定した領域からの認識対象物の認識基準点の相対位置を計算する。これにより、各識別対象物の部分領域クラスに対応する部分領域識別器のパラメータが学習される。また、計算した相対位置によって、後述するように、識別対象物に対する認識対象物の位置が学習される。

部分領域投票パターン生成機能１０５は、計算された識別対象物からの認識対象物の相対位置に基づき、その識別対象物の部分領域クラスについての投票パターンを生成する。この投票パターンは、最も識別対対象物らしいと特定した領域を基準として、計算した相対位置を投票空間上に重ね合わせることで生成される。すなわち、投票パターンにおいて、相対位置が最も集中して重ね合わせられる点が、識別対象物から見た認識対象物の位置として最も適した位置であるとして、識別対象物及び認識対象物の位置関係が学習されることになる。部分領域重み計算機能１０６は、認識対象物とそれ以外のものとの識別が最良となるように各識別対象物の部分領域クラスについての部分領域重みを計算する。認識パラメータ出力機能１０７は、学習された各パラメータを出力する。具体的には、認識パラメータ出力機能１０７は、学習した部分領域識別器のパラメータをコンピュータ１２０の部分領域画像識別機能１２１に出力し、生成した投票パターン及び部分領域重みをコンピュータ１２０の部分領域投票機能１２２に出力する。なお、部分領域識別器のパラメータ、投票パターン及び部分領域重み等のデータは、上述したように、コンピュータ１００からコンピュータ１２０に直接出力されるようにしてもよく、図１３を参照して後述するように、任意の外部記憶媒体を介してコンピュータ１００からコンピュータ１２０に受け渡されるようにしてもよい。

画像入力装置１３０は、原画像をコンピュータ１２０に対して入力する。画像入力装置１３０は、例えば、図１３を参照して後述するように、原画像を格納する記憶手段を有し、コンピュータ１２０と任意の通信手段によって画像を送受信可能なコンピュータである。以下、入力された原画像を「入力画像」とも言う。コンピュータ１２０は、後述する認識動作によって、この原画像に含まれる認識対象物を認識する。

部分領域画像識別機能１２１は、各部分領域識別器により原画像の各部分領域を各部分領域クラスへと識別する。部分領域投票機能１２２は、原画像の各部分領域について、部分領域クラスに対する投票パターンと部分領域重みに基づき投票空間への投票を行なう。投票ピーク検出機能１２３は、投票空間における投票のピークを検出する。対象物認識機能１２４は、投票空間における投票のピークに基づき、認識対象物の位置を特定することにより認識対象物の認識を行なう。認識結果出力機能１２５は、認識対象物の認識結果を出力する。

ここで、非特許文献１に述べられているMultiple Instance Learningの枠組みに基づく識別器のパラメータと位置の学習について説明する。識別器とは一般に式（１）で表されるような、パラメータwにより規定される識別関数f(x; w)により入力データxに対してxが属すると推定されるクラスyを出力するものである。ここでは、識別器がクラスとして２クラスを識別するものである場合、識別器は、入力データが識別対象物のクラスである場合に１を出力し、識別対象外のクラスである場合に０を出力する。

y = f(x; w) ・・・（１）

パラメータwの学習とは、既に対応するクラスが特定されている学習用データ(xi, yi)の集合である学習用データ集合{xi, yi}（i=0,1,……,Ni）を用いてパラメータwを決定することである。ここで、Niは、任意の正整数である。また、xiは入力データであり、yiは入力データxiに対応するクラスである。ここで、Multiple Instance Learningでは、学習用データ集合においてクラスyiに対して入力データxiのような単独の入力データではなく、複数の入力データの組である入力データ群{xij}（j=0,1,……,Nj）を対応させる。入力データ群{xij}の内少なくとも１つの入力データがクラスyiに属するとする。ここで、Njは、任意の正整数である。すなわち、学習用データ集合として{{xij}, yi}を用いる。このとき、入力データ群{xij}に対する識別関数を式（２）のように定める。

y = F({xij}; w) = softmax_j(f(xij; w)) ・・・（２）

関数softmax_j()は添え字jに関する最大値を近似する微分可能な関数であり、非特許文献１に幾つかの例が示されている。学習用データ集合{{xij}, yi}を用いて識別関数F({xij}; w)のパラメータが学習されるが、この際、式（２）によって各入力データ群{xij}の内で最も識別対象物らしい入力データxik（kは、０以上Nj以下の正整数である）について識別関数f(x; w)が１を出力するようにパラメータwが学習される。入力データ群{xij}の少なくとも１つの入力データは識別対象物のクラスに属するので、入力データ群{xij}に含まれる入力データのうち、識別対象物のクラスに属する入力データについてパラメータwの学習が行なわれることになる。

ここで、入力データxiを部分領域から計算される特徴ベクトルとすると、入力データ群{xij}として、部分領域集合に属する各領域から計算される特徴ベクトルを考えることができる。具体的には、入力データ群{xij}では、iの値によって複数の部分領域集合のうち、いずれの部分領域集合であるかが表現され、jの値によって部分領域集合に含まれる複数の領域のうち、いずれの領域であるかが表現される。このとき、ここで述べたMultiple Instance Learningの枠組みで学習を行なうならば、図３に示すとおり、部分領域集合２００の内で最も識別対象物らしい領域２０１についての部分領域識別器のパラメータが学習されることになる。

これはすなわち、部分領域とその周辺の領域の中で最も識別対象物の部分領域クラスとして適している領域２０１を選択し、その領域２０１の特徴ベクトルに基づいて、部分領域識別器のパラメータを学習しているということになる。これは、学習用画像間で同一の識別対象物の位置ずれがあったとしても、学習対象とする領域を、識別対象物と識別される画像を含む領域として最適な領域に補正しながら部分領域識別器のパラメータを学習しているということである。

この学習によって、例えば、識別対象物として人の足を識別する部分領域識別器を学習するとき、部分領域識別器は、入力された特徴ベクトルに基づいて、その特徴ベクトルが生成された領域に含まれる画像が足である場合に１を出力するように学習される。また、部分領域識別器は、入力された特徴ベクトルに基づいて、その特徴ベクトルが生成された領域に含まれる画像が足でない場合に０を出力するように学習される。

なお、識別対象物の部分領域クラスとして適している領域の選択は、図１３を参照して後述するように、コンピュータ１００が有する入力手段によって、ユーザから、部分領域集合のうち、識別対象物の部分領域クラスとして適している領域を選択する入力を受けることによって行ってもよい。

また、部分領域識別器のパラメータの学習終了後、各部分領域集合２００において、部分領域識別器が最も識別対象物らしいと出力する領域２０１の位置により各学習用画像間での同一の識別対象物の位置ずれを特定できる。例えば、部分領域識別器がある特徴ベクトルの入力に応じて１を出力した場合、その特徴ベクトルが生成された領域が、領域２０１に相当する。これにより、識別対象物である画像を含む領域の正確な位置を学習することが出来る。

つまり、認識対象物が人である場合に、学習用画像間で、人がとっているポーズが異なり、認識対象物である手、足、および頭等の位置が相対的に異なっている場合であっても、それらの正確な位置を特定することができる。それらの位置となる領域２０１は、投票パターンの生成において、認識対象物の認識基準点への相対位置を計算するときの基準位置として使用される。そのため、投票パターンの生成において、識別対象物からの認識対象物の認識基準点の相対位置の分布を、高い精度で生成することができる。

なお、部分領域識別器の出力値は０又は１の２値ではなく０と１の間の連続値を出力し、その連続な出力値を予め定められた閾値と比較することにより部分領域クラスを識別するようにしてもよい。この場合、識別関数の出力値を領域について識別対象物らしさを表す識別値として用いることが出来る。つまり、部分領域識別器の出力値として、識別対象となる領域に含まれる画像が識別対象物である尤度を出力するようにしてもよい。この場合、部分領域集合の中で最も識別対象物の部分領域クラスとして適している領域を選択して、選択した領域の特徴ベクトルに基づいて、その領域に含まれる画像が識別対象物である尤度をより高く判定するように、部分領域識別器のパラメータを学習するようにする。つまり、部分領域識別器は、部分領域集合２００のうち、最も識別対象物らしい領域２０１を、最も高い尤度と判定するように学習をする。

ここで、認識対象物の認識基準点への相対位置を計算するときの基準位置は、部分領域識別器が最も識別対象物らしいと判定した領域２０１に限られない。部分領域識別器が識別対象物らしい領域であれば、部分領域集合２００の中から複数の領域を基準位置として使用するようにしてもよい。例えば、部分領域識別器が出力値が尤度である場合は、部分領域集合のうちの複数の領域において、それぞれの領域に含まれる画像が識別対象物である尤度が、予め定められた閾値以上となる場合に、それらの領域を基準位置として使用するようにしてもよい。つまり、それらの基準位置から計算した相対位置を使用して、相対位置の分布を生成するようにしてもよい。また、部分領域識別器の出力値が０又は１の２値である場合、部分領域集合２００の中に、部分領域識別器が１を出力する領域が複数含まれていてもよい。

次に、投票パターンについて説明する。図４に示すとおり、認識対象物３００について認識対象物３００を代表して位置の基準となる点である認識基準点３０１を設定する。ここで、部分領域投票パターン生成機能１０５は、部分領域集合のうち、識別対象物らしいと判定された領域３０２の位置から認識基準点３０１への相対位置３０３を算出する。そして、部分領域投票パターン生成機能１０５は、投票空間３０４上に領域３０２からの相対位置３０３における点３０５を投票する。このような、相対位置３０３となる点３０５の投票を「相対位置の投票」と言う。この相対位置の投票は、例えば学習用画像の縦方向及び横方向にＸ軸及びＹ軸をとった空間上において行なう。ここで、認識基準点３０１への相対位置３０３の基準となる領域３０２の位置は、領域３０２上のいずれの点にとってもよい。例えば、図４に示すように、領域３０２の上辺の中央を基準位置としてもよい。これにより、識別対象物が含まれる領域の位置から認識基準点３０１への相対位置３０３の分布３０６を得ることが出来る。この分布３０６を投票パターンとする。ここで、投票パターンは、異なる認識対象物の部分領域クラスのそれぞれに対応するように生成される。すなわち、識別対象物らしいと判定された領域３０２の位置から計算された相対位置３０３は、その識別対象物の部分領域クラスに対応する投票パターンに対して投票される。

なお、相対位置の投票は、投票空間３０４上の相対位置３０３における点３０５に対して、所定の定数を加算した投票値を設定することによって行われる。投票パターン３０４の各座標位置における投票値は、最初に、例えば、ＡＬＬ０で初期化される。そして、相対位置３０３における点３０５を投票する毎に、定数を加算していく。つまり、同一の座標位置に対して２回の投票がされた場合、その座標位置における投票値は、定数の２倍となる。なお、相対位置３０３における点３０５の投票パターン３０４上への投票において、投票値として定数の他、部分領域識別器から出力される、識別対象物らしさを表す識別値を用いることが出来る。

次に、部分領域投票機能１２２による投票パターンの投票について説明する。図５に示すとおり、投票空間として例えば原画像と同じ座標系を持つ空間４００を考えることができる。例えば、原画像の縦方向及び横方向にＸ軸及びＹ軸をとった空間４００を投票空間とする。ここで、部分領域画像識別機能１２１により、原画像のうちのある部分領域４０１が、ある識別対象物の部分領域クラスと識別されたなら、その部分領域クラスについての投票パターン４０２を、部分領域４０１の位置を原点として空間４００に対して加算することにより、投票パターン４０２の投票を行なう。このような、投票パターン４０２の投票を「投票パターンの投票」と言う。ここで、原点は、部分領域４０１上のいずれの点にとってもよい。例えば、図５に示すように、部分領域４０１の上辺の中央を基準位置としてもよい。好ましくは、このように、領域３０２における基準位置と同一の位置に原点をとるとよい。このように、投票パターンの投票を各部分領域について行なうことにより、投票空間内の認識対象物の認識基準点３０１に投票値４０３のピークが生成される。つまり、投票値４０３のピークの位置に基づいて、認識対象物の位置を把握することができる。

なお、部分領域識別器が部分領域に含まれる画像が識別対象物である尤度を出力する場合、尤度が予め定められた閾値以上となるときに、その部分領域の位置を原点として、その識別対象物の部分領域クラスについての投票パターンを投票するようにしてもよい。

次に、投票重みについて説明する。部分領域投票機能１２２における投票パターンの投票において、投票パターン４０２の値をそのまま加算するのではなく、例えば各識別対象物の部分領域クラスについて計算された部分領域重みを、部分領域クラスに対応する投票パターン４０２の値に乗じて加算することができる。これにより、より認識に対して重要な部分領域クラスの影響を強くした認識を行なうことができる。部分領域重みは、例えば、非特許文献４の３節に開示されているScoreのように、予め定められた算出基準を用いることによって、重要な部分領域クラスの影響が強くなるように計算される。

なお、部分領域重み計算機能１０６における部分領域重みの計算において、全部分領域重みを等しくしても良い。この場合、実質的には部分領域重みは意味を成さず、従って部分領域重み計算機能１０６を省略することが出来る。

また、部分領域重みの算出は、図１３を参照して後述するように、コンピュータ１００が有する入力手段によって、ユーザから、部分領域クラス毎に重要度の入力を受けるようにして、入力された重要度に比例するように、部分領域クラス毎の重みを計算するようにしてもよい。

また、部分領域識別器として、例えばニューラルネットワーク等の多クラス識別が可能な多クラス識別器を用意し、全ての部分領域クラスの識別を１つの多クラス識別器により実現してもよい。この場合、部分領域識別器は、例えば、１つの特徴ベクトルの入力に応じて、その特徴ベクトルが生成された領域がどの部分領域クラスであるか否かを出力する。また、部分領域識別器は、１つの特徴ベクトルの入力に応じて、全ての部分領域クラスのそれぞれについて、その特徴ベクトルが生成された領域が部分領域クラスである尤度を出力するようにしてもよい。

また、それぞれが異なる識別対象物の部分対象クラスと識別される部分領域間の類似性を、例えば互いに他方の部分領域の部分領域クラスとして誤識別する確率、それぞれの部分領域に対応する部分領域クラスを識別する部分領域識別器のそれぞれのパラメータの近さ、及びそれぞれの部分領域の特徴ベクトル間の距離などの評価値により定義するようにしてもよい。そして、類似性の高い部分領域は、どちらの部分領域も、上記の異なる識別対象物の部分領域クラスのうち、いずれか１つの部分領域クラスとして識別する部分領域識別器を用いてもよい。例えば、評価値を、部分領域間の類似性が高くなる程、より高くなるように定義し、評価値が所定の値以上となった場合に、部分領域間の類似性が高いと判定する。この場合、投票パターンとして、部分領域重みを考慮した上で、個々の部分領域クラスに対応する投票パターンのそれぞれを合成した投票パターンを用いるようにしてもよい。すなわち、部分領域クラスのそれぞれに対応する投票パターンに、部分領域クラスのそれぞれに対する部分領域重みに比例した値を乗じてから、投票パターンを加算することによって生成した投票パターンを使用するようにしてもよい。例えば、部分領域識別器に、本来の部分領域クラスを示す情報を出力させるようにすることで、合成対象となる投票パターンを認識可能とする。

また、本実施の形態における原画像の代わりに、これらにフィルタや幾何変換等の処理を施した処理画像を用いてもよい。

また、本実施の形態における特徴ベクトルとして、原画像のピクセル値、原画像にフィルタや幾何変換等の処理を施した処理画像のピクセル値、非特許文献２で述べられているHaar-like特徴、非特許文献３で述べられているHOG特徴等、一般に画像の識別において用いることのできる特徴を用いてよい。

また、本実施の形態における部分領域識別器として、ニューラルネットワーク、線形識別器、サポートベクタマシン、非特許文献２で述べられているカスケード型識別器、ベクトル量子化器等、一般に画像の識別において用いることのできる識別器を用いてよい。

次に、図２と、図６及び図７のフローチャートとを参照して本実施の形態にかかる画像認識システムの全体の動作について詳細に説明する。

なお、本実施の形態にかかる画像認識システムの動作はコンピュータ１００により処理される学習動作とコンピュータ１２０により処理される認識動作の２つの動作から成るため、以下では、これら２つの動作に分けて説明する。

まず、図６を参照して、学習動作について詳細に説明する。
まず、画像分割機能１０１は、画像データベース１１０内の各画像を、複数の部分領域に分割する（Ｓ１）。次に、コンピュータ１００は、全ての部分領域の内に、未処理の部分領域が存在するか否かを判定する（Ｓ２）。コンピュータ１００は、未処理の部分領域が存在すればステップＳ３へとすすむ（Ｓ２：ＹＥＳ）。この場合、画像データベース１１０内の各画像間で同じ位置に位置する部分領域のそれぞれを、処理対象の部分領域として選択する。なお、ここで選択される部分領域は、未処理の部分領域のうち、いずれかの部分領域となる。コンピュータ１００は、未処理の部分領域が存在しなければステップＳ１０へとすすむ（Ｓ２：ＮＯ）。

コンピュータ１００は、画像データベース１１０内に部分領域についての特徴ベクトルが未計算である画像が存在するか否かを判定する（Ｓ３）。なお、ここで対象となる部分領域は、Ｓ２で選択された部分領域となる。コンピュータ１００は、部分領域についての特徴ベクトルが未計算である画像が存在すればステップＳ４へとすすむ（Ｓ３：ＹＥＳ）。コンピュータ１００は、部分領域についての特徴ベクトルが未計算である画像が存在しなければステップＳ７へとすすむ（Ｓ３：ＮＯ）。

部分領域集合生成機能１０２は、画像の部分領域について、その部分領域を含む部分領域集合を生成する（Ｓ４）。なお、ここで対象となる画像は、部分領域についての特徴ベクトルが未計算であると判定された画像のうち、いずれかの画像である。また、部分領域集合の生成に用いられる部分領域は、Ｓ２で選択された部分領域となる。さらに、コンピュータ１００は、部分領域集合に特徴ベクトルが未生成の領域が存在するか否かを判定する（Ｓ５）。コンピュータ１００は、特徴ベクトルが未生成の領域が存在すればステップＳ６へとすすむ（Ｓ５：ＹＥＳ）。コンピュータ１００は、特徴ベクトルが未生成の領域が存在しなければステップＳ３へとすすむ（Ｓ５：ＮＯ）。特徴ベクトル生成機能１０３は、部分領域集合の領域について特徴ベクトルを生成する（Ｓ６）。なお、ここで対象となる領域は、Ｓ４で生成された部分領域集合において、特徴ベクトルが未計算の領域のうち、いずれかの領域である。これらの処理によって、ステップＳ４で生成された部分領域集合に含まれる領域の全てについての特徴ベクトルの生成が完了するまで、ステップＳ５、Ｓ６における処理が繰り返されることになる。また、画像データベース１１０内の全ての画像についてのＳ２で選択された部分領域に関する特徴ベクトルの生成が完了するまで、ステップＳ３〜Ｓ６における処理が繰り返されることになる。

識別器パラメータ・部分領域位置学習機能１０４は、部分領域集合に属する領域のそれぞれから生成された特徴ベクトルを用いて、Multiple Instance Learningの枠組みに基づき、部分領域識別器のパラメータを計算する（Ｓ７）。なお、ここで対象となる特徴ベクトルは、Ｓ２で選択された部分領域に関して、Ｓ６で生成された特徴ベクトルとなる。さらに、コンピュータ１００は、画像データベース１１０内に部分領域クラスに対応する投票パターンへの相対位置の投票が行なわれていない画像が存在するか否かを判定する（Ｓ８）。コンピュータ１００は、相対位置の投票が行われていない画像が存在すればステップＳ９へとすすむ（Ｓ８：ＹＥＳ）。コンピュータ１００は、相対位置の投票が行われていない画像が存在しなければステップＳ２へとすすむ（Ｓ８：ＮＯ）。部分領域投票パターン生成機能１０５は、部分領域集合内で最大の識別値を持つ領域から認識対象物の認識基準点への相対位置を投票空間に投票する（Ｓ９）。なお、ここで対象となる部分領域集合は、相対位置の投票が行われていないと判定された画像のうち、いずれかの画像における部分領域集合である。また、この部分領域集合は、Ｓ２で選択された部分領域について、Ｓ４で生成された部分領域集合となる。これらの処理によって、画像データベース１１０内の全ての画像についてのＳ２で選択された部分領域に関する相対位置の投票が完了するまで、ステップＳ８、Ｓ９における処理が繰り返されることになる。

部分領域重み計算機能１０６は、認識対象物とそれ以外のものとの識別が最良となるように各部分領域クラスに対する投票重みを計算する（Ｓ１０）。さらに、認識パラメータ出力機能１０７は、学習されたパラメータを出力する（Ｓ１１）。

なお、本学習動作の内、ステップＳ１からステップＳ１１までを行う主体はコンピュータ１００であり、例えばプログラムに基づき動作する。

次に、図７を参照して、認識動作について詳細に説明する。
まず、コンピュータ１２０は、撮像された原画像が画像入力装置１３０により入力される（Ｓ１２）。次に、コンピュータ１２０は、原画像内の部分領域の内、未処理の部分領域が存在するか否かを判定する（Ｓ１３）。コンピュータ１２０は、未処理の部分領域が存在すればステップＳ１４へとすすむ（Ｓ１３：ＹＥＳ）。コンピュータ１２０は、未処理の部分領域が存在しなければステップＳ１７へとすすむ（Ｓ１３：ＮＯ）。

部分領域画像識別機能１２１は、部分領域を部分領域クラスへと識別する（Ｓ１３）。なお、ここで対象となる部分領域は、未処理であると判定された部分領域のうち、いずれかの部分領域である。そして、コンピュータ１２０は、部分領域に対応する識別対象物の部分領域クラスが存在するか否かを判定する（Ｓ１４）。言い換えると、コンピュータ１２０は、部分領域が識別対象物の部分領域クラスへと識別されたか否かを判定する。コンピュータ１２０は、部分領域に対応する部分領域クラスが存在すればステップＳ１６へとすすむ（Ｓ１５：ＹＥＳ）。コンピュータ１２０は、部分領域に対応する部分領域クラスが存在しなければステップＳ１３へとすすむ（Ｓ１５：ＮＯ）。部分領域投票機能１２２は、部分領域クラスに対応する投票パターンと部分領域重みに基づき、投票空間への投票パターンの投票を行なう（Ｓ１６）。すなわち、部分領域投票機能１２２は、部分領域クラスに対応する投票パターンに、その部分領域クラスに対応する部分領域重みを乗じてから、その投票パターンを投票空間に投票する。これらの処理によって、原画像内の全ての部分領域について、部分領域クラスへの識別及び投票パターンの投票が完了するまで、ステップＳ１３〜Ｓ１６における処理が繰り返されることになる。

投票ピーク検出機能１２３は、投票空間における投票値のピークを検出する（Ｓ１７）。対象物認識機能１２４は、投票空間における投票値のピークの位置に基づき認識対象物の位置を特定する（Ｓ１８）。認識結果出力機能１２５は、特定された認識対象物の位置を認識結果として出力する（Ｓ１９）。

なお、本認識動作の内、ステップＳ１２からステップＳ１９までを行う主体はコンピュータ１２０であり、例えばプログラムに基づき動作する。

次に、本実施の形態の効果について説明する。
本実施の形態では、直接部分領域を識別しているため、特徴点の検出を行なう必要がなく、特徴点の検出が困難な曲線を含む対象物にも適用可能である。さらに、本実施の形態では、ある部分領域について部分領域識別器の学習を行うに際して、その部分領域と、その部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む部分領域集合を生成するようにしている。そして、部分領域集合に含まれる複数の領域のうち、識別対象物であると判定するのに適している画像を含む領域に基づいて、部分領域識別器を学習するようにしている。すなわち、学習用画像において、部分領域のみでなく、その周辺の領域も学習対象としている。そのため、部分領域識別器をより適切な領域によって学習することができ、部分領域識別器の性能を向上することができる。そのため、より頑健な認識を行うことができるようになる。

また、本実施の形態では、認識対象物間における、識別対象物が含まれる部分領域の位置の個体差を考慮した投票により認識対象物を認識するようにしている。具体的には、本実施の形態では、部分領域識別器によって識別対象物らしいと判定される領域の位置に基づいて、認識対象物の相対位置の分布を示す投票パターンを生成するようにしている。これによれば、認識対象物の相対位置の分布を高い精度で示す投票パターンを生成することができる。そのため、投票パターンの投票結果によって認識対象物間の形の個体差に頑健な認識対象物の認識を行なうことができるようになる。つまり、部分領域識別器のパラメータと、その学習の結果に基づいた認識対象物らしい領域の位置とを同時に学習している。そのため、部分領域識別器による識別結果と投票空間への投票とを最適に組み合わせることができる。

次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。
本実施例は、図８に示すように輝度画像６００を原画像とするものであり、原画像から例えば人物６０１の認識を行うものである。

本実施例は、図９に示すように、プログラム制御により動作するコンピュータ７００、７２０と画像データベース７１０、画像入力装置７３０とから構成されている。コンピュータ７００、７２０のそれぞれは、プロセッサ（中央処理装置又はデータ処理装置とも言う）（図示せず）を含む。

コンピュータ７００は、画像分割機能７０１と、部分領域集合生成機能７０２と、特徴ベクトル生成機能７０３と、識別器パラメータ・部分領域位置学習機能７０４と、部分領域投票パターン生成機能７０５と、部分領域重み計算機能７０６と、認識パラメータ出力機能７０７とを含む。

コンピュータ７２０は、部分領域画像識別機能７２１と、部分領域投票機能７２２と、投票ピーク検出機能７２３と、対象物認識機能７２４と、認識結果出力機能７２５とを含む。ここで、コンピュータ７００及びそれに含まれる機能７０１〜７０７のそれぞれは、コンピュータ１００及びそれに含まれる機能１０１〜１０７のそれぞれに対応し、コンピュータ７２０及びそれに含まれる機能７２１〜７２５のそれぞれは、コンピュータ１２０及びそれに含まれる機能１２１〜１２５のそれぞれに対応する。そのため、上述した実施の形態で説明済みの内容と同様の内容については、その一部が適宜省略される。

これらの手段はそれぞれ概略つぎのように動作する。
画像データベース７１０は、識別器パラメータ・部分領域位置学習機能７０４の学習に必要な、認識対象物の画像と認識対象物を含まない画像とを学習用画像として格納する。画像分割機能７０１は、画像データベース７１０内の各画像中の認識対象物を、例えば図１０に示すように横５×縦１０のそれぞれが矩形状の複数の部分領域８０１に分割する。なお、分割数は、ここで例示した値に限られない。また、このように、学習用画像のうち、認識対象物を含む所定の範囲を学習対象としてもよく、認識対象物のみを含む範囲又は学習用画像全体を学習対象としてもよい。好ましくは、認識対象物を含む所定の範囲又は認識対象物のみを含む範囲を学習対象とすることで、識別対象物を含まない領域によって学習が行われる確率を低減することができるため、より部分領域識別器の性能を向上する学習を行うことができる。また、学習用画像として、認識対象物のみを含む画像を用意してもよい。

部分領域集合生成機能７０２は、例えば、部分領域毎に、学習用画像８００の横幅の０から１０％にあたる長さまでの範囲で、部分領域を上下左右に１ピクセルずつずらした領域のそれぞれを周辺領域として生成することで、部分領域とそれら複数の周辺領域とを含む部分領域集合を生成する。特徴ベクトル生成機能７０３は、部分領域集合に含まれる複数の領域のそれぞれについて、学習用画像８００のピクセル値を要素としたベクトルを特徴ベクトルとして生成する。なお、部分領域を上下左右にずらす範囲、及び部分領域をずらすピクセル数は、ここで例示した値に限られない。

識別器パラメータ・部分領域位置学習機能７０４は、例えば非特許文献１に述べられているMultiple Instance Learning Boosting等のMultiple Instance Learningの枠組みに基づき、部分領域集合から最も部分領域クラスとして適している領域を選択しながら部分領域識別器のパラメータを学習する。これにより、その部分領域クラスに対応する部分領域識別器のパラメータが学習される。非特許文献１に述べられているMultiple Instance Learning Boostingを用いた場合、部分領域識別器は非特許文献２に述べられているカスケード型識別器を用いるようにしてもよい。カスケード型識別器は、いわゆるViola-Jonesの識別器である。

また、識別対象物に対する認識対象物の相対位置の学習においては、部分領域識別器のパラメータの学習終了後、各部分領域集合において、部分領域識別器が最も識別対象物らしいと判定する領域を選択するようにしている。これにより、各学習用画像間での識別対象物の位置ずれによらず、識別対象物らしい領域の正確な位置が学習される。部分領域投票パターン生成機能７０５は、計算された識別対象物に対する認識対象物の相対位置に基づき、その識別対象物の部分領域クラスについての投票パターンを生成する。ここで、投票パターン生成における投票パターン中の相対位置に投票される投票値は定数とする。部分領域重み計算機能７０６は、例えば非特許文献４の３節に述べられている枠組みにより、認識対象物とそれ以外のものとの識別が最良となるように各部分領域クラスについての部分領域重みを計算する。認識パラメータ出力機能７０７は、学習された各パラメータを出力する。

画像入力装置７３０は、原画像をコンピュータ７２０に入力する。部分領域画像識別機能７２１は、各部分領域識別器により原画像の各部分領域を各部分領域クラスへと識別する。ここで、原画像の部分領域として、次に述べる大きさ及び位置をとる矩形状の部分領域の全てを対象とする。すなわち、部分領域の大きさについては、横幅を原画像横幅の１／１０から１／４までの範囲で１ピクセル単位で異なる長さのうちのいずれかとし、縦幅を横幅の４倍の長さとし、部分領域の位置については、部分領域が原画像内に収まる位置のいずれかとした場合にとり得る部分領域の全て又はいずれか複数とする。

このように、本実施例では、それぞれが異なる大きさで原画像を分割することによって生成された部分領域群のそれぞれについて、学習を行うようにしている。これによれば、原画像における認識対象物の大きさが予測できない場合であっても、いずれかの部分領域群の適切な大きさの部分領域によって識別対象物を識別することが可能となる。なお、部分領域の横幅及び縦幅、並びに、部分領域の縦幅と部分領域の横幅との比は、ここで例示した値に限られない。

部分領域投票機能７２２は、原画像の各部分領域について、それぞれ部分領域の部分領域クラスに対応する投票パターンに部分領域重みを乗じた値を投票値として投票空間への投票を行なう。ここで、投票空間として原画像と同じ座標系を持つ空間を用いる。投票ピーク検出機能７２３は、投票空間における投票値のピークを検出する。投票ピーク検出機能７２３は、所定の閾値以上であり、且つ、近傍の３×３の部分領域のおける極大値である投票値をもつ投票空間内の点を、ピークとして検出する。ここで、投票空間内のある点に対する近傍の３×３の部分領域とは、例えば、その点が含まれる部分領域と、その部分領域と同一の大きさで、その部分領域の上下左右及び斜めに隣接する部分領域とを含む範囲のことである。また、所定の閾値とは、部分領域重みの最大値に適当な乗数（例えば１０）を乗じた値とする。なお、乗数、及び極大値を判定する領域の範囲は、ここで例示した値に限られない。対象物認識機能７２４は、投票空間における投票のピークの位置を認識対象物の位置とすることにより対象物の認識を行なう。認識結果出力機能７２５は、認識対象物の認識結果を出力する。

次に、以上説明した構成要素により構成される本実施例の動作について、図１１及び図１２のフローチャートを参照して詳細に説明する。

なお、本実施例の動作は前記コンピュータ７００により処理される学習動作とコンピュータ７２０により処理される認識動作の２つの動作から成るため、以下では、これら２つの動作に分けて説明する。

まず、図１１を参照して、学習動作について詳細に説明する。
まず、画像分割機能７０１は、画像データベース７１０内の各画像を、例えば図１０に示すように横５×縦１０の複数の部分領域に分割する（Ｓ２１）。次に、コンピュータ７００は、全ての部分領域の内に、未処理の部分領域が存在するか否かを判定する（Ｓ２２）。コンピュータ７００は、未処理の部分領域が存在すればステップＳ２３へすすむ（Ｓ２２：ＹＥＳ）。コンピュータ７００は、未処理の部分領域が存在しなければステップＳ３０へとすすむ（Ｓ２２：ＮＯ）。

コンピュータ７００は、画像データベース７１０内に部分領域についての特徴ベクトルが未計算である画像が存在するか否かを判定する（Ｓ２３）。コンピュータ７００は、特徴ベクトルが未計算である画像が存在すればステップＳ２４へすすむ（Ｓ２３：ＹＥＳ）。コンピュータ１００は、部分領域についての特徴ベクトルが未計算である画像が存在しなければステップＳ２７へとすすむ（Ｓ２３：ＮＯ）。部分領域集合生成機能７０２は、画像の部分領域について、例えば、学習用画像８００の横幅の０から１０％にあたる長さまでの範囲で、部分領域を上下左右に１ピクセルずつずらした領域のそれぞれを周辺領域として生成することで、部分領域集合を生成する（Ｓ２４）。

さらに、コンピュータ７００は、部分領域集合に特徴ベクトルが未生成の領域が存在するか否かを判定する（Ｓ２５）。コンピュータ７００は、特徴ベクトルが未生成の領域が存在すればステップＳ２６へとすすむ（Ｓ２５：ＹＥＳ）。コンピュータ１００は、特徴ベクトルが未生成の領域が存在しなければステップＳ２３へとすすむ（Ｓ２５：ＮＯ）。特徴ベクトル生成機能７０３は、部分領域集合の領域のそれぞれについて、ピクセル値を要素とする特徴ベクトルを生成する（Ｓ２６）。識別器パラメータ・部分領域位置学習機能７０４は、部分領域集合に属する領域のそれぞれから生成された特徴ベクトルを用いて、例えば非特許文献１に述べられているMultiple Instance Learning Boosting等のMultiple Instance Learningの枠組みに基づき、部分領域識別器のパラメータを計算する（Ｓ２７）。部分領域識別器は、例えば非特許文献２に述べられているカスケード型識別器（いわゆるViola-Jonesの識別器）を用いることができる。

さらに、コンピュータ７００は、画像データベース７１０内に部分領域クラスに対応する投票パターンへの相対位置の投票が行われていない画像が存在するか否かを判定する（Ｓ２８）。コンピュータ７００は、相対位置の投票が行なわれていない画像が存在すればステップＳ２９へとすすむ（Ｓ２８：ＹＥＳ）。コンピュータ１００は、相対位置の投票が行われていない画像が存在しなければステップＳ２２へとすすむ（Ｓ２８：ＮＯ）。部分領域投票パターン生成機能７０５は、投票パターンにおいて、部分領域に対応する部分領域集合内で最大の識別値を持つ領域から認識対象物の認識基準点への相対位置における投票値に対して定数を加算する（Ｓ２９）。部分領域重み計算機能７０６は、例えば非特許文献４の３節に述べられている枠組みにより、認識対象物とそれ以外のものとの識別が最良となるように各部分領域クラスに対する投票重みを計算する（Ｓ３０）。さらに、認識パラメータ出力機能７０７は、学習されたパラメータを出力する（Ｓ３１）。

なお、本学習動作の内、ステップＳ２１からステップＳ３１までを行う主体はコンピュータ７００であり、例えばプログラムに基づき動作する。

次に、図１２を参照して、認識動作について詳細に説明する。
まず、コンピュータ７２０は、撮像された原画像が画像入力装置７３０により入力される（Ｓ３２）。次に、コンピュータ７２０は、原画像内の部分領域の内に、未処理の部分領域が存在するか否かを判定する（Ｓ３３）。ここで、原画像内の部分領域は、横幅を原画像横幅の１／１０から１／４までの範囲で１ピクセル単位で異なる長さのいずれかとし、縦長は横幅の４倍の長さとし、位置を原画像内に収まる位置のいずれかとした場合にとり得る矩形状の領域の全て又はいずれか複数とする。コンピュータ７２０は、未処理の部分領域が存在すればステップＳ３４へとすすむ（Ｓ３３：ＹＥＳ）。コンピュータ７２０は、未処理の部分領域が存在しなければステップＳ３７へとすすむ（ステップＳ３３：ＮＯ）。部分領域画像識別機能７２１は、部分領域を、例えば非特許文献２に述べられているカスケード型識別器（いわゆるViola-Jonesの識別器）により部分領域クラスへと識別する（Ｓ３４）。

さらに、コンピュータ７２０は、部分領域に対応する識別対象物の部分領域クラスが存在するか否かを判定する（Ｓ３５）。コンピュータ７２０は、部分領域に対応する識別対象物の部分領域クラスが存在すればステップＳ３６へとすすむ（Ｓ３５：ＹＥＳ）。コンピュータ７２０は、部分領域に対応する識別対象物の部分領域クラスが存在しなければステップＳ３３へとすすむ（Ｓ３５：ＮＯ）。部分領域投票機能７２２は、部分領域クラスに対応する投票パターンと部分領域重みとを乗じた値を投票空間へ投票する（Ｓ３６）。投票ピーク検出機能７２３は、閾値以上であり、且つ、近傍の３×３の部分領域のおける極大値である投票値をもつ投票空間内の点を、投票空間における投票値のピークとして検出する（Ｓ３７）。例えば、部分領域重みの最大値に適当な乗数（例えば１０）を乗じた値を閾値とする。さらに、対象物認識機能７２４は、投票値のピークの位置を認識対象物の位置とすることにより、認識対象物の位置を特定する（Ｓ３８）。さらに、認識結果出力機能７２５は、認識対象物の位置を認識結果として出力する（Ｓ３９）。

なお、本認識動作の内、ステップＳ３２からステップＳ３９までを行う主体はコンピュータ７２０であり、例えばプログラムに基づき動作する。

続いて、図１３を参照して、本発明の実施の形態にかかるコンピュータ１００、１２０のハードウェア構成について説明する。図１３は、本発明の実施の形態にかかるコンピュータ１００、１２０のハードウェア構成を示すブロック図である。

コンピュータ１００及び１２０のそれぞれは、プロセッサ８０、記憶手段８１、通信手段８２、入力手段８３、及び外部記憶手段８４を有する。

プロセッサ８０は、上述した本実施の形態における処理を実行するプログラムを実行することによって、本実施の形態における学習動作又は認識動作を実行する。
記憶手段８１は、上述した本実施の形態における処理を実行するプログラム、部分領域識別器として機能する識別関数を示すデータ、学習動作又は認識動作において生成・計算される各種データが格納される。記憶手段８１は、例えば、メモリ、ハードディスクドライブ又は光ディスクドライブ等である。

通信手段８２は、任意の通信網を介して、他のコンピュータとの間で任意のデータを送受信するインタフェースである。例えば、コンピュータ１００の認識パラメータ出力機能１０７は、通信手段８２によって、識別器のパラメータ等のデータをコンピュータ１２０に出力する。コンピュータ１２０の部分領域画像識別機能１２１及び部分領域投票機能１２２は、通信手段８２によって、コンピュータ１００から出力されたデータを取得する。

入力手段８３は、上述したユーザからの入力内容の入力を受ける。入力手段８３は、入力内容を示すデータをプロセッサ８０に出力する。プロセッサ８０は、入力手段８３から出力されたデータに基づいて、ユーザからの入力内容を認識する。

外部記憶手段８４は、外部記憶媒体が挿抜される。外部記憶媒体は、例えば、ＵＳＢ（Universal Serial Bus）メモリ、外付けハードディスク、及び書き込み可能な光ディスク等である。外部記憶手段８４は、外部記憶媒体に対して、任意のデータの書き込み又は読み出しを行うインタフェースである。例えば、コンピュータ１００の認識パラメータ出力機能１０７は、外部記憶手段８４によって、識別器のパラメータ等のデータを外部記憶媒体に書き込むようにしてもよい。この場合、ユーザは、そのデータが格納された外部記憶媒体をコンピュータ１００から抜去して、その外部記憶媒体をコンピュータ１２０の外部記憶手段８４に挿入することができる。そして、コンピュータ１２０の部分領域画像識別機能１２１及び部分領域投票機能１２２は、外部記憶手段８４によって、挿入された外部記憶媒体からデータを読み出すようにしてもよい。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

本実施の形態では、学習用画像を分割することによって、部分領域を生成する場合について例示したが、これに限られない。例えば、学習用画像及び原画像のそれぞれにおいて、それぞれの部分領域の間隔を所定のピクセル数離すように決定するようにしてもよい。

本実施の形態では、コンピュータ１００が学習動作を行い、コンピュータ１２０が認識動作を行う場合について例示したが、コンピュータの数はこれに限られない。例えば、１つのコンピュータで、学習動作及び認識動作を実行するようにしてもよく、複数のコンピュータで、学習動作又は認識動作を実行するようにしてもよい。

また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、ＣＤ−ＲＯＭ(Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ(例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM）、ＥＰＲＯＭ(Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ(Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

また、コンピュータが上述の実施の形態の機能を実現するプログラムを実行することにより、上述の実施の形態の機能が実現される場合だけでなく、このプログラムが、コンピュータ上で稼動しているＯＳ(Operating System)もしくはアプリケーションソフトウェアと共同して、上述の実施の形態の機能を実現する場合も、本発明の実施の形態に含まれる。さらに、このプログラムの処理の全てもしくは一部がコンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットによって行われて、上述の実施の形態の機能が実現される場合も、本発明の実施の形態に含まれる。

上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）識別対象物を有する認識対象物を含む入力画像のうち、任意の領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度を判定する識別器の判定結果に基づいて、前記入力画像に含まれる認識対象物を認識する画像認識手段と、前記認識対象物を含む学習用画像において、複数の学習部分領域を決定する部分領域決定手段と、前記学習部分領域に基づいて、当該学習部分領域と、当該学習部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む学習部分領域集合を生成する部分領域集合生成手段と、前記学習部分領域について前記識別器の学習を行う場合に、当該学習部分領域から生成された学習部分領域集合に含まれる複数の領域から、前記識別対象物であると判定するのに適している画像を含む領域を選択して、選択した領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度をより高く判定するように、前記識別器を学習する学習手段と、を備えた画像認識システム。

（付記２）前記学習手段は、前記識別器が前記領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物であると判定する尤度が、所定の尤度以上となるように学習された場合、当該領域からの当該識別対象物を有する認識対象物に対して予め設定された基準点の相対位置を算出し、前記画像認識システムは、前記学習手段によって算出された相対位置の分布を示す投票パターンを生成する投票パターン生成手段を更に備え、前記画像認識手段は、前記入力画像において複数の入力部分領域を決定して、当該入力部分領域に関する特徴量に基づいて当該入力部分領域に含まれる画像が前記識別対象物である尤度を前記識別器によって判定する識別手段と、前記入力部分領域に含まれる画像が前記識別対象物である尤度が所定の尤度以上である場合に、当該入力部分領域の位置を基準として、前記投票パターンを所定の投票空間に対して投票する投票手段と、前記投票空間に対する投票結果に基づいて、前記認識対象物を認識する対象物認識手段と、を有する、付記１に記載の画像認識システム。

（付記３）前記所定の尤度以上の尤度とは、前記学習部分集合に含まれる複数の領域のそれぞれについて判定された尤度うち、最も高い尤度である、付記２に記載の画像認識システム。

（付記４）前記識別器は、前記領域に含まれる画像が前記識別対象物であるか否かを判定し、前記学習手段は、前記選択した領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物であると判定するように前記識別器を学習するとともに、当該識別器が前記領域に含まれる画像が前記識別対象物であると判定するように学習された場合、当該領域からの前記基準点の相対位置を算出し、前記識別手段は、前記入力部分領域に含まれる画像が前記識別対象物であるか否かを前記識別器によって判定し、前記投票手段は、前記入力部分領域に含まれる画像が前記識別対象物であると判定された場合に、前記投票を行う、付記２に記載の画像認識システム。

（付記５）前記認識対象物は、前記識別対象物を複数有し、前記投票パターン生成手段は、前記投票パターンを、前記複数の識別対象物のそれぞれに対応し、かつ対応する識別対象物についての相対位置の分布を示すように複数生成し、前記投票手段は、前記入力部分領域に含まれる画像が前記識別対象物である尤度が、前記第２の所定の尤度以上である場合に、当該識別対象物に対応する投票パターンを投票する、付記２乃至４のいずれか１つに記載の画像認識システム。

（付記６）前記画像認識システムは、前記複数の識別対象物のそれぞれについて、当該識別対象物に対応する投票パターンの重みを、所定の算出基準に基づいて算出する重み算出手段を更に備え、前記投票手段は、、当該投票パターンに対応する投票パターンに前記重みをつけて投票する、付記５に記載の画像認識システム。

（付記７）前記画像認識システムは、前記識別器を１つ有し、前記１つの識別器は、前記領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度を、前記複数の識別対象物のそれぞれについて判定する、付記５又は６に記載の画像認識システム。

（付記８）前記複数の入力部分領域は、それぞれが異なる識別対象物の画像を含む第１の入力部分領域と第２の入力部分領域とを含み、前記識別器は、前記第１の入力部分領域と前記第２の入力部分領域との類似度が、所定の類似度以上となる場合、前記第１の入力部分領域及び前記第２の入力部分領域のいずれも、前記第１の入力部分領域及び前記第２の入力部分領域のいずれか一方に含まれる画像の識別対象物であると判定する、付記４に従属する請求項５に記載の画像認識システム。

（付記９）前記識別器は、ニューラルネットワーク、線形識別器、サポートベクタマシン、カスケード型識別器、及びベクトル量子化器のうち少なくともいずれか１つを含む、付記１乃至８のいずれか１項に記載の画像認識システム。

（付記１０）前記投票空間は、前記入力画像の縦方向及び横方向に座標軸をとった座標系と同一の座標系である、付記１乃至９のいずれか１項に記載の画像認識システム。

（付記１１）前記部分領域決定手段は、前記学習用画像を複数の領域に分割して、当該複数の領域を前記複数の学習部分領域として決定し、前記識別手段は、大きさを所定の範囲内で異なる大きさのいずれかとし、位置を前記入力画像において取り得る位置のいずれかとした場合に取る得る領域の全て又はいずれか複数を、前記複数の入力部分領域として決定する、請求項１乃至１０のいずれか１項に記載の画像認識システム。

この出願は、２０１１年３月１７日に出願された日本出願特願２０１１−０５９３５６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

５，１０，７０画像認識システム
５０部分領域決定手段
５１部分領域集合生成手段
５２学習手段
８０プロセッサ
８１記憶手段
８２通信手段
８３入力手段
８４外部記憶手段
１００, １２０, ７００, ７２０コンピュータ
１０１, ７０１画像分割機能
１０２, ７０２部分領域集合生成機能
１０３, ７０３特徴ベクトル生成機能
１０４, ７０４識別器パラメータ・部分領域位置学習機能
１０５, ７０５部分領域投票パターン生成機能
１０６, ７０６部分領域重み計算機能
１０７, ７０７認識パラメータ出力機能
１０８, ７０８特徴値ベクトル計算機能
１１０, ７１０画像データベース
１２１, ７２１部分領域画像識別機能
１２２, ７２２部分領域投票機能
１２３, ７２３投票ピーク検出機能
１２４, ７２４対象物認識機能
１２５, ７２５認識結果出力機能
１３０画像入力装置
２００部分領域集合
２０１部分領域集合２００の内で最も識別対象らしい領域
３００認識対象
３０１認識基準点
３０２, ４０１, ８０１部分領域
３０３相対位置
３０４, ４０２投票パターン
３０５相対位置に対応する投票パターン上の点
３０６相対位置の分布
４００投票空間
４０３投票値
５００原画像
６０１人物
８００学習用画像
１０００学習画像
１００１特徴点検出部
１００２特徴量計算部
１００３投票学習部
１００４識別器学習部

Claims

識別対象物を有する認識対象物を含む入力画像のうち、任意の領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度を判定する識別器の判定結果に基づいて、前記入力画像に含まれる認識対象物を認識する画像認識手段と、
前記認識対象物を含む学習用画像において、複数の学習部分領域を決定する部分領域決定手段と、
前記学習部分領域に基づいて、当該学習部分領域と、当該学習部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む学習部分領域集合を生成する部分領域集合生成手段と、
前記学習部分領域について前記識別器の学習を行う場合に、当該学習部分領域から生成された学習部分領域集合に含まれる複数の領域から、前記識別対象物であると判定するのに適している画像を含む領域を選択して、選択した領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度をより高く判定するように、前記識別器を学習するとともに、
前記識別器が前記領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物であると判定する尤度が、第１の所定の尤度以上となるように学習された場合、当該領域からの当該識別対象物を有する認識対象物に対して予め設定された基準点の相対位置を算出する学習手段と、
前記学習手段によって算出された相対位置の分布を示す投票パターンを生成する投票パターン生成手段と、を備え、
前記画像認識手段は、
前記入力画像において複数の入力部分領域を決定して、当該入力部分領域に関する特徴量に基づいて当該入力部分領域に含まれる画像が前記識別対象物である尤度を前記識別器によって判定する識別手段と、
前記入力部分領域に含まれる画像が前記識別対象物である尤度が第２の所定の尤度以上である場合に、当該入力部分領域の位置を基準として、前記投票パターンを所定の投票空間に対して投票する投票手段と、
前記投票空間に対する投票結果に基づいて、前記認識対象物を認識する対象物認識手段と、を有する、
画像認識システム。
前記第１の所定の尤度以上の尤度とは、前記学習部分領域集合に含まれる複数の領域のそれぞれについて判定された尤度うち、最も高い尤度である、
請求項１に記載の画像認識システム。
前記識別器は、前記領域に含まれる画像が前記識別対象物であるか否かを判定し、
前記学習手段は、前記選択した領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物であると判定するように前記識別器を学習するとともに、当該識別器が前記領域に含まれる画像が前記識別対象物であると判定するように学習された場合、当該領域からの前記基準点の相対位置を算出し、
前記識別手段は、前記入力部分領域に含まれる画像が前記識別対象物であるか否かを前記識別器によって判定し、
前記投票手段は、前記入力部分領域に含まれる画像が前記識別対象物であると判定された場合に、前記投票を行う、
請求項１に記載の画像認識システム。
前記認識対象物は、前記識別対象物を複数有し、
前記投票パターン生成手段は、前記投票パターンを、前記複数の識別対象物のそれぞれに対応し、かつ対応する識別対象物についての相対位置の分布を示すように複数生成し、
前記投票手段は、前記入力部分領域に含まれる画像が前記識別対象物である尤度が、前記第２の所定の尤度以上である場合に、当該識別対象物に対応する投票パターンを投票する、
請求項１乃至３のいずれか１項に記載の画像認識システム。
前記画像認識システムは、前記複数の識別対象物のそれぞれについて、当該識別対象物に対応する投票パターンの重みを、所定の算出基準に基づいて算出する重み算出手段を更に備え、
前記投票手段は、前記投票パターンに、当該投票パターンに対応する重みをつけて投票する、
請求項４に記載の画像認識システム。
前記画像認識システムは、前記識別器を１つ有し、
前記１つの識別器は、前記領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度を、前記複数の識別対象物のそれぞれについて判定する、
請求項４又は５に記載の画像認識システム。
前記複数の入力部分領域は、それぞれが異なる識別対象物の画像を含む第１の入力部分領域と第２の入力部分領域とを含み、
前記識別器は、前記第１の入力部分領域と前記第２の入力部分領域との類似度が、所定の類似度以上となる場合、前記第１の入力部分領域及び前記第２の入力部分領域のいずれも、前記第１の入力部分領域及び前記第２の入力部分領域のいずれか一方に含まれる画像の識別対象物であると判定する、
請求項３に従属する請求項４に記載の画像認識システム。
識別対象物を有する認識対象物を含む学習用画像において、複数の学習部分領域を決定し、
前記学習部分領域に基づいて、当該学習部分領域と、当該学習部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む学習部分領域集合を生成し、
前記学習部分領域について、前記認識対象物を含む入力画像のうち、任意の領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度を判定する識別器の学習を行う場合に、当該学習部分領域から生成された学習部分領域集合に含まれる複数の領域から、前記識別対象物であると判定するのに適している画像を含む領域を選択して、選択した領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度をより高く判定するように、前記識別器を学習し、
前記識別器が前記領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物であると判定する尤度が、第１の所定の尤度以上となるように学習された場合、当該領域からの当該識別対象物を有する認識対象物に対して予め設定された基準点の相対位置を算出し、
前記算出された相対位置の分布を示す投票パターンを生成し、
前記入力画像において複数の入力部分領域を決定して、当該入力部分領域に関する特徴量に基づいて当該入力部分領域に含まれる画像が前記識別対象物である尤度を前記識別器によって判定し、
前記入力部分領域に含まれる画像が前記識別対象物である尤度が第２の所定の尤度以上である場合に、当該入力部分領域の位置を基準として、前記投票パターンを所定の投票空間に対して投票し、
前記投票空間に対する投票結果に基づいて、前記入力画像に含まれる認識対象物を認識する、
画像認識方法。
識別対象物を有する認識対象物を含む学習用画像において、複数の学習部分領域を決定する処理と、
前記学習部分領域に基づいて、当該学習部分領域と、当該学習部分領域を基準として所定の範囲内に含まれる複数の周辺領域とを含む学習部分領域集合を生成する処理と、
前記学習部分領域について、前記認識対象物を含む入力画像のうち、任意の領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度を判定する識別器の学習を行う場合に、当該学習部分領域から生成された学習部分領域集合に含まれる複数の領域から、前記識別対象物であると判定するのに適している画像を含む領域を選択して、選択した領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物である尤度をより高く判定するように、前記識別器を学習する処理と、
前記識別器が前記領域に関する特徴量に基づいて当該領域に含まれる画像が前記識別対象物であると判定する尤度が、第１の所定の尤度以上となるように学習された場合、当該領域からの当該識別対象物を有する認識対象物に対して予め設定された基準点の相対位置を算出する処理と、
前記算出された相対位置の分布を示す投票パターンを生成する処理と、
前記入力画像において複数の入力部分領域を決定して、当該入力部分領域に関する特徴量に基づいて当該入力部分領域に含まれる画像が前記識別対象物である尤度を前記識別器によって判定する処理と、
前記入力部分領域に含まれる画像が前記識別対象物である尤度が第２の所定の尤度以上である場合に、当該入力部分領域の位置を基準として、前記投票パターンを所定の投票空間に対して投票する処理と、
前記投票空間に対する投票結果に基づいて、前記入力画像に含まれる認識対象物を認識する処理と、
をコンピュータに実行させる画像認識プログラム。