JP2006268825A

JP2006268825A - オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム

Info

Publication number: JP2006268825A
Application number: JP2005361921A
Authority: JP
Inventors: Takeshi Mita; 雄志三田; Toshimitsu Kaneko; 敏充金子; Osamu Hori; 修堀; Takashi Ida; 孝井田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-02-28
Filing date: 2005-12-15
Publication date: 2006-10-05
Also published as: US20060204103A1

Abstract

【課題】高精度にオブジェクトを検出する。
【解決手段】予めサンプル画像に関して学習された、複数の画素領域を有する特徴領域とサンプル画像中の特徴領域の特徴量である学習特徴量を量子化して得られる量子化学習特徴量との組を予め複数個選択して得られる組み合わせ、及び、サンプル画像がオブジェクトであるか非オブジェクトであるかを示す情報、を有する学習情報を記憶する手段と、組み合わせに関して、入力画像中で組み合わせに属する各特徴領域に対応する領域の特徴量である入力特徴量を、特徴領域の画素領域の各々に異なる重みを付けた重み付け和若しくは重み付け和の絶対値を求めることにより算出する手段２０１と、算出した入力特徴量を量子化して量子化入力特徴量を出力する手段２０２と、組み合わせに関して得られた量子化入力特徴量、及び、学習情報を用いて入力画像にオブジェクトが含まれているか否かを判定する手段２０３による。
【選択図】図２

Description

本発明は、画像からオブジェクトを検出するためのオブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラムに関する。

画像から特定のオブジェクトを検出するための特徴量として、２つの画素領域の明度差分値を用いる手法がある（例えば、非特許文献１参照）。この特徴量は、画素領域を矩形とした場合には少ない計算量で計算可能なため、広く利用されている。この手法では、画像中の注目領域が検出対象であるか否かを判定する識別器を用いる。識別器は矩形領域の組から算出した明度差分値としきい値を比較することによって検出対象であるか否かを判定する。明度差分値に対するしきい値処理だけでは識別精度は低いが、このような識別器を多数組み合わせることによって全体として高い識別精度を得ている。
Paul Viola and Michael Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", IEEE conf. on Computer Vision and Pattern Recognition (CVPR), 2001

従来用いられている個別の識別器は、矩形領域の組から算出した単一の明度差分値のみに基づいて識別を行う。このような単一の特徴量では、オブジェクトに含まれる特徴同士の相関（例えば、オブジェクトが左右対称であるなど）を有効に評価することができないため識別精度が低い。このような精度の低い識別器を多数組み合わせても、識別精度の向上には限界がある。

本発明は、かかる事情を考慮してなされたものであり、従来の手法に比べて高精度にオブジェクトを検出することができるオブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラムを提供することを目的とする。

本発明のオブジェクト検出装置は、入力画像に含まれているオブジェクトを検出するオブジェクト検出装置において、
予めサンプル画像に関して学習された、
複数の画素領域を有する特徴領域と前記サンプル画像中の当該特徴領域の特徴量である学習特徴量を量子化して得られる量子化学習特徴量との組を予め複数個選択して得られる組み合わせ、および、
前記サンプル画像がオブジェクトであるか非オブジェクトであるかを示す情報、
を有する学習情報を記憶する記憶手段と、
前記組み合わせに関して、前記入力画像中で当該組み合わせに属する各特徴領域に対応する領域の特徴量である入力特徴量を、当該特徴領域の前記画素領域の各々に異なる重みを付けた重み付け和若しくは該重み付け和の絶対値を求めることにより算出する特徴量算出手段と、
前記特徴量算出手段が算出した前記入力特徴量を量子化して量子化入力特徴量を出力する量子化手段と、
前記組み合わせに関して得られた前記量子化入力特徴量、および、前記記憶手段が記憶する前記学習情報を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する判定手段と、を具備することを特徴とする。

本発明の学習装置は、検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記組み合わせと、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、前記判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する選択手段と、前記選択された組み合わせと、該組み合わせに対応する前記テーブルと、を記憶する記憶手段と、を具備することを特徴とする。

また、本発明の学習装置は、検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、前記格納されているサンプル画像に初期重みを付与する初期付与手段と、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と非オブジェクトである同時確率に前記初期重みをかけた値との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する選択手段と、前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果が誤りとなるサンプル画像に対して、重みが大きくなるように各サンプル画像の重みを更新して付与する更新付与手段と、を具備し、前記テーブル生成手段は、前記組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、前記判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、前記選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶することを特徴とする。

本発明のオブジェクト検出システムは、入力画像中で所定のオブジェクトを検出するための情報を作成する学習装置と、前記情報を参照して、ある入力画像に含まれているオブジェクトを検出するオブジェクト検出装置と、を具備するオブジェクト検出システムにおいて、
前記学習装置は、検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する第１の算出手段と、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する第１の量子化手段と、複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記特徴領域の組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない特徴領域の組み合わせを選択する選択手段と、前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、を具備し、
前記オブジェクト検出装置は、前記組み合わせに関して、前記入力画像中で当該組み合わせに属する各特徴領域に対応する領域の特徴量である入力特徴量を、当該特徴領域の前記画素領域の各々に異なる重みを付けた重み付け和若しくは該重み付け和の絶対値を求めることにより算出する特徴量算出手段と、前記特徴量算出手段が算出した前記入力特徴量を量子化して量子化入力特徴量を出力する量子化手段と、前記組み合わせに関して得られた前記量子化入力特徴量、および、前記記憶手段が記憶する前記学習情報を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する判定手段と、を具備することを特徴とする。

また、本発明のオブジェクト検出システムは、入力画像中で所定のオブジェクトを検出するための情報を作成する学習装置と、前記情報を参照して、ある入力画像に含まれているオブジェクトを検出するオブジェクト検出装置と、を具備するオブジェクト検出システムにおいて、
前記学習装置は、検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、前記格納されているサンプル画像に均等に初期重みを付与する初期付与手段と、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する第１の算出手段と、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する第１の量子化手段と、複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記特徴領域の組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する第１の判定手段と、前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない特徴領域の組み合わせを選択する選択手段と、前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果に最も誤りが少ないサンプル画像から最も誤りが多いサンプル画像にかけて、重みが大きくなるように各サンプル画像に重みを更新して付与する更新付与手段と、を具備し、前記テーブル生成手段は、前記特徴領域の組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、前記第１の判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、前記選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応するテーブルと、を新たに追加して記憶し、
前記オブジェクト検出装置は、前記記憶手段に記憶された前記複数の組み合わせの各々に関して入力特徴量を異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を前記入力画像に対して算出する第２の算出手段と、前記算出手段で算出された特徴量を、該特徴量に対応して前記第１の量子化手段で決定された段階で量子化する第２の量子化手段と、前記量子化された複数の特徴量の組み合わせと、前記テーブルと、を参照して、入力画像に前記オブジェクトが含まれているか否かを判定する第２の判定手段と、前記複数の組み合わせに関して得られた前記第２の判定手段による複数の判定結果に重みを付した重み付け和を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する統合判定手段を具備することを特徴とする。

本発明のオブジェクト検出方法は、入力画像に含まれているオブジェクトを検出するオブジェクト検出方法において、
予めサンプル画像に関して学習された、
複数の画素領域を有する特徴領域と前記サンプル画像中の当該特徴領域の特徴量である学習特徴量を量子化して得られる量子化学習特徴量との組を予め複数個選択して得られる組み合わせ、および、
前記サンプル画像がオブジェクトであるか非オブジェクトであるかを示す情報、
を有する学習情報を記憶し、前記組み合わせに関して、前記入力画像中で当該組み合わせに属する各特徴領域に対応する領域の特徴量である入力特徴量を、当該特徴領域の前記画素領域の各々に異なる重みを付けた重み付け和若しくは該重み付け和の絶対値を求めることにより算出し、前記算出した前記入力特徴量を量子化して量子化入力特徴量を出力し、前記組み合わせに関して得られた前記量子化入力特徴量、および、前記学習情報を用いて、入力画像に前記オブジェクトが含まれているか否かを判定することを特徴とする。

本発明の学習方法は、検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納し、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成し、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出し、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化し、複数の前記特徴領域の組み合わせを少なくとも１つ生成し、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記組み合わせと、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定し、前記判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、前記選択された組み合わせと、該組み合わせに対応する前記テーブルと、を記憶することを特徴とする。

また、本発明の学習方法は、検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納し、前記格納されているサンプル画像に均等に初期重みを付与し、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成し、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出し、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化し、複数の前記特徴領域の組み合わせを少なくとも１つ生成し、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と、非オブジェクトである同時確率に前記初期重みをかけた値と、の比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定し、前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶し、前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果に最も誤りが少ないサンプル画像から最も誤りが多いサンプル画像にかけて、重みが大きくなるように各サンプル画像に重みを更新して付与し、前記組み合わせと、前記同時確率に前記更新によって得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、前記同時確率に前記更新によって得られた重みをかけた値に基づいてサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定し、前記更新によって得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、前記選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶することを特徴とする。

本発明のオブジェクト検出プログラムは、コンピュータによって入力画像に含まれているオブジェクトを検出するオブジェクト検出装置において、
コンピュータを、
予めサンプル画像に関して学習された、
複数の画素領域を有する特徴領域と前記サンプル画像中の当該特徴領域の特徴量である学習特徴量を量子化して得られる量子化学習特徴量との組を予め複数個選択して得られる組み合わせ、および、
前記サンプル画像がオブジェクトであるか非オブジェクトであるかを示す情報、
を有する学習情報を記憶する記憶手段と、前記組み合わせに関して、前記入力画像中で当該組み合わせに属する各特徴領域に対応する領域の特徴量である入力特徴量を、当該特徴領域の前記画素領域の各々に異なる重みを付けた重み付け和若しくは該重み付け和の絶対値を求めることにより算出する特徴量算出手段と、前記特徴量算出手段が算出した前記入力特徴量を量子化して量子化入力特徴量を出力する量子化手段と、前記組み合わせに関して得られた前記量子化入力特徴量、および、前記記憶手段が記憶する前記学習情報を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する判定手段と、として機能させるためのものである。

本発明の学習プログラムは、コンピュータを、
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記組み合わせと、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、前記判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する選択手段と、前記選択された組み合わせと、該組み合わせに対応する前記テーブルと、を記憶する記憶手段として機能させるためのものである。

また、本発明の学習プログラムは、コンピュータを、
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、前記格納されているサンプル画像に均等に初期重みを付与する初期付与手段と、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と非オブジェクトである同時確率に前記初期重みをかけた値との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する選択手段と、前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果に最も誤りが少ないサンプル画像から最も誤りが多いサンプル画像にかけて、重みが大きくなるように各サンプル画像に重みを更新して付与する更新付与手段として機能させ、前記テーブル生成手段は、前記組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、前記判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、前記選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶することを特徴とする。

また、本発明の学習装置は、検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、前記格納されているサンプル画像に初期重みを付与する初期付与手段と、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、異なる複数の前記特徴領域の組み合わせ方に対応する複数の学習経路を生成する学習経路手段と、複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と非オブジェクトである同時確率に前記初期重みをかけた値との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する第１の選択手段と、前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果が誤りとなるサンプル画像に対して、重みが大きくなるように各サンプル画像の重みを更新して付与する更新付与手段と、を具備し、前記テーブル生成手段は、前記組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、前記判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、前記第１の選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶し、さらに、前記学習経路に含まれている、特徴領域の組み合わせごとに、該組み合わせの損失を算出する手段と、複数の前記算出された損失のうち、最小となる、特徴領域の組み合わせを選択する第２の選択手段と、を具備することを特徴とする。

さらに、本発明の学習装置は、検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、前記格納されているサンプル画像に初期重みを付与する初期付与手段と、複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と非オブジェクトである同時確率に前記初期重みをかけた値との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせの第１の損失を算出する手段と、前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果が誤りとなるサンプル画像に対して、重みが大きくなるように各サンプル画像の重みを更新して付与する更新付与手段と、前記組み合わせより１個だけ特徴領域の数が少ない組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせに基づいて、前記更新付与手段により更新し、さらに１個の特徴領域を追加した場合に、特徴領域の組み合わせの第２の損失を算出する手段と、前記第１の損失および前記第２の損失を比較し、損失の小さい特徴領域の組み合わせを選択する手段と、前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、を具備し、前記テーブル生成手段は、前記組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、前記判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、前記選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶することを特徴とする。

本発明のオブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラムによれば、従来の手法に比べて高い精度でオブジェクトを検出することができる。換言すれば、本発明によれば従来の手法より少ない計算量で同等の検出精度を得ることができる。

以下、図面を参照しながら本発明の実施形態にかかるオブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラムについて詳細に説明する。
（オブジェクト検出装置）
本実施形態のオブジェクト検出装置について図１を参照して説明する。
本実施形態のオブジェクト検出装置は、走査部１０１、前処理部１０２、識別器１０３、後処理部１０４を備えている。

走査部１０１は、画像を入力し、画像を所定の大きさのウィンドウ（走査ウィンドウと称する）で走査する。走査部１０１は、走査ウィンドウを入力画像の原点位置から所定のステップ幅で移動させる。

前処理部１０２は、走査部１０１の走査ウィンドウごとに画像の平滑化や明度補正などを行い、画像からノイズや照明変動の影響などを取り除く。前処理は各走査ウィンドウ内の部分画像に対して行う場合と、画像全体について行う場合の２つが考えられる。後者の場合には、走査部１０１と前処理部１０２を入れ替え、走査する前に前処理を行ってもよい。
前処理部１０２は、例えば、前処理として画像の明度値の対数をとる。このように、明度値そのものではなく対数の差分値を特徴量とすると、学習に用いたサンプルとは異なるダイナミックレンジで撮影された、例えば、薄暗いシーンでの画像に対しても、特徴量を確実に求めることができる。前処理部１０２は、他に、走査ウィンドウ内でヒストグラム平坦化を行ったり、明度の平均と分散を一定に揃える処理を行ってもよい。これらも、撮影環境や撮像系の違いを吸収する前処理として有効である。なお、入力画像が別の手段によって切り出された状態であり、そのまま識別器１０３に入力可能であれば、走査部１０１と前処理部１０２は不要となる。

識別器１０３は、走査ウィンドウ内の部分画像に対して、それがオブジェクトか非オブジェクトかを識別する処理を行う。識別器１０３は、オブジェクトを検出すれば、このオブジェクトの位置を記憶しておく。識別器の詳細については後に図２および図６を参照して説明する。
この後、オブジェクト検出装置は、画像の終端まで走査と識別を繰り返す。走査ウィンドウの走査のステップ幅の設定にも依存するが、一般的には同一のオブジェクトに対して複数個の検出位置が得られる。

後処理部１０４は、同一のオブジェクトに対して複数個の検出位置が得られている場合には、これらの検出位置を併合し、１つのオブジェクトには１つの検出位置が得られるようにまとめ、その位置を出力する。同一のオブジェクトに対して複数個の検出位置が得られている場合にはそれらのオブジェクトの位置は互いに近接しているため１つの検出位置に統合する。後処理部１０４での後処理については、例えば、H.A. Rowley, S. Baluja and T. Kanade, “Neural network-based face detection”, IEEE Trans. on PAMI, Vol.20, No.1、 pp.23-38 (1998)に記載されている手法を用いる。

（識別器１０３）
次に、識別器１０３について図２を参照して説明する。
識別器１０３は、複数の特徴量算出部２０１、複数の量子化部２０２、識別部２０３を備えている。なお、本実施形態のオブジェクト検出装置が検出時に使用する画素領域の組やしきい値などのパラメータは、後に図９および図１３を参照して説明する学習装置によって予め求められているものとする。

各特徴量算出部２０１は、前処理部１０２から出力された画像内の、対応する画素領域の組に対して、画素値の重み付き和を計算する。
各量子化部２０２は、接続している特徴量算出部２０１から入力する重み付き和の値を複数の段階に量子化する。
識別部２０３は、それぞれの量子化部２０２の出力値を全て入力しこれらの出力値を組み合わせて、入力画像が検出対象であるか否かを識別し、識別結果を出力値として出力する。識別部２０３は、出力値として、例えば検出対象である場合には＋１、検出対象でない場合には−１のように２種類の離散値を出力する。また、識別部２０３は、高い信頼性をもって検出対象であると判定できる場合ほど＋１に近い値（０．８や０．９など）を、逆に高い信頼性をもって検出対象でないと判定できる場合は−１に近い値とするなど、識別の信頼度を表現する連続値を出力してもよい。
＜特徴量算出部２０１＞
特徴量算出部２０１について図３を参照して説明する。図３は、特徴量算出部２０１が重み付き和を計算するための画素領域の組の一例を示した図である。例えば、画素領域の組３０１は３つの画素領域を有し、画素領域の組３０２は２つの画素領域を有する。各画素領域の位置や形状、画素領域の総数などは後述する学習装置によって予め定められているものとする。後述するように、学習装置は、複数の画素領域を有する特徴領域の組み合わせのうちから最もオブジェクトを検出しやすい組み合わせを得る。
各特徴量算出部２０１は、各画素領域内で画素値の総和を求め、さらに予め定められた画素領域の重みをかけあわせて加算することにより、重み付き和を算出する。重み付き和Ｄは次式によって計算できる。

ここで、ｎは画素領域の数、ｗ_ｉは各画素領域の重み、Ｉ_ｉは各画素領域内の画素値の総和である。例えば、図３に示すように画素領域を白と黒の２つの組に分けたとすると、重み付き和Ｄは次式によって計算できる。

ここで、ｗ_Ｗおよびｗ_Ｂはそれぞれ白および黒の組の画素領域に対して与えられる重みであり、Ｉ_ＷおよびＩ_Ｂはそれぞれ白および黒の組の画素領域に属する画素値の総和である。特に、白および黒の組の画素領域の面積（画素数）をそれぞれＡ_ＷおよびＡ_Ｂとし、重みを次式のように定義する。

このとき重み付き和Ｄは、画素領域の平均明度の差分値となる。重み付き和Ｄは、画像内における画素領域の配置や大きさ、形状によって様々な値をとり、その画像の特徴を表現する特徴量となる。今後は、この重み付き和Ｄを「特徴量」と呼び、画素領域の組を単に「特徴」と呼ぶ（または特徴領域と呼ぶ）。さらに以下では、画素領域の平均明度の差分値を「特徴量」として用いられる例を説明する。なお、画素領域の平均明度の差分値の代わりに、画素領域の平均明度の絶対値あるいは画素領域の平均明度の対数の差分値を「特徴量」として用いてもよい。なお、画素領域としては最小で１つの画素を用いることができるが、ノイズの影響を受けやすくなるので、より多くの画素から平均明度を求めることが望ましい。

次に、より実際的な画素領域の例の場合における特徴量算出部２０１について図４を参照して説明する。
図４は、形状をすべて矩形とした特徴（すなわち、画素領域の組）を例示したものである。例えば、特徴４０１は互いに隣接する矩形の画素領域４０１Ａと矩形の画素領域４０１Ｂとを有する。特徴４０１および特徴４０２は、最も基本的な矩形領域の組を表している。特徴４０１および特徴４０２から得られる特徴量は、注目位置における明度勾配すなわちエッジの向きと強さを表現している。矩形の面積が大きいほど、空間周波数が低いエッジ特徴を抽出できる。また、差分値の絶対値を用いると、明度勾配の向きは表現できないが、エッジの有無を求めることができる。これは、背景の明度が不定なオブジェクト輪郭部分において、有効な特徴となる。特徴４０３および特徴４０４は、３つの矩形の組み合わせ（画素領域４０３Ａ、４０３Ｂ、４０３Ｃの組み合わせと、画素領域４０４Ａ４０４Ｂ、４０４Ｃの組み合わせ）によって得られる。特徴４０５は、画素領域４０５Ａと画素領域４０５Ｂとを有する。画素領域４０５Ａと画素領域４０５Ｂとは斜めに配置されているので、特徴４０５は画像に対して斜め方向の明度勾配を求めることができる。特徴４０６は、４つの矩形の組み合わせによって得られる。特徴４０７は、画素領域４０７Ａとこれを取り囲む画素領域４０７Ｂとを有するので、孤立点を検出することができる。

このように形状を矩形に限定すると、上記のPaul Viola and Michael Jonesの文献に開示されているIntegral Imageを利用することで、任意形状の画素領域に比べて画素値の総和を求める計算量を削減することができる。また、特徴として、隣接した画素領域の組を用いると、局所領域における明度の増減傾向を評価することが可能となる。例えば、日中屋外で撮影された画像からオブジェクトを検出する場合、照明の影響によりオブジェクト表面に大きな明度変化が生じることが多い。しかし、局所領域における明度の増減傾向にのみ着目すれば、そのような絶対的な明度変化の影響を受けにくくなるという効果がある。以下では、計算量が小さく、照明条件の変動に対して頑健であるという利点を考慮し、隣接した矩形領域の組を特徴として用いる場合について説明する。

次に、検出対象を顔とする場合に、ある顔画像サンプル上に複数の特徴を配置した例について図５を参照して説明する。ここでは、複数の特徴を組み合わせることによって検出対象であるオブジェクトとそれ以外（非オブジェクト）を識別する精度を高められることを説明する。
５０１は検出対象となる顔であり、正面から撮影された例である。正面顔は、ほぼ左右対称であることから、５０２のように２組の矩形領域を両目の近辺に配置すると、各組から得られる明度勾配の向きや強度には相関が生じる。本実施形態のオブジェクト検出装置は、このような特徴同士の相関を利用することによって、検出対象であるか否かを識別する精度を向上させる。１組だけの特徴を用いたのでは識別できない場合も、検出対象に固有の特徴の組み合わせを用いることにより、識別可能となる。
５０３は、３つの矩形領域を両目にまたがるように配置し、同時に２つの矩形領域を唇近辺に配置した例である。一般的な顔の特徴として、眉間の部分は目の部分より明るく、唇はその周辺より暗い。これら２組の矩形領域を用いることによって、このような顔の特徴を同時に兼ね備えているかどうかを評価することが可能となる。５０４および５０５は、３組の矩形領域を配置した例である。矩形領域の組の数や種類を適切に選択すれば、検出対象にのみ含まれる特徴の組み合わせを検出できるようになるので、他のオブジェクト（例えば、背景）との識別精度が向上する。

＜量子化部２０２＞
量子化部２０２は学習装置によって予め定められた特徴において算出された特徴量を量子化する。例えば、数３によって得られる矩形領域の平均明度の差分値（特徴量）は連続値であり、これを複数の段階に量子化する。各量子化部２０２が特徴量を何段階に量子化するかあるいは量子化のためのしきい値は学習によって予め定められている。例えば、２段階に量子化した場合、量子化部２０２の出力値は例えば０か１の２値となる。

＜識別部２０３＞
識別部２０３は、複数の量子化部２０２で量子化された特徴量を入力し、これらの特徴量を組み合わせて、入力画像がオブジェクトであるか否かを識別する。具体的には、まず、すべての量子化部２０２から得られた値を同時に観測する確率（同時確率と称する）を、学習によって得られた確率テーブルを参照することにより求める。このテーブルは、検出対象であるオブジェクト（object）とそれ以外（non-object）の２つのクラスのそれぞれについて、学習装置によって予め求められており、識別部２０３は２つの確率値を参照する。次に、識別部２０３は、これら２つの確率値を次式によって比較し、識別を行う。なお、この確率値を尤度という。

ここで、ｈ_ｔ（ｘ）は識別関数であり、画像ｘに対する識別結果を得る関数である。Ｐ（ｖ_１、…、ｖ_ｆ、…、ｖ_Ｆ｜object）、Ｐ（ｖ_１、…、ｖ_ｆ、…、ｖ_Ｆ｜non-object）はそれぞれ確率テーブルから参照されたオブジェクトの尤度と非オブジェクトの尤度である。ｖ_ｆ（１≦ｆ≦Ｆ、かつ、ｆは自然数）はＦ個の量子化部２０２のうちでｆ番目の量子化部２０２の出力値すなわち第ｆ番目の特徴から算出された特徴量を量子化した値である。λは学習装置によって予め定められていた識別のためのしきい値である。

識別部２０３は、その出力値として検出対象であることを示すラベル＋１、もしくは検出対象でないことを示すラベル−１の２種類の離散値を出力する。また、識別部２０３は、確率値の比の値（尤度比）もしくはその対数（対数尤度比）を出力してもよい。入力画像が検出対象であれば対数尤度比は正の値となり、検出対象でなければ負の値となる。

参照する確率テーブルのサイズは、用いる特徴の数と各特徴量の量子化段階の数によって決まっている。例えば、３つの特徴を用いる識別部２０３において、各特徴から得られる特徴量を２段階に量子化する場合、量子化部から出力される値の組み合わせの総数は、２×２×２＝８通りとなる。一般的に、合計Ｆ組の特徴に対して、ｆ番目の特徴から得られる特徴量をそれぞれＬ_ｆ段階に量子化したとすると、量子化部から出力される値の組み合わせの総数Ｌ_Ａは次式で計算される。

なお、ここでは２つのテーブルに確率値を格納し、比較する手法について説明したが、１つのテーブルに比較結果のみを格納しておき、このテーブルを参照してもよい。比較結果としては、＋１か−１といったクラスラベルや上記尤度比の値、もしくは上記対数尤度比の値を用いることができる。１つのテーブルに比較結果のみを格納する方が、確率値を参照し比較する場合に比べて、計算コストを小さくすることができる利点がある。
このように本実施形態のオブジェクト検出装置は、画素領域の組を複数用い、各組から得られる特徴量の間の相関を評価することによって識別を行う。

＜＜複数の識別器＞＞
これまでに説明した図２の識別器１０３により、入力画像が検出対象のオブジェクトであるか否かを識別することができるが、さらにこのような図２の識別器１０３を複数組み合わせることによって、より高精度な識別器を構成することができる。図６は、その識別器の構成例である。入力画像は、複数の識別器６０１〜６０３に並列に入力される。各識別器は、並列に識別処理を行うが、用いられる特徴は、識別器によって異なる。すなわち、異なる特徴を評価する識別器を組み合わせることによって、識別精度を向上させる。例えば、同じオブジェクトについて異なる条件（照明、撮像角度、化粧、あるいは、装飾）で求めた特徴を用いることや、複数の異なるオブジェクトの特徴を用いることが考えられる。

統合部６０４は、各識別器の出力値を組み合わせて、最終的な識別結果を出力する。統合には、Ｔ個の識別器からの出力であるｈ_ｔ（ｘ）の重み付き多数決として、次式のようにＨ（ｘ）を求める手法がある。

ここで、α_ｔは各識別器の重みであり、学習装置によって予め定められた値である。統合部６０４は、さらにＨ（ｘ）と予め定められたしきい値を比較することにより、最終的に入力画像が検出対象であるか否かの判定を行う。通常は、しきい値として０を用い、統合部６０４はＨ（ｘ）の値が正か負かを評価して識別を行う。

次に、図１の走査部１０１が走査ウィンドウで走査する様子について図７を参照して説明する。図７は入力画像７０１から人物の顔の位置を検出する場合の一例を示している。
走査部１０１は、画像原点から走査ウィンドウ７０２を走査し、各位置において部分画像を前処理部１０２および識別器１０３に入力し、識別器１０３が識別処理を繰り返す。
走査部１０１は、７０３および７０４のように、走査ウィンドウの大きさを順次変えて、同様の処理を繰り返す。顔が走査ウィンドウとほぼ同等の大きさであれば、顔の存在する位置において、入力された部分画像が顔であるという識別結果を得ることができる。その他の位置や走査ウィンドウの大きさが適切でない場合は、顔ではないという識別結果が得られることになる。オブジェクト検出装置は、実際には部分画像を切り出す代わりに、特徴抽出に用いる矩形領域の大きさを走査ウィンドウサイズと同時に変えることによって識別処理を行う手法もある。この手法によれば、部分画像を切り出して、別に確保したメモリ領域に部分画像をコピーする処理を省略できる分、計算量を削減することができる。

また、走査ウィンドウの大きさを変える手法の代わりに、入力画像の大きさを変える手法もある。入力画像の大きさを変える手法について図８を参照して説明する。
図８では走査ウィンドウ８０１の大きさは変えずに、入力画像８０２を順次縮小していき、８０３および８０４を生成することによって、画像中の顔を検出する。この場合、入力画像の大きさを変えることで、オブジェクト検出装置は、画像中の顔の大きさが走査ウィンドウとほぼ同等になったときに、正しい検出結果を得ることができる。

（学習装置）
次に、実施形態の学習装置について図９を参照して説明する。図９の学習装置は、図２の識別器１０３で使用するパラメータを算出するためのものである。学習装置は、予め多数収集された検出対象となるオブジェクトの画像およびそれと区別したい非オブジェクトの画像から、それら２クラスのサンプル画像を識別するための特徴（ここでは、画素領域の位置や大きさ）あるいはしきい値などのパラメータを統計的に算出するものであり、それら特徴やパラメータはこれまでに説明したオブジェクト検出装置において用いられる。
学習装置は、画像蓄積部９０１、特徴生成部９０２、特徴量算出部９０３、量子化部９０４、組み合わせ探索部９０５、テーブル算出部９０６、識別器選択部９０７、記憶部９０８を備えている。

画像蓄積部９０１は、検出対象となるオブジェクトおよび非オブジェクトの２クラスの画像サンプルをそれぞれ多数格納している。各サンプル画像は事前に画像サイズが統一されているものとし、特にオブジェクトのサンプル画像に関しては、画像内におけるオブジェクトの位置や大きさが正規化されているものとする。例えば、顔画像であれば、目や鼻孔などの位置を基準に正規化する。しかしながら、画像蓄積部９０１は必ずしも正規化された画像を蓄積する必要はなく、オブジェクトの位置や大きさを正規化する正規化手段を別途設け、この正規化手段によって学習を開始する段階で蓄積された画像を正規化してもよい。この場合は、オブジェクトの位置や大きさを正規化するために基準となる点の位置情報などが必要となるため、画像蓄積部９０１はこれらの情報についても各サンプル画像と対応付けて蓄積保存しておく。以下では、正規化された画像が蓄積されていることを前提として説明する。

特徴生成部９０２は、画像蓄積部９０１に蓄積された画像のサイズ（例えば、２０×２０画素）に応じて、その画像内に配置可能なあらゆる特徴（図３のような画素領域もしくは図４のような矩形領域の組）を生成する。特徴生成部９０２は、複数の画素領域を有する特徴領域を、各サンプル画像内に配置することが可能な数を上限として生成する。
特徴量算出部９０３は、特徴生成部９０２において生成された特徴に対する特徴量（例えば、画素値の重み付き和）を求める。特徴量としては、各画素領域の平均明度の差分値もしくはその絶対値を用いることができる。特徴量算出部９０３は、画像蓄積部９０１に蓄積されている全てのサンプル画像に対して、ある特徴から得られる特徴量を算出した後、量子化のためのしきい値などを決定する。

量子化部９０４は、特徴量算出部９０３で求められたしきい値に基づき、得られた特徴量を複数の段階に量子化する。量子化部９０４は、同様の処理を、特徴生成部９０２で生成された別の特徴に対しても行い、複数個の特徴から量子化された特徴量を得ておく。

組み合わせ探索部９０５はこれら複数の特徴の組み合わせを生成する。量子化部９０４は、特徴領域ごとに、サンプル画像がオブジェクトであるか否かで特徴量の生起確率を求め、この生起確率に基づいて算出された特徴量を何段階に量子化するかを決定する。
テーブル算出部９０６は、組み合わせ探索部９０５で生成された特徴の組み合わせについて、量子化された特徴量を同時に観測する確率を求め、識別に用いる確率テーブルを算出する。確率テーブルは、オブジェクトおよび非オブジェクトそれぞれに対して１つずつ求める。

位置や大きさが異なる様々な特徴およびそれらのあらゆる組み合わせに対して、以上の処理を繰り返した後、識別器選択部９０７は最適な特徴または最適な特徴の組み合わせを選択する。この選択を便宜上、識別器選択部９０７が識別器を選択するともいう。

記憶部９０８は、選択された最適な特徴または最適な特徴の組み合わせ、およびその特徴から得られた確率テーブルを記憶する。オブジェクト検出装置はこの確率テーブルを参照する。

次に、図９の学習装置の動作について図１０を参照して説明する。図１０は、学習装置が行う、識別器の学習手順を示すフローチャートである。
学習装置の基本的な処理の流れは、画像内に配置可能なあらゆる特徴について、さらにそれら特徴のあらゆる組み合わせについて、すべてのサンプル画像から特徴量を計算し、検出対象か否かを識別するのに最適な特徴とそれに対応する確率テーブルを記憶するというものである。従来の手法と異なる重要な点は、特徴の組み合わせによって、オブジェクト内に存在する特徴の相関情報を抽出し、識別に用いる点である。画像内に配置可能なあらゆる特徴といっても、任意の形状および任意の配置の画素領域を生成し、総当りで特徴量を探索することは計算量が膨大であり、現実的でない。そこで、例えば、図５に示したように、矩形領域の組を用いることで探索回数を削減する。また、すでに述べたように、矩形に限定することで、特徴抽出に要する計算量を大幅に削減することが可能である。さらに、隣接する矩形領域の組を用いることで、さらに探索回数を削減し、かつ照明変動の影響を受けにくい局所的な特徴を評価することが可能となる。また、あらゆる特徴の組み合わせといっても、膨大な数になるため最大で何個の特徴を組み合わせるかは事前に与えておき、これらのうちから最適な組み合わせ方を選択する。しかし、それでも、組み合わせる特徴の数を増やせば、その組み合わせは膨大な数になる。例えば、１０個の特徴から３個を選ぶ組み合わせは、_１０Ｃ_３＝１２０通りとなり、大幅に計算回数が増加する。このような組み合わせ爆発に対処する手法については、後で説明する。

まず、特徴生成部９０２が、特徴を生成し、すべての特徴を生成したか否かを判定する（ステップＳ１００１）。まだ全特徴を生成していないと判定した場合にはステップＳ１００２に進み、一方、全特徴を生成していると判定した場合にはステップＳ１００６に進む。ステップＳ１００２では特徴生成部９０２が特徴を１つ生成する。この場合、例えば、図１１に示すように矩形領域の位置を画像内で１画素ずつ移動させ、さらに矩形領域のサイズを１画素ずつ大きくしていけば、画像内でのあらゆる配置を調べることができる。図４に示した様々な特徴についても、特徴生成部９０２が同様の手法で特徴を生成する。どのような特徴を用いるかについては事前に特徴生成部９０２に与えておく。

次に、特徴量算出部９０３が全画像を参照して全画像について特徴量を算出したかを判定する（ステップＳ１００３）。全画像について特徴量を算出したと判定した場合にはステップＳ１００５に進み、一方、全画像について特徴量をまだ算出していないと判定した場合にはステップＳ１００４に進む。ステップＳ１００４では、ステップＳ１００２で生成された特徴について、特徴量算出部９０３がすべてのサンプル画像に対して特徴量を算出する。

ステップＳ１００５では量子化部９０４が量子化を行う。量子化に際しては、まず特徴量算出部９０３がオブジェクトと非オブジェクトの２クラス別々に、特徴量の生起確率密度分布を求める。図１２（Ａ）、（Ｂ）、（Ｃ）には、３種類の特徴から得られた特徴量に関する確率密度分布の例を示す。図１２（Ａ）、（Ｂ）、（Ｃ）には、それぞれ２本の曲線が描かれているが、それぞれがオブジェクトおよび非オブジェクトの確率密度分布を表現している。図１２（Ａ）の例では２クラスの分布に重なりが少なく識別に有効な特徴である。例えば、２つの分布が交差する特徴量をしきい値とすれば、少ない識別誤りで識別することができる。逆に図１２（Ｂ）の例では、曲線がほぼ重なっており、有効なしきい値は見当たらず、高い識別精度が得られないことが分かる。図１２（Ｃ）の例では、一方のクラスの分布が分離しているため、１つのしきい値では高精度に識別することができない。例えば、分布同士が交差する２つのしきい値が必要となる。しきい値を設定するということは、特徴量の量子化手法を決定するということと等価である。ステップＳ１００５では、量子化部９０４が２クラスを識別するのに最適なしきい値を決定し、量子化を行う。しきい値の求め方には様々な手法がある。例えば、２クラスのクラス間分散とクラス内分散の比を判別基準として、この比を最大化するというよく知られた手法（「判別および最小２乗基準に基づく自動しきい値選定法」、電子通信学会論文誌、Ｖｏｌ．Ｊ６３−Ｄ、Ｎｏ．４、ｐｐ．３４９−３５６．１９８０）により、しきい値を求めることができる。また、判別基準の代わりに、学習用のサンプル画像に対する識別誤り率を最小にするしきい値を求めてもよい。あるいは、オブジェクトを見落とす損失（コスト）と非オブジェクトを過剰に検出する損失を事前に設定し、それぞれのコストを加味して算出した識別誤り率（損失）を最小とするしきい値を求めてもよい。さらに、量子化を何段階で行えばよいか（すなわち、何個のしきい値を用いるか）を決める手法もある。これには、ＭＤＬという基準を用いた手法を利用することができる（「情報と符号化の数理」、韓太舜著、ｐｐ．３２３−３２４参照）。このようにして求めた少なくとも１つのしきい値による量子化の結果、特徴量は、例えばしきい値より小さい場合０、大きい場合１という符号により表現される。３段階の量子化では、０、１、２のように３個の符号を用いればよい。

こうして、すべての特徴に対して、すべてのサンプルから特徴量を算出し、量子化を行った後、ステップＳ１００６に進む。ステップＳ１００６では、組み合わせ探索部９０５が全ての特徴の組み合わせを検索したか否かを判定する。まだ、特徴の組み合わせを探索し終えていない場合はステップＳ１００７に進み、一方、検索し終えている場合はステップＳ１００９に進む。ステップＳ１００７では組み合わせ探索部９０５が特徴の組み合わせを生成する。組み合わせ探索部９０５は、例えば、図５に示すような特徴の組み合わせを生成する。例えば、ある１枚の学習サンプルに対して、図５の５０２に示される２つの特徴を配置すると、２つの量子化された特徴量ｖ_１およびｖ_２が得られる。量子化は、両特徴とも２段階に行われているとする。ｖ_１およびｖ_２の組み合わせは、（０、０）、（０、１）、（１、０）、（１、１）の４通りのうちのいずれかとなる。全サンプルに対して、ｖ_１およびｖ_２を求め、４通りのどれに該当するかを調べることにより、４通りのうちのどれが確率的に生じやすいかといった傾向を知ることができる。オブジェクトの画像サンプルから（ｖ_１、ｖ_２）の組み合わせが得られる確率をＰ（ｖ_１、ｖ_２｜object）と記述すると、テーブル算出部９０６が次式を利用してこの確率を算出する。

ここで、ａはオブジェクトのサンプル画像の枚数であり、ｖ_１ ^（ｉ）は１つ目の特徴に対してｉ番目のサンプル画像から得られた値である。ｖ_２ ^（ｉ）は２つ目の特徴に対して同じサンプル画像から得られた値である。δ（ｙ）は、ｙ＝０とき１となる関数である。同様に、非オブジェクトの画像サンプルからも、テーブル算出部９０６が次式を利用して同様に確率Ｐ（ｖ_１、ｖ_２｜non-object）を計算することができる。

ここで、ｂは非オブジェクトのサンプル画像の枚数である。より、一般的にＦ組の特徴を用いたとすると、数７および数８に対応してそれぞれ、テーブル算出部９０６が次式の数９および数１０を利用して計算することができる。

これは、Ｆ組の特徴から同時にｖ_１、…、ｖ_Ｆを観測する確率（尤度）である。確率値（尤度）は、数５に示した数だけ得られるので、テーブル算出部９０６が算出しそれを確率テーブルとする（ステップＳ１００８）。識別器選択部９０７は、数４に示した式に基づいて、この確率テーブルを用いて識別器の識別を行う。この識別器によってすべての学習サンプルを識別させ、識別誤りの数を計数すると、その特徴の組み合わせの良し悪しを評価することができる。ステップＳ１００９では、識別器選択部９０７がすべての特徴の組み合わせのうち、識別誤りの数が最小（すなわち誤り率が最小）となる識別器を選択する（すなわち、特徴の組み合わせを選択する）。そして、記憶部９０８が、識別誤りの数が最小となる識別器を記憶して学習を終了する（ステップＳ１０１０）。なお、識別器の選択に、誤り率最小という基準を用いて説明したが、これ以外にバタチャリヤ限界やKullback-Leibler divergenceなどの評価値を用いてもよい。

ここで、ステップＳ１００７の組み合わせ生成手法について、いくつかの手法を示す。第１の手法は、あらゆる組み合わせを生成する手法である。すべての組み合わせを総当りで調べ尽くせば、最適な識別器（特徴の組み合わせ）を選択することができる。しかし、すべての組み合わせを総当りで調べ尽くすと組み合わせ爆発（組み合わせ数が膨大になること）がおきるため、学習に要する時間が増大してしまうという問題がある。
第２の手法は、Sequential Forward Selection（ＳＦＳ）とSequential Backward Selection（ＳＢＳ）による組み合わせ探索である。これは、まず１つの特徴だけを用いた識別器のうち最適なものを選択し、次に選択された特徴に他の特徴から１つを加えたり除いたりして識別器を作り、もしすでに選択された識別器より誤り率を小さくできる場合には、その識別器を選択するという手法である。
第３の手法は、ｐｌｕｓ−ｌ−ｍｉｎｕｓ−ｒという手法である。ｌ個の特徴を追加して誤り率を評価し、誤り率を減少できないときは、ｒ個の特徴を除いて再評価するという手法である。第２、第３の手法では総当りで探索するのに比べて、第３の手法は最適な識別器を選択できるとは限らないが、探索回数を削減することができる。

＜＜学習装置（複数の識別器対応）＞＞
次に、図９の学習装置とは異なる別の一例について図１３を参照して説明する。図１３の学習装置は図６の識別器６０１，６０２，…で使用するパラメータを算出するためのものである。図６の識別器６０１，６０２，…は識別器を多数連結して、より高精度な識別をすることができる。
図１３の学習装置は、図９の学習装置の各部に加え、新たにサンプル重み初期化部１３０１、サンプル重み更新部１３０３を備え、量子化部、テーブル算出部も図９のものとは少し異なりそれぞれ量子化部１３０２、テーブル算出部１３０４として備える。図９を参照して説明した学習装置の装置部分と同様なものは同一の番号を付して説明を省略する。

サンプル重み初期化部１３０１は、画像蓄積部９０１に蓄積されているサンプル画像に対して重みを与える。サンプル重み初期化部１３０１は、例えば、サンプル重みの初期値として、すべてのサンプル画像に対して均等な重みを与える。

量子化部１３０２は、量子化のためのしきい値を計算するために特徴量の確率密度分布を生成し、この確率密度分布に基づいてしきい値を求め、特徴量算出部９０３で得られた特徴量を複数の段階に量子化する。

サンプル重み更新部１３０３は、重みを更新しながらサンプル集合を変える。サンプル重み更新部１３０３は、識別器が正しく識別できなかったサンプルに対して大きな重みを与え、正しく識別できたサンプルに対しては小さな重みを与える。

テーブル算出部１３０４は、確率テーブルの算出を行い、確率値の計算をする。テーブル算出部９０６ではサンプルの個数に基づいて計算していたが、テーブル算出部１３０４はこの個数の代わりに後述する重みＤ_ｔ（ｉ）を用いるところが異なる。

図１３の学習装置では、Boostingと呼ばれる学習方式を用いる。Boostingは、画像蓄積部９０１に蓄積されているサンプル画像に対して重みを与え、その重みを更新しながらサンプル集合を変えることによって高精度な識別器を得る手法である。

次に、図１３の学習装置の動作について図１４を参照して説明する。図１０を参照して説明した学習装置の動作のステップと同様なものは同一の番号を付して説明を省略する。AdaBoostアルゴリズムを用いた学習について説明する。これは、非特許文献１と同様の手法である。しかし、AdaBoostによって連結される個別の識別器（図６の６０１、６０２、…）が従来のものよりも高精度であるため、最終的に得られる識別器の精度も向上する。
まず、サンプル重み初期化部１３０１がサンプル重みの初期値として、画像蓄積部９０１に格納されているすべてのサンプル画像に対して、均等な重みを与える（ステップＳ１４０１）。ｉ番目のサンプル画像の重みをＤ_０（ｉ）とすると、

ここで、Ｎはサンプル画像の総数であり、Ｎ＝ａ＋ｂ（Ｎ＝オブジェクトのサンプル画像の枚数＋非オブジェクトのサンプル画像の枚数）である。次に、特徴生成部９０２がｔ＝０と設定して（ステップＳ１４０２）、ｔが予め定めてあるＴよりも小さいか否かを判定する（ステップＳ１４０３）。Ｔは、後のステップＳ１００１〜ステップＳ１００４、ステップＳ１４０４、ステップＳ１００６、ステップＳ１００７、ステップＳ１４０５、ステップＳ１００９、ステップＳ１０１０、ステップＳ１４０６、およびステップＳ１４０７の処理を繰り返す回数に対応する。さらに、Ｔは図６に示した、統合部６０４に接続している識別器６０１、６０２、…の数に対応する。ｔがＴよりも小さくないと判定された場合には学習装置は処理を終了し、一方、小さいと判定された場合にはステップＳ１００１に進む。

その後、図１０に示したステップＳ１００１〜ステップＳ１００４を行う。ステップＳ１４０４では、量子化部１３０２が量子化のためのしきい値計算に特徴量の確率密度分布を生成する。そして、図１０に示したステップＳ１００６、ステップＳ１００７を行う。ステップＳ１４０５では、テーブル算出部１３０４が確率テーブルの算出を行い、確率値の計算をする。この確率計算では、ステップＳ１００８ではサンプルの個数に基づいて計算していたが、ステップＳ１４０５では個数の代わりに重みＤ_ｔ（ｉ）を用いるところが異なる。例えば、テーブル算出部１３０４が量子化された特徴量を同時に観測する同時確率を求め、この同時確率に重みＤ_ｔ（ｉ）をかけた値を算出する。識別器選択部９０７がｔ番目の識別器としてｈ_ｔ（ｘ_ｉ）を選択して（ステップＳ１００９）記憶部９０８がこれを記憶して（ステップＳ１０１０）、サンプル重み更新部１３０３がサンプルの重みを次式に示したように更新する（ステップＳ１４０６）。

ここで、ｘ_ｉおよびｙ_ｉはｉ番目のサンプル画像とそのラベル（検出対象であるか否か）であり、α_ｔは識別器ｈ_ｔ（ｘ）の誤り率ε_ｔによって次式で与えられる値である。

サンプル重み更新部１３０３は、数１２により、ｈ_ｔ（ｘ）が識別できなかったサンプルに対して大きな重みを与え、正しく識別できたサンプルに対しては小さな重みを与える。すなわち、次の識別器ｈ_ｔ＋１（ｘ）は前の識別器が苦手とするサンプルに対して識別性能が高いものとなる。これによって、全体として高精度な識別器が得られる。また、Ｚ_ｔは次式で与えられる。

図１３の学習装置によって最終的に得られた識別器は数６に基づいて識別を行う。通常、識別のためのしきい値は上述したように０と設定するが、オブジェクトを見落とす誤り（未検出）が多い場合には、負の値に設定すると未検出を減少させることができる。また、逆に非オブジェクトを検出する誤り（過検出）が多い場合には、正の値をしきい値とすることで検出精度を調整することができる。

また、AdaBoostの代わりに他のBoosting手法を用いることもできる。例えば、Real AdaBoostと呼ばれる手法（R. E. Schapire and Y. Singer, "Improved Boosting Algorithms Using Confidence-rated Predictions", Machine Learning, 37, pp.297-336, 1999）がある。この手法では、個別の識別器ｈ_ｔ（ｘ）として以下を用いる。

ここで、Ｗ^ｊ _objectおよびＷ^ｊ _non-objectは、それぞれオブジェクトクラスおよび非オブジェクトクラスの確率テーブルのｊ番目の要素を意味している。ｊは入力画像ｘから得られる特徴の組み合わせｖ_１、…、ｖ_Ｆに対応するテーブルのインデックス番号である。また、ｅはＷ^ｊ _objectもしくはＷ^ｊ _non-objectが０となった場合に対応するための、スムージング項であり小さな正の数である。AdaBoostでは、誤り率ε_ｔを最小とする識別器ｈ_ｔ（ｘ）を選択し記憶するが、Real AdaBoostでは、以下の値Ｚ_ｔを最小とする識別器を選択する。

この場合、サンプル重み更新部１３０３はサンプルの重みをステップＳ１４０６において、次式に基づいて更新する。

この重みの更新式は、数１２に示したAdaBoostの更新式とは異なりα_ｔを含まない。これは、Real AdaBoostでは、各識別器がクラスラベルでなく、数１４に示した連続値を出力するためである。識別器選択部９０７が最終的に得られる識別器を次式に基づいて選択する。

識別器選択部９０７はＨ（ｘ）としきい値（通常は０）を比較し、しきい値より大きければオブジェクト、しきい値より小さければオブジェクトでないというように識別を行う。未検出および過検出への対応については、上記AdaBoostと同様のしきい値調整で可能である。

（学習装置の変形例）
次に、学習装置の変形例について図１５から図１９までを参照して説明する。図１５は、以上までに説明した特徴の組み合わせ選択とBoostingアルゴリズムを併用した学習の過程を示している。１５０１は、サンプル画像を示す。ここでは、検出対象となるオブジェクトが顔である場合を例とし、多数蓄積されたサンプル画像のうちの１枚を用いて説明する。１５０２は、選択された特徴である。この例では、右目とその下の頬の部分に着目する特徴が選択されている。上記Sequential Forward Selectionによって、この特徴に組み合わせる特徴を探索する場合を考える。１５０３は、特徴の組み合わせ探索処理を意味している。さらに識別性能を向上させる組み合わせを順次探索していき、１５０４で示される最初の識別器ｈ_１（ｘ）が得られる。１５０５は、Boostingによるサンプルの重み更新処理を意味している。重み更新は、上述した、数１２や数１７に示した式によって行う。例えば、識別器１５０４によって、正しく識別できなかったサンプルに対しては、大きな重みが与えられる。また、上記と同様の手順で特徴の組み合わせ探索を行い、１５０６で示される次の識別器ｈ_２（ｘ）を得る。これをＴ回繰り返すことによって、最終的な識別器Ｈ（ｘ）が得られる。

ここで、識別器１５０４や識別器１５０６において、何個の特徴を組み合わせるべきかを決定する必要がある。簡単には、組み合わせる特徴の数に対して、所定の上限値を設けておけばよい。この上限値は、例えば、学習装置の処理速度、オブジェクト検出装置に要求される精度に基づいて設定される。この場合、どの識別器も一定の個数の特徴を用いることになる。ただし、各識別器において、異なる数の特徴を用いた方がより高い識別性能が得られる場合がある。このための方法について、以下で説明する。

＜第１の方法＞
各識別器の特徴数を決定するための第１の方法を説明する。新たに必要となるのは、学習に用いたサンプル画像とは独立した別のサンプル画像である。これを検証サンプルと呼ぶ。検証サンプルは、学習サンプルと同様にオブジェクトおよび非オブジェクトの画像をそれぞれ複数枚含む。枚数は、学習サンプルと必ずしも同数でなくてもよい。通常は、学習サンプルの一部を取り出して検証サンプルとし、残ったサンプルを使って学習を行う。特徴を１個ずつ増やしていくのと並行して、Ｎ’枚の検証サンプル（ｘ_ｉ’，ｙ_ｉ’）に対して識別を行い、損失を測定する。上限値までの個数の組み合わせのうち、最も損失を小さくできる数を選べばよい。もしくは、損失が増加した段階で特徴の追加を打ち切ってもよい。ここで、ｘ_ｉ’はｉ番目のサンプル画像を表し、ｙ_ｉ’はクラスラベル（例えば、オブジェクトなら＋１、非オブジェクトなら−１）を表す。損失としては、数１９で表される識別誤り率ε_Ｔ’を用いることができる。

これは、識別誤りとなった検証サンプルの数を計数することによって求められる。ここで、ａ，ｂを予め決めたある定数とすると、Ｉ（ｘ）＝ａ（ｘが真の場合）、Ｉ（ｘ）＝ｂ（ｘが偽の場合）であり、また、Ｈ_Ｔ’（ｘ）は現在ｔ＝Ｔ’までに得られた識別器であり、数２０によって表される。

これは、AdaBoostの場合である。Real AdaBoostの場合は、数１８を参照すれば容易に変形できる。また、識別誤り率以外の損失を用いることができる。例えば、数２１で表される指数損失がある。

＜第２の方法＞
続いて、各識別器の特徴数を決定するための第２の方法について図１６を参照して説明する。図１６は、第１の方法を示す図１５と類似しているが、１６０１によって示される経路が複数存在する点が異なる。図１５では、まず特徴の組み合わせ探索を行い、特徴の追加によって損失が増加するなどすれば、Boostingによるサンプルの重み更新処理を行う仕組みとなっている。これは、特徴の組み合わせ選択処理を優先して行う仕組みといえる。すなわち、特徴の組み合わせによる追加の方がBoostingアルゴリズムによってサンプルの重みを更新したのちに新たに特徴を選択・追加する処理に比べて、より識別性能を向上させられると仮定している。これに対して、図１６では、特徴の組み合わせによる追加とBoostingによる特徴の追加のいずれがよいかを選択しながら、学習をすすめる。例えば、１個目の特徴１５０２が選択された後、組み合わせによる追加１５０３とBoostingによる追加１６０１のいずれの経路をたどって学習するかを判断する。２通りの経路それぞれに対して、その経路を選択した場合に生じる損失を求め、損失が小さい経路を選択すればよい。１５０３による処理の損失は、２個目の特徴を追加して、上記ε_Ｔ’もしくはｌ_Ｔ’を計算すればよい。１６０１による損失は、特徴１５０２を１個だけ用いる識別器１５０４が選ばれたと仮定して、Boostingによるサンプルの重み更新処理１６０２を行い、新しいサンプル分布において新たな特徴１６０２を選択した後に、計算する。この場合の損失は、ε_Ｔ’＋１もしくはｌ_Ｔ’＋１と表せる。例えば、ε_Ｔ’＜ε_Ｔ’＋１のとき、特徴の組み合わせ探索の方がより損失を減少させられると考え、２個目の特徴を確定する。また、一度更新したサンプルの重みを元に戻す。ε_Ｔ’＞ε_Ｔ’＋１のときは、識別器１５０４で用いる特徴を１５０２の１個で確定し、そのまま次の識別器１５０６の学習に移行する。

次に、図１６で説明した学習方法について図１７を参照して説明する。図１７は、２通りの経路から損失の小さい方を選択して学習を進めるためのフローチャートを示す。ステップＳ１７０１では、最初（ｔ＝１）の識別器を学習する初期化処理を行う。全部でＴ個の識別器を学習するものとし、ステップＳ１７０２で現在までに学習された識別器の個数を把握する。ｔ＞Ｔとなった時点で学習を終了する。ステップＳ１７０３では、特徴の数ｆをｆ＝１と初期化する。各識別器では、上限値Ｆ^ｍａｘ個まで特徴を組み合わせてもよいことにする。組み合わせた特徴の数ｆ＞Ｆ^ｍａｘとなった時点で、次（ｔ＋１番目）の識別器の学習に移る。すなわち、ステップＳ１７１１へ進む。ｆ≦Ｆ^ｍａｘであれば、ステップＳ１７０５へ進む。ステップＳ１７０５では、ｔ番目の識別器においてｆ個の特徴の組み合わせを選択する。さらにステップＳ１７０６において、その学習経路の損失を求める。ステップＳ１７０７で、ｆ個の組み合わせとｆ−１個の組み合わせの損失を比較する。もし、特徴の数を増やすことにより、損失が増加した場合は、ステップＳ１７１１へ移り次（ｔ＋１番目）の識別器の学習を始める。反対に、特徴の数を増やすことにより、損失が減少するならばステップＳ１７０８の処理に移る。ステップＳ１７０８では、仮に現在までに選択したｆ−１個の特徴でｔ番目の識別器を確定したとして、ｔ＋１番目のｆ＝１個目の特徴を追加してみる。すなわち、Boostingによる特徴追加を試す。さらにステップＳ１７０９で、その学習経路の損失を計算する。ステップＳ１７１０では、ステップＳ１７０６で計算された第１経路の損失とステップＳ１７０９で計算された第２経路の損失を比較する。もし、第１経路の損失が大きい場合には、Boostingによる特徴の追加の方が望ましいと判定し、次（ｔ＋１番目）の識別器の学習に移行する（ステップＳ１７１１）。反対に、第１経路の損失が小さい場合には、ステップＳ１７１２に進み、現在（ｔ番目）の識別器の学習を継続する。

＜第３の方法＞
以上の方法を一般化して、特徴数を決定するための第３の方法を示す。以上までに述べた方法では、各識別器の学習時点において、次の識別器までの学習経路を考慮して学習を行うが、さらに次の識別器を加えた場合の損失までは考慮していない。最適な識別精度を求めるには、すべての学習経路を探索して最も損失が小さい経路を求める必要がある。ここでは、全探索による最適な識別器の学習装置の構成および学習方法について説明する。

まず、学習装置の構成について図１８を用いて説明する。基本的な構成は図１３と類似しているが、学習経路生成部１８０１、損失算出部１８０２、最終識別器選択部１８０３が新たに加わっている。学習経路生成部１８０１では、最終的に何個の特徴を選択して識別器Ｈ（ｘ）（ここからは強識別器と呼ぶ）を構成するか、および各ｈ_ｔ（ｘ）（ここからは弱識別器と呼ぶ）において使用する特徴の数の上限値に応じた学習経路を生成する。例えば、強識別器では計６個の特徴を使用し、各弱識別器は最大３個まで特徴を使用できるという条件では、２４通りの学習経路が存在する。特徴を３個使う弱識別器が２つの場合や、特徴をそれぞれ３個、２個、１個使う弱識別器を使う場合などがある。この２４通りの全ての経路で学習した場合に得られる強識別器の損失を損失算出部１８０２で算出しておき、損失が最も小さいものを最終識別器選択部１８０３で選択する。

次に、図１８の学習装置の学習のフローチャートについて図１９を用いて説明する。まず、ステップＳ１４０１では、画像蓄積部に格納されている各サンプルの重みを初期化する。次に、ステップＳ１００２で特徴生成を行う。すべてのサンプルに対する生成された全ての特徴の特徴量をステップＳ１００４において求め、ステップＳ１９０４でそれを量子化する。量子化の際には、Boostingによるサンプル更新を考慮して、量子化のためのしきい値を算出する場合と、量子化の方法を事前に決めておく場合とがある点に注意する。ステップＳ１９０５において、学習経路を生成する。これには、強識別器が使用する特徴の数と弱識別器が使用する特徴の数の上限値を与え、それを満たす全ての組み合わせを網羅的に調べる。この上限値は、例えば、学習装置の処理速度、オブジェクト検出装置に要求される精度に基づいて設定される。生成した学習経路を１つ１つ探索しながら（ステップＳ１９０６）、強識別器を学習する（ステップＳ１９０７）。各強識別器の損失を算出しておく（ステップＳ１９０８）。すべての経路を探索したら、ステップＳ１９０９において、すべての強識別器の損失を比較し、損失最小となる強識別器を最終的に選択し、学習を終了する。

以上の手順によって、損失を小さくする経路を選択しながら学習をすすめるので、より少ない特徴の数（すなわち、小さい計算コスト）で高い識別精度を達成する識別器を求めることができる。

以上に示した実施形態によれば、学習装置が有する、オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、特徴領域の組み合わせと、特徴領域の組み合わせに対応する量子化された特徴量と、同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報とに基づいて、オブジェクト検出装置が、特徴領域の組み合わせを検出画像に適用して算出した特徴量から検出画像にオブジェクトが含まれているか否かを、従来の手法に比べて高い精度で行うことができる。換言すれば、本実施形態によれば、本発明によれば従来の手法より少ない計算量で同等の検出精度を得ることができる。

また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態のオブジェクト検出装置および学習装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態のオブジェクト検出装置および学習装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記憶媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーションシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記憶媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記憶媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本発明におけるコンピュータまたは組み込みシステムは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の実施形態に関するオブジェクト検出装置のブロック図。図１の識別器のブロック図。図２の特徴量算出部が重み付き和を計算するための画素領域の組の一例を示した図。図３とは異なり、画素領域が矩形である場合の画素領域の組の一例を示した図。検出対象を顔とする場合にある顔画像サンプル上に複数の特徴（画素領域の組）を配置した一例を示した図。図１の識別器が複数の識別器を含む場合の図１の識別器のブロック図。図１の走査部が走査ウィンドウの大きさを変えて入力画像を走査する様子を示した図。図１の走査部が入力画像の大きさを変えて入力画像を走査する様子を示した図。図２の識別器で使用するパラメータを算出するための学習装置のブロック図。図９の学習装置の動作を示すフローチャート。図９の特徴生成部が生成する特徴の一例を示す図。（Ａ）、（Ｂ）、（Ｃ）は、図９の特徴量算出部が求めた確率密度分布の一例を示す図。図６の識別器で使用するパラメータを算出するための学習装置のブロック図。図１３の学習装置の動作を示すフローチャート。特徴の組み合わせ選択とBoostingアルゴリズムを併用した学習の過程を示す図。図１５の過程の変形例で、経路が複数存在する場合を示す図。図１６に示した学習方法のフローチャート。図１５および図１６に示した学習方法の一般化した方法を行う学習装置のブロック図。図１８の学習装置の動作を示すフローチャート。

符号の説明

１０１…走査部、１０２…前処理部、１０３，６０１，６０２，６０３…識別器、１０４…後処理部、２０１…特徴量算出部、２０２、９０４，１３０２…量子化部、２０３…識別部、６０４…統合部、７０１，８０２…入力画像、７０２，８０１…走査ウィンドウ、９０１…画像蓄積部、９０２…特徴生成部、９０３…特徴量算出部、９０５…組み合わせ探索部、９０６，１３０４…テーブル算出部、９０７…識別器選択部、９０８…記憶部、１３０１…サンプル重み初期化部、１３０３…サンプル重み更新部、１８０１…学習経路生成部、１８０２…損失算出部、１８０３…最終識別器選択部。

Claims

入力画像に含まれているオブジェクトを検出するオブジェクト検出装置において、
予めサンプル画像に関して学習された、
複数の画素領域を有する特徴領域と前記サンプル画像中の当該特徴領域の特徴量である学習特徴量を量子化して得られる量子化学習特徴量との組を予め複数個選択して得られる組み合わせ、および、
前記サンプル画像がオブジェクトであるか非オブジェクトであるかを示す情報、
を有する学習情報を記憶する記憶手段と、
前記組み合わせに関して、前記入力画像中で当該組み合わせに属する各特徴領域に対応する領域の特徴量である入力特徴量を、当該特徴領域の前記画素領域の各々に異なる重みを付けた重み付け和若しくは該重み付け和の絶対値を求めることにより算出する特徴量算出手段と、
前記特徴量算出手段が算出した前記入力特徴量を量子化して量子化入力特徴量を出力する量子化手段と、
前記組み合わせに関して得られた前記量子化入力特徴量、および、前記記憶手段が記憶する前記学習情報を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する判定手段と、を具備するオブジェクト検出装置。
前記記憶手段は、複数の組み合わせを有する学習情報を記憶し、
前記特徴量算出手段は、前記複数の組み合わせの各々に関して入力特徴量を算出し、
前記判定手段は、前記複数の組み合わせの各々に関して得られた前記量子化入力特徴量を用いて判定し、
さらに、前記複数の組み合わせに関して得られた前記判定手段による複数の判定結果に重みを付した重み付け和を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する統合判定手段を具備することを特徴とする請求項１に記載のオブジェクト検出装置。
前記特徴量算出手段は、前記特徴領域ごとの特徴量として、異なる画素領域の間の平均明度の差分値を算出することを特徴とする請求項１または請求項２に記載のオブジェクト検出装置。
前記量子化手段は、前記特徴量算出手段で算出された特徴量を２段階に量子化することを特徴とする請求項１から請求項３のいずれか１項に記載のオブジェクト検出装置。
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、
複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記組み合わせと、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、
前記判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する選択手段と、
前記選択された組み合わせと、該組み合わせに対応する前記テーブルと、を記憶する記憶手段と、を具備することを特徴とする学習装置。
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、
前記格納されているサンプル画像に初期重みを付与する初期付与手段と、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、
複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と非オブジェクトである同時確率に前記初期重みをかけた値との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、
前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する選択手段と、
前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、
前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果が誤りとなるサンプル画像に対して、重みが大きくなるように各サンプル画像の重みを更新して付与する更新付与手段と、を具備し、
前記テーブル生成手段は、前記組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、
前記判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、
前記選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、
前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶することを特徴とする学習装置。
前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせの判定結果が誤りである確率が、以前に記憶した組み合わせの判定結果が誤りである確率よりも小さくなる場合に、該最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶することを特徴とする請求項６に記載の学習装置。
前記算出手段は、前記特徴領域ごとの特徴量として、異なる画素領域に間の平均明度の差分値を算出することを特徴とする請求項５から請求項７のいずれか１項に記載の学習装置。
前記量子化手段は、前記算出手段で算出された特徴量を２段階に量子化することを特徴とする請求項５から請求項８のいずれか１項に記載の学習装置。
入力画像中で所定のオブジェクトを検出するための情報を作成する学習装置と、前記情報を参照して、ある入力画像に含まれているオブジェクトを検出するオブジェクト検出装置と、を具備するオブジェクト検出システムにおいて、
前記学習装置は、
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する第１の算出手段と、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する第１の量子化手段と、
複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記特徴領域の組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、
前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない特徴領域の組み合わせを選択する選択手段と、
前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、を具備し、
前記オブジェクト検出装置は、
前記組み合わせに関して、前記入力画像中で当該組み合わせに属する各特徴領域に対応する領域の特徴量である入力特徴量を、当該特徴領域の前記画素領域の各々に異なる重みを付けた重み付け和若しくは該重み付け和の絶対値を求めることにより算出する特徴量算出手段と、
前記特徴量算出手段が算出した前記入力特徴量を量子化して量子化入力特徴量を出力する量子化手段と、
前記組み合わせに関して得られた前記量子化入力特徴量、および、前記記憶手段が記憶する前記学習情報を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する判定手段と、を具備することを特徴とするオブジェクト検出システム。
入力画像中で所定のオブジェクトを検出するための情報を作成する学習装置と、前記情報を参照して、ある入力画像に含まれているオブジェクトを検出するオブジェクト検出装置と、を具備するオブジェクト検出システムにおいて、
前記学習装置は、
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、
前記格納されているサンプル画像に均等に初期重みを付与する初期付与手段と、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する第１の算出手段と、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する第１の量子化手段と、
複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記特徴領域の組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する第１の判定手段と、
前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない特徴領域の組み合わせを選択する選択手段と、
前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、
前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果に最も誤りが少ないサンプル画像から最も誤りが多いサンプル画像にかけて、重みが大きくなるように各サンプル画像に重みを更新して付与する更新付与手段と、を具備し、
前記テーブル生成手段は、前記特徴領域の組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、
前記第１の判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、
前記選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、
前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応するテーブルと、を新たに追加して記憶し、
前記オブジェクト検出装置は、
前記記憶手段に記憶された前記複数の組み合わせの各々に関して入力特徴量を異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を前記入力画像に対して算出する第２の算出手段と、
前記算出手段で算出された特徴量を、該特徴量に対応して前記第１の量子化手段で決定された段階で量子化する第２の量子化手段と、
前記量子化された複数の特徴量の組み合わせと、前記テーブルと、を参照して、入力画像に前記オブジェクトが含まれているか否かを判定する第２の判定手段と、
前記複数の組み合わせに関して得られた前記第２の判定手段による複数の判定結果に重みを付した重み付け和を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する統合判定手段を具備することを特徴とするオブジェクト検出システム。
入力画像に含まれているオブジェクトを検出するオブジェクト検出方法において、
予めサンプル画像に関して学習された、
複数の画素領域を有する特徴領域と前記サンプル画像中の当該特徴領域の特徴量である学習特徴量を量子化して得られる量子化学習特徴量との組を予め複数個選択して得られる組み合わせ、および、
前記サンプル画像がオブジェクトであるか非オブジェクトであるかを示す情報、
を有する学習情報を記憶し、
前記組み合わせに関して、前記入力画像中で当該組み合わせに属する各特徴領域に対応する領域の特徴量である入力特徴量を、当該特徴領域の前記画素領域の各々に異なる重みを付けた重み付け和若しくは該重み付け和の絶対値を求めることにより算出し、
前記算出した前記入力特徴量を量子化して量子化入力特徴量を出力し、
前記組み合わせに関して得られた前記量子化入力特徴量、および、前記学習情報を用いて、入力画像に前記オブジェクトが含まれているか否かを判定することを特徴とするオブジェクト検出方法。
前記学習情報を記憶する際に、複数の組み合わせを有する学習情報を記憶し、
前記入力特徴量を算出する際に、前記複数の組み合わせの各々に関して入力特徴量を算出し、
前記判定する際に、前記複数の組み合わせの各々に関して得られた前記量子化入力特徴量を用いて判定し、
さらに、前記複数の組み合わせに関して得られた前記判定による複数の判定結果に重みを付した重み付け和を用いて、入力画像に前記オブジェクトが含まれているか否かを判定することを特徴とする請求項１２に記載のオブジェクト検出方法。
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納し、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成し、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出し、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化し、
複数の前記特徴領域の組み合わせを少なくとも１つ生成し、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記組み合わせと、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定し、
前記判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、
前記選択された組み合わせと、該組み合わせに対応する前記テーブルと、を記憶することを特徴とする学習方法。
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納し、
前記格納されているサンプル画像に均等に初期重みを付与し、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成し、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出し、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化し、
複数の前記特徴領域の組み合わせを少なくとも１つ生成し、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と、非オブジェクトである同時確率に前記初期重みをかけた値と、の比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定し、
前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、
前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶し、
前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果に最も誤りが少ないサンプル画像から最も誤りが多いサンプル画像にかけて、重みが大きくなるように各サンプル画像に重みを更新して付与し、
前記組み合わせと、前記同時確率に前記更新によって得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、
前記同時確率に前記更新によって得られた重みをかけた値に基づいてサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定し、
前記更新によって得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、
前記選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶することを特徴とする学習方法。
コンピュータによって入力画像に含まれているオブジェクトを検出するオブジェクト検出装置において、
コンピュータを、
予めサンプル画像に関して学習された、
複数の画素領域を有する特徴領域と前記サンプル画像中の当該特徴領域の特徴量である学習特徴量を量子化して得られる量子化学習特徴量との組を予め複数個選択して得られる組み合わせ、および、
前記サンプル画像がオブジェクトであるか非オブジェクトであるかを示す情報、
を有する学習情報を記憶する記憶手段と、
前記組み合わせに関して、前記入力画像中で当該組み合わせに属する各特徴領域に対応する領域の特徴量である入力特徴量を、当該特徴領域の前記画素領域の各々に異なる重みを付けた重み付け和若しくは該重み付け和の絶対値を求めることにより算出する特徴量算出手段と、
前記特徴量算出手段が算出した前記入力特徴量を量子化して量子化入力特徴量を出力する量子化手段と、
前記組み合わせに関して得られた前記量子化入力特徴量、および、前記記憶手段が記憶する前記学習情報を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する判定手段と、として機能させるためのオブジェクト検出プログラム。
前記記憶手段は、複数の組み合わせを有する学習情報を記憶し、
前記特徴量算出手段は、前記複数の組み合わせの各々に関して入力特徴量を算出し、
前記判定手段は、前記複数の組み合わせの各々に関して得られた前記量子化入力特徴量を用いて判定し、
さらに、前記複数の組み合わせに関して得られた前記判定手段による複数の判定結果に重みを付した重み付け和を用いて、入力画像に前記オブジェクトが含まれているか否かを判定する統合判定手段として機能させるための請求項１６に記載のオブジェクト検出プログラム。
コンピュータを、
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、
複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記組み合わせと、前記同時確率と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率と非オブジェクトである同時確率との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、
前記判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する選択手段と、
前記選択された組み合わせと、該組み合わせに対応する前記テーブルと、を記憶する記憶手段として機能させるための学習プログラム。
コンピュータを、
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、
前記格納されているサンプル画像に均等に初期重みを付与する初期付与手段と、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、
複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と非オブジェクトである同時確率に前記初期重みをかけた値との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、
前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する選択手段と、
前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、
前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果に最も誤りが少ないサンプル画像から最も誤りが多いサンプル画像にかけて、重みが大きくなるように各サンプル画像に重みを更新して付与する更新付与手段として機能させ、
前記テーブル生成手段は、前記組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、
前記判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、
前記選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、
前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶することを特徴とする学習プログラム。
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、
前記格納されているサンプル画像に初期重みを付与する初期付与手段と、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、
異なる複数の前記特徴領域の組み合わせ方に対応する複数の学習経路を生成する学習経路手段と、
複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と非オブジェクトである同時確率に前記初期重みをかけた値との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、
前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択する第１の選択手段と、
前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、
前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果が誤りとなるサンプル画像に対して、重みが大きくなるように各サンプル画像の重みを更新して付与する更新付与手段と、を具備し、
前記テーブル生成手段は、前記組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、
前記判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、
前記第１の選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、
前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶し、
さらに、
前記学習経路に含まれている、特徴領域の組み合わせごとに、該組み合わせの損失を算出する手段と、
複数の前記算出された損失のうち、最小となる、特徴領域の組み合わせを選択する第２の選択手段と、を具備することを特徴とする学習装置。
前記学習経路生成手段は、前記特徴領域を組み合わせる際の特徴領域の数の上限値と、前記記憶手段によって記憶されるすべての特徴領域の数の上限値を超えない範囲で、前記特徴領域の組み合わせ方を決定することを特徴とする請求項２０に記載の学習装置。
検出対象であるオブジェクトと検出対象でない非オブジェクトとのサンプル画像をそれぞれ少なくとも１つ格納している格納手段と、
前記格納されているサンプル画像に初期重みを付与する初期付与手段と、
複数の画素領域を有する特徴領域を、各前記サンプル画像内に配置することが可能な数を上限として生成する特徴生成手段と、
全ての前記サンプル画像に対して、前記特徴領域ごとの特徴量として、異なる画素領域に異なる重みを付けた重み付け和を算出もしくは該重み付け和の絶対値を算出する算出手段と、
前記特徴領域ごとに、サンプル画像にオブジェクトがあるか否かで前記特徴量の生起確率を求め、該生起確率に基づいて前記算出された特徴量を複数の段階に量子化する量子化手段と、
複数の前記特徴領域の組み合わせを少なくとも１つ生成する組合せ生成手段と、
オブジェクトのサンプル画像と非オブジェクトのサンプル画像とに対して、前記組み合わせに対応する、前記量子化された特徴量を同時に観測する同時確率を求め、前記特徴領域の組み合わせと、前記特徴領域の組み合わせに対応する量子化された特徴量と、前記同時確率に前記初期重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成するテーブル生成手段と、
各組み合わせに対して、前記テーブルを参照し、オブジェクトである同時確率に前記初期重みをかけた値と非オブジェクトである同時確率に前記初期重みをかけた値との比があるしきい値よりも大きいか否かでサンプル画像がオブジェクトか否かを前記全てのサンプル画像に対して判定する判定手段と、
前記判定された特徴領域の組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせの第１の損失を算出する手段と、
前記選択された組み合わせによって全てのサンプル画像を判定した場合に、判定結果が誤りとなるサンプル画像に対して、重みが大きくなるように各サンプル画像の重みを更新して付与する更新付与手段と、
前記組み合わせより１個だけ特徴領域の数が少ない組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせに基づいて、前記更新付与手段により更新し、さらに１個の特徴領域を追加した場合に、特徴領域の組み合わせの第２の損失を算出する手段と、
前記第１の損失および前記第２の損失を比較し、損失の小さい特徴領域の組み合わせを選択する手段と、
前記選択された特徴領域の組み合わせと、該特徴領域の組み合わせに対応する前記テーブルと、を記憶する記憶手段と、を具備し、
前記テーブル生成手段は、前記組み合わせと、前記同時確率に前記更新付与手段で得られた重みをかけた値と、サンプル画像がオブジェクトであるか非オブジェクトであるかの情報と、を有するテーブルを生成し、
前記判定手段は、前記同時確率に前記更新付与手段で得られた重みをかけた値に基づいて判定し、
前記選択手段は、前記更新付与手段で得られた重みに基づいて判定された組み合わせのうち、全てのサンプル画像に対して判定結果に最も誤りが少ない組み合わせを選択し、
前記記憶手段は、前記選択手段で選択された最も誤りが少ない組み合わせと、該組み合わせに対応する前記テーブルと、を新たに追加して記憶することを特徴とする学習装置。