JP5707570B2

JP5707570B2 - 物体識別装置、物体識別方法、及び、物体識別装置の学習方法

Info

Publication number: JP5707570B2
Application number: JP2010228728A
Authority: JP
Inventors: 芸芸曹; 竹内　大介; 大介竹内; 西村　洋文; 洋文西村
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2010-03-16
Filing date: 2010-10-08
Publication date: 2015-04-30
Anticipated expiration: 2030-10-08
Also published as: JP2011216069A

Description

本発明は、物体識別装置、物体識別方法、及び、物体識別装置の学習方法に関する。

画像に含まれる検出対象物体（例えば、人物、車両など）を検出する技術では、機械学習を用いたパターン認識技術が幅広く知られている。一方、検出対象物体が人物の場合には、姿勢が変化することなどにより、検出対象物体の外観（ａｐｐｅａｒａｎｃｅ）が変化する。従って、従来から、検出対象物体のポーズ（例えば、人の姿勢、車両の各側面）ごとに識別器を構築する方法が提案されている。

図１６は、特許文献１に記載された従来の物体識別装置である。図１６において、従来方法の物体識別装置８００においては、検出対象物体のポーズごとに識別器８０１が構築されていた。識別器８０１は、複数の強識別器８０２を含む。

図１７は、従来の物体識別装置８００における強識別器８０２を示す。強識別器８０２は、複数の弱識別器９０１、結合部９０２、閾値判定部９０３を含み、複数の弱識別器を並列に結合させたものである。

ここで、弱識別器９０１は、検出対象物体（例えば、人物）の各特徴部（例えば、頭部、脚部、胸部など）を識別するための比較的性能の低い識別器であり、弱識別器を並列に結合（Σ）させた識別器が強識別器８０２である。強識別器８０２に含まれる弱識別器は、事前に行われる機械学習によって構成が決定される。

従来の機械学習においては、検出対象物体を含む画像データであるポジティブサンプルが画像データ収集者によってポーズごとに分類され、分類されたポジティブサンプルと、検出対象物体を含まない画像データであるネガティブサンプルとに基づいて機械学習されて、学習の結果として複数の弱識別器が生成される。

人物画像のように外観や背景が複雑な画像を識別する場合など、大規模のネガティブサンプルを必要とする場合には、識別器を直列状（物体識別装置はＡＮＤ、ＯＲに対して並列接続、学習においては直列接続＝カスケード接続）（カスケード接続：ＣａｓｃａｄｉｎｇＣｏｎｎｅｃｔｉｏｎ）構造にして、ブートストラップ（ｂｏｏｔｓｔｒａｐ）法を用いる機械学習が従来から用いられる。

ブートストラップ法においては、予め定めた種類のポーズごとに、収集されたポジティブサンプルが収集者によって分類され、各ポーズのポジティブサンプルと、例えば、カスケード構造のｉ段目を学習する場合、初段である１段目から（ｉ−１）段目までにＴｒｕｅ(Ｙｅｓ)の結果が出されたネガティブサンプルを集めたネガティブサンプルデータセットと基づいて、後述する弱識別器の「特徴情報」及び「識別情報」など弱識別器を構成する数値パラメータが算出され、カスケード構造の識別器が構築される。なお、ブートストラップ法は公知技術であるため、詳細な説明は省略する。

以下、ブートストラップ法でネガティブサンプルを収集して、ブースティング機械学習で構成された、従来の物体識別装置について説明する。

物体識別装置８００には、識別対象画像データの部分画像である窓画像が入力される。窓画像（部分画像）は、当該画像データにおいて、スキャンされた画像データである。

各識別器８０１に入力された窓画像（部分画像）は、強識別器８０２を介して、各弱識別器９０１へ入力される。各弱識別器９０１は、入力された窓画像（部分画像）から、弱識別器９０１に対応して保持された「特徴情報」（ＨｏＧ：位置情報とサイズ情報、ＣｏＨｏＧ：エッジのペア）に基づいて、「特徴量」（ＨｏＧ：ベクトル情報、ＣｏＨｏＧ：ベクトル情報、ウェーブレット：浮点数）を算出する。

例えば、特徴量としてＨｏＧ（ＨｉｓｔｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）を用いた場合においては、画像データの特徴情報である“位置情報およびサイズ情報”に基づいて、特徴情報に該当する画像データの部分について、特徴量である“ベクトル情報”が算出される。また、特徴量としてＣｏＨｏＧ（Ｃｏ−ｏｃｃｕｒｒｅｎｃｅＨｉｓｔｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）を用いた場合においては、画像データの特徴情報である“位置情報”および“エッジのペア”に基づいて、特徴量である“ベクトル情報”が算出される。

各弱識別器９０１は、算出された特徴量と、検出対象か否かを判定するために予め保持された「識別情報」（例えば、ＨｏＧ：識別面ベイシスベクター（ｂａｓｉｓＶｅｃｔｏｒ））とに基づいて、検出対象らしさを表す「推定値」ｈｉ（ｉ：１からｎの整数）が算出され、弱識別器９０１から出力される。なお、数値“ｎ”は弱識別器の数である。

例えば、特徴量としてＨｏＧを用いた場合においては、算出された特徴量と識別情報との内積が算出され、算出された内積値を正規化し、予め保持された規格化テーブル（ＬｏｏｋＵｐＴａｂｌｅ）との対比により推定値ｈｉが算出される。

結合部９０２は、各弱識別器９０１から出力された推定値ｈｉを取得し、並列結合された推定値Ｈを出力する。閾値判定部９０３は、入力された推定値Ｈが、予め保持された所定の閾値以上か否かを判定し、閾値以上である場合には、Ｙｅｓ（Ｔｒｕｅ）としてデジタル信号“１”を出力し、閾値以上でない場合には、Ｎｏ（Ｆａｌｓｅ）としてデジタル信号“０”を出力する。なお、以下の説明ではＹｅｓが“１”、Ｎｏが“０”として説明するが、Ｙｅｓが“０”、Ｎｏが“１”でもよい。

なお、推定値ｈｉは弱識別器９０１から出力され、推定値Ｈは強識別器８０２から出力される。

以上の動作が強識別器８０２−１ｉ〜Ｔｉ（ｉ：１からＫの整数）において実施され、識別器８０１−ｉにおいて論理積（ＡＮＤ）演算される。従って、強識別器８０２−１ｉ〜Ｔｉの出力が何れか１つでも非検出対象物体であると判定すれば、出力はＮｏ（Ｆａｌｓｅ）として“０”が出力される。

なお、所定の識別器８０１において強識別器がＴ個存在するのは、ブートストラップ学習過程において、ネガティブサンプルを使い切るのに十分な段数として確保されるためである。

識別器８０１−ｉ（ｉ：１からＫの整数）から出力された１／０データは、論理和（ＯＲ）演算されて判定部８０３に出力される。すなわち、何れか１つのポーズについての識別器の出力がＹｅｓ（Ｔｒｕｅ）であれば、判定部８０３において検出対象物体であると判定される。

以上のようにして、複数の強識別器８０２によって検出対象物体の画像データが含まれているか否かが判定され、ポーズごとに得られた判定結果に基づいて、入力された画像データに含まれる物体が識別される。

特開２００４−１４５８１８号公報

しかしながら、上記従来の物体識別装置においては、各ポーズに関して、複数の強識別器を用いて得られた検出対象物体画像の判定結果を、全てのポーズに関してまとめることにより、物体の識別結果として評価結果を出力していた。そのため、第１のポーズに関する識別処理経過を、第２のポーズに関する識別処理に対して反映させることができず、識別処理の最終段階まで、全てのポーズを用いた総合的な判定を行うことができなかった。また、従来の物体識別装置８００においては、検出対象物体のポーズごとに構築された識別器８０１の識別精度が、ポジティブサンプルのデータ収集者の主観によって影響を受けた。

本発明は、従来の課題を解決するもので、ポジティブサンプルのデータ収集者の主観の影響を受けずに、且つ、全てのポーズを用いた総合的な判定を行うことができる物体識別装置、物体識別方法、及び、物体識別装置の学習方法を提供することを目的とする。

本発明の一態様の物体識別装置は、着目する特徴の異なる複数のクラスに基づいて、検出処理対象画像に映された物体を識別する物体識別装置であって、前記検出処理対象画像に識別対象物体画像が含まれているか否かを判定する複数の識別ユニットと、前記複数の識別ユニットから取得された判定結果の全てが「真」信号である場合に、前記検出処理対象画像に識別対象物体画像が含まれていると最終判定する最終判定部と、を具備し、前記識別ユニットは、並列に接続され、且つ前記複数のクラスに含まれる所定のクラスに其々対応する複数の強識別器と、前記複数の強識別器のうち少なくとも１つの前記強識別器が前記検出処理対象画像に識別対象物体画像が含まれていると判定する場合に、「真」信号を出力するＯＲ演算部と、を有する。

本発明の一態様の物体識別方法は、着目する特徴の異なる複数のクラスに基づいて、検出処理対象画像に映された物体を識別する物体識別方法であって、前記検出処理対象画像に識別対象物体画像が含まれているか否かを判定する複数の識別ステップと、前記複数の識別ステップにおける判定結果が全て「真」信号である場合に、前記検出処理対象画像に識別対象物体画像が含まれていると最終判定する最終判定ステップと、を具備し、前記識別ステップは、前記複数のクラスに含まれる所定のクラスに其々対応する複数の強識別器が、前記検出処理対象画像に識別対象物体画像が含まれているか否かをする判定ステップと、前記複数の強識別器のうち少なくとも１つの前記強識別器が前記検出処理対象画像に識別対象物体画像が含まれていると判定する場合に、「真」信号を出力するＯＲ演算ステップと、を有する。

本発明の一態様の物体識別装置の学習方法は、上記した物体識別装置の学習方法であって、ｋ（ｋは、１より大きくＴ以下の自然数であり、Ｔは、識別ユニットの数であって２以上の自然数である）番目の識別ユニットに属する強識別器を学習する学習ステップでは、１番目からｋ−１番目の識別ユニットについて既に構築された強識別器を用いて、ポジティブサンプルであると誤検出されるネガティブサンプルが所定数だけ収集され、前記収集されたネガティブサンプル群及び事前収集したポジティブサンプル群を用いて、所定の学習検出率を満たし且つ最小の誤検出率となる強識別器候補の組み合わせが探索されると共に、当該探索された組み合わせの強識別器候補が、ｋ番目の識別ユニットの強識別器として設定される。

本発明によれば、物体識別精度を向上する物体識別装置、物体識別方法、及び、物体識別装置の学習方法を提供することができる。

本発明の一実施の形態に係る物体識別装置の構成を示すブロック図物体識別部の構成を示すブロック図強識別器の構成を示すブロック図特徴抽出領域が一つのブロックから構成されている場合において、ブロックから輝度勾配方向ヒストグラムを計算する計算方法の説明に供する図図４におけるブロックの拡大図エッジ方向の分類方法の説明に供する図ヒストグラムの一例を示す図一つの特徴抽出領域が二つのブロックを持つ場合において、ブロックから輝度勾配方向ヒストグラムを計算する計算方法の説明に供する図図８におけるブロックの拡大図ヒストグラムの一例を示す図連結ヒストグラムを示す図物体識別装置の動作説明に供するフロー図物体識別部を獲得するための学習処理フロー図３ポーズ識別器の最適な閾値の組み合わせ概念図重み更新処理に係るフロー図従来の物体識別装置の構成を示すブロック図従来の物体識別装置における強識別器のブロック図

以下、本発明の一実施の形態について図面を参照して詳細に説明する。なお、実施の形態において、同一の構成要素には同一の符号を付し、その説明は重複するので省略する。

［物体識別装置１００の構成］
図１は、本発明の一実施の形態に係る物体識別装置１００のブロック構成図を示す。図１において、物体識別装置１００は、画像取得部１０１と、画像サイズ調整部１０２と、画像スキャン部１０３と、物体識別部１０４と、識別結果出力部１０５とを有する。

〈画像取得部１０１〉
画像取得部１０１は、例えばカメラなどの撮像部から画像を取得し、取得された画像を画像サイズ調整部１０２に出力する。

〈画像サイズ調整部１０２〉
画像サイズ調整部１０２は、画像取得部１０１から取得された画像を複数のスケールに縮小又は拡大して画像サイズの調整を行うことにより、互いにサイズの異なる複数の画像を生成し、縮小又は拡大された複数の画像を画像スキャン部１０３へ出力する。

通常、画像取得部１０１から取得された画像のサイズは一定であるが、取得された画像に含まれる対象物体画像のサイズは不定である。一方、後述する物体識別部においては、対象物体画像のサイズが一定であることを前提として、弱識別器に保持される特徴情報が定められているため、適切に特徴量を算出するためには対象物体画像のサイズを統一する必要がある。そのため、取得された画像を幾つかのサイズに縮小又は拡大することによって、対象物体画像のサイズを所定のサイズ又はその近傍のサイズに変更させる。

例えば、画像サイズ調整部１０２は、１．２の比率で、縮小３回、拡大３回を行い、元の入力画像と合わせて７個の画像を生成し、画像スキャン部１０３へ出力する。係る場合、対象物体画像のサイズは、取得された画像に含まれる対象物体画像のサイズに対する縮小拡大率が、（０．５８、０．６９、０．８３、１、１．２、１．４４、１．７３）の７個の対象物体画像が生成される。生成された７個の画像は、全て画像スキャン部へ出力されて、全てスキャンの対象になる。なお、画像取得部１０１から取得される画像のサイズは、例えば６４０ｘ４８０のサイズである。

〈画像スキャン部１０３〉
画像スキャン部１０３は、画像サイズ調整部１０２から取得された複数の画像の各々を、所定サイズ（例えば、７つ全ての画像に対して６４ｘ１２８）の窓でスキャンして、部分画像データとして切り取り、物体識別部１０４へ出力される。

〈物体識別部１０４〉
物体識別部１０４は、画像スキャン部１０３から取得された部分画像データに、識別対象物体の画像が含まれているか否かを判定する。この判定結果は、識別結果出力部１０５へ出力される。

具体的には、物体識別部１０４は、図２に示すように、識別ユニット１１１−１〜Ｔと、ＡＮＤ演算部１１２と、判定部１１３とを有する。なお、後述する機械学習手法による学習において、Ｔ段のカスケード構造を採るため、識別ユニットはＴ個存在する。

各識別ユニット１１１−１〜Ｔは、ＡＮＤ演算部１１２によって接続され、それぞれ強識別器１２１−ｓ１〜ｓＫ（ｓ：１からＴの整数）と、ＯＲ演算部１２２−ｓ（ｓ：１からＴの整数）とを有する。各識別ユニット１１１−１〜Ｔは、部分画像データを取得し、部分画像データに対象物体（例えば、人物）の画像データが含まれているか否かを多ポーズについて判定する。

強識別器１２１−ｓ１〜ｓＫ（ｓ：１からＴの整数））は、識別ユニット１１１−ｓ（ｓ：１からＴの整数）にＫ個含まれ、それぞれ並列にＯＲ演算部１２２−ｓ（ｓ：１からＴの整数）によって接続されている。各識別ユニット１１１に含まれる強識別器１２１の数“Ｋ”は、各識別ユニット１１１において識別される対象物体のポーズの数と同じである。なお、識別ユニット１１１に含まれる強識別器１２１の数“Ｋ”は、クラスとも言われる。すなわち、識別ユニット１１１においては、Ｋ個のポーズ（例えば、対象物体が人物の場合、正面又は側面など）を基準として、部分画像に対象物体の画像データが含まれているか否かを判定する。

ここで、強識別器１２１−１１、強識別器１２１−２１、…、強識別器１２１−Ｔ１のそれぞれのクラス（ポーズ）は同一となるわけではない。また、各識別ユニット１１１のクラス（ポーズ）の組み合わせが同一となるわけではない。すなわち、物体識別部１０４における各識別ユニット１１１は、相互に独立にクラス（ポーズ）の組み合わせが選択される。各識別ユニット１１１のクラス（ポーズ）の組み合わせは、後述する機械学習法の学習段階において設定され、カスケード構造の各段で学習する場合に、ポジティブサンプルセットは各段で同一だが、ネガティブサンプルセットは各段で異なるためである。

このように、物体識別部１０４における各識別ユニット１１１は、相互に独立にクラス（ポーズ）の組み合わせが選択されるために、本実施の形態１における物体識別部１０４は、所定のポーズに関する識別処理経過を、別のポーズに関する識別処理に対して反映させることができ、全てのポーズを用いた総合的な判定を行うことができる。

ＯＲ演算部１２２−ｓ（ｓ：１からＴの整数）は、識別ユニット１１１−ｓ（ｓ：１からＴの整数）に設けられた強識別器１２１−ｓ１〜ｓＫ（ｓ：１からＴの整数）のうち何れか１つの強識別器が、取得された部分画像データに対象物体の画像データが含まれていると判定する場合に、Ｙｅｓ（Ｔｒｕｅ）としてデジタル信号“１”を出力する。

ＡＮＤ演算部１１２は、全ての識別ユニット１１１の判定結果を論理積（ＡＮＤ）演算する。すなわち、全ての識別ユニット１１１において、部分画像に対象物体の画像データが含まれていると識別した場合に、ＡＮＤ演算部１１２は、Ｙｅｓ（Ｔｒｕｅ）としてデジタル信号“１”を出力する。

判定部１１３は、識別ユニット１１１−１〜Ｔの全ての識別ユニット１１１からＹｅｓ（Ｔｒｕｅ）信号を取得した場合にのみ、対象画像に対象物体の画像データが含まれていると判定し、判定結果を識別結果出力部１０５へ出力される。

このように、物体識別部１０４は、識別ユニット１１１−１〜Ｔが並列に接続された構造を有している。各識別ユニット１１１は、物体識別部１０４における全体処理に対して部分処理を行う。従って、各識別ユニット１１１は、物体識別部１０４の全体処理における「ステージ」と呼ばれることがある。

図３は、強識別器１２１の構成を示すブロック図である。図３において、強識別器１２１は、弱識別器１３１−１〜ｎと、結合部１３２と、閾値判定部１３３とを有する。

弱識別器１３１−１〜ｎは、後述する機械学習によって予め獲得された特徴情報１〜ｎを保持する。特徴情報１〜ｎは、例えば、特徴量としてＨｏＧを用いた場合においては「位置情報とサイズ情報」を表し、特徴量としてＣｏＨｏＧを用いた場合においてはエッジのペアを表す。

弱識別器１３１−１〜ｎは、画像スキャン部１０３で切り取られた部分画像を取得し、予め保持された各弱識別器１３１に対応する特徴情報１〜ｎに基づいて、各弱識別器１３１−１〜ｎに対応した特徴量を算出する。なお、弱識別器１３１−１〜ｎは、特徴量１〜ｎに対応した数だけ設けられており、数“ｎ”は後述する機械学習において定まる。

ここで、特徴量の算出について、具体的に説明する。

（１）例えば、特徴量としてＨｏＧを用いた場合においては、画像データの特徴情報である“位置情報およびサイズ情報”に基づいて、所定のブロックについて、特徴量である“輝度勾配方向ヒストグラムというベクトル情報”が算出される。ここで、ブロックとは、画像の部分領域である。すなわち、上記した、特徴量が算出される所定のブロックとは、特徴情報に該当する画像データにおいて区分けされた複数の部分領域の内のいずれかである。なお、複数のブロックからなる部分領域を特徴抽出領域とし、さらに、特徴抽出領域を構成する各ブロックに対応する特徴情報のすべてを纏めて一つの特徴情報として用いることにより、所定の特徴抽出領域について特徴量である“輝度勾配方向ヒストグラムというベクトル”を求めても良い。

（１−１）特徴抽出領域が一つのブロックから構成されている場合において、ブロックから輝度勾配方向ヒストグラムを計算する計算方法について、図４を用いて説明する。図４において、矩形領域Ａ５０１は、画像スキャン部１０３によって部分画像データとして切り出された画像（例えば、６４ｘ１２８）に対してエッジ抽出を行った後の画像を示す概念図である。図４に示される例では、部分画像データに、人物の全身に対応する画像データが含まれている。エッジ抽出処理には、キャニー法又はＬｏＧ（Laplacian of Gaussian）フィルタ等の一般的なエッジ抽出方法が採用される。従って、エッジ抽出処理では、一定の閾値が設けられ、この閾値に基づいてエッジが存在すると判定される画素を１、エッジが存在しないと判定される画素を０とする、２値化処理が行われる。

特徴量としてＨｏＧが用いられる場合、各特徴情報に対して「位置情報とサイズ情報」が対応する。従って、各特徴情報に対応する画像の領域を決定することができる。すなわち、図４に示される矩形領域（ブロック）Ａ５０２は、座標（Ｃ５０３，Ｃ５０４）を位置情報とし、且つ、幅Ｌ５０５、高さＬ５０６をサイズ情報とする、ブロックである。ブロックＡ５０２には、人物の頭部左側のエッジが含まれている。

図５は、図４におけるブロックＡ５０２の拡大図である。図５では、ブロックＡ５０２の幅Ｌ５０５が８ピクセルに相当し、高さＬ５０６が９ピクセルに相当する。そして、図５において、黒く塗りつぶされた領域は、エッジが存在する画素を示している。

そして、エッジが存在する画素が１つ検出されると、次に、その画素（つまり、注目画素）に隣接する周りの８画素について、エッジが存在するか否かが判定される。これにより、連続するエッジの方向が調べられる。エッジ方向は、例えば、図６のように分類される。図６では、エッジ方向が４方向に分類されている。図５における画素Ｐ５０１に注目する場合、画素Ｐ５０１に対して左上の画素及び右下の画素にエッジが存在するので、方向４に２つのエッジが存在することになる。このエッジ方向の検出処理は、エッジが存在する全ての画素のそれぞれを注目画素として行われる。これにより、エッジの方向のヒストグラムが作成される。図７には、ヒストグラムの一例として、図５に示されるブロックＡ５０２について作成されたヒストグラムが示されている。図７に示されるヒストグラムは、方向１には２画素、方向２及び方向３のそれぞれには４画素、方向４には６画素のエッジが存在することを示している。これらの各方向の画素数を要素とする４次元ベクトル（２、４、４、６）が、特徴量として用いられる。なお、図４乃至７では、１つの特徴抽出領域が１つのブロックから構成される場合について説明したが、上述の通り、１つの特徴抽出領域は、複数のブロックから構成されていても良い。

（１−２）一つの特徴抽出領域が二つのブロックを持つ場合において、ブロックから輝度勾配方向ヒストグラムを計算する計算方法について、図８を用いて説明する。図８において、ブロックＡ５０２は、図４で説明したものと同様である。図８における２つ目のブロックでブロックＡ５２０は、座標（Ｃ５２１，Ｃ５２２）を位置情報とし、且つ、幅Ｌ５２３、高さＬ５２４をサイズ情報とする、ブロックである。

図９は、図８におけるブロックＡ５２０の拡大図である。ブロックＡ５２０においても、ブロックＡ５０２と同様に、エッジ方向のヒストグラムが導出される。図１０には、ヒストグラムの一例として、図９に示されるブロックＡ５２０について作成されたヒストグラムが示されている。従って、図１０に示されるヒストグラムからは、４次元ベクトル（０，０，１２，０）が特徴量として抽出される。

ここでは、１つの特徴抽出領域が２つのブロックを持っているので、その１つの特徴抽出領域の全体の特徴量としては、単純に、ブロックＡ５０２の特徴量（２，４，４，６）とブロックＡ５２０の特徴量（０，０，１２，０）とを加算することによって求められる、４次元ベクトル（２，４，１６，６）が用いられても良い。又は、特徴量の次元を拡張し、８次元ベクトル（２，４，４，６，０，０，１２，０）が、特徴量として用いられても良い。この特徴量は、図１１に示す、ブロックＡ５０２についてのヒストグラムとブロックＡ５２０についてのヒストグラムとを連結した連結ヒストグラムから求められる特徴量に相当する。

なお、図４乃至図１１を用いた上記説明では、説明を簡略化するために、エッジ抽出処理において２値化処理が用いられる場合を用いて説明した。しかしながら、これに限定されるものではなく、全ての画素においてエッジの強度を求め、エッジの強度を用いてエッジ方向を分類してヒストグラムを作成しても良い。又は、求めたヒストグラムに対して、さらに、正規化処理が施された後に、特徴量が求められても良い。また、１つの特徴抽出領域に含まれるブロック数は、２つまでに限定されるものではなく、３つ以上であっても良い。
（２）また、特徴量としてＣｏＨｏＧを用いた場合においては、画像データの特徴情報である“位置とエッジのペア情報”に基づいて、特徴量である“ベクトル情報”が算出される。なお、ここではＨｏＧ、ＣｏＨｏＧについて説明したが、他の特徴量（例えば、Ｅｄｇｅｌｅｔなど）を用いて画像認識した場合でも良く、本発明を限定するものではない。

以上が、特徴量の算出についての具体的な説明である。

図３に戻り、弱識別器１３１−１〜ｎは、予め学習によって獲得された特徴情報と、更に、それに対応する識別情報を有する。識別情報は、検出対象か否かを判定するために弱識別器１３１において予め保持された情報であり、後述する機械学習において算出される。識別情報は、例えば、特徴量としてＨｏＧを用いた場合においては、識別面ベイシスベクター（ｂａｓｉｓＶｅｃｔｏｒ）を表す。なお、識別情報として、推定値を算出するための規格化テーブル（ＬｏｏｋＵｐＴａｂｌｅ）を、更に含んでもよい。

ここで、弱識別器１３１を構成する識別情報などの数値パラメータは、事前に、後述する機械学習によって算出されることについて説明する。

物体識別装置１００によって対象物体を識別しようとする場合には、事前に、トレーニング画像として大量の対象物体の画像（ポジティブサンプル）と対象物体が含まれない画像（ネガティブサンプル）を用いて、検出対象物体の特有の特徴情報を求め、後述する機械学習手法（ブースティング手法）により学習を行うことにより、各弱識別器１３１−１〜ｎが構築される。各弱識別器１３１には、対象物体（たとえば、人物）の画像の各特徴情報１〜ｎ、及び、各特徴情報１〜ｎに対応した識別情報が保持される。

すなわち、特徴情報１〜ｎは、対象物体の特徴を特定するための情報であり（例えば、人物画像を、ＨｏＧを特徴量として用いて検出する場合には、画像の所定の位置における所定サイズのブロックにおいて、輝度勾配方向ヒストグラムの特徴が現れるため、「位置と大きさ」が特徴情報となる）、識別情報は、部分画像において対象物体の各特徴１〜ｎを識別するための情報である。なお、特徴１〜ｎは、例えば、人物画像であれば頭部、肩のライン、脚部などの部品のエッジ統計情報である。

そして、物体識別装置の画像識別時には、予め学習によって得られた特徴１〜ｎに対応する特徴情報１〜ｎに基づいて特徴量を求め、特徴量と、それに対応する「識別関数」とを用いて、各特徴情報に対応する検出対象物体であるらしさを示す推定値ｈ_１〜ｈ_ｎが出力される。「識別関数」は、推定値を算出するための関数である。

具体的には、算出された特徴量と識別情報のベイシスベクターとの内積が算出され、算出された内積値を正規化し、予め保持された規格化テーブルとの対比により推定値ｈｉが算出される。

ここで、特徴１〜ｎに対応する弱識別関数は、学習過程で下記式（１）によって求められる。すなわち、式（１）によって、損失関数Ｌを最小にするｈが、弱識別器として求められる。この学習処理については、後に詳しく説明する。

結合部１３２は、推定値ｈ_１〜ｈ_ｎを足し合わせることにより、推定値Ｈを得る。この足し合わせは、下記式（２）を用いて行われる。

ここで、ｎは、１つの強識別器１２１に含まれる弱識別器１３１の数であり、ｘは、識別対象画像を意味する。なお、各ｈｉ（ｘ）に対して、重みαを積算した結果を足し合わせてもよい。

閾値判定部１３３は、推定値Ｈを閾値判定し、推定値Ｈが所定の閾値以上の場合には（等号含む）、入力画像が人物画像であると判定し、判定結果をＯＲ演算部１２２へ出力する。当該所定の閾値は、学習過程において算出されるが、詳細は後述する。

〈識別結果出力部１０５〉
識別結果出力部１０５は、物体識別部１０４から判定結果を表示部（図示せず）へ表示させる。

［物体識別装置１００の動作］
以上の構成を有する物体識別装置１００の動作について説明する。図１２は、物体識別装置の動作説明に供するフロー図である。

〈物体識別処理フロー〉
ステップＳ２０１で画像サイズ調整部１０２は、画像取得部１０１にて取得された画像を、一定のスケールで縮小又は拡大し、サイズ調整後の画像群を画像スキャン部１０３へ出力する。

ステップＳ２０２で画像スキャン部１０３は、画像サイズ調整部１０２から受け取る画像群のそれぞれを、所定サイズ（例えば、６４ｘ１２８）の窓でスキャンしつつ部分画像を切り取る。切り取った部分画像は、物体識別部１０４へ出力される。

ステップＳ２０３では、ステージ番号及びポーズ番号が初期設定される。ステージ番号は、上述の通り、識別ユニット１１１の番号（１〜Ｔ）に対応する。また、ポーズ番号は、上述の通り、各識別ユニット１１１に設けられる強識別器１２１の番号（１〜Ｋ）に対応する。こうして初期設定されることにより、識別ユニット１１１−１における強識別器１２１−１１から、処理が開始される。

ステップＳ２０４で強識別器１２１−１１は、推定値Ｈを算出する。

ステップＳ２０５で強識別器１２１−１１は、ステップＳ２０４で算出した推定値Ｈと閾値とを比較する。

この比較の結果、算出した推定値Ｈが閾値以下の場合（ステップＳ２０５：ＮＯ）には、強識別器１２１−１１は、ステップＳ２０６で識別ユニット１１１内の最終番号Ｋの強識別器１２１であるかを判定する。

最終番号Ｋでない場合（ステップＳ２０６：ＹＥＳ）には、ステップＳ２０７でポーズ番号を１つ増やされて、ステップＳ２０４で強識別器１２１−１２の処理が開始される。

こうしてステップＳ２０４〜Ｓ２０７で構成されるループでは、任意の識別ユニット１１１において、その任意の識別ユニット１１１に設けられたＫ個の強識別器１２１の１つでも、算出した推定値Ｈが閾値より大きければ、次のステージに処理が進み（ステップＳ２０９）、算出した推定値Ｈが閾値より大きくならずに番号Ｋの強識別器１２１までの処理が完了した場合に「偽信号（Ｆａｌｓｅ結果）」が出力され（ステップＳ２０８）、処理が終了する。

ステップＳ２０９でステージ番号が順次インクリメントされ、ステップＳ２１０で処理対象のステージ番号が実在するステージ番号Ｔを超えていなければ、ステップＳ２１１でポーズ番号が１に戻されることにより、次のステージのポーズ番号１の強識別器１２１から、再び処理が開始される（ステップＳ２０４）。ステップＳ２０４，Ｓ２０５，Ｓ２０９〜Ｓ２１１で構成されるループは、ステップＳ２０９で求められるステージ番号がＴを超えるまで繰り替えされる。

そして、全てのステージで「偽」信号が出力されることなく、つまり、全てのステージで１つの強識別器１２１からでも「真」信号が出力されれば、物体識別部１０４は、「真信号（true結果）」を出力する（ステップＳ２１２）。

〈物体識別部１０４を獲得するための学習処理フロー〉
図１３は、物体識別部１０４を獲得するための学習処理フロー図である。

本実施の形態において、基本学習手法として、Ｒｅａｌ−ＡｄａＢｏｏｓｔが採用される。すなわち、弱識別器を選ぶ基準である損失関数Ｌには、下記式（３）が用いられる。

ただし、ｍはサンプル数であり、ｙ_ｉは、ｉ番目（ｉ：１〜ｍ、ｉはサンプル番号を示す）サンプルがポジティブサンプルの場合は“１”となり、ネガティブサンプルの場合は“−１”となる。また、Ｈ^kは、ｋ番目ポーズの強識別器１２１で得られた推定値である。

また、各ステージにおける多クラスの識別器に関する学習方法は、「独自のＭｕｌｔｉ−ＰｏｓｅＬｅａｒｎｉｎｇ」と呼ばれ、クラスはポーズ（ｐｏｓｅ）とも呼ばれる。

ステップＳ３０１では、ステージ番号ｔ＝１がセットされる。つまり、ステージ番号が初期化され、ステージ１から学習処理が開始される。

ステップＳ３０２では、先ず、所定数のネガティブサンプルが読み出される。具体的には、ｔ＝１の場合には、予め用意されているネガティブサンプルデータセットから所定数のネガティブサンプルが読み出され、これがステージ１のネガティブサンプルセットとして用いられる。一方、ｔ＞１の場合には、既に構築されているステージ（ｔ−１）までの識別ユニット１１１を用いてネガティブサンプルセット中のサンプルが識別され、「真」と判定されたネガティブサンプル（つまり、誤認識されたネガティブサンプル）が所定数まで収集される。この収集されたネガティブサンプルが、ステージｔの学習用ネガティブサンプルセットとして用いられる。

次に、ポジティブサンプルセットとネガティブサンプルセットとから、弱識別器１３１の候補となる全ての特徴が、抽出される。ここで弱識別器１３１の候補とは、特徴情報のことである。従って、一つの候補に対して、すべてのサンプルからの特徴量が計算される。

なお、上記（１−１）のように、特徴量がＨｏＧ特徴量で、特徴抽出領域が一つのブロックから構成されている場合には、一つの特徴情報（つまり、一つの”位置情報およびサイズ情報”）によって規定されるブロックが、候補になる。

また、上記（１−２）のように、特徴抽出領域が二つのブロックからなる場合には、二つのブロックの組み合わせが候補になる。この時、二つのブロックは、領域が重ならないように設定されても良い。また、二つのブロックについて位置及びサイズが全く同じになる場合には、その二つのブロックが候補から削除される等の条件が設けられても良い。

さらに、二つ以上のブロックの組み合わせの数が膨大になり、候補の数も膨大になる場合には、次の処理を行っても良い。すなわち、まず、一つのブロックを特徴抽出領域として予備的な学習を行い、この学習の結果から物体を識別するのに有望であったブロックを選別する。次に、これら選別したブロックに限定してブロックの組み合わせを設定する。これにより、特徴抽出領域の候補数を削減することができる。

ステップＳ３０３では、学習の初期化が行われる。具体的には、各サンプルの重みと各ポーズ推定値とが初期化される。サンプル数をｍ、ポーズ数をＫ、ステージ数をＴとすると、ｔ＝１の時には、各サンプルの重みは、１／ｍとされ、各ポーズ推定値は、ゼロとされる。一方、ｔ＞１の時には、各サンプルの重みｗ_ｔ ^ｋと各ポーズ推定値Ｈ_ｔ ^ｋは、以下の式（４）で求められる。

ステップＳ３０４では、弱識別器１３１の番号ｉ＝１が設定される。

ステップＳ３０５では、ポーズ番号ｋ＝１が設定される。

すなわち、ステップＳ３０１、Ｓ３０４及びステップＳ３０５の設定により、ステージ１のポーズ１に対応する１つ目の弱識別器１３１を、弱識別器候補群の中から選択する処理が開始される。

ステップＳ３０６では、ステージ１のポーズ１に対応する１番目の弱識別器１３１の候補が、弱識別器候補群の中から１つ選択される。この選択された弱識別器候補を用いて、全てのサンプルに対して推定値ｈが求められると共に、既に構築が完了しているポーズ（強識別器）で求められた推定値Ｈと足される。ここでは、ポーズ１に対する処理なので、弱識別器候補を用いて算出された推定値ｈが、ポーズ１の推定値Ｈとして求められる。この処理は、全ての弱識別器候補に関して行われる。

ステップＳ３０７では、ステップＳ３０６で全ての弱識別器候補について求められた推定値Ｈに基づいて、式（３）で損失関数が求められ、損失関数を最小にする推定値ｈが求められる弱識別器候補をステージ１のポーズ１に対応する１番目の弱識別器１３１に決定する。

ステップＳ３０８では、設定されているｋがＫであるか否か（つまり、現在の処理対象がポーズＫに対する処理か否か）が判定される。ここでは、ポーズ１が処理対象であるので、ステップＳ３０９でｋの設定値がインクリメントされる。これにより、ポーズ２に対するステップＳ３０６の処理が開始される。

ポーズ２に対するステップＳ３０６では、ステージ１のポーズ２に対応する１番目の弱識別器１３１の候補が、弱識別器候補群の中から１つ選択される。この選択された弱識別器候補を用いて、全てのサンプルに対して推定値ｈが求められると共に、ポーズ２の初期推定値と足される。この処理は、全ての弱識別器候補に関して行われる。

ポーズ２に対するステップＳ３０７では、仮の構築が完了しているポーズ１の強識別器１３１で求められた推定値Ｈ¹と、ポーズ２に対するステップＳ３０６で全ての弱識別器候補について求められた推定値Ｈ^２および他のポーズのＨ^kに基づいて、式（３）で損失関数が求められ、損失関数を最小にする推定値Ｈ^２が求められる弱識別器候補をステージ１のポーズ２に対応する１番目の弱識別器１３１に決定する。

こうして、ステップＳ３０６〜Ｓ３０９で構成されるループは、ポーズＫの処理が完了するまで繰り返される。

こうして、ステージ１のポーズ１〜Ｋのそれぞれに対して、１番目の弱識別器１３１が仮決定される。ここで、同じ識別ユニットに属する強識別器間には、クラスの違いに拘わらず、同じポジティブ画像サンプル群が用いられている。

ステップＳ３１０では、ステージ１のポーズ１〜Ｋのそれぞれに対して、今回仮決定された１番目の弱識別器１３１が最適であるか否かが判断される。この最適であるか否かの判断では、例えば、前回仮決定した、ステージ１のポーズ１〜Ｋの１番目の弱識別器１３１の組み合わせと、今回仮決定した組み合わせとが一致するときに、最適であると判断される。

最適でない場合（ステップＳ３１０：ＮＯ）には、再度、ステップＳ３０５〜Ｓ３０９のループが繰り返される。このように、ステップＳ３０６〜Ｓ３１０のループによって、１つのステージのポーズ１〜Ｋの弱識別器１３１が、複数のポーズに跨った処理によって決定される。

一方、最適であると判定される場合（ステップＳ３１０：ＹＥＳ）には、そのステージ１のポーズ１〜ＫにおけるＫ個の１番目の弱識別器１３１のそれぞれに対する最適な閾値が決定される（ステップＳ３１１）。すなわち、そのステージ１のポーズ１〜ＫにおけるＫ個の１番目の弱識別器１３１に対して、最適な閾値の組み合わせが決定される。

具体的には、ステップＳ３１１では、ステージ１の全ての強識別器１２１における閾値のすべての組み合わせの中で、ステージ１に対して予め要求されているHit Rate精度を満たす組み合わせについて、誤識別率（ＦａｌｓｅＰｏｓｉｔｉｖｅＲａｔｅ）を計算し、誤識別率が最小になる閾値の組み合わせを、最適な閾値の組み合わせとする。

詳細には、ステップＳ３１１における処理は、次のように説明することができる。図１４は、閾値選択処理の説明に供する図である。図６では、説明を簡単にするために、ポーズが３つで、且つ、扱われる特徴量が２つの場合の特徴空間が、示されている。

ステップＳ３１０で最適な弱識別器の組み合わせが決定されることは、図１４に示すように、各ポーズについての識別面の方向が決定されることと等価である。従って、ステップＳ３１１では、各ポーズの識別面を、移動量を変えつつ平行移動させることにより、要求されているHit Rate精度を満たし且つ誤識別率が最小となる移動量が、決定されている。この最適な移動量が、上記した最適なしきい値となる。

図１３に戻り、ステップＳ３１２では、ステップＳ３１１で決定された最適な閾値の組み合わせに対して求めた誤識別率がチェックされ、予め規定された精度を満たしているか否かが判断される。

精度を満たす場合（ステップＳ３１２：ＹＥＳ）には、ステップＳ３１３で現在の処理対処のステージがステージＴであるか否かが判定され、ここではステージ１なので、フローがステップＳ３１４へ進む。これにより、次のステージであるステージ２についての処理が開始される。このとき、現在のステージまでに設定された強識別器１２１を用いて、「真」であると誤検出されるネガティブサンプルが所定数だけ収集され、この収集されたネガティブサンプル群が、次のステージの学習処理に用いられる。

一方、精度を満たさない場合（ステップＳ３１２：ＮＯ）には、ステップＳ３１５でステージ１の強識別器１２１に第２の弱識別器１３１が追加される。さらに、ステップＳ３１６では、各サンプルの重みが更新される。

図１５は、ステップＳ３１６における重み更新処理に係るフロー図である。この重み更新処理では、ポジティブサンプルとネガティブサンプルとが区別されて、ポジティブサンプルの重みとネガティブサンプルの重みとが、異なる方法で更新される。

まず、ステップＳ３１６における重み更新を式で表すと、例えば３ポースの場合、下記の式（５）で表される。

次に、図１５のフローを説明すると、ステップＳ４０１で処理対処サンプルが、サンプル番号ｊ＝１に設定される。

ステップＳ４０２では、番号１のサンプルがポジティブサンプルであるか否かが判定される。

ポジティブサンプルであると判定される場合（ステップＳ４０２：ＹＥＳ）には、ステップＳ４０３で番号１のサンプルの重みが、更新方法１によって更新される。ここでは、更新方法１には、上記した式（５−１）が用いられる。すなわち、ポーズ間での調整が行われる。一方、ネガティブサンプルであると判定される場合（ステップＳ４０２:ＮＯ）には、ステップＳ４０４で番号１のサンプルが、更新方法２によって更新される。ここでは、更新方法２には、上記した式（５−２）が用いられる。すなわち、ポーズごとの調整が行われる。

番号１のサンプルについて更新処理が終わると、処理対象サンプルの全てについて処理が完了したか否かについてステップＳ４０５で判定され、未だサンプルが残っている場合には、ステップＳ４０６で処理対象サンプルの番号が１つインクリメントされて、次のサンプル番号２のサンプルの処理に移行する。こうして、全てのサンプル（番号１〜ｍ）について、重み更新処理が行われる。

以上のようにして、物体識別部１０４を獲得するための学習処理が実行される。

以上のように本実施の形態によれば、物体識別装置１００において、複数の識別ユニット１１１が、検出処理対象画像に識別対象物体画像が含まれているか否かをそれぞれ事前判定し、判定部１１３が、全ての識別ユニットから「真」信号が出力される場合にのみ、検出処理対象画像に識別対象物体画像が含まれていると最終判定する。そして、各識別ユニット１１１は、並列に接続され且つそれぞれが複数のクラスの内の任意の組み合わせに対応する複数の強識別器１２１と、複数の強識別器１２１の内の１つでも検出処理対象画像に識別対象物体画像が含まれていると判定する場合に、「真」信号を出力するＯＲ演算部１２２とを具備する。

こうすることで、各ステージ（つまり、各識別ユニット１１１）において、複数のクラスからなる組み合わせを勘案した事前判定処理を実行することができるので、物体識別精度を向上することができる。

なお、上記説明では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。
また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

本発明の物体識別装置、物体識別方法、及び、物体識別装置の学習方法は、物体識別精度を向上するものとして有用である。

１００物体識別装置
１０１画像取得部
１０２画像サイズ調整部
１０３画像スキャン部
１０４物体識別部
１０５識別結果出力部
１１１識別ユニット
１１２ＡＮＤ演算部
１１３判定部
１２１強識別器
１２２ＯＲ演算部
１３１弱識別器
１３２結合部
１３３閾値判定部

Claims

処理対象である対象画像に含まれる所定の物体を識別する物体識別装置であって、
前記所定の物体の画像である物体画像が前記対象画像に含まれているか否かを判定する複数の識別ユニットと、
前記複数の識別ユニットから取得された判定結果の全てが「真」である場合に、前記対象画像に前記物体画像が含まれていると判定する最終判定部と、
を具備し、
前記識別ユニットは、
前記所定の物体の複数のポーズのうち所定のポーズに其々対応し、並列に接続された複数の強識別器と、
前記複数の強識別器のうち少なくとも１つの前記強識別器が前記対象画像に前記物体画像が含まれていると判定する場合に、「真」である旨を示す判定結果を出力するＯＲ演算部と、
を有する、
物体識別装置。
前記複数の強識別器のそれぞれに、ブースティング（boosting）アルゴリズムによる学習によって得られた識別関数が設定され、
前記ブースティングアルゴリズムでは、強識別器に適用される識別関数の算出時に、同じ識別ユニットに属する強識別器間には前記ポーズの違いに拘わらず同じポジティブサンプル画像群が用いられる、
請求項１に記載の物体識別装置。
各強識別器は、
少なくとも１つの弱識別器と、
前記弱識別器によって算出された推定値を足し合わせる結合部と、
前記足し合わされた推定値の合計と所定の閾値とを比較することにより、前記対象画像に前記物体画像が含まれているか否か判定する判定部と、
を有する、
請求項１に記載の物体識別装置。
対象画像に含まれる所定の物体を識別する物体識別方法であって、
前記所定の物体の画像である物体画像が前記対象画像に含まれているか否かを判定する複数の識別ステップと、
前記複数の識別ステップにおける判定結果の全てが「真」である場合に、前記対象画像に前記物体画像が含まれていると判定する最終判定ステップと、
を具備し、
前記識別ステップは、
前記所定の物体の複数のポーズのうち所定のポーズに其々対応し、並列に接続された複数の強識別器が、前記対象画像に前記物体画像が含まれているか否かを判定し、
前記複数の強識別器のうち少なくとも１つの前記強識別器が前記対象画像に前記物体画像が含まれていると判定する場合に、「真」である旨を示す判定結果を出力する、
物体識別方法。
請求項１に記載の物体識別装置の学習方法であって、
ｋ番目の識別ユニットに属する強識別器を学習する学習ステップでは、
１番目からｋ−１番目の識別ユニットについて既に構築された強識別器を用いて、ポジティブサンプルであると誤検出されるネガティブサンプルが所定数だけ収集され、
前記収集されたネガティブサンプル群及びポジティブサンプル群を用いて、所定の学習検出率を満たし且つ最小の誤検出率となる強識別器候補の組み合わせが探索されると共に、当該探索された組み合わせの強識別器候補が、ｋ番目の識別ユニットの強識別器として設定され、
ｋは、１より大きくＮ以下の自然数であり、Ｎは、識別ユニットの数であって２以上の自然数である、
学習方法。
前記学習ステップには、アダブースト（ＡｄａＢｏｏｓｔ）アルゴリズムが適用され、
前記学習ステップでは、前記組み合わせの探索の前に、前記収集されたネガティブサンプル群及び前記ポジティブサンプル群に対応する重みが更新され、
前記収集されたネガティブサンプル群に対応する重みの更新に適用される算出式と、前記ポジティブサンプル群に対応する重みの更新に適用される算出式とが、異なる、
請求項５に記載の学習方法。