JP2016151805A

JP2016151805A - オブジェクト検出装置、オブジェクト検出方法、及びプログラム

Info

Publication number: JP2016151805A
Application number: JP2015027557A
Authority: JP
Inventors: 荘介下山; Sosuke Shimoyama; 聡田端; Satoshi Tabata
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2015-02-16
Filing date: 2015-02-16
Publication date: 2016-08-22

Abstract

【課題】画像内のオブジェクトを効率的に検出する検出装置、検出装置、オブジェクト検出方法及びプログラムを提供する。
【解決手段】対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部３と、シングルクラス分類部３によりオブジェクトが識別された場合に、対象画像を、他のシングルクラス分類部３へ分類するマルチクラス分類部５と、を備える。シングルクラス分類部３によるオブジェクトの有無の識別と、マルチクラス分類部５による他のシングルクラス分類部３への分類と、を繰り返し実行することで対象画像からオブジェクトを検出する。
【選択図】図２

Description

本発明は、画像内に含まれるオブジェクトを検出する技術に関する。特に、マルチクラス分類に対応したオブジェクトの検出技術に関する。

画像内のオブジェクト検出として、顔検出が一例に挙げられる。例えば、正面の顔の検出においては、ＶｉｏｌａとＪｏｎｅｓによるアルゴリズムが知られており、Ｈａａｒ−Ｌｉｋｅ特徴量の使用、アダブースティングによる識別器の学習、分類のカスケード構造という３つのアイデアで構成されている。

一方、複数の方向を向いた顔などのオブジェクト検出は、一般的にはマルチクラスの分類問題であり、カスケード構造に代わる分類構造が必要である。マルチクラスに対応した検出器は、精度・速度の両面で高性能を達成するのは非常に困難な課題である。従来、以下のような分類構造が提案されている。

（パラレルカスケード構造）
非特許文献１に記載のパラレルカスケード構造では、図１５に示すようにオブジェクトの各方向（ビュー）に対し、個々のカスケード構造を構成することでマルチビュー検出に対応している。この分類構造によれば、検出精度は良好であるが、１つの方向の検出器をビュー分用意するため、分類処理の計算時間はビュー数倍となる。

（スカラー木構造）
非特許文献２に記載のスカラー木構造では、図１６に示すように各強識別器をノードとして分類の際に分岐していく木構造を採用している。各ノードでオブジェクトとして検出された場合は、全ての分岐ルートにつながるノードを通る。ノードのレベルが下がるごとに、強識別器はより細分化されたビューに対応する。このように、最初は大まかにオブジェクトと非オブジェクトに分類した後に、ビューを細分化しながら分類していくＣｏｒｓｅｔｏＦｉｎｅ戦略によってオブジェクトの分類のロバスト性が高くなる。この構造では、パラレルカスケードと比べると少ない強識別器の構成で速度改善が見込まれるが、ノードにつながる全ての子ノードを通るため、分類処理が低速になる問題が依然としてある。

（ＢＦＳ木構造）
特許文献１では上記した問題に対し、マルチクラスに対応した強識別器を用いたＢＦＳ（ＢｒｅａｄｔｈＦｉｒｓｔＳｅａｒｃｈ）木構造を提案している（図１７）。マルチクラスブースティングを用いた分類木構造をとることで、オブジェクトの分類のロバスト性と分類速度を向上させている。

特開２００７−１０９２２９号公報

Bo Wu, Haizhou Ai, Chang Huang, and ShihongLao. Fast rotation invariant multi-view face detection based on real adaboost.In Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEEInternational Conference on, pages 79-84. IEEE, 2004. Francois Fleuret and Donald Geman.Coarse-to-fine face detection. International Journal of computer vision,41(1-2):85-107, 2001. Michael Jones and Paul Viola. Fastmulti-view face detection. Mitsubishi Electric Research Lab TR-20003-96, 3:14,2003. ntonio Torralba, Kevin P Murphy, and WilliamT Freeman. Sharing visual features for multiclass and multiview objectdetection. Pattern Analysis and Machine Intelligence, IEEE Transactionson,29(5):854-869, 2007. Jiri Trefny and Jiri Matas. Extended set oflocal binary patterns for rapid object detection. In Proceedings of theComputer Vision Winter Workshop, volume 2010, 2010.

しかしながら、特許文献１のＢＦＳ木構造は、処理の最終段階に至るまでは非オブジェクトの排除が効果的に行われず、効率的なオブジェクト検出を実現する理想的な分類構造とは言えない。

本発明は上記した課題に鑑みてなされたものであり、その目的は、画像内のオブジェクトを効率的に検出する検出装置等を提供することにある。

前述した課題を解決する第１の発明は、対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部と、前記シングルクラス分類部によりオブジェクトが識別された前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類部と、を備え、前記シングルクラス分類部によるオブジェクトの有無の識別と、前記マルチクラス分類部による他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするオブジェクト検出装置である。
第１の発明によれば、シングルクラス分類部によって非オブジェクトを予め排除した上で、オブジェクトの分類処理が行われていくため、非オブジェクトを早期段階で排除可能な効率的なオブジェクト検出処理が実現される。

前記シングルクラス分類部は、前記対象画像からオブジェクトの有無を識別する強識別器を複数連結して構成されることが望ましい。これによって、複数の強識別器を連結したカスケード型の識別構造によりオブジェクト識別を行うため、効果的に非オブジェクトを排除することが可能である。従来のＢＦＳ木（図１７）では、オブジェクト検出処理の最終段階である葉ノードにカスケードを設けることで、非オブジェクトを効果的に排除するように構成している。しかしながら、葉ノードに辿り着くまでは非オブジェクトを多く含んでおり、非オブジェクトを早期段階で効果的に排除することができなかった。この点、各シングルクラス分類部がカスケード型の識別構造をとることで、非オブジェクトを効果的に排除しながら、オブジェクトの分類処理を行っていくことで、従来に比べオブジェクト検出処理を一層効率的なものとしている。

前記シングルクラス分類部は、識別対象とするオブジェクトの向きに応じて形成されることが望ましい。これによって、シングルクラス分類部は、識別対象とするオブジェクトの向きに応じて形成される。

前記シングルクラス分類部の分類先の複数のシングルクラス分類部は、互いに、異なる向きのオブジェクトを識別対象とし、且つ、分類元の前記シングルクラス分類部が識別対象とするオブジェクトの向きの一部を識別対象とするように形成されることが望ましい。これによって、上層のシングルクラス分類部では、オブジェクトと非オブジェクトの大まかな識別（分類）を行い、下層のシングルクラス分類部に進むにつれ、オブジェクトの特定の向きに応じた詳細な識別（分類）を行うことができる。

前記マルチクラス分類部は、前記シングルクラス識別部へ分類する際に算出する前記対象画像の特徴量を、分類間で共有することが望ましい。これによって、分類間で特徴量（弱識別器）を共有できるため、対象画像の分類処理において、弱識別器（特徴量）の計算コストを大幅に軽減でき、オブジェクト検出処理の計算効率性を向上させることができる。

前記シングルクラス分類部、及び前記マルチクラス分類部は、対象画像からＥＭＢＬＢＰ値に基づく特徴量を算出し、識別、及び分類を行うことが望ましい。これによって、ＥＭＢＬＢＰ値を特徴量として、オブジェクトの識別及び分類が実行される。ＥＭＢＬＢＰ値は照明不変の特徴を有するため、異なる照明下の検出に強い。また、ＥＭＢＬＢＰ値はあらゆる方向のパターンを複合して抽出するため、オブジェクトの複雑な特徴について精度の高い情報が得られる。さらに、ＥＭＢＬＢＰ値は強い特徴を持つため、弱識別器の数が少なくて済み、オブジェクト検出処理時の計算効率性を一層向上させる。

前述した課題を解決する第２の発明は、複数のシングルクラス分類部を備えた、オブジェクト検出装置によるオブジェクト検出方法であって、対象画像中のオブジェクトの有無を、前記シングルクラス分類部によって識別するシングルクラス分類ステップと、前記シングルクラス分類ステップによりオブジェクトが識別された前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類ステップと、を含み、前記シングルクラス分類ステップによるオブジェクトの有無の識別と、前記マルチクラス分類ステップによる他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするオブジェクト検出方法である。

前述した課題を解決する第３の発明は、コンピュータを、対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部、前記シングルクラス分類部によりオブジェクトが識別された場合に、前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類部、として機能させ、前記シングルクラス分類部によるオブジェクトの有無の識別と、前記マルチクラス分類部による他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするプログラムである。

本発明によれば、画像内のオブジェクトを効率的に検出することが可能となる。

検出装置１０のハードウェア構成の例を示す図顔検出器１の分類構造を示す概念図シングルクラス分類部を示す概念図マルチクラス分類部を示す概念図顔検出器１の学習の様子を示す概念図顔検出器１の学習の様子を示す概念図顔検出器１の学習の様子を示す概念図ＬＢＰを示す図（ａ）ｔＭＢＬＢＰを示す図（ｂ）ｄＭＢＬＢＰを示す図検出装置１０の動作を示すフローチャート顔検出処理を示すフローチャート対象画像７の例を示す図顔検出窓を走査しながら顔検出処理を実行する様子を示す図顔検出結果の例を示す図パラレルカスケード構造を示す概念図スカラー木構造を示す概念図ＢＦＳ木構造を示す概念図

以下、図面を参照しながら本発明の実施形態を詳細に説明する。本実施形態では、オブジェクト検出として顔検出を一例として説明を行うが、本発明は、顔以外のオブジェクトを検出する目的に適用することもできる。

＜検出装置１０のハードウェア構成＞
図１は、第１の実施形態に係る検出装置１０のハードウェア構成の一例を示す図である。検出装置１０は、主に、制御部１０１、記憶部１０２、入力部１０３、表示部１０４、バス１０５から構成される。

制御部１０１は、ＣＰＵ、ＲＯＭ、ＲＡＭ等で構成される。ＣＰＵは、記憶部１０２、ＲＯＭ、記録媒体等に格納されるプログラムをＲＡＭ上のワークメモリ領域に
呼び出して実行することで、検出装置１０が行う全ての処理を行う。ＲＯＭは、不揮発性メモリであり、プログラムやデータ等を恒久的に保持している。ＲＡＭは、揮発性メモリであり、記憶部１０２、ＲＯＭ等からロードしたプログラム、データ等を一時的に保持するとともに、制御部１０１が各種処理を行う為に使用するワークエリアを備える。

記憶部１０２は、フラッシュメモリ、ＲＯＭ、ＲＡＭ等で構成される。フラッシュメモリやＲＯＭには、コンピュータのブートプログラムやＢＩＯＳ等のプログラム、アプリケーション、データ等を保持している。ＲＡＭは、ＲＯＭ等からロードしたプログラム、データ等を一時的に保持するとともに、制御部１０１が各種処理を行う為に使用するワークエリアを備える。
本実施形態においては、図１に示すように、顔を検出する対象画像である「対象画像７」、対象画像７から顔を検出する「顔検出器１」などが記憶部１０２に記憶されている。顔検出器１は、後述するように、予め機械学習により生成されるものである。

入力部１０３は、データの入力を行い、例えば、テンキー、小型キーボード等の入力装置を有する。入力部１０３を介して、検出装置１０に対して、操作指示、動作指示、データ入力等を行うことができる。
また、入力部１０３は、ＣＣＤやＣＭＯＳセンサ等のカメラを備えてもよい。これにより、カメラにより撮像した画像を、顔の検出対象である対象画像７とすることもできる。

表示部１０４は、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等（ビデオアダプタ等）を有する。なお、入力部１０３及び表示部１０４は、タッチパネルディスプレイのように、一体となって構成されても良い。

＜顔検出器１の分類構造＞
図２は、記憶部１０２に記憶されている顔検出器１の分類構造を示す概念図である。本実施形態に係る顔検出器１は、シングルクラス分類部３と、マルチクラス分類部５と、から構成されており、複数の向きの顔を検出可能なＭＶＦＤ（Ｍｕｌｔｉ−ＶｉｅｗＦａｃｅＤｅｔｅｃｔｏｒ）に適した分類構造を実現している。

図３（ａ）は、顔検出器１の一部を構成するシングルクラス分類部３を示す概念図である。シングルクラス分類部３は、図３（ｂ）に示すように対象画像７を入力して顔・非顔を識別（分類）する強識別器として機能するシングルクラス分類ノード３１、を複数連結したカスケード型の識別構造をとる。

ここで、カスケード型の識別構造により非顔が効果的に排除されることを概念的に説明しておく。各シングルクラス分類ノード３１（強識別器）において、顔画像を通過させる割合をＴ（０＜Ｔ＜１）、非顔画像を通過させる割合をＦ（０＜Ｆ＜１）とすると、ｎ番目のシングルクラス分類ノード（強識別器）を通過後は、顔画像はＴ^ｎだけ通過していることになる。例えば、Ｔ＝０．９９９、Ｆ＝０．５とした場合、ｎ（＝２０）番目のシングルクラス分類ノード３１における顔画像の通過率は０．９９９^２０≒０．９８、非顔画像の通過率は０．５^２０≒９．５×１０^−７となり、非顔画像をほとんど通過させないことが分かる。

尚、上記のように、非顔の効果的な排除の観点から、シングルクラス分類ノード３１を複数連結することが望ましいが、１つのシングルクラス分類ノード３１によってシングルクラス分類部３を構成してもよい。

また、上記したシングルクラス分類部３は、識別対象とする顔の向きに応じて階層的に形成されている。特に、上層のシングルクラス分類部３ほど、広い範囲の顔の向きを識別対象とし、下層のシングルクラス分類部３ほど、より特定の範囲の顔の向きを識別対象として形成されている。これによって、顔検出器１の上層では、大まかな顔と非顔の識別（分類）を行い、下層に進むにつれ、顔の特定の向きに応じた詳細な識別（分類）を行う。

より厳密には、顔検出器１のある上層のシングルクラス分類部３から、マルチクラス分類部５を介して分岐する下層の複数のシングルクラス分類部３は、分岐元の上層のシングルクラス分類部３が識別対象とする顔の向きの一部を識別対象とするように形成される。また、当該複数のシングルクラス分類部３は、互いに、異なる向きの顔を識別対象とするように形成される。

例えば、図２の場合、顔検出器１の最上層のシングルクラス分類部３は、任意の向き（全方向）の顔を識別可能なように形成され、当該シングルクラス分類部３から、マルチクラス分類部５を介して分岐する３つのシングルクラス分類部３は、分岐元の最上層のシングルクラス分類部３が識別対象とする顔の向きの一部であって、互いに異なる向き、例えば、正面方向・右方向・左方向の顔を識別可能なように形成される。

図４は、顔検出器１の一部を構成するマルチクラス分類部５を示す概念図である。マルチクラス分類部５は、対象画像７の顔の向きを分類する分類器として機能し、図４に示すように、複数のシングルクラス分類部３へ分岐するマルチクラス分類ノード５１によって構成される。マルチクラス分類ノード５１は、上層のシングルクラス分類部３（シングルクラス分類ノード３１）によって顔識別された対象画像７を、下層のいずれかのシングルクラス分類部３（シングルクラス分類ノード３１）へ入力（分類）する。

尚、図２に示す顔検出器１の分類構造は、あくまで本発明を説明するための概念図であり、シングルクラス分類部３とマルチクラス分類部５が交互に繰り返す構造であれば、図の例に依らず種々の変形が可能である。

＜顔検出器１の学習＞
上記した顔検出器１を学習形成する手順について図５〜図７を参照しながら説明する。顔検出器１の学習は、検出装置１０で実行されてもよいし、その他のコンピュータ等で実行されてもよい。いずれにしても、学習生成された顔検出器１は、予め検査装置１０の記憶部１０２に記憶されているものとする。

図５に示すように、最初に、シングルクラス分類部３（３―１）を顔検出器１の最上層に学習形成する。具体的には、検出対象とする任意の向き（全方向）の顔向きの「ポジティブ画像」と顔以外の背景画像等の「ネガティブ画像」を学習データとして用いて、シングルクラス分類ノード３１（強識別器）を生成・連結させていく。そして、偽陽性率（非顔を誤って顔と検出した割合）が所定の値より低くなると、シングルクラス分類ノード３１（強識別器）の生成・連結を終了し、シングルクラス分類部３（３―１）が形成される。

シングルクラス分類部３（シングルクラス分類ノード３１）の学習手法は、特に限定しないが、代表的にはアダブースティング等を利用できる。また、学習に用いる特徴量も特に限定しないが、本実施形態では、後述する「ＥＭＢＬＢＰ値」を採用する。ＥＭＢＬＢＰ値は照明不変の特徴を有するため、異なる照明下の検出に強い。また、ＥＭＢＬＢＰ値はあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られる。さらに、ＥＭＢＬＢＰ値は強い特徴を持つため、弱識別器の数が少なくて済み、顔検出処理時の計算効率性を向上させる。

続いて、図６に示すように、学習形成されたシングルクラス分類部３（３―１）の最下段のシングルクラス分類ノード３１で正識別された学習データを用いて、顔の向きを更に分類（例えば、正面方向・左方向・右方向）するマルチクラス分類部５（５−１）（マルチクラス分類ノード５１）を学習形成する。マルチクラス分類部５の学習方法についても特に限定はしないが、本実施形態では、後述する「ジョイントブースティング」を導入する。これによって、対象画像７の分類処理において、弱識別器（特徴量）の計算コストを大幅に軽減でき、顔検出処理の計算効率性を向上させることができる。また、画像特徴量についても特に限定はしないが、シングルクラス分類部３の学習と同様にＥＭＢＬＢＰ値を採用する。

そして、図７に示すように、マルチクラス分類部５（５−１）により分類分けされた学習データを用いて、分類毎に、シングルクラス分類部３（３−２、３−２、３−４）を更に学習形成する。具体的には、図５に示したシングルクラス分類部３−１の学習形成と同様に、偽陽性率（非顔を誤って顔と検出した割合）が所定の値より低くなるまで、シングルクラス分類ノード３１（強識別器）を生成・連結させていく。そして、偽陽性率が所定の値より低くなると、シングルクラス分類ノード３１（強識別器）の生成・連結を終了し、各シングルクラス分類部３（３−２、３−３、３−４）が形成される。

以降、同様に、シングルクラス分類部３で正識別された学習データを用いたマルチクラス分類部５の学習形成、及びマルチクラス分類部５により分類分けされた学習データを用いたシングルクラス分類部３の学習形成、を目的の偽陽性率を満たすまで繰り返す。これにより、最終的に顔検出器１が形成される。

（ジョイントブースティング）
前述したように、顔検出器１のマルチクラス分類部５は、ジョイントブースティングにより学習形成される。ジョイントブースティングは、高精度な２クラス識別器の学習方法であるジェントルブースティングをマルチクラス分類に拡張したものである。この手法は、弱識別器（特徴量）をクラス間で共有することができるため、計算効率性の高い識別器を構築するとこができる。以降、ジョイントブースティングによる機械学習について理論的側面から説明する。

ジョイントブースティングでは、各クラスが特徴を共有する様々なサブセット（クラスの組合わせ）の強識別器を生成する。３クラスを例に示すと、サブセットＳ（ｎ）は（１，２，３）、（１，２）、（２，３）、（１，３）、（１）、（２）、（３）となる（ｎはサブセットのインデックスを示す）。サブセットに対応した強識別器をＧ^{Ｓ（ｎ）(ｖ)}（ｖ：特徴量）とすると、各クラスの強識別器は以下のように表される。

上式に示すように、例えば、クラス１とクラス２ではＧ^{１,２,３（ｖ）}、Ｇ^{１,２（ｖ）}を共有していることが分かる。このようにクラス間で特徴を共有できるため、計算効率性が向上する。各サブセットの強識別器は、対応したサブセットの弱識別器ｈ_ｍ ^ｎ（ｖ）の加算モデルで次のように表される。ｍは学習のラウンド数を示す。

ジョイントブースティングは、ジェントルブースティングの拡張バージョンとして提案されている。ジェントルブースティングは、２値クラスのブースティング手法であり、検出対象である確からしさを確率密度などで確率的に出力するような弱識別器を使用することで、従来のアダブースティングよりも識別精度の向上を実現している。

ジョイントブースティングでは、クラスごとに学習データの重みw_ｉ ^ｃ（ｃ：クラス、ｉ：学習データのインデックス）を持たせており、各クラスのラベルは、該当クラスが「１」、それ以外が「−１」となるｚ_ｉ ^ｃが用いられる。選択したサブセットではジェントルブースティングを行い、サブセットのクラスにおける重み・ラベルで確率的に判別値を出力する弱識別器を生成する。サブセット外のクラスに対しては、弱識別器は超平面を設けず、該当クラスのラベルを確率的に出力する。

また、本実施形態では、ジョイントブースティングの学習に用いる特徴量として、ＥＭＢＬＢＰ（ＥｘｔｅｎｄｅｄＭｕｌｔｉＢｌｏｃｋＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）値を採用する。ＥＭＢＬＢＰ値は、画像固有のバイナリパターンを数値化したものである。ＥＭＢＬＢＰ値の２５６階調分の判別値を用意する弱識別器は以下のように表される。

ここで、ｖ_ｉ ^ｆは学習データｉのｆ番目の特徴量（ＥＭＢＬＢＰ値）である。このようにサブセットに含まれるクラスにおいて、特定特徴量に対応した判別値を確率的に算出している。また、弱識別器はサブセットに対しｆ番目の特徴量に応じた２５６階調のＬＵＴ（ＬｏｏｋＵｐＴａｂｌｅ）で表される。ブースティングにおけるラウンドの評価として、以下のように最小自乗問題で表されるエラーを最小にするものが最適な弱識別器として選択される。

このエラー値を全てのサブセットと特徴量で評価し、最小となった時に対象となるサブセット、その弱識別器（ＬＵＴ）、使用する特徴量の番号ｆが決定される。

尚、１回の学習ラウンドが終了すると、次のラウンドでは、重みが以下の式で更新される。

以上説明したジョイントブースティングによる機械学習の疑似コードを以下に示す。

（特徴量）
前述したように、本実施形態では、画像データの特徴量としてＥＭＢＬＢＰ値を採用する。ＥＭＢＬＢＰはＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）を改良した特徴量であり、ＭＢＬＢＰ(Ｍｕｌｔｉ−ＢｌｏｃｋＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ)、ｍＭＢＬＢＰ(ｍｅａｎＭｕｌｔｉ−ＢｌｏｃｋＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ)、ｄＭＢＬＢＰ(ｄｉｒｅｃｔｉｏｎＭｕｌｔｉ−ＢｌｏｃｋＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ)、ｔＭＢＬＢＰ（ｔｒａｎｓｉｔｉｏｎＭｕｌｔｉ−ＢｌｏｃｋＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）を併用したものである。ＥＭＢＬＢＰは画像上のあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られるメリットがある。

以下、ＥＭＢＬＢＰ値を構成する各特徴量（ＬＢＰ、ＭＢＬＢＰ、ｍＭＢＬＢＰ、ｄＭＢＬＢＰ、ｔＭＢＬＢＰ）について説明する。

図８は、ＬＢＰを示す図である。ＬＢＰは３×３の画素ブロックにおいて、中央画素と周辺画素の値を比較し、値の大小に応じてバイナリ値｛０，１｝に変換する。ＬＢＰは、周辺画素のバイナリ値を並べ、８ビットの整数値に変換したものを特徴値とする。ＬＢＰは以下の式で求められる。

ここで、ｇ_ｃを中心画素値、ｇ_ｐを周辺画素値とする。このようなバイナリパターンは明るさに依らない画像内の特徴を表すことができる。

ＭＢＬＢＰはＬＢＰをマルチブロック型に拡張したものであり、ある画像範囲を３×３のブロックで表す。各ブロックの平均値を用いて、３×３の画素ブロックのように扱い、ＬＢＰと同様の特徴値を算出する。

ｍＭＢＬＢＰは、ＭＢＬＢＰ同様にマルチブロック構造を採用するが、ＭＢＬＢＰのように中央ブロックと周辺ブロックの比較ではなく、全体の平均値と周辺ブロックの比較により、ＬＢＰと同様の特徴値を算出する。

ｔＭＢＬＢＰはＭＢＬＢＰのマルチブロック構造を用いて、周囲ブロックのみでバイナリパターンを抽出した特徴量である。
図９（ａ）は、ｔＭＢＬＢＰを示す図である。
周囲ブロックを回転するように、隣り合うブロックの平均値同士で値を比較し、バイナリパターンを生成する。ｔＭＢＬＢＰは以下の式で求められる。

ここで、ｇ_ｐは周囲ブロックの平均値であり、ｇ_０をブロック周回の開始地点を示す。

ｄＭＢＬＢＰは、ｔＭＢＬＢＰと同様にマルチブロック構造を採用しており、特定の直線方向に並んだ３ブロックからバイナリパターンを抽出する。
図９（ｂ）は、ｄＭＢＬＢＰを示す図である。図９（ｂ）に示すように、１方向につき２ビットのパターンで表す直線を４方向与え、最終的に８ビットのバイナリパターンを得る。ある１方向のバイナリパターンは１ビット目を中心ブロックの値が最大若しくは最小であるか否かで判定している。また２ビット目では、中心ブロックと隣り合う２ブロックの差分値を比較し、いずれの差分値が高いか否かでバイナリ値を決定する。ｄＭＢＬＢＰは以下の式で求められる。

ここで、Ｐ’は周囲ブロックの半周分であり、Ｐ＝２Ｐ’となる。ｇ_ｐ’は半周中にあるブロックの平均値であり、ｇ_ｃは中心ブロックの平均値である。

ＥＭＢＬＢＰは、上記したマルチブロック型のＬＢＰ特徴量を用い、３×３の画素ブロックからスタートし、徐々にマルチブロック型に拡大しながら３つの特徴量を計算していく。例えば、３×３画素ブロックの次は２×２画素ブロックが３×３で並んだ６×６の画素範囲で各ＭＢＬＢＰが計算される。また、ＭＢＬＢＰでは各ブロックサイズで画像内を１画素ずつ走査して特徴量を抽出していく。
このようにＥＭＢＬＢＰはあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られる。

＜検出装置１０の動作＞
図１０〜図１４を参照して、検出装置１０の動作を説明する。図１０は、検出装置１０の全体動作を示すフローチャートである。
まず、検出装置１０の制御部１０１は、対象画像７を記憶部１０２から読込む（ステップＳ１）。図１２は対象画像７の例を示す図である。

そして、検出装置１０の制御部１０１は、所定のサイズの顔検出窓５１を対象画像７内で走査させながら、顔検出窓５１で切り出した画像に対して、逐次、顔検出処理を実行する（ステップＳ２、図１３参照）。以下、顔検出窓５１で切り出した１つの画像（以降、当該画像を「対象画像７」と呼ぶ）に対して、顔検出処理を行う手順を説明する。

図１１は、顔検出処理の流れを示すフローチャートである。
まず、検出装置１０の制御部１０１は、対象画像７（顔検出窓５１で切り出した画像）を、顔検出器１の最上層のシングルクラス分類部３の初段のシングルクラス分類ノード３１に入力する（ステップＳ２１）。

そして、検出装置１０の制御部１０１は、当該シングルクラス分類ノード３１（強識別器）により、顔識別を実行する（ステップＳ２２）。この際、制御部１０１は、対象画像７からＥＭＢＬＢＰ値に基づく特徴量を算出し、当該特徴量に基づいて顔識別を実行する。

当該シングルクラス分類ノード３１（強識別器）で、顔が識別されなかった場合（ステップＳ２３の「Ｎｏ」）、ステップＳ２４へ移行し、対象画像７から顔が識別されなかったもの（非顔）と判断し、顔検出処理を終了する。一方、顔が識別された場合（ステップＳ２３の「Ｙｅｓ」）、ステップＳ２５へ移行する。ここで、当該シングルクラス分類ノード３１（強識別器）がシングルクラス分類部３の最下段のノードである場合（ステップＳ２５の「Ｙｅｓ」）、ステップＳ２７へ移行する。

一方、当該シングルクラス分類ノード３１（強識別器）がシングルクラス分類部３の最下段のノードでない場合（ステップＳ２５の「Ｎｏ」）、ステップＳ２６へ移行する。
ステップＳ２６において、対象画像７を、当該シングルクラス分類ノード３１から更に次段のシングルクラス分類ノード３１に入力する。そして、ステップＳ２２に戻り、ステップＳ２２〜ステップＳ２６の処理を、いずれかのシングルクラス分類ノード３１（強識別器）で顔でない（非顔）と識別されるか（ステップＳ２３において「Ｎｏ」）、或いは、シングルクラス分類部３の最下段のシングルクラス分類ノード３１において顔であると識別される（ステップＳ２５において「Ｙｅｓ」）まで、繰り返す。

上記したステップＳ２２〜Ｓ２６の処理によって、複数のシングルクラス分類ノード３１から成るシングルクラス分類部３によるカスケード識別が実行され、非顔が効果的に排除される。

シングルクラス分類部３の最下段のシングルクラス分類ノード３１において顔識別された場合（ステップＳ２５の「Ｙｅｓ」）、更に当該シングルクラス分類ノード３１が顔検出器１の葉ノードか否かを判断する（ステップＳ２７）。当該シングルクラス分類ノード３１が葉ノードの場合（ステップＳ２７の「Ｙｅｓ」）、ステップＳ２９へ移行し、当該葉ノードに該当する向きの顔を検出したものと判断し、顔検出処理を終了する。一方、当該シングルクラス分類ノード３１が葉ノードでない場合（ステップＳ２７の「Ｎｏ」）、ステップＳ２８に移行する。

ステップＳ２８において、マルチクラス分類部５（マルチクラス分類ノード５１）によって、対象画像７を、更に下層のいずれかのシングルクラス分類部３の初段のシングルクラス分類ノード３１に入力する（分類する）。この際、制御部１０１は、対象画像７からＥＭＢＬＢＰ値に基づく特徴量を算出し、当該特徴量に基づいて、分類を行う。本実施形態では、マルチクラス分類部５（マルチクラス分類ノード５１）は、ジョイントブースティングによって学習形成されているため、分類間で特徴量を共有できる。このため、ステップＳ２８の対象画像７の分類処理において、特徴量の計算コストを大幅に軽減できる。

そして、ステップＳ２２〜Ｓ２８の処理は、いずれかのシングルクラス分類ノード３１（強識別器）で顔でない（非顔）と識別されるか（ステップＳ２３において「Ｎｏ」）、或いは、顔検出器１の葉ノードのシングルクラス分類ノード３１において顔が正識別されるまで（ステップＳ２７の「Ｙｅｓ」）、繰り返し実行される。

図１０のフローチャートに戻る。顔検出処理が終了すると、検出装置１０の制御部１０１は、顔検出結果を出力する（ステップＳ３）。
図１４は対象画像７の顔検出結果の例を示す図である。図１４に示すように、制御部１０１は、顔が検出された顔検出エリア５２を対象画像７上に表示するなどして顔検出結果をユーザに提示する。

以上、本実施形態によれば、顔検出器１のシングルクラス分類部３（シングルクラス分類ノード３１）による顔識別と、マルチクラス分類部５（マルチクラス分類ノード５１）による顔分類と、を繰り返し実行することで、顔検出処理を行う。各段階で予め非顔を排除した上で、顔分類を行っていくため、効率的な顔検出処理が実現される。特に、本実施形態では、シングルクラス分類ノード３１（強識別器）を複数連結したシングルクラス分類部３（カスケード型の識別器）によって、非顔を効果的に排除することが可能である。従来のＢＦＳ木（図１７参照）では、顔検出処理の最終段階である葉ノードにカスケード構造を設けることで、非顔を効果的に排除するように構成している。しかしながら、葉ノードに辿り着くまでは非顔を多く含んでおり、非顔を早期段階で効果的に排除することができなかった。この点、本実施形態では、シングルクラス分類部３により非顔を効果的に排除しながら、マルチクラス分類部５により顔分類を行っていくように構成することで、従来に比べ顔検出処理を一層効率的なものとしている。

また、マルチクラス分類部５の機械学習法としてジョイントブースティングを導入する。これにより、弱識別器（特徴量）の全体個数を削減できる。このため、ステップＳ２８（図１１参照）の分類処理において、弱識別器（特徴量）の計算コストを大幅に軽減でき、顔検出処理の計算効率性を向上させることができる。また、画像特徴量として、ＥＭＢＬＢＰ値を採用した。ＥＭＢＬＢＰ値は照明不変の特徴を有するため、異なる照明下の検出に強い。また、ＥＭＢＬＢＰ値はあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られる。さらに、ＥＭＢＬＢＰ値は強い特徴を持つため、弱識別器の数が少なくて済み、顔検出処理時の計算効率性を一層向上させる。

以上、添付図面を参照しながら、本発明に係る検出装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。例えば、前述したように、本発明は、顔以外のオブジェクトを検出する目的に適用することができる。また、当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

１；顔検出器
３；シングルクラス分類部
５；マルチクラス分類部
７；対象画像
１０；検出装置
３１；シングルクラス分類ノード
５１；マルチクラス分類ノード

Claims

対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部と、
前記シングルクラス分類部によりオブジェクトが識別された場合に、前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類部と、を備え、
前記シングルクラス分類部によるオブジェクトの有無の識別と、前記マルチクラス分類部による他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするオブジェクト検出装置。
前記シングルクラス分類部は、前記対象画像からオブジェクトの有無を識別する強識別器を複数連結して構成されることを特徴とする請求項１に記載のオブジェクト検出装置。
前記シングルクラス分類部は、識別対象とするオブジェクトの向きに応じて形成されることを特徴とする請求項１又は請求項２に記載のオブジェクト検出装置。
前記シングルクラス分類部の分類先の複数のシングルクラス分類部は、互いに、異なる向きのオブジェクトを識別対象とし、且つ、分類元の前記シングルクラス分類部が識別対象とするオブジェクトの向きの一部を識別対象とするように形成されることを特徴とする請求項３に記載のオブジェクト検出装置。
前記マルチクラス分類部は、前記シングルクラス識別部へ分類する際に算出する前記対象画像の特徴量を、分類間で共有することを特徴とする請求項１乃至請求項４のいずれかに記載のオブジェクト検出装置。
前記シングルクラス分類部、及び前記マルチクラス分類部は、対象画像からＥＭＢＬＢＰ値に基づく特徴量を算出し、識別、及び分類を行うことを特徴とする請求項１乃至請求項５のいずれかに記載のオブジェクト検出装置。
複数のシングルクラス分類部を備えた、オブジェクト検出装置によるオブジェクト検出方法であって、
対象画像中のオブジェクトの有無を、前記シングルクラス分類部によって識別するシングルクラス分類ステップと、
前記シングルクラス分類ステップによりオブジェクトが識別された前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類ステップと、を含み、
前記シングルクラス分類ステップによるオブジェクトの有無の識別と、前記マルチクラス分類ステップによる他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするオブジェクト検出方法。
コンピュータを、
対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部、
前記シングルクラス分類部によりオブジェクトが識別された場合に、前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類部、として機能させ、
前記シングルクラス分類部によるオブジェクトの有無の識別と、前記マルチクラス分類部による他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするプログラム。