JP2016151805A - オブジェクト検出装置、オブジェクト検出方法、及びプログラム - Google Patents
オブジェクト検出装置、オブジェクト検出方法、及びプログラム Download PDFInfo
- Publication number
- JP2016151805A JP2016151805A JP2015027557A JP2015027557A JP2016151805A JP 2016151805 A JP2016151805 A JP 2016151805A JP 2015027557 A JP2015027557 A JP 2015027557A JP 2015027557 A JP2015027557 A JP 2015027557A JP 2016151805 A JP2016151805 A JP 2016151805A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- single class
- class classification
- classification
- target image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 84
- 230000006870 function Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 38
- 230000008569 process Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 11
- 238000005286 illumination Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000405217 Viola <butterfly> Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】画像内のオブジェクトを効率的に検出する検出装置、検出装置、オブジェクト検出方法及びプログラムを提供する。
【解決手段】対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部3と、シングルクラス分類部3によりオブジェクトが識別された場合に、対象画像を、他のシングルクラス分類部3へ分類するマルチクラス分類部5と、を備える。シングルクラス分類部3によるオブジェクトの有無の識別と、マルチクラス分類部5による他のシングルクラス分類部3への分類と、を繰り返し実行することで対象画像からオブジェクトを検出する。
【選択図】図2
【解決手段】対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部3と、シングルクラス分類部3によりオブジェクトが識別された場合に、対象画像を、他のシングルクラス分類部3へ分類するマルチクラス分類部5と、を備える。シングルクラス分類部3によるオブジェクトの有無の識別と、マルチクラス分類部5による他のシングルクラス分類部3への分類と、を繰り返し実行することで対象画像からオブジェクトを検出する。
【選択図】図2
Description
本発明は、画像内に含まれるオブジェクトを検出する技術に関する。特に、マルチクラス分類に対応したオブジェクトの検出技術に関する。
画像内のオブジェクト検出として、顔検出が一例に挙げられる。例えば、正面の顔の検出においては、ViolaとJonesによるアルゴリズムが知られており、Haar−Like特徴量の使用、アダブースティングによる識別器の学習、分類のカスケード構造という3つのアイデアで構成されている。
一方、複数の方向を向いた顔などのオブジェクト検出は、一般的にはマルチクラスの分類問題であり、カスケード構造に代わる分類構造が必要である。マルチクラスに対応した検出器は、精度・速度の両面で高性能を達成するのは非常に困難な課題である。従来、以下のような分類構造が提案されている。
(パラレルカスケード構造)
非特許文献1に記載のパラレルカスケード構造では、図15に示すようにオブジェクトの各方向(ビュー)に対し、個々のカスケード構造を構成することでマルチビュー検出に対応している。この分類構造によれば、検出精度は良好であるが、1つの方向の検出器をビュー分用意するため、分類処理の計算時間はビュー数倍となる。
非特許文献1に記載のパラレルカスケード構造では、図15に示すようにオブジェクトの各方向(ビュー)に対し、個々のカスケード構造を構成することでマルチビュー検出に対応している。この分類構造によれば、検出精度は良好であるが、1つの方向の検出器をビュー分用意するため、分類処理の計算時間はビュー数倍となる。
(スカラー木構造)
非特許文献2に記載のスカラー木構造では、図16に示すように各強識別器をノードとして分類の際に分岐していく木構造を採用している。各ノードでオブジェクトとして検出された場合は、全ての分岐ルートにつながるノードを通る。ノードのレベルが下がるごとに、強識別器はより細分化されたビューに対応する。このように、最初は大まかにオブジェクトと非オブジェクトに分類した後に、ビューを細分化しながら分類していくCorse to Fine戦略によってオブジェクトの分類のロバスト性が高くなる。この構造では、パラレルカスケードと比べると少ない強識別器の構成で速度改善が見込まれるが、ノードにつながる全ての子ノードを通るため、分類処理が低速になる問題が依然としてある。
非特許文献2に記載のスカラー木構造では、図16に示すように各強識別器をノードとして分類の際に分岐していく木構造を採用している。各ノードでオブジェクトとして検出された場合は、全ての分岐ルートにつながるノードを通る。ノードのレベルが下がるごとに、強識別器はより細分化されたビューに対応する。このように、最初は大まかにオブジェクトと非オブジェクトに分類した後に、ビューを細分化しながら分類していくCorse to Fine戦略によってオブジェクトの分類のロバスト性が高くなる。この構造では、パラレルカスケードと比べると少ない強識別器の構成で速度改善が見込まれるが、ノードにつながる全ての子ノードを通るため、分類処理が低速になる問題が依然としてある。
(BFS木構造)
特許文献1では上記した問題に対し、マルチクラスに対応した強識別器を用いたBFS(Breadth First Search)木構造を提案している(図17)。マルチクラスブースティングを用いた分類木構造をとることで、オブジェクトの分類のロバスト性と分類速度を向上させている。
特許文献1では上記した問題に対し、マルチクラスに対応した強識別器を用いたBFS(Breadth First Search)木構造を提案している(図17)。マルチクラスブースティングを用いた分類木構造をとることで、オブジェクトの分類のロバスト性と分類速度を向上させている。
Bo Wu, Haizhou Ai, Chang Huang, and ShihongLao. Fast rotation invariant multi-view face detection based on real adaboost.In Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEEInternational Conference on, pages 79-84. IEEE, 2004.
Francois Fleuret and Donald Geman.Coarse-to-fine face detection. International Journal of computer vision,41(1-2):85-107, 2001.
Michael Jones and Paul Viola. Fastmulti-view face detection. Mitsubishi Electric Research Lab TR-20003-96, 3:14,2003.
ntonio Torralba, Kevin P Murphy, and WilliamT Freeman. Sharing visual features for multiclass and multiview objectdetection. Pattern Analysis and Machine Intelligence, IEEE Transactionson,29(5):854-869, 2007.
Jiri Trefny and Jiri Matas. Extended set oflocal binary patterns for rapid object detection. In Proceedings of theComputer Vision Winter Workshop, volume 2010, 2010.
しかしながら、特許文献1のBFS木構造は、処理の最終段階に至るまでは非オブジェクトの排除が効果的に行われず、効率的なオブジェクト検出を実現する理想的な分類構造とは言えない。
本発明は上記した課題に鑑みてなされたものであり、その目的は、画像内のオブジェクトを効率的に検出する検出装置等を提供することにある。
前述した課題を解決する第1の発明は、対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部と、前記シングルクラス分類部によりオブジェクトが識別された前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類部と、を備え、前記シングルクラス分類部によるオブジェクトの有無の識別と、前記マルチクラス分類部による他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするオブジェクト検出装置である。
第1の発明によれば、シングルクラス分類部によって非オブジェクトを予め排除した上で、オブジェクトの分類処理が行われていくため、非オブジェクトを早期段階で排除可能な効率的なオブジェクト検出処理が実現される。
第1の発明によれば、シングルクラス分類部によって非オブジェクトを予め排除した上で、オブジェクトの分類処理が行われていくため、非オブジェクトを早期段階で排除可能な効率的なオブジェクト検出処理が実現される。
前記シングルクラス分類部は、前記対象画像からオブジェクトの有無を識別する強識別器を複数連結して構成されることが望ましい。これによって、複数の強識別器を連結したカスケード型の識別構造によりオブジェクト識別を行うため、効果的に非オブジェクトを排除することが可能である。従来のBFS木(図17)では、オブジェクト検出処理の最終段階である葉ノードにカスケードを設けることで、非オブジェクトを効果的に排除するように構成している。しかしながら、葉ノードに辿り着くまでは非オブジェクトを多く含んでおり、非オブジェクトを早期段階で効果的に排除することができなかった。この点、各シングルクラス分類部がカスケード型の識別構造をとることで、非オブジェクトを効果的に排除しながら、オブジェクトの分類処理を行っていくことで、従来に比べオブジェクト検出処理を一層効率的なものとしている。
前記シングルクラス分類部は、識別対象とするオブジェクトの向きに応じて形成されることが望ましい。これによって、シングルクラス分類部は、識別対象とするオブジェクトの向きに応じて形成される。
前記シングルクラス分類部の分類先の複数のシングルクラス分類部は、互いに、異なる向きのオブジェクトを識別対象とし、且つ、分類元の前記シングルクラス分類部が識別対象とするオブジェクトの向きの一部を識別対象とするように形成されることが望ましい。これによって、上層のシングルクラス分類部では、オブジェクトと非オブジェクトの大まかな識別(分類)を行い、下層のシングルクラス分類部に進むにつれ、オブジェクトの特定の向きに応じた詳細な識別(分類)を行うことができる。
前記マルチクラス分類部は、前記シングルクラス識別部へ分類する際に算出する前記対象画像の特徴量を、分類間で共有することが望ましい。これによって、分類間で特徴量(弱識別器)を共有できるため、対象画像の分類処理において、弱識別器(特徴量)の計算コストを大幅に軽減でき、オブジェクト検出処理の計算効率性を向上させることができる。
前記シングルクラス分類部、及び前記マルチクラス分類部は、対象画像からEMBLBP値に基づく特徴量を算出し、識別、及び分類を行うことが望ましい。これによって、EMBLBP値を特徴量として、オブジェクトの識別及び分類が実行される。EMBLBP値は照明不変の特徴を有するため、異なる照明下の検出に強い。また、EMBLBP値はあらゆる方向のパターンを複合して抽出するため、オブジェクトの複雑な特徴について精度の高い情報が得られる。さらに、EMBLBP値は強い特徴を持つため、弱識別器の数が少なくて済み、オブジェクト検出処理時の計算効率性を一層向上させる。
前述した課題を解決する第2の発明は、複数のシングルクラス分類部を備えた、オブジェクト検出装置によるオブジェクト検出方法であって、対象画像中のオブジェクトの有無を、前記シングルクラス分類部によって識別するシングルクラス分類ステップと、前記シングルクラス分類ステップによりオブジェクトが識別された前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類ステップと、を含み、前記シングルクラス分類ステップによるオブジェクトの有無の識別と、前記マルチクラス分類ステップによる他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするオブジェクト検出方法である。
前述した課題を解決する第3の発明は、コンピュータを、対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部、前記シングルクラス分類部によりオブジェクトが識別された場合に、前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類部、として機能させ、前記シングルクラス分類部によるオブジェクトの有無の識別と、前記マルチクラス分類部による他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするプログラムである。
本発明によれば、画像内のオブジェクトを効率的に検出することが可能となる。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。本実施形態では、オブジェクト検出として顔検出を一例として説明を行うが、本発明は、顔以外のオブジェクトを検出する目的に適用することもできる。
<検出装置10のハードウェア構成>
図1は、第1の実施形態に係る検出装置10のハードウェア構成の一例を示す図である。検出装置10は、主に、制御部101、記憶部102、入力部103、表示部104、バス105から構成される。
図1は、第1の実施形態に係る検出装置10のハードウェア構成の一例を示す図である。検出装置10は、主に、制御部101、記憶部102、入力部103、表示部104、バス105から構成される。
制御部101は、CPU、ROM、RAM等で構成される。CPUは、記憶部102、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に
呼び出して実行することで、検出装置10が行う全ての処理を行う。ROMは、不揮発性メモリであり、プログラムやデータ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部102、ROM等からロードしたプログラム、データ等を一時的に保持するとともに、制御部101が各種処理を行う為に使用するワークエリアを備える。
呼び出して実行することで、検出装置10が行う全ての処理を行う。ROMは、不揮発性メモリであり、プログラムやデータ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部102、ROM等からロードしたプログラム、データ等を一時的に保持するとともに、制御部101が各種処理を行う為に使用するワークエリアを備える。
記憶部102は、フラッシュメモリ、ROM、RAM等で構成される。フラッシュメモリやROMには、コンピュータのブートプログラムやBIOS等のプログラム、アプリケーション、データ等を保持している。RAMは、ROM等からロードしたプログラム、データ等を一時的に保持するとともに、制御部101が各種処理を行う為に使用するワークエリアを備える。
本実施形態においては、図1に示すように、顔を検出する対象画像である「対象画像7」、対象画像7から顔を検出する「顔検出器1」などが記憶部102に記憶されている。顔検出器1は、後述するように、予め機械学習により生成されるものである。
本実施形態においては、図1に示すように、顔を検出する対象画像である「対象画像7」、対象画像7から顔を検出する「顔検出器1」などが記憶部102に記憶されている。顔検出器1は、後述するように、予め機械学習により生成されるものである。
入力部103は、データの入力を行い、例えば、テンキー、小型キーボード等の入力装置を有する。入力部103を介して、検出装置10に対して、操作指示、動作指示、データ入力等を行うことができる。
また、入力部103は、CCDやCMOSセンサ等のカメラを備えてもよい。これにより、カメラにより撮像した画像を、顔の検出対象である対象画像7とすることもできる。
また、入力部103は、CCDやCMOSセンサ等のカメラを備えてもよい。これにより、カメラにより撮像した画像を、顔の検出対象である対象画像7とすることもできる。
表示部104は、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。なお、入力部103及び表示部104は、タッチパネルディスプレイのように、一体となって構成されても良い。
<顔検出器1の分類構造>
図2は、記憶部102に記憶されている顔検出器1の分類構造を示す概念図である。本実施形態に係る顔検出器1は、シングルクラス分類部3と、マルチクラス分類部5と、から構成されており、複数の向きの顔を検出可能なMVFD(Multi−View Face Detector)に適した分類構造を実現している。
図2は、記憶部102に記憶されている顔検出器1の分類構造を示す概念図である。本実施形態に係る顔検出器1は、シングルクラス分類部3と、マルチクラス分類部5と、から構成されており、複数の向きの顔を検出可能なMVFD(Multi−View Face Detector)に適した分類構造を実現している。
図3(a)は、顔検出器1の一部を構成するシングルクラス分類部3を示す概念図である。シングルクラス分類部3は、図3(b)に示すように対象画像7を入力して顔・非顔を識別(分類)する強識別器として機能するシングルクラス分類ノード31、を複数連結したカスケード型の識別構造をとる。
ここで、カスケード型の識別構造により非顔が効果的に排除されることを概念的に説明しておく。各シングルクラス分類ノード31(強識別器)において、顔画像を通過させる割合をT(0<T<1)、非顔画像を通過させる割合をF(0<F<1)とすると、n番目のシングルクラス分類ノード(強識別器)を通過後は、顔画像はTnだけ通過していることになる。例えば、T=0.999、F=0.5とした場合、n(=20)番目のシングルクラス分類ノード31における顔画像の通過率は0.99920≒0.98、非顔画像の通過率は0.520≒9.5×10−7となり、非顔画像をほとんど通過させないことが分かる。
尚、上記のように、非顔の効果的な排除の観点から、シングルクラス分類ノード31を複数連結することが望ましいが、1つのシングルクラス分類ノード31によってシングルクラス分類部3を構成してもよい。
また、上記したシングルクラス分類部3は、識別対象とする顔の向きに応じて階層的に形成されている。特に、上層のシングルクラス分類部3ほど、広い範囲の顔の向きを識別対象とし、下層のシングルクラス分類部3ほど、より特定の範囲の顔の向きを識別対象として形成されている。これによって、顔検出器1の上層では、大まかな顔と非顔の識別(分類)を行い、下層に進むにつれ、顔の特定の向きに応じた詳細な識別(分類)を行う。
より厳密には、顔検出器1のある上層のシングルクラス分類部3から、マルチクラス分類部5を介して分岐する下層の複数のシングルクラス分類部3は、分岐元の上層のシングルクラス分類部3が識別対象とする顔の向きの一部を識別対象とするように形成される。また、当該複数のシングルクラス分類部3は、互いに、異なる向きの顔を識別対象とするように形成される。
例えば、図2の場合、顔検出器1の最上層のシングルクラス分類部3は、任意の向き(全方向)の顔を識別可能なように形成され、当該シングルクラス分類部3から、マルチクラス分類部5を介して分岐する3つのシングルクラス分類部3は、分岐元の最上層のシングルクラス分類部3が識別対象とする顔の向きの一部であって、互いに異なる向き、例えば、正面方向・右方向・左方向の顔を識別可能なように形成される。
図4は、顔検出器1の一部を構成するマルチクラス分類部5を示す概念図である。マルチクラス分類部5は、対象画像7の顔の向きを分類する分類器として機能し、図4に示すように、複数のシングルクラス分類部3へ分岐するマルチクラス分類ノード51によって構成される。マルチクラス分類ノード51は、上層のシングルクラス分類部3(シングルクラス分類ノード31)によって顔識別された対象画像7を、下層のいずれかのシングルクラス分類部3(シングルクラス分類ノード31)へ入力(分類)する。
尚、図2に示す顔検出器1の分類構造は、あくまで本発明を説明するための概念図であり、シングルクラス分類部3とマルチクラス分類部5が交互に繰り返す構造であれば、図の例に依らず種々の変形が可能である。
<顔検出器1の学習>
上記した顔検出器1を学習形成する手順について図5〜図7を参照しながら説明する。顔検出器1の学習は、検出装置10で実行されてもよいし、その他のコンピュータ等で実行されてもよい。いずれにしても、学習生成された顔検出器1は、予め検査装置10の記憶部102に記憶されているものとする。
上記した顔検出器1を学習形成する手順について図5〜図7を参照しながら説明する。顔検出器1の学習は、検出装置10で実行されてもよいし、その他のコンピュータ等で実行されてもよい。いずれにしても、学習生成された顔検出器1は、予め検査装置10の記憶部102に記憶されているものとする。
図5に示すように、最初に、シングルクラス分類部3(3―1)を顔検出器1の最上層に学習形成する。具体的には、検出対象とする任意の向き(全方向)の顔向きの「ポジティブ画像」と顔以外の背景画像等の「ネガティブ画像」を学習データとして用いて、シングルクラス分類ノード31(強識別器)を生成・連結させていく。そして、偽陽性率(非顔を誤って顔と検出した割合)が所定の値より低くなると、シングルクラス分類ノード31(強識別器)の生成・連結を終了し、シングルクラス分類部3(3―1)が形成される。
シングルクラス分類部3(シングルクラス分類ノード31)の学習手法は、特に限定しないが、代表的にはアダブースティング等を利用できる。また、学習に用いる特徴量も特に限定しないが、本実施形態では、後述する「EMBLBP値」を採用する。EMBLBP値は照明不変の特徴を有するため、異なる照明下の検出に強い。また、EMBLBP値はあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られる。さらに、EMBLBP値は強い特徴を持つため、弱識別器の数が少なくて済み、顔検出処理時の計算効率性を向上させる。
続いて、図6に示すように、学習形成されたシングルクラス分類部3(3―1)の最下段のシングルクラス分類ノード31で正識別された学習データを用いて、顔の向きを更に分類(例えば、正面方向・左方向・右方向)するマルチクラス分類部5(5−1)(マルチクラス分類ノード51)を学習形成する。マルチクラス分類部5の学習方法についても特に限定はしないが、本実施形態では、後述する「ジョイントブースティング」を導入する。これによって、対象画像7の分類処理において、弱識別器(特徴量)の計算コストを大幅に軽減でき、顔検出処理の計算効率性を向上させることができる。また、画像特徴量についても特に限定はしないが、シングルクラス分類部3の学習と同様にEMBLBP値を採用する。
そして、図7に示すように、マルチクラス分類部5(5−1)により分類分けされた学習データを用いて、分類毎に、シングルクラス分類部3(3−2、3−2、3−4)を更に学習形成する。具体的には、図5に示したシングルクラス分類部3−1の学習形成と同様に、偽陽性率(非顔を誤って顔と検出した割合)が所定の値より低くなるまで、シングルクラス分類ノード31(強識別器)を生成・連結させていく。そして、偽陽性率が所定の値より低くなると、シングルクラス分類ノード31(強識別器)の生成・連結を終了し、各シングルクラス分類部3(3−2、3−3、3−4)が形成される。
以降、同様に、シングルクラス分類部3で正識別された学習データを用いたマルチクラス分類部5の学習形成、及びマルチクラス分類部5により分類分けされた学習データを用いたシングルクラス分類部3の学習形成、を目的の偽陽性率を満たすまで繰り返す。これにより、最終的に顔検出器1が形成される。
(ジョイントブースティング)
前述したように、顔検出器1のマルチクラス分類部5は、ジョイントブースティングにより学習形成される。ジョイントブースティングは、高精度な2クラス識別器の学習方法であるジェントルブースティングをマルチクラス分類に拡張したものである。この手法は、弱識別器(特徴量)をクラス間で共有することができるため、計算効率性の高い識別器を構築するとこができる。以降、ジョイントブースティングによる機械学習について理論的側面から説明する。
前述したように、顔検出器1のマルチクラス分類部5は、ジョイントブースティングにより学習形成される。ジョイントブースティングは、高精度な2クラス識別器の学習方法であるジェントルブースティングをマルチクラス分類に拡張したものである。この手法は、弱識別器(特徴量)をクラス間で共有することができるため、計算効率性の高い識別器を構築するとこができる。以降、ジョイントブースティングによる機械学習について理論的側面から説明する。
ジョイントブースティングでは、各クラスが特徴を共有する様々なサブセット(クラスの組合わせ)の強識別器を生成する。3クラスを例に示すと、サブセットS(n)は(1,2,3)、(1,2)、(2,3)、(1,3)、(1)、(2)、(3)となる(nはサブセットのインデックスを示す)。サブセットに対応した強識別器をGS(n)(v)(v:特徴量)とすると、各クラスの強識別器は以下のように表される。
上式に示すように、例えば、クラス1とクラス2ではG1,2,3(v)、G1,2(v)を共有していることが分かる。このようにクラス間で特徴を共有できるため、計算効率性が向上する。各サブセットの強識別器は、対応したサブセットの弱識別器hm n(v)の加算モデルで次のように表される。mは学習のラウンド数を示す。
ジョイントブースティングは、ジェントルブースティングの拡張バージョンとして提案されている。ジェントルブースティングは、2値クラスのブースティング手法であり、検出対象である確からしさを確率密度などで確率的に出力するような弱識別器を使用することで、従来のアダブースティングよりも識別精度の向上を実現している。
ジョイントブースティングでは、クラスごとに学習データの重みwi c(c:クラス、i:学習データのインデックス)を持たせており、各クラスのラベルは、該当クラスが「1」、それ以外が「−1」となるzi cが用いられる。選択したサブセットではジェントルブースティングを行い、サブセットのクラスにおける重み・ラベルで確率的に判別値を出力する弱識別器を生成する。サブセット外のクラスに対しては、弱識別器は超平面を設けず、該当クラスのラベルを確率的に出力する。
また、本実施形態では、ジョイントブースティングの学習に用いる特徴量として、EMBLBP(Extended Multi Block Local Binary Pattern)値を採用する。EMBLBP値は、画像固有のバイナリパターンを数値化したものである。EMBLBP値の256階調分の判別値を用意する弱識別器は以下のように表される。
ここで、vi fは学習データiのf番目の特徴量(EMBLBP値)である。このようにサブセットに含まれるクラスにおいて、特定特徴量に対応した判別値を確率的に算出している。また、弱識別器はサブセットに対しf番目の特徴量に応じた256階調のLUT(Look Up Table)で表される。ブースティングにおけるラウンドの評価として、以下のように最小自乗問題で表されるエラーを最小にするものが最適な弱識別器として選択される。
このエラー値を全てのサブセットと特徴量で評価し、最小となった時に対象となるサブセット、その弱識別器(LUT)、使用する特徴量の番号fが決定される。
尚、1回の学習ラウンドが終了すると、次のラウンドでは、重みが以下の式で更新される。
以上説明したジョイントブースティングによる機械学習の疑似コードを以下に示す。
(特徴量)
前述したように、本実施形態では、画像データの特徴量としてEMBLBP値を採用する。EMBLBPはLBP(Local Binary Pattern)を改良した特徴量であり、MBLBP(Multi−Block Local Binary Pattern)、mMBLBP(mean Multi−Block Local Binary Pattern)、dMBLBP(direction Multi−Block Local Binary Pattern)、tMBLBP(transition Multi−Block Local Binary Pattern)を併用したものである。EMBLBPは画像上のあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られるメリットがある。
前述したように、本実施形態では、画像データの特徴量としてEMBLBP値を採用する。EMBLBPはLBP(Local Binary Pattern)を改良した特徴量であり、MBLBP(Multi−Block Local Binary Pattern)、mMBLBP(mean Multi−Block Local Binary Pattern)、dMBLBP(direction Multi−Block Local Binary Pattern)、tMBLBP(transition Multi−Block Local Binary Pattern)を併用したものである。EMBLBPは画像上のあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られるメリットがある。
以下、EMBLBP値を構成する各特徴量(LBP、MBLBP、mMBLBP、dMBLBP、tMBLBP)について説明する。
図8は、LBPを示す図である。LBPは3×3の画素ブロックにおいて、中央画素と周辺画素の値を比較し、値の大小に応じてバイナリ値{0,1}に変換する。LBPは、周辺画素のバイナリ値を並べ、8ビットの整数値に変換したものを特徴値とする。LBPは以下の式で求められる。
ここで、gcを中心画素値、gpを周辺画素値とする。このようなバイナリパターンは明るさに依らない画像内の特徴を表すことができる。
MBLBPはLBPをマルチブロック型に拡張したものであり、ある画像範囲を3×3のブロックで表す。各ブロックの平均値を用いて、3×3の画素ブロックのように扱い、LBPと同様の特徴値を算出する。
mMBLBPは、MBLBP同様にマルチブロック構造を採用するが、MBLBPのように中央ブロックと周辺ブロックの比較ではなく、全体の平均値と周辺ブロックの比較により、LBPと同様の特徴値を算出する。
tMBLBPはMBLBPのマルチブロック構造を用いて、周囲ブロックのみでバイナリパターンを抽出した特徴量である。
図9(a)は、tMBLBPを示す図である。
周囲ブロックを回転するように、隣り合うブロックの平均値同士で値を比較し、バイナリパターンを生成する。tMBLBPは以下の式で求められる。
図9(a)は、tMBLBPを示す図である。
周囲ブロックを回転するように、隣り合うブロックの平均値同士で値を比較し、バイナリパターンを生成する。tMBLBPは以下の式で求められる。
ここで、gpは周囲ブロックの平均値であり、g0をブロック周回の開始地点を示す。
dMBLBPは、tMBLBPと同様にマルチブロック構造を採用しており、特定の直線方向に並んだ3ブロックからバイナリパターンを抽出する。
図9(b)は、dMBLBPを示す図である。図9(b)に示すように、1方向につき2ビットのパターンで表す直線を4方向与え、最終的に8ビットのバイナリパターンを得る。ある1方向のバイナリパターンは1ビット目を中心ブロックの値が最大若しくは最小であるか否かで判定している。また2ビット目では、中心ブロックと隣り合う2ブロックの差分値を比較し、いずれの差分値が高いか否かでバイナリ値を決定する。dMBLBPは以下の式で求められる。
図9(b)は、dMBLBPを示す図である。図9(b)に示すように、1方向につき2ビットのパターンで表す直線を4方向与え、最終的に8ビットのバイナリパターンを得る。ある1方向のバイナリパターンは1ビット目を中心ブロックの値が最大若しくは最小であるか否かで判定している。また2ビット目では、中心ブロックと隣り合う2ブロックの差分値を比較し、いずれの差分値が高いか否かでバイナリ値を決定する。dMBLBPは以下の式で求められる。
ここで、P’は周囲ブロックの半周分であり、P=2P’となる。gp’は半周中にあるブロックの平均値であり、gcは中心ブロックの平均値である。
EMBLBPは、上記したマルチブロック型のLBP特徴量を用い、3×3の画素ブロックからスタートし、徐々にマルチブロック型に拡大しながら3つの特徴量を計算していく。例えば、3×3画素ブロックの次は2×2画素ブロックが3×3で並んだ6×6の画素範囲で各MBLBPが計算される。また、MBLBPでは各ブロックサイズで画像内を1画素ずつ走査して特徴量を抽出していく。
このようにEMBLBPはあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られる。
このようにEMBLBPはあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られる。
<検出装置10の動作>
図10〜図14を参照して、検出装置10の動作を説明する。図10は、検出装置10の全体動作を示すフローチャートである。
まず、検出装置10の制御部101は、対象画像7を記憶部102から読込む(ステップS1)。図12は対象画像7の例を示す図である。
図10〜図14を参照して、検出装置10の動作を説明する。図10は、検出装置10の全体動作を示すフローチャートである。
まず、検出装置10の制御部101は、対象画像7を記憶部102から読込む(ステップS1)。図12は対象画像7の例を示す図である。
そして、検出装置10の制御部101は、所定のサイズの顔検出窓51を対象画像7内で走査させながら、顔検出窓51で切り出した画像に対して、逐次、顔検出処理を実行する(ステップS2、図13参照)。以下、顔検出窓51で切り出した1つの画像(以降、当該画像を「対象画像7」と呼ぶ)に対して、顔検出処理を行う手順を説明する。
図11は、顔検出処理の流れを示すフローチャートである。
まず、検出装置10の制御部101は、対象画像7(顔検出窓51で切り出した画像)を、顔検出器1の最上層のシングルクラス分類部3の初段のシングルクラス分類ノード31に入力する(ステップS21)。
まず、検出装置10の制御部101は、対象画像7(顔検出窓51で切り出した画像)を、顔検出器1の最上層のシングルクラス分類部3の初段のシングルクラス分類ノード31に入力する(ステップS21)。
そして、検出装置10の制御部101は、当該シングルクラス分類ノード31(強識別器)により、顔識別を実行する(ステップS22)。この際、制御部101は、対象画像7からEMBLBP値に基づく特徴量を算出し、当該特徴量に基づいて顔識別を実行する。
当該シングルクラス分類ノード31(強識別器)で、顔が識別されなかった場合(ステップS23の「No」)、ステップS24へ移行し、対象画像7から顔が識別されなかったもの(非顔)と判断し、顔検出処理を終了する。一方、顔が識別された場合(ステップS23の「Yes」)、ステップS25へ移行する。ここで、当該シングルクラス分類ノード31(強識別器)がシングルクラス分類部3の最下段のノードである場合(ステップS25の「Yes」)、ステップS27へ移行する。
一方、当該シングルクラス分類ノード31(強識別器)がシングルクラス分類部3の最下段のノードでない場合(ステップS25の「No」)、ステップS26へ移行する。
ステップS26において、対象画像7を、当該シングルクラス分類ノード31から更に次段のシングルクラス分類ノード31に入力する。そして、ステップS22に戻り、ステップS22〜ステップS26の処理を、いずれかのシングルクラス分類ノード31(強識別器)で顔でない(非顔)と識別されるか(ステップS23において「No」)、或いは、シングルクラス分類部3の最下段のシングルクラス分類ノード31において顔であると識別される(ステップS25において「Yes」)まで、繰り返す。
ステップS26において、対象画像7を、当該シングルクラス分類ノード31から更に次段のシングルクラス分類ノード31に入力する。そして、ステップS22に戻り、ステップS22〜ステップS26の処理を、いずれかのシングルクラス分類ノード31(強識別器)で顔でない(非顔)と識別されるか(ステップS23において「No」)、或いは、シングルクラス分類部3の最下段のシングルクラス分類ノード31において顔であると識別される(ステップS25において「Yes」)まで、繰り返す。
上記したステップS22〜S26の処理によって、複数のシングルクラス分類ノード31から成るシングルクラス分類部3によるカスケード識別が実行され、非顔が効果的に排除される。
シングルクラス分類部3の最下段のシングルクラス分類ノード31において顔識別された場合(ステップS25の「Yes」)、更に当該シングルクラス分類ノード31が顔検出器1の葉ノードか否かを判断する(ステップS27)。当該シングルクラス分類ノード31が葉ノードの場合(ステップS27の「Yes」)、ステップS29へ移行し、当該葉ノードに該当する向きの顔を検出したものと判断し、顔検出処理を終了する。一方、当該シングルクラス分類ノード31が葉ノードでない場合(ステップS27の「No」)、ステップS28に移行する。
ステップS28において、マルチクラス分類部5(マルチクラス分類ノード51)によって、対象画像7を、更に下層のいずれかのシングルクラス分類部3の初段のシングルクラス分類ノード31に入力する(分類する)。この際、制御部101は、対象画像7からEMBLBP値に基づく特徴量を算出し、当該特徴量に基づいて、分類を行う。本実施形態では、マルチクラス分類部5(マルチクラス分類ノード51)は、ジョイントブースティングによって学習形成されているため、分類間で特徴量を共有できる。このため、ステップS28の対象画像7の分類処理において、特徴量の計算コストを大幅に軽減できる。
そして、ステップS22〜S28の処理は、いずれかのシングルクラス分類ノード31(強識別器)で顔でない(非顔)と識別されるか(ステップS23において「No」)、或いは、顔検出器1の葉ノードのシングルクラス分類ノード31において顔が正識別されるまで(ステップS27の「Yes」)、繰り返し実行される。
図10のフローチャートに戻る。顔検出処理が終了すると、検出装置10の制御部101は、顔検出結果を出力する(ステップS3)。
図14は対象画像7の顔検出結果の例を示す図である。図14に示すように、制御部101は、顔が検出された顔検出エリア52を対象画像7上に表示するなどして顔検出結果をユーザに提示する。
図14は対象画像7の顔検出結果の例を示す図である。図14に示すように、制御部101は、顔が検出された顔検出エリア52を対象画像7上に表示するなどして顔検出結果をユーザに提示する。
以上、本実施形態によれば、顔検出器1のシングルクラス分類部3(シングルクラス分類ノード31)による顔識別と、マルチクラス分類部5(マルチクラス分類ノード51)による顔分類と、を繰り返し実行することで、顔検出処理を行う。各段階で予め非顔を排除した上で、顔分類を行っていくため、効率的な顔検出処理が実現される。特に、本実施形態では、シングルクラス分類ノード31(強識別器)を複数連結したシングルクラス分類部3(カスケード型の識別器)によって、非顔を効果的に排除することが可能である。従来のBFS木(図17参照)では、顔検出処理の最終段階である葉ノードにカスケード構造を設けることで、非顔を効果的に排除するように構成している。しかしながら、葉ノードに辿り着くまでは非顔を多く含んでおり、非顔を早期段階で効果的に排除することができなかった。この点、本実施形態では、シングルクラス分類部3により非顔を効果的に排除しながら、マルチクラス分類部5により顔分類を行っていくように構成することで、従来に比べ顔検出処理を一層効率的なものとしている。
また、マルチクラス分類部5の機械学習法としてジョイントブースティングを導入する。これにより、弱識別器(特徴量)の全体個数を削減できる。このため、ステップS28(図11参照)の分類処理において、弱識別器(特徴量)の計算コストを大幅に軽減でき、顔検出処理の計算効率性を向上させることができる。また、画像特徴量として、EMBLBP値を採用した。EMBLBP値は照明不変の特徴を有するため、異なる照明下の検出に強い。また、EMBLBP値はあらゆる方向のパターンを複合して抽出するため、顔の複雑な特徴について精度の高い情報が得られる。さらに、EMBLBP値は強い特徴を持つため、弱識別器の数が少なくて済み、顔検出処理時の計算効率性を一層向上させる。
以上、添付図面を参照しながら、本発明に係る検出装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。例えば、前述したように、本発明は、顔以外のオブジェクトを検出する目的に適用することができる。また、当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
1;顔検出器
3;シングルクラス分類部
5;マルチクラス分類部
7;対象画像
10;検出装置
31;シングルクラス分類ノード
51;マルチクラス分類ノード
3;シングルクラス分類部
5;マルチクラス分類部
7;対象画像
10;検出装置
31;シングルクラス分類ノード
51;マルチクラス分類ノード
Claims (8)
- 対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部と、
前記シングルクラス分類部によりオブジェクトが識別された場合に、前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類部と、を備え、
前記シングルクラス分類部によるオブジェクトの有無の識別と、前記マルチクラス分類部による他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするオブジェクト検出装置。 - 前記シングルクラス分類部は、前記対象画像からオブジェクトの有無を識別する強識別器を複数連結して構成されることを特徴とする請求項1に記載のオブジェクト検出装置。
- 前記シングルクラス分類部は、識別対象とするオブジェクトの向きに応じて形成されることを特徴とする請求項1又は請求項2に記載のオブジェクト検出装置。
- 前記シングルクラス分類部の分類先の複数のシングルクラス分類部は、互いに、異なる向きのオブジェクトを識別対象とし、且つ、分類元の前記シングルクラス分類部が識別対象とするオブジェクトの向きの一部を識別対象とするように形成されることを特徴とする請求項3に記載のオブジェクト検出装置。
- 前記マルチクラス分類部は、前記シングルクラス識別部へ分類する際に算出する前記対象画像の特徴量を、分類間で共有することを特徴とする請求項1乃至請求項4のいずれかに記載のオブジェクト検出装置。
- 前記シングルクラス分類部、及び前記マルチクラス分類部は、対象画像からEMBLBP値に基づく特徴量を算出し、識別、及び分類を行うことを特徴とする請求項1乃至請求項5のいずれかに記載のオブジェクト検出装置。
- 複数のシングルクラス分類部を備えた、オブジェクト検出装置によるオブジェクト検出方法であって、
対象画像中のオブジェクトの有無を、前記シングルクラス分類部によって識別するシングルクラス分類ステップと、
前記シングルクラス分類ステップによりオブジェクトが識別された前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類ステップと、を含み、
前記シングルクラス分類ステップによるオブジェクトの有無の識別と、前記マルチクラス分類ステップによる他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするオブジェクト検出方法。 - コンピュータを、
対象画像からオブジェクトの有無を識別する複数のシングルクラス分類部、
前記シングルクラス分類部によりオブジェクトが識別された場合に、前記対象画像を、他の前記シングルクラス分類部へ分類するマルチクラス分類部、として機能させ、
前記シングルクラス分類部によるオブジェクトの有無の識別と、前記マルチクラス分類部による他の前記シングルクラス分類部への分類と、を繰り返し実行することで対象画像からオブジェクトを検出することを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015027557A JP2016151805A (ja) | 2015-02-16 | 2015-02-16 | オブジェクト検出装置、オブジェクト検出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015027557A JP2016151805A (ja) | 2015-02-16 | 2015-02-16 | オブジェクト検出装置、オブジェクト検出方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016151805A true JP2016151805A (ja) | 2016-08-22 |
Family
ID=56696523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015027557A Pending JP2016151805A (ja) | 2015-02-16 | 2015-02-16 | オブジェクト検出装置、オブジェクト検出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016151805A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102017213418A1 (de) | 2016-08-02 | 2018-02-08 | Omron Automotive Electronics Co., Ltd. | Spannungsumsetzungsvorrichtung |
JP2019527440A (ja) * | 2016-12-07 | 2019-09-26 | 三菱電機株式会社 | マルチ関連ラベルを生成する方法及びシステム |
WO2020079933A1 (ja) | 2018-10-18 | 2020-04-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理装置、情報処理方法及びプログラム |
US11526708B2 (en) | 2018-10-18 | 2022-12-13 | Panasonic Intellectual Property Corporation Of America | Information processing device, information processing method, and recording medium |
JP2022552383A (ja) * | 2019-10-18 | 2022-12-15 | 美的集団股▲フン▼有限公司 | 目標検出モデルのマルチパストレーニングによる機器設定の調整 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008033424A (ja) * | 2006-07-26 | 2008-02-14 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
JP2009151395A (ja) * | 2007-12-18 | 2009-07-09 | Canon Inc | パターン識別器生成方法、情報処理装置、コンピュータプログラム及び記憶媒体 |
JP2011198181A (ja) * | 2010-03-23 | 2011-10-06 | Fujifilm Corp | 判別器生成装置および方法並びにプログラム |
-
2015
- 2015-02-16 JP JP2015027557A patent/JP2016151805A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008033424A (ja) * | 2006-07-26 | 2008-02-14 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
JP2009151395A (ja) * | 2007-12-18 | 2009-07-09 | Canon Inc | パターン識別器生成方法、情報処理装置、コンピュータプログラム及び記憶媒体 |
JP2011198181A (ja) * | 2010-03-23 | 2011-10-06 | Fujifilm Corp | 判別器生成装置および方法並びにプログラム |
Non-Patent Citations (1)
Title |
---|
JIRI TREFNY ET AL.: ""Extended Set of Local Binary Patterns for Rapid Object Detection", [online]", COMPUTER VISION WINTER WORKSHOP 2010, JPN7018004211, 3 February 2010 (2010-02-03), pages 1 - 7, ISSN: 0004054626 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102017213418A1 (de) | 2016-08-02 | 2018-02-08 | Omron Automotive Electronics Co., Ltd. | Spannungsumsetzungsvorrichtung |
JP2019527440A (ja) * | 2016-12-07 | 2019-09-26 | 三菱電機株式会社 | マルチ関連ラベルを生成する方法及びシステム |
WO2020079933A1 (ja) | 2018-10-18 | 2020-04-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理装置、情報処理方法及びプログラム |
US11526708B2 (en) | 2018-10-18 | 2022-12-13 | Panasonic Intellectual Property Corporation Of America | Information processing device, information processing method, and recording medium |
JP2022552383A (ja) * | 2019-10-18 | 2022-12-15 | 美的集団股▲フン▼有限公司 | 目標検出モデルのマルチパストレーニングによる機器設定の調整 |
JP7239782B2 (ja) | 2019-10-18 | 2023-03-14 | 美的集団股▲フン▼有限公司 | 目標検出モデルのマルチパストレーニングによる機器設定の調整 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharma et al. | Hand gesture recognition using image processing and feature extraction techniques | |
Wu et al. | Cluster boosted tree classifier for multi-view, multi-pose object detection | |
Mita et al. | Joint haar-like features for face detection | |
JP4767595B2 (ja) | 対象物検出装置及びその学習装置 | |
KR101410489B1 (ko) | 얼굴 식별 방법 및 그 장치 | |
JP4724125B2 (ja) | 顔認識システム | |
US8306282B2 (en) | Hierarchical face recognition training method and hierarchical face recognition method thereof | |
US20070058856A1 (en) | Character recoginition in video data | |
US20120243779A1 (en) | Recognition device, recognition method, and computer program product | |
JP2016151805A (ja) | オブジェクト検出装置、オブジェクト検出方法、及びプログラム | |
Greeshma et al. | Fashion-MNIST classification based on HOG feature descriptor using SVM | |
JP2012243180A (ja) | 学習装置および方法、並びにプログラム | |
Liao et al. | Unconstrained face detection | |
Winarno et al. | Analysis of color features performance using support vector machine with multi-kernel for batik classification. | |
Gattal et al. | Segmentation and recognition strategy of handwritten connected digits based on the oriented sliding window | |
JP6338781B2 (ja) | 学習装置および学習識別システム | |
JP5171362B2 (ja) | 強識別器の学習装置及びその方法並びに強識別器の学習プログラム | |
Al-Sahaf et al. | Binary image classification using genetic programming based on local binary patterns | |
Bindu et al. | Kernel-based scale-invariant feature transform and spherical SVM classifier for face recognition | |
Pereira et al. | Investigation of local and global features for face detection | |
Malalur et al. | Alignment based matching networks for one-shot classification and open-set recognition | |
Brehar et al. | Local information statistics of lbp and hog for pedestrian detection | |
Berglind et al. | Xood: Extreme value based out-of-distribution detection for image classification | |
Saberian et al. | Multi-resolution cascades for multiclass object detection | |
KR101791514B1 (ko) | 아다부스트 알고리즘 기반 학습 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181218 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190618 |