JP6924031B2

JP6924031B2 - オブジェクト検出装置及びこれらのプログラム

Info

Publication number: JP6924031B2
Application number: JP2016255555A
Authority: JP
Inventors: 吉彦河合; 佐野　雅規; 雅規佐野
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2021-08-25
Anticipated expiration: 2036-12-28
Also published as: JP2018106618A

Description

本発明は、画像データを分類する技術に関し、特に、機械学習させて画像の分類を行う画像データ分類装置、この画像データ分類装置を用いて画像データ内の所定のオブジェクト（顔、人物、車両などの物体）を検出可能とするオブジェクト検出装置、及びこれらのプログラムに関する。

一般に、画像データを分類するために、機械学習させて構築された決定木による分類技法がよく用いられる。決定木は、if‐thenルールに基づいて、入力されたデータを分類する技法である。

特に、静止画像の画像データを分類する決定木の各ノードでは、入力される画像データ（入力画像）に対し所定の特徴量を算出し、この算出した特徴量を持つ入力画像をまず２つに分離するためのノードとする。そして、当該算出した特徴量が、２つに分離するためのノード闘値より大きいか否かで当該ノードが分岐される。決定木では、この分岐を繰り返し、最終的に到達した葉ノードの分類結果を当該入力画像に対するラベルとして決定する。ラベルとは、検出対象となるオブジェクト（顔、人物、車両などの物体）の分類結果を示すものをいう。

ここで、決定木を構築するための機械学習の学習手順について説明する。機械学習の学習データとして、正解ラベルが付与された画像群（正例）と、正解ラベルが付与されていない画像群（負例）が予め用意される。決定木を構築するための機械学習のアルゴリズムには、ＩＤ３やＣＡＲＴ等の様々なものがある。尚、正解ラベル或いは不正解ラベルは、ラベル１、ラベル２、…というように複数種が想定される。

また、機械学習には、正例と負例とを分離させ、尚且つ正例を分類するための様々な種類の分離用の特徴量群（以下、「特徴量プール」と称する）も予め用意される。この特徴量プール内の特徴量を基に、正例及び負例の画像の画像特徴（各画像を特徴づける特徴量）が算出される。尚、決定木を用いて分類する対象となる入力画像も同様に、この特徴量プール内の特徴量を基に、当該入力画像を特徴づける特徴量が算出される。

機械学習により決定木を構築するために、特徴量プールの中から、学習データ（より正確には、学習データの画像特徴）を最もよく分離できる特徴量を選択してノード閾値により分岐し、その分岐したノードを更に分岐するよう順番に繰り返す。ノード閾値は、分離判定対象のノードを２つに分離させるために、ノード毎にその都度判定される。

この分岐は、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで（即ち、分離精度の向上が望めなくなるまで）繰り返す。尚、データ分離の良否の判定を行うとともに、Ｇｉｎｉ係数や情報利得などがよく利用される。

ところで、分離精度の高い決定木を構築するためには、ノードの分岐のためにどのような特徴量（特徴量プール内の特徴量及び画像特徴となる特徴量を含む）を利用するかが重要となる。

従来技法として、入力画像を２つの小領域に区分し、第１の領域にある画素の総和から、第２の領域内にある画素の総和を減算した値を特徴量とする技法が開示されている（例えば、非特許文献１参照）。非特許文献１では、この特徴量をＨａａｒライク特徴と称し、非特許文献１における図１（Figure １）には、そのＨａａｒライク特徴の例が示されており、灰色の小領域にある画素の総和から、白色の小領域内にある画素の総和を減算した値を特徴量としている。非特許文献１では、この小領域の位置やサイズを様々に変えたものを特徴量プールとしている。

また、入力画像に対し予め規則性のある複数の座標点（画素座標）を微調整可能に割り当て、複数の座標点（顔特徴点）のうち２座標点を選択し、選択した２座標点間の差分（画素値の差分）を特徴量とする技法が開示されている（例えば、非特許文献２参照）。非特許文献２における図９（Figure ９）には、その特徴量の例が示されており、選択する２座標点の組み合わせを様々に変えたものを特徴量プールとしている。また、非特許文献２には、微調整可能とする複数の座標点は、絶対座標系で定義するよりはむしろ局所座標系で定義することが提案されている。尚、画像データに対する顔特徴点検出は、人物認識に利用可能である。

P.Viola and M.Jones, "Robust Real-time Object Detection", Technical Report Series, CRL 2001/1, February 2001. X.Cao, Y.Wei, F.Wen, and J.Sun, "Face Alignment by Explicit Shape Regression", In Proc.CVPR, 2012.

非特許文献１では、顔が映っている領域を検出する目的で専用に設計された特徴量が提案されている。また、非特許文献２では、顔画像から複数の座標点（顔特徴点）を検出する目的で専用に設計された特徴量が提案されている。

これらの従来技法は、目的に応じて専用に設計された特徴量であるため、汎用性に乏しく、その目的以外の画像データの分類に利用することは難しいものとなっている。

一般に、画像データの分類用途には、顔検出や顔特徴点検出の他、車両検出や車両特徴点検出、或いはこれらの組み合わせなど、様々なオブジェクト検出の用途があり、目的に応じて専用に設計された特徴量とすることは、汎用性に乏しくなる。

更に、これらの従来技法により、入力画像に対し顔の有無の検出するとともに、顔画像から複数の座標点（顔特徴点）を検出し人物認識に利用可能とするには、まず非特許文献１の技法に基づく顔検出を行って、その後、当該入力画像に対し非特許文献２の技法に基づく顔画像から複数の座標点（顔特徴点）を検出することが考えられるが、処理効率として優れているとはいえない。

また、このような顔検出や顔特徴点の対象となる入力画像は、一般的に、ノイズや顔の向きの多様性（顔画像の変形）があり、まずは顔検出の精度を高めることが要求されるが、非特許文献１の技法による顔検出の性能は実用性の観点から十分とはいえない。

このため、入力画像にノイズや検出対象のオブジェクトの向きの多様性がある場合でも、頑健なオブジェクト検出を可能とし、尚且つそのオブジェクト特徴点を効率よく取得可能とするために、汎用性を持たせてより頑健で精度よく画像データを分類可能とする画像データ分類、及びより頑健で高精度に画像データからオブジェクトを検出するオブジェクト検出の技法が望まれる。

本発明の目的は、上述の問題に鑑みて、汎用性を持たせてより頑健で精度よく画像データを分類可能とする画像データ分類装置、より頑健で高精度に画像データからオブジェクトを検出するオブジェクト検出装置、及びこれらのプログラムを提供することにある。

本発明のオブジェクト検出装置は、入力フレーム画像から所定のオブジェクトを検出するオブジェクト検出装置であって、前記入力フレーム画像における識別対象の入力画像の画像データを分類する画像データ分類装置と、前記画像データ分類装置による分類結果を基に、前記入力フレーム画像に対する所定の走査窓の画像内でオブジェクトの有無を判定する判定処理と、該オブジェクトが有るときの画像特徴となる特徴点を選定する特徴点選定処理とを並列に実行する分類結果判定手段と、を備え、前記画像データ分類装置は、予め用意された学習データからマルチスケールの畳み込みフィルタを用いて決定木を学習して構築する学習処理部と、当該学習された決定木に従って、当該マルチスケールの畳み込みフィルタを用いて識別対象の入力画像を分類する識別処理部と、を備え、前記学習処理部は、複数の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズとを特徴量プールとして保持する特徴量プール手段と、入力される複数の学習データの各々に対し、前記特徴量プールに従って当該複数種のフィルタサイズに応じた当該複数種の畳み込みフィルタによるマルチスケールの畳み込みフィルタ処理を実行し、各学習データに対して、当該１つ以上の基準座標点の各々に対し複数種の畳み込みフィルタの数に相当する複数の畳み込み値を求めるとともに、該複数の基準座標点のうち更新可能な特定の２座標点間の畳み込み値の差分値を更に求める第１の畳み込みフィルタ処理手段と、全ての学習データの各々に関する当該複数の基準座標点と、当該複数種の畳み込みフィルタと、それぞれ対応付けられた当該畳み込み値との組み合わせ情報、並びに該複数の基準座標点のうち更新可能な特定の２座標点間の畳み込み値の差分値の全ての組み合わせを基に、当該複数の基準座標点についてノード分岐対象の全ての学習データを最も精度よく２つに分離する畳み込みフィルタの種類と、この分離のためのノード閾値とを求める分離精度算出手段と、前記ノード閾値を基に全ての学習データをノード分岐として２つに分離し、当該ノード分岐に係る畳み込みフィルタの種類と、当該ノード分岐に係るノード閾値とを当該ノードに対応付けて保持し、当該ノード分岐後の全ての学習データについて更なるノード分岐を行うよう繰り返し制御を行うことにより、前記決定木を構築するノード分岐手段と、を備えることを特徴とする。

また、本発明のオブジェクト検出装置において、前記ノード分岐手段は、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで繰り返す当該繰り返し制御を行うことにより、前記決定木を学習して構築することを特徴とする。

また、本発明のオブジェクト検出装置において、前記識別処理部は、前記ノード分岐手段によって構築された当該決定木を格納する学習結果格納手段と、当該学習された決定木に従って前記マルチスケールの畳み込みフィルタを用いて当該識別対象の入力画像を分類する第２の畳み込みフィルタ処理手段と、を備えることを特徴とする。

また、本発明によるオブジェクト検出装置において、前記分類結果判定手段は、前記特徴量プール手段内の複数の当該基準座標点のうち所定数の基準座標点の初期値を定め、該所定数の基準座標点の初期値をそれぞれ原点とする局所座標系により、当該所定数の基準座標点の位置関係の位置ずれを修正するよう、画像データ分類装置に対し更新させる基準座標点更新手段を備えることを特徴とする。

更に、本発明によるプログラムは、コンピュータを、本発明のオブジェクト検出装置として機能させるためのプログラムとして構成される。

本発明に係る画像データの分類技法によれば、汎用性を持たせてより頑健で精度よく画像データを分類可能となり、画像データのラベルを精度よく推定することが可能となる。そして、本発明に係る画像データの分類技法を基に、画像データから対象のオブジェクトを検出することが可能となる。

本発明による一実施形態の画像データ分類装置の概略構成を示すブロック図である。本発明による一実施形態の画像データ分類装置における学習処理を示すフローチャートである。本発明による一実施形態の画像データ分類装置における学習処理の説明図である。本発明による一実施形態の画像データ分類装置によって構築される決定木の概略図である。本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置の概略構成を示すブロック図である。本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置における走査窓設定部の説明図である。（ａ）は本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置における３例の顔特徴量の説明図であり、（ｂ）は本発明に係る一実施例の顔検出装置における３例の顔特徴量について局所座標系で更新される基準座標を例示する説明図であり、（ｃ）比較例として３例の顔特徴量について絶対座標系で更新される基準座標を例示する説明図である。本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置における動作の説明図である。本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置と、非特許文献１の技法との性能比較を示す図である。

〔画像データ分類装置〕
まず、図１乃至図４を参照して、本発明による一実施形態の画像データ分類装置１について説明する。

（装置構成）
図１は、本発明による一実施形態の画像データ分類装置１の概略構成を示すブロック図である。画像データ分類装置１は、機械学習させて構築された決定木により画像データを分類する装置である。

入力される静止画像の画像データを分類するため、決定木の各ノードでは、分類対象の画像データ（入力画像）に対し所定の特徴量を算出し、この算出した特徴量を持つ入力画像をまず２つに分離するためのノードとし、当該算出した特徴量が、２つに分離するためのノード闘値より大きいか否かで当該ノードが分岐される。決定木では、この分岐を繰り返し、最終的に到達した葉ノードの分類結果を当該入力画像に対するラベルとして決定する。ラベルは、検出対象となるオブジェクト（顔、人物、車両などの物体）の分類結果を示すものである。

本発明に係る画像データ分類装置１は、ノードの分岐のために利用する特徴量（特徴量プール内の特徴量及び画像特徴となる特徴量を含む）が従来技法（特に、非特許文献１，２の技法）とは異なり、より表現能力の高い特徴量として、マルチスケールの畳み込みフィルタを利用した特徴量としている。

より具体的には、本発明に係る画像データ分類装置１では、予め定められた１つ以上の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズとを、特徴量プール内の特徴量としている。

そして、本発明に係る画像データ分類装置１では、当該基準座標点の各々に対し、当該複数種のフィルタサイズ毎に、特定のフィルタ係数で構成される畳み込みフィルタによるフィルタ処理を実行し、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を正規化合成した値（畳み込み値ｇ）を、画像特徴となる特徴量としている。

ただし、本発明に係る特徴量は、非特許文献１，２の技法における各特徴量のいずれをも表現可能な特徴量であり、この詳細は、本発明に係るオブジェクト検出装置１０にて後述する。

つまり、本発明に係る画像特徴となる特徴量は、図３を参照して後述するが、複数種（ｍ種類）の畳み込みフィルタｈ_ｍの各々を総括してｈ（Ｋ＋ｉ，Ｋ＋ｊ）と表し、この畳み込みフィルタの複数のフィルタサイズＮ_ｎの各々を総括して縦・横でＮ×Ｎ（Ｎは奇数）画素とし、入力画像ｆに対するｋ（ｋは１以上の整数）個の基準座標点Ｐ_ｋ＝（ｘ_ｋ，ｙ_ｋ）の各々の座標を総括して（ｘ，ｙ）と表すとすると、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を正規化合成した値（畳み込み値ｇ）は、式（１）のように定義される。尚、畳み込みフィルタに関する複数のフィルタサイズＮ×Ｎは特徴量プールとして予め設定してあり、これによりマルチスケールの畳み込みフィルタ処理を構成している。

本例では、畳み込みフィルタｈ（Ｋ＋ｉ，Ｋ＋ｊ）;（０≦ｉ,ｊ＜Ｎ）の各フィルタ係数の値と、畳み込みフィルタを適用する注目画素となる基準座標点Ｐ_ｋ＝（ｘ_ｋ，ｙ_ｋ）について、ランダムに設定したものを特徴量プールとして用いる。ただし、畳み込みフィルタを適用する基準座標点Ｐ_ｋについては、用途に応じて予め考慮した座標点とすることもできる。また、用途に応じて、特徴量プールとして用いる畳み込みフィルタｈ（Ｋ＋ｉ，Ｋ＋ｊ）の種類、基準座標点Ｐ_ｋの位置、及び、畳み込みフィルタに関する複数のフィルタサイズＮ×Ｎは、外部から設定変更可能に構成するのが好適である。

ここで、本発明に係る画像データ分類装置１は、畳み込みフィルタのフィルタサイズを様々に変更してマルチスケール化を構成するが、以下に説明する例では計算コストの削減のため、フィルタサイズを大きくするのではなく、対象画像のサイズを小さくすることで対応する実施形態としている。ただし、対象画像のサイズを変更せずにフィルタサイズを大きくする実施形態としてもよい。

より具体的に図１を参照して説明するに、本実施形態の画像データ分類装置１は、学習データからマルチスケールの畳み込みフィルタを用いて決定木を学習して構築する学習処理部２と、当該マルチスケールの畳み込みフィルタを用いて学習された決定木に従って分類対象の入力画像（静止画像）のラベルを推定する識別処理部３とを備えている。

学習処理部２は、特徴量プール部２１、複数解像度画像生成部２２、フィルタ畳み込み部２３、分離精度算出部２４、及びノード分岐部２５を備える。機械学習の学習データとして、正解ラベルが付与された画像群（正例）と、正解ラベルが付与されていない画像群（負例）が予め用意される。

特徴量プール部２１は、予め定められた１つ以上の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズとを保持している。

複数解像度画像生成部２２は、入力される複数の学習データの各々に対し、特徴量プール部２１に保持される特徴量プール（複数種のフィルタサイズに応じた解像度）に従って複数の解像度変換を行い、各学習データに対応する複数の解像度画像を生成してフィルタ畳み込み部２３に出力する。

フィルタ畳み込み部２３は、複数解像度画像生成部２２から得られる複数の学習データの各々に対する複数の解像度画像について、特徴量プール部２１に保持される特徴量プール（個々の基準座標点と個々の畳み込みフィルタ）に従って畳み込みフィルタ処理を実行する。そして、フィルタ畳み込み部２３は、当該複数の解像度画像における或る基準座標点に対して同一フィルタ係数を持つ或る畳み込みフィルタの組み合わせ毎の畳み込みフィルタ処理の実行によって、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を得て、これら画素値を正規化合成した値（畳み込み値ｇ）を求める。従って、１つの学習データにつき、１つ以上の基準座標点の各々に対し複数種の畳み込みフィルタの数に相当する複数の畳み込み値ｇが得られる。

このため、１つの学習データは、各基準座標点Ｐ_ｋに対しそれぞれが所定数のフィルタサイズＮ×Ｎで畳み込まれた複数種の畳み込みフィルタｈ_ｍにそれぞれ対応付けられた複数の畳み込み値ｇが得られる。従って、１つ以上の基準座標点Ｐ_ｋと、複数種の畳み込みフィルタｈ_ｍと、これらによってそれぞれ対応付けられた複数の畳み込み値ｇとの組み合わせが、当該１つの学習データを定義づける特徴ベクトルとして表される。

複数解像度画像生成部２２及びフィルタ畳み込み部２３は、全ての学習データについて同様の処理を行う。

そして、フィルタ畳み込み部２３は、各学習データを定義づける特徴ベクトルとして表される１つ以上の基準座標点Ｐ_ｋと、複数種の畳み込みフィルタｈ_ｍと、これらによってそれぞれ対応付けられた畳み込み値ｇとの組み合わせ情報を、各学習データに対応付けて分離精度算出部２４に出力する。

分離精度算出部２４は、フィルタ畳み込み部２３から、全ての学習データの各々に関する１つ以上の基準座標点Ｐ_ｋと、複数種の畳み込みフィルタｈ_ｍと、これらによってそれぞれ対応付けられた畳み込み値ｇとの組み合わせ情報を取得して、１つ以上の基準座標点Ｐ_ｋのうち事前設定する特定数の基準座標点Ｐ_ｋ（対応して個々の畳み込み値ｇが得られる）の組み合わせについて、全ての学習データを最も精度よく２つに分離する畳み込みフィルタｈ_ｍの種類と、この分離のためのノード閾値を求めてノード分岐部２５に出力する。分離の良否の判定にはＧｉｎｉ係数や情報利得など従来技術と同様の尺度を利用する。

ノード分岐部２５は、分離精度算出部２４から得られるノード閾値を基に、全ての学習データをノード分岐として２つに分離し、当該ノード分岐に係る畳み込みフィルタｈ_ｍの種類と、当該ノード分岐に係るノード閾値を決定木の構築のために当該ノードに対応付けて保持する。

更に、ノード分岐部２５は、分岐したノードのそれぞれに対し、更なるノード分岐を行うようフィルタ畳み込み部２３に指示して、各分岐したノードに対応する学習データを割り振らせ、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで（即ち、分離精度の向上が望めなくなるまで）繰り返す。分岐不能となったノードは葉ノードとなり、最終的にそのノードに残った学習データの正解又は不正解のラベルに応じて、判別結果としての正解又は不正解、及び正解であればその畳み込みフィルタｈ_ｍの種別を示す判別ラベルを決定する。

更に、ノード分岐部２５は、１つ以上の基準座標点Ｐ_ｋのうち更に事前設定する特定数の基準座標点Ｐ_ｋ（対応して個々の畳み込み値ｇが得られる）の組み合わせについても、全ての学習データを最も精度よく２つに分離する畳み込みフィルタｈ_ｍと、この分離のためのノード閾値を基に分岐を繰り返して、最終的にそのノードに残った学習データの正解又は不正解のラベルに応じて、判別結果としての正解又は不正解、及び正解であればその畳み込みフィルタｈ_ｍの種別を示す判別ラベルを決定する。

尚、１つ以上の基準座標点Ｐ_ｋのうち特定数の基準座標点Ｐ_ｋ（対応して個々の畳み込み値ｇが得られる）の組み合わせは、操作者による外部設定によるものとすることができるが、所定の選択基準（例えば当該特定数の基準座標点Ｐ_ｋの組み合わせ初期値から最近位置の別の基準座標点を用いて当該特定数を維持して組み合わせを選択）に基づいて、自動的に設定するのが好ましい。尚、特徴量プール部２１に予め保持する基準座標点Ｐ_ｋが１つのときは当該決定木による分類判定に用いる当該特定数も１つであり、１つの決定木が構築される。また、特徴量プール部２１に予め保持する基準座標点Ｐ_ｋの全てを当該特定数とした場合も１つの決定木が構築される。

このように、１つ以上の基準座標点Ｐ_ｋのうち特定数の基準座標点Ｐ_ｋ（対応して個々の畳み込み値ｇが得られる）の組み合わせ数に応じた数の決定木が構築される。

構築する決定木の出力ラベル（最終結果の判別ラベル）は、学習データに予め付されている正解又は不正解のラベルと合致するよう機械学習を行うことになる。最終的な決定木の出力ラベル（最終結果の判別ラベル）は、正解（又は不正解）のラベルでも更に分類してラベル１、ラベル２、…というように複数種が想定されるため、通常、機械学習による決定木の構築にあたって、単純な正解又は不正解の２分類とする場合には、ノード分岐部２５は、この複数種のラベルにおいて所定数以上に学習データが割り振られているノードのみを用いて決定木を構築することができる。

尚、本例では、ノード分岐部２５は、分岐したノードのそれぞれに対し、更なるノード分岐を行うようフィルタ畳み込み部２３に指示して、各分岐したノードに対応する学習データを割り振らせるよう、決定木におけるノード分岐のためにループ処理を実行する例を示しているが、重複処理を避けるためループ処理を行わずに、一括して全ての基準座標点Ｐ_ｋに対する畳み込み値ｇを求め、ノード分岐を繰り返し行う処理とすることもできる。

また、異なるフィルタサイズの畳み込みフィルタを更に畳み込むことによるマルチスケールの畳み込みフィルタは、予め全ての種類のマルチスケールの畳み込みフィルタのフィルタ係数を演算しておき、複数解像度画像を生成することなく畳み込み値ｇを得る構成とすることもできる。

ノード分岐部２５は、最終的に構築した決定木を、学習結果格納部３１に保存する。

一方、識別処理部３は、学習結果格納部３１、複数解像度画像生成部３３、及びフィルタ畳み込み部３３を備える。

学習結果格納部３１は、ノード分岐部２５によって構築された決定木を格納している。決定木は、特徴量プールとして機械学習時に用いられた１つ以上の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズの情報、及び、各ノードの分岐のためのノード閾値の情報を含んでいる。

複数解像度画像生成部３３は、識別処理対象の入力画像に対し、学習結果格納部３１に保持される決定木（複数種のフィルタサイズに応じた解像度）に従って複数の解像度変換を行い、複数の解像度画像を生成してフィルタ畳み込み部３３に出力する。即ち、複数解像度画像生成部３３は、学習処理部２における複数解像度画像生成部２２と同様の複数の解像度画像に変換し、フィルタ畳み込み部３３に出力する。

フィルタ畳み込み部３３は、複数解像度画像生成部３３から得られる入力画像に対する複数の解像度画像について、学習結果格納部３１に保持される決定木（個々の基準座標点と個々の畳み込みフィルタ）に従って畳み込みフィルタ処理を実行し、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を得て、これら画素値を正規化合成した値（畳み込み値ｇ）を求める。

続いて、フィルタ畳み込み部３３は、当該決定木を用いて、各ノード閾値によって分岐していき、葉ノードに到達した段階で、そのノードに割り当てられたラベルを識別結果として出力する。

（学習処理例）
以下、学習処理部２による学習処理の一例について、より具体的に、図２及び図３を参照して説明する。図２に示す学習処理例は、畳み込みフィルタのフィルタサイズを様々に変更してマルチスケール化を構成するにあたり、計算コストの削減のため、フィルタサイズを大きくするのではなく、対象画像のサイズを小さくすることで対応する例である。ただし、上述したように、決定木におけるノード分岐のためにループ処理を実行する例を示しているが、重複処理を避けるためループ処理を行わずにノード分岐を行う構成とすることもできる。

学習処理部２は、入力された複数の学習データｆ_１，ｆ_２，…，ｆ_Ｓ（データ数：Ｓ）の各々について、未分岐のノードが残っているか否かを判定することになるが（ステップＳ１）、最初に入力された時点では当然に未分岐のノードが残っているため（ステップＳ１：Ｙｅｓ）、ステップＳ２に移行する。

続いて、学習処理部２は、複数解像度画像生成部２２により、入力される複数の学習データの各々に対し、特徴量プール部２１を参照して（ステップＳ２）、特徴量プール（複数種のフィルタサイズに応じた解像度）に従って複数の解像度変換を行い、各学習データに対応する複数の解像度画像を生成する。

例えば図３に示すように、複数解像度画像生成部２は、入力される複数の学習データｆ_１，ｆ_２，…，ｆ_Ｓ（データ数：Ｓ）の各々について、様々な画像サイズに縮小したもの、フィルタサイズＮ×Ｎとして、特徴量プール部２１内に、Ｎ_１×Ｎ_１（１倍），Ｎ_２×Ｎ_２（０．５倍），Ｎ_３×Ｎ_３（０．２５倍）の３種類が用意されているとき、３種類の解像度画像に変換する。尚、１／√Ｎ_１倍づつ縮小するなど本例に限定する必要はない。

続いて、学習処理部２は、当該ノードに属する各学習データに所定種類数の畳み込みフィルタ処理を実行し、更に畳み込む（ステップＳ３）。より具体的に、学習処理部２は、フィルタ畳み込み部２３により、各学習データに対応する複数の解像度画像について、特徴量プール部２１に保持される特徴量プール（個々の基準座標点と個々の畳み込みフィルタ）を参照して、当該複数の解像度画像における或る基準座標点に対して同一フィルタ係数を持つ或る畳み込みフィルタの組み合わせ毎の畳み込みフィルタ処理を実行し、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を得て、これら画素値を正規化合成した値（畳み込み値ｇ）を求める。

例えば図３に示すように、１つの学習データにつき、１つ以上の基準座標点Ｐ_１，Ｐ_２，…，Ｐ_ｋ＝（ｘ_ｋ，ｙ_ｋ）（ｋは１以上の整数）のうち２つの基準座標点Ｐ_１，Ｐ_２の組み合わせに対し、各基準座標点に応じた複数種の畳み込みフィルタｈ_１，ｈ_２，…，ｈ_ｍ（ｍは２以上の整数）の数に相当する複数の畳み込み値ｇが得られ、図３では２つの基準座標点Ｐ_１，Ｐ_２にそれぞれ対応する畳み込み値ｇ_１，ｇ_２を例示して示している。

このため、１つの学習データｆ_Ｓは、各基準座標点Ｐ_ｋに対しそれぞれが所定数のフィルタサイズＮ×Ｎで畳み込まれた複数種の畳み込みフィルタｈ_ｍにそれぞれ対応付けられた複数の畳み込み値ｇが得られる。従って、１つ以上の基準座標点Ｐ_ｋと、複数種の畳み込みフィルタｈ_ｍと、これらによってそれぞれ対応付けられた複数の畳み込み値ｇとの組み合わせが、当該１つの学習データを定義づける特徴ベクトルとして表される。

そして、図３に示すように、複数解像度画像生成部２２及びフィルタ畳み込み部２３は、全ての学習データｆ_１，ｆ_２，…，ｆ_Ｓについて同様の処理を行う。

続いて、学習処理部２は、分離精度算出部２４により、全ての学習データに関する１つ以上の基準座標点Ｐ_ｋと、複数種の畳み込みフィルタｈ_ｍと、これらによってそれぞれ対応付けられた畳み込み値ｇとの組み合わせ情報を取得して、特定数の基準座標点Ｐ_ｋについて全ての学習データを最も精度よく２つに分離する畳み込みフィルタｈ_ｍと、この分離のためのノード閾値を求め、ノード分岐部２５により、図３に示すように、当該ノードを分岐する（ステップＳ４）。当該ノード分岐時に、畳み込みフィルタｈ_ｍの種類及びノード閾値は決定木の構築のために当該ノードに関連付けて保持される。分離の良否の判定には、Ｇｉｎｉ係数や情報利得など従来技術と同様の尺度を利用する。

続いて、学習処理部２は、ノード分岐部２５により、当該分岐したノードについて更なるノード分岐が可能であるか否かを判別し（ステップＳ６）、更なるノード分岐が可能であれば（ステップＳ６：Ｙｅｓ）、ステップＳ２に移行して、更なるノード分岐を行うようフィルタ畳み込み部２３に指示して、各分岐したノードに対応する学習データを割り振らせ、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで（即ち、分離精度の向上が望めなくなるまで）（ステップＳ６：Ｎｏ）、繰り返す。

続いて、学習処理部２は、未分岐のノードが残っているか否かを判定し（ステップＳ１）、未分岐のノードが無くなるまで（ステップＳ１：Ｎｏ）、ステップＳ２乃至Ｓ６の処理を繰り返す（ステップＳ１：Ｙｅｓ）。

最終的に、学習処理部２は、ノード分岐部２５により、上述したノード分岐を繰り返して、分岐不能となったノードに属する学習データの正解又は不正解のラベルに応じて、判別結果としての正解又は不正解、及び正解（又は不正解）のラベルでも更に分類してその種別を示す判別ラベルを決定する。

即ち、図４に示すように、入力画像を分岐するための特徴Ａが閾値Ａより大きいか小さいかで分離する第１ノード１００から第２ノード２００及び第３ノード３００へとノード分岐される。そして、第２ノード２００及び第３ノード３００、更には第４ノード４００及び第５ノード５００も同様に、各ノードで可能な限りノード分岐を繰り返し、最終的に、ラベル１、ラベル２、…というように複数種のラベルが付される。

通常、機械学習による決定木の構築にあたって、単純な正解又は不正解の２分類とする場合には、ノード分岐部２５は、この複数種のラベルにおいて所定数以上に学習データが割り振られているノードのみを用いて決定木を構築する。

このように構築された決定木は、顔検出や顔特徴点検出の他、車両検出や車両特徴点検出、或いはこれらの組み合わせなど、様々なオブジェクト検出の用途に利用でき、汎用性の高いものとなる。

例えば、フィルタサイズとフィルタ係数の組み合わせによって、非特許文献１，２に示されるような従来技法の特徴量も表現できることが分かる。尚、フィルタを適用する基準座標点Ｐ_ｋ＝（ｘ_ｋ，ｙ_ｋ）については、非特許文献２の技法と同様に、特徴点位置を考慮して選択することもできる。その場合は、特徴点から位置が近いほど高確率で選択されるような確率的サンプリングを実施するなどが考えられる。

特に、本実施形態の画像データ分類装置１は、このように構築された決定木を用いるため、例えば顔検出や顔特徴点の対象となる入力画像に、ノイズや顔の向きの多様性（顔画像の変形）がある場合でも、高周波ノイズ除去効果がある点と、基準座標点に基づく畳み込み値であることから、頑健で精度よく画像データを分類することができる。

また、画像データに対する人物認識処理に本実施形態の画像データ分類装置１の処理を適用する際、まず本実施形態の画像データ分類装置１の処理を経た後に、非特許文献１の技法に基づく顔検出を行って、その後、当該入力画像に対し非特許文献２の技法に基づく顔画像から複数の座標点（顔特徴点）を検出する構成でも、その分類精度が向上している分、処理性能が向上する。ただし、以下に説明するように、本実施形態の画像データ分類装置１を利用して、より優れた処理効率となるオブジェクト検出装置１０を構成することができる。

〔オブジェクト検出装置〕
以下、図５乃至図９を参照して、本発明による一実施形態のオブジェクト検出装置１０として構成される一実施例の顔検出装置について説明する。

（装置構成）
図５は、本発明による一実施形態のオブジェクト検出装置１０として構成される一実施例の顔検出装置の概略構成を示すブロック図である。ここでは、オブジェクト検出装置１０の典型例として、顔検出装置の実施例を説明するが、学習データを適宜選別することで、顔検出以外にも、人物検出や人物認識、車両などの物体検出など、静止画像からのオブジェクト検出に広く利用できる点に留意する。

図５に示すように、オブジェクト検出装置１０は、本発明に係る画像データ分類装置１と、走査窓設定部１１と、分類結果判定部１２と、局所座標系基準座標点更新指示部１３と、を備える。

走査窓設定部１１は、動画の１フレームなど静止画像の入力フレーム画像に対し、様々なサイズの走査窓で入力フレーム画像全体を走査可能とする機能部であり、或るサイズ（走査窓スケール）の走査窓で入力フレーム画像における特定の走査位置の画像を切り出して本発明に係る画像データ分類装置１に出力する。走査窓のサイズの変更や、入力フレーム画像の特定の走査位置の変更は、後述する分類結果判定部１２によって指示される。例えば図６には、入力フレーム画像Ｆに対し３例の走査窓スケールＳ_１、Ｓ_２及びＳ_３を示しており、図示中央に例示する入力フレーム画像Ｆには、走査窓スケールＳ_２によってそれぞれ異なる走査位置で顔検出ラベル１，２が判別されると予想される領域が破線で示されている。

本発明に係る画像データ分類装置１は、顔検出用に学習された決定木が構築され、“顔である”と“顔ではない”の２分類のラベルを出力し、予め定めた平均顔に基づく顔特徴点として４点の基準座標点（顔特徴点）の初期値Ｐ_１，Ｐ_２，Ｐ_３，Ｐ_４と、その基準座標点の初期値Ｐ_１，Ｐ_２，Ｐ_３，Ｐ_４から位置が近いほど高確率で選択されるような確率的サンプリングを実施して分散された予め定めた近傍の基準座標点（基準座標点の初期値Ｐ_１，Ｐ_２，Ｐ_３，Ｐ_４からそれぞれ更新される基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’）が多数、特徴量プールとして保持されているものとする。この基準座標点の設定値の更新は、後述する局所座標系基準座標点更新指示部１３によって指示される。

また、画像データ分類装置１におけるフィルタ畳み込み部２３は、決定木における画像特徴の特徴量としての畳み込み値ｇの他、複数の基準座標点（顔特徴点）のうち更新可能な特定の２座標点間の畳み込み値の差分値（以下、「畳み込み差分値」と称する）Δｇの全ての組み合わせも併せて算出する。

例えば、図７（ａ）には、走査窓により切り出されて入力された或る入力画像ｆに対し、複数の基準座標点（顔特徴点）のうち選択可能な或る２座標点に対応する畳み込み値ｇ_１，ｇ_２や、別の２座標点に対応する畳み込み値ｇ_３，ｇ_４や、更に別の２座標点に対応する畳み込み値ｇ_５，ｇ_６が割り当てられるとすると、各２座標点に対応する畳み込み値の差分（畳み込み差分値Δｇ）もそれぞれ算出されて、当該入力画像ｆについて“顔である”と“顔ではない”の２分類に利用する顔特徴量となる。

更に、本発明に係る基準座標点の更新に関して、図７（ｂ）にて３例の入力画像ｆ_Ａ，ｆ_Ｂ，ｆ_Ｃにそれぞれ示すように、更新される基準座標点Ｐ_１’，Ｐ_２’（Ｐ_３’，Ｐ_４’も同様）は、基準座標点の初期値Ｐ_１，Ｐ_２（Ｐ_３，Ｐ_４も同様）をそれぞれ原点とする局所座標系により更新される。

これは、当該顔検出対象の入力画像における顔形状の個人差や、顔の向き、表情の変化による基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’の位置関係の位置ずれを軽減するためである。例えばその比較例として、図７（ｃ）にて３例の入力画像ｆ_Ａ，ｆ_Ｂ，ｆ_Ｃにそれぞれ示すように、絶対座標系により基準座標点を更新すると、目鼻の位置関係の違いなどの影響で、入力画像によって基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’の位置関係の位置ずれが大きくなる。このため、基準座標点の更新は、局所座標系に基づいて行うものとしている。

そして、画像データ分類装置１における分離精度算出部２４は、フィルタ畳み込み部２３から、全ての学習データに関する１つ以上の基準座標点Ｐ_ｋと、複数種の畳み込みフィルタｈ_ｍと、これらによってそれぞれ対応付けられた複数の畳み込み値ｇと、４点の基準座標点（顔特徴点）のうち特定の２つの基準座標点Ｐ_ｋに対応する畳み込み差分値Δｇの全ての組み合わせを含む情報を取得する。そして、分離精度算出部２４は、畳み込み差分値Δｇの全ての組み合わせについて全ての学習データを最も精度よく２つに分離する畳み込みフィルタｈ_ｍと、この分離のためのノード閾値を求める。ノード分岐部２５は、各ノード閾値により、“顔である”と“顔ではない”の２分類のラベルを出力するよう決定木を構築する。

従って、本発明に係る画像データ分類装置１は、走査窓により切り出されて入力される顔検出対象の入力画像ｆに対し、当該決定木を用いて、各ノード閾値によって分岐していき、葉ノードに到達した段階で、そのノードに割り当てられた“顔である”と“顔ではない”のいずれかの顔検出ラベルを、そのノードに対し最終的に更新し割り当てられた基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’と共に、識別結果として分類結果判定部１２に出力する。

分類結果判定部１２は、本発明に係る画像データ分類装置１から、“顔である”と“顔ではない”のいずれかの顔検出ラベルと共に、最終的に更新し割り当てられた４座標点の基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’を入力して一時保持する。この４座標点の基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’のいずれか、又はその全部は、基準座標点の初期値と同じ値となる場合を含む。

続いて、分類結果判定部１２は、一時保持した顔検出ラベルが“顔ではない”の旨を示す場合には、走査窓設定部１１に対し、当該走査窓を次の走査位置へ設定させるか、又は当該走査窓が最終の走査位置であれば次のサイズ（走査窓スケール）の走査窓で入力フレーム画像の初期の走査位置を設定させて、入力フレーム画像から顔検出対象の画像を切り出させ、本発明に係る画像データ分類装置１に再度の分類判定を行うよう指示する。

一方、分類結果判定部１２は、一時保持した顔検出ラベルが“顔である”の旨を示す場合には、４座標点の基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’を更新させるよう局所座標系基準座標点更新指示部１３に指示する。

局所座標系基準座標点更新指示部１３は、“顔である”として一時保持した顔検出ラベルの入力画像に対し、４座標点の基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’を、本発明に係る画像データ分類装置１における特徴量プール部２１に保持している組み合わせ可能な全てについてその組み合わせを管理しており、基準座標点の設定値の更新を本発明に係る画像データ分類装置１に対し指示する。

尚、図１では、分類結果判定部１２と局所座標系基準座標点更新指示部１３を別個の機能部として図示しているが、局所座標系基準座標点更新指示部１３は、分類結果判定部１２の一部の機能として構成することができる。即ち、分類結果判定部１２は、画像データ分類装置１による分類結果を基に、走査窓の画像内でオブジェクトの有無を判定する判定処理と、該オブジェクトが有るときの画像特徴となる特徴点を選定する特徴点選定処理とを並列に実行するよう構成することができる。

そして、分類結果判定部１２は、一時保持した顔検出ラベルが“顔である”の旨を示す当該入力画像に対し、“顔ではない”と“顔である”の分類を最大限繰り返し、顔検出ラベルを付して最終分類された“顔である”の当該入力画像と共に、対応する４座標点の基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’を顔特徴点として外部に出力する。

そして、分類結果判定部１２は、走査窓設定部１１に対し走査窓の走査位置やサイズ（操作窓スケール）を変更しても“顔ではない”の旨を示す入力フレーム画像に対しては、“顔ではない”の旨を示す顔検出ラベルを付して外部に出力する。

（動作例）
図８は、本実施形態のオブジェクト検出装置１０として構成される一実施例の顔検出装置における動作の説明図である。

まず、オブジェクト検出装置１０は、走査窓設定部１１により、入力される入力フレーム画像Ｆに対し所定サイズ及び所定位置の走査窓で切り出した画像ｆを入力画像として本発明に係る画像データ分類装置１へ入力する。

そして、画像データ分類装置１は、図８に示すように、入力画像ｆについて、まず予め定めた平均顔に基づく顔特徴点として４点の基準座標点（顔特徴点）の初期値Ｐ_１，Ｐ_２，Ｐ_３，Ｐ_４を割り当て、“顔ではない”と“顔である”の分類を行う（ステップＳ１１）。

このとき、オブジェクト検出装置１０は、分類結果判定部１２により、“顔ではない”として分類された入力画像ｆについては走査窓設定部１１に対し、次の走査窓の画像を顔検出対象とするよう制御する。

一方、分類結果判定部１２は、“顔である”として分類された入力画像ｆについては、局所座標系基準座標点更新指示部１３を介して本発明に係る画像データ分類装置１に対し指示して、４座標点の基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’を更新する（ステップＳ１２）。このように、画像データ分類装置１による分類結果の判定により“顔ではない”となるとき、次の走査窓の画像を入力するよう回帰される。

このように、分類結果判定部１２は、最終分類された“顔である”の当該入力画像に対し、基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’の更新を繰り返しながら画像データ分類装置１による分類を行わせることで、徐々に“顔ではない”と“顔である”の分類判別が困難となり、いずれ分類判別となる状態まで収束する。そして、最終的な “顔である”の当該入力画像に対し更新された基準座標点Ｐ_１’，Ｐ_２’，Ｐ_３’，Ｐ_４’は、高精度なものとなる。

従って、本実施形態のオブジェクト検出装置１０は、“顔ではない”と“顔である”の分類問題と、４座標点の基準座標点（顔特徴点）の更新（顔特徴点の変位の分散の最小化）を行う回帰問題とを、画像データ分類装置１が並列に解くことができるため、処理効率の向上と、顔検出精度の向上が実現される。

即ち、非特許文献１の技法に基づく顔検出を行って、その後、当該入力画像に対し非特許文献２の技法に基づく顔画像から複数の座標点（顔特徴点）を検出するような直列処理よりも、本実施形態のオブジェクト検出装置１０は、処理効率が改善する。

また、上述した例では、４座標点の基準座標点の更新を行う例を説明したが、さらに少ない２座標点とすることや、逆に更に多い９座標点の基準座標点の更新を行うなど、任意に設定できる。

（実験による検証）
顔検出の精度の向上が無ければ、人物認識に有用な顔特徴点検出の精度の向上も望めない。そして、顔検出の精度の向上を図るには、顔分類の精度の向上が有効である。そこで、９座標点の基準座標点の更新を行うよう構成した本実施形態のオブジェクト検出装置１０と、同一条件下で構成した非特許文献１の技法との顔検出性能の比較実験を行った。

学習データは２ヶ月分のテレビ映像から２万枚の顔画像を抽出し、本実施形態のオブジェクト検出装置１０における画像データ分類装置１に決定木を構築させた。尚、オブジェクト検出装置１０の最大回帰数を５回に制限し、ノード数が最大６００となるよう学習時のラベル数を制限して決定木を構築した。

実験対象の画像は、或る一日分の放送映像における複数のフレーム画像を顔検出対象の入力フレーム画像とし、本実施形態のオブジェクト検出装置１０と非特許文献１の技法との顔検出性能の比較を行ったところ、図９に示す結果が得られた。

図９において、「検出率」は、入力フレーム画像内に出現した顔のうち検出できた割合である。また、「誤検出率」は、検出結果に含まれる誤りの割合を示している。本実施形態のオブジェクト検出装置１０は、「検出率」として２９．３％の性能向上、「誤検出率」として２１．１％の性能向上が確認された。

これらの検出結果を分析すると、非特許文献１の技法では、顔の向きや表情の変化に起因する未検出、及び複雑な背景に起因する誤検出が、本実施形態のオブジェクト検出装置１０との差異として確認され、カメラ映像から顔検出を行うには、特に、本発明に係る本発明に係る画像データ分類装置１がオブジェクト検出装置１０に有効であることが確認された。

（総括）
以上のように、本発明に係る画像データ分類装置１は、マルチスケールの畳み込みフィルタを利用することによって、従来技法よりも、映像に映るオブジェクトの形状や特徴をより正確に捉えることが可能となり、データの分類精度を向上させることができる。

そして、本発明に係る画像データ分類装置１は、顔検出や人物検出や人物認識、車両などの物体検出など、静止画像からのオブジェクト検出に広く利用できる。

その他、本発明に係る画像データ分類装置１は、決定木に基づくオブジェクト検出装置１０として利用する以外にも、決定木を利用した回帰や、ランダムフォレストなどの決定木をベースとしたその他の技法にも利用できる。即ち、ランダムフォレストは、決定木を利用した集団学習技法を１つであり、多数の決定木を利用して、それぞれでデータのラベルを推定し、最終的に多数決で推定ラベルを決定するという技術である。このため、ランダムフォレストにおける決定木を構成する識別器を本発明に係る画像データ分類装置１に置き換えて利用することができる。

また、決定木に基づくオブジェクト検出装置１０とする以外にも、AdaBoostやReal AdaBoostなどの各種ブースティングアルゴリズムにも利用することができる。即ち、AdaBoostやReal AdaBoostは、多数の識別器を連結してデータを分類する技法であり、この識別器として、本発明に係る画像データ分類装置１を利用することができる。

尚、画像データ分類装置１及びオブジェクト検出装置１０は、それぞれコンピュータとして機能させることができ、当該コンピュータに、各構成要素を実現させるためのプログラムは、当該コンピュータのメモリに記憶される。当該コンピュータに備えられる中央演算処理装置（ＣＰＵ）などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、当該メモリから読み込んで各構成要素の機能を当該コンピュータに実現させることができる。

本発明に係る画像データ分類装置１及びオブジェクト検出装置１０、及びこれらのプログラムは、上述した実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。

本発明によれば、汎用性を持たせてより頑健で精度よく画像データを分類可能となり、画像データのラベルを精度よく推定することが可能となるので、データの分類を要する用途や、オブジェクトを検出する用途に有用である。

１画像データ分類装置
２学習処理部
３識別処理部
１０オブジェクト検出装置
１１走査窓設定部
１２分類結果判定部
１３局所座標系基準座標点更新指示部
２１特徴量プール部
２２複数解像度画像生成部
２３フィルタ畳み込み部
２４分離精度算出部
２５ノード分岐部
３１学習結果格納部
３２複数解像度画像生成部
３３フィルタ畳み込み部

Claims

入力フレーム画像から所定のオブジェクトを検出するオブジェクト検出装置であって、
前記入力フレーム画像における識別対象の入力画像の画像データを分類する画像データ分類装置と、
前記画像データ分類装置による分類結果を基に、前記入力フレーム画像に対する所定の走査窓の画像内でオブジェクトの有無を判定する判定処理と、該オブジェクトが有るときの画像特徴となる特徴点を選定する特徴点選定処理とを並列に実行する分類結果判定手段と、を備え、
前記画像データ分類装置は、予め用意された学習データからマルチスケールの畳み込みフィルタを用いて決定木を学習して構築する学習処理部と、当該学習された決定木に従って、当該マルチスケールの畳み込みフィルタを用いて識別対象の入力画像を分類する識別処理部と、を備え、
前記学習処理部は、
複数の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズとを特徴量プールとして保持する特徴量プール手段と、
入力される複数の学習データの各々に対し、前記特徴量プールに従って当該複数種のフィルタサイズに応じた当該複数種の畳み込みフィルタによるマルチスケールの畳み込みフィルタ処理を実行し、各学習データに対して、当該１つ以上の基準座標点の各々に対し複数種の畳み込みフィルタの数に相当する複数の畳み込み値を求めるとともに、該複数の基準座標点のうち更新可能な特定の２座標点間の畳み込み値の差分値を更に求める第１の畳み込みフィルタ処理手段と、
全ての学習データの各々に関する当該複数の基準座標点と、当該複数種の畳み込みフィルタと、それぞれ対応付けられた当該畳み込み値との組み合わせ情報、並びに該複数の基準座標点のうち更新可能な特定の２座標点間の畳み込み値の差分値の全ての組み合わせを基に、当該複数の基準座標点についてノード分岐対象の全ての学習データを最も精度よく２つに分離する畳み込みフィルタの種類と、この分離のためのノード閾値とを求める分離精度算出手段と、
前記ノード閾値を基に全ての学習データをノード分岐として２つに分離し、当該ノード分岐に係る畳み込みフィルタの種類と、当該ノード分岐に係るノード閾値とを当該ノードに対応付けて保持し、当該ノード分岐後の全ての学習データについて更なるノード分岐を行うよう繰り返し制御を行うことにより、前記決定木を構築するノード分岐手段と、
を備えることを特徴とするオブジェクト検出装置。
前記ノード分岐手段は、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで繰り返す当該繰り返し制御を行うことにより、前記決定木を学習して構築することを特徴とする、請求項１に記載のオブジェクト検出装置。
前記識別処理部は、
前記ノード分岐手段によって構築された当該決定木を格納する学習結果格納手段と、
当該学習された決定木に従って前記マルチスケールの畳み込みフィルタを用いて当該識別対象の入力画像を分類する第２の畳み込みフィルタ処理手段と、
を備えることを特徴とする、請求項１又は２に記載のオブジェクト検出装置。
前記分類結果判定手段は、前記特徴量プール手段内の複数の当該基準座標点のうち所定数の基準座標点の初期値を定め、該所定数の基準座標点の初期値をそれぞれ原点とする局所座標系により、当該所定数の基準座標点の位置関係の位置ずれを修正するよう、画像データ分類装置に対し更新させる基準座標点更新手段を備えることを特徴とする、請求項１から３のいずれか一項に記載のオブジェクト検出装置。
コンピュータを、請求項１から４のいずれか一項に記載のオブジェクト検出装置として機能させるためのプログラム。