JP6924031B2 - オブジェクト検出装置及びこれらのプログラム - Google Patents

オブジェクト検出装置及びこれらのプログラム Download PDF

Info

Publication number
JP6924031B2
JP6924031B2 JP2016255555A JP2016255555A JP6924031B2 JP 6924031 B2 JP6924031 B2 JP 6924031B2 JP 2016255555 A JP2016255555 A JP 2016255555A JP 2016255555 A JP2016255555 A JP 2016255555A JP 6924031 B2 JP6924031 B2 JP 6924031B2
Authority
JP
Japan
Prior art keywords
convolution
node
reference coordinate
image
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016255555A
Other languages
English (en)
Other versions
JP2018106618A (ja
Inventor
吉彦 河合
吉彦 河合
佐野 雅規
雅規 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2016255555A priority Critical patent/JP6924031B2/ja
Publication of JP2018106618A publication Critical patent/JP2018106618A/ja
Application granted granted Critical
Publication of JP6924031B2 publication Critical patent/JP6924031B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、画像データを分類する技術に関し、特に、機械学習させて画像の分類を行う画像データ分類装置、この画像データ分類装置を用いて画像データ内の所定のオブジェクト(顔、人物、車両などの物体)を検出可能とするオブジェクト検出装置、及びこれらのプログラムに関する。
一般に、画像データを分類するために、機械学習させて構築された決定木による分類技法がよく用いられる。決定木は、if‐thenルールに基づいて、入力されたデータを分類する技法である。
特に、静止画像の画像データを分類する決定木の各ノードでは、入力される画像データ(入力画像)に対し所定の特徴量を算出し、この算出した特徴量を持つ入力画像をまず2つに分離するためのノードとする。そして、当該算出した特徴量が、2つに分離するためのノード闘値より大きいか否かで当該ノードが分岐される。決定木では、この分岐を繰り返し、最終的に到達した葉ノードの分類結果を当該入力画像に対するラベルとして決定する。ラベルとは、検出対象となるオブジェクト(顔、人物、車両などの物体)の分類結果を示すものをいう。
ここで、決定木を構築するための機械学習の学習手順について説明する。機械学習の学習データとして、正解ラベルが付与された画像群(正例)と、正解ラベルが付与されていない画像群(負例)が予め用意される。決定木を構築するための機械学習のアルゴリズムには、ID3やCART等の様々なものがある。尚、正解ラベル或いは不正解ラベルは、ラベル1、ラベル2、…というように複数種が想定される。
また、機械学習には、正例と負例とを分離させ、尚且つ正例を分類するための様々な種類の分離用の特徴量群(以下、「特徴量プール」と称する)も予め用意される。この特徴量プール内の特徴量を基に、正例及び負例の画像の画像特徴(各画像を特徴づける特徴量)が算出される。尚、決定木を用いて分類する対象となる入力画像も同様に、この特徴量プール内の特徴量を基に、当該入力画像を特徴づける特徴量が算出される。
機械学習により決定木を構築するために、特徴量プールの中から、学習データ(より正確には、学習データの画像特徴)を最もよく分離できる特徴量を選択してノード閾値により分岐し、その分岐したノードを更に分岐するよう順番に繰り返す。ノード閾値は、分離判定対象のノードを2つに分離させるために、ノード毎にその都度判定される。
この分岐は、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで(即ち、分離精度の向上が望めなくなるまで)繰り返す。尚、データ分離の良否の判定を行うとともに、Gini係数や情報利得などがよく利用される。
ところで、分離精度の高い決定木を構築するためには、ノードの分岐のためにどのような特徴量(特徴量プール内の特徴量及び画像特徴となる特徴量を含む)を利用するかが重要となる。
従来技法として、入力画像を2つの小領域に区分し、第1の領域にある画素の総和から、第2の領域内にある画素の総和を減算した値を特徴量とする技法が開示されている(例えば、非特許文献1参照)。非特許文献1では、この特徴量をHaarライク特徴と称し、非特許文献1における図1(Figure 1)には、そのHaarライク特徴の例が示されており、灰色の小領域にある画素の総和から、白色の小領域内にある画素の総和を減算した値を特徴量としている。非特許文献1では、この小領域の位置やサイズを様々に変えたものを特徴量プールとしている。
また、入力画像に対し予め規則性のある複数の座標点(画素座標)を微調整可能に割り当て、複数の座標点(顔特徴点)のうち2座標点を選択し、選択した2座標点間の差分(画素値の差分)を特徴量とする技法が開示されている(例えば、非特許文献2参照)。非特許文献2における図9(Figure 9)には、その特徴量の例が示されており、選択する2座標点の組み合わせを様々に変えたものを特徴量プールとしている。また、非特許文献2には、微調整可能とする複数の座標点は、絶対座標系で定義するよりはむしろ局所座標系で定義することが提案されている。尚、画像データに対する顔特徴点検出は、人物認識に利用可能である。
P.Viola and M.Jones, "Robust Real-time Object Detection", Technical Report Series, CRL 2001/1, February 2001. X.Cao, Y.Wei, F.Wen, and J.Sun, "Face Alignment by Explicit Shape Regression", In Proc.CVPR, 2012.
非特許文献1では、顔が映っている領域を検出する目的で専用に設計された特徴量が提案されている。また、非特許文献2では、顔画像から複数の座標点(顔特徴点)を検出する目的で専用に設計された特徴量が提案されている。
これらの従来技法は、目的に応じて専用に設計された特徴量であるため、汎用性に乏しく、その目的以外の画像データの分類に利用することは難しいものとなっている。
一般に、画像データの分類用途には、顔検出や顔特徴点検出の他、車両検出や車両特徴点検出、或いはこれらの組み合わせなど、様々なオブジェクト検出の用途があり、目的に応じて専用に設計された特徴量とすることは、汎用性に乏しくなる。
更に、これらの従来技法により、入力画像に対し顔の有無の検出するとともに、顔画像から複数の座標点(顔特徴点)を検出し人物認識に利用可能とするには、まず非特許文献1の技法に基づく顔検出を行って、その後、当該入力画像に対し非特許文献2の技法に基づく顔画像から複数の座標点(顔特徴点)を検出することが考えられるが、処理効率として優れているとはいえない。
また、このような顔検出や顔特徴点の対象となる入力画像は、一般的に、ノイズや顔の向きの多様性(顔画像の変形)があり、まずは顔検出の精度を高めることが要求されるが、非特許文献1の技法による顔検出の性能は実用性の観点から十分とはいえない。
このため、入力画像にノイズや検出対象のオブジェクトの向きの多様性がある場合でも、頑健なオブジェクト検出を可能とし、尚且つそのオブジェクト特徴点を効率よく取得可能とするために、汎用性を持たせてより頑健で精度よく画像データを分類可能とする画像データ分類、及びより頑健で高精度に画像データからオブジェクトを検出するオブジェクト検出の技法が望まれる。
本発明の目的は、上述の問題に鑑みて、汎用性を持たせてより頑健で精度よく画像データを分類可能とする画像データ分類装置、より頑健で高精度に画像データからオブジェクトを検出するオブジェクト検出装置、及びこれらのプログラムを提供することにある。
本発明のオブジェクト検出装置は、入力フレーム画像から所定のオブジェクトを検出するオブジェクト検出装置であって、前記入力フレーム画像における識別対象の入力画像の画像データを分類する画像データ分類装置と、前記画像データ分類装置による分類結果を基に、前記入力フレーム画像に対する所定の走査窓の画像内でオブジェクトの有無を判定する判定処理と、該オブジェクトが有るときの画像特徴となる特徴点を選定する特徴点選定処理とを並列に実行する分類結果判定手段と、を備え、前記画像データ分類装置は、予め用意された学習データからマルチスケールの畳み込みフィルタを用いて決定木を学習して構築する学習処理部と、当該学習された決定木に従って、当該マルチスケールの畳み込みフィルタを用いて識別対象の入力画像を分類する識別処理部と、を備え、前記学習処理部は、複数の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズとを特徴量プールとして保持する特徴量プール手段と、入力される複数の学習データの各々に対し、前記特徴量プールに従って当該複数種のフィルタサイズに応じた当該複数種の畳み込みフィルタによるマルチスケールの畳み込みフィルタ処理を実行し、各学習データに対して、当該1つ以上の基準座標点の各々に対し複数種の畳み込みフィルタの数に相当する複数の畳み込み値を求めるとともに、該複数の基準座標点のうち更新可能な特定の2座標点間の畳み込み値の差分値を更に求める第1の畳み込みフィルタ処理手段と、全ての学習データの各々に関する当該複数の基準座標点と、当該複数種の畳み込みフィルタと、それぞれ対応付けられた当該畳み込み値との組み合わせ情報、並びに該複数の基準座標点のうち更新可能な特定の2座標点間の畳み込み値の差分値の全ての組み合わせを基に、当該複数の基準座標点についてノード分岐対象の全ての学習データを最も精度よく2つに分離する畳み込みフィルタの種類と、この分離のためのノード閾値とを求める分離精度算出手段と、前記ノード閾値を基に全ての学習データをノード分岐として2つに分離し、当該ノード分岐に係る畳み込みフィルタの種類と、当該ノード分岐に係るノード閾値とを当該ノードに対応付けて保持し、当該ノード分岐後の全ての学習データについて更なるノード分岐を行うよう繰り返し制御を行うことにより、前記決定木を構築するノード分岐手段と、を備えることを特徴とする。
また、本発明のオブジェクト検出装置において、前記ノード分岐手段は、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで繰り返す当該繰り返し制御を行うことにより、前記決定木を学習して構築することを特徴とする。
また、本発明のオブジェクト検出装置において、前記識別処理部は、前記ノード分岐手段によって構築された当該決定木を格納する学習結果格納手段と、当該学習された決定木に従って前記マルチスケールの畳み込みフィルタを用いて当該識別対象の入力画像を分類する第2の畳み込みフィルタ処理手段と、を備えることを特徴とする。
また、本発明によるオブジェクト検出装置において、前記分類結果判定手段は、前記特徴量プール手段内の複数の当該基準座標点のうち所定数の基準座標点の初期値を定め、該所定数の基準座標点の初期値をそれぞれ原点とする局所座標系により、当該所定数の基準座標点の位置関係の位置ずれを修正するよう、画像データ分類装置に対し更新させる基準座標点更新手段を備えることを特徴とする。
更に、本発明によるプログラムは、コンピュータを本発明のオブジェクト検出装置として機能させるためのプログラムとして構成される。
本発明に係る画像データの分類技法によれば、汎用性を持たせてより頑健で精度よく画像データを分類可能となり、画像データのラベルを精度よく推定することが可能となる。そして、本発明に係る画像データの分類技法を基に、画像データから対象のオブジェクトを検出することが可能となる。
本発明による一実施形態の画像データ分類装置の概略構成を示すブロック図である。 本発明による一実施形態の画像データ分類装置における学習処理を示すフローチャートである。 本発明による一実施形態の画像データ分類装置における学習処理の説明図である。 本発明による一実施形態の画像データ分類装置によって構築される決定木の概略図である。 本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置の概略構成を示すブロック図である。 本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置における走査窓設定部の説明図である。 (a)は本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置における3例の顔特徴量の説明図であり、(b)は本発明に係る一実施例の顔検出装置における3例の顔特徴量について局所座標系で更新される基準座標を例示する説明図であり、(c)比較例として3例の顔特徴量について絶対座標系で更新される基準座標を例示する説明図である。 本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置における動作の説明図である。 本発明による一実施形態のオブジェクト検出装置として構成される一実施例の顔検出装置と、非特許文献1の技法との性能比較を示す図である。
〔画像データ分類装置〕
まず、図1乃至図4を参照して、本発明による一実施形態の画像データ分類装置1について説明する。
(装置構成)
図1は、本発明による一実施形態の画像データ分類装置1の概略構成を示すブロック図である。画像データ分類装置1は、機械学習させて構築された決定木により画像データを分類する装置である。
入力される静止画像の画像データを分類するため、決定木の各ノードでは、分類対象の画像データ(入力画像)に対し所定の特徴量を算出し、この算出した特徴量を持つ入力画像をまず2つに分離するためのノードとし、当該算出した特徴量が、2つに分離するためのノード闘値より大きいか否かで当該ノードが分岐される。決定木では、この分岐を繰り返し、最終的に到達した葉ノードの分類結果を当該入力画像に対するラベルとして決定する。ラベルは、検出対象となるオブジェクト(顔、人物、車両などの物体)の分類結果を示すものである。
本発明に係る画像データ分類装置1は、ノードの分岐のために利用する特徴量(特徴量プール内の特徴量及び画像特徴となる特徴量を含む)が従来技法(特に、非特許文献1,2の技法)とは異なり、より表現能力の高い特徴量として、マルチスケールの畳み込みフィルタを利用した特徴量としている。
より具体的には、本発明に係る画像データ分類装置1では、予め定められた1つ以上の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズとを、特徴量プール内の特徴量としている。
そして、本発明に係る画像データ分類装置1では、当該基準座標点の各々に対し、当該複数種のフィルタサイズ毎に、特定のフィルタ係数で構成される畳み込みフィルタによるフィルタ処理を実行し、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を正規化合成した値(畳み込み値g)を、画像特徴となる特徴量としている。
ただし、本発明に係る特徴量は、非特許文献1,2の技法における各特徴量のいずれをも表現可能な特徴量であり、この詳細は、本発明に係るオブジェクト検出装置10にて後述する。
つまり、本発明に係る画像特徴となる特徴量は、図3を参照して後述するが、複数種(m種類)の畳み込みフィルタhの各々を総括してh(K+i,K+j)と表し、この畳み込みフィルタの複数のフィルタサイズNの各々を総括して縦・横でN×N(Nは奇数)画素とし、入力画像fに対するk(kは1以上の整数)個の基準座標点P=(x,y)の各々の座標を総括して(x,y)と表すとすると、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を正規化合成した値(畳み込み値g)は、式(1)のように定義される。尚、畳み込みフィルタに関する複数のフィルタサイズN×Nは特徴量プールとして予め設定してあり、これによりマルチスケールの畳み込みフィルタ処理を構成している。
Figure 0006924031
本例では、畳み込みフィルタh(K+i,K+j);(0≦i,j<N)の各フィルタ係数の値と、畳み込みフィルタを適用する注目画素となる基準座標点P=(x,y)について、ランダムに設定したものを特徴量プールとして用いる。ただし、畳み込みフィルタを適用する基準座標点Pについては、用途に応じて予め考慮した座標点とすることもできる。また、用途に応じて、特徴量プールとして用いる畳み込みフィルタh(K+i,K+j)の種類、基準座標点Pの位置、及び、畳み込みフィルタに関する複数のフィルタサイズN×Nは、外部から設定変更可能に構成するのが好適である。
ここで、本発明に係る画像データ分類装置1は、畳み込みフィルタのフィルタサイズを様々に変更してマルチスケール化を構成するが、以下に説明する例では計算コストの削減のため、フィルタサイズを大きくするのではなく、対象画像のサイズを小さくすることで対応する実施形態としている。ただし、対象画像のサイズを変更せずにフィルタサイズを大きくする実施形態としてもよい。
より具体的に図1を参照して説明するに、本実施形態の画像データ分類装置1は、学習データからマルチスケールの畳み込みフィルタを用いて決定木を学習して構築する学習処理部2と、当該マルチスケールの畳み込みフィルタを用いて学習された決定木に従って分類対象の入力画像(静止画像)のラベルを推定する識別処理部3とを備えている。
学習処理部2は、特徴量プール部21、複数解像度画像生成部22、フィルタ畳み込み部23、分離精度算出部24、及びノード分岐部25を備える。機械学習の学習データとして、正解ラベルが付与された画像群(正例)と、正解ラベルが付与されていない画像群(負例)が予め用意される。
特徴量プール部21は、予め定められた1つ以上の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズとを保持している。
複数解像度画像生成部22は、入力される複数の学習データの各々に対し、特徴量プール部21に保持される特徴量プール(複数種のフィルタサイズに応じた解像度)に従って複数の解像度変換を行い、各学習データに対応する複数の解像度画像を生成してフィルタ畳み込み部23に出力する。
フィルタ畳み込み部23は、複数解像度画像生成部22から得られる複数の学習データの各々に対する複数の解像度画像について、特徴量プール部21に保持される特徴量プール(個々の基準座標点と個々の畳み込みフィルタ)に従って畳み込みフィルタ処理を実行する。そして、フィルタ畳み込み部23は、当該複数の解像度画像における或る基準座標点に対して同一フィルタ係数を持つ或る畳み込みフィルタの組み合わせ毎の畳み込みフィルタ処理の実行によって、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を得て、これら画素値を正規化合成した値(畳み込み値g)を求める。従って、1つの学習データにつき、1つ以上の基準座標点の各々に対し複数種の畳み込みフィルタの数に相当する複数の畳み込み値gが得られる。
このため、1つの学習データは、各基準座標点Pに対しそれぞれが所定数のフィルタサイズN×Nで畳み込まれた複数種の畳み込みフィルタhにそれぞれ対応付けられた複数の畳み込み値gが得られる。従って、1つ以上の基準座標点Pと、複数種の畳み込みフィルタhと、これらによってそれぞれ対応付けられた複数の畳み込み値gとの組み合わせが、当該1つの学習データを定義づける特徴ベクトルとして表される。
複数解像度画像生成部22及びフィルタ畳み込み部23は、全ての学習データについて同様の処理を行う。
そして、フィルタ畳み込み部23は、各学習データを定義づける特徴ベクトルとして表される1つ以上の基準座標点Pと、複数種の畳み込みフィルタhと、これらによってそれぞれ対応付けられた畳み込み値gとの組み合わせ情報を、各学習データに対応付けて分離精度算出部24に出力する。
分離精度算出部24は、フィルタ畳み込み部23から、全ての学習データの各々に関する1つ以上の基準座標点Pと、複数種の畳み込みフィルタhと、これらによってそれぞれ対応付けられた畳み込み値gとの組み合わせ情報を取得して、1つ以上の基準座標点Pのうち事前設定する特定数の基準座標点P(対応して個々の畳み込み値gが得られる)の組み合わせについて、全ての学習データを最も精度よく2つに分離する畳み込みフィルタhの種類と、この分離のためのノード閾値を求めてノード分岐部25に出力する。分離の良否の判定にはGini係数や情報利得など従来技術と同様の尺度を利用する。
ノード分岐部25は、分離精度算出部24から得られるノード閾値を基に、全ての学習データをノード分岐として2つに分離し、当該ノード分岐に係る畳み込みフィルタhの種類と、当該ノード分岐に係るノード閾値を決定木の構築のために当該ノードに対応付けて保持する。
更に、ノード分岐部25は、分岐したノードのそれぞれに対し、更なるノード分岐を行うようフィルタ畳み込み部23に指示して、各分岐したノードに対応する学習データを割り振らせ、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで(即ち、分離精度の向上が望めなくなるまで)繰り返す。分岐不能となったノードは葉ノードとなり、最終的にそのノードに残った学習データの正解又は不正解のラベルに応じて、判別結果としての正解又は不正解、及び正解であればその畳み込みフィルタhの種別を示す判別ラベルを決定する。
更に、ノード分岐部25は、1つ以上の基準座標点Pのうち更に事前設定する特定数の基準座標点P(対応して個々の畳み込み値gが得られる)の組み合わせについても、全ての学習データを最も精度よく2つに分離する畳み込みフィルタhと、この分離のためのノード閾値を基に分岐を繰り返して、最終的にそのノードに残った学習データの正解又は不正解のラベルに応じて、判別結果としての正解又は不正解、及び正解であればその畳み込みフィルタhの種別を示す判別ラベルを決定する。
尚、1つ以上の基準座標点Pのうち特定数の基準座標点P(対応して個々の畳み込み値gが得られる)の組み合わせは、操作者による外部設定によるものとすることができるが、所定の選択基準(例えば当該特定数の基準座標点Pの組み合わせ初期値から最近位置の別の基準座標点を用いて当該特定数を維持して組み合わせを選択)に基づいて、自動的に設定するのが好ましい。尚、特徴量プール部21に予め保持する基準座標点Pが1つのときは当該決定木による分類判定に用いる当該特定数も1つであり、1つの決定木が構築される。また、特徴量プール部21に予め保持する基準座標点Pの全てを当該特定数とした場合も1つの決定木が構築される。
このように、1つ以上の基準座標点Pのうち特定数の基準座標点P(対応して個々の畳み込み値gが得られる)の組み合わせ数に応じた数の決定木が構築される。
構築する決定木の出力ラベル(最終結果の判別ラベル)は、学習データに予め付されている正解又は不正解のラベルと合致するよう機械学習を行うことになる。最終的な決定木の出力ラベル(最終結果の判別ラベル)は、正解(又は不正解)のラベルでも更に分類してラベル1、ラベル2、…というように複数種が想定されるため、通常、機械学習による決定木の構築にあたって、単純な正解又は不正解の2分類とする場合には、ノード分岐部25は、この複数種のラベルにおいて所定数以上に学習データが割り振られているノードのみを用いて決定木を構築することができる。
尚、本例では、ノード分岐部25は、分岐したノードのそれぞれに対し、更なるノード分岐を行うようフィルタ畳み込み部23に指示して、各分岐したノードに対応する学習データを割り振らせるよう、決定木におけるノード分岐のためにループ処理を実行する例を示しているが、重複処理を避けるためループ処理を行わずに、一括して全ての基準座標点Pに対する畳み込み値gを求め、ノード分岐を繰り返し行う処理とすることもできる。
また、異なるフィルタサイズの畳み込みフィルタを更に畳み込むことによるマルチスケールの畳み込みフィルタは、予め全ての種類のマルチスケールの畳み込みフィルタのフィルタ係数を演算しておき、複数解像度画像を生成することなく畳み込み値gを得る構成とすることもできる。
ノード分岐部25は、最終的に構築した決定木を、学習結果格納部31に保存する。
一方、識別処理部3は、学習結果格納部31、複数解像度画像生成部33、及びフィルタ畳み込み部33を備える。
学習結果格納部31は、ノード分岐部25によって構築された決定木を格納している。決定木は、特徴量プールとして機械学習時に用いられた1つ以上の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズの情報、及び、各ノードの分岐のためのノード閾値の情報を含んでいる。
複数解像度画像生成部33は、識別処理対象の入力画像に対し、学習結果格納部31に保持される決定木(複数種のフィルタサイズに応じた解像度)に従って複数の解像度変換を行い、複数の解像度画像を生成してフィルタ畳み込み部33に出力する。即ち、複数解像度画像生成部33は、学習処理部2における複数解像度画像生成部22と同様の複数の解像度画像に変換し、フィルタ畳み込み部33に出力する。
フィルタ畳み込み部33は、複数解像度画像生成部33から得られる入力画像に対する複数の解像度画像について、学習結果格納部31に保持される決定木(個々の基準座標点と個々の畳み込みフィルタ)に従って畳み込みフィルタ処理を実行し、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を得て、これら画素値を正規化合成した値(畳み込み値g)を求める。
続いて、フィルタ畳み込み部33は、当該決定木を用いて、各ノード閾値によって分岐していき、葉ノードに到達した段階で、そのノードに割り当てられたラベルを識別結果として出力する。
(学習処理例)
以下、学習処理部2による学習処理の一例について、より具体的に、図2及び図3を参照して説明する。図2に示す学習処理例は、畳み込みフィルタのフィルタサイズを様々に変更してマルチスケール化を構成するにあたり、計算コストの削減のため、フィルタサイズを大きくするのではなく、対象画像のサイズを小さくすることで対応する例である。ただし、上述したように、決定木におけるノード分岐のためにループ処理を実行する例を示しているが、重複処理を避けるためループ処理を行わずにノード分岐を行う構成とすることもできる。
学習処理部2は、入力された複数の学習データf,f,…,f(データ数:S)の各々について、未分岐のノードが残っているか否かを判定することになるが(ステップS1)、最初に入力された時点では当然に未分岐のノードが残っているため(ステップS1:Yes)、ステップS2に移行する。
続いて、学習処理部2は、複数解像度画像生成部22により、入力される複数の学習データの各々に対し、特徴量プール部21を参照して(ステップS2)、特徴量プール(複数種のフィルタサイズに応じた解像度)に従って複数の解像度変換を行い、各学習データに対応する複数の解像度画像を生成する。
例えば図3に示すように、複数解像度画像生成部2は、入力される複数の学習データf,f,…,f(データ数:S)の各々について、様々な画像サイズに縮小したもの、フィルタサイズN×Nとして、特徴量プール部21内に、N×N(1倍),N×N(0.5倍),N×N(0.25倍)の3種類が用意されているとき、3種類の解像度画像に変換する。尚、1/√N倍づつ縮小するなど本例に限定する必要はない。
続いて、学習処理部2は、当該ノードに属する各学習データに所定種類数の畳み込みフィルタ処理を実行し、更に畳み込む(ステップS3)。より具体的に、学習処理部2は、フィルタ畳み込み部23により、各学習データに対応する複数の解像度画像について、特徴量プール部21に保持される特徴量プール(個々の基準座標点と個々の畳み込みフィルタ)を参照して、当該複数の解像度画像における或る基準座標点に対して同一フィルタ係数を持つ或る畳み込みフィルタの組み合わせ毎の畳み込みフィルタ処理を実行し、当該複数種のフィルタサイズ毎の畳み込みフィルタ処理後の画素値を得て、これら画素値を正規化合成した値(畳み込み値g)を求める。
例えば図3に示すように、1つの学習データにつき、1つ以上の基準座標点P,P,…,P=(x,y)(kは1以上の整数)のうち2つの基準座標点P,Pの組み合わせに対し、各基準座標点に応じた複数種の畳み込みフィルタh,h,…,h(mは2以上の整数)の数に相当する複数の畳み込み値gが得られ、図3では2つの基準座標点P,Pにそれぞれ対応する畳み込み値g,gを例示して示している。
このため、1つの学習データfは、各基準座標点Pに対しそれぞれが所定数のフィルタサイズN×Nで畳み込まれた複数種の畳み込みフィルタhにそれぞれ対応付けられた複数の畳み込み値gが得られる。従って、1つ以上の基準座標点Pと、複数種の畳み込みフィルタhと、これらによってそれぞれ対応付けられた複数の畳み込み値gとの組み合わせが、当該1つの学習データを定義づける特徴ベクトルとして表される。
そして、図3に示すように、複数解像度画像生成部22及びフィルタ畳み込み部23は、全ての学習データf,f,…,fについて同様の処理を行う。
続いて、学習処理部2は、分離精度算出部24により、全ての学習データに関する1つ以上の基準座標点Pと、複数種の畳み込みフィルタhと、これらによってそれぞれ対応付けられた畳み込み値gとの組み合わせ情報を取得して、特定数の基準座標点Pについて全ての学習データを最も精度よく2つに分離する畳み込みフィルタhと、この分離のためのノード閾値を求め、ノード分岐部25により、図3に示すように、当該ノードを分岐する(ステップS4)。当該ノード分岐時に、畳み込みフィルタhの種類及びノード閾値は決定木の構築のために当該ノードに関連付けて保持される。分離の良否の判定には、Gini係数や情報利得など従来技術と同様の尺度を利用する。
続いて、学習処理部2は、ノード分岐部25により、当該分岐したノードについて更なるノード分岐が可能であるか否かを判別し(ステップS6)、更なるノード分岐が可能であれば(ステップS6:Yes)、ステップS2に移行して、更なるノード分岐を行うようフィルタ畳み込み部23に指示して、各分岐したノードに対応する学習データを割り振らせ、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで(即ち、分離精度の向上が望めなくなるまで)(ステップS6:No)、繰り返す。
続いて、学習処理部2は、未分岐のノードが残っているか否かを判定し(ステップS1)、未分岐のノードが無くなるまで(ステップS1:No)、ステップS2乃至S6の処理を繰り返す(ステップS1:Yes)。
最終的に、学習処理部2は、ノード分岐部25により、上述したノード分岐を繰り返して、分岐不能となったノードに属する学習データの正解又は不正解のラベルに応じて、判別結果としての正解又は不正解、及び正解(又は不正解)のラベルでも更に分類してその種別を示す判別ラベルを決定する。
即ち、図4に示すように、入力画像を分岐するための特徴Aが閾値Aより大きいか小さいかで分離する第1ノード100から第2ノード200及び第3ノード300へとノード分岐される。そして、第2ノード200及び第3ノード300、更には第4ノード400及び第5ノード500も同様に、各ノードで可能な限りノード分岐を繰り返し、最終的に、ラベル1、ラベル2、…というように複数種のラベルが付される。
通常、機械学習による決定木の構築にあたって、単純な正解又は不正解の2分類とする場合には、ノード分岐部25は、この複数種のラベルにおいて所定数以上に学習データが割り振られているノードのみを用いて決定木を構築する。
このように構築された決定木は、顔検出や顔特徴点検出の他、車両検出や車両特徴点検出、或いはこれらの組み合わせなど、様々なオブジェクト検出の用途に利用でき、汎用性の高いものとなる。
例えば、フィルタサイズとフィルタ係数の組み合わせによって、非特許文献1,2に示されるような従来技法の特徴量も表現できることが分かる。尚、フィルタを適用する基準座標点P=(x,y)については、非特許文献2の技法と同様に、特徴点位置を考慮して選択することもできる。その場合は、特徴点から位置が近いほど高確率で選択されるような確率的サンプリングを実施するなどが考えられる。
特に、本実施形態の画像データ分類装置1は、このように構築された決定木を用いるため、例えば顔検出や顔特徴点の対象となる入力画像に、ノイズや顔の向きの多様性(顔画像の変形)がある場合でも、高周波ノイズ除去効果がある点と、基準座標点に基づく畳み込み値であることから、頑健で精度よく画像データを分類することができる。
また、画像データに対する人物認識処理に本実施形態の画像データ分類装置1の処理を適用する際、まず本実施形態の画像データ分類装置1の処理を経た後に、非特許文献1の技法に基づく顔検出を行って、その後、当該入力画像に対し非特許文献2の技法に基づく顔画像から複数の座標点(顔特徴点)を検出する構成でも、その分類精度が向上している分、処理性能が向上する。ただし、以下に説明するように、本実施形態の画像データ分類装置1を利用して、より優れた処理効率となるオブジェクト検出装置10を構成することができる。
〔オブジェクト検出装置〕
以下、図5乃至図9を参照して、本発明による一実施形態のオブジェクト検出装置10として構成される一実施例の顔検出装置について説明する。
(装置構成)
図5は、本発明による一実施形態のオブジェクト検出装置10として構成される一実施例の顔検出装置の概略構成を示すブロック図である。ここでは、オブジェクト検出装置10の典型例として、顔検出装置の実施例を説明するが、学習データを適宜選別することで、顔検出以外にも、人物検出や人物認識、車両などの物体検出など、静止画像からのオブジェクト検出に広く利用できる点に留意する。
図5に示すように、オブジェクト検出装置10は、本発明に係る画像データ分類装置1と、走査窓設定部11と、分類結果判定部12と、局所座標系基準座標点更新指示部13と、を備える。
走査窓設定部11は、動画の1フレームなど静止画像の入力フレーム画像に対し、様々なサイズの走査窓で入力フレーム画像全体を走査可能とする機能部であり、或るサイズ(走査窓スケール)の走査窓で入力フレーム画像における特定の走査位置の画像を切り出して本発明に係る画像データ分類装置1に出力する。走査窓のサイズの変更や、入力フレーム画像の特定の走査位置の変更は、後述する分類結果判定部12によって指示される。例えば図6には、入力フレーム画像Fに対し3例の走査窓スケールS、S及びSを示しており、図示中央に例示する入力フレーム画像Fには、走査窓スケールSによってそれぞれ異なる走査位置で顔検出ラベル1,2が判別されると予想される領域が破線で示されている。
本発明に係る画像データ分類装置1は、顔検出用に学習された決定木が構築され、“顔である”と“顔ではない”の2分類のラベルを出力し、予め定めた平均顔に基づく顔特徴点として4点の基準座標点(顔特徴点)の初期値P,P,P,Pと、その基準座標点の初期値P,P,P,Pから位置が近いほど高確率で選択されるような確率的サンプリングを実施して分散された予め定めた近傍の基準座標点(基準座標点の初期値P,P,P,Pからそれぞれ更新される基準座標点P’,P’,P’,P’)が多数、特徴量プールとして保持されているものとする。この基準座標点の設定値の更新は、後述する局所座標系基準座標点更新指示部13によって指示される。
また、画像データ分類装置1におけるフィルタ畳み込み部23は、決定木における画像特徴の特徴量としての畳み込み値gの他、複数の基準座標点(顔特徴点)のうち更新可能な特定の2座標点間の畳み込み値の差分値(以下、「畳み込み差分値」と称する)Δgの全ての組み合わせも併せて算出する。
例えば、図7(a)には、走査窓により切り出されて入力された或る入力画像fに対し、複数の基準座標点(顔特徴点)のうち選択可能な或る2座標点に対応する畳み込み値g,gや、別の2座標点に対応する畳み込み値g,gや、更に別の2座標点に対応する畳み込み値g,gが割り当てられるとすると、各2座標点に対応する畳み込み値の差分(畳み込み差分値Δg)もそれぞれ算出されて、当該入力画像fについて“顔である”と“顔ではない”の2分類に利用する顔特徴量となる。
更に、本発明に係る基準座標点の更新に関して、図7(b)にて3例の入力画像f,f,fにそれぞれ示すように、更新される基準座標点P’,P’(P’,P’も同様)は、基準座標点の初期値P,P(P,Pも同様)をそれぞれ原点とする局所座標系により更新される。
これは、当該顔検出対象の入力画像における顔形状の個人差や、顔の向き、表情の変化による基準座標点P’,P’,P’,P’の位置関係の位置ずれを軽減するためである。例えばその比較例として、図7(c)にて3例の入力画像f,f,fにそれぞれ示すように、絶対座標系により基準座標点を更新すると、目鼻の位置関係の違いなどの影響で、入力画像によって基準座標点P’,P’,P’,P’の位置関係の位置ずれが大きくなる。このため、基準座標点の更新は、局所座標系に基づいて行うものとしている。
そして、画像データ分類装置1における分離精度算出部24は、フィルタ畳み込み部23から、全ての学習データに関する1つ以上の基準座標点Pと、複数種の畳み込みフィルタhと、これらによってそれぞれ対応付けられた複数の畳み込み値gと、4点の基準座標点(顔特徴点)のうち特定の2つの基準座標点Pに対応する畳み込み差分値Δgの全ての組み合わせを含む情報を取得する。そして、分離精度算出部24は、畳み込み差分値Δgの全ての組み合わせについて全ての学習データを最も精度よく2つに分離する畳み込みフィルタhと、この分離のためのノード閾値を求める。ノード分岐部25は、各ノード閾値により、“顔である”と“顔ではない”の2分類のラベルを出力するよう決定木を構築する。
従って、本発明に係る画像データ分類装置1は、走査窓により切り出されて入力される顔検出対象の入力画像fに対し、当該決定木を用いて、各ノード閾値によって分岐していき、葉ノードに到達した段階で、そのノードに割り当てられた“顔である”と“顔ではない”のいずれかの顔検出ラベルを、そのノードに対し最終的に更新し割り当てられた基準座標点P’,P’,P’,P’と共に、識別結果として分類結果判定部12に出力する。
分類結果判定部12は、本発明に係る画像データ分類装置1から、“顔である”と“顔ではない”のいずれかの顔検出ラベルと共に、最終的に更新し割り当てられた4座標点の基準座標点P’,P’,P’,P’を入力して一時保持する。この4座標点の基準座標点P’,P’,P’,P’のいずれか、又はその全部は、基準座標点の初期値と同じ値となる場合を含む。
続いて、分類結果判定部12は、一時保持した顔検出ラベルが“顔ではない”の旨を示す場合には、走査窓設定部11に対し、当該走査窓を次の走査位置へ設定させるか、又は当該走査窓が最終の走査位置であれば次のサイズ(走査窓スケール)の走査窓で入力フレーム画像の初期の走査位置を設定させて、入力フレーム画像から顔検出対象の画像を切り出させ、本発明に係る画像データ分類装置1に再度の分類判定を行うよう指示する。
一方、分類結果判定部12は、一時保持した顔検出ラベルが“顔である”の旨を示す場合には、4座標点の基準座標点P’,P’,P’,P’を更新させるよう局所座標系基準座標点更新指示部13に指示する。
局所座標系基準座標点更新指示部13は、“顔である”として一時保持した顔検出ラベルの入力画像に対し、4座標点の基準座標点P’,P’,P’,P’を、本発明に係る画像データ分類装置1における特徴量プール部21に保持している組み合わせ可能な全てについてその組み合わせを管理しており、基準座標点の設定値の更新を本発明に係る画像データ分類装置1に対し指示する。
尚、図1では、分類結果判定部12と局所座標系基準座標点更新指示部13を別個の機能部として図示しているが、局所座標系基準座標点更新指示部13は、分類結果判定部12の一部の機能として構成することができる。即ち、分類結果判定部12は、画像データ分類装置1による分類結果を基に、走査窓の画像内でオブジェクトの有無を判定する判定処理と、該オブジェクトが有るときの画像特徴となる特徴点を選定する特徴点選定処理とを並列に実行するよう構成することができる。
そして、分類結果判定部12は、一時保持した顔検出ラベルが“顔である”の旨を示す当該入力画像に対し、“顔ではない”と“顔である”の分類を最大限繰り返し、顔検出ラベルを付して最終分類された“顔である”の当該入力画像と共に、対応する4座標点の基準座標点P’,P’,P’,P’を顔特徴点として外部に出力する。
そして、分類結果判定部12は、走査窓設定部11に対し走査窓の走査位置やサイズ(操作窓スケール)を変更しても“顔ではない”の旨を示す入力フレーム画像に対しては、“顔ではない”の旨を示す顔検出ラベルを付して外部に出力する。
(動作例)
図8は、本実施形態のオブジェクト検出装置10として構成される一実施例の顔検出装置における動作の説明図である。
まず、オブジェクト検出装置10は、走査窓設定部11により、入力される入力フレーム画像Fに対し所定サイズ及び所定位置の走査窓で切り出した画像fを入力画像として本発明に係る画像データ分類装置1へ入力する。
そして、画像データ分類装置1は、図8に示すように、入力画像fについて、まず予め定めた平均顔に基づく顔特徴点として4点の基準座標点(顔特徴点)の初期値P,P,P,Pを割り当て、“顔ではない”と“顔である”の分類を行う(ステップS11)。
このとき、オブジェクト検出装置10は、分類結果判定部12により、“顔ではない”として分類された入力画像fについては走査窓設定部11に対し、次の走査窓の画像を顔検出対象とするよう制御する。
一方、分類結果判定部12は、“顔である”として分類された入力画像fについては、局所座標系基準座標点更新指示部13を介して本発明に係る画像データ分類装置1に対し指示して、4座標点の基準座標点P’,P’,P’,P’を更新する(ステップS12)。このように、画像データ分類装置1による分類結果の判定により“顔ではない”となるとき、次の走査窓の画像を入力するよう回帰される。
そして、分類結果判定部12は、一時保持した顔検出ラベルが“顔である”の旨を示す当該入力画像に対し、“顔ではない”と“顔である”の分類を最大限繰り返し、顔検出ラベルを付して最終分類された“顔である”の当該入力画像と共に、対応する4座標点の基準座標点P’,P’,P’,P’を顔特徴点として外部に出力する。
このように、分類結果判定部12は、最終分類された“顔である”の当該入力画像に対し、基準座標点P’,P’,P’,P’の更新を繰り返しながら画像データ分類装置1による分類を行わせることで、徐々に“顔ではない”と“顔である”の分類判別が困難となり、いずれ分類判別となる状態まで収束する。そして、最終的な “顔である”の当該入力画像に対し更新された基準座標点P’,P’,P’,P’は、高精度なものとなる。
従って、本実施形態のオブジェクト検出装置10は、“顔ではない”と“顔である”の分類問題と、4座標点の基準座標点(顔特徴点)の更新(顔特徴点の変位の分散の最小化)を行う回帰問題とを、画像データ分類装置1が並列に解くことができるため、処理効率の向上と、顔検出精度の向上が実現される。
即ち、非特許文献1の技法に基づく顔検出を行って、その後、当該入力画像に対し非特許文献2の技法に基づく顔画像から複数の座標点(顔特徴点)を検出するような直列処理よりも、本実施形態のオブジェクト検出装置10は、処理効率が改善する。
また、上述した例では、4座標点の基準座標点の更新を行う例を説明したが、さらに少ない2座標点とすることや、逆に更に多い9座標点の基準座標点の更新を行うなど、任意に設定できる。
(実験による検証)
顔検出の精度の向上が無ければ、人物認識に有用な顔特徴点検出の精度の向上も望めない。そして、顔検出の精度の向上を図るには、顔分類の精度の向上が有効である。そこで、9座標点の基準座標点の更新を行うよう構成した本実施形態のオブジェクト検出装置10と、同一条件下で構成した非特許文献1の技法との顔検出性能の比較実験を行った。
学習データは2ヶ月分のテレビ映像から2万枚の顔画像を抽出し、本実施形態のオブジェクト検出装置10における画像データ分類装置1に決定木を構築させた。尚、オブジェクト検出装置10の最大回帰数を5回に制限し、ノード数が最大600となるよう学習時のラベル数を制限して決定木を構築した。
実験対象の画像は、或る一日分の放送映像における複数のフレーム画像を顔検出対象の入力フレーム画像とし、本実施形態のオブジェクト検出装置10と非特許文献1の技法との顔検出性能の比較を行ったところ、図9に示す結果が得られた。
図9において、「検出率」は、入力フレーム画像内に出現した顔のうち検出できた割合である。また、「誤検出率」は、検出結果に含まれる誤りの割合を示している。本実施形態のオブジェクト検出装置10は、「検出率」として29.3%の性能向上、「誤検出率」として21.1%の性能向上が確認された。
これらの検出結果を分析すると、非特許文献1の技法では、顔の向きや表情の変化に起因する未検出、及び複雑な背景に起因する誤検出が、本実施形態のオブジェクト検出装置10との差異として確認され、カメラ映像から顔検出を行うには、特に、本発明に係る本発明に係る画像データ分類装置1がオブジェクト検出装置10に有効であることが確認された。
(総括)
以上のように、本発明に係る画像データ分類装置1は、マルチスケールの畳み込みフィルタを利用することによって、従来技法よりも、映像に映るオブジェクトの形状や特徴をより正確に捉えることが可能となり、データの分類精度を向上させることができる。
そして、本発明に係る画像データ分類装置1は、顔検出や人物検出や人物認識、車両などの物体検出など、静止画像からのオブジェクト検出に広く利用できる。
その他、本発明に係る画像データ分類装置1は、決定木に基づくオブジェクト検出装置10として利用する以外にも、決定木を利用した回帰や、ランダムフォレストなどの決定木をベースとしたその他の技法にも利用できる。即ち、ランダムフォレストは、決定木を利用した集団学習技法を1つであり、多数の決定木を利用して、それぞれでデータのラベルを推定し、最終的に多数決で推定ラベルを決定するという技術である。このため、ランダムフォレストにおける決定木を構成する識別器を本発明に係る画像データ分類装置1に置き換えて利用することができる。
また、決定木に基づくオブジェクト検出装置10とする以外にも、AdaBoostやReal AdaBoostなどの各種ブースティングアルゴリズムにも利用することができる。即ち、AdaBoostやReal AdaBoostは、多数の識別器を連結してデータを分類する技法であり、この識別器として、本発明に係る画像データ分類装置1を利用することができる。
尚、画像データ分類装置1及びオブジェクト検出装置10は、それぞれコンピュータとして機能させることができ、当該コンピュータに、各構成要素を実現させるためのプログラムは、当該コンピュータのメモリに記憶される。当該コンピュータに備えられる中央演算処理装置(CPU)などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、当該メモリから読み込んで各構成要素の機能を当該コンピュータに実現させることができる。
本発明に係る画像データ分類装置1及びオブジェクト検出装置10、及びこれらのプログラムは、上述した実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。
本発明によれば、汎用性を持たせてより頑健で精度よく画像データを分類可能となり、画像データのラベルを精度よく推定することが可能となるので、データの分類を要する用途や、オブジェクトを検出する用途に有用である。
1 画像データ分類装置
2 学習処理部
3 識別処理部
10 オブジェクト検出装置
11 走査窓設定部
12 分類結果判定部
13 局所座標系基準座標点更新指示部
21 特徴量プール部
22 複数解像度画像生成部
23 フィルタ畳み込み部
24 分離精度算出部
25 ノード分岐部
31 学習結果格納部
32 複数解像度画像生成部
33 フィルタ畳み込み部

Claims (5)

  1. 入力フレーム画像から所定のオブジェクトを検出するオブジェクト検出装置であって、
    前記入力フレーム画像における識別対象の入力画像の画像データを分類する画像データ分類装置と、
    前記画像データ分類装置による分類結果を基に、前記入力フレーム画像に対する所定の走査窓の画像内でオブジェクトの有無を判定する判定処理と、該オブジェクトが有るときの画像特徴となる特徴点を選定する特徴点選定処理とを並列に実行する分類結果判定手段と、を備え、
    前記画像データ分類装置は、予め用意された学習データからマルチスケールの畳み込みフィルタを用いて決定木を学習して構築する学習処理部と、当該学習された決定木に従って、当該マルチスケールの畳み込みフィルタを用いて識別対象の入力画像を分類する識別処理部と、を備え
    前記学習処理部は、
    複数の基準座標点と、フィルタサイズ毎に予め定められた複数種のフィルタ係数で構成される複数種の畳み込みフィルタと、予め定められた複数種のフィルタサイズとを特徴量プールとして保持する特徴量プール手段と、
    入力される複数の学習データの各々に対し、前記特徴量プールに従って当該複数種のフィルタサイズに応じた当該複数種の畳み込みフィルタによるマルチスケールの畳み込みフィルタ処理を実行し、各学習データに対して、当該1つ以上の基準座標点の各々に対し複数種の畳み込みフィルタの数に相当する複数の畳み込み値を求めるとともに、該複数の基準座標点のうち更新可能な特定の2座標点間の畳み込み値の差分値を更に求める第1の畳み込みフィルタ処理手段と、
    全ての学習データの各々に関する当該複数の基準座標点と、当該複数種の畳み込みフィルタと、それぞれ対応付けられた当該畳み込み値との組み合わせ情報、並びに該複数の基準座標点のうち更新可能な特定の2座標点間の畳み込み値の差分値の全ての組み合わせを基に、当該複数の基準座標点についてノード分岐対象の全ての学習データを最も精度よく2つに分離する畳み込みフィルタの種類と、この分離のためのノード閾値とを求める分離精度算出手段と、
    前記ノード閾値を基に全ての学習データをノード分岐として2つに分離し、当該ノード分岐に係る畳み込みフィルタの種類と、当該ノード分岐に係るノード閾値とを当該ノードに対応付けて保持し、当該ノード分岐後の全ての学習データについて更なるノード分岐を行うよう繰り返し制御を行うことにより、前記決定木を構築するノード分岐手段と、
    を備えることを特徴とするオブジェクト検出装置。
  2. 前記ノード分岐手段は、分離判定対象のノードに属する学習データ数が所定の闘値以下になるか、又は当該分離判定対象のノードにおける学習データの分離精度が所定の闘値以下となるまで繰り返す当該繰り返し制御を行うことにより、前記決定木を学習して構築することを特徴とする、請求項に記載のオブジェクト検出装置。
  3. 前記識別処理部は、
    前記ノード分岐手段によって構築された当該決定木を格納する学習結果格納手段と、
    当該学習された決定木に従って前記マルチスケールの畳み込みフィルタを用いて当該識別対象の入力画像を分類する第2の畳み込みフィルタ処理手段と、
    を備えることを特徴とする、請求項1又は2に記載のオブジェクト検出装置。
  4. 前記分類結果判定手段は、前記特徴量プール手段内の複数の当該基準座標点のうち所定数の基準座標点の初期値を定め、該所定数の基準座標点の初期値をそれぞれ原点とする局所座標系により、当該所定数の基準座標点の位置関係の位置ずれを修正するよう、画像データ分類装置に対し更新させる基準座標点更新手段を備えることを特徴とする、請求項1から3のいずれか一項に記載のオブジェクト検出装置。
  5. コンピュータを、請求項からのいずれか一項に記載のオブジェクト検出装置として機能させるためのプログラム。
JP2016255555A 2016-12-28 2016-12-28 オブジェクト検出装置及びこれらのプログラム Active JP6924031B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016255555A JP6924031B2 (ja) 2016-12-28 2016-12-28 オブジェクト検出装置及びこれらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016255555A JP6924031B2 (ja) 2016-12-28 2016-12-28 オブジェクト検出装置及びこれらのプログラム

Publications (2)

Publication Number Publication Date
JP2018106618A JP2018106618A (ja) 2018-07-05
JP6924031B2 true JP6924031B2 (ja) 2021-08-25

Family

ID=62785854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016255555A Active JP6924031B2 (ja) 2016-12-28 2016-12-28 オブジェクト検出装置及びこれらのプログラム

Country Status (1)

Country Link
JP (1) JP6924031B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376590A (zh) 2018-09-07 2019-02-22 百度在线网络技术(北京)有限公司 基于无人车的障碍物分类方法、装置、设备以及存储介质
JP7269711B2 (ja) * 2018-10-03 2023-05-09 株式会社日立製作所 生体認証システム、生体認証方法およびプログラム
JP7326772B2 (ja) * 2019-01-23 2023-08-16 東芝ライテック株式会社 照明装置
CN109859184B (zh) * 2019-01-29 2020-11-17 牛旗 一种连续扫描乳腺超声图像的实时检测与决策融合方法
KR20220102246A (ko) * 2021-01-13 2022-07-20 삼성전자주식회사 전자장치 및 그 제어방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
JP2005266981A (ja) * 2004-03-16 2005-09-29 Omron Corp 人種推定装置
JP2009146215A (ja) * 2007-12-14 2009-07-02 Fuji Xerox Co Ltd データ分析装置、及びデータ分析プログラム

Also Published As

Publication number Publication date
JP2018106618A (ja) 2018-07-05

Similar Documents

Publication Publication Date Title
JP6924031B2 (ja) オブジェクト検出装置及びこれらのプログラム
CN105981008B (zh) 学习深度人脸表示
CN111310731B (zh) 基于人工智能的视频推荐方法、装置、设备及存储介质
JP6032921B2 (ja) 物体検出装置及びその方法、プログラム
US8401283B2 (en) Information processing apparatus, information processing method, and program
US20170124409A1 (en) Cascaded neural network with scale dependent pooling for object detection
US9852327B2 (en) Head-pose invariant recognition of facial attributes
US20190065817A1 (en) Method and system for detection and classification of cells using convolutional neural networks
US9104907B2 (en) Head-pose invariant recognition of facial expressions
JP4767595B2 (ja) 対象物検出装置及びその学習装置
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
JP5214760B2 (ja) 学習装置、方法及びプログラム
US9256835B2 (en) Information processing apparatus enabling discriminator to learn and method thereof
US11113576B2 (en) Information processing apparatus for training neural network for recognition task and method thereof
US20100290700A1 (en) Information processing device and method, learning device and method, programs, and information processing system
US20100111375A1 (en) Method for Determining Atributes of Faces in Images
JP2012252447A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
Uddin et al. Horse detection using haar like features
JP5214679B2 (ja) 学習装置、方法及びプログラム
JP2007025902A (ja) 画像処理装置、画像処理方法
US20220139113A1 (en) Method and device for detecting object in image
JP2015187769A (ja) 物体検出装置、物体検出方法及びプログラム
JP6372282B2 (ja) 画像処理装置、画像処理方法及びプログラム
Orozco et al. Real-time gender recognition from face images using deep convolutional neural network
JP2018036870A (ja) 画像処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191028

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210730

R150 Certificate of patent or registration of utility model

Ref document number: 6924031

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150