JP2014130583A

JP2014130583A - オブジェクト検出方法、オブジェクト検出装置及び撮像装置

Info

Publication number: JP2014130583A
Application number: JP2013260667A
Authority: JP
Inventors: Jan Yan; ジャンヤン; Lifeng Xu; ズーリーフェン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-12-18
Filing date: 2013-12-17
Publication date: 2014-07-10
Anticipated expiration: 2033-12-17
Also published as: US9171230B2; US20140176752A1; CN103870798B; CN103870798A; JP5890825B2

Abstract

【課題】特定のオブジェクトタイプの種々のオブジェクトに対して柔軟且つ正確なオブジェクト検出方法を提供する。
【解決手段】特定のオブジェクトタイプのオブジェクト内に同時に存在すると予想される複数の構成要素を記述する特定のオブジェクトタイプに対する一般的なモデルを事前にオフラインで格納するＳ２１００と、各々が特定のオブジェクトタイプの同一のクエリオブジェクトを含む１つ以上のサンプル画像を受信するサンプル画像受信ステップS2200と、一般的なモデル及び前記１つ以上のサンプル画像を使用して、前記クエリオブジェクトに固有の検出器を作成するオブジェクト検出器作成ステップS2300と、作成された前記クエリオブジェクトに固有の検出器を使用して、目的画像から前記クエリオブジェクトを検出するオブジェクト検出ステップS2400とを備える。
【選択図】図２

Description

本発明は、オブジェクト検出方法、オブジェクト検出装置、並びにオブジェクト検出装置を備える撮像装置に関する。

画像内の視覚オブジェクトの解析は、オブジェクト認識、画像検索及び画像登録等の処理において重要である。そのような処理は、監視（防犯のため）、映像科学捜査、並びにコンピュータ支援診断のための医療画像解析等の多くの応用分野に関係する。特に、オブジェクト認識は、実世界関連システムの開発に対する要求の高まりにより注目されている。

従来のオブジェクト認識方法では、学習／訓練に基づく分類器が使用されるため、分類器パラメータの学習／訓練処理が不可欠である。しかし、１つのオブジェクト（例えば、犬）の特定のサンプルを使用する学習／訓練処理により取得される分類器では、別のオブジェクト（例えば、猫）に対して適切な性能が得られない場合がある。分類器が他のオブジェクトに対して適切な性能を得られるようにするためには、１つのオブジェクトに対する分類器から他のオブジェクトに対する分類器に変更するために、他のオブジェクトの特定のサンプルを使用する別の学習／訓練処理が新規に実行される必要がある。これは、融通性に欠け且つ時間がかかる。

上記の問題を解決する１つの方法は、特定の種類のオブジェクト（犬及び猫の双方を含むペット等）に対する一般的な分類器を訓練することであるが、そのような一般的な分類器は、精度を低下させ、ユーザが関心を有さないオブジェクトを検出する。例えばユーザが画像内の犬のみを検出したい場合でも、猫が画像から更に検出される。

上記の方法を解決する別の方法は、米国特許出願公開第２０１０／０１４７２１Ａ１号明細書、並びに米国特許第７，５５８，４０８Ｂ１号公報、第７，５５５，１４８Ｂ１号公報及び第７，５５１，７５５Ｂ１号公報において説明される。これらの特許文献において開示される方法は、最初に一種類のオブジェクトに対する一般的な分類器（例えば、ペットに対する分類器）を使用して画像内の候補オブジェクトの位置を特定した後、特定の分類器（例えば、猫に対する分類器）を使用して候補オブジェクトが正確な注目オブジェクトであるか判断することである。本方法は、カメラにおいて使用されてきた。本方法によると、複数の特定の分類器（例えば、猫に対する分類器、１匹の犬に対する分類器及び別の犬に対する分類器）がユーザにより事前に登録され、ユーザは、写真を撮影する前に、特定の分類器の中から焦点を合わせるオブジェクトに対する分類器を選択する。カメラは、ファインダに表示される画像から検出されたオブジェクトに自動的に焦点を合わせるように構成される。

しかし、本発明者は、検出可能な特定のオブジェクトが依然として制限され且つユーザにより事前に登録された特定のオブジェクトのみが検出可能であるため、上記の特許文献において開示される方法も十分ではないことに気付いた。

通常、オブジェクト検出技術には２つのステップ、すなわち、訓練ステップ及び検出ステップが含まれる。訓練ステップにおいて、分類器は、オブジェクトの１つ以上のサンプルを使用して訓練することにより取得される。その後、検出ステップにおいて、そのように取得された分類器は、オブジェクトを検出するために使用される。安定した正確な分類器を取得するためには、通常は大量のサンプルが訓練のために必要であるが、大量のサンプルにより計算量が増加し、訓練に時間がかかる。分類器をリアルタイムで訓練する必要がある場合又は計算能力が制限される（組み込みシステムの適用等で）場合、従来技術は要件を満たさない。それに対して、単純にサンプル数を減少することにより分類器の訓練時間を短縮しようとする場合、そのような訓練により取得された分類器の安定性は不十分であり、オブジェクトの姿勢、照明条件又は画角等の要因から受ける影響が大きくなる。

従って、本発明により解決される技術的問題のうちの１つは、種々のオブジェクトに対して融通性を有し且つ正確であるオブジェクト検出の新規技術を提供することである。更に、この新規技術は許容可能な効率を有することが更に予想される。

上記の技術的問題のうちの少なくとも１つを解決するために、本発明は、特定のオブジェクトタイプに対する一般的なモデルを事前に格納する装置により実行されるオブジェクト検出方法、ここで、前記一般的なモデルは前記特定のオブジェクトタイプのオブジェクト内に同時に存在すると予想される複数の構成要素を記述するものである、を提供する。この方法は、各々が特定のオブジェクトタイプの同一のクエリオブジェクトを含む１つ以上のサンプル画像を受信するサンプル画像受信ステップと、一般的なモデル及び前記１つ以上のサンプル画像を使用して、前記クエリオブジェクトに固有の検出器を作成するオブジェクト検出器作成ステップと、作成された前記クエリオブジェクトに固有の検出器を使用して、目的画像から前記クエリオブジェクトを検出するオブジェクト検出ステップとを備えるオブジェクト検出方法を提供する。

更に、上記の技術的問題を解決するために、本発明は、特定のオブジェクトタイプに対する一般的なモデルを事前に格納するように構成された一般的なモデル格納ユニットと、ここで、前記一般的なモデルは前記特定のオブジェクトタイプのオブジェクト内に同時に存在すると予想される複数の構成要素を記述するものである、各々が特定のオブジェクトタイプの同一のクエリオブジェクトを含む１つ以上のサンプル画像を受信するように構成されたサンプル画像受信ユニットと、一般的なモデル及び前記１つ以上のサンプル画像を使用して前記クエリオブジェクトに固有の検出器を作成するように構成されたオブジェクト検出器作成ユニットと、作成された前記クエリオブジェクトに固有の検出器を使用して目的画像から前記クエリオブジェクトを検出するように構成されたオブジェクト検出ユニットとを備えるオブジェクト検出装置を提供する。

更に、本発明は、撮像光学系と、画像を形成するために撮影を実行するように構成された撮影ユニットと、ユーザがクエリオブジェクトを入力又は選択し且つ形成された画像内のクエリオブジェクトを検出できるようにするように構成される上述のオブジェクト検出装置と、検出されたクエリオブジェクトに従って撮影制御を実行するように構成された撮影制御ユニットとを備える撮像装置を提供する。

本発明に係る方法及び装置により、検出器の作成においてクエリオブジェクトを使用できるため、特定のオブジェクトタイプの種々のオブジェクトを非常に柔軟に且つ正確に検出できる。更に、検出器は事前にオフラインで格納された一般的なモデルから作成されるため、検出効率も高い。

更に詳細には、本明細書における開示は、特定のオブジェクトを検出するためのオフライン訓練及びオンラインクエリを組み合わせることにより機構を提供する。時間のかかる分類器訓練ステップは、事前にオフラインで１回のみ実行され、分類器はオンラインクエリステップの間に適合される。このように、オンライン計算モジュールに課される計算量は減少され、組み込みシステムでも動作をリアルタイムで実行できる。本発明のいくつかの実施形態によると、ユーザは検出対象のオブジェクトを入力（クエリ）し、システムに画像内のクエリされたオブジェクトを検出させる。更に、本発明のいくつかの実施形態によると、分類器はオフラインの段階の間に適切な量のサンプルを使用して訓練することにより取得されるため、オブジェクト検出は精度及びロバスト性が高く、更に、オブジェクトの相違に対する許容範囲が適切である。本発明の更なる特徴及び利点は、図面を参照して以下の説明を読むことにより明らかになるだろう。

本明細書の一部に組み込まれ且つそれを構成する添付の図面は、本発明の実施形態を図示し、説明と共に本発明の原理を説明するために用いられる。

本発明の実施形態を実現するコンピュータシステムの例示的なハードウェア構成を示すブロック図である。本発明の一実施形態に係るオブジェクト検出方法を示すフローチャートである。、一般的なモデルのいくつかの例を示す図である。、ユーザがサンプル画像内の構成要素にラベル付けできるようにするユーザインタフェースの例を示す図である。本発明の例示的な一実施形態に係るオブジェクト検出器作成ステップの例示的な処理を示すフローチャートである。例示的な一実施形態に係る複数の構成要素の間の位置関係を含む一般的なモデルを示す図である。例示的な一実施形態に係る構成要素分類器を生成するために一般的なモデルを使用する方法の例を示す図である。例示的な一実施形態に係る構成要素分類器生成ステップの例示的な処理を示すフローチャートである。別の例示的な実施形態に係る構成要素分類器を生成するために一般的なモデルを使用する方法の例を示す図である。更に別の例示的な実施形態に係る構成要素分類器を生成するために一般的なモデルを使用する方法の例を示す図である。この更に別の例示的な実施形態に係る構成要素分類器生成ステップの例示的な処理を示すフローチャートである。例示的な一実施形態に係るオブジェクト検出ステップの例示的な処理を示すフローチャートである。例示的な一実施形態に係る第１の検出サブステップ及び第２の検出サブステップの例示的な処理を示すフローチャートである。例示的な一実施形態に係るオブジェクト検出装置の例示的な構成を示すブロック図である。例示的な一実施形態に係る撮像装置の例示的な構成を示すブロック図である。

図面を参照して、本発明の実施形態を以下に詳細に説明する。

尚、図中、同様の図中符号及び文字は同様の項目を参照するため、１つの項目が１つの図面において定義された場合、後続の図面に対してそれを説明する必要はない。

図１は、本発明の実施形態を実現するコンピュータシステム１０００のハードウェア構成を示すブロック図である。

図１に示すように、コンピュータシステムはコンピュータ１１１０を備える。コンピュータ１１１０は、処理装置（processing unit）１１２０、システムメモリ１１３０、固定不揮発性メモリインタフェース１１４０、取外し可能不揮発性メモリインタフェース１１５０、ユーザ入力インタフェース１１６０、ネットワークインタフェース１１７０、ビデオインタフェース１１９０及び出力周辺インタフェース１１９５を備え、これらはシステムバス１１２１を介して接続される。

システムメモリ１１３０は、ＲＯＭ（読み出し専用メモリ）１１３１及びＲＡＭ（ランダムアクセスメモリ）１１３２を備える。ＢＩＯＳ（基本入出力システム）１１３３はＲＯＭ１１３１に常駐する。オペレーティングシステム１１３４、アプリケーションプログラム１１３５、他のプログラムモジュール１１３６及び何らかのプログラムデータ１１３７はＲＡＭ１１３２に常駐する。

ハードディスク等の固定不揮発性メモリ１１４１は、固定不揮発性メモリインタフェース１１４０に接続される。固定不揮発性メモリ１１４１は、例えばオペレーティングシステム１１４４、アプリケーションプログラム１１４５、他のプログラムモジュール１１４６及び何らかのプログラムデータ１１４７を格納する。

フロッピドライブ１１５１及びＣＤ−ＲＯＭドライブ１１５５等の取外し可能不揮発性メモリは、取外し可能不揮発性メモリインタフェース１１５０に接続される。例えば、フロッピディスク１１５２はフロッピドライブ１１５１に挿入され、ＣＤ（コンパクトディスク）１１５６はＣＤ−ＲＯＭドライブ１１５５に挿入される。

マウス１１６１及びキーボード１１６２等の入力装置は、ユーザ入力インタフェース１１６０に接続される。

コンピュータ１１１０は、ネットワークインタフェース１１７０によりリモートコンピュータ１１８０に接続可能である。例えばネットワークインタフェース１１７０は、ローカルエリアネットワーク１１７１を介してリモートコンピュータ１１８０に接続される。あるいは、ネットワークインタフェース１１７０はモデム（変復調装置）１１７２に接続され、モデム１１７２はワイドエリアネットワーク１１７３を介してリモートコンピュータ１１８０に接続される。

リモートコンピュータ１１８０は、リモートアプリケーションプログラム１１８５を格納するハードディスク等のメモリ１１８１を備えてもよい。

ビデオインタフェース１１９０はモニタ１１９１に接続される。

出力周辺インタフェース１１９５は、プリンタ１１９６及びスピーカ１１９７に接続される。

図１に示すコンピュータシステムは例示にすぎず、本発明、その用途又は使用を限定することを意図しない。

図１に示すコンピュータシステムは、場合によっては１つ以上の不要な構成要素を除去するか又は１つ以上の更なる構成要素を追加して、スタンドアローンコンピュータ又は装置内の処理システムのどちらかとして実施形態のいずれかに対して実現される。例えばコンピュータシステムは、カメラに適切に内蔵されるコンピュータシステムに適合される。

図２は、実施形態に係るオブジェクト検出方法を示すフローチャートである。図２に示すオブジェクト検出方法において、特定のオブジェクトタイプのクエリオブジェクトが目的画像から検出される。

ステップＳ２１００において、特定のオブジェクトタイプに対する一般的なモデルが事前にオフラインで格納される。この一般的なモデルは、特定のオブジェクトタイプのオブジェクトの一般的な特徴を記述する。更に詳細には、一般的なモデルは、特定のオブジェクトタイプの単一オブジェクト内に同時に存在すると予想される複数の構成要素を記述する。

図３ａ及び図３ｂは、一般的なモデルのいくつかの例を示す。図３ａの例によると、特定のオブジェクトタイプは「哺乳動物の顔」であり、特定のオブジェクトタイプの単一オブジェクト内に同時に存在すると予想される複数の構成要素は、例えば「耳」、「目」、「鼻」、「口」及び「髪」である。図３ｂの例によると、特定のオブジェクトタイプは「車両の正面図」であり、特定のオブジェクトタイプの単一オブジェクト内に同時に存在すると予想される複数の構成要素は、例えば「フロントガラス」、「バックミラー」、「ヘッドライト」及び「ナンバープレート」である。

図３ａ及び図３ｂに示す一般的なモデルの例は、例示的に説明するためのものにすぎない。特定の用途に従って種々の一般的なモデルを設計できる。例えば特定のオブジェクトタイプを「人間の体」と定義することができ、一般的なモデルにより記述される複数の構成要素は、「腕」、「脚」、「頭」及び「胴体」を含むことができる。

実施形態によると、一般的なモデルは事前にオフラインで格納され、一般的なモデルは、クエリオブジェクトが特定のオブジェクトタイプである限り、オンラインで入力されるどんなクエリオブジェクトに対しても使用可能である。本明細書において、クエリオブジェクトは、目的画像から検出されるオブジェクトを意味する。特定のオブジェクトタイプが「哺乳動物の顔」である場合（図３ａに示す例）、クエリオブジェクトは、例えば特定の猫の顔、特定の犬の顔又は特定の人物の顔等である。

ステップＳ２２００において、１つ以上のサンプル画像の入力が受信される。前記１つ以上のサンプル画像の各々は、特定のオブジェクトタイプのオブジェクトである同一のクエリオブジェクトを含む。サンプル画像は、正規化されたサイズを有する画像である。

すなわち、サンプル画像は１つのみであっても複数（すなわち、２つ以上）であってもよい。複数のサンプル画像が存在する場合、サンプル画像は、特定のオブジェクトタイプである同一のクエリオブジェクトを含む異なる画像である。図３ａに示す例の場合、クエリオブジェクトは、例えば特定の猫の顔であり、１つ以上のサンプル画像は、特定の猫の顔を含む１つ以上の画像である。

ステップＳ２３００において、一般的なモデル及び前記１つ以上のサンプル画像を使用して、前記クエリオブジェクトに固有の検出器が作成される。

本ステップにおいて、サンプル画像において提示されたクエリオブジェクトは、一般的なモデルから検出器を作成するために使用される。検出器は、クエリオブジェクトを検出するために特に使用される検出器である。図３ａに示す例の場合、検出器は、特定の猫の顔を特に検出するように、哺乳動物の顔の一般的なモデルと特定の猫の顔を含む１つ以上のサンプル画像とを使用して作成される。

ステップＳ２３００は、クエリオブジェクトが入力された後にオンラインで実行される。

ステップＳ２４００において、作成された前記クエリオブジェクトに固有の検出器を使用して、目的画像から前記クエリオブジェクトを検出する。目的画像は、画像ライブラリ等のデータベースからの画像であってもよく、カメラによりリアルタイムで撮影された画像であってもよく、あるいはビデオからのフレームであってもよい。目的画像は、正規化されたサイズを有する画像であってもよい。

実施形態の方法によると、特定の検出器がクエリオブジェクトを使用することにより一般的なモデルからオンラインで作成されるため、この方法は種々のオブジェクトに対して融通性を有し、事前に登録されたオブジェクトに限定されない。更に、一般的なモデルがオフラインで生成され且つ格納されるため、検出効率は許容可能なものとなる。

本発明の一実施形態によると、サンプル画像受信ステップＳ２２００において、１つ以上のサンプル画像内の各構成要素のラベル付けが受信されるか又は生成される。

各構成要素のラベル付けをユーザにより実行することが可能である。この場合、ラベル付けを容易にするためにユーザインタフェースが提供される。

図４ａ及び図４ｂは、ユーザがサンプル画像内の構成要素にラベル付けできるようにするユーザインタフェースの例を示す。

図４ａに示す例において、各構成要素を表すボタンが画面上に示される。ボタンを選択後、ユーザはサンプル画像内の対応する構成要素を指すか又は丸で囲む。例えばユーザは、構成要素「目」を選択し（図４ａの構成要素ボタンの網掛けは、構成要素が選択されたことを意味する）、サンプル画像内の目の領域を丸で囲む（図４ａにおいて、ユーザによりラベル付けされた丸を破線で示す）。

図４ｂに示す例において、各構成要素を表す丸が画面上に示され、ユーザは、サンプル画像内の対応する構成要素を囲むように丸をドラッグし且つサイズ変更する。図４ｂでは、片耳及び片目がユーザによりラベル付けされたことを示す。

図４ａ及び図４ｂはサンプル画像内の各構成要素のラベル付けのいくつかの例を示すが、本発明はそれらに限定されない。ユーザが介入せずにラベル付けを自動的に生成することも可能である。例えばサンプル画像内の各構成要素にラベル付けするために、一般的なモデル内の分類器を使用することができる。サンプル画像内の各構成要素にラベル付けするために、特定のオブジェクトタイプに対する他の検出器を更に使用することができる。更に、最初にラベル付けを自動的に実行し、その後、ユーザにより手動で調整することもできる。

更に、図４ａ及び図４ｂに示さないが、サンプル画像からのクエリオブジェクト全体（本例では、猫の顔）にラベル付けすることもできる。

ラベル付けされた各構成要素の位置及びサイズは受信され、後で使用するために格納される。レベル付けされたクエリオブジェクトの位置及びサイズも、後で使用するために格納される。

更に、ラベル付けされた画像領域は、後で使用するために対応する構成要素に対して格納される。

図５は、本発明の例示的な一実施形態に係るオブジェクト検出器作成ステップＳ２３００の例示的な処理を示す。

図５に示すように、ステップＳ２３００は、構成要素分類器生成を行うステップＳ２３１０及び構成要素分類器組み合わせを行うステップＳ２３２０を含む。

ステップＳ２３１０において、一般的なモデル内の各構成要素と前記１つ以上のサンプル画像においてラベル付けされた各構成要素との間のマッチングを使用して、前記クエリオブジェクトの各構成要素に固有の複数の構成要素分類器を生成する。

図３ａに示す例を再度参照すると、マッチングは、図３ａに示す構成要素（哺乳動物の目及び耳等）と図４ａ及び図４ｂに示す構成要素（特定の猫の目及び耳等）との間で実行され、マッチングの結果に従って、特定の猫の構成要素に固有の複数の構成要素分類器が生成される。例えば、特定の猫の目に固有の目の分類器が生成され、特定の猫の耳に固有の耳の分類器が生成される。

ステップＳ２３２０において、ステップＳ２３１０で各構成要素に対応して生成された構成要素分類器は組み合わされ、前記クエリオブジェクトに固有の検出器が作成される。

この場合、構成要素分類器を組み合わせる種々の方法を使用できる。

例えば組み合わせは、所定の数又は所定の割合（例えば、約６０％）を上回る構成要素が複数の構成要素分類器により検出される場合にクエリオブジェクトが検出されると作成された前記クエリオブジェクトに固有の検出器が判断するように設計される（これは、候補画像領域が十分な構成要素を含む必要があることを意味する）。例えば全部で７つの構成要素（すなわち、２つの目、２つの耳、１つの口、１つの髪、及び、１つの鼻）が一般的なモデル内に存在する場合、組み合わせは、４つ以上の構成要素が対応する構成要素分類器により候補画像領域内で検出される場合にクエリオブジェクトが候補画像領域内で検出されるように設計される。

一般的なモデルは、複数の構成要素の間の位置関係を更に含むことができる。

図６は、例示的な一実施形態に係る複数の構成要素の間の位置関係を含む一般的なモデルを示す図である。

哺乳動物の顔を例として使用する場合、構成要素の間の位置関係は、例えば目が髪の下に存在すること、鼻が目の下に存在すること及び口が鼻の下に存在すること等である。

この場合、組み合わせは、所定の数又は所定の割合を上回る構成要素が複数の構成要素分類器により検出される（これは、候補画像領域が十分な構成要素を含む必要があることを意味する）のに加えて、検出された構成要素がそれらの間の位置関係を満たす（これは、検出された構成要素が所定の関係を満たす必要があることを意味する）場合にクエリオブジェクトが検出されると前記クエリオブジェクトに固有の検出器が判断するように設計される。そのような組み合わせによると、全ての構成要素が候補画像領域内でそれぞれ検出される場合であっても、関係が不適切である場合（例えば、一方の目が口の下に存在するか又は一方の耳が両目の間に存在する場合）、検出器はクエリオブジェクトが候補画像領域内で検出されると見なさない。

構成要素の間の位置関係を定義する方法、及び、２つの位置関係が互いに一致するかを判断する方法に対して、例えば部分モデル法（例えば、ＰｅｄｒｏＦｅｌｚｅｎｓｚｗａｌｂ他の「ＡＤｉｓｃｒｉｍｉｎａｔｉｖｅｌｙＴｒａｉｎｅｄ，Ｍｕｌｔｉｓｃａｌｅ，ＤｅｆｏｒｍａｂｌｅＰａｒｔＭｏｄｅｌ」、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、２００８．ＣＶＰＲ２００８、２００８年６月２３日〜２８日、１〜８ページを参照）、及び、グラフ相似測定法（例えば、ＬａｕｒａＺａｇｅｒの「ｇｒａｐｈｓｉｍｉｌａｒｉｔｙａｎｄｍａｔｃｈｉｎｇ」、ＴｈｅｓｉｓｆｏｒＭａｓｔｅｒｏｆＳｃｉｅｎｃｅ、ＭａｓｓａｃｈｕｓｅｔｔｓＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ、２００５年を参照）を使用できる。

組み合わせを定義する他の方法も使用できる。例えば、各構成要素分類器から取得された分類スコア（例えば、確率スコア又は信頼度スコア）の合計又は平均値を計算でき、検出器は、合計又は平均値が所定の閾値を上回る場合にクエリオブジェクトが検出されると判定する。すなわち、本明細書において、どんな組み合わせが設計され且つ使用されてもよい。

以下、一般的なモデル及び構成要素分類器生成ステップＳ２３１０のいくつかの例示的な実施形態を説明する。

図７は、例示的な一実施形態に係る構成要素分類器を生成するために一般的なモデルを使用する方法の例を示す。

例示的な本実施形態に係る一般的なモデルは複数の分類器グループを含み、複数の分類器グループの各々は複数の構成要素のうちの１つに対応する。複数の分類器グループの各々は、特定のオブジェクトタイプの対応する構成要素の複数の異なる特徴インスタンスを記述する複数の候補分類器を含む。例えば一般的なモデルは、図７に示すように、目に対する分類器グループ１及び耳に対する分類器グループ２を含む。図に示さないが、一般的なモデルは、鼻に対する分類器グループ３、髪に対する分類器グループ４及び口に対する分類器グループ５を更に含むことができる。本明細書において、異なる特徴インスタンスは、異なる外見を表す異なる特徴値を有する特徴を意味する。例えば異なる特徴インスタンスは、異なる色、異なる形状又は異なるテクスチャ等を含む。

例えば分類器グループ１を例とすると、分類器グループ１は、複数の候補分類器、すなわち、特定の人物の目に対応する候補分類器１１、特定の猫の目に対応する候補分類器１２、並びに特定の犬の目に対応する候補分類器１３を含む。同様に、分類器グループ２は、複数の候補分類器、すなわち、特定の猫の耳に対応する候補分類器２１、特定の犬の耳に対応する候補分類器２２、並びに別の特定の犬の耳に対応する候補分類器２３を含む。

各候補分類器は、対応する訓練サンプルを用いて事前にオフラインで訓練されることにより生成される。例えば目に対する候補分類器は、当該タイプの目の訓練サンプルを用いて事前にオフラインで訓練されることにより生成される。候補分類器を生成するために、多くの特徴及び訓練／学習法を使用できる。例えば既知のＨＯＧ特徴（Histgrams of Oriented Gradients:有向勾配のヒストグラム）及びＳＶＭ（Support Vector Machine:サポートベクトルマシン）法を使用できる。分類器の単純な例は、特徴空間における特徴点の座標として１つ以上の特徴（特徴アレイ）を含む特徴空間を定義し、入力画像に対する分類器により出力される分類スコアは、特徴空間における中心点（例えば、複数の訓練画像により生成された特徴アレイの静的モデルの平均値）と入力画像を記述する特徴点との間の距離ｄの関数ｆ（ｄ）として計算される。関数ｆ（ｄ）は特定の関数に限定されず、距離ｄの増加に伴って狭義に単調減少する関数であれば十分である。距離が計算される前に、各特徴を対応する特徴の分散で除算することにより各特徴を正規化するか、あるいは、特定の用途に従って各特徴に重み付けすることもできる。

目、鼻及び耳等の器官に対する候補分類器を生成する方法に対して、例えば、ＮｉｃｏｌａｓＧｏｕｒｉｅｒＤａｎｉｅｌａＨａｌｌＪａｍｅｓＬ．Ｃｒｏｗｌｅｙの「ＦａｃｉａｌＦｅａｔｕｒｅｓＤｅｔｅｃｔｉｏｎＲｏｂｕｓｔｔｏＰｏｓｅ，ＩｌｌｕｍｉｎａｔｉｏｎａｎｄＩｄｅｎｔｉｔｙ」ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｙｓｔｅｍｓ、ＭａｎａｎｄＣｙｂｅｒｎｅｔｉｃｓ、２００４年、６１７〜６２２ページ、ｖｏｌ．１、ＮｅｌｌｏＣｒｉｓｔｉａｎｉｎｉ及びＪｏｈｎＳｈａｗｅ−Ｔａｙｌｏｒの「ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓａｎｄｏｔｈｅｒｋｅｒｎｅｌ−ｂａｓｅｄｌｅａｒｎｉｎｇｍｅｔｈｏｄｓ」、ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ、２０００．ＩＳＢＮ０−５２１−７８０１９−５（［２］ＳＶＭＢｏｏｋ）、ＣｏｒｉｎｎａＣｏｒｔｅｓ及びＶ．Ｖａｐｎｉｋの「Ｓｕｐｐｏｒｔ−ＶｅｃｔｏｒＮｅｔｗｏｒｋｓ」、ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、２０、２７３〜２９７ページ、１９９５年で提案される方法を使用できる。

上記において分類器のうちのいくつかを例として述べたが、分類器が入力として画像を有し且つ画像が構成要素を含む確率又は信頼度を示す分類スコアを出力する限り、全ての種類の分類器を使用できる。閾値は、分類器が閾値を上回る分類スコアを出力する場合に画像が構成要素を含むと分類器が判定するように設定される。

例示的な本実施形態では、構成要素分類器生成ステップＳ２３１０において、構成要素毎に、前記クエリオブジェクトの構成要素を記述するのに最適な候補分類器が当該構成要素に対する構成要素分類器として対応する分類器グループから選択される。

例えばサンプル画像が図４ａ又は図４ｂに示すサンプル画像である場合、クエリオブジェクト（サンプル画像内に示す猫）の目を記述するのに最適な候補分類器は候補分類器１２（丸い猫の目）であり、候補分類器１２が目に対する構成要素分類器として分類器グループ１から選択される。同様に、候補分類器２１が耳に対する構成要素分類器として分類器グループ２から選択される。このように、分類器グループ毎に、クエリオブジェクト（本例では、特定の猫）の各構成要素を記述するのに最適な候補分類器が選択され、これらの最適な候補分類器はクエリオブジェクトに対する構成要素分類器であると見なされる。

図８は、例示的な一実施形態に係る構成要素分類器生成を行うステップＳ２３１０の例示的な処理を示すフローチャートである。

図８に示すように、構成要素分類器生成のステップＳ２３１０は、分類器スコア取得を行うステップＳ２３１１及び選択を行うステップＳ２３１２を含む。

ステップＳ２３１１において、各分類器グループ内の候補分類器毎に、各サンプル画像においてラベル付けされた対応する構成要素に候補分類器を適用することにより取得された分類スコアが合計又は平均され、候補分類器に対する分類器スコアが取得される。

図７に示す例の場合、２つのサンプル画像（第１のサンプル画像及び第２のサンプル画像）が存在し、候補分類器１１により第１のサンプル画像及び第２のサンプル画像から取得された分類スコアはそれぞれ０．３及び０．２であり、候補分類器１２により第１のサンプル画像及び第２のサンプル画像から取得された分類スコアはそれぞれ０．８及び０．７であり、候補分類器１３により第１のサンプル画像及び第２のサンプル画像から取得された分類スコアはそれぞれ０．４及び０．５であったと定する。この場合、候補分類器に対する分類器スコアは分類スコアの平均で表され、候補分類器１１に対する分類器スコアは（０．３＋０．２）／２＝０．２５であり、候補分類器１２に対する分類器スコアは（０．８＋０．７）／２＝０．７５であり、候補分類器１３に対する分類器スコアは（０．４＋０．５）／２＝０．４５となる。

ステップＳ２３１２において、分類器グループ毎に、最も大きい分類器スコアを有する候補分類器がクエリオブジェクトの対応する構成要素を記述するのに「最適」であると見なされ、対応する構成要素に対する構成要素分類器として選択される。

図７に示す例の場合、候補分類器１２が上記で計算されたように最も大きい分類器スコアを有するため、候補分類器１２がクエリオブジェクトの目を記述するのに最適な構成要素分類器として選択される。

同様に、全ての構成要素は、サンプル画像を使用することにより対応する分類器グループから選択された１つの構成要素分類器を有し、これらの構成要素分類器を組み合わされて、クエリオブジェクトに固有の検出器になる。上述のように、組み合わせは必要に応じて又は適宜設計される。

例示的な本実施形態によると、候補分類器を含む一般的なモデルが事前にオフラインで用意されるため、新規のクエリオブジェクトを検出しようとする度に特定の分類器を生成する必要がなく、従って、検出効率が高い。更に、構成要素毎に複数の候補分類器が存在するため、方法は種々のオブジェクトに対して十分な融通性及び精度を有する。例えば各候補分類器を訓練するために４つの異なるオブジェクトが事前に使用される場合、Ｎ個の分類器グループの各々は４つの候補分類器を有し、これらの候補分類器を組み合わせることにより、理論上は４^N種類の可能な検出器が一般的なモデルから生成される。

図９は、別の例示的な実施形態に係る構成要素分類器を生成するために一般的なモデルを使用する方法の例を示す。

例示的な本実施形態に係る一般的なモデルは、複数の構成要素にそれぞれ対応する複数の粗な分類器を含む。複数の粗な分類器の各々は、特定のオブジェクトタイプの対応する構成要素の対応する一般的な特徴を記述する。一般的な特徴は、色、形状、テクスチャ、ヒストグラムの特徴又はそれらの組み合わせ等を含む。一般的な特徴は、特定のタイプの全オブジェクトを記述するのに適した相対的に広い値の範囲を有する。例えば哺乳動物の目に対する粗な分類器において、目のアスペクト比（縦横比）は０．８〜２の範囲内（又は平均値が１．４であり且つ分散が０．６である統計モデル）であるように定義される。

例示的な本実施形態において、サンプル画像内の各構成要素に自動的にラベル付けするために、粗な分類器を使用できる。

例示的な本実施形態によると、構成要素分類器生成を行うステップＳ２３１０において、構成要素毎に、対応する粗な構成要素分類器により記述される対応する一般的な特徴は、前記クエリオブジェクトの構成要素に従って対応する特定の特徴に更に定義され（改善され）、それにより、対応する特定の特徴を記述する対応する構成要素分類器が対応する粗な分類器から生成される。

図９に示す例の場合、哺乳動物の目に対する一般的な特徴（例えば、０．８〜２のアスペクト比）は、図４ａ及び図４ｂに示す特定の猫に従って特定の特徴に更に定義される（改善される）。例えばアスペクト比が１である目をサンプル画像が示す場合、目に対する特定の特徴（目のアスペクト比）は、０．８〜２より特定する例えば０．８〜１．２（又は平均値が１であり且つ分散が平均値の２０％である統計モデル）に改善される。別の例の場合、アスペクト比が１である目及びアスペクト比が１．２である目を２つのサンプル画像が示す場合、目に対する特定の特徴（目のアスペクト比）は、０．８〜２より特定する例えば０．９〜１．３（又は平均値が（１＋１．２）／２であり且つ分散が（１．２−１）である統計モデル）に改善される。このように、この特定の特徴を有する構成要素分類器は粗な分類器から生成される。

それに加えて又はその代わりに、新規の特徴を追加することにより、一般的な特徴（特徴アレイ）を特定の特徴アレイに改善することができる。例えば目に対する一般的な特徴はアスペクト比の特徴のみを含み、色の特徴及びテクスチャの特徴を追加することにより、一般的な特徴を更に特定する特徴アレイに改善することができる。

同様に、全ての構成要素は、サンプル画像を使用することにより一般的なモデルの対応する粗な分類器から生成された１つの構成要素分類器を有し、これらの構成要素分類器が組み合わされて、クエリオブジェクトに固有の検出器になる。上述のように、組み合わせは必要に応じて又は適宜設計される。

図１０は、更に別の例示的な実施形態に係る構成要素分類器を生成するために一般的なモデルを使用する方法の例を示す。

本実施形態に係る一般的なモデルは、複数の構成要素にそれぞれ対応する複数の不完全な分類器を含む。複数の不完全な分類器の各々は、判定されていない特徴パラメータを有する。

不完全な分類器は一般的な構造を有してもよいが、一般的な構造に対する１つ以上の特徴パラメータは判定されない。例えば分類器は、その特徴として色及びアスペクト比を有するが、中心値（統計モデルの平均値）並びに／又は色及びアスペクト比の分散はまだ判定されていない。

例示的な本実施形態によると、構成要素分類器生成を行うステップＳ２３１０において、構成要素毎に、対応する不完全な分類器の特徴パラメータが前記クエリオブジェクトの構成要素に従って判定され、それにより、特徴パラメータが判定された対応する構成要素分類器が対応する不完全な分類器から形成される。

図１１は、この更に別の例示的な実施形態に係る構成要素分類器生成を行うステップの例示的な処理を示すフローチャートである。

図１１に示すように、構成要素分類器生成を行うステップＳ２３１０は、特徴パラメータ計算を行うステップＳ２３１３及び組み合わせ計算を行うステップＳ２３１４を含む。

ステップＳ２３１３において、構成要素毎に、サンプル画像においてラベル付けされた構成要素に従って対応する不完全な分類器に対する特徴パラメータを判定することにより、１つ以上の各サンプル画像の構成要素に対する特徴パラメータが計算される。

ステップＳ２３１４において、構成要素毎に、１つ以上のサンプル画像の構成要素に対する特徴パラメータを組み合わせることにより、対応する構成要素分類器に対する特徴パラメータが計算される。

本明細書において、特徴パラメータを組み合わせることは、例えば特徴パラメータを平均することである。特徴パラメータを他の方法で組み合わせることもできる。複数の特徴パラメータを組み合わせることから他の値を取得することもできる。例えばサンプル画像からの特徴パラメータ＝２と別のサンプル画像からの特徴パラメータ＝４とを組み合わせることにより、平均値３及び分散２がクエリオブジェクトに対する特徴パラメータとして取得される。従って、組み合わせは何らかの特定の組み合わせに限定されない。

図１０に示す例の場合、目に対する不完全な分類器は、色の特徴及び形状の特徴を含むモデルを含むが、モデルに対するパラメータはまだ判定されていない。例えば２つのサンプル画像が、アスペクト比が１であり且つＲＧＢ色が（５０，１５０，２００）である目、及びアスペクト比が１．２であり且つＲＧＢ色が（３０，１７０，２２０）である目を示す場合、クエリオブジェクトの目のモデルの平均値（特徴空間の中心点）は、２つのサンプル画像のパラメータの平均であるアスペクト比１．１及びＲＧＢ色（４０，１６０，２１０）として判定される。このように、判定されたパラメータを有する構成要素分類器が不完全な分類器から生成される。

同様に、全ての構成要素は、サンプル画像を使用することにより一般的なモデルの対応する不完全な分類器から生成された１つの構成要素分類器を有し、これらの構成要素分類器が組み合わされて、クエリオブジェクトに固有の検出器になる。上述のように、組み合わせは必要に応じて又は適宜設計される。

図１２は、例示的な一実施形態に係るオブジェクト検出を行うステップＳ２４００の例示的な処理を示すフローチャートである。

図１２に示すように、ステップＳ２４００は、候補画像領域判定を行うステップＳ２４１０、第１の検出を行うサブステップＳ２４２０及び第２の検出を行うサブステップＳ２４３０を含む。

ステップＳ２４１０において、スライディングウィンドウを使用することにより、候補画像領域が目的画像において判定される。スライディングウィンドウの初期サイズは、クエリオブジェクトを含むことができる可能な画像の最小サイズであるように判定され、特定の用途に従って判定される。

ステップＳ２４２０において、複数の構成要素のうちの少なくともいくつかが候補画像領域内に存在するかが検出される。例えばステップＳ２４２０において、ステップＳ２３００で生成されたクエリオブジェクトに固有の検出器の構成要素分類器が候補画像領域内の構成要素を検出するために使用される。

その後、ステップＳ２４３０において、ステップＳ２４２０における検出結果に従って、クエリオブジェクトが候補画像領域内で検出されるかが判定される。

尚、クエリオブジェクトに固有の検出器がステップＳ２４００においてクエリオブジェクトを検出するために使用されるため、ステップＳ２４００における特定の検出方法はステップＳ２３００における特定の検出器生成方法に対応する。従って、Ｓ２４１０〜Ｓ２４３０はステップＳ２４００に対する例示的な処理を示すが、ステップＳ２３００で生成されたクエリオブジェクトに固有の検出器が使用される限り、他の検出方法を使用することができる。

図１３は、例示的な一実施形態に係る第１の検出を行うサブステップＳ２４２０及び第２の検出を行うサブステップＳ２４３０の例示的な処理を示すフローチャートである。

図１３に示すように、ステップＳ２４２０は、分割を行うステップＳ２４２１及び構成要素検出を行うステップＳ２４２２を含む。

ステップＳ２４２１において、候補画像領域は複数の部分候補領域に分割される。部分候補領域のサイズは、候補画像領域のサイズ及び最大予想構成要素とクエリオブジェクトとの比率により判定され、特定の用途に従って判定される。例示的な一実施形態によると、ステップＳ２２００において、構成要素に加えてクエリオブジェクト（本例では猫の顔）の位置及びサイズがラベル付けされ、最大予想構成要素とクエリオブジェクトとの比率はステップＳ２２００で実行されたラベル付けから判定される。

ステップＳ２４２２において、複数の構成要素分類器の各々を使用して、対応する構成要素が存在する部分候補領域が１つ以上存在するかを検出する。更に詳細には、構成要素及び部分候補領域毎に、対応する構成要素分類器を使用することにより、構成要素が部分候補領域内に存在するかが検出される。どの部分候補領域がどの構成要素を含むと検出されたかに関する検出結果を格納することができる。

図１３に示すように、ステップＳ２４３０は、ステップＳ２４２０における各構成要素に対する検出結果を組み合わせることにより、前記クエリオブジェクトが候補画像領域内で検出されるか否かを判定する組み合わせ判定を行うステップＳ２４３１を含む。

本明細書において、組み合わせは、クエリオブジェクトに固有の検出器が生成される際に使用される組み合わせに対応してもよい。

例えばステップＳ２４３１において、所定の数又は所定の割合を上回る構成要素が複数の構成要素分類器により検出される場合、クエリオブジェクトが候補画像領域内で検出されると判定される。

別の例の場合、ステップＳ２４３１において、所定の数又は所定の割合を上回る構成要素が複数の構成要素分類器により検出され且つ検出された構成要素がそれらの間の位置関係を満たす場合、クエリオブジェクトが候補画像領域内で検出されると判定される。この場合、構成要素検出ステップＳ２４２２は、部分候補領域が構成要素を含むと検出される場合に候補画像領域における構成要素の位置を判定する構成要素位置判定ステップを更に含む必要がある。構成要素の位置は、種々の方法で判定可能である。例えば構成要素の位置は、部分候補領域の位置に従って判定されるか、あるいは構成要素の中心（幾何学的中心又は重心）の座標を検出することにより判定される。

更に別の例の場合、複数の構成要素分類器により取得された分類スコアの加重和が所定の閾値を上回る場合にクエリオブジェクトが候補画像領域内で検出されるように組み合わせを設計することもできる。

構成要素分類器を組み合わせる種々の方法が検出器を生成するために使用されるため、各構成要素に対する検出結果を組み合わせる対応する方法が使用されてもよく、方法は例示した方法に限定されない。

図１２に示すように、ステップＳ２４００は、候補画像領域更新を行うステップＳ２４４０及びオブジェクト場所特定を行うステップＳ２４５０を更に含んでもよい。

所定の条件が満たされるか否かが判断される。所定の条件が満たされない場合、ステップＳ２４４０へ進み、候補画像領域が更新される。その後、ステップＳ２４１０へ戻り、候補画像領域判定のステップＳ２４１０、第１の検出のサブステップＳ２４２０及び第２の検出のサブステップＳ２４３０が更新された候補画像領域に対して実行される。

本明細書において、所定の条件は特定の用途に従って任意に定義される。例えば所定の条件は、候補画像領域が最大サイズ（例えば、目的画像のサイズ）に達していることである。別の例の場合、所定の条件は、十分な数の候補画像領域がクエリオブジェクトを含むものとして検出されていることである。

候補画像領域の更新は、スライディングウィンドウを移動することにより実行される。それに加えて、スライディングウィンドウが目的画像全体を横断した場合、スライディングウィンドウは初期位置に移動され且つサイズ変更される（例えば、サイズを所定量増分される）。

所定の条件が満たされる場合、ステップＳ２４５０へ進み、クエリオブジェクトが検出される候補画像領域に従って、クエリオブジェクトの場所が目的画像において判定される。

２つ以上の候補画像領域がクエリオブジェクトを含むと検出されることが可能である。この場合、クエリオブジェクトの場所（中心位置及びサイズ）は、例えばクエリオブジェクトを含むものと検出される複数の候補画像領域の中心位置及びサイズを平均することにより判定される。

図１２を参照して説明する例示的な処理を用いる場合、クエリオブジェクトが検出される場合に目的画像におけるクエリオブジェクトの場所も判定される。

図１４は、本発明の例示的な一実施形態に係るオブジェクト検出装置２０００の例示的な構成を示すブロック図である。

オブジェクト検出装置２０００は、一般的なモデルを事前にオフラインで格納するように構成された一般的なモデル格納ユニット２１００と、ここで、一般的なモデルは特定のオブジェクトタイプの単一オブジェクト内に同時に存在すると予想される複数の構成要素を記述するものである；１つ以上のサンプル画像の入力を受信するように構成されたサンプル画像受信ユニット２２００と、ここで、１つ以上のサンプル画像の各々は特定のオブジェクトタイプのオブジェクトである同一のクエリオブジェクトを含む；一般的なモデル及び前記１つ以上のサンプル画像を使用して前記クエリオブジェクトに固有の検出器を作成するように構成されたオブジェクト検出器作成ユニット２３００と；作成された前記クエリオブジェクトに固有の検出器を使用して目的画像から前記クエリオブジェクトを検出するように構成されたオブジェクト検出ユニット２４００とを備える。

ユニット２１００、２２００、２３００及び２４００はそれぞれ、ステップＳ２１００、Ｓ２２００、Ｓ２３００及びＳ２４００の処理を実行するように構成される。

例示的な一実施形態によると、サンプル画像受信ユニット２２００は、１つ以上のサンプル画像内の各構成要素のラベル付けを受信するか又は生成するように更に構成される。この場合、オブジェクト検出器作成ユニット２３００は、一般的なモデル内の各構成要素と前記１つ以上のサンプル画像においてラベル付けされた各構成要素との間のマッチングを使用して前記クエリオブジェクトの各構成要素に固有の複数の構成要素分類器を生成するように構成された構成要素分類器生成ユニット２３１０を備えてもよい。

オブジェクト検出器作成ユニット２３００は、各構成要素に対応して生成された構成要素分類器の組み合わせにより前記クエリオブジェクトに固有の検出器を作成するように構成された構成要素分類器組み合わせユニット２３２０を更に備えてもよい。

本発明の例示的な一実施形態によると、オブジェクト検出ユニット２４００は、スライディングウィンドウを使用して目的画像内の候補画像領域を判定するように構成された候補画像領域判定ユニット２４１０と、複数の構成要素のうちの少なくともいくつかが候補画像領域内に存在するかを検出するように構成された第１の検出サブユニット２４２０と、第１の検出サブユニットにおける検出結果に従ってクエリオブジェクトが候補画像領域内で検出されるかを判定するように構成された第２の検出サブユニット２４３０とを備えてもよい。

本発明の例示的な一実施形態によると、オブジェクト検出ユニット２４００は、所定の条件が満たされない場合に候補画像領域を更新するように構成された候補画像領域更新ユニット２４４０と、更新された候補画像領域に対して機能する候補画像領域判定ユニット、第１の検出サブユニット及び第２の検出サブユニットと、クエリオブジェクトが検出される候補画像領域に従って目的画像における前記クエリオブジェクトの場所を判定するように構成されたオブジェクト場所特定ユニット２４５０とを更に備えてもよい。

いくつかの可能な実施形態によると、構成要素分類器生成ユニット２３１０は、ステップＳ２３１０において実行される処理（例えば、ステップＳ２３１１及びＳ２３１２における処理、あるいはステップＳ２３１３及びＳ２３１４における処理）を実行するように構成される。

例えば構成要素分類器生成ユニット２３１０は、各分類器グループ内の候補分類器毎に、各サンプル画像においてラベル付けされた対応する構成要素に候補分類器を適用することにより取得された分類スコアを合計又は平均して、候補分類器に対する分類器スコアを取得するように構成された分類器スコア取得ユニット２３１１と、分類器グループ毎に、最も大きい分類器スコアを有する候補分類器を対応する構成要素に対する構成要素分類器として選択するように構成された選択ユニット２３１２とを備えてもよい。

別の例の場合、構成要素分類器生成ユニット２３１０は、構成要素毎に、サンプル画像においてラベル付けされた構成要素に従って対応する不完全な分類器に対する特徴パラメータを判定することにより、１つ以上の各サンプル画像の構成要素に対する特徴パラメータを計算するように構成された特徴パラメータ計算ユニット２３１３と、構成要素毎に、１つ以上のサンプル画像の構成要素に対する特徴パラメータを組み合わせることにより、対応する構成要素分類器に対する特徴パラメータを計算するように構成された組み合わせ計算ユニット２３１４とを備える。

更に、第１の検出サブユニット２４２０は、ステップＳ２４２０において実行される処理（例えば、ステップＳ２４２１及びＳ２４２２における処理）を実行するように構成される。

例えば第１の検出サブユニット２４２０は、候補画像領域を複数の部分候補領域に分割するように構成された分割ユニット２４２１と、複数の構成要素分類器の各々を使用して、対応する構成要素が存在する部分候補領域が１つ以上存在するかを検出するように構成された構成要素検出ユニット２４２２とを備える。

更に、第２の検出サブユニット２４３０は、ステップＳ２４３０において実行される処理（例えば、ステップＳ２４３１における処理）を実行するように構成される。例えば第２の検出サブユニット２４３０は、第１の検出サブユニットにおける各構成要素に対する検出結果を組み合わせることにより、前記クエリオブジェクトが候補画像領域内で検出されるか否かを判定するように構成された組み合わせ判定ユニット２４３１を備える。

更に、組み合わせ判定ユニット２４３１は、所定の数又は所定の割合を上回る構成要素が複数の構成要素分類器により検出される場合にクエリオブジェクトが候補画像領域内で検出されると判定するように構成されたユニットを備える。

上述のユニット及び以下に説明するユニットは、本開示において説明する処理を実現する例示的且つ／又は好適なモジュールである。モジュールは、ハードウェアユニット（フィールドプログラマブルゲートアレイ、デジタル信号プロセッサ又は特定用途向け集積回路等）及び／又はソフトウェアモジュール（コンピュータ可読プログラム等）である。種々のステップを実現するモジュールの全てを上述したわけではない。しかし、特定の処理を実行するステップが存在する場合、同一の処理を実行する対応する機能モジュール又はユニット（ハードウェア及び／又はソフトウェアにより実現される）が存在する。説明したステップ及びそれらのステップに対応するユニットの全ての組み合わせによる技術的解決策は、それらが構成する技術的解決策が完全であり且つ適用可能である限り、本出願の開示に含まれる。

更に、種々のユニットで構成される上記の装置は、機能モジュールとしてコンピュータ等のハードウェア装置に組み込み可能である。当然、コンピュータは、これらの機能モジュールに加えて他のハードウェア又はソフトウェア構成要素を有する。

実施形態によると、一般的なモデルが事前にオフラインで生成され且つ格納されるため、新規のクエリオブジェクトを検出しようとする度に検出器に対するモデル全体を生成する必要がなく、従って、検出効率が向上される。更に、特定の検出器は、特定のクエリオブジェクトを使用することにより一般的なモデルからオンラインで作成されるため、方法は種々のオブジェクトに対して融通性を有し且つ正確であり、事前に登録されるオブジェクトに限定されない。

本発明は、多くの用途で使用可能である。本発明に係るオブジェクト検出装置２０００は、例えば撮像装置に適用可能である。

図１５は、例示的な一実施形態に係る撮像装置３０００の例示的な構成を示すブロック図である。

図１５に示すように、撮像装置３０００は、例えば撮影用光学素子を含む写真光学系３１００と、ＣＣＤセンサ又はＣＭＯＳセンサ等の撮影センサを含む画像を形成するために撮影を実行するように構成された撮影ユニット３２００と、ユーザがクエリオブジェクトを入力又は選択し且つ形成された画像内のクエリオブジェクトを検出できるようにするように構成される上述のオブジェクト検出装置２０００と、検出されたクエリオブジェクトに従って撮影制御を実行するように構成された撮影制御ユニット３３００とを備える。

本発明の例示的な一実施形態によると、撮影制御は、クエリオブジェクトが検出される場合に撮影解像度を上げることを含む。このように、撮像装置は、取り込まれた画像内に特定のオブジェクトが存在しない場合、省エネモード（解像度が低い）で動作してもよい。

本発明の別の例示的な実施形態によると、撮影制御は、クエリオブジェクトが検出される場合に、写真光学系３１００の焦点を検出されたクエリオブジェクトに合わせることを含む。このように、撮像装置３０００は、注目オブジェクトに焦点を合わせるように構成される。

本発明の更に別の例示的な実施形態によると、撮影制御には、クエリオブジェクトが検出される場合に、形成される画像内にクエリオブジェクトが存在し続けるように写真光学系３１００に検出されたクエリオブジェクトを追跡させ続けることを含む。例示的な本実施形態において、写真光学系３１００は、写真光学系３１００が撮影制御に従って自動的に回転できるようにする機械構造を用いて構成される。このように、撮像装置３０００は、注目オブジェクトを追跡し続け、可能な限り多くの注目オブジェクトの画像を取得する。

本発明の方法及び装置を多くの方法で実行することができる。例えばソフトウェア、ハードウェア、ファームウェア又はそれらの何らかの組み合わせを介して本発明の方法及び装置を実行することができる。上述の方法のステップの順序は例示であることを意図するにすぎず、特に指示がない限り、本発明の方法のステップは特に上述された順序に限定されない。更に、いくつかの実施形態において、本発明は、本発明に係る方法を実現する機械可読命令を含む記録媒体に記録されたプログラムとして更に実現されてもよい。従って、本発明は、本発明に係る方法を実現するプログラムを格納する記録媒体を更に範囲に含む。

本発明のいくつかの特定の実施形態を例を用いて詳細に説明したが、上記の例は例示であることを意図するにすぎず、本発明の範囲を限定するものではないことが当業者には理解されるべきである。上記の実施形態は本発明の趣旨の範囲から逸脱せずに変更可能であることが当業者には理解されるべきである。本発明の範囲は、添付の特許請求の範囲により定義される。

Claims

特定のオブジェクトタイプに対する一般的なモデルを事前に格納する装置により実行されるオブジェクト検出方法であって、ここで、前記一般的なモデルは、前記特定のオブジェクトタイプのオブジェクト内に同時に存在すると予想される複数の構成要素を記述する、
１つ以上のサンプル画像を受信するサンプル画像受信ステップと、ここで、前記１つ以上のサンプル画像の各々は前記特定のオブジェクトタイプの同一のクエリオブジェクトを含む；
前記一般的なモデル及び前記１つ以上のサンプル画像を使用して、前記クエリオブジェクトに固有の検出器を作成するオブジェクト検出器作成ステップと、
前記作成された前記クエリオブジェクトに固有の検出器を使用して、目的画像から前記クエリオブジェクトを検出するオブジェクト検出ステップと、
を備えることを特徴とするオブジェクト検出方法。
前記サンプル画像受信ステップにおいては、前記１つ以上のサンプル画像内の各構成要素のラベルが更に受信されるか又は生成され、
前記オブジェクト検出器作成ステップは、
前記一般的なモデル内の各構成要素と前記１つ以上のサンプル画像においてラベル付けされた各構成要素との間のマッチングを使用して、前記クエリオブジェクトの各構成要素に固有の複数の構成要素分類器を生成する構成要素分類器生成ステップを備えることを特徴とする請求項１に記載のオブジェクト検出方法。
前記一般的なモデルは、各々が前記複数の構成要素に対応する複数の分類器グループを含む、ここで、前記複数の分類器グループの各々は、前記特定のオブジェクトタイプの前記対応する構成要素の複数の異なる特徴インスタンスを記述する複数の候補分類器を含み、
前記構成要素分類器生成ステップにおいて、構成要素毎に、前記クエリオブジェクトの前記構成要素を記述するのに最適な候補分類器が前記構成要素分類器として前記対応する分類器グループから選択されることを特徴とする請求項２に記載のオブジェクト検出方法。
前記構成要素分類器生成ステップは、
各分類器グループ内の候補分類器毎に、各サンプル画像においてラベル付けされた前記対応する構成要素に前記候補分類器を適用することにより取得された分類スコアを合計又は平均して、前記候補分類器に対する分類器スコアを取得する分類器スコア取得ステップと、
分類器グループ毎に、最も大きい分類器スコアを有する候補分類器を前記対応する構成要素に対する前記構成要素分類器として選択する選択ステップと、
を備えることを特徴とする請求項３に記載のオブジェクト検出方法。
前記一般的なモデルは、前記複数の構成要素にそれぞれ対応する一般的な特徴を記述する複数の粗な分類器を有する、ここで、前記複数の粗な分類器のそれぞれは前記特定のオブジェクトタイプの前記対応する構成要素に対応する一般的な特徴を記述する；
前記構成要素分類器生成ステップにおいて、構成要素毎に、前記クエリオブジェクトの前記構成要素に従って前記粗な構成要素分類器により記述される前記対応する一般的な特徴を対応する特定の特徴に更に定義することにより、前記対応する特定の特徴を記述する対応する構成要素分類器が前記対応する粗な分類器から生成されることを特徴とする請求項２に記載のオブジェクト検出方法。
前記一般的なモデルは、前記複数の構成要素にそれぞれ対応する複数の不完全な分類器を含む、ここで複数の不完全な分類器の各々は判定されていない特徴パラメータを有する、
前記構成要素分類器生成ステップにおいて、構成要素毎に、前記クエリオブジェクトの前記構成要素に従って前記不完全な分類器の前記特徴パラメータを判定することにより、前記特徴パラメータが判定された対応する構成要素分類器が前記対応する不完全な分類器から形成されることを特徴とする請求項２に記載のオブジェクト検出方法。
前記構成要素分類器生成ステップは、
構成要素毎に、前記サンプル画像においてラベル付けされた前記構成要素に従って前記不完全な分類器に対する前記特徴パラメータを判定することにより、前記１つ以上の各サンプル画像の前記構成要素に対する前記特徴パラメータを計算する特徴パラメータ計算ステップと、
構成要素毎に、前記１つ以上のサンプル画像の前記構成要素に対する前記特徴パラメータを組み合わせることにより、前記対応する構成要素分類器に対する前記特徴パラメータを計算する組み合わせ計算ステップと、
を備えることを特徴とする請求項６に記載のオブジェクト検出方法。
前記オブジェクト検出器作成ステップは、前記各構成要素に対応して生成された前記構成要素分類器の組み合わせにより前記クエリオブジェクトに固有の前記検出器を作成する構成要素分類器組み合わせステップを更に備えることを特徴とする請求項２に記載のオブジェクト検出方法。
前記組み合わせは、所定の数又は所定の割合を上回る構成要素が前記複数の構成要素分類器により検出される場合に、前記クエリオブジェクトが検出されると前記クエリオブジェクトに固有の前記検出器が判断するような組み合わせであることを特徴とする請求項８に記載のオブジェクト検出方法。
前記一般的なモデルは、前記複数の構成要素の間の位置関係を更に含み、
前記組み合わせは、所定の数又は所定の割合を上回る構成要素が前記複数の構成要素分類器により検出され且つ前記検出された構成要素がそれらの間の前記位置関係を満たす場合に前記クエリオブジェクトが検出されると前記クエリオブジェクトに固有の前記検出器が判断するような組み合わせであることを特徴とする請求項８に記載のオブジェクト検出方法。
前記オブジェクト検出ステップは、
スライディングウィンドウを使用して、前記目的画像内の候補画像領域を判定する候補画像領域判定ステップと、
前記複数の構成要素のうちの少なくともいくつかが前記候補画像領域内に存在するかを検出する第１の検出サブステップと、
前記第１の検出サブステップにおける前記検出結果に従って、前記クエリオブジェクトが前記候補画像領域内で検出されるかを判定する第２の検出サブステップと、
を備えることを特徴とする請求項２に記載のオブジェクト検出方法。
前記第１の検出サブステップは、
前記候補画像領域を複数の部分候補領域に分割する分割ステップと、
前記複数の構成要素分類器の各々を使用して、前記対応する構成要素が存在する前記部分候補領域が１つ以上存在するかを検出する構成要素検出ステップとを備え、
前記第２の検出サブステップは、
前記第１の検出サブステップにおける前記各構成要素に対する前記検出結果を組み合わせることにより、前記クエリオブジェクトが前記候補画像領域内で検出されるか否かを判定する組み合わせ判定ステップを備えることを特徴とする請求項１１に記載のオブジェクト検出方法。
前記組み合わせ判定ステップは、所定の数又は所定の割合を上回る構成要素が前記複数の構成要素分類器により検出される場合に前記クエリオブジェクトが前記候補画像領域内で検出されると判定することを含むことを特徴とする請求項１２に記載のオブジェクト検出方法。
前記一般的なモデルは、前記複数の構成要素の間の位置関係を更に含み、
前記構成要素検出ステップは、部分候補領域が構成要素を含むと検出される場合に前記候補画像領域における前記構成要素の位置を判定する構成要素位置判定ステップを含み、
前記組み合わせ判定ステップは、所定の数又は所定の割合を上回る構成要素が前記複数の構成要素分類器により検出され且つ前記検出された構成要素がそれらの間の前記位置関係を満たす場合に前記クエリオブジェクトが前記候補画像領域内で検出されると判定するステップを含むことを特徴とする請求項１２に記載のオブジェクト検出方法。
前記オブジェクト検出ステップは、
所定の条件が満たされない場合に前記候補画像領域を更新し、前記更新された候補画像領域において、前記候補画像領域判定ステップ、前記第１の検出サブステップ及び前記第２の検出サブステップを実行する候補画像領域更新ステップと、
前記クエリオブジェクトが検出される前記候補画像領域に従って、前記目的画像における前記クエリオブジェクトの場所を判定するオブジェクト場所特定ステップと、
を更に備えることを特徴とする請求項１１に記載のオブジェクト検出方法。
オブジェクト検出装置であって、
特定のオブジェクトタイプに対する一般的なモデルを事前に格納するように構成された一般的なモデル格納ユニットと、ここで、前記一般的なモデルは前記特定のオブジェクトタイプのオブジェクト内に同時に存在すると予想される複数の構成要素を記述する、
前記特定のオブジェクトタイプの同一のクエリオブジェクトを各々が含む１つ以上のサンプル画像を受信するように構成されたサンプル画像受信ユニットと、
前記一般的なモデル及び前記１つ以上のサンプル画像を使用して前記クエリオブジェクトに固有の検出器を作成するように構成されたオブジェクト検出器作成ユニットと、
前記作成された前記クエリオブジェクトに固有の検出器を使用して目的画像から前記クエリオブジェクトを検出するように構成されたオブジェクト検出ユニットと、
を備えることを特徴とするオブジェクト検出装置。
コンピュータにロードされ且つ前記コンピュータにより実行される場合に請求項１記載の方法の各ステップを前記コンピュータに実行されるプログラムを格納することを特徴とする非一時的なコンピュータ可読記憶媒体。
撮像光学系と、
撮像して画像を形成する撮像ユニットと、
ユーザがクエリオブジェクトを入力又は選択することを許容し、かつ、前記形成された画像内の前記クエリオブジェクトを検出できるようにするように構成される請求項１６に記載のオブジェクト検出装置と、
前記検出されたクエリオブジェクトに従って撮影制御を実行するように構成された撮影制御ユニットと、
を備えることを特徴とする撮像装置。
前記撮影制御は、前記クエリオブジェクトが検出される場合に撮影解像度を上げることを含むことを特徴とする請求項１８に記載の撮像装置。
前記撮影制御は、前記クエリオブジェクトが検出される場合に、前記写真光学系の焦点を前記検出されたクエリオブジェクトに合わせることを含むことを特徴とする請求項１８に記載の撮像装置。
前記撮影制御は、前記クエリオブジェクトが検出される場合に、前記形成される画像内に前記クエリオブジェクトが存在し続けるように前記写真光学系に前記検出されたクエリオブジェクトを追跡させ続けることを含むことを特徴とする請求項１８に記載の撮像装置。