JP6977624B2

JP6977624B2 - 物体検出装置、物体検出方法、およびプログラム

Info

Publication number: JP6977624B2
Application number: JP2018040927A
Authority: JP
Inventors: 俊酒井; 雅彦小川
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2021-12-08
Anticipated expiration: 2038-03-07
Also published as: CN111699509A; WO2019171779A1; JP2019159391A; US11494906B2; US20200394797A1; DE112019001138T5; CN111699509B

Description

本発明は、画像から物体を検出する技術に関する。

従来より、画像から人の顔などの所定の物体を検出する技術が知られている（特許文献１、特許文献２）。近年、深層学習（ディープラーニング）の登場により、画像検出精度が飛躍的に向上している。しかし、深層学習は計算量が従来手法に比べて格段に多い。

このように深層学習は計算負荷が高いため、モバイルデバイスのような組込機器には適さないとみなされていた。近年の技術革新を考慮しても、組込機器において深層学習アルゴリズムを実行することは容易ではない。このような状況を考慮すると、組込機器のような計算資源の乏しい機器においても動作可能な、高速かつ高精度な物体検出アルゴリズムが求められる。

特開２００７−１３３８４０号公報特開２００８−１０２６１１号公報

計算資源の乏しい機器においても高速かつ高精度な物体検出を行うために、まず計算負荷が少ないアルゴリズム（軽量アルゴリズム）で検出を行い、検出された領域のみを対象として深層学習のような計算負荷は多いが高精度なアルゴリズム（高精度アルゴリズム）で検出を行うことが考えられる。この際、軽量アルゴリズムを用いた検出において多くの領域が検出されることへの対策として、これら複数の領域を統合して、統合後の領域に対して高精度アルゴリズムでの検出を行うことも考えられる。このような手法によれば、高精度アルゴリズムのみを用いた検出と同様の精度で、それよりも高速に検出が行える。

しかしながら、画像中に検出対象物が多数含まれる場合には、統合領域の数が多くなるため十分な高速化が達成できない。たとえば、集合写真を対象として顔検出を行う場合、統合領域の数は画像内の人物の数と同じまたはそれ以上となり、これら全てを対象に高精度アルゴリズムによる検出を行うと計算時間が多大になってしまう。

このような問題を考慮して、本発明は、高速かつ高精度な物体検出が可能な技術を提供することを目的とする。

本発明は、互いに異なる検出アルゴリズムによって画像から所定の物体を検出する第１検出手段および第２検出手段を有し、第１検出手段によって検出された候補領域を統合し、統合後の候補領域から選択された候補領域に対してのみ第２検出手段による物体検出を実行する。対象物は任意の物体であって構わないが、人の顔や身体などの人体部位、動物あるいはその部位、自動車、商品が例として挙げられる。

より具体的には、本発明の一態様に係る物体検出装置は、画像から対象物を検出する物体検出装置であり、第１検出手段、第２検出手段、領域統合手段、選択手段を備える。第１検出手段及び第２検出手段は、いずれも画像から所定の対象物を検出するように構成さ
れるが、それぞれの検出アルゴリズムは異なる。ここで、第２検出手段の検出アルゴリズムは、第１検出手段と比較して、検出精度が高いが計算量が多い検出アルゴリズムであってよい。

第１検出手段は、画像から対象物が存在すると推定される候補領域を複数検出するように構成される。領域統合手段は、これら複数の候補領域に基づいて、１つまたは複数の統合領域を決定するように構成される。選択手段は、領域統合手段によって決定された統合領域の中から、少なくとも一部を選択する。第２検出手段は、選択手段によって選択された統合領域を対象として、物体検出を行うように構成される。

このような構成によれば、統合領域に限定して第２検出手段による物体検出を行えるので、処理の高速化が実現できると共に、第２検出手段の検出精度を維持できる。特に、第２検出手段の処理対象とする統合領域の数を、選択手段によって絞り込んでいるため、画像中に多数の対象物が含まれ、したがって多数の統合領域が決定される場合であっても、処理速度の低下を抑制することができる。すなわち、本発明に係る物体検出装置によれば、高速かつ高精度な物体認識が実現できる。

本態様に係る物体検出装置は、対象物の追跡を行う追跡手段をさらに備えるように構成することで、動画像から対象物を検出する際に好適に利用できる。すなわち、前フレームまでに対象物であると確定された物体あるいは領域については追跡手段を用いて追跡を行い、その他の領域については第１検出手段、領域統合手段、選択手段、および第２検出手段を用いた検出を行うように構成してもよい。ここで、「前フレームまでに対象物であると確定された物体（領域）」とは、前フレームに対する処理において、第２検出手段によって対象物として検出された物体（領域）と、追跡手段による追跡によって検出された物体（領域）の両方を含む。

この場合、追跡手段は、前フレームにおいて対象物であると確定された物体を対象として、現フレームにおける追跡処理を行うとよい。また、選択手段は、前フレームにおいて対象物であると確定された領域以外に位置する少なくとも一部の統合領域を選択するとよい。このようにすれば、各フレームで第２検出手段を用いて新たに検出する顔の数を制限しても、追跡手段による顔検出が行える。したがって、画像中に多数の対象物が存在する場合であっても、構図に変化がなければ、第２検出手段によって対象物として検出される対象物の数が増え、数フレーム後には全ての対象物が追跡手段によって追跡されることが期待される。また、各フレームでの第２検出手段の処理対象の統合領域には制限がかかっているので、各フレームでの計算量が過大となることを防止できる。

選択手段は、所定数以内の統合領域を選択するように構成されれば、その選択基準は特に限定されない。たとえば、選択手段は、前フレームにおいて前記対象物であると確定された領域以外に位置する統合領域の中から、信頼度が閾値以上の所定数個の統合領域を選択してもよい。ここでの信頼度は、統合領域に対象物が含まれている確率に関連する値である。また、選択手段は、前フレームにおいて前記対象物であると確定された領域以外に位置する統合領域の中から、サイズが大きい方から所定数個の統合領域を選択してもよい。信頼度やサイズ以外にも、統合領域に含まれる対象物の属性（たとえば、対象物が人物であれば、年齢や性別など）を考慮してもよいし、いくつの候補領域を統合して得られた統合領域であるかを考慮してもよい。また、これら複数の基準を組み合わせて基準にしたがって統合領域を選択してもよい。また、前フレームにおいて第２検出手段による検出が行われた場合には、その信頼度も考慮してもよい。たとえば、前フレームにおける第２検出手段での検出の信頼度が低ければ、現フレームにおいて同じ統合領域を選択しないようにしたり、選択の優先度を下げるようにしてもよい。選択手段は、常に「所定数」個の統合領域を選択する必要はなく、条件を満たす統合領域が所定数個存在しなければ、条件を
満たす統合領域のみを選択すればよい。

本態様において、選択手段は、前フレームにおける前記第２検出手段による検出スコアも考慮して、統合領域の選択を行ってもよい。第１検出手段によれば検出スコア（信頼度）が高く算出されるが、第２検出手段によれば検出スコアが低く算出されるような領域が存在しうる。前フレームにおける第２検出手段による検出スコアを考慮して選択を行うことで、このような場合に同じ統合領域が選択されることを防止できる。なお、直近１フレームだけでなくさらに前のフレームにおける検出スコアを考慮してもよく、この際には時間的に応じた重みを付けて考慮することが好ましい。また、フレーム間での領域の類似度をさらに考慮して、選択を行ってもよい。

本態様において、選択手段は、最終的に「前フレームにおいて対象物であると確定された領域以外に位置する少なくとも一部の統合領域」を選択できればよい。これを実現するための一手法は、選択手段に入力される統合領域に「前フレームにおいて対象物であると確定された領域に位置する統合領域」が含まれないようにすることである。別の手法は、選択手段が、入力された統合領域の中から、「前フレームにおいて対象物であると確定された領域に位置する統合領域」を除外するようにすることである。

前者の手法を実現するために、本態様に係る物体検出装置は、前フレームにおいて前記対象物であると確定された物体の領域に対応する現フレーム画像の領域に対して、当該領域が前記物体として検出されないような前処理を施す前処理部をさらに備えてもよい。このような前処理の例として、領域を所定のパターン（たとえば、単色の塗り潰しパターン）で置き換える処理が考えられる。別の例として、フィルタ処理も想定されるが、処理負荷はできるだけ少ないものが好ましい。このような前処理を施すことで、前フレームにおいて前記対象物であると確定された物体の領域からは、第１検出手段によって対象物が検出されなくなるので、選択手段に入力される統合領域の中に上記の領域は含まれなくなる。

後者の手法を実現するために、本態様に係る物体検出装置は、前フレーム画像において前記対象物であると確定された領域の位置を記憶する記憶手段をさらに備えてもよい。このような記憶手段を参照することで、選択手段は、記憶手段に記憶された位置にある統合領域を選択対象から除外できる。

領域統合手段は、第１検出手段が検出した候補領域を統合すれば、その具体的な処理内容は特に限定されない。候補領域の中から代表領域を決定し、代表領域から所定距離以内にあるその他の候補領域を統合してもよい。代表領域の決定の際に、検出スコアや領域サイズを基準とすれば、統合領域内に対象物が存在する確率が高くできる。また、統合の際に領域サイズの類似度や対象物の属性の類似度を考慮すると、１つの統合領域に１つの対象物のみが含まれるように統合できる。

なお、本発明は、上記手段の少なくとも一部を含む物体検出装置として捉えることができる。また、本発明は、物体検出方法として捉えることもできる。また、これらの方法の各ステップをコンピュータに実行させるためのコンピュータプログラムや、当該プログラムを非一時的に記憶したコンピュータ読取可能な記憶媒体として捉えることもできる。上記構成および処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。

本発明によれば、高速かつ高精度な物体検出が可能となり、計算資源が乏しい計算機においても高精度な物体検出が利用できる。

図１は、本発明の適用例の構成を示すブロック図である。図２は、第１の実施形態に係る顔検出装置のハードウェア構成を示す図である。図３は、台の実施形態に係る顔検出装置の構成を示すブロック図である。図４Ａおよび図４Ｂは、第１検出部１１２により顔検出処理を説明する図である。図５Ａおよび図５Ｂは、第１検出部１１２により顔検出処理を説明する図である。図６は、領域選択部１１４による領域統合処理の流れを示すフローチャートである。図７Ａおよび図７Ｂは、領域統合処理における統合領域決定の例を示すフローチャートである。図８は、領域統合処理の例を説明する図である。図９は、領域選択部１１４による領域選択処理の流れを示すフローチャートである。図１０は、第１の実施形態に係る顔検出装置による顔検出処理の流れを示すフローチャートである。図１１は、第１の実施形態に係る顔検出装置による顔検出処理を説明する図である。図１２は、第１の実施形態の変形例に係る顔検出装置の構成を示すブロック図である。図１３Ａおよび図１３Ｂは、第１の実施形態の変形例における前処理の例を説明する図である。

（適用例）
本発明の物体検出装置が検出対象とする物体は任意の物体であって構わないが、ここでは顔検出に適用した適用例について説明する。Haar-like特徴量とAdaboostを用いた第１
顔検出部と、深層学習を用いた第２顔検出部とを有する顔検出装置において、次のような検出方法が考えられる。まず、入力画像全体に対して第１顔検出部による検出を行って顔が存在しそうな領域（顔候補領域）を決定する。第１顔検出部による顔候補領域は多数求められるので、同じ顔に対応する複数の領域を統合して、統合された領域に対してのみ第２顔検出部による顔検出を行う。これにより、深層学習を用いた高精度な顔検出を短時間で実現可能となる。しかしながら、入力画像に多数の人物が含まれている場合は、統合領域の数が多くなるので十分な高速化が達成できない。

図１は、本発明が適用された顔検出装置１０の構成を示すブロック図である。顔検出装置１０は、第１検出部１２、領域統合部１３、領域選択部１４、第２検出部１５を有する。これらの各部は、ＣＰＵがプログラムを実行することで実装されてもよいし、ＡＳＩＣ等の専用のロジック回路により実装されてもよい。

画像入力部１１は、顔検出の対象とする画像データを取得する。入力画像は、静止画像であってもよいし、動画像であってもよい。

第１検出部１２は、比較的高速で軽量なアルゴリズムにより顔検出を行う。たとえば、Haar-like特徴量とAdaboostを用いたアルゴリズムが採用可能である。第１検出部１１２
によって顔が存在すると推定される領域を、以下では顔候補領域と称する。一般に、第１検出部１１２は、１つの顔の周辺に対して複数の顔候補領域を検出する。第１検出部１１
２は、本発明の第１検出手段の一例である。第１検出部１２は、例えば、特徴量として、HoG (Histgram of Gradient)特徴量、SIFT特徴量、SURF特徴量など任意の特徴量を用いることができる。また、学習手法も、Adaboost以外のboosting手法や、SVM (Support Vector Machine)、ニューラルネットワーク、決定木学習などの任意の学習手法を用いることができる。

領域統合部１１３は、第１検出部１１２によって検出された顔候補領域を統合する。上述のように第１検出部１１２は１つの顔の周辺に対して複数の顔候補領域を検出するので、領域統合部１１３は、１つの顔に対応すると推定される複数の顔候補領域を統合して統合領域を生成する。領域統合部１１３は、本発明の領域統合手段の一例である。

領域選択部１１４は、領域統合部１１３によって決定された統合領域の中から、第２検出部１１５による処理の対象とする統合領域を選択する。領域選択部１１４が選択する統合領域の数には上限が設定されていてもよい。領域選択部１１４は、所定の基準にしたがって、当該基準の適合率が高い所定数個（以内）の統合領域を選択する。所定の基準として、第１検出部１１２による検出スコア（信頼度）、統合領域のサイズ、統合領域に含まれる顔（人物）の属性（年齢や性別など）などを採用することができる。領域選択部１１４は、本発明の選択手段の一例である。

第２検出部１１５は、比較的高精度で低速なアルゴリズムを用いて顔検出を行う。たとえば、ＣＮＮ（畳み込みニューラルネットワーク）のような深層学習を用いたアルゴリズムを採用できる。第２検出部１１５、領域選択部１１４によって選択された統合領域を対象として顔検出を行う。第２検出部１１５は、本発明の第２検出手段の一例である。第２検出部１５のアルゴリズムは、CNNに限らずRNN (Recurrent Neural Network)やSAE (Stacked Auto Encoder)、DBN (Deep Belief Network)などの任意の手法を用いることができる。

顔検出装置１０の上記構成によれば、第２検出部１５による検出の対象となる統合領域の数が制限されるので、入力画像中に多数の顔が存在する場合でも、高速かつ高精度に顔検出が行える。

顔検出装置１０は、１枚の画像（フレーム画像）から検出できる顔の数が最大で所定数個になるという制限があるが、顔追跡処理を組み合わせて動画像に適用することで動画像中の全ての顔を検出できる。すなわち、顔検出装置１０は、検出済みの顔は顔追跡処理による追跡を行い、新たな顔の検出は第１検出部１２および第２検出部１５によって行うようにする。このようにすれば、各フレームでの計算量を抑制しつつ、フレームごとに新しい顔が第２検出部１５によって検出されて顔追跡処理による追跡対象となり、最終的には画像中の全ての顔が追跡処理による追跡対象となる。顔追跡処理は、処理が軽くまた精度も十分であるため、このような構成とすることで、処理速度の低下を最小限としつつ、動画像中の全ての顔を高精度に検出することができる。

（第１の実施形態）
以下で説明する実施形態は、スマートフォンのような携帯情報端末に搭載され、動画像から顔を検出する顔検出装置（物体検出装置）に関する。しかしながら、これは例示に過ぎず、画像から検出する物体は顔である必要はなく任意の物体であってよい。また、顔検出装置（物体検出装置）は、携帯情報端末以外の任意の情報処理装置（コンピュータ）に搭載されてよい。

本実施形態に係る顔検出装置は、たとえば、オートフォーカス（ＡＦ）、人数カウント、車両の運転手監視（ドライバーモニタリング）、大人数がいる場所に設置されるセキュ
リティカメラでの人物検出などの用途に適用できる。

＜構成＞
図２は、本実施形態にかかる顔検出装置１００のハードウェア構成を示す図である。顔検出装置１００は、画像入力部１０１、演算装置１０２、記憶装置１０３、通信装置１０４、入力装置１０５、出力装置１０６を含む。画像入力部１０１は、カメラ１１０から画像データを受け取るインタフェースである。なお本実施形態ではカメラ１１０から直接画像データを受け取っているが、通信装置１０４を介して画像データを受け取ったり、記録媒体を経由して画像データを受け取ったりしてもよい。演算装置１０２は、ＣＰＵ（Central Processing Unit）などの汎用のプロセッサであり、記憶装置１０３に格納されたプ
ログラムを実行して、後述する処理を実行する。記憶装置１０３は、主記憶装置および補助記憶装置を含み、演算装置１０２によって実行されるプログラムを格納するとともに、画像データやプログラム実行中の一時データを格納する。通信装置１０４は、顔検出装置１００が外部のコンピュータと通信を行うための装置である。通信の形態は、有線であっても無線であってもよく、通信規格は任意であってよい。入力装置１０５は、タッチスクリーン、ボタン、キーボードなどの何れかから構成され、ユーザが顔検出装置に指示を入力するための装置である。出力装置１０６は、表示装置やスピーカーなどからなり、顔検出装置がユーザに対する出力を行うための装置である。

＜顔検出装置の機能と処理＞
演算装置１０２は、プログラムを実行することにより、図３に示す各部の処理を実行する。すなわち、演算装置１０２は、画像入力部１１１、第１検出部１１２、領域統合部１１３、領域選択部１１４、第２検出部１１５、顔追跡部１１６、結果出力部１１７が行うそれぞれの処理を実行する。各部の処理内容については以下で説明する。

［画像入力部１１１］
画像入力部１１１は、顔検出の対象とする画像データを取得する。本実施形態で入力される画像は動画像を想定するが、入力画像は静止画像であっても。入力画像は、画像入力部１０１を介してカメラ２０から取得されてもよいし、通信装置１０４を介して他のコンピュータから取得されてもよいし、記憶装置１０３を介して記憶媒体から取得されてもよい。

［第１検出部１１２］
第１検出部１１２は、入力画像から顔候補領域（顔が存在すると推定される領域）を検出する。第１検出部１１２は、入力画像から、種々の大きさや向きの顔を検出可能に構成される。第１検出部１１２は、顔候補領域を検出する際に、確信度・顔の向きも推定する。第１検出部１１２は、性別・年齢・人種等の属性を推定したり、顔認証も行ったりし、これらの処理の結果も後段の処理で利用できるようにしてもよい。

本実施形態においては、第１検出部１１２は、画像特徴量としてHaar-like特徴量を用
い、学習アルゴリズムとしてAdaBoostを用いるように構成される。以下、図４Ａ，４Ｂを用いて、本実施形態における第１検出部１１２について説明する。

図４Ａに示すように、第１検出部１１２は、種々の大きさの顔を検出するために、入力画像を複数の倍率で縮小した縮小画像３０１〜３０３のそれぞれから所定のサイズの矩形領域３１０を切り出して、識別器３２０を用いてその領域に顔が含まれるか否かを判別する。矩形領域３１０を縮小画像３０１〜３０３内で走査することにより、画像中に含まれる種々のサイズの顔を検出できる。なお、本実施形態では矩形領域を切り出しているが、切り出す領域は矩形以外の任意形状の領域であっても構わない。

図４Ｂに示すように、識別器３２０は、矩形領域３１０によって切り出された照合パターンが、顔であるか否かを判別する。識別器３２０は、照合パターン中の複数の局所領域から、明暗の関係に基づく特徴量（Haar-like特徴量）をそれぞれ抽出する。識別器３２
０は、複数の弱識別器を有しており、それぞれの弱識別器は少数の特徴量に基づいて照合パターンが顔である否かを判別する。弱識別器のそれぞれの判別性能は低いが、これら複数の弱識別器を組み合わせることにより、高精度で顔であるか否かを判別可能となる。なお、識別器３２０は、出力値として、照合パターンが顔パターンである確からしさ（信頼度）を出力する。したがって、信頼度が所定の閾値以上の領域が、顔候補領域として扱われる。

図５Ａ，５Ｂを参照して、ステップＳ２の第１検出部１１２による顔検出処理の具体例について説明する。図５Ａは、入力画像４００を示す。入力画像４００には、人物４０１，４０２が写っている。このような入力画像４００を対象として第１検出部１１２による顔検出処理を行うと、人物４０１，４０２の顔周辺に、複数の顔候補領域が検出される。これは、顔の周辺では、照合パターンの位置や大きさが多少変化しても、照合パターンが顔だと判断されるためである。

図５Ｂは、入力画像４００に対する例示的な検出結果を示す。人物４０１の顔周辺に３つの顔候補領域４１１，４１２，４１３が検出され、人物４０２の顔周辺に３つの顔候補領域４１４，４１５，４１６が検出されている。また、実際には顔が存在しない領域からも、顔候補領域４１７が検出されている。これは、背景の模様がたまたま顔に類似している場合に発生する。

［領域統合部１１３］
領域統合部１１３は、第１検出部１１２によって検出された複数の候補領域を統合する。領域統合部１１３は、複数の候補領域をグループ分けし、各グループの候補領域から１つの統合領域を決定する。図６は、領域統合部１１３による統合領域決定処理の詳細を示すフローチャートである。以下、図６のフローチャートにしたがって説明する。

ステップＳ３１において、領域統合部１１３は、ステップＳ２で検出された複数の候補領域の中から信頼度が最大のものを代表領域として選択する。なお、代表領域の決定は、信頼度のみに基づいて行う必要はなく、領域サイズや顔向きなどその他の情報を考慮して行ってもよい。領域サイズを考慮する際には、大きいサイズの領域を優先してもよいし、所定のサイズに近い領域を優先してもよい。また、代表領域を決定する際に、信頼度を用いずに、領域サイズやその他の情報に基づいて行ってもよい。

ステップＳ３２〜Ｓ３４の処理ループＬ１は、検出された複数の候補領域のうち、代表領域以外について実行される。ループＬ１において処理対象とされる候補領域を、ここでは注目候補領域と称する。

ステップＳ３２では、領域統合部１１３は、代表領域と注目候補領域とのあいだの関連スコアを算出する。関連スコアは、代表領域と注目候補領域が同じ顔の領域である確からしさを表すスコアである。関連スコアは、領域間の距離（例えば、領域中心間の距離）や候補領域のサイズに基づいて算出することができる。例えば、領域間の距離が近いほど関連スコアは大きく算出される。また、領域サイズの差が少ないほど関連スコアは大きく算出される。

領域間の距離や領域サイズの類似度は、第１検出部１１２による検出結果の類似度の例とみなせる。関連スコアは、第１検出部１１２による検出結果のその他の項目の類似度に基づいて決定してもよい。例えば、検出された顔の向きの類似度、検出された顔の属性（
例えば、年齢・性別・人種・表情など）の類似度に基づいて関連スコアを算出してもよい。複数の要素を考慮して関連スコアを決定する場合には、これら複数の要素を変数として含む関数を用いればよい。単純には、各要素の類似度の平均または加重平均によって関連スコアを決定すればよい。加重平均の際の重みは適宜決定すればよい。

ステップＳ３３において、領域統合部１１３は、注目候補領域の関連スコアが閾値Ｔ１以上であるか否かを判定する。関連スコアが閾値Ｔ１以上である場合（Ｓ３３−ＹＥＳ）には、ステップＳ３４において、領域統合部１１３は、注目候補領域を代表領域の関連領域であると決定する。すなわち、注目候補領域は、代表領域と同じグループにグループ分けされる。

全ての候補領域について、上記のステップＳ３２〜Ｓ３４の処理を行うことにより、代表領域と関連する候補領域を決定することができる。

なお、ここでは、関連スコアが閾値Ｔ１以上である候補領域を関連領域として決定しているが、関連スコアが最も大きい所定数個の候補領域を関連領域として決定してもよい。あるいは、関連スコアが閾値Ｔ１以上であり、かつ、関連スコアが上位所定数の候補領域を関連領域として決定してもよい。

ステップＳ３５では、領域統合部１１３は、代表領域およびその関連領域を統合して統合領域を決定する。統合領域の決定方法は特に限定されない。ここでは、図７Ａ，７Ｂを参照して、２つの統合領域決定方法を説明する。

例えば、図７Ａに示すように、統合領域決定処理Ｓ３５では、代表領域そのものを統合領域として決定してもよい（ステップＳ３５１）。あるいは、図７Ｂに示すように、統合領域決定処理Ｓ３５は次のようなステップにより構成されてもよい。まず、代表領域と同じグループに属する関連領域を取得する（Ｓ３５２）。次に、代表領域と関連領域を対象として領域を決定するパラメータそれぞれの平均値を算出する。（ステップＳ３５３）。最後に、算出された平均値をパラメータとして有する領域を統合領域として決定する（Ｓ３５４）。パラメータの例として、領域中心の平均値、領域サイズの平均値が挙げられる。その他のパラメータの例として、信頼度・顔向き・年齢・性別・人種・表情などが含まれる。

ステップＳ３６では、信頼度が閾値Ｔ２以上の候補領域が残存しているか否かを判断する。詳細には、第１検出部１１２によって検出された候補領域のうち、代表領域や関連領域である判断された領域以外の候補領域のうち、信頼度が閾値Ｔ２以上のものが存在するか否かが判断される。信頼度が閾値Ｇ２以上の候補領域が存在する場合には、ステップＳ３１に戻って上記の処理が繰り返される。この際、代表領域や関連領域であると判断された領域は処理対象から除外した上で、ステップＳ３１〜Ｓ３５の処理が行われる。

図８は、上述のような統合処理を図５Ｂに示す検出結果に施した処理例を説明する図である。候補領域４１１〜４１７の中から、たとえば、候補領域４１１，４１５，４１７がそれぞれ代表領域として決定される。そして、候補領域４１１〜４１３からなる統合領域４２１、候補領域４１４〜４１６からなる統合領域４２２、候補領域４１７のみからなる統合領域４２３が決定される。

［領域選択部１１４］
領域選択部１１４は、領域統合部１１３によって統合された複数の統合領域の中から第２検出部１１５による顔検出の対象とするものを選択する。領域選択部１１４は、以下の基準にしたがって、統合領域を選択する。
（１）前フレームにおいて顔であると判断された位置の統合領域は選択しない
（２）（１）以外の統合領域の中から評価値が上位の所定数個の統合領域を選択する。

図９のフローチャートを参照して、領域選択部１１４による領域選択処理について説明する。

ステップＳ９１において、領域選択部１１４は前フレームにおいて検出された顔領域の位置を取得する。各フレームにおける最終的な顔検出の結果は、第２検出部１１５または顔追跡部１１６によって得られ、検出された顔領域の位置・サイズ・信頼度・属性などの情報は検出結果記憶部１１８に格納される。領域選択部１１４は、検出結果記憶部１１８を参照することで、前フレームにおいて検出された顔領域の位置を把握できる。

ステップＳ９２において、領域選択部１１４は、現フレームの統合領域の位置と前フレームにおける顔領域の位置と比較することで、前フレームにおいて顔であると判断された位置の統合領域を選択対象から除外する。なお、現フレームの統合領域が前フレームにおける顔領域と一致するか否かの判断には、位置だけでなく領域サイズや領域内の画像の類似度などを考慮してもよい。

ステップＳ９３において、領域選択部１１４は、ステップＳ９２の後に残った統合領域について、評価値を算出する。統合領域の評価値は、当該統合領域に顔が含まれている確率が高いほど高く算出される値である。評価値の例として、統合領域の信頼度を採用できる。統合領域の信頼度は、統合領域を構成する顔候補領域のそれぞれに対する第１検出部１１２の信頼度（検出スコア）に基づいて決定できる。たとえば、第１検出部１１２の信頼度の平均値を、統合領域の信頼度として採用できる。また、統合領域の評価値として、統合領域のサイズを採用し、サイズが大きいほど評価値を高くしてもよい。これは領域が大きいほど顔が含まれる確率が高いと考えられるためである。また統合領域の評価値として、統合領域内の対象物の向きを採用してもよい。どの向きの評価を高くするかは適宜設定可能だが、正面を向いているときに評価値を最も高くし、次いで、斜め、横、後向きの順とすることが考えられる。評価値は、複数の項目を考慮して決定してもよい。たとえば、信頼度に基づく第１評価値と領域サイズに基づく第２評価値の平均（単純平均、加重平均）により評価値を決定してもよい。また、以前のフレームにおいて第２検出部１１５によって検出処理が行われている場合には、第２検出部１１５による検出信頼度も考慮に入れて評価値を決定してもよい。

ステップＳ９４において、領域選択部１１４は、評価値が上位の所定数個の統合領域を選択する。所定数個は、顔検出処理が１フレーム期間内で終了するような値として決定される。したがって、所定数個は、顔検出装置１００の計算資源の多寡に応じて決定されるべきパラメータである。また、評価値が閾値以上であるという条件を統合領域選択の条件として付加してもよい。このようにすれば、顔が含まれている確率が低い領域が第２検出部１１５の処理対象となることを抑制できる。ここでの閾値は、評価値がそれ未満であれば統合領域に顔が含まれないとみなしてよいような値である。

［第２検出部１１５］
第２検出部１１５は、領域選択部１１４によって選択された統合領域のそれぞれに顔が含まれるか否かを判定する。第２検出部１１５は、たたみ込みニューラルネットワーク（ＣＮＮ）と呼ばれる多層ニューラルネットワークを用いて学習した識別器である。ヘテロジニアス学習により、顔／非顔の判別だけでなく、顔向き、年齢、性別、人種、表情など複数タスクの判別が可能である。本実施形態の第２検出部１１５は、これらの判別タスクも実装する。

第２検出部１１５によって顔であると検出された領域に関する情報は、検出結果記憶部１１８に格納される。なお、第２検出部１１５によって顔でないと検出された統合領域に関する情報も、検出結果記憶部１１８に格納してもよい。

［顔追跡部１１６］
顔追跡部１１６は、前フレームにおいて検出された顔を、現フレームにおいて検出する。顔追跡部１１６による追跡処理は、公知の任意の追跡アルゴリズムを採用可能である。顔追跡部１１６は、前フレームにおいて検出された顔領域の周囲のみを対象として顔を検出する。追跡処理はこのように行われるため高速に実行できる。顔追跡部１１６によって検出された顔領域の情報は、検出結果記憶部１１８に格納される。

［結果出力部１１７］
結果出力部１１７が、第２検出部１１５および顔追跡部１１６によって検出された顔領域について検出結果を出力する。結果出力部１１７は、検出結果の信頼度が閾値以上である統合領域について、顔が検出されたことを示す結果情報を出力する。信頼度が閾値未満の統合領域については、結果情報に含めなくてよい。検出結果情報は、少なくとも顔領域を含み、これに加えて、信頼度、顔の向き、年齢、性別、人種、表情などの1つ以上を含
むことが好ましい。

結果出力部１１７は、検出結果情報をどのような態様で出力してもよい。例えば、結果出力部１１７は、検出結果情報を、画面に表示してもよいし、記憶装置に格納してもよいし、他のモジュールや他の装置に通知してもよいし、これらのうちの複数を行ってもよい。

［検出結果記憶部１１８］
検出結果記憶部１１８には、第２検出部１１５および顔追跡部１１６によって検出された顔領域の位置・サイズ・属性などの情報が格納される。また、検出結果記憶部１１８には、顔が含まれないと判断された統合領域も含めて、第２検出部１１５が検出処理を行った各統合領域について、顔検出の信頼度（検出スコア）を格納してもよい。

＜処理フロー＞
本実施形態における顔検出処理について、図１０のフローチャートを参照して説明する。なお、このフローチャートは本実施形態における顔検出処理を概念的に説明するものであり、実施形態においてこのフローチャートの通りの処理が実装される必要はないことに留意されたい。

ステップＳ１００１において、画像入力部１１１が取得した動画像データのうちから、処置対象とするフレーム画像を取得する。なお、動画像の全てのフレームを顔検出処理の対象とする必要はなく、数フレームおきに顔検出処理を行ってもよい。以下では、ステップＳ１００１において取得されたフレーム画像を現フレーム画像と称する。また、それまで処理対象であったフレーム画像を前フレーム画像と称する。

次に、ステップＳ１００２において、前フレーム画像に対する検出結果を取得し、前フレームにおいて顔領域として検出された領域を把握する。現フレーム画像においては、前フレームにおいて顔領域ではないと判断されている領域についてはステップＳ１００３〜Ｓ１００６の処理によって顔検出を行う。一方、前フレームにおいて顔領域であると判断されている領域についてはステップＳ１００７によって顔追跡を行う。

なお、図１０のフローチャートでは、ステップＳ１００３〜Ｓ１００６の処理は前フレームにおいて顔領域ではないと判断されている領域について行われるものと説明している
が、前フレームにおいて検出された顔領域がステップＳ１００６の第２検出処理の処理対象とならなければ、当該領域がステップＳ１００３〜Ｓ１００５の処理対象となっても構わない。

ステップＳ１００３では、第１検出部１１２が、現フレーム画像の全体に対して、Haar-like特徴量とAdaboostを用いた比較的軽量なアルゴリズムによる顔検出処理を実行する
。第１検出部１１２による顔検出処理は、図４，図５等を参照して説明したとおりである。

上述したように、第１検出部１１２は、１つの顔の周辺に対して複数の顔候補領域を検出するので、ステップＳ１００４において、領域統合部１１３が、１つの顔に対応すると推定される複数の顔候補領域を統合して統合領域を生成する。領域統合処理は、図６，図７等を作用して説明したとおりである。

ステップＳ１００５において、領域選択部１１４が、ステップＳ１００５において統合された統合領域の中から一部を選択する。上述したように、領域選択部１１４は、前フレームにおいて顔であると判断された位置の統合領域は除外して、評価値が上位の所定数個の統合領域を選択する。本実施形態では、領域選択処理において、前フレームで検出された顔領域に対応する統合領域を除外することで、前フレームで検出された顔領域以外を第２検出部１１５による処理の対象としている。

ステップＳ１００６において、第２検出部１１５は、ステップＳ１００５において選択された統合領域を対象として深層学習アルゴリズムを用いた顔検出処理を行う。第２検出部１１５による検出結果は検出結果記憶部１１８に格納される。

ステップＳ１００７では、顔追跡部１１６は、前フレームにおいて検出された顔の追跡処理を行い、現フレームで位置を検出する。顔追跡部１１６は、追跡処理の結果を検出結果記憶部１１８に格納する。

第２検出部１１５による検出結果と顔追跡部１１６による追跡結果を足し合わせた結果が、現フレームにおける顔検出結果である。ステップＳ１００８において、第２検出部１１５による検出処理と顔追跡部１１６による追跡処理の両方の完了を待って、現フレーム画像に対する検出結果を確定する。

ステップＳ１００９では、結果出力部１１７が検出結果を出力する。たとえば、フレーム画像に顔領域を示す矩形を重畳した画像を出力装置１０６（ディスプレイ）に表示する。

ステップＳ１０１０では、顔検出処理が終了するか否かを判定する。顔検出の終了は、たとえば、ユーザからの明示的に指示されてもよいし、画像の入力が終了した時点で顔検出を終了してもよい。顔検出処理を継続する場合には、ステップＳ１００１に戻って、次のフレームについて同様の処理を繰り返す。

図１１Ａ〜図１１Ｄを参照して、連続するフレームに対して本実施形態に係る顔検出処理を適用した際の動作例を説明する。ここでは、領域選択部１１４による統合処理の選択数（所定数個）が２個であるものとし、３人の人物が写っている画像を処理する例を説明する。

図１１Ａは、第１フレーム目に対する処理を説明する図である。ここでは、第１検出部１１２および領域統合部１１３による処理の結果、５つの統合領域Ａ〜Ｅが取得されてい
る。第１フレームを処理する際には、検出済みの顔は存在しないので全ての統合領域が第２検出部１１５を用いた検出処理の対象の候補となる。ここでは、領域選択部１１４による領域選択の結果、評価値が上位の２つの統合領域Ｂ，Ｃが選択されたものとする。第２検出部１１５は、統合領域Ｂ，Ｃを対象として深層学習アルゴリズムを用いた顔検出処理を行い、統合領域のＢ，Ｃの両方から顔を検出する。これにより、第１フレーム目では、統合領域Ｂ，Ｃが顔領域であると判定される。

図１１Ｂは、第２フレーム目に対する処理を説明する図である。今回は、領域Ｂ，Ｃに存在する顔は、顔追跡部１１６による追跡処理の対象とする。顔追跡部１１６は、１フレーム目とほぼ同様の位置から顔を検出する。

また、フレーム間で構図に大幅な変更がないことを想定しているので、第１検出部１１２および領域統合部１１３による結果は第１フレーム目と同様であり、５つの統合領域Ａ〜Ｅが取得される。ここで、領域Ｂ，Ｃは１フレームで顔領域と判断されているので、領域選択部１１４による選択の対象外となる。領域選択部１１４は、領域Ａ，Ｄ，Ｅの中から評価値が上位の２つの統合領域Ａ，Ｄが選択されたものとする。第２検出部１１５は、統合領域Ａ，Ｄを対象として深層学習アルゴリズムを用いた顔検出処理を行い、統合領域Ｄは顔領域であると判断するが統合領域Ａは顔領域ではないと判断する。

以上の処理の結果、第２フレーム目では、統合領域Ｂ，Ｃ，Ｄが顔領域であると判定される。

図１１Ｃは、第３フレーム目に対する処理を説明する図である。今回は、領域Ｂ，Ｃ、Ｄに存在する顔が、顔追跡部１１６による追跡処理に対象となる。顔追跡部１１６は、２フレーム目とほぼ同様の位置から顔を検出する。

また、フレーム間で構図に大幅な変更がないことを想定しているので、第１検出部１１２および領域統合部１１３による結果は第１フレーム目と同様であり、５つの統合領域Ａ〜Ｅが取得される。ここで、領域Ｂ，Ｃ，Ｄは１フレームで顔領域と判断されているので、領域選択部１１４による選択の対象外となる。したがって、領域選択部１１４は、領域Ｅを選択する。第２検出部１１５は、統合領域Ｅを対象として深層学習アルゴリズムを用いた顔検出処理を行い、統合領域Ｅは顔領域ではないと判断する。

以上の処理の結果、第３フレーム目では、統合領域Ｂ，Ｃ，Ｄが顔領域であると判定される。

図１１Ｄは、第４フレーム目に対する処理を説明する図である。今回も引き続き、領域Ｂ，Ｃ、Ｄに存在する顔が顔追跡部１１６による追跡処理に対象となる。顔追跡部１１６は、３フレーム目とほぼ同様の位置から顔を検出する。

ここでは画像中に３つの顔のみが含まれる例を説明したが、より多くの顔が含まれている場合であっても、上記の処理を繰り返すことで最終的に全ての顔を第２検出部１１５によって検出し、以降は顔追跡部１１６によって追跡できる。

上記の説明では、３フレーム目において統合領域Ｅのみが選択されるように説明しているが、統合領域Ａも選択されてもよい。同様に、４フレーム以降においても統合領域Ｅが選択されてもよい。なお、図１１の説明では常に第１検出部１１２は常に領域Ａ，Ｅが顔領域であると検出しているが、統合領域Ａ，Ｅは非顔領域であることから、時間の経過によりいずれ第１検出部１１２によって顔領域として検出されなくなることが期待できる。

＜本実施形態の効果＞
Haar-like特徴量＋adaboost学習の顔検出処理と、深層学習（CNN）の顔検出処理を比較すると、後者の方が高精度であるが演算量も多い。したがって、携帯情報端末のような演算資源が比較的乏しい計算機では、入力画像全体に対して深層学習型の顔検出を行うと処理時間が長大となってしまう。これに対して、本実施形態は、まず、顔が存在しそうな領域を簡易型の顔検出処理を用いて絞り込み、さらに候補領域を統合して統合領域に対してのみ深層学習型の顔検出を行う。これにより、検出精度と検出速度の両立が期待できるが、画像中に含まれる顔の数が多い場合には計算量が多くなり処理が間に合わない場合が生じうる。そこで、統合領域の中から深層学習型の顔検出の対象とする領域を選択する（絞り込む）ことで、画像中に含まれる顔の数にかかわらずに高速な処理が行えるようにする。

深層学習型の顔検出を行う統合領域の数を限定することで処理負荷を抑えられるが、一度に検出可能な顔の数が限られてしまう。そこで、動画像に本手法を適用して、検出済みの顔は顔追跡処理で検出し、未検出の顔を深層学習型の顔検出処理により検出するようにすることで、数フレーム後には画像内の全ての顔を検出できる。

（変形例１）
上記の実施形態では、領域選択部１１４が、前フレームで検出された顔領域の位置にある統合領域を選択の対象から除外することで、前フレームで検出された顔の位置にある統合領域が第２検出部１１５による検出処理の対象となることを防止している。しかしながら、上記以外の手法によっても同様の効果が得られる。

図１２は本変形例に係る顔検出装置１００の構成を示す図である。第１の実施形態と比較して、第１検出部１１２の前に前処理部１１９が設けられている点が異なる。前処理部１１９は、検出結果記憶部１１８を参照して、前フレームにおいて顔が検出された領域に対して加工を施すことで、当該領域から第１検出部１１２によって顔が検出されないようにする。

図１３Ａおよび図１３Ｂを用いて説明する。たとえば、図１３Ａに示すように、１フレーム目の画像において統合領域Ｂ，Ｃから顔が検出されたとする。この場合、第２フレーム目の画像に対して、図１３Ｂに示すように、顔領域（統合領域Ｂ，Ｃ）の位置を単色パターンで塗りつぶす加工を前処理として行う。顔領域を単一色パターン以外のパターン画像で置き換えてもよいし、顔領域にフィルタ処理を施しても構わない。また、加工の対象する領域は顔領域全体である必要はなく、顔として検出されなくなるのであればそのうちの一部のみであっても構わない。

このようにすれば、第１検出部１１２が検出する顔候補領域、ひいては領域統合部１１３が決定する統合領域には、前フレームにおいて顔領域であると判断された領域は含まれないものとなる。したがって、本変形例では、領域選択部１１４は、前フレームの検出結果を参照する必要がなく、単純に評価値にしたがって統合領域を選択すれば良い。

（変形例２）
領域選択部１１４が統合領域を選択する際に、前フレームにおける第２検出部１１５による顔ではないという検出結果を利用して、前フレームにおいて第２検出部１１５において顔ではないと判断された領域は選択しないようにしてもよい。第２検出部１１５による顔検出の検出精度は高いため、その領域には顔が含まれていない可能性が高いためである。

ただし、一度顔ではないと判断された領域を継続して選択しないようにするのは、時間
とともに構図が変化することを想定すると好ましくない。したがって、第２検出部１１５によって顔ではないと判断された数フレームの間だけ、領域選択部１１４が選択しないようにするのがよい。あるいは、前フレームにおいて顔領域ではないと判断された領域であり、かつ、画像の類似度が閾値以上ある場合に、領域選択部１１４が選択しないようにしてもよい。

なお、ここで説明した処理は行わなくても構わない。顔ではない領域であれば、第１検出部１１２によって継続して顔であると検出される可能性が低いためである。また、顔ではない領域であれば、第１検出部１１２によって顔であると検出されたとしてもその信頼度が低く、領域選択部によって選択される優先度が下がるためである。さらに、仮に領域選択部１１４によって選択された第２検出部１１５の処理対象となったとしても、第２検出部１１５が処理する領域の数は制限されているので処理負荷が課題になることは避けられるためである。

（その他実施形態）
上記の説明では、第１検出部１１２がHaar-like特徴量とadaboost学習を用いた検出器
であるが、これに限られない。例えば、特徴量として、HoG (Histgram of Gradient)特徴量、SIFT特徴量、SURF特徴量、Sparse特徴量など任意の特徴量を用いることができる。また、学習手段も、adaboost以外のboosting手法や、SVM (Support Vector Machine)、ニューラルネットワーク、決定木学習などの任意の学習手法を用いることができる。これ以外にも、積分画像を用いた特徴量抽出や、カスケード構造を用いた識別器なども採用可能である。

また、第２検出部１１５も、CNNに限らずRNN (Recurrent Neural Network)やSAE (Stacked Auto Encoder)、DBN (Deep Belief Network)、DNN (Deep Neural Network)などの任
意の手法による検出器あってよい。また、第２検出部１１５は、深層学習を用いた検出器でなくても構わない。ただし、第２検出部１１５の検出アルゴリズムは、第１検出部１１２の検出アルゴリズムよりも高精度な検出が可能かつ計算量がより多いことが望ましい。

なお、第１検出部１１２のアルゴリズムが深層学習以外の手法で、第２検出部１１５のアルゴリズムが深層学習の手法である必要はなく、互いに異なればよい。２つのアルゴリズムが、ともに非深層学習アルゴリズムであっても、ともに深層学習アルゴリズムであってもよい。たとえば、第１検出部１１２のアルゴリズムがHaar特徴量とBoosting学習法を用いた手法で、第２検出部１１５のアルゴリズムがHoG特徴量とBoosting学習法を用いた
手法でもよい。あるいは、第１検出部１１２のアルゴリズムがCNNで、第２検出部１１５
のアルゴリズムがDNNであってもよい。

また、上記の説明では検出対象の物体は顔であったが、検出対象物体は任意の物体であって構わない。すなわち、本発明は、任意の所定物体を検出する物体検出装置に適用可能である。検出対象物体のごく少数の例として、人体、特定の動物、自動車、特定の商品などがあげられる。

また、上記の説明では、物体検出装置はスマートフォンなどの携帯情報端末に搭載されているが、どのような装置に搭載されても構わない。本発明にかかる物体検出装置は、デスクトップ型コンピュータ、ノート型コンピュータ、スレート型コンピュータ、スマートフォン、携帯電話機、デジタルカメラ、デジタルビデオカメラなど任意の情報処理装置（コンピュータ）に実装することができる。ただし、演算資源が比較的乏しい装置に搭載することで、本発明の効果がより顕著となる。

（付記）
画像から対象物を検出する物体検出装置（１０，１００）であって、
前記画像から前記対象物が存在する候補領域を複数検出する第１検出手段（１２，１１２）と、
前記第１検出手段によって検出された複数の候補領域に基づいて、１つまたは複数の統合領域を決定する領域統合手段（１３，１１３）と、
前記統合領域の中から、少なくとも一部を選択する選択手段（１４，１１４）と、
選択された統合領域を対象として、前記第１検出手段とは異なる検出アルゴリズムによって前記対象物を検出する第２検出手段（１５，１１５）と、
を備える、物体検出装置。

１００：顔検出装置，１１１：画像入力部，１１２：第１検出部
１１３：領域統合部，１１４：領域選択部，１１５：第２検出部，
１１６：顔追跡部，１１７：結果出力部，１１８：検出結果記憶部

Claims

画像から対象物を検出する物体検出装置であって、
前記画像から前記対象物が存在する候補領域を複数検出する第１検出手段と、
前記第１検出手段によって検出された複数の候補領域に基づいて、１つまたは複数の統合領域を決定する領域統合手段と、
前記統合領域の中から、少なくとも一部を選択する選択手段と、
選択された統合領域を対象として、前記第１検出手段とは異なる検出アルゴリズムによって前記対象物を検出する第２検出手段と、
対象物の追跡を行う追跡手段と、
を備え、
前記画像は動画像であり、
各フレームにおいて、前記第２検出手段または前記追跡手段による結果を最終的な検出結果とし、
前記追跡手段は、前フレームにおいて前記対象物であると確定された物体を対象として、現フレームにおける追跡を行い、
前記選択手段は、前フレームにおいて前記対象物であると確定された領域以外に位置する少なくとも一部の統合領域を選択する、
物体検出装置。
前記選択手段は、前フレームにおいて前記対象物であると確定された領域以外に位置する統合領域の中から、信頼度が閾値以上の所定数個の統合領域を選択する、
請求項１に記載の物体検出装置。
前記選択手段は、前フレームにおいて前記対象物であると確定された領域以外に位置する統合領域の中から、サイズが大きい方から所定数個の統合領域を選択する、
請求項１に記載の物体検出装置。
前記選択手段は、前フレームにおける前記第２検出手段による検出スコアも考慮して、統合領域の選択を行う、
請求項１から３のいずれか１項に記載の物体検出装置。
前記選択手段は、前記対象物の向きも考慮して統合領域の選択を行う、
請求項１から４のいずれか１項に記載の物体検出装置。
前フレームにおいて前記対象物であると確定された物体の領域に対応する現フレーム画像の領域に対して、当該領域が前記物体として検出されないような前処理を施す前処理部をさらに備え、
前記第１検出手段が、前処理済みの現フレーム画像を対象に前記対象物の検出を行うことで、前フレーム画像において前記対象物であると確定された領域が統合領域とならないようにする、
請求項１から５のいずれか１項に記載の物体検出装置。
前フレーム画像において前記対象物であると確定された領域の位置を記憶する記憶手段をさらに備え、
前記選択手段は、前記記憶手段に記憶された位置にある統合領域を選択対象から除外する、
請求項１から５のいずれか１項に記載の物体検出装置。
前記第２検出手段の検出アルゴリズムは、前記第１検出手段の検出アルゴリズムよりも、計算量が多い、
請求項１から７のいずれか１項に記載の物体検出装置。
前記対象物は、人の顔または人体である、
請求項１から８のいずれか１項に記載の物体検出装置。
画像から対象物を検出する物体検出方法であって、
コンピュータが、
前記対象物が存在する候補領域を複数検出する第１検出ステップと、
前記第１検出ステップにおいて検出された複数の候補領域に基づいて、１つまたは複数の統合領域を決定する領域統合ステップと、
前記統合領域の中から、少なくとも一部を選択する選択ステップと、
選択された統合領域を対象として、前記第１検出ステップとは異なる検出アルゴリズムによって前記対象物を検出する第２検出ステップと、
対象物の追跡を行う追跡ステップと、
を実行し、
前記画像は動画像であり、
各フレームにおいて、前記第２検出ステップまたは前記追跡ステップによる結果を最終的な検出結果とし、
前記追跡ステップは、前フレームにおいて前記対象物であると確定された物体を対象として、現フレームにおける追跡を行い、
前記選択ステップでは、前フレームにおいて前記対象物であると確定された領域以外に位置する少なくとも一部の統合領域を選択する、
物体検出方法。
前記選択ステップは、前フレームにおいて前記対象物であると確定された領域以外に位置する統合領域の中から、信頼度、サイズ、または対象物の向きの少なくともいずれかに基づく評価値が大きい方から所定数個の統合領域を選択する、
請求項１０に記載の物体検出方法。
前フレームにおいて前記対象物であると確定された物体の領域に対応する現フレーム画
像の領域に対して、当該領域が前記物体として検出されないような前処理を施す前処理ステップをさらに含み、
前記第１検出ステップでは、前処理済みの現フレーム画像を対象に前記対象物の検出を行うことで、前フレーム画像において前記対象物であると確定された領域が統合領域とならないようにする、
請求項１０または１１に記載の物体検出方法。
前フレーム画像において前記対象物であると確定された領域の位置を記憶する記憶ステップをさらに含み、
前記選択ステップでは、前記記憶ステップにおいて記憶された位置にある統合領域を選択対象から除外する、
請求項１０から１２のいずれか１項に記載の物体検出方法。
請求項１０から１３のいずれか１項に記載の方法の各ステップをコンピュータに実行させるプログラム。