JP5100688B2 - 対象物検出装置及びプログラム - Google Patents

対象物検出装置及びプログラム Download PDF

Info

Publication number
JP5100688B2
JP5100688B2 JP2009056244A JP2009056244A JP5100688B2 JP 5100688 B2 JP5100688 B2 JP 5100688B2 JP 2009056244 A JP2009056244 A JP 2009056244A JP 2009056244 A JP2009056244 A JP 2009056244A JP 5100688 B2 JP5100688 B2 JP 5100688B2
Authority
JP
Japan
Prior art keywords
image
learning
images
window
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009056244A
Other languages
English (en)
Other versions
JP2010211460A (ja
Inventor
美也子 馬場
歳康 勝野
展彦 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Toyota Central R&D Labs Inc
Original Assignee
Denso Corp
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp, Toyota Central R&D Labs Inc filed Critical Denso Corp
Priority to JP2009056244A priority Critical patent/JP5100688B2/ja
Publication of JP2010211460A publication Critical patent/JP2010211460A/ja
Application granted granted Critical
Publication of JP5100688B2 publication Critical patent/JP5100688B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、象物検出装置及びプログラムに係り、特に、撮像した画像から対象物を検出するための象物検出装置及びプログラムに関する。
近年、車載カメラで撮像した車両周辺の映像を画像処理し、歩行者などの対象物を検出してドライバに検出結果を提示する対象物検出装置を搭載する車両が増加している。
対象物を検出する方法として、予め対象物パターンを学習させた識別モデルを生成しておき、入力された画像が識別モデルに登録されたデータに近いか否かを判断することで対象物を検出する方法が一般的である。具体的には、例えば、Viola&Jonesの手法等、様々な手法がある。
このように入力画像と識別モデルとを比較することにより対象物を検出する場合において、入力画像と識別モデルとの間に位置ずれや大きさのずれが生じていると正確に対象物を検出することができない。そこで、入力画像の部分領域と、予め保存してある教示画像の部分領域とに対して、入力画像の部分領域における座標と、それと同じ座標を含む教示画像の複数の座標点の間で輝度差分の絶対値をとり、そのうち最も小さい値をその座標における輝度値として第1出力画像を作成し、第1出力画像が輝度値ゼロの画像に近い場合、入力画像の部分領域と教示画像の部分領域とが同一であると判定する画像認識装置が提案されている(例えば、特許文献1参照)。
また、入力画像の部分領域を抽出するには、入力画像の全画面に対して所定サイズの探索ウインドウを所定の探索ステップでスキャンしながら抽出することが行われている。
特開2001−22926号公報
しかしながら、特許文献1の画像認識装置では、対象物検出の精度を向上させるためには、対象物画像の部分領域に対応して教示画像の部分領域から取る座標の数を多くする必要があり、比較する座標の数が多いほど識別に要する時間が長くなる、という問題がある。また、部分領域を抽出する際に、探索ウインドウのサイズの種類を多くしたり、探索ステップを小さくしたりするなどして密な探索を行うと、探索回数が増加し、識別に要する時間が長くなる、という問題がある。
本発明は、上述した問題を解決するために成されたものであり、識別に要する時間が長くなることを抑制するために粗い探索を行った場合でも、対象物検出の精度を向上させることができる識別モデル生成装置、対象物検出装置、及び識別モデル生成プログラムを提供することを目的とする。
上記目的を達成するために本発明の対象物検出装置は、入力画像に対して所定サイズのウインドウ枠を所定量ずつ移動させながら前記入力画像から前記ウインドウ枠内の画像をウインドウ画像として複数抽出する抽出手段と、前記抽出手段により抽出されたウインドウ画像の各々と、各々が異なる識別対象をウインドウ内に含む複数の第1の学習用画像、及び各々が前記識別対象以外の異なる対象をウインドウ内に含む複数の第2の学習用画像を用いて学習することにより第1の識別モデルを生成する第1の識別モデル生成手段と、前記第1の学習用画像の各々について、第1の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成するずれ画像生成手段と、前記ずれ画像生成手段で生成された複数のずれ画像の各々と、前記第1の識別モデルとを比較することにより、前記ずれ画像の識別のし易さまたはし難さを示す評価値を算出する算出手段と、前記算出手段で算出された評価値に基づいて、識別し難いずれ画像を前記第1の学習用画像の各々について該第1の学習用画像に対応する第3の学習用画像として選択し、前記複数の第1の学習用画像の各々に対応して選択された複数の第3の学習用画像、及び前記複数の第2の学習用画像を用いて学習することにより第2の識別モデルを生成する第2の識別モデル生成手段と、を含む識別モデル生成装置で生成された前記第2の識別モデルとを比較して、ウインドウ画像が識別対象であるか否かを識別することにより、前記入力画像から識別対象を検出する検出手段とを含んで構成されている。
また、本発明の対象物検出プログラムは、コンピュータを、入力画像に対して所定サイズのウインドウ枠を所定量ずつ移動させながら前記入力画像から前記ウインドウ枠内の画像をウインドウ画像として複数抽出する抽出手段、及び前記抽出手段により抽出されたウインドウ画像の各々と、各々が異なる識別対象をウインドウ内に含む複数の第1の学習用画像、及び各々が前記識別対象以外の異なる対象をウインドウ内に含む複数の第2の学習用画像を用いて学習することにより第1の識別モデルを生成する第1の識別モデル生成手段と、前記第1の学習用画像の各々について、第1の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成するずれ画像生成手段と、前記ずれ画像生成手段で生成された複数のずれ画像の各々と、前記第1の識別モデルとを比較することにより、前記ずれ画像の識別のし易さまたはし難さを示す評価値を算出する算出手段と、前記算出手段で算出された評価値に基づいて、識別し難いずれ画像を前記第1の学習用画像の各々について該第1の学習用画像に対応する第3の学習用画像として選択し、前記複数の第1の学習用画像の各々に対応して選択された複数の第3の学習用画像、及び前記複数の第2の学習用画像を用いて学習することにより第2の識別モデルを生成する第2の識別モデル生成手段とを含む識別モデル生成装置で生成された前記第2の識別モデルとを比較して、ウインドウ画像が識別対象であるか否かを識別することにより、前記入力画像から識別対象を検出する検出手段として機能させるためのプログラムである。
本発明の対象物検出装置及びプログラムで用いられる第2の識別モデルを生成する識別モデル生成装置によれば、第1の識別モデル生成手段が、各々が異なる識別対象をウインドウ内に含む複数の第1の学習用画像、及び各々が識別対象以外の異なる対象をウインドウ内に含む複数の第2の学習用画像を用いて学習することにより第1の識別モデルを生成する。そして、ずれ画像生成手段が、第1の識別モデルを生成する際に用いられた第1の学習用画像の各々について、第1の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成し、算出手段が、ずれ画像生成手段で生成された複数のずれ画像の各々と、第1の識別モデルとを比較することにより、ずれ画像の識別のし易さまたはし難さを示す評価値を算出する。そして、第2の識別モデル生成手段が、算出手段で算出された評価値に基づいて、識別し難いずれ画像を第1の学習用画像の各々について該第1の学習用画像に対応する第3の学習用画像として選択し、複数の第1の学習用画像の各々に対応して選択された複数の第3の学習用画像、及び複数の第2の学習用画像を用いて学習することにより第2の識別モデルを生成する。
このように、第1の識別モデルと比較して識別し難いと評価されたずれ画像を用いて第2の識別モデルを生成するため、第2の識別モデルを用いて識別対象を検出する際に、識別に要する時間が長くなることを抑制するために粗い探索を行い、入力画像から抽出された画像に位置ずれや大きさずれが生じているような場合でも、対象物検出の精度を向上させることができる。
また、前記ずれ画像の中で最も識別し難いずれ画像を前記第3の学習用画像として選択することができる。
また、前記ずれ画像生成手段は、前記第1の学習用画像の各々について、前記識別対象の位置をウインドウの上下方向及び左右方向の長さの5%以下の量、ウインドウの上下方向及び左右方向にずらすことによりずれ画像を生成するようにしたり、前記第1の学習用画像の各々について、ウインドウ内で識別対象を縮小率95%以上または拡大率105%以下で拡縮することによりずれ画像を生成するようにしたりすることができる。位置ずれ及び大きさずれのずれ量が5%を超えるずれ画像では、識別対象として識別されない可能性が高まるため、第2の識別モデル生成の際に用いる学習用画像とするには現実的ではない。そこで、ずれ画像を生成する際の位置ずれ及び大きさずれのずれ量を5%以下とすることで、適切なずれ画像を生成することができる。
本発明の対象物検出装置によれば、上記の識別モデル生成装置により生成された第2の識別モデルを用いて対象物の検出を行うため、識別に要する時間が長くなることを抑制するために粗い探索を行った場合でも、対象物検出の精度を向上させることができる。
以上説明したように、本発明によれば、識別に要する時間が長くなることを抑制するために粗い探索を行った場合でも、対象物検出の精度を向上させることができる、という効果が得られる。
本実施の形態に係る歩行者検出装置の概略構成を示すブロック図である。 本実施の形態における識別モデル生成処理ルーチンを示すフローチャートである。 (A)対象物画像の学習用画像、及び(B)非対象物画像の学習用画像について説明するための図である。 本実施の形態の識別モデル生成の流れを説明するための図である。 (A)位置ずれ画像、及び(B)大きさずれ画像の生成を説明するための図である。 本実施の形態における歩行者検出処理ルーチンを示すフローチャートである。 本実施の形態の場合、参考識別モデルを用いた場合、及び第1の識別モデルを用いた場合の歩行者検出性能を示すROC曲線である。 本実施の形態の場合、参考識別モデルを用いた場合、及び第1の識別モデルを用いた場合の誤検出数に対する特徴数を示すグラフである。 本実施の形態で粗探索を行った場合、第1の識別モデルで粗探索を行った場合、第1の識別モデルを用いて4倍の密検索を行った場合、第1の識別モデルを用いて8倍の密探索を行った場合の歩行者検出性能を示すROC曲線である。 本実施の形態で粗探索を行った場合、第1の識別モデルで粗探索を行った場合、第1の識別モデルを用いて4倍の密検索を行った場合、第1の識別モデルを用いて8倍の密探索を行った場合の誤検出数に対する特徴数を示すグラフである。 計算コストを比較した表である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、対象物として歩行者を検出する歩行者検出装置に本発明の対象物検出装置を適用した場合について説明する。
図1に示すように、本実施の形態に係る歩行者検出装置10は、識別対象領域を含む範囲を撮像する撮像装置12と、撮像装置12から出力される撮像画像に基づいて歩行者を検出する歩行者検出処理ルーチンを実行するコンピュータ16と、コンピュータ16での処理結果を表示するための表示装置18とを備えている。
撮像装置12は、識別対象領域を含む範囲を撮像し、画像信号を生成する撮像部(図示省略)と、撮像部で生成されたアナログ信号である画像信号をデジタル信号に変換するA/D変換部(図示省略)と、A/D変換された画像信号を一時的に格納するための画像メモリ(図示省略)とを備えている。
コンピュータ16は、歩行者検出装置10全体の制御を司るCPU、後述する歩行者検出処理のプログラム等を記憶した記憶媒体としてのROM、ワークエリアとしてデータを一時格納するRAM、及びこれらを接続するバスを含んで構成されている。このような構成の場合には、各構成要素の機能を実現するためのプログラムをROMやHDD等の記憶媒体に記憶しておき、これをCPUが実行することによって、各機能が実現されるようにする。
このコンピュータ16をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図1に示すように、撮像装置12で撮像されコンピュータ16へ入力された入力画像から所定領域を抽出するウインドウ画像抽出部22と、ウインドウ画像抽出部22により抽出されたウインドウ画像と識別モデルとを比較することにより、入力画像から歩行者を検出する検出部28と、撮像装置12によって撮像された撮像画像に、検出部28による検出結果を重畳させて表示装置18に表示するよう制御する表示制御部30とを含んだ構成で表すことができる。
ウインドウ画像抽出部22は、入力画像から予め定められたサイズのウインドウ(探索ウインドウと呼称)を1ステップにつき、予め定められた移動量(探索ステップと呼称)だけ移動させながら画像を切り取る。ここでは、切り取った画像をウインドウ画像といい、ウインドウ画像のサイズ(すなわち探索ウインドウのサイズ)をウインドウサイズと呼称する。ウインドウサイズは様々なサイズの歩行者を検出するために複数種設定されており、ウインドウ画像抽出部22は、設定されている全てのウインドウサイズの探索ウインドウを用いてウインドウ画像を抽出する。また、ウインドウ画像抽出部22は、抽出したウインドウ画像を予め設定された画素数の画像(例えば、横16×縦32画素の画像)に変換する。
検出部28は、ウインドウ画像抽出部22により抽出されたウインドウ画像と、後述する識別モデル生成装置50で生成された第2の識別モデルとを比較してウインドウ画像が識別対象であるか否かを識別し、ウインドウ画像が識別対象であると識別された場合には、入力画像内におけるウインドウ画像を歩行者として検出する。
識別モデル生成装置50は、CPU、ROM、RAM、及び内蔵HDD等を含んで構成されたコンピュータで構成することができる。このような構成の場合には、各構成要素の機能を実現するためのプログラムをROMやHDD等の記憶媒体に記憶しておき、これをCPUが実行することによって、各機能が実現されるようにする。また、識別モデル生成装置50を歩行者検出装置10と互いに独立したマイクロコンピュータで構成してもよいし、同一コンピュータ上で構成することも可能である。
識別モデル生成装置50をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図1に示すように、入力された学習用画像を用いて学習して第1の識別モデルを生成する第1の識別モデル生成部52と、入力された学習用画像から位置及び大きさの少なくとも一方をずらしたずれ画像を生成し、生成したずれ画像の識別のし易さまたはし難さを評価するずれ画像生成評価部54と、ずれ画像生成評価部54で、評価値が最小となったずれ画像を学習用画像として用いて学習して第2の識別モデルを生成する第2の識別モデル生成部56と、第2の識別モデル生成部56で生成された第2の識別モデルを記憶する識別モデル記憶部58とを含んだ構成で表すことができる。
第1の識別モデル生成部52は、様々な服装、背景、大きさ等のバリエーションを持つ歩行者が撮影された対象物画像の学習用画像、及び標識、自動車、背景等の歩行者以外が撮影された非対象物画像の学習用画像が所定枚数(例えば、各1000枚)入力されると、これらの学習用画像をブースティングアルゴリズムを用いて学習して、第1の識別モデルとしてカスケード型識別器を生成する。
ずれ画像生成評価部54は、対象物画像の学習用画像について、上下方向及び左右方向に識別対象の位置をずらしたずれ画像、識別対象を拡縮することにより識別対象の大きさをずらしたずれ画像、及び識別対象の位置及び大きさの両方をずらしたずれ画像を生成する。生成されたずれ画像の各々と第1の識別モデルとを比較し、ずれ画像の各々について識別のし易さを示す評価値を算出する。
第2の識別モデル生成部56は、第1の識別モデル生成の際に用いた対象物画像の学習用画像毎に、最も識別し難い(評価値最小)ずれ画像を選択し、選択された評価値最小のずれ画像、及び第1の識別モデル生成の際に用いた非対象物画像の学習用画像を用いて、第1の識別モデルを生成した際と同様の手法により第2の識別モデルを生成する。
識別モデル記憶部58は、ハードディスクドライブ(HDD)やCD−ROM等のように、内蔵または外付けの記憶手段であって、第2の識別モデルを記憶できる媒体により構成されている。識別モデル記憶部58に記憶された第2の識別モデルは、歩行者検出装置10の検出部28で歩行者の検出に利用される。
ここで、図2を参照して、識別モデル生成処理ルーチンについて説明する。
ステップ100で、学習用画像を1枚入力する。次に、ステップ102で、図3(A)に示すように、入力された学習用画像が対象物画像の学習用画像60の場合には、対象物画像の学習用画像60の中で歩行者62が含まれている領域を所定の縦横比(例えば、横1:縦2)で切り取る。また、同図(B)に示すように、入力された学習用画像が非対象物画像の学習用画像66の場合には、非対象物画像の学習用画像66の所定領域を所定の縦横比(例えば、横1:縦2)で切り取る。
次にステップ104で、切り取った画像をバイリニア法等により、所定のサイズ(例えば、16×32画素)に正規化する。正規化された対象物画像の学習用画像をPos64(i=1、2、・・・、n:nは用意した対象物画像の学習用画像60の枚数、例えば1000枚)とし、正規化された非対象物画像の学習用画像をNeg68(i=1、2、・・・、m:mは用意した非対象物画像の学習用画像66の枚数、例えば1000枚)とする。Pos〜PosをPositiveデータ(1)とし、Neg〜NegをNegativeデータ(1)とする。
次に、ステップ106で、用意しておいたすべての学習用画像について、上記ステップ102及びステップ104の処理が終了したか否かを判断する。終了した場合には、ステップ108へ進み、終了していない場合には、ステップ100へ戻り、次の学習用画像を入力して、処理を繰り返す。
ステップ108で、図4(A)に示すように、Positiveデータ(1)及びNegativeデータ(1)を用いてブースティングアルゴリズムにより学習して、第1の識別モデルとしてカスケード型識別器を生成する。生成した第1の識別モデルは、一旦所定の記憶領域に記憶する。
次に、ステップ110で、第1の識別モデル生成に用いたPositiveデータ(1)の各々について、対象物画像の学習用画像60を用いてずれ画像を生成する。図5(A)に示すように、識別対象の位置をずらした位置ずれ画像70aは、対象物画像の学習用画像60のPos64を切り取った領域から、左右方向及び上下方向の少なくとも一方へ平行移動した領域を切り取って、所定のサイズ(例えば、16×32画素)に正規化することにより生成する。切り取る領域を平行移動させることにより、ずれ画像内での識別対象の位置をずらすことができる。左右方向へ移動させる場合の移動量72は、Pos64の横サイズの2.5%、及び5%の量とする。同様に、上下方向へ移動させる場合の移動量は、Pos64の縦サイズの2.5%、及び5%の量とする。
また、同図(B)に示すように、識別対象の大きさをずらした大きさずれ画像70bは、対象物画像の学習用画像60のPos64を切り取った領域と中心を同じくする領域であって、Pos64のサイズを拡縮させた領域を切り取って、所定のサイズ(例えば、16×32画素)に正規化することにより生成する。拡縮による大きさずれ量は、拡大率105%、及び縮小率95%とする。切り取る領域のサイズを拡縮することにより、ずれ画像内での識別対象のサイズを95%または105%に拡縮することができる。
上記のように、Pos64について、左右方向にそれぞれ2.5%、及び5%ずらした位置ずれ画像を5種類、上下方向にそれぞれ2.5%、及び5%ずらした位置ずれ画像を5種類、拡大率105%、及び縮小率95%に拡縮した大きさずれ画像を3種類(それぞれずれ量なしの場合を含む)、合計75種類のずれ画像を生成する。
なお、位置ずれ画像70a生成の際の移動量を、Pos64の横または縦サイズの2.5%、及び5%、大きさずれ画像70b生成の際の大きさずれ量を、拡大率105%、及び縮小率95%としたのは、位置ずれ及び大きさずれのずれ量が5%を超えるずれ画像では、歩行者として識別されない可能性が高まるため、第2の識別モデル生成の際に用いる学習用画像とするには現実的ではないからである。
次に、ステップ112で、Pos64について生成されたずれ画像の各々と上記ステップ108で生成した第1の識別モデルとを比較することにより、ずれ画像の各々について識別のし易さを示す評価値を算出する。ここでは、第1の識別モデルとしてブースティングアルゴリズムによるカスケード型識別器を用いているため、評価値として下記(1)式のEを用いる。
Figure 0005100688
ここで、Sは、カスケード型識別器のステージ数(弱識別器の数)、Vは、ステージiのステージ評価値、Thrは、ステージiのステージ閾値である。カスケード型識別器は、例えば、Haar−like特徴の集合からなる弱識別器がi個並列に接続された識別器であり、ステージ1でのステージ評価値Vがステージ閾値Thr以上の場合にはステージ2へ進み、ステージ2でのステージ評価値Vがステージ閾値Thr以上の場合にはステージ3へ進み、最終的にステージSでのステージ評価値Vがステージ閾値Thr以上の場合に、入力データ(ずれ画像)が歩行者であると識別する。ステージ評価値Vは、ステージiの弱識別器が示す特徴がずれ画像からどの程度抽出されるかを示す値であり、ステージ評価値Vが高い程、歩行者としての確からしさが高いことを示す。従って、Eの値が大きい程、ずれ画像が歩行者として識別し易く、Eの値が小さい程、ずれ画像が歩行者として識別し難いことを示している。
次に、ステップ114で、Pos64について生成された75種類のずれ画像のうち、評価値が最小のずれ画像、すなわち最も識別し難いずれ画像を選択する。次に、ステップ116で、Positiveデータ(1)に含まれる全てのPos64について評価値が最小のずれ画像を選択したか否かを判断する。選択した場合には、ステップ118へ進み、選択していない場合には、ステップ110へ戻って処理を繰り返す。図4(B)に示すように、全てのPos64についての評価値が最小のずれ画像(Posimin64)をまとめてPositiveデータ(2)とする。
次に、ステップ118で、図4(C)に示すように、Positiveデータ(2)及びNegativeデータ(1)を用いて、上記ステップ108で第1の識別モデルを生成したのと同様の手法により第2の識別モデルを生成する。生成した第2の識別モデルを識別モデル記憶部58に記憶して、処理を終了する。
次に、図6を参照して、本実施の形態における歩行者検出の処理ルーチンについて説明する。
ステップ200で、撮像装置12で撮像された画像が入力され、次に、ステップ202で、入力画像に対して例えば16×32画素の探索ウインドウを入力画像の所定領域(例えば、左角の領域)に設定し、設定した探索ウインドウを用いて、入力画像から16×32画素のウインドウ画像を抽出する。
次に、ステップ204で、ウインドウ画像と第2の識別モデルとを比較することにより、ウインドウ画像が識別対象である歩行者か否かを識別する。ウインドウ画像が歩行者であると識別された場合には、ステップ206へ進み、探索ウインドウの位置及び大きさ等の情報をリストとしてRAMに保存して、次のステップ208へ進む。一方、歩行者であると識別されなかった場合には、そのままステップ208へ進む。
ステップ208で、入力画像全体について探索ウインドウをスキャンして探索が終了したか否かを判断する。終了した場合は、ステップ212へ進む。終了していない場合は、ステップ210へ進み、探索ウインドウの位置を予め定められた探索ステップだけ移動させて、ステップ202に戻り、ステップ202〜ステップ208の処理を繰り返す。現サイズの探索ウインドウでの画像全体の探索が終了すると、ステップ212へ進む。
ステップ212で、全てのサイズの探索ウインドウでの探索が終了したか否かを判断する。ここで、探索ウインドウは歩行者を検出するためのウインドウ画像を抽出するためのフレームとして用いられているが、探索ウインドウのサイズが異なれば、様々なサイズの歩行者(近くに存在する歩行者、遠くに存在する歩行者など)を検出することができる。本実施の形態では、様々なサイズの探索ウインドウが予め用意されており、各々の探索ウインドウで画像全体を探索する必要がある。終了した場合は、ステップ216へ進み、終了していない場合は、ステップ214へ進む。
ステップ214で、探索ウインドウのサイズを1ステップ拡大(例えば、探索ウインドウのサイズを1.2倍)して、ステップ202へ戻り、ステップ202〜ステップ212の処理を繰り返す。なお、設定した探索ウインドウが16×32画素を超えるサイズのウインドウであった場合には、抽出したウインドウ画像を16×32画素に変換する。すべてのサイズの探索ウインドウでの探索が終了すると、ステップ216へ進む。
ステップ216で、リストに保存した情報に基づいて、入力画像に対して、検出された歩行者がウインドウで囲まれて表示されるように表示装置18を制御する。
ここで、図7〜図11に、本実施の形態の歩行者検出装置10の検出性能を評価した評価結果を示す。
図7は、歩行者検出率と1フレーム当たりの誤検出数をプロットしたROC曲線(receiver operating characteristic curve)である。検出率、及び誤検出数は以下のように定義する。
検出率 =検出された歩行者/検出対象となる歩行者
誤検出数=検出対象以外に対する検出数/評価フレーム数
ROC曲線では、グラフの左上方領域にプロットされるほど性能が高い。すなわちx軸が同じ(誤検出数が等しい)場合は、y軸の値が大きいほど検出率が高く、y軸が同じ(検出率が等しい)場合は、x軸の値が小さいほど誤検出数が少ないことを意味する。
図7において、▲印は、本実施の形態の場合(第2の識別モデルを用いた場合)、□印は、ずれ画像からランダムに選択した画像を用いて生成した参考識別モデルを用いた場合、◆印は、従来どおり第1の識別モデルを用いた場合である。計算時間を抑えるため、探索ウインドウのサイズ及び探索ステップは粗い設定(以下、粗探索ともいう)とした。図7に示すとおり、粗探索を行った場合、本実施の形態の識別モデルを用いた場合が最も検出性能が高い。
次に、図9に、本実施の形態の識別モデルで粗探索を行った場合(▲印)、従来どおり第1の識別モデルを用いて粗探索を行った場合(□印)、第1の識別モデルを用いて粗探索の4倍の細かさ(探索ステップが粗探索の1/4)で探索を行った場合(◆印)、第1の識別モデルを用いて粗探索の8倍の細かさ(探索ステップが粗探索の1/8)で探索(以下、密探索ともいう。4倍の場合も同様)を行った場合(×印)のROC曲線を示す。本実施の形態では粗探索の場合でも、従来の識別モデルを用いた場合の密探索と同程度の検出性能となった。
また、歩行者検出に要する計算時間には、探索ウインドウのサイズ及び探索ステップだけでなく、識別モデルの大きさを表す特徴数も影響するため、特徴数についても評価を行った。図8及び図10に誤検出数に対する特徴数を示す。ここで、各場合における歩行者検出の計算コストを比較するため、計算コストを以下のとおり定義する。
計算コスト = 特徴数 × 探索回数
ここで、探索回数は、粗探索を「1」とした場合の探索の細かさで、粗探索の4倍の細かさで探索を行った場合は「4」、粗探索の8倍の細かさで探索を行った場合は「8」となる。
誤検出数2及び6個/フレームのときの特徴数を補間により求め、その際の計算コストを比較した比較表を図11に示す。検出性能が同程度である従来の識別モデルを用いて密探索を行った場合と比較すると、本実施の形態による計算コストが最も低い。
以上説明したように、本実施の形態の歩行者検出装置によれば、第1の識別モデル生成で用いたPositiveデータ(1)について、識別対象の位置及び大きさの少なくとも一方をずらしたずれ画像を複数生成し、生成した複数のずれ画像の中から識別のし易さを示す評価値が最小のずれ画像を用いて第2の識別モデルを生成する。これにより、第2の識別モデルは、第1の識別モデルに比べて、入力画像から抽出されたウインドウ画像内での識別対象の位置ずれ及び大きさずれに対して耐性が強くなり、粗探索を行って計算コストを低く抑えた場合でも、歩行者検出の精度を向上させることができる。
なお、本実施の形態では、識別モデルとしてブースティングアルゴリズムを用いたカスケード型識別器を生成する場合について説明したが、線形SVM(Support Vector Machine)や非線形SVMを用いた手法等、他の周知の手法を用いて識別モデルを生成してもよい。この場合、ずれ画像の識別し易さまたはし難さを示す評価値は、識別モデル生成に用いた手法に対応して、識別のし易さまたはし難さを評価できる値を用いるとよい。例えば、線形SVMを用いた場合には(2)式のg(x)または|g(x)|を評価値として用いることができる。
Figure 0005100688
ここで、xは入力ベクトル、w及びbは識別関数を決定するパラメータである。
また、非線形SVMを用いた場合には(3)式のg(x)または|g(x)|を評価値として用いることができる。
Figure 0005100688
ここで、xは入力ベクトル、w及びbは識別関数を決定するパラメータ、x(〜)はSV(サポートベクター)、mはSVの数、K(x、x)はx及びxを引数とするカーネル関数である。
10 歩行者検出装置
22 ウインドウ画像抽出部
28 検出部
30 表示制御部
50 識別モデル生成装置
52 第1の識別モデル生成部
54 ずれ画像生成評価部
56 第2の識別モデル生成部
58 識別モデル記憶部

Claims (6)

  1. 入力画像に対して所定サイズのウインドウ枠を所定量ずつ移動させながら前記入力画像から前記ウインドウ枠内の画像をウインドウ画像として複数抽出する抽出手段と、
    前記抽出手段により抽出されたウインドウ画像の各々と、各々が異なる識別対象をウインドウ内に含む複数の第1の学習用画像、及び各々が前記識別対象以外の異なる対象をウインドウ内に含む複数の第2の学習用画像を用いて学習することにより第1の識別モデルを生成する第1の識別モデル生成手段と、前記第1の学習用画像の各々について、第1の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成するずれ画像生成手段と、前記ずれ画像生成手段で生成された複数のずれ画像の各々と、前記第1の識別モデルとを比較することにより、前記ずれ画像の識別のし易さまたはし難さを示す評価値を算出する算出手段と、前記算出手段で算出された評価値に基づいて、識別し難いずれ画像を前記第1の学習用画像の各々について該第1の学習用画像に対応する第3の学習用画像として選択し、前記複数の第1の学習用画像の各々に対応して選択された複数の第3の学習用画像、及び前記複数の第2の学習用画像を用いて学習することにより第2の識別モデルを生成する第2の識別モデル生成手段と、を含む識別モデル生成装置で生成された前記第2の識別モデルとを比較して、ウインドウ画像が識別対象であるか否かを識別することにより、前記入力画像から識別対象を検出する検出手段と、
    を含む対象物検出装置
  2. 前記第2の識別モデルは、前記第2の識別モデル生成手段が、前記ずれ画像の中で最も識別し難いずれ画像を前記第3の学習用画像として選択することにより生成された請求項1記載の対象物検出装置。
  3. 前記第2の識別モデルは、前記ずれ画像生成手段、前記第1の学習用画像の各々について、前記識別対象の位置をウインドウの上下方向及び左右方向の長さの5%以下の量、ウインドウの上下方向及び左右方向にずらすことにより生成したずれ画像を用いて生成された請求項1または請求項2記載の対象物検出装置。
  4. 前記第2の識別モデルは、前記ずれ画像生成手段、前記第1の学習用画像の各々について、ウインドウ内で識別対象を縮小率95%以上または拡大率105%以下で拡縮することにより生成したずれ画像を用いて生成された請求項1〜請求項3のいずれか1項記載の対象物検出装置。
  5. コンピュータを、
    入力画像に対して所定サイズのウインドウ枠を所定量ずつ移動させながら前記入力画像から前記ウインドウ枠内の画像をウインドウ画像として複数抽出する抽出手段、及び
    前記抽出手段により抽出されたウインドウ画像の各々と、各々が異なる識別対象をウインドウ内に含む複数の第1の学習用画像、及び各々が前記識別対象以外の異なる対象をウインドウ内に含む複数の第2の学習用画像を用いて学習することにより第1の識別モデルを生成する第1の識別モデル生成手段と、前記第1の学習用画像の各々について、第1の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成するずれ画像生成手段と、前記ずれ画像生成手段で生成された複数のずれ画像の各々と、前記第1の識別モデルとを比較することにより、前記ずれ画像の識別のし易さまたはし難さを示す評価値を算出する算出手段と、前記算出手段で算出された評価値に基づいて、識別し難いずれ画像を前記第1の学習用画像の各々について該第1の学習用画像に対応する第3の学習用画像として選択し、前記複数の第1の学習用画像の各々に対応して選択された複数の第3の学習用画像、及び前記複数の第2の学習用画像を用いて学習することにより第2の識別モデルを生成する第2の識別モデル生成手段と、を含む識別モデル生成装置で生成された前記第2の識別モデルとを比較して、ウインドウ画像が識別対象であるか否かを識別することにより、前記入力画像から識別対象を検出する検出手段
    として機能させるための対象物検出プログラム。
  6. コンピュータを、請求項1〜請求項4のいずれか1項記載の対象物検出装置を構成する各手段として機能させるための対象物検出プログラム。
JP2009056244A 2009-03-10 2009-03-10 対象物検出装置及びプログラム Active JP5100688B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009056244A JP5100688B2 (ja) 2009-03-10 2009-03-10 対象物検出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009056244A JP5100688B2 (ja) 2009-03-10 2009-03-10 対象物検出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2010211460A JP2010211460A (ja) 2010-09-24
JP5100688B2 true JP5100688B2 (ja) 2012-12-19

Family

ID=42971556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009056244A Active JP5100688B2 (ja) 2009-03-10 2009-03-10 対象物検出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5100688B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013218476A (ja) * 2012-04-06 2013-10-24 Denso Corp 画像認識装置
JP6436357B2 (ja) * 2016-02-12 2018-12-12 マツダ株式会社 車両用の歩行者動作識別装置
JP7037875B2 (ja) * 2016-06-20 2022-03-17 日本電信電話株式会社 画像正規化装置、方法、及びコンピュータ読み取り可能な記録媒体
JP7071847B2 (ja) * 2018-03-05 2022-05-19 株式会社 ディー・エヌ・エー 自動運転車両を制御するためのシステム、方法、及びプログラム
JP7208480B2 (ja) 2018-10-12 2023-01-19 富士通株式会社 学習プログラム、検出プログラム、学習装置、検出装置、学習方法および検出方法
CN111382642A (zh) * 2018-12-29 2020-07-07 北京市商汤科技开发有限公司 人脸属性识别方法及装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06231257A (ja) * 1993-02-02 1994-08-19 Nec Corp 学習データ生成装置
JP3906197B2 (ja) * 2003-10-21 2007-04-18 株式会社東芝 パターン識別方法及びパターン識別装置及びプログラム
JP4708909B2 (ja) * 2005-08-09 2011-06-22 富士フイルム株式会社 デジタル画像の対象物検出方法および装置並びにプログラム

Also Published As

Publication number Publication date
JP2010211460A (ja) 2010-09-24

Similar Documents

Publication Publication Date Title
JP6088792B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
US6961466B2 (en) Method and apparatus for object recognition
JP4933186B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP5517504B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP5100688B2 (ja) 対象物検出装置及びプログラム
JP2014115978A (ja) 移動物体認識装置及びこれを用いた報知装置及びその移動物体認識装置に用いる移動物体認識用プログラム及び移動物体認識装置を備えた移動体
JP5671928B2 (ja) 学習装置、学習方法、識別装置、識別方法、およびプログラム
JP6095817B1 (ja) 物体検出装置
JP4903192B2 (ja) 顔検出装置
JP6177541B2 (ja) 文字認識装置、文字認識方法及びプログラム
JP5691834B2 (ja) 画像識別装置及びプログラム
JP2010262576A (ja) 対象物検出装置及びプログラム
JP6340228B2 (ja) 物体検出装置
JP5201184B2 (ja) 画像処理装置及びプログラム
JP2011165170A (ja) 対象物検出装置及びプログラム
JP5020920B2 (ja) 歩行者検出装置及びプログラム
WO2005041128A1 (ja) 顔画像候補領域検索方法及び顔画像候補領域検索システム並びに顔画像候補領域検索プログラム
CN109074646B (zh) 图像识别装置以及图像识别程序
CN112926463A (zh) 一种目标检测方法和装置
JP7258632B2 (ja) 物体検出装置
JP5010627B2 (ja) 文字認識装置及び文字認識方法
CN112001448A (zh) 一种形状规则小物体检测方法
JP5120627B2 (ja) 画像処理装置および画像処理プログラム
JP5829155B2 (ja) 歩行者検出装置及びプログラム
JP5439069B2 (ja) 文字認識装置及び文字認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5100688

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250