JP5100688B2

JP5100688B2 - 対象物検出装置及びプログラム

Info

Publication number: JP5100688B2
Application number: JP2009056244A
Authority: JP
Inventors: 美也子馬場; 歳康勝野; 展彦井上
Original assignee: Denso Corp; Toyota Central R&D Labs Inc
Current assignee: Denso Corp; Toyota Central R&D Labs Inc
Priority date: 2009-03-10
Filing date: 2009-03-10
Publication date: 2012-12-19
Anticipated expiration: 2029-03-10
Also published as: JP2010211460A

Description

本発明は、対象物検出装置及びプログラムに係り、特に、撮像した画像から対象物を検出するための対象物検出装置及びプログラムに関する。

近年、車載カメラで撮像した車両周辺の映像を画像処理し、歩行者などの対象物を検出してドライバに検出結果を提示する対象物検出装置を搭載する車両が増加している。

対象物を検出する方法として、予め対象物パターンを学習させた識別モデルを生成しておき、入力された画像が識別モデルに登録されたデータに近いか否かを判断することで対象物を検出する方法が一般的である。具体的には、例えば、Ｖｉｏｌａ＆Ｊｏｎｅｓの手法等、様々な手法がある。

このように入力画像と識別モデルとを比較することにより対象物を検出する場合において、入力画像と識別モデルとの間に位置ずれや大きさのずれが生じていると正確に対象物を検出することができない。そこで、入力画像の部分領域と、予め保存してある教示画像の部分領域とに対して、入力画像の部分領域における座標と、それと同じ座標を含む教示画像の複数の座標点の間で輝度差分の絶対値をとり、そのうち最も小さい値をその座標における輝度値として第１出力画像を作成し、第１出力画像が輝度値ゼロの画像に近い場合、入力画像の部分領域と教示画像の部分領域とが同一であると判定する画像認識装置が提案されている（例えば、特許文献１参照）。

また、入力画像の部分領域を抽出するには、入力画像の全画面に対して所定サイズの探索ウインドウを所定の探索ステップでスキャンしながら抽出することが行われている。

特開２００１−２２９２６号公報

しかしながら、特許文献１の画像認識装置では、対象物検出の精度を向上させるためには、対象物画像の部分領域に対応して教示画像の部分領域から取る座標の数を多くする必要があり、比較する座標の数が多いほど識別に要する時間が長くなる、という問題がある。また、部分領域を抽出する際に、探索ウインドウのサイズの種類を多くしたり、探索ステップを小さくしたりするなどして密な探索を行うと、探索回数が増加し、識別に要する時間が長くなる、という問題がある。

本発明は、上述した問題を解決するために成されたものであり、識別に要する時間が長くなることを抑制するために粗い探索を行った場合でも、対象物検出の精度を向上させることができる識別モデル生成装置、対象物検出装置、及び識別モデル生成プログラムを提供することを目的とする。

上記目的を達成するために本発明の対象物検出装置は、入力画像に対して所定サイズのウインドウ枠を所定量ずつ移動させながら前記入力画像から前記ウインドウ枠内の画像をウインドウ画像として複数抽出する抽出手段と、前記抽出手段により抽出されたウインドウ画像の各々と、各々が異なる識別対象をウインドウ内に含む複数の第１の学習用画像、及び各々が前記識別対象以外の異なる対象をウインドウ内に含む複数の第２の学習用画像を用いて学習することにより第１の識別モデルを生成する第１の識別モデル生成手段と、前記第１の学習用画像の各々について、第１の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成するずれ画像生成手段と、前記ずれ画像生成手段で生成された複数のずれ画像の各々と、前記第１の識別モデルとを比較することにより、前記ずれ画像の識別のし易さまたはし難さを示す評価値を算出する算出手段と、前記算出手段で算出された評価値に基づいて、識別し難いずれ画像を前記第１の学習用画像の各々について該第１の学習用画像に対応する第３の学習用画像として選択し、前記複数の第１の学習用画像の各々に対応して選択された複数の第３の学習用画像、及び前記複数の第２の学習用画像を用いて学習することにより第２の識別モデルを生成する第２の識別モデル生成手段と、を含む識別モデル生成装置で生成された前記第２の識別モデルとを比較して、ウインドウ画像が識別対象であるか否かを識別することにより、前記入力画像から識別対象を検出する検出手段とを含んで構成されている。

また、本発明の対象物検出プログラムは、コンピュータを、入力画像に対して所定サイズのウインドウ枠を所定量ずつ移動させながら前記入力画像から前記ウインドウ枠内の画像をウインドウ画像として複数抽出する抽出手段、及び前記抽出手段により抽出されたウインドウ画像の各々と、各々が異なる識別対象をウインドウ内に含む複数の第１の学習用画像、及び各々が前記識別対象以外の異なる対象をウインドウ内に含む複数の第２の学習用画像を用いて学習することにより第１の識別モデルを生成する第１の識別モデル生成手段と、前記第１の学習用画像の各々について、第１の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成するずれ画像生成手段と、前記ずれ画像生成手段で生成された複数のずれ画像の各々と、前記第１の識別モデルとを比較することにより、前記ずれ画像の識別のし易さまたはし難さを示す評価値を算出する算出手段と、前記算出手段で算出された評価値に基づいて、識別し難いずれ画像を前記第１の学習用画像の各々について該第１の学習用画像に対応する第３の学習用画像として選択し、前記複数の第１の学習用画像の各々に対応して選択された複数の第３の学習用画像、及び前記複数の第２の学習用画像を用いて学習することにより第２の識別モデルを生成する第２の識別モデル生成手段とを含む識別モデル生成装置で生成された前記第２の識別モデルとを比較して、ウインドウ画像が識別対象であるか否かを識別することにより、前記入力画像から識別対象を検出する検出手段として機能させるためのプログラムである。

本発明の対象物検出装置及びプログラムで用いられる第２の識別モデルを生成する識別モデル生成装置によれば、第１の識別モデル生成手段が、各々が異なる識別対象をウインドウ内に含む複数の第１の学習用画像、及び各々が識別対象以外の異なる対象をウインドウ内に含む複数の第２の学習用画像を用いて学習することにより第１の識別モデルを生成する。そして、ずれ画像生成手段が、第１の識別モデルを生成する際に用いられた第１の学習用画像の各々について、第１の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成し、算出手段が、ずれ画像生成手段で生成された複数のずれ画像の各々と、第１の識別モデルとを比較することにより、ずれ画像の識別のし易さまたはし難さを示す評価値を算出する。そして、第２の識別モデル生成手段が、算出手段で算出された評価値に基づいて、識別し難いずれ画像を第１の学習用画像の各々について該第１の学習用画像に対応する第３の学習用画像として選択し、複数の第１の学習用画像の各々に対応して選択された複数の第３の学習用画像、及び複数の第２の学習用画像を用いて学習することにより第２の識別モデルを生成する。

このように、第１の識別モデルと比較して識別し難いと評価されたずれ画像を用いて第２の識別モデルを生成するため、第２の識別モデルを用いて識別対象を検出する際に、識別に要する時間が長くなることを抑制するために粗い探索を行い、入力画像から抽出された画像に位置ずれや大きさずれが生じているような場合でも、対象物検出の精度を向上させることができる。

また、前記ずれ画像の中で最も識別し難いずれ画像を前記第３の学習用画像として選択することができる。

また、前記ずれ画像生成手段は、前記第１の学習用画像の各々について、前記識別対象の位置をウインドウの上下方向及び左右方向の長さの５％以下の量、ウインドウの上下方向及び左右方向にずらすことによりずれ画像を生成するようにしたり、前記第１の学習用画像の各々について、ウインドウ内で識別対象を縮小率９５％以上または拡大率１０５％以下で拡縮することによりずれ画像を生成するようにしたりすることができる。位置ずれ及び大きさずれのずれ量が５％を超えるずれ画像では、識別対象として識別されない可能性が高まるため、第２の識別モデル生成の際に用いる学習用画像とするには現実的ではない。そこで、ずれ画像を生成する際の位置ずれ及び大きさずれのずれ量を５％以下とすることで、適切なずれ画像を生成することができる。

本発明の対象物検出装置によれば、上記の識別モデル生成装置により生成された第２の識別モデルを用いて対象物の検出を行うため、識別に要する時間が長くなることを抑制するために粗い探索を行った場合でも、対象物検出の精度を向上させることができる。

以上説明したように、本発明によれば、識別に要する時間が長くなることを抑制するために粗い探索を行った場合でも、対象物検出の精度を向上させることができる、という効果が得られる。

本実施の形態に係る歩行者検出装置の概略構成を示すブロック図である。本実施の形態における識別モデル生成処理ルーチンを示すフローチャートである。（Ａ）対象物画像の学習用画像、及び（Ｂ）非対象物画像の学習用画像について説明するための図である。本実施の形態の識別モデル生成の流れを説明するための図である。（Ａ）位置ずれ画像、及び（Ｂ）大きさずれ画像の生成を説明するための図である。本実施の形態における歩行者検出処理ルーチンを示すフローチャートである。本実施の形態の場合、参考識別モデルを用いた場合、及び第１の識別モデルを用いた場合の歩行者検出性能を示すＲＯＣ曲線である。本実施の形態の場合、参考識別モデルを用いた場合、及び第１の識別モデルを用いた場合の誤検出数に対する特徴数を示すグラフである。本実施の形態で粗探索を行った場合、第１の識別モデルで粗探索を行った場合、第１の識別モデルを用いて４倍の密検索を行った場合、第１の識別モデルを用いて８倍の密探索を行った場合の歩行者検出性能を示すＲＯＣ曲線である。本実施の形態で粗探索を行った場合、第１の識別モデルで粗探索を行った場合、第１の識別モデルを用いて４倍の密検索を行った場合、第１の識別モデルを用いて８倍の密探索を行った場合の誤検出数に対する特徴数を示すグラフである。計算コストを比較した表である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、対象物として歩行者を検出する歩行者検出装置に本発明の対象物検出装置を適用した場合について説明する。

図１に示すように、本実施の形態に係る歩行者検出装置１０は、識別対象領域を含む範囲を撮像する撮像装置１２と、撮像装置１２から出力される撮像画像に基づいて歩行者を検出する歩行者検出処理ルーチンを実行するコンピュータ１６と、コンピュータ１６での処理結果を表示するための表示装置１８とを備えている。

撮像装置１２は、識別対象領域を含む範囲を撮像し、画像信号を生成する撮像部（図示省略）と、撮像部で生成されたアナログ信号である画像信号をデジタル信号に変換するＡ／Ｄ変換部（図示省略）と、Ａ／Ｄ変換された画像信号を一時的に格納するための画像メモリ（図示省略）とを備えている。

コンピュータ１６は、歩行者検出装置１０全体の制御を司るＣＰＵ、後述する歩行者検出処理のプログラム等を記憶した記憶媒体としてのＲＯＭ、ワークエリアとしてデータを一時格納するＲＡＭ、及びこれらを接続するバスを含んで構成されている。このような構成の場合には、各構成要素の機能を実現するためのプログラムをＲＯＭやＨＤＤ等の記憶媒体に記憶しておき、これをＣＰＵが実行することによって、各機能が実現されるようにする。

このコンピュータ１６をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図１に示すように、撮像装置１２で撮像されコンピュータ１６へ入力された入力画像から所定領域を抽出するウインドウ画像抽出部２２と、ウインドウ画像抽出部２２により抽出されたウインドウ画像と識別モデルとを比較することにより、入力画像から歩行者を検出する検出部２８と、撮像装置１２によって撮像された撮像画像に、検出部２８による検出結果を重畳させて表示装置１８に表示するよう制御する表示制御部３０とを含んだ構成で表すことができる。

ウインドウ画像抽出部２２は、入力画像から予め定められたサイズのウインドウ（探索ウインドウと呼称）を１ステップにつき、予め定められた移動量（探索ステップと呼称）だけ移動させながら画像を切り取る。ここでは、切り取った画像をウインドウ画像といい、ウインドウ画像のサイズ（すなわち探索ウインドウのサイズ）をウインドウサイズと呼称する。ウインドウサイズは様々なサイズの歩行者を検出するために複数種設定されており、ウインドウ画像抽出部２２は、設定されている全てのウインドウサイズの探索ウインドウを用いてウインドウ画像を抽出する。また、ウインドウ画像抽出部２２は、抽出したウインドウ画像を予め設定された画素数の画像（例えば、横１６×縦３２画素の画像）に変換する。

検出部２８は、ウインドウ画像抽出部２２により抽出されたウインドウ画像と、後述する識別モデル生成装置５０で生成された第２の識別モデルとを比較してウインドウ画像が識別対象であるか否かを識別し、ウインドウ画像が識別対象であると識別された場合には、入力画像内におけるウインドウ画像を歩行者として検出する。

識別モデル生成装置５０は、ＣＰＵ、ＲＯＭ、ＲＡＭ、及び内蔵ＨＤＤ等を含んで構成されたコンピュータで構成することができる。このような構成の場合には、各構成要素の機能を実現するためのプログラムをＲＯＭやＨＤＤ等の記憶媒体に記憶しておき、これをＣＰＵが実行することによって、各機能が実現されるようにする。また、識別モデル生成装置５０を歩行者検出装置１０と互いに独立したマイクロコンピュータで構成してもよいし、同一コンピュータ上で構成することも可能である。

識別モデル生成装置５０をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図１に示すように、入力された学習用画像を用いて学習して第１の識別モデルを生成する第１の識別モデル生成部５２と、入力された学習用画像から位置及び大きさの少なくとも一方をずらしたずれ画像を生成し、生成したずれ画像の識別のし易さまたはし難さを評価するずれ画像生成評価部５４と、ずれ画像生成評価部５４で、評価値が最小となったずれ画像を学習用画像として用いて学習して第２の識別モデルを生成する第２の識別モデル生成部５６と、第２の識別モデル生成部５６で生成された第２の識別モデルを記憶する識別モデル記憶部５８とを含んだ構成で表すことができる。

第１の識別モデル生成部５２は、様々な服装、背景、大きさ等のバリエーションを持つ歩行者が撮影された対象物画像の学習用画像、及び標識、自動車、背景等の歩行者以外が撮影された非対象物画像の学習用画像が所定枚数（例えば、各１０００枚）入力されると、これらの学習用画像をブースティングアルゴリズムを用いて学習して、第１の識別モデルとしてカスケード型識別器を生成する。

ずれ画像生成評価部５４は、対象物画像の学習用画像について、上下方向及び左右方向に識別対象の位置をずらしたずれ画像、識別対象を拡縮することにより識別対象の大きさをずらしたずれ画像、及び識別対象の位置及び大きさの両方をずらしたずれ画像を生成する。生成されたずれ画像の各々と第１の識別モデルとを比較し、ずれ画像の各々について識別のし易さを示す評価値を算出する。

第２の識別モデル生成部５６は、第１の識別モデル生成の際に用いた対象物画像の学習用画像毎に、最も識別し難い（評価値最小）ずれ画像を選択し、選択された評価値最小のずれ画像、及び第１の識別モデル生成の際に用いた非対象物画像の学習用画像を用いて、第１の識別モデルを生成した際と同様の手法により第２の識別モデルを生成する。

識別モデル記憶部５８は、ハードディスクドライブ（ＨＤＤ）やＣＤ−ＲＯＭ等のように、内蔵または外付けの記憶手段であって、第２の識別モデルを記憶できる媒体により構成されている。識別モデル記憶部５８に記憶された第２の識別モデルは、歩行者検出装置１０の検出部２８で歩行者の検出に利用される。

ここで、図２を参照して、識別モデル生成処理ルーチンについて説明する。

ステップ１００で、学習用画像を１枚入力する。次に、ステップ１０２で、図３（Ａ）に示すように、入力された学習用画像が対象物画像の学習用画像６０の場合には、対象物画像の学習用画像６０の中で歩行者６２が含まれている領域を所定の縦横比（例えば、横１：縦２）で切り取る。また、同図（Ｂ）に示すように、入力された学習用画像が非対象物画像の学習用画像６６の場合には、非対象物画像の学習用画像６６の所定領域を所定の縦横比（例えば、横１：縦２）で切り取る。

次にステップ１０４で、切り取った画像をバイリニア法等により、所定のサイズ（例えば、１６×３２画素）に正規化する。正規化された対象物画像の学習用画像をＰｏｓ_ｉ６４（ｉ＝１、２、・・・、ｎ：ｎは用意した対象物画像の学習用画像６０の枚数、例えば１０００枚）とし、正規化された非対象物画像の学習用画像をＮｅｇ_ｉ６８（ｉ＝１、２、・・・、ｍ：ｍは用意した非対象物画像の学習用画像６６の枚数、例えば１０００枚）とする。Ｐｏｓ_１〜Ｐｏｓ_ｎをＰｏｓｉｔｉｖｅデータ（１）とし、Ｎｅｇ_１〜Ｎｅｇ_ｍをＮｅｇａｔｉｖｅデータ（１）とする。

次に、ステップ１０６で、用意しておいたすべての学習用画像について、上記ステップ１０２及びステップ１０４の処理が終了したか否かを判断する。終了した場合には、ステップ１０８へ進み、終了していない場合には、ステップ１００へ戻り、次の学習用画像を入力して、処理を繰り返す。

ステップ１０８で、図４（Ａ）に示すように、Ｐｏｓｉｔｉｖｅデータ（１）及びＮｅｇａｔｉｖｅデータ（１）を用いてブースティングアルゴリズムにより学習して、第１の識別モデルとしてカスケード型識別器を生成する。生成した第１の識別モデルは、一旦所定の記憶領域に記憶する。

次に、ステップ１１０で、第１の識別モデル生成に用いたＰｏｓｉｔｉｖｅデータ（１）の各々について、対象物画像の学習用画像６０を用いてずれ画像を生成する。図５（Ａ）に示すように、識別対象の位置をずらした位置ずれ画像７０ａは、対象物画像の学習用画像６０のＰｏｓ_ｉ６４を切り取った領域から、左右方向及び上下方向の少なくとも一方へ平行移動した領域を切り取って、所定のサイズ（例えば、１６×３２画素）に正規化することにより生成する。切り取る領域を平行移動させることにより、ずれ画像内での識別対象の位置をずらすことができる。左右方向へ移動させる場合の移動量７２は、Ｐｏｓ_ｉ６４の横サイズの２．５％、及び５％の量とする。同様に、上下方向へ移動させる場合の移動量は、Ｐｏｓ_ｉ６４の縦サイズの２．５％、及び５％の量とする。

また、同図（Ｂ）に示すように、識別対象の大きさをずらした大きさずれ画像７０ｂは、対象物画像の学習用画像６０のＰｏｓ_ｉ６４を切り取った領域と中心を同じくする領域であって、Ｐｏｓ_ｉ６４のサイズを拡縮させた領域を切り取って、所定のサイズ（例えば、１６×３２画素）に正規化することにより生成する。拡縮による大きさずれ量は、拡大率１０５％、及び縮小率９５％とする。切り取る領域のサイズを拡縮することにより、ずれ画像内での識別対象のサイズを９５％または１０５％に拡縮することができる。

上記のように、Ｐｏｓ_ｉ６４について、左右方向にそれぞれ２．５％、及び５％ずらした位置ずれ画像を５種類、上下方向にそれぞれ２．５％、及び５％ずらした位置ずれ画像を５種類、拡大率１０５％、及び縮小率９５％に拡縮した大きさずれ画像を３種類（それぞれずれ量なしの場合を含む）、合計７５種類のずれ画像を生成する。

なお、位置ずれ画像７０ａ生成の際の移動量を、Ｐｏｓ_ｉ６４の横または縦サイズの２．５％、及び５％、大きさずれ画像７０ｂ生成の際の大きさずれ量を、拡大率１０５％、及び縮小率９５％としたのは、位置ずれ及び大きさずれのずれ量が５％を超えるずれ画像では、歩行者として識別されない可能性が高まるため、第２の識別モデル生成の際に用いる学習用画像とするには現実的ではないからである。

次に、ステップ１１２で、Ｐｏｓ_ｉ６４について生成されたずれ画像の各々と上記ステップ１０８で生成した第１の識別モデルとを比較することにより、ずれ画像の各々について識別のし易さを示す評価値を算出する。ここでは、第１の識別モデルとしてブースティングアルゴリズムによるカスケード型識別器を用いているため、評価値として下記（１）式のＥを用いる。

ここで、Ｓは、カスケード型識別器のステージ数（弱識別器の数）、Ｖ_ｉは、ステージｉのステージ評価値、Ｔｈｒ_ｉは、ステージｉのステージ閾値である。カスケード型識別器は、例えば、Ｈａａｒ−ｌｉｋｅ特徴の集合からなる弱識別器がｉ個並列に接続された識別器であり、ステージ１でのステージ評価値Ｖ_１がステージ閾値Ｔｈｒ_１以上の場合にはステージ２へ進み、ステージ２でのステージ評価値Ｖ_２がステージ閾値Ｔｈｒ_２以上の場合にはステージ３へ進み、最終的にステージＳでのステージ評価値Ｖ_Ｓがステージ閾値Ｔｈｒ_Ｓ以上の場合に、入力データ（ずれ画像）が歩行者であると識別する。ステージ評価値Ｖ_ｉは、ステージｉの弱識別器が示す特徴がずれ画像からどの程度抽出されるかを示す値であり、ステージ評価値Ｖ_ｉが高い程、歩行者としての確からしさが高いことを示す。従って、Ｅの値が大きい程、ずれ画像が歩行者として識別し易く、Ｅの値が小さい程、ずれ画像が歩行者として識別し難いことを示している。

次に、ステップ１１４で、Ｐｏｓ_ｉ６４について生成された７５種類のずれ画像のうち、評価値が最小のずれ画像、すなわち最も識別し難いずれ画像を選択する。次に、ステップ１１６で、Ｐｏｓｉｔｉｖｅデータ（１）に含まれる全てのＰｏｓ_ｉ６４について評価値が最小のずれ画像を選択したか否かを判断する。選択した場合には、ステップ１１８へ進み、選択していない場合には、ステップ１１０へ戻って処理を繰り返す。図４（Ｂ）に示すように、全てのＰｏｓ_ｉ６４についての評価値が最小のずれ画像（Ｐｏｓ_ｉmin６４）をまとめてＰｏｓｉｔｉｖｅデータ（２）とする。

次に、ステップ１１８で、図４（Ｃ）に示すように、Ｐｏｓｉｔｉｖｅデータ（２）及びＮｅｇａｔｉｖｅデータ（１）を用いて、上記ステップ１０８で第１の識別モデルを生成したのと同様の手法により第２の識別モデルを生成する。生成した第２の識別モデルを識別モデル記憶部５８に記憶して、処理を終了する。

次に、図６を参照して、本実施の形態における歩行者検出の処理ルーチンについて説明する。

ステップ２００で、撮像装置１２で撮像された画像が入力され、次に、ステップ２０２で、入力画像に対して例えば１６×３２画素の探索ウインドウを入力画像の所定領域（例えば、左角の領域）に設定し、設定した探索ウインドウを用いて、入力画像から１６×３２画素のウインドウ画像を抽出する。

次に、ステップ２０４で、ウインドウ画像と第２の識別モデルとを比較することにより、ウインドウ画像が識別対象である歩行者か否かを識別する。ウインドウ画像が歩行者であると識別された場合には、ステップ２０６へ進み、探索ウインドウの位置及び大きさ等の情報をリストとしてＲＡＭに保存して、次のステップ２０８へ進む。一方、歩行者であると識別されなかった場合には、そのままステップ２０８へ進む。

ステップ２０８で、入力画像全体について探索ウインドウをスキャンして探索が終了したか否かを判断する。終了した場合は、ステップ２１２へ進む。終了していない場合は、ステップ２１０へ進み、探索ウインドウの位置を予め定められた探索ステップだけ移動させて、ステップ２０２に戻り、ステップ２０２〜ステップ２０８の処理を繰り返す。現サイズの探索ウインドウでの画像全体の探索が終了すると、ステップ２１２へ進む。

ステップ２１２で、全てのサイズの探索ウインドウでの探索が終了したか否かを判断する。ここで、探索ウインドウは歩行者を検出するためのウインドウ画像を抽出するためのフレームとして用いられているが、探索ウインドウのサイズが異なれば、様々なサイズの歩行者（近くに存在する歩行者、遠くに存在する歩行者など）を検出することができる。本実施の形態では、様々なサイズの探索ウインドウが予め用意されており、各々の探索ウインドウで画像全体を探索する必要がある。終了した場合は、ステップ２１６へ進み、終了していない場合は、ステップ２１４へ進む。

ステップ２１４で、探索ウインドウのサイズを１ステップ拡大（例えば、探索ウインドウのサイズを１．２倍）して、ステップ２０２へ戻り、ステップ２０２〜ステップ２１２の処理を繰り返す。なお、設定した探索ウインドウが１６×３２画素を超えるサイズのウインドウであった場合には、抽出したウインドウ画像を１６×３２画素に変換する。すべてのサイズの探索ウインドウでの探索が終了すると、ステップ２１６へ進む。

ステップ２１６で、リストに保存した情報に基づいて、入力画像に対して、検出された歩行者がウインドウで囲まれて表示されるように表示装置１８を制御する。

ここで、図７〜図１１に、本実施の形態の歩行者検出装置１０の検出性能を評価した評価結果を示す。

図７は、歩行者検出率と１フレーム当たりの誤検出数をプロットしたＲＯＣ曲線（ｒｅｃｅｉｖｅｒｏｐｅｒａｔｉｎｇｃｈａｒａｃｔｅｒｉｓｔｉｃｃｕｒｖｅ）である。検出率、及び誤検出数は以下のように定義する。

検出率＝検出された歩行者／検出対象となる歩行者
誤検出数＝検出対象以外に対する検出数／評価フレーム数

ＲＯＣ曲線では、グラフの左上方領域にプロットされるほど性能が高い。すなわちｘ軸が同じ（誤検出数が等しい）場合は、ｙ軸の値が大きいほど検出率が高く、ｙ軸が同じ（検出率が等しい）場合は、ｘ軸の値が小さいほど誤検出数が少ないことを意味する。

図７において、▲印は、本実施の形態の場合（第２の識別モデルを用いた場合）、□印は、ずれ画像からランダムに選択した画像を用いて生成した参考識別モデルを用いた場合、◆印は、従来どおり第１の識別モデルを用いた場合である。計算時間を抑えるため、探索ウインドウのサイズ及び探索ステップは粗い設定（以下、粗探索ともいう）とした。図７に示すとおり、粗探索を行った場合、本実施の形態の識別モデルを用いた場合が最も検出性能が高い。

次に、図９に、本実施の形態の識別モデルで粗探索を行った場合（▲印）、従来どおり第１の識別モデルを用いて粗探索を行った場合（□印）、第１の識別モデルを用いて粗探索の４倍の細かさ（探索ステップが粗探索の１／４）で探索を行った場合（◆印）、第１の識別モデルを用いて粗探索の８倍の細かさ（探索ステップが粗探索の１／８）で探索（以下、密探索ともいう。４倍の場合も同様）を行った場合（×印）のＲＯＣ曲線を示す。本実施の形態では粗探索の場合でも、従来の識別モデルを用いた場合の密探索と同程度の検出性能となった。

また、歩行者検出に要する計算時間には、探索ウインドウのサイズ及び探索ステップだけでなく、識別モデルの大きさを表す特徴数も影響するため、特徴数についても評価を行った。図８及び図１０に誤検出数に対する特徴数を示す。ここで、各場合における歩行者検出の計算コストを比較するため、計算コストを以下のとおり定義する。

計算コスト＝特徴数 × 探索回数

ここで、探索回数は、粗探索を「１」とした場合の探索の細かさで、粗探索の４倍の細かさで探索を行った場合は「４」、粗探索の８倍の細かさで探索を行った場合は「８」となる。

誤検出数２及び６個／フレームのときの特徴数を補間により求め、その際の計算コストを比較した比較表を図１１に示す。検出性能が同程度である従来の識別モデルを用いて密探索を行った場合と比較すると、本実施の形態による計算コストが最も低い。

以上説明したように、本実施の形態の歩行者検出装置によれば、第１の識別モデル生成で用いたＰｏｓｉｔｉｖｅデータ（１）について、識別対象の位置及び大きさの少なくとも一方をずらしたずれ画像を複数生成し、生成した複数のずれ画像の中から識別のし易さを示す評価値が最小のずれ画像を用いて第２の識別モデルを生成する。これにより、第２の識別モデルは、第１の識別モデルに比べて、入力画像から抽出されたウインドウ画像内での識別対象の位置ずれ及び大きさずれに対して耐性が強くなり、粗探索を行って計算コストを低く抑えた場合でも、歩行者検出の精度を向上させることができる。

なお、本実施の形態では、識別モデルとしてブースティングアルゴリズムを用いたカスケード型識別器を生成する場合について説明したが、線形ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）や非線形ＳＶＭを用いた手法等、他の周知の手法を用いて識別モデルを生成してもよい。この場合、ずれ画像の識別し易さまたはし難さを示す評価値は、識別モデル生成に用いた手法に対応して、識別のし易さまたはし難さを評価できる値を用いるとよい。例えば、線形ＳＶＭを用いた場合には（２）式のｇ（ｘ）または｜ｇ（ｘ）｜を評価値として用いることができる。

ここで、ｘは入力ベクトル、ｗ及びｂは識別関数を決定するパラメータである。

また、非線形ＳＶＭを用いた場合には（３）式のｇ（ｘ）または｜ｇ（ｘ）｜を評価値として用いることができる。

ここで、ｘは入力ベクトル、ｗ_ｋ及びｂは識別関数を決定するパラメータ、ｘ_ｋ（〜）はＳＶ（サポートベクター）、ｍはＳＶの数、Ｋ（ｘ_１、ｘ_２）はｘ_１及びｘ_２を引数とするカーネル関数である。

１０歩行者検出装置
２２ウインドウ画像抽出部
２８検出部
３０表示制御部
５０識別モデル生成装置
５２第１の識別モデル生成部
５４ずれ画像生成評価部
５６第２の識別モデル生成部
５８識別モデル記憶部

Claims

入力画像に対して所定サイズのウインドウ枠を所定量ずつ移動させながら前記入力画像から前記ウインドウ枠内の画像をウインドウ画像として複数抽出する抽出手段と、
前記抽出手段により抽出されたウインドウ画像の各々と、各々が異なる識別対象をウインドウ内に含む複数の第１の学習用画像、及び各々が前記識別対象以外の異なる対象をウインドウ内に含む複数の第２の学習用画像を用いて学習することにより第１の識別モデルを生成する第１の識別モデル生成手段と、前記第１の学習用画像の各々について、第１の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成するずれ画像生成手段と、前記ずれ画像生成手段で生成された複数のずれ画像の各々と、前記第１の識別モデルとを比較することにより、前記ずれ画像の識別のし易さまたはし難さを示す評価値を算出する算出手段と、前記算出手段で算出された評価値に基づいて、識別し難いずれ画像を前記第１の学習用画像の各々について該第１の学習用画像に対応する第３の学習用画像として選択し、前記複数の第１の学習用画像の各々に対応して選択された複数の第３の学習用画像、及び前記複数の第２の学習用画像を用いて学習することにより第２の識別モデルを生成する第２の識別モデル生成手段と、を含む識別モデル生成装置で生成された前記第２の識別モデルとを比較して、ウインドウ画像が識別対象であるか否かを識別することにより、前記入力画像から識別対象を検出する検出手段と、
を含む対象物検出装置。
前記第２の識別モデルは、前記第２の識別モデル生成手段が、前記ずれ画像の中で最も識別し難いずれ画像を前記第３の学習用画像として選択することにより生成された請求項１記載の対象物検出装置。
前記第２の識別モデルは、前記ずれ画像生成手段が、前記第１の学習用画像の各々について、前記識別対象の位置をウインドウの上下方向及び左右方向の長さの５％以下の量、ウインドウの上下方向及び左右方向にずらすことにより生成したずれ画像を用いて生成された請求項１または請求項２記載の対象物検出装置。
前記第２の識別モデルは、前記ずれ画像生成手段が、前記第１の学習用画像の各々について、ウインドウ内で識別対象を縮小率９５％以上または拡大率１０５％以下で拡縮することにより生成したずれ画像を用いて生成された請求項１〜請求項３のいずれか１項記載の対象物検出装置。
コンピュータを、
入力画像に対して所定サイズのウインドウ枠を所定量ずつ移動させながら前記入力画像から前記ウインドウ枠内の画像をウインドウ画像として複数抽出する抽出手段、及び
前記抽出手段により抽出されたウインドウ画像の各々と、各々が異なる識別対象をウインドウ内に含む複数の第１の学習用画像、及び各々が前記識別対象以外の異なる対象をウインドウ内に含む複数の第２の学習用画像を用いて学習することにより第１の識別モデルを生成する第１の識別モデル生成手段と、前記第１の学習用画像の各々について、第１の学習用画像の識別対象の位置及び大きさの少なくとも一方をウインドウ内でずらしたずれ画像を複数生成するずれ画像生成手段と、前記ずれ画像生成手段で生成された複数のずれ画像の各々と、前記第１の識別モデルとを比較することにより、前記ずれ画像の識別のし易さまたはし難さを示す評価値を算出する算出手段と、前記算出手段で算出された評価値に基づいて、識別し難いずれ画像を前記第１の学習用画像の各々について該第１の学習用画像に対応する第３の学習用画像として選択し、前記複数の第１の学習用画像の各々に対応して選択された複数の第３の学習用画像、及び前記複数の第２の学習用画像を用いて学習することにより第２の識別モデルを生成する第２の識別モデル生成手段と、を含む識別モデル生成装置で生成された前記第２の識別モデルとを比較して、ウインドウ画像が識別対象であるか否かを識別することにより、前記入力画像から識別対象を検出する検出手段
として機能させるための対象物検出プログラム。
コンピュータを、請求項１〜請求項４のいずれか１項記載の対象物検出装置を構成する各手段として機能させるための対象物検出プログラム。