JP2013164643A

JP2013164643A - 画像認識装置、画像認識方法および画像認識プログラム

Info

Publication number: JP2013164643A
Application number: JP2012025874A
Authority: JP
Inventors: Hiroyuki Akimoto; 広幸秋元; Junji Kanemoto; 淳司金本
Original assignee: Honda Elesys Co Ltd
Current assignee: Nidec Elesys Corp
Priority date: 2012-02-09
Filing date: 2012-02-09
Publication date: 2013-08-22
Also published as: US20130279746A1; US9323999B2

Abstract

【課題】画像認識の効率化を図ることができる画像認識装置、画像認識方法および画像認識プログラムを提供する。
【解決手段】画像認識装置（例えば、画像認識装置の一例であるカメラＥＣＵ１）は、画像を取得する画像取得部１２と、前記画像取得部１２により取得された画像について特徴点を抽出し、抽出した特徴点について３次元空間座標系の座標を検出し、当該検出結果に基づいて、目標物体を認識するために使用するラスタスキャン領域を決定する物体認識部１３と、を備えることを特徴とする。
【選択図】図１

Description

本発明は、画像認識装置、画像認識方法および画像認識プログラムに関する。

近年、車両の運転支援装置や予防安全装置として、車間距離制御装置（ＡＣＣ：ＡｄａｐｔｉｖｅＣｒｕｉｓｅＣｏｎｔｒｏｌ）や前方車両衝突警報装置（ＦＣＷ：ＦｏｒｗａｒｄＣｏｌｌｉｓｉｏｎＷａｒｎｉｎｇ）や歩行者衝突警報装置などがあり、車載カメラを用いる安価な装置の普及が期待されている。

車載カメラを用いる物体の認識には、パターン認識が多く用いられている（例えば、特許文献１参照。）。
パターン認識による物体認識アルゴリズムは、Ｈａａｒ−ｌｉｋｅやＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）などの特徴量に、ＡｄａＢｏｏｓｔやＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）などの識別器を組み合わせて構成する。

また、パターン認識では、撮像した画像の中から目標物体（目標物体の画像）を抽出するために、物体認識する画像の領域（ウィンドウ）を各サイズで設定し、そのウィンドウ毎に前記した物体認識のアルゴリズムの処理を施す。

他のアプロ―チとして、車載ステレオカメラや単眼カメラからの画像に基づいて走行環境の３次元構造を推定し、物体の検知を行う方式が考えられている。
例えば、車載の単眼カメラを例にすると、得られる時系列画像を用いる手法（本願において、３Ｄ解析手法と呼ぶ）がある（例えば、特許文献２参照。）。
３Ｄ解析手法では、時間差がある画像（例えば、時刻ｔの画像、時刻ｔ−１の画像など）から特徴点とオプティカルフロー等を計算し、自車両の運動を推定した後に、目標物体や障害物等の検出を行う。但し、目標物体を認識する性能はパターン認識の方が有利である。

なお、図１８を参照して、背景技術に係る物体認識部（例えば、図１に示される物体認識部１３に対応する処理部）により行われるパターン認識の処理について説明する。
図１８は、背景技術に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。
この例では、ＨＯＧ特徴量とＲｅａｌＡｄａＢｏｏｓｔの識別器により、認識アルゴリズムを構成している。

まず、物体認識部は、取得した全ての輝度画像に対して、勾配方向と勾配強度を算出し、それぞれの勾配方向毎に勾配強度を積分する処理を行い、この結果である積分勾配画像（インテグラルヒストグラム）を算出する（ステップＳ１００１）。これにより、勾配方向数枚の積分勾配画像が算出される。

次に、物体認識部は、ラスタスキャンにより、勾配方向毎の各積分勾配画像の任意の領域を、あらかじめ設定した任意のスケール（サイズ）の座標領域（ウィンドウ）をスライドさせながら抽出する（ステップＳ１００２）。

なお、積分勾配画像を用いる場合には、ラスタスキャンする画像が勾配方向の枚数分必要となるため、例えば、Ｈａａｒ−ｌｉｋｅ特徴量を用いる積分画像（インテグラルイメージ）をラスタスキャンする場合以上に処理負荷が重くなる。
このように、ＨＯＧ特徴量の代わりにＨａａｒ−ｌｉｋｅ特徴量を用いる場合には、積分勾配画像の代わりに通常の積分輝度画像を用いることから、１つの積分画像の作成で済ませることができるため処理を節減することが可能となるが、例えば、特定領域の輝度差の特徴のみを捉えられるだけに限られ、勾配方向毎で特徴を捉えることができない。

次に、物体認識部は、抽出した座標領域（ウィンドウ）について、ＨＯＧ特徴量（ベクトル）を算出する（ステップＳ１００３）。これにより、セル単位で勾配ヒストグラムを作成する。
次に、物体認識部は、算出したＨＯＧ特徴量（ベクトル）を用いて、ＲｅａｌＡｄａＢｏｏｓｔの識別器による識別を行い、あらかじめ目標（ターゲット）として学習している物体（物体の画像）を認識する（ステップＳ１００４）。

ここで、物体認識部は、一連のラスタスキャンが終了したか否かを確認する（ステップＳ１００５）。
そして、物体認識部は、一連のラスタスキャンが終了したと判定した場合には、本処理を終了する。

一方、物体認識部は、一連のラスタスキャンが終了していないと判定した場合には、ラスタスキャンの領域において、ウィンドウをずらして（スライドさせて）、ステップＳ１００２の処理へ移行する。
これにより、物体認識部は、一連のラスタスキャンが終了するまで、ラスタスキャンの領域に対して、順次、ウィンドウをスライドさせて、ステップＳ１００２〜ステップＳ１００４の処理を繰り返して行う。

なお、一連のラスタスキャンでは、例えば、任意の画像領域に対して、同一のスケール（大きさ）のウィンドウを順次スライドさせて前記の処理を繰り返して行うことが終了した後に、ウィンドウのスケールや移動ステップ（スキャンステップ）を変化させて、再び、ウィンドウを順次スライドさせて前記の処理を繰り返して行うことを、あらかじめ定められた分だけ実行する。これにより、特徴ベクトル化を行う。

また、勾配ヒストグラムを作成する処理の方法としては、積分勾配画像を使用しない方法もあるが、積分勾配画像を使用する方法の方が処理時間を速くすることができるため有効である。

図１８に示される物体認識の処理に関し、画像取得からラスタスキャンまでの処理の概略的な一例を示す。
図２は、画像取得からラスタスキャンまでの処理の概略的な一例を示す図である。
背景技術に係るカメラ（例えば、図１に示されるカメラ１１に対応するもの）により撮像される画像のデータが、背景技術に係る画像取得部（例えば、図１に示される画像取得部１２に対応する処理部）により入力画像１０１のデータとして取得される。
例えば、この画像には、道路と前方の車両が映っている。

背景技術に係る物体認識部（例えば、図１に示される物体認識部１３に対応する処理部）では、勾配強度画像１０２に示されるように、複数の勾配方向（この例では、方向１〜方向８の８方向）のそれぞれについて、勾配強度を算出する。
そして、物体認識部では、勾配方向毎に、勾配強度の積分画像を、積分勾配画像１０３として作成する（図１８に示されるステップＳ１００１の処理）。

次に、物体認識部では、ラスタスキャンの領域１０４において、ウィンドウのスキャンを行う（図１８に示されるステップＳ１００２の処理）。
ここで、このラスタスキャンでは、全方向の積分勾配画像をラスタスキャンする必要があるため、処理負荷が大きくなる。

図１８に示されるステップＳ１００２の処理におけるラスタスキャンに関し、スケールの可変と移動ステップ（ステップ幅）の可変について示す。
ラスタスキャンでは、例えば、スケールＳＣと移動ステップｄｘ、ｄｙを可変に変化させてスキャンする。

図３（Ａ）、（Ｂ）は、ラスタスキャンのスケールと移動ステップの例を示す図である。
この例では、ラスタスキャンのスケールと移動ステップの組み合わせのパターンが４個以上あるとする。

図３（Ａ）は、第１のパターンにおけるラスタスキャンのスケールＳＣ１と移動ステップｄｘ１、ｄｙ１の一例を示す図である。
この例では、ラスタスキャン領域２０１において、横（水平）方向のｘ軸方向と縦（垂直）方向のｙ軸方向とのそれぞれについてスケールＳＣ１の長さを有する正方形のウィンドウ２０２を、あらかじめ定められた初期位置に、設定する。そして、このウィンドウ２０２を、ｘ軸方向に移動ステップｄｘ１ずつスライドさせていくことと、ｙ軸方向に移動ステップｄｙ１ずつスライドさせていくことを行う。

図３（Ｂ）は、第４のパターンにおけるラスタスキャンのスケールＳＣ４と移動ステップｄｘ４、ｄｙ４の一例を示す図である。
この例では、ラスタスキャン領域２１１において、横（水平）方向のｘ軸方向と縦（垂直）方向のｙ軸方向とのそれぞれについてスケールＳＣ４の長さを有する正方形のウィンドウ２１２を、あらかじめ定められた初期位置に、設定する。そして、このウィンドウ２１２を、ｘ軸方向に移動ステップｄｘ４ずつスライドさせていくことと、ｙ軸方向に移動ステップｄｙ４ずつスライドさせていくことを行う。

ここで、この例では、第１のパターンにおけるラスタスキャンのスケールＳＣ１および移動ステップｄｘ１、ｄｙ１の値と、第４のパターンにおけるラスタスキャンのスケールＳＣ４および移動ステップｄｘ４、ｄｙ４の値とは異なっている。
この例では、一例として、それぞれのパターンにおけるラスタスキャンのスケールＳＣが異なっており、そのスケールＳＣに比例した大きさを有する移動ステップｄｘ、ｄｙを用いている。また、この例では、一例として、それぞれのパターンにおけるｘ軸方向の移動ステップｄｘとｙ軸方向の移動ステップｄｙとを同じ値にしている。

なお、他の構成例として、正方形以外の形状（例えば、正方形ではない矩形）を有するウィンドウが用いられてもよい。ここで、本願では、矩形は、長方形ばかりでなく、正方形も含む。
また、他の構成例として、あるパターンにおけるｘ軸方向の移動ステップｄｘとｙ軸方向の移動ステップｄｙとを異なる値としてもよい。

特開２００７−３１０８０５号公報特開２０１１−１４６０１７号公報

山口他、「車載単眼カメラによる車両前方の障害物検出」、２００５−ＣＶＩＭ−１５１（１０）「ディジタル画像処理」、ＣＧ−ＡＲＴＳ協会、ｐ．２５２−２６７ＤａｖｉｄＡ．Ｆｏｒｓｙｔｈ，ＪｅａｎＰｏｎｃｅ，"ＣｏｍｐｕｔｅｒＶｉｓｉｏｎＡＭｏｄｅｒｎＡｐｐｒｏａｃｈ"，ＰｒｅｎｔｉｃｅＨａｌｌ

しかしながら、パターン認識による物体認識アルゴリズムは、特徴量の数や識別器の種類による差異はあるものの、一般的に、比較的、演算処理時間を要する（つまり、演算負荷が重い）処理である。
しかも、撮像画像の中の目標物体（目標物体の画像）を認識するためのウィンドウを、画像中でラスタスキャンする必要がある。また、ラスタスキャンの範囲としては、物体が存在する可能性のある領域を抜け漏れなく走査する必要があるため、ほぼ撮像画像の全領域に近い領域についてラスタスキャンを行うことになる。

また、パターン認識の結果の精度を上げるためには、ラスタスキャンの移動ステップやウィンドウのスケール（例えば、物体の大きさや距離に依存する）を細かく設定することが必要になるため、ウィンドウの数が増える。
一例として、車載用の物体認識アプリケーションを実行する場合には、目標物体の種類にもよるが、通常は、目標物体の数が１００個以上となることはない。このため、実際には目標物体が存在しないウィンドウの方がその数が膨大となり、処理時間的には、ほとんどのウィンドウによる処理の時間が結果的に無駄な時間となってしまう。具体例として、１万回スキャンすると、９千９百回以上が不要となってしまう。

このように、パターン認識による物体認識アルゴリズムの処理時間は、ラスタスキャンするウィンドウの数に対して、単純には、掛け算の関係で増大することとなるため、例えば、高速のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を搭載したパーソナルコンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等での処理をそのまま車載用などの装置に実装（組み込み）することは困難であった。

本発明は、このような事情を考慮して為されたものであり、画像認識の効率化を図ることができる画像認識装置、画像認識方法および画像認識プログラムを提供することを目的としている。

（１）上述した課題を解決するために、本発明に係る画像認識装置は、画像を取得する画像取得部と、前記画像取得部により取得された画像について特徴点を抽出し、抽出した特徴点について３次元空間座標系の座標を検出し、当該検出結果に基づいて、目標物体を認識するために使用するラスタスキャン領域を決定する物体認識部と、を備えることを特徴とする。

（２）本発明は、上記した（１）に記載の画像認識装置において、前記物体認識部は、抽出した複数の特徴点のそれぞれに関して検出した３次元空間座標系の座標における距離の情報と、前記抽出した複数の特徴点のそれぞれに関する前記距離以外の位置の情報に基づいて、仮のウィンドウを生成して、生成した仮のウィンドウの統合を行って、ラスタスキャン領域を作成する、ことを特徴とする。

（３）本発明は、上記した（２）に記載の画像認識装置において、前記物体認識部は、前記仮のウィンドウの統合の最終的な結果として得られる仮のウィンドウの領域をラスタスキャン領域として決定する、ことを特徴とする。

（４）本発明は、上記した（２）または上記した（３）に記載の画像認識装置において、前記物体認識部は、抽出した複数の特徴点のそれぞれに関して検出した３次元空間座標系の座標における距離の情報に基づいて仮のウィンドウのサイズを設定するとともに、前記抽出した複数の特徴点のそれぞれに関する前記距離以外の位置の情報に基づいて当該仮のウィンドウの位置を設定し、サイズおよび位置が設定された複数の仮のウィンドウの統合を、あらかじめ定められた条件式を用いて、行う、ことを特徴とする。

（５）本発明は、上記した（４）に記載の画像認識装置において、前記物体認識部は、前記複数の仮のウィンドウの統合において、２つの仮のウィンドウの関係が前記条件式の条件を満たす場合には、当該２つの仮のウィンドウの両方を含む新たな仮のウィンドウに統合する、ことを特徴とする。

（６）本発明は、上記した（２）から上記した（５）のいずれか１つに記載の画像認識装置において、前記物体認識部は、前記仮のウィンドウの統合の最終的な結果として得られる仮のウィンドウの元となったそれぞれの仮のウィンドウのウィンドウ幅に基づいてラスタスキャンの移動ステップを決定する、ことを特徴とする。

（７）本発明は、上記した（２）から上記した（６）のいずれか１つに記載の画像認識装置において、前記物体認識部は、前記仮のウィンドウの統合の最終的な結果として得られる仮のウィンドウの元となったそれぞれの仮のウィンドウのウィンドウ幅に基づいてラスタスキャンで使用するウィンドウのスケールを決定する、ことを特徴とする。

（８）本発明は、上記した（１）から上記した（７）のいずれか１つに記載の画像認識装置において、前記物体認識部は、抽出した複数の特徴点のそれぞれに関して検出した３次元空間座標系の座標における高低の情報に基づいて、当該高低の情報があらかじめ定められた条件を満たす特徴点については、ラスタスキャン領域を決定する処理の対象から除外する、ことを特徴とする。

（９）上述した課題を解決するために、本発明に係る画像認識方法は、画像取得部が、画像を取得し、物体認識部が、前記画像取得部により取得された画像について特徴点を抽出し、抽出した特徴点について３次元空間座標系の座標を検出し、当該検出結果に基づいて、目標物体を認識するために使用するラスタスキャン領域を決定する、ことを特徴とする。

（１０）上述した課題を解決するために、本発明に係る画像認識プログラムは、画像取得部が、画像を取得する手順と、物体認識部が、前記画像取得部により取得された画像について特徴点を抽出し、抽出した特徴点について３次元空間座標系の座標を検出し、当該検出結果に基づいて、目標物体を認識するために使用するラスタスキャン領域を決定する手順と、をコンピュータに実行させるためのプログラムである。

以上説明したように、本発明によれば、画像認識の効率化を図ることができる画像認識装置、画像認識方法および画像認識プログラムを提供することが可能になる。

本発明の一実施形態に係る画像認識システムの構成（ハードウェア構成）を示す概略ブロック図である。画像取得からラスタスキャンまでの処理の概略的な一例を示す図である。（Ａ）、（Ｂ）は、ラスタスキャンのスケールと移動ステップの例を示す図である。本発明の一実施形態に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。本発明の一実施形態に係る物体認識部により行われるラスタスキャン領域推定処理の手順の一例を示すフローチャート図である。特徴点のカメラ座標における距離Ｚの値と仮のウィンドウ幅との関係（相関）を表す特性のグラフの一例を示す図である。（Ａ）および（Ｂ）は特徴点の位置と仮のウィンドウの位置との関係の例を示す図である。仮のウィンドウのグルーピングを行う処理の様子の例を示す図である。本発明の一実施形態に係る物体認識部により行われる仮のウィンドウのグルーピング（統合）の処理の手順の一例を示すフローチャート図である。（Ａ）、（Ｂ）、（Ｃ）はグルーピング（統合）の処理の例を示す図である。グルーピングウィンドウの元となった仮のウィンドウのウィンドウ幅とステップ幅との関係（相関）を表す特性のグラフの一例を示す図である。グルーピングウィンドウの元となった仮のウィンドウのウィンドウ幅とスケールとの関係（相関）を表す特性のグラフの一例を示す図である。ラスタスキャンの様子の例を示す図である。（Ａ）はオリジナル画像の一例を示す図であり、（Ｂ）は累積行加算の結果の一例を示す図であり、（Ｃ）は積分画像の一例を示す図である。（Ａ）および（Ｂ）はＨａａｒ−ｌｉｋｅ特徴量を説明するための図である。（Ａ）は輝度画像の一例を示す図であり、（Ｂ）は勾配の一例を示す図であり、（Ｃ）は勾配強度の一例を示す図であり、（Ｄ）は勾配方向の一例を示す図である。（Ａ）および（Ｂ）はＨＯＧ特徴量を説明するための図である。背景技術に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。

［用語の説明］
勾配方向特徴量は、画像の輝度の勾配方向と勾配強度に関する特徴量のことである。なお、勾配強度は、情報量を低減した公知の勾配度数を用いることもできる。本願において、勾配強度と勾配度数を含む、広義の勾配値を勾配量と定義する。
本願において、積分勾配画像（インテグラルヒストグラム）は、画像の輝度について勾配方向と勾配量（勾配強度、または、勾配度数）を算出して、それぞれの勾配方向毎に勾配量（勾配強度、または、勾配度数）を積分した結果（積分勾配値）のことである。ここで、この積分は、例えば、積分勾配画像を求める対象となる領域に含まれる全ての画素（ｐｉｘｅｌ（ピクセル））について行われる。

また、識別器としては、ＲｅａｌＡｄａＢｏｏｓｔの識別器や、ＡｄａＢｏｏｓｔの識別器や、ＳＶＭの識別器など、様々なものを含む。
また、識別器の下位概念として、アンサンブル学習を行う識別器があり、その下位概念として、Ｂｏｏｓｔｉｎｇの識別器があり、その下位概念として、ＲｅａｌＡｄａＢｏｏｓｔの識別器などがある。
ここで、Ｂｏｏｓｔｉｎｇは、複数の弱識別器を使用してアンサンブル学習を行うものである。

［実施形態］
本実施形態では、車両に搭載される車載用の画像認識システムを例として説明する。
図１は、本発明の一実施形態に係る画像認識システムの構成（ハードウェア構成）を示す概略ブロック図である。
本実施形態に係る画像認識システムは、カメラＥＣＵ（ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）１と、警報装置２と、ＡＣＣ−ＥＣＵ３と、を備える。
なお、カメラＥＣＵ１は、画像認識装置の一例である。
カメラＥＣＵ１は、カメラ１１と、画像取得部１２と、物体認識部１３と、制御部１４と、を備える。

物体認識部１３は、本実施形態では、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）２１の機能と、マイクロコンピュータ２２の機能と、を用いて構成される。
なお、ＦＰＧＡ２１の機能の代わりに、または、ＦＰＧＡ２１の機能と共に、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）の機能が用いられてもよい。
制御部１４は、本実施形態では、マイクロコンピュータ２２の機能を用いて構成される。
また、物体認識部１３および制御部１４のメモリおよび周辺回路は、ＦＰＧＡ、ＤＳＰ、マイクロコンピュータ内の集積回路に格納されているものを使用するか、もしくはそれらの外部に設けても良い。

ここで、物体認識部１３および制御部１４において、ＦＰＧＡ、ＤＳＰ、マイクロコンピュータといったデバイスについては、任意の数のデバイスが用いられてもよく、例えば、全てのデバイスが用いられてもよく、または、必ずしも全てのデバイスが必要ではなく、１つのデバイスあるいは２つのデバイスに全ての処理の機能を実装することも可能である。

本実施形態に係る画像認識システムに備えられる各処理部の概要を説明する。
カメラ１１は、本実施形態では、車両の前方、側方または後方等のようにあらかじめ定められた方向の画像を撮像する車両位置に設けられる。
カメラ１１は、画像を撮像し、撮像した画像の信号を画像取得部１２に出力する。
画像取得部１２は、カメラ１１からの画像を画像データとして取り込み、取り込んだ画像データを物体認識部１３に出力する。

物体認識部１３は、画像取得部１２から入力される画像データについて、ＦＰＧＡ２１やマイクロコンピュータ２２により、物体認識のために、画像処理およびパターン認識の演算を行い、物体認識の処理の結果の情報を制御部１４に出力する。この画像処理としては、例えば、前処理のフィルタリング処理などが行われる。
また、パターン認識の結果の情報としては、例えば、画像データの画像中における目標物体の情報が用いられる。

制御部１４は、物体認識部１３から入力される物体認識の処理の結果の情報に基づいて、あらかじめ定められた処理を行い、その結果の情報を警報装置２やＡＣＣ−ＥＣＵ３に出力する。
具体例として、制御部１４は、物体認識部１３から入力される物体認識の処理の結果の情報である目標物体の情報に基づいて、あらかじめ定められた処理として、目標物体との間のＴＴＣ（ＴｉｍｅｔｏＣｏｌｌｉｓｉｏｎ）や距離を算出する処理や、目標物体のトラッキングを行う処理や、他の装置やＥＣＵ（本実施形態では、警報装置２やＡＣＣ−ＥＣＵ３）のアプリケーション機能と通信する処理などを行う。

警報装置２やＡＣＣ−ＥＣＵ３は、カメラＥＣＵ１の制御部１４を介して各アプリケーション機能を実行するように設けられる。
警報装置２は、制御部１４から入力される情報に基づいて、例えば、目標物体が前方の車両である場合における前方車両衝突警報や、目標物体が歩行者である場合における歩行者衝突警報などを行う。
ＡＣＣ−ＥＣＵ３は、制御部１４から入力される情報に基づいて、例えば、目標物体が前方の車両である場合における車間距離制御などを行う。

図４を参照して、本実施形態に係る物体認識部１３により行われる処理について説明する。
図４は、本実施形態に係る物体認識部１３により行われる処理の手順の一例を示すフローチャート図である。
この例では、ＨＯＧ特徴量とＲｅａｌＡｄａＢｏｏｓｔの識別器により、認識アルゴリズムを構成している。

なお、概略的には、図４に示される本実施形態に係るフローチャートにおけるステップＳ１０１の処理、ステップＳ１０３の処理、ステップＳ１０４の処理、ステップＳ１０５の処理、ステップＳ１０６の処理は、それぞれ、図１８に示されるフローチャートにおけるステップＳ１００１の処理、ステップＳ１００２の処理、ステップＳ１００３の処理、ステップＳ１００４の処理、ステップＳ１００５の処理と同様である。
そして、図４に示される本実施形態に係るフローチャートでは、ステップＳ１０１の処理とステップＳ１０３の処理との間に、ステップＳ１０２の処理（ラスタスキャン領域推定の処理）が追加されている。本実施形態では、この処理（ラスタスキャン領域推定の処理）は、ラスタスキャンによるパターン認識のループの処理（ステップＳ１０３の処理〜ステップＳ１０６の処理）を開始する前に行われる。

図４に示される本実施形態に係るフローチャートにおいて、まず、物体認識部１３は、取得した輝度画像に対して、輝度画像から勾配方向と勾配強度を算出して勾配方向毎に勾配強度を積分する処理を行い、この結果である積分勾配画像（インテグラルヒストグラム）を算出する（ステップＳ１０１）。

なお、積分勾配画像（インテグラルヒストグラム）を算出する処理は、積分勾配画像を利用して後の演算処理の時間を短縮するためであり、必ずしも行われなくてもよい。つまり、以降の処理において、積分勾配画像を利用せずに同じ結果が得られる演算を用いてもよい。

次に、物体認識部１３は、ラスタスキャン領域推定の処理を行う（ステップＳ１０２）。
これにより、本実施形態では、物体認識部１３は、ラスタスキャンを行う対象とする領域（ラスタスキャン領域）と、ラスタスキャンするウィンドウのスケールと、ラスタスキャンするウィンドウのステップ幅（移動ステップ）を決定する。

次に、物体認識部１３は、ラスタスキャンにより、積分勾配画像の領域を、あらかじめ設定した座標領域（ウィンドウ）で抽出する（ステップＳ１０３）。
このラスタスキャンの処理に関し、物体認識部１３は、ラスタスキャン領域推定の処理（ステップＳ１０２の処理）により決定された、ラスタスキャンを行う対象とする領域（ラスタスキャン領域）と、ラスタスキャンするウィンドウのスケールと、ラスタスキャンするウィンドウのステップ幅（移動ステップ）を使用するように設定する。

次に、物体認識部１３は、抽出した座標領域（ウィンドウ）について、あらかじめ定められたＨＯＧ特徴量（ベクトル）を算出する（ステップＳ１０４）。
次に、物体認識部１３は、算出したＨＯＧ特徴量（ベクトル）を用いて、Ｂｏｏｓｔｉｎｇの一例であるＲｅａｌＡｄａＢｏｏｓｔの識別器による識別を行い、あらかじめ目標（ターゲット）としている物体（物体の画像）を認識する（ステップＳ１０５）。

ここで、物体認識部１３は、一連のラスタスキャンが終了したか否かを確認する（ステップＳ１０６）。
そして、物体認識部１３は、一連のラスタスキャンが終了したと判定した場合には、本処理を終了する。

一方、物体認識部１３は、一連のラスタスキャンが終了していないと判定した場合には、ラスタスキャン領域において、ウィンドウをずらして（スライドさせて）、ステップＳ１０３の処理へ移行する。
これにより、物体認識部１３は、一連のラスタスキャンが終了するまで、ラスタスキャン領域に対して、順次、ウィンドウをスライドさせて、ステップＳ１０３〜ステップＳ１０５の処理を繰り返して行う。

なお、一連のラスタスキャンでは、例えば、任意の画像領域に対して、同一のスケール（大きさ）のウィンドウを順次スライドさせて前記の処理を繰り返して行うことが終了した後に、ウィンドウのスケールや移動ステップ（スキャンステップ）を変化させて、再び、ウィンドウを順次スライドさせて前記の処理を繰り返して行うことを、あらかじめ定められた分だけ実行する。これにより、特徴ベクトル化を行う。
本実施形態では、物体認識部１３は、ステップＳ１０２の処理において、ラスタスキャン領域、ウィンドウのスケール、ウィンドウの移動ステップを決定し、決定したものをラスタスキャンで使用する。

ここで、識別器の機能は、本実施形態では、物体認識部１３により実現される。つまり、物体認識部１３が識別器を備える、と捉えることができる。
また、本実施形態に係る物体認識部１３では、一例として、積分勾配画像を算出する処理の機能をＦＰＧＡ２１により実現し、物体認識部１３により行われる他の処理の機能をマイクロコンピュータ２２により実現する。

図５を参照して、本実施形態に係る物体認識部１３により行われるラスタスキャン領域推定処理（図４に示されるステップＳ１０２の処理）について説明する。
図５は、本実施形態に係る物体認識部１３により行われるラスタスキャン領域推定処理の手順の一例を示すフローチャート図である。

まず、物体認識部１３は、画像（例えば、算出された積分勾配画像、または、元の画像など）について、１つ以上の特徴点を抽出し、オプティカルフローを計算する（ステップＳ２０１）。
ここで、画像中で処理する領域としては、例えば、撮像画像の全ての領域が用いられてもよく、または、撮像画像の中で目標物体が存在し得る領域に限定してもよい。

なお、パターン認識と共に、単眼カメラによる３Ｄ解析を用いる場合には、例えば、特許文献２に係る技術による処理の結果や、非特許文献１に係る技術による処理の結果を利用することもできる。
また、特徴点については、指定した数だけ出力してからオプティカルフロー計算を行う。また、特徴点とオプティカルフローとしては、一例として、非特許文献１に示されるように、Ｈａｒｒｉｓオペレータの特徴量や、Ｌｕｃｕｓ−Ｋａｎａｄｅ法によるオプティカルフローを用いることができる。

次に、物体認識部１３は、抽出した特徴点の画像座標（ｘ、ｙ）からカメラ座標（Ｘ、Ｙ、Ｚ）への変換を行う（ステップＳ２０２）。
本実施形態では、物体認識部１３は、特徴点毎に、その画像座標（ｘ、ｙ）の値をカメラ座標（Ｘ、Ｙ、Ｚ）の値へ変換する。

ここで、画像座標（ｘ、ｙ）の値は、画像における２次元の直交座標系における座標の値を表す。ｘは横（水平）方向の値を表し、ｙは縦（垂直）方向の値を表す。
また、カメラ座標（Ｘ、Ｙ、Ｚ）の値は、カメラ（本実施形態では、例えば、カメラ１１）を基準とした３次元の直交座標系における座標の値を表す。Ｚは、例えば、カメラとの距離を表す。Ｚ軸に対して直交する平面において、Ｘは横（水平）方向の値を表し、Ｙは縦（垂直）方向の値を表す。

ステップＳ２０２の処理における座標変換としては、例えば、ステップＳ２０１の処理の場合と同様に、特許文献２や非特許文献１に係る３Ｄ解析の技術を利用することができる。
また、座標変換については、一般的な原理が非特許文献２や非特許文献３等に示されており、例えば、射影変換を用いた諸々の手法を用いることができる。

また、ステップＳ２０１の処理やステップＳ２０２の処理は、例えば、非特許文献２に係るステレオカメラによる変換を用いて実現されてもよい。
可能であれば、ステップＳ２０１の処理やステップＳ２０２の処理における演算（計算）については、ラスタスキャン領域推定処理において新規に行うのではなく、既に３Ｄ解析処理やステレオカメラでの処理が同時に行われているような場合には、このような別の既存処理で用いられる演算結果を引用すると、処理時間の増加にならない。

このように、ステップＳ２０１の処理やステップＳ２０２の処理により得られる値は、例えば、単眼３Ｄ解析またはステレオ画像による演算値から引用することが可能である。
なお、ステップＳ２０１の処理やステップＳ２０２の処理としては、様々な処理が用いられてもよく、ステップＳ２０３〜ステップＳ２０５の処理に引き継ぐことができればよい。
本実施形態では、物体認識部１３は、ステップＳ２０１の処理およびステップＳ２０２の処理により、３Ｄの情報を取得する。

ここで、本実施形態では、３次元（３Ｄ）の座標系の座標として、カメラ座標系の座標（Ｘ、Ｙ、Ｚ）を用いるが、他の様々な３次元の座標系の座標が用いられてもよい。一般に、カメラ座標系と他の座標系とは、互いに変換することが可能であり、例えば、カメラ座標系以外の３次元の座標系が用いられる場合には、その座標系に応じて、本実施形態と実質的に同様な処理が実行されるようにすればよい。
具体的には、例えば、３次元の座標系において、所定の視点（カメラ座標系の場合には、カメラの位置）から特徴点（あるいは、それに対応するあらかじめ定められた他のもの）を見た場合における距離の情報をカメラ座標（Ｘ、Ｙ、Ｚ）における距離Ｚの情報の代わりとして使用することができ、所定の視点（カメラ座標系の場合には、カメラの位置）から特徴点（あるいは、それに対応するあらかじめ定められた他のもの）を見た場合における距離以外の位置（例えば、平面上の位置）の情報をカメラ座標（Ｘ、Ｙ、Ｚ）における距離以外の位置（Ｘ、Ｙ）の情報の代わりとして使用することができる。

次に、物体認識部１３は、特徴点のカメラ座標（Ｘ、Ｙ、Ｚ）におけるＺの値から、仮のウィンドウサイズ（ウィンドウスケール）への変換を行う（ステップＳ２０３）。そして、物体認識部１３は、仮のウィンドウを設定する。
次に、物体認識部１３は、仮のウィンドウサイズ（ウィンドウスケール）の変換の結果に基づいて、設定した仮のウィンドウのグルーピングを行う（ステップＳ２０４）。
次に、物体認識部１３は、仮のウィンドウのグルーピングの結果に基づいて、ラスタスキャンを行う対象とする領域（ラスタスキャン領域）と、ラスタスキャンするウィンドウのスケールと、ラスタスキャンするウィンドウのステップ幅（移動ステップ）を決定する（ステップＳ２０５）。

ここで、本実施形態では、ラスタスキャンで使用するウィンドウサイズ（ウィンドウスケール）を有するウィンドウを決定する処理の過程において、これとは異なるウィンドウを処理するため、このようなウィンドウを仮のウィンドウと呼び、仮のウィンドウに関する事項に「仮の」と付記して説明する。

図６〜図１３を参照して、図５に示されるステップＳ２０３〜ステップＳ２０５の処理について詳しく説明する。
図６を参照して、物体認識部１３により、特徴点のカメラ座標（Ｘ、Ｙ、Ｚ）におけるＺの値に基づいて、仮のウィンドウサイズ（ウィンドウスケール）を決定する処理（ステップＳ２０３の処理）について説明する。
ここで、本実施形態では、特徴点のカメラ座標（Ｘ、Ｙ、Ｚ）におけるＺの値は、カメラとの距離を表す。

図６は、特徴点のカメラ座標における距離Ｚの値と、仮のウィンドウ幅との関係（相関）を表す特性３０１のグラフの一例を示す図である。本実施形態では、この特性３０１の情報が、物体認識部１３により記憶されて使用される。
図６のグラフでは、横軸は距離Ｚ［ｍ］を表し、縦軸は仮のウィンドウ幅［ｐｉｘｅｌ］を表す。
また、図６のグラフでは、特性３０１を示してあり、また、この特性３０１において、距離Ｚの値が小さい方から大きい方への順で、距離Ｚから変換される仮のウィンドウ幅の例（Ａ）、（Ｂ）、（Ｃ）を示してある。

本実施形態では、特性３０１として、式（１）で表される特性を用いている。
式（１）において、定数としては、任意の値が用いられてもよい。

ここで、本実施形態では、仮のウィンドウ（およびラスタスキャンで使用するウィンドウ）の形状を正方形としており、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）は等しい。このため、本実施形態では、各特徴点について、カメラ座標に変換したときの距離Ｚの値から図６のグラフにより仮のウィンドウ幅の値が決定されると、等価的に、仮のウィンドウのサイズ（スケール）が決定される。

なお、図６のグラフにおいて、縦軸で表されるウィンドウ幅としては、一例として、画像座標（ｘ、ｙ）における、ｘの値が用いられてもよく、または、ｙの値が用いられてもよく、他の例として、カメラ座標（Ｘ、Ｙ、Ｚ）における、Ｘの値が用いられてもよく、または、Ｙの値が用いられてもよい。

他の構成例として、仮のウィンドウ（およびラスタスキャンで使用するウィンドウ）の形状を長方形とする場合には、例えば、距離Ｚの値と仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）との関係を規定しておくとともに、距離Ｚの値と仮のウィンドウの縦（垂直）方向の長さ（ウィンドウ幅）との関係を規定しておく。または、他の構成例として、これら２つの関係のうちの一方のみを規定しておいて、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）との比を規定しておくこともできる。
そして、このような構成により、距離Ｚの値から、仮のウィンドウのサイズ（スケール）を決定することができる。

このように、本実施形態では、各特徴点について、カメラ座標（Ｘ、Ｙ、Ｚ）におけるＺの値が小さいほど（つまり、カメラから近いほど）、仮のウィンドウ幅を大きくする一方、カメラ座標（Ｘ、Ｙ、Ｚ）におけるＺの値が大きいほど（つまり、カメラから遠いほど）、仮のウィンドウ幅を小さくする。

なお、特徴点のカメラ座標における距離Ｚの値と仮のウィンドウ幅との関係（相関）を表す特性としては、図６に示される特性３０１に限られず、様々な特性が用いられてもよい。

図７（Ａ）および図７（Ｂ）は、特徴点の位置と仮のウィンドウの位置との関係の例を示す図である。
ここで、特徴点の位置に対する仮のウィンドウの位置としては、任意に設定されてもよく、本実施形態では、例えば、目標物体が仮のウィンドウの中に収まりやすい配置となるように、あらかじめユーザ（人）などにより設定される。
物体認識部１３は、この設定の内容に従って、特徴点の位置に対して、決定された仮のウィンドウの位置を設定する。

図７（Ａ）および図７（Ｂ）は、特徴点のカメラ座標（Ｘ、Ｙ、Ｚ）におけるＺの値から決定された仮のウィンドウ幅を有する仮のウィンドウを、当該特徴点の画像座標（ｘ、ｙ）において設ける位置について、異なる例を示してある。

図７（Ａ）の例では、物体認識部１３は、特徴点４０１の画像座標の値（ｘ１、ｙ１）に対して、仮のウィンドウ４０２の外枠が左右（横）と上下（縦）でそれぞれ等間隔となるように、仮のウィンドウ４０２を設定する。つまり、物体認識部１３は、特徴点４０１の位置が仮のウィンドウ４０２の中心の位置になるように、仮のウィンドウ４０２を設定する。
具体的には、仮のウィンドウ４０２が正方形であり、仮のウィンドウ４０２の一辺の長さ（ウィンドウ幅）がＷｂであるとき、特徴点４０１の画像座標の値（ｘ１、ｙ１）に対して、仮のウィンドウ４０２の左右の辺までの距離はそれぞれＷｂ／２となり、仮のウィンドウ４０２の上下の辺までの距離はそれぞれＷｂ／２となる。

図７（Ｂ）の例では、物体認識部１３は、特徴点４１１の画像座標の値（ｘ１、ｙ１）に対して、仮のウィンドウ４１２の外枠が左右（横）と上下（縦）でそれぞれ所定の比率の間隔となるように、仮のウィンドウ４１２を設定する。
図７（Ｂ）の例では、この左右（横）における比率を１：１に設定してあり、この上下（縦）における比率を８：２（＝４：１）に設定してある。
具体的には、仮のウィンドウ４１２が正方形であり、仮のウィンドウ４１２の一辺の長さ（ウィンドウ幅）がＷｂであるとき、特徴点４１１の画像座標の値（ｘ１、ｙ１）に対して、仮のウィンドウ４１２の左右の辺までの距離はそれぞれＷｂ／２となり、仮のウィンドウ４１２の上の辺までの距離は（Ｗｂ×０．８）となり、仮のウィンドウ４１２の下の辺までの距離は（Ｗｂ×０．２）となる。

図８を参照して、物体認識部１３により、仮のウィンドウサイズ（ウィンドウスケール）の変換の結果に基づいて、仮のウィンドウのグルーピング（統合）を行う処理（ステップＳ２０４の処理）について説明する。
図８は、仮のウィンドウのグルーピング（統合）を行う処理の様子の例を示す図である。

ここで、物体認識部１３は、抽出された全ての特徴点について、仮のウィンドウサイズ（ウィンドウスケール）を決定して、仮のウィンドウを各特徴点に対して設定する。また、ここでは、複数の特徴点が抽出されたとする。
物体認識部１３は、各特徴点から変換した仮のウィンドウ（ここでは、複数の仮のウィンドウ）をグルーピング（統合）する処理を行う。

本実施形態では、物体認識部１３は、複数の特徴点から得られた仮のウィンドウについて、あらかじめ定められた条件に基づいて、画像座標（ｘ、ｙ）における位置の差が小さく、且つ、仮のウィンドウサイズの差が小さいと判定した２つの仮のウィンドウを、同じまとまり（グループ）にグルーピングする。この場合に、本実施形態では、物体認識部１３は、仮のウィンドウサイズが小さい方から大きい方への順で、特徴点から得られた仮のウィンドウをまとまり（グループ）に割り付けていく。

ここで、２つの仮のウィンドウについて、画像座標（ｘ、ｙ）における位置の差が小さいと判定する条件としては、一例として、２つの仮のウィンドウの位置（または、それぞれの仮のウィンドウに対応する２つの特徴点の位置）について、ｘの差の絶対値とｙの差の絶対値とを加えた結果が所定の閾値（ｘの差の絶対値とｙの差の絶対値とを加えた結果に関する閾値）以下である、という条件を用いることができる。
また、２つの仮のウィンドウについて、画像座標（ｘ、ｙ）における位置の差が小さいと判定する条件としては、他の一例として、２つの仮のウィンドウの位置（または、それぞれの仮のウィンドウに対応する２つの特徴点の位置）について、ｘの値の差が所定の閾値（ｘの値に関する閾値）以下であり、且つ、ｙの値の差が所定の閾値（ｙの値に関する閾値）以下である、という条件を用いることができる。なお、ｘの値に関する閾値と、ｙの値に関する閾値としては、例えば、同じ値が用いられてもよく、または、異なる値が用いられてもよい。
また、２つの仮のウィンドウについて、画像座標（ｘ、ｙ）における位置の差が小さいと判定する条件としては、他の一例として、２つの仮のウィンドウの位置（または、それぞれの仮のウィンドウに対応する２つの特徴点の位置）の間の距離が所定の閾値（距離に関する閾値）以下である、という条件を用いることができる。
２つの仮のウィンドウの位置（または、それぞれの仮のウィンドウに対応する２つの特徴点の位置）の間の距離としては、例えば、ユークリッド距離など、任意の手法で定められる距離を用いることができる。

なお、ウィンドウ（ここでは、仮のウィンドウを含む）の画像座標（ｘ、ｙ）におけるｘ座標の値やｙ座標の値を指定する場合における当該ウィンドウの位置（当該ｘ座標の値および当該ｙ座標の値に対応する位置）としては、一例として、当該ウィンドウの中心の位置を用いることができ、他の例として、当該ウィンドウにおける所定の頂点の位置などのように、当該ウィンドウにおけるあらかじめ定められた特定の位置を用いることができる。

また、２つの仮のウィンドウについて、仮のウィンドウサイズの差が小さいと判定する条件としては、一例として、仮のウィンドウサイズの比（サイズ比）が所定の閾値（仮のウィンドウサイズに関する閾値）以下である、という条件を用いることができる。
また、仮のウィンドウの形状が正方形ではなく長方形である場合には、仮のウィンドウサイズの比としては、例えば、仮のウィンドウの面積の比を用いることができ、あるいは、２つの異なる辺の長さ（ウィンドウ幅）のうちの一方または両方について前記したサイズ比に関する条件を満たすことを条件とすることができる。

また、本実施形態では、このようなグルーピングの条件を、画像座標（ｘ、ｙ）を用いて、判定するが、他の構成例として、グルーピングの条件を、カメラ座標（Ｘ、Ｙ、Ｚ）における距離Ｚと位置Ｘ、Ｙの状態を用いて、判定し、その結果に基づいて、まとまり（グループ）を生成してもよい。

図８に示される（Ａ）、（Ｂ）、（Ｃ）は、２つの仮のウィンドウについて、画像座標（ｘ、ｙ）における位置の差および仮のウィンドウサイズの差の例を示してある。
図８に示される（Ａ）の状態では、２つの仮のウィンドウについて、画像座標（ｘ、ｙ）における位置の差および仮のウィンドウサイズの差が条件を満たすため、これらの仮のウィンドウを同じまとまり（グループ）に統合する。
図８に示される（Ｂ）の状態では、２つの仮のウィンドウについて、仮のウィンドウサイズの差が条件を満たさないため、これらの仮のウィンドウを統合しない。
図８に示される（Ｃ）の状態では、２つの仮のウィンドウについて、画像座標（ｘ、ｙ）における位置の差（この例では、横や縦の座標値の差）が条件を満たさないため、これらの仮のウィンドウを統合しない。

また、図８には、横軸に仮のウィンドウサイズ（例えば、ウィンドウ幅）［ｐｉｘｅｌ］を表し、縦軸に画像座標（ｘ、ｙ）における横（水平）方向の位置ｘ［ｐｉｘｅｌ］を表し、そこに、複数の特徴点を示し、また、仮のウィンドウのグルーピング（統合）により得られる（１）、（２）、（３）のまとまり（グループ）５０２、５１２、５２２を示してある。それぞれのまとまり（グループ）５０２、５１２、５２２の枠の内側に含まれる特徴点が、当該それぞれのまとまり（グループ）５０２、５１２、５２２に含まれる。

なお、図示の都合上、図８では、複数の特徴点のうち、特徴点５０１、５１１、５２１のみに符号を付してあるが、他の特徴点についても同様である。
また、この例では、画像座標（ｘ、ｙ）における横（水平）方向の位置ｘ［ｐｉｘｅｌ］のみを考慮したが、例えば、画像座標（ｘ、ｙ）における縦（垂直）方向の位置ｙ［ｐｉｘｅｌ］も考慮される。

このように、本実施形態では、物体認識部１３は、仮のウィンドウサイズが小さい方から順に、画像座標（ｘ、ｙ）における位置が近く、且つ、仮のウィンドウサイズが近い、２つの仮のウィンドウを同じまとまり（グループ）にグルーピング（統合）する。
なお、グルーピング（統合）の手法としては、他の様々な手法が用いられてもよい。

図９を参照して、本実施形態に係る物体認識部１３により行われる仮のウィンドウのグルーピング（統合）の処理について説明する。
図９は、本実施形態に係る物体認識部１３により行われる仮のウィンドウのグルーピング（統合）の処理の手順の一例を示すフローチャート図である。

この例では、物体認識部１３は、Ｎ（Ｎは、２以上の整数）個の特徴点を抽出し、各特徴点から変換されたＮ個の仮のウィンドウを得ているとする。また、この例では、仮のウィンドウの形状が正方形であり、１つのウィンドウ幅によりサイズが特定されるとする。
また、この例では、ａ＝１、２、・・・、Ｎとして、Ｗ（ａ）はａ番目の仮のウィンドウを表し、Ｗ（ａ＋１）は（ａ＋１）番目の仮のウィンドウを表し、Ｗ（１）は１番目（最小）の仮のウィンドウを表し、Ｗ（Ｎ）はＮ番目（最大）の仮のウィンドウを表し、Ｗｂ（ａ）はａ番目の仮のウィンドウの幅を表し、Ｗｂ（ａ＋１）は（ａ＋１）番目の仮のウィンドウの幅を表し、Ｗｘ（ａ）はａ番目の仮のウィンドウの位置の画像座標（ｘ、ｙ）におけるｘ座標の値を表し、Ｗｘ（ａ＋１）は（ａ＋１）番目の仮のウィンドウの位置の画像座標（ｘ、ｙ）におけるｘ座標の値を表し、Ｗｙ（ａ）はａ番目の仮のウィンドウの位置の画像座標（ｘ、ｙ）におけるｙ座標の値を表し、Ｗｙ（ａ＋１）は（ａ＋１）番目の仮のウィンドウの位置の画像座標（ｘ、ｙ）におけるｙ座標の値を表す。

まず、物体認識部１３は、Ｎ個の仮のウィンドウについて、仮のウィンドウサイズが小さい方から順に、Ｗ（１）、Ｗ（２）、・・・、Ｗ（Ｎ）を割り付ける（ステップＳ３０１）。
次に、物体認識部１３は、変数ａの値をａ＝１に設定して、割り付けの１番目とする（ステップＳ３０２）。

次に、物体認識部１３は、Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウについて、式（２）および式（３）の両方が満たされることが成り立つか否かを判定する（ステップＳ３０３）。

ここで、式（２）は、仮のウィンドウのウィンドウ幅（本実施形態では、ウィンドウサイズ）に関する条件の例を示す。式（２）における閾値ＴＨ１としては、様々な値が設定されてもよい。
具体的には、式（２）では、ａ番目の仮のウィンドウのウィンドウ幅Ｗｂ（ａ）と（ａ＋１）番目の仮のウィンドウのウィンドウ幅Ｗｂ（ａ＋１）との比を求め、その比があらかじめ定められた閾値ＴＨ１より大きいか否かを判断する。ここで、ａについて仮のウィンドウのウィンドウサイズは小さい順であるため、Ｗｂ（ａ）＜Ｗｂ（ａ＋１）である。つまり、式（２）の条件は、隣接する仮のウィンドウのウィンドウサイズが近い場合には統合するという条件である。

また、式（３）は、仮のウィンドウの位置に関する条件の例を示す。式（３）において、Ａｂｓ（Ｐ）は、Ｐの絶対値を表す。式（３）における閾値ＴＨ２としては、様々な値が設定されてもよい。
具体的には、式（３）では、ａ番目の仮のウィンドウの位置のｘ座標Ｗｘ（ａ）と（ａ＋１）番目の仮のウィンドウの位置のｘ座標Ｗｘ（ａ＋１）との差の絶対値と、ａ番目の仮のウィンドウの位置のｙ座標Ｗｙ（ａ）と（ａ＋１）番目の仮のウィンドウの位置のｙ座標Ｗｙ（ａ＋１）との差の絶対値との加算結果を求め、この加算結果があらかじめ定められた閾値ＴＨ２より小さいか否かを判断する。つまり、式（３）の条件は、隣接する仮のウィンドウの位置が近い場合には統合するという条件である。

そして、式（２）の条件と式（３）の条件とのＡＮＤ論理で、２つの仮のウィンドウを統合するか否かが決まる。

ステップＳ３０３の処理における判定の結果、物体認識部１３は、Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウについて、式（２）および式（３）の両方が満たされることが成り立つと判定した場合には、Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウをグルーピング（統合）する（ステップＳ３０４）。
そして、物体認識部１３は、変数ａの値をインクリメントすることで、ａの値に１を加える（ステップＳ３０５）。

一方、ステップＳ３０３の処理における判定の結果、物体認識部１３は、Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウについて、式（２）および式（３）の両方が満たされることが成り立たない（つまり、少なくとも一方が満たされない）と判定した場合には、グルーピング（統合）を行わずに、変数ａの値をインクリメントすることで、ａの値に１を加える（ステップＳ３０５）。

ここで、ステップＳ３０５の処理においてａの値をインクリメントするのは、ステップＳ３０３〜ステップＳ３０６のループの処理において、次回のループの処理へ移行させるためである。
次回のループの処理では、今回のＷ（ａ＋１）がＷ（ａ）となり、今回のＷ（ａ＋１）に対応する仮のウィンドウより次にサイズが大きい仮のウィンドウがＷ（ａ＋１）となる。

物体認識部１３は、ステップＳ３０５の処理の後に、ａ＝Ｎになったか否かを判定する（ステップＳ３０６）。
ステップＳ３０６の処理における判定の結果、物体認識部１３は、ａ＝Ｎになっていないと判定した場合には、ステップＳ３０３の処理へ移行して、次回のループの処理を行う。
一方、ステップＳ３０６の処理における判定の結果、物体認識部１３は、ａ＝Ｎになったと判定した場合には、本フローの処理を終了する。このように、ａ＝Ｎになるまで、ループの処理が繰り返して行われる。

図１０（Ａ）、図１０（Ｂ）、図１０（Ｃ）を参照して、図９に示されるステップＳ３０４の処理（グルーピング（統合）の処理）の例を示す。
図１０（Ａ）は、グルーピング（統合）の処理の一例を示す図である。
この例では、Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウとをグルーピング（統合）する場合、物体認識部１３は、両方の仮のウィンドウの最外殻で統合化し、具体的には、両方の仮のウィンドウが重ならない領域の最外殻（本実施形態では、四角形）を引いて１つのウィンドウ（仮のウィンドウ）として生成する。また、物体認識部１３は、グルーピング（統合）により生成したウィンドウ（仮のウィンドウ）を元のＷ（ａ＋１）に対応する仮のウィンドウと入れ替えする。

ここで、グルーピング（統合）により生成したウィンドウ（仮のウィンドウ）について、当該ウィンドウ（仮のウィンドウ）の位置の画像座標（ｘ、ｙ）におけるｘ座標の値やｙ座標の値としては、一例として、物体認識部１３は、元のＷ（ａ＋１）に対応する仮のウィンドウの位置のｘ座標の値Ｗｘ（ａ＋１）やｙ座標の値Ｗｙ（ａ＋１）を用いる。

なお、グルーピング（統合）により生成したウィンドウ（仮のウィンドウ）について、当該ウィンドウ（仮のウィンドウ）に対応するとする特徴点の画像座標（ｘ、ｙ）におけるｘ座標の値やｙ座標の値としても、同様に、一例として、物体認識部１３は、元のＷ（ａ＋１）に対応する仮のウィンドウの位置のｘ座標の値Ｗｘ（ａ＋１）やｙ座標の値Ｗｙ（ａ＋１）を用いることができ、他の例として、元のＷ（ａ＋１）に対応する仮のウィンドウに対応する特徴点の画像座標（ｘ、ｙ）におけるｘ座標の値やｙ座標の値を用いることができる。

図１０（Ｂ）は、グルーピング（統合）の処理の具体的な様子の一例を示す図である。
まず、物体認識部１３は、Ｗ（１）に対応する仮のウィンドウ６０１とＷ（２）に対応する仮のウィンドウ６０２とをグルーピング（統合）して、新たなＷ（２）に対応する仮のウィンドウ６０３を生成する。
次に、物体認識部１３は、生成した新たなＷ（２）に対応する仮のウィンドウ６０３とＷ（３）に対応する仮のウィンドウ６１１とをグルーピング（統合）して、新たなＷ（３）に対応する仮のウィンドウ６１２を生成する。
また、Ｗ（４）以降の処理についても、同様である。

図１０（Ｃ）は、グルーピング（統合）により生成したウィンドウ（仮のウィンドウ）について、当該ウィンドウ（仮のウィンドウ）の位置の画像座標（ｘ、ｙ）におけるｘ座標の値やｙ座標の値を決定する手法の他の一例を示す。この例では、Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウとをグルーピング（統合）する場合、物体認識部１３は、元のＷ（ａ）に対応する仮のウィンドウの位置のｘ座標の値と元のＷ（ａ＋１）に対応する仮のウィンドウの位置のｘ座標の値との平均値を、統合後のウィンドウ（仮のウィンドウ）の位置の画像座標（ｘ、ｙ）におけるｘ座標の値とし、また、元のＷ（ａ）に対応する仮のウィンドウの位置のｙ座標の値と元のＷ（ａ＋１）に対応する仮のウィンドウの位置のｙ座標の値との平均値を、統合後のウィンドウ（仮のウィンドウ）の位置の画像座標（ｘ、ｙ）におけるｙ座標の値とする。
式（４）は、ｘ座標の値について、このような演算を実現する式の例を示す。

なお、グルーピング（統合）により生成したウィンドウ（仮のウィンドウ）に対応するとする特徴点の画像座標（ｘ、ｙ）におけるｘ座標の値やｙ座標の値としても、同様に、Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウとをグルーピング（統合）する場合、物体認識部１３は、元のＷ（ａ）に対応する仮のウィンドウの位置のｘ座標の値と元のＷ（ａ＋１）に対応する仮のウィンドウの位置のｘ座標の値との平均値を、統合後のウィンドウ（仮のウィンドウ）に対応するとする特徴点の画像座標（ｘ、ｙ）におけるｘ座標の値とし、また、元のＷ（ａ）に対応する仮のウィンドウの位置のｙ座標の値と元のＷ（ａ＋１）に対応する仮のウィンドウの位置のｙ座標の値との平均値を、統合後のウィンドウ（仮のウィンドウ）に対応するとする特徴点の画像座標（ｘ、ｙ）におけるｙ座標の値とすることもできる。
また、他の例として、Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウとをグルーピング（統合）する場合、物体認識部１３は、元のＷ（ａ）に対応する仮のウィンドウに対応する特徴点の画像座標（ｘ、ｙ）におけるｘ座標の値と元のＷ（ａ＋１）に対応する仮のウィンドウに対応する特徴点の画像座標（ｘ、ｙ）におけるｘ座標の値との平均値を、統合後のウィンドウ（仮のウィンドウ）に対応するとする特徴点の画像座標（ｘ、ｙ）におけるｘ座標の値とし、また、元のＷ（ａ）に対応する仮のウィンドウに対応する特徴点の画像座標（ｘ、ｙ）におけるｙ座標の値と元のＷ（ａ＋１）に対応する仮のウィンドウに対応する特徴点の画像座標（ｘ、ｙ）におけるｙ座標の値との平均値を、統合後のウィンドウ（仮のウィンドウ）に対応するとする特徴点の画像座標（ｘ、ｙ）におけるｙ座標の値とすることもできる。

ここで、本実施形態では、図１０（Ａ）および図１０（Ｂ）に示されるように、Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウとをグルーピング（統合）する場合に、両方の仮のウィンドウの最外殻で統合化するが、他の構成例として、統合後の仮のウィンドウのサイズを、統合前における一方の仮のウィンドウのサイズ（Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウとのうちの一方のサイズ）に設定すること、または、統合前における２つの仮のウィンドウ（Ｗ（ａ）に対応する仮のウィンドウとＷ（ａ＋１）に対応する仮のウィンドウ）のサイズの平均値に設定すること、なども可能である。

本実施形態では、物体認識部１３により仮のウィンドウのグルーピング（統合）を行って、最終的に得られた仮のウィンドウ（グルーピング（統合）の結果となる仮のウィンドウ）をグルーピングウィンドウと呼ぶ。
そして、本実施形態では、物体認識部１３は、グルーピングウィンドウをラスタスキャン領域として決定して設定する（図５に示されるステップＳ２０５の処理の一部）。
なお、グルーピング（統合）の対象となる一連の仮のウィンドウから、複数の異なるグルーピングウィンドウが得られることもある。

図１１を参照して、物体認識部１３により、グルーピング（統合）により得られた各グルーピングウィンドウ（各ラスタスキャン領域）について、ステップ幅（移動ステップ）を決定する処理（図５に示されるステップＳ２０５の処理の一部）について説明する。

図１１は、グルーピングウィンドウの元となった仮のウィンドウのウィンドウ幅と、ステップ幅との関係（相関）を表す特性７０１のグラフの一例を示す図である。本実施形態では、この特性７０１の情報が、物体認識部１３により記憶されて使用される。
図１１のグラフでは、横軸は仮のウィンドウ幅［ｐｉｘｅｌ］を表し、縦軸はステップ幅（ステップ幅ｄｘ、ステップ幅ｄｙ）［ｐｉｘｅｌ］を表す。

ここで、図１１のグラフにおいて、横軸で表されるウィンドウ幅としては、グルーピングウィンドウの元となった仮のウィンドウのウィンドウ幅が用いられる。
本実施形態では、仮のウィンドウの形状を正方形としており、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）は等しい。
なお、ウィンドウ幅としては、一例として、画像座標（ｘ、ｙ）における、ｘの値が用いられてもよく、または、ｙの値が用いられてもよく、他の例として、カメラ座標（Ｘ、Ｙ、Ｚ）における、Ｘの値が用いられてもよく、または、Ｙの値が用いられてもよい。

また、本実施形態では、物体認識部１３は、画像座標（ｘ、ｙ）におけるｘ座標のステップ幅ｄｘとｙ座標のステップ幅ｄｙとで、共通の同じ値を用いる。
この場合に、他の構成例として、仮のウィンドウの形状が長方形であるときには、物体認識部１３は、一例として、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）とのうちで、あらかじめ定められた一方の長さ（ウィンドウ幅）を用いることができ、他の一例として、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）との平均値を用いることができる。

他の構成例として、物体認識部１３は、画像座標（ｘ、ｙ）におけるｘ座標のステップ幅ｄｘとｙ座標のステップ幅ｄｙとで、異なる値を用いることもできる。
この場合には、物体認識部１３は、一例として、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）に基づいて画像座標（ｘ、ｙ）におけるｘ座標のステップ幅ｄｘを決定し、仮のウィンドウの縦（垂直）方向の長さ（ウィンドウ幅）に基づいて画像座標（ｘ、ｙ）におけるｙ座標のステップ幅ｄｙを決定することができる。

また、他の一例として、物体認識部１３は、図１１に示されるような特性７０１として、画像座標（ｘ、ｙ）におけるｘ座標のステップ幅ｄｘとｙ座標のステップ幅ｄｙとで異なる特性を記憶して使用することもできる。この場合には、物体認識部１３は、例えば、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）に基づいて画像座標（ｘ、ｙ）におけるｘ座標のステップ幅ｄｘを決定し、仮のウィンドウの縦（垂直）方向の長さ（ウィンドウ幅）に基づいて画像座標（ｘ、ｙ）におけるｙ座標のステップ幅ｄｙを決定することができ、または、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）とのうちで、あらかじめ定められた一方の長さ（ウィンドウ幅）に基づいて、画像座標（ｘ、ｙ）におけるｘ座標のステップ幅ｄｘとｙ座標のステップ幅ｄｙとの両方を決定することもできる。

本実施形態では、物体認識部１３は、各グルーピングウィンドウについて、そのグルーピングウィンドウの元となった全ての仮のウィンドウ（本実施形態では、図５に示されるステップＳ２０３の処理により生成された最初の仮のウィンドウであって、グルーピング（統合）の途中で生成された仮のウィンドウを除く）のウィンドウ幅に基づいて決定されるステップ幅ｄｘ、ｄｙについて、最小のステップ幅と最大のステップ幅との間の範囲を、ラスタスキャンで使用するステップ幅の範囲として設定する。そして、物体認識部１３は、設定した範囲内のステップ幅を使用する。

具体的な一例として、物体認識部１３は、あるグルーピングウィンドウについて、ｘ座標のステップ幅ｄｘまたはｙ座標のステップ幅ｄｙに関し、そのグルーピングウィンドウの元となった全ての仮のウィンドウのウィンドウ幅に基づいて決定されたステップ幅の最小値（最小のステップ幅）がＡ１（例えば、Ａ１＝５）で、最大値（最大のステップ幅）がＢ１（例えば、Ｂ１＝１０）であるときには、当該最小値から当該最大値まであらかじめ定められた変化量Δ１（例えば、Δ１＝１）ずつ変化させて得られるステップ幅（例えば、５、６、７、８、９、１０）を、当該グルーピングウィンドウ（ラスタスキャン領域）におけるラスタスキャンで使用する。
図１１には、物体認識部１３により決定される３つの異なるステップ幅の範囲の例（１）、（２）、（３）を示してある。

なお、グルーピングウィンドウの元となった仮のウィンドウのウィンドウ幅とステップ幅との関係（相関）を表す特性としては、図１１に示される特性７０１に限られず、様々な特性が用いられてもよい。

図１２を参照して、物体認識部１３により、グルーピング（統合）により得られた各グルーピングウィンドウ（各ラスタスキャン領域）について、スケール（ウィンドウスケールの幅）を決定する処理（図５に示されるステップＳ２０５の処理の一部）について説明する。

図１２は、グルーピングウィンドウの元となった仮のウィンドウのウィンドウ幅と、スケールとの関係（相関）を表す特性８０１のグラフの一例を示す図である。本実施形態では、この特性８０１の情報が、物体認識部１３により記憶されて使用される。
図１２のグラフでは、横軸は仮のウィンドウ幅［ｐｉｘｅｌ］を表し、縦軸はスケールＳＣ［ｐｉｘｅｌ］を表す。

ここで、図１２のグラフにおいて、横軸で表されるウィンドウ幅としては、グルーピングウィンドウの元となった仮のウィンドウのウィンドウ幅が用いられる。
本実施形態では、仮のウィンドウの形状を正方形としており、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）は等しい。
なお、ウィンドウ幅としては、一例として、画像座標（ｘ、ｙ）における、ｘの値が用いられてもよく、または、ｙの値が用いられてもよく、他の例として、カメラ座標（Ｘ、Ｙ、Ｚ）における、Ｘの値が用いられてもよく、または、Ｙの値が用いられてもよい。

また、本実施形態では、物体認識部１３は、画像座標（ｘ、ｙ）におけるｘ座標のスケールＳＣｘとｙ座標のスケールＳＣｙとで、共通の同じ値を用いる。つまり、本実施形態では、物体認識部１３は、ラスタスキャンにおいて、正方形の形状を有するウィンドウを使用する。
この場合に、他の構成例として、仮のウィンドウの形状が長方形であるときには、物体認識部１３は、一例として、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）とのうちで、あらかじめ定められた一方の長さ（ウィンドウ幅）を用いることができ、他の一例として、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）との平均値を用いることができる。

他の構成例として、物体認識部１３は、画像座標（ｘ、ｙ）におけるｘ座標のスケールＳＣｘとｙ座標のスケールＳＣｙとで、異なる値を用いることもできる。
この場合には、物体認識部１３は、一例として、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）に基づいて画像座標（ｘ、ｙ）におけるｘ座標のスケールＳＣｘを決定し、仮のウィンドウの縦（垂直）方向の長さ（ウィンドウ幅）に基づいて画像座標（ｘ、ｙ）におけるｙ座標のスケールＳＣｙを決定することができる。

また、他の一例として、物体認識部１３は、図１２に示されるような特性８０１として、画像座標（ｘ、ｙ）におけるｘ座標のスケールＳＣｘとｙ座標のスケールＳＣｙとで異なる特性を記憶して使用することもできる。この場合には、物体認識部１３は、例えば、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）に基づいて画像座標（ｘ、ｙ）におけるｘ座標のスケールＳＣｘを決定し、仮のウィンドウの縦（垂直）方向の長さ（ウィンドウ幅）に基づいて画像座標（ｘ、ｙ）におけるｙ座標のスケールＳＣｙを決定することができ、または、仮のウィンドウの横（水平）方向の長さ（ウィンドウ幅）と縦（垂直）方向の長さ（ウィンドウ幅）とのうちで、あらかじめ定められた一方の長さ（ウィンドウ幅）に基づいて、画像座標（ｘ、ｙ）におけるｘ座標のスケールＳＣｘとｙ座標のスケールＳＣｙとの両方を決定することもできる。

本実施形態では、物体認識部１３は、各グルーピングウィンドウについて、そのグルーピングウィンドウの元となった全ての仮のウィンドウ（本実施形態では、図５に示されるステップＳ２０３の処理により生成された最初の仮のウィンドウであって、グルーピング（統合）の途中で生成された仮のウィンドウを除く）のウィンドウ幅に基づいて決定されるスケールＳＣ（スケールＳＣｘ、スケールＳＣｙ）について、最小のスケールと最大のスケールとの間の範囲を、ラスタスキャンで使用するスケールの範囲として設定する。そして、物体認識部１３は、設定した範囲内のスケールを使用する。

具体的な一例として、物体認識部１３は、あるグルーピングウィンドウについて、スケールＳＣ（ｘ座標のスケールＳＣｘまたはｙ座標のスケールＳＣｙ）に関し、そのグルーピングウィンドウの元となった全ての仮のウィンドウのウィンドウ幅に基づいて決定されたスケールの最小値（最小のスケール）がＡ２（例えば、Ａ２＝２）で、最大値（最大のスケール）がＢ２（例えば、Ｂ２＝６）であるときには、当該最小値から当該最大値まであらかじめ定められた変化量Δ２（例えば、Δ２＝２）ずつ変化させて得られるスケール（例えば、２、４、６）を、当該グルーピングウィンドウ（ラスタスキャン領域）におけるラスタスキャンで使用する。
図１２には、物体認識部１３により決定される３つの異なるスケールの範囲の例（１）、（２）、（３）を示してある。

なお、グルーピングウィンドウの元となった仮のウィンドウのウィンドウ幅とスケールとの関係（相関）を表す特性としては、図１２に示される特性８０１に限られず、様々な特性が用いられてもよい。

このように、本実施形態では、物体認識部１３は、仮のウィンドウのグルーピングの結果に基づいて、ラスタスキャンを行う対象とする領域（ラスタスキャン領域）と、ラスタスキャンするウィンドウのスケールと、ラスタスキャンするウィンドウのステップ幅（移動ステップ）を決定する（図５に示されるステップＳ２０５の処理）。

図１３を参照して、従来例と本案（本実施形態）について、ラスタスキャンの様子を示す。
この例では、従来例として、従来例に係る図１８に示されるフローチャートの処理を実行する場合を示す。
また、この例では、本案として、本実施形態に係る図４および図５に示されるフローチャートの処理を実行する場合を示す。

図１３は、ラスタスキャンの様子の例を示す図である。
図１３には、カメラ（例えば、図１に示されるカメラ１１またはそれに対応するもの）により撮像された画像の全体（全撮像画像）９０１と、従来例に係るラスタスキャン領域９１１と、本案における第１の例（１）に係るラスタスキャン領域９２１と、本案における第２の例（２）に係るラスタスキャン領域９２２と、本案における第３の例（３）に係るラスタスキャン領域９２３を示してある。
また、図１３には、各ラスタスキャン領域９１１、９２１〜９２３の中に、移動させるウィンドウの例を点線で示してある。

本案における第１の例（１）に係るラスタスキャン領域９２１は、比較的、遠距離に存在する特徴点についてグルーピング（統合）を行った場合に得られるラスタスキャン領域である。
本案における第２の例（２）に係るラスタスキャン領域９２２は、比較的、遠距離から中距離の間に存在する特徴点についてグルーピング（統合）を行った場合に得られるラスタスキャン領域である。
本案における第３の例（３）に係るラスタスキャン領域９２３は、比較的、中距離から近距離の間に存在する特徴点についてグルーピング（統合）を行った場合に得られるラスタスキャン領域である。

従来例に係るラスタスキャンでは、通常、ラスタスキャン領域が広く、且つ、その広いラスタスキャン領域に対してウィンドウのスケールと移動ステップを調整して順次スキャンする必要があるため、無駄になるウィンドウの処理（無駄になるウィンドウの数）が多くなってしまう。

これに対して、本案に係るラスタスキャンでは、仮のウィンドウのグルーピングの結果に基づいて、ラスタスキャンを行う対象とする領域（ラスタスキャン領域）と、ラスタスキャンするウィンドウのスケールと、ラスタスキャンするウィンドウのステップ幅（移動ステップ）を決定する。このため、本案に係るラスタスキャンでは、例えば、従来例に係るラスタスキャンと比べて、ラスタスキャン領域を小さくすることができ、且つ、その小さいラスタスキャン領域に対して、ウィンドウのスケールや移動ステップを小さくすることができ、これにより、無駄になるウィンドウの処理（無駄になるウィンドウの数）を削減することができる。

このように、本実施形態では、物体認識部１３は、例えば、ラスタスキャン領域推定の処理を行うことにより、ラスタスキャンする領域（ラスタスキャン領域）を絞り込むことができ、且つ、絞り込んだラスタスキャン領域に対して、さらにスケールの範囲とステップ幅（移動ステップ）の範囲を絞り込むことができるため、従来例に係るラスタスキャンよりも大幅に、スキャンするウィンドウの処理（スキャンするウィンドウの数）を削減することができる。

ここで、特徴点から得られる仮のウィンドウについて行われるグルーピング（統合）について、一構成例として、物体認識部１３は、抽出された複数の特徴点の中で、あらかじめ定められた条件を満たす特徴点についてはグルーピング（統合）の処理の前に除外して、グルーピング（統合）の処理に使用しない。これにより、さらにグルーピング（統合）の効率化を図り、グルーピング（統合）の精度を向上させることが可能である。

具体的に、除外する特徴点を規定するあらかじめ定められた条件としては、例えば、カメラ座標などのように３次元空間の座標系における点（特徴点）の座標（Ｘ、Ｙ、Ｚ）について、高さを表す座標（例えば、座標Ｙ）の値が所定の閾値（高さに関する第１の閾値）以上となる場合にグルーピング（統合）の対象から除外するという条件（高さに関する第１の条件）、または、高さを表す座標（例えば、座標Ｙ）の値が所定の閾値（高さに関する第２の閾値）以下となる場合にグルーピング（統合）の対象から除外するという条件（高さに関する第２の条件）、または、これら両方の条件を用いることができる。
高さに関する第１の条件では、例えば、目標物体が存在しないほどに高い位置（例えば、空など）に存在する特徴点については、グルーピング（統合）の対象から除外して、グルーピング（統合）を行わないようにすることができる。
高さに関する第２の条件では、例えば、目標物体が存在しないほどに低い位置（例えば、地下など）に存在する特徴点については、グルーピング（統合）の対象から除外して、グルーピング（統合）を行わないようにすることができる。
これにより、グルーピング（統合）の対象とする特徴点の数を合理的に減らすことができ、グルーピング（統合）の効率化を図り、グルーピング（統合）の精度を向上させることができる。

図１４（Ａ）、図１４（Ｂ）、図１４（Ｃ）を参照して、積分画像（インテグラルイメージ）について説明する。
図１４（Ａ）は、オリジナル画像の一例を示す図である。
この例では、オリジナル画像として、輝度画像２００１を示す。
輝度画像２００１について、横（水平）方向のｘ軸、縦（垂直）方向のｙ軸に関し、画素位置（ｘ、ｙ）の輝度値をｉ（ｘ、ｙ）とする。

図１４（Ｂ）は、累積行加算の結果の一例を示す図である。
この例では、枠内の左上から右下まで、繰り返して積分する。
累積行加算の結果２００２において、位置（ｘ、ｙ）の累積行加算値ｓ（ｘ、ｙ）は、式（５）により表される。

図１４（Ｃ）は、積分画像の一例を示す図である。
この例では、枠内の左上から右下まで、繰り返して積分する。
積分画像２００３において、位置（ｘ、ｙ）の積分値ｉｉ（ｘ、ｙ）は、式（６）により表される。

図１５（Ａ）および図１５（Ｂ）を参照して、Ｈａａｒ−ｌｉｋｅ特徴量を説明する。
図１５（Ａ）は、２矩形２０１１を示す。
２矩形２０１１の特徴として、左右の矩形の特徴量の差分を用いる。

図１５（Ｂ）は、２矩形特徴の求め方を示す。この例では、積分画像から部分領域の積分値を計算する。
ａ、ｂ、ｃ、ｄ，ｅ、ｆを、それぞれ、各点における積分勾配値とする。
右側の領域（領域１）の単矩形特徴量は、式（７）により表され、４点で算出することができる。
左側の領域（領域２）の単矩形特徴量は、式（８）により表され、４点で算出することができる。
領域１の特徴量と領域２の特徴量との差分である２矩形特徴量は、式（９）により表され、６点で算出することができる。

このような積分画像の応用として、インテグラルヒストグラム（勾配積分ヒストグラム）がある。
具体的には、勾配画像について、勾配方向毎に積分を行う。
これにより、容易に、セル単位のヒストグラムを作成することができる。

図１６（Ａ）〜図１６（Ｄ）を参照して、勾配方向および勾配強度の算出例を説明する。
図１６（Ａ）は、輝度画像の一例を示す図である。
この例では、横（水平）方向のｘ軸の画素位置をｕで表しており、右へ行くほど座標値が大きくなる。また、縦（垂直）方向のｙ軸の画素位置をｖで表しており、下へ行くほど座標値が大きくなる。
ｘ−ｙ直交座標の平面上における画素位置は、座標（ｕ、ｖ）で表される。

図１６（Ｂ）は、勾配の一例を示す図である。
この例では、座標（ｕ、ｖ）の画素位置における輝度をＩ（ｕ、ｖ）で表す。
座標（ｕ、ｖ）の画素位置における横（水平）方向の輝度の勾配をＩｘで表し、Ｉｘを式（１０）で表す。また、座標（ｕ、ｖ）の画素位置における縦（垂直）方向の輝度の勾配をＩｙで表し、Ｉｙを式（１１）で表す。

図１６（Ｃ）は、勾配強度の一例を示す図である。
この例では、座標（ｕ、ｖ）の画素位置における勾配強度をｍ（ｕ、ｖ）で表し、ｍ（ｕ、ｖ）を式（１２）で表す。
図１６（Ｄ）は、勾配方向の一例を示す図である。
この例では、座標（ｕ、ｖ）の画素位置における勾配方向をθ（ｕ、ｖ）で表し、θ（ｕ、ｖ）を式（１３）で表す。

ここで、画像における輝度の勾配は、微分画像に対応する。また、例えば、輝度の勾配が所定の閾値より大きい画素位置のつながりを勾配として検出することが可能である。
また、勾配を算出する手法としては、例えば、ソーベルフィルタを用いる手法などのように、他の手法を用いることもできる。
また、積分勾配画像は、例えば、ＨＯＧ特徴量を算出する際によく用いられる。

図１７（Ａ）および図１７（Ｂ）を参照して、ＨＯＧ特徴量を説明する。
図１７（Ａ）は、セルによるヒストグラム化の一例を示す。
画像の中に設定されるセル２０２１と、３×３の計９個のセルから構成されるブロック２０２２を示す。
また、１個のセルが横（水平）方向に５画素（５ｐｉｘｅｌ）、縦（垂直）方向に５画素（５ｐｉｘｅｌ）から構成される場合を示す。
そして、セル２０２１について、セル単位での輝度勾配分布２０２３を示す。また、これについて、９方向を例として、方向を横軸とし且つ勾配強度を縦軸とした勾配方向ヒストグラムを示す。
また、この例では、ブロック２０２２の単位で、その領域で、セル内の輝度勾配を正規化する。

図１７（Ｂ）は、ブロック領域により正規化された、ＨＯＧ特徴量を算出する例を示す。
９方向を例として、１個のセル２０３１の特徴ベクトルＦ_ｊ，ｋは、式（１４）により表される。各方向（方向１〜方向９）の特徴ベクトルの成分ｆをｆ_１〜ｆ_９とする。ここで、ｋはセルの横（水平）方向の位置を表し、ｊは縦（垂直）方向の位置を表す。
ブロック２０３２の特徴ベクトルＶは、式（１５）により表される。
この特徴ベクトルＶの大きさにより正規化した結果ｖは、式（１６）により表される。
この例では、ＨＯＧ特徴ベクトルは、９セル×９次元×４ブロック数＝３２４次元となる。

以上のように、本実施形態に係る画像認識システムにおけるカメラＥＣＵ（画像認識装置の一例）１の物体認識部１３は、取得した画像における特徴点（例えば、複数の特徴点）の画像座標（ｘ、ｙ）を求め、求めた特徴点の画像座標（ｘ、ｙ）から３次元空間座標系（例えば、カメラ座標系）の座標（Ｘ、Ｙ、Ｚ）に変換し、この３次元空間座標系の座標（Ｘ、Ｙ、Ｚ）を元にラスタスキャン領域を推定する。そして、本実施形態に係る物体認識部１３は、この推定により決定したラスタスキャン領域に対してパターン認識を実行して、目標物体を認識する。
なお、物体認識部１３は、例えば、特徴点の画像座標（ｘ、ｙ）と３次元空間座標系の座標（Ｘ、Ｙ、Ｚ）を元にラスタスキャン領域を推定してもよい。

一構成例として、本実施形態に係る物体認識部１３は、複数の特徴点に関する３次元空間座標系における距離Ｚの情報と、その位置Ｘ、Ｙの情報または特徴点の画像座標（ｘ、ｙ）の情報を元に、仮のウィンドウをグルーピング（統合）して、推定するラスタスキャン領域を作成する。
一構成例として、本実施形態に係る物体認識部１３は、仮のウィンドウのグルーピング（統合）の最終的な結果として得られる仮のウィンドウ（グルーピングウィンドウ）の領域をラスタスキャン領域として決定する。

一構成例として、本実施形態に係る物体認識部１３は、仮のウィンドウのグルーピング（統合）として、複数の特徴点に関する３次元空間座標系における距離Ｚの情報を元に変換した画像座標（ｘ、ｙ）での仮のウィンドウのサイズ（例えば、仮のウィンドウ幅）と、前記特徴点の画像座標（ｘ、ｙ）の値に基づく関係式（条件式）を用いて、グルーピング（統合）を行う。

一構成例として、本実施形態に係る物体認識部１３は、仮のウィンドウのグルーピング（統合）において、前記関係式（条件式）の条件が成り立つ場合には、該当するそれぞれの仮のウィンドウの領域が重なる最外側を引き延ばして、より広い領域に拡張する。

一構成例として、本実施形態に係る物体認識部１３は、推定したラスタスキャン領域でラスタスキャンするときにおけるステップ幅（移動ステップ）として、グルーピング（統合）を行った最終的な結果であるグルーピングウィンドウの元となったそれぞれの仮のウィンドウのサイズ（例えば、ウィンドウ幅）により規定されるステップ幅（移動ステップ）を当てはめて使用する。
一構成例として、本実施形態に係る物体認識部１３は、推定したラスタスキャン領域でラスタスキャンするときにおけるスケールとして、グルーピング（統合）を行った最終的な結果であるグルーピングウィンドウの元となったそれぞれの仮のウィンドウのサイズ（例えば、ウィンドウ幅）により規定されるスケールを当てはめて使用する。

一構成例として、本実施形態に係る物体認識部１３は、特徴点の画像座標（ｘ、ｙ）から３次元空間座標系の座標（Ｘ、Ｙ、Ｚ）に変換したものにおける高低の情報（例えば、Ｙの値の情報）を用いて、目標物体が存在しない高さまたは低さにあるものについては、ラスタスキャン領域推定の処理で使用する特徴点には加えないように、除外する。

このように、本実施形態に係る画像認識システムにおけるカメラＥＣＵ（画像認識装置の一例）１の物体認識部１３では、３Ｄ解析からの情報（または、３Ｄ解析処理の一部を行うこと）により、無駄となるラスタスキャン時のウィンドウの数を削減することができ、パターン認識の処理時間を短縮することができる。

具体例として、本実施形態に係る物体認識部１３では、それぞれのグループ（グルーピングウィンドウ）毎に最適なステップ幅（移動ステップ）の範囲とスケールの範囲を選ぶ（決定する）ことができ、従来のラスタスキャンよりも、ラスタスキャンするウィンドウの数を削減することができる。
なお、通常、３Ｄ解析により抽出される特徴点は、目標物体以外についても多く存在するが、それを含めても、本実施形態に係るラスタスキャンの方が、従来のラスタスキャンよりも、ラスタスキャンするウィンドウの数を少なくすることが可能である。

また、本実施形態に係る物体認識部１３では、例えば、画面座標（ｘ、ｙ）から３次元空間座標系の座標（例えば、カメラ座標（Ｘ、Ｙ、Ｚ））に変換する精度があまり高くない場合においても、従来のラスタスキャンと比べて、ラスタスキャンするウィンドウの数を必ず削減することができるという点で、有効である。
このような場合には、例えば、図８および図９を参照して説明したグルーピング（統合）の条件を緩めるのも好ましく、つまり閾値を緩めに設定するのも好ましい。
ここで、閾値を緩めに設定する仕方としては、具体的には、図９に示されるステップＳ３０３の処理では、例えば、閾値ＴＨ１を小さく設定する仕方や、閾値ＴＨ２を大きく設定する仕方がある。

以上のように、本実施形態に係る画像認識システムにおけるカメラＥＣＵ（画像認識装置の一例）１の物体認識部１３によると、画像認識の効率化を図ることができる。

本実施形態に係る画像認識システムにおけるカメラＥＣＵ（画像認識装置の一例）１の物体認識部１３によると、例えば、車載用の装置に実装（組み込み）することが可能である。
このように、本実施形態に係る画像認識システムにおけるカメラＥＣＵ（画像認識装置の一例）１の物体認識部１３によると、例えば、識別性能を維持した上で、車載用の装置に実装（組み込み）することができる程度に十分な演算処理速度が得られるため、１つの装置で、車間距離制御装置（ＡＣＣ）や前方車両衝突警報装置（ＦＣＷ）や歩行者衝突警報装置などの適用が可能となる効果を有する。

本実施形態では、ターゲット（目標）とする物体の認識に好適な装置や、方法や、これらに用いるコンピュータプログラムなどを提供することができる。

［本実施形態に係る構成例］
（構成例１）画像認識装置（本実施形態では、カメラＥＣＵ１）は、画像を取得する画像取得部１２と、画像取得部１２により取得された画像について特徴点を抽出し、抽出した特徴点について３次元空間座標系の座標を検出し（本実施形態では、当該座標への変換を行い）、当該検出結果に基づいて、目標物体を認識するために使用するラスタスキャン領域を決定する物体認識部１３と、を備える。

（構成例２）画像認識装置において、物体認識部１３は、抽出した複数の特徴点のそれぞれに関して検出した３次元空間座標系の座標（本実施形態では、カメラ座標（Ｘ、Ｙ、Ｚ））における距離（本実施形態では、距離Ｚ）の情報と、前記抽出した複数の特徴点のそれぞれに関する前記距離以外の位置（本実施形態では、Ｘ、Ｙ）の情報に基づいて、仮のウィンドウを生成して、生成した仮のウィンドウの統合を行って、ラスタスキャン領域を作成する。

（構成例３）画像認識装置において、物体認識部１３は、仮のウィンドウの統合の最終的な結果として得られる仮のウィンドウ（グルーピングウィンドウ）の領域をラスタスキャン領域として決定する。

（構成例４）画像認識装置において、物体認識部１３は、抽出した複数の特徴点のそれぞれに関して検出した３次元空間座標系の座標における距離の情報に基づいて仮のウィンドウのサイズを設定するとともに、前記抽出した複数の特徴点のそれぞれに関する前記距離以外の位置の情報に基づいて当該仮のウィンドウの位置を設定し、サイズおよび位置が設定された複数の仮のウィンドウの統合を、あらかじめ定められた条件式（本実施形態では、図９に示されるフローチャートの処理における条件式であり、式（２）、式（３））を用いて、行う。

（構成例５）画像認識装置において、物体認識部１３は、複数の仮のウィンドウの統合において、２つの仮のウィンドウの関係が前記条件式の条件を満たす場合には、当該２つの仮のウィンドウの両方を含む新たな仮のウィンドウに統合する。

（構成例６）画像認識装置において、物体認識部１３は、仮のウィンドウの統合の最終的な結果として得られる仮のウィンドウ（グルーピングウィンドウ）の元となったそれぞれの仮のウィンドウのウィンドウ幅に基づいてラスタスキャンの移動ステップを決定する。

（構成例７）画像認識装置において、物体認識部１３は、仮のウィンドウの統合の最終的な結果として得られる仮のウィンドウ（グルーピングウィンドウ）の元となったそれぞれの仮のウィンドウのウィンドウ幅に基づいてラスタスキャンで使用するウィンドウのスケールを決定する。

（構成例８）画像認識装置において、物体認識部１３は、抽出した複数の特徴点のそれぞれに関して検出した３次元空間座標系の座標における高低（本実施形態では、高さを表すＹ）の情報に基づいて、当該高低の情報があらかじめ定められた条件を満たす特徴点については、ラスタスキャン領域を決定する処理の対象から除外する。

［以上の実施形態についてのまとめ］
なお、図１に示される本実施形態に係る画像認識システムにおける任意の構成部（例えば、物体認識部１３など）により行われる処理の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、処理を行ってもよい。ここで言う「コンピュータシステム」とは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは、表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことを言う。さらに、「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことを言う。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

また、上記に限られず、マイクロコンピュータのほか、例えば、ＦＰＧＡ、あるいは、ＤＳＰなどのデバイスを用いて、図１に示される本実施形態に係る画像認識システムにおける任意の構成部により行われる処理を実現することも可能である。

以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…カメラＥＣＵ、２…警報装置、３…ＡＣＣ−ＥＣＵ、１１…カメラ、１２…画像取得部、１３…物体認識部、１４…制御部、２１…ＦＰＧＡ（または、ＤＳＰ）、２２…マイクロコンピュータ、
１０１…画像、１０２…勾配強度画像、１０３…積分勾配画像、１０４…ラスタスキャン領域、
２０１、２１１…ラスタスキャン領域、２０２、２１２…ウィンドウ、
３０１…特性
４０１、４１１…特徴点、４０２、４１２…仮のウィンドウ、
５０１、５１１、５２１…特徴点、５０２、５１２、５２２…まとまり（グループ）、
６０１〜６０３、６１１、６１２…仮のウィンドウ、
７０１…特性、
８０１…特性
９０１…全撮像画像、９１１、９２１〜９２３…ラスタスキャン領域、
２００１…輝度画像、２００２…累積行加算の結果、２００３…積分画像、
２０１１…２矩形、
２０２１、２０３１…セル、２０２２、２０３２…ブロック、２０２３…輝度勾配分布

Claims

画像を取得する画像取得部と、
前記画像取得部により取得された画像について特徴点を抽出し、抽出した特徴点について３次元空間座標系の座標を検出し、当該検出結果に基づいて、目標物体を認識するために使用するラスタスキャン領域を決定する物体認識部と、
を備えることを特徴とする画像認識装置。
前記物体認識部は、抽出した複数の特徴点のそれぞれに関して検出した３次元空間座標系の座標における距離の情報と、前記抽出した複数の特徴点のそれぞれに関する前記距離以外の位置の情報に基づいて、仮のウィンドウを生成して、生成した仮のウィンドウの統合を行って、ラスタスキャン領域を作成する、
ことを特徴とする請求項１に記載の画像認識装置。
前記物体認識部は、前記仮のウィンドウの統合の最終的な結果として得られる仮のウィンドウの領域をラスタスキャン領域として決定する、
ことを特徴とする請求項２に記載の画像認識装置。
前記物体認識部は、抽出した複数の特徴点のそれぞれに関して検出した３次元空間座標系の座標における距離の情報に基づいて仮のウィンドウのサイズを設定するとともに、前記抽出した複数の特徴点のそれぞれに関する前記距離以外の位置の情報に基づいて当該仮のウィンドウの位置を設定し、サイズおよび位置が設定された複数の仮のウィンドウの統合を、あらかじめ定められた条件式を用いて、行う、
ことを特徴とする請求項２または請求項３に記載の画像認識装置。
前記物体認識部は、前記複数の仮のウィンドウの統合において、２つの仮のウィンドウの関係が前記条件式の条件を満たす場合には、当該２つの仮のウィンドウの両方を含む新たな仮のウィンドウに統合する、
ことを特徴とする請求項４に記載の画像認識装置。
前記物体認識部は、前記仮のウィンドウの統合の最終的な結果として得られる仮のウィンドウの元となったそれぞれの仮のウィンドウのウィンドウ幅に基づいてラスタスキャンの移動ステップを決定する、
ことを特徴とする請求項２から請求項５のいずれか１項に記載の画像認識装置。
前記物体認識部は、前記仮のウィンドウの統合の最終的な結果として得られる仮のウィンドウの元となったそれぞれの仮のウィンドウのウィンドウ幅に基づいてラスタスキャンで使用するウィンドウのスケールを決定する、
ことを特徴とする請求項２から請求項６のいずれか１項に記載の画像認識装置。
前記物体認識部は、抽出した複数の特徴点のそれぞれに関して検出した３次元空間座標系の座標における高低の情報に基づいて、当該高低の情報があらかじめ定められた条件を満たす特徴点については、ラスタスキャン領域を決定する処理の対象から除外する、
ことを特徴とする請求項１から請求項７のいずれか１項に記載の画像認識装置。
画像取得部が、画像を取得し、
物体認識部が、前記画像取得部により取得された画像について特徴点を抽出し、抽出した特徴点について３次元空間座標系の座標を検出し、当該検出結果に基づいて、目標物体を認識するために使用するラスタスキャン領域を決定する、
ことを特徴とする画像認識方法。
画像取得部が、画像を取得する手順と、
物体認識部が、前記画像取得部により取得された画像について特徴点を抽出し、抽出した特徴点について３次元空間座標系の座標を検出し、当該検出結果に基づいて、目標物体を認識するために使用するラスタスキャン領域を決定する手順と、
をコンピュータに実行させるための画像認識プログラム。