JP2013161126A - 画像認識装置、画像認識方法および画像認識プログラム - Google Patents

画像認識装置、画像認識方法および画像認識プログラム Download PDF

Info

Publication number
JP2013161126A
JP2013161126A JP2012020051A JP2012020051A JP2013161126A JP 2013161126 A JP2013161126 A JP 2013161126A JP 2012020051 A JP2012020051 A JP 2012020051A JP 2012020051 A JP2012020051 A JP 2012020051A JP 2013161126 A JP2013161126 A JP 2013161126A
Authority
JP
Japan
Prior art keywords
image
unit
gradient
recognition unit
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012020051A
Other languages
English (en)
Inventor
Tomokazu Mitsui
相和 三井
Hiroyuki Akimoto
広幸 秋元
Junji Kanemoto
淳司 金本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nidec Elesys Corp
Original Assignee
Honda Elesys Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Elesys Co Ltd filed Critical Honda Elesys Co Ltd
Priority to JP2012020051A priority Critical patent/JP2013161126A/ja
Priority to US13/755,847 priority patent/US20130287251A1/en
Publication of JP2013161126A publication Critical patent/JP2013161126A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像認識の効率化を図ることができる画像認識装置、画像認識方法および画像認識プログラムを提供する
【解決手段】画像認識装置(例えば、画像認識装置の一例であるカメラECU1)は、画像を取得する画像取得部12と、前記画像取得部12により取得された画像の輝度の勾配方向および勾配量を求め、求められた勾配方向毎の勾配量について、第1の認識部31により、ウィンドウをスキャンして、矩形特徴量を求めて、当該矩形特徴量に基づいて識別器により目標の物体が存在すると認識されるウィンドウを抽出し、第2の認識部32により、前記第1の認識部31により抽出されたウィンドウについて、あらかじめ定められた特徴量を求めて、当該特徴量に基づいて識別器により前記目標の物体を認識する物体認識部13と、を備えることを特徴とする。
【選択図】図1

Description

本発明は、画像認識装置、画像認識方法および画像認識プログラムに関する。
近年、車両の運転支援装置や予防安全装置として、車間距離制御装置(ACC:Adaptive Cruise Control)や前方車両衝突警報装置(FCW:Forward Collision Warning)や歩行者衝突警報装置などがあり、車載カメラを用いる安価な装置の普及が期待されている。
車載カメラを用いる物体の認識には、パターン認識が多く用いられている。
パターン認識の手法は、認識したい物体の特徴量をあらかじめ学習して、その学習結果を反映した辞書を作成し、当該辞書の内容と照合することで、撮像した画像の中に物体(物体の画像)があるか否かを認識する手法である。
パターン認識においては、Haar−like特徴量とAdaBoostの識別器とを組み合わせた顔認識アルゴリズム(例えば、非特許文献1参照。)が発表された後、近年では、車載用の物体認識に応用した技術(例えば、特許文献1参照。)も発表されている。
このような物体認識のアルゴリズムでは、Haar−like特徴量を作る際に、積分画像(インテグラルイメージ)の作成により演算処理を高速にしたことも特色としてある。
また、他のよく使われる特徴量として、HOG(Histograms of Oriented Gradients)特徴量などがある。
また、他のよく使われる識別器として、SVM(Support Vector Machine)の識別器などがある。
また、前記のようなパターン認識では、撮像した画像の中から目標物体(目標物体の画像)を抽出するために、物体認識する領域(ウィンドウ)を各サイズで設定し、そのウィンドウ毎に前記した物体認識のアルゴリズムの処理を施す。
なお、図27および図28を参照して、背景技術に係る物体認識部(例えば、図1(A)に示される物体認識部13に対応する処理部)により行われるパターン認識の処理について説明する。
図27は、背景技術に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。
この例では、HOG特徴量とAdaBoostの識別器により、認識アルゴリズムを構成している。
まず、物体認識部は、取得した全ての輝度画像に対して、勾配方向と勾配強度を算出し、それぞれの勾配方向毎に勾配強度を積分する処理を行い、この結果である積分勾配画像(インテグラルヒストグラム)を算出する(ステップS1001)。これにより、勾配方向数枚の積分勾配画像が算出される。
次に、物体認識部は、ラスタスキャンにより、勾配方向毎の各積分勾配画像の任意の領域を、あらかじめ設定した任意の座標領域(ウィンドウ)をスライドさせながら抽出する(ステップS1002)。
次に、物体認識部は、抽出した座標領域(ウィンドウ)について、HOG特徴量(ベクトル)を算出する(ステップS1003)。これにより、セル単位で勾配ヒストグラムを作成する。
次に、物体認識部は、算出したHOG特徴量(ベクトル)を用いて、Real AdaBoostの識別器による識別を行い、あらかじめ目標(ターゲット)としている物体(物体の画像)を認識する(ステップS1004)。
ここで、物体認識部は、一連のラスタスキャンが終了したか否かを確認する(ステップS1005)。
そして、物体認識部は、一連のラスタスキャンが終了したと判定した場合には、本処理を終了する。
一方、物体認識部は、一連のラスタスキャンが終了していないと判定した場合には、ラスタスキャンの領域において、ウィンドウをずらして(スライドさせて)、ステップS1002の処理へ移行する。
これにより、物体認識部は、一連のラスタスキャンが終了するまで、ラスタスキャンの領域に対して、順次、ウィンドウをスライドさせて、ステップS1002〜ステップS1004の処理を繰り返して行う。
なお、一連のラスタスキャンでは、例えば、任意の画像領域に対して、同一のスケール(大きさ)のウィンドウを順次スライドさせて前記の処理(勾配ヒストグラムを作成する処理)を繰り返して行うことが終了した後に、ウィンドウのスケールや移動ステップ(スキャンステップ)を変化させて、再び、ウィンドウを順次スライドさせて前記の処理を繰り返して行うことを、あらかじめ定められた分だけ実行する。これにより、特徴ベクトル化を行う。
また、勾配ヒストグラムを作成する処理の方法としては、積分勾配画像を使用しない方法もあるが、積分勾配画像を使用する方法の方が処理時間を速くすることができるため有効である。
ここで、HOG特徴量の代わりにHaar−like特徴量を用いる場合には、上記した積分勾配画像の代わりに通常の積分輝度画像を用いる。この場合、1つの積分画像の作成で済ませることができるため処理を節減することが可能となるが、例えば、特定領域の輝度差の特徴のみを捉えられるだけに限られ、勾配方向毎で特徴を捉えることができない。
図28は、背景技術に係る物体認識部により行われる処理の手順の他の一例を示すフローチャート図である。
この例では、Haar−like特徴量とAdaBoostの識別器により、認識アルゴリズムを構成している。
まず、物体認識部は、取得した輝度画像に対して、輝度画像を積分する処理を行い、この結果である積分画像(インテグラルイメージ)を算出する(ステップS1011)。
次に、物体認識部は、ラスタスキャンにより、積分画像の領域を、あらかじめ設定した任意の座標領域(ウィンドウ)で抽出する(ステップS1012)。
次に、物体認識部は、抽出した座標領域(ウィンドウ)について、Haar−like特徴量(ベクトル)を算出する(ステップS1013)。
次に、物体認識部は、算出したHaar−like特徴量(ベクトル)を用いて、Real AdaBoostの識別器による識別を行い、あらかじめ目標(ターゲット)としている物体(物体の画像)を認識する(ステップS1014)。
ここで、物体認識部は、一連のラスタスキャンが終了したか否かを確認する(ステップS1015)。
そして、物体認識部は、一連のラスタスキャンが終了したと判定した場合には、本処理を終了する。
一方、物体認識部は、一連のラスタスキャンが終了していないと判定した場合には、ラスタスキャンの領域において、ウィンドウをずらして(スライドさせて)、ステップS1012の処理へ移行する。
これにより、物体認識部は、一連のラスタスキャンが終了するまで、ラスタスキャンの領域に対して、順次、ウィンドウをスライドさせて、ステップS1012〜ステップS1014の処理を繰り返して行う。
なお、一連のラスタスキャンでは、例えば、任意の画像領域に対して、同一のスケール(大きさ)のウィンドウを順次スライドさせて前記の処理を繰り返して行うことが終了した後に、ウィンドウのスケールや移動ステップ(スキャンステップ)を変化させて、再び、ウィンドウを順次スライドさせて前記の処理を繰り返して行うことを、あらかじめ定められた分だけ実行する。
ここで、特徴量としては、他の特徴量が用いられてもよい。
また、Real AdaBoost以外にも、標準的なAdaBoostやSVMなどの任意の認識アルゴリズムが用いられてもよい。
特開2007−310805号公報
Paul Viola、Michael Jones、"Rapid Object Detection using a Boosted Cascade of Simple Features"、Accepted Conference On Computer Vision And Pattern Recognition 2001
しかしながら、上述のような物体認識のアルゴリズムでは、弱識別器の数による差異はあるものの、一般的に、演算処理時間を要する(つまり、演算負荷が重い)処理を行う。しかも、撮像画像の中の目標物体(目標物体の画像)を認識するためのウィンドウを、画像中でラスタスキャンする必要がある。また、パターン認識の結果の精度を上げるためには、ラスタスキャンの移動ステップやウィンドウのスケール(物体との距離に依存する)を細かく設定することが必要になる。
従って、アルゴリズムの処理時間は、ラスタスキャンするウィンドウの数に対して、単純には、掛け算の関係で増大することとなるため、高速のCPU(Central Processing Unit)を搭載したPC(Personal Computer)等での処理をそのまま装置に実装(組み込み)することは困難であった。
本発明は、このような事情を考慮して為されたものであり、画像認識の効率化を図ることができる画像認識装置、画像認識方法および画像認識プログラムを提供することを目的としている。
(1)上述した課題を解決するために、本発明に係る画像認識装置は、画像を取得する画像取得部と、前記画像取得部により取得された画像の輝度の勾配方向および勾配量を求め、求められた勾配方向毎の勾配量について、第1の認識部により、ウィンドウをスキャンして、矩形特徴量を求めて、当該矩形特徴量に基づいて識別器により目標の物体が存在すると認識されるウィンドウを抽出し、第2の認識部により、前記第1の認識部により抽出されたウィンドウについて、あらかじめ定められた特徴量を求めて、当該特徴量に基づいて識別器により前記目標の物体を認識する物体認識部と、を備えることを特徴とする。
(2)本発明は、上記した(1)に記載の画像認識装置において、前記物体認識部において、前記第1の認識部の処理は、前記第2の認識部の処理よりも、1ウィンドウ当たりの演算処理時間を短くした、ことを特徴とする。
(3)本発明は、上記した(1)または上記した(2)に記載の画像認識装置において、前記物体認識部は、前記矩形特徴量として、単矩形特徴量と、Haar−like特徴量と、同じ勾配方向で、隣接した異なる矩形面積の複数の特徴(Haar−like応用)による特徴量と、同じ勾配方向で、隔たれた同じまたは異なる矩形面積の複数の特徴による特徴量と、異なる勾配方向で、隔たれた同じまたは異なる矩形面積の複数の特徴による特徴量と、のうちの1つ以上を用いる、ことを特徴とする。
(4)本発明は、上記した(1)から上記した(3)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記矩形特徴量について、複数の矩形に関する関係を特徴量とする場合に、四則演算のうちのいずれかの演算式に適用する、ことを特徴とする。
(5)本発明は、上記した(1)から上記した(4)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記矩形特徴量として、ウィンドウ単位の平均値と、ウィンドウ単位の標準偏差値と、ラスタスキャン領域の平均値と、ラスタスキャン領域の標準偏差値と、のうちのいずれかを用いて、照明差による正規化を行う、ことを特徴とする。
(6)本発明は、上記した(1)から上記した(5)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第1の認識部の識別器により、矩形特徴を学習して弱識別器として選択させ、この動作を認識の際に用いる、ことを特徴とする。
(7)本発明は、上記した(1)から上記した(6)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第1の認識部の識別器と前記第2の認識部の識別器とのうちの一方または両方を、Boostingまたは他のアンサンブル学習により作る、ことを特徴とする。
(8)本発明は、上記した(1)から上記した(7)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第1の認識部の識別器と前記第2の認識部の識別器とのうちの一方または両方として、AdaBoostの識別器、または、Real AdaBoostの識別器を用いる、ことを特徴とする。
(9)本発明は、上記した(1)から上記した(8)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第1の認識部の識別器に関して、前記矩形特徴量のレンジを正規化する係数を用いる、ことを特徴とする。
(10)本発明は、上記した(9)に記載の画像認識装置において、前記矩形特徴量のレンジを正規化する係数は、学習により前記第1の認識部の識別器を作成する際、同時に学習して決定された値である、ことを特徴とする。
(11)本発明は、上記した(1)から上記した(10)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第2の認識部により、前記あらかじめ定められた特徴量として、前記第1の認識部により用いられる矩形特徴量とは異なる特徴量を用いる、ことを特徴とする。
(12)本発明は、上記した(11)に記載の画像認識装置において、前記物体認識部は、前記第2の認識部により、前記あらかじめ定められた特徴量として、HOG特徴量を用いる、ことを特徴とする。
(13)本発明は、上記した(1)から上記した(10)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第2の認識部により、前記あらかじめ定められた特徴量として、前記勾配方向毎の前記勾配量についての矩形特徴量を用い、前記第1の認識部と前記第2の認識部とで異なる弱識別器を用いる、ことを特徴とする。
(14)本発明は、上記した(1)から上記した(13)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第1の認識部の識別器と前記第2の認識部の識別器により、双方ともBoostingを用いて、前記第2の認識部の弱識別器の数よりも前記第1の認識部の弱識別器の数を少なくする、ことを特徴とする。
(15)本発明は、上記した(1)から上記した(14)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第2の認識部の識別器に関して、前記あらかじめ定められた特徴量のレンジを正規化する係数を用いる、ことを特徴とする。
(16)本発明は、上記した(15)に記載の画像認識装置において、前記あらかじめ定められた特徴量のレンジを正規化する係数は、学習により前記第2の認識部の識別器を作成する際、同時に学習して決定された値である、ことを特徴とする。
(17)本発明は、上記した(1)から上記した(16)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第2の認識部により、前記第1の認識部により抽出されたウィンドウの周辺を、さらにスキャンして、あらかじめ定められた特徴量を求めて、当該特徴量に基づいて識別器により前記目標の物体を認識する、ことを特徴とする。
(18)本発明は、上記した(1)から上記した(17)のいずれか1つに記載の画像認識装置において、前記物体認識部は、前記第1の認識部により、前記抽出したウィンドウについて、再び1回以上、矩形特徴量を求めて、当該矩形特徴量に基づいて識別器により目標の物体が存在すると認識されるウィンドウを抽出する、ことを特徴とする。
(19)本発明は、上記した(1)から上記した(18)のいずれか1つに記載の画像認識装置において、前記物体認識部において、前記第1の認識部の識別器と前記第2の認識部の識別器の何れかまたは両方は、カスケード型の構成を有する、ことを特徴とする。
(20)上述した課題を解決するために、本発明に係る画像認識方法は、画像取得部が、画像を取得し、物体認識部が、前記画像取得部により取得された画像の輝度の勾配方向および勾配量を求め、求められた勾配方向毎の勾配量について、第1の認識部により、ウィンドウをスキャンして、矩形特徴量を求めて、当該矩形特徴量に基づいて識別器により目標の物体が存在すると認識されるウィンドウを抽出し、第2の認識部により、前記第1の認識部により抽出されたウィンドウについて、あらかじめ定められた特徴量を求めて、当該特徴量に基づいて識別器により前記目標の物体を認識する、ことを特徴とする。
(21)上述した課題を解決するために、本発明に係る画像認識プログラムは、画像取得部が、画像を取得する手順と、物体認識部が、前記画像取得部により取得された画像の輝度の勾配方向および勾配量を求め、求められた勾配方向毎の勾配量について、第1の認識部により、ウィンドウをスキャンして、矩形特徴量を求めて、当該矩形特徴量に基づいて識別器により目標の物体が存在すると認識されるウィンドウを抽出し、第2の認識部により、前記第1の認識部により抽出されたウィンドウについて、あらかじめ定められた特徴量を求めて、当該特徴量に基づいて識別器により前記目標の物体を認識する手順と、をコンピュータに実行させるためのプログラムである。
以上説明したように、本発明によれば、画像認識の効率化を図ることができる画像認識装置、画像認識方法および画像認識プログラムを提供することが可能になる。
(A)は本発明の一実施形態に係る画像認識システムの構成(ハードウェア構成)を示す概略ブロック図であり、(B)は物体認識部の構成を示す概略ブロック図である。 本発明の第1実施形態に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。 本発明の第2実施形態に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。 本発明の第3実施形態に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。 本発明の第4実施形態に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。 本発明の第5実施形態に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。 本発明の第6実施形態に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。 (A)は輝度画像の一例を示す図であり、(B)は勾配の一例を示す図であり、(C)は勾配強度の一例を示す図であり、(D)は勾配方向の一例を示す図であり、(E)は各勾配方向の範囲の一例を示す図である。 (A)、(B)はラスタスキャンのスケールと移動ステップの例を示す図である。 本発明の一実施形態に係る画像認識システムにおける画像取得から物体認識までの処理の概略的な一例を示す図である。 第1の例に係る勾配方向矩形特徴量Aを示す図である。 (A)、(B)、(C)は第2の例に係る勾配方向矩形特徴量Bを示す図である。 第3の例に係る勾配方向矩形特徴量Cを示す図である。 第4の例に係る勾配方向矩形特徴量Dを示す図である。 第5の例に係る勾配方向矩形特徴量Eを示す図である。 勾配方向矩形特徴量の具体例を示す図である。 勾配方向矩形特徴量の具体例を示す図である。 (A)は勾配方向矩形特徴量の照明差の正規化係数の一例を示す図であり、(B)は勾配方向矩形特徴量の照明差の正規化係数の他の一例を示す図である。 勾配方向矩形特徴量の照明差の正規化係数の他の例を示す図である。 Real AdaBoostの一例について説明するための図である。 勾配方向矩形特徴量のレンジの正規化について説明するための図である。 本発明の第2実施形態に係る絞り込み周辺スキャンの処理を説明するための図である。 勾配方向矩形特徴量とHOG特徴量との比較を説明するための図である。 (A)はオリジナル画像の一例を示す図であり、(B)は累積行加算の結果の一例を示す図であり、(C)は積分画像の一例を示す図である。 (A)および(B)はHaar−like特徴量を説明するための図である。 (A)および(B)はHOG特徴量を説明するための図である。 背景技術に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。 背景技術に係る物体認識部により行われる処理の手順の他の一例を示すフローチャート図である。 本発明の他の実施形態に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。 本発明の他の実施形態に係る物体認識部により行われる処理の手順の一例を示すフローチャート図である。
[用語の説明]
本願において、矩形は、長方形ばかりでなく、正方形も含む。
本願において、勾配方向矩形特徴は、画像の輝度の勾配方向と勾配強度に関する矩形特徴のことである。また、本願において、勾配方向矩形特徴量(または、ROG(Rectangle of Oriented Gradients)特徴量)は、勾配方向矩形特徴の特徴量のことであり、矩形の領域における勾配方向特徴量のことである。ここで、勾配方向特徴量は、画像の輝度の勾配方向と勾配強度に関する特徴量のことである。なお、矩形特徴としては、例えば、公知のものを用いることも可能であり、勾配強度は、情報量を低減した公知の勾配度数を用いることもできる。本願において、勾配強度と勾配度数を含む、広義の勾配値を勾配量と定義する。
本願において、積分勾配画像(インテグラルヒストグラム)は、画像の輝度について勾配方向と勾配強度(または、度数)を算出して、それぞれの勾配方向毎に勾配強度(または、度数)を積分した結果(積分勾配値)のことである。ここで、この積分は、例えば、積分勾配画像を求める対象となる領域に含まれる全ての画素(pixel(ピクセル))について行われる。
また、識別器としては、Real AdaBoostの識別器や、AdaBoostの識別器や、SVMの識別器など、様々なものを含む。
また、識別器の下位概念として、アンサンブル学習を行う識別器があり、その下位概念として、Boostingの識別器があり、その下位概念として、Real AdaBoostの識別器などがある。
ここで、Boostingは、複数の弱識別器を使用してアンサンブル学習を行うものである。
[第1実施形態]
本実施形態では、車両に搭載される車載用の画像認識システムを例として説明する。
図1(A)は、本発明の一実施形態に係る画像認識システムの構成(ハードウェア構成)を示す概略ブロック図である。
本実施形態に係る画像認識システムは、カメラECU(Electronic Control Unit)1と、警報装置2と、ACC−ECU3と、を備える。
なお、カメラECU1は、画像認識装置の一例である。
カメラECU1は、カメラ11と、画像取得部12と、物体認識部13と、制御部14と、を備える。
物体認識部13は、本実施形態では、FPGA(Field Programmable Gate Array)21の機能と、マイクロコンピュータ22の機能と、を用いて構成される。
なお、FPGA21の機能の代わりに、または、FPGA21の機能と共に、DSP(Digital Signal Processor)の機能が用いられてもよい。
制御部14は、本実施形態では、マイクロコンピュータ22の機能を用いて構成される。
また、物体認識部13および制御部14のメモリおよび周辺回路は、FPGA、DSP、マイクロコンピュータ内の集積回路に格納されているものを使用するか、もしくはそれらの外部に設けても良い。
ここで、物体認識部13および制御部14において、FPGA、DSP、マイクロコンピュータといったデバイスについては、任意の数のデバイスが用いられてもよく、例えば、全てのデバイスが用いられてもよく、または、必ずしも全てのデバイスが必要ではなく、1つのデバイスあるいは2つのデバイスに全ての処理の機能を実装することも可能である。
図1(B)は、物体認識部13の構成を示す概略ブロック図である。
本実施形態に係る物体認識部13は、第1の認識部31と、第2の認識部32と、を備える。
本実施形態に係る画像認識システムに備えられる各処理部の概要を説明する。
カメラ11は、本実施形態では、車両の前方、側方または後方等のようにあらかじめ定められた方向の画像を撮像する車両位置に設けられる。
カメラ11は、画像を撮像し、撮像した画像の信号を画像取得部12に出力する。
画像取得部12は、カメラ11からの画像を画像データとして取り込み、取り込んだ画像データを物体認識部13に出力する。
物体認識部13は、画像取得部12から入力される画像データについて、FPGA21やマイクロコンピュータ22により、物体認識のために、画像処理およびパターン認識の演算を行い、物体認識の処理の結果の情報を制御部14に出力する。この画像処理としては、例えば、前処理のフィルタリング処理などが行われる。
また、パターン認識の結果の情報としては、例えば、画像データの画像中における目標物体の情報が用いられる。
物体認識部13において、第1の認識部31は、画像取得部12から入力される画像データについて、第1の物体認識手法で、物体認識の処理を行う。
物体認識部13において、第2の認識部32は、第1の認識部31により行われる物体認識の処理の結果に基づいて、画像取得部12から入力される画像データについて、第2の物体認識手法で、物体認識の処理を行う。
物体認識部13は、第2の認識部32により行われた物体認識の処理の結果の情報を制御部14に出力する。
制御部14は、物体認識部13から入力される物体認識の処理の結果の情報に基づいて、あらかじめ定められた処理を行い、その結果の情報を警報装置2やACC−ECU3に出力する。
具体例として、制御部14は、物体認識部13から入力される物体認識の処理の結果の情報である目標物体の情報に基づいて、あらかじめ定められた処理として、目標物体との間のTTC(Time to Collision)や距離を算出する処理や、目標物体のトラッキングを行う処理や、他の装置やECU(本実施形態では、警報装置2やACC−ECU3)のアプリケーション機能と通信する処理などを行う。
警報装置2やACC−ECU3は、カメラECU1の制御部14を介して各アプリケーション機能を実行するように設けられる。
警報装置2は、制御部14から入力される情報に基づいて、例えば、目標物体が前方の車両である場合における前方車両衝突警報や、目標物体が歩行者である場合における歩行者衝突警報などを行う。
ACC−ECU3は、制御部14から入力される情報に基づいて、例えば、目標物体が前方の車両である場合における車間距離制御などを行う。
図2を参照して、本実施形態に係る物体認識部13により行われる処理について説明する。
図2は、本実施形態に係る物体認識部13により行われる処理の手順の一例を示すフローチャート図である。
この例では、物体認識部13の第1の認識部31がステップS2〜ステップS5の処理を行い、物体認識部13の第2の認識部32がステップS6〜ステップS8の処理を行う。
なお、ステップS1の処理は、物体認識部13の任意の機能により行われてもよい。
この例では、物体認識部13の第1の認識部31においては、勾配方向矩形特徴量とAdaBoostの識別器により、認識アルゴリズムを構成している。
また、この例では、物体認識部13の第2の認識部32においては、HOG特徴量とAdaBoostの識別器により、認識アルゴリズムを構成している。
まず、物体認識部13は、取得した輝度画像に対して、輝度画像から勾配方向と勾配強度を算出して勾配方向毎に勾配強度を積分する処理を行い、この結果である積分勾配画像(インテグラルヒストグラム)を算出する(ステップS1)。
なお、積分勾配画像(インテグラルヒストグラム)を算出する処理は、積分勾配画像を利用して後の演算処理の時間を短縮するためであり、必ずしも行われなくてもよい。つまり、以降の処理において、積分勾配画像を利用せずに同じ結果が得られる演算を用いてもよい。
次に、物体認識部13の第1の認識部31は、ラスタスキャンにより、積分勾配画像の領域を、あらかじめ設定した任意の座標領域(ウィンドウ)で抽出する(ステップS2)。
次に、物体認識部13の第1の認識部31は、抽出した座標領域(ウィンドウ)について、あらかじめ定められた勾配方向矩形特徴量(ベクトル)を算出する(ステップS3)。
次に、物体認識部13の第1の認識部31は、算出した勾配方向矩形特徴量(ベクトル)を用いて、Boostingの一例であるReal AdaBoostの識別器による識別を行い、あらかじめ目標(ターゲット)としている物体(物体の画像)が存在していると認識(例えば、推測)される1個以上のウィンドウを抽出する(ステップS4)。
ここで、物体認識部13の第1の認識部31は、一連のラスタスキャンが終了したか否かを確認する(ステップS5)。
そして、物体認識部13の第1の認識部31は、一連のラスタスキャンが終了したと判定した場合には、ステップS6の処理へ移行させる。
一方、物体認識部13の第1の認識部31は、一連のラスタスキャンが終了していないと判定した場合には、ラスタスキャンの領域において、ウィンドウをずらして(スライドさせて)、ステップS2の処理へ移行する。
これにより、物体認識部13の第1の認識部31は、一連のラスタスキャンが終了するまで、ラスタスキャンの領域に対して、順次、ウィンドウをスライドさせて、ステップS2〜ステップS4の処理を繰り返して行う。
なお、一連のラスタスキャンでは、例えば、同一のスケール(大きさ)のウィンドウを順次スライドさせて前記の処理を繰り返して行うことが終了した後に、ウィンドウのスケールやスキャンステップを変化させて、再び、ウィンドウを順次スライドさせて前記の処理を繰り返して行うことを、あらかじめ定められた分だけ実行する。
ここで、本実施形態では、物体認識部13の第1の認識部31は、目標物体が存在すると認識されるウィンドウを、全ての画像の中から絞り込む役割を有する。このような第1の認識部31の機能により、例えば、弱識別器の数が極力少ない条件においても、不検出率が比較的低い性能で且つ誤検出率が比較的低い性能を持つような認識アルゴリズムを使用しても有効とすることができる。
なお、識別器による識別に関して、不検出率は、目標物体を目標物体として検出(検知)することができない率のことであり、また、誤検出率は、目標物体以外を目標物体であると認識して検出する率のことである。
次に、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれた1個以上のウィンドウのそれぞれについて、パターン認識を行って、目標物体を認識する。
具体的には、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウ(ここでは、1個のウィンドウ)について、あらかじめ定められたHOG特徴量(ベクトル)を算出する(ステップS6)。
次に、物体認識部13の第2の認識部32は、算出したHOG特徴量(ベクトル)を用いて、Boostingの一例であるReal AdaBoostの識別器による識別を行い、あらかじめ目標(ターゲット)としている物体(物体の画像)を認識する(ステップS7)。
ここで、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウの全てについて処理が終了したか否かを確認する(ステップS8)。
そして、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウの全てについて処理が終了したと判定した場合には、本処理を終了する。
一方、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウの全てについて処理が終了していないと判定した場合には、次のウィンドウを処理するように切り替えて、ステップS6の処理へ移行する。
これにより、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウの全てについて、順次、ウィンドウを切り替えて、ステップS6〜ステップS7の処理を繰り返して行う。
図2に示されるフローチャートの例では、物体認識部13において、第2の認識部32が、第1の認識部31とは異なる種類の特徴量(異なる観点)を用いて目標物体を認識する処理を行うことが特色となっている。
一例として、第2の認識部32では、HOG特徴量を用いる場合には、目標物体を分割するセルサイズ単位での特徴量を比較的多数の弱識別器で構成することになる。
具体例として、第2の認識部31の弱識別器の数よりも第1の認識部31の弱識別器の数の方を少なくする。
このように、本実施形態では、物体認識部13において、第1の認識部31では、その演算処理時間が短いことを有効に活用して、ラスタスキャンとの組み合わせを用いた処理を行い、第2の認識部32では、1ウィンドウ当たりの演算処理時間は第1の認識部31よりも長いものの、より細かく目標物体を認識する処理を行い、第1の認識部31で絞り込んだウィンドウのみをスキャンするようにする。
ここで、識別器の機能は、本実施形態では、物体認識部13の第1の認識部31や第2の認識部32により実現される。つまり、物体認識部13の第1の認識部31や第2の認識部32が識別器を備える、と捉えることができる。
また、本実施形態に係る物体認識部13では、一例として、積分勾配画像を算出する処理の機能をFPGA21により実現し、物体認識部13(例えば、第1の認識部31や第2の認識部32)により行われる他の処理の機能をマイクロコンピュータ22により実現する。
図2に示される各処理について詳しく説明する。
図8(A)〜図8(E)を参照して、勾配方向および勾配強度の算出例を説明する。
図8(A)は、輝度画像の一例を示す図である。
この例では、横(水平)方向のx軸の画素位置をuで表しており、右へ行くほど座標値が大きくなる。また、縦(垂直)方向のy軸の画素位置をvで表しており、下へ行くほど座標値が大きくなる。
x−y直交座標の平面上における画素位置は、座標(u、v)で表される。
図8(B)は、勾配の一例を示す図である。
この例では、座標(u、v)の画素位置における輝度をI(u、v)で表す。
座標(u、v)の画素位置における横(水平)方向の輝度の勾配をIxで表し、Ixを式(1)で表す。また、座標(u、v)の画素位置における縦(垂直)方向の輝度の勾配をIyで表し、Iyを式(2)で表す。
図8(C)は、勾配強度の一例を示す図である。
この例では、座標(u、v)の画素位置における勾配強度をm(u、v)で表し、m(u、v)を式(3)で表す。
図8(D)は、勾配方向の一例を示す図である。
この例では、座標(u、v)の画素位置における勾配方向をθ(u、v)で表し、θ(u、v)を式(4)で表す。
図8(E)は、各勾配方向の範囲の一例を示す図である。
この例では、180degを8個の方向(方向1〜方向8)の範囲に分けている。この場合、1個の方向の範囲は22.5degとなり、その範囲の中心の角度を基準とすると±11.25degの範囲となる。
この例では、方向1を縦の勾配の範囲とすると、方向5が横の勾配の範囲となる。
ここで、画像における輝度の勾配は、微分画像に対応する。また、例えば、輝度の勾配が所定の閾値より大きい画素位置のつながりを勾配として検出することが可能である。
また、勾配を算出する手法としては、例えば、ソーベルフィルタを用いる手法などのように、他の手法を用いることもできる。
また、積分勾配画像は、例えば、HOG特徴量を算出する際によく用いられるが、本実施形態では、矩形特徴量を算出する際に用いることを特徴とする。
図2に示されるステップS2の処理におけるラスタスキャンは、例えば、図28に示されるステップS1012の処理におけるラスタスキャンと同様である。
ラスタスキャンでは、例えば、スケールSCと移動ステップdx、dyを可変に変化させてスキャンする。
図9(A)、(B)は、ラスタスキャンのスケールと移動ステップの例を示す図である。
この例では、ラスタスキャンのスケールと移動ステップの組み合わせのパターンが4個以上あるとする。
図9(A)は、第1のパターンにおけるラスタスキャンのスケールSC1と移動ステップdx1、dy1の一例を示す図である。
この例では、ラスタスキャン領域101において、横(水平)方向のx軸方向と縦(垂直)方向のy軸方向とのそれぞれについてスケールSC1の長さを有する正方形のウィンドウ102を、あらかじめ定められた初期位置に、設定する。そして、このウィンドウ102を、x軸方向に移動ステップdx1ずつスライドさせていくことと、y軸方向に移動ステップdy1ずつスライドさせていくことを行う。
図9(B)は、第4のパターンにおけるラスタスキャンのスケールSC4と移動ステップdx4、dy4の一例を示す図である。
この例では、ラスタスキャン領域111において、横(水平)方向のx軸方向と縦(垂直)方向のy軸方向とのそれぞれについてスケールSC4の長さを有する正方形のウィンドウ112を、あらかじめ定められた初期位置に、設定する。そして、このウィンドウ112を、x軸方向に移動ステップdx4ずつスライドさせていくことと、y軸方向に移動ステップdy4ずつスライドさせていくことを行う。
ここで、本実施形態では、第1のパターンにおけるラスタスキャンのスケールSC1および移動ステップdx1、dy1の値と、第4のパターンにおけるラスタスキャンのスケールSC4および移動ステップdx4、dy4の値とは異なっている。
本実施形態では、一例として、それぞれのパターンにおけるラスタスキャンのスケールSCが異なっており、そのスケールSCに比例した大きさを有する移動ステップdx、dyを用いている。また、本実施形態では、一例として、それぞれのパターンにおけるx軸方向の移動ステップdxとy軸方向の移動ステップdyとを同じ値にしている。
なお、他の構成例として、正方形以外の形状(例えば、正方形ではない矩形)を有するウィンドウが用いられてもよい。
また、他の構成例として、あるパターンにおけるx軸方向の移動ステップdxとy軸方向の移動ステップdyとを異なる値としてもよい。
図10は、本発明の一実施形態に係る画像認識システムにおける画像取得から物体認識までの処理の概略的な一例を示す図である。
カメラ11により撮像される画像のデータが、画像取得部12により入力画像201のデータとして取得される。
例えば、この画像には、道路と前方の車両が映っている。
物体認識部13では、勾配強度画像202に示されるように、複数の勾配方向(本実施形態では、方向1〜方向8の8方向)のそれぞれについて、勾配強度を算出する。
そして、物体認識部13では、勾配方向毎に、勾配強度の積分画像を、積分勾配画像203として作成する(図2に示されるステップS1の処理)。
次に、物体認識部13では、ラスタスキャンの領域204において、ウィンドウのスキャンを行う(図2に示されるステップS2の処理)。
物体認識部13では、ラスタスキャンで取得されるウィンドウの画像205に関し、各勾配方向の積分勾配画像206を取得する。
例えば、このウィンドウの画像205は、前方の車両が映る部分の画像である。
そして、物体認識部13では、同一のウィンドウに関する勾配方向毎の積分勾配画像206について、あらかじめ定められた矩形特徴量(勾配方向矩形特徴量)207を演算して取得する(図2に示されるステップS3の処理)。
次に、物体認識部13では、Real AdaBoostの識別器による識別を行う(図2に示されるステップS4の処理)。
本実施形態では、識別器として、勾配方向毎に弱識別器が設定できる。
具体的には、物体認識部13では、各勾配方向の積分勾配画像206(本実施形態では、8方向の勾配方向毎に、積分勾配画像208−1〜積分勾配画像208−8とする)について、あらかじめ学習しておいた弱識別器により識別を行う。
図10の例では、方向1の積分勾配画像208−1について、弱識別器により識別を行った結果、W1−r1=419.4/s0という値が得られている。s0は、この値が得られた矩形の領域の面積である。そして、物体認識部13では、この値に基づいて、弱識別器の応答値h1を算出する処理210−1を行う。
また、図10の例では、方向8の積分勾配画像208−8について、弱識別器により識別を行った結果、W8−r1=198.1/s0という値が得られている。s0は、この値が得られた矩形の領域の面積である。また、図10の例では、方向8の積分勾配画像208−8について、弱識別器により識別を行った結果、W8−r2=582.6/s1という値が得られている。s1は、この値が得られた矩形の領域の面積である。続いて、この例では、減算器209により、これら2つの値の減算結果(差)を求める。そして、物体認識部13では、この減算結果の値に基づいて、弱識別器の応答値h8を算出する処理210−8を行う。
ここで、本実施形態では、物体認識部13の第1の認識部31により、ラスタスキャンを行う処理(図2に示されるステップS2の処理)、勾配方向矩形特徴量207を取得する処理(図2に示されるステップS3の処理)、Real AdaBoostの識別器による識別を行う処理(図2に示されるステップS4の処理)を実行する。
第1の認識部31は、例えば、ラスタスキャンを行って勾配方向矩形特徴量を取得する機能と、識別器(本実施形態では、Real AdaBoostの識別器)の機能とを組み合わせた構成により、実現することができる。
図11〜図15を参照して、勾配方向矩形特徴量の例について説明する。
本実施形態では、各勾配方向に分けた勾配強度画像から矩形特徴を抽出するため、その矩形特徴量のことを勾配方向矩形特徴量と定義する。
図11は、第1の例に係る勾配方向矩形特徴量Aを示す図である。
この勾配方向矩形特徴量Aは、1個の矩形(単矩形)301の特徴量(単矩形特徴量)を示す。
この勾配方向矩形特徴量Aは、勾配方向毎の勾配強度画像から単矩形特徴を抽出し、単一領域の勾配を捉えることを目的としたものである。
例えば、目標物体のある部位が同一の勾配方向に集中しているような場合に、単矩形特徴で捉えることができる。
図12(A)、図12(B)、図12(C)は、第2の例に係る勾配方向矩形特徴量Bを示す図である。
この勾配方向矩形特徴量Bは、勾配方向毎の勾配強度画像について、Haar−like特徴量と同様に、矩形の特徴の差分等を用いるものである。また、この勾配方向矩形特徴量Bは、隣り合う矩形として同一の面積を有する矩形を用いて、同一の方向内での特徴の差分等を求めるものである。
図12(A)は、2個の矩形に分けて勾配方向矩形特徴量Bを求める場合における勾配強度画像311、312を示す。この例では、隣り合う白い領域と黒い領域との間で特徴の差分等を求める。
図12(B)は、3個の矩形に分けて勾配方向矩形特徴量Bを求める場合における勾配強度画像321、322を示す。この例では、隣り合う白い領域と黒い領域との間で特徴の差分等を求める。
図12(C)は、4個の矩形に分けて勾配方向矩形特徴量Bを求める場合における勾配強度画像331を示す。この例では、隣り合う白い領域と黒い領域との間で特徴の差分等を求める。
この勾配方向矩形特徴量Bは、隣接領域の勾配関係を捉える手法であり、本実施形態では、勾配強度画像について抽出するため、通常の輝度画像から求める領域差分よりも、さらに特徴差が際立った部位を抽出することができるという効果が得られる。
図13は、第3の例に係る勾配方向矩形特徴量Cを示す図である。
この勾配方向矩形特徴量Cは、勾配方向毎の勾配強度画像について、Haar−like特徴量を応用して、矩形の特徴の差分等を用いるものである。
この勾配方向矩形特徴量Cは、隣接領域の勾配関係を捉える手法であり、隣接領域とする2つの領域(白い領域と黒い領域)で領域の形状や面積が異なっている。また、この勾配方向矩形特徴量Cは、同一の方向内での特徴の差分等を求めるものである。
図13の例では、複数(N個)の勾配方向について、方向1のウィンドウの画像341−1、方向2のウィンドウの画像341−2、・・・、方向Nのウィンドウの画像341−Nを示す。この例では、勾配方向毎に、矩形の形状や数が異なってもよい。
この勾配方向矩形特徴量Cは、図12(A)、図12(B)、図12(C)に示される勾配方向矩形特徴量Bと似ているが、例えば、隣接する領域の勾配面積比が異なるような場合にも、より適切な抽出を行うことができるという効果が得られる。
図14は、第4の例に係る勾配方向矩形特徴量Dを示す図である。
この勾配方向矩形特徴量Dは、勾配方向毎の勾配強度画像の内において、複数の離隔した(隔たれた)矩形の特徴の差分等を用いるものである。
この勾配方向矩形特徴量Dは、離隔した領域の勾配関係を捉える手法であり、離隔した領域とする2つの領域(白い領域と黒い領域)で、領域の形状や面積が同じでもよく、または、異なってもよい。また、この勾配方向矩形特徴量Dは、同一の方向内での特徴の差分等を求めるものである。
図14の例では、複数(N個)の勾配方向について、方向1のウィンドウの画像351−1、方向2のウィンドウの画像351−2、・・・、方向Nのウィンドウの画像351−Nを示す。この例では、勾配方向毎に、矩形の形状や数が異なってもよい。
この勾配方向矩形特徴量Dは、隣接していない領域の間でも特徴を抽出することができるようにしたものである。この勾配方向矩形特徴量Dは、目標物体のある方向の勾配が離れた部位の間で存在することを捉え易くする。
図15は、第5の例に係る勾配方向矩形特徴量Eを示す図である。
この勾配方向矩形特徴量Eは、異なる勾配方向の勾配強度画像の間に跨って、複数の矩形の特徴の差分等を用いるものである。
この勾配方向矩形特徴量Eは、異なる勾配方向の勾配強度画像の間におけるそれぞれの領域の勾配関係を捉える手法であり、2つの領域(白い領域と黒い領域)で、領域の形状や面積や位置が同じでもよく、または、異なってもよい。この勾配方向矩形特徴量Eは、異なる方向間での特徴の差分等を求めるものである。
図15の例では、複数(N個)の勾配方向について、方向1のウィンドウの画像361−1、方向2のウィンドウの画像361−2、・・・、方向Nのウィンドウの画像361−Nを示す。この例では、勾配方向毎に、矩形の形状や数が異なってもよい。
この勾配方向矩形特徴量Eは、異なる勾配方向に跨る勾配強度画像における複数の矩形の特徴関係を用いるため、異なる勾配方向の間の関係を捉えることができるという効果が得られる。
ここで、勾配方向矩形特徴量B〜Eにおいて、複数の矩形の特徴の差分等を求めることについては、必ずしも領域間の差分だけでなく、差、和、積、商といった四則演算を考慮して、これらのうちの任意の1つ以上の演算を用いて、最適な特徴量を使用する(または、選択などする)ことができるようにする。また、差分(差)としては、差分の絶対値を用いることも可能である。
また、複数の矩形の特徴の差分等における複数の矩形としては、例えば、2個の矩形に限られず、3個以上の矩形が用いられてもよい。
以上のように、本実施形態では、複数種類の勾配方向矩形特徴量A〜Eのうちのいずれか1つ、または、任意の2つ以上の組み合わせを用いることができ、これにより、目標物体の特徴をより少ない識別器(本実施形態では、弱識別器)の数で捉えることができ、装置の構成を簡易化することができる。
ここで、勾配方向矩形特徴量を用いることにより得られる効果について、より詳しく説明する。
本実施形態では、図2に示されるステップS4の処理において、Real AdaBoostによる識別器で、勾配方向矩形特徴量を識別する。
この場合、勾配方向矩形特徴量とReal AdaBoostの識別器とを組み合わせると、例えば、弱識別器の数が極力少ない条件にしても、不検出率が低い性能を持ち、且つ、誤検出率が低い性能を持つ物体認識のアルゴリズムを構成することができる。
好ましい具体例として、勾配方向矩形特徴量について、各勾配方向のウィンドウの内の矩形領域(つまり、大きさ)に特に制限を設けず、目標物体の各部位の大小を問わず識別器(本実施形態では、Real AdaBoostの識別器)により学習し、目標物体の特徴を示す弱識別器を選択させる。
これにより、目標物体の大小の勾配矩形特徴の中で、特に有効な部分を厳選することができ、少ない弱識別器の数で識別器を構成することができる。このため、計算回数とメモリアクセス回数が少なく、短い演算処理時間で、目標物体が存在するウィンドウを絞り込むことや、目標物体を識別することができる。
具体的に、このような勾配矩形特徴を物体認識部13の第1の認識部31で利用すると、計算回数とメモリアクセス回数が少なく、短い演算処理時間で、目標物体が存在するウィンドウを絞り込むことができる。
また、他の構成例として、このような勾配矩形特徴を物体認識部13の第2の認識部32で利用すると、計算回数とメモリアクセス回数が少なく、短い演算処理時間で、目標物体を識別することができる。
なお、識別器による識別に関して、不検出率は、目標物体を目標物体として検出(検知)することができない率のことであり、また、誤検出率は、目標物体以外を目標物体であると認識して検出する率のことである。
また、本実施形態では、ブースティング(Boosting)として、Real AdaBoostを例として説明したが、広義のブースティングに適用しても、同様な効果を得ることが可能である。
図16は、勾配方向矩形特徴量の具体例を示す図である。
図16は、学習した多数の勾配強度画像を、8個の勾配方向(方向1〜方向8)の全方向について平均(合成)したもの(平均勾配画像)401と、方向1のみ平均したウィンドウの画像411−1、方向2のみ平均したウィンドウの画像411−2、・・・、方向8のみ平均したウィンドウの画像411−8を示す。
この例では、目標物体を車両の背面とした場合を示す。平均勾配画像は、目標物体の勾配による形状を視覚的に把握できる効果がある。
図16の例では、次のような特徴量(1)〜(5)を用いている。
(1)勾配方向矩形特徴量Aとして、各勾配矩形フィルタ(図16に示される各ウィンドウ中の各矩形)を1つ使用する場合に得られる特徴量を用いる。
(2)勾配方向矩形特徴量Bとして、複数の矩形の特徴の差分等として減算(差)を使用する場合に得られる特徴量を用いる。
(3)勾配方向矩形特徴量Cとして、複数の矩形の特徴の差分等として減算(差)を使用する場合に得られる特徴量を用いる。
(4)勾配方向矩形特徴量Dとして、複数の矩形の特徴の差分等として減算(差)を使用する場合に得られる特徴量を用いる。
(5)勾配方向矩形特徴量Eとして、複数の矩形の特徴の差分等として減算(差)を使用する場合に得られる特徴量を用いる。
図16の例では、Wi−rjにおいて、i(i=1、2、・・・、8)は方向の番号を表し、j(j=1、2、・・・)は各ウィンドウ内における矩形の番号を表す。また、Wi−rjは、方向iのウィンドウ内におけるj番目の矩形について、単位面積当たりの特徴量の値を表す。
なお、この例では、勾配方向矩形特徴量B〜Eについては、差分等として減算(差)を用いる場合に特徴量が強く現れる関係を示している。
図17は、勾配方向矩形特徴量の具体例を示す図である。
図17は、方向1のみ平均したウィンドウの画像421−1、方向2のみ平均したウィンドウの画像421−2、・・・、方向8のみ平均したウィンドウの画像421−8を示す。
この例では、図16の例の場合と同様に、目標物体を車両の背面とした場合を示す。
図17の例では、次のような特徴量(3)〜(5)を用いている。
(3)勾配方向矩形特徴量Cとして、複数の矩形の特徴の差分等として加算(和)を使用する場合に得られる特徴量を用いる。
(4)勾配方向矩形特徴量Dとして、複数の矩形の特徴の差分等として加算(和)を使用する場合に得られる特徴量を用いる。
(5)勾配方向矩形特徴量Eとして、複数の矩形の特徴の差分等として加算(和)を使用する場合に得られる特徴量を用いる。
図17の例では、Wi−rjにおいて、i(i=1、2、・・・、8)は方向の番号を表し、j(j=1、2、・・・)は各ウィンドウ内における矩形の番号を表す。また、Wi−rjは、方向iのウィンドウ内におけるj番目の矩形について、単位面積当たりの特徴量の値を表す。
なお、この例では、勾配方向矩形特徴量C〜Eについては、差分等として加算(和)を用いる場合に特徴量が強く現れる関係を示している。また、勾配強度が無いという特徴を用いることもできる。
以上、図16の例及び図17の例を示したように、四則演算を利用することで、各特徴量を強く現すことができる。
次に、勾配方向矩形特徴量の照明差の正規化について説明する。
目標物体に対する照明差を補正するために、例えば、ウィンドウサイズによる輝度画像の標準偏差により正規化することができる。なお、このような正規化については、例えば、非特許文献1に記載されている。
この場合、輝度の積分画像と輝度の2乗の積分画像を別に計算しておく。
他の手法として、図18(A)および図18(B)に示されるように、目標物体に対する照明差を補正するために、ウィンドウをスキャンする際に、ウィンドウサイズにおける各勾配方向の勾配強度の平均値や標準偏差を計算し、各勾配矩形特徴をいずれかの計算値で正規化する手法を用いることもできる。
図18(A)は、勾配方向矩形特徴量の照明差の正規化係数の一例を示す図である。
この例では、ウィンドウ単位で照明差を正規化する。
積分勾配画像Xは、複数(N個)の方向の積分勾配画像である、方向1の積分勾配画像501−1、方向2の積分勾配画像501−2、・・・、方向Nの積分勾配画像501−Nを加えたものであり、全ての勾配方向についての積分勾配画像511である。
ここで、XWは、積分勾配画像について、各方向n(nは、方向番号)におけるウィンドウ単位での1画素(1pixel)当たりの平均値を表す。
また、XWは、積分勾配画像について、全ての勾配方向におけるウィンドウ単位での1画素(1pixel)当たりの平均値を表す。
また、QWは、積分勾配画像について、強方向勾配(本実施形態では、縦勾配と横勾配)のウィンドウ単位での1画素(1pixel)当たりの平均値を表す。
この例では、平均値を用いて照明差を正規化するための係数(照明差係数1)を示す。
照明差係数1の第1の例として、正規化係数XWは、式(5)により表される。この場合、各勾配方向矩形特徴量を正規化係数XWで除算した値を用いる。
照明差係数1の第2の例として、正規化係数QWは、式(6)により表される。この場合、各勾配方向矩形特徴量を正規化係数QWで除算した値を用いる。
このように、目標物体の性質が強く現れる方向(例えば、車両の場合における縦勾配と横勾配)のみについて、係数値の計算に用いることも可能であり、これにより、演算時間を節約することができる。
なお、この例では、強方向勾配について、縦勾配が方向1にあり、横勾配が方向5にあるとしているが、他の構成が用いられてもよい。強方向は、例えば、ユーザにより手動で設定されてもよく、または、特徴量があらかじめ定められた閾値以上となる方向を強方向として決定するなどのように、所定の条件に基づいて設定されてもよい。
図18(B)は、勾配方向矩形特徴量の照明差の正規化係数の他の一例を示す図である。
この例では、ウィンドウ単位で照明差を正規化する。
積分勾配2乗画像Xは、複数(N個)の方向の積分勾配2乗画像である、方向1の積分勾配2乗画像521−1、方向2の積分勾配2乗画像521−2、・・・、方向Nの積分勾配2乗画像521−Nを加えたものであり、全ての勾配方向についての積分勾配2乗画像531である。
ここで、X2Wは、積分勾配2乗画像について、各方向n(nは、方向番号)におけるウィンドウ単位での1画素(1pixel)当たりの平均値を表す。
また、X2Wは、積分勾配2乗画像について、全ての勾配方向におけるウィンドウ単位での1画素(1pixel)当たりの平均値を表す。
また、Q2Wは、積分勾配2乗画像について、強方向勾配(本実施形態では、縦勾配と横勾配)のウィンドウ単位での1画素(1pixel)当たりの平均値を表す。
なお、これらの関係は、図18(A)に関して示した式(5)、式(6)と同様である。
この例では、標準偏差値を用いて照明差を正規化するための係数(照明差係数2)を示す。
照明差係数2の第1の例として、正規化係数XSは、式(7)により表される。この場合、各勾配方向矩形特徴量を正規化係数XSで除算した値を用いる。
照明差係数2の第2の例として、正規化係数QSは、式(8)により表される。この場合、各勾配方向矩形特徴量を正規化係数QSで除算した値を用いる。
このように、目標物体の性質が強く現れる方向(例えば、車両の場合における縦勾配と横勾配)のみについて、係数値の計算に用いることも可能であり、これにより、演算時間を節約することができる。
なお、この例では、強方向勾配について、縦勾配が方向1にあり、横勾配が方向5にあるとしているが、他の構成が用いられてもよい。強方向は、例えば、ユーザにより手動で設定されてもよく、または、特徴量があらかじめ定められた閾値以上となる方向を強方向として決定するなどのように、所定の条件に基づいて設定されてもよい。
ここで、このように標準偏差値を用いて照明差を正規化する場合には、例えば、あらかじめ、各画素位置における勾配強度を2乗した値を有する画像(勾配2乗画像)を計算しておき、この勾配2乗画像を積分して積分勾配2乗画像を得る。
図19は、勾配方向矩形特徴量の照明差の正規化係数の他の例を示す図である。
図19は、撮像画像領域601と、その中に設定されるラスタスキャン領域611と、その中に設定されるウィンドウ(ウィンドウの領域)621を示す。
ラスタスキャン領域611を単位として、照明差を正規化することも可能である。
具体的には、図18(A)を参照して説明したウィンドウを単位として平均値を用いて照明差の正規化係数を求める代わりに、ラスタスキャン領域を単位として平均値を用いて照明差の正規化係数を求めることができる。
また、図18(B)を参照して説明したウィンドウを単位として標準偏差を用いて照明差の正規化係数を求める代わりに、ラスタスキャン領域を単位として標準偏差を用いて照明差の正規化係数を求めることができる。
なお、画像全体の照明差を補正するために、ラスタスキャン領域で正規化係数を算出する手法のほかにも、様々なロバスト性を向上させるための手法が用いられてもよい。
図20を参照して、Real AdaBoostの一例について説明する。
説明の便宜上、物体認識部13により行われる(処理1)〜(処理7)に分けて、説明する。
画像701を例とする。なお、画像701としては、本実施形態では、積分勾配画像を用いることができる。
(処理1)
画像701の中に設定されるラスタスキャン領域に設定されるウィンドウ711を例とする。
ウィンドウ711の特徴量を算出する処理721として、検出用のウィンドウ711から勾配方向矩形特徴量を算出する。この例では、正規化した特徴量を算出する。
また、この例では、特徴次元(インデックスNo)が1からM(この例では、Mは281以上の整数値)まで全ての特徴を算出しているが、実処理では必要な特徴(例えば、事前に学習して辞書に載っているもののみ)を算出する。
(処理2)
辞書から、指定された特徴次元の特徴量をピックアップする処理722を行う。
辞書には、あらかじめ行われた学習の結果の情報が記憶されている。
(処理3)
特徴量を量子化する処理723を行う。
この例では、量子化数(BINの数)を64としている。0.0から1.0までの実数値となる正規化特徴量を0から63に量子化するために、正規化特徴量に対してBINの数である64との積を求めている。
(処理4)
確率密度関数テーブルを参照する処理724を行う。
具体的には、事前に学習して用意しておいた辞書と対応する確率密度関数(事前確率)から、算出された特徴量のPOS(ポジティブ)の確率とNEG(ネガティブ)の確率を求める。
(処理5)
弱識別器の応答値hを求める処理725を行う。
具体的には、弱識別器の出力値として、式(9)で表されるhの値を算出する。なお、式(9)におけるεは、定数である。
例えば、図20に示される1つ目の弱識別器では、POSがNEGの確率より高いため、hは正の値となる。
(処理6)
(処理2)〜(処理5)を任意の数だけ繰り返して実行する処理726を行う。この数が、弱識別器の数に相当する。
(処理7)
算出された各弱識別器の応答値hの合計(線形和)を求めて、その合計値を強識別器の応答値Hとして算出する処理727を行う。
そして、算出された強識別器の応答値Hがあらかじめ定められた閾値THよりも大きいと判定した場合には、True(認識対象)であると判定する。一方、他の場合には、False(非認識対象)であると判定する。
ここで、閾値THとしては、任意の値が用いられてもよく、例えば、あらかじめ、固定的な値が設定される。
なお、識別器としては、Real AdaBoostの識別器以外にも、例えば、Boosting等のアンサンブル学習により作られるものを適用することができる。
次に、図21(A)、図21(B)、図21(C)を参照して、勾配方向矩形特徴量のレンジの正規化について説明する。
一般的に、Boostingによる識別器では、入力する特徴量を0〜1に正規化する必要がある。
図20を参照して説明したReal AdaBoostは、確率密度関数を作成する方式のものであり、確率密度関数に入力する特徴量を0〜1に正規化する。通常は、0〜1の間で密な確率密度関数を作成する場合には、BIN数を増やして対応するが、メモリ容量が増大するという問題がある。
そこで、本実施形態では、勾配方向矩形特徴量について、ダイナミックレンジの中の特定の範囲に0〜1のレンジを設けられるように(例えば、Real AdaBoostの場合には、検出率を向上する確率密度関数を作成するように)、正規化する。
ここで、ダイナミックレンジは、本実施形態の場合には、例として、単矩形(単領域)のときには360.6であり、2矩形(2領域)のときには±360.6である。
なお、前記したダイナミックレンジの中の特定の範囲は、例えば、実験による値により設定することができ、または、学習により最適な係数(例えば、図21(B)、図21(C)に示されるoffsetの値)を決定することにより設定することができる。
図21(A)は、入力画像801と、入力画像801について8方向の勾配方向で強度を算出した勾配強度画像802を示す。
入力画像801について、1画素(1pixel)当たりのレンジが0〜255であり、1画素(1pixel)当たりの最大値が255であるときには、勾配強度画像802について、式(10)に示されるように、1画素(1pixel)当たりの最大値が360.6(厳密には、約360.6)となる。
図21(B)は、単矩形811の特徴の例を示す。
単矩形811では、例えば、単矩形811内の全ての画素位置の特徴量の平均値を勾配方向矩形特徴量とし、特徴量(勾配方向矩形特徴量)fのダイナミックレンジが最小値0から最大値360.6である。
特徴量fと、正規化係数offsetと、正規化後の特徴量f_normとの関係は、式(11)により表される。
図21(C)は、2矩形812の特徴の例を示す。
2矩形812では、例えば、各矩形内の全ての画素位置の特徴量の平均値の差分を勾配方向矩形特徴量とし、特徴量(勾配方向矩形特徴量)fのダイナミックレンジが最小値−360.6から最大値+360.6である。
特徴量fと、正規化係数offsetと、正規化後の特徴量f_normとの関係は、式(12)により表される。
図23(A)および図23(B)を参照して、勾配方向矩形特徴量とHOG特徴量との比較を説明する。
この例では、車両が写る画像について、図11と図12で示した勾配方向矩形特徴量AとBをReal AdaBoostにより選択された特徴量で比較する。
図23(A)には、勾配方向矩形特徴量について示してある。
図23(A)の上段には、8方向(方向1〜方向8)について、Real AdaBoostにより選択された各勾配方向のみ平均した勾配画像と特徴量(勾配方向矩形特徴量)の領域を示してある(901−1〜901−6)。つまり、6つの弱識別器を構成させていることを示す。
また、図23(A)の下段には、平均勾配画像911に、図23(A)の上段で示した特徴量(勾配方向矩形特徴量)の領域を示してある。これは、目標物体(車両)のどの部位の勾配領域を選択しているかを視覚的に示すためである。
具体的には、弱識別器1では、左縦勾配がある領域が選択されている。
弱識別器2では、横勾配がある領域が選択されている。
弱識別器3では、右縦勾配がある領域が選択されている。
弱識別器4では、縦勾配が無い領域が選択されている。
弱識別器5では、左タイヤに勾配差がある領域が選択されている。
弱識別器6では、右タイヤに勾配差がある領域が選択されている。
このように、本実施形態に係る勾配方向矩形特徴量を用いると、大小の領域の特徴で、最適値を選択することが可能である。これにより、識別器(本実施形態では、弱識別器)の数を少なくすることが可能である。
図23(B)には、HOG特徴量について示してある。
図23(B)には、平均勾配画像921に、選択された特徴量(HOG特徴量)の領域(セル)を示してある。
このように、HOG特徴量を用いると、固定セル単位の特徴を総合的に捉える。このため、比較的、識別器(本実施形態では、弱識別器)の数が多くなるため、図23(B)で示した8つの識別器数以上が必要となる。図23(B)の各選択されたセル内に示されているラインは、勾配方向を示す。
ここで、弱識別器の数について、車両の認識を行うシミュレーションの結果の例を示す。
このシミュレーションの結果では、勾配方向矩形特徴量で学習した弱識別器の数が約4〜16個であるときに、HOG特徴量で学習した弱識別器の数が約100個であった。
また、勾配方向矩形特徴量と識別器を用いた場合における1個のウィンドウ当たりの処理時間は、HOG特徴量と識別器を用いた場合における1個のウィンドウ当たりの処理時間に対して、約1/50〜1/60であった。
図24(A)、図24(B)、図24(C)を参照して、積分画像について説明する。
図24(A)は、オリジナル画像の一例を示す図である。
この例では、オリジナル画像として、輝度画像2001を示す。
輝度画像2001について、横(水平)方向のx軸、縦(垂直)方向のy軸に関し、画素位置(x、y)の輝度値をi(x、y)とする。
図24(B)は、累積行加算の結果の一例を示す図である。
この例では、枠内の左上から右下まで、繰り返して積分する。
累積行加算の結果2002において、位置(x、y)の累積行加算値s(x、y)は、式(13)により表される。
図24(C)は、積分画像の一例を示す図である。
この例では、枠内の左上から右下まで、繰り返して積分する。
積分画像2003において、位置(x、y)の積分値ii(x、y)は、式(14)により表される。
図25(A)および図25(B)を参照して、Haar−like特徴量を説明する。
図25(A)は、2矩形2011を示す。
2矩形2011の特徴として、左右の矩形の特徴量の差分を用いる。
図25(B)は、2矩形特徴の求め方を示す。
a、b、c、d,e、fを、それぞれ、各点における積分勾配値とする。
左側の領域(領域1)の単矩形特徴量は、式(15)により表され、4点で算出することができる。
右側の領域(領域2)の単矩形特徴量は、式(16)により表され、4点で算出することができる。
領域1の特徴量と領域2の特徴量との差分である2矩形特徴量は、式(17)により表され、6点で算出することができる。
図26(A)および図20(B)を参照して、HOG特徴量を説明する。
図26(A)は、セルによるヒストグラム化の一例を示す。
画像の中に設定されるセル2021と、3×3の計9個のセルから構成されるブロック2022を示す。
また、1個のセルが横(水平)方向に5画素(5pixel)、縦(垂直)方向に5画素(5pixel)から構成される場合を示す。
そして、セル2021について、セル単位での輝度勾配分布2023を示す。また、これについて、9方向を例として、方向を横軸とし且つ勾配強度を縦軸とした勾配方向ヒストグラムを示す。
また、この例では、ブロック2022の単位で、その領域で、セル内の輝度勾配を正規化する。
図26(B)は、ブロック領域により正規化された、HOG特徴量を算出する例を示す。
9方向を例として、1個のセル2031の特徴ベクトルFj,kは、式(18)により表される。各方向(方向1〜方向9)の特徴ベクトルの成分fをf〜fとする。ここで、kはセルの横(水平)方向の位置を表し、jは縦(垂直)方向の位置を表す。
ブロック2032の特徴ベクトルVは、式(19)により表される。
この特徴ベクトルVの大きさにより正規化した結果vは、式(20)により表される。
この例では、HOG特徴ベクトルは、9セル×9次元×4ブロック数=324次元となる。
[第2実施形態]
本実施形態に係る画像認識システムの構成は、概略的には、第1実施形態に係る図1(A)および図1(B)に示される画像認識システムの構成と同様である。
このため、本実施形態では、図1(A)および図1(B)に示されるものと同じ符号を用いて説明する。
以下では、主に、第1実施形態とは異なる点について説明する。第1実施形態で説明した事項のうちで適用が可能なものについては、本実施形態で適用されてもよい。
図3を参照して、本実施形態に係る物体認識部13により行われる処理について説明する。
図3は、本実施形態に係る物体認識部13により行われる処理の手順の一例を示すフローチャート図である。
本実施形態に係るフローチャートの処理については、概略的には、図2に示される第1実施形態に係るフローチャートの処理と比べて、本実施形態に係るフローチャートにおけるステップS21〜ステップS25、ステップS28の処理は、それぞれ、図2に示される第1実施形態に係るフローチャートにおけるステップS1〜ステップS5、ステップS8の処理と同様である。
本実施形態に係るフローチャートにおけるステップS26の処理では、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれた1個以上のウィンドウのそれぞれについて、パターン認識を行って、目標物体を認識する。
具体的には、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウ(ここでは、1個のウィンドウ)について、あらかじめ定められた勾配方向矩形特徴量(ベクトル)を算出する(ステップS26)。
また、本実施形態に係るフローチャートにおけるステップS27の処理では、物体認識部13の第2の認識部32は、算出した勾配方向矩形特徴量(ベクトル)を用いて、Boostingの一例であるReal AdaBoostの識別器による識別を行い、あらかじめ目標(ターゲット)としている物体(物体の画像)を認識する(ステップS27)。
このように、本実施形態に係るフローチャートの処理では、図2に示される第1実施形態に係るフローチャートの処理と比べて異なる点として、第2の認識部32において、第1の認識部31と同様に、勾配矩形特徴と識別器を用いる。
但し、第2の認識部32では、第1の認識器31とは異なる特徴を捉える必要があるため、第2の認識部32の弱識別器を、第1の認識部31の弱識別器とは異なる弱識別器で構成する。具体的には、例えば、第1の認識部31と第2の認識部32とで、勾配矩形特徴の勾配方向、種類、サイズおよび位置などに関して同じ弱識別器を繰り返して用いないようにする。
また、1個のウィンドウ当たりの演算処理時間について、第1の認識部31の演算処理時間の方が第2の認識部32の演算処理時間よりも短くなるように設定する。
具体例として、第2の認識部31の弱識別器の数よりも第1の認識部31の弱識別器の数の方を少なくする。
一例として、第1の認識部31と第2の認識部32が共に勾配方向矩形特徴量を用いるときには、学習した弱識別器の数として、第1の認識部31が4個である場合には第2の認識部32を12個等にして、第1の認識部31の弱識別器の数を第2の認識部32の弱識別器の数よりも少なくする。
本実施形態に係る物体認識部13では、例えば、第1実施形態に係る物体認識部13と比べて、より演算処理時間を短くすることができる効果があるため、装置への実装性が向上する。
なお、本実施形態では、勾配方向矩形特徴量の照明差の正規化や、レンジの正規化については、第1の認識部31ばかりでなく、第2の認識部32についても、第1実施形態で説明したのと同様に、行うことができる。
[第3実施形態]
本実施形態に係る画像認識システムの構成は、概略的には、第1実施形態に係る図1(A)および図1(B)に示される画像認識システムの構成と同様である。
このため、本実施形態では、図1(A)および図1(B)に示されるものと同じ符号を用いて説明する。
以下では、主に、第1実施形態とは異なる点について説明する。第1実施形態で説明した事項のうちで適用が可能なものについては、本実施形態で適用されてもよい。
図4を参照して、本実施形態に係る物体認識部13により行われる処理について説明する。
図4は、本実施形態に係る物体認識部13により行われる処理の手順の一例を示すフローチャート図である。
本実施形態に係るフローチャートの処理については、概略的には、図2に示される第1実施形態に係るフローチャートの処理と比べて、本実施形態に係るフローチャートにおけるステップS41〜ステップS45の処理は、それぞれ、図2に示される第1実施形態に係るフローチャートにおけるステップS1〜ステップS5の処理と同様である。
本実施形態に係るフローチャートにおけるステップS46〜ステップS49の処理について説明する。
物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれた1個以上のウィンドウのそれぞれについて、あらかじめ定められた絞り込み周辺スキャンの処理を行って、ウィンドウを抽出する(ステップS46)。
次に、物体認識部13の第2の認識部32は、絞り込み周辺スキャンの処理により絞り込まれる1個以上のウィンドウのそれぞれについて、パターン認識を行って、目標物体を認識する。
具体的には、物体認識部13の第2の認識部32は、絞り込み周辺スキャンの処理により絞り込まれたウィンドウ(ここでは、1個のウィンドウ)について、あらかじめ定められたHOG特徴量(ベクトル)を算出する(ステップS47)。
次に、物体認識部13の第2の認識部32は、算出したHOG特徴量(ベクトル)を用いて、Boostingの一例であるReal AdaBoostの識別器による識別を行い、あらかじめ目標(ターゲット)としている物体(物体の画像)を認識する(ステップS48)。
ここで、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウの全てについて絞り込み周辺スキャンの処理が終了したか否かを確認する(ステップS49)。
そして、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウの全てについて絞り込み周辺スキャンの処理が終了したと判定した場合には、本処理を終了する。
一方、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウの全てについて絞り込み周辺スキャンの処理が終了していないと判定した場合には、次のウィンドウを処理するように切り替えて、ステップS46の処理へ移行する。
これにより、物体認識部13の第2の認識部32は、第1の認識部31により絞り込まれたウィンドウの全てについて、順次、ウィンドウを切り替えて、絞り込み周辺スキャンの処理を行うように、ステップS46〜ステップS48の処理を繰り返して行う。
このように、本実施形態に係るフローチャートの処理では、図2に示される第1実施形態に係るフローチャートの処理と比べて異なる点として、第2の認識部32において、第1の認識部31で絞り込んだ各ウィンドウの周辺をスキャンして、これにより抽出したウィンドウについて特徴量の算出および識別器による識別を行う。
図22を参照して、本実施形態に係る絞り込み周辺スキャンの処理を説明する。
本実施形態に係る絞り込み周辺スキャンの処理では、第1の認識部31によるウィンドウの抽出後のラスタスキャンとして、第1の認識部31により抽出されたウィンドウを中心にしてその周辺をスキャンする。
この場合に、周辺スキャンを行う対象となるウィンドウのサイズに応じて、移動ステップdx、dyと移動量Dx、Dyを可変に設定する。
そして、それぞれのウィンドウ毎に、そのウィンドウを中心として、設定した移動ステップdx、dyと移動量Dx、Dyでスキャンする。つまり、ウィンドウを移動ステップdx、dyずつ移動させて、最大で移動量Dx、Dyに達するまで移動させる。
このように、第1の認識部31により絞り込まれたそれぞれのウィンドウを中心に、それぞれのウィンドウのサイズ毎に移動ステップdx、dyと移動量Dx、Dyを設定する。
ここで、移動ステップdxおよび移動量Dxは、横(水平)方向の値であり、また、移動ステップdyおよび移動量Dyは、縦(垂直)方向の値である。
また、本実施形態では、ウィンドウのサイズが大きくなるほど、移動ステップdx、dyと移動量Dx、Dyが大きくなるように設定する。
具体的に、図22の例では、領域1001に設定されたウィンドウ1011について、当該ウィンドウ1011のサイズに応じて、移動ステップ1(dx1、dy1)および移動量1(Dx1、Dy1)が設定される。
本実施形態では、第2の認識部32により絞り込み周辺スキャンを行うことにより、例えば、第1の認識部31により絞り込んだウィンドウに目標物体とのずれが生じた場合においても、第2の認識部32により目標物体を精度良く認識することができる。
[第4実施形態]
本実施形態に係る画像認識システムの構成は、概略的には、第3実施形態(第1実施形態と同様)に係る図1(A)および図1(B)に示される画像認識システムの構成と同様である。
このため、本実施形態では、図1(A)および図1(B)に示されるものと同じ符号を用いて説明する。
以下では、主に、第3実施形態とは異なる点について説明する。第3実施形態で説明した事項のうちで適用が可能なものについては、本実施形態で適用されてもよい。
図5を参照して、本実施形態に係る物体認識部13により行われる処理について説明する。
図5は、本実施形態に係る物体認識部13により行われる処理の手順の一例を示すフローチャート図である。
本実施形態に係るフローチャートの処理については、概略的には、図4に示される第3実施形態に係るフローチャートの処理と比べて、本実施形態に係るフローチャートにおけるステップS61〜ステップS66、ステップS69の処理は、それぞれ、図4に示される第3実施形態に係るフローチャートにおけるステップS41〜ステップS46、ステップS49の処理と同様である。
本実施形態に係るフローチャートにおけるステップS67の処理では、物体認識部13の第2の認識部32は、絞り込み周辺スキャンの処理により絞り込まれる1個以上のウィンドウのそれぞれについて、パターン認識を行って、目標物体を認識する。
具体的には、物体認識部13の第2の認識部32は、絞り込み周辺スキャンの処理により絞り込まれたウィンドウ(ここでは、1個のウィンドウ)について、あらかじめ定められた勾配方向矩形特徴量(ベクトル)を算出する(ステップS67)。
また、本実施形態に係るフローチャートにおけるステップS68の処理では、物体認識部13の第2の認識部32は、算出した勾配方向矩形特徴量(ベクトル)を用いて、Boostingの一例であるReal AdaBoostの識別器による識別を行い、あらかじめ目標(ターゲット)としている物体(物体の画像)を認識する(ステップS68)。
このように、本実施形態に係るフローチャートの処理では、図4に示される第3実施形態に係るフローチャートの処理と比べて異なる点として、第2の認識部32において、第1の認識部31と同様に、勾配矩形特徴と識別器を用いる。
但し、第2の認識部32では、第1の認識器31とは異なる特徴を捉える必要があるため、第2の認識部32の弱識別器を、第1の認識部31の弱識別器とは異なる弱識別器で構成する。具体的には、例えば、第1の認識部31と第2の認識部32とで、勾配矩形特徴の勾配方向、種類、サイズおよび位置などに関して同じ弱識別器を繰り返して用いないようにする。
また、1個のウィンドウ当たりの演算処理時間について、第1の認識部31の演算処理時間の方が第2の認識部32の演算処理時間よりも短くなるように設定する。
具体例として、第2の認識部31の弱識別器の数よりも第1の認識部31の弱識別器の数の方を少なくする。
一例として、第1の認識部31と第2の認識部32が共に勾配方向矩形特徴量を用いるときには、学習した弱識別器の数として、第1の認識部31が4個である場合には第2の認識部32を12個等にして、第1の認識部31の弱識別器の数を第2の認識部32の弱識別器の数よりも少なくする。
本実施形態に係る物体認識部13では、例えば、第3実施形態に係る物体認識部13と比べて、より演算処理時間を短くすることができる効果があるため、装置への実装性が向上する。
なお、本実施形態では、勾配方向矩形特徴量の照明差の正規化や、レンジの正規化については、第1の認識部31ばかりでなく、第2の認識部32についても、第1実施形態で説明したのと同様に、行うことができる。
[第5実施形態]
本実施形態に係る画像認識システムの構成は、概略的には、第3実施形態または第4実施形態(第1実施形態と同様)に係る図1(A)および図1(B)に示される画像認識システムの構成と同様である。
このため、本実施形態では、図1(A)および図1(B)に示されるものと同じ符号を用いて説明する。
以下では、主に、第3実施形態または第4実施形態とは異なる点について説明する。第3実施形態または第4実施形態で説明した事項のうちで適用が可能なものについては、本実施形態で適用されてもよい。
図6を参照して、本実施形態に係る物体認識部13により行われる処理について説明する。
図6は、本実施形態に係る物体認識部13により行われる処理の手順の一例を示すフローチャート図である。
本実施形態に係るフローチャートの処理については、概略的には、図4に示される第3実施形態または図5に示される第4実施形態に係るフローチャートの処理と比べて、本実施形態に係るフローチャートにおけるステップS81〜ステップS85、ステップS89〜ステップS92の処理は、それぞれ、図4に示される第3実施形態に係るフローチャートにおけるステップS41〜ステップS45、ステップS46〜ステップS49の処理、または、図5に示される第4実施形態に係るフローチャートにおけるステップS61〜ステップS65、ステップS66〜ステップS69の処理と同様である。
本実施形態に係るフローチャートにおけるステップS86〜ステップS88の処理について説明する。
物体認識部13の第1の認識部31は、ステップS82〜ステップS85の処理(一連のラスタスキャンの処理)により抽出した座標領域(ウィンドウ)について、あらかじめ定められた勾配方向矩形特徴量(ベクトル)を算出する(ステップS86)。
次に、物体認識部13の第1の認識部31は、算出した勾配方向矩形特徴量(ベクトル)を用いて、Boostingの一例であるReal AdaBoostの識別器による識別を行い、あらかじめ目標(ターゲット)としている物体(物体の画像)が存在していると認識(例えば、推測)される1個以上のウィンドウを抽出する(ステップS87)。
ここで、物体認識部13の第1の認識部31は、ステップS82〜ステップS85の処理(一連のラスタスキャンの処理)により抽出したウィンドウの全てについて処理が終了したか否かを確認する(ステップS88)。
そして、物体認識部13の第1の認識部31は、ステップS82〜ステップS85の処理(一連のラスタスキャンの処理)により抽出したウィンドウの全てについて処理が終了したと判定した場合には、ステップS89の処理へ移行させる。
一方、物体認識部13の第1の認識部31は、ステップS82〜ステップS85の処理(一連のラスタスキャンの処理)により抽出したウィンドウの全てについて処理が終了していないと判定した場合には、次のウィンドウに切り替えて、ステップS86の処理へ移行する。
これにより、物体認識部13の第1の認識部31は、ステップS82〜ステップS85の処理(一連のラスタスキャンの処理)により抽出したウィンドウの全てについて処理が終了するまで、順次、ウィンドウを切り替えて、ステップS86〜ステップS87の処理を繰り返して行う。
ここで、本実施形態では、物体認識部13の第1の認識部31において、上段の識別(ステップS84の処理における1回目の識別)で使用する弱識別器の数の方を、下段の識別(ステップS87の処理における2回目の識別)で使用する弱識別器の数よりも、少なくする。すなわち、識別の回数が増える毎に、次第に、弱識別器の数を多くして、精度を上げる。つまり、第1の認識部31による抽出ウィンドウ数を、より少なく絞り込む。
このように、本実施形態では、第1の認識部31により行う識別の段数を、2段にした。これにより、第1の認識部31による識別性能の向上と物体認識部13全体の処理時間の短縮を高めることができる。
また、他の構成例として、第1の認識部31により行う識別の段数を3段以上にすることもでき、これにより、第1の認識部31による識別性能の向上と物体認識部13全体の処理時間の短縮をさらに高めることができる。
ここで、他の構成例として、第1の認識部31により行う2段目以降の識別の処理に、絞り込み周辺スキャンの処理を適用することもできる。
また、他の構成例として、第2の認識部32により行われる絞り込み周辺スキャンの処理をなくすことも可能である。この場合、第2の認識部32は、例えば、第1実施形態や第2実施形態と同様に、第1の認識部31により抽出された各ウィンドウについて、特徴量の算出および識別の処理を行う。
[第6実施形態]
本実施形態に係る画像認識システムの構成は、概略的には、第3実施形態または第4実施形態(第1実施形態と同様)に係る図1(A)および図1(B)に示される画像認識システムの構成と同様である。
このため、本実施形態では、図1(A)および図1(B)に示されるものと同じ符号を用いて説明する。
以下では、主に、第3実施形態または第4実施形態とは異なる点について説明する。第3実施形態または第4実施形態で説明した事項のうちで適用が可能なものについては、本実施形態で適用されてもよい。
図7を参照して、本実施形態に係る物体認識部13により行われる処理について説明する。
図7は、本実施形態に係る物体認識部13により行われる処理の手順の一例を示すフローチャート図である。
本実施形態に係るフローチャートの処理については、概略的には、図4に示される第3実施形態または図5に示される第4実施形態に係るフローチャートの処理と比べて、本実施形態に係るフローチャートにおけるステップS111〜ステップS113、ステップS115、ステップS116、ステップS117、ステップS119の処理は、それぞれ、図4に示される第3実施形態に係るフローチャートにおけるステップS41〜ステップS43、ステップS45、ステップS46、ステップS47、ステップS49の処理、または、図5に示される第4実施形態に係るフローチャートにおけるステップS61〜ステップS63、ステップS65、ステップS66、ステップS67、ステップS69の処理と同様である。
本実施形態に係るフローチャートにおけるステップS114とステップS118の処理では、物体認識部13の第1の認識部31と第2の認識部32は、カスケード型の識別器の構成を使用して、算出した勾配方向矩形特徴量(ベクトル)を用いて、Boostingの一例であるReal AdaBoostの識別器による識別を行い、あらかじめ目標(ターゲット)としている物体(物体の画像)を認識する。
ここで、カスケード型の構成については、例えば、非特許文献1に記載された構成と同様な構成を用いることができる。
本実施形態では、第1の認識部31において、カスケード型の構成により多段の識別を実現することで、構成をコンパクトにすることを実現して、第5実施形態と同様な効果を得ることができる。また、第2の認識部32においても、カスケード型の構成により多段の識別を実現することで、第1の認識部31をカスケード型にすることと同様の効果が得られる。図7のステップS114のカスケード型Real AdaBoost識別器によるウィンドウ抽出と、ステップS118のカスケード型Real AdaBoost識別器による識別では、カスケード型内における各強識別器によりウィンドウが棄却されると、ラスタスキャンのステップ(それぞれ、ステップS112、ステップS116)に戻る。本実施形態のカスケード型は、第1の認識部31と第2の認識部32の何れかまたは両方に適用が可能である。
ここで、他の構成例として、第2の認識部32により行われる絞り込み周辺スキャンの処理をなくすことも可能である。この場合、第2の認識部32は、例えば、第1実施形態や第2実施形態と同様に、第1の認識部31により抽出された各ウィンドウについて、特徴量の算出および識別の処理を行う。
以上に示した実施形態(第1実施形態〜第6実施形態)では、図2〜図7に示したように、第1の認識部31または第1の認識部31の初段部にてラスタスキャンを繰り返した後に、第2の認識部32または第1の認識部31の2段目以降でラスタスキャンにより抽出したウィンドウについて認識する構成を説明した。
これに関して、他の類似の構成例として、第1実施形態〜第6実施形態の全ての各々において、第1の認識部31と第2の認識部32の処理を連続させて行い、第2の認識部32の終端でラスタスキャンを繰り返す構成としても良い。
このような他の類似の構成例を具体的に示す。以下で、図2に示されるフローチャートの処理に類似する構成例と、図7に示されるフローチャートの処理に類似する構成例について説明する。
図29を参照して、図2に示されるフローチャートの処理に類似する構成例を説明する。
図29は、本発明の他の実施形態に係る物体認識部13により行われる処理の手順の一例を示すフローチャート図である。
ここで、本実施形態に係るフローチャートの処理については、概略的には、図2に示される第1実施形態に係るフローチャートの処理と比べて、本実施形態に係るフローチャートにおけるステップS201〜ステップS204、ステップS206、ステップS207の処理は、それぞれ、図2に示される第1実施形態に係るフローチャートにおけるステップS1〜ステップS4、ステップS6、ステップS7の処理と同様である。
本実施形態に係るフローチャートにおけるステップS205の処理では、図2に示されるフローチャートにおけるステップS5の処理と同じ処理位置において、物体認識部13の第1の認識部31は、ウィンドウを抽出したか否かを判定し、この判定の結果、ウィンドウを抽出しなかったと判定した場合には、ラスタスキャンの処理(ステップS202の処理)に戻る一方、ウィンドウを抽出したと判定した場合には、続けて、第2の認識部32によるHOG特徴量(ベクトル)算出の処理(ステップS206の処理)以降の処理を実行させる。
また、本実施形態に係るフローチャートにおけるステップS208の処理では、図2に示されるフローチャートにおけるステップS8の処理と同じ処理位置(終端処理位置)において、物体認識部13の第2の認識部32は、ラスタスキャンが終了したか否かを判定し、この判定の結果、ラスタスキャンが終了するまで、ラスタスキャンの処理を繰り返して実行するためにステップS202の処理へ戻す。
図30を参照して、図7に示されるフローチャートの処理に類似する構成例を説明する。
図30は、本発明の他の実施形態に係る物体認識部13により行われる処理の手順の一例を示すフローチャート図である。
ここで、本実施形態に係るフローチャートの処理については、概略的には、図7に示される第6実施形態に係るフローチャートの処理と比べて、図7に示されるステップS115、ステップS116の処理を無くし、第1の認識部31と第2の認識部32を一つのカスケード型に括り付けた構成としている。また、概略的には、本実施形態に係るフローチャートにおけるステップS221〜ステップS224、ステップS226の処理は、それぞれ、図7に示される第6実施形態に係るフローチャートにおけるステップS111〜ステップS114、ステップS118の処理と同様である。
本実施形態に係るフローチャートにおけるステップS225の処理では、物体認識部13の第2の認識部32は、HOG特徴量(ベクトル)を算出する。本実施形態では、一つのカスケード型内で第1の認識部31と第2の認識部32に分ける特色を生かし、第2の認識部32においては第1の認識部31で使用する勾配方向矩形特徴量とは異なる特徴量を使用する。
また、本実施形態に係るフローチャートにおけるステップS224、ステップS226の処理では、カスケード型内における各強識別器によりウィンドウが棄却されると(つまり、目標物体では無いウィンドウと判断されると)、ラスタスキャンの処理(ステップS222の処理)に戻る。
また、本実施形態に係るフローチャートにおけるステップS227の処理では、図7に示されるフローチャートにおけるステップS119の処理と同じ処理位置(終端処理位置)において、物体認識部13の第2の認識部32は、ラスタスキャンが終了したか否かを判定し、この判定の結果、ラスタスキャンが終了するまで、ラスタスキャンの処理を繰り返して実行するためにステップS222の処理へ戻す。
[以上に示した実施形態に関する構成例の説明]
以上に示した実施形態(第1実施形態〜第6実施形態)に係る画像認識システムについて、(実施形態に係る構成例1)〜(実施形態に係る構成例17)を示す。
(実施形態に係る構成例1)
第1〜6実施形態に係る画像認識システムの物体認識部13では、撮像された輝度画像から勾配方向と勾配量を求め、勾配方向毎の勾配量画像(その積分画像は、インテグラルヒストグラムと呼ばれる場合がある)について、第1の認識部31により、それぞれウィンドウをスキャンして、学習した勾配方向矩形特徴量(各方向に分けた勾配量から矩形特徴を抽出するもの)によるパターン認識で、目標物体が存在するウィンドウを絞り込み、そして、第2の認識部32により、絞り込みしたウィンドウで再度パターン認識を行って、最終的に目標物体を認識する。
(実施形態に係る構成例2)
第1〜6実施形態に係る画像認識システムの物体認識部13では、第1の認識部31の処理は、第2の認識部32の処理よりも、1ウィンドウ当たりの演算処理時間を短くする。
(実施形態に係る構成例3)
第1〜6実施形態に係る画像認識システムの物体認識部13では、第1の認識部31における勾配矩形特徴と識別器は、認識の際に、次のような<実施形態に係る構成例3−1>〜<実施形態に係る構成例3−11>を用いる。
<実施形態に係る構成例3−1>
第1〜6実施形態に係る画像認識システムの物体認識部13では、図11に示されるように、勾配方向矩形特徴量として、勾配量画像の単矩形特徴量を用いる。
<実施形態に係る構成例3−2>
第1〜6実施形態に係る画像認識システムの物体認識部13では、図12に示されるように、勾配方向矩形特徴量として、勾配量画像のHaar−like特徴量を用いる。
<実施形態に係る構成例3−3>
第1〜6実施形態に係る画像認識システムの物体認識部13では、図13に示されるように、勾配方向矩形特徴量として、勾配量画像の同じ勾配方向で、隣接した異なる矩形面積の複数の特徴(Haar−like応用)を用いる。
<実施形態に係る構成例3−4>
第1〜6実施形態に係る画像認識システムの物体認識部13では、図14に示されるように、勾配方向矩形特徴量として、勾配量画像の同じ勾配方向で、隔たれた同じ(または、異なる)矩形面積の複数の特徴を用いる。
<実施形態に係る構成例3−5>
第1〜6実施形態に係る画像認識システムの物体認識部13では、図15に示されるように、勾配方向矩形特徴量として、勾配量画像の異なる勾配方向で、隔たれた同じ(または、異なる)矩形面積の複数の特徴を用いる。
<実施形態に係る構成例3−6>
第1〜6実施形態に係る画像認識システムの物体認識部13では、勾配方向矩形特徴量で、複数の勾配矩形の関係を特徴量とする場合に、四則演算のうちのいずれかの演算式に適用する。
<実施形態に係る構成例3−7>
第1〜6実施形態に係る画像認識システムの物体認識部13では、勾配方向矩形特徴量として、<実施形態に係る構成例3−1>〜<実施形態に係る構成例3−6>のうち、いずれか2つ以上を組み合わせたもの、または、全てを組み合わせたものを用いる。
<実施形態に係る構成例3−8>
第1〜6実施形態に係る画像認識システムの物体認識部13では、図18(A)に示されるように、勾配方向矩形特徴量として、照明差による正規化を行うために、ウィンドウ単位の勾配平均値を用いる。
<実施形態に係る構成例3−9>
第1〜6実施形態に係る画像認識システムの物体認識部13では、図18(B)に示されるように、勾配方向矩形特徴量として、照明差による正規化を行うために、ウィンドウ単位の勾配標準偏差値を用いる。
<実施形態に係る構成例3−10>
第1〜6実施形態に係る画像認識システムの物体認識部13では、図19に示されるように、勾配方向矩形特徴量として、照明差による正規化を行うために、ラスタスキャン領域の勾配平均値を用いる。
<実施形態に係る構成例3−11>
第1〜6実施形態に係る画像認識システムの物体認識部13では、図19に示されるように、勾配方向矩形特徴量として、照明差による正規化を行うために、ラスタスキャン領域の勾配標準偏差値を用いる。
(実施形態に係る構成例4)
第1〜6実施形態に係る画像認識システムの物体認識部13では、識別器(第1の認識部31の識別器、および、実施形態2、4、5、6では勾配矩形特徴を用いる第2の認識部32の識別器)は、勾配矩形特徴を学習して弱識別器として選択させ、認識の際に用いる。
なお、勾配方向矩形特徴量としては、例えば、(実施形態に係る構成例3)の<実施形態に係る構成例3−1>〜<実施形態に係る構成例3−11>に示されるものを用いる。
(実施形態に係る構成例5)
第1〜6実施形態に係る画像認識システムの物体認識部13では、識別器(第1の認識部31の識別器や、第2の認識部32の識別器)は、Boosting等のアンサンブル学習により作られる。
(実施形態に係る構成例6)
第1〜6実施形態に係る画像認識システムの物体認識部13では、識別器(第1の認識部31の識別器や、第2の認識部32の識別器)は、AdaBoost、または、Real AdaBoostを用いる。
(実施形態に係る構成例7)
第1〜6実施形態に係る画像認識システムの物体認識部13では、図21(A)、図21(B)、図21(C)に示されるように、第1の認識部31の識別器は、最適な弱識別器を選択するために、特徴量のレンジを正規化する係数を用いる。
(実施形態に係る構成例8)
第1〜6実施形態に係る画像認識システムの物体認識部13では、前記係数(特徴量のレンジを正規化する係数)は、学習により第1の認識部31の識別器を作成する際、同時に学習して決定した値である。
(実施形態に係る構成例9)
第1、3、5、6実施形態に係る画像認識システムの物体認識部13では、第2の認識部32は、第1の認識部31により用いられる勾配方向矩形特徴量とは異なる特徴量を用いる。
(実施形態に係る構成例10)
第1、3、5、6実施形態に係る画像認識システムの物体認識部13では、第2の認識部32は、HOG特徴量を用いる。
(実施形態に係る構成例11)
第2、4、5、6実施形態に係る画像認識システムの物体認識部13では、第1の認識部31と第2の認識部32は、勾配矩形特徴を用い、第1の認識部31の弱識別器と第2の認識部32の弱識別器とが異なる。つまり、第1の認識部31と第2の認識部32とで、例えば、勾配矩形特徴の勾配方向、種類、サイズおよび位置などに関して同じ弱識別器を繰り返して用いないようにする。
なお、勾配方向矩形特徴量としては、例えば、(実施形態に係る構成例3)の<実施形態に係る構成例3−1>〜<実施形態に係る構成例3−11>に示されるものを用いる。
(実施形態に係る構成例12)
第1〜6実施形態に係る画像認識システムの物体認識部13では、第1の認識部31の識別器と第2の認識部32の識別器は、双方ともBoostingを用いて、第2の認識部32の弱識別器の数よりも第1の認識部31の弱識別器の数の方を少なくする。
(実施形態に係る構成例13)
第1〜6実施形態に係る画像認識システムの物体認識部13では、図21(A)、図21(B)、図21(C)に示されるように、第2の認識部32の識別器は、最適な弱識別器を選択するために、特徴量のレンジを正規化する係数を用いる。
(実施形態に係る構成例14)
第1〜6実施形態に係る画像認識システムの物体認識部13では、前記係数(特徴量のレンジを正規化する係数)は、学習により第2の認識部32の識別器を作成する際、同時に学習して決定した値である。
(実施形態に係る構成例15)
第3〜6実施形態に係る画像認識システムの物体認識部13では、第2の認識部32は、第1の認識部31で抽出したウィンドウの周辺を、さらにスキャン(絞り込み周辺スキャン)してから認識処理を実行する。
(実施形態に係る構成例16)
第5実施形態に係る画像認識システムの物体認識部13では、第1の認識部31は、絞り込んだウィンドウについて、1回以上、再び、学習した勾配方向矩形特徴量によるパターン認識で、目標物体が存在するウィンドウを絞り込む。
(実施形態に係る構成例17)
第6実施形態に係る画像認識システムの物体認識部13では、第1の認識部31の識別器と第2の認識部32の識別器の何れかまたは両方は、カスケード型の構成を有する。
なお、第2、4、5、6実施形態において、第2の認識部32では、第1の認識部31と同様に勾配矩形特徴を用いる場合には、以上で明記したもの以外についても、第1の認識部31で用いられる勾配矩形特徴に適用することが可能な構成を適用することが可能である。
以上のように、第1〜6実施形態に係る画像認識システムの物体認識部13によると、画像認識の効率化を図ることができる。
第1〜6実施形態に係る画像認識システムの物体認識部13によると、例えば、勾配矩形特徴を用いる識別器において少ない弱識別器の構成が可能であり、演算処理時間を短くすることができる。
また、第1〜6実施形態に係る画像認識システムの物体認識部13によると、例えば、第1の認識部31により比較的粗い処理を行った後に、第2の認識部32により比較的細かい処理を行うことにより、全体として、演算処理時間を短くすることを図ることが可能である。
また、第1〜6実施形態に係る画像認識システムの物体認識部13によると、例えば、車載用の装置に実装(組み込み)することが可能である。
このように、第1〜6実施形態に係る画像認識システムの物体認識部13によると、例えば、識別性能を維持した上で、車載用の装置に実装(組み込み)することができる程度に十分な演算処理速度が得られるため、1つの装置で、車間距離制御装置(ACC)や前方車両衝突警報装置(FCW)や歩行者衝突警報装置などの適用が可能となる効果を有する。
第1〜6実施形態では、ターゲットとする物体の認識に好適な装置や、方法や、これらに用いるコンピュータプログラムなどを提供することができる。
[以上の実施形態についてのまとめ]
ここで、以上の実施形態では、図1(A)に示される物体認識部13を含む装置やシステムを車載用として車両に設ける構成を示したが、他の例として、他の任意の移動体に設けることも可能である。
また、以上の実施形態では、目標物体として、車両の背面を具体例として説明したが、例えば、車両の側面、2輪車、歩行者などや、あるいは、車室内の乗員の認識や顔の認識などのように、他の目標物体を認識する場合に適用することも可能である。
また、勾配方向矩形特徴量について、以上の実施形態では、勾配方向毎の積分画像による積分勾配画像(インテグラルヒストグラム)を用いて勾配方向矩形特徴量を作成する手法を例として示したが、必ずしも積分勾配画像(インテグラルヒストグラム)が用いられなくてもよく、他の構成例として、セル単位で1画素(1pixel)毎に方向を投票するように処理する手法などのように、他の手法が用いられてもよい。
なお、図1(A)および図1(B)における任意の構成部により行われる処理の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、処理を行ってもよい。ここで言う「コンピュータシステム」とは、OS(Operating System)や周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは、表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことを言う。さらに、「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM(Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことを言う。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
また、上記に限られず、マイクロコンピュータのほか、例えば、FPGA、あるいは、DSPなどのデバイスを用いて、図1(A)および図1(B)における任意の構成部により行われる処理を実現することも可能である。
以上、本発明の各実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1…カメラECU、2…警報装置、3…ACC−ECU、11…カメラ、12…画像取得部、13…物体認識部、14…制御部、21…FPGA(または、DSP)、22…マイクロコンピュータ、
101、111…ラスタスキャン領域、102、112…ウィンドウ、
201…画像、202…勾配強度画像、203、206、208−1〜208−8…積分勾配画像、204…ラスタスキャン領域、205…画像、207…勾配方向矩形特徴量、209…減算器、210−1〜210−8…処理、
301…単矩形、
311、312、321、322、331…勾配強度画像、
341−1〜341−N…画像、
351−1〜351−N…画像、
361−1〜361−N…画像、
401…平均勾配画像、411−1〜411−8…画像、
421−1〜421−8…画像、
501−1〜501−N、511…積分勾配画像、
521−1〜521−N、531…積分勾配2乗画像、
601…撮像画像領域、611…ラスタスキャン領域、621…ウィンドウ、
701…画像、711…ウィンドウ、721〜727…処理、
801…画像、802…勾配強度画像、811…単矩形、812…2矩形、
901−1〜901−8…勾配画像、911、921…平均勾配画像、
1001…領域、1011…ウィンドウ、
2001…輝度画像、2002…累積行加算の結果、2003…積分画像、
2011…2矩形、
2021、2031…セル、2022、2032…ブロック、2023…輝度勾配分布

Claims (21)

  1. 画像を取得する画像取得部と、
    前記画像取得部により取得された画像の輝度の勾配方向および勾配量を求め、求められた勾配方向毎の勾配量について、第1の認識部により、ウィンドウをスキャンして、矩形特徴量を求めて、当該矩形特徴量に基づいて識別器により目標の物体が存在すると認識されるウィンドウを抽出し、第2の認識部により、前記第1の認識部により抽出されたウィンドウについて、あらかじめ定められた特徴量を求めて、当該特徴量に基づいて識別器により前記目標の物体を認識する物体認識部と、
    を備えることを特徴とする画像認識装置。
  2. 前記物体認識部において、前記第1の認識部の処理は、前記第2の認識部の処理よりも、1ウィンドウ当たりの演算処理時間を短くした、
    ことを特徴とする請求項1に記載の画像認識装置。
  3. 前記物体認識部は、前記矩形特徴量として、
    単矩形特徴量と、
    Haar−like特徴量と、
    同じ勾配方向で、隣接した異なる矩形面積の複数の特徴(Haar−like応用)による特徴量と、
    同じ勾配方向で、隔たれた同じまたは異なる矩形面積の複数の特徴による特徴量と、
    異なる勾配方向で、隔たれた同じまたは異なる矩形面積の複数の特徴による特徴量と、
    のうちの1つ以上を用いる、
    ことを特徴とする請求項1または請求項2に記載の画像認識装置。
  4. 前記物体認識部は、前記矩形特徴量について、複数の矩形に関する関係を特徴量とする場合に、四則演算のうちのいずれかの演算式に適用する、
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の画像認識装置。
  5. 前記物体認識部は、前記矩形特徴量として、
    ウィンドウ単位の平均値と、
    ウィンドウ単位の標準偏差値と、
    ラスタスキャン領域の平均値と、
    ラスタスキャン領域の標準偏差値と、
    のうちのいずれかを用いて、照明差による正規化を行う、
    ことを特徴とする請求項1から請求項4のいずれか1項に記載の画像認識装置。
  6. 前記物体認識部は、前記第1の認識部の識別器により、矩形特徴を学習して弱識別器として選択させ、この動作を認識の際に用いる、
    ことを特徴とする請求項1から請求項5のいずれか1項に記載の画像認識装置。
  7. 前記物体認識部は、前記第1の認識部の識別器と前記第2の認識部の識別器とのうちの一方または両方を、Boostingまたは他のアンサンブル学習により作る、
    ことを特徴とする請求項1から請求項6のいずれか1項に記載の画像認識装置。
  8. 前記物体認識部は、前記第1の認識部の識別器と前記第2の認識部の識別器とのうちの一方または両方として、AdaBoostの識別器、または、Real AdaBoostの識別器を用いる、
    ことを特徴とする請求項1から請求項7のいずれか1項に記載の画像認識装置。
  9. 前記物体認識部は、前記第1の認識部の識別器に関して、前記矩形特徴量のレンジを正規化する係数を用いる、
    ことを特徴とする請求項1から請求項8のいずれか1項に記載の画像認識装置。
  10. 前記矩形特徴量のレンジを正規化する係数は、学習により前記第1の認識部の識別器を作成する際、同時に学習して決定された値である、
    ことを特徴とする請求項9に記載の画像認識装置。
  11. 前記物体認識部は、前記第2の認識部により、前記あらかじめ定められた特徴量として、前記第1の認識部により用いられる矩形特徴量とは異なる特徴量を用いる、
    ことを特徴とする請求項1から請求項10のいずれか1項に記載の画像認識装置。
  12. 前記物体認識部は、前記第2の認識部により、前記あらかじめ定められた特徴量として、HOG特徴量を用いる、
    ことを特徴とする請求項11に記載の画像認識装置。
  13. 前記物体認識部は、前記第2の認識部により、前記あらかじめ定められた特徴量として、前記勾配方向毎の前記勾配量についての矩形特徴量を用い、
    前記第1の認識部と前記第2の認識部とで異なる弱識別器を用いる、
    ことを特徴とする請求項1から請求項10のいずれか1項に記載の画像認識装置。
  14. 前記物体認識部は、前記第1の認識部の識別器と前記第2の認識部の識別器により、双方ともBoostingを用いて、前記第2の認識部の弱識別器の数よりも前記第1の認識部の弱識別器の数を少なくする、
    ことを特徴とする請求項1から請求項13のいずれか1項に記載の画像認識装置。
  15. 前記物体認識部は、前記第2の認識部の識別器に関して、前記あらかじめ定められた特徴量のレンジを正規化する係数を用いる、
    ことを特徴とする請求項1から請求項14のいずれか1項に記載の画像認識装置。
  16. 前記あらかじめ定められた特徴量のレンジを正規化する係数は、学習により前記第2の認識部の識別器を作成する際、同時に学習して決定された値である、
    ことを特徴とする請求項15に記載の画像認識装置。
  17. 前記物体認識部は、前記第2の認識部により、前記第1の認識部により抽出されたウィンドウの周辺を、さらにスキャンして、あらかじめ定められた特徴量を求めて、当該特徴量に基づいて識別器により前記目標の物体を認識する、
    ことを特徴とする請求項1から請求項16のいずれか1項に記載の画像認識装置。
  18. 前記物体認識部は、前記第1の認識部により、前記抽出したウィンドウについて、再び1回以上、矩形特徴量を求めて、当該矩形特徴量に基づいて識別器により目標の物体が存在すると認識されるウィンドウを抽出する、
    ことを特徴とする請求項1から請求項17のいずれか1項に記載の画像認識装置。
  19. 前記物体認識部において、前記第1の認識部の識別器と前記第2の認識部の識別器の何れかまたは両方は、カスケード型の構成を有する、
    ことを特徴とする請求項1から請求項18のいずれか1項に記載の画像認識装置。
  20. 画像取得部が、画像を取得し、
    物体認識部が、前記画像取得部により取得された画像の輝度の勾配方向および勾配量を求め、求められた勾配方向毎の勾配量について、第1の認識部により、ウィンドウをスキャンして、矩形特徴量を求めて、当該矩形特徴量に基づいて識別器により目標の物体が存在すると認識されるウィンドウを抽出し、第2の認識部により、前記第1の認識部により抽出されたウィンドウについて、あらかじめ定められた特徴量を求めて、当該特徴量に基づいて識別器により前記目標の物体を認識する、
    ことを特徴とする画像認識方法。
  21. 画像取得部が、画像を取得する手順と、
    物体認識部が、前記画像取得部により取得された画像の輝度の勾配方向および勾配量を求め、求められた勾配方向毎の勾配量について、第1の認識部により、ウィンドウをスキャンして、矩形特徴量を求めて、当該矩形特徴量に基づいて識別器により目標の物体が存在すると認識されるウィンドウを抽出し、第2の認識部により、前記第1の認識部により抽出されたウィンドウについて、あらかじめ定められた特徴量を求めて、当該特徴量に基づいて識別器により前記目標の物体を認識する手順と、
    をコンピュータに実行させるための画像認識プログラム。
JP2012020051A 2012-02-01 2012-02-01 画像認識装置、画像認識方法および画像認識プログラム Pending JP2013161126A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012020051A JP2013161126A (ja) 2012-02-01 2012-02-01 画像認識装置、画像認識方法および画像認識プログラム
US13/755,847 US20130287251A1 (en) 2012-02-01 2013-01-31 Image recognition device, image recognition method, and image recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012020051A JP2013161126A (ja) 2012-02-01 2012-02-01 画像認識装置、画像認識方法および画像認識プログラム

Publications (1)

Publication Number Publication Date
JP2013161126A true JP2013161126A (ja) 2013-08-19

Family

ID=49173353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012020051A Pending JP2013161126A (ja) 2012-02-01 2012-02-01 画像認識装置、画像認識方法および画像認識プログラム

Country Status (2)

Country Link
US (1) US20130287251A1 (ja)
JP (1) JP2013161126A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015082326A (ja) * 2013-10-23 2015-04-27 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド 交差点における画像及び地図に基づく車両の検出法
JP2020155021A (ja) * 2019-03-22 2020-09-24 株式会社デンソー 物体認識装置

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013164643A (ja) * 2012-02-09 2013-08-22 Honda Elesys Co Ltd 画像認識装置、画像認識方法および画像認識プログラム
DE102014209014A1 (de) * 2013-05-22 2014-11-27 Osram Gmbh Präsenzdetektion
JP2015032211A (ja) * 2013-08-05 2015-02-16 株式会社東芝 画像処理装置、方法およびプログラム
WO2016001920A1 (en) * 2014-07-03 2016-01-07 Amiad Gurman A method of perceiving 3d structure from a pair of images
JP6357385B2 (ja) * 2014-08-25 2018-07-11 ルネサスエレクトロニクス株式会社 画像通信装置、画像送信装置および画像受信装置
US9646389B2 (en) * 2014-08-26 2017-05-09 Qualcomm Incorporated Systems and methods for image scanning
US10049273B2 (en) 2015-02-24 2018-08-14 Kabushiki Kaisha Toshiba Image recognition apparatus, image recognition system, and image recognition method
CN106156707B (zh) * 2015-04-09 2019-06-14 展讯通信(上海)有限公司 图像识别方法及装置
US9443320B1 (en) * 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals
US10460198B2 (en) 2015-12-23 2019-10-29 Fotonation Limited Image processing system
CN108431824B (zh) * 2015-12-23 2022-04-29 快图有限公司 图像处理系统
US9979897B2 (en) * 2016-06-07 2018-05-22 GM Global Technology Operations LLC System and method for adaptive flickering reduction from video sequence
JP7072765B2 (ja) * 2017-01-31 2022-05-23 株式会社アイシン 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム
CN110914830B (zh) * 2017-07-18 2023-10-31 索尼互动娱乐股份有限公司 图像识别装置、图像识别方法和程序
CN107454284B (zh) * 2017-09-13 2020-05-15 厦门美图之家科技有限公司 一种视频去噪方法及计算设备
CN109670519B (zh) * 2017-10-13 2023-09-26 佳能株式会社 图像处理装置和图像处理方法
JP7077093B2 (ja) * 2018-03-26 2022-05-30 三菱重工業株式会社 領域検出装置、領域検出方法及びそのプログラム
WO2019227294A1 (zh) * 2018-05-28 2019-12-05 华为技术有限公司 图像处理方法、相关设备及计算机存储介质
US11354796B2 (en) * 2020-01-28 2022-06-07 GM Global Technology Operations LLC Image identification and retrieval for component fault analysis

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2939547B1 (fr) * 2008-12-09 2011-06-10 Commissariat Energie Atomique Dispositif et procede pour le reconnaissance et la localisation d'objets dans une image par balayage de fenetres de detection
CN101894262B (zh) * 2009-05-20 2014-07-09 索尼株式会社 对图像进行分类的方法和设备
KR101268520B1 (ko) * 2009-12-14 2013-06-04 한국전자통신연구원 영상 인식 장치 및 방법
US8744196B2 (en) * 2010-11-26 2014-06-03 Hewlett-Packard Development Company, L.P. Automatic recognition of images
US8565482B2 (en) * 2011-02-28 2013-10-22 Seiko Epson Corporation Local difference pattern based local background modeling for object detection

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015082326A (ja) * 2013-10-23 2015-04-27 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド 交差点における画像及び地図に基づく車両の検出法
JP2020155021A (ja) * 2019-03-22 2020-09-24 株式会社デンソー 物体認識装置
JP7156120B2 (ja) 2019-03-22 2022-10-19 株式会社デンソー 物体認識装置

Also Published As

Publication number Publication date
US20130287251A1 (en) 2013-10-31

Similar Documents

Publication Publication Date Title
JP2013161126A (ja) 画像認識装置、画像認識方法および画像認識プログラム
JP5950441B2 (ja) 画像認識装置、画像認識方法および画像認識プログラム
Aziz et al. Traffic sign recognition based on multi-feature fusion and ELM classifier
Dollár et al. The fastest pedestrian detector in the west.
US8447114B2 (en) Method and apparatus for calculating pixel features of image data
Tavallali et al. Robust cascaded skin detector based on AdaBoost
Hodges et al. Single image dehazing using deep neural networks
Xu et al. Fast vehicle and pedestrian detection using improved Mask R‐CNN
CN110097050B (zh) 行人检测方法、装置、计算机设备及存储介质
WO2016170965A1 (ja) オブジェクト検出方法及び画像検索システム
KR101178333B1 (ko) 웨이블릿 기반의 중심대칭-국부이진 패턴과 계층적 랜덤 포레스트를 이용한 사람 검출 방법
JP2005190400A (ja) 顔画像検出方法及び顔画像検出システム並びに顔画像検出プログラム
Barodi et al. An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement
Ajay et al. Vehicle detection in aerial imagery using eigen features
Patil et al. Expression invariant face recognition using semidecimated DWT, Patch-LDSMT, feature and score level fusion
JP2013164643A (ja) 画像認識装置、画像認識方法および画像認識プログラム
Ugwu et al. An improved visual attention model for automated vehicle license plate number recognition using computer vision
Zaharin et al. Comparison of human detection using background subtraction and frame difference
Oliveira et al. On integration of features and classifiers for robust vehicle detection
Truong et al. A study on visual saliency detection in infrared images using Boolean map approach
Ng et al. Traffic Sign Recognition with Convolutional Neural Network
Pasquet et al. Speeding-up a convolutional neural network by connecting an SVM network
Bazmi et al. Increasing the Accuracy of Detection and Recognition in Visual Surveillance.
JP2013250868A (ja) 画像認識装置、画像認識方法および画像認識プログラム
Peng et al. Corner detection method based on wavelet transform