JP4997178B2 - 物体検出装置 - Google Patents

物体検出装置 Download PDF

Info

Publication number
JP4997178B2
JP4997178B2 JP2008151709A JP2008151709A JP4997178B2 JP 4997178 B2 JP4997178 B2 JP 4997178B2 JP 2008151709 A JP2008151709 A JP 2008151709A JP 2008151709 A JP2008151709 A JP 2008151709A JP 4997178 B2 JP4997178 B2 JP 4997178B2
Authority
JP
Japan
Prior art keywords
feature
feature amount
state
input image
luminance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008151709A
Other languages
English (en)
Other versions
JP2009301104A (ja
Inventor
弘亘 藤吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chubu University Educational Foundation
Original Assignee
Chubu University Educational Foundation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chubu University Educational Foundation filed Critical Chubu University Educational Foundation
Priority to JP2008151709A priority Critical patent/JP4997178B2/ja
Publication of JP2009301104A publication Critical patent/JP2009301104A/ja
Application granted granted Critical
Publication of JP4997178B2 publication Critical patent/JP4997178B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、入力画像から物体を検出する物体検出装置に関する。
近年、セキュリティやITS(Intelligent Transport System:高度道路交通システム)、マーケティングなどの分野で人検出の実現が期待され、多くの手法が提案されている。従来、人検出に用いられるアピアランス特徴として、局所領域における輝度の勾配方向をヒストグラム化した特徴ベクトルであるHOG(Histograms of Oriented Gradients)を用いた手法が提案されている(非特許文献1参照)。このHOGは、照明変動や影の影響を受けにくく、局所的な幾何学的変化に頑健であるため、HOGを用いた人検出手法が多く提案されている(非特許文献2〜4)。
N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection", IEEE Computer Vision and Pattern Recognition, pp. 886-893, 2005年 F.Suard and A.Broggi,"Pedestrian Detection using Infrared images and Histograms of Oriented Gradients", IEEE Symposium on Intelligent Vehicule, pp. 206-212, Jun, 2006年 Q.Zhu,S.Avidan, M.Yeh and K.Cheng,"Fast Human Detection Using a Cascade of Histograms of Oriented Gradients", IEEE Computer Vision and Pattern Recognition, Vol. 2, pp. 1491-1498, Jun, 2006年 小林拓也, 日高章理, 栗田多喜夫,"Histograms of Oriented Gradients を用いた対象識別での特徴選択", 信学技報, Vol. 106, pp. 119-124, Mar, 2007年
しかしながら、HOG特徴のようなローレベル(low-lebel)な特徴は、単一の特徴のみでは検出対象の識別に困難なパターンが存在する場合がある。
そこで、本発明は上記点に鑑み、輝度勾配に基づく特徴量を用いた物体検出装置において、物体の検出精度を向上させることを目的とする。
上記目的を達成するため、本発明の請求項1に記載の発明では、入力画像中を複数に分割した領域の輝度勾配に基づいて前記領域の第1の特徴量を算出する第1の特徴量算出手段と、位置が異なる複数の前記領域の前記第1の特徴量同士を組み合わせた第2の特徴量を算出する第2の特徴量算出手段と、前記第2の特徴量に基づいて前記入力画像から検出対象である物体を検出する識別手段と、学習サンプルを前記入力画像として、学習により前記識別手段を構築する学習手段とを備え、
前記学習手段は、前記第2の特徴量を入力とし、予め設定された前記学習サンプルの重みから算出される前記物体である条件付き確率が前記物体以外である条件付き確率より高いか否かにより、前記物体又は前記物体以外とを識別する弱識別器を構築する弱識別器構築手段と、複数の前記弱識別器を用いた第1のアダブーストにより、前記入力画像のすべての前記領域それぞれにおいて、前記物体の識別に有用な前記第2の特徴量を選択する第1強識別器を構築する第1強識別器構築手段と、前記第1強識別器を用いた第2のアダブーストにより、複数の前記領域のすべての組み合わせに対応する前記第2の特徴量から、前記物体の識別に有用な前記領域の組み合わせを選択する第2強識別器構築手段とを備えて構成されており、
前記識別手段は、第2強識別器構築手段により選択された前記領域の組み合わせに対応する前記第2の特徴量に基づいて、前記入力画像から前記物体を検出することを特徴としている。
このように、位置が異なる複数の領域の第1の特徴量同士を組み合わせた第2の特徴量を用いることで、複数箇所で同時に第1の特徴量を捉えることができるので、自動的に検出対象の外観上の特徴を捉えやすくなり、識別精度を向上させることができる。さらに、2段階のアダブーストを用いることで、検出対象の識別に有効な第2の特徴量のみを選択することができ、高精度な識別が可能となる。
また、請求項2に記載の発明では、前記入力画像における画像フレーム中の各領域の輝度変化に基づく前記領域の状態を第3の特徴量として算出する第3の特徴量算出手段を備え、前記第2の特徴量算出手段は、位置が異なる複数の前記領域の前記第1の特徴量同士、前記第3の特徴量同士、又は前記第1の特徴量と前記第3の特徴量を組み合わせて第2の特徴量を算出するように構成されていることを特徴としている。このように、輝度勾配に基づく第1の特徴量と輝度変化に基づく第3の特徴量を併用することで、第1の特徴量のみでは識別困難な検出対象に似た形状の他の物体等を誤検出することを抑制でき、物体の識別率を向上させることができる。
また、請求項3に記載の発明では、前記第3の特徴量算出手段は、前記画像フレーム中の前記領域の輝度の変化量を検出する第3の特徴量検出手段と、前記変化量が予め設定された所定変化量より大きい場合に動状態と判定する第1状態判定手段と、前記画像フレームより後の複数の画像フレーム中の前記領域に対応する領域の輝度の分散を算出する分散算出手段と、前記第1状態判定手段により動状態と判定され、かつ、前記分散が予め設定された所定値より小さい場合に背景または静状態と判定する第2状態判定手段と、前記第2状態判定手段により背景または静状態と判定された場合に、前記画像フレームの領域の輝度が予め設定された背景用輝度に属するときに背景と判定し、属さないときに静状態と判定する第3状態判定手段とを備え、前記領域を背景、動状態、静状態のいずれかに判別した結果を前記第3の特徴量として算出するように構成されていることを特徴としている。このように、各画素を背景、動状態、静状態のいずれかに判別することで、物体が静止状態であっても、識別率を向上させることができる。
また、請求項4に記載の発明では、前記第1の特徴量算出手段は、前記入力画像を多重解像度化するように構成され、前記共起特徴算出手段は、解像度が異なる複数の前記入力画像の前記第1の特徴量を組み合わせて前記第2の特徴量を算出することを特徴としている。これにより、例えば検出対象が人であれば、顔の特徴を選択しやすい解像度画像から算出した特徴量と上半身の特徴を選択しやすい解像度画像から算出した特徴量を組み合わせて第2の特徴量を算出することができ、入力画像を多様な捉え方で観測でき、高精度な検出を行うことができる。
なお、上記各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。
(第1実施形態)
以下、本発明の第1実施形態について図1〜図5に基づいて説明する。本実施形態の物体検出装置は、撮像手段により取得された画像を分析して、画像に含まれる物体を検出するものである。本実施形態の物体検出装置は、入力画像から人を検出する人検出装置として構成されている。また、撮像手段は、監視カメラに多く用いられる固定式カメラや車載カメラのような移動式カメラなどを用いることができる。
図1は、本実施形態の物体検出装置の構成を示している。物体検出装置は、CPU、メモリ等を備える周知のコンピュータから構成することができる。図1に示すように、物体検出装置は、特徴量算出部10、識別部20を備えている。これらの各構成要素10、20は、CPUが所定のプログラムを実行することによって実現される。
特徴量算出部10は、入力画像の輝度勾配に基づく特徴量(第1の特徴量)としてHOG(Histograms of Oriented Gradients)特徴量を算出する。識別部20は、入力画像中の複数の異なるセル(領域)のHOG特徴量を組み合わせたジョイントHOG特徴量(第2の特徴量)を算出し、ジョイントHOG特徴量に基づいて入力画像に検出対象である人が含まれるか否かを識別する。識別部20は、周知のアダブースト(AdaBoost)によるカスケード型の識別器として構成されている。アダブーストによって構築される識別器は、識別関数が誤認識を起こしたデータを重視して再学習を行う。この処理をラウンド数T回反復した後、生成された識別器群の識別関数のアンサンブルによって最終的な識別関数を生成する。識別部20の学習には、学習サンプルが用いられる。学習サンプルは、検出対象画像(人の画像)と非検出対象画像(人以外の画像)の画像からなる。なお、特徴量算出部が本発明の第1の特徴量算出手段に相当し、識別部20が本発明の識別手段、学習手段、弱識別器構築手段、第1強識別器構築手段、第2強識別器構築手段に相当している。
アダブーストの識別器は、弱識別器のすべての判別結果が(検出対象画像であれば「1」、非検出対象画像であれば「0」)が結合機に供給され、結合機はすべての判別結果に対して、対応する弱識別器毎に学習時に算出された信頼度を重み付け加算し、その重み付き多数決の結果を出力し、結合機の出力値を評価することで入力された画像が検出対象か否かを判定するものである。識別器をカスケード型に構築することによって、検出対象の検出率を低下させることなく、誤検出率を抑制することができる。
図1に示すように、本実施形態の識別部20は、2段階に構築されたアダブースト識別器となっている。まず、1段目のアダブースト識別器により位置の異なる2つのローレベルな特徴であるHOG特徴を組み合わせたジョイントHOG特徴の集合体であるジョイントHOG特徴プールを作成する。次に、ジョイントHOG特徴を入力とした2段階目のアダブースト識別器により最終識別器を構築する。2段階目のアダブースト識別器は、ジョイントHOG特徴プールから自動的に人検出に最適なジョイントHOG特徴を選択する。
以下、識別部20における2段階に構築したアダブーストによる学習方法について説明する。
まず、入力画像中の各ピクセル(画素)の輝度勾配に基づくHOG特徴量を算出する。HOG特徴量の算出は、特徴量算出部10により行われる。特徴量算出部10では、ローレベルな特徴としてアピアランス(画像の見え)に基づくHOG(Histograms of Oriented Gradients)を用いている。「HOG」は、局所領域における輝度の勾配方向をヒストグラム化した特徴ベクトルであり、物体の輪郭情報を得ることができ、物体の形状(エッジ)を表わすことが可能である。近接画素の勾配を局所領域によってヒストグラム化するため、照明や影の影響を受けにくく、局所的な幾何学変化に頑強である。
図2は、入力画像の構造を示しており、図2(a)は入力画像を示し、図2(b)は入力画像を複数のセルに分割した状態を示し、図2(c)はブロックによる正規化を行う状態を示している。なお、本実施形態の入力画像は、30×60個のピクセルから構成されている。
まず、特徴量算出部10では、各ピクセルの輝度勾配を算出する。輝度勾配とは、対象となるピクセル近傍での輝度変化の度合を示すものであり、入力画像内で物体の境界領域(輪郭)で大きな値となる。ここでは、対象となる入力画像に含まれるすべてのピクセルについて、各ピクセルの輝度Lから輝度の勾配強度mと勾配方向θを数式1により算出する。
Figure 0004997178
ここで、fx(x,y)はx方向(図2の左右方向)の輝度の差分であり、fy(x,y)はy方向(図2の上下方向)の輝度の差分であり、これらは数式2により算出することができる。
Figure 0004997178
次に、特徴量算出部10は、数式1で算出された勾配強度mと勾配方向θを用いて、勾配方向ヒストグラムの作成を行う。勾配方向ヒストグラム作成は、複数のピクセルからなるセル単位で行う。図2(b)に示すように、本実施形態では、5×5ピクセルを1セルとした領域において、輝度の勾配方向ヒストグラムを作成する。ただし、算出された勾配方向は0°〜360°となるが、ここでは勾配方向の向きを考慮する必要がないため、0°〜180°の範囲とする。本実施形態では、勾配方向を20°ずつに分割し、各方向毎に1セルに含まれる各ピクセルの勾配強度mを加算して9方向の勾配方向ヒストグラムを作成する。このため、1セル当たり9次元の特徴量が存在する。本実施形態では入力画像に6×12個のセルが存在し、72個のセルそれぞれに対して勾配方向ヒストグラム(V=[v1,v2,v3,…,v9])を作成する。
次に、特徴量算出部10は、各セルで作成した輝度の勾配ヒストグラムの正規化を行う。つまり、個々のセルには、輝度の偏りが含まれる場合があるので、近接するセルを含めたブロック単位で正規化を行って平均化する。本実施形態では、3×3セルを1ブロックとして正規化を行う。1セル当たりの9次元の特徴量を有しているので、1ブロック(=3×3セル)当たり81次元の特徴量を有することとなる。最後に次の数式3によりHOG特徴量を正規化する。
Figure 0004997178
ここで、vは正規化後のHOG特徴量、kはブロック内のHOG特徴量の数、εは分母が0の場合に計算不能になることを防ぐ係数である。
正規化は、図2(c)のようにブロックを1セルずつ移動させることにより行う。このため、特徴量は、異なるブロックの領域によって何度も正規化される。入力画像を30×60ピクセルとした場合、x方向に4ブロック、y方向に10ブロック移動できるため、合計40ブロックに対して正規化を行う。各ブロック毎に正規化されたHOG特徴ベクトルは、3240次元(=40ブロック×81次元)となる。
以上の過程により、入力画像における各セルc1〜c72の9つのHOG特徴量(HOGv1〜HOGv9)が得られ、図1の最下段に示す低位レベル(low-lebel)のHOG特徴プール(HOG特徴の集合体)が作成される。
次に、ジョイントHOG特徴を算出する。ジョイントHOG特徴の算出は、識別部20により行われる。まず、ジョイントHOG特徴を生成するために、複数のHOG特徴により共起を表現する。本実施形態では、「T. Mita, T. Kaneko and O.Hori: “Joint Haar-like Features for Face Detection”, ICCV, pp. 1619-1626, 2005.」で提案された共起の表現方法を用いる。まず、各セルの各HOG特徴に対して、次の数式4から「人(1)」若しくは「人以外(0)」を表わす2値符号sを算出する。
Figure 0004997178
ここで、θは閾値、pは不等号の向きを決定する符号であり、「+1」または「−1」をとる。V(=[v1,v2,v3,…,v9])は、1のセルから算出される特徴量、oは勾配の方向を表わす。これにより、得られた2値化符号を2つ組み合わせることで共起を表現した特徴jを得ることができる。
図3は、HOG特徴の共起を説明するための図である。例えば、図3に示すような入力画像において、異なる2つのセルcm、cnのHOG特徴vを2値化した符号s1=1、s2=1を観測したとき、共起を表現した特徴j=(11)2=3となる。共起を表現した特徴jは、2進数表現された特徴との組み合わせのインデックス番号であり、本実施形態では2つの特徴量の組み合わせであるため、(00)2=0、(01)2=1、(10)2=2、(11)2=3の4通りの値をとる。
次に、これまでに算出したHOG特徴量の共起を表現した特徴量を組み合わせて中位レベル(mid-lebel)なジョイントHOG特徴量として表現する。上述の数式4で算出したHOG特徴の共起を用いて、2つのセルの低位レベルのHOG特徴から算出した共起を表現した特徴量と、1段階目のアダブーストによりジョイントHOG特徴を生成する。複数の異なるセルのHOG特徴量を組み合わせたジョイントHOG特徴量を用いることにより、物体形状の対称性やエッジの連続性だけでなく、位置の異なるセルとセルとの関係を捉えることが可能となる。
まず、位置の異なる2つのセルcm、cnにおいて、共起を表現した特徴の中から、検出対象の識別に有効な特徴を学習により選択する。入力画像xからの特徴量Jt(x)=jを観測したときに、1段階目のアダブースト弱識別器ht(x)は次の数式5により表わされる。なお、識別部20が行う数式5の処理が本発明の弱識別器構築手段に相当している。
Figure 0004997178
ここで、yは正解ラベルy∈{+1,−1}を表わし、Pt(y=+1|j)及びPt(y=−1|j)は、それぞれHOG特徴の共起を表現したときの条件付き確率である。条件付き確率は、予め設定された学習サンプルiの重みDt(i)に基づいて、次の数式6により算出することにより、誤認識した学習サンプルを重視した学習が可能となる。
Figure 0004997178
次に、1段階目の強識別器であるジョイントHOG特徴Hcm,cn(x)を次の数式7により構築する。なお、識別部20が行う数式7の処理が本発明の第1強識別器構築手段に相当している。
Figure 0004997178
ここで、Tは学習回数、αt cm,cnは1段目の弱識別器htcm,cn(数式5)の重みを表わしている。重みαt cm,cnは学習により設定される。
数式7の処理を入力画像のすべてのセルの組み合わせに対して行う。本実施形態では、検出ウィンドウ(30×60ピクセル)に対して72個のセルがあるため、2つのセルの組み合わせは2556通りとなり、2556個のジョイントHOG特徴からなるジョイントHOG特徴プール(ジョイントHOG特徴の集合体)が作成される。これにより、図2の中段に示す中位レベル(mid-lebel)のジョイントHOG特徴プールが作成される。
次に、2段階目のアダブースト識別器について説明する。2段階目のアダブースト識別器では、1段階目のアダブースト識別器(数式7)により生成したジョイントHOG特徴プールを入力として最終識別器を構築する。2段階目のアダブーストでは、ジョイントHOG特徴で構築した1段階目の強識別器Hcm,cn(x)のプールの中から識別に有効なものを選択して学習を行い、2段階目の強識別器G(c)を構築する。強識別器Hcm,cn(x)のプールの中から選択された強識別器をgt(c)とした場合に、2段階目のアダブーストにより得られる最終的な強識別器G(c)は次の数式8により得られる。なお、識別部20が行う数式8の処理が本発明の第1強識別器構築手段に相当している。
Figure 0004997178
λは識別器の閾値であり、αtは1段階目の強識別器gt(c)の重みを表わしている。重みαtは学習により設定される。cmとcnはセルの組み合わせを表わし、c={cm,cn:1≦m≦72,1≦n≦72}である。
図4は、2段階目の強識別器G(c)で選択されるジョイントHOG特徴を説明するための図である。図4に示すように、2段階目のアダブーストにより、ジョイントHOG特徴プールから識別に有効な特徴量のみを選択して、最終識別器が構築される。
以上の過程により識別部20の学習が完了する。学習により構築された識別部20は、数式8により選択されたセルの組み合わせに対応するジョイントHOG特徴を用いて、入力画像中に検出対象である人が含まれているか否を識別する。
次に、本実施形態の物体検出装置の2段階のアダブーストにより選択されるジョイントHOG特徴量について説明する。まず、1段階目のアダブースト(数式7)では、入力画像中のすべてのセル領域のジョイントHOG特徴が選択され、その中でも特に人の形状に沿った勾配に対応するジョイントHOG特徴が多く選択されて重みが高くなる。次に、2段階目のアダブースト(数式8)では、1段階目のアダブーストで選択されたジョイントHOG特徴であっても、人の輪郭以外は選択されにくい傾向となる。これは、2段階目のアダブーストの特徴選択において、人の輪郭以外に対応するジョイントHOG特徴量は、人と人以外を識別するためには有効でないと判断されるためである。以上のことから、2段階にアダブーストを構築することにより、人の識別に有効な特徴が自動的に選択されることがわかる。
次に、本実施形態の物体検出装置で行った評価実験の結果を説明する。実験に用いた画像は、固定カメラにより撮影された多様な照明、背景、人の歩行方向など、異なる複数の場所で撮影された画像である。学習用ポジティブサンプルは2054枚、学習用ネガティブサンプルは6258枚、評価用ポジティブサンプルは1000枚、評価用ネガティブサンプルは1234枚、それぞれ用いた。評価実験では、本実施形態の物体検出装置によるジョイントHOG特徴を用いた場合と、特徴算出部20で算出された低位レベル(low-lebel)のHOG特徴を用いた場合とを比較した。
識別実験結果の比較はDET(Detection Error Tradeoff)によって評価を行った。DETは、横軸に誤検出率(人以外を人と認識する確率)、縦軸に未検出率(人を人以外と認識する確率)を両対数グラフによって表わしたものである。識別器のしきい値を変化させることによって、誤検出率に対する未検出率の比較を行うことができる。
図5は、評価実験結果を示している。本実施形態のジョイントHOG特徴を用いた場合には、HOG特徴を用いた場合と比較して、検出精度が向上していることがわかる。誤検出率5.0%の場合、検出率を約24.6%向上させることができた。これは、単一のHOG特徴量のみでは識別困難なパターンに対しても、異なる位置の複数のセルのHOG特徴を組み合わせたジョイントHOG特徴を用いることで、識別可能となったためである。このように、ジョイントHOG特徴を用いることで、複数箇所で同時にHOG特徴量を捉えることができるので、自動的に検出対象の外観上の特徴を捉えやすくなり、識別精度を向上させることができる。
(第2実施形態)
次に、本発明の第2実施形態について説明する。
図6は、本第2実施形態の物体検出装置の構成を示している。本実施形態では、ローレベルな特徴として、アピアランスに基づくHOG特徴に加えて時空間特徴を用いている。本実施形態では、時空間特徴を扱うため、撮像手段として監視カメラに多く用いられる固定式カメラを用い、時系列的に並んだ複数の画像フレームから構成される連続映像を入力画像として用いている。なお、本実施形態の特徴量算出部10が本発明の第1の特徴量算出手段、第3の特徴量検出手段、第1状態判定手段、分散算出手段、第2状態判定手段、第3状態判定手段に相当している。
本実施形態の特徴量算出部10では、HOG特徴の算出に加え、入力画像のピクセルの輝度変化に基づいてピクセル状態分析(PSA:Pixel State Analysis)を行い、各ピクセルの状態を判別し、PSA特徴量を算出している。「ピクセル状態分析」とは、フレームに含まれる各ピクセルの輝度の時間的変化をモデル化することにより、各ピクセルを背景差分により背景と前景に区別し、さらに前景の各ピクセルを輝度値の変化と安定度から物体の動きを示す動状態と静状態として、各ピクセルを背景、動状態、静状態のいずれかに判別する手法である。ピクセル状態分析によるPSA特徴は、空間的情報とモーション情報(時間情報)の両方の情報を含む特徴である。
図7は、ピクセル状態分析の状態遷移を示している。図7に示すように、各ピクセルの初期状態は背景(BG)に設定されており、背景(BG)から動状態(TR)に遷移することができ、動状態(TR)から背景(BG)または静状態(ST)に遷移することができ、静状態(ST)から動状態(TR)に遷移することができる。
これらの3つの状態を判定するための基本的原理として、ピクセルの輝度が状況に応じて、(1)〜(3)のように変化する点を利用する。(1)物体がピクセル上を通過する場合には、そのピクセルの輝度値は急激な変化を伴う。その後、一時的に不安的な状態が続き、再度急激な変化の後、背景である元の輝度値に戻る。(2)物体がピクセル上で停止した場合には、そのピクセルの輝度値は急激な変化の後、一時的に不安的な状態が続き、最終的には物体の輝度値に安定する。(3)太陽が雲に隠れた等の環境変化が生じた場合には、輝度値は緩やかに変化する。
図8は、ピクセル状態分析を行うフレームの時系列的な関係を示している。ピクセルの状態遷移を捉えるには、各ピクセルの輝度値の急激な変化(Motion Trigger)と輝度値の安定度(Stability Measure)を検出する。輝度値の急激な変化の検出は、ピクセル状態分析の対象となっている現在のフレームtより前の複数フレーム(図8の例では5フレーム)に着目して行い、輝度値の安定度の検出には、現在のフレームtから後の複数フレーム(図8の例では5フレーム)に着目して行う。
まず最初に、輝度値の急激な変化の検出を行う。ここで、ピクセル状態分析の対象となっている現在のフレームtからkフレーム前の輝度値をItとする。輝度値の変化量Tを求めるには、Itと、フレームtからkフレーム前までの各フレームのIt-jの差分(輝度値の最大変化量)の絶対値を算出する。急激な輝度値の変化がピクセル上に生じたとき、輝度値の変化量Tの値は大きくなる。輝度値の変化量Tは、数式9により算出することができる。
Figure 0004997178
次に、ピクセルの輝度値の安定度について考える。輝度値の安定状態の検出は、現在のフレームtより後のkフレームに着目し、フレームtからフレームt+kまでの輝度値の分散の逆数として算出する。安定度Sは、輝度値が安定した状態では大きい値となる。安定度Sは、数式10により算出することができる。
Figure 0004997178
ここで、フレームの各ピクセルの判別方法を図9のフローチャートに基づいて説明する。
まず、ピクセル状態が背景または静状態であり、かつ、数式4で算出した輝度値の変化量Tが所定変化量を上回っているか否かを判定する(S10)。所定変化量は、急激な変化を判別するための閾値であり、予め設定された固定値としてもよいが、固定値の場合には、建物の陰となっているような領域を物体が移動しても、その物体と背景である影の部分の輝度値に大きな差がないため、輝度値の変化量が閾値を上回らない場合がある。しかしながら、影の領域を物体が移動すると、このピクセルの過去の輝度の平均値より大きな変化が生じる。このため、検出対象フレームtより過去の複数フレームにおいて、対応するピクセルの輝度値の分散により所定変化量を決定することで、適切な閾値を得ることができる。
S10の判定処理の結果、肯定判定された場合には、ピクセル状態を動状態に設定する(S11)。一方、否定判定された場合には、ピクセル状態を背景または静状態のままとする。
次に、ピクセル状態が動状態であり、かつ、数式5で算出した輝度値の安定度Sが所定安定度を上回っているか否かを判定する(S12)。所定安定度は、安定性を判定するための閾値である。この結果、否定判定された場合には、ピクセル状態を動状態のままとする。一方、肯定判定された場合には、ピクセルの輝度値が背景画像の輝度値であるか否かを判定する(S13)。背景画像は、S13の判定処理に先立ち予め用意されているものとし、IIRフィルタなどを用いて環境変化に対応可能となるように適宜更新すればよい。
この結果、肯定判定された場合には、ピクセル状態を背景に設定し(S14)、否定判定された場合には、ピクセル状態を静状態に設定する(S15)。以上の処理をフレームに含まれる各ピクセルに対して行うことで、各ピクセルを背景、動状態、静状態のいずれかに分類することができる。なお、図9のフローチャートにおけるS10、S11の処理が本発明の第1状態判定手段に相当し、S12、S13、S15の処理が本発明の第2状態判定手段に相当し、S12、S13、S14の処理が本発明の第3状態判定手段に相当している。
ピクセル状態分析では、フレーム間差分に加えて背景差分を用いているため、同一フレームに歩行者と静止している人が含まれている場合であっても、歩行者は動状態、静止している人は静状態として判別することができる。オプティカルフローなどの物体の動きを示す特徴量では、静止状態にある物体の情報を得ることは困難だが、ピクセル状態分析を行うことにより、静状態である物体の情報を得ることができる。
次に、ピクセル状態分析結果をセル領域によってヒストグラム化し、PSA特徴となる特徴ベクトルを算出する。まず最初に、上述のHOG特徴ベクトルのヒストグラム化で用いたセル領域の構造(図2(b)参照)を用いて、HOGと同様にピクセル状態ヒストグラムを作成する。各ピクセルは、3つの状態(背景、静状態、動状態)に分類されるので、1つのヒストグラム(1つのセル)から3つの特徴ベクトルが算出される。
最後に、上述のHOG特徴ベクトルの正規化で述べたHOGと同様の手順でブロック(図2(c)参照)による正規化を行う。1ブロックは、3×3セルなので、1ブロックあたり27次元(=3×3×9次元)の特徴ベクトルとなる。そして、入力画像を30×60ピクセルとした場合、1フレーム当たり40ブロックなので、PSA特徴から得られる特徴ベクトルは、1080次元(=40ブロック×27次元)となる。
以上の過程により、入力画像における各セルc1〜c72の9つのHOG特徴量(HOGv1〜HOGv9)に加えて3つのPSA特徴量(PSAv10〜PSAv12)が得られ、図6の最下段に示す低位レベル(low-lebel)の特徴プールが作成される。さらに、上記第1実施形態で説明した数式4〜10と同様の処理を行い、2段階のアダブーストによりジョイント特徴プールを作成し、最終的な識別器を構築する。本実施形態のジョイント特徴は、HOG特徴同士の組み合わせ、PSA特徴同士の組み合わせ、HOG特徴とPSA特徴の組み合わせの3種類が存在する。
図10は、本実施形態の物体検出装置の学習時に選択された特徴の割合を示している。図10に示すように、学習初期にはPSA特徴が多く選択され、学習の後半ではHOG特徴が多く選択される傾向がある。これは、識別時において、まず物体の動きを表わすことが可能なPSA特徴により、大まかに人と人以外に判別し、その後、より詳細に識別境界を形成するためにアピアランス情報であるHOG特徴量が選択されたものと考えられる。さらに、学習初期に選択されたPSA特徴を詳細に検討してみると、ピクセル状態分析の背景から得られるPSA特徴が多く選択されていた。これは、背景の状態を占めるピクセルが多い/少ないによって、人を判別していることを示している。
次に、本実施形態の物体検出装置で行った評価実験の結果を説明する。評価実験では、上記第1実施形態と同一の学習用サンプル画像と評価用サンプル画像を用いた。評価実験では、本実施形態のHOG特徴とPSAからジョイント特徴を作成した場合と、上記第1実施形態のHOG特徴のみからジョイント特徴を用いた場合と、特徴算出部20で算出された低位レベル(low-lebel)のHOG特徴を用いた場合とを比較した。
図11は、評価実験結果を示している。本第2実施形態の物体検出装置では、上記第1実施形態の物体検出装置に比較して、誤検出率5%の場合に、検出率が約9%向上しており、検出率約99%を得ることができた。つまり、HOG特徴のみからなるジョイント特徴を用いる場合より、アピアランスに基づくHOG特徴に時空間特徴に基づくPSA特徴を併用したジョイント特徴を用いた場合の方が、より高精度な識別が可能となることがわかる。
(第3実施形態)
次に、本発明の第3実施形態について説明する。
本実施形態では、ローレベルな特徴として、多重解像度画像から得られるHOG特徴を用いる。具体的には、入力画像を多重解像度化し、異なる解像度の画像のセルのHOG特徴を組み合わせてジョイントHOG特徴を作成する。
図12は、本実施形態の物体検出装置で取り扱う入力画像を示している。人の頭部領域と上半身領域では、外観上の特徴を最も表現する解像度が同一であるとは限らない。このため、本実施形態の物体検出装置では、図12に示すように、入力画像から切り出した頭部画像と上半身画像を、それぞれ多重解像度化している。
図12の例では、入力画像から切り出した状態の上半身画像の解像度は128×128ピクセルであり、それを半分の大きさまで0.125ずつ倍率を縮小している。このため、5つの上半身画像のピクセル数はそれぞれ、128×128、112×112、96×96、80×80、64×64となる。同様に、入力画像から切り出した状態の顔画像の解像度は64×64ピクセルであり、それを半分の大きさまで0.125ずつ倍率を縮小している。このため、5つの顔画像のピクセル数はそれぞれ、64×64、56×56、48×48、40×40、32×32となる。上半身画像では、セルサイズを16×16ピクセルとし、ブロックサイズを2×2セルとしている。顔画像では、セルサイズを8×8ピクセルとし、ブロックサイズを2×2セルとしている。
次に、多重解像度のHOG特徴量による共起特徴の算出について説明する。まず、多重解像度画像からセルのサイズを固定してHOG特徴量を算出する。これにより、解像度が異なる複数の画像について、各セルのHOG特徴量が算出され、HOG特徴プールが作成される。次に、頭部画像と上半身画像から算出したHOG特徴量を1つずつ用いることにより共起特徴を算出する。これにより、位置と解像度が異なるHOG特徴量間の共起を表現することが可能となる。そして、2段階のアダブーストを行って、最終的な識別器を構築する。
次に、本実施形態の物体検出装置の学習時に選択される特徴について説明する。特徴選択の傾向が出やすい学習初期では、頭部は高解像度のHOG特徴量が選択され、上半身は低解像度のHOG特徴量が選択される。このことから、頭部は高解像度の方が特徴を表現しやすく、上半身は低解像度の方が特徴を表現しやすいと考えられる。頭部のように勾配にばらつきが少ないと、局所領域でも頭部のラインを捉えることができるため、高解像度のHOG特徴が選択されると考えられる。これに対し、上半身は性別、衣服、年齢などにより肩のラインの勾配がばらつく傾向にある。低解像度のHOG特徴は、広い範囲でヒストグラムをまとめることになるため、勾配のばらつきを吸収でき、上半身で選択されやすいと考えられる。
以上説明した本実施形態の物体検出装置では、入力画像の解像度を変化させながら算出したHOG特徴量を用いることで、例えば顔の特徴を選択しやすい解像度画像から算出したHOG特徴量と上半身の特徴を選択しやすい解像度画像から算出したHOG特徴量とを組み合わせてジョイントHOG特徴を算出することができ、入力画像を多様な捉え方で観測でき、高精度な検出を行うことができる。
(他の実施形態)
なお、上記各実施形態では、物体検出装置の検出対象の物体を人としたが、これに限らず、動物や自動車などの人以外の物体を検出対象としてもよい。さらに、物体検出装置の検出対象は必ずしも物体全体である必要はなく、例えば人の顔のように物体の一部であってもよい。
また、上記各実施形態では、2つのセルのHOG特徴量を組み合わせてジョイントHOG特徴量を算出したが、組み合わせるセルの数は2つに限らず、3以上であってもよい。
また、上記第2実施形態の特徴量算出部10では、第3の特徴量としてピクセル状態分析により各ピクセルの状態を判別したPSA特徴量を算出するように構成したが、これに限らず、公知のフレーム間差分や背景差分により輝度変化に基づいて、第3の特徴量の算出を行ってもよい。
フレーム間差分(TD)は、現在入力されている画像フレームと前回入力された画像フレームとの差分を計算し、差分値の大きい領域を物体として検出するものであり、各ピクセルの状態を動状態と動状態以外に判別することができる。背景間差分(BS)は、検出すべき物体が存在しない背景画像フレームを予め用意しておき、現在入力されている画像フレームと背景画像フレームとの差分を計算して前景を検出するものであり、各ピクセルの状態を背景と背景以外に判別することができる。フレーム間差分および背景間差分を用いる場合にも、上記第2実施形態と同様、セルによるヒストグラム化、ブロックによる正規化を行う。
また、上記第3実施形態では、入力画像から切り出した異なる画像(顔画像と上半身画像)を多重解像度化して用いたが、これに限らず、同一画像(例えば、顔画像のみ又は上半身画像のみ)を多重解像度化して用いてもよい。
第1実施形態の物体検出装置の構成を示す図である。 入力画像の構造を示す図であり、(a)は入力画像を示し、(b)は入力画像を複数のセルに分割した状態を示し、(c)はブロックによる正規化を行う状態を示している。 HOG特徴の共起を説明するための図である。 2段階目の強識別器で選択されるジョイントHOG特徴を説明するための図である。 第1実施形態の物体検出装置の評価実験結果を示す図である。 第2実施形態の物体検出装置の構成を示す図である。 ピクセル状態分析の状態遷移を示す図である。 ピクセル状態分析を行うフレームの時系列的な関係を示す図である。 ピクセル状態分析によるピクセルの判別方法を示すフローチャートである。 第2実施形態の物体検出装置の学習時に選択された特徴の割合を示す図である。 第2実施形態の物体検出装置の評価実験結果を示す図である。 第3実施形態の物体検出装置で取り扱う入力画像を示すである。
符号の説明
10 特徴量算出部
20 識別器

Claims (4)

  1. 入力画像中を複数に分割した領域の輝度勾配に基づいて前記領域の第1の特徴量を算出する第1の特徴量算出手段と、
    位置が異なる複数の前記領域の前記第1の特徴量同士を組み合わせた第2の特徴量を算出する第2の特徴量算出手段と、
    前記第2の特徴量に基づいて前記入力画像から検出対象である物体を検出する識別手段と、
    学習サンプルを前記入力画像として、学習により前記識別手段を構築する学習手段とを備え、
    前記学習手段は、
    前記第2の特徴量を入力とし、予め設定された前記学習サンプルの重みから算出される前記物体である条件付き確率が前記物体以外である条件付き確率より高いか否かにより、前記物体又は前記物体以外とを識別する弱識別器を構築する弱識別器構築手段と、
    複数の前記弱識別器を用いた第1のアダブーストにより、前記入力画像のすべての前記領域それぞれにおいて、前記物体の識別に有用な前記第2の特徴量を選択する第1強識別器を構築する第1強識別器構築手段と、
    前記第1強識別器を用いた第2のアダブーストにより、複数の前記領域のすべての組み合わせに対応する前記第2の特徴量から、前記物体の識別に有用な前記領域の組み合わせを選択する第2強識別器構築手段とを備えて構成されており、
    前記識別手段は、第2強識別器構築手段により選択された前記領域の組み合わせに対応する前記第2の特徴量に基づいて、前記入力画像から前記物体を検出することを特徴とする物体検出装置。
  2. 前記入力画像における画像フレーム中の前記各領域の輝度変化に基づく前記領域の状態を第3の特徴量として算出する第3の特徴量算出手段を備え、
    前記第2の特徴量算出手段は、位置が異なる複数の前記領域の前記第1の特徴量同士、前記第3の特徴量同士、又は前記第1の特徴量と前記第3の特徴量を組み合わせて第2の特徴量を算出するように構成されていることを特徴とする請求項1に記載の物体検出装置。
  3. 前記第3の特徴量算出手段は、前記画像フレーム中の前記領域の輝度の変化量を検出する第3の特徴量検出手段と、前記変化量が予め設定された所定変化量より大きい場合に動状態と判定する第1状態判定手段と、前記画像フレームより後の複数の画像フレーム中の前記領域に対応する領域の輝度の分散を算出する分散算出手段と、前記第1状態判定手段により動状態と判定され、かつ、前記分散が予め設定された所定値より小さい場合に背景または静状態と判定する第2状態判定手段と、前記第2状態判定手段により背景または静状態と判定された場合に、前記画像フレームの領域の輝度が予め設定された背景用輝度に属するときに背景と判定し、属さないときに静状態と判定する第3状態判定手段とを備え、前記領域を背景、動状態、静状態のいずれかに判別した結果を前記第3の特徴量として算出するように構成されていることを特徴とする請求項2に記載の物体検出装置。
  4. 前記第1の特徴量算出手段は、前記入力画像を多重解像度化するように構成され、
    前記共起特徴算出手段は、解像度が異なる複数の前記入力画像の前記第1の特徴量を組み合わせて前記第2の特徴量を算出することを特徴とする請求項1ないし3のいずれか1つに記載の物体検出装置。
JP2008151709A 2008-06-10 2008-06-10 物体検出装置 Expired - Fee Related JP4997178B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008151709A JP4997178B2 (ja) 2008-06-10 2008-06-10 物体検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008151709A JP4997178B2 (ja) 2008-06-10 2008-06-10 物体検出装置

Publications (2)

Publication Number Publication Date
JP2009301104A JP2009301104A (ja) 2009-12-24
JP4997178B2 true JP4997178B2 (ja) 2012-08-08

Family

ID=41547972

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008151709A Expired - Fee Related JP4997178B2 (ja) 2008-06-10 2008-06-10 物体検出装置

Country Status (1)

Country Link
JP (1) JP4997178B2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4626692B2 (ja) 2008-09-12 2011-02-09 ソニー株式会社 物体検出装置、撮像装置、物体検出方法およびプログラム
CN102803991B (zh) 2009-06-03 2014-06-04 学校法人中部大学 物体检测设备
JP4877374B2 (ja) 2009-09-02 2012-02-15 株式会社豊田中央研究所 画像処理装置及びプログラム
JP5707570B2 (ja) * 2010-03-16 2015-04-30 パナソニックIpマネジメント株式会社 物体識別装置、物体識別方法、及び、物体識別装置の学習方法
EP2395452A1 (en) * 2010-06-11 2011-12-14 Toyota Motor Europe NV/SA Detection of objects in an image using self similarities
JP5916134B2 (ja) * 2010-11-29 2016-05-11 国立大学法人九州工業大学 物体の検出方法及びその方法を用いた物体の検出装置
JP5901054B2 (ja) * 2011-12-02 2016-04-06 国立大学法人九州工業大学 物体の検出方法及びその方法を用いた物体の検出装置
JP5859845B2 (ja) * 2011-12-27 2016-02-16 Jfeスチール株式会社 通板異常検出装置
WO2013108686A1 (ja) 2012-01-17 2013-07-25 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN103530610B (zh) * 2013-10-12 2016-09-21 智博锐视(北京)科技有限公司 目标检测方法和装置
JP6069581B2 (ja) * 2014-03-25 2017-02-01 富士通フロンテック株式会社 生体認証装置、生体認証方法、及びプログラム
EP3125192B1 (en) * 2014-03-25 2023-05-10 Fujitsu Frontech Limited Biometric authentication device, biometric authentication method, and program
WO2015145591A1 (ja) * 2014-03-25 2015-10-01 富士通フロンテック株式会社 生体認証装置、生体認証方法、及びプログラム
WO2015145589A1 (ja) 2014-03-25 2015-10-01 富士通フロンテック株式会社 生体認証装置、生体認証方法、及びプログラム
JP6235414B2 (ja) * 2014-06-06 2017-11-22 株式会社デンソーアイティーラボラトリ 特徴量演算装置、特徴量演算方法、及び特徴量演算プログラム
JP2016153994A (ja) * 2015-02-20 2016-08-25 ウィッツェル株式会社 押印完了判定方法
JP5892275B2 (ja) * 2015-02-26 2016-03-23 カシオ計算機株式会社 多クラス識別器生成装置、データ識別装置、多クラス識別器生成方法、データ識別方法、及びプログラム
CN105631410B (zh) * 2015-12-18 2019-04-09 华南理工大学 一种基于智能视频处理技术的课堂检测方法
JP6656988B2 (ja) * 2016-03-30 2020-03-04 株式会社エクォス・リサーチ 画像処理装置、半導体装置、画像認識装置、移動体装置、及び画像処理方法
JP6671648B2 (ja) * 2016-06-02 2020-03-25 コマツ産機株式会社 コントローラ、鍛圧機械、および制御方法
JP6703691B2 (ja) * 2016-06-02 2020-06-03 コマツ産機株式会社 コントローラ、鍛圧機械、および制御方法
WO2018143278A1 (ja) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム
JP7072765B2 (ja) 2017-01-31 2022-05-23 株式会社アイシン 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム
CN110249366B (zh) * 2017-01-31 2024-05-10 株式会社爱信 图像特征量输出装置、图像识别装置、以及存储介质
CN107145894B (zh) * 2017-03-13 2020-03-13 中山大学 一种基于方向梯度特征学习的目标检测方法
JP7147292B2 (ja) 2018-06-29 2022-10-05 株式会社デンソー 勾配方向算出装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4667912B2 (ja) * 2005-03-09 2011-04-13 富士フイルム株式会社 判別器生成装置、判別器生成方法およびそのプログラム

Also Published As

Publication number Publication date
JP2009301104A (ja) 2009-12-24

Similar Documents

Publication Publication Date Title
JP4997178B2 (ja) 物体検出装置
Gajjar et al. Human detection and tracking for video surveillance: A cognitive science approach
JP4767595B2 (ja) 対象物検出装置及びその学習装置
JP4429370B2 (ja) ポーズによるヒト検出
US9008365B2 (en) Systems and methods for pedestrian detection in images
EP3002710A1 (en) System and method for object re-identification
Yao et al. Fast human detection from videos using covariance features
US8750614B2 (en) Method and system for classifying features in a video sequence
CN101814147A (zh) 一种实现场景图像的分类方法
KR20130018763A (ko) 얼굴 식별 방법 및 그 장치
JP6095817B1 (ja) 物体検出装置
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
Moctezuma et al. Person detection in surveillance environment with HoGG: Gabor filters and histogram of oriented gradient
WO2012046426A1 (ja) 物体検出装置、物体検出方法および物体検出プログラム
US20230394792A1 (en) Information processing device, information processing method, and program recording medium
CN113536946B (zh) 一种基于摄像头关系的自监督行人重识别方法
Mitsui et al. Object detection by joint features based on two-stage boosting
Dong et al. Nighttime pedestrian detection with near infrared using cascaded classifiers
CN114913442A (zh) 一种异常行为检测方法、装置及计算机存储介质
Borhade et al. Advanced driver assistance system
JP2009181220A (ja) 物体検出装置
JP2008140093A (ja) 異常事象抽出装置、異常事象抽出方法、この方法のプログラム及びこのプログラムを記録した記録媒体
CN108985216B (zh) 一种基于多元logistic回归特征融合的行人头部检测方法
CN114943873B (zh) 一种工地人员异常行为分类方法及装置
Shi et al. Smoke detection based on dark channel and convolutional neural networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120514

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4997178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees