JP4575374B2

JP4575374B2 - ビデオの時間的な画像シーケンス中の移動オブジェクトを検出する方法

Info

Publication number: JP4575374B2
Application number: JP2006516831A
Authority: JP
Inventors: ヴァイオラ、ポール・エイ; ジョーンズ、マイケル・ジェイ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2003-06-17
Filing date: 2004-05-31
Publication date: 2010-11-04
Anticipated expiration: 2024-05-31
Also published as: CN1698069A; JP2006527881A; EP1634244B1; US7212651B2; WO2004114219A1; EP1634244A1; CN100550055C; US20040258307A1

Description

本発明は、包括的にはコンピュータビジョンおよびパターン認識に関し、特にビデオ中の歩行者のような移動オブジェクトの検出に関する。

画像中のオブジェクトを検出および認識するために、パターン認識手法が、コンピュータビジョンの領域でかなりの成功を収めており、その例としては、顔、自動車、および歩行者の検出がある。例えば、Avidan著「サポートベクトルの追跡（Support vector tracking）」（IEEE Conference on Computer Vision and Pattern Recognition, 2001）、Papageorgiou等著「オブジェクト検出のための一般的枠組み（A general framework for object detection）」（International Conference on Computer Vision, 1998）、Rowley等著「ニューラルネットワークによる顔検出（Neural network-based face detection）」（IEEE Patt. Anal. Mach. Intell., Volume 20, pages 22-38, 1998）、Schneiderman等著「顔および車に適用される３Ｄオブジェクト検出のための統計的方法（A statistical method for 3D object detection applied to faces and cars）」（International Conference on Computer Vision, 2000）、およびViola等著「ブーストされた単純な特徴のカスケードを用いた高速オブジェクト検出（Rapid object detection using a boosted cascade of simple features）」（IEEE Conference on Computer Vision and Pattern Recognition, 2001）を参照願いたい。

上記の手法は、通常、機械学習を用いて、多数の訓練画像から検出器またはフィルタを作成する。次に、フィルタで入力画像を走査し、ターゲットオブジェクトと一致する特徴パターンを見つける。上記のシステムの性能は、顔の検出の場合は、非常に良好であるが、歩行者の場合は、あまり思わしくない。これは、おそらく、歩行者の画像が、体の姿勢および衣服の変化のために、より多様であるのに対し、顔のテクスチャおよび構造は、極めて均一であり、動きも比較的少ないためである。したがって、時間順に並んだ画像シーケンスに対して、ならびに単一の静止画に対して機能する方法を提供することが望ましい。

歩行者の検出は、画像の解像度が比較的低い（例えば、ターゲットオブジェクトが合計で約１００〜２００画素、例えば、５×２０画素または１０×２０画素しかない場合がある）監視用途ではより困難になる。より良好な画像強度の関数を用いた歩行者の検出の改良は、価値のある研究ではあるが、新たな解決策が必要とされている。

人間の動きのパターン、特に振り子のような歩行の動きは、他の種類の動きと区別可能であり、動きを用いて人物を認識および検出できることはよく知られている。Cutler等著「ロバストなリアルタイムの周期的な動き検出：分析と応用（Robust real-time periodic motion detection: Analysis and applications）」（IEEE Patt. Anal. Mach. Intell., Volume 22, pages 781-796, 2000）、Lee著「認識および分類のための歩行動態（Gait dynamics for recognition and classification）」（MIT AI Lab., Memo, AIM-2001-019, MIT, 2001）、Liu等著「空間および時間の周期性を見出す（Finding periodicity in space and time）」（IEEE International Conference on Computer Vision, pages 376-383, 1998）、およびPolana等著「活動の検出（Detecting activities）」（Journal of Visual Communication and Image Representation, June 1994）を参照願いたい。

強度による手法とは対照的に、上記の手法は、通常、多数のフレームにわたって移動オブジェクトを追跡し、次に動きを解析して、周期性または他の手がかりを探そうとする。動きの「スタイル」を検出するプロセスは、非常に効率的であり、画像全体の網羅的探索を複数の解像度スケールで行うことが可能である。大きな画像データセットで訓練されると、高い検出率および非常に低い誤認識率を達成することができる。

人間の動き解析の分野は、極めて広範であり、Hoffman等の文献「生物の動きの解釈（The interpretation of biological motion）」（Biological Cybernetics, pages 195-204, 1982）にまで遡る歴史がある。従来技術のシステムのほとんどは、問題の半分が既に解決済であり（すなわち、特定のタイプの移動オブジェクト、例えば、人物は、検出されており）、残る問題は、その特定の移動オブジェクトの長期にわたる動きのパターンを認識、分類、または解析することだけであるとみなしている。

最近では、動きによる方法に関心が高まっているが、これは、この方法が監視問題に応用できるためである。この分野の関連文献の優れた概要が、上記のCutler等に記載されている。Cutler等は、画像に直接機能するシステムを記載する。Cutler等のシステムは、まずオブジェクトの分割および追跡を行う。オブジェクトをオブジェクトの重心にそろえる。次に、２Ｄ格子を作成し、この２Ｄ格子に周期解析を適用する。

オブジェクト検出の分野も同様に広範であるが、強度情報と動き情報の両方を同時に用いて歩行者の直接検出を行うシステムは、知られていない。歩行者は、静止強度画像において、まずエッジを抽出し、次に、エッジをサンプルのセットと照合することによって検出されてきた。Gavrila等著「「スマートな」車両のためのリアルタイムなオブジェクト検出（Real-time object detection for "smart" vehicles）」（IEEE International Conference on Computer Vision, pages 87-93, 1999）を参照願いたい。Gavrila等のシステムは、高度に最適化されており、自動車に組み込まれる候補となっていたようである。それにもかかわらず、公表された検出率は、約７５％であり、誤認識率は、１画像あたり２であった。他の関連文献としては、上記のPapageorgiou等のものがある。Papageorgiou等のシステムは、過完備なウェーブレットで訓練したサポートベクトルマシンを用いて歩行者を検出する。公表された実験データによると、Papageorgiou等の誤認識率は、関連する顔検出システムより著しく高い。

したがって、短期間の動き情報および外観情報のパターンを時間的な画像シーケンスから直接抽出して、歩行者のような移動オブジェクトの事象を検出することが望ましい。

本発明は、画像の強度情報および動き情報を共に統合することによって、特定のタイプの移動オブジェクトを検出するシステムを提供する。フィルタセットで結合画像セットを走査する。例えば、フィルタは、矩形であり、結合画像は、ビデオ中の連続する画像に関数を適用することによって得られる。フィルタでの走査により特徴値を生成する。特徴を総和し分類する。

分類器は、歩行者のような特定のタイプのオブジェクトの動き情報と外観情報の両方を利用するように訓練される。過去の手法の中には、動き情報に基づいて検出器を構築したものもあった。他の検出器は、外観情報に基づく。しかし、本発明は、単一の検出器に動き情報と外観情報の両方を統合する。

図１は、時間順に並んだ画像シーケンス１０１（すなわちビデオ）中の移動オブジェクト１０５（例えば、歩行者）を検出する方法１００を示す。選択画像１１１を入力ビデオ１０１から得る（１１０）（例えば、隣接ペア、重複ペア、２枚おきの画像等）。選択画像１１１に関数１０２を適用して（１２０）、結合画像セット１２１を生成する。結合画像は、様々なサイズの検出ウィンドウまたは「パッチ」（例えば、画像全体、それぞれが画像の１／４である４つのウィンドウ等）に分割される。フィルタ２００で結合画像セットの検出ウィンドウを走査して評価し、特徴１３１を求め（１３０）、これらの特徴１３１を総和して（１４０）累積スコアＣ１４１を得る。これらの累積スコアを分類して（１５０）、特定の検出ウィンドウが本当に特定のタイプの移動オブジェクト（例えば、歩行者１０５）を含むかどうかを判定する。これを全ての結合画像の、全ての検出ウィンドウについて繰り返し（１５１）、次に、ビデオ１０１中の全ての画像について繰り返す（１５２）。

フィルタ、特徴、および分類器
図２Ａ〜図２Ｆに示すように、本発明の動的な歩行者検出器は、Viola他によって２００２年７月２２日付で出願された米国特許出願第１０／２００，７２６号「オブジェクト認識システム（Object Recognition System）」（参照により本明細書中に援用する）に記載されるような矩形フィルタ２００を用いる。

図２Ｆは、包囲する検出ウィンドウ２０１（この例では、８つの結合画像２０２）に対する矩形フィルタ２００を示す。何万もの他の単純な構成の矩形フィルタを用いることができることに留意すべきである。フィルタは、検出ウィンドウのサイズに合う様々なサイズにすることができる。２つの矩形フィルタの場合、影なしの矩形内の画素強度の総和を影付きの矩形内の画素強度の総和から引く。３つの矩形からなるフィルタの場合、影なしの矩形の画素の総和に２を掛け、２倍の数の影付き画素を構成する、等を行う。他の結合関数も本発明によるフィルタとともに用いることができる。本発明のフィルタの評価は、従来技術のより複雑なフィルタよりも非常に高速であるため、本フィルタの演算は、単純であることが好ましい。

Viola他は、１枚の画像中の静止した顔を検出するために矩形フィルタを用いる。本発明では、Viola他の研究を２つの方法で拡張する。第１に、本発明では、内部構成要素を対角線上に配置した矩形フィルタも用いる（図２Ｅを参照）。対角フィルタは、利点として、振り子のような足の動きの検出に適している。また、対角フィルタは、様々な向きのオブジェクトに敏感である。対角線の角度は、フィルタ内の構成要素である矩形のアスペクト比によって調整することができる。第２に、本発明では、後述のように、時間的にずれた画像の組み合わせにフィルタを適用する。これらの矩形フィルタは、その設計により、様々なスケール、向き、およびアスペクト比で極めて高速に評価されて領域平均を測定することができる。これらのフィルタは、いくぶん限定されるように思われるかもしれないが、歩行者のような特定の移動オブジェクトの検出精度を高めることができる有用な情報を提供することが証明できる。

正式には、本発明のフィルタ、特徴および分類器を用いた演算は、次のように定義される（さらなる詳細については、Viola他を参照）。次式に従って、画像特徴ｈ_ｉ（ｘ）にα_ｊまたはβ_ｊの重みを割り当てる。

ここで、フィルタｆ_ｊ（ｘ）は、画像ｘの線形関数、すなわち検出ウィンドウであり、θ_ｊは、所定のフィルタしきい値である。次式に従って、累積関数Ｃ（ｘ）に１か０の値を割り当てる。

ここで、ｈ_ｊは、画像ｘの複数の特徴であり、Ｔは、所定の分類器しきい値である。外観と動きを同時に考慮する定義を後述する。

従来技術では、動き情報は、オプティカルフローおよびブロック動きの推定を含む様々な方法で、画像ペアから抽出された。ブロック動き推定は、推定のスケールを決める比較ウィンドウの指定を必要とする。これは、マルチスケールのオブジェクト検出と完全には対応しない。オブジェクト検出の状況で、オプティカルフローの推定は、通常、かなり時間がかかり、画素毎に何百回または何千回もの演算を必要とする。もっと高速なものが望ましい。

本発明を、分類器のために特徴値を求めるための矩形フィルタを用いて記載してきたが、他のタイプのフィルタを用いることもできることが理解されるべきである。例えば、ガボールフィルタまたはガウスフィルタといった他の線形または非線形フィルタを矩形フィルタの代わりに用いることもできる。矩形フィルタの利点は、評価の計算が極めて効率的であることである。しかし、他のタイプのフィルタの方がより複雑な動き情報および外観情報を取り込むことができる可能性があり、ゆえに有利である場合がある。Daugman「２次元の視覚皮質フィルタによって最適化された空間解像度、空間周波数、および向きの不確定性関係（Uncertainty Relation for Resolution in Space, Spatial Frequency, and Orientation Optimized by Two-Dimensional Visual Cortical Filters）」（J. Opt. Soc. Am. A, vol 2, no 7, pp. 1160-1169, July 1985）を参照願いたい。

結合画像
したがって、図３Ａ〜図３Ｈに示すように、本発明の特徴は、Viola他の特徴と異なり、結合画像セット１２１に対して動作する。結合画像セットは、選択画像１１１に様々な関数１０２を適用することによって求めることができる。例えば、選択画像セットは、連続する画像ペア（交わらないまたは重複する）を含む。別法として、セットは、所定の期間にわたる９枚おきの画像を含むことができるか、または、３枚組の画像を含むことができる。選択画像１１１の他の組み合わせおよび時間順も可能である。

選択画像１１１に関数１０２を適用すると、「結合」画像が生成される。例えば、関数は単純に、セット中の１枚の画像を選択することができる（図３Ａ）。関数は、セット中の選択画像を互いから引くことができる。この場合、結合画像は、差分画像すなわちデルタ画像として知られるものである（図３Ｂ）。差分の絶対値の総和が非ゼロである結合画像の（例えば、オブジェクトのエッジに沿った）領域は、動きに対応する。動きの大きさおよび方向もまた後述のように求めることができる。

動きの方向は、選択画像１１１に他の関数１０２を適用することによって求めることができる。例えば、関数は、セット中の画像を「シフト」してから差分を求めることができる。シフトは、例えば、実質的に画像平面における線形の動き、円形の動き、または画像平面に略垂直な動きを検出するための線形、回転、スケール、またはその組み合わせとすることができる。図３Ｃおよび図３Ｄは、上（Ｕ）および下（Ｄ）にシフトした画像を示し、図３Ｅおよび図３Ｆは、左（Ｌ）および右（Ｒ）にシフトした画像を示し、図３Ｇは、回転（Ｒ○：このＲ○は、以下の記載も含め、Ｒを○で囲んだものを意味し、回転を指す）させた画像を示し、図３Ｈは、スケール（ｓ）のシフトを示す。この関数グループは、次式によって表すことができる。

ここで、Ｉ_ｔおよびＩ_ｔ＋１は、時間で表した画像であり、矢印は、線形シフト演算子を示し、Ｒ○は、回転であり、ｓは、スケーリングを示す。シフトは、１つまたはそれ以上の画素とすることができる。他の差分、および他のシフト演算も可能であるが、上記の例は、本発明の目的で計算が単純で速いことに留意すべきである。

ある動き特徴は、差分画像Δと、グループ｛Ｕ、Ｌ、Ｒ、Ｄ、Ｒ○、ｓ｝のシフトした画像のうち１つまたはそれ以上との間の差分の絶対値の総和をｆ_ｉ＝ｒ_ｉ（Δ）−ｒ_ｉ（Ｓ）に従って比較し、ここで、Ｓは、｛Ｕ、Ｌ、Ｒ、Ｄ、Ｒ○、ｓ｝のうちの１つであり、ｒ_ｉは、検出ウィンドウ内の総和である。これらの特徴は、特定の領域が所与の方向に移動している可能性に関連する情報を抽出する。

別の動き特徴は、同一画像内の総和をｆ_ｊ＝φ_ｊ（Ｓ）に従って比較し、ここで、φ_ｊは図２Ａ〜図２Ｆに示した例のようなフィルタである。これらの特徴は、動きのブレを近似的に測定する。

別の動き特徴は、動き画像のうち１つにおける動きの大きさをｆ_ｋ＝ｒ_ｋ（Ｓ）として測定する。

動きの大きさは、セット中の画像間の時間差分によって求めることもできる。

本発明では、セット中の単一の画像に対して動作するフィルタｆ_ｍ＝φ（Ｉ_ｔ）を用いる外観特徴も用いる。

画像のある領域において、移動オブジェクトが一旦検出されると、それ以後の画像でオブジェクトを追跡して、動きの大きさおよび方向をよりよく理解することが可能であることに留意すべきである。移動オブジェクトの位置が既知であるため、それ以後の画像では小部分のみを評価すればよく、これは、より速いフレームレートで行うことができる。

動き特徴ならびに外観特徴は、関数｛Ｉ_ｔ、Δ、Ｕ、Ｄ、Ｌ、Ｒ、Ｒ○、ｓ｝の「統合画像」を用いて高速に評価することができる。フィルタは、検出ウィンドウに適合する限り、任意のサイズ、アスペクト比、または向きとすることができるため、可能な動き特徴および外観特徴は、非常に多い。フィルタは、様々なサイズにスケーリングすることもできる。これらのフィルタは、高速処理のためにキャッシュに記憶することができる。訓練中、陽性の例を陰性の例と最もよく分離する特徴を選択する。

動き特徴Ｆ_ｊ１３１は、次式で表される。

そして、累積スコア１４１は、次式で表される。

画像ピラミッド
複数のスケールでの検出をサポートするために、関数１０２｛上矢印、↓、←、→、Ｒ○、ｓ｝を検出スケールに関して定義する。これにより、動き速度の測定を確実にスケールに対して不変の方法で行うようにする。スケールに対する不変性は、訓練画像を２０×１５画素の基本解像度にスケーリングすることによって、訓練中に達成される。スケールに対する検出の不変性は、画像ピラミッドに対して操作を行うことによって達成される。最初に、Ｉ_ｔおよびＩ_ｔ＋１のピラミッドを計算する。｛Δ、Ｕ、Ｄ、Ｌ、Ｒ、Ｒ○、ｓ｝のピラミッド表現は、次のように計算される。

ここで、Ｘ^ｌは、ピラミッドのｌ番目の階層を示す。スケーリングした２０×１５の訓練画像から学習される分類器および特徴は、スケールに対して不変の方法でピラミッドの各階層に対して動作する。

訓練
訓練プロセスは、Ａｄａｂｏｏｓｔを用いて、特徴のサブセットを選択し、分類器を作成する。Ａｄａｂｏｏｓｔは、効果的な学習アルゴリズム、および一般化された性能に対する強力な制限を提供する。Freund等著「オンライン学習の決定理論的な一般化およびブースティングへの応用（A decision-theoretic generalization of on-line learning and an application to boosting）」（Computational Learning Theory, Eurocolt '95, pages 23-37. Springer-Verlag, 1995）、Schapire等著「票差のブースティング：投票方法の有効性に対する新たな説明（Boosting the margin: A new explanation for the effectiveness of voting methods）」（Proceedings of the Fourteenth International Conference on Machine Learning, 1997）、およびTieu等著「画像の取り出しをブーストする（Boosting image retrieval）」（International Conference on Computer Vision, 2000）を参照願いたい。

発明の効果
本発明は、ビデオシーケンス中の移動オブジェクトを検出する方法を提供する。本方法は、矩形フィルタを用いて、結合画像を走査し、その特徴を求める。特徴を総和して、歩行者のような特定の移動オブジェクトを検出する。

本発明を好適な実施形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適応および修正を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および修正をすべて網羅することである。

本発明による、移動オブジェクトを検出する方法のフロー図である。本発明によって用いられる矩形フィルタのブロック図である。本発明によって用いられる矩形フィルタのブロック図である。本発明によって用いられる矩形フィルタのブロック図である。本発明によって用いられる矩形フィルタのブロック図である。本発明によって用いられる矩形フィルタのブロック図である。本発明によって用いられる矩形フィルタのブロック図である。本発明によって用いられる結合画像のブロック図である。本発明によって用いられる結合画像のブロック図である。本発明によって用いられる結合画像のブロック図である。本発明によって用いられる結合画像のブロック図である。本発明によって用いられる結合画像のブロック図である。本発明によって用いられる結合画像のブロック図である。本発明によって用いられる結合画像のブロック図である。本発明によって用いられる結合画像のブロック図である。

Claims

ビデオの時間的な画像シーケンス中の移動オブジェクトを検出する方法であって、
時間順に並んだ画像シーケンスから画像を選択することと、
複数の選択画像の差分画像、および前記複数の選択画像の１枚ごとの単一画像を含んで構成される結合画像セットを生成するために、前記差分画像を求めるための関数セットを適用することと、
前記結合画像セット中の前記単一画像の検出ウィンドウについて所望の外観特徴との一致度を求めるための２次元フィルタを走査することで抽出される外観特徴と、前記結合画像セット中の前記差分画像の検出ウィンドウについて動きの大きさあるいは方向を求めるための２次元フィルタを走査することで抽出される動き特徴のそれぞれの特徴を求めるために、前記結合画像セット中の検出ウィンドウについて複数の２次元フィルタを走査してそれぞれの特徴を求めることと、
前記動き特徴および外観特徴を統合した特徴として、求めたそれぞれの特徴を総和して累積スコアを求めることと、
前記累積スコアが所定のしきい値よりも大きい場合に、前記移動オブジェクトを含むものとして前記検出ウィンドウを分類することと
を含むビデオの時間的な画像シーケンス中の移動オブジェクトを検出する方法。
前記移動オブジェクトは、歩行者である請求項１に記載の方法。
前記選択画像は、隣接する画像ペアである請求項１に記載の方法。
前記選択すること、前記適用すること、前記特徴を求めること、前記累積スコアを求めること、および前記分類することは、前記ビデオ全体について繰り返される請求項１に記載の方法。
各結合画像を検出ウィンドウセットに分割することと、
前記特徴を求めること、前記累積スコアを求めること、および前記分類することを前記各検出ウィンドウについて繰り返すことと
をさらに含む請求項１に記載の方法。
前記外観特徴および前記動き特徴を抽出するためのそれぞれの前記２次元フィルタは、対角線上に配置された複数の矩形フィルタを含んで構成される請求項１に記載の方法。
前記複数の矩形フィルタは、関連する前記検出ウィンドウに適合するようなサイズである請求項６に記載の方法。
前記特徴を求めることは、検出ウィンドウｘについてｊ番目の特徴ｈ_ｊとして前記外観特徴または前記動き特徴を求めるための２次元フィルタをｆ_ｊ（ｘ）とし、前記２次元フィルタｆ_ｊ（ｘ）により抽出された特徴のしきい値をθ_ｊとして、下式

に従って、ｊ番目の特徴ｈ_ｊをα_ｊまたはβ_ｊの重みのいずれかとして求める請求項１に記載の方法。
前記累積スコアを求めることは、Ｔを所定の分類器のしきい値として、前記特徴ｈ_ｊに基づいて下式

に従って、累積和Ｃ（ｘ）を１または０の値に割り当てることで前記累積スコアを求める請求項８に記載の方法。
前記差分画像は、シフトした選択画像の差分である請求項１に記載の方法。
前記シフトは、線形である請求項１０に記載の方法。
前記シフトは、回転である請求項１０に記載の方法。
前記シフトは、スケールを拡大縮小するものである請求項１０に記載の方法。
前記関数セットにおける前記シフトの量は、前記検出ウィンドウの大きさに応じて定義される請求項１に記載の方法。
前記移動オブジェクトの動きの方向を求めることをさらに含む請求項１に記載の方法。
前記移動オブジェクトの動きの大きさを求めることをさらに含む請求項１に記載の方法。