JP4633841B2

JP4633841B2 - 歩行者の追跡による、ビデオ系列からの３次元道路配置の推定

Info

Publication number: JP4633841B2
Application number: JP2008506397A
Authority: JP
Inventors: ウラディミロヴィッチボヴィリン，アレグサンデル; ウラディミロヴィッチロディウシュキン，コンスタンティン
Original assignee: インテルコーポレイション
Priority date: 2005-04-18
Filing date: 2005-04-18
Publication date: 2011-02-16
Anticipated expiration: 2025-04-18
Also published as: DE602005022943D1; WO2006115427A1; KR100999206B1; US20090028384A1; ATE477547T1; EP1872302B1; US7751589B2; KR20070114216A; EP1872302A1; JP2008538832A; CN101167085B; CN101167085A

Description

本発明は一般にビデオ監視に関し、特に、3次元（３D）シーンにおける物体の移動の解析に関する。

個人及び場所に対してセキュリティを提供するためにビデオ監視システムが用いられる。初期のシステムでは、ビデオ画像はセキュリティ要員によって常に監視されていた。長時間にわたって複数のディスプレイを観察すると、要員は、疲労を受けることが多く、監視しているシーンの捕捉画像において生起している関心事象を見過ごすことが多かった。これに対応して、一部のビデオ監視システムは、監視しているシーンにおける変化があった際にのみ画像の捕捉を行った。しかし、前述のシステムはなお、セキュリティ要員による手作業の制御及び観察を必要とした。

より最近では、画像を自動的に捕捉し、解析するための種々の手法が開発されている。コンピュータ・ビジョンは、一般的に認められた、計算機科学の研究分野になっている。しかし、監視システムにおいて画像を自動的に捕捉し、解析する実用的なアプリケーションの開発において多くの課題が残っている。

本発明の実施例は、校正されていない単一のビデオ・カメラによって観察される屋外シーンの3次元（３D）構造を自動的に学習する方法及びシステムを備える。特に、歩行者が進む道路及び小道の３D配置の推定は、歩行者を経時的に観察することによって、かつ、ビデオ・フレーム系列における歩行者の高さ及び位置から道路パラメータを推定することによって作成することができる。実際の屋外ビデオによる実験によって、カメラ雑音、シーン輝度のばらつき、動く物体の検出における考えられるミス、道路の有効領域のばらつき、及びカメラの振動に対する本発明の実施例のロバスト性が明らかになっている。推定された３D道路図（スケール係数まで）は、カメラと３Dシーンとの間の相対位置の校正を必要とするコンピュータ・ビジョン・アプリケーション（ビデオ監視、人間行動の認識及び人間歩行の解析など）において用いることが可能である。

本明細書において、本発明の「one embodiment」又は「an embodiment」に言及していることは、その実施例に関して説明する特定の特徴、構造又は特性が本発明の少なくとも１つの実施例に含まれていることを意味している。よって、本明細書を通した種々の箇所に存在している句「in one embodiment」は必ずしもその全てが同じ実施例を表している訳でない。

本発明は、相互に関連した２つの課題（すなわち、観察シーン上の物体スケールの予測、及び道路図の推定）を取り扱う。最初の課題は、シーン及び物体スケールにおける2次元（２D）物体位置間の対応関係の推定方法である。この目標に向けて、カメラ平面の相対位置の像を地平面上に映す関数のパラメータが、物体の運動軌跡を用いて推定される。本発明の実施例は、シーンにおける物体の高さを予測するための高精度でかつロバストな処理を含む。

物体の高さは、動く物体の軌跡が道路平面（すなわち、地平面）上にある場合にのみ、高精度で予測することが可能である。本発明の実施例は、予測されたスケールと競合しないシーンにおける動く物体に関する情報を用いた、シーンにおける道路検出の処理を含む。ビデオ・フレームにおける物体のおおよその位置は、いくつかの既知のフォアグラウンド検出手法の１つを用いて推定することが可能である（例えば、Liyuan Li、Weimin Huang、 Irene Y.H. Gu及びQi Tianによる「Foreground Object Detection from Videos Containing Complex Background （Proceedings of the eleventh Association of Computing Machinery （ACM） International Conference on Multimedia, MM2003, 2003）」）。本発明の実施例の道路図検出処理は、位置の推定における誤差、シーン輝度のばらつき（例えば、日中）、画像雑音、及び道路の有効領域のばらつき（シーン上の降雪又は降雨後）に対してロバストである。

道路図検出処理は、監視されず、カメラの動き、一部のシーンのばらつきやその他の観察される環境変動の場合に自己適合することができる。本発明を一部として含むビデオ監視アプリケーション・プログラムでは、処理を制御するために人間の操作者又はユーザが必要でないように、監視されない。道路図検出処理は、カメラの位置が変わるか、又は、その他の環境変動（例えば、照明条件における変動など）が生じた場合、３D変換パラメータを自動的に更新することによって自己適合することができる。正しい結果をもたらすために、前述の処理には、遠隔のシーンの上から視た図のみが必要である。上記処理は、物体（例えば、人間）のサイズの既知の統計分布から、動く物体が描かれ、シーン上の道路が全て、同じ平面にあるという前提に基づいている。前述の前提は、大半のビデオ監視タスク（例えば、人間活動の認識、人間歩行の解析、物体の地理的場所の推定、並びに、車両の追跡及び集計）において当てはまる。地平面制約は、既存の監視手法において頻繁に組み入れられる。

本発明の実施例は、物体スケール予測及び道路図検出を組み合わせて、単一のカメラによって捕捉されたシーンにおける３Dの道路配置について高精度でかつ高信頼度の結果をもたらす。

本発明の特徴及び利点は、本発明の以下の詳細な説明から明らかになるであろう。

図1は、本発明の実施例による処理システム１００のブロック図である。ビデオ・ストリーム１０２は、単一のカメラ（図示せず）によって捕捉されたビデオ・フレーム系列を備える。上記系列における各フレ―ムは、画素のビットマップを備える。このビットマップは、カメラによって捕捉された、選択されたサイズを有する。ビデオ・ストリームの各フレームを、既知のフォアグラウンド物体検出装置１０４によって処理して、各ビデオ・フレームのフォアグラウンドにおける物体（「ブラブ」によって表す）をフレームのバックグランドから抽出することができる。検出されたブラブそれぞれは、地平面の３Dシーンにおける関連した足跡位置を有する。一実施例では、フォアグラウンド物体検出装置は、Liyuan Li、Weimin Huang、 Irene Y.H. Gu及びQi Tianによる「Foreground Object Detection from Videos Containing Complex Background （Proceedings of the eleventh Association of Computing Machinery （ACM） International Conference on Multimedia, MM2003, 2003）によって記載されている手法を実現する。しかし、他の実施例では、他のフォアグランド物体検出処理を用いることができる。フォアグラウンド物体検出装置１０４は、検出された物体ブラブ１０６を物体スケール予測装置１０８及び道路図推定装置１１０に転送する。フォアグラウンド物体検出装置１０４は、フォアグラウンド物体の判定の結果として得られたバックグラウンド画像１１２も道路図推定装置１１０に転送する。物体スケール検出装置１０８は、捕捉されたシーンにおける物体ブラブを解析してその高さを推定する。道路図推定装置１１０は、捕捉されたシーンの道路図の推定を生成する。フォアグラウンド物体検出、物体スケール検出、及び道路図検出は、ビデオ・ストリームの各ビデオ・フレームに対して行うことができる。物体スケール予測装置及び道路図検出装置の結果を合成して、ビデオ・ストリームに存在しているシーンの道路１１４上に動く物体のスケール・マップを生成する。スケール・マップは、他のアプリケーション１１６（ビデオ監視アプリケーション、コンテンツ作成アプリケーション、３D再構成システム等など）に入力することができる。

物体スケール予測１０８は、物体ブラブに対して行うことができる。特定のビデオ・フレームにおいてフォアグラウンド物体検出装置によって検出されるブラブ毎に、物体スケール予測装置は、対応するブラブの足跡に部分的に基づいて物体の推定の高さを算出する。図２は、本発明の実施例による、地平面からの、カメラ平面への物体の投影図である。この例では、３Dシーンにおける物体（例えば、人間など）は、シーンの地平面に対する点（tx,ty,tz）において「頭部」を有する。カメラ平面を有するカメラによってシーンが捕捉されると、物体は、カメラ平面における(X,Y)に足跡を有し、(px,py)において頭部を有する。

以下の形式による、カメラ（図示せず）と、捕捉された３Dシーンとの間の一般的な透視変換を仮定する。

ここで、tx、ty、tzは、シーンにおける物体の頭部の３D世界の座標を表し、R_xx、R_xy、R_xx、R_xz、R_x0、R_zx、R_zy、R_zx、R_z0、R_yx、R_yy、R_yz、R_y0、R_zx、R_zy及びR_z0は定数を表し、px、pyはカメラ平面における点（すなわち、物体の頭部）の座標を表す。

シーンにおける動く物体は全て、ほぼ同一の高さを有していると仮定する。この仮定を用いれば、カメラ平面における物体の「頭部」pyのY座標が、カメラ平面におけるその「足部」の位置（X,Y）に式１に応じて依存することを示し得る。

一般性を失うことなく、シーンにおける動く物体が人間であると仮定する。シーンにおける各人間iは、カメラ平面において、関連した足跡位置（X［i］,Y［i］）及び頭部y位置（py［i］）を有する。推定されたN（Nは正の整数である）個の人間「足部」位置組（X［i］,Y［i］）を用いれば、以下の汎関数を最小にすることによって３D変換パラメータp1、p2、p3、p4、p5を推定することが可能である。

この最小化問題を解くために、一実施例では、周知の数値繰り返し最適化（William H. Pressらによる「Numerical Recipes in C: The Art of Scientific Computing （Cambridge University Press, 1992）」に記載されている）を用いて初期解を求めることができる。他の実施例では、他の手法を用いることができる。（２）の初期解を求めるために、SVDアルゴリズム（William H. Pressらによる「Numerical Recipes in C: The Art of Scientific Computing （Cambridge University Press, 1992）」に記載されている）を用いて線形系（３）を解くことができる。

しかし、多くの場合、人間の足跡のデータ組には雑音が存在し得る。人間の位置推定及びサイズ推定における誤差の影響を削減するために、アウトライア除去手順を用いてデータ組における雑音ブラブを除外することができる。人間ブラブ毎の高さ（及びスケール）が、式（１）を用いて予測され、最適パラメータは式（２）によって得られる。その場合、一実施例では、実際のブラブ高さとのその予測高さの最大偏差を有する約P%のブラブを、人間の「足部」の足跡の組（X［i］,Y［i］）から除去することができる。一実施例では、Pは約３０％に設定することができる。他の実施例では、他の値を用いることができる。最大偏差は、人間としては小さすぎるブラブ及び／又は人間としては大きすぎるブラブの場合に生じ得る。アウトライアなしの人間足跡データ組を用いてモデル（１）を、式（２）を用いて再訓練することができる。

アウトライア除去後の物体スケール予測装置１０８の出力は、ビデオ・フレームにおける残りのブラブ毎の推定された高さ（py［i］-Y［i］）及び位置（X［i］,Y［i］）である。この情報は、ビデオ・フレーム上で視覚的に表すことが可能である。図３は、「典型的な」人間の高さ推定を示す例である。黒線は、ビデオ・フレームにおける対応する場所における推定された人間の高さに対応する。白線は、ビデオ・フレームにおける人間ブラブの実際の（追跡された）高さを表す。

道路図検出は、物体ブラブ１０６及びバックグラウンド画像１１２を用いて道路図検出装置１１０によって行うことができる。図４は、３Dシーンのサンプル画像である。物体（すなわち、人間）の「足部」のフィルタリングされた位置組（X［i］,Y［i］）を、シーン上の道路境界推定に用いることができる。前述の位置は、道路の色（一様とする）と同じ色の画素を有するものとする。よって、物体は、道路の上を歩いている歩行者であるものとする。領域拡張処理を用いて、道路の表面に属するビデオ・フレームの画素を求めることができる。上記処理は、i番目のシード画素（（X［i］,Y［i］）における物体「足部」上の画素）から始めて連結成分を埋める（シード画素の色とほぼ同様な色を成分内の画素全てが有する）。形式上、点(x,y)は、「道路」に、推定バックグラウンド画像１１２におけるその色が以下の条件を満たす場合に属するものとする。

ここで、Iは強度を表し、I_r、I_g、I_bは、推定されたバックグラウンド画像１１２における画素の色成分であり、ｔは道路の色のばらつきのパラメータ（例えば、t=20）である。推定バックグラウンド画像を用いて、道路が推定されるシーンから物体を除外する。道路の境界は通常、画像におけるエッジに対応するので、領域拡張は、画像エッジ画素に達すると停止する。この処理は各ビデオ・フレームに対して行うことができる。一実施例では、「A Computational Approach to Edge Detection (IEEE Trans. Patt. Analy. And Mach. Intell., 8(6):679-698, 1986)」に記載されたJ. Cannyによる既知のエッジ検出器処理（Emanuelle Trucco及びAlessandro Verriによる「Introductory Techniques for 3-D Computer Vision （Prentice Hall, 1998, pp.71-79）」にも記載されている）を用いて前述のエッジを求めることができる。他の実施例では、他のエッジ検出処理を用いることができる。

物体の「足部」の位置推定における誤差の影響を削減するために、一実施例では、画素が「道路」として分類された回数（N）を集計することができる。画素は、N＞MaxN*0.1の場合にのみ、現行シーンにおける道路画素クラスに属するとみなされる。ここで、MaxNは、シーンのビデオ・フレームの画素全てからのNの最大値である。よって、一部の雑音画素を道路図から除外することができる。道路図推定のための前述のアウトライア除去手順は、最も「人気のある」道路のみをユーザが観察することも可能にする。上記処理は、一様でない有効領域を有する、シーンの道路（例えば、土手道）を正確に解析することが可能である。

図５は、１０分間のサンプル・ビデオ・ストリームの処理後に道路図検出装置によって生成される、図４のシーンに対応するサンプル道路図である。図６は、道路図検出装置によって生成される、図４のシーンに対応する３D道路図例である。道路図は物体スケール情報を含む。深度情報は、暗い＝遠い、から、明るい＝近いに及ぶ。

図７は、本発明の実施例による物体スケール予測及び道路図検出処理を示すフロー図である。ビデオ・ストリームの各フレームは、物体スケール予測装置１０８、及び道路図検出装置１１０に入力することができる。ブロック７００では、フォアグラウンド物体検出装置１０４は、フレームにおける物体の位置をフォアグラウンド推定を用いて検出する。場合によっては、物体は、フレームにおける、人間の表現（例えば、歩行者）を含む。ブロック７０２では、物体スケール推定装置は、変換式（１）の３D変換パラメータp1、p2、p3、p4及びp5を関数方程式（２）を用いて推定する。ブロック７０４では、物体スケール推定装置は、物体の高さを式（１）を用いて予測する。次に、ブロック７０６では、物体スケール予測装置は、物体の予測高さからアウトライアが除去されているかを判定する。アウトライアがまだ除去されていない場合、アウトライアをブロック７０８で除去することができる。これによって、モデル再訓練のためのフィルタリングされた物体組がもたらされる。処理は次いで、ブロック７０２に続く。アウトライアが除去されている場合、処理は、ブロック７１０における道路図検出処理に続く。

ブロック７１０では、道路図検出装置は、フォアグラウンド物体検出装置１０４から得られるバックグラウンド画像、及び領域拡張処理を用いて、各物体の足跡から始め、画像エッジ画素に達すると停止して、一様な色の領域を埋める。この動作を、物体のデータ組における物体毎に行って道路図を生成することができる。ブロック７１２では、アウトライアは、推定道路図から除去することができる。最後に、ブロック７１４では、道路上の動く物体の高さ図（すなわち、スケール図１１４）を、道路図検出装置１１０によって生成される道路図に基づいて推定することができる。

本発明の実施例は、３Dシーンにおける通常の物体のスケールの推定の方法、及び、ビデオ・カメラによって観察されるシーンにおける道路検出の方法を提案する。本発明によって、各ビデオ・フレームに対する再訓練を行うその機能、アウトライア除去処理、及び自己適合するその特性が理由で、完全に自動的なビデオ監視システム校正が可能になる。本発明は、シーン輝度のばらつき（例えば、日中）、ビデオ・カメラ雑音、及び道路の有効領域のばらつき（例えば、降雨後又は降雪後）に対してロバストである。本発明は、監視されず、カメラの動き、一部のシーンのばらつきやその他の観察される周囲の変化の場合に自己校正することができる。本発明は、カメラ画像平面における２D座標と、観察されるシーンの道路の３D世界の座標との間の変換も自動的に推定する。

本発明の実施例は、カメラと３Dシーンとの間の相対位置の校正を必要とする多くのコンピュータ・ビジョン・アプリケーション（人間行動の解析、ロボット・ビジョン、コンテンツ作成、物体の検出及び追跡、３Dシーンの理解、ビデオ処理、３D再構成、並びにジェスチャ認識システムなど）の信頼度を劇的に向上させることができる。本発明の実施例は、ビデオ監視システムの更なる自動化、及び高精度化を行うことが可能である。例えば、本発明は、道路又は小道の境界の外側に歩いているとして人間が検出された場合、又は、検出された物体のサイズが、予測された平均から逸脱する場合、アラ―ムを生成するよう構成することが可能である。

本明細書及び特許請求の範囲記載の動作は、順次プロセスとして表すことができるが、動作の一部は実際に並列に、又は同時に行うことができる。更に、一部の実施例では、本発明の趣旨から逸脱することなく動作の順序を再配列することができる。

本明細書及び特許請求の範囲記載の手法は、如何なる特定のハードウェア構成又はソフトウェア構成にも限定されるものでなく、何れの計算環境又は処理環境にも応用性を見出し得る。上記手法は、ハードウェア、ソフトウェア、又は両方の組み合わせで実施することができる。上記手法は、プログラム可能なマシン（プロセッサと、プロセッサによって読み取り可能な記憶媒体（揮発性メモリ及び不揮発性メモリ、並びに／又は記憶エレメントを含む）と、少なくとも１つの入力装置と、１つ又は複数の出力装置とをそれぞれが含む、モバイル・コンピュータや固定型コンピュータ、携帯情報端末、セットトップボックス、携帯電話機、ページャやその他の電子装置）上で実行するプログラムにおいて実現することができる。入力装置を用いて入力されたデータにプログラム・コードを施して、記述された機能を行い、出力情報を生成する。出力情報は１つ又は複数の出力装置に施すことができる。種々のコンピュータ・システム構成（マルチプロセッサ・システム、ミニコンピュータ、汎用コンピュータ等を含む）によって本発明を実施することが可能であることを当業者は認識し得る。本発明は、通信ネットワークを介してリンクされた遠隔処理装置によってタスクを行うことができる分散計算環境において実施することも可能である。

各プログラムをハイレベルの手続型プログラミング言語又はオブジェクト指向型プログラミング言語で実現して処理システムと通信することができる。しかし、プログラムは、所望の場合、アセンブリ言語又はマシン言語で実現することができる。いずれの場合でも、言語はコンパイル言語又はインタープリタ言語であり得る。

プログラム命令を用いて、命令によってプログラムされた汎用処理システム又は特定用途向処理システムに本明細書及び特許請求の範囲記載の処理を行わせることができる。あるいは、処理を行うための配線論理を含む特定のハードウェア構成部分によって、又は、プログラムされたコンピュータ構成部分及びカスタムのハードウェア構成部分の何れかの組み合わせによって処理を行うことができる。本明細書及び特許請求の範囲記載の方法は、処理システムやその他の電子装置をプログラムして方法を行うのに用いることができる命令を上に記憶させたマシン・アクセス可能媒体を含み得るコンピュータ・プログラムとして提供することができる。本明細書及び特許請求の範囲記載の「マシン・アクセス可能媒体」の語は、マシンによって実行するための命令系列を記憶又は符号化することができ、本明細書及び特許請求の範囲記載の方法のうちの何れか１つをマシンに行わせる何れかの媒体を含むものとする。「マシン・アクセス可能媒体」の語はよって、データ信号を符号化するソリッドステート・メモリ、光ディスク及び磁気ディスク、並びに搬送波を含むが、前述のものに限定されるものでない。更に、一形態又は別の形態（例えば、プログラム、手順、処理、アプリケーション、モジュール、ロジック等）でのソフトウェアといえば、動作を行うか、又は結果を引き起こすものであることが当該技術分野において一般的である。前述の表記は、処理システムによるソフトウェアの実行が、結果を生じるという動作をプロセッサに行わせることを簡潔に言うやり方に過ぎない。

例証的な実施例を参照しながら本発明を説明したが、この説明は、限定的な意味合いで解されることを意図するものでない。本発明が関係する当該技術分野における当業者に明らかである本発明の例証的な実施例の種々の修正及びその他の実施例は、本発明の趣旨及び範囲内に収まるものと認められる。

本発明の実施例による処理システムのブロック図である。本発明の実施例による、地平面からの、カメラ平面への物体の投影図である。物体の高さ推定を含むシーンのサンプル画像を示す図である。別のシーンのサンプル画像を示す図である。図４のシーンに対応するサンプル道路図である。図４のシーンに対応する、３Dのサンプル道路図である。本発明の実施例による物体スケール予測及び道路図検出処理を示すフロー図である。

Claims

３Ｄシーンを経時的に捕捉するビデオ・フレームを解析して前記３Ｄシーンの道路図を自動的に生成する方法であって、
前記ビデオ・フレームにおける物体の位置を検出する工程と、
前記物体の３Ｄ変換パラメータを推定する工程と、
前記３Ｄ変換パラメータに少なくとも部分的に基づいて前記物体の高さを予測する工程と、
物体の前記予測された高さからアウトライアを除去して、物体のフィルタリングされた組を生成する工程と、
前記物体のフィルタリングされた組を用いて、前記３Ｄ変換パラメータの推定、及び前記物体の高さの予測を繰り返す工程と、
前記物体のうちの１つの位置の足部から始め、前記バックグラウンド画像のエッジ画素に達すると停止して、一様な色領域を埋めることにより、バックグラウンド画像及び前記物体の位置を用いて前記３Ｄシーンの道路境界を推定する工程と、
前記道路図を生成する工程と、
アウトライア画素を前記道路図から除去する工程と、
前記道路図の道路上で動く物体の高さ図を推定する工程とを備える方法。
請求項１記載の方法であって、物体の位置を検出する工程が、フォアグラウンド物体検出処理を前記ビデオ・フレームに施す工程を備える方法。
請求項１記載の方法であって、道路境界を推定する工程は、物体の位置に領域拡張処理を施して、前記３Ｄシーンにおける道路表面に属する、前記ビデオ・フレームの画素を求める工程を備える方法。
コンピュータ・プログラムであって、３Ｄシーンを経時的に捕捉するビデオ・フレームを解析して、
前記ビデオ・フレームにおける物体の位置を検出し、
前記物体の３Ｄ変換パラメータを推定し、
前記３Ｄ変換パラメータに少なくとも部分的に基づいて前記物体の高さを予測し、
物体の前記予測された高さからアウトライアを除去して、物体のフィルタリングされた組を生成し、
前記物体のフィルタリングされた組を用いて、前記３Ｄ変換パラメータの推定、及び前記物体の高さの予測を繰り返し、
前記物体のうちの１つの位置の足部から始め、前記バックグラウンド画像のエッジ画素に達すると停止して、一様な色領域を埋めることにより、バックグラウンド画像及び前記物体の位置を用いて３Ｄシーンの道路境界を推定し、
前記道路図を生成し、
アウトライア画素を前記道路図から除去し、
前記道路図の道路上で動く物体の高さ図を推定することによって前記３Ｄシーンの道路図を自動的に生成する機能をコンピュータに実行させるコンピュータ・プログラム。
請求項４記載のコンピュータ・プログラムであって、物体の位置を検出する機能が、フォアグラウンド物体検出処理を前記ビデオ・フレームに施す機能を含むコンピュータ・プログラム。
請求項４記載のコンピュータ・プログラムであって、道路境界を推定する機能は、物体の位置に領域拡張処理を施して、前記３Ｄシーンにおける道路表面に属する、前記ビデオ・フレームの画素を求める機能を含むコンピュータ・プログラム。
３Ｄシーンを経時的に捕捉するビデオ・フレームを解析して前記３Ｄシーンの道路図を自動的に生成するシステムであって、
３Ｄシーンのビデオ・フレームを解析し、前記ビデオ・フレームにおける物体及び物体位置を検出するためのフォアグラウンド物体検出装置と、
前記物体の３Ｄ変換パラメータを推定し、前記３Ｄ変換パラメータに少なくとも部分的に基づいて前記物体の高さを予測し、物体の前記予測された高さからアウトライアを除去して、物体のフィルタリングされた組を生成し、前記物体のフィルタリングされた組を用いて、前記３Ｄ変換パラメータの推定、及び前記物体の高さの予測を繰り返すための物体スケール予測装置と、
前記物体のうちの１つの物体の位置の足部から始め、前記バックグラウンド画像のエッジ画素に達すると停止して、一様な色領域を埋めることにより、バックグラウンド画像及び前記物体の位置を用いて前記３Ｄシーンの道路境界を推定し、アウトライア画素を前記道路図から除去し、前記道路図の道路上で動く物体の高さ図を推定することにより、前記道路図を生成するための道路図検出装置とを備えるシステム。
請求項７記載のシステムであって、前記道路図推定装置は、物体の位置に領域拡張処理を施して、前記３Ｄシーンにおける道路表面に属する、前記ビデオ・フレームの画素を求めることによって道路境界を推定するシステム。