JP2004228852A - Evaluation supporting method of vehicle detection processing - Google Patents

Evaluation supporting method of vehicle detection processing Download PDF

Info

Publication number
JP2004228852A
JP2004228852A JP2003013380A JP2003013380A JP2004228852A JP 2004228852 A JP2004228852 A JP 2004228852A JP 2003013380 A JP2003013380 A JP 2003013380A JP 2003013380 A JP2003013380 A JP 2003013380A JP 2004228852 A JP2004228852 A JP 2004228852A
Authority
JP
Japan
Prior art keywords
teaching
video data
correct answer
processing
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003013380A
Other languages
Japanese (ja)
Inventor
Nobuyoshi Enomoto
暢芳 榎本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003013380A priority Critical patent/JP2004228852A/en
Publication of JP2004228852A publication Critical patent/JP2004228852A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an evaluation supporting method of a vehicle detection processing which is capable of improving the efficiency and reproducibility of a work of evaluating the efficiency of a method of detecting a vehicle from video data, monitoring it, and issuing a warning. <P>SOLUTION: The expected value (right information) of a processing result is given and previously stored in a video scene where certain information is supposed to be inputted, and a result obtained by processing video data through an evaluation target processing method is compared with the right information to automatically evaluate a recognition result. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
この発明は、映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するための車両検出処理の評価支援方法に関する。
【0002】
【従来の技術】
自動車運転時の安全性を向上させる目的で、運転時に計測可能な画像入力センサの計測結果を用いて、警告を発したり運転制御を行って事故を回避するための装置が数多く提案されている。
【0003】
たとえば、自車前方に設置されたカメラを用いるものとして、走行路前面の単一カメラからの画像解析によって自車線を抽出し走行路逸脱警報を発するためのものや、走行路前面の複数カメラ画像の解析によりステレオの原理を用いて、走行路前面の障害物を検知したり、自車の前走車との距離を計測して追突警報を行うものなどがある。
【0004】
また、自車後方に設置されたカメラを用いるものとして、自車の後方から接近して自車を追い越す動きのある他車を検知し、接触事故予防のための警報を発する装置などがある。
【0005】
このような監視、警報装置(以下監視装置)において、種々のシーンの映像を入力とした場合の性能を、再現性良く、定量評価することは、製品仕様を決定する上で非常に重要であるが、そのための方法としては以下のようなものが用いられてきた。
【0006】
1、 入力映像に対する監視、警報の基準を定性的に決めておき、アナログ、またはディジタルの映像を評価対象である監視装置の入力として与え、装置の出力結果を直接評価者が目視で判定した結果を集計する。
【0007】
2、 あらかじめ入力映像に対する監視、警報の基準を定性的に決めておき、それにしたがって、たとえば車両を検出すべき、あるいは検出すべきでない複数の時間的に短いシーンを映像編集により集めておいて、これらを入力とした場合の監視装置の出力を集計して求める。
【0008】
3、 あらかじめ入力映像に対する監視、警報の基準を定性的に決めておき、それにしたがって、入力映像に対する監視装置の出力の正解を映像データに付随させて定量的(すなわち検出有り/なし等)に作成しておき、監視装置の出力と前述の正解データとの比較結果を集計して求める。
【0009】
上記作業のうち、”監視、警報の基準を決めておく”方法として、画像を用いた物体検出処理の中で抽出される特徴量に対して、あらかじめ信頼度を設定しておいて、実際の物体検出時に求められた特徴量についての信頼度を算出する公知特許として引用文献1が存在する。
【0010】
また特に上記3項目の作業方法の内、3番目の方法で評価を行う場合には、入力される映像に対して、監視装置の”正解出力を教示する作業”が発生する。このような教示を効率化することを目的とした公知特許として、引用文献2が存在する。
【0011】
前述したこれら従来技術による評価方法では、以下のような理由から、いずれも評価を行うための評価者の作業量、および作業時間が莫大なものとなるという問題があった。
【0012】
まず2章の1番目の方法を用いた場合には、評価者は監視装置の入力映像と装置の出力とを同時にしかも長時間にわたって確認し続ける必要があるうえに、同時に瞬間瞬間での評価結果を記録しておく必要がある。
【0013】
2章の2番目の方法を用いた場合には、評価者は監視装置の入力映像と装置の出力とを同時に確認し続ける必要は無いが、対象とする監視装置がある出力結果を出すと期待される映像シーンを切り出すために、一般に長時間にわたる映像編集作業が必要となる。
【0014】
2章の3番目の方法を用いた場合には、評価作業自体は、映像シーンに対する正解と監視装置出力とを比較する作業であるから、正解データと監視装置出力の双方が電子的方法等で記録されていれば、機械化することは容易である。一方シーンに付随する正解データの入力作業は、評価に先だって行われるべきであるが、この作業は入力映像を目視で確認しながら正解を記録するというものであり、本質的には、2章の1番目の方法における評価作業と変わりが無い。
以上の理由から、監視装置の”正解出力データ”を事前に登録する作業を効率化することが、評価作業の中で最も工数のかかる部分だと考えられる。
【0015】
前節に示した引用文献1は、入力映像に対する”正解出力データ”を求めるための中間段階出力である画像特徴量についての”信頼度”を教示しておくものである。ここでは入力映像に対する出力結果を教示するものではないため、教示に際して、入力映像に対する中間段階出力があらかじめ既知である必要があり、本特許で目的としている”監視装置・手法”の性能評価には使用できない。
【0016】
一方、引用文献2では、移動ロボットの目標位置を効率的に教示する方法を示している点で、直接の監視装置出力を教示するものである。ただし今回特許で提案する”監視装置・手法”の性能評価の情况では、あらかじめオフラインで映像入力に対する”正解出力データ”を教示しておくことを想定しているのに対し、引用文献2では、実稼動中に物理的にロボットの移動位置を教示するために光学的マーカを用いることを提案しているため、今回特許で解決しようとしている情况では用いることができないという問題があった。
【0017】
【引用文献1】
特願2001−84377
【引用文献2】
特願2002−82720
【発明が解決しようとする課題】
この発明は、映像データ中から車両を検出し、監視、警報を行う方法の性能を評価する場合の作業の効率向上と再現性が図れる車両検出処理の評価支援方法を提供することを目的としている。
【0018】
【課題を解決するための手段】
この発明の車両検出処理の評価支援方法は、映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果と、正解情報とを比較して認識結果の評価を行うものである。
【0019】
この発明の車両検出処理の評価支援方法は、映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果の検出対象物の位置と、形状と、正解情報とを比較して認識結果の評価を行うものであって、正解の教示を行うために、入力映像データ中の各フレーム内の対象物侯補による映像の複雑さを判定し、この判定結果に応じて、複数の教示方法に優先順位をつけてユーザに提示し、教示方法選択の支援を行うものである。
【0020】
この発明の車両検出処理の評価支援方法は、映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果の検出対象物位置、形状と、正解情報とを比較して認識結果の評価を行う車両検出処理の評価支援方法であって、教示済みの正解データの確認作業を行うために、入力映像データ中の各フレーム内対象物侯補による映像の複雑さと、教示データがどのような手段を用いて教示されたのかに基づいて教示データの信頼度を判定し、その結果に応じて、複数の教示確認方法に優先順位をつけて提示し、ユーザによる選択の支援を行うものである。
【0021】
この発明の車両検出処理の評価支援方法は、映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果の検出対象物位置、形状と、正解情報とを比較して認識結果の評価を行うものであって、天候条件、照明条件、シーン条件等の属性データが付与済みである複数のフレームについて、フレームを代表する画像特徴量を求め、それらについてのシーンごとの代表値の範囲とフレームの前後関係とから、属性未付与フレームに対する属性値を推定し、それら属性未付与のフレームに伝播させることを可能とするものである。
【0022】
【発明の実施の形態】
以下に、オプティカルフロー検出を基本原理とする車載型映像監視装置によって監視を実施する場合に、この方式を用いて認識結果の性能評価を行うシステムの実施例を説明する。
【0023】
[1 車両検出装置の評価用途での実施例の全体処理概要]
図1は本システムの実施例の全体構成図であり、映像入力手段1、属性教示用GUI2、教示時間範囲指定手段3、映像特徴量算出手段4、教示方法優先度判定手段5、教示方法選択手段6、教示手段(1)7、教示手段(2)8、教示手段(3)9、教示確認方法提示手段10、教示確認選択手段11、教示確認手段(1)12、教示確認手段(2)13、データベース14、属性判定特徴量算出手段15、属性非付与類似フレーム検出手段16、属性自動付与手段17、映像監視手段18、性能算出手段19である。
【0024】
本システム中の映像監視手段18は、例えば自車両の斜め前方から、自車両の前に割り込んでくる車両を、映像データ中から抽出するような”車載映像監視装置”を想定している。検出手法としては、参考文献[1]に示すようなオプティカルフロー手法を用いた手段、または参考文献[2]に示すようなステレオ法によって自車前方の車両侯補の存在、および存在した場合には、その位置(2次元位置)を求めるようなもので良い。したがって、この手段の出力は、自車両斜め前方付近の位置に存在する車両の位置、または形状となる。
【0025】
本システムは、大きく分けると、以下のような処理機能からなる。
1、 入力映像のディジタイズと蓄積
2、 入力映像への正解教示
3、 正解教示結果の確認
4、 シーンへの属性付与
5、 対象映像監視手段の出力と教示結果とから、性能算出
上記第1ステップ目では、まず車両走行が予想される種々のシーンの映像を収集しておき、これを映像入力手段1によって、ディジタイズ後、シーン名、撮像日時等、概略の検索属性とともにデータベース14に格納する。
【0026】
ここに映像は、一定周期T(たとえば33msec)でサンプリングされ、サンプリングされた各画像(フレーム)が、各画素について所定のbit数(モノクロでは8bits、カラーではR,G,B 各8bitsなど)を持つディジタル画像に変換されてファイルとして格納される。この格納ファイルは、前記シーン名、撮像日時、撮像場所、サンプリング周期、bit数等の情報、および映像を表すbit列からなっているものであれば、どのような公知のディジタル映像型式でも良いが、上記フレームをそのフレーム番号を指定することで検索、表示できるようなものである必要がある。
【0027】
次の第2ステップ目では、属性教示用GUI2を用いて、ユーザがシステムとコマンドをやりとりし、各フレームごとの正解を教示する。ここでは後述のように、映像の特性にしたがって、システムが教示方法を優先度付きで提示し、ユーザは、このうちから選択した教示方法にしたがって教示を実行する。
【0028】
ここに属性教示用GUI2は、コンピュータ、および映像display装置とからなり、映像を連続表示、指定フレーム表示、1フレーム前進表示、1フレーム後退表示などが、メニューにしたがって行え、併せて、前記システムへのコマンドもメニューからの選択、またはダイアログへの入力によって行えるようなものである。
【0029】
第3ステップ目では、上記第2ステップ目で教示された結果の確認と修整を行う。ここにおいては、属性教示用GUI2を用いて、ユーザがシステムとコマンドをやりとりし、前述の確認と修整を行うが、映像の特性、および前のステップにて選択された教示方法とにしたがって、システムが教示結果の確認方法を優先度付きで提示する。したがって、ユーザは前ステップと同様に教示確認方法を前記提示項目の中から選択し、確認を行う。
【0030】
第4ステップ目では、上記第2ステップ目、第3ステップ目と同様にユーザが属性教示用GUI2を用いて、システムとコマンドをやりとりするが、ここでは、主にシーンの検索や性能評価条件を規定するための、属性を付与する。
【0031】
ここでの属性は、まず対象とする映像の一部についてフレームごとに付与される。ここでこれら属性付与済みシーンについては、映像内の各フレーム中の画像特徴量を計測し、シーンとしてそれら特徴量の代表値を算出しておく。さらに前記で、属性未付与のシーンの各フレームについて、属性付与済みのシーンとの時間の前後関係、映像各フレーム内の画像特徴量と前述の画像特徴量代表値とを比較することで、属性付与済みシーンと同一とみなされる場合には、属性付与済みシーンの属性を自動的に割り付ける。
【0032】
第5ステップでは、対象とする映像監視手段18に対して、データベース14に格納された映像を供給し、フレームごとに映像監視手段18の出力結果と、あらかじめデータベース14に格納されていた”正解データ”とを比較し、検出結果の正解/不正解を判定し、ある指定フレーム数内での正解と不正解との統計を計算することで、性能を算出する。(評価対象処理方式)
【0033】
以下では、前記各ステップのうち、”入力映像への正解教示””正解教示結果の確認”、”シーンへの属性付与”について述べる。
4、1、1 入力映像への正解教示ステップの処理
図2は本実施例の正解データ教示処理の流れ図である。図中で、ユーザとシステムとのGUIでのコマンドのやりとりの流れが示されている。また、図3から図6により、主要なステップにおける表示画面の様子が示される。
【0034】
まず、データベース14に格納されている映像ファイルのうち、教示を行うべきものを呼び出し(ST1)、図3に示す、属性教示用GUI2画面に、図4にに示すように、その先頭フレーム画像を表示する(ST2)。映像ファイルは図中でfileのメニュー内から選択する。この時の内部処理としては、Unix等のファイル構造として用いられているdirectory構造をpop−upダイアログ上でbrowseしながらファイルを検索する。
【0035】
つぎに教示範囲を指定するが、本GUI上では、図4に示す画面上の”≪”(連続後退)、”<”(後退)、”||”(停止)、”>”(前進)、”≫”(連続前進)のメニューを操作して教示したフレームを探す。すなわち”≪”(連続後退)、”≫”(連続前進)が指定された場合には、一定時間ごとにフレームを前進、後退しながら表示を行い、”||”を指定することで、フレーム更新が停止してあるフレームのみを表示しつづけ、”<”、”>”では、1フレームずつのみの表示を行う。
【0036】
上記操作でフレームが指定できたら、以下のメニュー操作で表示範囲を指定し(ST3)、後述の教示方法選択前処理の起動をシステムに指示する(図5参照)。
教示開始フレーム指定:”operate”メニュー内のstartを選択
教示終了フレーム指定:”operate”メニュー内のendを選択
教示方法選択前処理起動:”operate”メニュー内のsetを選択
教示方法選択前処理とは、図2中のステップ4、5の”映像特徴量算出”、”教示方法優先度判定”とからなる。この処理の流れを後述する図7に示す。抽出する映像特徴量としては、グレースケール画像の複雑度を用いる。
【0037】
ここに本実施例においては入力映像の各フレームがグレースケール画像であることを仮定している。そこで複雑度の一例として、まず入力グレースケール画像について以下の特徴量を求め(後述する図8(a)〜(e)参照)、それらの線形結合結果を複雑度Cとして用いる。
【0038】
特徴量は、
エッジ複雑度L(図8の(b)参照):エッジ抽出結果を固定閾値にて2値化後(ST21、22)、算出した連結領域数[3](2次元的空間周波数を近似)(ST23)。
【0039】
水平方向複雑度Xs(図8の(c)(d)参照):同上のエッジ2値化画像について、X軸への射影(周辺分布)を求めたとき(ST24)、そのX軸方向についての標準偏差(ST26)。
【0040】
垂直方向複雑度Ys(図8の(e)(f)参照):同上のエッジ2値化画像について、Y軸への射影(周辺分布)を求めたとき(ST25)、そのY軸方向についての標準偏差(ST27)。
また線形結合式は、
C=CL*L+Cx*Xs+Cy*Ys (1)
で定義する(ST28)。ここにCL,Cx,Cyはそれぞれスケーリング定数である。
【0041】
さらに、C1,C2をC1>C2なる閾値としたとき、これら閾値との比較により(ST29、31)、以下のように教示処理を選択する(ST6)(図6参照)。
C>C1:フレームごとの教示(ST7、30)
C1>=C>C2:補間教示(ST9、32)
C2>=C:既存手法の結果による(ST11、33)
ここに、フレームごとの教示では、各フレームを順次表示しながら、車両が存在すると思われる位置に例えば矩形などの図形を描画し、フレームを更新するたびに図形の頂点の座標として、教示結果をデータベース14に記憶するものであり(ST8)、図1では、教示手段(3)9として示される。
【0042】
補間教示とは、画面中に車両が出現するフレームと、画面中から車両が消える前のフレームとで、車両の位置を教示しておき、それらフレームの間のフレームにおいては、座標を補間することによって作成された図形位置を教示結果とするものであり(ST10)、図1においては、教示手段(2)8として示される。上述のようなフレーム間での位置補間の一例として、線形補間を用いるものの概念図を図9に示す。
【0043】
この図9において、(a)における時刻t=t0における抽出対象物教示位置と時刻t=tnにおける抽出対象物教示位置(図9の(c)参照)とを用いて、時刻t=tiにおける線形補間結果を求めたものが図9の(b)となる。
既存手法の結果による教示とは、現状評価しようとしている監視手法ではないが、ある程度性能が良いことがわかっている手法があった場合に、かわりにその手法の車両検出結果を用いるものである(ST11)。たとえば、現在オプティカルフローによる車両検出位置の評価を行おうとしていた場合に、ステレオ法によって求められた車両検出結果を、教示結果の代用品として用いるということができるものであり、図1においては、教示手段(1)7として示されるものである。
【0044】
教示結果は、図6に示すように、C2>=Cの場合には、”フレーム毎”、”線形補間”、”既存手法”をpop−up選択dialogの上から下に順に表示するが、C1>=C>C2の場合には、前記と同様の表示だが、”既存手法”の選択肢は網掛け表示を行うことで、ユーザに選択させにくくする。同様にC>C1の場合には、”フレーム毎”以外の選択肢は網掛け表示を行う。
【0045】
本ステップでの処理の最後に、システムによる侯補提示順序、およびユーザによって選択された侯補とをデータベース14上の教示されたファイルの教示対象フレーム範囲に関連づけて記憶する。
【0046】
[2 正解教示結果の確認ステップの処理]
図10に本ステップの処理の流れを示す。本実施例においては、確認方法の選択肢としては、確認を行うためのフレームスキップ間隔を選択することとしている。したがって、より信頼度の高い教示が行われていたシーンについては、確認はより広いフレーム間隔ごとに間引いて行っても良いが、信頼度の低い教示を行っていたシーンについては、短いフレーム間隔で詳細に確認をすることをユーザに促す。
【0047】
図10にはユーザとシステムとのGUIでのコマンドのやりとりの流れが示され、図11から図14には主要なステップにおける表示画面の様子が示される。そして、”映像ファイル読みだし”〜”確認フレーム範囲指定”までのステップ31からステップ33(図11から図13参照)を、図6のステップ1から3と同様に行った後、データベース14内部に格納された”表示時侯補提示順序”、および”教示選択侯補”を設定されたフレーム範囲をキーとして検索し、抽出する(ST34、35)。
【0048】
つぎに確認方法選択(ST36)においては、以下図15中の組み合わせにしたがって、確認時のフレームスキップ数を求める。図15中で、たとえばNe、Nd、Nc、Nbは前記フレームスキップ数として許容される選択肢であり、この順で上からpop up dialog上に表示されてユーザの選択を促すことを意味する(ST37)(図14参照)。なおこの場合Naは、網掛け表示され、ユーザから選択されにくくなる。
【0049】
図15中、Na>Nb>Nc>Nd>Neであり、特にNe=1(連続フレーム)としてあり、図1中の教示確認手段(1)12を起動する。すなわち、メニュー中から、”>”を指定するたびに、次フレームの教示結果が表示され、”<”が指定されるたびに、前フレームの教示結果が表示される。それ以外の場合は、図1中の教示確認手段(2)13を起動し、”≫”を指定するたびに、選択したスキップフレーム(N=Na〜Nd)数のフレーム間隔ごとにフレームを連続前進表示し、”≪”を指定するたびに同様に連続後退表示する。
【0050】
例えば図15中の2行、1列目を見ると、システムから提示された教示方法の選択肢として最初に提示された侯補(もっともシステムが勧める教示方法)は”補間教示”であったが、その際にユーザが実際選択した教示方法は”フレーム毎の教示”であったことを示している。この場合には、複雑度からのシステムが推奨する教示方法に対し、ユーザが選択した教示方法の方がより確実性が高いため、教示結果の確認を行うためのスキップフレームの侯補としては、”Ne、Nd、Nc、Nb”というように、Neに比べて大きなスキップフレーム”Nb”などを使用する教示結果確認方法も選択肢として提示される。
【0051】
反対に、図15中の1行、2列目では、システムから提示された教示方法の選択肢は”フレーム毎の教示”であったのに対し、その際にユーザが選択した教示方法は”補間教示”であったことを示している。この場合には、複雑度からのシステムが推奨する教示方法は確実性の高い方法を要求しているのに対し、ユーザが選択した教示方法の方が確実性が低いため、教示結果の確認を行うためのスキップフレームの侯補としては、”Ne、Nd”というように、”Ne”と”Nd”という小さなフレームスキップしか選択できないように提示される。
[3シーンヘの属性付与ステップの処理]
図16に本ステップの処理の流れを示す。この処理の概略を図22に示す。
【0052】
ユーザは、まず映像ファイルを読みだし(ST41)、メニュー操作により属性付与を希望するフレームを探す(ST42)(図17、図18参照)。そして、図6のステップ2、3での処理と同様に、属性付与開始を行うシーンの開始フレーム、終了フレームを指定する(ST43、44)。ここで、”operate”メニュー内のannotを選択することにより(図19、図20参照)、指定したフレーム範囲内の映像に対して、属性付与を行うためのpop up dialogが起動するので属性を入力する(ST45、46)(図21参照)。
【0053】
システムはここで入力された属性をデータベース14上の映像ファイルの指定フレーム範囲に対応づけして登録する。これに続いて、フレーム範囲内の各画像フレームについて、後述のように画像特徴量を抽出し(ST47)、さらにフレーム範囲全体について、この画像特徴量の代表値を算出する(ST48)。ここで、この特徴量代表値も属性と同様に指定フレーム範囲に対応づけして登録、格納する(ST48)。
【0054】
ここに特徴量としては、照明、天候、季節、時刻に関係するものとして、ここでは、例えば、各フレームi内のグレースケール画像に対する輝度頻度分布hiを用いる。
代表値(vector)としては、輝度頻度分布hiの各フレームについての平均値Mと分散(分散共分散行列)Vを用いる。
【0055】
一方、フレーム指定範囲入力後に、”operate”メニュー内のauto−annotを選択することにより(ST45)、指定フレーム範囲内の各フレームごとに画像特徴量を算出し(ST49)、代表値との比較(ST50)を以下のように行う。
【0056】
まず元対象フレームf(頻度分布はhf)とk番目の属性付与済みシーンの代表値(Hk)との距離Dkfを以下のように求める。
【数1】

Figure 2004228852
【0057】
ここで、上記距離が最少となるシーンjに対する距離値が、あらかじめ求めた距離閾値Dtより小さい場合には、このシーンの属性を現在対象としているフレームに対して自動的に付与する。この処理の概略を図22に示す。この図22は、入力画像に対する輝度頻度分布とシーン属性とが時間に沿って表現され、シーンへの自動属性付与処理を説明している。
【0058】
図中で、時刻T=tiからのシーンi、時刻t=tkからのシーンkにはシーン属性がそれぞれマニュアルで”曇り”、および”晴れ”と設定されていた。一方、時刻Tfにおいては、フレームにシーン属性は付与されていないため、各シーンとの間で式2に示す距離計算を行い、その値が最小となるシーンiの属性を強制的に時刻t=fに付与している。また、上記において、現在の注目フレームが、ある属性付与済みシーン中の任意のフレームと時間閾値Tt以下だった場合には、距離計算は以下のように行う。
【数2】
Figure 2004228852
【0059】
ここに
1>Ct>0 (4)
なる定数とする。
【0060】
実施例の効果
映像を用いた車両用監視システムにおいて、種々のシーンの映像を入力とした場合の性能を再現性良く、定量評価することは、製品仕様を決定する上で非常に重要であるが、評価を行う場合に評価者には、
監視装置の入力映像と装置出力とを同時にしかも長時間にわたって確認し続ける必要があるうえに、瞬間瞬間での評価結果を記録する必要がある。
【0061】
長時間にわたる映像鶏集作業が必要となる。
正解データの入力作業においても、入力映像を目視で確認しながら正解を記録する必要がある。
このように、手間のかかる作業を長時間に渡って要求される。
したがって、このような作業を全体として見た場合に、この発明の第1のポイントとして、入力が想定される映像シーンに、処理結果の期待値(正解情報)を付与した上であらかじめ格納しておき、映像データを評価対象処理方式で処理した結果と、正解情報とを比較して認識結果の評価を自動的に行うこととで作業の効率向上と再現性が計れる。
【0062】
ここで全体的な評価作業の中で、最も評価者の工数を必要とするものが、”正解教示”であろうと考えられる。
【0063】
そこで発明の第2のポイントとして、入力作業工数の多さを入力映像の複雑さから判定し、複雑さに応じて”教示”方法を”簡便かつ信頼度の若干劣るもの”から、”手間がかかるが信頼度の高いもの”へと、可変できるインタフェースをユーザに提供することで、効率向上を計ることができる。一方で、”正解教示”自体にもヒューマンエラーの入る余地があるため、教示済みデータの確認は必要な処理となるが、前述のように”簡便な教示方法”によって入力された場合には教示自体の信頼度が低くなる場合が考えられる。
【0064】
そこで、発明の第3のポイントとして、あらかじめ入力映像の複雑さと、どのような教示が行われたかにしたがって、順序づけされた教示結果確認方法の侯補を、ユーザに対して提示することにより、”教示済みデータ”の確認における効率を向上するとともに、信頼度向上も計ることができる。
【0065】
さらに、”正解データ”以外の天候、照明等の条件を入力映像データに付与しておくことで、シーン検索によって、特定条件シーンにおける性能評価を行うことが可能となるが、発明の第4のポイントとして、ある少ないシーンのみにおいて、上述の検索条件を手動にて付与し、それらについての画像特徴量の代表値を統計的に自動算出し、未属性付与フレームについての同上の画像特徴量と比較することで、既条件付与シーンの属性代表値と未属性付与フレームの画像特徴量が近かかった場合に、その未属性付与フレームについても既条件付与シーンと同一の条件を自動付与することで、やはり手間のかかる検索条件のデータベース入力作業を半自動化でき、著しく効率を向上することができる。
参考文献
[1] 後側方監視特開2000−11133, 移動物体検出装置及びその方法
[2] 前方監視特開平7−334679, 領域抽出装置
[3] 高木, 下田, 画像解析ハンドブック, pp578, Jan 1991
【発明の効果】
以上詳述したように、この発明によれば、映像データ中から車両を検出し、監視、警報を行う方法の性能を評価する場合の作業の効率向上と再現性が図れる車両検出処理の評価支援方法を提供できる。
【図面の簡単な説明】
【図1】この発明の実施形態を説明するための車載型映像監視装置の認識結果の性能評価を行うシステムの概略構成を示す図。
【図2】正解データ教示処理を説明するためのフローチャート。
【図3】ファイルのメニュー画面の表示例を示す図。
【図4】ファイルのメニュー画面の表示例を示す図。
【図5】ファイルのメニュー画面の表示例を示す図。
【図6】ファイルのメニュー画面の表示例を示す図。
【図7】正解データ教示方法の選択前処理を説明するためのフローチャート。
【図8】複雑度算出用特徴量の概念図。
【図9】線形補間教示の概念図。
【図10】正解教示結果確認処理を説明するためのフローチャート。
【図11】ファイルのメニュー画面の表示例を示す図。
【図12】ファイルのメニュー画面の表示例を示す図。
【図13】ファイルのメニュー画面の表示例を示す図。
【図14】ファイルのメニュー画面の表示例を示す図。
【図15】正解教示結果確認時のスキップフレーム数算出ルールを示す図。
【図16】シーンへの属性付与ステップの処理を説明するためのフローチャート。
【図17】ファイルのメニュー画面の表示例を示す図。
【図18】ファイルのメニュー画面の表示例を示す図。
【図19】ファイルのメニュー画面の表示例を示す図。
【図20】ファイルのメニュー画面の表示例を示す図。
【図21】ファイルのメニュー画面の表示例を示す図。
【図22】シーンへの自動属性付与処理の概略を示す図。
【符号の説明】
1…映像入力手段、2…属性教示用GUI、3…教示時間範囲指定手段、4…映像特徴量算出手段、5…教示方法優先度判定手段、6…教示方法選択手段、7…教示手段(1)、8…教示手段(2)、9…教示方法優先度判定手段、10…教示確認方法提示手段、11…教示確認選択手段、12…教示確認手段(1)、13…教示確認手段(2)、14…データベース、15…属性判定特徴量算出手段、16…属性非付与類似フレーム検出手段、17…属性自動付与手段、18…19…映像監視手段。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an evaluation support method for a vehicle detection process for evaluating the performance of a method of detecting, monitoring, and warning a vehicle from video data.
[0002]
[Prior art]
For the purpose of improving the safety of driving a car, there have been proposed many devices for issuing an alarm or performing driving control to avoid an accident by using a measurement result of an image input sensor that can be measured during driving.
[0003]
For example, assuming that a camera installed in front of the own vehicle is used, one for extracting the own lane by image analysis from a single camera on the front of the traveling road and issuing a lane departure warning, There are those that detect obstacles in front of the traveling road by using the principle of stereo by the analysis of the vehicle, and measure the distance from the preceding vehicle of the own vehicle to issue a rear-end collision warning.
[0004]
Further, as a device that uses a camera installed behind the host vehicle, there is a device that detects another vehicle approaching from behind the host vehicle and overtaking the host vehicle and issues an alarm for preventing a contact accident.
[0005]
In such a monitoring / warning device (hereinafter referred to as a monitoring device), it is very important to quantitatively evaluate the performance of various kinds of scenes when they are input with good reproducibility in determining product specifications. However, the following methods have been used for that purpose.
[0006]
1. A qualitatively determined standard for monitoring and alarming the input video, giving analog or digital video as input to the monitoring device to be evaluated, and the output result of the device being directly judged visually by the evaluator Tally.
[0007]
2. Preliminarily qualitatively determine the criteria for monitoring and alarming the input video, and collect, for example, a plurality of temporally short scenes that should or should not detect a vehicle by video editing, according to the criteria. The output of the monitoring device when these are input is calculated and obtained.
[0008]
3. The criteria for monitoring and alarming the input video are qualitatively determined in advance, and the correct answer of the output of the monitoring device for the input video is created quantitatively (ie, with / without detection, etc.) by appending it to the video data. In addition, the comparison result between the output of the monitoring device and the above-mentioned correct data is totaled and determined.
[0009]
Among the above operations, as a method of “determining the standard of monitoring and alarming”, the reliability is set in advance for the feature amount extracted in the object detection processing using the image, and the actual reliability is set. Patent Literature 1 exists as a known patent for calculating the reliability of a feature amount obtained at the time of object detection.
[0010]
In particular, when the evaluation is performed by the third method out of the above three work methods, a “work to teach correct output” of the monitoring device occurs for the input video. Patent Document 2 exists as a known patent for the purpose of increasing the efficiency of such teaching.
[0011]
In the above-described evaluation methods according to the related arts, there is a problem that the amount of work and the work time of the evaluator for performing the evaluation become enormous for the following reasons.
[0012]
First, when the first method in Chapter 2 is used, the evaluator needs to continuously check the input image of the monitoring device and the output of the monitoring device for a long period of time, and at the same time, evaluates the evaluation result instantaneously. Must be recorded.
[0013]
When the second method in Chapter 2 is used, the evaluator does not need to keep checking the input video of the monitoring device and the output of the device at the same time, but expects that the target monitoring device will produce an output result. Generally, a long video editing operation is required to cut out a video scene to be cut.
[0014]
When the third method in Chapter 2 is used, since the evaluation operation itself is a work of comparing the correct answer for the video scene with the output of the monitoring device, both the correct answer data and the output of the monitoring device are electronically used. Once recorded, it is easy to mechanize. On the other hand, the operation of inputting the correct answer data associated with the scene should be performed prior to the evaluation, but this operation is to record the correct answer while visually checking the input video. There is no difference from the evaluation work in the first method.
For the above reasons, it is considered that making the work of registering "correct output data" of the monitoring device in advance more efficient is the most time-consuming part of the evaluation work.
[0015]
The cited document 1 shown in the previous section teaches "reliability" of an image feature amount which is an intermediate stage output for obtaining "correct output data" for an input video. Here, since the output result for the input video is not taught, the intermediate stage output for the input video needs to be known in advance at the time of teaching, and the performance evaluation of the "monitoring device / method" aimed at in this patent is required. I can not use it.
[0016]
On the other hand, Patent Document 2 teaches a direct output from a monitoring device in that it shows a method for efficiently teaching a target position of a mobile robot. However, in the situation of performance evaluation of the “monitoring device / method” proposed in this patent, it is assumed that “correct output data” for video input is taught in advance offline. Since it has been proposed to use an optical marker to physically teach the movement position of the robot during actual operation, there has been a problem that it cannot be used in the situation to be solved by the patent this time.
[0017]
[Cited Document 1]
Japanese Patent Application 2001-84377
[Cited Document 2]
Japanese Patent Application No. 2002-82720
[Problems to be solved by the invention]
SUMMARY OF THE INVENTION It is an object of the present invention to provide an evaluation support method for a vehicle detection process capable of improving work efficiency and reproducibility when evaluating the performance of a method of detecting a vehicle from video data, monitoring and warning. .
[0018]
[Means for Solving the Problems]
According to the evaluation support method of the vehicle detection processing of the present invention, in order to detect a vehicle from video data, and to evaluate the performance of a method of performing monitoring and alarming, an input video is accumulated as video data at a predetermined sampling time. For the video data, a database is created by adding the correct answer information and the scene characteristic description given as the attribute value, and the result of processing the video data by the evaluation target processing method is compared with the correct answer information. To evaluate the recognition result.
[0019]
According to the evaluation support method of the vehicle detection processing of the present invention, in order to detect a vehicle from video data, and to evaluate the performance of a method of performing monitoring and alarming, an input video is accumulated as video data at a predetermined sampling time. For the video data, create a database to which a correct answer information and a feature description of the scene given as an attribute value are added, and a position of a detection target as a result of processing the video data by an evaluation target processing method, The shape and the correct answer information are compared to evaluate the recognition result.In order to teach the correct answer, the complexity of the image by the candidate object in each frame in the input video data is determined. According to the determination result, a plurality of teaching methods are prioritized and presented to the user to assist in selecting a teaching method.
[0020]
According to the evaluation support method of the vehicle detection processing of the present invention, in order to detect a vehicle from video data, and to evaluate the performance of a method of performing monitoring and alarming, an input video is accumulated as video data at a predetermined sampling time. For the video data, a database to which a correct answer information and a feature description of a scene given as an attribute value are added is created, and a detection target position, a shape, and a detection result of the video data processed by the evaluation target processing method are created. An evaluation support method for a vehicle detection process for evaluating a recognition result by comparing with a correct answer information. In order to perform a check operation of a taught correct answer data, a target object candidate in each frame in input video data is checked. The reliability of the teaching data is determined based on the complexity of the video and the means by which the teaching data was taught. Presented with the order, it is intended to provide support for selection by the user.
[0021]
According to the evaluation support method of the vehicle detection processing of the present invention, in order to detect a vehicle from video data, and to evaluate the performance of a method of performing monitoring and alarming, an input video is accumulated as video data at a predetermined sampling time. For the video data, a database to which a correct answer information and a feature description of a scene given as an attribute value are added is created, and a detection target position, a shape, and a detection result of the video data processed by the evaluation target processing method are created. In order to evaluate the recognition result by comparing with the correct answer information, for a plurality of frames to which attribute data such as weather conditions, lighting conditions, scene conditions, etc. have been added, an image feature amount representative of the frame is obtained. From the range of representative values for each scene and the context of the frames, the attribute values for the non-attributed frames are estimated. And it makes it possible to be propagated to the.
[0022]
BEST MODE FOR CARRYING OUT THE INVENTION
An embodiment of a system for evaluating the performance of a recognition result using this method when monitoring is performed by an on-vehicle video monitoring device based on optical flow detection will be described below.
[0023]
[1 Outline of Overall Processing of Example for Evaluation Application of Vehicle Detector]
FIG. 1 is an overall configuration diagram of an embodiment of the present system. An image input unit 1, an attribute teaching GUI 2, a teaching time range designating unit 3, an image feature amount calculating unit 4, a teaching method priority determining unit 5, a teaching method selection. Means 6, teaching means (1) 7, teaching means (2) 8, teaching means (3) 9, teaching confirmation method presenting means 10, teaching confirmation selecting means 11, teaching confirmation means (1) 12, teaching confirmation means (2) 13), a database 14, an attribute determination feature amount calculating unit 15, an attribute non-assigned similar frame detecting unit 16, an automatic attribute adding unit 17, a video monitoring unit 18, and a performance calculating unit 19.
[0024]
The video monitoring means 18 in the present system is assumed to be an "in-vehicle video monitoring device" that extracts, for example, a vehicle that interrupts in front of the own vehicle from diagonally forward of the own vehicle from the video data. As a detection method, the presence and presence of a vehicle candidate ahead of the own vehicle by means using an optical flow method as shown in Reference [1] or a stereo method as shown in Reference [2] May be such that the position (two-dimensional position) is obtained. Therefore, the output of this means is the position or shape of the vehicle present at a position near the diagonal front of the vehicle.
[0025]
This system is roughly divided into the following processing functions.
1. Digitizing and storing input video
2. Teaching correct answer to input video
3. Confirmation of correct answer teaching result
4. Adding attributes to the scene
5. Performance calculation from output of target video monitoring means and teaching result
In the first step, first, images of various scenes in which the vehicle is expected to travel are collected, and the images are digitized by the image input means 1 and the database 14 together with general search attributes such as scene names, shooting dates and times, and the like. To be stored.
[0026]
Here, the video is sampled at a fixed period T (for example, 33 msec), and each sampled image (frame) has a predetermined number of bits (8 bits for monochrome, 8 bits for each of R, G, and B for color) for each pixel. It is converted to a digital image and stored as a file. This storage file may be of any known digital video type as long as it is composed of information such as the scene name, the imaging date and time, the imaging location, the sampling cycle, the number of bits, and the like, and the bit sequence representing the video. It is necessary that the frame can be searched and displayed by specifying its frame number.
[0027]
In the next second step, the user exchanges commands with the system using the attribute teaching GUI 2 to teach the correct answer for each frame. Here, as described later, the system presents the teaching methods with priorities according to the characteristics of the video, and the user performs the teaching according to the teaching method selected from the teaching methods.
[0028]
The attribute teaching GUI 2 is composed of a computer and a video display device. The video can be displayed continuously, a designated frame can be displayed, a frame can be displayed forward, a frame can be displayed backward, and the like can be performed according to a menu. Command can be performed by selecting from a menu or inputting into a dialog.
[0029]
In the third step, the result taught in the second step is checked and modified. In this case, the user exchanges commands with the system using the attribute teaching GUI 2 to perform the above-described confirmation and modification. However, according to the characteristics of the video and the teaching method selected in the previous step, the system is changed. Presents a method of checking the teaching result with priority. Therefore, the user selects and confirms the teaching confirmation method from the presented items as in the previous step.
[0030]
In the fourth step, the user exchanges commands with the system using the attribute teaching GUI 2 in the same manner as in the second step and the third step. Attributes are specified for the purpose.
[0031]
The attribute here is first assigned to a part of the target video for each frame. Here, for these attribute-added scenes, image feature amounts in each frame in the video are measured, and representative values of those feature amounts are calculated as scenes. Further, in the above, for each frame of the scene to which the attribute is not added, the time order of the scene to which the attribute is added, the image feature amount in each frame of the video is compared with the above-described image feature amount representative value, If it is determined that the attribute-added scene is the same, the attribute of the attribute-added scene is automatically assigned.
[0032]
In the fifth step, the video stored in the database 14 is supplied to the target video monitoring unit 18, and the output result of the video monitoring unit 18 and the “correct data” stored in the database 14 in advance are supplied for each frame. To determine the correct answer / incorrect answer of the detection result, and calculate the statistics of the correct answer and the incorrect answer within a certain designated number of frames to calculate the performance. (Evaluation target processing method)
[0033]
In the following, among the above steps, "correct teaching to input video", "confirmation of correct teaching result", and "attribution to scene" will be described.
4, 1, 1 Processing of correct answer teaching step to input video
FIG. 2 is a flowchart of the correct answer data teaching processing of the present embodiment. In the figure, the flow of command exchange between the user and the system in the GUI is shown. FIGS. 3 to 6 show the state of the display screen in the main steps.
[0034]
First, of the video files stored in the database 14, a file to be taught is called (ST1), and the first frame image is displayed on the attribute teaching GUI 2 screen shown in FIG. 3 as shown in FIG. It is displayed (ST2). The video file is selected from the file menu in the figure. As an internal process at this time, a file is searched while browsing a directory structure used as a file structure such as Unix on a pop-up dialog.
[0035]
Next, a teaching range is designated. On this GUI, “≪” (continuous retreat), “<” (retreat), “||” (stop), “>” (forward) on the screen shown in FIG. , "≫" (continuous advance) menu to search for the taught frame. That is, when “≪” (continuous backward) or “、” (continuous forward) is specified, the frame is displayed while moving forward and backward at regular time intervals, and by specifying “||” Only the frames for which updating has been stopped continue to be displayed, and for "<", ">", only one frame is displayed.
[0036]
After the frame has been designated by the above operation, the display range is designated by the following menu operation (ST3), and the system is instructed to start the teaching method selection pre-processing described later (see FIG. 5).
Teaching start frame specification: Select “start” in the “operate” menu
Specify teaching end frame: Select “end” in “operate” menu
Start of teaching method selection pre-processing: Select “set” in “operate” menu
The teaching method selection pre-processing includes "calculation of image feature amount" and "judgment method priority determination" in steps 4 and 5 in FIG. FIG. 7 shows the flow of this processing. The complexity of a grayscale image is used as a video feature quantity to be extracted.
[0037]
Here, in this embodiment, it is assumed that each frame of the input video is a grayscale image. Therefore, as an example of the complexity, first, the following feature amounts are obtained for the input grayscale image (see FIGS. 8A to 8E described later), and a linear combination result thereof is used as the complexity C.
[0038]
Features are
Edge complexity L (see FIG. 8B): After binarizing the edge extraction result with a fixed threshold (ST21, ST22), the calculated number of connected regions [3] (approximates two-dimensional spatial frequency) ( ST23).
[0039]
Horizontal complexity Xs (see (c) and (d) in FIG. 8): When the projection (peripheral distribution) on the X-axis of the edge binarized image is calculated (ST24), Standard deviation (ST26).
[0040]
Vertical complexity Ys (see (e) and (f) in FIG. 8): When the projection (surrounding distribution) on the Y-axis of the same edge binarized image is obtained (ST25), Standard deviation (ST27).
The linear combination formula is
C = CL * L + Cx * Xs + Cy * Ys (1)
(ST28). Here, CL, Cx, and Cy are scaling constants, respectively.
[0041]
Further, when C1 and C2 are set to thresholds satisfying C1> C2, by comparing with these thresholds (ST29 and 31), a teaching process is selected as follows (ST6) (see FIG. 6).
C> C1: teaching for each frame (ST7, 30)
C1> = C> C2: Interpolation teaching (ST9, 32)
C2> = C: According to the result of the existing method (ST11, 33)
Here, in the teaching for each frame, while sequentially displaying each frame, a figure such as a rectangle is drawn at a position where a vehicle is considered to exist, and the teaching result is set as the coordinates of the vertices of the figure each time the frame is updated. It is stored in the database 14 (ST8), and is shown as a teaching means (3) 9 in FIG.
[0042]
Interpolation teaching means teaching the position of the vehicle in a frame where the vehicle appears on the screen and a frame before the vehicle disappears from the screen, and interpolating the coordinates in the frame between those frames. The figure position created by the above is used as a teaching result (ST10), and is shown as a teaching means (2) 8 in FIG. FIG. 9 is a conceptual diagram of an example in which linear interpolation is used as an example of position interpolation between frames as described above.
[0043]
In FIG. 9, using the extracted object teaching position at time t = t0 in FIG. 9A and the extracted object teaching position at time t = tn (see FIG. 9C), the linearity at time t = ti is obtained. FIG. 9B shows the result of the interpolation.
The teaching based on the results of the existing method is not a monitoring method that is currently being evaluated, but if there is a method that is known to have good performance to some extent, the vehicle detection result of that method is used instead ( ST11). For example, when the vehicle detection position is currently evaluated by the optical flow, the vehicle detection result obtained by the stereo method can be used as a substitute for the teaching result. In FIG. This is shown as teaching means (1) 7.
[0044]
As shown in FIG. 6, as shown in FIG. 6, when C2> = C, “per frame”, “linear interpolation”, and “existing method” are displayed in order from top to bottom in the pop-up selection dialog. In the case of C1> = C> C2, the display is the same as described above, but the option of the “existing method” is shaded to make it difficult for the user to select it. Similarly, when C> C1, options other than “per frame” are shaded.
[0045]
At the end of the processing in this step, the candidate presentation order by the system and the candidate selected by the user are stored in association with the teaching target frame range of the taught file on the database 14.
[0046]
[2 Processing of Confirmation Step of Correct Answer Teaching Result]
FIG. 10 shows the flow of the process of this step. In the present embodiment, as an option of the checking method, a frame skip interval for checking is selected. Therefore, for a scene where teaching with higher reliability has been performed, the confirmation may be performed at a wider frame interval, but for a scene where teaching with lower reliability has been performed, a shorter frame interval may be used. Prompt the user to confirm in detail.
[0047]
FIG. 10 shows the flow of command exchange between the user and the system on the GUI, and FIGS. 11 to 14 show the state of the display screen in the main steps. Then, steps 31 to 33 (see FIGS. 11 to 13) from “reading of video file” to “designation of confirmation frame range” are performed in the same manner as steps 1 to 3 in FIG. The stored "display candidate presentation order" and "teaching selection candidate" are searched and extracted using the frame range as a key (ST34, ST35).
[0048]
Next, in the confirmation method selection (ST36), the number of frame skips at the time of confirmation is obtained according to the combination shown in FIG. In FIG. 15, for example, Ne, Nd, Nc, and Nb are options that are allowed as the frame skip number, and are displayed on the pop up dialog from the top in this order to mean that the user is prompted to select (ST37). ) (See FIG. 14). In this case, Na is displayed in a shaded manner, and it is difficult for the user to select it.
[0049]
In FIG. 15, Na>Nb>Nc>Nd> Ne, and in particular, Ne = 1 (continuous frame), and the teaching confirmation means (1) 12 in FIG. 1 is activated. That is, each time ">" is designated from the menu, the teaching result of the next frame is displayed, and each time "<" is designated, the teaching result of the previous frame is displayed. In other cases, the teaching confirmation means (2) 13 in FIG. 1 is activated, and every time "≫" is specified, the frames are continuously generated at the selected skip frame (N = Na to Nd) number of frame intervals. Forward display is performed, and continuous reverse display is performed in the same manner each time "同 様" is specified.
[0050]
For example, looking at the second row and the first column in FIG. 15, the candidate (the teaching method most recommended by the system) first suggested as an option of the teaching method presented by the system is “interpolation teaching”, At this time, the teaching method actually selected by the user is "teaching for each frame". In this case, the teaching method selected by the user is more reliable than the teaching method recommended by the system based on complexity, so as a candidate for a skip frame for confirming the teaching result, A teaching result confirmation method using a skip frame “Nb” larger than Ne, such as “Ne, Nd, Nc, Nb”, is also presented as an option.
[0051]
Conversely, in the first row and the second column in FIG. 15, the option of the teaching method presented by the system is “teaching for each frame”, whereas the teaching method selected by the user at that time is “interpolation”. Teaching ". In this case, the teaching method recommended by the system based on complexity requires a method with high certainty, but the teaching method selected by the user has lower certainty. As candidates for the skip frame to be performed, it is presented that only small frame skips such as “Ne” and “Nd” can be selected, such as “Ne, Nd”.
[Process of attribute assigning step to three scenes]
FIG. 16 shows the flow of the process of this step. FIG. 22 shows an outline of this processing.
[0052]
First, the user reads a video file (ST41), and searches for a frame to which an attribute is to be added by a menu operation (ST42) (see FIGS. 17 and 18). Then, similarly to the processing in steps 2 and 3 in FIG. 6, the start frame and the end frame of the scene for which the attribute assignment is to be started are designated (ST43, ST44). Here, by selecting annot in the “operate” menu (see FIGS. 19 and 20), a pop up dialog for assigning attributes to the video within the specified frame range is started, so that the attributes are set. Input (ST45, ST46) (see FIG. 21).
[0053]
The system registers the attribute input here in association with the designated frame range of the video file on the database 14. Subsequently, an image feature amount is extracted for each image frame within the frame range as described later (ST47), and a representative value of the image feature amount is calculated for the entire frame range (ST48). Here, this characteristic amount representative value is registered and stored in association with the specified frame range similarly to the attribute (ST48).
[0054]
Here, as the feature amount, for example, a luminance frequency distribution hi for a gray scale image in each frame i is used as one relating to lighting, weather, season, and time.
As the representative value (vector), the average value M for each frame of the luminance frequency distribution hi H And variance (variance-covariance matrix) V H Is used.
[0055]
On the other hand, after inputting the frame designation range, by selecting "auto-annot" in the "operate" menu (ST45), the image feature amount is calculated for each frame within the designated frame range (ST49) and compared with the representative value. (ST50) is performed as follows.
[0056]
First, a distance Dkf between the original target frame f (frequency distribution is hf) and the representative value (Hk) of the k-th attribute-added scene is obtained as follows.
(Equation 1)
Figure 2004228852
[0057]
Here, if the distance value for the scene j with the minimum distance is smaller than the distance threshold Dt obtained in advance, the attribute of this scene is automatically added to the frame currently targeted. FIG. 22 shows an outline of this processing. FIG. 22 illustrates a process of automatically assigning attributes to a scene in which a luminance frequency distribution and a scene attribute for an input image are expressed along time.
[0058]
In the figure, the scene attributes of a scene i from time T = ti and a scene k from time t = tk are manually set to "cloudy" and "sunny", respectively. On the other hand, at the time Tf, since no scene attribute is given to the frame, the distance calculation shown in Expression 2 is performed between each frame and the attribute of the scene i having the minimum value is forcibly changed at the time t = f. In the above description, if the current frame of interest is equal to or smaller than the time threshold Tt with an arbitrary frame in a certain attribute-added scene, the distance calculation is performed as follows.
(Equation 2)
Figure 2004228852
[0059]
here
1>Ct> 0 (4)
Constant.
[0060]
Effects of the embodiment
In a vehicle monitoring system using video, it is very important to determine the product specifications with good reproducibility and performance when video of various scenes is input, but it is very important to determine product specifications. In the case of evaluators,
It is necessary to continuously check the input image and the device output of the monitoring device for a long time, and it is necessary to record the evaluation result at a moment.
[0061]
It takes a long time to collect video chickens.
In the operation of inputting the correct answer data, it is necessary to record the correct answer while visually confirming the input video.
Thus, a laborious operation is required for a long time.
Therefore, when such an operation is viewed as a whole, as a first point of the present invention, an expected value (correct answer information) of a processing result is added to a video scene assumed to be input and stored in advance. In addition, the efficiency of work and the reproducibility can be measured by automatically evaluating the recognition result by comparing the result of processing the video data with the evaluation target processing method and the correct answer information.
[0062]
Here, in the overall evaluation work, the one that requires the evaluator's man-hour most is considered to be "correct instruction".
[0063]
Therefore, as a second point of the present invention, a large number of input man-hours is determined from the complexity of the input video, and the "teaching" method is determined to be "simple and slightly inferior in reliability" according to the complexity, and " Efficiency can be improved by providing the user with an interface that can be changed to “there is a thing with high reliability”. On the other hand, since there is room for human error in the "correct teaching" itself, confirmation of the taught data is a necessary process. It is conceivable that the reliability of the device itself becomes low.
[0064]
Therefore, as a third point of the invention, by presenting to the user a candidate of the teaching result confirmation method which is ordered in advance according to the complexity of the input video and what kind of teaching has been performed, " It is possible to improve the efficiency in confirming the "taught data" and also improve the reliability.
[0065]
Furthermore, by adding conditions such as weather and lighting other than “correct answer data” to the input video data, it becomes possible to perform performance evaluation in a specific condition scene by scene search. As a point, for only a few scenes, the above search conditions are manually assigned, the representative value of the image feature amount is statistically automatically calculated for them, and compared with the same image feature amount for an unattributed frame. By doing so, when the attribute representative value of the scene with the added condition and the image feature amount of the frame with the unattended attribute are close to each other, the same condition as the scene with the added condition is automatically assigned to the frame with the unattributed condition, The work of inputting the database of search conditions, which is also troublesome, can be semi-automated, and the efficiency can be significantly improved.
References
[1] Rear side monitoring JP-A-2000-11133, moving object detection apparatus and method
[2] Forward monitoring JP-A-7-334679, area extraction device
[3] Takagi, Shimoda, Image Analysis Handbook, pp578, Jan 1991
【The invention's effect】
As described above in detail, according to the present invention, it is possible to improve the efficiency and reproducibility of a vehicle detection process for evaluating the performance of a method of detecting, monitoring, and alerting a vehicle from video data. We can provide a method.
[Brief description of the drawings]
FIG. 1 is a diagram showing a schematic configuration of a system for evaluating the performance of a recognition result of a vehicle-mounted video monitoring device for explaining an embodiment of the present invention.
FIG. 2 is a flowchart for explaining a correct answer data teaching process.
FIG. 3 is a diagram showing a display example of a file menu screen.
FIG. 4 is a diagram showing a display example of a file menu screen.
FIG. 5 is a diagram showing a display example of a file menu screen.
FIG. 6 is a diagram showing a display example of a file menu screen.
FIG. 7 is a flowchart for explaining pre-selection processing of a correct answer data teaching method.
FIG. 8 is a conceptual diagram of a feature for calculating complexity.
FIG. 9 is a conceptual diagram of linear interpolation teaching.
FIG. 10 is a flowchart illustrating a correct answer teaching result confirmation process.
FIG. 11 is a view showing a display example of a file menu screen.
FIG. 12 is a view showing a display example of a file menu screen.
FIG. 13 is a view showing a display example of a file menu screen.
FIG. 14 is a view showing a display example of a file menu screen.
FIG. 15 is a diagram showing a skip frame number calculation rule when a correct answer teaching result is confirmed.
FIG. 16 is a flowchart for explaining a process of an attribute assigning step to a scene.
FIG. 17 is a view showing a display example of a file menu screen.
FIG. 18 is a view showing a display example of a file menu screen.
FIG. 19 is a view showing a display example of a file menu screen.
FIG. 20 is a diagram showing a display example of a file menu screen.
FIG. 21 is a diagram showing a display example of a file menu screen.
FIG. 22 is a diagram showing an outline of processing for automatically assigning attributes to a scene.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Video input means, 2 ... GUI for attribute teaching, 3 ... Teaching time range designating means, 4 ... Video feature amount calculating means, 5 ... Teaching method priority determining means, 6 ... Teaching method selecting means, 7 ... Teaching means ( 1), 8 ... teaching means (2), 9 ... teaching method priority determination means, 10 ... teaching confirmation method presenting means, 11 ... teaching confirmation selection means, 12 ... teaching confirmation means (1), 13 ... teaching confirmation means ( 2), 14: database, 15: attribute determination feature amount calculating means, 16: non-attributed similar frame detecting means, 17: automatic attribute providing means, 18: 19: video monitoring means.

Claims (6)

映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果と、正解情報とを比較して認識結果の評価を行うことを特徴とする車両検出処理の評価支援方法。In order to evaluate the performance of the method of detecting a vehicle from video data, monitoring and warning, the input video is stored as video data at regular sampling times, and the correct answer information and scene A database to which a feature description given as an attribute value is added is created, and a recognition result is evaluated by comparing a result obtained by processing the video data by an evaluation target processing method with correct answer information. Evaluation support method for vehicle detection processing. 映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果の検出対象物の位置と、形状と、正解情報とを比較して認識結果の評価を行う車両検出処理の評価支援方法であって、
正解の教示を行うために、入力映像データ中の各フレーム内の対象物侯補による映像の複雑さを判定し、この判定結果に応じて、複数の教示方法に優先順位をつけてユーザに提示し、教示方法選択の支援を行うことを特徴とする車両検出処理の評価支援方法。
In order to evaluate the performance of the method of detecting a vehicle from video data, monitoring and warning, the input video is stored as video data at regular sampling times, and the correct answer information and scene Create a database to which a feature description given as an attribute value is added, and compare the position, shape, and correct answer information of a detection target as a result of processing the video data with the evaluation target processing method and recognize the recognition result. An evaluation support method for vehicle detection processing for evaluating
In order to teach the correct answer, the complexity of the video by the candidate object in each frame in the input video data is determined, and multiple teaching methods are prioritized and presented to the user according to the determination result. And a support method for selecting a teaching method.
映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果の検出対象物の位置と、形状と、正解情報とを比較して認識結果の評価を行う車両検出処理の評価支援方法であって、
正解の教示を行うために、入力映像データ中の各フレーム内の対象物侯補による映像の複雑さを判定し、この判定結果に応じて教示方法選択の支援を行い、映像が複雑な順に、信頼度は高いが処理が複雑である選択肢から、より信頼度が低いが、処理が簡便な教示方法として、
映像データ中の各フレームごとに対象物の位置と形状とを教示し、
一定時間間隔、または任意時間間隔での車両位置を真値として教示し、
上記時間間隔中では、前述の真値の教示位置を補間した結果をその区間での教示データとして用い、またはある程度信頼できる認識方式を用いて仮の教示データを作成するものを提示可能であることを特徴とする車両検出処理の評価支援方法。
In order to evaluate the performance of the method of detecting a vehicle from video data, monitoring and warning, the input video is stored as video data at regular sampling times, and the correct answer information and scene Create a database to which a feature description given as an attribute value is added, and compare the position, shape, and correct answer information of a detection target as a result of processing the video data with the evaluation target processing method and recognize the recognition result. An evaluation support method for vehicle detection processing for evaluating
In order to teach the correct answer, determine the complexity of the video by the candidate object in each frame in the input video data, support the selection of the teaching method according to this determination result, in the order of the video complexity, As an alternative method that has high reliability but complicated processing, as a less reliable but simple processing teaching method,
Teach the position and shape of the object for each frame in the video data,
Teach the vehicle position at fixed time intervals or arbitrary time intervals as true values,
During the time interval, it is possible to use the result of interpolating the above-described true value teaching position as the teaching data in that section, or to be able to present the one that creates temporary teaching data using a somewhat reliable recognition method. An evaluation support method for vehicle detection processing characterized by the following.
映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果の検出対象物位置、形状と、正解情報とを比較して認識結果の評価を行う車両検出処理の評価支援方法であって、
教示済みの正解データの確認作業を行うために、入力映像データ中の各フレーム内対象物侯補による映像の複雑さと、教示データがどのような手段を用いて教示されたのかに基づいて教示データの信頼度を判定し、その結果に応じて、複数の教示確認方法に優先順位をつけて提示し、ユーザによる選択の支援を行うことを特徴とする車両検出処理の評価支援方法。
In order to evaluate the performance of the method of detecting a vehicle from video data, monitoring and warning, the input video is stored as video data at regular sampling times, and the correct answer information and scene Create a database to which a feature description is given as an attribute value, and compare the position and shape of a detection target as a result of processing the video data with the evaluation target processing method and the correct answer information to evaluate the recognition result. An evaluation support method for a vehicle detection process for performing
In order to perform the work of checking the correct answer data that has been taught, the teaching data is based on the complexity of the video by the candidate object in each frame in the input video data and the means by which the teaching data was taught. A method of determining the reliability of a vehicle, and presenting a plurality of teaching confirmation methods with priorities in accordance with the results, and assisting the user in making a selection.
映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果の検出対象物位置、形状と、正解情報とを比較して認識結果の評価を行う車両検出処理の評価支援方法であって、
教示済みの正解データの確認作業を行うために、入力映像データ中の各フレーム内の対象物侯補による映像の複雑さと、教示データがどのような手段を用いて教示されたのかに基づいて教示データの信頼度を判定し、その結果に応じて、複数の教示確認方法に優先順位をつけて提示し、ユーザによる選択の支援を行い、映像が複雑で、かつ教示時に選択された方法の信頼度が低い順に、より確実だが処理に手間のかかる確認方法から優先的に提示し、その選択肢として、各フレームごとに対象物の位置と形状とを確認するか、あるいは一定フレームをスキップしながらの教示結果を確認するかを提示可能であることを特徴とする車両検出処理の評価支援方法。
In order to evaluate the performance of the method of detecting a vehicle from video data, monitoring and warning, the input video is stored as video data at regular sampling times, and the correct answer information and scene Create a database to which a feature description is given as an attribute value, and compare the position and shape of a detection target as a result of processing the video data with the evaluation target processing method and the correct answer information to evaluate the recognition result. An evaluation support method for a vehicle detection process for performing
In order to check the correct answer data that has been taught, teaching is performed based on the complexity of the image due to the candidate object in each frame in the input video data and the means used to teach the teaching data. Judgment of the reliability of the data, prioritizing and presenting a plurality of teaching confirmation methods in accordance with the result, supporting the user's selection, and having a complicated image and reliability of the method selected at the time of teaching. In the descending order, priority is given to the confirmation method that is more reliable but requires more processing, and as an option, you can check the position and shape of the object for each frame or skip certain frames. An evaluation support method for a vehicle detection process, wherein it is possible to present whether to confirm a teaching result.
映像データ中から車両を検出し、監視、警報を行う方法の性能を評価するために、入力映像を一定サンプリング時間毎に映像データとして蓄積し、この映像データに対して、正解情報、およびシーンの特徴記述を属性値として与えたものとを付加したデータベースを作成し、前記映像データを評価対象処理方式で処理した結果の検出対象物位置、形状と、正解情報とを比較して認識結果の評価を行う車両検出処理の評価支援方法であって、
天候条件、照明条件、シーン条件等の属性データが付与済みである複数のフレームについて、フレームを代表する画像特徴量を求め、それらについてのシーンごとの代表値の範囲とフレームの前後関係とから、属性未付与フレームに対する属性値を推定し、それら属性未付与のフレームに伝播させることを可能とすることを特徴とすることを特徴とする車両検出処理の評価支援方法。
In order to evaluate the performance of the method of detecting a vehicle from video data, monitoring and warning, the input video is stored as video data at regular sampling times, and the correct answer information and scene Create a database to which a feature description is given as an attribute value, and compare the position and shape of a detection target as a result of processing the video data with the evaluation target processing method and the correct answer information to evaluate the recognition result. An evaluation support method for a vehicle detection process for performing
For a plurality of frames to which attribute data such as weather conditions, lighting conditions, and scene conditions have been added, image feature amounts representing the frames are obtained. An evaluation support method for a vehicle detection process, wherein an attribute value of an attribute-unassigned frame is estimated and propagated to the attribute-unassigned frame.
JP2003013380A 2003-01-22 2003-01-22 Evaluation supporting method of vehicle detection processing Pending JP2004228852A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003013380A JP2004228852A (en) 2003-01-22 2003-01-22 Evaluation supporting method of vehicle detection processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003013380A JP2004228852A (en) 2003-01-22 2003-01-22 Evaluation supporting method of vehicle detection processing

Publications (1)

Publication Number Publication Date
JP2004228852A true JP2004228852A (en) 2004-08-12

Family

ID=32901723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003013380A Pending JP2004228852A (en) 2003-01-22 2003-01-22 Evaluation supporting method of vehicle detection processing

Country Status (1)

Country Link
JP (1) JP2004228852A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165740A (en) * 2006-11-29 2008-07-17 Mitsubishi Electric Research Laboratories Inc Computer implemented method for measuring performance of surveillance system
JP2010004239A (en) * 2008-06-19 2010-01-07 Fuji Xerox Co Ltd Image processor and image processing program
CN114339330A (en) * 2021-11-25 2022-04-12 浙江大华技术股份有限公司 Network hard disk video recording writing method, device, electronic device and storage medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165740A (en) * 2006-11-29 2008-07-17 Mitsubishi Electric Research Laboratories Inc Computer implemented method for measuring performance of surveillance system
JP2010004239A (en) * 2008-06-19 2010-01-07 Fuji Xerox Co Ltd Image processor and image processing program
CN114339330A (en) * 2021-11-25 2022-04-12 浙江大华技术股份有限公司 Network hard disk video recording writing method, device, electronic device and storage medium

Similar Documents

Publication Publication Date Title
EP1891580B1 (en) Method and a system for detecting a road at night
KR102026685B1 (en) Apparatus and server for providing dangerous road information using image data and vibration
CN104657735B (en) Method for detecting lane lines, system, lane departure warning method and system
US6647139B1 (en) Method of object recognition, apparatus of the same and recording medium therefor
US9282296B2 (en) Configuration tool for video analytics
US8194912B2 (en) Method and apparatus for analyzing image, and computer product
CN112349144B (en) Monocular vision-based vehicle collision early warning method and system
CN103770704A (en) System and method for recognizing parking space line markings for vehicle
KR102082254B1 (en) a vehicle recognizing system
JP6700373B2 (en) Apparatus and method for learning object image packaging for artificial intelligence of video animation
TWI335886B (en) Methods and systems for identifying events for a vehicle
CN114067295A (en) Method and device for determining vehicle loading rate and vehicle management system
CN107292222B (en) Vehicle violation detection method and device
CN109544981B (en) Image processing method, apparatus, device and medium
JP2004228852A (en) Evaluation supporting method of vehicle detection processing
CN112820141A (en) Parking space detection method and system
JP6681965B2 (en) Apparatus and method for extracting learning target image for autonomous driving
JP2021033494A (en) Annotation support method, annotation support device, and annotation support program
EP3627378A1 (en) Enhancing the detection of non-structured objects on a driveway
Michaelsen et al. Estimating urban activity on high-resolution thermal image sequences aided by large scale vector maps
CN116958543A (en) Vehicle segmentation method and system based on high-order video
JPH0676065A (en) Method and device for recognizing road circumstances
US20240142267A1 (en) Vehicular sensing system
Shams El Din Statistical modelling of critical cut-ins for the evaluation of autonomous vehicles and advanced driver assistance systems
JPH0855220A (en) System and method for moving body extraction processing