JP2008092471A - 対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラム - Google Patents

対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラム Download PDF

Info

Publication number
JP2008092471A
JP2008092471A JP2006273352A JP2006273352A JP2008092471A JP 2008092471 A JP2008092471 A JP 2008092471A JP 2006273352 A JP2006273352 A JP 2006273352A JP 2006273352 A JP2006273352 A JP 2006273352A JP 2008092471 A JP2008092471 A JP 2008092471A
Authority
JP
Japan
Prior art keywords
image
tag
clip
target
moving image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006273352A
Other languages
English (en)
Other versions
JP4993678B2 (ja
Inventor
Fujio Tsutsumi
富士雄 堤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Research Institute of Electric Power Industry
Original Assignee
Central Research Institute of Electric Power Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Research Institute of Electric Power Industry filed Critical Central Research Institute of Electric Power Industry
Priority to JP2006273352A priority Critical patent/JP4993678B2/ja
Publication of JP2008092471A publication Critical patent/JP2008092471A/ja
Application granted granted Critical
Publication of JP4993678B2 publication Critical patent/JP4993678B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Studio Circuits (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Abstract


【課題】動画像中の対象物を対話型処理により追跡精度を向上させながら監視する。
【解決手段】画像クリップ毎に選択されたラベル付けデータをデータベースに登録し、各フレームの各画像クリップについて画像特徴量を算出し、画像特徴値を基準として、タグ付け処理を行い、ラベル付け及びタグ付け結果をフレーム画像と同時に可視化表示する。
【選択図】図2

Description

本発明は、対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラムに関する。さらに詳述すると、長時間の動画像監視システムに好適な対話型の動画像監視方法、動画像監視装置および動画像監視プログラムに関する。
近年急速な発展を遂げたデジタルビデオカメラ、計算機などのIT機器を活用した、画像監視技術の実用化が進められている。画像監視技術の中心となる技術は、撮影された画像を計算機により認識し、例えば侵入者の有無を判断したり、機器の障害などを検出する画像認識技術である。
例えば、電力会社においては、保守・管理コストを低減するために電力関連設備の損傷箇所の検出に画像監視技術の実用化が進められている。また、電力関連施設への侵入者を検知のための画像監視技術の実用化が進められている。
従来、高精度の画像認識を実現する技術として、SVM(サポートベクタマシン)やBoosting(ブースティング)等の教師付き機械学習技術(Supervised Machine Learning)が存在し、すでに様々な分野で活用されている。これらの教師付き機械学習は、人間が計算機に教示した認識すべき事例(正例という)と、認識すべきでない事例(負例という)をもとに、事例を学習させ、与えられていない事例に対しても適切な認識を行うものである。例えば、特許文献1には、SVMを用いた人の顔の判定技術が記載されている。
更に、電力関連設備等での障害の検知であれば、障害が発生することは稀であり、監視映像から異常が映っている箇所を選び出す作業は容易でない。このような事例教示における課題に対して、直接操作型のユーザインタフェースを用いることで、人間の認知能力を活用し、解決を図ろうとするインタラクティブ機械学習(Interactive Machine Learning:以下、IMLという)が提案されている。IMLは、例えば、事例(以下、データともいう)の解析結果を色やシンボルを使って一覧性良く可視化することで、ユーザは自分が行った事例教示(以下、ラベル付けともいう)の良し悪しや、ラベルの修正が必要な箇所を容易に把握することができるものである。
例えば、非特許文献1には、描画ソフトと同様のインタフェースにより、バッチ処理ではなく対話型(インタラクティブ)処理により機械を学習させ、静止画像の画像認識を実現できるシステムが提案されている。また、非特許文献2には、音、画像、RFID等の複数のセンサ情報を同時に分析して人物の有無を判断するシステムが提案されている。
特開2006−4003号公報 Jerry Alan Fails and Dan R.Olsen Jr. Interactive machine learning.In Proceedings of the 8th international conference on Intelligent user interfaces,pp.39-45,2003. Anind K.Dey,Raffay Hamid,Chris Beckmann,Ian Li,and Daniel Hsu. a CAPpella:programming by demonstration of contextaware applications.In Proceedings of the SIGCHI conference on Hman factors in computing systems,pp.33-40,2004.
画像認識において必要とされる事例教示は、膨大なデータの中から教示すべきデータを選び出す作業(事例の選択)と、それが認識すべきデータか否かという情報(正負のラベル)を付与する作業(ラベル付け)から成るが、この事例の選択とラベル付けは、いずれも人間の労力が必要であり軽減が求められている。
しかしながら、特許文献1に記載のような教師付き機械学習は、認識精度は高いが、精度良く認識が可能になるまでの学習システムの教育には、人間による事例教示の手間が膨大であり、多大な時間を要するという問題がある。
例えば、屋外での監視映像であれば、多様な照明条件(朝、昼、夕方、雨、曇り、雪、人工照明など)のもとで、見た目の色や形を変える様々な現象(錆、傷、剥離、放電、侵入者、動植物等)を認識することが求められるため、計算機を十分に学習させるためには多数の事例教示しなければならず、大変な手間がかかり、実用的とはいえない。そのため、実用的な画像監視システムを構築するには、事例教示の手間を削減する必要がある。
また、これら教師付き機械学習における認識処理は、バッチ処理で行われるものであり、処理に時間がかかるという問題がある。また、バッチ処理であるので、ユーザが処理の途中などに、必要に応じて学習状況を確認したり、認識精度の確認を行ったりする対話型での実行は不可能であった。したがって、認識結果が満足のいくものでなければ、バッチ処理が終了した後に、再度、事例教示を行って、もう一度バッチ処理を行うことが必要となり、満足のいく認識結果を得るためには時間がかかるという問題があった。
この問題に対して、非特許文献1に記載の技術では、認識結果を即座に可視化し表示することで、正誤をユーザに認識させるという方法で解決を図っている。このため、静止画像では適用可能であるが、動画像での対象物の追跡においては、扱う情報量が静止画像の数万倍と多量になるため、処理に時間がかかり即時的なフィードバックが返せないという問題がある。即ち、動画像に適用した場合、対話型の処理といっても教示結果が即座に反映されず、バッチ処理のときと同じ問題が生じる。
このように、情報量の増大と共に処理時間は増加するので、膨大な情報量を扱う動画像監視においては、バッチ処理でしか処理を行うことはできず、対話型の機械学習システムの実現は困難であると考えられていた。
また、非特許文献2に記載の技術では、連続する画像を対象としているものの、画像情報に加えて、音情報や無線IDタグ情報を組み合わせることにより人物の監視を行うものであり、画像情報だけを用いて動画像での監視を可能としたものではない。また、人間以外のものを監視対象とする場合や侵入者を監視する場合は、音情報、無線ICタグ情報等を得られない場合が考えられ、非特許文献2に記載の技術では、監視を行うことが不可能である。
更に、特許文献1に記載の教師付き機械学習、非特許文献1及び2に示すようなIMLを用いた技術では、ユーザが事例教示を追加していく過程で、その追加した事例教示が、データ全体の識別精度にどのような影響を及ぼすのかを知る術がなく、ユーザが状況を認識できないという問題がある。換言すれば、ユーザは、現在行っている事例教示の効果がよくわからないという問題がある。
そこで、動画像の監視において、ユーザが事例を教示していく過程で、即座に事例教示状況を把握しながら最適な事例教示方法を選択することが可能であり、更に、従来のバッチ処理に比べて迅速かつ認識精度の良い対話型の処理システムの実現が望まれている。
そこで本発明は、ユーザにより教示された最小限の事例に基づいて動画像データ中の対象物を監視、追跡し、更にその監視、追跡結果を分かりやすく可視化表示することを可能とする対話型動画像監視方法、対話型動画像監視装置及び対話型動画像監視プログラムを提供することを目的とする。
かかる目的を達成するため、請求項1に記載の対話型動画像監視方法は、動画像中の監視対象物を監視及び追跡する方法において、動画像のフレーム画像のうち画像処理の対象となる処理対象領域内に一以上の画像クリップを設け、画像クリップ内に監視対象物が撮影されているかどうかについてのラベル付けデータを登録するラベル登録処理と、画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、ラベル付けデータが登録されていない画像クリップの画像特徴量が、ラベル付けデータが登録された画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては、該ラベル付けデータに従ったタグ付けをラベル付けデータが登録されていない画像クリップに対し行うタグ付け処理と、タグ付け処理の結果をタグの重要度に基づいて動画像のフレーム画像と併せて表示する可視化処理とを行うようにしている。
また、請求項6に記載の対話型動画像監視装置は、動画像中の監視対象物を監視及び追跡する装置であって、動画像のフレーム画像を読み出し、画像処理の対象とする処理対象領域内に一以上の画像クリップを設定し、画像クリップ内に監視対象物が撮影されているかどうかについて予め指定されるラベル付けデータをデータベースに登録するラベル登録手段と、画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、データベースにラベル付けデータが登録されていない画像クリップの画像特徴量が、ラベル付けデータが登録されている画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあれば、該ラベル付けデータに従ったタグ付けをラベル付けデータが登録されていない画像クリップに関連づけて記憶するタグ付け手段と、タグ付け処理の結果をタグの重要度に基づいて動画像のフレーム画像と併せて出力装置に表示する可視化手段とを備えるものである。
また、請求項11に記載の対話型動画像監視プログラムは、動画像のフレーム画像のうち、画像処理の対象とする処理対象領域内に一以上の画像クリップを設定し、主記憶装置に記憶させる対象領域設定処理と、記憶装置に予め登録された、画像クリップ内に監視対象物が撮影されているかどうかについてのラベル付けデータを読み出し、画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、ラベル付けデータが登録されていない画像クリップの画像特徴量が、ラベル付けデータが登録されている画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあれば、該ラベル付けデータに従ってラベル付けデータが登録されていない画像クリップにタグ付けを行い、更に、そのタグ付け結果をタグの重要度に基づいて動画像のフレーム画像と併せて出力装置に表示する画像認識、解析処理とをコンピュータに実行させることにより動画像中の監視対象物を監視及び追跡するものである。
したがって、先ず、監視対象物が撮影された動画像の各フレーム画像に対し、画像処理の対象となる部分を処理対象領域として設定し、さらに当該処理対象領域内を画像クリップを少なくとも1つ以上の領域に区分する。そして、ユーザにより当該画像クリップ毎に選択されたラベル、具体的には、監視対象物が撮影されている画像クリップに対して付されるラベル(ターゲットラベル)、または監視対象物が撮影されていない画像クリップに対して付されるラベル(非ターゲットラベル)のいずれかのラベル付けデータをデータベースに登録している。更に、各フレームの各画像クリップについて、その画像クリップ内の画素のRGB、HSV等の色情報値に基づいて画像特徴量を算出する。また、データベースに既にラベル付けデータが登録されている画像クリップについての画像特徴量の各要素を軸とする高次元空間において、そこから予め設定された一定の範囲に含まれる画像特徴値を有するまだラベル付けデータが登録されていない画像クリップについて、その基準となるラベルがターゲットラベルであれば、ターゲットタグを、非ターゲットラベルであれば、非ターゲットタグを付与している。更に、ラベル付け及びタグ付けがなされたすべてのフレームのタグ情報をタグの重要度に基づいて、表示されているフレーム画像と同一の画面で併せて表示している。尚、本明細書においてタグとは、付されたラベルに基づいて計算機が推定するラベルをいう。また、画像特徴量とは計算機が対象となる画像データから計算した画像を特徴づける色や模様などの情報である。
請求項2に記載の発明は、請求項1に記載の対話型動画像監視方法において、ラベル付けデータを登録及び検索する際に、局所性鋭敏型ハッシュのアルゴリズムを用いるようにしている。また、請求項7に記載の発明は、請求項2に記載の対話型動画像監視装置において、ラベル付けデータを登録及び検索する際に、局所性鋭敏型ハッシュのアルゴリズムを用いるものである。
したがって、ツリー型の検索アルゴリズムではなく、ハッシュ関数を用いた近似最近傍探索(ANN;Approximate Nearest Neighbor)の検索アルゴリズムである局所性鋭敏型ハッシュ(LSH;Locality-Sensitive Hashing)を用いている。
請求項3に記載の発明は、請求項1または2に記載の対話型動画像監視方法において、タグ付け処理は、監視対象物が撮影されているとラベル付けされた画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについてはターゲットタグ、監視対象物が撮影されていないとラベル付けされた画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては非ターゲットタグ、いずれの範囲内にもない画像クリップについては不明タグをタグ付けするようにしている。
また、請求項8記載の発明は、請求項6または7に記載の対話型動画像監視装置において、タグ付け手段は、監視対象物が撮影されているとラベル付けされた画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについてはターゲットタグ、監視対象物が撮影されていないとラベル付けされた画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては非ターゲットタグ、いずれの範囲内にもない画像クリップについては不明タグをタグ付けするものである。
したがって、ラベル付けデータからでは判断できないデータ(画像クリップの画像特徴量)、即ち、正例または負例として登録されたいずれのラベルの画像特徴量の各要素を軸とする高次元空間において、一定の距離にないデータを不明タグとしている。
請求項4に記載の発明は、請求項1から3までのいずれかに記載の対話型動画像監視方法において、可視化処理は、動画像のすべてのフレーム画像についてのタグ付け処理の結果を圧縮して一画面上に表示するようにしている。また、請求項9に記載の発明は、請求項6から8までのいずれかに記載の対話型動画像監視装置において、可視化手段は、動画像のすべてのフレーム画像についてのタグ付け結果を圧縮して一画面上に表示するものである。
したがって、対象となる動画像のすべてのフレームについてのタグ付けの結果を出力装置の表示画素数に収まるように圧縮して一画面上に表示している。
請求項5に記載の発明は、請求項4に記載の対話型動画像監視方法において、タグの重要度は、不明タグが最も高く、非ターゲットタグが最も低いようにしている。また、請求項10記載の発明は、請求項9に記載の対話型動画像監視装置において、タグの重要度は、不明タグが最も高く、非ターゲットタグが最も低いものである。
したがって、タグ付け結果を圧縮して表示する際に、不明タグを最優先に表示し、次いで、ターゲットタグ、非ターゲットタグの順に表示するようにしている。
以上説明したように、請求項1に記載の対話型動画像監視方法、請求項6に記載の対話型動画像監視装置及び請求項11に記載の対話型動画像監視プログラムによれば、動画像中の監視対象物を、対話型処理により事例教示の効果を確認しながら、かつその監視、追跡精度を向上させながら解析することができる。
また、動画像の再生と同時に可視化表示されるタグ付け結果を見ることで、タグの時間・空間的変化を瞬時に捉えることができる。即ち、現在の教示状況(ラベル付け状況)下での対象物の監視、追跡精度を即時に捉えることができ、更なる監視、追跡精度の向上のためには、どのようなラベル付けを行えばよいかを判断することができる。
このように、タグ付けをユーザ制御下におくことにより、情報処理量を必要最小限とすることができ、従来不可能であった、動画像におけるインタラクティブな監視システムを実現することが可能となる。
また、情報処理量の削減により、ユーザによるラベル付けは即座にフィードバック処理が成されるので、ユーザが新たに教示したラベルが画像全体の監視状況にどのような影響を与えたのかを、その都度、即座に確認することができる。これにより、ユーザは、どのようなラベル付けを追加して行っていけばよいのかを判断したり、どのようにラベル付けを行えば少ないラベル付け、即ち、少ない時間で監視、追跡精度を向上させることができるのかを判断することができる。
また、請求項2に記載の対話型動画像監視方法及び請求項7に記載の対話型動画像監視装置によれば、データの追加によりツリー構造が複雑になることがないため、ツリー型のアルゴリズムに比べて高速なデータ登録、データ検索処理を実現することができる。
また、請求項3に記載の対話型動画像監視方法及び請求項8に記載の対話型動画像監視装置によれば、ラベル付けデータからでは、ターゲットまたは非ターゲットタグを付与できない、即ち、監視対象物または非監視対象物のいずれであるかを判断できないデータに不明タグを付与し、可視化表示することで、ユーザにどのような点を中心に事例教示を行えばよいかを提示し、ユーザが最小限の教示数で精度の高い対象物の監視、追跡を可能とすることができる。
また、請求項4に記載の対話型動画像監視方法及び請求項9に記載の対話型動画像監視装置によれば、対象となる動画像のフレーム数が出力装置の出力可能な画素数(例えば横軸方向)を超える場合であっても、タグ付け結果が圧縮して一画面上に可視化表示されるので、ユーザはラベル付けの効果を確認しながら、事例教示を続けていくことが可能となる。
また、請求項5に記載の対話型動画像監視方法及び請求項10に記載の対話型動画像監視装置によれば、タグ付け結果が圧縮して表示される場合であっても、まだタグの推定が行えていない不明タグを中心としたラベル付けを行うことができる。
以下、本発明の構成を図1〜図7に示す実施の形態に基づいて詳細に説明する。
図1に本発明の対話型画像監視装置1の構成の一例を示す。本発明の対話型画像監視装置1は、ディスプレイ等の出力装置2と、キーボード、マウス等の入力装置3と、演算処理を行う中央処理演算装置(CPU)4と、演算中のデータ、パラメータ等が記憶される主記憶装置(メモリ、RAM)5と、計算結果等の各種データが記録される補助記憶装置6としてのハードディスク、撮影された動画像が入力される入力インターフェース7等を備えている。以下、主記憶装置5及び補助記憶装置6を総称して、単に記憶装置ともいう。上記のハードウェア資源は例えばバス8を通じて電気的に接続されている。
入力インターフェース7は、ビデオカメラ等の撮像手段9から入力される、又は映像が記録されたDVD、ビデオテープ等の記憶媒体10から読み込まれる信号をコンピュータでの処理が可能なデータに変換する機能や、映像を構成する各フレーム画像をそれぞれ映像データ14として補助記憶装置6に記録する機能を有する。このような入力インターフェース7として、例えば既存のNTSC-RGBコンバータやフレームグラバまたはパーソナルコンピュータ用画像取り込みボード等を利用して良い。また、出力装置2には、ユーザインターフェース画面などが表示される。また、本発明の対話型画像監視プログラムは、補助記憶装置6に記録されており、当該プログラムがCPU4に読み込まれ実行されることによって、コンピュータが対話型画像監視装置1として機能する。
また、対話型画像監視装置1は、ラベル登録処理を実行するラベル登録手段11、タグ付け処理を実行するタグ付け手段12及び可視化処理を実行する可視化手段13とを備えるものである。尚、上記ラベル付け手段11、タグ付け手段12及び可視化手段13は、CPU4で実行されるソフトウェアをコンピュータで実行させることで構成できる。
その実行の際に必要なデータは、RAM5にロードされる。また、補助記憶装置6には、映像データ14が記憶され、ユーザにより教示されたデータとそのラベルを記憶し、データの登録、検索を可能とするLSHデータベース15及び画像クリップ識別番号、フレーム番号I、グリッド中の座標位置xy、ラベル、タグ等を記憶するICP(Image Clip Profile)データベース16が構成される。また、RAM5には、可視化領域37の水平画素×垂直画素のメモリ領域で、ラベルもしくはタグを保持する可視化領域のデータマップ17が形成される。尚、可視化領域のデータマップ17は、初期化時は、すべて不明タグ53となっている。尚、補助記憶装置6は、必ずしもコンピュータ内部の装置であることに限らず、外付けのハードディスク、ネットワーク経由でアクセス可能な外部記憶装置を用いても良いのは勿論である。以上述べた対話型画像監視装置1の構成は一例であってこれに限られるものではない。
本発明の対話型画像監視方法は、動画像中の監視対象物を監視及び追跡する方法において、動画像の各フレーム画像のうち画像処理の対象となる処理対象領域内に一以上の画像クリップを設け、画像クリップ内に監視対象物が撮影されているかどうかについてのラベル付けデータを登録するラベル登録処理と、画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、ラベル付けデータが登録されていない画像クリップの画像特徴量が、ラベル付けデータが登録された画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては、該ラベル付けデータに従ったタグ付けをラベル付けデータが登録されていない画像クリップに対し行うタグ付け処理と、タグ付け処理の結果をタグの重要度に基づいて動画像のフレーム画像と併せて表示する可視化処理とを行うものである。以下、本実施形態における対話型画像監視方法及び対話型画像監視プログラムについて述べる。
本発明の対話型画像監視方法では、情報探索手法としてLSHを用いることにより、ツリー型の探索手法に比べてデータ探索の速度向上を図っているが、動画像は静止画像の数万倍という情報量となるため、単にLSHを用いただけでは、フィードバックが遅くなり対話型での処理は不可能である。
そこで本発明の対話型画像監視方法では、ユーザが容易かつ迅速にラベル付け可能な直接操作型のグラフィカルインタフェースを用い、更にタグ付け処理をユーザ制御下に置くことで、フィードバック遅れの問題を解消し、画像認識結果を即座に表示することができる動画像での対話型監視を実現している。
尚、直接操作とはウィンドウシステムで用いられるユーザインタフェース技法をいい、具体的には、マウスによるファイル移動や、スライダーでの画面スクロールを指す。これはファイルアイコンや、スライダーコントロールといった、計算機内のリソースを視覚的に表現した画像シンボルを、直接触って動かしているかのように操作できる点に特徴がある。また、直接操作が効果的に働くのは、画像データを瞬時に把握できるという視覚的認知能力、50msec以内のコマ送り画像を動いていると認識する仮現運動、さらに200msec以内に起こった現象に関しては、変化を鋭敏に感知したり、因果関係を感じるという変化検知能力が人間に備わっているためである。直接操作では、変化がすぐにフィードバックされるため、ユーザは自身のラベル付けが及ぼす影響を感覚的に理解でき、さらに計算機が間違っていて、修正が必要な事例を容易に識別・指定できる。
例えば、表1の視覚認知特性に示すように、システムの反応時間に応じて、ユーザが処理可能な処理内容は変化する。
従来のIMLでは、主に50ms以下の直接操作可能な範囲を対象としていた。しかし、連続操作以上に時間のかかる遅い応答しか返せない場合も存在する。そこで、本発明では、動画像の再生モードとして、「コマ送り」、「通常再生」、「バッチ処理」の3つのモードをユーザに選択的に利用可能とさせることにより、ユーザの操作性を向上させて処理時間の短縮化を図り、対話型の画像監視システムを実現することを特徴としている。
「コマ送り」モードとは、ユーザが画像を1フレームずつ確認しながら、ラベル付けを可能とするモードである。新たに指定されたラベル付けされたデータは、LSHにより瞬時に登録される。「通常再生」モードとは、既にタグ付け処理がなされた画像をTVレート(29.97fps)で再生しながらユーザがタグ付け状況を確認することができるモードである。「バッチ処理」モードとは、すべての画像にタグ付け処理を行いながらバッチ処理を行うものである。本実施形態では、タグ付け処理においては、常に途中経過を可視化表示し、また、バッチ処理中でもいつでも一時停止及び任意の時点から処理を可能とすることで、操作性を向上させている。
次に、図9に示す本発明の対話型画像監視プログラムが行う処理全体を示すフローチャートを用いて説明する。
先ず、初期設定(S1)を行う。初期設定(S1)では、対象フレーム番号iの初期化を行い(i=1)、再生モードを「コマ送り」とする。更に、LSHデータベース15、ICPデータベース16が既にある場合は、補助記憶装置6から読み込み、存在しない場合は、新規にデータベースの作成を行う。また、可視化領域のデータマップ17の初期化を行う。
次に、対象領域設定(S2)を行う。対象領域設定(S2)では、先ず、読み込んだ動画像の1フレーム目の画像を出力装置2に表示させる。尚、1フレーム目の画像に監視対象物40(以下、対象物、ターゲットともいう)が撮影されていない場合等は、ユーザが対象物40の撮影が開始されるまで、フレームを早送り機能により動画像を進めれば良い。また、認識、解析の対象とする映像は、補助記憶装置6に予め記憶されている映像データ14から読み出しても、または撮像手段9及び記録媒体10から直接キャプチャ処理を行うようにしても良い。尚、本実施形態では、映像データ14は、例えばTVレート(29.97fps)の画像としているが、フレームレートは特に限られるものではない。
図2に本発明の対話型画像監視プログラムのユーザインタフェース画面の一例を示す。ウィンドウ21に動画像を表示するのが映像表示領域22である。また、画面に表示されているグリッド23の最外辺に囲まれる領域が、ユーザにより指定された処理対象領域24を示す。以降のラベル付けやタグ付け等の画像処理は、すべてこの処理対象領域24に対して行われる。このようなマスク処理を前提とすることで、計算量を減らしかつノイズの混入を制限できるため、高速かつ高精度な処理が可能となる。例えば、DV−NTSCの場合であれば映像の画素数は720×480ピクセルであるが、マスク処理をすることによって処理対象領域24を限定することができる。
尚、画面全体に変化が生じたか否かのみを監視したい場合等においては、例えば、処理対象領域24を指定せず、映像表示領域22に表示された画像全体を処理の対象としても良い。
処理対象領域24は、対象物40が撮影された映像表示領域22に表示されたフレーム画像に対し、ユーザがマウス操作等で処理対象領域24を選択し、更に、処理対象領域24を区切るグリッド23のサイズを指定することにより指定される。また、グリッド23の設定は必須ではなく、例えば、処理対象領域24に対象物40が存在するか否かのみを確認したい場合等では、グリッド23を設定する必要はない。
本実施形態では、フレーム画像中のグリッド23に囲まれる画像単位を「画像クリップ」と呼び、ラベル付けやタグ付けの単位とする。
尚、本実施形態では、グリッド23を矩形としているが、グリッド23は必ずしも矩形である必要はない。また、背景差分や各種フィルタ処理等の前処理を行って、画像クリップを切り出し、処理対象領域24内に表示するようにしても良い。例えば、背景差分を前処理として行えば、フレーム間で動きのあった画像クリップだけを以降の処理の対象とすることができる。また、フィルタ処理を前処理として行えば、あらかじめ監視対象物の色の特徴を登録しておくことで、その色の特徴を有する画像クリップだけ以降の処理の対象とすることができる。
ウィンドウ21の右に並ぶボタン類は、映像の再生やバッチ処理などを指定するユーザインタフェースである。尚、以下に説明するユーザ補助としての機能は、必要に応じて、実装するようにすれば良く、必ずしも必須のものではない。また以下に説明する機能に限られず、他のユーザ補助機能を備えるようにしても良いのは勿論である。
「<1S」ボタン25aは、1秒前の画像フレームに戻るものである。同様に、「<10f」ボタン25bは、10フレーム前の画像に戻るものである。「コマ送り」ボタン26は、クリックすることにより、次のフレームが表示される。「このフレームを検査」ボタン27は、現在ウィンドウ21に表示されているフレーム画像に対して、タグ付け処理を行い、その結果を表示するものである。
例えば、映像を解析するタグ付けは、1フレームあたりのデータ数25個(画像クリップ数)という後述の実験の場合でも、1秒あたり750個、一分で45000個ものデータをタグ付けしなければならないため、ラベル付けされる度に映像全体のタグ付けを行うのでは、処理に時間がかかり対話型での処理は不可能である。しかし、ユーザが現在見ている表示フレームに限れば、タグ付けすべきデータ数は少ない(最大25個)ため、「このフレームを検査」ボタン27がクリックされた場合に、即時に当該フレームに対しタグ付け処理を行いフィードバックを返すことができる。
「未指定対象時停止」30のチェックは、通常再生モードの場合の機能である。通常再生モードでは、タグ付け処理はせずに、これまでの最新のタグ付け結果をウィンドウ21にオーバーレイ表示しながら映像再生を行う。ここで、「未指定対象時停止」30のチェックを外すと、タグの種類を問わず再生を続けるが、チェックを入れると、不明タグが現れた場合に、自動的に一時停止するものである。「未指定対象時停止」30のチェックを入れておけば、不明タグを優先的にラベル指定する場合に、不明タグを探索する手間を省くことができる。
「通常再生」ボタン31は、現在ウィンドウ21に表示されているフレーム画像以降の動画像を通常再生モードで再生するためのものである。「<<10s」ボタン32aは、10秒前の画像に戻るものである。同様に、「10s>>」ボタン32bは10秒後の、「30s>>」ボタン32cは30秒後の画像を表示するものである。「バッチ検査」ボタン33は、現在ウィンドウ21に表示されている画像以降のフレームに対してバッチ処理を行うものである。「clear tag map」ボタン34は、ウィンドウ21下の可視化領域37を初期化(クリア)するものである。「近傍距離閾値」ボタン35は、タグ付け処理の際に用いる近傍距離閾値rを指定するためのものである。尚、近傍距離閾値rは、スライダ35aで決定するとフィールド35bに表示される。また、フィールド35cに、スライダ35aで設定できる値の範囲の最大値を入力することで、スライダ35aで設定できる値の範囲を変更できる。「InitializeDB」ボタン36は、当該画像についてのLSHデータベース15及びICPデータベース16の初期化を行うものである。
また、ウィンドウ21下に表示されている模様が可視化領域37、即ち、処理対象の映像に対しタグ付け処理を行った結果を示す領域である。可視化圧縮方向38は、後述の可視化圧縮を横軸方向に対して行うのか、縦軸方向に対して行うのかを選択可能としている。
また、ウィンドウ21下の画像スライダ39は、スクロールさせることで動画像の任意の地点の画像フレームを操作することができる。即ち、画像スライダ39を最左端にすると最初のフレームを表示し、最右端にすると最終フレームを表示するものである。
対象領域設定(S2)までが終了すると、指定された再生モードにより画像認識、解析処理(S3〜S12)が進行する。尚、画像認識、解析処理は、原則としてフレーム番号i毎にループ処理が行われるものである。
画像認識、解析処理では、先ず、映像設定(S3)を行う。映像設定(S3)は、i番目のフレーム画像をメモリへ読み込むものである。また、同時に、映像表示領域22内に対象領域設定(S2)で設定されたグリッド23が表示される。
本実施形態では、映像表示領域22に表示されたフレーム画像についてラベル付けを行う場合について述べる。尚、ラベル付けは必ずしも始めに表示されたフレーム画像について行う必要はなく、上述の画像のスキップ機能(画像スライダ39、「<<10s」ボタン32a等)でラベル付けに適した(例えば、対象物が1つの画像クリップ内に撮影されている)フレームを選択すればよい。
まず、画像認識、解析処理の基本となるラベル付けについて説明する。
ラベル付けはユーザにより行われる。具体的には、対象物40が撮影されている画像クリップを選択し、「指定ラベルを登録」ボタン29を押すことで、ラベル付けがされる。尚、ラベル付けには、特にルールはなく任意のフレームの任意の画像クリップに任意の数のラベル付けを行えばよい。
本実施形態では、画像クリップをクリックする度に、その画像クリップの枠(グリッド23)の色が、赤 → グレー → 赤 → グレー → 赤 ...と繰り返し変化する。ここで、赤い枠の状態で「指定ラベルを登録」ボタン29をクリックすると、当該画像クリップは正例(ターゲット)としてターゲットラベルが登録される。逆にグレー枠の状態で「指定ラベルを登録」ボタン29をクリックすると、当該画像クリップは負例(非ターゲット)として非ターゲットラベルが登録される。
即ち、ユーザは、対象物40が撮影されている画像クリップの場合は、赤い枠の状態で、「指定ラベルを登録」ボタン29をクリックすればよい。また、対象物40が撮影されていない画像クリップであれば、枠がグレーの状態で「指定ラベルを登録」ボタン29をクリックすればよい。尚、本発明の対話型画像監視方法は、ユーザが指定する最小限のラベル付けされたデータを基に、タグ付け処理を行いラベル付けのされていない画像クリップをタグ付け処理を行い対象物40が撮影されているかどうかを判断するものであるので、当該フレームにおけるすべての画像クリップについてラベルを登録する必要はなく、必要に応じて行うだけでよい。
更に、本実施形態では、表示されたフレーム画面のいずれの画像クリップにも対象物40が映っていない場合は、いずれの画像クリップも選択しない状態で、「指定ラベルを登録」ボタン29をクリックすることで、当該フレームにおけるすべての画像クリップについては、非ターゲットラベルをラベル付けすることができる。
尚、ユーザによるラベル付けの方法は特に限られるものではなく、例えば、「正例として登録」、「負例として登録」の2つの登録ボタンを設け、画像クリップを選択していずれかの登録ボタンを選択することでラベル登録を行うようにしても良い。
このようにして、指定されたラベルはLSHデータベース15に登録され、タグ付け処理の際の基準データとなる。以下に、LSHによるラベル登録について説明する。
従来型のIMLでの探索では、決定木(DT ; Decision Tree)の一種を用いて、高速なフィードバックを実現している。しかし、決定木は、事例データ全体を見て、良い分岐点を探す手法であるため、インタラクティブなラベル付けに利用すると、木がアンバランスになり速度が低下するという問題がある。高速な登録速度を維持するには木の再構成をしなければならず、これには時間がかかる。
これに対し、データ同士の類似性を直接用いる最近傍探索(NN;Nearest Neighbor)は、分岐点を探す必要がないため逐次的なラベル追加に適している。しかし、一般に事例数に比例して探索時間が増えるという欠点がある。また、近年、探索時間の短縮を図る技術として近似最近傍探索(ANN;Aproximate Nearest Neighbor)が提案されている。ANNは、完全ではないが、高い確率でNNを可能とすることで、高い探索精度を維持したまま探索時間の探索を図るものである。従来の近似最近傍探索には、kd-treeをはじめとするtree型の探索手法が良く用いられている。しかしながら、ツリー型の探索手法は、探索対象のデータの増大に伴い、ツリー構築に時間がかかり、迅速な探索が行えなくなるという問題点を有していた。
このANNを高速に実現する汎用性の高い手法として局所性鋭敏型ハッシュ(LSH;Locality-Sensitive Hashing)が提案されている。LSHは、代表的な高次元データ用kd-treeの40倍の速度向上が実験的に示されており、最近傍探索の代表的手法の一つである。
本発明の対話型画像監視方法では、LSHを用いて、ユーザが指定したラベルを記憶し、データ認識(タグ付け)に利用する。これによりユーザが映像の任意の箇所をラベル付けすると、そのラベル情報は即座にデータベースに反映される。映像データの認識はユーザが指定したすべてのラベルを使って、その場で行えるため、迅速なフィードバックが可能となる。尚、本実施形態では、画像類似性の判定で一般的な「ユークリッド距離」でのANNを実現するため、p安定分布を用いたLSH(p-LSH)を用いているが、他のLSHを用いても良い。
以下に、p-LSHについて簡単に説明する(p-LSHの詳細は、Mayur Datar,Nicole Immorlica,Piotr Indyk,and Vahab S.Mirrokni. Locality-sensitive hashing scheme based on p-stable distributions. In Proceedings of the twentieth annual symposium on Computational geometry,pp.253-262,2004参照)。
p-LSHでは、先ず、扱うデータ(本明細書では、画像特徴量)をd次元の実数ベクトルvとし、このd次元データをk次元に写像する(但し、k<d)。
そのためにp安定分布(ユークリッド距離の場合は2安定分布、即ち正規分布)に従う独立な値をd個用意し、それぞれを要素とするd次元ベクトルaを、k個作成する。
更に、数式1で示される関数を用いて、ha,b(v)を要素とするk次元整数ベクトルgを生成する。これによりd次元ベクトルvは、k次元整数ベクトルに写像される。
ここで、bは[0,ω]の範囲の実数パラメータである。
ここで、あるベクトルv1,v2があった場合、写像後の差(a・v1-a・v2)は、‖v1-v2‖p×Xに分布する。尚、‖v‖p はp-ノルム、Xはp安定分布である。これにより、v1,v2がr以内にあると高い確率で同じgが得られる。
p-LSHは、k個のaの組をL個用意し、それぞれとの内積計算によりL個のgを生成し、それぞれを別のテーブル(バケット)に格納する。即ち、あるベクトルvからL個のk次元整数ベクトルが生成され、それぞれをバケットに格納するものである。即ち、L個の写像空間を用意して、vをそれぞれの空間に写像しているといえる。これにより、それぞれで近傍が発見される確率がp(c)であっても、L個のバケットを全て探索すると1-(1-p(c))Lの確率で発見できることになるので、最近傍探索を精度良く求めることができる。
ここで、Lの数を多くすれば、探索精度は向上するが、探索に時間がかかるようになる。また、写像空間の次元数kの値も、同様に精度と時間に影響を与える。kを大きくすると探索時間は減るが、内積の計算時間が増え、かつ同じrに対して探索精度が下がることになる。よって、L及びkの値は、必要な精度と時間の制限を考慮して選択すべきものである。以上でLSHについての説明を終了する。
上述のようにユーザは、最初に一部のデータにラベル付けをすることが必要となるが、本発明の対話型画像監視方法は、ユーザの負担を最小限に減らし、さらに対話型処理により、ユーザが現在行っているラベル付けがどのように解析結果に反映しているか、即ち、効果的なラベル付けを考えながらラベル付けができるようにすることで、ラベル付けに要する時間を最小限にすることが可能となる。
S4以降の処理は、選択されている再生モードにより異なる処理が行われる。次に、タグ付け処理について説明する。
図3にタグ付け処理を表す模式図を示す。ここで、四角形の枠41は、画像特徴量を軸とする空間を示すとする。この特徴量によってデータは識別される。この空間内で近ければ特徴量が似ていること、言い換えれば画像が似ていることを意味する。本実施形態では、画像特徴量は、各フレームの各画像クリップ毎に1つのd次元ベクトルとして与えられる。以下、タグ付け処理によるタグ付けは、この画像特徴量を基準になされる。
図4に画像特徴量の指定インタフェース画面の一例を示す。本実施形態では、画像特徴量となる基準を予め選択的に設定することが可能である。特徴量47としては、一般的な縮小(スケーリング)またはヒストグラムのいずれかを選択可能としている。
また、表色系48としては、RGB、HSV、グレースケール、CIE Yxy、CIE L*a*b*から選択可能としている、また、縮小方法49としては、最近傍法、双線形補完法、双三次補完法、平均化のいずれかのアルゴリズムを選択可能としている。尚、いずれのアルゴリズムも公知のアルゴリズムであるので説明は省略する。また、データの次元50には、特徴量データの次元数dを入力する。次元数を大きくすると細かな特徴を考慮した類似性の判定が行うことが可能となるが、タグ付けの処理時間が長くなり、次元数を小さくすると、類似性判定が粗くなるが、処理時間は短くなる。このため、要求される精度、処理時間の制限等の制約条件に応じて次元数を設定すればよい。尚、画像特徴量として用いることが可能な基準は上述の例に限られない。
以下に、表色形にRGB、3次元ヒストグラム特徴を用いた場合を例に画像特徴量の算出方法を示す。各チャンネルの色量子化数をnとすると、3次元ヒストグラムはn×n×nの値を有するヒストグラムとなる。例えばn=4の場合は、4×4×4=64の64次元ベクトルとなる。
次に、各チャンネルの色値の取り得る最大値をmaxR,maxG,maxBとし(0〜255)、画像クリップ内のある画素の色値の値を(R,G,B)とする。また、r' = (maxR+1)/n, g' = (maxG+1)/n, b' = (maxR+1)/nとし、r = floor(R/r'), g = floor(G/g'), b = floor(B/b')とすると、r, g, bは0〜nの整数となる。
画像クリップ内のすべての画素に対して、上記計算を行って、異なる(r,g,b)毎に画素数を集計する。k = r×n×n + g×n + bとし、k番目の要素を(r, g, b)の集計画素数とし、集計画素数を並べてヒストグラムを表現するベクトルとする。尚、画像クリップ内に該当する色値の画素が無い場合は集計画素数は0となる。
また、表色形にRGBの双線形補完法による5×5次元のスケーリング特徴を用いた場合を例に画像特徴量の算出について説明する。尚、スケーリング特徴とは、画像を碁盤目状のブロックに分割し、それぞれのブロックの代表値を縮小方法49で指定された方法で算出し、その代表値をベクトルの各要素とするものであり、双線形補完法とは、縮小時のある画素が、縮小前の画像における、その座標をとりまく四画素の値から、線形補間により、縮小時の値を計算する方法である。
具体的には、縮小前の画像が32×32画素の画像I1を、5×5次元のスケーリング特徴I2に変換する場合は、5/32の縮小となるので、I2での(1,1)座標の値i1(1,1)は、I2でのi2(32/5,32/5)、即ちi2(6.4, 6.4)となる。I2の座標(6.4, 6.4)には値がないので、i2(6, 6), i2(6, 7), i2(7, 6), i2(7, 7)から線形補完し、i1(1,1)の値とする。同様に全ての画素について、RGBのそれぞれの値について行い画像特徴量を算出する。
図3(a)は、ユーザによるラベル付けが成された場合の模式図であり、白丸42が認識すべきとラベル付けられたデータ(以下、ターゲットラベルデータ42)、黒丸43が認識すべきでないとラベル付けられたデータ(以下、非ターゲットラベルデータ43)を示している。尚、図3では説明を簡単にするため、縦横の2次元としているが、本実施形態では、数十から数百の高次元空間を用いる。
図3(b)は、当該ラベル付けにしたがって、本発明のタグ付け処理によりタグ付けがなされた様子を示す模式図である。タグ付け処理では、ラベル付けされたデータであるターゲットラベルデータ42及び非ターゲットラベルデータ43から、近傍距離閾値r以内にあるデータにタグを付ける。即ち、ターゲットラベルデータ42から一定の距離r内にあるデータにターゲットタグデータ44がタグ付けされ、非ターゲットラベルデータ43から一定の距離r内にあるデータに非ターゲットタグデータ45がタグ付けされる。尚、近傍距離閾値rは「検査距離」28(図2参照)に示される参考値を元に決定される任意のパラメータである。
近傍距離閾値rの設定方法の一例について説明する。「このフレームを検査」ボタン27を押してタグ付け処理を行うと、表示されているフレーム画像の画像クリップは、既に登録済みのラベル付きデータと比較される。比較対象は、画像クリップの画像特徴量を現すd次元ベクトルに対し、近傍距離閾値r以内にある、登録済みのラベル付きデータである。ここで、比較対象のうち、最近傍のデータまでの距離をDとすると、画面内の全画像クリップに対し、最近傍データまでの距離Dを計算した後で、その最大値をmaxDとし、「検査距離」28には、maxDが表示される。尚、近傍距離閾値r以内にデータがない場合はD=9999とする。
この「検査距離」28に表示される数値は、近傍距離閾値rを設定する参考値とすることができる。例えば、画面内に既にラベル登録したデータと明らかに類似の画像がある場合に、タグ推定を失敗している場合は、近傍距離閾値rの設定が小さ過ぎることを意味している。そのような場合には、閾値rを大きくして対処することになるが、あまりに大きくすると類似していないデータまで類似していると誤推定してしまう。そこで、類似画像を正しくタグ推定できる状態で、検査距離よりも少し大きな値を近傍距離閾値rに設定する。
本発明の対話型画像監視方法では、ユーザがラベル付けを行う量を最小限にすることで、迅速な処理を可能とすることを目的の一つとしている。したがって、ラベル付けされたデータは、映像は全体から見ればごく一部にすぎない。このため、少ないラベル付けされたデータ42,43から、rの値を大きくする等により無理にターゲットタグデータ44及び非ターゲットタグデータ45を推測してタグ付けを行うと、推定精度が悪くなり、誤判定が多くなるばかりか、ユーザがラベル付けがどのように解析結果に影響を及ぼしているのかの判断ができないこととなる。
そこで本発明の対話型画像監視方法では、図3(b)に示すようにターゲットタグデータ44、非ターゲットタグデータ45のいずれにもならないものを不明タグデータ46としている。
本実施形態では、上述のように、ターゲットラベルが付された画像クリップのグリッド23を赤色、非ターゲットラベルが付された画像クリップのグリッド23をグレーで表示することにしている。ここで、タグ付け処理が実行されると、ラベルが付されていない画像クリップについては、ターゲットタグ51、非ターゲットタグ52、不明タグ53のいずれかのタグ付けが成されるが、ターゲットタグ51が付された画像クリップのグリッド23をオレンジ色、非ターゲットタグ52が付された画像クリップのグリッド23を青色、不明タグ53が付された画像クリップのグリッド23を白色で表示するようにしている。
また、ユーザがいくつかのラベル付けを行った後、「バッチ検査」ボタン33をクリックすると、現在画面に表示されているフレーム以降のフレーム画像に対して、連続してタグ付け処理が開始され、途中で停止が指示されない限り、動画像の最終フレームまでタグ付け処理を行う(バッチ処理)。尚、タグ付けの速度は、特徴量データの次元数、LSHの各種パラメータ、および画面内で区切られた画像クリップの個数などに影響される。
本発明の対話型動画像監視方法では、バッチ処理の最中であっても、その途中でのユーザからの指示で「コマ送り」ボタン26や「通常再生」ボタン31がクリックされることでバッチ処理を停止し、ユーザは、それまでの同時に並行して表示される可視化領域37での解析状況に応じて、ラベルを新たに追加、または既に付したラベルを修正することができる。更に、ラベルが追加・修正した後に、再びタグ付け処理を開始すると、以降のフレーム画像については新たに追加されたラベルを反映したタグ付けが行われる。
このタグ付け処理の状況は、図2に示すように可視化領域37上に可視化表示されていく。
図5(a)に、ある動画像のフレーム画像の一例と図5(b)にその映像に対し自動タグ付け処理を行った場合に表示される可視化領域37の拡大図の一例を示す。
可視化領域37の横軸は時間軸であり、左端が最初のフレームの情報を表し、映像中の時間の推移とともに、右方に移り、最右端が最後のフレームを表す。模様はそれぞれのフレームでの、画像クリップのタグを表し、上述したグリッド23での枠の色と同様である。本実施形態では、オレンジの枠(図中薄いグレー)がターゲットタグ51、青の枠(図中濃いグレー)が非ターゲットタグ52、白い枠が不明タグ53を表す。
この可視化結果は、時間の推移とともに画面内のタグが、どのように変化するかを表すものである。不明タグ53を示す白い領域は、これまでにユーザによりラベル付けられた画像情報では、ターゲット51、非ターゲット52のいずれにもタグ付けできない箇所を意味している。
例えば、図5(b)では、最上段はすべて青色(図中濃いグレー)になっており、画面の上段には全くターゲット(対象物40)が現れていない事がわかる。また中段は、オレンジ色(図中薄いグレー)の帯が現れており、中段に時々ターゲットが現れることが読み取れる。
ここで、静止画像のタグ付けと異なり、映像全体のタグはビットマップディスプレイが高解像度になったとはいえ、一画面に表示できる量ではない。即ち、長時間の映像の場合、フレーム総数は、アプリケーション可視化領域の画素数よりも、はるかに大きいため一つの画素が複数フレームの情報を表示しなければならないこととなる。つまり、可視化領域37上の一点は、空間的・時間的な多数のタグの重なった表示領域ということになる。
また、解像度が高くても、表示が稠密になれば、人間の視力限界を越えて見えなくなってしまう。もちろんズーム機能を設けたり、可視化マップをスクロール可能にすることで問題を軽減はできるが、広い範囲を一度に見るという要求と、部分を拡大するズームとは両立しない。
そのため、限られた画素数の範囲にタグ付け結果を一覧表示するには、複数のタグの情報を同じ場所に表示する必要がある。本実施形態では、タグに重要度を割り当て、重要な情報を優先的に表示するようにしている。
本実施形態では、タグの重要度を以下の重要度とした。
重要度・高:不明タグ
重要度・中:ターゲットタグ
重要度・低:非ターゲットタグ
重要度・高の「不明タグ」は、どのような点を中心に事例教示を行えばよいか、をユーザに提示し、最小限の教示数で精度の高い対象物の追跡を可能とするために最も優先的に表示すべきものである。また、重要度・中の「ターゲットタグ」は、ユーザが指定した少数のターゲットラベルと良く似た未知データを表すため、正しく推測している場合は、ラベル付け作業の進捗状況を確認する助けとなり、ユーザの想定外の場所に現れた場合は、誤推測の可能性を示す点で重要である。更に、「非ターゲットタグ」は、ユーザが指定した多量の非ターゲットに良く似たデータであり、ユーザのラベル付けにミスがない限り、見る必要性の低いデータとなるため、重要度は最も低い。
また、上記重要度付けは、以下の理由により最適である。例えば、「ターゲットタグ」を「不明タグ」より優先するようにすると、未だタグ付けがなされていない箇所を見過ごすことにつながる。また、同様に「非ターゲットタグ」を「ターゲットタグ」より優先するようにすると、タグ付けの誤推定を見過ごしてしまう。したがって、上述の重要度に基づき可視化処理を行うことで、ラベル付け作業に必要な情報を見落とす可能性を減らすことができる。
尚、タグの重要度は上述の例に限られるものではない。例えば、不明タグの不明度により更に重要度を細かく表示してもよい。ここで不明度とは、最近傍のターゲットラベルデータ42、非ターゲットラベルデータ43までの距離の大小や近傍距離閾値r以内のターゲットラベルデータ42、非ターゲットラベルデータ43の個数等を基準に設定することができる。例えば、最近傍のターゲットラベルデータ42、非ターゲットラベルデータ43までの距離が大きい順に不明度を設定し、不明度の大きいものから優先的に表示させるようにしても良い。この場合には、不明タグをその不明度により更に細かく色分けをして表示させるようにすれば良い。
次に、図6を用いて可視化処理について説明する。扱う動画像の総フレーム数をFとした場合の、i番目のフレームの画像イメージを図6(a)に示す。
横グリッド数をXg,縦グリッド数をYgとし、可視化対象とする画像グリップのグリッド位置を(xg,yg)とする。この場合、当該画像グリップに対応する可視化領域37上の該当領域Rは、数式2により求めることができる。尚、領域Rの左上座標を(xv,yv)で示す。
<数2>
xv = Xv×(i/F)
w = Xv/F 但し、w<1の場合はw=1とする。wは、該当領域Rの横幅を示す。
また、図2に示すように、本実施形態の対話型画像監視プログラムのインタフェースでは、「可視化圧縮方法」ラジオボタン38により、射影を行う方向を横軸方向に行うのか、縦軸方向に行うのかを選択可能としている。上述のように、動画像中に付されるタグの数は膨大であり、画面内にすべて表示することは不可能なためである。横軸方向に射影を行う場合は数式3で、縦軸方向に射影を行う場合は数式4で、該当領域Rの縦幅hを求めることができる。尚、Xvは可視化領域37の横画素数、Yvは可視化領域37の縦画素数を示す。
<数3>
yv = Yv×(yg/Yg)
h = Yv/Yg 但し、h<1の場合はh=1とする。
<数4>
yv = Yv×(yg/Xg)
h = Yv/Xg 但し、h<1の場合はh=1とする。
更に、図7を用いて横軸方向に射影した場合について説明する。上述のように可視化領域37の横画素数は限られており、画素数を超えるフレーム数となる場合は、数フレームの画像情報を1つの画素列で表示することが必要となる。ここでは、フレーム画像(i〜i+k)のk+1個のフレーム画像(j行目)をどのように1画素列に圧縮して表示するかを説明する。
先ず、フレーム画像(i〜i+k)のj行目に着目し、j行目の画像クリップの重要度を比較する。本実施形態では、上述の重要度の最も高いもので代表させるようにしている。ここでは、不明タグ53が存在するので、可視化領域37の該当領域は不明タグ53を示す白色になる。
また、該当する行に不明タグ53がない場合であって、一つでもターゲットタグ51がある場合は、ターゲットタグ51示すオレンジ色に、非ターゲットタグ52しかない場合には、非ターゲットタグ52を示す青色に可視化領域37がマッピングされる。尚、縦軸方向に射影する場合は、j行目をj列目として処理を行うようにすれば良い。
このように、限られた可視化領域37に重要な情報を集約して表示させ、ユーザのラベル付け支援、ひいては少ない教示による高精度の画像監視の実現支援を行うものである。
可視化領域37でのタグの可視化結果は、例えば動画像中で場所の移動がない対象物40であれば、可視化領域にはターゲットタグを示すオレンジの線が直線で現れる(実施例1、図15参照)。
これに対し、動画像中で移動する対象物40の監視であれば、可視化領域に現れるオレンジの線の軌跡により対象物40の追跡を行うことが可能となる(実施例4、図22参照)。この場合は、対象物40の移動が画面の横方向に移動することが多いのか、画面の縦方向に移動することが多いのかにより、射影を行う方向の選択を行えばよい。
また、画像監視において検知すべき箇所や発生時間が事前にわかっていることはほとんどなく、また検知すべき映像は、全体のごく一部である。例えば、碍子の夜間の放電を調べるために撮影された映像の場合、そのほとんどは真っ暗な夜間の碍子連の映像であり、あらかじめ放電画像を教示しておくことは困難である(実施例3参照)。即ち、ターゲットを教示することが困難な場合が存在する。
このようにターゲットを教示することが困難な動画像に対してでも、本発明の対話型動画像監視方法によれば、ユーザにより非ターゲットが教示されていれば、それとは異なる対象に不明タグを付けて映像中から抽出できるため、必ずしもあらかじめターゲットを教示しておく必要はない。
即ち、ユーザは不明タグが付けられた画像を確認すれば、ターゲットの絞込みを行うことができ、映像全体を注意深く見続けなくても、ターゲットを確実に教示することができる。
この場合のタグ付け方法の模式図を、図8に示す。ユーザは、まず映像の中で容易に教示できる非ターゲットをラベル付けする。例えば、放電映像の場合であれば放電の発生していない通常の状態の画像を教示する(図8(a))。
その状態でタグ付け処理を行うと、教示した非ターゲットに類似する画像(放電の無い画像)には、自動的に非ターゲットタグ52が付けられ、それ以外のすべてに不明タグが付けられる(図8(b))。即ち、真っ暗な状態のままであれば、非ターゲットタグ52が付されるので、不明タグ53が付けられたデータには、何らかの現象が発生している可能性がある。
よって、この不明タグデータ46を画像で確認し、問題がなければ非ターゲットラベルを付け、ターゲット(この場合、放電)が映っていればターゲットラベルを付ける(図8(c))。
それからタグ付け処理を行うと、さらに絞り込んだタグ付けがなされる。その後、タグ推定が十分になるまで繰り返す(図8(d))。
上述のタグ付け方法は、映像全体に占める通常状態の割合が多く、検出すべき現象の発生頻度が低いほど効率的な方法であり、監視映像に適した方法である。
また、上述の例のように、処理開始時にターゲットを教示することが困難な動画像についての近傍距離閾値rの設定は、例えば以下のように行う。
ラベルが指定されておらず、かつターゲットのない画像クリップを、計算機が非ターゲットとタグ推定できる最小の距離を設定する。この際、距離rが小さすぎると、タグ推定結果が不明(白)ばかりになる。逆に、距離が大きすぎると、本来検出すべきターゲットを見逃してしまう。
そこで、明らかにターゲットのない画像クリップがすべて青色(非ターゲットタグ)となる最小の距離、即ち、それ以上小さくすると青から白色(不明タグ)に変わってしまう距離に設定することで精度の良いタグ推定を行うことが可能となる。
以下、図9〜13に示すフローチャートを用いて、本発明の対話型動画像監視プログラムが行う画像認識、解析処理について説明する。
どの再生モードが選択されているかによって、画像認識、解析処理の内容は異なる。
再生モードが「バッチ処理」モードの場合(S4;Yes)、バッチ処理(S5)を行う。
図10のフローチャートを用いて、バッチ処理(S5)について説明する。
先ず、グリッド中の最左、最上の画像クリップを処理対象とする(S501)。
次に、処理対象の画像クリップを予めユーザによって指定された方法(特徴量47,表色系48,縮小方法49,データの次元数50)でd次元実数ベクトルv(画像特徴量)に変換し(S502)、LSHデータベース15に対しvをキーとした質問を行ってvに類似するデータの検索を行う(S503)。
検索結果のデータ(画像特徴量)と、質問として与えたvとの距離が予め指定された近傍距離閾値rよりも大きい場合は、当該画像クリップのタグを「不明タグ」とし、rよりも小さくかつ最近傍データのラベルが「ターゲットラベル」である場合は、当該画像クリップのタグを「ターゲットタグ」とし、ラベルが「非ターゲットラベル」である場合は、「非ターゲットタグ」とする(S504)。
当該画像クリップのタグをICPデータベースに登録する(S505)。当該画像クリップのタグに応じた色の枠を、ビデオ映像の当該画像クリップの位置に表示する(S506)。
可視化領域37の制御機構に対し、当該フレーム番号、グリッド内の位置、タグを通知し可視化結果の更新を行う(S507)。
図11に、S507の処理を詳細化したフローチャートを示す。当該フレーム番号とグリッド内の位置から可視化領域上の該当領域Rを計算する(S507−1)。
次に、可視化領域上の該当領域Rに対応するデータマップに登録されたタグTregistの重要度と、当該画像クリップのタグTnewの重要度を比較する(S507−2)。
次に、再生モードが「バッチ処理」であり、且つ、他のモードから「バッチ処理」に変更された後、該当領域Rにアクセスするのが最初である場合(S507−3;Yes)は、S507−5へ移る。それ以外の場合(S507−3;No)は、S507−4へ移る。Tnewのタグ重要度がTregistのタグ重要度より大きい場合(S507−4;Yes)は、S507−5へ移る。一方、Tnewのタグ重要度がTregistのタグ重要度と同じまたは小さい場合は、S507の処理は終了する。
S507−5では、可視化領域のデータマップ17にTnewを登録し、可視化領域37の該当領域RをTnewに対応する色で塗りつぶして表示し、S507の処理は終了する。
図10のフローチャートの説明に戻る。未処理の画像クリップがグリッド内に存在するかどうか判断し、存在する場合(S508;Yes)は、未処理の画像クリップを処理対象として(S509)、S502の処理へ戻る。すべての画像クリップについて処理が終了したら(S508;No)、バッチ処理は終了し、S8へ移る。
次に、再生モードが「通常再生」の場合(S6;Yes)は、通常再生処理(S7)を行う。図12のフローチャートを用いて、通常再生処理(S7)について説明する。
グリッド中の最左、最上の画像クリップを処理対象とし(S701)、処理対象の画像クリップのフレーム番号、グリッド内の位置をキーとして、ICPデータベース16から、登録済みのラベルもしくはタグを検索する(S702)。
当該画像クリップのタグもしくはラベルに応じた色の枠を、当該画像クリップの枠の色として表示する(S703)。
可視化領域の制御機構に対し、当該フレーム番号、グリッド内の位置、タグを通知し、可視化結果を更新する処理(S704)を行う。尚、S704の処理は、上述のS507の処理(図11参照)と同じであるので説明は省略する。
未処理の画像クリップがグリッド内に存在するかどうか判断し、存在する場合(S705;Yes)は、未処理の画像クリップを処理対象として(S706)、S702の処理へ戻る。すべての画像クリップについて処理が終了したら(S705;No)、通常再生処理は終了し、S8へ移る。
次に、再生モードが「コマ送り」の場合(S8;Yes)は、コマ送り処理(S9)を行う。図13のフローチャートを用いて、コマ送り処理(S9)について説明する。
先ず、グリッド内の位置(xg,xy)が選択された場合(S901;Yes)は、当該画像クリップのタグもしくはラベルをICPデータベースを検索して取得し、得られたタグもしくはラベルをTpとする(S902)。
Tpが不明タグ、非ターゲットタグ、非ターゲットラベルのいずれかである場合(S903;Yes)、当該画像クリップのラベルを「ターゲット」に変更し、ICPデータベース16に登録、グリッドの枠の色をターゲットに対応する色に変更(S904)し、S901に戻る。
一方、Tpがターゲットタグ、ターゲットラベルである場合(S905)は、当該画像クリップのラベルを「非ターゲット」に変更し、ICPデータベース16に登録、グリッドの枠の色を非ターゲットに対応する色に変更(S906)し、S901に戻る。
グリッド内の位置(xg,xy)が選択されない場合(S901;No)は、「このフレームを検査」ボタン27がクリックされたかどうかを判断する(S907)。「このフレームを検査」ボタン27がクリックされた場合(S907;Yes)は、バッチ処理(S5)をおこなってからS901に戻る。
「このフレームを検査」ボタン27クリックされていない場合(S907;No)は、「指定ラベルを登録」ボタン29がクリックされたかどうかを判断し(S908)、クリックされた場合(S908;Yes)は、「コマ送り処理」中に更新された全てのラベルをLSHデータベース15に登録し(S909)、バッチ処理(S5)をおこなってからS901に戻る。
「指定ラベルを登録」ボタン29がクリックされていない場合(S908;No)は、「コマ送り」ボタン26がクリックされたかどうかを判断し(S910)、クリックされた場合(S910;Yes)は、コマ送り処理(S9)は終了する。
「コマ送り」ボタン26がクリックされていない場合(S910;No)は、「バッチ検査」ボタン33がクリックされたかどうかを判断し(S911)、クリックされた場合(S911;Yes)は、再生モードを「バッチ処理」に変更して(S912)、コマ送り処理(S9)は終了する。
「バッチ検査」ボタン33がクリックされていない場合(S911;No)は、「通常再生」ボタン31がクリックされたかどうかを判断し(S913)、クリックされた場合(S913;Yes)は、再生モードを「通常再生」に変更して(S914)、コマ送り処理(S9)は終了する。一方、クリックされていない場合(S913;No)は、S901に戻る。
図9のフローチャートの説明に戻る。S5、S7、S9のいずれかの処理が終了すると、対象フレーム番号i を i+1に更新する(S10)。
この際に、画像スライダ39、「<<10s」ボタン32a等によりフレーム番号i'への移動が指示されている場合は対象フレーム番号iをi'に変更する(S11)。
最後にシステム終了が指示されているかどうかを判断する(S12)。以上で本発明の対話型動画像監視プログラムが実行する処理が終了する。
尚、上述の実施形態は本発明の好適な実施の例ではあるがこれに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。また、上述の演算式は一例であり、本発明の要旨を逸脱しない範囲において種々変形実施可能である。
例えば、本実施形態では、情報探索手法としてLSHを用いているが、他の手法、例えば、分類木やSVM等の他の学習器を用いても良い。その場合は、LSHデータベース15に替えて、対応するデータベースを構成し処理を行えばよい。
また、可視化領域37は必ずしも圧縮して一画面上に表示する必要はない。この場合、可視化領域37をスクロールバーによりスクロール可能とすればよい。また、圧縮表示し、該当箇所を選択することで該当箇所が圧縮前の状態をズームイン表示するようにしても良い。
(実施例1)
本発明の対話型動画像監視プログラムを用いて、照明変動などを模擬した人工的な試験映像への適用実験を行った。
本実験では、図14に示すように1枚の紙に印刷されたロゴ40を撮影した動画像(実験映像1)を用いた。ターゲット40は、ロゴ40である。紙は、中央に固定した状態で撮影を行ったため、ロゴ40の位置は変化しない。ロゴ40を検出することには、特段の困難性はないが、本実験は本発明の対話型動画像監視プログラムが、照明変動に対応することが可能であるか否かを目的とした。
本実験における照明は、以下の3つの条件とした。
(1)蛍光灯による人工照明
(2)室内のブラインドをおろして照明を消した状態
(3)室内のブラインドを開けて照明を消した状態
上記3状態を連続変化させ、明るさ、色、コントラスト等を変動させながら撮影を行った。尚、実験映像1は47秒(1,424フレーム)であった。
本実験では、当該映像を用いて、3人の被験者により、本発明の対話型動画像監視プログラムによりロゴ認識を行った。
被験者は、実験映像1を見て、特定のフレームを選択し、最小限の画像クリップに対し、ラベル付けを行った後、本発明の対話型動画像監視プログラムを実行した。これにより、ラベル付けがされていない他のすべての画像クリップにタグ付け処理がなされ、可視化領域37に監視結果を表示される。
更に、被験者は、監視結果を見て必要なフレームの必要な画像クリップに対しラベル付けを再度行い、再度プログラムを実行させる処理ことを繰り返し実行した。本実験では、被験者が正確な監視ができたと判断した時点で処理を終了し、実験を終了した。
本実験において、計算機の学習度合い、即ち、画像の監視精度を判定するために表2に示す指標を用いた。
学習度合いは、本来付されるべきラベル(以下、正解ラベル)に対して、どのようなタグ付けがされたかで判断することができる。例えば、正解ラベルに対しターゲットタグが付されている数である。
表2では、TPとTNが多いことが望まれ、FNとFPが多いことはタグの推定精度が低いことを意味する。また、FUは、ターゲットとすべき所を不明としている、いわば見落とし箇所であり、これを減らすことが目的となる。
本実験では、画像特徴量及びLSHには以下のパラメータを用いた。画像特徴量には、表色系はRGBとし、双線形補完法による5×5次元のスケーリング特徴を用いた。また、LSHのパラメータとしては、L=20 , k=10 ,ω=0.4とした。尚、このパラメータの設定は、距離r以内のデータを90%の確率で正しく検索し、距離r外のデータを5%の確率で誤検出する設定値である。また、近傍距離閾値r=0.15とした。
実験結果を図15に示す。(a)は、映像中でターゲットを確実にターゲットとして検出できているか否かを示す再現率(recall)、(b)は、非ターゲットを確実に非ターゲットとして検出できているか否かを示す非ターゲット検出率(TNR)が、ラベルの登録数に応じてどのように変化したかを示すグラフである。尚、再現率(recall)は数式5で、非ターゲット検出率(TNR)は数式6で示され、1に近ければ近いほど精度が高いことを意味している。
<数5>
recall = TP/(TP+FN+FU)
<数6>
TNR = TN/(TN+FP+TU)
また、被験者との比較のため、フレームの選択はランダムに行って、当該フレームでのラベル付けは正確に行うラベル付け作業(以下、ランダム選択という)を行った。本実験における動画像では、対象物であるロゴ40は、画面の中心のまま動かないので、ロゴ40が出現しているフレームを与えれば、自動的にランダム選択が可能となる。このランダム選択と被験者との再現率(recall)、非ターゲット検出率(TNR)を比較することにより被験者がフレームの選択を効率よく行うことができたかを確認できる。即ち、被験者の結果とランダム選択の結果が同等であれば、被験者はフレーム選択を無作為に行っていたといえ、被験者の結果がランダム選択の結果より良ければ、被験者は効率的にフレーム選択を行ったといえることになる。
図15に示されるように、3人の被験者の結果はランダム選択と比較して、早い段階で1に近づいていることがわかる。FP及びFNは、いずれの例でもほぼ0であるので、数式7で示される精度(precision)及び数式8で示される誤検出率(FPR)は、精度≒1、誤検出率≒0であった。
<数7>
precision = TP/(TP+FP)
<数8>
FPR = FP/(FP+FU+TN)
また、ラベル登録数が増加するにつれ、可視化領域37がどのように変化したのかを図16に示す。図16は、上からラベル登録数の増加に伴う、可視化領域37の変化の様子を示すものである。
登録ラベルの少ない初期段階では、白い領域(不明タグ)61が多く、対象物の監視を行えていないことを示しているが、ラベル付けが進むにつれて不明タグが減少し、中心にオレンジ(図中ではグレー)のライン62が現れる。本実験では、対象物のロゴ40は画面の中心にあるので、横軸方向に射影した本実験では、可視化領域37の中心にオレンジのライン62が現れれば、ロゴ40の追跡に成功していることを示す。
本実験から、照明変動による対象物の色の変化に対応することが可能であることが確認できた。
(実施例2)
同様に、図2に示す画像により実験を行った。尚、特に記載のない限り実験は、実施例1と同様の条件下である。
本実験では、画像中の缶63が回転し、側面に貼り付けられたロゴ40の追跡を行った。即ち、ロゴ40が缶63の回転に合わせて見えたり見えなくなったりを繰り返す動画像(実験映像2)である。尚、実験映像2は、120秒(3,596フレーム)であった。
実施例1と同様に3人の被験者に本発明の対話型画像監視プログラムを実行してもらった結果を図17に示す。
実験映像2でもFPとFNは極めて小さい値であり、精度≒1、誤検出率≒0であった。試験映像2では照明変動がないため、背景の変動がなく、最初に数フレーム分に背景を非ターゲットラベルとして登録することで、背景を除外することができた。
また、実験映像2では、缶63が繰り返し4回転し、その位置も同じであるため、1回転分に適切にラベル付けすることで、残りの映像についても適切にタグ付けを行うことができた。よって、実験映像1に比して、少ないラベル登録数で高い再現率を達成できた。
(実施例3)
本実験では、碍子の漏れ電流の監視を行った。実験に用いた映像(実験映像3)は、直流送電線の放電騒音防止のための暴露試験として、試験場に設置された直流碍子連を、数ケ月に渡って長期撮影した映像の一部である。
実験映像3の総再生時間は48分42秒、総フレーム数87,575フレーム、放電が確認できる夜間の映像である。尚、碍子連の昼間の撮影例を図18に示す。当該映像でのターゲットは碍子の放電現象であり、映像中から放電が起きた時刻やその頻度を正確に検出する必要がある。
実験映像3では、映像のほとんどの時間は放電がなく、変化のない単調な画面が続く。また一回の放電時間は極めて短い(33msec以内)。そのため、例えば検査員が、放電箇所を探しながら注意力を維持して見続けるのはかなりの労力であり、また見落としも多くなることが考えられる。
図19に示すように、最右列の碍子連に対して、横2マス、縦20マスのグリッド23を設定した。尚、夜間であるため画面は真っ黒である。
本実験では、画像特徴量はグレースケール(輝度は[0,1]の実数)、平均化による4×4次元のスケーリング特徴とした。LSHのパラメータは実施例1及び2と同じとし、近傍距離閾値r = 0.24とした。
本実験では、先ず放電の映っていない最初のフレーム画像の40個の画像クリップすべてに非ターゲットラベルをつけた。そして、このラベル付けのみの状態でタグ付け処理を行った時の可視化領域37を図20(a)に示す。図20は、図19の横方向に射影して得られた可視化領域37を示すものである。尚、実験映像3の48分の映像のタグ付けには、Pentium(登録商標)4 3.6GHzの計算機で32分を要した。
本実験では、可視化領域37の横画素数を720としたため、横1画素には122フレーム、244個のタグ情報が集約されている(=87,575×2 / 720)。
図20(a)では、非ターゲットタグを表す青色(図中では濃いグレー)がほとんどを占め、不明タグを表す白い領域がところどころに見られる。即ち、ほとんどは放電の無い映像であったということである。また、白い領域には、非ターゲットとは似ていない何かが撮影されている可能性があることを示す。ユーザは、映像全体を見る必要はなく、この白い不明タグのついた画像のみを検査すればよいことになる。尚、ターゲットラベルは一つも登録していないため、オレンジ色で示されるターゲットタグは一切見られない。
不明タグのいくつかを映像で確認したところ、図20(a)中の符号65で示す不明タグの集まりは、いずれも、ビデオテープのノイズであることがわかった。ノイズはビデオテープの傷及びビデオデッキのヘッドが原因であった。
これに対し、最下段に途中から現れて、映像の最後付近まで連続して現れている不明タグの連続66で示す箇所は、放電現象を捉えていることがわかった。
そこで、映像を確認しつつ、ビデオノイズには非ターゲットラベルを、放電箇所にはターゲットラベルを付ける作業を行った。297個のラベルをつけた後のタグ付け状態を図20(b)に、さらに266フレーム、414個までラベルのラベルをつけた後のタグ付け状態を図20(c)に示す。
ラベルが増えるに従って、ノイズが消えて行き、最下段にオレンジ(図中では薄いグレー)のターゲットタグの連続67が増えていることがわかる。
以上のように、本発明の対話型動画像監視プログラムによりビデオ映像の解析を行うと、ユーザによる、ほんの少数の非ターゲット情報を教示するだけで、監視映像中の代表的な放電パターンなど、注目すべき箇所を適切に見出せることが確認できた。
更に、事例画像の選択、ラベルの教示作業を容易かつ確実にできことが確認できた。本発明の対話型動画像監視プログラムによれば、碍子の放電映像に限らず、発生頻度が低く、計算機への教示事例を見出すのが難しい長時間監視においても事例教示の作業労力を大幅に低減することができる。
(実施例4)
本実験では、ラジコンの自動車の監視、追跡を行った。本実験では、図21に示すように監視対象物としてラジコンの自動車40が床を左右に横断して走行する映像(実験映像4)を用いた。尚、実験映像4の総再生時間は67秒、総フレーム数2,008フレームである。
本実験では、画像特徴量をRGB3×3×3=27次元のヒストグラム特徴とし、近傍距離閾値をr = 0.47844とした。
グリッド23は横21×縦13の細かな碁盤目状とし、可視化圧縮方向38を横軸方向に設定し、本発明の対話型動画像監視プログラムを実行した。その結果を図22に示す。尚、ラベルは、ターゲットタグ、非ターゲットタグをあわせて26個だけ登録した。
可視化領域37には、非ターゲットを示す青色のバック70にターゲットを示すオレンジ色の傾きをもったライン71が表示されている。オレンジのライン71は、自動車40の追跡結果を示している。尚、不明タグはほとんど存在せず、自動車40の動きに合わせて追跡結果が表示されており、追跡に成功したことを示している。
ここで、オレンジのライン71が、左下から右上に伸びている場合は、自動車40は、画面の右から左へ移動したことを表し、左上から右下に伸びている場合は、画面の左から右へ移動したことを表している。また、ライン71の傾きは、自動車40の速度や走行コースで変化する。具体的には、自動車40の画面横方向速度成分が、遅いと傾きが大きくなり、高速だと傾きが小さくなる。
本実験により、可視化領域37に表示されるタグ付け状況から監視対象物がどのような動きをしたか、即ち監視対象物の追跡を、ごく少ないユーザによる教示で実現できることが確認できた。
本発明の対話型画像監視装置の一例を示す概略構成図である。 本発明の対話型動画像監視プログラムのインタフェース画面の一例である。また、実験映像2のフレーム画像の一例である。 タグ付け処理の概念図であり、(a)は2次元の画像特徴量空間でのターゲットラベルデータ及び非ターゲットラベルデータを示し、(b)は(a)に示したターゲットラベルデータ及び非ターゲットラベルデータに基づいてターゲットタグデータ、非ターゲットタグデータ及び不明タグデータがタグ付けされる様子を示す。 本発明の対話型動画像監視プログラムの画像特徴指定のインタフェース画面の一例である。 (a)は、対象となる動画像のフレーム画像を、(b)は、当該動画像について可視化処理を行った後に表示される可視化領域を示す。 フレーム番号及びグリッド内の位置から可視化領域での該当領域Rを求める方法を説明するための図である。 可視化領域を横軸方向に射影して表示する場合の処理方法を説明するための図である。 タグ付け処理の概念図の他の例であり、(a)は2次元の画像特徴量空間での非ターゲットラベルデータを示し、(b)は(a)に示した非ターゲットラベルデータに基づいて非ターゲットタグデータ及び不明タグデータがタグ付けされる様を示し、(c)は更にターゲットラベルデータがラベル付けされた様子を示し、(d)は(c)に示したターゲットラベルデータ及び非ターゲットラベルデータに基づいてターゲットタグデータ、非ターゲットタグデータ及び不明タグデータがタグ付けされる様子を示す。 本発明の対話型動画像監視プログラムが実行する処理全体を示すフローチャートである。 本発明の対話型動画像監視プログラムが実行するバッチ処理の詳細を示すフローチャートである。 S507及びS704の処理の詳細を示すフローチャートである。 本発明の対話型動画像監視プログラムが実行する通常再生処理の詳細を示すフローチャートである。 本発明の対話型動画像監視プログラムが実行するコマ送り処理の詳細を示すフローチャートである。 実験映像1のフレーム画像の一例である。 実施例1での実験結果を示すグラフであり、(a)は登録ラベル数と再現率との関係を示すグラフである。(b)は登録ラベル数と非ターゲット検出率との関係を示すグラフである。 実施例1におけるラベル登録数の増加に伴う可視化領域の変化の様子を示す図である。 実施例2での実験結果を示すグラフであり、(a)は登録ラベル数と再現率との関係を示すグラフである。(b)は登録ラベル数と非ターゲット検出率との関係を示すグラフである。 碍子連の昼間の撮影画像の一例である。 碍子連に対して、横2マス縦20マスのグリッドを設定した画像の一例である。 実験映像3に対し、(a)非ターゲットラベルのみ40ラベル、(b)更に、ターゲット又は非ターゲットラベルを297ラベル、(c)更に、414ラベルをラベル付けしてタグ付け処理を行った場合の、可視化領域を示す。 実験映像4のフレーム画像の一例である。 実験映像4にグリッドの設定をしたウィンドウ及びタグ付けされた可視化領域を示す。
符号の説明
1 対話型映像解析装置
11 ラベル付け手段
12 タグ付け手段
13 可視化手段
14 映像データ
24 処理対象領域
51 ターゲットタグ
52 非ターゲットタグ
53 不明タグ

Claims (11)

  1. 動画像中の監視対象物を監視及び追跡する方法において、前記動画像のフレーム画像のうち画像処理の対象となる処理対象領域内に一以上の画像クリップを設け、前記画像クリップ内に前記監視対象物が撮影されているかどうかについてのラベル付けデータを登録するラベル登録処理と、前記画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、前記ラベル付けデータが登録されていない前記画像クリップの前記画像特徴量が、前記ラベル付けデータが登録された前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては、該ラベル付けデータに従ったタグ付けを前記ラベル付けデータが登録されていない前記画像クリップに対し行うタグ付け処理と、前記タグ付け処理の結果をタグの重要度に基づいて前記動画像のフレーム画像と併せて表示する可視化処理とを行うことを特徴とする対話型動画像監視方法。
  2. 前記ラベル付けデータを登録及び検索する際に、局所性鋭敏型ハッシュのアルゴリズムを用いることを特徴とする請求項1に記載の対話型動画像監視方法。
  3. 前記タグ付け処理は、前記監視対象物が撮影されているとラベル付けされた前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについてはターゲットタグ、前記監視対象物が撮影されていないとラベル付けされた前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては非ターゲットタグ、いずれの範囲内にもない前記画像クリップについては不明タグをタグ付けすることを特徴とする請求項1または2のいずれかに記載の対話型動画像監視方法。
  4. 前記可視化処理は、前記動画像のすべてのフレーム画像についての前記タグ付け処理の結果を圧縮して一画面上に表示することを特徴とする請求項1から3のいずれかに記載の対話型動画像監視方法。
  5. 前記タグの重要度は、前記不明タグが最も高く、前記非ターゲットタグが最も低いことを特徴とする請求項4に記載の対話型動画像監視方法。
  6. 動画像中の監視対象物を監視及び追跡する装置であって、前記動画像のフレーム画像を読み出し、画像処理の対象とする処理対象領域内に一以上の画像クリップを設定し、前記画像クリップ内に前記監視対象物が撮影されているかどうかについて予め指定されるラベル付けデータをデータベースに登録するラベル登録手段と、前記画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、前記データベースに前記ラベル付けデータが登録されていない前記画像クリップの前記画像特徴量が、前記ラベル付けデータが登録されている前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあれば、該ラベル付けデータに従ったタグ付けを前記ラベル付けデータが登録されていない前記画像クリップに関連づけて記憶するタグ付け手段と、前記タグ付け処理の結果をタグの重要度に基づいて前記動画像のフレーム画像と併せて出力装置に表示する可視化手段とを備えることを特徴とする対話型動画像監視装置。
  7. 前記ラベル付けデータを登録及び検索する際に、局所性鋭敏型ハッシュのアルゴリズムを用いることを特徴とする請求項6に記載の対話型動画像監視装置。
  8. 前記タグ付け手段は、前記監視対象物が撮影されているとラベル付けされた前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについてはターゲットタグ、前記監視対象物が撮影されていないとラベル付けされた前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては非ターゲットタグ、いずれの範囲内にもない前記画像クリップについては不明タグをタグ付けすることを特徴とする請求項6または7のいずれかに記載の対話型動画像監視装置。
  9. 前記可視化手段は、前記動画像のすべてのフレーム画像についてのタグ付け結果を圧縮して一画面上に表示することを特徴とする請求項6から8のいずれかに記載の対話型動画像監視装置。
  10. 前記タグの重要度は、前記不明タグが最も高く、前記非ターゲットタグが最も低いことを特徴とする請求項9に記載の対話型動画像監視装置。
  11. 動画像のフレーム画像のうち、画像処理の対象とする処理対象領域内に一以上の画像クリップを設定し、主記憶装置に記憶させる対象領域設定処理と、記憶装置に予め登録された、前記画像クリップ内に監視対象物が撮影されているかどうかについてのラベル付けデータを読み出し、前記画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、前記ラベル付けデータが登録されていない前記画像クリップの前記画像特徴量が、前記ラベル付けデータが登録されている前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあれば、該ラベル付けデータに従って前記ラベル付けデータが登録されていない前記画像クリップにタグ付けを行い、更に、そのタグ付け結果をタグの重要度に基づいて前記動画像のフレーム画像と併せて出力装置に表示する画像認識、解析処理とをコンピュータに実行させることにより動画像中の監視対象物を監視及び追跡する対話型動画像監視プログラム。
JP2006273352A 2006-10-04 2006-10-04 対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラム Expired - Fee Related JP4993678B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006273352A JP4993678B2 (ja) 2006-10-04 2006-10-04 対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006273352A JP4993678B2 (ja) 2006-10-04 2006-10-04 対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラム

Publications (2)

Publication Number Publication Date
JP2008092471A true JP2008092471A (ja) 2008-04-17
JP4993678B2 JP4993678B2 (ja) 2012-08-08

Family

ID=39376096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006273352A Expired - Fee Related JP4993678B2 (ja) 2006-10-04 2006-10-04 対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラム

Country Status (1)

Country Link
JP (1) JP4993678B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015129988A (ja) * 2014-01-06 2015-07-16 日本電気株式会社 データ処理装置
JP2017167649A (ja) * 2016-03-14 2017-09-21 日本電気株式会社 データ推定装置、データ推定方法、及び、データ推定プログラム
JP2018504710A (ja) * 2015-01-27 2018-02-15 ノキア テクノロジーズ オサケユイチア 位置特定およびマッピングの方法
JP2019145174A (ja) * 2014-06-03 2019-08-29 日本電気株式会社 画像処理システム、画像処理方法及びプログラム記憶媒体
WO2021111670A1 (ja) * 2019-12-02 2021-06-10 株式会社日立ソリューションズ・クリエイト アノテーション装置および方法
CN116389688A (zh) * 2023-04-10 2023-07-04 中华人民共和国黄埔海关 基于5g通信传输的海关口岸综合监控指挥系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090239A (ja) * 1998-09-10 2000-03-31 Matsushita Electric Ind Co Ltd 画像検索装置
JP2002092610A (ja) * 2000-09-12 2002-03-29 Toshiba Corp 画像処理装置及び画像処理方法並びに記録媒体
JP2006048629A (ja) * 2004-06-29 2006-02-16 Sony Corp 光学情報を用いた状況認識方法及び装置、システム、コンピュータプログラム、記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090239A (ja) * 1998-09-10 2000-03-31 Matsushita Electric Ind Co Ltd 画像検索装置
JP2002092610A (ja) * 2000-09-12 2002-03-29 Toshiba Corp 画像処理装置及び画像処理方法並びに記録媒体
JP2006048629A (ja) * 2004-06-29 2006-02-16 Sony Corp 光学情報を用いた状況認識方法及び装置、システム、コンピュータプログラム、記録媒体

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015129988A (ja) * 2014-01-06 2015-07-16 日本電気株式会社 データ処理装置
JP2019145174A (ja) * 2014-06-03 2019-08-29 日本電気株式会社 画像処理システム、画像処理方法及びプログラム記憶媒体
JP2021051783A (ja) * 2014-06-03 2021-04-01 日本電気株式会社 画像処理システム、画像処理方法及びプログラム記憶媒体
US11003961B2 (en) 2014-06-03 2021-05-11 Nec Corporation Image processing system, image processing method, and program storage medium
JP2018504710A (ja) * 2015-01-27 2018-02-15 ノキア テクノロジーズ オサケユイチア 位置特定およびマッピングの方法
US10366304B2 (en) 2015-01-27 2019-07-30 Nokia Technologies Oy Localization and mapping method
JP2017167649A (ja) * 2016-03-14 2017-09-21 日本電気株式会社 データ推定装置、データ推定方法、及び、データ推定プログラム
WO2021111670A1 (ja) * 2019-12-02 2021-06-10 株式会社日立ソリューションズ・クリエイト アノテーション装置および方法
JP2021089491A (ja) * 2019-12-02 2021-06-10 株式会社日立ソリューションズ・クリエイト アノテーション装置および方法
JP7353946B2 (ja) 2019-12-02 2023-10-02 株式会社日立ソリューションズ・クリエイト アノテーション装置および方法
CN116389688A (zh) * 2023-04-10 2023-07-04 中华人民共和国黄埔海关 基于5g通信传输的海关口岸综合监控指挥系统及方法

Also Published As

Publication number Publication date
JP4993678B2 (ja) 2012-08-08

Similar Documents

Publication Publication Date Title
Mohanta et al. A model-based shot boundary detection technique using frame transition parameters
US10937144B2 (en) Pipe feature identification using pipe inspection data analysis
Koprinska et al. Temporal video segmentation: A survey
JP4993678B2 (ja) 対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラム
US20070052858A1 (en) System and method for analyzing and monitoring 3-D video streams from multiple cameras
CN109727275B (zh) 目标检测方法、装置、系统和计算机可读存储介质
JP2018142097A (ja) 情報処理装置、情報処理方法及びプログラム
Li et al. Structuring lecture videos by automatic projection screen localization and analysis
JP2008046903A (ja) 対象個数検出装置および対象個数検出方法
JP3970877B2 (ja) 追跡装置および追跡方法
US20040183825A1 (en) Method for identification of tokens in video sequences
EP3973446A1 (en) Forensic video exploitation and analysis tools
KR101062225B1 (ko) 감시 카메라를 이용한 지능형 영상 검색 방법 및 시스템
US11429985B2 (en) Information processing device calculating statistical information
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
Fradi et al. Spatial and temporal variations of feature tracks for crowd behavior analysis
JP2010231254A (ja) 画像解析装置、画像解析方法およびプログラム
TW202004667A (zh) 物件追蹤系統及方法
Nodehi et al. Multi-metric re-identification for online multi-person tracking
Wan et al. A new technique for summarizing video sequences through histogram evolution
JP2007041730A (ja) 電線異常検出方法および装置およびプログラム
JP7125843B2 (ja) 障害検知システム
US20180336435A1 (en) Apparatus and method for classifying supervisory data for machine learning
Chen et al. Modelling of content-aware indicators for effective determination of shot boundaries in compressed MPEG videos
KR101513180B1 (ko) 감시카메라 영상을 이용한 실시간 결제 이벤트 요약 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120501

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120507

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees