JP2008092471A

JP2008092471A - 対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラム

Info

Publication number: JP2008092471A
Application number: JP2006273352A
Authority: JP
Inventors: Fujio Tsutsumi; 富士雄堤
Original assignee: Central Research Institute of Electric Power Industry
Current assignee: Central Research Institute of Electric Power Industry
Priority date: 2006-10-04
Filing date: 2006-10-04
Publication date: 2008-04-17
Anticipated expiration: 2026-10-04
Also published as: JP4993678B2

Abstract

【課題】動画像中の対象物を対話型処理により追跡精度を向上させながら監視する。
【解決手段】画像クリップ毎に選択されたラベル付けデータをデータベースに登録し、各フレームの各画像クリップについて画像特徴量を算出し、画像特徴値を基準として、タグ付け処理を行い、ラベル付け及びタグ付け結果をフレーム画像と同時に可視化表示する。
【選択図】図２

Description

本発明は、対話型動画像監視方法、対話型動画像監視装置および対話型動画像監視プログラムに関する。さらに詳述すると、長時間の動画像監視システムに好適な対話型の動画像監視方法、動画像監視装置および動画像監視プログラムに関する。

近年急速な発展を遂げたデジタルビデオカメラ、計算機などのＩＴ機器を活用した、画像監視技術の実用化が進められている。画像監視技術の中心となる技術は、撮影された画像を計算機により認識し、例えば侵入者の有無を判断したり、機器の障害などを検出する画像認識技術である。

例えば、電力会社においては、保守・管理コストを低減するために電力関連設備の損傷箇所の検出に画像監視技術の実用化が進められている。また、電力関連施設への侵入者を検知のための画像監視技術の実用化が進められている。

従来、高精度の画像認識を実現する技術として、ＳＶＭ（サポートベクタマシン）やBoosting(ブースティング)等の教師付き機械学習技術（Supervised Machine Learning）が存在し、すでに様々な分野で活用されている。これらの教師付き機械学習は、人間が計算機に教示した認識すべき事例（正例という）と、認識すべきでない事例（負例という）をもとに、事例を学習させ、与えられていない事例に対しても適切な認識を行うものである。例えば、特許文献１には、ＳＶＭを用いた人の顔の判定技術が記載されている。

更に、電力関連設備等での障害の検知であれば、障害が発生することは稀であり、監視映像から異常が映っている箇所を選び出す作業は容易でない。このような事例教示における課題に対して、直接操作型のユーザインタフェースを用いることで、人間の認知能力を活用し、解決を図ろうとするインタラクティブ機械学習（Interactive Machine Learning：以下、IMLという）が提案されている。IMLは、例えば、事例（以下、データともいう）の解析結果を色やシンボルを使って一覧性良く可視化することで、ユーザは自分が行った事例教示（以下、ラベル付けともいう）の良し悪しや、ラベルの修正が必要な箇所を容易に把握することができるものである。

例えば、非特許文献１には、描画ソフトと同様のインタフェースにより、バッチ処理ではなく対話型（インタラクティブ）処理により機械を学習させ、静止画像の画像認識を実現できるシステムが提案されている。また、非特許文献２には、音、画像、ＲＦＩＤ等の複数のセンサ情報を同時に分析して人物の有無を判断するシステムが提案されている。
特開２００６−４００３号公報 Jerry Alan Fails and Dan R.Olsen Jr. Interactive machine learning.In Proceedings of the 8th international conference on Intelligent user interfaces,pp.39-45,2003. Anind K.Dey,Raffay Hamid,Chris Beckmann,Ian Li,and Daniel Hsu. a CAPpella:programming by demonstration of contextaware applications.In Proceedings of the SIGCHI conference on Hman factors in computing systems,pp.33-40,2004.

画像認識において必要とされる事例教示は、膨大なデータの中から教示すべきデータを選び出す作業（事例の選択）と、それが認識すべきデータか否かという情報（正負のラベル）を付与する作業（ラベル付け）から成るが、この事例の選択とラベル付けは、いずれも人間の労力が必要であり軽減が求められている。

しかしながら、特許文献１に記載のような教師付き機械学習は、認識精度は高いが、精度良く認識が可能になるまでの学習システムの教育には、人間による事例教示の手間が膨大であり、多大な時間を要するという問題がある。

例えば、屋外での監視映像であれば、多様な照明条件（朝、昼、夕方、雨、曇り、雪、人工照明など）のもとで、見た目の色や形を変える様々な現象（錆、傷、剥離、放電、侵入者、動植物等）を認識することが求められるため、計算機を十分に学習させるためには多数の事例教示しなければならず、大変な手間がかかり、実用的とはいえない。そのため、実用的な画像監視システムを構築するには、事例教示の手間を削減する必要がある。

また、これら教師付き機械学習における認識処理は、バッチ処理で行われるものであり、処理に時間がかかるという問題がある。また、バッチ処理であるので、ユーザが処理の途中などに、必要に応じて学習状況を確認したり、認識精度の確認を行ったりする対話型での実行は不可能であった。したがって、認識結果が満足のいくものでなければ、バッチ処理が終了した後に、再度、事例教示を行って、もう一度バッチ処理を行うことが必要となり、満足のいく認識結果を得るためには時間がかかるという問題があった。

この問題に対して、非特許文献１に記載の技術では、認識結果を即座に可視化し表示することで、正誤をユーザに認識させるという方法で解決を図っている。このため、静止画像では適用可能であるが、動画像での対象物の追跡においては、扱う情報量が静止画像の数万倍と多量になるため、処理に時間がかかり即時的なフィードバックが返せないという問題がある。即ち、動画像に適用した場合、対話型の処理といっても教示結果が即座に反映されず、バッチ処理のときと同じ問題が生じる。

このように、情報量の増大と共に処理時間は増加するので、膨大な情報量を扱う動画像監視においては、バッチ処理でしか処理を行うことはできず、対話型の機械学習システムの実現は困難であると考えられていた。

また、非特許文献２に記載の技術では、連続する画像を対象としているものの、画像情報に加えて、音情報や無線ＩＤタグ情報を組み合わせることにより人物の監視を行うものであり、画像情報だけを用いて動画像での監視を可能としたものではない。また、人間以外のものを監視対象とする場合や侵入者を監視する場合は、音情報、無線ICタグ情報等を得られない場合が考えられ、非特許文献２に記載の技術では、監視を行うことが不可能である。

更に、特許文献１に記載の教師付き機械学習、非特許文献１及び２に示すようなIMLを用いた技術では、ユーザが事例教示を追加していく過程で、その追加した事例教示が、データ全体の識別精度にどのような影響を及ぼすのかを知る術がなく、ユーザが状況を認識できないという問題がある。換言すれば、ユーザは、現在行っている事例教示の効果がよくわからないという問題がある。

そこで、動画像の監視において、ユーザが事例を教示していく過程で、即座に事例教示状況を把握しながら最適な事例教示方法を選択することが可能であり、更に、従来のバッチ処理に比べて迅速かつ認識精度の良い対話型の処理システムの実現が望まれている。

そこで本発明は、ユーザにより教示された最小限の事例に基づいて動画像データ中の対象物を監視、追跡し、更にその監視、追跡結果を分かりやすく可視化表示することを可能とする対話型動画像監視方法、対話型動画像監視装置及び対話型動画像監視プログラムを提供することを目的とする。

かかる目的を達成するため、請求項１に記載の対話型動画像監視方法は、動画像中の監視対象物を監視及び追跡する方法において、動画像のフレーム画像のうち画像処理の対象となる処理対象領域内に一以上の画像クリップを設け、画像クリップ内に監視対象物が撮影されているかどうかについてのラベル付けデータを登録するラベル登録処理と、画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、ラベル付けデータが登録されていない画像クリップの画像特徴量が、ラベル付けデータが登録された画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては、該ラベル付けデータに従ったタグ付けをラベル付けデータが登録されていない画像クリップに対し行うタグ付け処理と、タグ付け処理の結果をタグの重要度に基づいて動画像のフレーム画像と併せて表示する可視化処理とを行うようにしている。

また、請求項６に記載の対話型動画像監視装置は、動画像中の監視対象物を監視及び追跡する装置であって、動画像のフレーム画像を読み出し、画像処理の対象とする処理対象領域内に一以上の画像クリップを設定し、画像クリップ内に監視対象物が撮影されているかどうかについて予め指定されるラベル付けデータをデータベースに登録するラベル登録手段と、画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、データベースにラベル付けデータが登録されていない画像クリップの画像特徴量が、ラベル付けデータが登録されている画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあれば、該ラベル付けデータに従ったタグ付けをラベル付けデータが登録されていない画像クリップに関連づけて記憶するタグ付け手段と、タグ付け処理の結果をタグの重要度に基づいて動画像のフレーム画像と併せて出力装置に表示する可視化手段とを備えるものである。

また、請求項１１に記載の対話型動画像監視プログラムは、動画像のフレーム画像のうち、画像処理の対象とする処理対象領域内に一以上の画像クリップを設定し、主記憶装置に記憶させる対象領域設定処理と、記憶装置に予め登録された、画像クリップ内に監視対象物が撮影されているかどうかについてのラベル付けデータを読み出し、画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、ラベル付けデータが登録されていない画像クリップの画像特徴量が、ラベル付けデータが登録されている画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあれば、該ラベル付けデータに従ってラベル付けデータが登録されていない画像クリップにタグ付けを行い、更に、そのタグ付け結果をタグの重要度に基づいて動画像のフレーム画像と併せて出力装置に表示する画像認識、解析処理とをコンピュータに実行させることにより動画像中の監視対象物を監視及び追跡するものである。

したがって、先ず、監視対象物が撮影された動画像の各フレーム画像に対し、画像処理の対象となる部分を処理対象領域として設定し、さらに当該処理対象領域内を画像クリップを少なくとも１つ以上の領域に区分する。そして、ユーザにより当該画像クリップ毎に選択されたラベル、具体的には、監視対象物が撮影されている画像クリップに対して付されるラベル（ターゲットラベル）、または監視対象物が撮影されていない画像クリップに対して付されるラベル（非ターゲットラベル）のいずれかのラベル付けデータをデータベースに登録している。更に、各フレームの各画像クリップについて、その画像クリップ内の画素のRGB、HSV等の色情報値に基づいて画像特徴量を算出する。また、データベースに既にラベル付けデータが登録されている画像クリップについての画像特徴量の各要素を軸とする高次元空間において、そこから予め設定された一定の範囲に含まれる画像特徴値を有するまだラベル付けデータが登録されていない画像クリップについて、その基準となるラベルがターゲットラベルであれば、ターゲットタグを、非ターゲットラベルであれば、非ターゲットタグを付与している。更に、ラベル付け及びタグ付けがなされたすべてのフレームのタグ情報をタグの重要度に基づいて、表示されているフレーム画像と同一の画面で併せて表示している。尚、本明細書においてタグとは、付されたラベルに基づいて計算機が推定するラベルをいう。また、画像特徴量とは計算機が対象となる画像データから計算した画像を特徴づける色や模様などの情報である。

請求項２に記載の発明は、請求項１に記載の対話型動画像監視方法において、ラベル付けデータを登録及び検索する際に、局所性鋭敏型ハッシュのアルゴリズムを用いるようにしている。また、請求項７に記載の発明は、請求項２に記載の対話型動画像監視装置において、ラベル付けデータを登録及び検索する際に、局所性鋭敏型ハッシュのアルゴリズムを用いるものである。

したがって、ツリー型の検索アルゴリズムではなく、ハッシュ関数を用いた近似最近傍探索（ANN;Approximate Nearest Neighbor)の検索アルゴリズムである局所性鋭敏型ハッシュ（LSH;Locality-Sensitive Hashing）を用いている。

請求項３に記載の発明は、請求項１または２に記載の対話型動画像監視方法において、タグ付け処理は、監視対象物が撮影されているとラベル付けされた画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについてはターゲットタグ、監視対象物が撮影されていないとラベル付けされた画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては非ターゲットタグ、いずれの範囲内にもない画像クリップについては不明タグをタグ付けするようにしている。

また、請求項８記載の発明は、請求項６または７に記載の対話型動画像監視装置において、タグ付け手段は、監視対象物が撮影されているとラベル付けされた画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについてはターゲットタグ、監視対象物が撮影されていないとラベル付けされた画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては非ターゲットタグ、いずれの範囲内にもない画像クリップについては不明タグをタグ付けするものである。

したがって、ラベル付けデータからでは判断できないデータ（画像クリップの画像特徴量）、即ち、正例または負例として登録されたいずれのラベルの画像特徴量の各要素を軸とする高次元空間において、一定の距離にないデータを不明タグとしている。

請求項４に記載の発明は、請求項１から３までのいずれかに記載の対話型動画像監視方法において、可視化処理は、動画像のすべてのフレーム画像についてのタグ付け処理の結果を圧縮して一画面上に表示するようにしている。また、請求項９に記載の発明は、請求項６から８までのいずれかに記載の対話型動画像監視装置において、可視化手段は、動画像のすべてのフレーム画像についてのタグ付け結果を圧縮して一画面上に表示するものである。

したがって、対象となる動画像のすべてのフレームについてのタグ付けの結果を出力装置の表示画素数に収まるように圧縮して一画面上に表示している。

請求項５に記載の発明は、請求項４に記載の対話型動画像監視方法において、タグの重要度は、不明タグが最も高く、非ターゲットタグが最も低いようにしている。また、請求項１０記載の発明は、請求項９に記載の対話型動画像監視装置において、タグの重要度は、不明タグが最も高く、非ターゲットタグが最も低いものである。

したがって、タグ付け結果を圧縮して表示する際に、不明タグを最優先に表示し、次いで、ターゲットタグ、非ターゲットタグの順に表示するようにしている。

以上説明したように、請求項１に記載の対話型動画像監視方法、請求項６に記載の対話型動画像監視装置及び請求項１１に記載の対話型動画像監視プログラムによれば、動画像中の監視対象物を、対話型処理により事例教示の効果を確認しながら、かつその監視、追跡精度を向上させながら解析することができる。

また、動画像の再生と同時に可視化表示されるタグ付け結果を見ることで、タグの時間・空間的変化を瞬時に捉えることができる。即ち、現在の教示状況（ラベル付け状況）下での対象物の監視、追跡精度を即時に捉えることができ、更なる監視、追跡精度の向上のためには、どのようなラベル付けを行えばよいかを判断することができる。

このように、タグ付けをユーザ制御下におくことにより、情報処理量を必要最小限とすることができ、従来不可能であった、動画像におけるインタラクティブな監視システムを実現することが可能となる。

また、情報処理量の削減により、ユーザによるラベル付けは即座にフィードバック処理が成されるので、ユーザが新たに教示したラベルが画像全体の監視状況にどのような影響を与えたのかを、その都度、即座に確認することができる。これにより、ユーザは、どのようなラベル付けを追加して行っていけばよいのかを判断したり、どのようにラベル付けを行えば少ないラベル付け、即ち、少ない時間で監視、追跡精度を向上させることができるのかを判断することができる。

また、請求項２に記載の対話型動画像監視方法及び請求項７に記載の対話型動画像監視装置によれば、データの追加によりツリー構造が複雑になることがないため、ツリー型のアルゴリズムに比べて高速なデータ登録、データ検索処理を実現することができる。

また、請求項３に記載の対話型動画像監視方法及び請求項８に記載の対話型動画像監視装置によれば、ラベル付けデータからでは、ターゲットまたは非ターゲットタグを付与できない、即ち、監視対象物または非監視対象物のいずれであるかを判断できないデータに不明タグを付与し、可視化表示することで、ユーザにどのような点を中心に事例教示を行えばよいかを提示し、ユーザが最小限の教示数で精度の高い対象物の監視、追跡を可能とすることができる。

また、請求項４に記載の対話型動画像監視方法及び請求項９に記載の対話型動画像監視装置によれば、対象となる動画像のフレーム数が出力装置の出力可能な画素数（例えば横軸方向）を超える場合であっても、タグ付け結果が圧縮して一画面上に可視化表示されるので、ユーザはラベル付けの効果を確認しながら、事例教示を続けていくことが可能となる。

また、請求項５に記載の対話型動画像監視方法及び請求項１０に記載の対話型動画像監視装置によれば、タグ付け結果が圧縮して表示される場合であっても、まだタグの推定が行えていない不明タグを中心としたラベル付けを行うことができる。

以下、本発明の構成を図１〜図７に示す実施の形態に基づいて詳細に説明する。

図１に本発明の対話型画像監視装置１の構成の一例を示す。本発明の対話型画像監視装置１は、ディスプレイ等の出力装置２と、キーボード、マウス等の入力装置３と、演算処理を行う中央処理演算装置（CPU）４と、演算中のデータ、パラメータ等が記憶される主記憶装置（メモリ、RAM）５と、計算結果等の各種データが記録される補助記憶装置６としてのハードディスク、撮影された動画像が入力される入力インターフェース７等を備えている。以下、主記憶装置５及び補助記憶装置６を総称して、単に記憶装置ともいう。上記のハードウェア資源は例えばバス８を通じて電気的に接続されている。

入力インターフェース７は、ビデオカメラ等の撮像手段９から入力される、又は映像が記録されたDVD、ビデオテープ等の記憶媒体１０から読み込まれる信号をコンピュータでの処理が可能なデータに変換する機能や、映像を構成する各フレーム画像をそれぞれ映像データ１４として補助記憶装置６に記録する機能を有する。このような入力インターフェース７として、例えば既存のNTSC-RGBコンバータやフレームグラバまたはパーソナルコンピュータ用画像取り込みボード等を利用して良い。また、出力装置２には、ユーザインターフェース画面などが表示される。また、本発明の対話型画像監視プログラムは、補助記憶装置６に記録されており、当該プログラムがCPU４に読み込まれ実行されることによって、コンピュータが対話型画像監視装置１として機能する。

また、対話型画像監視装置１は、ラベル登録処理を実行するラベル登録手段１１、タグ付け処理を実行するタグ付け手段１２及び可視化処理を実行する可視化手段１３とを備えるものである。尚、上記ラベル付け手段１１、タグ付け手段１２及び可視化手段１３は、ＣＰＵ４で実行されるソフトウェアをコンピュータで実行させることで構成できる。

その実行の際に必要なデータは、RAM５にロードされる。また、補助記憶装置６には、映像データ１４が記憶され、ユーザにより教示されたデータとそのラベルを記憶し、データの登録、検索を可能とするLSHデータベース１５及び画像クリップ識別番号、フレーム番号I、グリッド中の座標位置xy、ラベル、タグ等を記憶するICP(Image Clip Profile)データベース１６が構成される。また、RAM５には、可視化領域３７の水平画素×垂直画素のメモリ領域で、ラベルもしくはタグを保持する可視化領域のデータマップ１７が形成される。尚、可視化領域のデータマップ１７は、初期化時は、すべて不明タグ５３となっている。尚、補助記憶装置６は、必ずしもコンピュータ内部の装置であることに限らず、外付けのハードディスク、ネットワーク経由でアクセス可能な外部記憶装置を用いても良いのは勿論である。以上述べた対話型画像監視装置１の構成は一例であってこれに限られるものではない。

本発明の対話型画像監視方法は、動画像中の監視対象物を監視及び追跡する方法において、動画像の各フレーム画像のうち画像処理の対象となる処理対象領域内に一以上の画像クリップを設け、画像クリップ内に監視対象物が撮影されているかどうかについてのラベル付けデータを登録するラベル登録処理と、画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、ラベル付けデータが登録されていない画像クリップの画像特徴量が、ラベル付けデータが登録された画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては、該ラベル付けデータに従ったタグ付けをラベル付けデータが登録されていない画像クリップに対し行うタグ付け処理と、タグ付け処理の結果をタグの重要度に基づいて動画像のフレーム画像と併せて表示する可視化処理とを行うものである。以下、本実施形態における対話型画像監視方法及び対話型画像監視プログラムについて述べる。

本発明の対話型画像監視方法では、情報探索手法としてLSHを用いることにより、ツリー型の探索手法に比べてデータ探索の速度向上を図っているが、動画像は静止画像の数万倍という情報量となるため、単にLSHを用いただけでは、フィードバックが遅くなり対話型での処理は不可能である。

そこで本発明の対話型画像監視方法では、ユーザが容易かつ迅速にラベル付け可能な直接操作型のグラフィカルインタフェースを用い、更にタグ付け処理をユーザ制御下に置くことで、フィードバック遅れの問題を解消し、画像認識結果を即座に表示することができる動画像での対話型監視を実現している。

尚、直接操作とはウィンドウシステムで用いられるユーザインタフェース技法をいい、具体的には、マウスによるファイル移動や、スライダーでの画面スクロールを指す。これはファイルアイコンや、スライダーコントロールといった、計算機内のリソースを視覚的に表現した画像シンボルを、直接触って動かしているかのように操作できる点に特徴がある。また、直接操作が効果的に働くのは、画像データを瞬時に把握できるという視覚的認知能力、50msec以内のコマ送り画像を動いていると認識する仮現運動、さらに200msec以内に起こった現象に関しては、変化を鋭敏に感知したり、因果関係を感じるという変化検知能力が人間に備わっているためである。直接操作では、変化がすぐにフィードバックされるため、ユーザは自身のラベル付けが及ぼす影響を感覚的に理解でき、さらに計算機が間違っていて、修正が必要な事例を容易に識別・指定できる。

例えば、表１の視覚認知特性に示すように、システムの反応時間に応じて、ユーザが処理可能な処理内容は変化する。

従来のIMLでは、主に50ms以下の直接操作可能な範囲を対象としていた。しかし、連続操作以上に時間のかかる遅い応答しか返せない場合も存在する。そこで、本発明では、動画像の再生モードとして、「コマ送り」、「通常再生」、「バッチ処理」の３つのモードをユーザに選択的に利用可能とさせることにより、ユーザの操作性を向上させて処理時間の短縮化を図り、対話型の画像監視システムを実現することを特徴としている。

「コマ送り」モードとは、ユーザが画像を１フレームずつ確認しながら、ラベル付けを可能とするモードである。新たに指定されたラベル付けされたデータは、LSHにより瞬時に登録される。「通常再生」モードとは、既にタグ付け処理がなされた画像をＴＶレート（29.97fps）で再生しながらユーザがタグ付け状況を確認することができるモードである。「バッチ処理」モードとは、すべての画像にタグ付け処理を行いながらバッチ処理を行うものである。本実施形態では、タグ付け処理においては、常に途中経過を可視化表示し、また、バッチ処理中でもいつでも一時停止及び任意の時点から処理を可能とすることで、操作性を向上させている。

次に、図９に示す本発明の対話型画像監視プログラムが行う処理全体を示すフローチャートを用いて説明する。

先ず、初期設定（Ｓ１）を行う。初期設定（Ｓ１）では、対象フレーム番号iの初期化を行い(i=1)、再生モードを「コマ送り」とする。更に、LSHデータベース１５、ICPデータベース１６が既にある場合は、補助記憶装置６から読み込み、存在しない場合は、新規にデータベースの作成を行う。また、可視化領域のデータマップ１７の初期化を行う。

次に、対象領域設定（Ｓ２）を行う。対象領域設定（Ｓ２）では、先ず、読み込んだ動画像の１フレーム目の画像を出力装置２に表示させる。尚、１フレーム目の画像に監視対象物４０（以下、対象物、ターゲットともいう）が撮影されていない場合等は、ユーザが対象物４０の撮影が開始されるまで、フレームを早送り機能により動画像を進めれば良い。また、認識、解析の対象とする映像は、補助記憶装置６に予め記憶されている映像データ１４から読み出しても、または撮像手段９及び記録媒体１０から直接キャプチャ処理を行うようにしても良い。尚、本実施形態では、映像データ１４は、例えばＴＶレート（29.97fps）の画像としているが、フレームレートは特に限られるものではない。

図２に本発明の対話型画像監視プログラムのユーザインタフェース画面の一例を示す。ウィンドウ２１に動画像を表示するのが映像表示領域２２である。また、画面に表示されているグリッド２３の最外辺に囲まれる領域が、ユーザにより指定された処理対象領域２４を示す。以降のラベル付けやタグ付け等の画像処理は、すべてこの処理対象領域２４に対して行われる。このようなマスク処理を前提とすることで、計算量を減らしかつノイズの混入を制限できるため、高速かつ高精度な処理が可能となる。例えば、ＤＶ−ＮＴＳＣの場合であれば映像の画素数は７２０×４８０ピクセルであるが、マスク処理をすることによって処理対象領域２４を限定することができる。

尚、画面全体に変化が生じたか否かのみを監視したい場合等においては、例えば、処理対象領域２４を指定せず、映像表示領域２２に表示された画像全体を処理の対象としても良い。

処理対象領域２４は、対象物４０が撮影された映像表示領域２２に表示されたフレーム画像に対し、ユーザがマウス操作等で処理対象領域２４を選択し、更に、処理対象領域２４を区切るグリッド２３のサイズを指定することにより指定される。また、グリッド２３の設定は必須ではなく、例えば、処理対象領域２４に対象物４０が存在するか否かのみを確認したい場合等では、グリッド２３を設定する必要はない。

本実施形態では、フレーム画像中のグリッド２３に囲まれる画像単位を「画像クリップ」と呼び、ラベル付けやタグ付けの単位とする。

尚、本実施形態では、グリッド２３を矩形としているが、グリッド２３は必ずしも矩形である必要はない。また、背景差分や各種フィルタ処理等の前処理を行って、画像クリップを切り出し、処理対象領域２４内に表示するようにしても良い。例えば、背景差分を前処理として行えば、フレーム間で動きのあった画像クリップだけを以降の処理の対象とすることができる。また、フィルタ処理を前処理として行えば、あらかじめ監視対象物の色の特徴を登録しておくことで、その色の特徴を有する画像クリップだけ以降の処理の対象とすることができる。

ウィンドウ２１の右に並ぶボタン類は、映像の再生やバッチ処理などを指定するユーザインタフェースである。尚、以下に説明するユーザ補助としての機能は、必要に応じて、実装するようにすれば良く、必ずしも必須のものではない。また以下に説明する機能に限られず、他のユーザ補助機能を備えるようにしても良いのは勿論である。

「<1S」ボタン２５ａは、１秒前の画像フレームに戻るものである。同様に、「<10f」ボタン２５ｂは、１０フレーム前の画像に戻るものである。「コマ送り」ボタン２６は、クリックすることにより、次のフレームが表示される。「このフレームを検査」ボタン２７は、現在ウィンドウ２１に表示されているフレーム画像に対して、タグ付け処理を行い、その結果を表示するものである。

例えば、映像を解析するタグ付けは、１フレームあたりのデータ数２５個(画像クリップ数）という後述の実験の場合でも、１秒あたり７５０個、一分で４５０００個ものデータをタグ付けしなければならないため、ラベル付けされる度に映像全体のタグ付けを行うのでは、処理に時間がかかり対話型での処理は不可能である。しかし、ユーザが現在見ている表示フレームに限れば、タグ付けすべきデータ数は少ない（最大２５個）ため、「このフレームを検査」ボタン２７がクリックされた場合に、即時に当該フレームに対しタグ付け処理を行いフィードバックを返すことができる。

「未指定対象時停止」３０のチェックは、通常再生モードの場合の機能である。通常再生モードでは、タグ付け処理はせずに、これまでの最新のタグ付け結果をウィンドウ２１にオーバーレイ表示しながら映像再生を行う。ここで、「未指定対象時停止」３０のチェックを外すと、タグの種類を問わず再生を続けるが、チェックを入れると、不明タグが現れた場合に、自動的に一時停止するものである。「未指定対象時停止」３０のチェックを入れておけば、不明タグを優先的にラベル指定する場合に、不明タグを探索する手間を省くことができる。

「通常再生」ボタン３１は、現在ウィンドウ２１に表示されているフレーム画像以降の動画像を通常再生モードで再生するためのものである。「<<10s」ボタン３２ａは、１０秒前の画像に戻るものである。同様に、「10s>>」ボタン３２ｂは１０秒後の、「30s>>」ボタン３２ｃは３０秒後の画像を表示するものである。「バッチ検査」ボタン３３は、現在ウィンドウ２１に表示されている画像以降のフレームに対してバッチ処理を行うものである。「clear tag map」ボタン３４は、ウィンドウ２１下の可視化領域３７を初期化（クリア）するものである。「近傍距離閾値」ボタン３５は、タグ付け処理の際に用いる近傍距離閾値ｒを指定するためのものである。尚、近傍距離閾値ｒは、スライダ３５ａで決定するとフィールド３５ｂに表示される。また、フィールド３５ｃに、スライダ３５ａで設定できる値の範囲の最大値を入力することで、スライダ３５ａで設定できる値の範囲を変更できる。「InitializeDB」ボタン３６は、当該画像についてのLSHデータベース１５及びICPデータベース１６の初期化を行うものである。

また、ウィンドウ２１下に表示されている模様が可視化領域３７、即ち、処理対象の映像に対しタグ付け処理を行った結果を示す領域である。可視化圧縮方向３８は、後述の可視化圧縮を横軸方向に対して行うのか、縦軸方向に対して行うのかを選択可能としている。

また、ウィンドウ２１下の画像スライダ３９は、スクロールさせることで動画像の任意の地点の画像フレームを操作することができる。即ち、画像スライダ３９を最左端にすると最初のフレームを表示し、最右端にすると最終フレームを表示するものである。

対象領域設定（Ｓ２）までが終了すると、指定された再生モードにより画像認識、解析処理（Ｓ３〜Ｓ１２）が進行する。尚、画像認識、解析処理は、原則としてフレーム番号i毎にループ処理が行われるものである。

画像認識、解析処理では、先ず、映像設定（Ｓ３）を行う。映像設定（Ｓ３）は、i番目のフレーム画像をメモリへ読み込むものである。また、同時に、映像表示領域２２内に対象領域設定（Ｓ２）で設定されたグリッド２３が表示される。

本実施形態では、映像表示領域２２に表示されたフレーム画像についてラベル付けを行う場合について述べる。尚、ラベル付けは必ずしも始めに表示されたフレーム画像について行う必要はなく、上述の画像のスキップ機能（画像スライダ３９、「<<10s」ボタン３２ａ等）でラベル付けに適した（例えば、対象物が１つの画像クリップ内に撮影されている）フレームを選択すればよい。

まず、画像認識、解析処理の基本となるラベル付けについて説明する。

ラベル付けはユーザにより行われる。具体的には、対象物４０が撮影されている画像クリップを選択し、「指定ラベルを登録」ボタン２９を押すことで、ラベル付けがされる。尚、ラベル付けには、特にルールはなく任意のフレームの任意の画像クリップに任意の数のラベル付けを行えばよい。

本実施形態では、画像クリップをクリックする度に、その画像クリップの枠（グリッド２３）の色が、赤 → グレー → 赤 → グレー → 赤 ...と繰り返し変化する。ここで、赤い枠の状態で「指定ラベルを登録」ボタン２９をクリックすると、当該画像クリップは正例（ターゲット）としてターゲットラベルが登録される。逆にグレー枠の状態で「指定ラベルを登録」ボタン２９をクリックすると、当該画像クリップは負例（非ターゲット）として非ターゲットラベルが登録される。

即ち、ユーザは、対象物４０が撮影されている画像クリップの場合は、赤い枠の状態で、「指定ラベルを登録」ボタン２９をクリックすればよい。また、対象物４０が撮影されていない画像クリップであれば、枠がグレーの状態で「指定ラベルを登録」ボタン２９をクリックすればよい。尚、本発明の対話型画像監視方法は、ユーザが指定する最小限のラベル付けされたデータを基に、タグ付け処理を行いラベル付けのされていない画像クリップをタグ付け処理を行い対象物４０が撮影されているかどうかを判断するものであるので、当該フレームにおけるすべての画像クリップについてラベルを登録する必要はなく、必要に応じて行うだけでよい。

更に、本実施形態では、表示されたフレーム画面のいずれの画像クリップにも対象物４０が映っていない場合は、いずれの画像クリップも選択しない状態で、「指定ラベルを登録」ボタン２９をクリックすることで、当該フレームにおけるすべての画像クリップについては、非ターゲットラベルをラベル付けすることができる。

尚、ユーザによるラベル付けの方法は特に限られるものではなく、例えば、「正例として登録」、「負例として登録」の２つの登録ボタンを設け、画像クリップを選択していずれかの登録ボタンを選択することでラベル登録を行うようにしても良い。

このようにして、指定されたラベルはLSHデータベース１５に登録され、タグ付け処理の際の基準データとなる。以下に、LSHによるラベル登録について説明する。

従来型のIMLでの探索では、決定木（DT ; Decision Tree）の一種を用いて、高速なフィードバックを実現している。しかし、決定木は、事例データ全体を見て、良い分岐点を探す手法であるため、インタラクティブなラベル付けに利用すると、木がアンバランスになり速度が低下するという問題がある。高速な登録速度を維持するには木の再構成をしなければならず、これには時間がかかる。

これに対し、データ同士の類似性を直接用いる最近傍探索（NN；Nearest Neighbor）は、分岐点を探す必要がないため逐次的なラベル追加に適している。しかし、一般に事例数に比例して探索時間が増えるという欠点がある。また、近年、探索時間の短縮を図る技術として近似最近傍探索（ANN;Aproximate Nearest Neighbor)が提案されている。ANNは、完全ではないが、高い確率でNNを可能とすることで、高い探索精度を維持したまま探索時間の探索を図るものである。従来の近似最近傍探索には、kd-treeをはじめとするtree型の探索手法が良く用いられている。しかしながら、ツリー型の探索手法は、探索対象のデータの増大に伴い、ツリー構築に時間がかかり、迅速な探索が行えなくなるという問題点を有していた。

このANNを高速に実現する汎用性の高い手法として局所性鋭敏型ハッシュ（LSH;Locality-Sensitive Hashing）が提案されている。LSHは、代表的な高次元データ用kd-treeの４０倍の速度向上が実験的に示されており、最近傍探索の代表的手法の一つである。

本発明の対話型画像監視方法では、LSHを用いて、ユーザが指定したラベルを記憶し、データ認識（タグ付け）に利用する。これによりユーザが映像の任意の箇所をラベル付けすると、そのラベル情報は即座にデータベースに反映される。映像データの認識はユーザが指定したすべてのラベルを使って、その場で行えるため、迅速なフィードバックが可能となる。尚、本実施形態では、画像類似性の判定で一般的な「ユークリッド距離」でのANNを実現するため、p安定分布を用いたLSH（p-LSH)を用いているが、他のLSHを用いても良い。

以下に、p-LSHについて簡単に説明する（p-LSHの詳細は、Mayur Datar,Nicole Immorlica,Piotr Indyk,and Vahab S.Mirrokni. Locality-sensitive hashing scheme based on p-stable distributions. In Proceedings of the twentieth annual symposium on Computational geometry,pp.253-262,2004参照）。

p-LSHでは、先ず、扱うデータ（本明細書では、画像特徴量）をd次元の実数ベクトルvとし、このd次元データをk次元に写像する（但し、k＜d）。

そのためにp安定分布（ユークリッド距離の場合は２安定分布、即ち正規分布）に従う独立な値をd個用意し、それぞれを要素とするd次元ベクトルaを、k個作成する。

更に、数式１で示される関数を用いて、h_a,b(v)を要素とするk次元整数ベクトルgを生成する。これによりd次元ベクトルｖは、k次元整数ベクトルに写像される。
ここで、bは[0,ω]の範囲の実数パラメータである。

ここで、あるベクトルv1,v2があった場合、写像後の差(a・v1-a・v2)は、‖v1-v2‖_p×Xに分布する。尚、‖v‖_p はp-ノルム、Xはp安定分布である。これにより、v1,v2がr以内にあると高い確率で同じgが得られる。

p-LSHは、k個のaの組をL個用意し、それぞれとの内積計算によりL個のgを生成し、それぞれを別のテーブル（バケット）に格納する。即ち、あるベクトルvからL個のｋ次元整数ベクトルが生成され、それぞれをバケットに格納するものである。即ち、L個の写像空間を用意して、vをそれぞれの空間に写像しているといえる。これにより、それぞれで近傍が発見される確率がp(c)であっても、L個のバケットを全て探索すると1-(1-p(c))^Lの確率で発見できることになるので、最近傍探索を精度良く求めることができる。

ここで、Lの数を多くすれば、探索精度は向上するが、探索に時間がかかるようになる。また、写像空間の次元数kの値も、同様に精度と時間に影響を与える。kを大きくすると探索時間は減るが、内積の計算時間が増え、かつ同じrに対して探索精度が下がることになる。よって、L及びkの値は、必要な精度と時間の制限を考慮して選択すべきものである。以上でLSHについての説明を終了する。

上述のようにユーザは、最初に一部のデータにラベル付けをすることが必要となるが、本発明の対話型画像監視方法は、ユーザの負担を最小限に減らし、さらに対話型処理により、ユーザが現在行っているラベル付けがどのように解析結果に反映しているか、即ち、効果的なラベル付けを考えながらラベル付けができるようにすることで、ラベル付けに要する時間を最小限にすることが可能となる。

Ｓ４以降の処理は、選択されている再生モードにより異なる処理が行われる。次に、タグ付け処理について説明する。

図３にタグ付け処理を表す模式図を示す。ここで、四角形の枠４１は、画像特徴量を軸とする空間を示すとする。この特徴量によってデータは識別される。この空間内で近ければ特徴量が似ていること、言い換えれば画像が似ていることを意味する。本実施形態では、画像特徴量は、各フレームの各画像クリップ毎に１つのd次元ベクトルとして与えられる。以下、タグ付け処理によるタグ付けは、この画像特徴量を基準になされる。

図４に画像特徴量の指定インタフェース画面の一例を示す。本実施形態では、画像特徴量となる基準を予め選択的に設定することが可能である。特徴量４７としては、一般的な縮小（スケーリング）またはヒストグラムのいずれかを選択可能としている。

また、表色系４８としては、RGB、HSV、グレースケール、CIE Yxy、CIE L^*a^*b^*から選択可能としている、また、縮小方法４９としては、最近傍法、双線形補完法、双三次補完法、平均化のいずれかのアルゴリズムを選択可能としている。尚、いずれのアルゴリズムも公知のアルゴリズムであるので説明は省略する。また、データの次元５０には、特徴量データの次元数dを入力する。次元数を大きくすると細かな特徴を考慮した類似性の判定が行うことが可能となるが、タグ付けの処理時間が長くなり、次元数を小さくすると、類似性判定が粗くなるが、処理時間は短くなる。このため、要求される精度、処理時間の制限等の制約条件に応じて次元数を設定すればよい。尚、画像特徴量として用いることが可能な基準は上述の例に限られない。

以下に、表色形にRGB、３次元ヒストグラム特徴を用いた場合を例に画像特徴量の算出方法を示す。各チャンネルの色量子化数をnとすると、３次元ヒストグラムはn×n×nの値を有するヒストグラムとなる。例えばn=4の場合は、4×4×4=64の６４次元ベクトルとなる。

次に、各チャンネルの色値の取り得る最大値をmaxR,maxG,maxBとし（0〜255）、画像クリップ内のある画素の色値の値を（R，G，B）とする。また、r' = (maxR+1)/n, g' = (maxG+1)/n, b' = (maxR+1)/nとし、r = floor(R/r'), g = floor(G/g'), b = floor(B/b')とすると、r, g, bは0〜nの整数となる。

画像クリップ内のすべての画素に対して、上記計算を行って、異なる(r,g,b)毎に画素数を集計する。k = r×n×n + g×n + bとし、k番目の要素を(r, g, b)の集計画素数とし、集計画素数を並べてヒストグラムを表現するベクトルとする。尚、画像クリップ内に該当する色値の画素が無い場合は集計画素数は０となる。

また、表色形にRGBの双線形補完法による５×５次元のスケーリング特徴を用いた場合を例に画像特徴量の算出について説明する。尚、スケーリング特徴とは、画像を碁盤目状のブロックに分割し、それぞれのブロックの代表値を縮小方法４９で指定された方法で算出し、その代表値をベクトルの各要素とするものであり、双線形補完法とは、縮小時のある画素が、縮小前の画像における、その座標をとりまく四画素の値から、線形補間により、縮小時の値を計算する方法である。

具体的には、縮小前の画像が３２×３２画素の画像I₁を、５×５次元のスケーリング特徴I₂に変換する場合は、５／３２の縮小となるので、I₂での(1,1)座標の値i1(1,1)は、I₂でのi2(32/5,32/5)、即ちi2(6.4, 6.4)となる。I₂の座標(6.4, 6.4)には値がないので、i2(6, 6), i2(6, 7), i2(7, 6), i2(7, 7)から線形補完し、i1(1,1)の値とする。同様に全ての画素について、RGBのそれぞれの値について行い画像特徴量を算出する。

図３（ａ）は、ユーザによるラベル付けが成された場合の模式図であり、白丸４２が認識すべきとラベル付けられたデータ（以下、ターゲットラベルデータ４２）、黒丸４３が認識すべきでないとラベル付けられたデータ（以下、非ターゲットラベルデータ４３）を示している。尚、図３では説明を簡単にするため、縦横の２次元としているが、本実施形態では、数十から数百の高次元空間を用いる。

図３（ｂ）は、当該ラベル付けにしたがって、本発明のタグ付け処理によりタグ付けがなされた様子を示す模式図である。タグ付け処理では、ラベル付けされたデータであるターゲットラベルデータ４２及び非ターゲットラベルデータ４３から、近傍距離閾値r以内にあるデータにタグを付ける。即ち、ターゲットラベルデータ４２から一定の距離r内にあるデータにターゲットタグデータ４４がタグ付けされ、非ターゲットラベルデータ４３から一定の距離r内にあるデータに非ターゲットタグデータ４５がタグ付けされる。尚、近傍距離閾値ｒは「検査距離」２８（図２参照）に示される参考値を元に決定される任意のパラメータである。

近傍距離閾値ｒの設定方法の一例について説明する。「このフレームを検査」ボタン２７を押してタグ付け処理を行うと、表示されているフレーム画像の画像クリップは、既に登録済みのラベル付きデータと比較される。比較対象は、画像クリップの画像特徴量を現すd次元ベクトルに対し、近傍距離閾値r以内にある、登録済みのラベル付きデータである。ここで、比較対象のうち、最近傍のデータまでの距離をDとすると、画面内の全画像クリップに対し、最近傍データまでの距離Dを計算した後で、その最大値をmaxDとし、「検査距離」２８には、maxDが表示される。尚、近傍距離閾値ｒ以内にデータがない場合はD=9999とする。

この「検査距離」２８に表示される数値は、近傍距離閾値rを設定する参考値とすることができる。例えば、画面内に既にラベル登録したデータと明らかに類似の画像がある場合に、タグ推定を失敗している場合は、近傍距離閾値rの設定が小さ過ぎることを意味している。そのような場合には、閾値rを大きくして対処することになるが、あまりに大きくすると類似していないデータまで類似していると誤推定してしまう。そこで、類似画像を正しくタグ推定できる状態で、検査距離よりも少し大きな値を近傍距離閾値rに設定する。

本発明の対話型画像監視方法では、ユーザがラベル付けを行う量を最小限にすることで、迅速な処理を可能とすることを目的の一つとしている。したがって、ラベル付けされたデータは、映像は全体から見ればごく一部にすぎない。このため、少ないラベル付けされたデータ４２，４３から、rの値を大きくする等により無理にターゲットタグデータ４４及び非ターゲットタグデータ４５を推測してタグ付けを行うと、推定精度が悪くなり、誤判定が多くなるばかりか、ユーザがラベル付けがどのように解析結果に影響を及ぼしているのかの判断ができないこととなる。

そこで本発明の対話型画像監視方法では、図３（ｂ）に示すようにターゲットタグデータ４４、非ターゲットタグデータ４５のいずれにもならないものを不明タグデータ４６としている。

本実施形態では、上述のように、ターゲットラベルが付された画像クリップのグリッド２３を赤色、非ターゲットラベルが付された画像クリップのグリッド２３をグレーで表示することにしている。ここで、タグ付け処理が実行されると、ラベルが付されていない画像クリップについては、ターゲットタグ５１、非ターゲットタグ５２、不明タグ５３のいずれかのタグ付けが成されるが、ターゲットタグ５１が付された画像クリップのグリッド２３をオレンジ色、非ターゲットタグ５２が付された画像クリップのグリッド２３を青色、不明タグ５３が付された画像クリップのグリッド２３を白色で表示するようにしている。

また、ユーザがいくつかのラベル付けを行った後、「バッチ検査」ボタン３３をクリックすると、現在画面に表示されているフレーム以降のフレーム画像に対して、連続してタグ付け処理が開始され、途中で停止が指示されない限り、動画像の最終フレームまでタグ付け処理を行う（バッチ処理）。尚、タグ付けの速度は、特徴量データの次元数、LSHの各種パラメータ、および画面内で区切られた画像クリップの個数などに影響される。

本発明の対話型動画像監視方法では、バッチ処理の最中であっても、その途中でのユーザからの指示で「コマ送り」ボタン２６や「通常再生」ボタン３１がクリックされることでバッチ処理を停止し、ユーザは、それまでの同時に並行して表示される可視化領域３７での解析状況に応じて、ラベルを新たに追加、または既に付したラベルを修正することができる。更に、ラベルが追加・修正した後に、再びタグ付け処理を開始すると、以降のフレーム画像については新たに追加されたラベルを反映したタグ付けが行われる。

このタグ付け処理の状況は、図２に示すように可視化領域３７上に可視化表示されていく。

図５（ａ）に、ある動画像のフレーム画像の一例と図５（ｂ）にその映像に対し自動タグ付け処理を行った場合に表示される可視化領域３７の拡大図の一例を示す。

可視化領域３７の横軸は時間軸であり、左端が最初のフレームの情報を表し、映像中の時間の推移とともに、右方に移り、最右端が最後のフレームを表す。模様はそれぞれのフレームでの、画像クリップのタグを表し、上述したグリッド２３での枠の色と同様である。本実施形態では、オレンジの枠（図中薄いグレー）がターゲットタグ５１、青の枠（図中濃いグレー）が非ターゲットタグ５２、白い枠が不明タグ５３を表す。

この可視化結果は、時間の推移とともに画面内のタグが、どのように変化するかを表すものである。不明タグ５３を示す白い領域は、これまでにユーザによりラベル付けられた画像情報では、ターゲット５１、非ターゲット５２のいずれにもタグ付けできない箇所を意味している。

例えば、図５（ｂ）では、最上段はすべて青色（図中濃いグレー）になっており、画面の上段には全くターゲット（対象物４０）が現れていない事がわかる。また中段は、オレンジ色（図中薄いグレー）の帯が現れており、中段に時々ターゲットが現れることが読み取れる。

ここで、静止画像のタグ付けと異なり、映像全体のタグはビットマップディスプレイが高解像度になったとはいえ、一画面に表示できる量ではない。即ち、長時間の映像の場合、フレーム総数は、アプリケーション可視化領域の画素数よりも、はるかに大きいため一つの画素が複数フレームの情報を表示しなければならないこととなる。つまり、可視化領域３７上の一点は、空間的・時間的な多数のタグの重なった表示領域ということになる。

また、解像度が高くても、表示が稠密になれば、人間の視力限界を越えて見えなくなってしまう。もちろんズーム機能を設けたり、可視化マップをスクロール可能にすることで問題を軽減はできるが、広い範囲を一度に見るという要求と、部分を拡大するズームとは両立しない。

そのため、限られた画素数の範囲にタグ付け結果を一覧表示するには、複数のタグの情報を同じ場所に表示する必要がある。本実施形態では、タグに重要度を割り当て、重要な情報を優先的に表示するようにしている。

本実施形態では、タグの重要度を以下の重要度とした。
重要度・高：不明タグ
重要度・中：ターゲットタグ
重要度・低：非ターゲットタグ
重要度・高の「不明タグ」は、どのような点を中心に事例教示を行えばよいか、をユーザに提示し、最小限の教示数で精度の高い対象物の追跡を可能とするために最も優先的に表示すべきものである。また、重要度・中の「ターゲットタグ」は、ユーザが指定した少数のターゲットラベルと良く似た未知データを表すため、正しく推測している場合は、ラベル付け作業の進捗状況を確認する助けとなり、ユーザの想定外の場所に現れた場合は、誤推測の可能性を示す点で重要である。更に、「非ターゲットタグ」は、ユーザが指定した多量の非ターゲットに良く似たデータであり、ユーザのラベル付けにミスがない限り、見る必要性の低いデータとなるため、重要度は最も低い。

また、上記重要度付けは、以下の理由により最適である。例えば、「ターゲットタグ」を「不明タグ」より優先するようにすると、未だタグ付けがなされていない箇所を見過ごすことにつながる。また、同様に「非ターゲットタグ」を「ターゲットタグ」より優先するようにすると、タグ付けの誤推定を見過ごしてしまう。したがって、上述の重要度に基づき可視化処理を行うことで、ラベル付け作業に必要な情報を見落とす可能性を減らすことができる。

尚、タグの重要度は上述の例に限られるものではない。例えば、不明タグの不明度により更に重要度を細かく表示してもよい。ここで不明度とは、最近傍のターゲットラベルデータ４２、非ターゲットラベルデータ４３までの距離の大小や近傍距離閾値r以内のターゲットラベルデータ４２、非ターゲットラベルデータ４３の個数等を基準に設定することができる。例えば、最近傍のターゲットラベルデータ４２、非ターゲットラベルデータ４３までの距離が大きい順に不明度を設定し、不明度の大きいものから優先的に表示させるようにしても良い。この場合には、不明タグをその不明度により更に細かく色分けをして表示させるようにすれば良い。

次に、図６を用いて可視化処理について説明する。扱う動画像の総フレーム数をFとした場合の、i番目のフレームの画像イメージを図６（ａ）に示す。

横グリッド数をXg,縦グリッド数をYgとし、可視化対象とする画像グリップのグリッド位置を(xg,yg)とする。この場合、当該画像グリップに対応する可視化領域３７上の該当領域Rは、数式２により求めることができる。尚、領域Rの左上座標を(xv,yv)で示す。
＜数２＞
xv = Xv×(i/F)
w = Xv/F 但し、w<1の場合はw=1とする。wは、該当領域Rの横幅を示す。

また、図２に示すように、本実施形態の対話型画像監視プログラムのインタフェースでは、「可視化圧縮方法」ラジオボタン３８により、射影を行う方向を横軸方向に行うのか、縦軸方向に行うのかを選択可能としている。上述のように、動画像中に付されるタグの数は膨大であり、画面内にすべて表示することは不可能なためである。横軸方向に射影を行う場合は数式３で、縦軸方向に射影を行う場合は数式４で、該当領域Rの縦幅hを求めることができる。尚、Xvは可視化領域３７の横画素数、Yvは可視化領域３７の縦画素数を示す。
＜数３＞
yv = Yv×(yg/Yg)
h = Yv/Yg 但し、h<1の場合はh=1とする。
＜数４＞
yv = Yv×(yg/Xg)
h = Yv/Xg 但し、h<1の場合はh=1とする。

更に、図７を用いて横軸方向に射影した場合について説明する。上述のように可視化領域３７の横画素数は限られており、画素数を超えるフレーム数となる場合は、数フレームの画像情報を１つの画素列で表示することが必要となる。ここでは、フレーム画像（i〜i+k）のk+1個のフレーム画像（j行目）をどのように１画素列に圧縮して表示するかを説明する。

先ず、フレーム画像（i〜i+k）のj行目に着目し、j行目の画像クリップの重要度を比較する。本実施形態では、上述の重要度の最も高いもので代表させるようにしている。ここでは、不明タグ５３が存在するので、可視化領域３７の該当領域は不明タグ５３を示す白色になる。

また、該当する行に不明タグ５３がない場合であって、一つでもターゲットタグ５１がある場合は、ターゲットタグ５１示すオレンジ色に、非ターゲットタグ５２しかない場合には、非ターゲットタグ５２を示す青色に可視化領域３７がマッピングされる。尚、縦軸方向に射影する場合は、j行目をj列目として処理を行うようにすれば良い。

このように、限られた可視化領域３７に重要な情報を集約して表示させ、ユーザのラベル付け支援、ひいては少ない教示による高精度の画像監視の実現支援を行うものである。

可視化領域３７でのタグの可視化結果は、例えば動画像中で場所の移動がない対象物４０であれば、可視化領域にはターゲットタグを示すオレンジの線が直線で現れる（実施例１、図１５参照）。

これに対し、動画像中で移動する対象物４０の監視であれば、可視化領域に現れるオレンジの線の軌跡により対象物４０の追跡を行うことが可能となる（実施例４、図２２参照）。この場合は、対象物４０の移動が画面の横方向に移動することが多いのか、画面の縦方向に移動することが多いのかにより、射影を行う方向の選択を行えばよい。

また、画像監視において検知すべき箇所や発生時間が事前にわかっていることはほとんどなく、また検知すべき映像は、全体のごく一部である。例えば、碍子の夜間の放電を調べるために撮影された映像の場合、そのほとんどは真っ暗な夜間の碍子連の映像であり、あらかじめ放電画像を教示しておくことは困難である（実施例３参照）。即ち、ターゲットを教示することが困難な場合が存在する。

このようにターゲットを教示することが困難な動画像に対してでも、本発明の対話型動画像監視方法によれば、ユーザにより非ターゲットが教示されていれば、それとは異なる対象に不明タグを付けて映像中から抽出できるため、必ずしもあらかじめターゲットを教示しておく必要はない。

即ち、ユーザは不明タグが付けられた画像を確認すれば、ターゲットの絞込みを行うことができ、映像全体を注意深く見続けなくても、ターゲットを確実に教示することができる。

この場合のタグ付け方法の模式図を、図８に示す。ユーザは、まず映像の中で容易に教示できる非ターゲットをラベル付けする。例えば、放電映像の場合であれば放電の発生していない通常の状態の画像を教示する（図８（ａ））。

その状態でタグ付け処理を行うと、教示した非ターゲットに類似する画像（放電の無い画像）には、自動的に非ターゲットタグ５２が付けられ、それ以外のすべてに不明タグが付けられる（図８（ｂ））。即ち、真っ暗な状態のままであれば、非ターゲットタグ５２が付されるので、不明タグ５３が付けられたデータには、何らかの現象が発生している可能性がある。

よって、この不明タグデータ４６を画像で確認し、問題がなければ非ターゲットラベルを付け、ターゲット（この場合、放電）が映っていればターゲットラベルを付ける（図８（ｃ））。

それからタグ付け処理を行うと、さらに絞り込んだタグ付けがなされる。その後、タグ推定が十分になるまで繰り返す（図８（ｄ））。

上述のタグ付け方法は、映像全体に占める通常状態の割合が多く、検出すべき現象の発生頻度が低いほど効率的な方法であり、監視映像に適した方法である。

また、上述の例のように、処理開始時にターゲットを教示することが困難な動画像についての近傍距離閾値rの設定は、例えば以下のように行う。

ラベルが指定されておらず、かつターゲットのない画像クリップを、計算機が非ターゲットとタグ推定できる最小の距離を設定する。この際、距離rが小さすぎると、タグ推定結果が不明（白）ばかりになる。逆に、距離が大きすぎると、本来検出すべきターゲットを見逃してしまう。

そこで、明らかにターゲットのない画像クリップがすべて青色（非ターゲットタグ）となる最小の距離、即ち、それ以上小さくすると青から白色（不明タグ）に変わってしまう距離に設定することで精度の良いタグ推定を行うことが可能となる。

以下、図９〜１３に示すフローチャートを用いて、本発明の対話型動画像監視プログラムが行う画像認識、解析処理について説明する。

どの再生モードが選択されているかによって、画像認識、解析処理の内容は異なる。

再生モードが「バッチ処理」モードの場合（Ｓ４；Ｙｅｓ）、バッチ処理（Ｓ５）を行う。

図１０のフローチャートを用いて、バッチ処理（Ｓ５）について説明する。

先ず、グリッド中の最左、最上の画像クリップを処理対象とする（Ｓ５０１）。

次に、処理対象の画像クリップを予めユーザによって指定された方法（特徴量４７，表色系４８，縮小方法４９，データの次元数５０）でd次元実数ベクトルv（画像特徴量）に変換し（Ｓ５０２）、LSHデータベース１５に対しvをキーとした質問を行ってvに類似するデータの検索を行う（Ｓ５０３）。

検索結果のデータ（画像特徴量）と、質問として与えたvとの距離が予め指定された近傍距離閾値rよりも大きい場合は、当該画像クリップのタグを「不明タグ」とし、rよりも小さくかつ最近傍データのラベルが「ターゲットラベル」である場合は、当該画像クリップのタグを「ターゲットタグ」とし、ラベルが「非ターゲットラベル」である場合は、「非ターゲットタグ」とする（Ｓ５０４）。

当該画像クリップのタグをICPデータベースに登録する（Ｓ５０５）。当該画像クリップのタグに応じた色の枠を、ビデオ映像の当該画像クリップの位置に表示する（Ｓ５０６）。

可視化領域３７の制御機構に対し、当該フレーム番号、グリッド内の位置、タグを通知し可視化結果の更新を行う（Ｓ５０７）。

図１１に、Ｓ５０７の処理を詳細化したフローチャートを示す。当該フレーム番号とグリッド内の位置から可視化領域上の該当領域Rを計算する（Ｓ５０７−１）。

次に、可視化領域上の該当領域Rに対応するデータマップに登録されたタグTregistの重要度と、当該画像クリップのタグTnewの重要度を比較する（Ｓ５０７−２）。

次に、再生モードが「バッチ処理」であり、且つ、他のモードから「バッチ処理」に変更された後、該当領域Rにアクセスするのが最初である場合（Ｓ５０７−３；Ｙｅｓ）は、Ｓ５０７−５へ移る。それ以外の場合（Ｓ５０７−３；Ｎｏ）は、Ｓ５０７−４へ移る。Tnewのタグ重要度がTregistのタグ重要度より大きい場合（Ｓ５０７−４；Ｙｅｓ）は、Ｓ５０７−５へ移る。一方、Tnewのタグ重要度がTregistのタグ重要度と同じまたは小さい場合は、Ｓ５０７の処理は終了する。

Ｓ５０７−５では、可視化領域のデータマップ１７にTnewを登録し、可視化領域３７の該当領域RをTnewに対応する色で塗りつぶして表示し、Ｓ５０７の処理は終了する。

図１０のフローチャートの説明に戻る。未処理の画像クリップがグリッド内に存在するかどうか判断し、存在する場合（Ｓ５０８；Ｙｅｓ）は、未処理の画像クリップを処理対象として（Ｓ５０９）、Ｓ５０２の処理へ戻る。すべての画像クリップについて処理が終了したら（Ｓ５０８；Ｎｏ）、バッチ処理は終了し、Ｓ８へ移る。

次に、再生モードが「通常再生」の場合（Ｓ６；Ｙｅｓ）は、通常再生処理（Ｓ７）を行う。図１２のフローチャートを用いて、通常再生処理（Ｓ７）について説明する。

グリッド中の最左、最上の画像クリップを処理対象とし（Ｓ７０１）、処理対象の画像クリップのフレーム番号、グリッド内の位置をキーとして、ICPデータベース１６から、登録済みのラベルもしくはタグを検索する（Ｓ７０２）。

当該画像クリップのタグもしくはラベルに応じた色の枠を、当該画像クリップの枠の色として表示する（Ｓ７０３）。

可視化領域の制御機構に対し、当該フレーム番号、グリッド内の位置、タグを通知し、可視化結果を更新する処理（Ｓ７０４）を行う。尚、Ｓ７０４の処理は、上述のＳ５０７の処理（図１１参照）と同じであるので説明は省略する。

未処理の画像クリップがグリッド内に存在するかどうか判断し、存在する場合（Ｓ７０５；Ｙｅｓ）は、未処理の画像クリップを処理対象として（Ｓ７０６）、Ｓ７０２の処理へ戻る。すべての画像クリップについて処理が終了したら（Ｓ７０５；Ｎｏ）、通常再生処理は終了し、Ｓ８へ移る。

次に、再生モードが「コマ送り」の場合（Ｓ８；Ｙｅｓ）は、コマ送り処理（Ｓ９）を行う。図１３のフローチャートを用いて、コマ送り処理（Ｓ９）について説明する。

先ず、グリッド内の位置（xg,xy）が選択された場合（Ｓ９０１；Ｙｅｓ）は、当該画像クリップのタグもしくはラベルをICPデータベースを検索して取得し、得られたタグもしくはラベルをTpとする（Ｓ９０２）。

Tpが不明タグ、非ターゲットタグ、非ターゲットラベルのいずれかである場合（Ｓ９０３；Ｙｅｓ）、当該画像クリップのラベルを「ターゲット」に変更し、ICPデータベース１６に登録、グリッドの枠の色をターゲットに対応する色に変更（Ｓ９０４）し、Ｓ９０１に戻る。

一方、Tpがターゲットタグ、ターゲットラベルである場合（Ｓ９０５）は、当該画像クリップのラベルを「非ターゲット」に変更し、ICPデータベース１６に登録、グリッドの枠の色を非ターゲットに対応する色に変更（Ｓ９０６）し、Ｓ９０１に戻る。

グリッド内の位置（xg,xy）が選択されない場合（Ｓ９０１；Ｎｏ）は、「このフレームを検査」ボタン２７がクリックされたかどうかを判断する（Ｓ９０７）。「このフレームを検査」ボタン２７がクリックされた場合（Ｓ９０７；Ｙｅｓ）は、バッチ処理（Ｓ５）をおこなってからＳ９０１に戻る。

「このフレームを検査」ボタン２７クリックされていない場合（Ｓ９０７；Ｎｏ）は、「指定ラベルを登録」ボタン２９がクリックされたかどうかを判断し（Ｓ９０８）、クリックされた場合（Ｓ９０８；Ｙｅｓ）は、「コマ送り処理」中に更新された全てのラベルをLSHデータベース１５に登録し（Ｓ９０９）、バッチ処理（Ｓ５）をおこなってからＳ９０１に戻る。

「指定ラベルを登録」ボタン２９がクリックされていない場合（Ｓ９０８；Ｎｏ）は、「コマ送り」ボタン２６がクリックされたかどうかを判断し（Ｓ９１０）、クリックされた場合（Ｓ９１０；Ｙｅｓ）は、コマ送り処理（Ｓ９）は終了する。

「コマ送り」ボタン２６がクリックされていない場合（Ｓ９１０；Ｎｏ）は、「バッチ検査」ボタン３３がクリックされたかどうかを判断し（Ｓ９１１）、クリックされた場合（Ｓ９１１；Ｙｅｓ）は、再生モードを「バッチ処理」に変更して（Ｓ９１２）、コマ送り処理（Ｓ９）は終了する。

「バッチ検査」ボタン３３がクリックされていない場合（Ｓ９１１；Ｎｏ）は、「通常再生」ボタン３１がクリックされたかどうかを判断し（Ｓ９１３）、クリックされた場合（Ｓ９１３；Ｙｅｓ）は、再生モードを「通常再生」に変更して（Ｓ９１４）、コマ送り処理（Ｓ９）は終了する。一方、クリックされていない場合（Ｓ９１３；Ｎｏ）は、Ｓ９０１に戻る。

図９のフローチャートの説明に戻る。Ｓ５、Ｓ７、Ｓ９のいずれかの処理が終了すると、対象フレーム番号i を i+1に更新する(Ｓ１０）。

この際に、画像スライダ３９、「<<10s」ボタン３２ａ等によりフレーム番号i'への移動が指示されている場合は対象フレーム番号iをi'に変更する（Ｓ１１）。

最後にシステム終了が指示されているかどうかを判断する（Ｓ１２）。以上で本発明の対話型動画像監視プログラムが実行する処理が終了する。

尚、上述の実施形態は本発明の好適な実施の例ではあるがこれに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。また、上述の演算式は一例であり、本発明の要旨を逸脱しない範囲において種々変形実施可能である。

例えば、本実施形態では、情報探索手法としてLSHを用いているが、他の手法、例えば、分類木やSVM等の他の学習器を用いても良い。その場合は、LSHデータベース１５に替えて、対応するデータベースを構成し処理を行えばよい。

また、可視化領域３７は必ずしも圧縮して一画面上に表示する必要はない。この場合、可視化領域３７をスクロールバーによりスクロール可能とすればよい。また、圧縮表示し、該当箇所を選択することで該当箇所が圧縮前の状態をズームイン表示するようにしても良い。

（実施例１）
本発明の対話型動画像監視プログラムを用いて、照明変動などを模擬した人工的な試験映像への適用実験を行った。

本実験では、図１４に示すように１枚の紙に印刷されたロゴ４０を撮影した動画像（実験映像１）を用いた。ターゲット４０は、ロゴ４０である。紙は、中央に固定した状態で撮影を行ったため、ロゴ４０の位置は変化しない。ロゴ４０を検出することには、特段の困難性はないが、本実験は本発明の対話型動画像監視プログラムが、照明変動に対応することが可能であるか否かを目的とした。

本実験における照明は、以下の３つの条件とした。
（１）蛍光灯による人工照明
（２）室内のブラインドをおろして照明を消した状態
（３）室内のブラインドを開けて照明を消した状態
上記３状態を連続変化させ、明るさ、色、コントラスト等を変動させながら撮影を行った。尚、実験映像１は４７秒（1,424フレーム）であった。

本実験では、当該映像を用いて、３人の被験者により、本発明の対話型動画像監視プログラムによりロゴ認識を行った。

被験者は、実験映像１を見て、特定のフレームを選択し、最小限の画像クリップに対し、ラベル付けを行った後、本発明の対話型動画像監視プログラムを実行した。これにより、ラベル付けがされていない他のすべての画像クリップにタグ付け処理がなされ、可視化領域３７に監視結果を表示される。

更に、被験者は、監視結果を見て必要なフレームの必要な画像クリップに対しラベル付けを再度行い、再度プログラムを実行させる処理ことを繰り返し実行した。本実験では、被験者が正確な監視ができたと判断した時点で処理を終了し、実験を終了した。

本実験において、計算機の学習度合い、即ち、画像の監視精度を判定するために表２に示す指標を用いた。

学習度合いは、本来付されるべきラベル（以下、正解ラベル）に対して、どのようなタグ付けがされたかで判断することができる。例えば、正解ラベルに対しターゲットタグが付されている数である。

表２では、TPとTNが多いことが望まれ、FNとFPが多いことはタグの推定精度が低いことを意味する。また、FUは、ターゲットとすべき所を不明としている、いわば見落とし箇所であり、これを減らすことが目的となる。

本実験では、画像特徴量及びLSHには以下のパラメータを用いた。画像特徴量には、表色系はRGBとし、双線形補完法による５×５次元のスケーリング特徴を用いた。また、LSHのパラメータとしては、L=20 , k=10 ,ω=0.4とした。尚、このパラメータの設定は、距離r以内のデータを９０％の確率で正しく検索し、距離r外のデータを５％の確率で誤検出する設定値である。また、近傍距離閾値r=0.15とした。

実験結果を図１５に示す。（ａ）は、映像中でターゲットを確実にターゲットとして検出できているか否かを示す再現率（recall）、（ｂ）は、非ターゲットを確実に非ターゲットとして検出できているか否かを示す非ターゲット検出率(TNR)が、ラベルの登録数に応じてどのように変化したかを示すグラフである。尚、再現率（recall）は数式５で、非ターゲット検出率(TNR)は数式６で示され、１に近ければ近いほど精度が高いことを意味している。
＜数５＞
recall = TP/(TP+FN+FU)
＜数６＞
TNR = TN/(TN+FP+TU)

また、被験者との比較のため、フレームの選択はランダムに行って、当該フレームでのラベル付けは正確に行うラベル付け作業（以下、ランダム選択という）を行った。本実験における動画像では、対象物であるロゴ４０は、画面の中心のまま動かないので、ロゴ４０が出現しているフレームを与えれば、自動的にランダム選択が可能となる。このランダム選択と被験者との再現率（recall）、非ターゲット検出率(TNR)を比較することにより被験者がフレームの選択を効率よく行うことができたかを確認できる。即ち、被験者の結果とランダム選択の結果が同等であれば、被験者はフレーム選択を無作為に行っていたといえ、被験者の結果がランダム選択の結果より良ければ、被験者は効率的にフレーム選択を行ったといえることになる。

図１５に示されるように、３人の被験者の結果はランダム選択と比較して、早い段階で１に近づいていることがわかる。FP及びFNは、いずれの例でもほぼ０であるので、数式７で示される精度(precision)及び数式８で示される誤検出率(FPR)は、精度≒１、誤検出率≒０であった。
＜数７＞
precision = TP/(TP+FP)
＜数８＞
FPR = FP/(FP+FU+TN)

また、ラベル登録数が増加するにつれ、可視化領域３７がどのように変化したのかを図１６に示す。図１６は、上からラベル登録数の増加に伴う、可視化領域３７の変化の様子を示すものである。

登録ラベルの少ない初期段階では、白い領域（不明タグ）６１が多く、対象物の監視を行えていないことを示しているが、ラベル付けが進むにつれて不明タグが減少し、中心にオレンジ（図中ではグレー）のライン６２が現れる。本実験では、対象物のロゴ４０は画面の中心にあるので、横軸方向に射影した本実験では、可視化領域３７の中心にオレンジのライン６２が現れれば、ロゴ４０の追跡に成功していることを示す。

本実験から、照明変動による対象物の色の変化に対応することが可能であることが確認できた。

（実施例２）
同様に、図２に示す画像により実験を行った。尚、特に記載のない限り実験は、実施例１と同様の条件下である。

本実験では、画像中の缶６３が回転し、側面に貼り付けられたロゴ４０の追跡を行った。即ち、ロゴ４０が缶６３の回転に合わせて見えたり見えなくなったりを繰り返す動画像（実験映像２）である。尚、実験映像２は、１２０秒（3,596フレーム）であった。

実施例１と同様に３人の被験者に本発明の対話型画像監視プログラムを実行してもらった結果を図１７に示す。

実験映像２でもFPとFNは極めて小さい値であり、精度≒１、誤検出率≒０であった。試験映像２では照明変動がないため、背景の変動がなく、最初に数フレーム分に背景を非ターゲットラベルとして登録することで、背景を除外することができた。

また、実験映像２では、缶６３が繰り返し４回転し、その位置も同じであるため、１回転分に適切にラベル付けすることで、残りの映像についても適切にタグ付けを行うことができた。よって、実験映像１に比して、少ないラベル登録数で高い再現率を達成できた。

（実施例３）
本実験では、碍子の漏れ電流の監視を行った。実験に用いた映像（実験映像３）は、直流送電線の放電騒音防止のための暴露試験として、試験場に設置された直流碍子連を、数ケ月に渡って長期撮影した映像の一部である。

実験映像３の総再生時間は４８分４２秒、総フレーム数８７，５７５フレーム、放電が確認できる夜間の映像である。尚、碍子連の昼間の撮影例を図１８に示す。当該映像でのターゲットは碍子の放電現象であり、映像中から放電が起きた時刻やその頻度を正確に検出する必要がある。

実験映像３では、映像のほとんどの時間は放電がなく、変化のない単調な画面が続く。また一回の放電時間は極めて短い（33msec以内)。そのため、例えば検査員が、放電箇所を探しながら注意力を維持して見続けるのはかなりの労力であり、また見落としも多くなることが考えられる。

図１９に示すように、最右列の碍子連に対して、横２マス、縦２０マスのグリッド２３を設定した。尚、夜間であるため画面は真っ黒である。

本実験では、画像特徴量はグレースケール（輝度は[0,1]の実数）、平均化による４×４次元のスケーリング特徴とした。LSHのパラメータは実施例１及び２と同じとし、近傍距離閾値r = 0.24とした。

本実験では、先ず放電の映っていない最初のフレーム画像の４０個の画像クリップすべてに非ターゲットラベルをつけた。そして、このラベル付けのみの状態でタグ付け処理を行った時の可視化領域３７を図２０（ａ）に示す。図２０は、図１９の横方向に射影して得られた可視化領域３７を示すものである。尚、実験映像３の４８分の映像のタグ付けには、Pentium（登録商標）4 3.6GHzの計算機で３２分を要した。

本実験では、可視化領域３７の横画素数を７２０としたため、横１画素には１２２フレーム、２４４個のタグ情報が集約されている(=87,575×2 / 720）。

図２０（ａ）では、非ターゲットタグを表す青色（図中では濃いグレー）がほとんどを占め、不明タグを表す白い領域がところどころに見られる。即ち、ほとんどは放電の無い映像であったということである。また、白い領域には、非ターゲットとは似ていない何かが撮影されている可能性があることを示す。ユーザは、映像全体を見る必要はなく、この白い不明タグのついた画像のみを検査すればよいことになる。尚、ターゲットラベルは一つも登録していないため、オレンジ色で示されるターゲットタグは一切見られない。

不明タグのいくつかを映像で確認したところ、図２０（ａ）中の符号６５で示す不明タグの集まりは、いずれも、ビデオテープのノイズであることがわかった。ノイズはビデオテープの傷及びビデオデッキのヘッドが原因であった。

これに対し、最下段に途中から現れて、映像の最後付近まで連続して現れている不明タグの連続６６で示す箇所は、放電現象を捉えていることがわかった。

そこで、映像を確認しつつ、ビデオノイズには非ターゲットラベルを、放電箇所にはターゲットラベルを付ける作業を行った。２９７個のラベルをつけた後のタグ付け状態を図２０（ｂ）に、さらに２６６フレーム、４１４個までラベルのラベルをつけた後のタグ付け状態を図２０（ｃ）に示す。

ラベルが増えるに従って、ノイズが消えて行き、最下段にオレンジ（図中では薄いグレー）のターゲットタグの連続６７が増えていることがわかる。

以上のように、本発明の対話型動画像監視プログラムによりビデオ映像の解析を行うと、ユーザによる、ほんの少数の非ターゲット情報を教示するだけで、監視映像中の代表的な放電パターンなど、注目すべき箇所を適切に見出せることが確認できた。

更に、事例画像の選択、ラベルの教示作業を容易かつ確実にできことが確認できた。本発明の対話型動画像監視プログラムによれば、碍子の放電映像に限らず、発生頻度が低く、計算機への教示事例を見出すのが難しい長時間監視においても事例教示の作業労力を大幅に低減することができる。

（実施例４）
本実験では、ラジコンの自動車の監視、追跡を行った。本実験では、図２１に示すように監視対象物としてラジコンの自動車４０が床を左右に横断して走行する映像（実験映像４）を用いた。尚、実験映像４の総再生時間は６７秒、総フレーム数２，００８フレームである。

本実験では、画像特徴量をRGB３×３×３=27次元のヒストグラム特徴とし、近傍距離閾値をr = 0.47844とした。

グリッド２３は横２１×縦１３の細かな碁盤目状とし、可視化圧縮方向３８を横軸方向に設定し、本発明の対話型動画像監視プログラムを実行した。その結果を図２２に示す。尚、ラベルは、ターゲットタグ、非ターゲットタグをあわせて２６個だけ登録した。

可視化領域３７には、非ターゲットを示す青色のバック７０にターゲットを示すオレンジ色の傾きをもったライン７１が表示されている。オレンジのライン７１は、自動車４０の追跡結果を示している。尚、不明タグはほとんど存在せず、自動車４０の動きに合わせて追跡結果が表示されており、追跡に成功したことを示している。

ここで、オレンジのライン７１が、左下から右上に伸びている場合は、自動車４０は、画面の右から左へ移動したことを表し、左上から右下に伸びている場合は、画面の左から右へ移動したことを表している。また、ライン７１の傾きは、自動車４０の速度や走行コースで変化する。具体的には、自動車４０の画面横方向速度成分が、遅いと傾きが大きくなり、高速だと傾きが小さくなる。

本実験により、可視化領域３７に表示されるタグ付け状況から監視対象物がどのような動きをしたか、即ち監視対象物の追跡を、ごく少ないユーザによる教示で実現できることが確認できた。

本発明の対話型画像監視装置の一例を示す概略構成図である。本発明の対話型動画像監視プログラムのインタフェース画面の一例である。また、実験映像２のフレーム画像の一例である。タグ付け処理の概念図であり、（ａ）は２次元の画像特徴量空間でのターゲットラベルデータ及び非ターゲットラベルデータを示し、（ｂ）は（ａ）に示したターゲットラベルデータ及び非ターゲットラベルデータに基づいてターゲットタグデータ、非ターゲットタグデータ及び不明タグデータがタグ付けされる様子を示す。本発明の対話型動画像監視プログラムの画像特徴指定のインタフェース画面の一例である。（ａ）は、対象となる動画像のフレーム画像を、（ｂ）は、当該動画像について可視化処理を行った後に表示される可視化領域を示す。フレーム番号及びグリッド内の位置から可視化領域での該当領域Rを求める方法を説明するための図である。可視化領域を横軸方向に射影して表示する場合の処理方法を説明するための図である。タグ付け処理の概念図の他の例であり、（ａ）は２次元の画像特徴量空間での非ターゲットラベルデータを示し、（ｂ）は（ａ）に示した非ターゲットラベルデータに基づいて非ターゲットタグデータ及び不明タグデータがタグ付けされる様を示し、（ｃ）は更にターゲットラベルデータがラベル付けされた様子を示し、（ｄ）は（ｃ）に示したターゲットラベルデータ及び非ターゲットラベルデータに基づいてターゲットタグデータ、非ターゲットタグデータ及び不明タグデータがタグ付けされる様子を示す。本発明の対話型動画像監視プログラムが実行する処理全体を示すフローチャートである。本発明の対話型動画像監視プログラムが実行するバッチ処理の詳細を示すフローチャートである。Ｓ５０７及びＳ７０４の処理の詳細を示すフローチャートである。本発明の対話型動画像監視プログラムが実行する通常再生処理の詳細を示すフローチャートである。本発明の対話型動画像監視プログラムが実行するコマ送り処理の詳細を示すフローチャートである。実験映像１のフレーム画像の一例である。実施例１での実験結果を示すグラフであり、（ａ）は登録ラベル数と再現率との関係を示すグラフである。（ｂ）は登録ラベル数と非ターゲット検出率との関係を示すグラフである。実施例１におけるラベル登録数の増加に伴う可視化領域の変化の様子を示す図である。実施例２での実験結果を示すグラフであり、（ａ）は登録ラベル数と再現率との関係を示すグラフである。（ｂ）は登録ラベル数と非ターゲット検出率との関係を示すグラフである。碍子連の昼間の撮影画像の一例である。碍子連に対して、横２マス縦２０マスのグリッドを設定した画像の一例である。実験映像３に対し、（ａ）非ターゲットラベルのみ４０ラベル、（ｂ）更に、ターゲット又は非ターゲットラベルを２９７ラベル、（ｃ）更に、４１４ラベルをラベル付けしてタグ付け処理を行った場合の、可視化領域を示す。実験映像４のフレーム画像の一例である。実験映像４にグリッドの設定をしたウィンドウ及びタグ付けされた可視化領域を示す。

符号の説明

１対話型映像解析装置
１１ラベル付け手段
１２タグ付け手段
１３可視化手段
１４映像データ
２４処理対象領域
５１ターゲットタグ
５２非ターゲットタグ
５３不明タグ

Claims

動画像中の監視対象物を監視及び追跡する方法において、前記動画像のフレーム画像のうち画像処理の対象となる処理対象領域内に一以上の画像クリップを設け、前記画像クリップ内に前記監視対象物が撮影されているかどうかについてのラベル付けデータを登録するラベル登録処理と、前記画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、前記ラベル付けデータが登録されていない前記画像クリップの前記画像特徴量が、前記ラベル付けデータが登録された前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては、該ラベル付けデータに従ったタグ付けを前記ラベル付けデータが登録されていない前記画像クリップに対し行うタグ付け処理と、前記タグ付け処理の結果をタグの重要度に基づいて前記動画像のフレーム画像と併せて表示する可視化処理とを行うことを特徴とする対話型動画像監視方法。
前記ラベル付けデータを登録及び検索する際に、局所性鋭敏型ハッシュのアルゴリズムを用いることを特徴とする請求項１に記載の対話型動画像監視方法。
前記タグ付け処理は、前記監視対象物が撮影されているとラベル付けされた前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについてはターゲットタグ、前記監視対象物が撮影されていないとラベル付けされた前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては非ターゲットタグ、いずれの範囲内にもない前記画像クリップについては不明タグをタグ付けすることを特徴とする請求項１または２のいずれかに記載の対話型動画像監視方法。
前記可視化処理は、前記動画像のすべてのフレーム画像についての前記タグ付け処理の結果を圧縮して一画面上に表示することを特徴とする請求項１から３のいずれかに記載の対話型動画像監視方法。
前記タグの重要度は、前記不明タグが最も高く、前記非ターゲットタグが最も低いことを特徴とする請求項４に記載の対話型動画像監視方法。
動画像中の監視対象物を監視及び追跡する装置であって、前記動画像のフレーム画像を読み出し、画像処理の対象とする処理対象領域内に一以上の画像クリップを設定し、前記画像クリップ内に前記監視対象物が撮影されているかどうかについて予め指定されるラベル付けデータをデータベースに登録するラベル登録手段と、前記画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、前記データベースに前記ラベル付けデータが登録されていない前記画像クリップの前記画像特徴量が、前記ラベル付けデータが登録されている前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあれば、該ラベル付けデータに従ったタグ付けを前記ラベル付けデータが登録されていない前記画像クリップに関連づけて記憶するタグ付け手段と、前記タグ付け処理の結果をタグの重要度に基づいて前記動画像のフレーム画像と併せて出力装置に表示する可視化手段とを備えることを特徴とする対話型動画像監視装置。
前記ラベル付けデータを登録及び検索する際に、局所性鋭敏型ハッシュのアルゴリズムを用いることを特徴とする請求項６に記載の対話型動画像監視装置。
前記タグ付け手段は、前記監視対象物が撮影されているとラベル付けされた前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについてはターゲットタグ、前記監視対象物が撮影されていないとラベル付けされた前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては非ターゲットタグ、いずれの範囲内にもない前記画像クリップについては不明タグをタグ付けすることを特徴とする請求項６または７のいずれかに記載の対話型動画像監視装置。
前記可視化手段は、前記動画像のすべてのフレーム画像についてのタグ付け結果を圧縮して一画面上に表示することを特徴とする請求項６から８のいずれかに記載の対話型動画像監視装置。
前記タグの重要度は、前記不明タグが最も高く、前記非ターゲットタグが最も低いことを特徴とする請求項９に記載の対話型動画像監視装置。
動画像のフレーム画像のうち、画像処理の対象とする処理対象領域内に一以上の画像クリップを設定し、主記憶装置に記憶させる対象領域設定処理と、記憶装置に予め登録された、前記画像クリップ内に監視対象物が撮影されているかどうかについてのラベル付けデータを読み出し、前記画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、前記ラベル付けデータが登録されていない前記画像クリップの前記画像特徴量が、前記ラベル付けデータが登録されている前記画像クリップの前記画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあれば、該ラベル付けデータに従って前記ラベル付けデータが登録されていない前記画像クリップにタグ付けを行い、更に、そのタグ付け結果をタグの重要度に基づいて前記動画像のフレーム画像と併せて出力装置に表示する画像認識、解析処理とをコンピュータに実行させることにより動画像中の監視対象物を監視及び追跡する対話型動画像監視プログラム。