以下、本発明の構成を図1〜図7に示す実施の形態に基づいて詳細に説明する。
図1に本発明の対話型画像監視装置1の構成の一例を示す。本発明の対話型画像監視装置1は、ディスプレイ等の出力装置2と、キーボード、マウス等の入力装置3と、演算処理を行う中央処理演算装置(CPU)4と、演算中のデータ、パラメータ等が記憶される主記憶装置(メモリ、RAM)5と、計算結果等の各種データが記録される補助記憶装置6としてのハードディスク、撮影された動画像が入力される入力インターフェース7等を備えている。以下、主記憶装置5及び補助記憶装置6を総称して、単に記憶装置ともいう。上記のハードウェア資源は例えばバス8を通じて電気的に接続されている。
入力インターフェース7は、ビデオカメラ等の撮像手段9から入力される、又は映像が記録されたDVD、ビデオテープ等の記憶媒体10から読み込まれる信号をコンピュータでの処理が可能なデータに変換する機能や、映像を構成する各フレーム画像をそれぞれ映像データ14として補助記憶装置6に記録する機能を有する。このような入力インターフェース7として、例えば既存のNTSC-RGBコンバータやフレームグラバまたはパーソナルコンピュータ用画像取り込みボード等を利用して良い。また、出力装置2には、ユーザインターフェース画面などが表示される。また、本発明の対話型画像監視プログラムは、補助記憶装置6に記録されており、当該プログラムがCPU4に読み込まれ実行されることによって、コンピュータが対話型画像監視装置1として機能する。
また、対話型画像監視装置1は、ラベル登録処理を実行するラベル登録手段11、タグ付け処理を実行するタグ付け手段12及び可視化処理を実行する可視化手段13とを備えるものである。尚、上記ラベル付け手段11、タグ付け手段12及び可視化手段13は、CPU4で実行されるソフトウェアをコンピュータで実行させることで構成できる。
その実行の際に必要なデータは、RAM5にロードされる。また、補助記憶装置6には、映像データ14が記憶され、ユーザにより教示されたデータとそのラベルを記憶し、データの登録、検索を可能とするLSHデータベース15及び画像クリップ識別番号、フレーム番号I、グリッド中の座標位置xy、ラベル、タグ等を記憶するICP(Image Clip Profile)データベース16が構成される。また、RAM5には、可視化領域37の水平画素×垂直画素のメモリ領域で、ラベルもしくはタグを保持する可視化領域のデータマップ17が形成される。尚、可視化領域のデータマップ17は、初期化時は、すべて不明タグ53となっている。尚、補助記憶装置6は、必ずしもコンピュータ内部の装置であることに限らず、外付けのハードディスク、ネットワーク経由でアクセス可能な外部記憶装置を用いても良いのは勿論である。以上述べた対話型画像監視装置1の構成は一例であってこれに限られるものではない。
本発明の対話型画像監視方法は、動画像中の監視対象物を監視及び追跡する方法において、動画像の各フレーム画像のうち画像処理の対象となる処理対象領域内に一以上の画像クリップを設け、画像クリップ内に監視対象物が撮影されているかどうかについてのラベル付けデータを登録するラベル登録処理と、画像クリップについて該画像クリップに含まれる画素の色情報値に基づいて画像特徴量を求め、ラベル付けデータが登録されていない画像クリップの画像特徴量が、ラベル付けデータが登録された画像クリップの画像特徴量の各要素を軸とする高次元空間において、予め定めた一定の範囲にあるものについては、該ラベル付けデータに従ったタグ付けをラベル付けデータが登録されていない画像クリップに対し行うタグ付け処理と、タグ付け処理の結果をタグの重要度に基づいて動画像のフレーム画像と併せて表示する可視化処理とを行うものである。以下、本実施形態における対話型画像監視方法及び対話型画像監視プログラムについて述べる。
本発明の対話型画像監視方法では、情報探索手法としてLSHを用いることにより、ツリー型の探索手法に比べてデータ探索の速度向上を図っているが、動画像は静止画像の数万倍という情報量となるため、単にLSHを用いただけでは、フィードバックが遅くなり対話型での処理は不可能である。
そこで本発明の対話型画像監視方法では、ユーザが容易かつ迅速にラベル付け可能な直接操作型のグラフィカルインタフェースを用い、更にタグ付け処理をユーザ制御下に置くことで、フィードバック遅れの問題を解消し、画像認識結果を即座に表示することができる動画像での対話型監視を実現している。
尚、直接操作とはウィンドウシステムで用いられるユーザインタフェース技法をいい、具体的には、マウスによるファイル移動や、スライダーでの画面スクロールを指す。これはファイルアイコンや、スライダーコントロールといった、計算機内のリソースを視覚的に表現した画像シンボルを、直接触って動かしているかのように操作できる点に特徴がある。また、直接操作が効果的に働くのは、画像データを瞬時に把握できるという視覚的認知能力、50msec以内のコマ送り画像を動いていると認識する仮現運動、さらに200msec以内に起こった現象に関しては、変化を鋭敏に感知したり、因果関係を感じるという変化検知能力が人間に備わっているためである。直接操作では、変化がすぐにフィードバックされるため、ユーザは自身のラベル付けが及ぼす影響を感覚的に理解でき、さらに計算機が間違っていて、修正が必要な事例を容易に識別・指定できる。
例えば、表1の視覚認知特性に示すように、システムの反応時間に応じて、ユーザが処理可能な処理内容は変化する。
従来のIMLでは、主に50ms以下の直接操作可能な範囲を対象としていた。しかし、連続操作以上に時間のかかる遅い応答しか返せない場合も存在する。そこで、本発明では、動画像の再生モードとして、「コマ送り」、「通常再生」、「バッチ処理」の3つのモードをユーザに選択的に利用可能とさせることにより、ユーザの操作性を向上させて処理時間の短縮化を図り、対話型の画像監視システムを実現することを特徴としている。
「コマ送り」モードとは、ユーザが画像を1フレームずつ確認しながら、ラベル付けを可能とするモードである。新たに指定されたラベル付けされたデータは、LSHにより瞬時に登録される。「通常再生」モードとは、既にタグ付け処理がなされた画像をTVレート(29.97fps)で再生しながらユーザがタグ付け状況を確認することができるモードである。「バッチ処理」モードとは、すべての画像にタグ付け処理を行いながらバッチ処理を行うものである。本実施形態では、タグ付け処理においては、常に途中経過を可視化表示し、また、バッチ処理中でもいつでも一時停止及び任意の時点から処理を可能とすることで、操作性を向上させている。
次に、図9に示す本発明の対話型画像監視プログラムが行う処理全体を示すフローチャートを用いて説明する。
先ず、初期設定(S1)を行う。初期設定(S1)では、対象フレーム番号iの初期化を行い(i=1)、再生モードを「コマ送り」とする。更に、LSHデータベース15、ICPデータベース16が既にある場合は、補助記憶装置6から読み込み、存在しない場合は、新規にデータベースの作成を行う。また、可視化領域のデータマップ17の初期化を行う。
次に、対象領域設定(S2)を行う。対象領域設定(S2)では、先ず、読み込んだ動画像の1フレーム目の画像を出力装置2に表示させる。尚、1フレーム目の画像に監視対象物40(以下、対象物、ターゲットともいう)が撮影されていない場合等は、ユーザが対象物40の撮影が開始されるまで、フレームを早送り機能により動画像を進めれば良い。また、認識、解析の対象とする映像は、補助記憶装置6に予め記憶されている映像データ14から読み出しても、または撮像手段9及び記録媒体10から直接キャプチャ処理を行うようにしても良い。尚、本実施形態では、映像データ14は、例えばTVレート(29.97fps)の画像としているが、フレームレートは特に限られるものではない。
図2に本発明の対話型画像監視プログラムのユーザインタフェース画面の一例を示す。ウィンドウ21に動画像を表示するのが映像表示領域22である。また、画面に表示されているグリッド23の最外辺に囲まれる領域が、ユーザにより指定された処理対象領域24を示す。以降のラベル付けやタグ付け等の画像処理は、すべてこの処理対象領域24に対して行われる。このようなマスク処理を前提とすることで、計算量を減らしかつノイズの混入を制限できるため、高速かつ高精度な処理が可能となる。例えば、DV−NTSCの場合であれば映像の画素数は720×480ピクセルであるが、マスク処理をすることによって処理対象領域24を限定することができる。
尚、画面全体に変化が生じたか否かのみを監視したい場合等においては、例えば、処理対象領域24を指定せず、映像表示領域22に表示された画像全体を処理の対象としても良い。
処理対象領域24は、対象物40が撮影された映像表示領域22に表示されたフレーム画像に対し、ユーザがマウス操作等で処理対象領域24を選択し、更に、処理対象領域24を区切るグリッド23のサイズを指定することにより指定される。また、グリッド23の設定は必須ではなく、例えば、処理対象領域24に対象物40が存在するか否かのみを確認したい場合等では、グリッド23を設定する必要はない。
本実施形態では、フレーム画像中のグリッド23に囲まれる画像単位を「画像クリップ」と呼び、ラベル付けやタグ付けの単位とする。
尚、本実施形態では、グリッド23を矩形としているが、グリッド23は必ずしも矩形である必要はない。また、背景差分や各種フィルタ処理等の前処理を行って、画像クリップを切り出し、処理対象領域24内に表示するようにしても良い。例えば、背景差分を前処理として行えば、フレーム間で動きのあった画像クリップだけを以降の処理の対象とすることができる。また、フィルタ処理を前処理として行えば、あらかじめ監視対象物の色の特徴を登録しておくことで、その色の特徴を有する画像クリップだけ以降の処理の対象とすることができる。
ウィンドウ21の右に並ぶボタン類は、映像の再生やバッチ処理などを指定するユーザインタフェースである。尚、以下に説明するユーザ補助としての機能は、必要に応じて、実装するようにすれば良く、必ずしも必須のものではない。また以下に説明する機能に限られず、他のユーザ補助機能を備えるようにしても良いのは勿論である。
「<1S」ボタン25aは、1秒前の画像フレームに戻るものである。同様に、「<10f」ボタン25bは、10フレーム前の画像に戻るものである。「コマ送り」ボタン26は、クリックすることにより、次のフレームが表示される。「このフレームを検査」ボタン27は、現在ウィンドウ21に表示されているフレーム画像に対して、タグ付け処理を行い、その結果を表示するものである。
例えば、映像を解析するタグ付けは、1フレームあたりのデータ数25個(画像クリップ数)という後述の実験の場合でも、1秒あたり750個、一分で45000個ものデータをタグ付けしなければならないため、ラベル付けされる度に映像全体のタグ付けを行うのでは、処理に時間がかかり対話型での処理は不可能である。しかし、ユーザが現在見ている表示フレームに限れば、タグ付けすべきデータ数は少ない(最大25個)ため、「このフレームを検査」ボタン27がクリックされた場合に、即時に当該フレームに対しタグ付け処理を行いフィードバックを返すことができる。
「未指定対象時停止」30のチェックは、通常再生モードの場合の機能である。通常再生モードでは、タグ付け処理はせずに、これまでの最新のタグ付け結果をウィンドウ21にオーバーレイ表示しながら映像再生を行う。ここで、「未指定対象時停止」30のチェックを外すと、タグの種類を問わず再生を続けるが、チェックを入れると、不明タグが現れた場合に、自動的に一時停止するものである。「未指定対象時停止」30のチェックを入れておけば、不明タグを優先的にラベル指定する場合に、不明タグを探索する手間を省くことができる。
「通常再生」ボタン31は、現在ウィンドウ21に表示されているフレーム画像以降の動画像を通常再生モードで再生するためのものである。「<<10s」ボタン32aは、10秒前の画像に戻るものである。同様に、「10s>>」ボタン32bは10秒後の、「30s>>」ボタン32cは30秒後の画像を表示するものである。「バッチ検査」ボタン33は、現在ウィンドウ21に表示されている画像以降のフレームに対してバッチ処理を行うものである。「clear tag map」ボタン34は、ウィンドウ21下の可視化領域37を初期化(クリア)するものである。「近傍距離閾値」ボタン35は、タグ付け処理の際に用いる近傍距離閾値rを指定するためのものである。尚、近傍距離閾値rは、スライダ35aで決定するとフィールド35bに表示される。また、フィールド35cに、スライダ35aで設定できる値の範囲の最大値を入力することで、スライダ35aで設定できる値の範囲を変更できる。「InitializeDB」ボタン36は、当該画像についてのLSHデータベース15及びICPデータベース16の初期化を行うものである。
また、ウィンドウ21下に表示されている模様が可視化領域37、即ち、処理対象の映像に対しタグ付け処理を行った結果を示す領域である。可視化圧縮方向38は、後述の可視化圧縮を横軸方向に対して行うのか、縦軸方向に対して行うのかを選択可能としている。
また、ウィンドウ21下の画像スライダ39は、スクロールさせることで動画像の任意の地点の画像フレームを操作することができる。即ち、画像スライダ39を最左端にすると最初のフレームを表示し、最右端にすると最終フレームを表示するものである。
対象領域設定(S2)までが終了すると、指定された再生モードにより画像認識、解析処理(S3〜S12)が進行する。尚、画像認識、解析処理は、原則としてフレーム番号i毎にループ処理が行われるものである。
画像認識、解析処理では、先ず、映像設定(S3)を行う。映像設定(S3)は、i番目のフレーム画像をメモリへ読み込むものである。また、同時に、映像表示領域22内に対象領域設定(S2)で設定されたグリッド23が表示される。
本実施形態では、映像表示領域22に表示されたフレーム画像についてラベル付けを行う場合について述べる。尚、ラベル付けは必ずしも始めに表示されたフレーム画像について行う必要はなく、上述の画像のスキップ機能(画像スライダ39、「<<10s」ボタン32a等)でラベル付けに適した(例えば、対象物が1つの画像クリップ内に撮影されている)フレームを選択すればよい。
まず、画像認識、解析処理の基本となるラベル付けについて説明する。
ラベル付けはユーザにより行われる。具体的には、対象物40が撮影されている画像クリップを選択し、「指定ラベルを登録」ボタン29を押すことで、ラベル付けがされる。尚、ラベル付けには、特にルールはなく任意のフレームの任意の画像クリップに任意の数のラベル付けを行えばよい。
本実施形態では、画像クリップをクリックする度に、その画像クリップの枠(グリッド23)の色が、赤 → グレー → 赤 → グレー → 赤 ...と繰り返し変化する。ここで、赤い枠の状態で「指定ラベルを登録」ボタン29をクリックすると、当該画像クリップは正例(ターゲット)としてターゲットラベルが登録される。逆にグレー枠の状態で「指定ラベルを登録」ボタン29をクリックすると、当該画像クリップは負例(非ターゲット)として非ターゲットラベルが登録される。
即ち、ユーザは、対象物40が撮影されている画像クリップの場合は、赤い枠の状態で、「指定ラベルを登録」ボタン29をクリックすればよい。また、対象物40が撮影されていない画像クリップであれば、枠がグレーの状態で「指定ラベルを登録」ボタン29をクリックすればよい。尚、本発明の対話型画像監視方法は、ユーザが指定する最小限のラベル付けされたデータを基に、タグ付け処理を行いラベル付けのされていない画像クリップをタグ付け処理を行い対象物40が撮影されているかどうかを判断するものであるので、当該フレームにおけるすべての画像クリップについてラベルを登録する必要はなく、必要に応じて行うだけでよい。
更に、本実施形態では、表示されたフレーム画面のいずれの画像クリップにも対象物40が映っていない場合は、いずれの画像クリップも選択しない状態で、「指定ラベルを登録」ボタン29をクリックすることで、当該フレームにおけるすべての画像クリップについては、非ターゲットラベルをラベル付けすることができる。
尚、ユーザによるラベル付けの方法は特に限られるものではなく、例えば、「正例として登録」、「負例として登録」の2つの登録ボタンを設け、画像クリップを選択していずれかの登録ボタンを選択することでラベル登録を行うようにしても良い。
このようにして、指定されたラベルはLSHデータベース15に登録され、タグ付け処理の際の基準データとなる。以下に、LSHによるラベル登録について説明する。
従来型のIMLでの探索では、決定木(DT ; Decision Tree)の一種を用いて、高速なフィードバックを実現している。しかし、決定木は、事例データ全体を見て、良い分岐点を探す手法であるため、インタラクティブなラベル付けに利用すると、木がアンバランスになり速度が低下するという問題がある。高速な登録速度を維持するには木の再構成をしなければならず、これには時間がかかる。
これに対し、データ同士の類似性を直接用いる最近傍探索(NN;Nearest Neighbor)は、分岐点を探す必要がないため逐次的なラベル追加に適している。しかし、一般に事例数に比例して探索時間が増えるという欠点がある。また、近年、探索時間の短縮を図る技術として近似最近傍探索(ANN;Aproximate Nearest Neighbor)が提案されている。ANNは、完全ではないが、高い確率でNNを可能とすることで、高い探索精度を維持したまま探索時間の探索を図るものである。従来の近似最近傍探索には、kd-treeをはじめとするtree型の探索手法が良く用いられている。しかしながら、ツリー型の探索手法は、探索対象のデータの増大に伴い、ツリー構築に時間がかかり、迅速な探索が行えなくなるという問題点を有していた。
このANNを高速に実現する汎用性の高い手法として局所性鋭敏型ハッシュ(LSH;Locality-Sensitive Hashing)が提案されている。LSHは、代表的な高次元データ用kd-treeの40倍の速度向上が実験的に示されており、最近傍探索の代表的手法の一つである。
本発明の対話型画像監視方法では、LSHを用いて、ユーザが指定したラベルを記憶し、データ認識(タグ付け)に利用する。これによりユーザが映像の任意の箇所をラベル付けすると、そのラベル情報は即座にデータベースに反映される。映像データの認識はユーザが指定したすべてのラベルを使って、その場で行えるため、迅速なフィードバックが可能となる。尚、本実施形態では、画像類似性の判定で一般的な「ユークリッド距離」でのANNを実現するため、p安定分布を用いたLSH(p-LSH)を用いているが、他のLSHを用いても良い。
以下に、p-LSHについて簡単に説明する(p-LSHの詳細は、Mayur Datar,Nicole Immorlica,Piotr Indyk,and Vahab S.Mirrokni. Locality-sensitive hashing scheme based on p-stable distributions. In Proceedings of the twentieth annual symposium on Computational geometry,pp.253-262,2004参照)。
p-LSHでは、先ず、扱うデータ(本明細書では、画像特徴量)をd次元の実数ベクトルvとし、このd次元データをk次元に写像する(但し、k<d)。
そのためにp安定分布(ユークリッド距離の場合は2安定分布、即ち正規分布)に従う独立な値をd個用意し、それぞれを要素とするd次元ベクトルaを、k個作成する。
更に、数式1で示される関数を用いて、ha,b(v)を要素とするk次元整数ベクトルgを生成する。これによりd次元ベクトルvは、k次元整数ベクトルに写像される。
ここで、bは[0,ω]の範囲の実数パラメータである。
ここで、あるベクトルv1,v2があった場合、写像後の差(a・v1-a・v2)は、‖v1-v2‖p×Xに分布する。尚、‖v‖p はp-ノルム、Xはp安定分布である。これにより、v1,v2がr以内にあると高い確率で同じgが得られる。
p-LSHは、k個のaの組をL個用意し、それぞれとの内積計算によりL個のgを生成し、それぞれを別のテーブル(バケット)に格納する。即ち、あるベクトルvからL個のk次元整数ベクトルが生成され、それぞれをバケットに格納するものである。即ち、L個の写像空間を用意して、vをそれぞれの空間に写像しているといえる。これにより、それぞれで近傍が発見される確率がp(c)であっても、L個のバケットを全て探索すると1-(1-p(c))Lの確率で発見できることになるので、最近傍探索を精度良く求めることができる。
ここで、Lの数を多くすれば、探索精度は向上するが、探索に時間がかかるようになる。また、写像空間の次元数kの値も、同様に精度と時間に影響を与える。kを大きくすると探索時間は減るが、内積の計算時間が増え、かつ同じrに対して探索精度が下がることになる。よって、L及びkの値は、必要な精度と時間の制限を考慮して選択すべきものである。以上でLSHについての説明を終了する。
上述のようにユーザは、最初に一部のデータにラベル付けをすることが必要となるが、本発明の対話型画像監視方法は、ユーザの負担を最小限に減らし、さらに対話型処理により、ユーザが現在行っているラベル付けがどのように解析結果に反映しているか、即ち、効果的なラベル付けを考えながらラベル付けができるようにすることで、ラベル付けに要する時間を最小限にすることが可能となる。
S4以降の処理は、選択されている再生モードにより異なる処理が行われる。次に、タグ付け処理について説明する。
図3にタグ付け処理を表す模式図を示す。ここで、四角形の枠41は、画像特徴量を軸とする空間を示すとする。この特徴量によってデータは識別される。この空間内で近ければ特徴量が似ていること、言い換えれば画像が似ていることを意味する。本実施形態では、画像特徴量は、各フレームの各画像クリップ毎に1つのd次元ベクトルとして与えられる。以下、タグ付け処理によるタグ付けは、この画像特徴量を基準になされる。
図4に画像特徴量の指定インタフェース画面の一例を示す。本実施形態では、画像特徴量となる基準を予め選択的に設定することが可能である。特徴量47としては、一般的な縮小(スケーリング)またはヒストグラムのいずれかを選択可能としている。
また、表色系48としては、RGB、HSV、グレースケール、CIE Yxy、CIE L*a*b*から選択可能としている、また、縮小方法49としては、最近傍法、双線形補完法、双三次補完法、平均化のいずれかのアルゴリズムを選択可能としている。尚、いずれのアルゴリズムも公知のアルゴリズムであるので説明は省略する。また、データの次元50には、特徴量データの次元数dを入力する。次元数を大きくすると細かな特徴を考慮した類似性の判定が行うことが可能となるが、タグ付けの処理時間が長くなり、次元数を小さくすると、類似性判定が粗くなるが、処理時間は短くなる。このため、要求される精度、処理時間の制限等の制約条件に応じて次元数を設定すればよい。尚、画像特徴量として用いることが可能な基準は上述の例に限られない。
以下に、表色形にRGB、3次元ヒストグラム特徴を用いた場合を例に画像特徴量の算出方法を示す。各チャンネルの色量子化数をnとすると、3次元ヒストグラムはn×n×nの値を有するヒストグラムとなる。例えばn=4の場合は、4×4×4=64の64次元ベクトルとなる。
次に、各チャンネルの色値の取り得る最大値をmaxR,maxG,maxBとし(0〜255)、画像クリップ内のある画素の色値の値を(R,G,B)とする。また、r' = (maxR+1)/n, g' = (maxG+1)/n, b' = (maxR+1)/nとし、r = floor(R/r'), g = floor(G/g'), b = floor(B/b')とすると、r, g, bは0〜nの整数となる。
画像クリップ内のすべての画素に対して、上記計算を行って、異なる(r,g,b)毎に画素数を集計する。k = r×n×n + g×n + bとし、k番目の要素を(r, g, b)の集計画素数とし、集計画素数を並べてヒストグラムを表現するベクトルとする。尚、画像クリップ内に該当する色値の画素が無い場合は集計画素数は0となる。
また、表色形にRGBの双線形補完法による5×5次元のスケーリング特徴を用いた場合を例に画像特徴量の算出について説明する。尚、スケーリング特徴とは、画像を碁盤目状のブロックに分割し、それぞれのブロックの代表値を縮小方法49で指定された方法で算出し、その代表値をベクトルの各要素とするものであり、双線形補完法とは、縮小時のある画素が、縮小前の画像における、その座標をとりまく四画素の値から、線形補間により、縮小時の値を計算する方法である。
具体的には、縮小前の画像が32×32画素の画像I1を、5×5次元のスケーリング特徴I2に変換する場合は、5/32の縮小となるので、I2での(1,1)座標の値i1(1,1)は、I2でのi2(32/5,32/5)、即ちi2(6.4, 6.4)となる。I2の座標(6.4, 6.4)には値がないので、i2(6, 6), i2(6, 7), i2(7, 6), i2(7, 7)から線形補完し、i1(1,1)の値とする。同様に全ての画素について、RGBのそれぞれの値について行い画像特徴量を算出する。
図3(a)は、ユーザによるラベル付けが成された場合の模式図であり、白丸42が認識すべきとラベル付けられたデータ(以下、ターゲットラベルデータ42)、黒丸43が認識すべきでないとラベル付けられたデータ(以下、非ターゲットラベルデータ43)を示している。尚、図3では説明を簡単にするため、縦横の2次元としているが、本実施形態では、数十から数百の高次元空間を用いる。
図3(b)は、当該ラベル付けにしたがって、本発明のタグ付け処理によりタグ付けがなされた様子を示す模式図である。タグ付け処理では、ラベル付けされたデータであるターゲットラベルデータ42及び非ターゲットラベルデータ43から、近傍距離閾値r以内にあるデータにタグを付ける。即ち、ターゲットラベルデータ42から一定の距離r内にあるデータにターゲットタグデータ44がタグ付けされ、非ターゲットラベルデータ43から一定の距離r内にあるデータに非ターゲットタグデータ45がタグ付けされる。尚、近傍距離閾値rは「検査距離」28(図2参照)に示される参考値を元に決定される任意のパラメータである。
近傍距離閾値rの設定方法の一例について説明する。「このフレームを検査」ボタン27を押してタグ付け処理を行うと、表示されているフレーム画像の画像クリップは、既に登録済みのラベル付きデータと比較される。比較対象は、画像クリップの画像特徴量を現すd次元ベクトルに対し、近傍距離閾値r以内にある、登録済みのラベル付きデータである。ここで、比較対象のうち、最近傍のデータまでの距離をDとすると、画面内の全画像クリップに対し、最近傍データまでの距離Dを計算した後で、その最大値をmaxDとし、「検査距離」28には、maxDが表示される。尚、近傍距離閾値r以内にデータがない場合はD=9999とする。
この「検査距離」28に表示される数値は、近傍距離閾値rを設定する参考値とすることができる。例えば、画面内に既にラベル登録したデータと明らかに類似の画像がある場合に、タグ推定を失敗している場合は、近傍距離閾値rの設定が小さ過ぎることを意味している。そのような場合には、閾値rを大きくして対処することになるが、あまりに大きくすると類似していないデータまで類似していると誤推定してしまう。そこで、類似画像を正しくタグ推定できる状態で、検査距離よりも少し大きな値を近傍距離閾値rに設定する。
本発明の対話型画像監視方法では、ユーザがラベル付けを行う量を最小限にすることで、迅速な処理を可能とすることを目的の一つとしている。したがって、ラベル付けされたデータは、映像は全体から見ればごく一部にすぎない。このため、少ないラベル付けされたデータ42,43から、rの値を大きくする等により無理にターゲットタグデータ44及び非ターゲットタグデータ45を推測してタグ付けを行うと、推定精度が悪くなり、誤判定が多くなるばかりか、ユーザがラベル付けがどのように解析結果に影響を及ぼしているのかの判断ができないこととなる。
そこで本発明の対話型画像監視方法では、図3(b)に示すようにターゲットタグデータ44、非ターゲットタグデータ45のいずれにもならないものを不明タグデータ46としている。
本実施形態では、上述のように、ターゲットラベルが付された画像クリップのグリッド23を赤色、非ターゲットラベルが付された画像クリップのグリッド23をグレーで表示することにしている。ここで、タグ付け処理が実行されると、ラベルが付されていない画像クリップについては、ターゲットタグ51、非ターゲットタグ52、不明タグ53のいずれかのタグ付けが成されるが、ターゲットタグ51が付された画像クリップのグリッド23をオレンジ色、非ターゲットタグ52が付された画像クリップのグリッド23を青色、不明タグ53が付された画像クリップのグリッド23を白色で表示するようにしている。
また、ユーザがいくつかのラベル付けを行った後、「バッチ検査」ボタン33をクリックすると、現在画面に表示されているフレーム以降のフレーム画像に対して、連続してタグ付け処理が開始され、途中で停止が指示されない限り、動画像の最終フレームまでタグ付け処理を行う(バッチ処理)。尚、タグ付けの速度は、特徴量データの次元数、LSHの各種パラメータ、および画面内で区切られた画像クリップの個数などに影響される。
本発明の対話型動画像監視方法では、バッチ処理の最中であっても、その途中でのユーザからの指示で「コマ送り」ボタン26や「通常再生」ボタン31がクリックされることでバッチ処理を停止し、ユーザは、それまでの同時に並行して表示される可視化領域37での解析状況に応じて、ラベルを新たに追加、または既に付したラベルを修正することができる。更に、ラベルが追加・修正した後に、再びタグ付け処理を開始すると、以降のフレーム画像については新たに追加されたラベルを反映したタグ付けが行われる。
このタグ付け処理の状況は、図2に示すように可視化領域37上に可視化表示されていく。
図5(a)に、ある動画像のフレーム画像の一例と図5(b)にその映像に対し自動タグ付け処理を行った場合に表示される可視化領域37の拡大図の一例を示す。
可視化領域37の横軸は時間軸であり、左端が最初のフレームの情報を表し、映像中の時間の推移とともに、右方に移り、最右端が最後のフレームを表す。模様はそれぞれのフレームでの、画像クリップのタグを表し、上述したグリッド23での枠の色と同様である。本実施形態では、オレンジの枠(図中薄いグレー)がターゲットタグ51、青の枠(図中濃いグレー)が非ターゲットタグ52、白い枠が不明タグ53を表す。
この可視化結果は、時間の推移とともに画面内のタグが、どのように変化するかを表すものである。不明タグ53を示す白い領域は、これまでにユーザによりラベル付けられた画像情報では、ターゲット51、非ターゲット52のいずれにもタグ付けできない箇所を意味している。
例えば、図5(b)では、最上段はすべて青色(図中濃いグレー)になっており、画面の上段には全くターゲット(対象物40)が現れていない事がわかる。また中段は、オレンジ色(図中薄いグレー)の帯が現れており、中段に時々ターゲットが現れることが読み取れる。
ここで、静止画像のタグ付けと異なり、映像全体のタグはビットマップディスプレイが高解像度になったとはいえ、一画面に表示できる量ではない。即ち、長時間の映像の場合、フレーム総数は、アプリケーション可視化領域の画素数よりも、はるかに大きいため一つの画素が複数フレームの情報を表示しなければならないこととなる。つまり、可視化領域37上の一点は、空間的・時間的な多数のタグの重なった表示領域ということになる。
また、解像度が高くても、表示が稠密になれば、人間の視力限界を越えて見えなくなってしまう。もちろんズーム機能を設けたり、可視化マップをスクロール可能にすることで問題を軽減はできるが、広い範囲を一度に見るという要求と、部分を拡大するズームとは両立しない。
そのため、限られた画素数の範囲にタグ付け結果を一覧表示するには、複数のタグの情報を同じ場所に表示する必要がある。本実施形態では、タグに重要度を割り当て、重要な情報を優先的に表示するようにしている。
本実施形態では、タグの重要度を以下の重要度とした。
重要度・高:不明タグ
重要度・中:ターゲットタグ
重要度・低:非ターゲットタグ
重要度・高の「不明タグ」は、どのような点を中心に事例教示を行えばよいか、をユーザに提示し、最小限の教示数で精度の高い対象物の追跡を可能とするために最も優先的に表示すべきものである。また、重要度・中の「ターゲットタグ」は、ユーザが指定した少数のターゲットラベルと良く似た未知データを表すため、正しく推測している場合は、ラベル付け作業の進捗状況を確認する助けとなり、ユーザの想定外の場所に現れた場合は、誤推測の可能性を示す点で重要である。更に、「非ターゲットタグ」は、ユーザが指定した多量の非ターゲットに良く似たデータであり、ユーザのラベル付けにミスがない限り、見る必要性の低いデータとなるため、重要度は最も低い。
また、上記重要度付けは、以下の理由により最適である。例えば、「ターゲットタグ」を「不明タグ」より優先するようにすると、未だタグ付けがなされていない箇所を見過ごすことにつながる。また、同様に「非ターゲットタグ」を「ターゲットタグ」より優先するようにすると、タグ付けの誤推定を見過ごしてしまう。したがって、上述の重要度に基づき可視化処理を行うことで、ラベル付け作業に必要な情報を見落とす可能性を減らすことができる。
尚、タグの重要度は上述の例に限られるものではない。例えば、不明タグの不明度により更に重要度を細かく表示してもよい。ここで不明度とは、最近傍のターゲットラベルデータ42、非ターゲットラベルデータ43までの距離の大小や近傍距離閾値r以内のターゲットラベルデータ42、非ターゲットラベルデータ43の個数等を基準に設定することができる。例えば、最近傍のターゲットラベルデータ42、非ターゲットラベルデータ43までの距離が大きい順に不明度を設定し、不明度の大きいものから優先的に表示させるようにしても良い。この場合には、不明タグをその不明度により更に細かく色分けをして表示させるようにすれば良い。
次に、図6を用いて可視化処理について説明する。扱う動画像の総フレーム数をFとした場合の、i番目のフレームの画像イメージを図6(a)に示す。
横グリッド数をXg,縦グリッド数をYgとし、可視化対象とする画像グリップのグリッド位置を(xg,yg)とする。この場合、当該画像グリップに対応する可視化領域37上の該当領域Rは、数式2により求めることができる。尚、領域Rの左上座標を(xv,yv)で示す。
<数2>
xv = Xv×(i/F)
w = Xv/F 但し、w<1の場合はw=1とする。wは、該当領域Rの横幅を示す。
また、図2に示すように、本実施形態の対話型画像監視プログラムのインタフェースでは、「可視化圧縮方法」ラジオボタン38により、射影を行う方向を横軸方向に行うのか、縦軸方向に行うのかを選択可能としている。上述のように、動画像中に付されるタグの数は膨大であり、画面内にすべて表示することは不可能なためである。横軸方向に射影を行う場合は数式3で、縦軸方向に射影を行う場合は数式4で、該当領域Rの縦幅hを求めることができる。尚、Xvは可視化領域37の横画素数、Yvは可視化領域37の縦画素数を示す。
<数3>
yv = Yv×(yg/Yg)
h = Yv/Yg 但し、h<1の場合はh=1とする。
<数4>
yv = Yv×(yg/Xg)
h = Yv/Xg 但し、h<1の場合はh=1とする。
更に、図7を用いて横軸方向に射影した場合について説明する。上述のように可視化領域37の横画素数は限られており、画素数を超えるフレーム数となる場合は、数フレームの画像情報を1つの画素列で表示することが必要となる。ここでは、フレーム画像(i〜i+k)のk+1個のフレーム画像(j行目)をどのように1画素列に圧縮して表示するかを説明する。
先ず、フレーム画像(i〜i+k)のj行目に着目し、j行目の画像クリップの重要度を比較する。本実施形態では、上述の重要度の最も高いもので代表させるようにしている。ここでは、不明タグ53が存在するので、可視化領域37の該当領域は不明タグ53を示す白色になる。
また、該当する行に不明タグ53がない場合であって、一つでもターゲットタグ51がある場合は、ターゲットタグ51示すオレンジ色に、非ターゲットタグ52しかない場合には、非ターゲットタグ52を示す青色に可視化領域37がマッピングされる。尚、縦軸方向に射影する場合は、j行目をj列目として処理を行うようにすれば良い。
このように、限られた可視化領域37に重要な情報を集約して表示させ、ユーザのラベル付け支援、ひいては少ない教示による高精度の画像監視の実現支援を行うものである。
可視化領域37でのタグの可視化結果は、例えば動画像中で場所の移動がない対象物40であれば、可視化領域にはターゲットタグを示すオレンジの線が直線で現れる(実施例1、図15参照)。
これに対し、動画像中で移動する対象物40の監視であれば、可視化領域に現れるオレンジの線の軌跡により対象物40の追跡を行うことが可能となる(実施例4、図22参照)。この場合は、対象物40の移動が画面の横方向に移動することが多いのか、画面の縦方向に移動することが多いのかにより、射影を行う方向の選択を行えばよい。
また、画像監視において検知すべき箇所や発生時間が事前にわかっていることはほとんどなく、また検知すべき映像は、全体のごく一部である。例えば、碍子の夜間の放電を調べるために撮影された映像の場合、そのほとんどは真っ暗な夜間の碍子連の映像であり、あらかじめ放電画像を教示しておくことは困難である(実施例3参照)。即ち、ターゲットを教示することが困難な場合が存在する。
このようにターゲットを教示することが困難な動画像に対してでも、本発明の対話型動画像監視方法によれば、ユーザにより非ターゲットが教示されていれば、それとは異なる対象に不明タグを付けて映像中から抽出できるため、必ずしもあらかじめターゲットを教示しておく必要はない。
即ち、ユーザは不明タグが付けられた画像を確認すれば、ターゲットの絞込みを行うことができ、映像全体を注意深く見続けなくても、ターゲットを確実に教示することができる。
この場合のタグ付け方法の模式図を、図8に示す。ユーザは、まず映像の中で容易に教示できる非ターゲットをラベル付けする。例えば、放電映像の場合であれば放電の発生していない通常の状態の画像を教示する(図8(a))。
その状態でタグ付け処理を行うと、教示した非ターゲットに類似する画像(放電の無い画像)には、自動的に非ターゲットタグ52が付けられ、それ以外のすべてに不明タグが付けられる(図8(b))。即ち、真っ暗な状態のままであれば、非ターゲットタグ52が付されるので、不明タグ53が付けられたデータには、何らかの現象が発生している可能性がある。
よって、この不明タグデータ46を画像で確認し、問題がなければ非ターゲットラベルを付け、ターゲット(この場合、放電)が映っていればターゲットラベルを付ける(図8(c))。
それからタグ付け処理を行うと、さらに絞り込んだタグ付けがなされる。その後、タグ推定が十分になるまで繰り返す(図8(d))。
上述のタグ付け方法は、映像全体に占める通常状態の割合が多く、検出すべき現象の発生頻度が低いほど効率的な方法であり、監視映像に適した方法である。
また、上述の例のように、処理開始時にターゲットを教示することが困難な動画像についての近傍距離閾値rの設定は、例えば以下のように行う。
ラベルが指定されておらず、かつターゲットのない画像クリップを、計算機が非ターゲットとタグ推定できる最小の距離を設定する。この際、距離rが小さすぎると、タグ推定結果が不明(白)ばかりになる。逆に、距離が大きすぎると、本来検出すべきターゲットを見逃してしまう。
そこで、明らかにターゲットのない画像クリップがすべて青色(非ターゲットタグ)となる最小の距離、即ち、それ以上小さくすると青から白色(不明タグ)に変わってしまう距離に設定することで精度の良いタグ推定を行うことが可能となる。
以下、図9〜13に示すフローチャートを用いて、本発明の対話型動画像監視プログラムが行う画像認識、解析処理について説明する。
どの再生モードが選択されているかによって、画像認識、解析処理の内容は異なる。
再生モードが「バッチ処理」モードの場合(S4;Yes)、バッチ処理(S5)を行う。
図10のフローチャートを用いて、バッチ処理(S5)について説明する。
先ず、グリッド中の最左、最上の画像クリップを処理対象とする(S501)。
次に、処理対象の画像クリップを予めユーザによって指定された方法(特徴量47,表色系48,縮小方法49,データの次元数50)でd次元実数ベクトルv(画像特徴量)に変換し(S502)、LSHデータベース15に対しvをキーとした質問を行ってvに類似するデータの検索を行う(S503)。
検索結果のデータ(画像特徴量)と、質問として与えたvとの距離が予め指定された近傍距離閾値rよりも大きい場合は、当該画像クリップのタグを「不明タグ」とし、rよりも小さくかつ最近傍データのラベルが「ターゲットラベル」である場合は、当該画像クリップのタグを「ターゲットタグ」とし、ラベルが「非ターゲットラベル」である場合は、「非ターゲットタグ」とする(S504)。
当該画像クリップのタグをICPデータベースに登録する(S505)。当該画像クリップのタグに応じた色の枠を、ビデオ映像の当該画像クリップの位置に表示する(S506)。
可視化領域37の制御機構に対し、当該フレーム番号、グリッド内の位置、タグを通知し可視化結果の更新を行う(S507)。
図11に、S507の処理を詳細化したフローチャートを示す。当該フレーム番号とグリッド内の位置から可視化領域上の該当領域Rを計算する(S507−1)。
次に、可視化領域上の該当領域Rに対応するデータマップに登録されたタグTregistの重要度と、当該画像クリップのタグTnewの重要度を比較する(S507−2)。
次に、再生モードが「バッチ処理」であり、且つ、他のモードから「バッチ処理」に変更された後、該当領域Rにアクセスするのが最初である場合(S507−3;Yes)は、S507−5へ移る。それ以外の場合(S507−3;No)は、S507−4へ移る。Tnewのタグ重要度がTregistのタグ重要度より大きい場合(S507−4;Yes)は、S507−5へ移る。一方、Tnewのタグ重要度がTregistのタグ重要度と同じまたは小さい場合は、S507の処理は終了する。
S507−5では、可視化領域のデータマップ17にTnewを登録し、可視化領域37の該当領域RをTnewに対応する色で塗りつぶして表示し、S507の処理は終了する。
図10のフローチャートの説明に戻る。未処理の画像クリップがグリッド内に存在するかどうか判断し、存在する場合(S508;Yes)は、未処理の画像クリップを処理対象として(S509)、S502の処理へ戻る。すべての画像クリップについて処理が終了したら(S508;No)、バッチ処理は終了し、S8へ移る。
次に、再生モードが「通常再生」の場合(S6;Yes)は、通常再生処理(S7)を行う。図12のフローチャートを用いて、通常再生処理(S7)について説明する。
グリッド中の最左、最上の画像クリップを処理対象とし(S701)、処理対象の画像クリップのフレーム番号、グリッド内の位置をキーとして、ICPデータベース16から、登録済みのラベルもしくはタグを検索する(S702)。
当該画像クリップのタグもしくはラベルに応じた色の枠を、当該画像クリップの枠の色として表示する(S703)。
可視化領域の制御機構に対し、当該フレーム番号、グリッド内の位置、タグを通知し、可視化結果を更新する処理(S704)を行う。尚、S704の処理は、上述のS507の処理(図11参照)と同じであるので説明は省略する。
未処理の画像クリップがグリッド内に存在するかどうか判断し、存在する場合(S705;Yes)は、未処理の画像クリップを処理対象として(S706)、S702の処理へ戻る。すべての画像クリップについて処理が終了したら(S705;No)、通常再生処理は終了し、S8へ移る。
次に、再生モードが「コマ送り」の場合(S8;Yes)は、コマ送り処理(S9)を行う。図13のフローチャートを用いて、コマ送り処理(S9)について説明する。
先ず、グリッド内の位置(xg,xy)が選択された場合(S901;Yes)は、当該画像クリップのタグもしくはラベルをICPデータベースを検索して取得し、得られたタグもしくはラベルをTpとする(S902)。
Tpが不明タグ、非ターゲットタグ、非ターゲットラベルのいずれかである場合(S903;Yes)、当該画像クリップのラベルを「ターゲット」に変更し、ICPデータベース16に登録、グリッドの枠の色をターゲットに対応する色に変更(S904)し、S901に戻る。
一方、Tpがターゲットタグ、ターゲットラベルである場合(S905)は、当該画像クリップのラベルを「非ターゲット」に変更し、ICPデータベース16に登録、グリッドの枠の色を非ターゲットに対応する色に変更(S906)し、S901に戻る。
グリッド内の位置(xg,xy)が選択されない場合(S901;No)は、「このフレームを検査」ボタン27がクリックされたかどうかを判断する(S907)。「このフレームを検査」ボタン27がクリックされた場合(S907;Yes)は、バッチ処理(S5)をおこなってからS901に戻る。
「このフレームを検査」ボタン27クリックされていない場合(S907;No)は、「指定ラベルを登録」ボタン29がクリックされたかどうかを判断し(S908)、クリックされた場合(S908;Yes)は、「コマ送り処理」中に更新された全てのラベルをLSHデータベース15に登録し(S909)、バッチ処理(S5)をおこなってからS901に戻る。
「指定ラベルを登録」ボタン29がクリックされていない場合(S908;No)は、「コマ送り」ボタン26がクリックされたかどうかを判断し(S910)、クリックされた場合(S910;Yes)は、コマ送り処理(S9)は終了する。
「コマ送り」ボタン26がクリックされていない場合(S910;No)は、「バッチ検査」ボタン33がクリックされたかどうかを判断し(S911)、クリックされた場合(S911;Yes)は、再生モードを「バッチ処理」に変更して(S912)、コマ送り処理(S9)は終了する。
「バッチ検査」ボタン33がクリックされていない場合(S911;No)は、「通常再生」ボタン31がクリックされたかどうかを判断し(S913)、クリックされた場合(S913;Yes)は、再生モードを「通常再生」に変更して(S914)、コマ送り処理(S9)は終了する。一方、クリックされていない場合(S913;No)は、S901に戻る。
図9のフローチャートの説明に戻る。S5、S7、S9のいずれかの処理が終了すると、対象フレーム番号i を i+1に更新する(S10)。
この際に、画像スライダ39、「<<10s」ボタン32a等によりフレーム番号i'への移動が指示されている場合は対象フレーム番号iをi'に変更する(S11)。
最後にシステム終了が指示されているかどうかを判断する(S12)。以上で本発明の対話型動画像監視プログラムが実行する処理が終了する。
尚、上述の実施形態は本発明の好適な実施の例ではあるがこれに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。また、上述の演算式は一例であり、本発明の要旨を逸脱しない範囲において種々変形実施可能である。
例えば、本実施形態では、情報探索手法としてLSHを用いているが、他の手法、例えば、分類木やSVM等の他の学習器を用いても良い。その場合は、LSHデータベース15に替えて、対応するデータベースを構成し処理を行えばよい。
また、可視化領域37は必ずしも圧縮して一画面上に表示する必要はない。この場合、可視化領域37をスクロールバーによりスクロール可能とすればよい。また、圧縮表示し、該当箇所を選択することで該当箇所が圧縮前の状態をズームイン表示するようにしても良い。
(実施例1)
本発明の対話型動画像監視プログラムを用いて、照明変動などを模擬した人工的な試験映像への適用実験を行った。
本実験では、図14に示すように1枚の紙に印刷されたロゴ40を撮影した動画像(実験映像1)を用いた。ターゲット40は、ロゴ40である。紙は、中央に固定した状態で撮影を行ったため、ロゴ40の位置は変化しない。ロゴ40を検出することには、特段の困難性はないが、本実験は本発明の対話型動画像監視プログラムが、照明変動に対応することが可能であるか否かを目的とした。
本実験における照明は、以下の3つの条件とした。
(1)蛍光灯による人工照明
(2)室内のブラインドをおろして照明を消した状態
(3)室内のブラインドを開けて照明を消した状態
上記3状態を連続変化させ、明るさ、色、コントラスト等を変動させながら撮影を行った。尚、実験映像1は47秒(1,424フレーム)であった。
本実験では、当該映像を用いて、3人の被験者により、本発明の対話型動画像監視プログラムによりロゴ認識を行った。
被験者は、実験映像1を見て、特定のフレームを選択し、最小限の画像クリップに対し、ラベル付けを行った後、本発明の対話型動画像監視プログラムを実行した。これにより、ラベル付けがされていない他のすべての画像クリップにタグ付け処理がなされ、可視化領域37に監視結果を表示される。
更に、被験者は、監視結果を見て必要なフレームの必要な画像クリップに対しラベル付けを再度行い、再度プログラムを実行させる処理ことを繰り返し実行した。本実験では、被験者が正確な監視ができたと判断した時点で処理を終了し、実験を終了した。
本実験において、計算機の学習度合い、即ち、画像の監視精度を判定するために表2に示す指標を用いた。
学習度合いは、本来付されるべきラベル(以下、正解ラベル)に対して、どのようなタグ付けがされたかで判断することができる。例えば、正解ラベルに対しターゲットタグが付されている数である。
表2では、TPとTNが多いことが望まれ、FNとFPが多いことはタグの推定精度が低いことを意味する。また、FUは、ターゲットとすべき所を不明としている、いわば見落とし箇所であり、これを減らすことが目的となる。
本実験では、画像特徴量及びLSHには以下のパラメータを用いた。画像特徴量には、表色系はRGBとし、双線形補完法による5×5次元のスケーリング特徴を用いた。また、LSHのパラメータとしては、L=20 , k=10 ,ω=0.4とした。尚、このパラメータの設定は、距離r以内のデータを90%の確率で正しく検索し、距離r外のデータを5%の確率で誤検出する設定値である。また、近傍距離閾値r=0.15とした。
実験結果を図15に示す。(a)は、映像中でターゲットを確実にターゲットとして検出できているか否かを示す再現率(recall)、(b)は、非ターゲットを確実に非ターゲットとして検出できているか否かを示す非ターゲット検出率(TNR)が、ラベルの登録数に応じてどのように変化したかを示すグラフである。尚、再現率(recall)は数式5で、非ターゲット検出率(TNR)は数式6で示され、1に近ければ近いほど精度が高いことを意味している。
<数5>
recall = TP/(TP+FN+FU)
<数6>
TNR = TN/(TN+FP+TU)
また、被験者との比較のため、フレームの選択はランダムに行って、当該フレームでのラベル付けは正確に行うラベル付け作業(以下、ランダム選択という)を行った。本実験における動画像では、対象物であるロゴ40は、画面の中心のまま動かないので、ロゴ40が出現しているフレームを与えれば、自動的にランダム選択が可能となる。このランダム選択と被験者との再現率(recall)、非ターゲット検出率(TNR)を比較することにより被験者がフレームの選択を効率よく行うことができたかを確認できる。即ち、被験者の結果とランダム選択の結果が同等であれば、被験者はフレーム選択を無作為に行っていたといえ、被験者の結果がランダム選択の結果より良ければ、被験者は効率的にフレーム選択を行ったといえることになる。
図15に示されるように、3人の被験者の結果はランダム選択と比較して、早い段階で1に近づいていることがわかる。FP及びFNは、いずれの例でもほぼ0であるので、数式7で示される精度(precision)及び数式8で示される誤検出率(FPR)は、精度≒1、誤検出率≒0であった。
<数7>
precision = TP/(TP+FP)
<数8>
FPR = FP/(FP+FU+TN)
また、ラベル登録数が増加するにつれ、可視化領域37がどのように変化したのかを図16に示す。図16は、上からラベル登録数の増加に伴う、可視化領域37の変化の様子を示すものである。
登録ラベルの少ない初期段階では、白い領域(不明タグ)61が多く、対象物の監視を行えていないことを示しているが、ラベル付けが進むにつれて不明タグが減少し、中心にオレンジ(図中ではグレー)のライン62が現れる。本実験では、対象物のロゴ40は画面の中心にあるので、横軸方向に射影した本実験では、可視化領域37の中心にオレンジのライン62が現れれば、ロゴ40の追跡に成功していることを示す。
本実験から、照明変動による対象物の色の変化に対応することが可能であることが確認できた。
(実施例2)
同様に、図2に示す画像により実験を行った。尚、特に記載のない限り実験は、実施例1と同様の条件下である。
本実験では、画像中の缶63が回転し、側面に貼り付けられたロゴ40の追跡を行った。即ち、ロゴ40が缶63の回転に合わせて見えたり見えなくなったりを繰り返す動画像(実験映像2)である。尚、実験映像2は、120秒(3,596フレーム)であった。
実施例1と同様に3人の被験者に本発明の対話型画像監視プログラムを実行してもらった結果を図17に示す。
実験映像2でもFPとFNは極めて小さい値であり、精度≒1、誤検出率≒0であった。試験映像2では照明変動がないため、背景の変動がなく、最初に数フレーム分に背景を非ターゲットラベルとして登録することで、背景を除外することができた。
また、実験映像2では、缶63が繰り返し4回転し、その位置も同じであるため、1回転分に適切にラベル付けすることで、残りの映像についても適切にタグ付けを行うことができた。よって、実験映像1に比して、少ないラベル登録数で高い再現率を達成できた。
(実施例3)
本実験では、碍子の漏れ電流の監視を行った。実験に用いた映像(実験映像3)は、直流送電線の放電騒音防止のための暴露試験として、試験場に設置された直流碍子連を、数ケ月に渡って長期撮影した映像の一部である。
実験映像3の総再生時間は48分42秒、総フレーム数87,575フレーム、放電が確認できる夜間の映像である。尚、碍子連の昼間の撮影例を図18に示す。当該映像でのターゲットは碍子の放電現象であり、映像中から放電が起きた時刻やその頻度を正確に検出する必要がある。
実験映像3では、映像のほとんどの時間は放電がなく、変化のない単調な画面が続く。また一回の放電時間は極めて短い(33msec以内)。そのため、例えば検査員が、放電箇所を探しながら注意力を維持して見続けるのはかなりの労力であり、また見落としも多くなることが考えられる。
図19に示すように、最右列の碍子連に対して、横2マス、縦20マスのグリッド23を設定した。尚、夜間であるため画面は真っ黒である。
本実験では、画像特徴量はグレースケール(輝度は[0,1]の実数)、平均化による4×4次元のスケーリング特徴とした。LSHのパラメータは実施例1及び2と同じとし、近傍距離閾値r = 0.24とした。
本実験では、先ず放電の映っていない最初のフレーム画像の40個の画像クリップすべてに非ターゲットラベルをつけた。そして、このラベル付けのみの状態でタグ付け処理を行った時の可視化領域37を図20(a)に示す。図20は、図19の横方向に射影して得られた可視化領域37を示すものである。尚、実験映像3の48分の映像のタグ付けには、Pentium(登録商標)4 3.6GHzの計算機で32分を要した。
本実験では、可視化領域37の横画素数を720としたため、横1画素には122フレーム、244個のタグ情報が集約されている(=87,575×2 / 720)。
図20(a)では、非ターゲットタグを表す青色(図中では濃いグレー)がほとんどを占め、不明タグを表す白い領域がところどころに見られる。即ち、ほとんどは放電の無い映像であったということである。また、白い領域には、非ターゲットとは似ていない何かが撮影されている可能性があることを示す。ユーザは、映像全体を見る必要はなく、この白い不明タグのついた画像のみを検査すればよいことになる。尚、ターゲットラベルは一つも登録していないため、オレンジ色で示されるターゲットタグは一切見られない。
不明タグのいくつかを映像で確認したところ、図20(a)中の符号65で示す不明タグの集まりは、いずれも、ビデオテープのノイズであることがわかった。ノイズはビデオテープの傷及びビデオデッキのヘッドが原因であった。
これに対し、最下段に途中から現れて、映像の最後付近まで連続して現れている不明タグの連続66で示す箇所は、放電現象を捉えていることがわかった。
そこで、映像を確認しつつ、ビデオノイズには非ターゲットラベルを、放電箇所にはターゲットラベルを付ける作業を行った。297個のラベルをつけた後のタグ付け状態を図20(b)に、さらに266フレーム、414個までラベルのラベルをつけた後のタグ付け状態を図20(c)に示す。
ラベルが増えるに従って、ノイズが消えて行き、最下段にオレンジ(図中では薄いグレー)のターゲットタグの連続67が増えていることがわかる。
以上のように、本発明の対話型動画像監視プログラムによりビデオ映像の解析を行うと、ユーザによる、ほんの少数の非ターゲット情報を教示するだけで、監視映像中の代表的な放電パターンなど、注目すべき箇所を適切に見出せることが確認できた。
更に、事例画像の選択、ラベルの教示作業を容易かつ確実にできことが確認できた。本発明の対話型動画像監視プログラムによれば、碍子の放電映像に限らず、発生頻度が低く、計算機への教示事例を見出すのが難しい長時間監視においても事例教示の作業労力を大幅に低減することができる。
(実施例4)
本実験では、ラジコンの自動車の監視、追跡を行った。本実験では、図21に示すように監視対象物としてラジコンの自動車40が床を左右に横断して走行する映像(実験映像4)を用いた。尚、実験映像4の総再生時間は67秒、総フレーム数2,008フレームである。
本実験では、画像特徴量をRGB3×3×3=27次元のヒストグラム特徴とし、近傍距離閾値をr = 0.47844とした。
グリッド23は横21×縦13の細かな碁盤目状とし、可視化圧縮方向38を横軸方向に設定し、本発明の対話型動画像監視プログラムを実行した。その結果を図22に示す。尚、ラベルは、ターゲットタグ、非ターゲットタグをあわせて26個だけ登録した。
可視化領域37には、非ターゲットを示す青色のバック70にターゲットを示すオレンジ色の傾きをもったライン71が表示されている。オレンジのライン71は、自動車40の追跡結果を示している。尚、不明タグはほとんど存在せず、自動車40の動きに合わせて追跡結果が表示されており、追跡に成功したことを示している。
ここで、オレンジのライン71が、左下から右上に伸びている場合は、自動車40は、画面の右から左へ移動したことを表し、左上から右下に伸びている場合は、画面の左から右へ移動したことを表している。また、ライン71の傾きは、自動車40の速度や走行コースで変化する。具体的には、自動車40の画面横方向速度成分が、遅いと傾きが大きくなり、高速だと傾きが小さくなる。
本実験により、可視化領域37に表示されるタグ付け状況から監視対象物がどのような動きをしたか、即ち監視対象物の追跡を、ごく少ないユーザによる教示で実現できることが確認できた。