JP2006333453A

JP2006333453A - ビデオを空間的且つ時間的に要約化する方法及びシステム

Info

Publication number: JP2006333453A
Application number: JP2006120756A
Authority: JP
Inventors: Kathleen Ryall; カスリーン・リャル; Qing Li; チング・リ; Alan W Esenther; アラン・ダブリュ・エセンサー
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2005-04-28
Filing date: 2006-04-25
Publication date: 2006-12-07
Also published as: US20060256210A1; US7598977B2

Abstract

【課題】ビデオの空間成分及び時間成分を用いてビデオを検索して閲覧する方法が提供される。
【解決手段】方法は、空間クエリ及び時間クエリを指定することによって、シーンから取得されたビデオを空間的且つ時間的に要約化する。空間クエリ及び時間クエリに応じてビデオのフレームが選択され、次に、選択されたフレームが、そのシーンの空間特性及び時間特性を表す１つの画像に合成される。
【選択図】図１

Description

本発明は、包括的にはビデオの処理に関し、特に、ビデオの空間特性及び時間特性の検索（query）及び提示に関する。

ビデオは、娯楽、スポーツ、ニュース、ウェブ、個人用、家庭用、監視、及び科学カメラ等の多数のソースから入手可能である。このような多様なビデオ内容を解析及び要約化して、関心のある物体、事象及びパターンを見つけ出すことは困難である。

ビデオからメタデータを抽出する自動方法が既知である。例えば、ビデオ処理方法は、人物及び車両等の物体を検出、認識、及び追跡することができる。これらの方法はほとんどが、特定ジャンルのビデオ、例えばスポーツビデオ又はニュース放送向けに設計されている。しかし、通常のビデオ中の物体の数は多い可能性があり、全ての物体が必ずしも関心のある事象に関連する訳ではない。ビデオの複雑さ及び多様性のために、ユーザがビデオ及び抽出されたメタデータをさらに閲覧して、ビデオの内容、すなわち空間特性及び時間特性をより良く理解することが依然として必要である場合が多い。

通常、ビデオ又はメタデータは、空間において、又は代替的に時間において手動で処理される。例えば、ユーザは、特定の場所から取得される監視ビデオを選択し、次にそのビデオを、関心のある事象を見つけ出すために特定の時間間隔についてのみ詳細に調べるかもしれない。これは明らかに、ビデオ中の内容及びシーンの時間ダイナミクスの或る程度の事前知識を必要とする。ビデオの時間特性及び空間特性を同時に且つ自動で調査できればより良いであろう。

したがって、ビデオ及びビデオから抽出されたメタデータを自動技法によって時間的且つ空間的に解析及び操作する方法が必要とされている。特に、ビデオ及びメタデータを手動で処理するために必要な労力を削減することができる、改良された可視化技法を提供することが望ましい。

ビデオの要約化
時空間におけるビデオのレンダリングは、大きな処理資源、記憶資源及びネットワーク資源を必要とする。これをリアルタイムで行うことは非常に困難である。したがって、ビデオの要約及び抜粋（abstract）が頻繁に用いられる。ビデオの要約化は通常、ビデオ処理の第１段階である。この段階では、ビデオ中の特徴を抽出して索引付けする。一般に、要約化は、２つのプロセス、すなわち、時間の分割及びキーフレームの抜粋を含む。時間の分割は、連続するカメラショット間の境界を検出する。キーフレームの抜粋は１つのショットを、内容を表す１つ又は少数の索引付けされたキーフレームに低減する。キーフレームはその後、索引を用いた検索によって取り出し、閲覧目的で表示することができる。

一般に、分割プロセスと抜粋プロセスは一体化される。新たなショットが検出されると、分割プロセス中に抽出された特徴を用いてキーフレーム抜粋プロセスが呼び出される。課題は、コンテキストに基づいてビデオの要約を自動的に生成することである。

要約化方法は、色、例えば明度及び支配色、並びにモーションアクティビティ等の低レベルの特徴、又は物体及びパターン検出等のより高度な意味的解析に依存することができる。これらの方法は有用且つ強力であるが、リアルタイム解析には不適である。

ビデオの可視化
可視化方法は一般に、ビデオフレームと、抽出された情報、例えばメタデータとを組み合わせる。メタデータは通常、個々のフレームに関連し、物体のバウンディングボックス及び動きベクトルを含み得る。

１つの方法は、空間ビューをディスプレイの中央に、時間要約化したビューをその両側に配置して、過去及び未来の感覚を与える３Ｄ可視化をシミュレートする（Ｗ．Ｅ．マカイ（Mackay）及びＭ．ボードワン−ラフォン（Beaudouin-Lafon）著「DIVA: Exploratory Data Analysis with Multimedia Streams」（Proceedings CHI'98, pp. 416-423, 1998））。この方法は、大型ディスプレイ画面及びメタデータを必要とし、１つの時間方向、例えば過去から又は未来からのデータしか可視化することができない。

別の方法では、関心のある事象を迅速に見つけ出すために、ユーザがキーフレームを選択し、ビデオが「時間チャネル」として時間的に提示される（Ｋ．ウィッテンブルグ（Wittenburg）、Ｃ．フォーリンズ（Forlines）、Ｔ．ラニング（Lanning）、Ａ．エセンター（Esenther）、Ｓ．原田（Harada）、Ｔ．宮地（Miyachi）著「Rapid Serial Visual Presentation Techniques for Consumer Digital Video Devices」（Proceedings of UIST 2003, pp. 115-124, and [CS-3124]））。この方法は、ビデオの便利な提示方法及びナビゲーション方法を提供するが、クエリをサポートしない。

別の方法は、ボリューム可視化において不透明度及び色伝達関数を用いてビデオを要約化する（Ｇ．ダニエル（Daniel）及びＭ．チェン（Chen）著「Video visualization」（Proceedings IEEE Visualization 2003, pp. 409-416, 2003））。色伝達関数は、様々な大きさの変化を示すか、又は物体の部分を除去するために用いることができる。この方法もまたメタデータを必要とする。

別の方法は、１つの画像中に経時的な空間関係を提示する（Ｗ．フリーマン（Freeman）及びＨ．チャン（Zhang）著「Shape-Time Photography」（Proceedings of CVPR 2003, pp. 151-157, 2003））。この方法は固定ステレオカメラを必要とする。

別の方法は、連続する時系列を用いて詳細なビューをユーザに提示する（Ｍ．ミルス（Mills）、Ｊ．コーエン（Cohen）及びＹ．ウォン（Wong）著「A Magnifier Tool for Video Data」（SIGCHI '92: Proceedings of Human Factors in Computing Systems, Monterey, CA, pp. 93-98, 1992））。この方法は、時系列を用いて、ビデオの全持続時間を表現し、ユーザは、時系列の一部を選択して、選択した部分を第２の時系列に拡張することができる。時系列は、ビデオの明示的な空間階層構造を提供する。

静止画の可視化
静止画を可視化し理解するために多くの技法が用いられている。１つの方法は、「マジックレンズ」と呼ばれる「シースルー」インタフェースを提供する（Ｅ．Ａ．ビール（Bier）、Ｋ．フィシュキン（Fishkin）、Ｋ．ピア（Pier）及びＭ．Ｃ．ストーン（Stone）著「Toolglass and magic lenses: the see-through interface」（Proceedings of SIGGRAPH'93, pp. 73-80, 1993））。マジックレンズが、画面領域に当てられて（apply）、静止画の画素によって表現されるような、その下にある内容を意味的に変換する。ユーザは、レンズを動かして、どの領域に影響を与えるかを制御する。実際には、マジックレンズは、対話型の可視化のために使用できる作成可能な視覚フィルタである。レンズは、その下にある内容にズームインする拡大鏡として作用することができる。レンズはまた、さもなければ隠れた情報を見せるための「Ｘ線」ツールとしても機能し得る。複数のレンズを互いに積み重ねて、個々のレンズ機能の合成を提供することもできる。異なるレンズの順序は異なる結果を生じ得る。マジックレンズは、画面空間を縮小し、静止画の全コンテキストと細部を同時に閲覧する能力を提供する。このレンズは、関心のある情報を強調し、その一方で邪魔な情報を抑える。

マジックレンズは多くの用途で用いられている（Ｂ．Ｂ．ベダーソン（Bederson）及びＪ．ホラン（Hollan）著「Pad++: a zooming graphical interface for exploring alternate interface physics」（Proceedings of UIST '94, pp. 17-26, 1994）、Ｓ．ハドソン（Hudson）、Ｒ．ローデンスタイン（Rodenstein）及びＩ．スミス（Smith）著「Debugging Lenses: A New Class of Transparent Tools for User Interface Debugging」（Proceedings of UIST'97, pp. 179-187）、並びにＧ．Ｇ．ロバートソン（Robertson）及びＪ．Ｄ．マッキンレー（Mackinlay）著「The document lens」（UIST'93, pp. 101-108, 1993））。

しかし、従来技術のマジックレンズは空間領域でのみ動作する。空間領域と時間領域の両方で同時に動作することができるマジックレンズを提供することが望ましい。

ビデオの空間成分及び時間成分を用いてビデオを検索して閲覧する方法が提供される。本方法は、空間クエリ及び時間クエリを指定することによって、シーンから取得されたビデオを空間的且つ時間的に要約化する。空間クエリ及び時間クエリに応じてビデオのフレームが選択される。次に、選択されたフレームが、そのシーンの空間特性及び時間特性を表す１つの画像に合成される。

図１は、本発明の１つの実施の形態による、ビデオの空間特性及び時間特性を用いてビデオ１０２を解析、検索、閲覧、及び提示するシステム及び方法１００を示す。この実施の形態は、空間クエリ成分と時間クエリ成分を結合して１つのクエリにする。クエリは、ビデオの空間領域及び時間領域を選択するために使用される。空間領域は、１つのフレーム内の空間的に連続した画素組であり、時間領域は、複数の隣接フレーム中の時間的に連続した画素にまたがる。次に、本システムは、選択された領域の空間特性及び時間特性を要約化する合成画像を提示する。

空間クエリ
図１に示すように、空間クエリ１１１は、１台又は複数の固定カメラ又は移動カメラ１０４によって取得されたシーン１０３のビデオ１０２中の関心のある空間領域１０１を指定する１１０。ビデオは、リアルタイムに取得及び処理することができるか、又は、記憶することができ、記録保管されたビデオは、後にオフラインで「閲覧」することができることに留意すべきである。

ユーザは、空間領域を手動で、例えば、マウス及びカーソル、スタイラス、又は他の入力装置によりフレーム１０５上に「描画する」ことによって選択することができる。代替的に、本システムは、物体、事象、色検出、又は他の技法を用いて領域を自動的に指定することができる。

時間クエリ
時間クエリ１２１は、ビデオ中の関心のある時間領域１０６、例えば、開始時間及び終了時間又は持続時間を指定する１２０。時間クエリは、索引付けされたフレームに従って指定する１２０こともできる。時間領域は、自動的に又は手動で選択することができる。ユーザは、関心のある時間領域の開始時間及び終了時間を、考慮すべき総フレーム数と共に指定することによって、時間領域を手動で選択することができる。代替的に、本システムは、移動物体、事象、色又は動き検出技法を用いて領域を自動的に指定することができる。例えば、時間領域は、特定の物体が出現するフレームを含む。

時間クエリは、空間クエリを制約する軌跡によって指定することもできる。軌跡は、有向線２１３によって指定することができる（図２を参照）。軌跡は、関心のある空間領域及び移動パターンを指定し、同様の軌跡を辿る移動物体を含むフレームのみが選択されるようにする。

空間クエリ及び時間クエリは、任意の順序で又は同時に指定することができることに留意すべきである。

空間クエリと時間クエリは結合して１２５、時空間クエリ１２２にすることができる。時空間クエリは、ビデオからフレーム１３１を選択する１３０ために用いられる。選択された画像は、例えばフレーム中に検出される移動物体の数に応じてフィルタリングする１４５ことができる。物体のないフレームは、背景のみを示すものであり、ユーザに新たな情報を何ら提供しないため、廃棄することができる。「何もない」フレームの除外は、コンテキストのブレ及びフェージングを最小化することによって閲覧を向上させる。

合成及びレンダリング
本発明では、選択されたフレームを「混合」することによってレンダリング用の合成画像１４１を生成する１４０。合成画像は、選択されたフレームの空間特性及び時間特性を要約化する。選択されたフレームを合成する１４０際、所定の順序１４３及び所定の混合不透明度１４２が、合成画像の見た目を決める。合成画像は、出力画像１５１として表示装置１６０にレンダリングする１５０ことができる。

合成画像は、所定時間にわたって選択されたフレーム、すなわち複数のフレームの領域を含む。ユーザは、どの領域がどの期間からのものであるかを区別することができる。するとユーザは、その期間をさらに詳細に調査することができる。

複数の連続するフレームを合成する場合、選択されたフレームに対して適切な不透明度を設定することは重要である。従来の方法は通常、空間的に固定された関連のない画像を合成する（Ｂ．Ｌ．ハリソン（Harrison）、Ｈ．石井（Ishii）、Ｋ．ビセンテ（Vicente）及びＷ．バクストン（Buxton）著「Transparent Layered User Interfaces: An Evaluation of a Display Design Space to Enhance Focused and Divided Attention」（Proceedings of CHI'05, pp. 317-324, 1995）、並びにＳ．ザイ（Zhai）、Ｗ．バクストン及びＰ．ミルグラム（Milgram）著「The partial-occlusion effect: Utilizing semi-transparency in 3D human-computer interaction」（ACM Transactions on Computer-Human Interaction, 3(3), pp. 254-284, 1996））。

しかし、本発明のフレームは時間的にも関連している。ビデオを再生しながら関心のあるフレームをより鮮明にすることが望ましい。これを行うために、本発明ではフレームを補間する。開始時間及び終了時間、並びに合成するフレーム数が与えられた状態で、連続する選択フレーム間の時間間隔を決める。

本発明では、全ての画像が同じ不透明度値で知覚できるように、式（１）及び式（２）並びに重ね順を用いて不透明度を決める。
Σ^ｎ _ｉ＝１α_ｉ×（ｉ／ｎ）＝１、（１）
且つ
全てのｉ≠ｊについてα_ｉ×（ｉ／ｎ）＝α_ｊ×（ｊ／ｎ）（２）
ここで、α_ｉは合成画像のｉ番目の層の不透明度であり、ｎは選択された画像の数を表し、ｉ／ｎはα_ｉの重みを表す。乗算「×」は、特定の層のヒューリスティック値すなわちユーザによって知覚される値を提供する。ユーザが全ての合成フレームを同じ不透明度で知覚したときの条件が均衡の取れたビューとして定義される。したがって、本発明ではα_ｉ＝１／ｉを解く。この等式は、最新のフレームから均衡の取れたビューまで、それから最も古いフレームまで、連続した透明度スペクトルを保つ。合成の順序は、ビデオの時間的構造をより良く理解できるように変更することができる。

例えば、２つのフレームを合成する場合、下のフレームの不透明度値が１．０であり、上のフレームの不透明度値が０．５であるとき、両方のフレームが可能な限り鮮明に見える。この場合、合成画像の不透明度は０．５として知覚される。３つのフレームを用いる場合、フレームの重みが実際には一番下のフレームがα＝１．０、中間のフレームが０．５、一番上のフレームが０．３３であるとき、合成画像は同じ重みを持つように見える。均衡の取れたビューから開始して、ユーザは、不透明度値を変化させて、最新のフレーム又は最も古いフレームのうちどのフレームを最も目立たせるべきかを判断することができる。

グラフィカルユーザインタフェース
図２は、本発明の１つの実施の形態によるグラフィカルユーザインタフェース（ＧＵＩ）２００を示す。このインタフェースは、空間クエリを指定するためのアイコン２１０、例えば縦のボタンを含む。例えば、ユーザは、インタフェースの左側に表示されるビデオの再生ウインドウ２１２に表示されているフレーム内の空間領域の周囲に長方形２１１を描画することができる。

小さな縦のバー２３６は、これらのフレームの時間的位置を示す。バー間の間隔は相対的な時間的位置を示し、バーのグレーレベルは合成のためのそれらの相対的な不透明度を示す。この例においてフレームは等間隔である。最近のフレームは、不透明度によってより高い重みを付され、合成画像中でより鮮明にされている。順序、不透明度、及びフレーム間の間隔を以下でより詳細に説明する。

合成のために、インタフェースは、現フレーム又は開始時間を示す時間ポインタ２３１を含む。ユーザはこのポインタを動かすことができ、又はポインタはビデオが再生されるに伴い自動的に動く。持続時間バー２３２は、期間の長さを指定するために使用される。指定される期間は、現フレームから過去又は未来にまたがることができる。選択されるフレーム数も示すことができる。

間隔スクロールバー２３３は時間クエリを指定する。間隔スクロールバーは、時間を圧縮し、特定の期間に「ズーム」インするために使用される。つまり、間隔バーはビデオのサンプリングを制御する。例えば、この間隔が１０に設定される場合、１０個置きのフレームのみが処理され、１時間のビデオを６分で閲覧することができる。したがって、間隔スクロールバーは早送りとして機能する。

不透明度バー２３４は、混合合成中のフレームの相対的な不透明度を決める。混合は、「未来」又は「過去」の事象のプレビューとして「ゴースト」効果を与える。例えば、過去の移動物体は透明な「ゴースト」のように見え、その一方で現位置にある物体は鮮明に表示される。したがって、移動物体が過去、現在、及び未来にどこにあるかを示すことが可能である。

選択されたフレームのサムネイル画像２４０をインタフェースの右側に表示することができる。図示の例では８つのフレームが合成される。ユーザは、マウスを用いてサムネイル画像とやりとりすることができる。特定のサムネイルを選択すると、ビデオがその時点から再生され、色付きの長方形は、フレーム中の任意の移動物体の周囲の物体ヒストグラムと一致する。

物体ヒストグラム２５０は移動物体の数、及びこれらの物体がビデオ中に出現するときを示す。ヒストグラムの高さは物体の数を示し、異なる色は異なる物体を区別する。ヒストグラムのうちの１つを選択すると、ビデオは、その物体を含むフレームを再生ウインドウ２１２で再生するように位置付けされる。

本発明を、好適な実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び修正をすべて網羅することである。

ビデオの空間特性及び時間特性を検索し提示するシステム及び方法のブロック図である。本発明の１つの実施の形態による時空間グラフィカルユーザインタフェースのブロック図である。

Claims

カメラによってシーンから取得されたビデオの空間クエリを指定すること、
前記ビデオの時間クエリを指定すること、
前記空間クエリ及び前記時間クエリに応じて前記ビデオのフレームを選択すること、
及び
前記選択されたフレームを、前記シーンの空間特性及び時間特性を表す１つの画像に合成すること
を含む、ビデオを空間的且つ時間的に要約化する方法。
固定カメラにより前記ビデオを取得することをさらに含む
請求項１記載の方法。
移動カメラにより前記ビデオを取得することをさらに含む
請求項１記載の方法。
前記空間クエリは、前記ビデオの１つの特定のフレーム内の空間的に連続した画素組を指定し、前記時間クエリは、複数の隣接フレーム中の時間的に連続した画素組を指定する
請求項１記載の方法。
前記特定のフレーム上に描画して、前記空間クエリを手動で指定することをさらに含む
請求項４記載の方法。
前記特定のフレームに対して物体検出を適用して、前記空間クエリを自動的に指定することをさらに含む
請求項４記載の方法。
前記特定のフレームに対して事象検出を適用して、前記空間クエリを自動的に指定することをさらに含む
請求項４記載の方法。
前記特定のフレームに対して色検出を適用して、前記空間クエリを自動的に指定することをさらに含む
請求項４記載の方法。
関心のある前記空間領域の開始時間及び終了時間を手動で指定することをさらに含む
請求項４記載の方法。
前記時間領域は、移動物体の検出によって自動的に指定される
請求項４記載の方法。
前記時間領域は、移動物体の軌跡に応じて指定される
請求項４記載の方法。
前記空間クエリと前記時間クエリを時空間クエリに結合して、前記フレームを選択することをさらに含む
請求項１記載の方法。
前記選択されたフレームをフィルタリングすることをさらに含む
請求項１記載の方法。
前記フィルタリングすることは、前記選択されたフレーム中に検出された移動物体の数に応じて行われる
請求項１３記載の方法。
前記画像を出力装置にレンダリングすることをさらに含む
請求項１記載の方法。
前記合成することは、所定の順序及び所定の不透明度に応じて行われる
請求項１記載の方法。
前記合成することは、
Σ^ｎ _ｉ＝１α_ｉ×（ｉ／ｎ）＝１、且つ、全てのｉ≠ｊについてα_ｉ×（ｉ／ｎ）＝α_ｊ×（ｊ／ｎ）
に従って行われ、
α_ｉは前記画像中のｉ番目の層の不透明度であり、ｎは選択された画像の数を表す
請求項１６記載の方法。
前記空間クエリ及び前記時間クエリは、グラフィカルユーザインタフェースにより指定される
請求項１５記載の方法。
前記選択されたフレームのサムネイル画像を前記グラフィカルユーザインタフェースに表示することをさらに含む
請求項１８記載の方法。
物体ヒストグラムを前記グラフィカルユーザインタフェースに表示して、前記選択されたフレーム中の移動物体を表現することをさらに含む
請求項１８記載の方法。
前記ビデオは、複数のカメラによって取得される
請求項１記載の方法。
前記ビデオは、リアルタイムで処理される
請求項１記載の方法。
前記ビデオは、オフラインで処理される
請求項１記載の方法。
カメラによってシーンから取得されたビデオの空間クエリを指定する手段と、
前記ビデオの時間クエリを指定する手段と、
前記空間クエリ及び前記時間クエリに応じて前記ビデオのフレームを選択する手段と、
前記選択されたフレームを、前記シーンの空間特性及び時間特性を表す１つの画像に合成する手段と
を備える、ビデオを空間的且つ時間的に要約化するシステム。