JP2006333453A - ビデオを空間的且つ時間的に要約化する方法及びシステム - Google Patents
ビデオを空間的且つ時間的に要約化する方法及びシステム Download PDFInfo
- Publication number
- JP2006333453A JP2006333453A JP2006120756A JP2006120756A JP2006333453A JP 2006333453 A JP2006333453 A JP 2006333453A JP 2006120756 A JP2006120756 A JP 2006120756A JP 2006120756 A JP2006120756 A JP 2006120756A JP 2006333453 A JP2006333453 A JP 2006333453A
- Authority
- JP
- Japan
- Prior art keywords
- video
- query
- spatial
- frame
- temporal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002123 temporal effect Effects 0.000 claims abstract description 35
- 238000001514 detection method Methods 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 239000002131 composite material Substances 0.000 description 12
- 238000012800 visualization Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000007794 visualization technique Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】ビデオの空間成分及び時間成分を用いてビデオを検索して閲覧する方法が提供される。
【解決手段】方法は、空間クエリ及び時間クエリを指定することによって、シーンから取得されたビデオを空間的且つ時間的に要約化する。空間クエリ及び時間クエリに応じてビデオのフレームが選択され、次に、選択されたフレームが、そのシーンの空間特性及び時間特性を表す1つの画像に合成される。
【選択図】図1
【解決手段】方法は、空間クエリ及び時間クエリを指定することによって、シーンから取得されたビデオを空間的且つ時間的に要約化する。空間クエリ及び時間クエリに応じてビデオのフレームが選択され、次に、選択されたフレームが、そのシーンの空間特性及び時間特性を表す1つの画像に合成される。
【選択図】図1
Description
本発明は、包括的にはビデオの処理に関し、特に、ビデオの空間特性及び時間特性の検索(query)及び提示に関する。
ビデオは、娯楽、スポーツ、ニュース、ウェブ、個人用、家庭用、監視、及び科学カメラ等の多数のソースから入手可能である。このような多様なビデオ内容を解析及び要約化して、関心のある物体、事象及びパターンを見つけ出すことは困難である。
ビデオからメタデータを抽出する自動方法が既知である。例えば、ビデオ処理方法は、人物及び車両等の物体を検出、認識、及び追跡することができる。これらの方法はほとんどが、特定ジャンルのビデオ、例えばスポーツビデオ又はニュース放送向けに設計されている。しかし、通常のビデオ中の物体の数は多い可能性があり、全ての物体が必ずしも関心のある事象に関連する訳ではない。ビデオの複雑さ及び多様性のために、ユーザがビデオ及び抽出されたメタデータをさらに閲覧して、ビデオの内容、すなわち空間特性及び時間特性をより良く理解することが依然として必要である場合が多い。
通常、ビデオ又はメタデータは、空間において、又は代替的に時間において手動で処理される。例えば、ユーザは、特定の場所から取得される監視ビデオを選択し、次にそのビデオを、関心のある事象を見つけ出すために特定の時間間隔についてのみ詳細に調べるかもしれない。これは明らかに、ビデオ中の内容及びシーンの時間ダイナミクスの或る程度の事前知識を必要とする。ビデオの時間特性及び空間特性を同時に且つ自動で調査できればより良いであろう。
したがって、ビデオ及びビデオから抽出されたメタデータを自動技法によって時間的且つ空間的に解析及び操作する方法が必要とされている。特に、ビデオ及びメタデータを手動で処理するために必要な労力を削減することができる、改良された可視化技法を提供することが望ましい。
ビデオの要約化
時空間におけるビデオのレンダリングは、大きな処理資源、記憶資源及びネットワーク資源を必要とする。これをリアルタイムで行うことは非常に困難である。したがって、ビデオの要約及び抜粋(abstract)が頻繁に用いられる。ビデオの要約化は通常、ビデオ処理の第1段階である。この段階では、ビデオ中の特徴を抽出して索引付けする。一般に、要約化は、2つのプロセス、すなわち、時間の分割及びキーフレームの抜粋を含む。時間の分割は、連続するカメラショット間の境界を検出する。キーフレームの抜粋は1つのショットを、内容を表す1つ又は少数の索引付けされたキーフレームに低減する。キーフレームはその後、索引を用いた検索によって取り出し、閲覧目的で表示することができる。
時空間におけるビデオのレンダリングは、大きな処理資源、記憶資源及びネットワーク資源を必要とする。これをリアルタイムで行うことは非常に困難である。したがって、ビデオの要約及び抜粋(abstract)が頻繁に用いられる。ビデオの要約化は通常、ビデオ処理の第1段階である。この段階では、ビデオ中の特徴を抽出して索引付けする。一般に、要約化は、2つのプロセス、すなわち、時間の分割及びキーフレームの抜粋を含む。時間の分割は、連続するカメラショット間の境界を検出する。キーフレームの抜粋は1つのショットを、内容を表す1つ又は少数の索引付けされたキーフレームに低減する。キーフレームはその後、索引を用いた検索によって取り出し、閲覧目的で表示することができる。
一般に、分割プロセスと抜粋プロセスは一体化される。新たなショットが検出されると、分割プロセス中に抽出された特徴を用いてキーフレーム抜粋プロセスが呼び出される。課題は、コンテキストに基づいてビデオの要約を自動的に生成することである。
要約化方法は、色、例えば明度及び支配色、並びにモーションアクティビティ等の低レベルの特徴、又は物体及びパターン検出等のより高度な意味的解析に依存することができる。これらの方法は有用且つ強力であるが、リアルタイム解析には不適である。
ビデオの可視化
可視化方法は一般に、ビデオフレームと、抽出された情報、例えばメタデータとを組み合わせる。メタデータは通常、個々のフレームに関連し、物体のバウンディングボックス及び動きベクトルを含み得る。
可視化方法は一般に、ビデオフレームと、抽出された情報、例えばメタデータとを組み合わせる。メタデータは通常、個々のフレームに関連し、物体のバウンディングボックス及び動きベクトルを含み得る。
1つの方法は、空間ビューをディスプレイの中央に、時間要約化したビューをその両側に配置して、過去及び未来の感覚を与える3D可視化をシミュレートする(W.E.マカイ(Mackay)及びM.ボードワン−ラフォン(Beaudouin-Lafon)著「DIVA: Exploratory Data Analysis with Multimedia Streams」(Proceedings CHI'98, pp. 416-423, 1998))。この方法は、大型ディスプレイ画面及びメタデータを必要とし、1つの時間方向、例えば過去から又は未来からのデータしか可視化することができない。
別の方法では、関心のある事象を迅速に見つけ出すために、ユーザがキーフレームを選択し、ビデオが「時間チャネル」として時間的に提示される(K.ウィッテンブルグ(Wittenburg)、C.フォーリンズ(Forlines)、T.ラニング(Lanning)、A.エセンター(Esenther)、S.原田(Harada)、T.宮地(Miyachi)著「Rapid Serial Visual Presentation Techniques for Consumer Digital Video Devices」(Proceedings of UIST 2003, pp. 115-124, and [CS-3124]))。この方法は、ビデオの便利な提示方法及びナビゲーション方法を提供するが、クエリをサポートしない。
別の方法は、ボリューム可視化において不透明度及び色伝達関数を用いてビデオを要約化する(G.ダニエル(Daniel)及びM.チェン(Chen)著「Video visualization」(Proceedings IEEE Visualization 2003, pp. 409-416, 2003))。色伝達関数は、様々な大きさの変化を示すか、又は物体の部分を除去するために用いることができる。この方法もまたメタデータを必要とする。
別の方法は、1つの画像中に経時的な空間関係を提示する(W.フリーマン(Freeman)及びH.チャン(Zhang)著「Shape-Time Photography」(Proceedings of CVPR 2003, pp. 151-157, 2003))。この方法は固定ステレオカメラを必要とする。
別の方法は、連続する時系列を用いて詳細なビューをユーザに提示する(M.ミルス(Mills)、J.コーエン(Cohen)及びY.ウォン(Wong)著「A Magnifier Tool for Video Data」(SIGCHI '92: Proceedings of Human Factors in Computing Systems, Monterey, CA, pp. 93-98, 1992))。この方法は、時系列を用いて、ビデオの全持続時間を表現し、ユーザは、時系列の一部を選択して、選択した部分を第2の時系列に拡張することができる。時系列は、ビデオの明示的な空間階層構造を提供する。
静止画の可視化
静止画を可視化し理解するために多くの技法が用いられている。1つの方法は、「マジックレンズ」と呼ばれる「シースルー」インタフェースを提供する(E.A.ビール(Bier)、K.フィシュキン(Fishkin)、K.ピア(Pier)及びM.C.ストーン(Stone)著「Toolglass and magic lenses: the see-through interface」(Proceedings of SIGGRAPH'93, pp. 73-80, 1993))。マジックレンズが、画面領域に当てられて(apply)、静止画の画素によって表現されるような、その下にある内容を意味的に変換する。ユーザは、レンズを動かして、どの領域に影響を与えるかを制御する。実際には、マジックレンズは、対話型の可視化のために使用できる作成可能な視覚フィルタである。レンズは、その下にある内容にズームインする拡大鏡として作用することができる。レンズはまた、さもなければ隠れた情報を見せるための「X線」ツールとしても機能し得る。複数のレンズを互いに積み重ねて、個々のレンズ機能の合成を提供することもできる。異なるレンズの順序は異なる結果を生じ得る。マジックレンズは、画面空間を縮小し、静止画の全コンテキストと細部を同時に閲覧する能力を提供する。このレンズは、関心のある情報を強調し、その一方で邪魔な情報を抑える。
静止画を可視化し理解するために多くの技法が用いられている。1つの方法は、「マジックレンズ」と呼ばれる「シースルー」インタフェースを提供する(E.A.ビール(Bier)、K.フィシュキン(Fishkin)、K.ピア(Pier)及びM.C.ストーン(Stone)著「Toolglass and magic lenses: the see-through interface」(Proceedings of SIGGRAPH'93, pp. 73-80, 1993))。マジックレンズが、画面領域に当てられて(apply)、静止画の画素によって表現されるような、その下にある内容を意味的に変換する。ユーザは、レンズを動かして、どの領域に影響を与えるかを制御する。実際には、マジックレンズは、対話型の可視化のために使用できる作成可能な視覚フィルタである。レンズは、その下にある内容にズームインする拡大鏡として作用することができる。レンズはまた、さもなければ隠れた情報を見せるための「X線」ツールとしても機能し得る。複数のレンズを互いに積み重ねて、個々のレンズ機能の合成を提供することもできる。異なるレンズの順序は異なる結果を生じ得る。マジックレンズは、画面空間を縮小し、静止画の全コンテキストと細部を同時に閲覧する能力を提供する。このレンズは、関心のある情報を強調し、その一方で邪魔な情報を抑える。
マジックレンズは多くの用途で用いられている(B.B.ベダーソン(Bederson)及びJ.ホラン(Hollan)著「Pad++: a zooming graphical interface for exploring alternate interface physics」(Proceedings of UIST '94, pp. 17-26, 1994)、S.ハドソン(Hudson)、R.ローデンスタイン(Rodenstein)及びI.スミス(Smith)著「Debugging Lenses: A New Class of Transparent Tools for User Interface Debugging」(Proceedings of UIST'97, pp. 179-187)、並びにG.G.ロバートソン(Robertson)及びJ.D.マッキンレー(Mackinlay)著「The document lens」(UIST'93, pp. 101-108, 1993))。
しかし、従来技術のマジックレンズは空間領域でのみ動作する。空間領域と時間領域の両方で同時に動作することができるマジックレンズを提供することが望ましい。
ビデオの空間成分及び時間成分を用いてビデオを検索して閲覧する方法が提供される。本方法は、空間クエリ及び時間クエリを指定することによって、シーンから取得されたビデオを空間的且つ時間的に要約化する。空間クエリ及び時間クエリに応じてビデオのフレームが選択される。次に、選択されたフレームが、そのシーンの空間特性及び時間特性を表す1つの画像に合成される。
図1は、本発明の1つの実施の形態による、ビデオの空間特性及び時間特性を用いてビデオ102を解析、検索、閲覧、及び提示するシステム及び方法100を示す。この実施の形態は、空間クエリ成分と時間クエリ成分を結合して1つのクエリにする。クエリは、ビデオの空間領域及び時間領域を選択するために使用される。空間領域は、1つのフレーム内の空間的に連続した画素組であり、時間領域は、複数の隣接フレーム中の時間的に連続した画素にまたがる。次に、本システムは、選択された領域の空間特性及び時間特性を要約化する合成画像を提示する。
空間クエリ
図1に示すように、空間クエリ111は、1台又は複数の固定カメラ又は移動カメラ104によって取得されたシーン103のビデオ102中の関心のある空間領域101を指定する110。ビデオは、リアルタイムに取得及び処理することができるか、又は、記憶することができ、記録保管されたビデオは、後にオフラインで「閲覧」することができることに留意すべきである。
図1に示すように、空間クエリ111は、1台又は複数の固定カメラ又は移動カメラ104によって取得されたシーン103のビデオ102中の関心のある空間領域101を指定する110。ビデオは、リアルタイムに取得及び処理することができるか、又は、記憶することができ、記録保管されたビデオは、後にオフラインで「閲覧」することができることに留意すべきである。
ユーザは、空間領域を手動で、例えば、マウス及びカーソル、スタイラス、又は他の入力装置によりフレーム105上に「描画する」ことによって選択することができる。代替的に、本システムは、物体、事象、色検出、又は他の技法を用いて領域を自動的に指定することができる。
時間クエリ
時間クエリ121は、ビデオ中の関心のある時間領域106、例えば、開始時間及び終了時間又は持続時間を指定する120。時間クエリは、索引付けされたフレームに従って指定する120こともできる。時間領域は、自動的に又は手動で選択することができる。ユーザは、関心のある時間領域の開始時間及び終了時間を、考慮すべき総フレーム数と共に指定することによって、時間領域を手動で選択することができる。代替的に、本システムは、移動物体、事象、色又は動き検出技法を用いて領域を自動的に指定することができる。例えば、時間領域は、特定の物体が出現するフレームを含む。
時間クエリ121は、ビデオ中の関心のある時間領域106、例えば、開始時間及び終了時間又は持続時間を指定する120。時間クエリは、索引付けされたフレームに従って指定する120こともできる。時間領域は、自動的に又は手動で選択することができる。ユーザは、関心のある時間領域の開始時間及び終了時間を、考慮すべき総フレーム数と共に指定することによって、時間領域を手動で選択することができる。代替的に、本システムは、移動物体、事象、色又は動き検出技法を用いて領域を自動的に指定することができる。例えば、時間領域は、特定の物体が出現するフレームを含む。
時間クエリは、空間クエリを制約する軌跡によって指定することもできる。軌跡は、有向線213によって指定することができる(図2を参照)。軌跡は、関心のある空間領域及び移動パターンを指定し、同様の軌跡を辿る移動物体を含むフレームのみが選択されるようにする。
空間クエリ及び時間クエリは、任意の順序で又は同時に指定することができることに留意すべきである。
空間クエリと時間クエリは結合して125、時空間クエリ122にすることができる。時空間クエリは、ビデオからフレーム131を選択する130ために用いられる。選択された画像は、例えばフレーム中に検出される移動物体の数に応じてフィルタリングする145ことができる。物体のないフレームは、背景のみを示すものであり、ユーザに新たな情報を何ら提供しないため、廃棄することができる。「何もない」フレームの除外は、コンテキストのブレ及びフェージングを最小化することによって閲覧を向上させる。
合成及びレンダリング
本発明では、選択されたフレームを「混合」することによってレンダリング用の合成画像141を生成する140。合成画像は、選択されたフレームの空間特性及び時間特性を要約化する。選択されたフレームを合成する140際、所定の順序143及び所定の混合不透明度142が、合成画像の見た目を決める。合成画像は、出力画像151として表示装置160にレンダリングする150ことができる。
本発明では、選択されたフレームを「混合」することによってレンダリング用の合成画像141を生成する140。合成画像は、選択されたフレームの空間特性及び時間特性を要約化する。選択されたフレームを合成する140際、所定の順序143及び所定の混合不透明度142が、合成画像の見た目を決める。合成画像は、出力画像151として表示装置160にレンダリングする150ことができる。
合成画像は、所定時間にわたって選択されたフレーム、すなわち複数のフレームの領域を含む。ユーザは、どの領域がどの期間からのものであるかを区別することができる。するとユーザは、その期間をさらに詳細に調査することができる。
複数の連続するフレームを合成する場合、選択されたフレームに対して適切な不透明度を設定することは重要である。従来の方法は通常、空間的に固定された関連のない画像を合成する(B.L.ハリソン(Harrison)、H.石井(Ishii)、K.ビセンテ(Vicente)及びW.バクストン(Buxton)著「Transparent Layered User Interfaces: An Evaluation of a Display Design Space to Enhance Focused and Divided Attention」(Proceedings of CHI'05, pp. 317-324, 1995)、並びにS.ザイ(Zhai)、W.バクストン及びP.ミルグラム(Milgram)著「The partial-occlusion effect: Utilizing semi-transparency in 3D human-computer interaction」(ACM Transactions on Computer-Human Interaction, 3(3), pp. 254-284, 1996))。
しかし、本発明のフレームは時間的にも関連している。ビデオを再生しながら関心のあるフレームをより鮮明にすることが望ましい。これを行うために、本発明ではフレームを補間する。開始時間及び終了時間、並びに合成するフレーム数が与えられた状態で、連続する選択フレーム間の時間間隔を決める。
本発明では、全ての画像が同じ不透明度値で知覚できるように、式(1)及び式(2)並びに重ね順を用いて不透明度を決める。
Σn i=1αi×(i/n)=1、 (1)
且つ
全てのi≠jについてαi×(i/n)=αj×(j/n) (2)
ここで、αiは合成画像のi番目の層の不透明度であり、nは選択された画像の数を表し、i/nはαiの重みを表す。乗算「×」は、特定の層のヒューリスティック値すなわちユーザによって知覚される値を提供する。ユーザが全ての合成フレームを同じ不透明度で知覚したときの条件が均衡の取れたビューとして定義される。したがって、本発明ではαi=1/iを解く。この等式は、最新のフレームから均衡の取れたビューまで、それから最も古いフレームまで、連続した透明度スペクトルを保つ。合成の順序は、ビデオの時間的構造をより良く理解できるように変更することができる。
Σn i=1αi×(i/n)=1、 (1)
且つ
全てのi≠jについてαi×(i/n)=αj×(j/n) (2)
ここで、αiは合成画像のi番目の層の不透明度であり、nは選択された画像の数を表し、i/nはαiの重みを表す。乗算「×」は、特定の層のヒューリスティック値すなわちユーザによって知覚される値を提供する。ユーザが全ての合成フレームを同じ不透明度で知覚したときの条件が均衡の取れたビューとして定義される。したがって、本発明ではαi=1/iを解く。この等式は、最新のフレームから均衡の取れたビューまで、それから最も古いフレームまで、連続した透明度スペクトルを保つ。合成の順序は、ビデオの時間的構造をより良く理解できるように変更することができる。
例えば、2つのフレームを合成する場合、下のフレームの不透明度値が1.0であり、上のフレームの不透明度値が0.5であるとき、両方のフレームが可能な限り鮮明に見える。この場合、合成画像の不透明度は0.5として知覚される。3つのフレームを用いる場合、フレームの重みが実際には一番下のフレームがα=1.0、中間のフレームが0.5、一番上のフレームが0.33であるとき、合成画像は同じ重みを持つように見える。均衡の取れたビューから開始して、ユーザは、不透明度値を変化させて、最新のフレーム又は最も古いフレームのうちどのフレームを最も目立たせるべきかを判断することができる。
グラフィカルユーザインタフェース
図2は、本発明の1つの実施の形態によるグラフィカルユーザインタフェース(GUI)200を示す。このインタフェースは、空間クエリを指定するためのアイコン210、例えば縦のボタンを含む。例えば、ユーザは、インタフェースの左側に表示されるビデオの再生ウインドウ212に表示されているフレーム内の空間領域の周囲に長方形211を描画することができる。
図2は、本発明の1つの実施の形態によるグラフィカルユーザインタフェース(GUI)200を示す。このインタフェースは、空間クエリを指定するためのアイコン210、例えば縦のボタンを含む。例えば、ユーザは、インタフェースの左側に表示されるビデオの再生ウインドウ212に表示されているフレーム内の空間領域の周囲に長方形211を描画することができる。
小さな縦のバー236は、これらのフレームの時間的位置を示す。バー間の間隔は相対的な時間的位置を示し、バーのグレーレベルは合成のためのそれらの相対的な不透明度を示す。この例においてフレームは等間隔である。最近のフレームは、不透明度によってより高い重みを付され、合成画像中でより鮮明にされている。順序、不透明度、及びフレーム間の間隔を以下でより詳細に説明する。
合成のために、インタフェースは、現フレーム又は開始時間を示す時間ポインタ231を含む。ユーザはこのポインタを動かすことができ、又はポインタはビデオが再生されるに伴い自動的に動く。持続時間バー232は、期間の長さを指定するために使用される。指定される期間は、現フレームから過去又は未来にまたがることができる。選択されるフレーム数も示すことができる。
間隔スクロールバー233は時間クエリを指定する。間隔スクロールバーは、時間を圧縮し、特定の期間に「ズーム」インするために使用される。つまり、間隔バーはビデオのサンプリングを制御する。例えば、この間隔が10に設定される場合、10個置きのフレームのみが処理され、1時間のビデオを6分で閲覧することができる。したがって、間隔スクロールバーは早送りとして機能する。
不透明度バー234は、混合合成中のフレームの相対的な不透明度を決める。混合は、「未来」又は「過去」の事象のプレビューとして「ゴースト」効果を与える。例えば、過去の移動物体は透明な「ゴースト」のように見え、その一方で現位置にある物体は鮮明に表示される。したがって、移動物体が過去、現在、及び未来にどこにあるかを示すことが可能である。
選択されたフレームのサムネイル画像240をインタフェースの右側に表示することができる。図示の例では8つのフレームが合成される。ユーザは、マウスを用いてサムネイル画像とやりとりすることができる。特定のサムネイルを選択すると、ビデオがその時点から再生され、色付きの長方形は、フレーム中の任意の移動物体の周囲の物体ヒストグラムと一致する。
物体ヒストグラム250は移動物体の数、及びこれらの物体がビデオ中に出現するときを示す。ヒストグラムの高さは物体の数を示し、異なる色は異なる物体を区別する。ヒストグラムのうちの1つを選択すると、ビデオは、その物体を含むフレームを再生ウインドウ212で再生するように位置付けされる。
本発明を、好適な実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び修正をすべて網羅することである。
Claims (24)
- カメラによってシーンから取得されたビデオの空間クエリを指定すること、
前記ビデオの時間クエリを指定すること、
前記空間クエリ及び前記時間クエリに応じて前記ビデオのフレームを選択すること、
及び
前記選択されたフレームを、前記シーンの空間特性及び時間特性を表す1つの画像に合成すること
を含む、ビデオを空間的且つ時間的に要約化する方法。 - 固定カメラにより前記ビデオを取得することをさらに含む
請求項1記載の方法。 - 移動カメラにより前記ビデオを取得することをさらに含む
請求項1記載の方法。 - 前記空間クエリは、前記ビデオの1つの特定のフレーム内の空間的に連続した画素組を指定し、前記時間クエリは、複数の隣接フレーム中の時間的に連続した画素組を指定する
請求項1記載の方法。 - 前記特定のフレーム上に描画して、前記空間クエリを手動で指定することをさらに含む
請求項4記載の方法。 - 前記特定のフレームに対して物体検出を適用して、前記空間クエリを自動的に指定することをさらに含む
請求項4記載の方法。 - 前記特定のフレームに対して事象検出を適用して、前記空間クエリを自動的に指定することをさらに含む
請求項4記載の方法。 - 前記特定のフレームに対して色検出を適用して、前記空間クエリを自動的に指定することをさらに含む
請求項4記載の方法。 - 関心のある前記空間領域の開始時間及び終了時間を手動で指定することをさらに含む
請求項4記載の方法。 - 前記時間領域は、移動物体の検出によって自動的に指定される
請求項4記載の方法。 - 前記時間領域は、移動物体の軌跡に応じて指定される
請求項4記載の方法。 - 前記空間クエリと前記時間クエリを時空間クエリに結合して、前記フレームを選択することをさらに含む
請求項1記載の方法。 - 前記選択されたフレームをフィルタリングすることをさらに含む
請求項1記載の方法。 - 前記フィルタリングすることは、前記選択されたフレーム中に検出された移動物体の数に応じて行われる
請求項13記載の方法。 - 前記画像を出力装置にレンダリングすることをさらに含む
請求項1記載の方法。 - 前記合成することは、所定の順序及び所定の不透明度に応じて行われる
請求項1記載の方法。 - 前記合成することは、
Σn i=1αi×(i/n)=1、且つ、全てのi≠jについてαi×(i/n)=αj×(j/n)
に従って行われ、
αiは前記画像中のi番目の層の不透明度であり、nは選択された画像の数を表す
請求項16記載の方法。 - 前記空間クエリ及び前記時間クエリは、グラフィカルユーザインタフェースにより指定される
請求項15記載の方法。 - 前記選択されたフレームのサムネイル画像を前記グラフィカルユーザインタフェースに表示することをさらに含む
請求項18記載の方法。 - 物体ヒストグラムを前記グラフィカルユーザインタフェースに表示して、前記選択されたフレーム中の移動物体を表現することをさらに含む
請求項18記載の方法。 - 前記ビデオは、複数のカメラによって取得される
請求項1記載の方法。 - 前記ビデオは、リアルタイムで処理される
請求項1記載の方法。 - 前記ビデオは、オフラインで処理される
請求項1記載の方法。 - カメラによってシーンから取得されたビデオの空間クエリを指定する手段と、
前記ビデオの時間クエリを指定する手段と、
前記空間クエリ及び前記時間クエリに応じて前記ビデオのフレームを選択する手段と、
前記選択されたフレームを、前記シーンの空間特性及び時間特性を表す1つの画像に合成する手段と
を備える、ビデオを空間的且つ時間的に要約化するシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/116,976 US7598977B2 (en) | 2005-04-28 | 2005-04-28 | Spatio-temporal graphical user interface for querying videos |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006333453A true JP2006333453A (ja) | 2006-12-07 |
Family
ID=37418729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006120756A Pending JP2006333453A (ja) | 2005-04-28 | 2006-04-25 | ビデオを空間的且つ時間的に要約化する方法及びシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7598977B2 (ja) |
JP (1) | JP2006333453A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010532121A (ja) * | 2007-06-29 | 2010-09-30 | トムソン ライセンシング | ビデオを索引化する方法及びビデオを索引化する装置 |
JP2019521547A (ja) * | 2016-05-02 | 2019-07-25 | フェイスブック,インク. | コンテンツを提示するためのシステムおよび方法 |
KR20200012703A (ko) * | 2018-07-10 | 2020-02-05 | 삼성전자주식회사 | 차량의 글래스 윈도우 상에 멀티미디어 컨텐트를 디스플레이하는 방법 및 시스템 |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8458754B2 (en) | 2001-01-22 | 2013-06-04 | Sony Computer Entertainment Inc. | Method and system for providing instant start multimedia content |
EP1938244A1 (en) * | 2005-09-22 | 2008-07-02 | Thomson Licensing | Digital cinema projector watermarking system and method |
WO2007096003A1 (en) * | 2006-02-27 | 2007-08-30 | Robert Bosch Gmbh | Trajectory-based video retrieval system, method and computer program |
US7555412B2 (en) | 2007-02-09 | 2009-06-30 | Microsoft Corporation | Communication efficient spatial search in a sensor data web portal |
US8185355B2 (en) * | 2007-04-03 | 2012-05-22 | Microsoft Corporation | Slot-cache for caching aggregates of data with different expiry times |
WO2008149843A1 (ja) * | 2007-06-05 | 2008-12-11 | Nec Corporation | 情報提示システム、情報提示方法及び情報提示用プログラム |
US8503523B2 (en) * | 2007-06-29 | 2013-08-06 | Microsoft Corporation | Forming a representation of a video item and use thereof |
US9483405B2 (en) | 2007-09-20 | 2016-11-01 | Sony Interactive Entertainment Inc. | Simplified run-time program translation for emulating complex processor pipelines |
JP4505760B2 (ja) * | 2007-10-24 | 2010-07-21 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに、記録媒体 |
JP2011504702A (ja) * | 2007-11-22 | 2011-02-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ビデオ要約を生成する方法 |
US20090136208A1 (en) * | 2007-11-28 | 2009-05-28 | Flora Gilboa-Solomon | Virtual Video Clipping and Ranking Based on Spatio-Temporal Metadata |
TW201004339A (en) * | 2008-07-09 | 2010-01-16 | Univ Nat Taiwan | Method and system for processing synthetic graphic images on digital video file |
US8537196B2 (en) * | 2008-10-06 | 2013-09-17 | Microsoft Corporation | Multi-device capture and spatial browsing of conferences |
US9697535B2 (en) | 2008-12-23 | 2017-07-04 | International Business Machines Corporation | System and method in a virtual universe for identifying spam avatars based upon avatar multimedia characteristics |
US9704177B2 (en) | 2008-12-23 | 2017-07-11 | International Business Machines Corporation | Identifying spam avatars in a virtual universe (VU) based upon turing tests |
US8553778B2 (en) | 2009-03-19 | 2013-10-08 | International Business Machines Corporation | Coding scheme for identifying spatial locations of events within video image data |
US8537219B2 (en) | 2009-03-19 | 2013-09-17 | International Business Machines Corporation | Identifying spatial locations of events within video image data |
US8656476B2 (en) | 2009-05-28 | 2014-02-18 | International Business Machines Corporation | Providing notification of spam avatars |
US8370288B2 (en) | 2009-07-20 | 2013-02-05 | Sony Computer Entertainment America Llc | Summarizing a body of media by assembling selected summaries |
US8126987B2 (en) | 2009-11-16 | 2012-02-28 | Sony Computer Entertainment Inc. | Mediation of content-related services |
US8806341B2 (en) * | 2009-12-10 | 2014-08-12 | Hulu, LLC | Method and apparatus for navigating a media program via a histogram of popular segments |
US8332530B2 (en) | 2009-12-10 | 2012-12-11 | Hulu Llc | User interface including concurrent display of video program, histogram, and transcript |
US8433759B2 (en) | 2010-05-24 | 2013-04-30 | Sony Computer Entertainment America Llc | Direction-conscious information sharing |
US8908081B2 (en) * | 2010-09-09 | 2014-12-09 | Red.Com, Inc. | Optical filter opacity control for reducing temporal aliasing in motion picture capture |
US9031958B2 (en) | 2011-04-18 | 2015-05-12 | International Business Machines Corporation | File searching on mobile devices |
US9256361B2 (en) | 2011-08-03 | 2016-02-09 | Ebay Inc. | Control of search results with multipoint pinch gestures |
US20130308856A1 (en) * | 2012-01-12 | 2013-11-21 | Google Inc. | Background Detection As An Optimization For Gesture Recognition |
US9483109B2 (en) | 2012-07-12 | 2016-11-01 | Spritz Technology, Inc. | Methods and systems for displaying text using RSVP |
US20140189586A1 (en) | 2012-12-28 | 2014-07-03 | Spritz Technology Llc | Methods and systems for displaying text using rsvp |
US8903174B2 (en) | 2012-07-12 | 2014-12-02 | Spritz Technology, Inc. | Serial text display for optimal recognition apparatus and method |
US9552596B2 (en) | 2012-07-12 | 2017-01-24 | Spritz Technology, Inc. | Tracking content through serial presentation |
US9684719B2 (en) * | 2012-12-10 | 2017-06-20 | Verint Systems Ltd. | Object search by description |
CN103336957B (zh) * | 2013-07-18 | 2016-12-28 | 中国科学院自动化研究所 | 一种基于时空特征的网络同源视频检测方法 |
US10713494B2 (en) | 2014-02-28 | 2020-07-14 | Second Spectrum, Inc. | Data processing systems and methods for generating and interactive user interfaces and interactive game systems based on spatiotemporal analysis of video content |
US10521671B2 (en) * | 2014-02-28 | 2019-12-31 | Second Spectrum, Inc. | Methods and systems of spatiotemporal pattern recognition for video content development |
US11120271B2 (en) | 2014-02-28 | 2021-09-14 | Second Spectrum, Inc. | Data processing systems and methods for enhanced augmentation of interactive video content |
US11861906B2 (en) | 2014-02-28 | 2024-01-02 | Genius Sports Ss, Llc | Data processing systems and methods for enhanced augmentation of interactive video content |
US10769446B2 (en) | 2014-02-28 | 2020-09-08 | Second Spectrum, Inc. | Methods and systems of combining video content with one or more augmentations |
US11275949B2 (en) | 2014-02-28 | 2022-03-15 | Second Spectrum, Inc. | Methods, systems, and user interface navigation of video content based spatiotemporal pattern recognition |
US10832057B2 (en) | 2014-02-28 | 2020-11-10 | Second Spectrum, Inc. | Methods, systems, and user interface navigation of video content based spatiotemporal pattern recognition |
US9934453B2 (en) * | 2014-06-19 | 2018-04-03 | Bae Systems Information And Electronic Systems Integration Inc. | Multi-source multi-modal activity recognition in aerial video surveillance |
EP3023987B1 (en) | 2014-11-20 | 2017-03-22 | Axis AB | Method and apparatus for visualizing information of a digital video stream |
US9648211B2 (en) | 2015-05-14 | 2017-05-09 | Xerox Corporation | Automatic video synchronization via analysis in the spatiotemporal domain |
CN105488519B (zh) * | 2015-11-13 | 2019-01-25 | 同济大学 | 一种基于视频尺度信息的视频分类方法 |
US10453228B2 (en) | 2017-03-08 | 2019-10-22 | Microsoft Technology Licensing, Llc | Difference visualization between data sets |
CN107707975A (zh) * | 2017-09-20 | 2018-02-16 | 天津大学 | 基于监控平台的视频智能剪辑方法 |
WO2020013519A1 (en) * | 2018-07-10 | 2020-01-16 | Samsung Electronics Co., Ltd. | Method and system of displaying multimedia content on glass window of vehicle |
US11113535B2 (en) | 2019-11-08 | 2021-09-07 | Second Spectrum, Inc. | Determining tactical relevance and similarity of video sequences |
CN113761227A (zh) * | 2020-08-12 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 文本数据的搜索方法和装置 |
US11599253B2 (en) * | 2020-10-30 | 2023-03-07 | ROVl GUIDES, INC. | System and method for selection of displayed objects by path tracing |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05336441A (ja) * | 1992-06-03 | 1993-12-17 | Pioneer Electron Corp | 映像合成エフェクト装置 |
US5519450A (en) * | 1994-11-14 | 1996-05-21 | Texas Instruments Incorporated | Graphics subsystem for digital television |
US5969755A (en) * | 1996-02-05 | 1999-10-19 | Texas Instruments Incorporated | Motion based event detection system and method |
US6542632B1 (en) * | 1999-02-01 | 2003-04-01 | Sharp Laboratories Of America, Inc. | Method for image characterization using color and texture statistics with embedded spatial information |
US6369830B1 (en) * | 1999-05-10 | 2002-04-09 | Apple Computer, Inc. | Rendering translucent layers in a display system |
US20010043721A1 (en) * | 2000-03-21 | 2001-11-22 | Sarnoff Corporation | Method and apparatus for performing motion analysis on an image sequence |
US6954544B2 (en) * | 2002-05-23 | 2005-10-11 | Xerox Corporation | Visual motion analysis method for detecting arbitrary numbers of moving objects in image sequences |
US6919892B1 (en) * | 2002-08-14 | 2005-07-19 | Avaworks, Incorporated | Photo realistic talking head creation system and method |
-
2005
- 2005-04-28 US US11/116,976 patent/US7598977B2/en not_active Expired - Fee Related
-
2006
- 2006-04-25 JP JP2006120756A patent/JP2006333453A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010532121A (ja) * | 2007-06-29 | 2010-09-30 | トムソン ライセンシング | ビデオを索引化する方法及びビデオを索引化する装置 |
JP2019521547A (ja) * | 2016-05-02 | 2019-07-25 | フェイスブック,インク. | コンテンツを提示するためのシステムおよび方法 |
KR20200012703A (ko) * | 2018-07-10 | 2020-02-05 | 삼성전자주식회사 | 차량의 글래스 윈도우 상에 멀티미디어 컨텐트를 디스플레이하는 방법 및 시스템 |
KR102617120B1 (ko) * | 2018-07-10 | 2023-12-27 | 삼성전자주식회사 | 차량의 글래스 윈도우 상에 멀티미디어 컨텐트를 디스플레이하는 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US20060256210A1 (en) | 2006-11-16 |
US7598977B2 (en) | 2009-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7598977B2 (en) | Spatio-temporal graphical user interface for querying videos | |
US10979761B2 (en) | Intelligent video interaction method | |
Tonomura et al. | Videomap and videospaceicon: Tools for anatomizing video content | |
US7970257B2 (en) | Image display method and electronic apparatus implementing the image display method | |
Kurzhals et al. | Space-time visual analytics of eye-tracking data for dynamic stimuli | |
US6930687B2 (en) | Method of displaying a digital image | |
US8224087B2 (en) | Method and apparatus for video digest generation | |
US9678625B2 (en) | Multimedia player and menu screen display method | |
Nguyen et al. | Video summagator: an interface for video summarization and navigation | |
US20060109283A1 (en) | Temporal-context-based video browsing interface for PVR-enabled television systems | |
US8098261B2 (en) | Pillarboxing correction | |
US20100313166A1 (en) | Multimedia reproducing device and background image display method | |
AU2007345938A1 (en) | Method and system for video indexing and video synopsis | |
US20100057722A1 (en) | Image processing apparatus, method, and computer program product | |
WO2007080465A1 (en) | Apparatus, method and computer program product for generating a thumbnail representation of a video sequence | |
KR20070090751A (ko) | 화상 표시방법 및 동영상 재생장치 | |
WO1998034182A2 (en) | A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel | |
TW201119393A (en) | Method and apparatus for creating a zone of interest in a video display | |
JP2000350156A (ja) | 動画像情報の記憶方法及びこれを記録した記録媒体 | |
EP2286592B1 (en) | Signal processing device and method for tuning an audiovisual system to a viewer attention level. | |
JP2013206104A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
GB2482067A (en) | Combination video comprising synopsis video and trajectory video | |
EP0914638A2 (en) | A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel | |
Elliot | Multiple views of digital video | |
Ryall et al. | Temporal magic lens: Combined spatial and temporal query and presentation |