JP2008511186A

JP2008511186A - フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法

Info

Publication number: JP2008511186A
Application number: JP2006530021A
Authority: JP
Inventors: ション、ジヨウ; ラドクリシュナン、レギュナータン; ディヴァカラン、アジェイ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2004-08-27
Filing date: 2005-08-22
Publication date: 2008-04-10
Also published as: EP1743265A2; WO2006022394A3; WO2006022394A2; US20060059120A1

Abstract

方法は、フレームシーケンスを含むビデオにおいてハイライトセグメントを識別する。オーディオオブジェクトが検出されて、ビデオ中のオーディオイベントに関連するフレームが識別されるとともに、ビジュアルオブジェクトが検出されて、ビジュアルイベントに関連するフレームが識別される。選択されたビジュアルオブジェクトは関連するオーディオオブジェクトと照合されて、この選択されたビジュアルオブジェクトが関連するオーディオオブジェクトと一致する場合にのみ、候補ハイライトセグメントを識別するオーディオ−ビジュアルオブジェクトが形成される。候補ハイライトセグメントは低レベルの特徴を用いてさらに絞り込まれ、偽のハイライトセグメントが排除される。

Description

本発明は、ビデオの分析に関し、特にビデオにおけるハイライトセグメントの識別に関する。

ビデオにおけるイベントのインデックス付け及びハイライトの識別は、商業用途向けに盛んに研究されている。多くの研究者が、この領域におけるビジュアル、オーディオ及びテクスチャモダリティのそれぞれの役割を、特にスポーツビデオについて研究している。

ビジュアルモードの場合、１つの方法は、ビデオ信号に基づいてバットスイング特徴を抽出しようとする（T. Kawashima、K. Tateyama、T. Iijima、及びY. Aoki著「Indexing of baseball telecast for content-based video retrieval」（1998 International Conference on Image Processing, pp. 871-874, 1998））。別の方法は、サッカービデオを、支配的な色及び動き情報を用いて試合及び休憩セグメントに分割する（L. Xie、S.F. Chang、A. Divakaran、及びH. Sun著「Structure analysis of soccer video with hidden Markov models」（Proc. Intl. Conf. on Acoustic, Speech and Signal Processing, (ICASSP-2002), May 2002, Orlando, FL, USA）、P. Xu、L. Xie、S.F. Chang、A. Divakaran、A. Vetro、及びH. Sun著「Algorithms and system for segmentation and structure analysis in soccer video」（Proceedings of IEEE Conference on Multimedia and Expo, pp. 928-931, 2001））。Gong他はサッカー番組の構文解析を対象にした（Y. Gong、L.T. Sin、C.H. Chuan、H. Zhang、及びM. Sakauchi著「Automatic parsing of TV soccer programs」（IEEE International Conference on Multimedia Computing and Systems, pp. 167-174, 1995））。サッカー競技場、ボール、選手、及び動きベクトルを検出し追跡することによって、Gong他は、試合の９つの異なる位置、例えば、ミッドフィールド、競技場のトップ右コーナー等を区別することができた。Ekin他は、ビデオショットの検出及び分類に基づいてサッカービデオを分析する（A. Ekin及びA. M. Tekalp著「Automatic soccer video analysis and summarization」（Symp. Electronic Imaging: Science and Technology: Storage and Retrieval for Image and Video Databases IV, January 2003））。

オーディオモードの場合、Rui他は、指向性のオーディオテンプレートマッチングを用いて、野球ビデオ中のアナウンサーの興奮した声及び打球音を検出する（Y. Rui、A. Gupta、及びA. Acero著「Automatically extracting highlights for TV baseball programs」（Eighth ACM International Conference on Multimedia, pp. 105-115, 2000））。

テクスチャモードの場合、Babaguchi他は、クローズドキャプションストリームからキーワードを抽出することにより、イベントが起こる可能性が高いタイムスパンを探索する（N. Babaguchi、Y. Kawai、及びT. Kitahashi著「Event based indexing of broadcasted sports video by intermodal collaboration」（IEEE Transactions on Multimedia, vol. 4, no. 1, pp. 68-75, March 2002））。Babaguchi他の方法は、アメリカンフットボールビデオにおけるイベントのインデックス付けに応用されている。

スポーツビデオの内容は本質的にマルチモーダルであるため、多くの方法が様々な情報融合方式を用いて、モダリティの異なる情報を統合している。様々なマルチモーダルビデオインデックス付け技法に関するレビュー論文において、Snoek及びWorringは、多くの手法を、内容の分割に関して同時又は逐次に、分類方法に関して統計的又は知識ベースに、また処理サイクルに関して反復又は非反復にカテゴリー分けした（C. Snoek及びM. Worring著「Multimodal video indexing: A review of the state-of-the-art」（Technical Report 2001-20, Intelligent Sensory Information Systems Group, University of Amsterdam, 2001, Intelligent Sensory Information Systems Group, University of Amsterdam, 2001））。Snoek及びWorringのカテゴリー化法を適用すると、スポーツビデオ分析の融合方法は以下のように要約することができる。

同時又は逐次融合
Hanjalicは、様々なモダリティからの以下の要素、すなわち、フレーム遷移部において測定される全体的な動きアクティビティ、カット又は急激なショット変化の密度、及びオーディオトラックに含まれるエネルギーから成る関数を用いて観客の興奮をモデリングする（A. Hanjalic著「Generic approach to highlight detection in a sport video」（Proceedings of IEEE Intl' Conference on Image Processing, Sep. 2003, Special Session on Sports Video Analysis））。Hanjalicは、これら３つのパラメータに関する「興奮」関数をシンメトリックに、すなわち同時に導出する。一方、Chang他は主にオーディオ分析をスポーツの構文解析ツールとして用いた（Y.-L. Chang、W. Zeng、I. Kamel、及びR. Alonso著「Integrated image and speech analysis for content-based video indexing」（Proceedings of the IEEE Intl' Conf. Multimedia Computing and Systems, June 1996））。Chang他の目標は、アメリカンフットボールにおけるタッチダウンを検出することであった。フィルタバンクエネルギーの標準的なテンプレートマッチングを用いて、「タッチダウン」又は「ファンブル」というキーワードを見つけ出した。次に、無音割合（silence ratio）を用いて、歓声の間はレポーターの解説中よりも無音が少なくなると仮定して「歓声」を検出した。ビジュアルベースのラインマーカを用いて、オーディオ分析から得られた結果を検証した。

統計的又は知識ベースの融合
統計的な融合の場合、Huang他は、４つの異なる隠れマルコフモデル（ＨＭＭ）ベースの方法、すなわち、オーディオ特徴とビジュアル特徴の直接連結、それぞれ単一のモダリティに対応するＨＭＭ分類尤度の積、順序付２段（ordered, two-stage）ＨＭＭ、並びに広告ビデオ、バスケットボールビデオ、フットボールビデオ、ニュースビデオ、及び天気予報ビデオを区別するというタスクのために単一モダリティＨＭＭ間の関係を学習するニューラルネットワークを比較した（J. Huang、Z. Liu、Y. Wang、Y. Chen、及びE.K. Wong著「Integration of multimodal features for video scene classification based on HMM」（Proceedings of IEEE 3rd Workshop on Multimedia Signal Processing, Sep. 1999））。知識ベースの融合の場合、Rui他は、尤度の加重和を用いて、興奮した声の尤度と打球の尤度とを融合する（Y. Rui、A. Gupta、及びA. Acero著「Automatically extracting highlights for TV baseball programs」（Eighth ACM International Conference on Multimedia, pp. 105-115, 2000））。重み係数は、どの重み係数がより大きな重みを受けるかに関する事前知識から導出される。Nepal他は、エネルギー閾値を用いてオーディオ信号から、観衆の歓声に基づいてバスケットボールの「ゴール」を検出する。Nepal他はまた、動きベクトルを用いて動きベクトルの方向の変化を、またスコアテキストの検出に基づいて得点の変化を検出する（S. Nepal、U. Srinivasan、及びG. Reynolds著「Automatic detection of 'goal' segments in basketball videos」（Proceedings of the ACM Conf. on Multimedia, 2001））。

反復又は非反復融合
ほとんどの融合技法は非反復である。しかし、N. Babaguchi、Y. Kawai、及びT. Kitahashi著「Event based indexing of broadcasted sports video by intermodal collaboration」（IEEE Transactions on Multimedia, vol. 4, no. 1, pp. 68-75, March 2002）では、ビジュアルモダリティ及びクローズドキャプションモダリティを組み合わせて、反復方法で意味的なインデックス結果を生成する。この結果は、インデックスを使用してビジュアルモダリティを意味イベントの識別の発生時刻について探索する後処理段への入力となる。

従来技術のシステムのほとんどは、ハイライト抽出のために識別のスポーツに焦点を当てる。例えば、Rui他は野球、Nepal他はバスケットボール、Xie他、Xu他及びGong他はサッカーである。Hanjalicの研究は、スポーツに無関係とすることができる。しかし、Hanjalicの方法におけるオーディオ特徴及びビジュアル特徴は比較的低レベルにおけるものである。このことは、これらの特徴をスポーツハイライト等の意味的概念にマッピングすることを困難にする。このような「興奮」関数を試合内容全体に適用した場合、Hanjalicの方法の誤検出率（false alarms rate）は比較的高くなる。

以下の米国特許及び米国特許出願もまた、マルチメディアにおいて特徴を抽出してイベントを検出し、マルチメディアを要約する方法を記載している。Divakaran他により２０００年３月６日付で出願された米国特許出願第０９／５１８，９３７号「Method for Ordering Data Structures in Multimedia」、Divakaran他により２０００年７月６日付で出願された米国特許出願第０９／６１０，７６３号「Extraction of Semantic and Higher Level Features from Low level Features of Multimedia Content」、Divakaranに対して２００４年２月２４日付で発行された米国特許第６，６９７，５２３号「Video Summarization Using Motion and Color Descriptors」、米国特許第６，７６３，０６９号「Extraction of high level features from low level features of multimedia content」、Divakaran他により２００１年４月２７日付で出願された米国特許出願第０９／８４５，００９号「Method for Summarizing a Video Using Motion Descriptors」、Divakaran他により２００３年６月３０日付で出願された米国特許出願第１０／６１０，４６７号「Method for Detecting Short Term Unusual Events in Videos」、並びにDivakaran他により２００３年１２月５日付で出願された米国特許出願第１０／７２９，１６４号「Audio-visual Highlights Detection Using Hidden Markov Models」。これらは全て参照により本明細書中に援用される。

ほとんどの従来技術の方法は、誤りを生じやすい低レベルの特徴に基づくことに留意されたい。

本発明による方法では、ビデオからのオーディオ情報がオーディオオブジェクト検出にかけられてオーディオオブジェクトが得られる。同様に、ビデオ中のビジュアル情報がビジュアルオブジェクト検出にかけられてビジュアルオブジェクトが得られる。オーディオオブジェクト及びビジュアルオブジェクトを有する未知のビデオ内容の場合、本発明による方法は、識別の分類に属するオブジェクトがビデオ中にあるかどうかを検出する。この検出結果を用いて、ビデオを識別のジャンルとして分類する。次に、オーディオオブジェクト、ビジュアルオブジェクト、及びビデオジャンルを用いて、オブジェクトを互いに照合し、一致するオーディオ−ビジュアルオブジェクトがビデオ中の候補ハイライトセグメントのフレームを識別する。偽の候補ハイライトセグメントは、絞り込んだハイライト認識を用いて排除され、結果として、候補ハイライトセグメントのうち許容され選択されたものが実際のハイライトセグメントとして得られる。

図１は、本発明による、ビデオ１０においてハイライトセグメント１５１を識別する方法１００を示す。ビデオ１０からのオーディオ情報１０１をオーディオオブジェクト検出１１０にかけてオーディオオブジェクト１１１を得る。同様に、ビデオのビジュアル情報１０２をビジュアルオブジェクト検出１２０にかけてビジュアルオブジェクト１２１を得る。オーディオオブジェクトは、連続オーディオセグメントを形成する連続したオーディオフレームシーケンスを示す。ビジュアルオブジェクトは、連続ビジュアルセグメントを形成するビデオフレームシーケンスを示す。

全てのビデオに対して１つの一般的枠組みという目標のために、本発明では、以下の処理戦略を用いる。オーディオオブジェクト１１１及びビジュアルオブジェクト１２１を有する未知のビデオ内容に対して、識別の分類に属するオブジェクトがビデオ内容中にあるかどうかを検出する。この検出結果により、ビデオジャンル１３１を分類１３０することが可能になる。ビデオジャンルは、識別のビデオジャンル、例えば、サッカー、ゴルフ、野球、フットボール、ホッケー、バスケットボール、テニス等を示す。

オーディオオブジェクト１１１とビジュアルオブジェクト１２１を照合１４０してオーディオ−ビジュアルオブジェクトを形成する。このオーディオ−ビジュアルオブジェクトは、本発明に従ってビデオ中のハイライトセグメント１４１の始まりと終わりを識別するために用いることができる。始まりはオーディオ−ビジュアルオブジェクトの最初のフレームであり、終わりはオーディオ−ビジュアルオブジェクトの最後のフレームである。

図７に示すように、オーディオオブジェクト１１１、ビジュアルオブジェクト１２１、及びビデオジャンル１３１を用いて、オーディオオブジェクトとビジュアルオブジェクトを互いに照合１４０し、候補ハイライトセグメント１４１のフレームを識別するオーディオ−ビジュアルオブジェクトを形成する。

本発明では、より詳細に後述するハイライトの絞り込み１５０を用いて偽の候補セグメントを排除する。この結果、許容される実際のハイライトセグメント１５１が得られる。利点として、ハイライトの絞り込み１５０は、ビデオの遥かに小さな部分のみに作用する。

オーディオイベントの検出
スポーツビデオのオーディオ情報は通常、解説者及び観客の反応を含む。例えば、ゴルフパットの前は完全な無音となり、パットが成功して入った後には大きな拍手が起こる。他のスポーツでは通常、得点チャンス又は得点イベントに続いて拍手と歓声が起こる。これらの反応は、試合のハイライトセグメントと関連づけることができ、オーディオオブジェクト１１１として用いることができる。拍手と歓声はオーディオオブジェクトの例である。なお、これらのオブジェクトは、ビデオの高レベルのオーディオ特徴に基づき、低レベルの特徴と違って意味論上の意味（semantic meaning）を有する。オーディオオブジェクトは、当該技術分野において知られているような、標準化されたＭＰＥＧ−７記述子の形態であることができ、リアルタイムで検出することができる。

ビジュアルイベントの検出
従来技術の方法のように動きアクティビティパターン、カラーパターン若しくはカット密度パターン、又は他の低レベルの特徴を探索する代わりに、本発明では、識別のスポーツのハイライトイベントと大きく関連する識別のビジュアルオブジェクトを識別する。ビジュアルオブジェクトは意味論上の意味を有する。例えば野球ビデオにおいて、本発明では、しゃがんでピッチャーの投球を待つキャッチャーを検出する。ゴルフの試合の場合、本発明では、ゴルフボールをパッティングするために前屈みになる選手を検出する。サッカーの場合、本発明ではゴールポストを検出する。これらのビジュアルオブジェクトの正確な検出により、ハイライトセグメントに関連しないビデオの大部分が排除される。

ビジュアルオブジェクトの検出
本発明では、あらゆるタイプのビジュアルオブジェクトに適用することができるビジュアルオブジェクト検出プロセスを用いる（P. Viola及びM. Jones著「Robust real-time object detection」(Second International Workshop on Statistical and Computational Theories of Vision- Modeling, Learning, Computing and Sampling, July 2001）、並びにViola他により２００２年７月２２日付で出願された米国特許出願第１０／２００，４６４号「System and Method for Detecting Objects in Images」（参照により本明細書中に援用される））。

例えば、本発明では、野球ビデオについて以下の観察を行う。野球のピッチングの初めに、ビデオは、ボールを捕るためにしゃがんでいるキャッチャーの正面ビューを含む。図２は、これらの画像のいくつかの例２１０をキャッチャー２２０の切り抜きとともに示す。キャッチャーのいるポジの例と、キャッチャーのいないネガの例とを用いて、オブジェクト検出方法を訓練する。次に、学習したキャッチャーモデルを用いて、ビデオ内容中の全てのビデオフレームからキャッチャーオブジェクトを検出する。同様に、あらゆるオブジェクト（例えば、ネット、ゴール、バスケット等）を用いて、オブジェクト検出方法を教示することができる。ビデオフレーム中に識別のオブジェクトを検出した場合、このフレームに２進数の１を割り当て、そうでない場合、０を割り当てる。

本発明では、以下の技法を用いて、イベントの誤検出を排除する。候補ハイライトセグメントの全てのフレームについて、フレームの或る範囲、例えば現在のフレームの前後１４フレームを見る。オブジェクトを含むフレーム数が所定の閾値を上回る場合、現在のフレームを有効なハイライトセグメントの一部として宣言する。そうでない場合、現在のフレームを無効なハイライトセグメントの中のフレームとして宣言する。閾値（例えばその範囲の全フレーム数の≒３０％）を変えることによって、検出数をグランドトゥルース集合のそれと比較することができる。グランドトゥルース集合のフレームは手作業でマーキングする。

図３は適合率−再現率曲線３０１を示し、表Ａは、本発明に従ってキャッチャーオブジェクトを検出した場合の詳細な結果を含む。

もう１つの例として、本発明では、サッカービデオからの以下の２つの観察を利用する。ゴール、コーナーキック、ペナルティーキックといった興味深いプレーのほとんどについて、ゴールポストはほぼ常に視野に入っている。したがって、ゴールポストオブジェクトの検出により、興味深いプレーを高精度で検出することができる。

図４に示すように、本発明において検出する必要のあるゴールポストのビューとしては主に２つ、すなわち４０１及び４０２がある。この例示として、サッカー試合の放送用の典型的なカメラの設置を示す。１台のカメラ４１０が通常、競技場４０４の中央の片側に配置される。カメラは、競技場全体を前後左右にパンして、特別なターゲットにズームする。カメラ４１０とゴールポスト４０３との間の距離は、ゴール自体のサイズよりも遥かに大きいため、試合中におけるゴールポストの姿勢の変化は、カメラのパン又はズームに関係なくわずかである。サッカー競技場４０４の左側４０１又は右側４０２のゴールポスト４０３に対するこれら２つの典型的なビューを図４に示す。

競技場の右サイド５１０からのいくつかの例示的な画像とそのゴールポスト５２０の切り抜き、及び競技場の左サイド６１０からの画像とそのゴールポスト６２０の切り抜きをそれぞれ図５及び図６に示す。

オーディオ−ビジュアルオブジェクトの照合
図７に示すように、ビジュアルオブジェクトによって示されるフレームが、一致するオーディオオブジェクトによって示されるフレームと大幅に重なる、例えば重なり率が５０％よりも高い場合、オーディオ−ビジュアルオブジェクトの始まりからオーディオ−ビジュアルオブジェクトの終わりまでによって示されるフレームにまたがる候補「ハイライト」セグメント１４１を識別するオーディオ−ビジュアルオブジェクトを形成する。

別法として、ビジュアルオブジェクトシーケンスと、最も近い後続のオーディオオブジェクトシーケンスとの間の持続時間が持続時間閾値、例えば野球試合からの訓練「ハイライト」セグメント集合の平均持続時間よりも短い場合、これら２つのシーケンスを関連づける。オブジェクトの順番は逆にしてもよいことに留意すべきである。例えば、ゴルフでは、パッティングをした後に拍手が起こり、サッカーでは、得点チャンスが到来している間の大きな歓声に続いてゴールショットが行われる場合がある。

関連づけされないオブジェクト７０１及び７０２、すなわち、一致させることができないオブジェクトに関連するフレーム及びどのオブジェクトにも関連しないフレームは廃棄する。

絞り込んだハイライトセグメントの分類
本発明による方法では、ビデオ内容に含まれるオーディオイベント及びビジュアルイベントに従ってスポーツビデオを候補「ハイライト」セグメント１４１に分割する。オーディオオブジェクト及びビジュアルオブジェクトによって区切られる候補ハイライトセグメントは極めて多様である。また、同様のオブジェクトが異なるイベントを識別する場合がある。さらに、候補セグメントのいくつかは真のハイライトセグメントではないかもしれない。例えば、ゴルフスイングとゴルフパットは同じオーディオオブジェクト（例えば観客の拍手及び歓声）及びビジュアルオブジェクト（例えばボールを打つために前屈みになるゴルファー）を共有する。これらの種類のゴルフハイライトイベントはともに、オーディオオブジェクト及びビジュアルオブジェクトの検出によって見つけることができる。「ゴルフのスイングのみ」又は「ゴルフパットのみ」といった識別のイベントを取り出すという作業を助けるために、本発明では、低レベルの視オーディオ特徴に基づくこれらのイベントのモデルを用いる。例えば、ゴルフの場合、本発明では、ゴルフスイング、ゴルフパット及び非ハイライトイベント（すなわちスイングでもパットでもないイベント）のモデルを構築し、これらのモデルをハイライトの分類（スイング又はパット）及び検証（ハイライト又は非ハイライト）に用いる。

オーディオオブジェクト及びビジュアルマーキング並びに関連づけステップの後に見つけた候補ハイライトセグメントを、絞り込み技法を用いてさらに分離させる。野球の場合、候補ハイライトセグメントには２つの主なカテゴリーがあり、そのうち第１のカテゴリーはバッターがボールを打たない「ボール又はストライク」であり、第２のカテゴリーはボールを打つ「打球」である。これら２つのカテゴリーは異なるカラーパターンを有する。第１のカテゴリーでは、カメラのビューがピッチシーンに固定されたままであるため、経時的な色分布の変動は比較的小さい。対照的に第２のカテゴリーでは、カメラがボール又はランナーを追うため、経時的な色分布の変動が比較的大きい。

本発明では、候補ハイライトセグメントの各々の全ビデオフレームからＨＳＶ色空間の色相成分を用いて１６ビンのカラーヒストグラムを構築する。全候補ハイライトセグメントをＬ×１６のサイズの行列によって表現し、ここでＬはセグメントのフレーム数である。この行列を「カラーヒストグラム行列」と呼ぶ。このヒストグラムは「クリップ」レベルに基づいて構築する。クリップは、「ショット」、すなわちシャッターを開いてからシャッターを閉じるまでの間の連続するフレームシーケンスとしても知られる。本発明では以下のプロセスを用いて分類を絞り込む。

１．各カラーヒストグラム行列の各行について、「クリップレベル」の平均ベクトル及び「クリップレベル」の標準偏差（ＳＴＤ）ベクトルを求める。
２．例えばｋ平均クラスタリングを用いて、全ての候補ハイライトセグメントをその「クリップレベル」のＳＴＤベクトルに基づいて２つのクラスタにクラスタリングする。
３．各クラスタについて、各カラーヒストグラムの各行にわたって「クラスタレベル」の平均ベクトル及び「クラスタレベル」のＳＴＤベクトルを求める。
４．「クリップレベル」の平均ベクトルのカラービンの値が「クラスタレベル」の平均ベクトルの３δ範囲外にある場合（ここでδは、対応するカラービンにおける「クラスタレベル」のＳＴＤベクトルのＳＴＤである）、そのフレームを候補ハイライトセグメントから除去する。

本発明では高レベルのビジュアルオブジェクト（例えば、野球のキャッチャー）の検出を用いて、ビデオ中のビジュアルオブジェクトの位置を見つける。これに並行して、本発明では、高レベルのオーディオ分類を用いてビデオ中のオーディオオブジェクトの位置を見つける。次に、低レベルの色情報又は動き情報を用いて、候補ハイライトセグメントをより高解像度のセグメントにさらにグループ分けする。このグループ分け段階中に、誤って識別されたフレームの多くを排除することができる。この低レベルの特徴の処理は候補セグメントのフレームのみを検討することに留意すべきである。

本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行うことができることを理解すべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び修正をすべて網羅することである。

本発明による、ビデオからハイライトセグメントを識別する方法のブロック図である。ビジュアルオブジェクトの例を示す図である。図２のビジュアルオブジェクトの適合率−再現率グラフである。サッカー試合用のビデオカメラの設置のブロック図である。第１のビューのゴールポストオブジェクトの画像である。第２のビューのゴールポストオブジェクトの画像である。一致したオブジェクト及びハイライトセグメントのブロック図である。

Claims

フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法であって、
前記ビデオ中のオーディオイベントに関連するフレームを識別するオーディオオブジェクトを検出すること、
ビジュアルイベントに関連するフレームを識別するビジュアルオブジェクトを検出すること、
選択されたビジュアルオブジェクトを関連するオーディオオブジェクトと照合すること、及び
特定の選択されたビジュアルオブジェクトが特定の関連するオーディオオブジェクトと一致する場合にのみ、候補ハイライトセグメントを識別するオーディオ−ビジュアルオブジェクトを形成すること
を含む、フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法。
前記ビジュアルオブジェクトを分類することによって、前記ビデオのジャンルを判定すること
をさらに含む、請求項１に記載の方法。
前記一致することは前記ジャンルに基づく、請求項２に記載の方法。
前記ジャンルは、サッカー、ゴルフ、野球、フットボール、ホッケー、バスケットボール及びテニスから成る群から選択される、請求項２に記載の方法。
各オーディオオブジェクト及び各ビジュアルオブジェクトは意味論上の意味を有する、請求項１に記載の方法。
前記ビジュアルオブジェクト及び前記オーディオオブジェクトはリアルタイムで検出される、請求項１に記載の方法。
前記ビジュアルオブジェクトは、ゴールポスト、野球のキャッチャー、ゴルファー及びネットから成る群から選択される、請求項１に記載の方法。
前記一致するビジュアルオブジェクトとオーディオオブジェクトの前記フレームは、少なくとも５０パーセント重なる、請求項１に記載の方法。
前記候補オーディオ−ビジュアルオブジェクトを絞り込むことによって、偽のオーディオ−ビジュアルオブジェクトを排除すること
をさらに含む、請求項１に記載の方法。
前記一致するビジュアルオブジェクトとビジュアルオブジェクトは、所定の閾値よりも短い時間だけ分離している、請求項１に記載の方法。
前記絞り込むことは、前記ビデオの低レベルの特徴を検討する、請求項９に記載の方法。