JP2008511186A - フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法 - Google Patents

フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法 Download PDF

Info

Publication number
JP2008511186A
JP2008511186A JP2006530021A JP2006530021A JP2008511186A JP 2008511186 A JP2008511186 A JP 2008511186A JP 2006530021 A JP2006530021 A JP 2006530021A JP 2006530021 A JP2006530021 A JP 2006530021A JP 2008511186 A JP2008511186 A JP 2008511186A
Authority
JP
Japan
Prior art keywords
audio
visual
video
visual object
highlight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006530021A
Other languages
English (en)
Inventor
ション、ジヨウ
ラドクリシュナン、レギュナータン
ディヴァカラン、アジェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2008511186A publication Critical patent/JP2008511186A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

方法は、フレームシーケンスを含むビデオにおいてハイライトセグメントを識別する。オーディオオブジェクトが検出されて、ビデオ中のオーディオイベントに関連するフレームが識別されるとともに、ビジュアルオブジェクトが検出されて、ビジュアルイベントに関連するフレームが識別される。選択されたビジュアルオブジェクトは関連するオーディオオブジェクトと照合されて、この選択されたビジュアルオブジェクトが関連するオーディオオブジェクトと一致する場合にのみ、候補ハイライトセグメントを識別するオーディオ−ビジュアルオブジェクトが形成される。候補ハイライトセグメントは低レベルの特徴を用いてさらに絞り込まれ、偽のハイライトセグメントが排除される。

Description

本発明は、ビデオの分析に関し、特にビデオにおけるハイライトセグメントの識別に関する。
ビデオにおけるイベントのインデックス付け及びハイライトの識別は、商業用途向けに盛んに研究されている。多くの研究者が、この領域におけるビジュアル、オーディオ及びテクスチャモダリティのそれぞれの役割を、特にスポーツビデオについて研究している。
ビジュアルモードの場合、1つの方法は、ビデオ信号に基づいてバットスイング特徴を抽出しようとする(T. Kawashima、K. Tateyama、T. Iijima、及びY. Aoki著「Indexing of baseball telecast for content-based video retrieval」(1998 International Conference on Image Processing, pp. 871-874, 1998))。別の方法は、サッカービデオを、支配的な色及び動き情報を用いて試合及び休憩セグメントに分割する(L. Xie、S.F. Chang、A. Divakaran、及びH. Sun著「Structure analysis of soccer video with hidden Markov models」(Proc. Intl. Conf. on Acoustic, Speech and Signal Processing, (ICASSP-2002), May 2002, Orlando, FL, USA)、P. Xu、L. Xie、S.F. Chang、A. Divakaran、A. Vetro、及びH. Sun著「Algorithms and system for segmentation and structure analysis in soccer video」(Proceedings of IEEE Conference on Multimedia and Expo, pp. 928-931, 2001))。Gong他はサッカー番組の構文解析を対象にした(Y. Gong、L.T. Sin、C.H. Chuan、H. Zhang、及びM. Sakauchi著「Automatic parsing of TV soccer programs」(IEEE International Conference on Multimedia Computing and Systems, pp. 167-174, 1995))。サッカー競技場、ボール、選手、及び動きベクトルを検出し追跡することによって、Gong他は、試合の9つの異なる位置、例えば、ミッドフィールド、競技場のトップ右コーナー等を区別することができた。Ekin他は、ビデオショットの検出及び分類に基づいてサッカービデオを分析する(A. Ekin及びA. M. Tekalp著「Automatic soccer video analysis and summarization」(Symp. Electronic Imaging: Science and Technology: Storage and Retrieval for Image and Video Databases IV, January 2003))。
オーディオモードの場合、Rui他は、指向性のオーディオテンプレートマッチングを用いて、野球ビデオ中のアナウンサーの興奮した声及び打球音を検出する(Y. Rui、A. Gupta、及びA. Acero著「Automatically extracting highlights for TV baseball programs」(Eighth ACM International Conference on Multimedia, pp. 105-115, 2000))。
テクスチャモードの場合、Babaguchi他は、クローズドキャプションストリームからキーワードを抽出することにより、イベントが起こる可能性が高いタイムスパンを探索する(N. Babaguchi、Y. Kawai、及びT. Kitahashi著「Event based indexing of broadcasted sports video by intermodal collaboration」(IEEE Transactions on Multimedia, vol. 4, no. 1, pp. 68-75, March 2002))。Babaguchi他の方法は、アメリカンフットボールビデオにおけるイベントのインデックス付けに応用されている。
スポーツビデオの内容は本質的にマルチモーダルであるため、多くの方法が様々な情報融合方式を用いて、モダリティの異なる情報を統合している。様々なマルチモーダルビデオインデックス付け技法に関するレビュー論文において、Snoek及びWorringは、多くの手法を、内容の分割に関して同時又は逐次に、分類方法に関して統計的又は知識ベースに、また処理サイクルに関して反復又は非反復にカテゴリー分けした(C. Snoek及びM. Worring著「Multimodal video indexing: A review of the state-of-the-art」(Technical Report 2001-20, Intelligent Sensory Information Systems Group, University of Amsterdam, 2001, Intelligent Sensory Information Systems Group, University of Amsterdam, 2001))。Snoek及びWorringのカテゴリー化法を適用すると、スポーツビデオ分析の融合方法は以下のように要約することができる。
同時又は逐次融合
Hanjalicは、様々なモダリティからの以下の要素、すなわち、フレーム遷移部において測定される全体的な動きアクティビティ、カット又は急激なショット変化の密度、及びオーディオトラックに含まれるエネルギーから成る関数を用いて観客の興奮をモデリングする(A. Hanjalic著「Generic approach to highlight detection in a sport video」(Proceedings of IEEE Intl' Conference on Image Processing, Sep. 2003, Special Session on Sports Video Analysis))。Hanjalicは、これら3つのパラメータに関する「興奮」関数をシンメトリックに、すなわち同時に導出する。一方、Chang他は主にオーディオ分析をスポーツの構文解析ツールとして用いた(Y.-L. Chang、W. Zeng、I. Kamel、及びR. Alonso著「Integrated image and speech analysis for content-based video indexing」(Proceedings of the IEEE Intl' Conf. Multimedia Computing and Systems, June 1996))。Chang他の目標は、アメリカンフットボールにおけるタッチダウンを検出することであった。フィルタバンクエネルギーの標準的なテンプレートマッチングを用いて、「タッチダウン」又は「ファンブル」というキーワードを見つけ出した。次に、無音割合(silence ratio)を用いて、歓声の間はレポーターの解説中よりも無音が少なくなると仮定して「歓声」を検出した。ビジュアルベースのラインマーカを用いて、オーディオ分析から得られた結果を検証した。
統計的又は知識ベースの融合
統計的な融合の場合、Huang他は、4つの異なる隠れマルコフモデル(HMM)ベースの方法、すなわち、オーディオ特徴とビジュアル特徴の直接連結、それぞれ単一のモダリティに対応するHMM分類尤度の積、順序付2段(ordered, two-stage)HMM、並びに広告ビデオ、バスケットボールビデオ、フットボールビデオ、ニュースビデオ、及び天気予報ビデオを区別するというタスクのために単一モダリティHMM間の関係を学習するニューラルネットワークを比較した(J. Huang、Z. Liu、Y. Wang、Y. Chen、及びE.K. Wong著「Integration of multimodal features for video scene classification based on HMM」(Proceedings of IEEE 3rd Workshop on Multimedia Signal Processing, Sep. 1999))。知識ベースの融合の場合、Rui他は、尤度の加重和を用いて、興奮した声の尤度と打球の尤度とを融合する(Y. Rui、A. Gupta、及びA. Acero著「Automatically extracting highlights for TV baseball programs」(Eighth ACM International Conference on Multimedia, pp. 105-115, 2000))。重み係数は、どの重み係数がより大きな重みを受けるかに関する事前知識から導出される。Nepal他は、エネルギー閾値を用いてオーディオ信号から、観衆の歓声に基づいてバスケットボールの「ゴール」を検出する。Nepal他はまた、動きベクトルを用いて動きベクトルの方向の変化を、またスコアテキストの検出に基づいて得点の変化を検出する(S. Nepal、U. Srinivasan、及びG. Reynolds著「Automatic detection of 'goal' segments in basketball videos」(Proceedings of the ACM Conf. on Multimedia, 2001))。
反復又は非反復融合
ほとんどの融合技法は非反復である。しかし、N. Babaguchi、Y. Kawai、及びT. Kitahashi著「Event based indexing of broadcasted sports video by intermodal collaboration」(IEEE Transactions on Multimedia, vol. 4, no. 1, pp. 68-75, March 2002)では、ビジュアルモダリティ及びクローズドキャプションモダリティを組み合わせて、反復方法で意味的なインデックス結果を生成する。この結果は、インデックスを使用してビジュアルモダリティを意味イベントの識別の発生時刻について探索する後処理段への入力となる。
従来技術のシステムのほとんどは、ハイライト抽出のために識別のスポーツに焦点を当てる。例えば、Rui他は野球、Nepal他はバスケットボール、Xie他、Xu他及びGong他はサッカーである。Hanjalicの研究は、スポーツに無関係とすることができる。しかし、Hanjalicの方法におけるオーディオ特徴及びビジュアル特徴は比較的低レベルにおけるものである。このことは、これらの特徴をスポーツハイライト等の意味的概念にマッピングすることを困難にする。このような「興奮」関数を試合内容全体に適用した場合、Hanjalicの方法の誤検出率(false alarms rate)は比較的高くなる。
以下の米国特許及び米国特許出願もまた、マルチメディアにおいて特徴を抽出してイベントを検出し、マルチメディアを要約する方法を記載している。Divakaran他により2000年3月6日付で出願された米国特許出願第09/518,937号「Method for Ordering Data Structures in Multimedia」、Divakaran他により2000年7月6日付で出願された米国特許出願第09/610,763号「Extraction of Semantic and Higher Level Features from Low level Features of Multimedia Content」、Divakaranに対して2004年2月24日付で発行された米国特許第6,697,523号「Video Summarization Using Motion and Color Descriptors」、米国特許第6,763,069号「Extraction of high level features from low level features of multimedia content」、Divakaran他により2001年4月27日付で出願された米国特許出願第09/845,009号「Method for Summarizing a Video Using Motion Descriptors」、Divakaran他により2003年6月30日付で出願された米国特許出願第10/610,467号「Method for Detecting Short Term Unusual Events in Videos」、並びにDivakaran他により2003年12月5日付で出願された米国特許出願第10/729,164号「Audio-visual Highlights Detection Using Hidden Markov Models」。これらは全て参照により本明細書中に援用される。
ほとんどの従来技術の方法は、誤りを生じやすい低レベルの特徴に基づくことに留意されたい。
本発明による方法では、ビデオからのオーディオ情報がオーディオオブジェクト検出にかけられてオーディオオブジェクトが得られる。同様に、ビデオ中のビジュアル情報がビジュアルオブジェクト検出にかけられてビジュアルオブジェクトが得られる。オーディオオブジェクト及びビジュアルオブジェクトを有する未知のビデオ内容の場合、本発明による方法は、識別の分類に属するオブジェクトがビデオ中にあるかどうかを検出する。この検出結果を用いて、ビデオを識別のジャンルとして分類する。次に、オーディオオブジェクト、ビジュアルオブジェクト、及びビデオジャンルを用いて、オブジェクトを互いに照合し、一致するオーディオ−ビジュアルオブジェクトがビデオ中の候補ハイライトセグメントのフレームを識別する。偽の候補ハイライトセグメントは、絞り込んだハイライト認識を用いて排除され、結果として、候補ハイライトセグメントのうち許容され選択されたものが実際のハイライトセグメントとして得られる。
図1は、本発明による、ビデオ10においてハイライトセグメント151を識別する方法100を示す。ビデオ10からのオーディオ情報101をオーディオオブジェクト検出110にかけてオーディオオブジェクト111を得る。同様に、ビデオのビジュアル情報102をビジュアルオブジェクト検出120にかけてビジュアルオブジェクト121を得る。オーディオオブジェクトは、連続オーディオセグメントを形成する連続したオーディオフレームシーケンスを示す。ビジュアルオブジェクトは、連続ビジュアルセグメントを形成するビデオフレームシーケンスを示す。
全てのビデオに対して1つの一般的枠組みという目標のために、本発明では、以下の処理戦略を用いる。オーディオオブジェクト111及びビジュアルオブジェクト121を有する未知のビデオ内容に対して、識別の分類に属するオブジェクトがビデオ内容中にあるかどうかを検出する。この検出結果により、ビデオジャンル131を分類130することが可能になる。ビデオジャンルは、識別のビデオジャンル、例えば、サッカー、ゴルフ、野球、フットボール、ホッケー、バスケットボール、テニス等を示す。
オーディオオブジェクト111とビジュアルオブジェクト121を照合140してオーディオ−ビジュアルオブジェクトを形成する。このオーディオ−ビジュアルオブジェクトは、本発明に従ってビデオ中のハイライトセグメント141の始まりと終わりを識別するために用いることができる。始まりはオーディオ−ビジュアルオブジェクトの最初のフレームであり、終わりはオーディオ−ビジュアルオブジェクトの最後のフレームである。
図7に示すように、オーディオオブジェクト111、ビジュアルオブジェクト121、及びビデオジャンル131を用いて、オーディオオブジェクトとビジュアルオブジェクトを互いに照合140し、候補ハイライトセグメント141のフレームを識別するオーディオ−ビジュアルオブジェクトを形成する。
本発明では、より詳細に後述するハイライトの絞り込み150を用いて偽の候補セグメントを排除する。この結果、許容される実際のハイライトセグメント151が得られる。利点として、ハイライトの絞り込み150は、ビデオの遥かに小さな部分のみに作用する。
オーディオイベントの検出
スポーツビデオのオーディオ情報は通常、解説者及び観客の反応を含む。例えば、ゴルフパットの前は完全な無音となり、パットが成功して入った後には大きな拍手が起こる。他のスポーツでは通常、得点チャンス又は得点イベントに続いて拍手と歓声が起こる。これらの反応は、試合のハイライトセグメントと関連づけることができ、オーディオオブジェクト111として用いることができる。拍手と歓声はオーディオオブジェクトの例である。なお、これらのオブジェクトは、ビデオの高レベルのオーディオ特徴に基づき、低レベルの特徴と違って意味論上の意味(semantic meaning)を有する。オーディオオブジェクトは、当該技術分野において知られているような、標準化されたMPEG−7記述子の形態であることができ、リアルタイムで検出することができる。
ビジュアルイベントの検出
従来技術の方法のように動きアクティビティパターン、カラーパターン若しくはカット密度パターン、又は他の低レベルの特徴を探索する代わりに、本発明では、識別のスポーツのハイライトイベントと大きく関連する識別のビジュアルオブジェクトを識別する。ビジュアルオブジェクトは意味論上の意味を有する。例えば野球ビデオにおいて、本発明では、しゃがんでピッチャーの投球を待つキャッチャーを検出する。ゴルフの試合の場合、本発明では、ゴルフボールをパッティングするために前屈みになる選手を検出する。サッカーの場合、本発明ではゴールポストを検出する。これらのビジュアルオブジェクトの正確な検出により、ハイライトセグメントに関連しないビデオの大部分が排除される。
ビジュアルオブジェクトの検出
本発明では、あらゆるタイプのビジュアルオブジェクトに適用することができるビジュアルオブジェクト検出プロセスを用いる(P. Viola及びM. Jones著「Robust real-time object detection」(Second International Workshop on Statistical and Computational Theories of Vision- Modeling, Learning, Computing and Sampling, July 2001)、並びにViola他により2002年7月22日付で出願された米国特許出願第10/200,464号「System and Method for Detecting Objects in Images」(参照により本明細書中に援用される))。
例えば、本発明では、野球ビデオについて以下の観察を行う。野球のピッチングの初めに、ビデオは、ボールを捕るためにしゃがんでいるキャッチャーの正面ビューを含む。図2は、これらの画像のいくつかの例210をキャッチャー220の切り抜きとともに示す。キャッチャーのいるポジの例と、キャッチャーのいないネガの例とを用いて、オブジェクト検出方法を訓練する。次に、学習したキャッチャーモデルを用いて、ビデオ内容中の全てのビデオフレームからキャッチャーオブジェクトを検出する。同様に、あらゆるオブジェクト(例えば、ネット、ゴール、バスケット等)を用いて、オブジェクト検出方法を教示することができる。ビデオフレーム中に識別のオブジェクトを検出した場合、このフレームに2進数の1を割り当て、そうでない場合、0を割り当てる。
本発明では、以下の技法を用いて、イベントの誤検出を排除する。候補ハイライトセグメントの全てのフレームについて、フレームの或る範囲、例えば現在のフレームの前後14フレームを見る。オブジェクトを含むフレーム数が所定の閾値を上回る場合、現在のフレームを有効なハイライトセグメントの一部として宣言する。そうでない場合、現在のフレームを無効なハイライトセグメントの中のフレームとして宣言する。閾値(例えばその範囲の全フレーム数の≒30%)を変えることによって、検出数をグランドトゥルース集合のそれと比較することができる。グランドトゥルース集合のフレームは手作業でマーキングする。
図3は適合率−再現率曲線301を示し、表Aは、本発明に従ってキャッチャーオブジェクトを検出した場合の詳細な結果を含む。
Figure 2008511186
もう1つの例として、本発明では、サッカービデオからの以下の2つの観察を利用する。ゴール、コーナーキック、ペナルティーキックといった興味深いプレーのほとんどについて、ゴールポストはほぼ常に視野に入っている。したがって、ゴールポストオブジェクトの検出により、興味深いプレーを高精度で検出することができる。
図4に示すように、本発明において検出する必要のあるゴールポストのビューとしては主に2つ、すなわち401及び402がある。この例示として、サッカー試合の放送用の典型的なカメラの設置を示す。1台のカメラ410が通常、競技場404の中央の片側に配置される。カメラは、競技場全体を前後左右にパンして、特別なターゲットにズームする。カメラ410とゴールポスト403との間の距離は、ゴール自体のサイズよりも遥かに大きいため、試合中におけるゴールポストの姿勢の変化は、カメラのパン又はズームに関係なくわずかである。サッカー競技場404の左側401又は右側402のゴールポスト403に対するこれら2つの典型的なビューを図4に示す。
競技場の右サイド510からのいくつかの例示的な画像とそのゴールポスト520の切り抜き、及び競技場の左サイド610からの画像とそのゴールポスト620の切り抜きをそれぞれ図5及び図6に示す。
オーディオ−ビジュアルオブジェクトの照合
図7に示すように、ビジュアルオブジェクトによって示されるフレームが、一致するオーディオオブジェクトによって示されるフレームと大幅に重なる、例えば重なり率が50%よりも高い場合、オーディオ−ビジュアルオブジェクトの始まりからオーディオ−ビジュアルオブジェクトの終わりまでによって示されるフレームにまたがる候補「ハイライト」セグメント141を識別するオーディオ−ビジュアルオブジェクトを形成する。
別法として、ビジュアルオブジェクトシーケンスと、最も近い後続のオーディオオブジェクトシーケンスとの間の持続時間が持続時間閾値、例えば野球試合からの訓練「ハイライト」セグメント集合の平均持続時間よりも短い場合、これら2つのシーケンスを関連づける。オブジェクトの順番は逆にしてもよいことに留意すべきである。例えば、ゴルフでは、パッティングをした後に拍手が起こり、サッカーでは、得点チャンスが到来している間の大きな歓声に続いてゴールショットが行われる場合がある。
関連づけされないオブジェクト701及び702、すなわち、一致させることができないオブジェクトに関連するフレーム及びどのオブジェクトにも関連しないフレームは廃棄する。
絞り込んだハイライトセグメントの分類
本発明による方法では、ビデオ内容に含まれるオーディオイベント及びビジュアルイベントに従ってスポーツビデオを候補「ハイライト」セグメント141に分割する。オーディオオブジェクト及びビジュアルオブジェクトによって区切られる候補ハイライトセグメントは極めて多様である。また、同様のオブジェクトが異なるイベントを識別する場合がある。さらに、候補セグメントのいくつかは真のハイライトセグメントではないかもしれない。例えば、ゴルフスイングとゴルフパットは同じオーディオオブジェクト(例えば観客の拍手及び歓声)及びビジュアルオブジェクト(例えばボールを打つために前屈みになるゴルファー)を共有する。これらの種類のゴルフハイライトイベントはともに、オーディオオブジェクト及びビジュアルオブジェクトの検出によって見つけることができる。「ゴルフのスイングのみ」又は「ゴルフパットのみ」といった識別のイベントを取り出すという作業を助けるために、本発明では、低レベルの視オーディオ特徴に基づくこれらのイベントのモデルを用いる。例えば、ゴルフの場合、本発明では、ゴルフスイング、ゴルフパット及び非ハイライトイベント(すなわちスイングでもパットでもないイベント)のモデルを構築し、これらのモデルをハイライトの分類(スイング又はパット)及び検証(ハイライト又は非ハイライト)に用いる。
オーディオオブジェクト及びビジュアルマーキング並びに関連づけステップの後に見つけた候補ハイライトセグメントを、絞り込み技法を用いてさらに分離させる。野球の場合、候補ハイライトセグメントには2つの主なカテゴリーがあり、そのうち第1のカテゴリーはバッターがボールを打たない「ボール又はストライク」であり、第2のカテゴリーはボールを打つ「打球」である。これら2つのカテゴリーは異なるカラーパターンを有する。第1のカテゴリーでは、カメラのビューがピッチシーンに固定されたままであるため、経時的な色分布の変動は比較的小さい。対照的に第2のカテゴリーでは、カメラがボール又はランナーを追うため、経時的な色分布の変動が比較的大きい。
本発明では、候補ハイライトセグメントの各々の全ビデオフレームからHSV色空間の色相成分を用いて16ビンのカラーヒストグラムを構築する。全候補ハイライトセグメントをL×16のサイズの行列によって表現し、ここでLはセグメントのフレーム数である。この行列を「カラーヒストグラム行列」と呼ぶ。このヒストグラムは「クリップ」レベルに基づいて構築する。クリップは、「ショット」、すなわちシャッターを開いてからシャッターを閉じるまでの間の連続するフレームシーケンスとしても知られる。本発明では以下のプロセスを用いて分類を絞り込む。
1.各カラーヒストグラム行列の各行について、「クリップレベル」の平均ベクトル及び「クリップレベル」の標準偏差(STD)ベクトルを求める。
2.例えばk平均クラスタリングを用いて、全ての候補ハイライトセグメントをその「クリップレベル」のSTDベクトルに基づいて2つのクラスタにクラスタリングする。
3.各クラスタについて、各カラーヒストグラムの各行にわたって「クラスタレベル」の平均ベクトル及び「クラスタレベル」のSTDベクトルを求める。
4.「クリップレベル」の平均ベクトルのカラービンの値が「クラスタレベル」の平均ベクトルの3δ範囲外にある場合(ここでδは、対応するカラービンにおける「クラスタレベル」のSTDベクトルのSTDである)、そのフレームを候補ハイライトセグメントから除去する。
本発明では高レベルのビジュアルオブジェクト(例えば、野球のキャッチャー)の検出を用いて、ビデオ中のビジュアルオブジェクトの位置を見つける。これに並行して、本発明では、高レベルのオーディオ分類を用いてビデオ中のオーディオオブジェクトの位置を見つける。次に、低レベルの色情報又は動き情報を用いて、候補ハイライトセグメントをより高解像度のセグメントにさらにグループ分けする。このグループ分け段階中に、誤って識別されたフレームの多くを排除することができる。この低レベルの特徴の処理は候補セグメントのフレームのみを検討することに留意すべきである。
本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行うことができることを理解すべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び修正をすべて網羅することである。
本発明による、ビデオからハイライトセグメントを識別する方法のブロック図である。 ビジュアルオブジェクトの例を示す図である。 図2のビジュアルオブジェクトの適合率−再現率グラフである。 サッカー試合用のビデオカメラの設置のブロック図である。 第1のビューのゴールポストオブジェクトの画像である。 第2のビューのゴールポストオブジェクトの画像である。 一致したオブジェクト及びハイライトセグメントのブロック図である。

Claims (11)

  1. フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法であって、
    前記ビデオ中のオーディオイベントに関連するフレームを識別するオーディオオブジェクトを検出すること、
    ビジュアルイベントに関連するフレームを識別するビジュアルオブジェクトを検出すること、
    選択されたビジュアルオブジェクトを関連するオーディオオブジェクトと照合すること、及び
    特定の選択されたビジュアルオブジェクトが特定の関連するオーディオオブジェクトと一致する場合にのみ、候補ハイライトセグメントを識別するオーディオ−ビジュアルオブジェクトを形成すること
    を含む、フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法。
  2. 前記ビジュアルオブジェクトを分類することによって、前記ビデオのジャンルを判定すること
    をさらに含む、請求項1に記載の方法。
  3. 前記一致することは前記ジャンルに基づく、請求項2に記載の方法。
  4. 前記ジャンルは、サッカー、ゴルフ、野球、フットボール、ホッケー、バスケットボール及びテニスから成る群から選択される、請求項2に記載の方法。
  5. 各オーディオオブジェクト及び各ビジュアルオブジェクトは意味論上の意味を有する、請求項1に記載の方法。
  6. 前記ビジュアルオブジェクト及び前記オーディオオブジェクトはリアルタイムで検出される、請求項1に記載の方法。
  7. 前記ビジュアルオブジェクトは、ゴールポスト、野球のキャッチャー、ゴルファー及びネットから成る群から選択される、請求項1に記載の方法。
  8. 前記一致するビジュアルオブジェクトとオーディオオブジェクトの前記フレームは、少なくとも50パーセント重なる、請求項1に記載の方法。
  9. 前記候補オーディオ−ビジュアルオブジェクトを絞り込むことによって、偽のオーディオ−ビジュアルオブジェクトを排除すること
    をさらに含む、請求項1に記載の方法。
  10. 前記一致するビジュアルオブジェクトとビジュアルオブジェクトは、所定の閾値よりも短い時間だけ分離している、請求項1に記載の方法。
  11. 前記絞り込むことは、前記ビデオの低レベルの特徴を検討する、請求項9に記載の方法。
JP2006530021A 2004-08-27 2005-08-22 フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法 Withdrawn JP2008511186A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/928,829 US20060059120A1 (en) 2004-08-27 2004-08-27 Identifying video highlights using audio-visual objects
PCT/JP2005/015586 WO2006022394A2 (en) 2004-08-27 2005-08-22 Method for identifying highlight segments in a video including a sequence of frames

Publications (1)

Publication Number Publication Date
JP2008511186A true JP2008511186A (ja) 2008-04-10

Family

ID=35115732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006530021A Withdrawn JP2008511186A (ja) 2004-08-27 2005-08-22 フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法

Country Status (4)

Country Link
US (1) US20060059120A1 (ja)
EP (1) EP1743265A2 (ja)
JP (1) JP2008511186A (ja)
WO (1) WO2006022394A2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101268693B1 (ko) 2010-02-22 2013-05-29 야후! 인크. 단문 메시지를 이용한 미디어 이벤트 구조 및 콘텍스트 식별
EP2921973A1 (en) 2014-03-17 2015-09-23 Fujitsu Limited Extraction method and device
EP2922060A1 (en) 2014-03-17 2015-09-23 Fujitsu Limited Extraction method and device
EP2922061A1 (en) 2014-03-17 2015-09-23 Fujitsu Limited Extraction method and device
JP2020088855A (ja) * 2018-11-16 2020-06-04 協栄精工株式会社 ゴルフダイジェスト作成システム、移動撮影ユニットおよびダイジェスト作成装置
JP2020129763A (ja) * 2019-02-08 2020-08-27 キヤノン株式会社 動画再生装置、動画再生方法及びプログラム

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742111B2 (en) * 2005-05-06 2010-06-22 Mavs Lab. Inc. Highlight detecting circuit and related method for audio feature-based highlight segment detection
US7831112B2 (en) * 2005-12-29 2010-11-09 Mavs Lab, Inc. Sports video retrieval method
US20070160123A1 (en) * 2006-01-11 2007-07-12 Gillespie Richard P System for isolating an object in a broadcast signal
US7584428B2 (en) * 2006-02-09 2009-09-01 Mavs Lab. Inc. Apparatus and method for detecting highlights of media stream
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US20080043144A1 (en) * 2006-08-21 2008-02-21 International Business Machines Corporation Multimodal identification and tracking of speakers in video
KR100803747B1 (ko) * 2006-08-23 2008-02-15 삼성전자주식회사 요약 클립 생성 시스템 및 이를 이용한 요약 클립 생성방법
US8668651B2 (en) 2006-12-05 2014-03-11 Covidien Lp ECG lead set and ECG adapter system
US7956893B2 (en) 2006-12-11 2011-06-07 Mavs Lab. Inc. Method of indexing last pitching shots in a video of a baseball game
US7559017B2 (en) 2006-12-22 2009-07-07 Google Inc. Annotation framework for video
WO2008122974A1 (en) * 2007-04-06 2008-10-16 Technion Research & Development Foundation Ltd. Method and apparatus for the use of cross modal association to isolate individual media sources
US8457768B2 (en) * 2007-06-04 2013-06-04 International Business Machines Corporation Crowd noise analysis
US8112702B2 (en) 2008-02-19 2012-02-07 Google Inc. Annotating video intervals
US8566353B2 (en) 2008-06-03 2013-10-22 Google Inc. Web-based system for collaborative generation of interactive videos
KR20110023878A (ko) * 2008-06-09 2011-03-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 방법 및 장치
WO2010006334A1 (en) 2008-07-11 2010-01-14 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8239359B2 (en) * 2008-09-23 2012-08-07 Disney Enterprises, Inc. System and method for visual search in a video media player
JP5326555B2 (ja) * 2008-12-25 2013-10-30 ソニー株式会社 情報処理装置、動画像切り出し方法および動画像切り出しプログラム
KR101644789B1 (ko) * 2009-04-10 2016-08-04 삼성전자주식회사 방송 프로그램 연관 정보 제공 장치 및 방법
RU2012120856A (ru) * 2009-10-27 2013-12-10 Шарп Кабусики Кайся Устройство отображения, способ управления для упомянутого устройства отображения, программа и машиночитаемый носитель записи с хранящейся на нем программой
US9311708B2 (en) 2014-04-23 2016-04-12 Microsoft Technology Licensing, Llc Collaborative alignment of images
US9413477B2 (en) 2010-05-10 2016-08-09 Microsoft Technology Licensing, Llc Screen detector
US9508011B2 (en) * 2010-05-10 2016-11-29 Videosurf, Inc. Video visual and audio query
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US8645485B1 (en) * 2012-01-30 2014-02-04 Google Inc. Social based aggregation of related media content
US9143742B1 (en) 2012-01-30 2015-09-22 Google Inc. Automated aggregation of related media content
US9536568B2 (en) 2013-03-15 2017-01-03 Samsung Electronics Co., Ltd. Display system with media processing mechanism and method of operation thereof
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
EP3096243A1 (en) * 2015-05-22 2016-11-23 Thomson Licensing Methods, systems and apparatus for automatic video query expansion
US10229324B2 (en) * 2015-12-24 2019-03-12 Intel Corporation Video summarization using semantic information
US10575036B2 (en) 2016-03-02 2020-02-25 Google Llc Providing an indication of highlights in a video content item
US10303984B2 (en) 2016-05-17 2019-05-28 Intel Corporation Visual search and retrieval using semantic information
WO2019067620A1 (en) 2017-09-29 2019-04-04 Zermatt Technologies Llc SPEECH REDUCTION AUDIO MIXING
US10445586B2 (en) 2017-12-12 2019-10-15 Microsoft Technology Licensing, Llc Deep learning on image frames to generate a summary
US11166051B1 (en) * 2018-08-31 2021-11-02 Amazon Technologies, Inc. Automatically generating content streams based on subscription criteria
KR20200062865A (ko) * 2018-11-27 2020-06-04 삼성전자주식회사 전자 장치 및 그 동작 방법
CN109743624B (zh) * 2018-12-14 2021-08-17 深圳壹账通智能科技有限公司 视频切割方法、装置、计算机设备和存储介质
GB2580937B (en) * 2019-01-31 2022-07-13 Sony Interactive Entertainment Europe Ltd Method and system for generating audio-visual content from video game footage
KR20200107758A (ko) 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
CN110769178B (zh) * 2019-12-25 2020-05-19 北京影谱科技股份有限公司 自动生成足球比赛射门集锦的方法、装置及设备及计算机可读存储介质
CN112087661B (zh) * 2020-08-25 2022-07-22 腾讯科技(上海)有限公司 视频集锦生成方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6160950A (en) * 1996-07-18 2000-12-12 Matsushita Electric Industrial Co., Ltd. Method and apparatus for automatically generating a digest of a program
US6262776B1 (en) * 1996-12-13 2001-07-17 Microsoft Corporation System and method for maintaining synchronization between audio and video
US7257589B1 (en) * 1997-12-22 2007-08-14 Ricoh Company, Ltd. Techniques for targeting information to users
US6763069B1 (en) * 2000-07-06 2004-07-13 Mitsubishi Electric Research Laboratories, Inc Extraction of high-level features from low-level features of multimedia content
US7548565B2 (en) * 2000-07-24 2009-06-16 Vmark, Inc. Method and apparatus for fast metadata generation, delivery and access for live broadcast program
US6697523B1 (en) * 2000-08-09 2004-02-24 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion and color descriptors
US20050228849A1 (en) * 2004-03-24 2005-10-13 Tong Zhang Intelligent key-frame extraction from a video

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101268693B1 (ko) 2010-02-22 2013-05-29 야후! 인크. 단문 메시지를 이용한 미디어 이벤트 구조 및 콘텍스트 식별
EP2921973A1 (en) 2014-03-17 2015-09-23 Fujitsu Limited Extraction method and device
EP2922060A1 (en) 2014-03-17 2015-09-23 Fujitsu Limited Extraction method and device
EP2922061A1 (en) 2014-03-17 2015-09-23 Fujitsu Limited Extraction method and device
JP2015177469A (ja) * 2014-03-17 2015-10-05 富士通株式会社 抽出プログラム、方法、及び装置
JP2015177471A (ja) * 2014-03-17 2015-10-05 富士通株式会社 抽出プログラム、方法、及び装置
US9508012B2 (en) 2014-03-17 2016-11-29 Fujitsu Limited Extraction method and device
US9892320B2 (en) 2014-03-17 2018-02-13 Fujitsu Limited Method of extracting attack scene from sports footage
JP2020088855A (ja) * 2018-11-16 2020-06-04 協栄精工株式会社 ゴルフダイジェスト作成システム、移動撮影ユニットおよびダイジェスト作成装置
JP2020129763A (ja) * 2019-02-08 2020-08-27 キヤノン株式会社 動画再生装置、動画再生方法及びプログラム
JP7218198B2 (ja) 2019-02-08 2023-02-06 キヤノン株式会社 動画再生装置、動画再生方法及びプログラム

Also Published As

Publication number Publication date
EP1743265A2 (en) 2007-01-17
WO2006022394A3 (en) 2006-11-16
WO2006022394A2 (en) 2006-03-02
US20060059120A1 (en) 2006-03-16

Similar Documents

Publication Publication Date Title
JP2008511186A (ja) フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法
Wang et al. Survey of sports video analysis: research issues and applications
Xiong et al. Highlights extraction from sports video based on an audio-visual marker detection framework
Xu et al. HMM-based audio keyword generation
Merler et al. Automatic curation of sports highlights using multimodal excitement features
Assfalg et al. Soccer highlights detection and recognition using HMMs
CN102073635B (zh) 节目端点时间检测装置和方法以及节目信息检索系统
Zhu et al. Player action recognition in broadcast tennis video with applications to semantic analysis of sports game
US20100005485A1 (en) Annotation of video footage and personalised video generation
Wu et al. A survey on video action recognition in sports: Datasets, methods and applications
CN105183849B (zh) 一种斯诺克比赛视频事件检测与语义标注方法
WO2006009521A1 (en) System and method for replay generation for broadcast video
Xiong et al. A unified framework for video summarization, browsing & retrieval: with applications to consumer and surveillance video
Xu et al. Event detection in basketball video using multiple modalities
Dahyot et al. Joint audio visual retrieval for tennis broadcasts
Ren et al. Football video segmentation based on video production strategy
Chu et al. Explicit semantic events detection and development of realistic applications for broadcasting baseball videos
Gade et al. Audio-visual classification of sports types
Lee et al. Soccer event recognition technique based on pattern matching
Tong et al. A unified framework for semantic shot representation of sports video
Kang et al. Soccer video event detection with visual keywords
Chu et al. Modeling spatiotemporal relationships between moving objects for event tactics analysis in tennis videos
Xiong Audio-visual sports highlights extraction using coupled hidden markov models
Choroś Categorization of sports video shots and scenes in tv sports news based on ball detection
Kolonias et al. Tracking the evolution of a tennis match using hidden Markov models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080707

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20101015