JP2004509529A - How to use visual cues to highlight important information in video programs - Google Patents

How to use visual cues to highlight important information in video programs Download PDF

Info

Publication number
JP2004509529A
JP2004509529A JP2002527199A JP2002527199A JP2004509529A JP 2004509529 A JP2004509529 A JP 2004509529A JP 2002527199 A JP2002527199 A JP 2002527199A JP 2002527199 A JP2002527199 A JP 2002527199A JP 2004509529 A JP2004509529 A JP 2004509529A
Authority
JP
Japan
Prior art keywords
video clip
cues
preselected
frame
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002527199A
Other languages
Japanese (ja)
Inventor
アブデル−モッタレブ,モハメド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004509529A publication Critical patent/JP2004509529A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

サッカーの試合のようなスポーツイベントのビデオクリップにおける重要な進展をハイライトするための方法は、ビデオクリップの低レベルな特徴より与えられる手がかりから進展を推測することによる。本方法は、予め選択された可視的若しくは音声の手がかりを有するビデオクリップにおけるフレームのシーケンスを検出する。手がかりを有する各シーケンスにおけるフレーム数は、所定の閾値と比較される。フレーム数が所定の閾値以上の場合には、重要な進展が、当該閾値を満足するフォーマットシーケンスの直前のフレームにおいて宣言される。A way to highlight significant progress in video clips of sporting events, such as soccer games, is by inferring progress from clues provided by low-level features of the video clips. The method detects a sequence of frames in a video clip having preselected visual or audio cues. The number of frames in each sequence having a clue is compared to a predetermined threshold. If the number of frames is greater than or equal to a predetermined threshold, significant progress is declared in the frame immediately before the format sequence that satisfies the threshold.

Description

【0001】
本発明は、コンテンツベースのビデオ抽出及び検索に係り、より詳細には、スポーツイベントのビデオクリップにおける重要情報若しくは進展(デベロップメント)を自動的に特定する方法に関する。
【0002】
多くのビデオアプリケーションは、ある重要なクリップを見出すために大量のビデオ題材を検索することを可能とする検索方法を必要とする。かかるアプリケーションは、例えばインターアクティブ(対話方式)TV及び従量料金制のシステムを含んでよい。インターアクティブTV及び従量料金制のシステムを使用する顧客は、借りる前にプログラムの部分を見たいと思う。ビデオブラウザは、顧客が興味のあるプログラムを見出すことを可能とする。
【0003】
コンテンツベースのビデオ抽出及び検索における大部分の作業は、色、テクスチャ、形状及びカメラ移動のような低レベルの特徴に基づく。低レベルの特徴は、あるアプリケーションに対しては有用であるが、他の多くの興味深いアプリケーションは、より高いレベルの意味のある情報を必要とする。低レベルの特徴と高レベルの意味のある情報との間のギャップを埋めることは容易でない。たいていの場合、高レベルの意味のある情報が必要とされるとき、キーワードを用いた人手による注釈が通常的に用いられる。
【0004】
ビデオアーカイビング(記録保管)及び抽出のための重要なアプリケーションの1つは、サッカー、フットボール等のようなスポーツに対するものである。従って、低レベルの特徴を用いて高レベルの情報を自動的に抽出できる方法が必要とされている。
【0005】
本発明は、特にサッカーの試合のようなスポーツイベントのビデオクリップにおける重要な進展を自動的に特定する方法に向けられる。本方法は、
直前に先行するビデオクリップのフレームが重要な進展を有しうることを示す、予め選択された手がかりを有するビデオクリップのフレームシーケンスを検出し;
所定の閾値と、上記手がかりを有するフレームシーケンスにおけるフレーム数とを比較し;
上記シーケンスにおけるフレーム数が上記閾値以上である場合に、該フレームシーケンスを直前に先行するフレームにおいて重要な進展があると判断することを含む。
【0006】
本方法は、更に、シーケンスの各フレームの画像における低レベルの特徴から予め選択された手がかりを取得することを含む。かかる実施例では、予め選択された手がかりは、カメラの照準の変化に基づく。より詳細には、重要な進展がビデオクリップにおいて発生したとき、カメラは、典型的には、観衆若しくは選手に焦点を合わせられるので、重要な進展を備えたフレームの直後に後続するフレームのシーケンスの画像は、芝領域をほとんど若しくは一切有していない。
【0007】
本発明の効果、特性、及び種々の付加的特徴は、添付図面との関連において以下で詳細に説明される模範的実施例を考慮することにより、より明らかになるだろう。
【0008】
本発明の方法は、コンテンツに基づく(コンテンツベースの)抽出及び検索の促進を達成すべく、低レベルの特徴を用いてビデオ若しくは複数の画像から高レベルの情報を抽出する。これは、特定の対象ドメインを特定すると共に、当該ドメインに固有の知識を用いることによって、低レベルの特徴に基づいて高レベルの情報を自動的に抽出する本発明によって達成される。本発明に対する一の特に有用なアプリケーションは、サッカーの試合及びフットボールゲーム等を含むスポーツイベントのビデオクリップにおける重要な進展のセグメントを強調表示(ハイライト)する際である。かかるビデオクリップは、典型的には、ビデオ、音声、文字情報(クローズ−キャプション)を含む。
【0009】
本発明の方法は、ビデオクリップの低レベルの特徴及び文字情報から与えられる一若しくはそれ以上の手がかりから進展を推測することによって、当該ビデオクリップにおける重要な進展を強調表示する。より詳細には、本方法は、予め選択されている可視、可聴、及び/又は文字(クローズ−キャプション)の手がかりを有したビデオクリップにおけるフレームのシーケンスを検出する。次いで、手がかりを有する各シーケンスにおけるフレーム数は、所定の閾値と比較される。シーケンスにおけるフレーム数が上記閾値以上の場合、重要な進展は、手がかりを備えた閾値を満足するフレームシーケンスを直前に先行するフレームにおいて宣言される。
【0010】
スポーツイベントのビデオクリップにおける重要な進展は、典型的には、カメラの関心の的における変化に関連する可視的な手がかりにより特徴付けられることが、見出された。例えば、重要な進展がサッカーの試合のようなスポーツイベントで発生したあと、ビデオカメラは、通常的には、選手若しくはスタジアムの観衆に焦点を合わせられる。カメラが選手若しくはスタジアムの観衆に照準されたとき、競技場の芝は、ほとんど若しくは一切カメラの視野内で見ることができない。
【0011】
カメラの関心の的の変化を用いて、本発明の方法は、競技場の芝領域をほとんど若しくは一切有しない画像を備えたビデオクリップにおけるフレームのシーケンスを検出する。各シーケンスにおけるフレーム数は、所定の閾値と比較される。シーケンスにおけるフレーム数が上記閾値以上の場合、重要な進展は、芝領域をほとんど若しくは一切有しない閾値を満足するフレームシーケンスを、直前に先行するフレームにおいて宣言される。閾値は、競技場の芝領域をほとんど若しくは一切有しないシーケンスにおけるフレーム数が十分でない場合、カメラが選手若しくはスタジアムに照準を合わせていなければならない、という想定に基づいている。結果的に、当該フレームのシーケンスに直前で先行するフレームは、サッカーの試合の場合の得点時のような重要な進展を含むと考えられる。
【0012】
図1は、サッカーの試合のビデオクリップにおける重要イベントのセグメントを強調表示するのに適用する場合における、本発明の方法を実現するためのアルゴリズムの模範的実施例の概要を示すフローチャートである。本アルゴリズムは、ステップS1において芝領域がほとんど若しくは一切ないビデオクリップにおけるフレームのシーケンスを検出する。ステップS2において、上記シーケンスにおけるフレーム数が所定の閾値より大きい場合、ステップS3において、重要な進展が、ビデオクリップにおけるフレームの先のセットにおいて宣言される。
【0013】
検出ステップS1において、本アルゴリズムは、芝に類似する色を有する緑の領域を検出する。本アルゴリズムは、フレーム内の芝領域が特定可能なように、各フレームの他の色から緑色を見分けるように訓練される。これは、一若しくはそれ以上のサッカーの試合から、若しくは、ビデオクリップにおけるサッカーの試合から抽出されている芝領域の画像訓練セットからのパッチを用いて実現される。本アルゴリズムは、上記パッチから、芝領域を如何にして緑色の値に変換するかを学習する。ビデオクリップのフレームにおける画像が与えられる場合、訓練は、フレーム中の所与のピクセルが芝であるか否かを判断するために用いられる。
【0014】
本アルゴリズムは、訓練用パッチにおける各ピクセルに対して赤及び緑の正規化された色(r、g)を算出し、クラス芝に対する正規化ヒストグラムを得ることによって訓練される。ここで、r=R/(R+G+B)、g=G/(R+G+B)である。画像のカラーヒストグラムは、赤、緑、青のような色空間を離散的な画像カラー(ビンと称する)に分割し、画像中のすべてのピクセルを横断走査することにより各離散的な色の出現回数をカウントすることによって得られる。
【0015】
正規化ヒストグラムは、クラス芝、p(ピクセル値|緑)に対する確率分布関数として考慮できる。上記検出ステップS1は、所定の閾値を超えるpの値(ピクセル値|緑)を有する各フレーム中のピクセルを芝のピクセルとしてマーキングすることによって実現される。
【0016】
上述のピクセルクラス化に基づいて、本アルゴリズムのステップS1は、各フレームの画像中の芝に類する色を有する連結成分(connected components)を探し、それらが十分に大きい場合には、カメラは競技場にその照準を合わせていると想定する。しかし、フレームの画像中に見出される連結芝色成分が小さい場合、カメラは観衆若しくは選手にその照準を合わせていると想定する。ステップS2において、小さい芝色成分が、短時間例えば1乃至3若しくは4個のみのフレームにおいて検出されるだけの場合、ステップS3において重要な進展が宣言されない。しかし、小さい芝色成分が、比較的長時間例えば200乃至300個のフレームにおいて検出される場合、ステップS3において重要な進展が宣言される。
【0017】
本アルゴリズムを用いて得られる結果は、音声若しくはクローズドキャプションのような他の異なる形式若しくは同一の形式からの他の手がかりを用いて更なる精度向上が可能である。同一の形式若しくは異なる形式からの手がかりは、検出された重要な出来事若しくは活躍の識別を確かめると共に、更に重要なこととして、ゴール、ゴールの試み、ペナルティ、けが、選手同士の乱闘等のような検出された重要な出来事若しくは活躍を、意味のあるクラスへとクラス化し、これらを重要度によってランク付けするために、用いることができる。
【0018】
一実施例では、図1の方法は、データ処理装置によりコンピューター読取り可能なコードによって実行される。コードは、データ処理装置内のメモリに記憶されてよく、若しくはCD−ROMやフロッピー(R)ディスクのような記録媒体から読み取り/ダウンロードされてよい。他の実施例では、ハードウェア回路は、本発明を実行するソフトウェアの指令と協働して若しくはそれに置換されて用いられても良い。本発明は、例えば図2に示すコンピューター30で実行することもできる。
【0019】
コンピューター30は、可変バンド幅ネットワークやインターネットのようなデータネットワークに接続するためのネットワーク接続31と、ビデオ若しくはデジタルカメラ(図示せず)のような他のリモートの情報源と接続するファックス/モデム接続32とを含む。コンピューター30は、ユーザに情報(ビデオデータを含む)を表示するためのディスプレイと、文字及びユーザコマンドを入力するためのキーボードと、ディスプレイ上でカーソルを位置付けると共にユーザコマンドを入力するためのマウスと、格納されたフロッピー(R)ディスクから読み出し及びそこへの書込みを行うためのディスクドライブと、CD−ROMに記憶された情報にアクセスするためのCD−ROMドライブとを含んでよい。また、コンピューター30は、画像等を入力する一若しくはそれ以上の後付型の周辺デバイス38と、画像、文字等を出力するプリンタとを有してよい。
【0020】
図3は、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)及びハードディスクのようなコンピューター読取り可能な媒体を含んでよいメモリ40を含むコンピューター30の内部構造を示す。メモリ40に格納される製品は、動作システム41、データ42、及びアプリケーション43を含んでよい。動作システム41は、UNIX(R)のようなウインド処理型の動作システムであってよいが、本発明は、マイクロソフト社製ウインドウズ95(R)のような他の動作システムも同様に用いることができる。
【0021】
図1の方法に加えて、メモリ40に記憶されるアプリケーションは、ビデオコーダ44、ビデオデコーダ45、及びフレームグラバー46を含む。ビデオコーダ44は、ビデオデータを従来的手法でエンコードし、ビデオデコーダ45は、従来的手法で符号化されたビデオデータをデコードする。フレームグラバー46は、ビデオ信号ストリームから単一のフレームを取り込み及び処理することを可能にする。
【0022】
コンピューター30に内蔵されるものは、中央処理ユニット(CPU)50、通信インターフェース51、メモリインターフェース52、CD−ROMドライブインターフェース53、ビデオインターフェース54、及びバス55を含む。CPU50は、コンピューター読取り可能なコード、即ち上述のようなアプリケーションをメモリ50から実行するためのマイクロプロセッサ等を構成する。かかるアプリケーションは、メモリ40(上述したように)に記憶されてよく、或いは、ディスクドライブ36内のフロッピー(R)ディスク、CD−ROMドライブ内のCD−ROMに記憶されて良い。CPU50は、フロッピー(R)ディスクに記録されたアプリケーション(若しくは他のデータ)にメモリインターフェース52を介してアクセスし、CD−ROMに記憶されたアプリケーション(若しくは他のデータ)にCD−ROMドライブインターフェース53介してアクセスする。
【0023】
入力ビデオデータは、ビデオインターフェース54若しくは通信インターフェース51を通して受信されてよい。入力ビデオデータは、ビデオデコーダ45二よってデコードされて良い。出力ビデオデータは、ビデオインターフェース54若しくは通信インターフェース51を通した送信のために、ビデオコーダ44によって符号化される。
【0024】
上述の本発明は、上記実施例を参照して説明されてきたが、種々の修正及び変更が本発明の精神を逸脱することなくなされうる。従って、すべてのかかる修正及び変更は、上記請求の範囲の観点の範囲内であると考えられる。
【図面の簡単な説明】
【図1】
本発明の方法の模範的実施例を実行するアルゴリズムを概説するフローチャートである。
【図2】
本発明の実現のためのコンピューターのブロック図である。
【図3】
本発明を実現するためのコンピューターの内部構造を示すブロック図である。
[0001]
The present invention relates to content-based video extraction and retrieval, and more particularly, to a method for automatically identifying important information or development in a video clip of a sporting event.
[0002]
Many video applications require search methods that allow searching large amounts of video material to find certain important clips. Such applications may include, for example, interactive TV and pay-as-you-go systems. Customers using interactive TV and pay-as-you-go systems want to see parts of the program before renting. Video browsers allow customers to find programs of interest.
[0003]
Most work in content-based video extraction and retrieval is based on low-level features such as color, texture, shape and camera movement. Low-level features are useful for some applications, but many other interesting applications require higher levels of meaningful information. Bridging the gap between low-level features and high-level meaningful information is not easy. In most cases, when a high level of meaningful information is needed, manual annotation using keywords is commonly used.
[0004]
One important application for video archiving and extraction is for sports such as soccer, football, and the like. Therefore, there is a need for a method that can automatically extract high-level information using low-level features.
[0005]
The present invention is particularly directed to a method for automatically identifying important developments in video clips of sporting events, such as soccer games. The method
Detecting a frame sequence of a video clip having preselected cues, indicating that the frame of the immediately preceding video clip may have significant progress;
Comparing a predetermined threshold with the number of frames in the frame sequence having the clue;
If the number of frames in the sequence is greater than or equal to the threshold, determining that there is significant progress in the frame immediately preceding the frame sequence.
[0006]
The method further includes obtaining pre-selected cues from low-level features in the images of each frame of the sequence. In such an embodiment, the preselected cues are based on changes in the camera's aim. More specifically, when significant progress occurs in a video clip, the camera is typically focused on the audience or player, so that the sequence of frames immediately following the frame with significant progress The image has little or no turf area.
[0007]
The advantages, characteristics, and various additional features of the present invention will become more apparent from consideration of the exemplary embodiments described in detail below in connection with the accompanying drawings.
[0008]
The method of the present invention extracts high-level information from video or multiple images using low-level features to achieve content-based (content-based) extraction and search facilitation. This is achieved by the present invention, which identifies a particular target domain and automatically extracts high-level information based on low-level features by using knowledge specific to that domain. One particularly useful application for the present invention is in highlighting important developmental segments in video clips of sporting events, including soccer games and football games. Such video clips typically include video, audio, and textual information (close-caption).
[0009]
The method of the present invention highlights important progress in a video clip by inferring the progress from one or more cues provided from low-level features and textual information of the video clip. More specifically, the method detects a sequence of frames in a video clip having preselected visual, audible, and / or text (close-caption) cues. The number of frames in each sequence having a clue is then compared to a predetermined threshold. If the number of frames in the sequence is greater than or equal to the threshold, significant progress is declared in the immediately preceding frame with a frame sequence that satisfies the threshold with cues.
[0010]
It has been found that significant progress in sporting event video clips is typically characterized by visual cues associated with changes in the focus of the camera's interest. For example, after significant progress has occurred in a sporting event, such as a soccer game, the video camera is typically focused on a player or a stadium crowd. When the camera is aimed at an athlete or stadium crowd, little or no turf on the stadium is visible in the camera's field of view.
[0011]
Using a change in the interest of the camera, the method of the present invention detects a sequence of frames in a video clip with an image that has little or no turf area in the stadium. The number of frames in each sequence is compared to a predetermined threshold. If the number of frames in the sequence is greater than or equal to the threshold, significant progress is declared in the immediately preceding frame with a frame sequence that satisfies the threshold with little or no turf area. The threshold is based on the assumption that if there are not enough frames in a sequence that has little or no turf area on the stadium, the camera must aim at the player or stadium. Consequently, the frame immediately preceding the sequence of frames is considered to include significant progress, such as when scoring in a soccer game.
[0012]
FIG. 1 is a flowchart outlining an exemplary embodiment of an algorithm for implementing the method of the present invention when applied to highlight segments of a significant event in a video clip of a soccer match. The algorithm detects a sequence of frames in a video clip with little or no turf area in step S1. If in step S2 the number of frames in the sequence is greater than a predetermined threshold, then in step S3 significant progress is declared in the previous set of frames in the video clip.
[0013]
In the detection step S1, the present algorithm detects a green area having a color similar to grass. The algorithm is trained to distinguish green from other colors in each frame so that turf regions within the frame can be identified. This is achieved using patches from one or more soccer games or from a turf region image training set that has been extracted from a soccer game in a video clip. The algorithm learns from the above patches how to convert the turf region to green values. Given an image in a frame of a video clip, training is used to determine whether a given pixel in the frame is turf.
[0014]
The algorithm is trained by calculating the red and green normalized colors (r, g) for each pixel in the training patch and obtaining a normalized histogram for the class turf. Here, r = R / (R + G + B) and g = G / (R + G + B). The color histogram of an image is obtained by dividing the color space, such as red, green, and blue, into discrete image colors (called bins) and traversing every pixel in the image to produce each discrete color appearance. It is obtained by counting the number of times.
[0015]
The normalized histogram can be considered as a probability distribution function for the class turf, p (pixel value | green). Said detection step S1 is realized by marking pixels in each frame having a value of p (pixel value | green) exceeding a predetermined threshold as grass pixels.
[0016]
Based on the pixel classifying described above, step S1 of the present algorithm looks for connected components with grass-like colors in the image of each frame, and if they are large enough, the camera will Assume that you are aiming at However, if the connected grass color component found in the image of the frame is small, it is assumed that the camera is aiming at the audience or players. If a small grass color component is only detected in step S2 for a short time, for example in only one to three or four frames, no significant progress is declared in step S3. However, if a small grass color component is detected for a relatively long time, for example in 200 to 300 frames, a significant progress is declared in step S3.
[0017]
The results obtained using this algorithm can be further refined using other cues, such as speech or closed captions, or other cues from the same format. Clues from the same or different formats confirm the identification of the significant event or activity detected, and more importantly, the detection of goals, goal attempts, penalties, injuries, brawls between players, etc. Significant events or activities can be classified into meaningful classes and used to rank them by importance.
[0018]
In one embodiment, the method of FIG. 1 is performed by computer readable code by a data processing device. The code may be stored in a memory in the data processing device, or may be read / downloaded from a recording medium such as a CD-ROM or a floppy disk. In other embodiments, a hardware circuit may be used in coordination with or in place of software instructions for performing the present invention. The present invention can also be executed by, for example, the computer 30 shown in FIG.
[0019]
Computer 30 has a network connection 31 for connecting to a data network such as a variable bandwidth network or the Internet, and a fax / modem connection for connecting to other remote information sources such as video or digital cameras (not shown). 32. The computer 30 includes a display for displaying information (including video data) to the user, a keyboard for inputting characters and user commands, a mouse for positioning a cursor on the display and inputting user commands, It may include a disk drive for reading from and writing to stored floppy (R) disks, and a CD-ROM drive for accessing information stored on a CD-ROM. Further, the computer 30 may include one or more retrofit peripheral devices 38 for inputting images and the like, and a printer for outputting images, characters, and the like.
[0020]
FIG. 3 shows the internal structure of a computer 30 that includes a memory 40, which may include computer-readable media such as random access memory (RAM), read-only memory (ROM), and a hard disk. The products stored in the memory 40 may include the operation system 41, the data 42, and the application 43. The operating system 41 may be a windowing type operating system such as UNIX (R), but the present invention can be used with other operating systems such as Microsoft Windows 95 (R) as well. .
[0021]
In addition to the method of FIG. 1, applications stored in the memory 40 include a video coder 44, a video decoder 45, and a frame grabber 46. Video coder 44 encodes the video data in a conventional manner, and video decoder 45 decodes the video data encoded in a conventional manner. Frame grabber 46 allows capturing and processing a single frame from a video signal stream.
[0022]
What is built into the computer 30 includes a central processing unit (CPU) 50, a communication interface 51, a memory interface 52, a CD-ROM drive interface 53, a video interface 54, and a bus 55. The CPU 50 constitutes a computer readable code, that is, a microprocessor or the like for executing the above-described application from the memory 50. Such an application may be stored in memory 40 (as described above), or may be stored on a floppy disk in disk drive 36 or on a CD-ROM in a CD-ROM drive. The CPU 50 accesses the application (or other data) recorded on the floppy (R) disk via the memory interface 52, and accesses the application (or other data) stored on the CD-ROM to the CD-ROM drive interface 53. Access via
[0023]
Input video data may be received through video interface 54 or communication interface 51. The input video data may be decoded by the video decoder 45. The output video data is encoded by the video coder 44 for transmission through the video interface 54 or the communication interface 51.
[0024]
Although the present invention described above has been described with reference to the above embodiments, various modifications and changes may be made without departing from the spirit of the invention. Accordingly, all such modifications and changes are considered to be within the scope of the following claims.
[Brief description of the drawings]
FIG.
5 is a flowchart outlining an algorithm for performing an exemplary embodiment of the method of the present invention.
FIG. 2
FIG. 2 is a block diagram of a computer for realizing the present invention.
FIG. 3
FIG. 2 is a block diagram showing an internal structure of a computer for realizing the present invention.

Claims (16)

スポーツイベントのビデオクリップにおいて重要な出来事若しくは活躍を自動的に特定する方法であって、
a)カメラにより生成されるスポーツイベントのビデオクリップを供給するステップと、
b)直前に先行するビデオクリップのフレームが重要な進展を有しうることを示す、予め選択された手がかりを有するビデオクリップのフレームシーケンスを検出するステップと、
c)所定の閾値と、上記手がかりを有するフレームシーケンスにおけるフレーム数とを比較するステップと、
d)上記シーケンスにおけるフレーム数が上記閾値以上である場合に、該フレームシーケンスを直前に先行するフレームにおいて重要な進展があると判断するステップとを含む、方法。
A method of automatically identifying important events or activities in a video clip of a sporting event,
a) providing a video clip of a sporting event generated by the camera;
b) detecting a frame sequence of the video clip with preselected cues, indicating that the frame of the immediately preceding video clip may have significant progress;
c) comparing a predetermined threshold value with the number of frames in the frame sequence having the clue;
d) determining that there is significant progress in the immediately preceding frame of the frame sequence if the number of frames in the sequence is greater than or equal to the threshold.
上記予め選択された手がかりは、可視的なものである、請求項1記載の方法。The method of claim 1, wherein the preselected cues are visible. 上記予め選択された手がかりは、カメラの照準の変化に基づく、請求項1記載の方法。The method of claim 1, wherein the preselected cues are based on changes in camera sighting. シーケンスの各フレームは、画像を有しており、上記予め選択された手がかりは、上記画像から取得される、請求項1記載の方法。The method of claim 1, wherein each frame of the sequence comprises an image, and wherein the preselected cues are obtained from the image. 上記予め選択された手がかりは、芝の領域をほとんど若しくは一切有していない画像である、請求項4記載の方法。5. The method of claim 4, wherein the preselected cues are images having little or no turf area. 上記ビデオクリップに表示される上記スポーツイベントは、サッカーの試合である、請求項1記載の方法。The method of claim 1, wherein the sporting event displayed in the video clip is a soccer match. 上記予め選択された手がかりは、上記ビデオクリップの低レベルの特徴から付与される、請求項1記載の方法。The method of claim 1, wherein the preselected cues are provided from low-level features of the video clip. 上記予め選択された手がかりは、上記ビデオクリップの低レベルの可視的特徴から付与される、請求項1記載の方法。The method of claim 1, wherein the preselected cues are provided from low-level visual features of the video clip. 上記低レベルの可視的特徴は、色を含む、請求項8記載の方法。The method of claim 8, wherein the low-level visual features include color. 上記予め選択された手がかりは、上記ビデオクリップの低レベルの音声特徴から付与される、請求項1記載の方法。The method of claim 1, wherein the preselected cues are provided from low-level audio features of the video clip. 上記予め選択された手がかりは、上記ビデオクリップの文字情報から付与される、請求項1記載の方法。The method of claim 1, wherein the preselected cues are provided from textual information of the video clip. 上記ビデオクリップの文字情報を用いて、重要な出来事若しくは活躍の特定を確証するステップを更に含む、請求項11記載の方法。12. The method of claim 11, further comprising using the textual information of the video clip to confirm the identification of a significant event or activity. 上記ビデオクリップの文字情報を用いて、上記重要な出来事若しくは活躍を意味のあるクラスにクラス化するステップを更に含む、請求項11記載の方法。12. The method of claim 11, further comprising using the textual information of the video clip to classify the significant event or activity into a meaningful class. 上記予め選択された手がかりは、複数の予め選択された手がかりである、請求項1記載の方法。The method of claim 1, wherein the preselected cues are a plurality of preselected cues. 上記予め選択された手がかりは、上記ビデオクリップの低レベルの可視的特徴及び音声特徴、及び上記ビデオクリップの文字情報を含む、請求項1記載の方法。The method of claim 1, wherein the preselected cues include low-level visual and audio features of the video clip and textual information of the video clip. スポーツイベントのビデオクリップにおいて重要な出来事若しくは活躍を自動的に特定する装置であって、
実行可能なコードを記憶するメモリと、
上記メモリに記憶されたコードに基づいて、
a)カメラにより生成されるスポーツイベントのビデオクリップを供給するステップと、
b)直前に先行するビデオクリップのフレームが重要な進展を有しうることを示す、予め選択された手がかりを有するビデオクリップのフレームシーケンスを検出するステップと、
c)所定の閾値と、上記手がかりを有するフレームシーケンスにおけるフレーム数とを比較するステップと、
d)上記シーケンスにおけるフレーム数が上記閾値以上である場合に、該フレームシーケンスを直前に先行するフレームにおいて重要な進展があると判断するステップを実行するプロセッサとを含む、装置。
A device that automatically identifies important events or activities in a video clip of a sporting event,
A memory for storing executable code;
Based on the code stored in the memory,
a) providing a video clip of a sporting event generated by the camera;
b) detecting a frame sequence of the video clip with preselected cues, indicating that the frame of the immediately preceding video clip may have significant progress;
c) comparing a predetermined threshold value with the number of frames in the frame sequence having the clue;
d) if the number of frames in the sequence is greater than or equal to the threshold, the processor performing a step of determining that there is significant progress in a frame immediately preceding the frame sequence.
JP2002527199A 2000-09-13 2001-08-30 How to use visual cues to highlight important information in video programs Pending JP2004509529A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US66091800A 2000-09-13 2000-09-13
PCT/EP2001/010112 WO2002023891A2 (en) 2000-09-13 2001-08-30 Method for highlighting important information in a video program using visual cues

Publications (1)

Publication Number Publication Date
JP2004509529A true JP2004509529A (en) 2004-03-25

Family

ID=24651479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002527199A Pending JP2004509529A (en) 2000-09-13 2001-08-30 How to use visual cues to highlight important information in video programs

Country Status (3)

Country Link
EP (1) EP1320992A2 (en)
JP (1) JP2004509529A (en)
WO (1) WO2002023891A2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251885A (en) * 2005-03-08 2006-09-21 Kddi Corp Device for classifying and device for log generating sports video
JP2011015129A (en) * 2009-07-01 2011-01-20 Mitsubishi Electric Corp Image quality adjusting device
US9508012B2 (en) 2014-03-17 2016-11-29 Fujitsu Limited Extraction method and device
US9892320B2 (en) 2014-03-17 2018-02-13 Fujitsu Limited Method of extracting attack scene from sports footage

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100005485A1 (en) * 2005-12-19 2010-01-07 Agency For Science, Technology And Research Annotation of video footage and personalised video generation
US9047374B2 (en) 2007-06-08 2015-06-02 Apple Inc. Assembling video content

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0965287A (en) * 1995-08-18 1997-03-07 Hitachi Ltd Method and device for detecting characteristic scene for dynamic image
JPH1155613A (en) * 1997-07-30 1999-02-26 Hitachi Ltd Recording and/or reproducing device and recording medium using same device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100206804B1 (en) * 1996-08-29 1999-07-01 구자홍 The automatic selection recording method of highlight part
AU719329B2 (en) * 1997-10-03 2000-05-04 Canon Kabushiki Kaisha Multi-media editing method and apparatus
WO1999045483A1 (en) * 1998-03-04 1999-09-10 The Trustees Of Columbia University In The City Of New York Method and system for generating semantic visual templates for image and video retrieval
US6163510A (en) * 1998-06-30 2000-12-19 International Business Machines Corporation Multimedia search and indexing system and method of operation using audio cues with signal thresholds

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0965287A (en) * 1995-08-18 1997-03-07 Hitachi Ltd Method and device for detecting characteristic scene for dynamic image
JPH1155613A (en) * 1997-07-30 1999-02-26 Hitachi Ltd Recording and/or reproducing device and recording medium using same device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251885A (en) * 2005-03-08 2006-09-21 Kddi Corp Device for classifying and device for log generating sports video
JP4577774B2 (en) * 2005-03-08 2010-11-10 Kddi株式会社 Sports video classification device and log generation device
JP2011015129A (en) * 2009-07-01 2011-01-20 Mitsubishi Electric Corp Image quality adjusting device
US9508012B2 (en) 2014-03-17 2016-11-29 Fujitsu Limited Extraction method and device
US9892320B2 (en) 2014-03-17 2018-02-13 Fujitsu Limited Method of extracting attack scene from sports footage

Also Published As

Publication number Publication date
WO2002023891A3 (en) 2002-05-30
EP1320992A2 (en) 2003-06-25
WO2002023891A2 (en) 2002-03-21

Similar Documents

Publication Publication Date Title
AU2019269599B2 (en) Video processing for embedded information card localization and content extraction
CN110381366B (en) Automatic event reporting method, system, server and storage medium
JP5420199B2 (en) Video analysis device, video analysis method, digest automatic creation system and highlight automatic extraction system
CN110309795B (en) Video detection method, device, electronic equipment and storage medium
US9098807B1 (en) Video content claiming classifier
EP2089820B1 (en) Method and apparatus for generating a summary of a video data stream
US8340498B1 (en) Extraction of text elements from video content
US20070266322A1 (en) Video browsing user interface
KR100612874B1 (en) Method and apparatus for summarizing sports video
KR100612862B1 (en) Method and apparatus for summarizing sports video
JP2006251885A (en) Device for classifying and device for log generating sports video
EP3324307A1 (en) Retrieval device, retrieval method, and computer-readable medium
KR20080105387A (en) Method and apparatus for summarizing moving picture of sports
JP2004509529A (en) How to use visual cues to highlight important information in video programs
CN112312142A (en) Video playing control method and device and computer readable storage medium
Midhu et al. Highlight generation of cricket match using deep learning
JP2004040750A (en) Method of analyzing continuous compressed video based upon a plurality of states
JP2011523291A (en) Method and apparatus for generating a summary of an audio / visual data stream
Jung et al. Player information extraction for semantic annotation in golf videos
JP2010081531A (en) Video processor and method of processing video
US11417100B2 (en) Device and method of generating video synopsis of sports game
KR100707205B1 (en) Method and apparatus for detect play section in sports video
Bu et al. Goalmouth detection in field-ball game video using fuzzy decision tree
Gupta A Survey on Video Content Analysis
KR20210073779A (en) Device and method for generating condensed video of sports game

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111007

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111017

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130115