JPH10136297A - デジタルビデオデータから索引付け情報を抽出する方法と装置 - Google Patents

デジタルビデオデータから索引付け情報を抽出する方法と装置

Info

Publication number
JPH10136297A
JPH10136297A JP9267161A JP26716197A JPH10136297A JP H10136297 A JPH10136297 A JP H10136297A JP 9267161 A JP9267161 A JP 9267161A JP 26716197 A JP26716197 A JP 26716197A JP H10136297 A JPH10136297 A JP H10136297A
Authority
JP
Japan
Prior art keywords
video
model
data
audio
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9267161A
Other languages
English (en)
Other versions
JP3485766B2 (ja
Inventor
Rin Chan Yu
ユー−リン・チャン
Tsuen Uenjun
ウェンジュン・ツェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JPH10136297A publication Critical patent/JPH10136297A/ja
Application granted granted Critical
Publication of JP3485766B2 publication Critical patent/JP3485766B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/59Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of video
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/90Tape-like record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

(57)【要約】 【課題】 ビデオテープにおける特定の競技行為の所在
位置を自動的に索引付けする方法と装置を提供するこ
と。 【解決手段】 競技プレーが発生する所在位置の索引
を、会話検知アルゴリズムとビデオ解析アルゴリズムを
用いて作成する。会話検知アルゴリズムはビデオテープ
のオーディオデータ部に特定のことばを割り当てる。次
に、特定のことばが検知される所在位置情報をビデオ解
析アルゴリズムに転送し、各所在位置に対して範囲を設
定し、各範囲はヒストグラム技法を用いて複数のショッ
トに区分する。ビデオ解析アルゴリズムは、ライン抽出
技法を用いて、任意のビデオ特徴に対して各区分範囲を
解析し、競技プレーを識別する。ビデオ解析により、ビ
デオテープにおける競技プレーの所在位置に対して1組
のポインタ、すなわち、索引を、最終的に作成出力す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、文脈依存
ビデオ索引付け情報およびビデオ情報の抽出システムに
関し、特に、会話理解技法と画像解析とを結合し統合し
た情報抽出システムに関する。
【0002】
【従来の技術】索引付け技法は、電子工学的に格納され
た情報の所在決定をより容易にする。例えば、原文情報
データベースはキーワードによって索引付けすることが
可能であり、しかもデータベース全体を開始から終了ま
で連続して検索することなしに、これらキーワードの代
表例を直接的に割り当てることが可能である。所定のキ
ーワードに、前もって索引またはポインタを付与するこ
とにより、情報復元システムは、これらキーワードの代
表例を、情報格納後に所在決定用に割り当てることによ
り、一時に一素子ずつ全データベースを検索する非効率
的な技法で行うよりも、はるかに迅速かつ効率的に行う
ことができる。
【0003】画像依存情報システムもまた索引付け可能
であり、任意のキー画像が迅速かつ効率的にアクセス可
能であることが望ましい。同様に、オーディオビデオ情
報(例えば、ビデオテープ、マルチメディア、ビデオオ
ンデマンド供給、デジタルライブラリおよびビデオ編集
システム用媒体供給源など)もまた索引付けシステムが
適用可能であることが望ましい。
【0004】これら索引付けの利点が得られることは勿
論喜ばしいことではあるが、このような索引付けシステ
ムを構成することは、特に、オーディオビデオ情報が含
まれる場合は複雑な問題が存在する。実際、この問題は
原文情報システムの索引を作成する場合よりもはるかに
複雑である。その理由としては、原文情報システムは直
ちに離散ワードに解体でき、各ワードは文字対応によっ
て所定のキーワードと比較することができるが、オーデ
ィオビデオ情報は非常に高度で複雑であるので、同様に
は解体することはできない。この問題の複雑性を理解
し、また本発明の開示において有用な例を提供するため
に、例えば、前年のスーパーボール競技において、タッ
チダウンがなされたすべての正確なオーディオビデオデ
ータの瞬間の所在決定をする場合の問題点について考え
てみる。その目的は、オーディオビデオデータ画面から
必要な情報を抽出することにより、これら競技行為の所
在決定を行い、索引を作成し、将来の参照用としてこれ
ら競技行為の所在場所を記録可能とすることである。
【0005】オーディオビデオデータソースからこの必
要なデータを抽出することの理解がさらに達成されれ
ば、オーディオビデオデータはすべての様式の傾向分析
に対して処理可能となるであろう。そのときフットボー
ルのコーチは、オーディオビデオ情報の索引付けされた
データベースを利用して、例えば、競技相手がゴールラ
インからある距離内にいた場合のすべての場面を分析す
ることができるであろう。それによって、コーチはこれ
ら発生状況を調べ、競技相手がゴールラインに接近して
いるときの彼らの行動における傾向性を決定することが
できるであろう。この観点において、索引付けシステム
は、単にゴールラインへの接近またはタッチダウンに限
定されることはない。むしろ、索引付けシステムは、所
定のキーとなる競技行為または他のオーディオビデオの
索引によって全競技を索引付けすることができ、ユーザ
は相当に複雑な問題を情報システムに提起することがで
きるであろう。
【0006】
【発明が解決しようとする課題】従来のビデオ依存情報
の索引付けに対する試みは、記述的原文メッセージを有
する付加ビデオを含んでいた。したがってビデオはキー
ワードを設けることによって検索され、該ビデオを伴う
記述的原文メッセージの検索を行う。しかし、多数の画
像用に原文全体を作成しなければならない(これはかな
り大きな労働作業となる)だけでなく、原文自体が関連
するビデオ全体を充分に記述できないことがあるという
問題点が残る。
【0007】ビデオ依存情報の索引付けには、視覚的フ
ォーマットと原文フォーマットとの間の本来的な違いに
よる特異な問題が存在する。したがって、従来の原文に
よる索引付け方法は、ビデオ依存情報に対する効率的な
索引を提供するためには、ほとんど利用できない。
【0008】従来のビデオ解析アルゴリズムを用いた試
みは、ゴング等(Gong et al.)によって実行された作
業(Y. Gong et al. による「テレビサッカー番組の自
動解析、マルチメディアコンピューティングに関する第
2回ACM国際会議」167ー174ページ、1995
年5月、参照)を含む。彼らの試みでは、画像の所定キ
ーの特徴と、該特徴とアポリオリモデルとの比較に基づ
いて、ビデオ内容が決定される。上記従来の技法では、
ビデオデータのみ解析されるが、付加ビデオの内容を高
度に表示していると思われる音声データの解析は、含ま
れていない。
【0009】
【課題を解決するための手段】本発明は、ビデオテープ
データから、オーディオおよびビデオデータ内容に基づ
いて、索引付け情報を自動的に抽出する方法および装置
を提供することを目的とする。上記目的を達成するため
に、本発明では2段階処理工程が採用されている。すな
わち、まず最初に、オーディオ処理モジュールが適用さ
れて、全データ中における候補情報の所在位置が決定さ
れる。この情報はビデオ処理モジュールに送られ、さら
にビデオデータの解析が行われる。ビデオ解析の最終段
階では、ビデオにおいて関心のある競技行為(競技種
目、場面)の所在決定のためのポインタまたはインデッ
クス(索引付け)が作成出力される。
【0010】本発明では、オーディオビデオデータ内で
発生する第1の競技行為の所在位置を示す索引を形成す
るための、コンピュータ内蔵型スピーチ/ビデオ解析シ
ステムを提供する。オーディオビデオデータは、複数の
競技行為を表示するために、ビデオデータと同期したオ
ーディオデータを含む。第1の競技行為は、該第1の競
技行為を示す少なくとも1つのオーディオ特徴と、少な
くとも1つのビデオ特徴を有する。本発明では、オーデ
ィオ特徴を表すスピーチモデルを格納するためのモデル
スピーチデータベースと、ビデオ特徴を表すビデオモデ
ルを格納するためのモデルビデオデータベースを使用す
る。候補情報を決定するために、オーディオデータと格
納されたスピーチモデルとを比較することによって、ワ
ードスポット処理が行われる。該候補はオーディオデー
タ内のオーディオ特徴の位置を示す。所定の範囲が各候
補に対して設定される。上記範囲内に所在するビデオデ
ータの部分は複数のショットに区分される。区分された
ビデオデータは解析され、上記区分されたビデオデータ
と格納されたビデオ所在位置との比較に基づいてビデオ
所在決定を行う。ビデオ所在決定はビデオデータ内のビ
デオ特徴の位置を示す。上記ビデオ所在決定に基づい
て、上記第1の競技行為の所在位置を示す索引が発生さ
れる。
【0011】本発明の態様によれば、競技行為として、
例えば、タッチダウン、ファンブルその他フットボール
に関する競技プレーが発生する所在位置の索引を、会話
検知アルゴリズムとビデオ解析アルゴリズムを用いて作
成し、会話検知アルゴリズムはビデオテープのオーディ
オデータ部に特定のことばを割り当てる。次に、特定の
ことばが検知される所在位置情報をビデオ解析アルゴリ
ズムに転送し、各所在位置に対して範囲を設定し、各範
囲はヒストグラム技法を用いて複数のショットに区分す
る。ビデオ解析アルゴリズムは、ライン抽出技法を用い
て、任意のビデオ特徴に対して各区分範囲を解析し、競
技プレーを識別する。ビデオ解析により、ビデオテープ
における競技プレーの所在位置に対して1組のポイン
タ、すなわち、索引を作成出力し、ビデオテープにおけ
る特定の競技行為の所在位置を自動的に索引付けする方
法と装置を提供する。
【0012】本発明の他の特徴及び利点は、添付の図面
を参照して以下の本発明の詳細な説明により明らかとな
るであろう。以下、本発明の実施例を添付の図面を参照
して詳細に説明する。
【0013】
【発明の実施の形態】図1は、本発明の索引付けシステ
ムの動作機能の概要を示す。ビデオテープのオーディオ
ビデオフレーム30は、オーディオデータとビデオデー
タとの両方を含む。ビデオテープ上で、オーディオデー
タ部は、会話ワードなどの音声を表すデータを含む。同
様に、ビデオデータ部は、場面の視覚的態様を表すデー
タをビデオテープ上に含む。もしオーディオおよびビデ
オデータがデジタルフォーマットでない場合は、本発明
による処理が実行される前に、デジタルフォーマットに
変換される。
【0014】ワードスポット処理工程32では、ワード
スポット処理を行うことにより、オーディオビデオフレ
ーム30のオーディオデータ部が解析され、候補情報が
決定される。ワードスポット処理32では、オーディオ
データ内の特徴を所在決定するために、モデルスピーチ
データベース34を使用する。例えば、もしユーザがビ
デオテープ上でタッチダウン場面を検索したい場合は、
会話ワードの「タッチダウン」などの特徴がワードスポ
ット処理32で検索される。モデルスピーチデータベー
ス34でのモデルとしてこのオーディオ特徴が見つけら
れたということが、ワードスポット処理32で決定され
ると、該特徴が発生したフレーム番号が候補情報として
格納される。
【0015】範囲設定処理工程36では、各候補の近辺
に所定の範囲が設定される。区分処理工程38では、上
記各範囲は、2個の隣接するフレーム間の差異の程度に
より区分処理するヒストグラム技法に基づいて、複数の
ショットに区分される。ショット解析工程40では、モ
デルビデオデータベース42を用いて、上記範囲設定処
理36で設定された範囲内でビデオ特徴を検索する。ま
た、ショット解析工程40では、ライン抽出技法を適用
して、フレーム30からのビデオデータとモデルビデオ
データベース42のデータとが比較処理される。タッチ
ダウンの例では、ショット解析処理40で検索したいビ
デオ特徴として、互いに向かい合ってラインアップして
いるフットボールチームが用いられるであろう。モデル
ビデオデータベース42は、上記ラインアップチームと
似ているモデルを含むであろう。ショット解析工程40
で、ビデオテープ内のすべてのビデオ特徴の所在決定が
終了したならば、索引作成工程44で、これらフレーム
の所在決定用の索引が作成される。
【0016】図2は、本発明の好ましい実施例で使用さ
れたハードウェアモジュールと、その動作フローを示
す。上記実施例では、3個の主要なハードウェア構成要
素、すなわち、オーディオ処理要素とビデオ処理要素と
デモビデオデータベースとを有する。
【0017】ビデオテープからのアナログビデオデータ
とアナログオーディオデータは、まず最初にデジタル変
換処理される。すなわち、M−JPEGビデオキャプチ
ャカード60は、アナログビデオデータをデジタルAV
Iフォーマットに変換する。サウンドブラスタオーディ
オカード62は、アナログオーディオデータをデジタル
WAVフォーマットに変換する。オーディオ解析モジュ
ール64は、ワードスポット処理を行い、また必要に応
じて補助の音声を検知することにより、上記デジタルオ
ーディオデータ内の候補の所在決定を行う。
【0018】これらモジュール60および64で得られ
た情報はビデオ解析モジュール66へ転送され、区分処
理とショット確認処理によりビデオデータが解析され
る。ビデオ解析モジュール66から出力される索引付け
情報は、注目の競技行為場面の所在決定に対してポイン
タとしての機能形態をとる。オーディオ及びビデオ解析
アルゴリズムを実行するために、本実施例ではコーラス
(Khoros)システムが使用された。
【0019】索引付けされたビデオは、LAN依存型ビ
デオオンデマンド(以下、VODと記載)サーバ、すな
わち、本実施例ではスターワークVODサーバ68上に
配置される。また、デモビデオデータベース(以下、V
DBと記載)クライエントは、PC駆動マイクロソフト
ウインドウから索引付けされたビデオを復元するために
使用される。本実施例では、この復元動作70のために
マイクロソフトウインドウVDBが使用される。
【0020】オーディオ信号解析 テレビスポーツ番組に関する1つの重要な観点は、この
ような番組ではオーディオ情報の内容とビデオ情報の内
容とは密接に相互関係があるということである。この密
接な相関は、スポーツリポータの主な役割が、競技場に
おいて現在何が起こっているかを観戦者に知らせること
であることによる。したがって、もし“タッチダウン”
または“ファンブル”などの重要なキーワードがオーデ
ィオデータ流において検出できれば、このオーディオデ
ータは、重要な競技行為の候補を所在決定するための大
まかなフィルタとして使用できる。
【0021】本実施例によれば、オーディオ処理の演算
はビデオ処理の演算よりも低費用で実施できるので、情
報はまず初めにオーディオ処理によるデータからの抽出
が行われる。本発明では、キーワードをスポット処理す
るために、テンプレートマッチングによる技法が採用さ
れている。しかし、本発明はこの技法に限定されるべき
ではなく、他の多くの会話確認アルゴリズムが存在し、
例えば、本発明の他の実施例では、ハイデンマーコフモ
デルとダイナミックタイムラッピング(HiddenMarkov Mo
dels and Dynamic Time Wrapping)の会話確認アルゴリ
ズムを用いていることに留意すべきである。
【0022】テンプレートマッチング技法は、下記の理
由により、本発明にとって信頼できる候補情報を提供す
る。すなわち、オーディオデータ処理はビデオ解析の前
処理として採用され、したがって、偽りアラームは主要
な要件ではない。また、スポーツリポータは通常は事前
に知らされているので、会話者の独立性もまた主要な要
件ではない。
【0023】図3は、テンプレートとテストデータとの
特徴整合のためのワードスポット処理用アルゴリズムを
示す。第1オーディオVIFFデータ変換モジュール1
00は、テストオーディオデータとテンプレートオーデ
ィオデータをWAVフォーマットからVIFFフォーマ
ットへ変換する。VIFFフォーマットは公的領域のパ
ッケージローテック(Lotec)用のデータフォーマ
ットである。ここで、ローテックは会話検出アルゴリズ
ムの好ましい実施例である。
【0024】特徴抽出モジュール104は、テストオー
ディオデータとテンプレートオーディオデータからそれ
ぞれ特徴を抽出する。特徴抽出モジュール104では、
最初に、ノイズ統計データがテンプレートオーディオデ
ータから集計され、テストオーディオデータに含まれる
背景ノイズの影響が除去される。テストデータ内のノイ
ズを濾過処理するときに、統計的情報が使用される。そ
の後、オーディオデータ流が各10ミリ秒の固定サイズ
のセグメントに分割される。最後にテストオーディオデ
ータとテンプレートオーディオデータはファーストフー
リエ変換(FTT)により周波数領域に変換される。8
個の重ね合わせフィルタのセットがフーリエ量に適用さ
れ、各格納部の合計エネルギーの対数値が計算され、オ
ーディオデータを表す特徴として使用される。上記フィ
ルタは150ヘルツ乃至4000ヘルツ(Hz)の周波
数領域を取り扱い範疇とする。
【0025】特徴整合モジュール108は、テストオー
ディオデータから引き出された特徴ベクトルを、テンプ
レートオーディオデータから引き出された特徴とマッチ
ング(整合)させる。テストオーディオデータとテンプ
レートオーディオデータ間の正規化された距離が、同様
の測定に使用された。テンプレートとテストデータ間の
距離は、2個の8次元特徴ベクトル間のユークリッド距
離として定義されている。次に、上記距離は各テンプレ
ートのエネルギーの総和によって正規化される。
【0026】特徴マッチング処理の後、すべてのテンプ
レートからの最良マッチングが上記距離により分類され
る。マッチングの信頼性を表すために距離の逆数が使用
される。この信頼性が予め設定されたしきい値よりも大
きいときは、候補の決定が宣言される。
【0027】ビデオ情報解析 オーディオ解析モジュールによって検出された候補は、
更にビデオ解析モジュールによって検査される。タッチ
ダウンの候補が時間tで所在決定されたとすると、ビデ
オ解析は領域(t−1分、t+2分)に適用される。上
記仮定は、タッチダウンの競技行為場面は上記時間範囲
内で開始及び終了することを意味する。ビデオ処理で
は、原ビデオシーケンスは複数の離散ショットに分類さ
れる。各ショットからキーフレームが抽出され、ショッ
ト識別が上記キーフレームに適用されてタッチダウンの
存在が確認される。
【0028】特に、ビデオ解析モジュール66では、ヒ
ストグラム差によるビデオショット区分処理アルゴリズ
ムが使用される。フレームのヒストグラムがその前のフ
レームのヒストグラムと実質差異があると判断されると
きは、セグメントはX2比較計算式、
【数1】 によって検出される、ここで、Htは時間tに対するヒ
ストグラムであり、Gは画像における色の総数である。
【0029】図4は、コーラス(Khoros)条件での上記
2比較式を実行するショットセグメント動作のフロー
チャートを示す。入力AVI動作工程150では、AV
I符号化データ流がVIFFに変換される。ビデオヒス
トグラム動作154では、VIFFビデオのヒストグラ
ムが計算される。翻訳動作158は、時間内にVIFF
対象をシフト動作するコーラス(Khoros)機能を有する。
【0030】減算動作工程162は、2個のVIFF対
象を減算処理するためのKhoros機能を有する。2乗処理
工程166は、2乗処理をVIFF対象に適用するため
のKhoros機能を有する。値代入動作工程170は、VI
FF対象の値を代入するためのKhoros機能を有する。こ
こで、ゼロによる割算は排除される。除算動作工程17
4は2個のVIFF対象を除算するためのKhoros機能を
有する。統計動作工程178は、VIFF対象の統計を
計算するためのKhoros機能を有する。ショットセグメン
ト動作工程182では、ヒストグラム差シーケンスにお
けるピーク値を所在決定することにより、ショット移行
境界が検出される。キーフレーム格納動作工程186で
は、各ショットから代表フレームが抽出され、新たなV
IFFビデオとして格納される。
【0031】ショットセグメント処理が完了した後、本
発明ではモデル依存技法を用いてキーフレームの内容を
識別する。オーディオ解析によって与えられた候補の所
在決定を用いて処理は開始し、本発明では、前後の数シ
ョットを見てモデルをビデオデータと適合させる。マッ
チングにおける信頼性が高い場合は、タッチダウン場面
の検出が宣言される。
【0032】モデル内のデータに対応するようなショッ
トを確認するために、注目の特徴のいくつかとそれらの
発生場面のシーケンスが抽出される。フットボールのビ
デオでは、利用可能な注目の特徴として、ラインマー
カ、プレーヤ数、エンドゾーン、ゴールポストおよびそ
の他のフットボールに関する特徴がある。
【0033】例えば、タッチダウンシーケンスでは、図
5において、理想的なモデルとして考えられる注目の特
徴と、タッチダウン場面を構成するショットのシーケン
スが示されている。理想的には、タッチダウンシーケン
スはフィールドにラインアップしている2チーム(すな
わち、ラインアップショット200)をもって開始すべ
きである。ラインアップショット200は、典型的に
は、傾斜線マーカ204とプレーヤ208とを示す。タ
ッチダウンというワード212は、通常、動作ショット
216の中程または終わりでアナウンスされ、その後、
ある種の後続ショット218が続き、さらに注釈及びリ
プレイショット220が続く。特別ポイントショット2
24は通常タッチダウンシーケンスの結論部分となる。
特別ポイントショットは、典型的には、主にゴールポス
ト228間のプレーヤ208と、互いにほぼ平行な線と
してのゴールポスト228を示す。ビデオデータがこれ
ら特徴を含み、上記相対的シーケンス内にある場合は、
タッチダウン場面の検知が宣言される。
【0034】この理想的なタッチダウンビデオモデル
は、すべてではないが、可能なタッチダウンシーケンス
のほとんどをカバーする。しかし、それでもこの実施例
ではなお満足できる結果が得られる。本発明の好ましい
実施例は、これらシーケンスのモデルを形成することに
より、すべての可能なタッチダウンシーケンスをカバー
する構成も含む。例えば、好ましい実施例では、タッチ
ダウンに後続して2点変換を意図してチームをモデル化
する構成も含まれる。
【0035】好ましい実施例で採用されたビデオ確認用
ライン抽出作業は、対象確認技術(Object Recognition
Toolkit)に基づいている。KhorosシステムはこのToolki
t技術を導入するように変形されている。各ショットに
対して1個または2個の代表フレームが存在する。これ
ら代表フレームに対して最初に勾配測定動作が適用さ
れ、端部が検出される。端部画素は次に画素連鎖(Pixel
Chaining)により連結された画素リストに変換される。
連鎖画素リストは複数の直線セグメントに区分され、更
に平行線群に分類される。各平行線の組みは、さらに長
さ及び方向的にフィルタ処理される。
【0036】例えば、検出された平行線はゴールポスト
に対して垂直方向に延在しなければならない。同様に、
検出された平行線はポテンシャルラインマーカとなるた
めに、長く延在し、斜め方向に向いていなければならな
い。
【0037】本発明の1実施例では、画像強度の値がラ
イン抽出用に利用されている。しかし、本発明の他の実
施例では、性能向上のために色および構造などの他の情
報が利用されている。
【0038】デモビデオデータベース ウィンドウ用マイクロソフトビデオ(MS/VFW)に
おいて動作するデモビデオデータベースシステムが、本
発明を実現するために使用されている。デモビデオデー
タベースシステムは2つの構成部分、すなわちサーバ部
とクライエント部を有する。
【0039】本発明では、サーバとしてスターライト社
製のスターワークスVODシステムが使用された。サー
バは、Lynxリアルタイム動作システムと4GB(ギガバ
イト)格納スペースとを用いて、EISA-バス PC-486/66
上で動作する構成とした。PC/Windows クライエント部
が、規格10ベースTイーサネットを介してサーバに接
続可能である。サーバは、2個のイーサネットセグメン
トを介して、12メガビット/秒(Mbps)までのビ
デオ/オーディオデータ流のリアルタイム供給を保証す
る。
【0040】クライエント部に対しては、ビデオプレー
ヤ装置が、索引付け情報とともにAVIビデオデータを
アクセスできるMS/VFW用に開発されている。この
ビデオプレーヤを用いて、ユーザは次段または前段のシ
ョット、演技または競技行為に直接移動することができ
る。このような検索性能は従来のリニアファーストフォ
アワード/バックワード移動に対して相補的に構成可能
である。
【0041】本発明の例 本発明のアルゴリズムは実際のテレビ番組を用いて試験
された。下記の表1は実験で使用されたデータの概要を
示す。 表1 グループ ネーム フレーム番号 タイム ゲーム タッチダウン 練習 td1 1,297 1:27 ケ゛ーム1、第1ハーフ イエス td2 2,262 2:31 ケ゛ーム1、第1ハーフ イエス td3 1,694 1:53 ケ゛ーム1、第1ハーフ イエス 試験 第2ハーフ1 7,307 8:07 ケ゛ーム1、第2ハーフ ノー 第2ハーフ2 6,919 7:41 ケ゛ーム1、第2ハーフ ノー 第2ハーフ3 6,800 7:33 ケ゛ーム1、第2ハーフ イエス 第2ハーフ4 5,592 6:37 ケ゛ーム1、第2ハーフ ノー 第2ハーフ5 2,661 2:58 ケ゛ーム1、第2ハーフ イエス 第2ハーフ6 2,774 3:05 ケ゛ーム1、第2ハーフ イエス 第2ハーフ7 2,984 3:19 ケ゛ーム1、第2ハーフ イエス 新ゲーム1 2,396 2:40 ゲーム2 イエス
【0042】2つのフットボールゲームから合計45分
のビデオ及びオーディオデータが試験用に使用された。
データは練習と試験の2つのグループに分けられた。練
習グループのデータのみ練習用に使用され、システムパ
ラメータが調整された。ビデオの解像度は、毎秒15フ
レームで192分の256であった。オーディオデータ
レートはサンプル当り8ビットで22キロヘルツ(KH
z)であった。
【0043】オーディオ処理結果 図6a乃至図6dおよび図7a乃至図7dは、8組の試
験において、該試験データとテンプレートオーディオデ
ータ間のユークリッド距離を用いたオーディオ処理の結
果を示す。各グラフ図において、X軸260は時間を示
し、Y軸264は信頼度を表す。信頼度が高いほど、タ
ッチダウンの存在の可能性は大きくなる。練習用データ
から、ワードスポットしきい値は25の値に設定され
る。表2にオーディオ処理結果の概要を示す。 表2アルゴリズム 正確検知 誤検知 偽アラーム ワードスポット 5分の4 5分の1 0
【0044】一般に、ワードスポットアルゴリズムは信
頼できる結果を提供してくれる。試験データ内に存在す
る5個のタッチダウンの内、第2ハーフ7の1つだけ正
しく検知されなかった。誤検知は、主に、第2ハーフ7
では、タッチダウンは使用された3つのテンプレートと
異なった方法でアナウンスされたという事実により、発
生している。1実施例ではしきい値を10に減少させて
いるが、このために多くの偽アラームの発生(45回予
測される)という欠点がある。別の実施例では、もっと
多くのテンプレート用サンプルを集めて精度を向上させ
ている。しかし、第1実施例では、ダイナミックタイム
ラッピングなどのもっと粗雑なマッチングアルゴリズム
が使用されている。また別の実施例では、ハイデンマー
コフモデルHMM(Hidden Mrkov Model)手法が用いら
れている。
【0045】ビデオ処理結果 試験データ第2ハーフ2はショット区分処理の例として
使用されている。オディオ処理モジュールで検出された
候補の周辺領域のみに関心があるので、1,471フレ
ームのみ処理された。図8は1,471フレームの区分
処理結果を示す。X軸300はフレーム数を表し、Y軸
304はX2比較式によるヒストグラム差を表す。
【0046】タッチダウン場面がモデルと適合し、キッ
クショットが区分処理アルゴリズムによって正確に検出
されるならば、ライン抽出アルゴリズムはゴールポスト
を検出する。ラインマークの検出はさらに困難である
が、ライン抽出器はそれでも信頼できる動作を行う。本
発明の実施例では、ラインマーク抽出用のより良い結果
を得るために、エッジ検出器では色情報が使用されてい
る。表3にビデオ解析結果を示す。 表3アルゴリズム 正確検知 誤検知 偽アラーム ショット識別 5分の4 5分の1 0
【0047】タッチダウンを有する5組の試験データの
内、実際には第2ハーフ6がモデルに適合していない
が、この理由は、それのタッチダウンが(ラインアップ
ショットではなく)キックオフショットをもって開始
し、また(特別ポイントショットをキックするのではな
く)2点変換ショットをもって終了しているためであ
る。
【0048】最後に、図9aは、本発明でのこの例に対
するライン抽出の処理方法を示す。図9aに示すライン
アップショットのビデオ画面では、ラインマーカ350
a、354a、358aが図示されている。図9bは、
ライン抽出アルゴリズムによりラインアップショットを
処理した結果を示す。ライン抽出アルゴリズムは、図9
aのラインマーカ350a、354a、358aを、そ
れぞれ350b、354b、358bのように形成す
る。
【0049】図10aに示す特別ポイントショットのビ
デオ画面では、ラインマーカ380aとゴールポスト3
84a及び388aが表示されている。図10bは、ラ
イン抽出アルゴリズムによる特別ポイントショットの処
理結果を示す。このライン抽出アルゴリズムによって、
図10aのラインマーカ及びゴールポストを、それぞれ
ライン380bとゴールポスト384b及び388bの
ように形成する。
【0050】以上説明したように、本発明の実施態様に
よれば、音声映像データ内に発生する第1の演技データ
の所在位置を示す索引を作成する装置において、上記音
声映像データは複数の演技を表す映像データと同期した
音声データを含み、上記第1の演技データは、該第1の
演技を表す少なくとも1つの音声特徴と少なくとも1つ
の映像特徴を有し、上記音声特徴を表す会話モデルを格
納するためのモデル会話データベースと、上記映像特徴
を表す映像モデルを格納するためのモデル映像データベ
ースと、上記音声データと上記格納された会話モデルと
を比較することにより、上記音声データ内の音声特徴の
位置を表す候補を決定するためのワードスポッタ装置
と、上記ワードスポッタ装置に接続され、上記各候補に
対して所定の範囲を設定する範囲設定手段と、上記範囲
設定手段に接続され、上記範囲内に所在決定される映像
データ部を複数のショットに区分する区分装置と、上記
区分装置とモデル映像データベースに接続され、上記区
分された映像データを解析し、該区分された映像データ
と上記格納映像モデルとの比較により、上記区分映像デ
ータ内の映像特徴の位置を示す映像所在位置を決定する
ための映像解析装置と、上記映像解析装置に接続され、
上記決定された映像所在位置により上記音声映像データ
内の上記第1の演技データの所在位置を示す索引を生成
する手段、とを有する索引作成装置を提供する。
【0051】上記各候補の所定範囲は、上記各候補の1
分前の開始位置と上記各候補の2分後の終了位置とを有
し、ビデオテープから上記音声映像データを読み出し、
上記音声データはデジタル音声データであり、上記映像
データはデジタル映像データである。また、上記音声特
徴が、所定の話しことばであり、上記会話モデルは、上
記所定の話しことばのエネルギーに基づく。
【0052】上記ワードスポッタ装置は、上記音声デー
タのエネルギーと上記エネルギー会話モデルとの間のユ
ークリッド距離により、上記音声所在位置を選択し、上
記会話モデルは、上記所定の話しことばのハイデンマー
コフモデル(Hidden MarkovModels)に基づく。また、
上記ワードスポッタ装置は、上記音声データと上記ハイ
デンマーコフ会話モデルとのハイデンマーコフモデル比
較により、上記音声所在位置を選択し、上記会話モデル
は、上記所定の話しことばの音声モデルに基づく。ま
た、上記ワードスポッタ装置は、上記音声データと上記
会話モデル間のダイナミック時間歪み解析により上記音
声所在位置を選択する。
【0053】上記各ショットは、ある演技内で分離した
活動体を示す一連の映像データであり、上記区分装置
は、上記区分された映像データと上記格納された映像モ
デルとのヒストグラム差X2比較に基づいて、上記映像
データ部を区分する。また、上記映像モデルは、上記映
像特徴のライン表示に基づき、上記映像解析装置は、上
記区分された映像データによりライン抽出を行い、上記
映像データを1組のラインとして表示するライン抽出装
置を有する。
【0054】上記映像モデルは、上記映像特徴の色特性
を有し、上記映像解析装置は、上記映像データの色デー
タと上記映像モデルの色特性とを比較する色解析装置を
有する。また、上記映像モデルが、上記映像特徴の構造
特性を有し、上記映像解析装置は、上記映像データの構
造データと上記映像モデルの構造特性とを比較する構造
解析装置を有する。
【0055】上記映像モデルはショットの所定移行に基
づき、上記各ショットは、ある演技内で分離した活動体
を示す一連の映像データであり、上記分離した活動体
は、フットボール競技でラインアップしているフットボ
ールの2チームを含み、上記分離した活動体は、フィー
ルドゴールを試みているフットボールチームを含み、上
記ショットの所定移行が、ラインアップショット、活動
ショット、結果ショット、および特別ポイントショット
を含む。また、上記映像解析装置は、上記映像データか
らのショットと上記所定移行ショットとを比較し、上記
第1の演技を識別する。
【0056】上記実施例は図示のために説明したもので
あり、本発明は記載の実施例に限定されるものではな
く、請求項に記載の範囲内において種々の変形が可能で
あることは、当業者に容易に理解されるであろう。
【0057】
【発明の効果】本発明によれば、競技プレーが発生する
所在位置の索引を、会話検知アルゴリズムとビデオ解析
アルゴリズムを用いて作成し、会話検知アルゴリズムは
ビデオテープのオーディオデータ部に特定のことばを割
り当てる。次に、特定のことばが検知される所在位置情
報をビデオ解析アルゴリズムに転送し、各所在位置に対
して範囲を設定し、各範囲はヒストグラム技法を用いて
複数のショットに区分する。ビデオ解析アルゴリズム
は、ライン抽出技法を用いて、任意のビデオ特徴に対し
て各区分範囲を解析し、競技プレーを識別する。ビデオ
解析により、ビデオテープにおける競技プレーの所在位
置に対して1組のポインタとして索引を作成出力し、ビ
デオテープにおける特定の競技行為の所在位置を自動的
に索引付けする方法と装置を提供することが可能とな
る。
【図面の簡単な説明】
【図1】 本発明の最高レベルの機能とデータ入出力を
示す動作フロー図。
【図2】 ビデオおよびオーディオ処理モジュールの概
略を示すブロックフロー図。
【図3】 ワードスポットアルゴリズムを示すブロック
図。
【図4】 ビデオショット区分アルゴリズムの動作処理
を示す動作フローブロック図。
【図5】 タッチダウンシーケンスの理想的ショットま
たは競技行為移行モデルを示すフロー図。
【図6】 (a)〜(d)は、ワードスポット試験結果
を示すグラフ図。
【図7】 (a)〜(d)は、ワードスポット試験結果
を示すグラフ図。
【図8】 サンプルテストセットの第1フレームのカッ
ト検知結果を示すグラフ図。
【図9】 (a)は、タッチダウンシーケンスのライン
アップショットを識別するためのグラフィック内容を示
すグラフィックフレーム図であり、(b)は図9aのグ
ラフィックフレーム内容を表すラインセグメントグラフ
ィック図。
【図10】 (a)は、タッチダウンシーケンスのキッ
クショットを識別するためのグラフィック内容を示すグ
ラフィックフレーム図であり、(b)は、図10aのグ
ラフィックフレーム内容を表すラインセグメントグラフ
ィック図。
【符号の説明】
30 オーディオビデオフレーム 32 ワードスポット工程 34 モデルスピーチデータベース 36 候補の範囲設定工程 38 ショット区分工程 40 ショットの解析工程 42 モデルビデオデータベース 44 索引作成工程
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI H04N 5/91 N

Claims (50)

    【特許請求の範囲】
  1. 【請求項1】 音声映像データ内に発生する第1の演技
    データの所在位置を示す索引を作成するためのコンピュ
    ータ内蔵型の会話および映像解析システムにおいて、上
    記音声映像データは複数の演技を表す映像データと同期
    した音声データを含み、上記第1の演技データは、該第
    1の演技を表す少なくとも1つの音声特徴と少なくとも
    1つの映像特徴を有し、 (a)上記音声特徴を表す会話モデルを格納するための
    モデル会話データベースを供給する工程と、 (b)上記映像特徴を表す映像モデルを格納するための
    モデル映像データベースを供給する工程と、 (c)上記音声データと上記格納された会話モデルとを
    比較することにより、上記音声データ内の音声特徴の位
    置を表す候補を決定するためのワードスポット処理工程
    と、 (d)上記各候補に対して所定の範囲を設定する工程
    と、 (e)上記範囲内に所在決定される映像データ部を複数
    のショットに区分する工程と、 (f)上記区分された映像データを解析し、該区分され
    た映像データと上記格納映像モデルとの比較により、上
    記区分映像データ内の映像特徴の位置を示す映像所在位
    置を決定する工程と、 (g)上記映像所在位置により上記第1の演技データの
    所在位置を示す索引を作成する工程、とを有する索引作
    成方法。
  2. 【請求項2】 上記各候補の所定範囲は、上記各候補の
    1分前の開始位置と上記各候補の2分後の終了位置とを
    有する請求項1に記載の方法。
  3. 【請求項3】 上記方法が、さらに、ビデオテープから
    上記音声映像データを読み出す工程を有する請求項1に
    記載の方法。
  4. 【請求項4】 上記方法が、さらに、上記音声データを
    デジタル化する工程を有する請求項1に記載の方法。
  5. 【請求項5】 上記方法が、さらに、上記映像データを
    デジタル化する工程を有する請求項1に記載の方法。
  6. 【請求項6】 上記音声特徴が、所定の話しことばであ
    る請求項1に記載の方法。
  7. 【請求項7】 上記方法が、さらに、上記所定の話しこ
    とばのエネルギーを決定する工程と、該決定されたエネ
    ルギーを上記会話モデルに格納する工程とを有する請求
    項6に記載の方法。
  8. 【請求項8】 上記方法が、さらに、上記音声データの
    エネルギーと上記エネルギー会話モデルとの間のユーク
    リッド距離により、上記候補を決定する工程を有する請
    求項7に記載の方法。
  9. 【請求項9】 上記方法が、さらに、上記所定の話しこ
    とばのハイデンマーコフモデル(Hidden Markov Model
    s)を決定する工程と、該決定されたハイデンマーコフ
    モデルを上記会話モデルに格納する工程とを有する請求
    項6に記載の方法。
  10. 【請求項10】 上記方法が、さらに、上記音声データ
    と上記ハイデンマーコフモデル会話モデルとのハイデン
    マーコフモデル比較により上記候補を決定する工程を有
    する請求項9に記載の方法。
  11. 【請求項11】 上記方法が、さらに、上記所定の話し
    ことばの音声モデルを決定する工程と、該決定された音
    声モデルを上記会話モデルに格納する工程とを有する請
    求項6に記載の方法。
  12. 【請求項12】 上記方法が、さらに、上記音声データ
    と上記会話モデル間のダイナミック時間歪み解析により
    上記候補を決定する工程を有する請求項11に記載の方
    法。
  13. 【請求項13】 上記各ショットは、ある演技内で分離
    した活動体を示す一連の映像データである請求項1に記
    載の方法。
  14. 【請求項14】 上記方法が、さらに、上記区分された
    映像データと上記格納された映像モデルとのヒストグラ
    ム差X2比較に基づいて、上記映像データを区分する工
    程を有する請求項13に記載の方法。
  15. 【請求項15】 上記方法が、さらに、上記映像特徴の
    ライン表示を、上記格納映像モデル内に格納する工程を
    有する請求項13に記載の方法。
  16. 【請求項16】 上記方法が、さらに、上記区分された
    映像データによりライン抽出を行う工程を有する請求項
    15に記載の方法。
  17. 【請求項17】 上記方法が、さらに、上記映像特徴の
    色特性を上記格納映像モデル内に格納する工程を有する
    請求項14に記載の方法。
  18. 【請求項18】 上記方法が、さらに、上記映像データ
    の色データと上記格納映像モデルの色特性とを比較する
    ことにより、映像所在位置を決定する工程を有する請求
    項17に記載の方法。
  19. 【請求項19】 上記方法が、さらに、上記映像特徴の
    構造特性を上記格納映像モデル内に格納する工程を有す
    る請求項13に記載の方法。
  20. 【請求項20】 上記方法が、さらに、上記映像データ
    の構造データと上記格納映像モデルの構造特性とを比較
    することにより、映像所在位置を決定する工程を有する
    請求項19に記載の方法。
  21. 【請求項21】 上記方法が、さらに、ショットの所定
    移行を上記映像モデル内に格納する工程を有し、上記各
    ショットは、ある演技内で分離した活動体を示す一連の
    映像データである請求項1に記載の方法。
  22. 【請求項22】 上記分離した活動体は、フットボール
    競技でラインアップしているフットボールの2チームを
    含む請求項21に記載の方法。
  23. 【請求項23】 上記分離した活動体は、フィールドゴ
    ールを試みているフットボールチームを含む請求項21
    に記載の方法。
  24. 【請求項24】 上記ショットの所定移行が、ラインア
    ップショット、活動ショット、結果ショット、および特
    別ポイントショットを含む請求項21に記載の方法。
  25. 【請求項25】 上記方法が、さらに、上記映像データ
    からのショットと上記格納された所定移行ショットとを
    比較し、上記第1の演技を識別する工程を有する請求項
    21に記載の方法。
  26. 【請求項26】 音声映像データ内に発生する第1の演
    技データの所在位置を示す索引を作成する装置におい
    て、上記音声映像データは複数の演技を表す映像データ
    と同期した音声データを含み、上記第1の演技データ
    は、該第1の演技を表す少なくとも1つの音声特徴と少
    なくとも1つの映像特徴を有し、 上記音声特徴を表す会話モデルを格納するためのモデル
    会話データベースと、 上記映像特徴を表す映像モデルを格納するためのモデル
    映像データベースと、 上記音声データと上記格納された会話モデルとを比較す
    ることにより、上記音声データ内の音声特徴の位置を表
    す候補を決定するためのワードスポッタ装置と、 上記ワードスポッタ装置に接続され、上記各候補に対し
    て所定の範囲を設定する範囲設定手段と、 上記範囲設定手段に接続され、上記範囲内に所在決定さ
    れる映像データ部を複数のショットに区分する区分装置
    と、 上記区分装置とモデル映像データベースに接続され、上
    記区分された映像データを解析し、該区分された映像デ
    ータと上記格納映像モデルとの比較により、上記区分映
    像データ内の映像特徴の位置を示す映像所在位置を決定
    するための映像解析装置と、 上記映像解析装置に接続され、上記決定された映像所在
    位置により上記音声映像データ内の上記第1の演技デー
    タの所在位置を示す索引を生成する手段、とを有する索
    引作成装置。
  27. 【請求項27】 上記各候補の所定範囲は、上記各候補
    の1分前の開始位置と上記各候補の2分後の終了位置と
    を有する請求項26に記載の装置。
  28. 【請求項28】 ビデオテープから上記音声映像データ
    を読み出す請求項26に記載の装置。
  29. 【請求項29】 上記音声データはデジタル音声データ
    である請求項26に記載の装置。
  30. 【請求項30】 上記映像データはデジタル映像データ
    である請求項26に記載の装置。
  31. 【請求項31】 上記音声特徴が、所定の話しことばで
    ある請求項26に記載の装置。
  32. 【請求項32】 上記会話モデルは、上記所定の話しこ
    とばのエネルギーに基づく請求項31に記載の装置。
  33. 【請求項33】 上記ワードスポッタ装置は、上記音声
    データのエネルギーと上記エネルギー会話モデルとの間
    のユークリッド距離により、上記音声所在位置を選択す
    る請求項32に記載の装置。
  34. 【請求項34】 上記会話モデルは、上記所定の話しこ
    とばのハイデンマーコフモデル(Hidden Markov Model
    s)に基づく請求項31に記載の装置。
  35. 【請求項35】 上記ワードスポッタ装置は、上記音声
    データと上記ハイデンマーコフ会話モデルとのハイデン
    マーコフモデル比較により、上記音声所在位置を選択す
    る請求項34に記載の装置。
  36. 【請求項36】 上記会話モデルは、上記所定の話しこ
    とばの音声モデルに基づく請求項31に記載の装置。
  37. 【請求項37】 上記ワードスポッタ装置は、上記音声
    データと上記会話モデル間のダイナミック時間歪み解析
    により上記音声所在位置を選択する請求項36に記載の
    装置。
  38. 【請求項38】 上記各ショットは、ある演技内で分離
    した活動体を示す一連の映像データである請求項26に
    記載の装置。
  39. 【請求項39】 上記区分装置は、上記区分された映像
    データと上記格納された映像モデルとのヒストグラム差
    2比較に基づいて、上記映像データ部を区分する請求
    項38に記載の装置。
  40. 【請求項40】 上記映像モデルは、上記映像特徴のラ
    イン表示に基づく請求項38に記載の装置。
  41. 【請求項41】 上記映像解析装置は、上記区分された
    映像データによりライン抽出を行い、上記映像データを
    1組のラインとして表示するライン抽出装置を有する請
    求項40に記載の装置。
  42. 【請求項42】 上記映像モデルは、上記映像特徴の色
    特性を有する請求項38に記載の装置。
  43. 【請求項43】 上記映像解析装置は、上記映像データ
    の色データと上記映像モデルの色特性とを比較する色解
    析装置を有する請求項42に記載の装置。
  44. 【請求項44】 上記映像モデルが、上記映像特徴の構
    造特性を有する請求項38に記載の装置。
  45. 【請求項45】 上記映像解析装置は、上記映像データ
    の構造データと上記映像モデルの構造特性とを比較する
    構造解析装置を有する請求項44に記載の装置。
  46. 【請求項46】 上記映像モデルはショットの所定移行
    に基づき、上記各ショットは、ある演技内で分離した活
    動体を示す一連の映像データである請求項26に記載の
    装置。
  47. 【請求項47】 上記分離した活動体は、フットボール
    競技でラインアップしているフットボールの2チームを
    含む請求項46に記載の装置。
  48. 【請求項48】 上記分離した活動体は、フィールドゴ
    ールを試みているフットボールチームを含む請求項46
    に記載の装置。
  49. 【請求項49】 上記ショットの所定移行が、ラインア
    ップショット、活動ショット、結果ショット、および特
    別ポイントショットを含む請求項46に記載の装置。
  50. 【請求項50】 上記映像解析装置は、上記映像データ
    からのショットと上記所定移行ショットとを比較し、上
    記第1の演技を識別する請求項46に記載の装置。
JP26716197A 1996-10-01 1997-09-30 デジタルビデオデータから索引付け情報を抽出するシステムとその方法 Expired - Fee Related JP3485766B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/723594 1996-10-01
US08/723,594 US5828809A (en) 1996-10-01 1996-10-01 Method and apparatus for extracting indexing information from digital video data

Publications (2)

Publication Number Publication Date
JPH10136297A true JPH10136297A (ja) 1998-05-22
JP3485766B2 JP3485766B2 (ja) 2004-01-13

Family

ID=24906908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26716197A Expired - Fee Related JP3485766B2 (ja) 1996-10-01 1997-09-30 デジタルビデオデータから索引付け情報を抽出するシステムとその方法

Country Status (2)

Country Link
US (1) US5828809A (ja)
JP (1) JP3485766B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001251581A (ja) * 2000-03-03 2001-09-14 Jisedai Joho Hoso System Kenkyusho:Kk スポーツ映像ダイジェスト作成方法およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002236496A (ja) * 2001-02-07 2002-08-23 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法、信号検出装置、記録媒体及びプログラム
US6826350B1 (en) 1998-06-01 2004-11-30 Nippon Telegraph And Telephone Corporation High-speed signal search method device and recording medium for the same
WO2007066450A1 (ja) * 2005-12-08 2007-06-14 Nec Corporation 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
KR100833807B1 (ko) 2000-10-30 2008-05-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 성질들을 이용하여 비디오 프로그램에서하이라이트들을 검출하는 시스템 및 방법

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418424B1 (en) 1991-12-23 2002-07-09 Steven M. Hoffberg Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US6160950A (en) * 1996-07-18 2000-12-12 Matsushita Electric Industrial Co., Ltd. Method and apparatus for automatically generating a digest of a program
US6360234B2 (en) 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US7295752B1 (en) * 1997-08-14 2007-11-13 Virage, Inc. Video cataloger system with audio track extraction
AUPP009697A0 (en) * 1997-10-29 1997-11-20 Canon Information Systems Research Australia Pty Ltd Image interpretation method and apparatas
AU727627B2 (en) * 1997-10-29 2000-12-14 Canon Kabushiki Kaisha Image Interpretation Method and Apparatus
US6072542A (en) * 1997-11-25 2000-06-06 Fuji Xerox Co., Ltd. Automatic video segmentation using hidden markov model
US6473095B1 (en) * 1998-07-16 2002-10-29 Koninklijke Philips Electronics N.V. Histogram method for characterizing video content
US6628835B1 (en) * 1998-08-31 2003-09-30 Texas Instruments Incorporated Method and system for defining and recognizing complex events in a video sequence
US6833865B1 (en) * 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
KR100296967B1 (ko) * 1999-01-30 2001-09-26 구자홍 멀티미디어 스트림의 다단계 요약 세그먼트 정보 스킴 구성 방법 및 구성된 다단계 요약 세그먼트 정보 스킴으로 부터 요약 스트림 발생 방법과 이러한 방법에 의해 제공되는 다단계 요약 스트림의 브라우징/녹화/편집 장치
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
EP1129573A2 (en) * 1999-07-06 2001-09-05 Koninklijke Philips Electronics N.V. Automatic extraction method of the structure of a video sequence
KR100775773B1 (ko) * 1999-07-06 2007-11-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 시퀀스 구조의 자동 추출 방법
US7383504B1 (en) * 1999-08-30 2008-06-03 Mitsubishi Electric Research Laboratories Method for representing and comparing multimedia content according to rank
US7028325B1 (en) * 1999-09-13 2006-04-11 Microsoft Corporation Annotating programs for automatic summary generation
US20050060641A1 (en) 1999-09-16 2005-03-17 Sezan Muhammed Ibrahim Audiovisual information management system with selective updating
US7050110B1 (en) * 1999-10-29 2006-05-23 Intel Corporation Method and system for generating annotations video
US6877010B2 (en) * 1999-11-30 2005-04-05 Charles Smith Enterprises, Llc System and method for computer-assisted manual and automatic logging of time-based media
US6693959B1 (en) * 2000-03-03 2004-02-17 Ati International Srl Method and apparatus for indexing and locating key frames in streaming and variable-frame-length data
US7260564B1 (en) 2000-04-07 2007-08-21 Virage, Inc. Network video guide and spidering
US7962948B1 (en) 2000-04-07 2011-06-14 Virage, Inc. Video-enabled community building
US7222163B1 (en) 2000-04-07 2007-05-22 Virage, Inc. System and method for hosting of video content over a network
US8171509B1 (en) 2000-04-07 2012-05-01 Virage, Inc. System and method for applying a database to video multimedia
US8028314B1 (en) 2000-05-26 2011-09-27 Sharp Laboratories Of America, Inc. Audiovisual information management system
US6839059B1 (en) 2000-08-31 2005-01-04 Interactive Video Technologies, Inc. System and method for manipulation and interaction of time-based mixed media formats
US20020026521A1 (en) * 2000-08-31 2002-02-28 Sharfman Joshua Dov Joseph System and method for managing and distributing associated assets in various formats
US6922702B1 (en) 2000-08-31 2005-07-26 Interactive Video Technologies, Inc. System and method for assembling discrete data files into an executable file and for processing the executable file
US8020183B2 (en) 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
US20020091840A1 (en) * 2000-11-28 2002-07-11 Gregory Pulier Real-time optimization of streaming media from a plurality of media sources
US6678635B2 (en) * 2001-01-23 2004-01-13 Intel Corporation Method and system for detecting semantic events
JP4191932B2 (ja) * 2001-03-08 2008-12-03 パナソニック株式会社 メディア配信装置およびメディア配信方法
JP3663362B2 (ja) * 2001-03-30 2005-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーション インデックス生成装置
US7904814B2 (en) 2001-04-19 2011-03-08 Sharp Laboratories Of America, Inc. System for presenting audio-video content
US7499077B2 (en) * 2001-06-04 2009-03-03 Sharp Laboratories Of America, Inc. Summarization of football video content
US20040205116A1 (en) * 2001-08-09 2004-10-14 Greg Pulier Computer-based multimedia creation, management, and deployment platform
US7296231B2 (en) 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments
US7474698B2 (en) 2001-10-19 2009-01-06 Sharp Laboratories Of America, Inc. Identification of replay segments
US7203380B2 (en) * 2001-11-16 2007-04-10 Fuji Xerox Co., Ltd. Video production and compaction with collage picture frame user interface
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
US7266287B2 (en) * 2001-12-14 2007-09-04 Hewlett-Packard Development Company, L.P. Using background audio change detection for segmenting video
US6585521B1 (en) * 2001-12-21 2003-07-01 Hewlett-Packard Development Company, L.P. Video indexing based on viewers' behavior and emotion feedback
US8214741B2 (en) 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
US7778438B2 (en) 2002-09-30 2010-08-17 Myport Technologies, Inc. Method for multi-media recognition, data conversion, creation of metatags, storage and search retrieval
US6996251B2 (en) * 2002-09-30 2006-02-07 Myport Technologies, Inc. Forensic communication apparatus and method
US10721066B2 (en) 2002-09-30 2020-07-21 Myport Ip, Inc. Method for voice assistant, location tagging, multi-media capture, transmission, speech to text conversion, photo/video image/object recognition, creation of searchable metatags/contextual tags, storage and search retrieval
US7657907B2 (en) 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
KR100511298B1 (ko) * 2002-12-09 2005-08-31 엘지전자 주식회사 멀티미디어 메시징 서비스 방법
US7006945B2 (en) * 2003-01-10 2006-02-28 Sharp Laboratories Of America, Inc. Processing of video content
US7313269B2 (en) * 2003-12-12 2007-12-25 Mitsubishi Electric Research Laboratories, Inc. Unsupervised learning of video structures in videos using hierarchical statistical models to detect events
WO2005076594A1 (en) * 2004-02-06 2005-08-18 Agency For Science, Technology And Research Automatic video event detection and indexing
CN1922863A (zh) * 2004-02-24 2007-02-28 皇家飞利浦电子股份有限公司 视频预告片
US7594245B2 (en) 2004-03-04 2009-09-22 Sharp Laboratories Of America, Inc. Networked video devices
US8356317B2 (en) 2004-03-04 2013-01-15 Sharp Laboratories Of America, Inc. Presence based technology
US8949899B2 (en) 2005-03-04 2015-02-03 Sharp Laboratories Of America, Inc. Collaborative recommendation system
US20050234992A1 (en) * 2004-04-07 2005-10-20 Seth Haberman Method and system for display guide for video selection
US9396212B2 (en) * 2004-04-07 2016-07-19 Visible World, Inc. System and method for enhanced video selection
US9087126B2 (en) * 2004-04-07 2015-07-21 Visible World, Inc. System and method for enhanced video selection using an on-screen remote
US7606425B2 (en) * 2004-09-09 2009-10-20 Honeywell International Inc. Unsupervised learning of events in a video sequence
JP4305921B2 (ja) * 2004-11-02 2009-07-29 Kddi株式会社 動画像話題分割方法
US7580922B2 (en) * 2005-01-04 2009-08-25 International Business Machines Corporation Methods for relating data in healthcare databases
US7801328B2 (en) * 2005-03-31 2010-09-21 Honeywell International Inc. Methods for defining, detecting, analyzing, indexing and retrieving events using video image processing
US20060238616A1 (en) * 2005-03-31 2006-10-26 Honeywell International Inc. Video image processing appliance manager
US7760908B2 (en) * 2005-03-31 2010-07-20 Honeywell International Inc. Event packaged video sequence
US20060233461A1 (en) * 2005-04-19 2006-10-19 Honeywell International Inc. Systems and methods for transforming 2d image domain data into a 3d dense range map
JP2006311462A (ja) * 2005-05-02 2006-11-09 Toshiba Corp コンテンツ検索装置及びその方法
US20070071404A1 (en) * 2005-09-29 2007-03-29 Honeywell International Inc. Controlled video event presentation
JP3908772B1 (ja) * 2005-12-26 2007-04-25 株式会社コナミデジタルエンタテインメント ゲーム装置、ゲーム装置の制御方法及びプログラム
US20070157071A1 (en) * 2006-01-03 2007-07-05 William Daniell Methods, systems, and computer program products for providing multi-media messages
US7881537B2 (en) 2006-01-31 2011-02-01 Honeywell International Inc. Automated activity detection using supervised learning
US8689253B2 (en) 2006-03-03 2014-04-01 Sharp Laboratories Of America, Inc. Method and system for configuring media-playing sets
US20070292112A1 (en) * 2006-06-15 2007-12-20 Lee Shih-Hung Searching method of searching highlight in film of tennis game
CN101563935B (zh) * 2006-12-19 2011-12-28 皇家飞利浦电子股份有限公司 将二维视频转换为三维视频的方法和系统
JP5022025B2 (ja) * 2006-12-27 2012-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。
CN101652999B (zh) * 2007-02-02 2016-12-28 霍尼韦尔国际公司 用于管理实况视频数据的系统和方法
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
GB2447053A (en) * 2007-02-27 2008-09-03 Sony Uk Ltd System for generating a highlight summary of a performance
DE102007063635A1 (de) * 2007-03-22 2009-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur zeitlichen Segmentierung eines Videos in Videobildfolgen und zur Auswahl von Keyframes für das Auffinden von Bildinhalten unter Einbeziehung einer Subshot-Detektion
WO2009003055A1 (en) * 2007-06-25 2008-12-31 University Of Southern California Alert when streaming media of live events on computer network
US8659657B2 (en) * 2008-01-25 2014-02-25 International Business Machines Corporation System and method for pattern based thresholding applied to video surveillance monitoring
JP5169403B2 (ja) * 2008-04-07 2013-03-27 ソニー株式会社 画像信号生成装置、画像信号生成方法、プログラム及び記憶媒体
US8495699B2 (en) 2008-12-23 2013-07-23 At&T Intellectual Property I, L.P. Distributed content analysis network
WO2010099575A1 (en) 2009-03-04 2010-09-10 Honeywell International Inc. Systems and methods for managing video data
TW201122863A (en) * 2009-12-31 2011-07-01 Hon Hai Prec Ind Co Ltd Video search device, search system, and search method
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
CN102073864B (zh) * 2010-12-01 2015-04-22 北京邮电大学 四层结构的体育视频中足球项目检测系统及实现
US8923607B1 (en) 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US20130089301A1 (en) * 2011-10-06 2013-04-11 Chi-cheng Ju Method and apparatus for processing video frames image with image registration information involved therein
US20130279573A1 (en) * 2012-04-18 2013-10-24 Vixs Systems, Inc. Video processing system with human action detection and methods for use therewith
CN103457961B (zh) * 2012-05-28 2018-06-15 郑惠敏 以网际网络为才艺表演者推广的方法
US9113125B2 (en) * 2012-09-12 2015-08-18 Intel Corporation Techniques for indexing video files
US9465995B2 (en) 2013-10-23 2016-10-11 Gracenote, Inc. Identifying video content via color-based fingerprint matching
US10845956B2 (en) 2017-05-31 2020-11-24 Snap Inc. Methods and systems for voice driven dynamic menus
US10482613B2 (en) 2017-07-06 2019-11-19 Wisconsin Alumni Research Foundation Movement monitoring system
US10810414B2 (en) 2017-07-06 2020-10-20 Wisconsin Alumni Research Foundation Movement monitoring system
US11450148B2 (en) 2017-07-06 2022-09-20 Wisconsin Alumni Research Foundation Movement monitoring system
US11587361B2 (en) 2019-11-08 2023-02-21 Wisconsin Alumni Research Foundation Movement monitoring system
US11682415B2 (en) * 2021-03-19 2023-06-20 International Business Machines Corporation Automatic video tagging

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JPH06150625A (ja) * 1992-11-02 1994-05-31 Fujitsu Ltd 音声と同期したムービー再生方式
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JP3171744B2 (ja) * 1994-03-15 2001-06-04 シャープ株式会社 音声及び動画の検索装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826350B1 (en) 1998-06-01 2004-11-30 Nippon Telegraph And Telephone Corporation High-speed signal search method device and recording medium for the same
JP2001251581A (ja) * 2000-03-03 2001-09-14 Jisedai Joho Hoso System Kenkyusho:Kk スポーツ映像ダイジェスト作成方法およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR100833807B1 (ko) 2000-10-30 2008-05-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 성질들을 이용하여 비디오 프로그램에서하이라이트들을 검출하는 시스템 및 방법
JP2002236496A (ja) * 2001-02-07 2002-08-23 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法、信号検出装置、記録媒体及びプログラム
WO2007066450A1 (ja) * 2005-12-08 2007-06-14 Nec Corporation 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
JP5145939B2 (ja) * 2005-12-08 2013-02-20 日本電気株式会社 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム

Also Published As

Publication number Publication date
US5828809A (en) 1998-10-27
JP3485766B2 (ja) 2004-01-13

Similar Documents

Publication Publication Date Title
JP3485766B2 (ja) デジタルビデオデータから索引付け情報を抽出するシステムとその方法
Chang et al. Integrated image and speech analysis for content-based video indexing
KR101994592B1 (ko) 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
Wang et al. Multimedia content analysis-using both audio and visual clues
JP4269473B2 (ja) オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
US20100005485A1 (en) Annotation of video footage and personalised video generation
Pfeiffer et al. Scene determination based on video and audio features
Huang et al. Automated semantic structure reconstruction and representation generation for broadcast news
US7349477B2 (en) Audio-assisted video segmentation and summarization
Ren et al. Football video segmentation based on video production strategy
US7590286B2 (en) Image recognition apparatus and program for recognizing the substance of an image, particularly in a motion picture environment
Zhang et al. Video content parsing based on combined audio and visual information
Kittler et al. Generation of semantic cues for sports video annotation
Elgamml et al. Semantic analysis in soccer videos using support vector machine
Otani et al. Textual description-based video summarization for video blogs
Velivelli et al. Detection of documentary scene changes by audio-visual fusion
Kyperountas et al. Enhanced eigen-audioframes for audiovisual scene change detection
Premaratne et al. Improving event resolution in cricket videos
Chaloupka A prototype of audio-visual broadcast transcription system
Kim et al. Extracting semantic information from basketball video based on audio-visual features
Liu et al. Event detection in sports video based on multiple feature fusion
Abdullah et al. Integrating audio visual data for human action detection
Liu et al. NewsBR: a content-based news video browsing and retrieval system
Wang et al. Identify sports video shots with" happy" or" sad" emotions
Bai et al. Semantic analysis of field sports video using a petri-net of audio-visual concepts

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081024

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091024

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees