JPH10136297A

JPH10136297A - デジタルビデオデータから索引付け情報を抽出する方法と装置

Info

Publication number: JPH10136297A
Application number: JP9267161A
Authority: JP
Inventors: Rin Chan Yu; ユー−リン・チャン; Tsuen Uenjun; ウェンジュン・ツェン
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-10-01
Filing date: 1997-09-30
Publication date: 1998-05-22
Anticipated expiration: 2017-09-30
Also published as: US5828809A; JP3485766B2

Abstract

(57)【要約】【課題】ビデオテープにおける特定の競技行為の所在
位置を自動的に索引付けする方法と装置を提供するこ
と。【解決手段】競技プレーが発生する所在位置の索引
を、会話検知アルゴリズムとビデオ解析アルゴリズムを
用いて作成する。会話検知アルゴリズムはビデオテープ
のオーディオデータ部に特定のことばを割り当てる。次
に、特定のことばが検知される所在位置情報をビデオ解
析アルゴリズムに転送し、各所在位置に対して範囲を設
定し、各範囲はヒストグラム技法を用いて複数のショッ
トに区分する。ビデオ解析アルゴリズムは、ライン抽出
技法を用いて、任意のビデオ特徴に対して各区分範囲を
解析し、競技プレーを識別する。ビデオ解析により、ビ
デオテープにおける競技プレーの所在位置に対して１組
のポインタ、すなわち、索引を、最終的に作成出力す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、文脈依存
ビデオ索引付け情報およびビデオ情報の抽出システムに
関し、特に、会話理解技法と画像解析とを結合し統合し
た情報抽出システムに関する。

【０００２】

【従来の技術】索引付け技法は、電子工学的に格納され
た情報の所在決定をより容易にする。例えば、原文情報
データベースはキーワードによって索引付けすることが
可能であり、しかもデータベース全体を開始から終了ま
で連続して検索することなしに、これらキーワードの代
表例を直接的に割り当てることが可能である。所定のキ
ーワードに、前もって索引またはポインタを付与するこ
とにより、情報復元システムは、これらキーワードの代
表例を、情報格納後に所在決定用に割り当てることによ
り、一時に一素子ずつ全データベースを検索する非効率
的な技法で行うよりも、はるかに迅速かつ効率的に行う
ことができる。

【０００３】画像依存情報システムもまた索引付け可能
であり、任意のキー画像が迅速かつ効率的にアクセス可
能であることが望ましい。同様に、オーディオビデオ情
報（例えば、ビデオテープ、マルチメディア、ビデオオ
ンデマンド供給、デジタルライブラリおよびビデオ編集
システム用媒体供給源など）もまた索引付けシステムが
適用可能であることが望ましい。

【０００４】これら索引付けの利点が得られることは勿
論喜ばしいことではあるが、このような索引付けシステ
ムを構成することは、特に、オーディオビデオ情報が含
まれる場合は複雑な問題が存在する。実際、この問題は
原文情報システムの索引を作成する場合よりもはるかに
複雑である。その理由としては、原文情報システムは直
ちに離散ワードに解体でき、各ワードは文字対応によっ
て所定のキーワードと比較することができるが、オーデ
ィオビデオ情報は非常に高度で複雑であるので、同様に
は解体することはできない。この問題の複雑性を理解
し、また本発明の開示において有用な例を提供するため
に、例えば、前年のスーパーボール競技において、タッ
チダウンがなされたすべての正確なオーディオビデオデ
ータの瞬間の所在決定をする場合の問題点について考え
てみる。その目的は、オーディオビデオデータ画面から
必要な情報を抽出することにより、これら競技行為の所
在決定を行い、索引を作成し、将来の参照用としてこれ
ら競技行為の所在場所を記録可能とすることである。

【０００５】オーディオビデオデータソースからこの必
要なデータを抽出することの理解がさらに達成されれ
ば、オーディオビデオデータはすべての様式の傾向分析
に対して処理可能となるであろう。そのときフットボー
ルのコーチは、オーディオビデオ情報の索引付けされた
データベースを利用して、例えば、競技相手がゴールラ
インからある距離内にいた場合のすべての場面を分析す
ることができるであろう。それによって、コーチはこれ
ら発生状況を調べ、競技相手がゴールラインに接近して
いるときの彼らの行動における傾向性を決定することが
できるであろう。この観点において、索引付けシステム
は、単にゴールラインへの接近またはタッチダウンに限
定されることはない。むしろ、索引付けシステムは、所
定のキーとなる競技行為または他のオーディオビデオの
索引によって全競技を索引付けすることができ、ユーザ
は相当に複雑な問題を情報システムに提起することがで
きるであろう。

【０００６】

【発明が解決しようとする課題】従来のビデオ依存情報
の索引付けに対する試みは、記述的原文メッセージを有
する付加ビデオを含んでいた。したがってビデオはキー
ワードを設けることによって検索され、該ビデオを伴う
記述的原文メッセージの検索を行う。しかし、多数の画
像用に原文全体を作成しなければならない（これはかな
り大きな労働作業となる）だけでなく、原文自体が関連
するビデオ全体を充分に記述できないことがあるという
問題点が残る。

【０００７】ビデオ依存情報の索引付けには、視覚的フ
ォーマットと原文フォーマットとの間の本来的な違いに
よる特異な問題が存在する。したがって、従来の原文に
よる索引付け方法は、ビデオ依存情報に対する効率的な
索引を提供するためには、ほとんど利用できない。

【０００８】従来のビデオ解析アルゴリズムを用いた試
みは、ゴング等（Gong et al.）によって実行された作
業（Y. Gong et al. による「テレビサッカー番組の自
動解析、マルチメディアコンピューティングに関する第
２回ＡＣＭ国際会議」１６７ー１７４ページ、１９９５
年５月、参照）を含む。彼らの試みでは、画像の所定キ
ーの特徴と、該特徴とアポリオリモデルとの比較に基づ
いて、ビデオ内容が決定される。上記従来の技法では、
ビデオデータのみ解析されるが、付加ビデオの内容を高
度に表示していると思われる音声データの解析は、含ま
れていない。

【０００９】

【課題を解決するための手段】本発明は、ビデオテープ
データから、オーディオおよびビデオデータ内容に基づ
いて、索引付け情報を自動的に抽出する方法および装置
を提供することを目的とする。上記目的を達成するため
に、本発明では２段階処理工程が採用されている。すな
わち、まず最初に、オーディオ処理モジュールが適用さ
れて、全データ中における候補情報の所在位置が決定さ
れる。この情報はビデオ処理モジュールに送られ、さら
にビデオデータの解析が行われる。ビデオ解析の最終段
階では、ビデオにおいて関心のある競技行為（競技種
目、場面）の所在決定のためのポインタまたはインデッ
クス（索引付け）が作成出力される。

【００１０】本発明では、オーディオビデオデータ内で
発生する第１の競技行為の所在位置を示す索引を形成す
るための、コンピュータ内蔵型スピーチ／ビデオ解析シ
ステムを提供する。オーディオビデオデータは、複数の
競技行為を表示するために、ビデオデータと同期したオ
ーディオデータを含む。第１の競技行為は、該第１の競
技行為を示す少なくとも１つのオーディオ特徴と、少な
くとも１つのビデオ特徴を有する。本発明では、オーデ
ィオ特徴を表すスピーチモデルを格納するためのモデル
スピーチデータベースと、ビデオ特徴を表すビデオモデ
ルを格納するためのモデルビデオデータベースを使用す
る。候補情報を決定するために、オーディオデータと格
納されたスピーチモデルとを比較することによって、ワ
ードスポット処理が行われる。該候補はオーディオデー
タ内のオーディオ特徴の位置を示す。所定の範囲が各候
補に対して設定される。上記範囲内に所在するビデオデ
ータの部分は複数のショットに区分される。区分された
ビデオデータは解析され、上記区分されたビデオデータ
と格納されたビデオ所在位置との比較に基づいてビデオ
所在決定を行う。ビデオ所在決定はビデオデータ内のビ
デオ特徴の位置を示す。上記ビデオ所在決定に基づい
て、上記第１の競技行為の所在位置を示す索引が発生さ
れる。

【００１１】本発明の態様によれば、競技行為として、
例えば、タッチダウン、ファンブルその他フットボール
に関する競技プレーが発生する所在位置の索引を、会話
検知アルゴリズムとビデオ解析アルゴリズムを用いて作
成し、会話検知アルゴリズムはビデオテープのオーディ
オデータ部に特定のことばを割り当てる。次に、特定の
ことばが検知される所在位置情報をビデオ解析アルゴリ
ズムに転送し、各所在位置に対して範囲を設定し、各範
囲はヒストグラム技法を用いて複数のショットに区分す
る。ビデオ解析アルゴリズムは、ライン抽出技法を用い
て、任意のビデオ特徴に対して各区分範囲を解析し、競
技プレーを識別する。ビデオ解析により、ビデオテープ
における競技プレーの所在位置に対して１組のポイン
タ、すなわち、索引を作成出力し、ビデオテープにおけ
る特定の競技行為の所在位置を自動的に索引付けする方
法と装置を提供する。

【００１２】本発明の他の特徴及び利点は、添付の図面
を参照して以下の本発明の詳細な説明により明らかとな
るであろう。以下、本発明の実施例を添付の図面を参照
して詳細に説明する。

【００１３】

【発明の実施の形態】図１は、本発明の索引付けシステ
ムの動作機能の概要を示す。ビデオテープのオーディオ
ビデオフレーム３０は、オーディオデータとビデオデー
タとの両方を含む。ビデオテープ上で、オーディオデー
タ部は、会話ワードなどの音声を表すデータを含む。同
様に、ビデオデータ部は、場面の視覚的態様を表すデー
タをビデオテープ上に含む。もしオーディオおよびビデ
オデータがデジタルフォーマットでない場合は、本発明
による処理が実行される前に、デジタルフォーマットに
変換される。

【００１４】ワードスポット処理工程３２では、ワード
スポット処理を行うことにより、オーディオビデオフレ
ーム３０のオーディオデータ部が解析され、候補情報が
決定される。ワードスポット処理３２では、オーディオ
データ内の特徴を所在決定するために、モデルスピーチ
データベース３４を使用する。例えば、もしユーザがビ
デオテープ上でタッチダウン場面を検索したい場合は、
会話ワードの「タッチダウン」などの特徴がワードスポ
ット処理３２で検索される。モデルスピーチデータベー
ス３４でのモデルとしてこのオーディオ特徴が見つけら
れたということが、ワードスポット処理３２で決定され
ると、該特徴が発生したフレーム番号が候補情報として
格納される。

【００１５】範囲設定処理工程３６では、各候補の近辺
に所定の範囲が設定される。区分処理工程３８では、上
記各範囲は、２個の隣接するフレーム間の差異の程度に
より区分処理するヒストグラム技法に基づいて、複数の
ショットに区分される。ショット解析工程４０では、モ
デルビデオデータベース４２を用いて、上記範囲設定処
理３６で設定された範囲内でビデオ特徴を検索する。ま
た、ショット解析工程４０では、ライン抽出技法を適用
して、フレーム３０からのビデオデータとモデルビデオ
データベース４２のデータとが比較処理される。タッチ
ダウンの例では、ショット解析処理４０で検索したいビ
デオ特徴として、互いに向かい合ってラインアップして
いるフットボールチームが用いられるであろう。モデル
ビデオデータベース４２は、上記ラインアップチームと
似ているモデルを含むであろう。ショット解析工程４０
で、ビデオテープ内のすべてのビデオ特徴の所在決定が
終了したならば、索引作成工程４４で、これらフレーム
の所在決定用の索引が作成される。

【００１６】図２は、本発明の好ましい実施例で使用さ
れたハードウェアモジュールと、その動作フローを示
す。上記実施例では、３個の主要なハードウェア構成要
素、すなわち、オーディオ処理要素とビデオ処理要素と
デモビデオデータベースとを有する。

【００１７】ビデオテープからのアナログビデオデータ
とアナログオーディオデータは、まず最初にデジタル変
換処理される。すなわち、Ｍ−ＪＰＥＧビデオキャプチ
ャカード６０は、アナログビデオデータをデジタルＡＶ
Ｉフォーマットに変換する。サウンドブラスタオーディ
オカード６２は、アナログオーディオデータをデジタル
ＷＡＶフォーマットに変換する。オーディオ解析モジュ
ール６４は、ワードスポット処理を行い、また必要に応
じて補助の音声を検知することにより、上記デジタルオ
ーディオデータ内の候補の所在決定を行う。

【００１８】これらモジュール６０および６４で得られ
た情報はビデオ解析モジュール６６へ転送され、区分処
理とショット確認処理によりビデオデータが解析され
る。ビデオ解析モジュール６６から出力される索引付け
情報は、注目の競技行為場面の所在決定に対してポイン
タとしての機能形態をとる。オーディオ及びビデオ解析
アルゴリズムを実行するために、本実施例ではコーラス
（Khoros）システムが使用された。

【００１９】索引付けされたビデオは、ＬＡＮ依存型ビ
デオオンデマンド（以下、ＶＯＤと記載）サーバ、すな
わち、本実施例ではスターワークＶＯＤサーバ６８上に
配置される。また、デモビデオデータベース（以下、Ｖ
ＤＢと記載）クライエントは、ＰＣ駆動マイクロソフト
ウインドウから索引付けされたビデオを復元するために
使用される。本実施例では、この復元動作７０のために
マイクロソフトウインドウＶＤＢが使用される。

【００２０】オーディオ信号解析テレビスポーツ番組に関する１つの重要な観点は、この
ような番組ではオーディオ情報の内容とビデオ情報の内
容とは密接に相互関係があるということである。この密
接な相関は、スポーツリポータの主な役割が、競技場に
おいて現在何が起こっているかを観戦者に知らせること
であることによる。したがって、もし“タッチダウン”
または“ファンブル”などの重要なキーワードがオーデ
ィオデータ流において検出できれば、このオーディオデ
ータは、重要な競技行為の候補を所在決定するための大
まかなフィルタとして使用できる。

【００２１】本実施例によれば、オーディオ処理の演算
はビデオ処理の演算よりも低費用で実施できるので、情
報はまず初めにオーディオ処理によるデータからの抽出
が行われる。本発明では、キーワードをスポット処理す
るために、テンプレートマッチングによる技法が採用さ
れている。しかし、本発明はこの技法に限定されるべき
ではなく、他の多くの会話確認アルゴリズムが存在し、
例えば、本発明の他の実施例では、ハイデンマーコフモ
デルとダイナミックタイムラッピング(HiddenMarkov Mo
dels and Dynamic Time Wrapping)の会話確認アルゴリ
ズムを用いていることに留意すべきである。

【００２２】テンプレートマッチング技法は、下記の理
由により、本発明にとって信頼できる候補情報を提供す
る。すなわち、オーディオデータ処理はビデオ解析の前
処理として採用され、したがって、偽りアラームは主要
な要件ではない。また、スポーツリポータは通常は事前
に知らされているので、会話者の独立性もまた主要な要
件ではない。

【００２３】図３は、テンプレートとテストデータとの
特徴整合のためのワードスポット処理用アルゴリズムを
示す。第１オーディオＶＩＦＦデータ変換モジュール１
００は、テストオーディオデータとテンプレートオーデ
ィオデータをＷＡＶフォーマットからＶＩＦＦフォーマ
ットへ変換する。ＶＩＦＦフォーマットは公的領域のパ
ッケージローテック（Ｌｏｔｅｃ）用のデータフォーマ
ットである。ここで、ローテックは会話検出アルゴリズ
ムの好ましい実施例である。

【００２４】特徴抽出モジュール１０４は、テストオー
ディオデータとテンプレートオーディオデータからそれ
ぞれ特徴を抽出する。特徴抽出モジュール１０４では、
最初に、ノイズ統計データがテンプレートオーディオデ
ータから集計され、テストオーディオデータに含まれる
背景ノイズの影響が除去される。テストデータ内のノイ
ズを濾過処理するときに、統計的情報が使用される。そ
の後、オーディオデータ流が各１０ミリ秒の固定サイズ
のセグメントに分割される。最後にテストオーディオデ
ータとテンプレートオーディオデータはファーストフー
リエ変換（ＦＴＴ）により周波数領域に変換される。８
個の重ね合わせフィルタのセットがフーリエ量に適用さ
れ、各格納部の合計エネルギーの対数値が計算され、オ
ーディオデータを表す特徴として使用される。上記フィ
ルタは１５０ヘルツ乃至４０００ヘルツ（Ｈｚ）の周波
数領域を取り扱い範疇とする。

【００２５】特徴整合モジュール１０８は、テストオー
ディオデータから引き出された特徴ベクトルを、テンプ
レートオーディオデータから引き出された特徴とマッチ
ング（整合）させる。テストオーディオデータとテンプ
レートオーディオデータ間の正規化された距離が、同様
の測定に使用された。テンプレートとテストデータ間の
距離は、２個の８次元特徴ベクトル間のユークリッド距
離として定義されている。次に、上記距離は各テンプレ
ートのエネルギーの総和によって正規化される。

【００２６】特徴マッチング処理の後、すべてのテンプ
レートからの最良マッチングが上記距離により分類され
る。マッチングの信頼性を表すために距離の逆数が使用
される。この信頼性が予め設定されたしきい値よりも大
きいときは、候補の決定が宣言される。

【００２７】ビデオ情報解析オーディオ解析モジュールによって検出された候補は、
更にビデオ解析モジュールによって検査される。タッチ
ダウンの候補が時間ｔで所在決定されたとすると、ビデ
オ解析は領域（ｔ−１分、ｔ＋２分）に適用される。上
記仮定は、タッチダウンの競技行為場面は上記時間範囲
内で開始及び終了することを意味する。ビデオ処理で
は、原ビデオシーケンスは複数の離散ショットに分類さ
れる。各ショットからキーフレームが抽出され、ショッ
ト識別が上記キーフレームに適用されてタッチダウンの
存在が確認される。

【００２８】特に、ビデオ解析モジュール６６では、ヒ
ストグラム差によるビデオショット区分処理アルゴリズ
ムが使用される。フレームのヒストグラムがその前のフ
レームのヒストグラムと実質差異があると判断されると
きは、セグメントはＸ²比較計算式、

【数１】によって検出される、ここで、Ｈ_tは時間ｔに対するヒ
ストグラムであり、Ｇは画像における色の総数である。

【００２９】図４は、コーラス（Khoros)条件での上記
Ｘ²比較式を実行するショットセグメント動作のフロー
チャートを示す。入力ＡＶＩ動作工程１５０では、ＡＶ
Ｉ符号化データ流がＶＩＦＦに変換される。ビデオヒス
トグラム動作１５４では、ＶＩＦＦビデオのヒストグラ
ムが計算される。翻訳動作１５８は、時間内にＶＩＦＦ
対象をシフト動作するコーラス(Khoros)機能を有する。

【００３０】減算動作工程１６２は、２個のＶＩＦＦ対
象を減算処理するためのKhoros機能を有する。２乗処理
工程１６６は、２乗処理をＶＩＦＦ対象に適用するため
のKhoros機能を有する。値代入動作工程１７０は、ＶＩ
ＦＦ対象の値を代入するためのKhoros機能を有する。こ
こで、ゼロによる割算は排除される。除算動作工程１７
４は２個のＶＩＦＦ対象を除算するためのKhoros機能を
有する。統計動作工程１７８は、ＶＩＦＦ対象の統計を
計算するためのKhoros機能を有する。ショットセグメン
ト動作工程１８２では、ヒストグラム差シーケンスにお
けるピーク値を所在決定することにより、ショット移行
境界が検出される。キーフレーム格納動作工程１８６で
は、各ショットから代表フレームが抽出され、新たなＶ
ＩＦＦビデオとして格納される。

【００３１】ショットセグメント処理が完了した後、本
発明ではモデル依存技法を用いてキーフレームの内容を
識別する。オーディオ解析によって与えられた候補の所
在決定を用いて処理は開始し、本発明では、前後の数シ
ョットを見てモデルをビデオデータと適合させる。マッ
チングにおける信頼性が高い場合は、タッチダウン場面
の検出が宣言される。

【００３２】モデル内のデータに対応するようなショッ
トを確認するために、注目の特徴のいくつかとそれらの
発生場面のシーケンスが抽出される。フットボールのビ
デオでは、利用可能な注目の特徴として、ラインマー
カ、プレーヤ数、エンドゾーン、ゴールポストおよびそ
の他のフットボールに関する特徴がある。

【００３３】例えば、タッチダウンシーケンスでは、図
５において、理想的なモデルとして考えられる注目の特
徴と、タッチダウン場面を構成するショットのシーケン
スが示されている。理想的には、タッチダウンシーケン
スはフィールドにラインアップしている２チーム（すな
わち、ラインアップショット２００）をもって開始すべ
きである。ラインアップショット２００は、典型的に
は、傾斜線マーカ２０４とプレーヤ２０８とを示す。タ
ッチダウンというワード２１２は、通常、動作ショット
２１６の中程または終わりでアナウンスされ、その後、
ある種の後続ショット２１８が続き、さらに注釈及びリ
プレイショット２２０が続く。特別ポイントショット２
２４は通常タッチダウンシーケンスの結論部分となる。
特別ポイントショットは、典型的には、主にゴールポス
ト２２８間のプレーヤ２０８と、互いにほぼ平行な線と
してのゴールポスト２２８を示す。ビデオデータがこれ
ら特徴を含み、上記相対的シーケンス内にある場合は、
タッチダウン場面の検知が宣言される。

【００３４】この理想的なタッチダウンビデオモデル
は、すべてではないが、可能なタッチダウンシーケンス
のほとんどをカバーする。しかし、それでもこの実施例
ではなお満足できる結果が得られる。本発明の好ましい
実施例は、これらシーケンスのモデルを形成することに
より、すべての可能なタッチダウンシーケンスをカバー
する構成も含む。例えば、好ましい実施例では、タッチ
ダウンに後続して２点変換を意図してチームをモデル化
する構成も含まれる。

【００３５】好ましい実施例で採用されたビデオ確認用
ライン抽出作業は、対象確認技術(Object Recognition
Toolkit)に基づいている。KhorosシステムはこのToolki
t技術を導入するように変形されている。各ショットに
対して１個または２個の代表フレームが存在する。これ
ら代表フレームに対して最初に勾配測定動作が適用さ
れ、端部が検出される。端部画素は次に画素連鎖(Pixel
Chaining)により連結された画素リストに変換される。
連鎖画素リストは複数の直線セグメントに区分され、更
に平行線群に分類される。各平行線の組みは、さらに長
さ及び方向的にフィルタ処理される。

【００３６】例えば、検出された平行線はゴールポスト
に対して垂直方向に延在しなければならない。同様に、
検出された平行線はポテンシャルラインマーカとなるた
めに、長く延在し、斜め方向に向いていなければならな
い。

【００３７】本発明の１実施例では、画像強度の値がラ
イン抽出用に利用されている。しかし、本発明の他の実
施例では、性能向上のために色および構造などの他の情
報が利用されている。

【００３８】デモビデオデータベースウィンドウ用マイクロソフトビデオ（ＭＳ／ＶＦＷ）に
おいて動作するデモビデオデータベースシステムが、本
発明を実現するために使用されている。デモビデオデー
タベースシステムは２つの構成部分、すなわちサーバ部
とクライエント部を有する。

【００３９】本発明では、サーバとしてスターライト社
製のスターワークスＶＯＤシステムが使用された。サー
バは、Lynxリアルタイム動作システムと４ＧＢ（ギガバ
イト）格納スペースとを用いて、EISA-バス PC-486/66
上で動作する構成とした。PC/Windows クライエント部
が、規格１０ベースＴイーサネットを介してサーバに接
続可能である。サーバは、２個のイーサネットセグメン
トを介して、１２メガビット／秒（Ｍｂｐｓ）までのビ
デオ／オーディオデータ流のリアルタイム供給を保証す
る。

【００４０】クライエント部に対しては、ビデオプレー
ヤ装置が、索引付け情報とともにＡＶＩビデオデータを
アクセスできるＭＳ／ＶＦＷ用に開発されている。この
ビデオプレーヤを用いて、ユーザは次段または前段のシ
ョット、演技または競技行為に直接移動することができ
る。このような検索性能は従来のリニアファーストフォ
アワード／バックワード移動に対して相補的に構成可能
である。

【００４１】本発明の例本発明のアルゴリズムは実際のテレビ番組を用いて試験
された。下記の表１は実験で使用されたデータの概要を
示す。表１グループネームフレーム番号タイムゲームタッチダウン練習ｔｄ１ 1,297 1:27 ケ゛ーム1、第1ハーフイエスｔｄ２ 2,262 2:31 ケ゛ーム1、第1ハーフイエスｔｄ３ 1,694 1:53 ケ゛ーム1、第1ハーフイエス試験第2ハーフ1 7,307 8:07 ケ゛ーム1、第2ハーフノー第2ハーフ2 6,919 7:41 ケ゛ーム1、第2ハーフノー第2ハーフ3 6,800 7:33 ケ゛ーム1、第2ハーフイエス第2ハーフ4 5,592 6:37 ケ゛ーム1、第2ハーフノー第2ハーフ5 2,661 2:58 ケ゛ーム1、第2ハーフイエス第2ハーフ6 2,774 3:05 ケ゛ーム1、第2ハーフイエス第2ハーフ7 2,984 3:19 ケ゛ーム1、第2ハーフイエス新ゲーム１ 2,396 2:40 ゲーム２イエス

【００４２】２つのフットボールゲームから合計４５分
のビデオ及びオーディオデータが試験用に使用された。
データは練習と試験の２つのグループに分けられた。練
習グループのデータのみ練習用に使用され、システムパ
ラメータが調整された。ビデオの解像度は、毎秒１５フ
レームで１９２分の２５６であった。オーディオデータ
レートはサンプル当り８ビットで２２キロヘルツ（ＫＨ
ｚ）であった。

【００４３】オーディオ処理結果図６ａ乃至図６ｄおよび図７ａ乃至図７ｄは、８組の試
験において、該試験データとテンプレートオーディオデ
ータ間のユークリッド距離を用いたオーディオ処理の結
果を示す。各グラフ図において、Ｘ軸２６０は時間を示
し、Ｙ軸２６４は信頼度を表す。信頼度が高いほど、タ
ッチダウンの存在の可能性は大きくなる。練習用データ
から、ワードスポットしきい値は２５の値に設定され
る。表２にオーディオ処理結果の概要を示す。表２アルゴリズム正確検知誤検知偽アラームワードスポット５分の４５分の１０

【００４４】一般に、ワードスポットアルゴリズムは信
頼できる結果を提供してくれる。試験データ内に存在す
る５個のタッチダウンの内、第２ハーフ７の１つだけ正
しく検知されなかった。誤検知は、主に、第２ハーフ７
では、タッチダウンは使用された３つのテンプレートと
異なった方法でアナウンスされたという事実により、発
生している。１実施例ではしきい値を１０に減少させて
いるが、このために多くの偽アラームの発生（４５回予
測される）という欠点がある。別の実施例では、もっと
多くのテンプレート用サンプルを集めて精度を向上させ
ている。しかし、第１実施例では、ダイナミックタイム
ラッピングなどのもっと粗雑なマッチングアルゴリズム
が使用されている。また別の実施例では、ハイデンマー
コフモデルＨＭＭ（Hidden Mrkov Model)手法が用いら
れている。

【００４５】ビデオ処理結果試験データ第２ハーフ２はショット区分処理の例として
使用されている。オディオ処理モジュールで検出された
候補の周辺領域のみに関心があるので、１,４７１フレ
ームのみ処理された。図８は１,４７１フレームの区分
処理結果を示す。Ｘ軸３００はフレーム数を表し、Ｙ軸
３０４はＸ²比較式によるヒストグラム差を表す。

【００４６】タッチダウン場面がモデルと適合し、キッ
クショットが区分処理アルゴリズムによって正確に検出
されるならば、ライン抽出アルゴリズムはゴールポスト
を検出する。ラインマークの検出はさらに困難である
が、ライン抽出器はそれでも信頼できる動作を行う。本
発明の実施例では、ラインマーク抽出用のより良い結果
を得るために、エッジ検出器では色情報が使用されてい
る。表３にビデオ解析結果を示す。表３アルゴリズム正確検知誤検知偽アラームショット識別５分の４５分の１０

【００４７】タッチダウンを有する５組の試験データの
内、実際には第２ハーフ６がモデルに適合していない
が、この理由は、それのタッチダウンが（ラインアップ
ショットではなく）キックオフショットをもって開始
し、また（特別ポイントショットをキックするのではな
く）２点変換ショットをもって終了しているためであ
る。

【００４８】最後に、図９ａは、本発明でのこの例に対
するライン抽出の処理方法を示す。図９ａに示すライン
アップショットのビデオ画面では、ラインマーカ３５０
ａ、３５４ａ、３５８ａが図示されている。図９ｂは、
ライン抽出アルゴリズムによりラインアップショットを
処理した結果を示す。ライン抽出アルゴリズムは、図９
ａのラインマーカ３５０ａ、３５４ａ、３５８ａを、そ
れぞれ３５０ｂ、３５４ｂ、３５８ｂのように形成す
る。

【００４９】図１０ａに示す特別ポイントショットのビ
デオ画面では、ラインマーカ３８０ａとゴールポスト３
８４ａ及び３８８ａが表示されている。図１０ｂは、ラ
イン抽出アルゴリズムによる特別ポイントショットの処
理結果を示す。このライン抽出アルゴリズムによって、
図１０ａのラインマーカ及びゴールポストを、それぞれ
ライン３８０ｂとゴールポスト３８４ｂ及び３８８ｂの
ように形成する。

【００５０】以上説明したように、本発明の実施態様に
よれば、音声映像データ内に発生する第１の演技データ
の所在位置を示す索引を作成する装置において、上記音
声映像データは複数の演技を表す映像データと同期した
音声データを含み、上記第１の演技データは、該第１の
演技を表す少なくとも１つの音声特徴と少なくとも１つ
の映像特徴を有し、上記音声特徴を表す会話モデルを格
納するためのモデル会話データベースと、上記映像特徴
を表す映像モデルを格納するためのモデル映像データベ
ースと、上記音声データと上記格納された会話モデルと
を比較することにより、上記音声データ内の音声特徴の
位置を表す候補を決定するためのワードスポッタ装置
と、上記ワードスポッタ装置に接続され、上記各候補に
対して所定の範囲を設定する範囲設定手段と、上記範囲
設定手段に接続され、上記範囲内に所在決定される映像
データ部を複数のショットに区分する区分装置と、上記
区分装置とモデル映像データベースに接続され、上記区
分された映像データを解析し、該区分された映像データ
と上記格納映像モデルとの比較により、上記区分映像デ
ータ内の映像特徴の位置を示す映像所在位置を決定する
ための映像解析装置と、上記映像解析装置に接続され、
上記決定された映像所在位置により上記音声映像データ
内の上記第１の演技データの所在位置を示す索引を生成
する手段、とを有する索引作成装置を提供する。

【００５１】上記各候補の所定範囲は、上記各候補の１
分前の開始位置と上記各候補の２分後の終了位置とを有
し、ビデオテープから上記音声映像データを読み出し、
上記音声データはデジタル音声データであり、上記映像
データはデジタル映像データである。また、上記音声特
徴が、所定の話しことばであり、上記会話モデルは、上
記所定の話しことばのエネルギーに基づく。

【００５２】上記ワードスポッタ装置は、上記音声デー
タのエネルギーと上記エネルギー会話モデルとの間のユ
ークリッド距離により、上記音声所在位置を選択し、上
記会話モデルは、上記所定の話しことばのハイデンマー
コフモデル（Hidden MarkovModels）に基づく。また、
上記ワードスポッタ装置は、上記音声データと上記ハイ
デンマーコフ会話モデルとのハイデンマーコフモデル比
較により、上記音声所在位置を選択し、上記会話モデル
は、上記所定の話しことばの音声モデルに基づく。ま
た、上記ワードスポッタ装置は、上記音声データと上記
会話モデル間のダイナミック時間歪み解析により上記音
声所在位置を選択する。

【００５３】上記各ショットは、ある演技内で分離した
活動体を示す一連の映像データであり、上記区分装置
は、上記区分された映像データと上記格納された映像モ
デルとのヒストグラム差Ｘ²比較に基づいて、上記映像
データ部を区分する。また、上記映像モデルは、上記映
像特徴のライン表示に基づき、上記映像解析装置は、上
記区分された映像データによりライン抽出を行い、上記
映像データを１組のラインとして表示するライン抽出装
置を有する。

【００５４】上記映像モデルは、上記映像特徴の色特性
を有し、上記映像解析装置は、上記映像データの色デー
タと上記映像モデルの色特性とを比較する色解析装置を
有する。また、上記映像モデルが、上記映像特徴の構造
特性を有し、上記映像解析装置は、上記映像データの構
造データと上記映像モデルの構造特性とを比較する構造
解析装置を有する。

【００５５】上記映像モデルはショットの所定移行に基
づき、上記各ショットは、ある演技内で分離した活動体
を示す一連の映像データであり、上記分離した活動体
は、フットボール競技でラインアップしているフットボ
ールの２チームを含み、上記分離した活動体は、フィー
ルドゴールを試みているフットボールチームを含み、上
記ショットの所定移行が、ラインアップショット、活動
ショット、結果ショット、および特別ポイントショット
を含む。また、上記映像解析装置は、上記映像データか
らのショットと上記所定移行ショットとを比較し、上記
第１の演技を識別する。

【００５６】上記実施例は図示のために説明したもので
あり、本発明は記載の実施例に限定されるものではな
く、請求項に記載の範囲内において種々の変形が可能で
あることは、当業者に容易に理解されるであろう。

【００５７】

【発明の効果】本発明によれば、競技プレーが発生する
所在位置の索引を、会話検知アルゴリズムとビデオ解析
アルゴリズムを用いて作成し、会話検知アルゴリズムは
ビデオテープのオーディオデータ部に特定のことばを割
り当てる。次に、特定のことばが検知される所在位置情
報をビデオ解析アルゴリズムに転送し、各所在位置に対
して範囲を設定し、各範囲はヒストグラム技法を用いて
複数のショットに区分する。ビデオ解析アルゴリズム
は、ライン抽出技法を用いて、任意のビデオ特徴に対し
て各区分範囲を解析し、競技プレーを識別する。ビデオ
解析により、ビデオテープにおける競技プレーの所在位
置に対して１組のポインタとして索引を作成出力し、ビ
デオテープにおける特定の競技行為の所在位置を自動的
に索引付けする方法と装置を提供することが可能とな
る。

【図面の簡単な説明】

【図１】本発明の最高レベルの機能とデータ入出力を
示す動作フロー図。

【図２】ビデオおよびオーディオ処理モジュールの概
略を示すブロックフロー図。

【図３】ワードスポットアルゴリズムを示すブロック
図。

【図４】ビデオショット区分アルゴリズムの動作処理
を示す動作フローブロック図。

【図５】タッチダウンシーケンスの理想的ショットま
たは競技行為移行モデルを示すフロー図。

【図６】（ａ）〜（ｄ）は、ワードスポット試験結果
を示すグラフ図。

【図７】（ａ）〜（ｄ）は、ワードスポット試験結果
を示すグラフ図。

【図８】サンプルテストセットの第１フレームのカッ
ト検知結果を示すグラフ図。

【図９】（ａ）は、タッチダウンシーケンスのライン
アップショットを識別するためのグラフィック内容を示
すグラフィックフレーム図であり、（ｂ）は図９ａのグ
ラフィックフレーム内容を表すラインセグメントグラフ
ィック図。

【図１０】（ａ）は、タッチダウンシーケンスのキッ
クショットを識別するためのグラフィック内容を示すグ
ラフィックフレーム図であり、（ｂ）は、図１０ａのグ
ラフィックフレーム内容を表すラインセグメントグラフ
ィック図。

【符号の説明】

３０オーディオビデオフレーム３２ワードスポット工程３４モデルスピーチデータベース３６候補の範囲設定工程３８ショット区分工程４０ショットの解析工程４２モデルビデオデータベース４４索引作成工程

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＨ０４Ｎ 5/91 Ｎ

Claims

【特許請求の範囲】

【請求項１】音声映像データ内に発生する第１の演技
データの所在位置を示す索引を作成するためのコンピュ
ータ内蔵型の会話および映像解析システムにおいて、上
記音声映像データは複数の演技を表す映像データと同期
した音声データを含み、上記第１の演技データは、該第
１の演技を表す少なくとも１つの音声特徴と少なくとも
１つの映像特徴を有し、（ａ）上記音声特徴を表す会話モデルを格納するための
モデル会話データベースを供給する工程と、（ｂ）上記映像特徴を表す映像モデルを格納するための
モデル映像データベースを供給する工程と、（ｃ）上記音声データと上記格納された会話モデルとを
比較することにより、上記音声データ内の音声特徴の位
置を表す候補を決定するためのワードスポット処理工程
と、（ｄ）上記各候補に対して所定の範囲を設定する工程
と、（ｅ）上記範囲内に所在決定される映像データ部を複数
のショットに区分する工程と、（ｆ）上記区分された映像データを解析し、該区分され
た映像データと上記格納映像モデルとの比較により、上
記区分映像データ内の映像特徴の位置を示す映像所在位
置を決定する工程と、（ｇ）上記映像所在位置により上記第１の演技データの
所在位置を示す索引を作成する工程、とを有する索引作
成方法。
【請求項２】上記各候補の所定範囲は、上記各候補の
１分前の開始位置と上記各候補の２分後の終了位置とを
有する請求項１に記載の方法。
【請求項３】上記方法が、さらに、ビデオテープから
上記音声映像データを読み出す工程を有する請求項１に
記載の方法。
【請求項４】上記方法が、さらに、上記音声データを
デジタル化する工程を有する請求項１に記載の方法。
【請求項５】上記方法が、さらに、上記映像データを
デジタル化する工程を有する請求項１に記載の方法。
【請求項６】上記音声特徴が、所定の話しことばであ
る請求項１に記載の方法。
【請求項７】上記方法が、さらに、上記所定の話しこ
とばのエネルギーを決定する工程と、該決定されたエネ
ルギーを上記会話モデルに格納する工程とを有する請求
項６に記載の方法。
【請求項８】上記方法が、さらに、上記音声データの
エネルギーと上記エネルギー会話モデルとの間のユーク
リッド距離により、上記候補を決定する工程を有する請
求項７に記載の方法。
【請求項９】上記方法が、さらに、上記所定の話しこ
とばのハイデンマーコフモデル（Hidden Markov Model
s）を決定する工程と、該決定されたハイデンマーコフ
モデルを上記会話モデルに格納する工程とを有する請求
項６に記載の方法。
【請求項１０】上記方法が、さらに、上記音声データ
と上記ハイデンマーコフモデル会話モデルとのハイデン
マーコフモデル比較により上記候補を決定する工程を有
する請求項９に記載の方法。
【請求項１１】上記方法が、さらに、上記所定の話し
ことばの音声モデルを決定する工程と、該決定された音
声モデルを上記会話モデルに格納する工程とを有する請
求項６に記載の方法。
【請求項１２】上記方法が、さらに、上記音声データ
と上記会話モデル間のダイナミック時間歪み解析により
上記候補を決定する工程を有する請求項１１に記載の方
法。
【請求項１３】上記各ショットは、ある演技内で分離
した活動体を示す一連の映像データである請求項１に記
載の方法。
【請求項１４】上記方法が、さらに、上記区分された
映像データと上記格納された映像モデルとのヒストグラ
ム差Ｘ²比較に基づいて、上記映像データを区分する工
程を有する請求項１３に記載の方法。
【請求項１５】上記方法が、さらに、上記映像特徴の
ライン表示を、上記格納映像モデル内に格納する工程を
有する請求項１３に記載の方法。
【請求項１６】上記方法が、さらに、上記区分された
映像データによりライン抽出を行う工程を有する請求項
１５に記載の方法。
【請求項１７】上記方法が、さらに、上記映像特徴の
色特性を上記格納映像モデル内に格納する工程を有する
請求項１４に記載の方法。
【請求項１８】上記方法が、さらに、上記映像データ
の色データと上記格納映像モデルの色特性とを比較する
ことにより、映像所在位置を決定する工程を有する請求
項１７に記載の方法。
【請求項１９】上記方法が、さらに、上記映像特徴の
構造特性を上記格納映像モデル内に格納する工程を有す
る請求項１３に記載の方法。
【請求項２０】上記方法が、さらに、上記映像データ
の構造データと上記格納映像モデルの構造特性とを比較
することにより、映像所在位置を決定する工程を有する
請求項１９に記載の方法。
【請求項２１】上記方法が、さらに、ショットの所定
移行を上記映像モデル内に格納する工程を有し、上記各
ショットは、ある演技内で分離した活動体を示す一連の
映像データである請求項１に記載の方法。
【請求項２２】上記分離した活動体は、フットボール
競技でラインアップしているフットボールの２チームを
含む請求項２１に記載の方法。
【請求項２３】上記分離した活動体は、フィールドゴ
ールを試みているフットボールチームを含む請求項２１
に記載の方法。
【請求項２４】上記ショットの所定移行が、ラインア
ップショット、活動ショット、結果ショット、および特
別ポイントショットを含む請求項２１に記載の方法。
【請求項２５】上記方法が、さらに、上記映像データ
からのショットと上記格納された所定移行ショットとを
比較し、上記第１の演技を識別する工程を有する請求項
２１に記載の方法。
【請求項２６】音声映像データ内に発生する第１の演
技データの所在位置を示す索引を作成する装置におい
て、上記音声映像データは複数の演技を表す映像データ
と同期した音声データを含み、上記第１の演技データ
は、該第１の演技を表す少なくとも１つの音声特徴と少
なくとも１つの映像特徴を有し、上記音声特徴を表す会話モデルを格納するためのモデル
会話データベースと、上記映像特徴を表す映像モデルを格納するためのモデル
映像データベースと、上記音声データと上記格納された会話モデルとを比較す
ることにより、上記音声データ内の音声特徴の位置を表
す候補を決定するためのワードスポッタ装置と、上記ワードスポッタ装置に接続され、上記各候補に対し
て所定の範囲を設定する範囲設定手段と、上記範囲設定手段に接続され、上記範囲内に所在決定さ
れる映像データ部を複数のショットに区分する区分装置
と、上記区分装置とモデル映像データベースに接続され、上
記区分された映像データを解析し、該区分された映像デ
ータと上記格納映像モデルとの比較により、上記区分映
像データ内の映像特徴の位置を示す映像所在位置を決定
するための映像解析装置と、上記映像解析装置に接続され、上記決定された映像所在
位置により上記音声映像データ内の上記第１の演技デー
タの所在位置を示す索引を生成する手段、とを有する索
引作成装置。
【請求項２７】上記各候補の所定範囲は、上記各候補
の１分前の開始位置と上記各候補の２分後の終了位置と
を有する請求項２６に記載の装置。
【請求項２８】ビデオテープから上記音声映像データ
を読み出す請求項２６に記載の装置。
【請求項２９】上記音声データはデジタル音声データ
である請求項２６に記載の装置。
【請求項３０】上記映像データはデジタル映像データ
である請求項２６に記載の装置。
【請求項３１】上記音声特徴が、所定の話しことばで
ある請求項２６に記載の装置。
【請求項３２】上記会話モデルは、上記所定の話しこ
とばのエネルギーに基づく請求項３１に記載の装置。
【請求項３３】上記ワードスポッタ装置は、上記音声
データのエネルギーと上記エネルギー会話モデルとの間
のユークリッド距離により、上記音声所在位置を選択す
る請求項３２に記載の装置。
【請求項３４】上記会話モデルは、上記所定の話しこ
とばのハイデンマーコフモデル（Hidden Markov Model
s）に基づく請求項３１に記載の装置。
【請求項３５】上記ワードスポッタ装置は、上記音声
データと上記ハイデンマーコフ会話モデルとのハイデン
マーコフモデル比較により、上記音声所在位置を選択す
る請求項３４に記載の装置。
【請求項３６】上記会話モデルは、上記所定の話しこ
とばの音声モデルに基づく請求項３１に記載の装置。
【請求項３７】上記ワードスポッタ装置は、上記音声
データと上記会話モデル間のダイナミック時間歪み解析
により上記音声所在位置を選択する請求項３６に記載の
装置。
【請求項３８】上記各ショットは、ある演技内で分離
した活動体を示す一連の映像データである請求項２６に
記載の装置。
【請求項３９】上記区分装置は、上記区分された映像
データと上記格納された映像モデルとのヒストグラム差
Ｘ²比較に基づいて、上記映像データ部を区分する請求
項３８に記載の装置。
【請求項４０】上記映像モデルは、上記映像特徴のラ
イン表示に基づく請求項３８に記載の装置。
【請求項４１】上記映像解析装置は、上記区分された
映像データによりライン抽出を行い、上記映像データを
１組のラインとして表示するライン抽出装置を有する請
求項４０に記載の装置。
【請求項４２】上記映像モデルは、上記映像特徴の色
特性を有する請求項３８に記載の装置。
【請求項４３】上記映像解析装置は、上記映像データ
の色データと上記映像モデルの色特性とを比較する色解
析装置を有する請求項４２に記載の装置。
【請求項４４】上記映像モデルが、上記映像特徴の構
造特性を有する請求項３８に記載の装置。
【請求項４５】上記映像解析装置は、上記映像データ
の構造データと上記映像モデルの構造特性とを比較する
構造解析装置を有する請求項４４に記載の装置。
【請求項４６】上記映像モデルはショットの所定移行
に基づき、上記各ショットは、ある演技内で分離した活
動体を示す一連の映像データである請求項２６に記載の
装置。
【請求項４７】上記分離した活動体は、フットボール
競技でラインアップしているフットボールの２チームを
含む請求項４６に記載の装置。
【請求項４８】上記分離した活動体は、フィールドゴ
ールを試みているフットボールチームを含む請求項４６
に記載の装置。
【請求項４９】上記ショットの所定移行が、ラインア
ップショット、活動ショット、結果ショット、および特
別ポイントショットを含む請求項４６に記載の装置。
【請求項５０】上記映像解析装置は、上記映像データ
からのショットと上記所定移行ショットとを比較し、上
記第１の演技を識別する請求項４６に記載の装置。