JP2003504952A

JP2003504952A - ビデオセグメントを別のビデオセグメント又は情報源にリンキングさせる方法及び装置

Info

Publication number: JP2003504952A
Application number: JP2001510127A
Authority: JP
Inventors: ディミトロヴァ，ネヴェンカ
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-07-09
Filing date: 2000-07-04
Publication date: 2003-02-04
Also published as: US7356830B1; WO2001004792A1; KR20010086393A; KR100684484B1; EP1110156A1

Abstract

(57)【要約】所与のビデオセグメントは、一つ以上の他のビデオセグメント又は情報源を含むように構成される。所与のビデオセグメントは、オブジェクト、エンティティ、特徴、又は、セグメントの他の特性と同じ特性を含む少なくとも一つの追加的な情報源の間で関連付けを決定するために処理される。関連付けは、追加的な情報源からの情報にアクセスし、この情報を元のビデオセグメントと共に或いはその代わりにユーザに表示するために利用される。ビデオセグメントに対する一組の関連付けは、処理システムに記憶され得、又は、ビデオセグメントのトランスポートストリームのようにビデオセグメント自体の中に組込まれ得る。追加的な情報源は、例えば、追加的なビデオセグメント又は、指定された特性を含む聴覚、テキスト、又は、他の情報でもよい。この特性は、例えば、フレーム中の特定の顔、シーン、イベント、或いは、オブジェクトの識別のようなビデオセグメントのフレームから抽出されるビデオ特性、テーマ音楽の抽出、話者識別、又は、編曲抽出のような聴覚特性、又は、テキスト特性でもよい。本発明は、表示されるビデオセグメント中のオブジェクト又は他の特性をクリック又はその他選択することでユーザが情報にアクセスすることを可能にさせ、それによりそのセグメントに関連する情報の引き出しを容易化する。

Description

【発明の詳細な説明】

【０００１】本発明は、一般にビデオ信号処理、より特定的にはディジタルビデオストリー
ム又は他のタイプのビデオセグメントを処理する技法に関する。

【０００２】ハイパーメディア文書及び他の同様の用途においてビデオセグメントを処理す
る従来の技法は、非常に制限されたレベルのビデオベースの双方向性(interacti
vity)を提供する。ウェブページのようなハイパーメディア文書は、様々なビデ
オセグメントへのリンクをしばしば含むが、このような文書は主にテキストベー
スであり、典型的に画像及びビデオを例示的なエンティティとしてだけ利用する
。

【０００３】このような従来のビデオ処理の一例は、ＰＣＴ明細書第ＷＯ９７／２２２０１
号に開示されるビデオモザイク（Video Mosaic）（ボザイク（Vosaic））シス
テムである。ボザイクシステムは、リアルタイムビデオを規格化されたハイパー
テキストページの中に組込み、インターネット又は他のタイプのネットワーク上
でのリアルタイムビデオの送信を取扱うためにビデオ・データグラム・プロトコ
ル（ＶＤＰ）を利用する。ＶＤＰは、インターフレームジッタを最少化するため
に設計され、クライアントＣＰＵロード及びネットワーク輻輳を動的に適合され
る。ボザイクでは、ビデオ情報は、埋め込まれたビデオを含むウェブページに対
するクライアントの要求に応答してサーバからクライアントへネットワーク上を
流れる。ボザイクシステムは、階層型情報、意味論上の説明、並びに、ビデオ情
報の階層型アクセス、ブラウジング、検索、及び、動的な構成に対する支持を提
供する注釈を含むいわゆるメタ情報の幾つかのクラスを提供する。

【０００４】しかしながら、ボザイクシステム及び他の同様の従来のシステムによって提供
される双方向性は、過度に制限されたままである。より特定的には、これらのシ
ステムはビデオセグメントに関連する情報への同時アクセスを提供することが一
般にできない。別の欠点は、ビデオが進行すると共にリンクが現われ消えること
をこのようなシステムが可能にさせない点である。更に、従来のシステムにおけ
るリンクは、ファイル又は他の文書のアドレス又は物理的な場所を含むユニフォ
ーム・リソース・ロケータ（ＵＲＬ）を提供するが、リンク自体に関する顕著な
追加的情報を一般に提供しない。更に、従来のシステムのリンクは、リンクとフ
ァイル又は他の文書の間が一般に１：１マッピングである。

【０００５】上記より明らかなように、上記従来のシステムに関する制限を有すること無く
改善されたビデオベースの双方向性をユーザに提供し得るビデオ処理技法が必要
である。

【０００６】本発明によると、ビデオセグメントは、一つ以上の他のビデオセグメント又は
情報源に対してリンクを含むよう構成される。ビデオセグメントは、セグメント
のオブジェクト、エンティティ、特徴、又は、他の特性と同じ特性を含む少なく
とも一つの追加的な情報源の間で関連付けを決定するためにビデオ処理システム
において処理される。関連付けは、追加的な情報源からの情報にアクセスするた
めに利用され、アクセスされた情報は元のビデオセグメントと共に或いはその代
わりに表示され得る。ビデオセグメントに対する一組の関連付けは、データベー
ス或いは処理システムの他のメモリに記憶され得、又は、ビデオセグメントのト
ランスポートストリームのようなビデオセグメント自体の中に組込まれ得る。追
加的な情報源は、例えば、指定された特性、指定された特性を含む可聴、テキス
ト或いは他の情報の源を含むビデオセグメントでもよい。特性は、特定の顔、シ
ーン、フレーム中のイベント或いはオブジェクトのようなビデオセグメントフレ
ームから抽出されるビデオ特性、テーマ音楽（music signature）の抽出、話者
識別或いは編曲（transcript）の抽出のような聴覚特性、又は、テキスト特性で
もよい。

【０００７】本発明の一実施例では、ユーザは表示されるビデオセグメント中のオブジェク
ト又は他の特性をクリッキング又はその他選択することで追加の関連する情報に
アクセスする。別の可能な実施例では、ビデオセグメント自体の情報はビデオセ
グメントコンテンツ、確立されたユーザの好み、時間等のような要素に従って関
連する情報を自動的に引き出すために使用されてもよい。

【０００８】本発明は、従来のビデオ処理システムに対して幾つかの利点を有する。例えば
、本発明は、オブジェクト、エンティティ、特徴、又は、所与のビデオセグメン
ト中の他の特性に関連する数多くの情報への同時アクセスを提供し得る。追加的
に、リンクはダイナミック、例えば、リンクは所与のビデオセグメント内で現わ
れ、消え、又は、さもなければ変化されてもよい。例えば、タイトル、監督、ス
タイル、ジャンル等のようなテキストリンクのように他のリンクがセグメント全
体にわたって利用できるようにされ得る。別の利点は、所与のリンクがファイル
又は文書のアドレス又は物理的な場所を含む単なるＵＲＬよりもリンク自体の性
質に関する情報を含み得る点である。更なる利点は、異なるリンクがコンテキス
ト、ユーザ、時間、場所等のような要素に基づいて発生され得る点である。更に
、ｍのオブジェクト、エンティティ、特徴、又は、所与のビデオセグメント中の
他の特性と、ｎのビデオセグメント又はｍの特性からアクセスされ得る他の情報
源の間でｍ：ｎマッピングを実行するために使用され得る。これは、従来のハイ
パーメディア文書の典型的な１：１マッピングに対して著しい改善である。本発
明の上記及び他の特性は、添付の図面及び以下の詳細な説明からより明らかにな
る。

【０００９】図１は、本発明が実行されてもよいビデオ処理システム１０を示す。システム
１０は、デスクトップ、ラップトップ或いはパームトップコンピュータ、パーソ
ナル・ディジタル・アシスタント（ＰＤＡ）、テレビジョン或いはセットトップ
ボックス、及び、これら並びに他の装置の一部分又は組み合わせを表わしてもよ
い。システム１０は、一つ以上のビデオ源１２、一つ以上の入力／出力装置１４
、プロセッサ１５、及び、メモリ１６を含む。入力／出力装置１４、プロセッサ
１５、及び、メモリ１６は、通信媒体１７上で通信される。通信媒体１７は、例
えば、バス、通信エンットワーク、回路、回路カード或いは他の装置の一つ以上
の内部接続、及び、これら並びに他の通信媒体の一部分及び組み合わせを表わし
てもよい。

【００１０】源１２からの入力ビデオは、メモリ１６に記憶される一つ以上のソフトウェア
プログラムに従って処理され、例えば、テレビジョンディスプレイ、コンピュー
タモニタ等のディスプレイ装置１８に供給される出力ビデオを生成するためにプ
ロセッサ１５によって実行される。ビデオ源１２は、インターネット、広域ネッ
トワーク、メトロポリタン・エリア・ネットワーク、ローカル・エリア・ネット
ワーク、地上放送システム、ケーブルネットワーク、衛星ネットワーク又は電話
ネットワーク、並びに、これら及び他のタイプのネットワーク又はシステムの一
部分又は組み合わせのようなグローバル・コンピュータ通信ネットワーク上でサ
ーバ又は複数のサーバからビデオを受信する一つ以上のネットワーク接続を表わ
してもよい。

【００１１】図１に示すようなシステム１０の特定の構造は例によってだけであることが理
解されるべきである。本発明の他の実施例では、本願で詳細に説明されるべき一
つ以上のビデオ処理動作は分配された方法、例えば、ネットワーク又は幅広い他
の選択的な構造における多数のコンピュータ又は他の装置上で分配され実行され
てもよい。

【００１２】本発明は、図１のシステム１０において実行されてもよい“Deja Video”と
も称されるビデオ処理フレームワークを提供する。このビデオ処理フレームワー
クは、ユーザが現在観ているオブジェクト、可聴、又は、ビデオセグメント中の
他の特性に対して確立される一組の関連付けに基づいてビデオセグメント、テキ
スト、又は、他のマルチメディア文書にアクセスすることをこの所与のシステム
ユーザに可能にさせる。従って、本発明は、例えば、ユーザが既に観た或いは聞
いたことのあるものとの類似性を見出すことで他のビデオセグメント中の新しい
コンテンツを双方向に探ることを可能にさせる。更に、本発明は、例えば、グラ
フィックスオーバーレイモード又は他のタイプのディスプレイモードにテキスト
又は他の情報を組込むことにより、現在観ているビデオセグメント中のオブジェ
クトについての追加的な情報を提供し得る。ビデオセグメント中の１シーンから
別ビデオセグメント中の別のシーンへの滑らかな移動は、画像モーフィングのよ
うな周知の従来の視覚効果を通じて実施され得る。本発明の好ましい実施例は、
以下の４つの主な要素を含む。

【００１３】１．リンク。リンクは、２つのエンティティ又は他の特性間の物理的な関係を
定義する。例えば、ビデオセグメントｎｅｗｓ１．ｍｐｇ中のフレーム１２３７
３における幅＝５０、高さ＝６０の境界箱を含み座標ｘ＝１５０、ｙ＝２０に重
心が位置決めされる対象物Ｏ１は、ビデオセグメント１４３．ｍｐｇ中のフレー
ム１０４５とリンクされる。

【００１４】２．関連付け。関連付けは、２つのエンティティ又は他の特性間で形成される
対応する物理的リンクを説明する情報を一般に含む。例えば、所与の俳優の顔の
特性及び俳優の名前が挙げられるビデオクリップのような２つのエンティティ間
で意味論上の関系があってもよい。この場合、関連付けは、リンクがどのように
して且つ何故形成されたかを説明する情報を含んでもよい。別の例として、リン
クが２つの異なる映画からの２つのビデオセグメントの間の視覚的な類似性に基
づく場合、対応する関連付けは類似性、持続時間等の率を定義してもよい。

【００１５】本願で使用されるように「関連付け」といった用語は、ビデオセグメント中の
所与の特性と別のセグメント又は他の情報源中の関連する特性との間のリンク又
は他の関系を識別又はその他特徴付ける全てのタイプの情報に一般的に指すこと
を意図する。例えば、本願で広義に定義されるように「関連付け」といった用語
は、適用法により、前述の物理的リンク自体以外の追加的な情報を含まなくても
よい。

【００１６】３．２つの関連するエンティティ又は他の特性を関係付けるための表示中の変
換及び対話モード。例えば、ビデオＡからビデオＢのフレーム、リンクされたテ
キストのオーバーレイ、ＵＲＬ、現在のビデオに対する画像又は物語情報、別の
ウィンドウ中のディスプレイ、後で観るために店に関連する情報等の間をモーフ
ィングすることである。

【００１７】４．コンテキスト、ユーザ、時間等の追加的な要素。現在表示される番組、即
ち、その番組のコンテンツのカテゴリーに基づき他のコンテンツに対してアクテ
ィブな異なるリンクがあり得る。例えば、ドキュメンタリー番組の放送中に、百
科事典へのリンクがアクティブでもよい。コマーシャル中、関連する製品又は最
も近い店へのリンクがアクティブとされ得る。ユーザに関する予備知識、例えば
、年齢、性別、関心等に基づき、異なるリンクがアクティブにされ得る。更に、
一日のある時間において対話及び変換の好ましいモードが記憶されたユーザの好
みに基づいて変化され得る。

【００１８】本発明の好ましい実施例は上述の基本的な要素を夫々含むが、本発明の他の実
施例は、これら要素全て又はそのサブセットに基づいてもよい。

【００１９】所与のビデオセグメントと一つ以上の他のビデオセグメント又は情報源との間
のリンクを説明するために使用される上述の関連付けは、以下を含み様々な異な
る方法で形成され得る。

【００２０】１．視覚的類似性。関連付けは、フレームの視覚的な様子における類似性に基
づいて確立され得る。この視覚的類似性は、例えば、色、形状、特定の対象物へ
の類似性、又は、概念的なタイプのオブジェクトの類似性に基づき得、及び、例
えば、二次元、２．５次元即ちコンピュータビジョン、又は、三次元でもよい。
関連付けは、この場合、図４と共に以下に詳細に説明されるようなコンテンツベ
ースの特徴抽出を使用して決定され得る。ビデオシーケンス間の視覚的類似性を
抽出する技法に関する追加的な詳細は、例えば、発明者Nevenka Dimitrova及び
Mohamed Abdel−Mottalebの名において１９９９年２月９日に発行された“Vide
o Retrieval of MPEG Compressed Sequences Using DC and Motion S
ignatures”なる名称の米国特許第５，８７０，７５４号においてみつけられ得
る。

【００２１】２．シーン類似性。例えば、海のシーンが同様の海のシーンを含むビデオセグ
メントに対してリンクを設けるために使用され得る。この場合、関連付けは、例
えば、キーワードが特定のビデオシーンに含まれるシソーラスに基づいてもよい
。

【００２２】３．イベント類似性。例えば、所与のビデオセグメントにおける結婚式のイベ
ントは結婚式のビデオセグメントへのアクセスをリンクし得る。イベントの関連
付けは、速い動作、アクション、又は、一組のキーワドのような同様の特性を使
用して決定され得る。イベントの関連付けは、例えば、ローレベル特性及び概念
によって表わされる意味論上の特性の組み合わせを使用して確立され得る。

【００２３】４．テキスト類似性。関連付けは、例えば、タイトルクレジット中のテキスト
の編曲又は認識された特徴を通じて確立されてもよい。この場合の関連付けは、
例えば、統計的なテキストインデクシング方法を使用して得られてもよい。別の
例として、関連付けは簡単なキーワード又はキーワードがその最も近いコンセプ
トと関連付けられるコンセプトシソーラスを使用して得られ得る。

【００２４】５．話し言葉類似性。話し言葉又は特定の種類の音と関連する特定のコンセプ
トは、同様の言葉又は音を有する別のビデオセグメントに対してリンクを設け得
る。この場合、実際のリンクが話し言葉自体に基づいてもよいが音声−テキスト
変換が関連付けを確立するための基盤として使用されてもよい。

【００２５】６．声類似性。特定の俳優又は有名人の声のある特徴が同じ又は同様の声を含
む他のビデオセグメントとリンクされるために使用され得る。別の例として、特
定のエネルギー、帯域幅、ピッチ、又は、他の特徴で特徴付けられる可聴イベン
トが他の同様の可聴イベントに対してリンクを設けるために使用され得る。

【００２６】７．多数のタイプ。上述の関連付けの組み合わせが使用されてもよい。例えば
、自然界映画のビデオセグメントにおいて赤色、及び、単語「キャニオン」と組
み合わされる水の流れる音は、ハイキングの旅のビデオセグメント、又は、ハイ
キング道具のウェブページにリンクを設け得る。別の例として、所与のビデオセ
グメント中の特定の俳優の顔にクリックする又はその他選択するユーザは、俳優
の名前が提供されてもよく、俳優個人のウェブページにリンクされてもよい。

【００２７】８．関連付け類似性。ビデオＡ及びビデオＢがビデオＣに対して同様の関連付
けを有する場合、ビデオＡ及びビデオＢは夫々ビデオＡ及びＢからの全ての関連
付け（又は、これら関連付けの適切な組み合わせ又はサブセット）を受け継いで
もよい。

【００２８】周知の抽出方法は、上述の関連付けを実行することに関して一次元又は多次元
特性のベクトルを計算するために使用されてもよい。例えば、本発明は、ビデオ
特性間の関連付けを決定するために、特性の分類及びクラスタリングの従来の方
法、並びに、類似性計算（又は距離計算、距離＝１−類似性）方法を利用し得る
。ビデオ及び可聴類似性の場合、本発明は特性ベクトルを抽出し得、Ｌ１、Ｌ２
、カイ二乗等のような規格距離測定を使用して類似性を計算し得る。フレーム類
似性は、例えば、N.Dimitrova，J.Martino，L.Agnihotri，及び，H.Elenbaas，
“Color Super−histograms for Video Representaion”,IEEE Internatio
nal Conference on Image Processing, Kobe, Japan 1999中に記載され
る技法を使用してフレームヒストグラムに基づいて計算され得る。離散コサイン
変換係数を使用する、フレーム類似性を決定する別の既知の方法は、N.Dimitrov
a，T.McGee，及び，H.Elenbaas， “Video Keyframe Extraction and Filt
ering：A Keyframe is not a Keyframe to Everyone”，Proceedings o
f ACM Conference on Information and Knowledge Management，Nov．19
97に記載される。

【００２９】以下に詳細に説明するように、これら関連付けに関係する情報及び対応するリ
ンクは、例えば、ディジタルビデオストリームの一部又は別のデータベース或い
は他のタイプのシステムメモリに記憶されて実行され得る。

【００３０】本発明によると、各ビデオセグメントは、ハイパードキュメントとして考えら
れてもよい。例えば、画像中に現われるテキストは百科事典に対するリンク、又
は、オンライン新聞又は他の情報源に対するクエリーとして扱われ得る。所与の
ビデオセグメント内の全ての静的又は動的オブジェクトは、別のビデオセグメン
ト又は情報源にリンクされ得る。例えば、ユーザは特定の俳優の画像を含む現在
観ているビデオセグメントから、その俳優と関連する別のビデオセグメントにア
クセスし得る。同様にして、全ての他のエンティティ、イベント、現在の話、又
は、現在観ているビデオセグメントの他の特性は、関連する特性を含む他のビデ
オセグメント又は情報源へのリンクとなってもよい。これらのリンクは、例えば
、映画中の特定のキャラクタを他の映画、文書等に蓄積されるそのキャラクタの
全ての他の経験又は「メモリ」と関連付けることを可能にさせる。

【００３１】図２は、本発明の示す実施例におけるビデオセグメント間のリンキングの例を
示す。図２の例は、４つの相互に関係付けられるビデオセグメント、ビデオＡ、
ビデオＢ、ビデオＣ、及び、ビデオＤを含む。各ビデオセグメントは、幾つかの
フレーム２０を有する。本発明によると、所与のビデオセグメント中のあるフレ
ームと他のビデオセグメント中の他の同様のフレームとの間でリンクが確立され
る。より特定的には、ビデオＢのフレーム２０−１は、例えば、各フレーム中に
家があるといったフレーム間の視覚的類似性に基づいてビデオＡの同様のフレー
ム２０−２、ビデオＣの２０−３、及び、ビデオＤの２０−４にリンクされる。
同様の方法で、ビデオＢのフレーム２０−５は、各フレーム中に同じ俳優又は他
の個人が存在するといったフレーム間の視覚的類似性に基づいてビデオＣのフレ
ーム２０−６にリンクされる。

【００３２】本願で使用されるように「ビデオセグメント」といった用語はフレーム、フレ
ームの組、又は、所与のビデオ信号の可聴部分を含むビデオ信号の全ての他の部
分を含むことを意図する。異なるビデオセグメントは、異なるビデオ信号の一部
分でもよいが必要ではない。例えば、図２に示される２つ以上のビデオ信号は同
じビデオ信号の別個の部分を表わしてもよい。

【００３３】図３は、本発明によるビデオセグメント間のリンキングを実行するために利用
されてもよいユーザインタフェースの例を示す。本例では、ビデオフレーム３０
はメインウィンドウ３２とメインウィンドウ３２の周りに配置されるウィンドウ
３４のような幾つかの二次ウィンドウとを有する。本発明によると、フレーム２
０の各二次ウィンドウはメインウィンドウ３２中のディスプレイに対して何らか
の関係を有する。これらの関係は、フレーム３０中小さい矢印によって示される
。例えば、ウィンドウ３４は、メインウィンドウ３２中に現われるアンカーパー
ソンと同じアンカーパーソンの画像を含む。この画像は、同じアンカーパーソン
による異なるニュース放送の別のビデオセグメントのフレームでもよい。

【００３４】ユーザは、適当な選択コマンドをシステム１０に入力することでウィンドウ３
４に対応するビデオセグメントにリンクし得、現在表示されているビデオセグメ
ントがフレーム３０の二次ウィンドウ３４中に前に表示されたフレーム３６を含
むセグメントとなる。本発明による所与のビデオセグメントと他のビデオセグメ
ント又は情報源の間でリンクを提供するために多数の他のタイプのユーザインタ
フェース配置が使用されてもよいことに注意するべきである。例えば、リンクが
視覚的、聴覚の、又は、概念上の関連付けに基づき得るため、インタフェースは
、例えば、リモート・コントロール、マウス、又は、他のポイントーアンドーク
リック装置によって制御されるオンスクリーン矢印、のような様々なポインティ
ング装置を適合させるために様々な方法で表示され得る。

【００３５】図４は、視覚的類似性に基づく関連付けと共に上述したように例えば、本発明
の技法を使用して他のビデオセグメントとの関連付けが所与のビデオセグメント
から抽出され得る方法を示す。入力ビデオは従来のビデオカット検出モジュール
４０において最初に処理され、このビデオカット検出モジュールの動作は技術に
おいて周知である。ビデオカット検出モジュール４０の結果として生じられる出
力は、関連付けを形成するために使用される意味論的に意味のある特性を抽出す
るために更に処理される。所与のビデオセグメント中の各フレームは、色、テク
スチャ、形状等に基づく一組のビデオ特性によって一般に特徴付けられる。ビデ
オセグメントのフレームの領域は、これらの特性を検出するために処理される。

【００３６】本例におけるビデオ特性の検出は、フレームの特徴付け４１、顔の識別４２、
及び、オブジェクトの識別４３に基づく。検出された特性は、規則データベース
４５に記憶される意味論上の関連する規則を使用して関連付けエンジン４４にお
いて処理される。例えば、データベース４５中の関連付け規則の所与の一つは顔
Ａ、例えば、特定の俳優又は有名人の顔がビデオＸ中のフレームＶと関連付けら
れるべきことを示す。一つ以上の他のビデオセグメントが同じ特性を検出するた
めに同様の方法で処理される。関連付けエンジン４４の出力は、関連付け索引４
８に記憶され特定のビデオ特性が現される多数のビデオセグメント中のフレーム
を示す一つ以上の関連付けである。

【００３７】規則データベース４５中の意味論上の関連付け規則は顔の特性、例えば、所与
のいわゆる固有の顔ベクトルを特定の人の名前とどのようにして関連付けるかを
説明する情報を含んでもよい。これらの規則は、例えば、ニューラルネットワー
クのような学習アルゴリズムの使用を通じて時間を経て発展及び変化され得る。
この場合、最初の組の規則は、システムがセットアップされるときにシステム設
計士によって確立されてもよく、システムは一旦顔及び名前情報の十分なデータ
ベースが蓄積されると追加の新しい顔−名前関連付けを自分で追加し得る。

【００３８】図５に示される同様のアプローチ法は、音楽、なじみのある声、及び、言葉の
関連付けのような聴覚特性に基づいて関連付けを抽出するために使用され得る。
この場合、入力ビデオは、その可聴部分を単一の音声、複数の音声、音楽、サイ
レンス、及び、ノイズのようなカテゴリにセグメント化させるために可聴特徴付
けモジュール５０で処理される。所与のビデオセグメント中の各フレームは、メ
ル周波数ケプストラム係数（ＭＦＣＣ）、フーリエ係数、基本周波数、帯域幅等
のような一組の聴覚特性によって一般に特徴付けられる。ビデオセグメントのフ
レームは、これら聴覚特性を検出するために処理される。

【００３９】本例における聴覚特性の検出は、音楽セグメント署名抽出５１、話者識別５２
、及び、編曲の抽出５３に基づく。検出される聴覚特性は、意味論上の関連する
規則データベース４５からの規則と検出される聴覚特性を照合させることを試み
る照合動作５４において処理される。例えば、データベース４５中の意味論上の
関連する規則の所与の一つは、声Ａ、例えば、特定の俳優又は有名人の声、がビ
デオＹ中のフレームＣと関連付けられるべきであることを示す。一つ以上の他の
ビデオセグメントは、同じ聴覚特性を検出するために同様の方法で処理される。
照合動作５４の出力は、関連付け索引４８に記憶され特定の聴覚特性が現される
多数のビデオセグメントのフレームを示す一つ以上の追加の関連付けである。

【００４０】図６は、例えば、図４及び図５において説明される方法に基づいて決定される
関連付けに基づく本発明の実施例における実行時リンキング及び切換を示す。ユ
ーザが所与のビデオセグメント、即ち、ビデオＸを観ると、実行時グラフィック
ス環境６０がユーザの動作をモニタする。ビデオセグメント中のオブジェクトが
「アクティブ」例えば、ユーザによってクリック又はその他選択される場合、こ
の動作は検出動作６２において検出される。関連付け索引４８は、そのオブジェ
クトに関して検索され、動作の関連付け規則６５のデータベースに基づいて適当
なビデオ切換動作６４が実施される。例えば、関連付け索引４８がビデオＸ中の
選択されるオブジェクトに類似する別のビデオセグメント例えば、同様のフレー
ムコンテンツを含む同様のビデオセグメントビデオＹがあることを示す場合、動
作は現在観ているビデオＸをビデオＹの中にモーフィングさせることでもよい。
従って、システムは、ビデオＸにおいてユーザによって選択されるオブジェクト
に基づいてビデオＹに切換えられる。前述の通り、ビデオセグメント中の一シー
ン、即ち、ビデオＸから別のシーン、即ち、ビデオＹへの移動は画像モーフィン
グのような周知の従来の視覚効果を通じて実施され得る。

【００４１】図６に示されるような実行時リンキング及び切換はアクティブモード又はパッ
シブモードのいずれかにおいて実行されてもよいことに注意するべきである。ア
クティブモードでは、リンキング及び切換は、ユーザ、例えば、ビデオセグメン
ト中の所与の特性をクリッキング又はその他選択するユーザによって活性的にな
される実際の選択に基づく。パッシブモードでは、ビデオセグメント自体に含ま
れる又はシステムの他の場所に記憶されるキュー又は他の適切な情報識別子が例
えば、ＰＩＰ又はディスプレイの他のウィンドウに表示されるためにリンクされ
た情報の引き出しを自動的に活性化させるために使用されてもよい。

【００４２】本発明の他の実施例では、現在観ているビデオセグメントと別のビデオセグメ
ント又は情報源の間で切換は必要ない。例えば、選択されるリンクがテキスト形
態にある情報に対しての場合、その情報は選択されたオブジェクトの上又は任意
の形状の別のボックス中にオーバーレイモード、例えば、ビデオの上で表示され
得る。このタイプの一つの特定の実施では、選択されるリンクはインターネット
又は他のネットワーク上で利用できる一つ以上のハイパーテキスト文書の引き出
しをトリガしてもよい。別の例として、選択されたリンクが聴覚の情報に対して
である場合、聴覚の情報は現在観ているビデオセグメントの可聴信号と混合、又
は、テキストフォーマットで転記されビデオセグメントと共に表示され得る。追
加的に、リンクが別のビデオセグメントに対してである場合、そのセグメントは
現在観ているビデオセグメントの代わりとしてよりも現在観ているビデオセグメ
ントと同時にディスプレイの別のウィンドウ、例えば、ピクチャ−イン−ピクチ
ャ（ＰＩＰ）ウィンドウに表示され得る。

【００４３】本発明の特定の実行に関する追加の詳細をここで説明する。本発明によると、
ＭＰＥＧビデオビットストリーム又は他のタイプのビデオセグメントは、ビデオ
セグメントのフレームと他のビデオセグメントのフレーム間で類似性値又は他の
情報を関連付ける関連付けを用いて高められ得る。ユーザデータフィールド又は
トランスポートストリームにＭＰＥＧビットストリームにおけるこれら関連付け
を挿入することが可能である。この高められたビットストリームの実行では、ビ
デオエンコーダがユーザデータフィールドにおいて指定されたコードを見つける
度に例えば、適当に構成されたDeja Video実行エンジンにコールを実施する。
このような実行エンジンは、ユーザ入力に従い受け入れるため、ユーザによって
選択されるようにリンクへのアクセスを実行するため、及び、選択されるリンク
における情報の表示を実施するために明白な方法で構成され得る。非ＭＰＥＧス
トリームに対して、関連付けを含むトランスポート層がビデオセグメントの周り
に形成され得る。

【００４４】別の可能な実行は、関連付け、対話方法、新しいコンテンツ即ち、特定のリン
クによって識別されるあて先コンテンツの表示方法を含む別のデータベースを形
成することを伴う。ビデオ再生中、対応するフレーム中にだけあるコマンド又は
リンクを可能にする時間的マスクを提供するために対応するリンクに関して時間
的カウンタレファレンスが維持されてもよい。このような実行において、利用で
きるビデオセグメント又はリンクによって識別される他の情報源は、データベー
スに記憶されてもよく、又は、ＵＲＬ或いは他の適切な識別子によってアクセス
可能な遠隔な機械に記憶されてもよい。

【００４５】本発明に従って構成される所与のビデオセグメントは、従って、上記関連付け
、ポインティング方法即ちビデオセグメント中のオブジェクト又は他の特性を選
択する方法、リンクされた情報の表示方法、リンクされた情報の変換方法即ちオ
ーバーレイ、ＰＩＰ等、テキスト或いはウェブページのようなライトウェイトタ
ーゲット及び他のビデオセグメントのようなヘビーウェイトターゲットに対する
場所特定子、及び、ユーザプロファイル、場所、時間、好み等のようなユーザに
関する追加的な情報に基づいてリンクを決定する際に関連付けによる使用のため
のコンテクスト機能のような情報を含んでもよい。

【００４６】本発明のリンキング技法は、ビデオ検索及びブラウジング、並びに、例えば、
ビデオ編集ソフトウェア、ゲーム等におけるコンテンツ作成のような用途に特に
適切である。本発明が利用されてもよい特定のビデオ処理適用の例を以下に示す
。

【００４７】１．コンテンツ・オーサリング・ツール。このようなツールは、充分な未処理
の映画フィルムが無くても既存の素材からビデオ素材を作成し、異なる環境にお
けるビデオオブジェクトへのアクセスを提供するために使用される。

【００４８】ビデオアクセス。本発明は、テレビジョンブラウジング、サーフィング、及び
、他のタイプのビデオアクセス技法に使用され得る。例えば、ユーザは現在観て
いるビデオセグメントに関連する幅広いアレイの情報、例えば、現在観ているビ
デオセグメント中の特定の関心シーンに類似するシーンを含む全ての他の映画又
は番組にアクセスするために確立されたリンクを利用し得る。本発明は、情報へ
のアクセスがかなり簡易化されるようビデオと他の情報コンテンツの間にインタ
ラクティブな関係を設ける。

【００４９】３．ビデオアーカイブ探索。本発明は、ジャンル、監督、俳優、イベント、シ
ーン等のような特性に基づいて、ビデオストア、フィルムアーカイブ、又は、他
のタイプのビデオアーカイブ中のビデオをリンクさせるために使用され得る。リ
ンクは、貸し出しされ得る他のビデオ、又は、特定俳優又は映画のファングルー
プと関連するウェブページのような他の情報チャンネルにユーザを導き得る。

【００５０】４．ウェブベースのビデオブラウジング。本発明は、現在観ているビデオセグ
メント中のリンクされたオブジェクトに基づくウェブドキュメントにアクセスす
るために使用され得る。

【００５１】５．教育ツール。子供達は、教育ビデオを見る間、特定のオブジェクトをクリ
ックし概念的に関連する情報を含む同様のビデオ又はウェブページを受信し得る
。

【００５２】本発明は、従来のビデオ処理システムに対して幾つかの利点を有する。例えば
、本発明は、所与のビデオセグメント中のオブジェクト、エンティティ、特徴、
又は、他の特性に関連する数多くの情報への同時アクセスを提供し得る。追加的
に、リンクはダイナミック、例えば、リンクは所与のビデオセグメント内で現わ
れ、消え、又は、さもなければ変化されてもよい。例えば、タイトル、監督、ス
タイル、ジャンル等のようなテキストリンクのように他のリンクがセグメント全
体にわたって利用できるようにされ得る。

【００５３】別の利点は、所与のリンクがファイル又は文書のアドレス又は物理的な場所を
含む単なるＵＲＬよりもリンク自体の性質に関する情報を含み得る点である。例
えば、特定の地理的な領域に関するドキュメンタリー映画において、ユーザは、
例えば、ｓひょのフレームのバックグラウンドにおける地図を指すことで人口、
出生率、又は、領域の簡潔な歴史に関する情報を得られる。

【００５４】更なる利点は、異なるリンクがコンテキスト、ユーザ、時間、場所等のような
要素に基づいて発生され得る点である。例えば、子供及び大人に対するリンクは
完全に異なり得る。

【００５５】更に、ｍのオブジェクト、エンティティ、特徴、又は、所与のビデオセグメン
ト中の他の特性と、ｎのビデオセグメント又はｍの特性からアクセスされ得る他
の情報源の間でｍ：ｎマッピングを実行するために使用され得る。これは、従来
のハイパーメディア文書の典型的な１：１マッピングに対して著しい改善である
。

【００５６】本発明の上述の実施例は、例示目的だけである。例えば、本発明は、全ての所
望のタイプのビデオ処理システム又は装置、及び、本願で説明した以外の多くの
用途においてたのタイプのビデオリンキングを実行するために使用され得る。本
発明は、その他従来の電子、磁気、或いは、光記憶媒体又は他のタイプのメモリ
に記憶され適切なマイクロプロセッサ、中央処理ユニット、特定用途向け集積回
路（ＡＳＩＣ）又は他のタイプのプロセッサによって実行される一つ以上のソフ
トウェアプログラムの形態に少なくとも部分的には実行され得る。例えば、この
ようなプログラムは、図１のシステム１０におけるメモリ１６に記憶されプロセ
ッサ１５によって実行されてもよい。添付の特許請求の範囲内の上記及び多数の
他の実施例は当業者に明らかである。

【図面の簡単な説明】

【図１】本発明が実行されてもよいビデオ処理システムのブロック図である。

【図２】本発明の実施例における多数のビデオセグメント間のリンキングを示す図であ
る。

【図３】実際のビデオセグメントの本発明によるリンキングを含む部分を有するユーザ
インタフェースの例を示す図である。

【図４】本発明の実施例における一つのビデオセグメントから他のビデオセグメントと
の関連付けの抽出を示す図である。

【図５】本発明の実施例における一つのビデオセグメントから他のビデオセグメントと
の関連付けの抽出を示す図である。

【図６】本発明の実施例における実行時リンキング及び切換を示す図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 5/45 Ｈ０４Ｎ 5/45 Ｆターム(参考） 5B075 KK07 ND12 NK44 PP03 PP13 PQ02 PQ32 UU34 5C025 BA25 BA27 BA28 BA30 CA06 CA09 CB10 DA01 DA05 DA10 【要約の続き】メント中のオブジェクト又は他の特性をクリック又はその他選択することでユーザが情報にアクセスすることを可能にさせ、それによりそのセグメントに関連する情報の引き出しを容易化する。

Claims

【特許請求の範囲】

【請求項１】ビデオを処理する方法であって、特定の特性を含む第１のビデオセグメントと上記特性を含む少なくとも一つの
追加的な情報源との間で関連付けを決定する段階と、少なくとも部分的にはユーザによる上記第１のビデオセグメントにおける上記
特性の選択に基づく上記追加的な情報源からの情報を表示するために上記関連付
けを利用する段階とを有する方法。
【請求項２】上記決定段階はメモリから上記関連付けを引き出す段階を含
む請求項１記載の方法。
【請求項３】上記決定段階は上記ビデオセグメントの一部分における情報
から上記関連付けを決定することを含む請求項１記載の方法。
【請求項４】上記追加的な情報源は上記特性を含む追加的なビデオセグメ
ントを有する請求項１記載の方法。
【請求項５】上記利用段階は、上記第１のビデオセグメントのディスプレ
イから上記特性を含む上記追加的なビデオセグメントのディスプレイへの切換を
含む請求項４記載の方法。
【請求項６】上記利用段階は、上記第１のビデオセグメントの少なくとも
一部分を含むディスプレイの別の部分に上記追加的なビデオセグメントを少なく
とも部分的に表示することを含む請求項４記載の方法。
【請求項７】上記特性は上記ビデオセグメントの少なくとも一つのフレー
ムから抽出されるビデオ特性である請求項１記載の方法。
【請求項８】上記ビデオ特性はフレームの特徴、顔の識別、シーンの識別
、イベントの識別、及び、オブジェクトの識別の少なくとも一つを有する請求項
７記載の方法。
【請求項９】上記特性は上記ビデオセグメントの少なくとも一つのフレー
ムから抽出される聴覚特性である請求項１記載の方法。
【請求項１０】上記利用段階は、上記聴覚特性に対応する可聴信号を上記
第１のビデオセグメントに関連する可聴信号と組み合わす、又は、テキストフォ
ーマットに転記し上記ビデオセグメントと共に表示することを含む請求項９記載
の方法。
【請求項１１】上記利用段階は上記聴覚特性に対応する可聴信号を上記第
１のビデオセグメントと表示されるテキストフォーマットに変換することを含む
請求項９記載の方法。
【請求項１２】上記ビデオセグメントから聴覚特性を抽出するために一つ
以上の単一の音声、複数の音声、音楽、サイレンス、ノイズを含む可聴カテゴリ
に上記ビデオセグメントの少なくとも一部分を分離することを含む請求項９記載
の方法。
【請求項１３】上記聴覚特性はテーマ音楽の抽出、話者識別、及び、編曲
抽出の少なくとも一つを有する請求項９記載の方法。
【請求項１４】上記特性は上記ビデオセグメントの少なくとも一つのフレ
ームから抽出されるテキスト特性である請求項１記載の方法。
【請求項１５】上記利用段階がテキスト情報に対応する情報をオーバーレ
イとして上記第１のビデオセグメントのディスプレイ上に表示することを含む請
求項１４記載の方法。
【請求項１６】上記決定段階は、少なくとも部分的には特徴抽出技法を使
用して上記ビデオセグメントの一部分から抽出される少なくとも一つの多次元の
特性ベクトルに基づく上記関連付けを決定することを含む請求項１記載の方法。
【請求項１７】上記決定段階は、少なくとも部分的には類似性尺度及びク
ラスタリング技法の少なくとも一つに基づく上記関連付けを決定することを含む
請求項１記載の方法。
【請求項１８】ビデオを処理する装置であって、特定の特性を含む第１のビデオセグメントと上記特性を含む少なくとも一つの
追加的な情報源の間の関連付けを記憶するメモリと、上記メモリに結合され、少なくとも部分的にはユーザによる上記第１のビデオ
セグメント中の上記特性の選択に基づく上記追加的な情報源からの情報の表示を
命令するよう上記関連付けを利用するために動作されるプロセッサとを有する装
置。
【請求項１９】ビデオを処理する装置であって、（ｉ）特定の特性を含む第１のビデオセグメントと上記特性を含む少なくとも
一つの追加的な情報源の間の関連付けを決定し、（ｉｉ）ユーザによる上記第１のビデオセグメント中の上記特性の選択に少な
くとも部分的には基づく上記追加的な情報源からの情報を表示するために上記関
連付けを利用するために動作されるプロセッサを有する装置。
【請求項２０】一つ以上のソフトウェアプログラムを含む機械可読媒体で
あって、上記ソフトウェアプログラムが実行されると、特定の特性を含む第１のビデオ
セグメントと上記特性を含む少なくとも一つの追加的な情報源の間の関連付けを
決定する段階と、ユーザによる上記第１のビデオセグメント中の上記特性の選択に少なくとも部
分的には基づく上記追加的な情報源からの情報を表示するために上記関連付けを
利用する段階とを実行する機械可読媒体。
【請求項２１】ビデオを処理する方法であって、第１のビデオセグメントの一部分における情報から上記第１のビデオセグメン
トの特定の特性と上記特性を含む少なくとも一つの追加的な情報源との間の関連
付けを決定する段階と、上記追加的な情報源からの情報を表示するために上記関連付けを利用する段階
とを有する方法。
【請求項２２】ビデオを処理する装置であって、（ｉ）第１のビデオセグメントの一部分における情報から上記第１のビデオセ
グメントの特定の特性と上記特性を含む少なくとも一つの追加的な情報源との間
の関連付けを決定し、（ｉｉ）上記追加的な情報源からの情報を表示するために上記関連付けを利用
するために動作されるプロセッサを有する装置。
【請求項２３】一つ以上のソフトウェアプログラムを含む機械可読媒体で
あって、上記ソフトウェアプログラムが実行されると、第１のビデオセグメントの一部
分における情報から上記第１のビデオセグメントの特定の特性と上記特性を含む
少なくとも一つの追加的な情報源との間の関連付けを決定する段階と、上記追加的な情報源からの情報を表示するために上記関連付けを利用する段階
とを実行する機械可読媒体。