JP2002529858A

JP2002529858A - 相互使用可能なマルチメディアコンテンツ記述のためのシステムおよび方法

Info

Publication number: JP2002529858A
Application number: JP2000581555A
Authority: JP
Inventors: パイク，セウンユップ; ベニテス，アナ; チャン，シー−フ
Original assignee: ザトゥルスティーズオブコロンビアユニバーシティインザシティオブニューヨーク
Priority date: 1998-11-06
Filing date: 1999-11-05
Publication date: 2002-09-10
Also published as: WO2000028440B1; AU1468500A; KR100605463B1; US7653635B1; EP1125227A4; WO2000028440A1; EP1125227A1; KR20010092449A

Abstract

(57)【要約】マルチメディア情報から標準記述記録を生成するためのシステムおよび方法を提供する。このシステムは、マルチメディア情報を受信する少なくとも1つのマルチメディア情報入力インターフェース（180）、コンピュータプロセッサ、該プロセッサと動作的に接続された、該少なくとも1つの記述記録を記憶するためのデータ記憶システム（150）を備えている。プロセッサは、マルチメディア情報内に組込まれたコンテンツについて、少なくともマルチメディアオブジェクト記述（200、201、205）とマルチメディアオブジェクト階層記述を含んだ1つの記述記録を生成するべく、マルチメディア情報からマルチメディアオブジェクト記述（200、201、205）を生成するためのオブジェクト抽出手順を実行し、また、マルチメディアオブジェクト階層記述を生成するためのオブジェクト階層手順（410、420）を実行する。

Description

【発明の詳細な説明】

【０００１】（I. 発明の属する技術分野）本発明は、マルチメディアコンテンツを記述する技術に関し、特に、このよう
な情報のコンテンツ同様に、ビデオおよび画像情報の両方を記述する技術に関す
るものである。

【０００２】（II. 背景技術）インターネットの世界規模の成長と、リージョナルネットワークおよびローカ
ルネットワークの採用の普及によって、消費者および企業によるデジタルマルチ
メディア情報へのアクセスは増加の一途をたどっている。そのため、この増大す
る生の情報の中から有益な情報を選び出すことができるように、デジタルマルチ
メディア情報を処理、フィルタリング、検索、編成するシステムを開発すること
がより一層重要になっている。インスタントアプリケーションをファイリングする場合、消費者や企業が原文
を検索できる解決方法が存在する。当然、yahoo.com、goto.com、exite.comが提
供しているような、またこれ以外の様々なテキストベースの検索エンジンが World Wide Web上で利用可能であり、また、これらは数ある検索エンジンの中で
もアクセス数が最も多いことから、このような情報検索技術の需要が著しく多い
ことがわかる。

【０００３】しかし、マルチメディアコンテンツについては、このマテリアルの一般的に認
識された記述がないため同様のことがが当てはまらないことが残念である。その
ため、ユーザが、画に組込まれたビデオオブジェクトの色、テクスチャ、形状情
報のような特徴を用いた画像を検索することができるマルチメディアデータベー
スを提供する試みがなされてきた。しかし、このマテリアルについての広く認識
された記述がないために、20世紀が終わろうとしている現在でも、インターネッ
トまたは多くのリージョナル、ローカルネットワークでマルチメディアコンテン
ツの汎用検索を実行することは依然として不可能である。さらに、マルチメディ
アコンテンツの検索の必要性はデータベースのみに限らず、デジタル放送テレビ
やマルチメディア電話通信のようなその他のアプリケーションにも言えることで
ある。このような標準マルチメディア記述フレームワークを開発する、ある産業規模
の試みが、Motion Pictures Expert Group（”MPEG”）のMPEG-7の標準化するた
めの努力を通してなされた。1996年10月に発売されたMPEG-7は、マルチメディア
の検索、フィルタリング、ブラウジング、要約のようなコンテンツ重視のアプリ
ケーションを促進するために、マルチメディアデータのコンテンツの記述を標準
化することを目標としている。MPEG-7標準のより完全な説明は、国際標準化機構
の文書ISO/IEC JTC1/SC29/WG11 N2460（1998年10月）に記載されており、その内
容については本願明細書でも援用している。

【０００４】 MPEG-7標準には、様々なタイプのマルチメディア情報を記述するための記述子
とその関係に、構造（「記述スキーム」と呼ばれる）と同様に記述子の標準セッ
トを指定する目的がある。MPEG-7はさらに、記述子およびその関係に、「記述ス
キーム」同様、他の記述子を定義するための標準化方法を提案している。この記
述、つまり記述子と記述スキームの組合わせは、ユーザの関心事についての高速
で有効な検索およびフィルタリングを可能にするべく、そのコンテンツ自体に関
連する。MPEG-7はさらに、記述スキームを指定するための言語、つまり記述定義
言語（”DDL”）や、マルチメディアコンテンツの記述をバイナリ暗号化するた
めのスキームの標準化を提案している。インスタントアプリケーションのファイリング時に、MPEGは、将来のMPEG-7標
準へのインテグレーションに必要な記述スキームを最適に実現するための技術の
提案を要請している。このような最適化された記述スキームを提供するために、
3つのマルチメディアアプリケーション装置が考えられる。これらは、分散型の
処理シナリオ、コンテンツ交換シナリオ、マルチメディアコンテンツのパーソナ
ライズされたビューイングを可能にするフォーマットである。分散型の処理では、記述スキームは、マルチメディアコンテンツの分散型処理
を可能にする、任意のプラットフォーム、ベンダー、アプリケーションに関係な
くマルチメディア材料の記述を相互交換記述する機能を提供しなければならない
。相互使用可能なコンテンツ記述の標準化とは、つまり、多数のソースからのデ
ータを、マルチメディアプロセッサ、エディタ、検索システム、フィルタリング
エージェント等の多数の分散型アプリケーションと結ぶことができるということ
である。これらのアプリケーションのいくつかは、マルチメディアツールの供給
業者のサブ・インダストリを生み出すサードパーティによって提供されてもよい
。

【０００５】ユーザは、何らかの低レベルまたは高レベル処理によって得られたコンテンツ
および関連するインデクシングデータをダウンロードして、様々なコンテンツプ
ロバイダのウェブサイトへのアクセスを許可され、数社のツールプロバイダのウ
ェブサイトにアクセスし、ユーザの個人的な関心事に従って、異種のデータ記述
を特定の方法で操作するためのツール（Javaアプレット等）をダウンロードする
。このようなマルチメディアツールの1例はビデオエディタである。各ビデオに
関連した記述がMPEG-7コンプリアントであれば、MPEG-7コンプリアントビデオエ
ディタは、様々なソースからのビデオコンテンツを操作および処理できるように
なる。各ビデオの、カメラモーション、シーンカット、アノテーション、オブジ
ェクト区分のような記述詳細は多種多様である。相互使用可能なコンテンツ記述標準から大きな利益を受ける第2シナリオは、
異種のマルチメディアデータベース間でのマルチメディアコンテンツの交換であ
る。MPEG-7は、既存のマルチメディア材料の記述を表現、交換、変換、再使用す
る方法の提供を目指している。

【０００６】現在、テレビ局、ラジオ局やその他のコンテンツプロバイダは、膨大な量のマ
ルチメディア材料をなんとか保存している状態である。現在、この材料は、テク
スチャ情報と専有のデータベースを用いて手動で記述されている。相互使用可能
なコンテンツ記述がなければ、コンテンツユーザは、各放送局が使用する記述を
独自の専有スキームに手動で変換しなければならない。全てのコンテンツプロバ
イダが同一のスキームおよびコンテンツ記述スキームを採用すれば、マルチメデ
ィア記述のコンテンツの相互交換が可能になる。これは、MPEG-7の目的の1つで
ある。最後に、記述スキームを採用したマルチメディアプレーヤおよびビューアは、
ユーザが設計したデータのマルチプルビューのような革新的な機能をユーザに提
供しなければならない。ユーザは、コンテンツ放送局から再び異なるフォーマッ
トのデータダウンロードする必要なく、表示形態を変更できなくてはならない。前述の例は、MPEG-7に基づいて標準化された方法で伝達された贅沢に構築され
たデータの使用を単に示唆するものである。残念なことに、現在の従来技術には
、分散型処理、コンテンツ交換、またはパーソナライズされたビューイングのシ
ナリオを全て満たすものがない。特に、従来技術では、属特徴またはセマンティ
ック特徴のいずれかに基づいて、マルチメディア情報に組込まれたコンテンツを
キャプチャする技術、またはこのようなコンテンツを編成する技術が欠落してい
る。従って、包括的なマルチメディア情報のための効率的なコンテンツ記述スキ
ームが必要である。

【０００７】（発明の概要）本発明の目的は、包括的なマルチメディア情報のためのコンテンツ記述スキー
ムを提供することである。本発明の別の目的は、標準化されたマルチメディアコンテンツ記述スキームを
実現する技術を提供することである。本発明のさらなる目的は、ユーザがインターネットや、リージョナルまたはロ
ーカルネットワーク上で、マルチメディアコンテンツの一般的な検索を行えるよ
うにするための装置を提供することである。本発明のさらに別の目的は、属特徴またはセマンティック関係のいずれかに基
づいて、マルチメディア情報に組込まれたコンテンツをキャプチャする技術を提
供することである。

【０００８】本発明のまた別の目的は、属特徴またはセマンティック関係のいずれかに基づ
いて、マルチメディア情報に組込まれたコンテンツを編成する技術を提供するこ
とである。これらの、また、以下に示すさらなる説明を参照することで明白になるこれ以
外の目的を達成するために、本発明は、マルチメディア情報から記述記録を生成
するシステムを提供する。このシステムは、マルチメディア情報を受信するため
の少なくとも1つのマルチメディア情報入力インターフェース、コンピュータプ
ロセッサ、前記プロセッサと有効に接続された、前記少なくとも1つの記述記録
を記憶するためのデータ記憶システムを装備している。本発明の目的を達成する
ために、プロセッサは、マルチメディア情報に組込まれたコンテンツついてに、
マルチメディアオブジェクト記述とマルチメディアオブジェクト階層記述を含ん
だ少なくとも1つの記述記録を生成するべく、マルチメディア情報からマルチメ
ディアオブジェクト記述を生成するためのオブジェクト抽出手順と、マルチメデ
ィアオブジェクト階層記述を生成するためのオブジェクト階層手順を実行する。

【０００９】好ましい配置では、マルチメディア情報は画像情報であり、マルチメディアオ
ブジェクト記述は画像オブジェクト記述であり、マルチメディア階層オブジェク
ト記述は画像オブジェクト階層である。別の好ましい配置では、マルチメディア
情報はビデオ情報であり、マルチメディアオブジェクト記述はビデオオブジェク
ト記述であり、マルチメディアオブジェクト階層記述はビデオオブジェクト階層
記述である。マルチメディア情報が画像情報である場合、オブジェクト抽出手順が、画像情
報内の各画像を複数のリージョンに区分化するための画像区分化手順と、1つま
たはそれ以上のリージョンに1つまたはそれ以上の特徴記述を生成するための特
徴抽出手順とを含んでいることが非常に好ましい。記述は、テキストアノテーシ
ョン、色、テクスチャ、形状、サイズ、位置情報を有することができる。

【００１０】同様に、画像オブジェクト階層記述が物理記述と論理記述の両方を有するよう
にするために、オブジェクト階層手順が、オブジェクトの空間特徴に基づいた、
画像オブジェクト記述の物理オブジェクト階層記述を生成するための物理オブジ
ェクト階層編成と、オブジェクトのセマンティック特徴に基づいた、画像オブジ
ェクト記述の論理オブジェクト階層記述を生成するための論理オブジェクト階層
編成とを備えていることが有益である。画像オブジェクト記述と画像オブジェク
ト階層記述を圧縮された記述情報に暗号化するためのエンコーダをシステムに追
加することができる。マルチメディア情報がビデオ情報である場合には、オブジェクト抽出手順が、
ビデオ情報を1つまたはそれ以上のビデオイベントまたはイベントのグループに
時間的に区分するためのビデオ区分手順と、ビデオイベントをリージョンに区分
し、これらリージョンのために特徴記述を生成するためのビデオオブジェクト抽
出手順と、ビデオイベントのために1つまたはそれ以上の特徴記述を生成するた
めの特徴抽出手順とを有することが非常に好ましい。イベントのための特徴記述
は、テキストアノテーション、ショット推移、カメラモーション、時間、キーフ
レームを含んでいてもよい。オブジェクトのための特徴記述は、テキストアノテ
ーション、色、テクスチャ、形状、サイズ、位置、動作、時間を含んでいてもよ
い。

【００１１】同様に、オブジェクト階層手順が、ビデオイベントとオブジェクトの時間的特
徴に基づいた、ビデオイベントとオブジェクト記述の物理イベントおよびオブジ
ェクト階層記述を生成するための物理イベントおよびオブジェクト階層編成と、
オブジェクトのセマンティック特徴に基づいた、ビデオイベントおよびオブジェ
クト記述の論理イベントおよびオブジェクト階層記述を生成するための論理イベ
ントとオブジェクト階層編成の両方と、ビデオ情報に組込まれたイベントおよび
オブジェクトについて階層基準を生成するためのビデオオブジェクト階層抽出手
順を有することが有益である。本発明はさらに、包括的なマルチメディア情報についてコンテンツ記述スキー
ムを供給する方法を提供する。ある配置では、この方法は、前記マルチメディア
情報を受信する段階と、マルチメディアオブジェクト記述を生成するために、オ
ブジェクト抽出手順を実行することで、前記マルチメディア情報を処理する段階
と、マルチメディアオブジェクト階層記述を生成するために、オブジェクト階層
手順により、前記生成されたマルチメディアオブジェクト記述を処理する段階と
を有し、前記マルチメディア情報内に組込まれたコンテンツについて、前記オブ
ジェクト記述と前記階層オブジェクト記述を含んだ少なくとも1つの記述記録が
生成され、記録を記憶する段階をさらに有する。

【００１２】本発明はさらに、関連するマルチメディア情報についてマルチメディアコンテ
ンツを記述する少なくとも1つのマルチメディア記述記録を備えたデジタル情報
を含んだコンピュータ読み取り可能な記録媒体を提供する。ある配置では、メデ
ィアは、マルチメディア情報に組込まれたオブジェクトと関連するための少なく
とも1つのオブジェクト記述と、オブジェクトの各々を特長付ける1つまたはそれ
以上の特徴と、少なくとも1つの特徴に従った少なくともオブジェクトの位置に
関連した任意の利用可能な階層情報とを有する。マルチメディア情報は、画像ま
たはビデオ情報であってよく、ビデオ情報である場合には、オブジェクトは、ビ
デオ情報に組込まれたイベントまたはビデオオブジェクトであってよい。本願明細書に援用され、本開示の1部分を構成する添付の図面は、本発明の好
ましい実施例を例示し、また、本発明の原理を説明する。

【００１３】（実施の形態）図1を参照すると、本発明の例証的な１実施例を示している。システム100のア
ーキテクチャは、クライアントコンピュータ110とサーバコンピュータ120を装備
している。サーバコンピュータ120は、ディスプレイインターフェース130、クエ
リディスパッチャ140、パフォーマンスデータベース150、クエリトランスレータ
160、161、165、目的の検索エンジン170、171、175、追加のクライアントコンピ
ュータ180、マルチメディアコンテンツ記述システム200、201、205をそうびして
いる。これらについて以下に詳細に説明する。以下にこの例証的なクライアントサーバの実施例を参照しながら説明するうち
に、当業者には、特定のシステム装置を、本発明の範囲内において様々な従来の
ローカルあるいは分散アーキテクチャを備えるべく変更できることが理解される
であろう。例えば、1つのコンピュータにクライアントサーバシステムの全ての
機能を持たせる、複数のサーバコンピュータが共用または個別の機能を利用する
ことも可能である。マルチメディアコンテンツ記述システム200、201、205は、
サーバコンピュータ120に設けられた汎用プロセッサを実行するソフトウェアル
ーチンであることが好ましい。

【００１４】商業上利用可能なメタサーチエンジンは、ユーザをマルチプルテキストベース
の検索エンジンと自動的且つ透過的にリンクするためのゲートウェイとして機能
する。図1のシステムは、このようなメタサーチエンジンのアーキテクチャ上で
成長し、異なるユーザクエリのパフォーマンスをランキングすることによって、
複数のオンラインマルチメディア検索エンジンをインテリジェントに選択し、こ
れとインターフェースするべく設計されている。従って、商業的に利用可能なメ
タサーチエンジンのクエリディスパッチャ140、クエリトランスレータ160、161
、165、ディスプレイインターフェース130を本発明に採用することができる。ディスパッチャ140はユーザクエリを受信すると、パフォーマンスデータベー
ス150にコンサルトし、問合せ先となる目的の検索エンジンを選択する。このデ
ータベース150は、サポートされた検索オピニオンの各々について過去に受けた
クエリの成功および失敗のパフォーマンススコアを蓄積している。クエリーディ
スパッチャは、ユーザのクエリに合った検索エンジン170、171、175のみを選択
する。例えば、色情報についてのクエリは、色についての情報を備えた検索エン
ジンをトリガする。

【００１５】クエリトランスレータ160、161、165は、ユーザクエリを、選択した検索エン
ジンのインターフェースに準拠した適切なスクリプトに変換する。ディスプレイ
コンポーネント130は、パフォーマンススコアを利用して各検索エンジンからの
結果を組合わせ、これをユーザに提示する。本発明によれば、ユーザが、インターネット、リージョナルまたはローカルネ
ットワークを用いて、マルチメディアコンテンツを知的に検索できるようにする
ために、検索クエリが、マルチメディア情報に組込まれたコンテンツに関連して
行われる。コンテンツに基づいた検索クエリは、本発明の記述スキームに準拠し
たマルチメディアコンテンツを例証または概略によって記述することで実行でき
る。各検索エンジン170、171、175は、検索エンジンによるアクセスが可能なマ
ルチメディア情報のコンテンツを記述し、また検索を実行できるようにするため
に、例えば以下に示すような記述スキームを採用している。

【００１６】ディスパッチャ140は、クライアントコンピュータ110を介して生成されたマル
チメディア情報についてコンテンツベースの検索クエリを実行するために、各検
索エンジン170、171、175のマルチメディア記述システム200を用いてそのクエリ
記述を一致させ、ユーザが行った問合わせの選択に合致させる。クライアントコ
ンピュータ110のユーザが色について検索したいが、検索エンジンが色に関する
記述子を全くサポートしていないという場合には、ある特定の検索エンジンに問
合せをしても無駄である。次にクエリトランスレータ160は、そのクエリ記述を、選択した各検索エンジ
ンに準拠した記述に変換する。さらに、各検索エンジンで利用可能な記述スキー
ムに準拠して再び変換される。このタスクは標準記述子の抽出コード、または特
定の検索エンジンからダウンロードした抽出コードを実行して、記述子を変更す
る必要がある。例えば、ユーザが166ビンの色調を用いて対象物の色特徴を指定
した場合、クエリトランスレータは、これを各検索エンジンで使用されている特
定の色記述子、例えば、xビンの色調および色ヒストグラムに変換する。

【００１７】クエリインターフェースは、得られた全ての記述を、比較およびランキングす
るべく同種に変換して得た各検索オピニオンからの結果を組合わせた後にユーザ
に結果を提示する。ここで再び、標準記述子用の類似コードまたは検索エンジン
からダウンロードした類似コードを実行する必要がある。あるいは、目的の検索エンジン170と直接対話するクライアントコンピュータ1
80を介して検索クエリを入力することもできる。クライアントコンピュータ180
は、クライアントコンピュータ110を介して入力したクエリのように多数の検索
エンジンを介したメタサーチを行うことができない。しかし、これらの装置にマ
ルチメディアコンテンツ記述システム200を採用すれば、本発明によるコンテン
ツベースの検索の実行が可能になる。

【００１８】次に、図2を参照すると、各検索エンジン170、171、175に採用された本発明に
よる記述システム200を示している。これについて以下に説明する。ここで説明
する好ましい実施例では、エクステンシブ・マークアップ言語（”XML”）を使
用してマルチメディアコンテンツを記述している。XMLは、ドキュメントフォー
マットを定義および使用するための標準言語である標準マークアップ言語（”SG
ML”）のサブセットである。SGMLによりドキュメントが自己記述的になる。つま
り、ドキュメント自体が、ドキュメント中で使用されたタグセットと、それらの
タグが示す構造関係を指定することにより独自の文法を記述することができる。
XMLは、完全なSGMLよりも学習、使用、実現を大幅に容易にするために設計され
たSGMLの主要な特徴を備えている。XMLについての完全な説明はWorld Wide Web
Consortiumのウェブページ（http://www.w3.org/XML/）上のXMLの項目で見るこ
とができ、その内容については本願明細書中で援用している。記述システム200は、画像およびビデオアイテム205を収集するための豊富で多
様な記述を生成する複数の画像、ビデオ処理、分析、アノテーションサブシステ
ム210、220、230、240、250、260、270、280を備えている。次に、それぞれのサ
ブシステムについて説明する。

【００１９】第1のサブシステム210は、自動区分されたビデオシーケンスのリージョンにつ
いて、映像特徴を、色、テクスチャ、動作、形状、サイズとして抽出するリージ
ョンベースのインデクシングおよび検索システムである。システム210は、シー
ン変更検出によりビデオを個々のショットに分解する。これは急激または推移的
であってよい（例えば、ディゾルブ、フェードイン/アウト、ワイプ）。システ
ム210は、各ショットについてグローバル（すなわち、ドミナントな背景の動作
）とカメラモーションを概算し、次に各リージョンについて異なる映像特徴を計
算しながら、そのショット内の全フレームにかけてリージョンの区分化、検出、
追跡を行う。このシステムが各ショットに生成した記述は、映像および動作特徴
を備えたリージョンとカメラモーションの組合わせによるものである。リージョ
ンベースのインデクシングおよび検索システム210についての完全な説明は、199
8年5月5日付けで提出された同時係属出願PCT明細書第PCT/US98/09124号、”An A
lgorithm and System Architecture for Object-Oriented Content-Based Video
Search”に記載されており、その内容は本願明細書中でも援用している。

【００２０】ここで使用する「ビデオクリップ」という用語は、例えば、バットを振る野球
選手、海を横切るサーフボード、草原を走る馬のように、識別可能な属性を持っ
た1つまたはそれ以上のビデオオブジェクトを備えるビデオ情報の一連のフレー
ムを意味する。上記の例は例証であり限定ではない。「ビデオオブジェクト」と
は、1つまたはそれ以上の関心事、例えばテクスチャ、色、動作、形状において
一様な画素の連続的な組である。従って、ビデオオブジェクトは、少なくとも1
つの特徴において一貫性を示す1つまたはそれ以上のビデオリージョンから形成
されている。例えば、歩行中の人物の1ショット（ここでは人物が「オブジェク
ト」である）は、形状、色、テクスチャのような基準において異なる、隣接した
リージョンの集合体に区分化されるが、全てのリージョンはその動作属性におい
て一致していてよい。

【００２１】第2サブシステム220は、直接、MPEG圧縮されたドメインにおいて顔を効率的且
つ自動的に検出するMPEGドメイン顔検出システムである。人間の顔はビデオにお
いて重要なサブジェクトである。顔は、ニュース、ドキュメンタリー、映画等の
至る所に現れ、見る側にビデオの内容を理解するための重要な情報を提供する。
このシステムは、顔ラベルを備えた1組のリージョンを提供する。システム220の
完全な説明は、1997年11月4日付けで提出されたPCT明細書第PCT/US 97/20024号
”A Highly Efficient System for Automatic Face Region Detection in MPEG
Video”に記載されており、その内容については本願明細書中でも援用している
。

【００２２】第3システム230は、ビデオシーケンス内でセマンティックオブジェクトを追跡
するために、自動区分がユーザ入力と統合されるビデオオブジェクト区分システ
ムである。一般的なビデオソースの場合には、このシステムによって、ユーザが
、追跡インターフェースを用いておおよそのオブジェクト境界を定義することが
できるようになる。システムは、おおよそのオブジェクト境界が与えられると、
自動的に境界をリファインし、後続するビデオのフレームにオブジェクトの動作
を追跡する。このシステムは、複雑なオブジェクト、高速で断続的な動作、複雑
な背景、動作中の複数のオブジェクト、部分的な閉鎖を含む従来のアプローチで
はモデリングが困難な現実世界の多くの状況に十分対応することができる。この
システムによって生成された記述は、関連するリージョンと特徴を備え、テキス
トに手作業でアノテーションすることが可能な1組のセマンティックオブジェク
トである。システム230の完全な説明は、1998年9月24日付けで提出された米国特
許明細書第09/405、555号、”An Active System and Algorithm for Semantic V
ideo Object Segmentation”に記載されており、その内容については本願明細書
中で援用している。

【００２３】第4サブシステム240は、圧縮されたMPEGビデオストリームをパースして、ショ
ット境界、動作中のオブジェクト、オブジェクトの特徴、カメラモーションを抽
出する階層的なビデオブラウジングシステムである。このシステムはさらに、階
層的なショットに基づいた、直感認識可能な映像化およびビデオ編集用のブラウ
ジングインターフェースを生成する。システム240についての完全な説明は、199
7年5月16日付けで提出されたPCT明細書第PCT/US 97/08266号、”A Method and A
rchitecture for Indexing and Editing Compressed Video Over the World Wid
e Web”に記載されており、その内容については本願明細書中でも援用している
。

【００２４】第5システム250は、マニュアルアノテーションの入力である。シーンを分類す
るために、映像特徴とテクスチャ特徴を統合することが望ましい場合もしばしば
ある。例えばClarinetのようなオンラインニュースソースからの画像には、多く
の場合、各画像に関連したキャプションまたはアーティクル形式のテクスチャ情
報が存在する。このテクスチャ情報は記述内に含めることができる。

【００２５】第６システム260は、画像およびビデオショットを、低レベル映像特徴に基づ
いて高レベルセマンティック類別するためのシステムである。このシステムのコ
アは、規則の帰納、クラスタリング、最も近い近傍の類別のような様々なマシン
学習技術で構成されている。このシステムは、画像およびビデオシーンを{natur
e landscape}、{city/suburb}、{indoor}、{outdoor}といった高レベルなセマン
ティックシーンクラスに類別するために使用される。また、たとえ同じ組のセマ
ンティックシーン分類ついてでも、あるコーパスでは上手く機能する規則の固定
組が別のコーパスでも同様に機能するとは限らないため、このシステムはマシン
学習技術を重視している。システムのコアがマシン学習技術に基づいているため
、該システムを各コーパスからの例に慣らすことで、異なるコーパスのパフォー
マンスを向上させるために使用することができるようになる。このシステムで生
成された記述は、ビデオシーケンスのショットに関連した各画像または各キーフ
レームのシーン分類を示す1組のテキストアノテーションである。システム260の
完全な説明は、カリフォルニア州バークレイで開催されたACM SIGIR ’99 Works
hop on Multimedia Indexing and Retrievalでの S. Paek等による”Integratio
n of Visual and Text based Approaches for the Content Labeling and Class
ification of Photographs”に記載されており、その内容については本願明細書
中でも援用している。

【００２６】第7サブシステム270は、モデルベースの画像分類システムである。多くの自動
画像分類システムは、分類をの実行のためにクラス特定型のアルゴリズムを使用
するタイプの、予め定義されたクラスの組に基づいたものである。システム750
を使用することで、ユーザは独自のクラスを定義し、映像モデルの自動学習に使
用される例を提供することができる。映像モデルは、自動区分されたリージョン
、関連する画像特徴、空間的関係に準拠している。例えばユーザは、青色のスー
ツを着た人物が茶色のソファに座っており、彼の右側にもう1人の人物が立って
いるという写真の映像モデルを構築することができる。システムは、類別中に、
レイジー学習の決定ツリーと進化プログラムの組合わせを使用する。このシステ
ムによって生成された記述は、1組のテキストアノテーションであり、つまり、
各画像についてユーザが定義したクラスである。システム270の完全な説明は、A
. James等による“Model Based Classification of Visual Information for Co
ntent-Based Retrieval” Symp. Elec. Imaging: Multimedia Proc. And App.-S
torage Retrieval and for Image and Video Databases VII, IS&T/SPIE ’99 (
1999)に記載されており、その内容については本願明細書中でも援用している。

【００２７】この他にも、記述を生成するためにコラボレータが使用するサブシステム280
を、マルチメディアコンテンツ記述システム200に追加することができる。動作中に、画像およびビデオコンテンツ205は、静止画像または動画ビデオの
データベース、ブラウザインターフェース206からのバッファ受信コンテンツ、
生画像またはビデオ通信のレセプタクルであってよい。サブシステム210、220、
230、240、250、260、270、280は、上述の、自動区分されたリージョンの低レベ
ル映像特徴、ユーザにより定義されたセマンティックオブジェクト、高レベルシ
ーン特性、分類および関連するテクスチャ情報を含んだ記述211、221、231、241
、251、261、271、271を生成するべく、画像およびビデオコンテンツ205上で動
作する。画像またはビデオアイテムについての全ての記述が生成および統合され
ると290、これらの記述が、検索エンジン170がアクセスするデータベース295に
入力される。

【００２８】次に、図7、図8を参照して、標準フォーマットにおける記述211、221、231、2
41、251、261、271、281を生成するためにシステム210、220、230、240、250、2
60、270、280によって実現されたプロセスについて説明する。サブシステムのい
くつか、つまり、リージョンベースのインデクシングおよび検索サブシステム21
0、ビデオオブジェクト区分システム230は、記述生成プロセス全体を実現するこ
とができるが、これ以外のサブシステムはプロセスを部分的にしか実現できず、
また、処理中にサブシステム210、230によって呼出されることがある。同様の方
法で、サブシステム210、230は、処理中の特定のタスクについて互いを呼出すこ
とができる。

【００２９】次に、図3、図4を参照しながら画像の標準記述スキームについて説明する。図
3を参照すると、3人の人物が描かれた例証的な画像300を示している。<object>
要素は基本的な記述要素である。各<object>要素は、所与の画像記述内に独自の
の識別子を含んでいる。この識別子は、<object>要素の属性<object id=”1”>
として表現される。<object>要素はさらに、物理オブジェクトと論理オブジェク
トの違いを明確にするための属性名タイプを必要とする。通常、物理オブジェク
トは、共通の記述子（特徴、セマンティックス等）を備えた画像の連続したリー
ジョン、つまり画像内のリアルなオブジェクトに関連する。論理オブジェクトは
、なんらかのハイレベルセマンティック関係（例えば顔または複数の人物）に基
づいたオブジェクトのグループ化である。<object>要素は、さらに2つの属性obj
ect_refとobject_node_refを含むことができる。前者は、既存のオブジェクトか
ら1つのオブジェクトを引き出すことを可能にし、後者は、オブジェクト階層内
のノードと再度リンクする。画像内で識別された全オブジェクトの組は、オブジ
ェクトセット要素（<object_set>）内に含まれている。

【００３０】図3は、家族写真の全体300、父親310、母親320、子供330、両親340、複数の顔
360、父親の顔311、母親の顔321を含む9つの例証的オブジェクトを示している。
これらのオブジェクトは、図ａ4に示すようにオブジェクト0、1、2、3、4、5、6
、7、8の組として示すことができ、ここで、家族写真の全体はオブジェクト0、
父親310はオブジェクト1、母親320はオブジェクト2、子供330はオブジェクト3、
両親340はオブジェクト4、複数の子供350はオブジェクト5、複数の顔360はオブ
ジェクト6、父親の顔311はオブジェクト7、母親の顔321はオブジェクト8である
。この例では、論理オブジェクトである複数の顔360を除き、識別されたオブジ
ェクトの各々は物理オブジェクトである。XMLにおいて、これらの画像オブジェ
クトは以下の通りに示すことができる。 XML記述において、各オブジェクト要素は画像記述内に独自の識別子を備えて
いる。識別子はオブジェクト要素（id）の属性として表現される。オブジェクト
要素（type）の別の属性により、物理オブジェクトと論理オブジェクトの違いが
明確になる。各オブジェクトのコンテンツは、画像記述の全体構造を例示するた
めに空の状態にされている。

【００３１】画像記述スキームは、1つまたはそれ以上のオブジェクト階層要素において階
層的に組合わされたオブジェクト要素（<object_hierarchy>）を備えている。こ
の階層は、オブジェクト要素をオブジェクトセット要素に編成するための方法で
ある。各オブジェクト階層は、オブジェクトノード要素（<object_node>）のツ
リーによって構成されている。各オブジェクトノードは1つのオブジェクトを示
す。 1画像中に含まれるオブジェクトは、画像中のオブジェクトの位置またはオブ
ジェクトのセマンティック関係によって編成することができる。オブジェクトを
グループ化するためのこれら2つの方法により、2タイプの階層、つまり物理階層
と論理階層が生成される。物理階層は、画像中のオブジェクトの物理的な位置を
記述する。一方で、論理階層は、セマンティッククラスタリングと同様に、その
セマンティックの高度レベル認識に基づいてオブジェクトを編成する。

【００３２】図3の画像例に続き、2つの実行可能な階層が図4bに示されている。ここで、オ
ブジェクトを物理的に編成するオブジェクト階層410が示されている。つまり、
オブジェクト4、5は物理的にオブジェクト0内にある。オブジェクトを論理的に
編成する第2オブジェクト階層420では、オブジェクト7、8はオブジェクト6と関
連している。XMLにおいて、これら2つの階層は以下のように示すことができる。階層のタイプは、オブジェクト階層要素内に属性（type）として含まれている
。オブジェクトノード要素は、属性（id）形式の独自の識別子と関連している。
オブジェクトノードは、後者の独自の識別子を用いてオブジェクト要素を参照す
る。オブジェクト要素への参照は、属性（object_ref）として含まれている。オ
ブジェクト要素は、ノードへのリンクを1属性としてオブジェクト階層内に含む
ことができる。

【００３３】オブジェクトセット要素と、１つまたはそれ以上のオブジェクト階層要素とが
画像要素（<image>）を形成する。<object_set>要素内の<object>要素は、<obje
ct_hierachy>要素内の組合わせ階層である。<object>の属性object_node_refは
、<object_hierarch>要素内における関連ノードの位置を示す。一方、<event_no
de>要素の属性event_refは再び<object>要素を参照する。 <object>要素は任意で<location>要素、さらに、<text_annotation>、<color>
、<texture>、<shape>、<size>、<position>、<motion>、<time>要素のような記
述子要素を含むことができる。<location>要素は、画像の物理位置を示すリスト
を含んでいる。<time>要素と<motion>要素は、オブジェクトが以下に示すビデオ
シーケンスに属する場合にのみ意味を持つ。

【００３４】付録Iは、図3に示した例証的な画像の完全な画像記述を提示している。画像記
述スキームを次の表Iに要約する。

【００３５】場所要素は、画像の場所を示すポインタを含んでいる。アノテーションはテク
スチャ、映像、またはマルチメディアであってよい点に留意すること。これらの
特徴は、自動的、半自動的、または手動によって抽出あるいは指定される。特徴が自動的に抽出される場合、特徴記述子は、抽出へのリンク、および同様
に一致するコードを含んでよく、さらに、以下に示す外部記述からのアノテーシ
ョン要素を含んでもよい。付録IIに含まれる第2例は、1つまたはそれ以上の明確なオブジェクトの含有が
可能な特定の画像のコンテンツを例示しており、該オブジェクトは、画像の保存
場所、テキストアノテーション、つまり写真の名前、その写真中の人物の名前、
写真の撮影場所、その写真が表すイベント、撮影日付け、また、LUV色に関連し
た色特徴、Tamuraテクスチャに関連したテクスチャ特徴、画像のサイズまたは寸
法を含むそのオブジェクトの特徴に関連している。従って、写真全体についての
情報、例えば画像の保存場所は、全体画像を表すオブジェクト”id=o0”を記述
する。その他の情報は、画像内の他のオブジェクトに関連している。オブジェク
ト”id=o1”については、例中で、テキストアノテーション（人物の名前を含む
）、色、テクスチャ、固有値分析を用いた形状、サイズ、区分マスク分析に関連
した位置に関連して詳細に説明している。オブジェクト”id=o2”については、
テキストアノテーションのみが提示されている。オブジェクト”id=o3”は、顔
の概念に関連した論理オブジェクトである。

【００３６】次に、図5、図6を参照しながらビデオの標準記述スキームについて説明する。
図5を参照すると、5つの時間的なビデオイベントを備えた例証的なビデオクリッ
プ500が示されている。ビデオ記述スキームにおいて、<event>要素は基本的な記
述要素である。各々の<event>要素は、所与のビデオDS記述内に独特な識別子を
備えている。識別子は、<event>要素の属性として、例えば<event id=”1”>と
表される。 <event>要素は、異なるタイプのイベントとの違いを明確にするために、別の
属性名タイプを必要とする。この属性タイプは異なる3つの値、つまりshot、con
tinuous_group_shots、discontinuous_group_shotsを含むことができる。通常、
断続的なショットのグループどうしは、共通の特徴（例えば背景色）または高レ
ベルのセマンティック関係（例えば、映画の出演俳優）に基づいて相互に関連す
る。<event>要素は、さらに2つの属性、basic_event_refとevent_node_refを含
むことができる。前者は、既存のものから1つのイベントを引き出し、後者は、
イベント階層内のノードと再度リンクする。<event_set>要素内には、全てのイ
ベントのセットが含まれている。

【００３７】図5に示す9つの例証的なビデオイベントは、ビデオシーケンスの全体500、ト
ラが獲物に忍び寄っているシーン510、トラが獲物を追いかけているシーン520、
トラが獲物を捕まえたシーン530、トラが獲物を食べているシーン540を含んでい
る。最後の獲物を食べているシーンは、トラが捕獲した獲物を隠しているシーン
550と、トラが子供に捕獲した獲物を与えているシーン560という2つのイベント
を含んでいる。画像オブジェクトと類似したこれらのビデオイベントは、図6aに
示すイベント0、1、2、3、4、5、6のセットとして表すことができる。ここで、
ビデオシーケンス全体500はイベント0、トラが獲物に忍び寄っているシーン510
はイベント1、トラが獲物を追いかけているシーン520はイベント2、トラが獲物
を捕まえたシーン530はイベント3、トラが獲物を食べているシーン540はイベン
ト4、トラが捕獲した獲物を隠しているシーン550はイベント5、トラが子供に捕
獲した獲物を与えているシーン560はイベント6である。この例において、連続的
なグループショットタイプであるイベント4を除き、識別されたイベントはそれ
ぞれのショットである。イベント1、3のように時間的に整列されたイベントを、
断続的なグループショットに編成することはできない。XMLにおいて、これらの
画像オブジェクトは以下の通り表すことができる。 <event>要素の各々は、ビデオ記述スキームの全体構造を明瞭に示すために空
である点に留意すること。所与のビデオにおけるイベントの選択および定義は、
その記述の作者が決定する点に留意することが重要である。<event>要素は、ビ
デオのショットまたはシーンのいずれか1つ、またはこれらの組合わせに関連す
ることが可能である。

【００３８】基本的に、ビデオ記述スキームは、<event_hierarchy>要素において階層的に
組合わされた複数の<event>要素である。<event_hierarchy>要素は、<event_nod
e>要素を1つ含んでいなければならない。既に画像記述スキームに関連して説明
したように、<event_node>は、0またはそれ以上の<event_node>要素と、0または
それ以上の<event_hierarchy>要素を含んでいる。各<event_node>要素は関連し
た独自の識別子を有する。この識別子は、要素の属性として、例えば<event_nod
e id=”1”>と表される。階層は、<event_set>要素中の<event>要素を編成する1
方法である。

【００３９】ビデオシーケンスを形成する異なるイベントは、ビデオシーケンス中における
その場所、またはセマンティック関係の2つの異なる方法でグループ化または編
成することができる。<event_hierarchy>要素は、物理階層と論理階層の違いを
明確にするための属性、タイプを含んでいる。物理階層は、画像内のイベントの
時間的な関係を記述する。一方、論理階層は、そのセマンティックのより高レベ
ルな理解に基づいて、イベントを編成する。

【００４０】各<event_node>要素は、各<event>に関連した独自の識別子を用いて、ある<ev
ent>要素を参照することにより構成されている。この<event>要素の参照は、eve
nt_ref属性として与えられる。図5のビデオは、図6bに示す階層を備えている。
この階層は以下のように表される。ビデオ要素（<video>）は、イベントセット要素と、1つまたはそれ以上のイベ
ント階層要素によって形成されている。ビデオ要素は、記述中のビデオシーケン
スを象徴している。<event_set>要素内の複数の<event>要素は、<event_hierarc
y>要素中で階層的に組合わせられている。<event>要素の属性event_node_refは
、<event_hierarchy>要素中の関連するノードの位置を示している。一方、<even
t_node>要素の属性event_refは、再び<event>要素を参照する。

【００４１】ビデオ記述スキームにおいて、<event>要素は以下に示す要素を含んでよい。ここで、<object_set>要素、<text_annotation>要素、<location>要素は、画
像記述スキームに関連して定義されている。<transition>要素は、ショットの推
移を記述するものである。従って、トラのビデオのイベント3は以下のように記
述される。

【００４２】付録IIIは、図5に示した例証的な画像の完全なビデオ記述である。ビデオ記述スキームにおいて、イベント要素は、場所、ショット推移（つまり
、ショット内、またはショットにかけての様々な空間的効果）、カメラモーショ
ン、時間、キーフレーム、アノテーションおよびオブジェクトセット要素、また
はこれ以外を含んだ特徴を備えている。オブジェクト要素は、画像記述スキーム
内で定義され、イベント内の関連オブジェクトを表す。画像記述の場合と同様に
、これらの特徴は、自動的または手動で抽出あるいは指定を行うことができる。
自動的に抽出した特徴については、特徴記述子は抽出へのリンク、同様に一致す
るコードを含んでいてもよい。例えば以下の通りである。

【００４３】付録IVに含まれる第2例は、1つまたはそれ以上の明確なイベントを含むことが
可能な、ビデオの保存場所、テキストアノテーション、つまりそのビデオの名前
、ビデオ中の人物の名前、ビデオの撮影場所、そのビデオが表すイベント、ビデ
オの撮影日付け、そのビデオシーケンス中のオブジェクト、カメラモーション、
フレームに関連したビデオシーケンスの合計時間、キーフレームを含むこれらの
特徴に関連した、特定のビデオシーケンスのコンテンツを記述している。ビデオ
シーケンス全体に関連したこの情報は、イベントid=E0で記述することができる
。これ以外の情報はその画像内にある他のオブジェクトに関連している。記述されたコンテンツの編成に使用されるイベント階層は物理階層であり、時
間的な関係を記述する。そのイベント内では、イベント内のオブジェクトを記述
するために2つの階層、つまり物理階層と論理階層を使用している。これらの階
層は、既に画像の例で説明した物理階層、論理階層と同様のものである。

【００４４】次に、図7、図8を参照しながら、図3〜図6を参照して説明した画像およびビデ
オ記述を生成するためにシステム200が実行する手順について説明する。図7は、
画像の記述を生成するための好ましい手順を示すフロー線図である。コンピュー
タシステムには、リンク711を介してデジタル画像データ710が採用されている。
画像データは非圧縮のものでもよいし、または、JPEGのような適当な圧縮スキー
ムによって圧縮されたものでもよい。適当なアプリケーションソフトウェアの制御下で、コンピュータシステムはま
ず画像オブジェクトを生成するために、画像データ710上でオブジェクト抽出720
を実行する。オブジェクト抽出720は全自動処理オペレーション形式、半自動処
理オペレーション形式、または、主にユーザ入力装置のようなユーザ相互作用を
介してオブジェクトを定義する、実質的に手動のオペレーション形式であってよ
い。

【００４５】好ましい方法では、オブジェクト抽出720は2つの補助オペレーション、つまり
画像区分化725と特徴抽出およびアノテーション726から構成されている。画像区
分化725段階では、デジタル画像を1つまたはそれ以上の共通特徴を共用する複数
のリージョンに分割するための、任意のリージョン追跡技術を採用することがで
きる。同様に、特徴抽出およびアノテーション段階326では、区分化されたリー
ジョンから特徴を生成するための任意の技術を採用することができる。上述した
リージョンベースのインデクシングおよび検索サブシステム210は、自動画像区
分化および特徴抽出に適しており、また、上述したビデオオブジェクト区分化シ
ステム230は半自動画像区分および特徴抽出に適した例である。あるいは、手動
区分化および特徴抽出を代わりに採用することも可能である。オブジェクト抽出手順720は、画像オブジェクトセット721と、アノテーション
のような任意の関連特徴（総称して「画像オブジェクト記述」）を生成する。こ
れを、オブジェクト階層抽出および構築モジュール730によってさらに処理する
ことが好ましい。あるいは、オブジェクト721をデータベース740に直接保存する
か、または、XMLエンコーダ750やバイナリエンコーダ760で暗号化してからデー
タベース740に記憶することができる。

【００４６】オブジェクト階層抽出および構築モジュール730は、画像オブジェクト階層記
述731を生成するべく画像オブジェクト記述上で動作する。物理オブジェクト階
層編成735と論理オブジェクト階層編成736の両方を並行して実行し、記述731を
生成することが好ましい。上述したリージョンベースのインデクシングおよび検
索サブシステム210は自動画像オブジェクト階層構築に適しており、また、上述
したビデオオブジェクト区分化システム230は半自動画像オブジェクト階層構築
に適している。あるいは、手動オブジェクト階層構築を採用することも可能であ
る。画像オブジェクト階層記述731は、データベース740に直接保存されるか、また
は、XMLエンコーダ750あるいはバイナリエンコーダ760で暗号化してからデータ
ベース740に画像記述記録として記憶される（751、752）。画像記述記録がデー
タベース記憶装置740内に保存されると、該記録は、検索、フィルタリング、ア
ーカイブアプリケーションのような別のアプリケーション770が、例えば双方向
リンク771を介してアクセス、使用するのに有効な形式で利用できるようになる
。

【００４７】図８は、ビデオの記述を生成するための好ましい手順を示すフロー線図である
。コンピュータシステムには、リンク811を介してデジタルビデオデータ810が採
用されている。ビデオデータは、非圧縮のものでもよいし、または、MPEG-1、MP
EG-2、MPEG-4、モーションJPEG、H.261またはH.263のような適当な圧縮スキーム
に従って圧縮したものでもよい。適切なアプリケーションソフトウェアの制御下で、コンピュータシステムは、
まずビデオデータ810上でイベントおよびオブジェクト抽出820を実行して、ビデ
オデータ810を時間的に複数のビデオイベントに区分化し、これらのイベント内
にビデオオブジェクトを配置する。ビデオイベントおよびオブジェクト抽出820
は、全自動処理オペレーション形式、半自動処理オペレーション形式、あるいは
、ユーザ入力装置のような主にユーザ相互作用を介してオブジェクトが定義され
る、実質的に手動のオペレーション形式であってよい。

【００４８】好ましい方法において、ビデオイベントおよびオブジェクト抽出手順820は、3
つの補助オペレーション、つまり時間的なビデオ区分化825、オブジェクト抽出8
26、特徴抽出およびアノテーション827から構成されている。区分化825段階では
、ビデオが時間的に複数のショット、ショットの連続的なグループ、ショットの
断続的なグループに区分される。これらは1つまたはそれ以上の共通特性を共用
している。オブジェクト抽出826段階では、動作および時間情報を利用できる点
を除き、静止画像から画像オブジェクトを抽出する方法と同様の方法でビデオオ
ブジェクトがビデオショットから抽出される。特徴抽出およびアノテーション段
階827はオブジェクト抽出段階826と同時に実行することができ、また、カメラモ
ーション、キーフレーム、テキストアノテーションのような特徴を生成するべく
、時間的に区分化されたビデオショット上で動作することが可能である。既に説
明したリージョンベースのインデクシングおよび検索サブシステム210は自動区
分化、オブジェクト抽出および特徴抽出に適し、また、同じく既に説明したビデ
オオブジェクト区分化システム230は半自動区分化、オブジェクト抽出および特
徴抽出に適している。あるいは、手動区分化および抽出を採用してもよい。

【００４９】イベントおよびオブジェクト抽出手順820は、イベントとビデオオブジェクト
のセット821、アノテーションのような任意の関連する特徴（総称して「ビデオ
オブジェクト記述」）を生成する。これらは、イベントおよびオブジェクト階層
抽出および構築モジュール830でさらに処理することが好ましい。あるいは、イ
ベントおよびビデオオブジェクト821をデータベース840に直接保存するか、また
はXMLエンコーダ850やバイナリエンコーダ860で暗号化してからデータベース840
に記憶することができる。

【００５０】モジュール830は、ビデオオブジェクト階層記述831を生成するためにビデオオ
ブジェクト記述上で動作する。ビデオオブジェクト記述は、物理動作および論理
動作の両方と並行して実行することが好ましい。従って、ビデオオブジェクト記
述を、物理（時間的）イベント階層編成835と論理イベント階層編成836の両方に
かけ、これらのイベント内に組込まれたビデオイベントおよびオブジェクトの両
方が階層的に編成されるようにしてもよい。上述のリージョンベースのインデク
シングおよび検索サブシステム210は自動ビデオオブジェクト階層構築に適し、
また、やはり上述のビデオオブジェクト区分化システム230は半自動ビデオオブ
ジェクト階層構築に適している。あるいは、手動ビデオオブジェクト階層構築を
採用してもよい。

【００５１】ビデオオブジェクト階層記述831は、ビデオオブジェクト記述と共にデータベ
ース840に直接保存されるか、または、XMLエンコーダ850やバイナリエンコーダ8
60で暗号化してから、ビデオ記述記録としてデータベース840に保存される。
ビデオ記述記録がデータベース記憶装置840内に保存されると、該記録は、検索
、フィルタリング、アーカイブアプリケーションのような別のアプリケーション
770が、例えば双方向リンク771を介してアクセス、使用するのに有効な形式で利
用できるようになる。これまでの説明は、単に本発明の原理の例証である。当業者には、個々で示し
た出願者の示唆を考慮した上で、説明した実施例に様々な改良、変更を加えられ
ることが明白であろう。従って、ここでは明確に提示および説明されていない、
本発明の原理を具現化し、また本発明の精神および範囲内にある様々なシステム
および方法が当業者によって考案されることが望まれる。

【００５２】

【図面の簡単な説明】

【図１】本発明の好ましい実施例のシステム線図である。

【図２】図1のシステムへの採用に適したマルチメディアコンテンツ記述
システムの機能線図である。

【図３】例証的な画像オブジェクトを示す画像の線図である。

【図４】 a、ｂは1組の画像オブジェクトと、図3に示した例証的画像オブ
ジェクトのための例証的な階層編成を示す線図である。

【図５】例証的なビデオイベントを示すビデオの線図である。

【図６】ａ、ｂは1組のビデオイベントと、図５に示した例証的なビデオ
オブジェクトのための例証的な階層編成を示す線図である。

【図７】画像記述を生成するために、図1のシステムにおいて実現するこ
とが可能な手順のフロー線図である。

【図８】ビデオ記述を生成するために、図1のシステムにおいて実現する
ことが可能な手順のフロー線図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 17/30 ４１９Ｇ０６Ｆ 17/30 ４１９Ａ (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ベニテス，アナアメリカ合衆国 10027 ニューヨーク州ニューヨーク，アパートメント９エフ，ウエスト 119番ストリート 400 (72)発明者チャン，シー−フアメリカ合衆国 10027 ニューヨーク州ニューヨーク，アパートメント 18ケイ，リバーサイドドライブ 560 Ｆターム(参考） 5B050 AA08 BA10 BA11 EA04 EA09 EA21 5B075 ND06 ND12 ND16 ND35 NK06 NR02 NR12 5B082 GA08

Claims

【特許請求の範囲】

【請求項１】マルチメディア情報から記述記録を生成するためのシステム
であって、（a）前記マルチメディア情報を受信する少なくとも１つのマルチメディア情
報入力インターフェースと、（b）コンピュータプロセッサとを有し、前記コンピュータプロセッサは、前
記少なくとも1つのマルチメディア情報入力インターフェースと接続しており、
そこから前記マルチメディア情報を受信し、前記マルチメディア情報からのオブ
ジェクト抽出手順を実行することにより前記マルチメディア情報を処理し、マル
チメディアオブジェクト階層記述を生成するためのオブジェクト階層手順により
、前記生成したマルチメディアオブジェクト記述を処理し、前記マルチメディア
オブジェクト記述と前記マルチメディアオブジェクト階層記述を含んだ少なくと
も1つの記述記録が、前記マルチメディア情報に組込まれたコンテンツについて
生成され、（c）前記少なくとも1つの記述記録を記憶するための、前記プロセッサと動作
的に接続されたデータ記憶システムをさらに有することを特徴とするシステム。
【請求項２】前記マルチメディア情報が画像情報を有し、前記マルチメデ
ィアオブジェクト記述が画像オブジェクト記述を有し、前記マルチメディアオブ
ジェクト階層記述が画像オブジェクト階層記述を有することを特徴とする請求項
1に記載のシステム。
【請求項３】前記オブジェクト抽出処理が、（a）前記画像情報内の各画像を前記画像内の複数のリージョンに区分するた
めの画像区分処理と、（b）前記リージョンの1つまたはそれ以上について、1つまたはそれ以上の特
徴記述を生成するための特徴抽出処理とを有し、これにより、前記生成されたオブジェクト記述が、前記リージョンの1つまた
はそれ以上について前記1つまたはそれ以上の特徴記述を有することを特徴とす
る請求項2に記載のシステム。
【請求項４】前記1つまたはそれ以上の特徴記述が、テキストアノテーシ
ョン、色、テクスチャ、形状、サイズ、位置から成るグループから選択されるこ
とを特徴とする請求項3に記載のシステム。
【請求項５】前記画像オブジェクト階層記述が物理記述を有するようにす
るために、前記オブジェクト階層処理が、前記オブジェクトの空間特徴に基づい
た前記画像オブジェクト記述の物理オブジェクト階層記述を生成するための物理
オブジェクト階層編成を有することを特徴とする請求項2に記載のシステム。
【請求項６】前記画像オブジェクト階層記述が物理記述と論理記述の両方
を有するようにするために、前記オブジェクト階層処理がさらに、前記オブジェ
クトのセマンティック特徴に基づいた前記画像オブジェクト記述の論理オブジェ
クト階層記述を生成するための論理オブジェクト階層編成を有することを特徴と
する請求項5に記載のシステム。
【請求項７】前記オブジェクト抽出手順が、（a）前記画像情報内の各画像を前記画像内の複数のリージョンに区分するた
めの画像区分手順と、（b）前記リージョンの1つまたはそれ以上について、1つまたはそれ以上の特
徴記述を生成するための特徴抽出手順とを有し、前記物理階層編成と前記論理階層編成が、前記リージョンの1つまたはそれ以
上について前記オブジェクト記述の階層記述を生成することを特徴とする請求項
6に記載のシステム。
【請求項８】エンコーダをさらに有し、前記エンコーダが、前記画像オブ
ジェクト階層記述と前記画像オブジェクト記述を受信し、前記画像オブジェクト
階層記述と前記画像オブジェクト記述を暗号化された記述情報に暗号化し、前記
データ記憶システムが、前記暗号化した記述情報を、前記少なくとも1つの記述
記録として記憶するべく動作することを特徴とする請求項7に記載のシステム。
【請求項９】前記マルチメディア情報がビデオ情報を有し、前記マルチメ
ディアオブジェクト記述が、イベント記述とオブジェクト記述の両方を含んだビ
デオオブジェクト記述を有し、前記マルチメディア階層記述が、イベント階層記
述とオブジェクト階層記述の両方を含んだビデオオブジェクト階層記述を有する
ことを特徴とする請求項1に記載のシステム。
【請求項１０】前記オブジェクト抽出手順が、（a）前記ビデオ情報を1つまたはそれ以上のビデオイベントまたはビデオイベ
ントのグループに時間的に区分し、前記ビデオイベントにイベント記述を生成す
るための時間的なビデオ区分手順と、（b）前記1つまたはそれ以上のビデオイベントまたはビデオイベントのグルー
プを1つまたはそれ以上のリージョンに区分し、前記リージョンにオブジェクト
記述を生成するためのビデオオブジェクト抽出手順と、（c）前記1つまたはそれ以上のビデオイベントまたはビデオイベントのグルー
プに、1つまたはそれ以上のイベント特徴記述を生成し、前記1つまたはそれ以上
のリージョンに1つまたはそれ以上のオブジェクト特徴記述をするための特徴抽
出手順とを有し、前記生成されたビデオオブジェクト記述が、前記イベント特徴記述と前記オブ
ジェクト記述を有することを特徴とする請求項9に記載のシステム。
【請求項１１】前記1つまたはそれ以上のイベント特徴記述が、テキスト
アノテーション、ショット推移、カメラモーション、時間、キーフレームで構成
されたグループから選択され、前記1つまたはそれ以上のオブジェクト特徴記述
が、色、テクスチャ、形状、サイズ、位置、動作、時間で構成されたグループか
ら選択されることを特徴とする請求項10に記載のシステム。
【請求項１２】前記ビデオ階層記述が時間的記述を有するようにするため
に、前記オブジェクト階層手順が、前記ビデオオブジェクトの時間的特徴に基づ
いた前記ビデオオブジェクト記述の物理イベント階層記述を生成するための物理
イベント階層編成を有することを特徴とする請求項9に記載のシステム。
【請求項１３】前記ビデオ階層記述が時間的記述と論理的記述の両方を有
するようにするために、前記オブジェクト階層手順がさらに、前記ビデオオブジ
ェクトのセマンティック特徴に基づいた前記ビデオオブジェクト記述の論理イベ
ント階層記述を生成するための論理イベント階層編成を有することを特徴とする
請求項12に記載のシステム。
【請求項１４】前記ビデオ階層記述が時間的および論理的イベントおよび
オブジェクト記述を有するようにするために、前記オブジェクト階層手順がさら
に、前記時間および論理記述を受信し、前記ビデオ情報内に組込まれたビデオオ
ブジェクトにオブジェクト階層記述を生成する物理および論理オブジェクト階層
抽出手順を有することを特徴とする請求項13に記載のシステム。
【請求項１５】前記オブジェクト抽出手順が、（a）前記ビデオ情報を1つまたはそれ以上のビデオイベントまたはビデオイベ
ントのグループに時間的に区分し、前記ビデオイベントにイベント記述を生成す
るための時間的なビデオ区分手順と、（b）前記1つまたはそれ以上のビデオイベントまたはビデオイベントのグルー
プを1つまたはそれ以上のリージョンに区分し、前記リージョンにオブジェクト
記述を生成するためのビデオオブジェクト抽出手順と、（c）前記1つまたはそれ以上のビデオイベントまたはビデオイベントのグルー
プに、1つまたはそれ以上のイベント特徴記述を生成し、前記1つまたはそれ以上
のリージョンに1つまたはそれ以上のオブジェクト特徴記述をするための特徴抽
出手順とを有し、前記生成されたビデオオブジェクト記述が、前記イベント特徴記述と前記オブ
ジェクト記述をし、前記物理イベント階層編成と前記論理イベント階層編成が、
前記特徴記述から階層記述を生成し、前記物理オブジェクト階層編成と前記論理
オブジェクト階層編成が、前記オブジェクト特徴記述から階層記述を生成するこ
とを特徴とする請求項14に記載のシステム。
【請求項１６】エンコーダをさらに有し、前記エンコーダが、前記ビデオ
オブジェクト階層記述と前記ビデオオブジェクト記述を受信し、前記ビデオオブ
ジェクト階層記述と前記ビデオオブジェクト記述を暗号化された記述情報に暗号
化し、前記データ記憶システムが、前記暗号化した記述情報を、前記少なくとも
1つの記述記録として記憶するべく動作することを特徴とする請求15に記載のシ
ステム。
【請求項１７】マルチメディア情報から記述記録を生成する方法であり、（a）前記マルチメディア情報を受信する段階と、（b）前記マルチメディア情報からマルチメディアオブジェクト記述を生成す
るために、オブジェクト抽出手順を実行することで、前記マルチメディア情報を
処理する段階と、（c）マルチメディアオブジェクト階層記述を生成するために、オブジェクト
階層手順により、前記生成されたマルチメディアオブジェクト記述を処理する段
階とを有し、前記マルチメディア情報内に組込まれたコンテンツについて、前記
マルチメディアオブジェクト記述と前記マルチメディアオブジェクト階層記述を
含んだ少なくとも1つの記述記録が生成され、（d）少なくとも1つの記述記録を記憶する段階をさらに有することを特徴とす
る方法。
【請求項１８】前記マルチメディア情報が画像情報を有し、前記マルチメ
ディアオブジェクト記述が画像オブジェクト記述を有し、前記マルチメディアオ
ブジェクト階層記述が画像オブジェクト階層記述を有することを特徴とする請求
項17に記載の方法。
【請求項１９】前記オブジェクト抽出手順段階が、（a）前記画像情報内の各画像を前記画像内のリージョンに区分するための画
像区分手順の副段階と、（b）前記リージョンの１つまたはそれ以上に、1つまたはそれ以上の特徴記述
を生成するための特徴抽出手順の副段階とを有し、それにより、前記生成された画像オブジェクト記述が、前記リージョンの1つ
またはそれ以上について前記１つまたはそれ以上の特徴記述を有することを特徴
とする請求項2に記載の方法。
【請求項２０】前記1つまたはそれ以上の特徴記述が、テキストアノテー
ション、色、テクスチャ、形状、サイズ、位置で構成されたグループから選択さ
れることを特徴とする請求項19に記載の方法。
【請求項２１】前記画像階層記述が物理記述を有するようにするために、
前記オブジェクト階層手順の段階が、前記オブジェクトの空間特徴に基づいた前
記画像オブジェクト記述の物理オブジェクト階層記述を生成するための物理オブ
ジェクト階層編成の副段階を有することを特徴とする請求項18に記載の方法。
【請求項２２】前記画像オブジェクト階層記述が物理記述と論理記述の両
方を有するようにするために、前記オブジェクト階層手順の段階がさらに、前記
オブジェクトのセマンティック特徴に基づいた前記画像オブジェクト記述の論理
オブジェクト階層記述を生成するための論理オブジェクト階層編成の副段階を有
することを特徴とする請求項21に記載の方法。
【請求項２３】前記オブジェクト抽出手順の段階がさらに、（a）前記画像情報内の各画像を前記画像内の複数のリージョンに区分するた
めの画像区分手順の副段階と、（b）前記リージョンの1つまたはそれ以上について、1つまたはそれ以上の特
徴記述を生成するための特徴抽出手順との副段階を有し、前記物理オブジェクト階層編成副段階と前記論理オブジェクト階層編成副段階
が、前記リージョンの1つまたはそれ以上について前記オブジェクト記述の階層
記述を生成することを特徴とする請求項22に記載の方法。
【請求項２４】前記データ記憶段階以前に、前記画像オブジェクト記述と
前記画像オブジェクト階層記述を、暗号化された記述情報に暗号化する段階を有
することを特徴とする請求項24に記載の方法。
【請求項２５】前記マルチメディア情報がビデオ情報を有し、前記マルチ
メディアオブジェクト記述が、イベント記述とオブジェクト記述の両方を含んだ
ビデオオブジェクト記述を有し、前記マルティメディア階層記述が、イベント階
層記述とオブジェクト階層記述の両方を含んだビデオオブジェクト階層記述を有
することを特徴とする請求項17に記載の方法。
【請求項２６】前記オブジェクト抽出手順の段階が、（a）前記ビデオ情報を1つまたはそれ以上のビデオイベントまたはビデオイベ
ントのグループに時間的に区分し、前記ビデオイベントにイベント記述を生成す
るための時間的なビデオ区分手順の副段階と、（b）前記1つまたはそれ以上のビデオイベントまたはビデオイベントのグルー
プを1つまたはそれ以上のリージョンに区分し、前記リージョンにオブジェクト
記述を生成するためのビデオオブジェクト抽出手順の副段階と、（c）前記1つまたはそれ以上のビデオイベントまたはビデオイベントのグルー
プに、1つまたはそれ以上のイベント特徴記述を生成し、前記1つまたはそれ以上
のリージョンに1つまたはそれ以上のオブジェクト特徴記述をするための特徴抽
出手順の副段階とを有し、前記生成されたビデオオブジェクト記述が、前記イベント特徴記述と前記オブ
ジェクト記述を有することを特徴とする請求項25に記載の方法。
【請求項２７】前記1つまたはそれ以上のイベント特徴記述が、テキスト
アノテーション、ショット推移、カメラモーション、時間、キーフレームで構成
されたグループから選択され、前記1つまたはそれ以上のオブジェクト特徴記述
が、色、テクスチャ、形状、サイズ、位置、動作、時間で構成されたグループか
ら選択されることを特徴とする請求項26に記載の方法。
【請求項２８】前記ビデオ階層記述が時間的記述を有するようにするため
に、前記オブジェクト階層手順の段階が、前記ビデオオブジェクトの時間的特徴
に基づいた前記ビデオオブジェクト記述の物理イベント階層記述を生成するため
の物理イベント階層編成の副段階を有することを特徴とする請求項25に記載の方
法。
【請求項２９】前記ビデオ階層記述が時間的記述と論理的記述の両方を有
するようにするために、前記オブジェクト階層手順の段階がさらに、前記ビデオ
オブジェクトのセマンティック特徴に基づいた前記ビデオオブジェクト記述の論
理イベント階層記述を生成するための論理イベント階層編成の副段階を有するこ
とを特徴とする請求項28に記載の方法。
【請求項３０】前記ビデオ階層記述が時間的および論理的イベントおよび
オブジェクト記述を有するようにするために、前記オブジェクト階層手順がさら
に、前記時間および論理記述を受信し、前記ビデオ情報内に組込まれたビデオオ
ブジェクトにオブジェクト階層記述を生成する物理および論理オブジェクト階層
抽出手順の副段階を有することを特徴とする請求項29に記載の方法。
【請求項３１】前記オブジェクト抽出手順の段階が、（a）前記ビデオ情報を1つまたはそれ以上のビデオイベントまたはビデオイベ
ントのグループに時間的に区分し、前記ビデオイベントにイベント記述を生成す
るための時間的なビデオ区分手順の副段階と、（b）前記1つまたはそれ以上のビデオイベントまたはビデオイベントのグルー
プを1つまたはそれ以上のリージョンに区分し、前記リージョンにオブジェクト
記述を生成するためのビデオオブジェクト抽出手順の副段階と、（c）前記1つまたはそれ以上のビデオイベントまたはビデオイベントのグルー
プに、1つまたはそれ以上のイベント特徴記述を生成し、前記1つまたはそれ以上
のリージョンに1つまたはそれ以上のオブジェクト特徴記述をするための特徴抽
出手順の副段階とを有し、前記生成されたビデオオブジェクト記述が、前記イベント特徴記述と前記オブ
ジェクト記述をし、前記物理イベント階層編成と前記論理イベント階層編成が、
前記特徴記述から階層記述を生成し、前記物理オブジェクト階層編成と前記論理
オブジェクト階層編成が、前記オブジェクト特徴記述から階層記述を生成するこ
とを特徴とする請求項30に記載の方法。
【請求項３２】前記データ記憶段階以前に、前記ビデオオブジェクト記述
と前記ビデオオブジェクト階層記述を、暗号化された記述情報に暗号化する段階
をさらに有することを特徴とする請求項15に記載の方法。
【請求項３３】関連するマルチメディア情報についてマルチメディアコン
テンツを記述する少なくとも1つのマルチメディア記述記録を備えたデジタル情
報を含んだコンピュータ読み取り可能な記録媒体であって、前記記述記録が、（a）関連するマルチメディアオブジェクトを記述する1つまたはそれ以上のマ
ルチメディアオブジェクト記述と、（b）前記マルチメディアオブジェクト記述の各々を特長付ける1つまたはそれ
以上の特徴と、（c）もしあれば、1つまたはそれ以上の特徴に従って前記1つまたはそれ以上
のマルチメディアオブジェクトの少なくとも１部分に関連する、1つまたはそれ
以上のオブジェクト階層記述とを有することを特徴とするコンピュータ読み取り
可能な記録媒体。
【請求項３４】前記マルチメディア情報が画像情報を有し、前記マルチメ
ディアオブジェクトが画像オブジェクトを有し、前記マルチメディアオブジェク
ト記述が画像オブジェクト記述を有し、前記マルチメディアオブジェクト階層記
述が画像オブジェクト階層記述を有することを特徴とする請求項33に記載のコン
ピュータ読み取り可能な記録媒体。
【請求項３５】前記1つまたはそれ以上の特徴が、テキストアノテーショ
ン、色、テクスチャ、形状、サイズ、位置で構成されたグループから選択される
ことを特徴とすることを特徴とする請求項34に記載のコンピュータ読み取り可能
な記録媒体。
【請求項３６】前記画像オブジェクト階層記述が、前記画像オブジェクト
の空間的特徴に基づいた前記画像オブジェクト記述の物理オブジェクト階層記述
を有することを特徴とする請求項34に記載のコンピュータ読み取り可能な記録媒
体。
【請求項３７】前記画像オブジェクト階層記述がさらに、前記画像オブジ
ェクトのセマンティック特徴に基づいた前記画像オブジェクト記述の論理オブジ
ェクト階層記述を有することを特徴とする請求項36に記載のコンピュータ読み取
り可能な記録媒体。
【請求項３８】前記マルチメディア情報がビデオ情報を有し、前記マルチ
メディアオブジェクトがイベントおよびビデオオブジェクトを有し、前記マルチ
メディアオブジェクト記述が、イベント記述とオブジェクト記述の両方を含んだ
ビデオオブジェクト記述を有し、前記特徴がビデオイベント特徴とビデオオブジ
ェクト特徴を有し、前記マルチメディア階層記述が、イベント階層記述とオブジ
ェクト階層記述の両方を含んだビデオオブジェクト階層記述を有することを特徴
とする請求項33に記載のコンピュータ読み取り可能な記録媒体。
【請求項３９】前記1つまたはそれ以上のイベント特徴記述が、テキスト
アノテーション、ショット推移、カメラモーション、時間、キーフレームで構成
されたグループから選択され、前記1つまたはそれ以上のオブジェクト特徴記述
が、色、テクスチャ、形状、サイズ、位置、動作、時間で構成されたグループか
ら選択されることを特徴とする請求項38に記載のコンピュータ読み取り可能な記
録媒体。
【請求項４０】前記イベント階層記述が、時間的特徴に基づいた前記イベ
ントの1つまたはそれ以上の物理階層記述を有することを特徴とする請求項38に
記載のコンピュータ読み取り可能な記録媒体。
【請求項４１】前記イベント階層記述が、セマンティック特徴に基づいた
前記イベントの1つまたはそれ以上の論理階層記述をさらに有することを特徴と
する請求項40に記載のコンピュータ読み取り可能な記録媒体。
【請求項４２】前記イベント階層記述が、時間的特徴に基づいた前記オブ
ジェクトの1つまたはそれ以上の物理階層記述を有することを特徴とする請求項3
8に記載のコンピュータ読み取り可能な記録媒体。
【請求項４３】前記イベント階層記述が、セマンティック特徴に基づいた
前記オブジェクトの1つまたはそれ以上の論理階層記述をさらに有することを特
徴とする請求項39に記載のコンピュータ読み取り可能な記録媒体。