JP2002532918A

JP2002532918A - 映像記述システムおよび方法

Info

Publication number: JP2002532918A
Application number: JP2000581801A
Authority: JP
Inventors: パイク，セウンユップ; ベニテス，アナ; チャン，シー−フ; エレフテリアディス，アレクサンドロス; プリ，アトゥル; ファン，チァン; リ，チュン−シェン; ジュディス，チャーリー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-11-06
Filing date: 1999-11-05
Publication date: 2002-10-02
Also published as: KR100697106B1; JP4382288B2; ATE528912T1; AU1243400A; EP1147655B1; JP2002529863A; WO2000028467A1; WO2000028725A3; EP1125245A1; KR100734964B1; EP1125245B1; KR20020006624A; EP1125245A4; EP1147655A4; KR20020006623A; ATE540364T1; EP1147655A2; WO2000028725A2; AU1713500A

Abstract

(57)【要約】オブジェクト集合（２４）とオブジェクト階層（２６）と実体関係グラフ（２８）とを含む映像記述レコードを確立する映像コンテンツを記述するためのシステムおよび方法。映像オブジェクトは大域的オブジェクトとセグメントオブジェクトと局所的オブジェクトとを含むことがでる。映像オブジェクトはさらにクラス内に編成される多数の特徴によって定義され、これらのクラスはさらに順に多数の特徴記述子（３６、３８、４０）によって定義される。オブジェクト集合（２４）内のオブジェクトの間の関連（４４）はオブジェクト階層（２６）と実体関係グラフ（２８）とによって定義される。映像記述レコードは、後のアクセスのための映像情報のコンテンツおよび文脈を記述し、探索エンジン、フィルタおよびアーカイブシステム等のコンピュータアプリケーションによって処理するための標準ビークルを提供する。

Description

【発明の詳細な説明】

【０００１】関連出願のクロス・リファレンスこの出願は、１９９９年２月１日出願の米国仮特許出願第６０／１１８０２０
号、１９９９年２月１日出願の米国仮特許出願第６０／１１８０２７号、１９９
８年１１月６日出願の米国仮特許出願第６０／１０７４６３号を優先権として請
求する。

【０００２】発明の分野本発明は、マルチ記録媒体情報を記述するための技術、より詳細には映像情報
を記述する技術、およびそのような情報のコンテンツに関する。

【０００３】発明の背景グローバルインターネットの成熟と、広域ネットワークおよびローカルネット
ワークの広範囲の利用とに伴い、ディジタルマルチ記録媒体情報はますます消費
者およびビジネスに身近なものとなってきている。従って、増大する大量の生情
報から有用な情報を選ぶことができるように、ディジタルマルチ記録媒体情報を
処理しフィルタリングし探索し編成するシステムの開発がますます重要になって
きている。

【０００４】本願の出願時に、消費者およびビジネスがテキスト情報を探索することができ
る解決策は存在する。実際、yahoo.com、goto.com、excite.com等によって提供
されるような多数のテキストに基づく探索エンジンがワールド・ワイド・ウェブ
上で利用可能であり、それらは最もアクセスされるウェブサイトであり、そのよ
うな情報検索技術に対する需要を表している。

【０００５】残念なことに、同じことはマルチ記録媒体コンテンツには当てはまらず、この
素材の一般に認知された記述は存在しない。この点に関して、画像内に埋め込ま
れた映像オブジェクトの色、表面模様、形状情報等の特性を利用してユーザが画
像を探索できるマルチ記録媒体データベースを提供することが過去に試みられた
。しかし、２０世紀の終わりでは、インターネットもしくは大抵の広域ネットワ
ークまたはローカルネットワークのマルチ記録媒体コンテンツの一般的探索を実
行することはまだできず、この素材の広く認知された記述は存在しない。その上
、マルチ記録媒体コンテンツを探索する要求はデータベースに限られているので
なく、ディジタル放送テレビおよびマルチ記録媒体電話等のその他のアプリケー
ションにも及ぶ。

【０００６】標準マルチ記録媒体記述フレイムワークの開発を広く試みているある企業は、
モーション・ピクチャーズ・エキスパート・グループス（“ＭＰＥＧ”）ＭＰＥ
Ｇ‐７の標準化努力を続けている。１９９６年１０月に始まるＭＰＥＧ‐７は、
マルチ記録媒体サーチング、マルチ記録媒体フィルタリング、マルチ記録媒体ブ
ラウジングおよびマルチ記録媒体サマライゼイションのようなコンテンツに焦点
を当てたアプリケーションを促進するために、マルチ記録媒体データのコンテン
ツ記述の標準化を目指している。ＭＰＥＧ‐７標準の目的の一層完全な記述は国
際標準化機構の文書ISO/IEC JTC1/SC29/WG11 N2460(Oct.1998)に含まれており、
その内容は参照することによって本願に組み入れられる。

【０００７】ＭＰＥＧ‐７標準は、記述子の標準集合だけでなく、記述子とマルチ記録媒体
情報のさまざまな型を記述する記述子の関連とに関する（“記述スキーマ”と呼
ばれる）構造を指定することも目的とする。ＭＰＥＧ‐７はまた、その他の記述
子だけでなく、記述子とそれらの関連とに関する“記述スキーマ”も定義する方
法の標準化を提案する。この記述、すなわち記述子と記述スキーマとの組合せは
、ユーザの関心のある素材を迅速効果的に探索しフィルタリングできるようにす
るためにコンテンツ自体に関連付けられねばならない。ＭＰＥＧ−７はまた、記
述スキーマを指定する言語（“ＤＤＬ”）と、マルチ記録媒体コンテンツの記述
を２進符号化するためのスキーマとの標準化も提案する。

【０００８】本願の出願時に、ＭＰＥＧは、ＭＰＥＧ‐７標準への将来的統合のために必要
な記述スキーマを最適に実行することになる技術の提案を求めている。そのよう
な最適化された記述スキーマを提供するために、３つの異なるマルチ記録媒体ア
プリケーションアレンジメントを検討することができる。これらは分散処理シナ
リオと、コンテンツ交換シナリオと、マルチ記録媒体コンテンツの個人的閲覧を
可能とするフォーマットである。

【０００９】分散処理に関して、あらゆるプラットフォームとあらゆるベンダとあらゆるア
プリケーションとにかかわりなく、記述スキーマはマルチ記録媒体素材の記述を
交換する能力を提供しなければならず、それはマルチ記録媒体コンテンツの分散
処理を可能にするであろう。相互運用可能なコンテンツ記述の標準化は、さまざ
まなソースからのデータをマルチ記録媒体プロセッサ、マルチ記録媒体エディタ
、マルチ記録媒体検索システム、マルチ記録媒体フィルタリングエージェント等
のさまざまな分散アプリケーションにプラグインできることを意味することにな
る。それらのアプリケーションの幾つかは第三者によって提供され、マルチ記録
媒体データの標準化された記述と一緒に作動することのできるマルチ記録媒体ツ
ールのプロバイダの副産業を生み出すことができる。

【００１０】ユーザは、幾つかの低レベルまたは高レベル処理によって得られるコンテンツ
および関連するインデクシングデータをダウンロードするためにさまざまなコン
テンツプロバイダのウェブサイトにアクセスすることを可能とされ、ユーザの個
人的関心にしたがって、ツール（例えばJava applets）をダウンロードして特別
な方法で異種型データ記述を操作するために、幾つかのツールのプロバイダのウ
ェブサイトにアクセスし続けることを可能とされるべきである。そのようなマル
チ記録媒体ツールの１例が映像エディタであろう。各映像に関連付けられた記述
がＭＰＥＧ‐７に準拠している場合、ＭＰＥＧ‐７準拠映像エディタはさまざま
なソースからの映像コンテンツを操作し処理できるであろう。各映像は、カメラ
の動き、シーンカット、注釈およびオブジェクト分割等の記述の細部の度合いを
変化させるのがつきものである。

【００１１】相互運用可能なコンテンツ記述標準から大きな利益を得ることになる第２シナ
リオは、異種型マルチ記録媒体データベースの間でマルチ記録媒体コンテンツを
交換することにある。ＭＰＥＧ‐７はマルチ記録媒体素材の現行の記述を表現し
交換し変換し再利用する手段を提供することを目指している。

【００１２】現在、ＴＶ放送局、ラジオ放送局およびその他のコンテンツプロバイダは、膨
大な量のマルチ記録媒体素材を管理し蓄積している。この素材は、現在のところ
テキスト情報と所有権を主張できるデータベースとを利用して手操作で記述され
る。相互運用可能なコンテンツ記述なしに、コンテンツユーザは各放送局によっ
て使用される記述を手操作でユーザ自身の所有権を主張できるスキーマに変換す
る人員に投資する必要がある。マルチ記録媒体コンテンツ記述の交換は、すべて
のコンテンツプロバイダが同じコンテンツ記述スキーマを受け入れた場合に可能
となるであろう。これがＭＰＥＧ‐７の目的の１つである。

【００１３】最後に、記述スキーマを採用するマルチ記録媒体プレーヤとマルチ記録媒体ビ
ューアは、ユーザによって構成されるデータの多重ビュー等の革新的能力をユー
ザに提供しなければならない。ユーザは、データをコンテンツ放送局から異なる
フォーマットで再びダウンロードする必要なしに、ディスプレイの構成を変更で
きなければならない。

【００１４】上記例は、ＭＰＥＧ‐７を基にした標準化方法で提供される十分に構成された
データを利用する可能性を示唆するものにすぎない。残念なことに、分散処理シ
ナリオ、コンテンツ交換シナリオまたは個人化された閲覧シナリオを全体的に満
足することができる現在利用可能な先行技術はない。特に、先行技術は包括的特
性または意味関連のどちらかを基にしたマルチ記録媒体情報内に埋め込まれたコ
ンテンツを捕らえるための技術を提供することができず、またはそのようなコン
テンツを編成するための技術を提供することができない。従って、包括的マルチ
記録媒体情報に関する効果的コンテンツ記述スキーマ技術に対する要求が存在す
る。

【００１５】発明の要約本発明の目的は、映像コンテンツ用の記述スキーマを提供することである。

【００１６】本発明の他の目的は、拡張可能な映像コンテンツ用の記述スキーマを提供する
ことである。

【００１７】本発明の別の目的は、スケーラブルな映像コンテンツ用の記述スキーマを提供
することである。

【００１８】本発明のさらに別の目的は、ＭＰＥＧ‐７等の提案された記録媒体標準の要求
を満足する映像コンテンツ用の記述スキーマを提供することである。

【００１９】本発明の目的は、映像コンテンツを記述するためのシステムおよび方法を提供
することである。

【００２０】本発明の他の目的は、拡張可能な映像コンテンツを記述するためのシステムお
よび方法を提供することである。

【００２１】本発明の別の目的は、スケーラブルな映像コンテンツを記述するためのシステ
ムおよび方法を提供することである。

【００２２】本発明のさらに別の目的は、ＭＰＥＧ‐７等の提案された記録媒体標準の要求
を満足する映像コンテンツを記述するためのシステムおよび方法を提供すること
である。

【００２３】本発明によれば、コンピュータデータベースレコード内の映像コンテンツを記
述する第１方法は、映像内の多数のオブジェクトを確立するステップと、オブジ
ェクトの多数の特徴を備えたオブジェクトを特徴付けるステップと、特徴に従っ
て階層内にオブジェクトを関係付けるステップとを含む。この方法はまた、少な
くとも１つの実体関係グラフに従ってオブジェクトを関係付けるステップをさら
に含むことができる。

【００２４】好ましくは、オブジェクトは、（フレーム内の画素群等の）局所的オブジェク
ト、（映像クリップの単数または複数のフレームを表現する）セグメントオブジ
ェクトおよび大域的オブジェクトの態様をとることができる。オブジェクトは自
動的、半自動的に、または手操作で、映像コンテンツから抽出することができる
。

【００２５】映像オブジェクトを定義するのに使用される特徴は、視覚特徴と意味特徴と記
録媒体特徴と時間特徴とを含むことができる。本方法内の他のステップは、特徴
をさらに定義するために特徴記述子を割当てることを含むことができる。

【００２６】本発明の別の実施形態によれば、コンピュータ可読記録媒体は映像コンテンツ
を記述する少なくとも１つの映像記述レコードでプログラミングされる。好まし
くは上記方法に従って形成される映像記述レコードは一般に、映像内の多数のオ
ブジェクトと、前記オブジェクトを特徴付ける多数の特徴と、前記特徴に従って
映像オブジェクトの少なくとも一部に関係する階層とを含む。

【００２７】好ましくは、映像クリップ用の記述レコードはさらに、少なくとも１つの実体
関係グラフを含む。また、特徴が視覚特徴、意味特徴、記録媒体特徴および時間
特徴の少なくとも１つを含むのが好ましい。一般に、記述レコード内の特徴は少
なくとも１つの特徴記述子でさらに定義することができる。

【００２８】本発明に従って映像コンテンツを記述しかつ映像記述レコードを生成するため
のシステムは、プロセッサと、このプロセッサに作動的に接続されて映像コンテ
ンツを受信する映像入力インタフェースと、このプロセッサに作動的に接続され
た映像ディスプレイと、このプロセッサに作動的に接続されたコンピュータアク
セス可能データ蓄積システムとを含む。プロセッサは、映像オブジェクト抽出処
理と実体関係グラフ処理と映像コンテンツのオブジェクト階層処理とを実行する
ことによってコンピュータアクセス可能データ蓄積システム内に蓄積するための
映像コンテンツの映像記述レコードを生成するようにプログラミングされる。

【００２９】この例示的システムにおいて映像オブジェクト抽出処理は映像オブジェクト抽
出処理操作と映像オブジェクト特徴抽出処理操作とを含むことができる。

【００３０】図面の簡単な説明本発明のその他の目的、特徴および利点は、本発明の図解的実施形態を示す添
付図に関連した以下の詳細な説明から明らかとなる。

【００３１】図１Ａは、本発明の画像記述システム用の例示的画像である。

【００３２】図１Ｂは、本発明の画像記述システム用の例示的オブジェクト階層である。

【００３３】図１Ｃは、本発明の画像記述システム用の例示的実体関係グラフである。

【００３４】図２は、本発明の画像記述システム用の例示的ブロック図である。

【００３５】図３Ａは、本発明の画像記述システム用の例示的オブジェクト階層である。

【００３６】図３Ｂは、本発明の画像記述システム用の別の例示的オブジェクト階層である
。

【００３７】図４Ａは、本発明の画像記述システム用の例示的画像の表現である。

【００３８】図４Ｂは、本発明の画像記述システム用の例示的クラスタリング階層である。

【００３９】図５は、本発明の画像記述システムの例示的ブロック図である。

【００４０】図６は、本発明の画像記述システム用の例示的プロセス流れ図である。

【００４１】図７は、本発明の画像記述システム用の例示的ブロック図である。

【００４２】図８は、本発明の画像記述システムの別の例示的ブロック図である。

【００４３】図９は、本発明による映像記述スキーマ（ＤＳ）の略線図である。

【００４４】図１０は、例示的映像クリップの絵図とそこに定義された多数のオブジェクト
である。

【００４５】図１１は、図１０の映像クリップ内のオブジェクト間の例示的関連を説明する
例示的意味階層の図式表現である。

【００４６】図１２は、図１０の映像クリップ内のオブジェクト間の例示的関連を説明する
実体関係グラフの図式表現である。

【００４７】図１３は、本発明による映像コンテンツ記述を作成するためのシステムのブロ
ック図である。

【００４８】図１４は、本発明による映像コンテンツ記述レコードの作成に含まれる処理操
作を説明する流れ図である。

【００４９】図全体にわたって、同じ参照番号および文字は、特段明記されない限り、図解
的実施形態の特徴、要素、構成要素または部分等を表すのに使用される。さらに
、従属発明が図に関連して詳細に説明されるが、それは図解的実施形態に関連し
てなされる。変更および変更態様は、追加請求項によって定義された従属発明の
真実の範囲と精神に反することなく、記述された実施形態とすることができる。

【００５０】好ましい実施形態の詳細な説明本発明は、包括的画像データを表現する単純だが力強い構造が利用される画像
用記述スキーマ（ＤＳ）を構成する。本発明の記述スキーマは画像コンテンツを
記述するあらゆる種類の標準で使用することができるが、本発明の好ましい実施
形態はＭＰＥＧ‐７標準で使用される。本発明のＤＳを実行するためにあらゆる
記述定義言語（ＤＤＬ）が使用されるであろうが、好ましい実施形態は、特にワ
ールド・ワイド・ウェブ・アプリケーション用に開発されたＳＧＭＬ（汎用マー
クアップ言語、ISO8879）の簡素化部分集合である拡張マークアップ言語（ＸＭ
Ｌ）を利用する。ＳＧＭＬは、文書が文書内で使用されるタグ集合とそれらのタ
グを表現する構造関連とを指定することによって文書自体の文法を記述するとい
う意味で文書に自己記述することを可能にする。ＸＭＬは、習得し使用し実行す
ることが完全ＳＧＭＬよりもごく容易となるように設計された言語において重要
なＳＧＭＬ利点を維持している。ＸＭＬの完全な記述はＸＭＬによるワールド・
ワイド・ウェブ・コンソーシアムのウェブページhttp://www.w3.ore/XML/.で見
ることができ、その内容は参照することによって本願に組み入れられる。

【００５１】本発明の記述スキーマを使用する画像の特徴付けの第１構成要素は、オブジェ
クトと特徴分類とオブジェクト階層と実体関係グラフと抽出の多重レベルとコー
ドダウンローディングとモダリティトランスコーディングであり、それらはすべ
て以下で付加的に詳細に記述される。本発明の記述スキーマにおいて、画像文書
はオブジェクトとオブジェクト間の関連との集合によって表現される。各オブジ
ェクトは以下のカテゴリに一般的にグループ化される単数または複数の関連した
特徴を有することができる：記録媒体特徴、視覚特徴、意味特徴。各特徴は、外
部抽出コード、類似度整合コードを指示することによってコードダウンローディ
ングを促進することができる記述子を含むことができる。オブジェクト間の関連
はオブジェクト階層と実体関係グラフとによって記述することができる。オブジ
ェクト階層はまた抽出の多重レベルの概念を含むこともできる。モダリティトラ
ンスコーディングは、種々の能力を有するユーザターミナル（例えば、パームパ
イロット、携帯電話またはパーソナルコンピュータ(PC’s)の種々のタイプ等）
が同一の画像コンテンツを種々の解像度および／または種々のモダリティで受信
することを可能にする。

【００５２】上記のように、本発明の画像記述システムの好ましい実施形態は、ＭＰＥＧ‐
７標準で使用される。この標準と一致して、この好ましい実施形態はオブジェク
トを画像コンテンツのさまざまなレベルを記述するさいの基本実体として使用し
、それは種々のディメンションにそって定義される。例えば、オブジェクトは画
像領域または画像領域の郡を記述するのに使用することができる。高レベルオブ
ジェクトは順に意味特徴または視覚特徴を基にした最初のオブジェクトの群を記
述するのに使用することができる。さらに、特徴の種々の型はオブジェクトの種
々のレベルと関連して使用することができる。例えば、視覚特徴は画像コンテン
ツ内の物理的な構成要素に対応するオブジェクトに適用することができるのに対
して、意味特徴はオブジェクトのあらゆるレベルに適用することができる。

【００５３】さらに、本発明の画像記述システムは、使用することの柔軟性と拡張性とスケ
ーラビリティと利便性とを提供する。強化された柔軟性の利益において、本発明
は、画像記述システムの部分が例示されることを可能にし、クラスタリング階層
を介しての効率的特徴分類とオブジェクトのクラスタリングとを使用し、外部特
徴記述子と実行コードの効果的なリンキングと埋め込みとダウンローディングと
をサポートもする。本発明はまた記述スキーマ内に定義された要素がさまざまな
ドメイン用の新しい要素を導き出すことに使用されることを許可することによっ
て拡張性を提供する。スケーラビリティはオブジェクト階層を使用する規準のあ
らゆる任意の集合を基にした多重抽出レベルを定義する本発明の能力によって提
供される。それらの規準は、視覚特徴（例えば、サイズと色）、意味妥当性（例
えば、ユーザの利益差の妥当性）および／またはサービスクオリティ（例えば、
記録媒体特徴）の項で指定することができる。本発明は、構成要素、すなわちオ
ブジェクト、特徴クラス、オブジェクト階層および実体関係グラフの最小集合を
指定するので、利用するのに便利である。付加的オブジェクトと特徴はモジュラ
ー形式、フレキシブル形式で付け加えることができる。さらに、オブジェクト階
層および実体関係グラフのさまざまな型は、類似した仕方でそれぞれ定義するこ
とができる。

【００５４】本発明の画像記述システムにおいて画像は、オブジェクト階層と実体関係グラ
フとによって互いに関係する画像オブジェクトの集合として表現される。それら
のオブジェクトは外部抽出コード、類似度整合コードにリンクすることができる
多重特徴を有することができる。それらの特徴は、例えば、記録媒体特徴、視覚
特徴および意味特徴に分類される。画像オブジェクトは多重の種々のオブジェク
ト階層内に編成することができる。２つまたは複数のオブジェクト間の非階層関
連は、単数または複数の種々の実体関係グラフを使用して記述することができる
。大きな画像内に含まれるオブジェクトのために、そのようなオブジェクトをク
ラスタリングして見ることにおける抽出の多重レベルは、オブジェクト階層を使
用して実行することができる。そのような画像をクラスタリングして見ることに
おける抽出のそれらの多重レベルは、例えば、記録媒体特徴、視覚特徴および／
または意味特徴を基にすることができる。記録媒体特徴の１つの例は、モダリテ
ィトランスコーディングを含み、種々のターミナル仕様を有するユーザが十分な
モダリティと解像度とで同一の画像コンテンツへアクセスすることを許可する。

【００５５】本発明の画像記述システムの特性と操作がいまやさらに詳細に表現される。図
１Ａ、図１Ｂ、図１Ｃは、本発明の画像記述システムに従った例示的画像の例示
的記述を示す。図１Ａは、画像オブジェクトとこれらオブジェクトに関する例示
的対応するオブジェクト特徴との例示的集合を示す。より詳細には、図１Ａは、
Ｏ０８（すなわち例示的写真全体）に含まれた画像オブジェクト１（すなわち、
Ｏ１）２(“Person A”)、Ｏ２６(“Person B”)、Ｏ３４(“People”)も、図
示された例示的写真に関する例示的特徴１０も示す。図１Ｂは図１Ａに示した画
像オブジェクトに関する例示的空間オブジェクト階層を示しており、そこではＯ
０８（写真全体）がＯ１２(“Person A”)とＯ２６(“Person B”)とを含むよ
うに示してある。図１Ｃは図１Ａに示した画像オブジェクトに関する例示的実体
関係(E-R)を示しており、そこではＯ１２(“Person A”)がＯ２６(“Person B
”)の左に位置して握手をしていると特徴付けられている。

【００５６】図２は、従来の統一モデル化言語（ＵＭＬ）フォーマットおよび表記法を利用
した本発明の画像記述システムの例示的図形表現を示す。特に、図２に示した菱
形記号は構成要素関連を表現する。各要素と関連する範囲はその構成要素関連内
の頻度を表現する。特に、用語”0…*”は“０以上”を示し、用語”1…*”は“
１以上”を示す。

【００５７】以下の議論において、文字”<”and”>”の間に現れているテキストは、以下
で現れるＸＭＬの好ましい実施形態内の参照される要素の特徴付けを示す。図２
に示すような本発明の画像記述システムにおいて、画像要素２２(<image>)は、
画像記述を表現する画像オブジェクト集合要素２４(<image_object_set>)を含み
、また単数または複数のオブジェクト階層要素２６(<object_hierarchy>)と単数
または複数の実体関係グラフ２８(<entity_relation_graph>)も含むことができ
る。各画像オブジェクト集合要素２４は単数または複数の画像オブジェクト要素
３０を含む。各画像オブジェクト要素３０は、記録媒体特徴要素３６、視覚特徴
要素３８および／または意味特徴要素４０等の単数または複数の特徴を含むこと
ができる。各オブジェクト階層要素２６はオブジェクトノード要素３２を含み、
各々が順に単数または複数の付加的なオブジェクトノード要素３２を含むことが
できる。各実体関係グラフ２８は単数または複数の実体関係要素３４を含む。各
実体関係要素３４は順に関係要素４４を含み、また単数または複数の実体ノード
要素４２も含むことができる。

【００５８】オブジェクト階層要素２６は実体関係グラフ２８の特別な場合であり、実体は
閉じ込め関連によって関係される。本発明の画像記述システムの好ましい実施形
態は、実体関係グラフ２８に加えてオブジェクト階層要素２６を含む。なぜなら
ば、オブジェクト階層要素２６は実体関係グラフ２８よりも効果的な検索用構造
であるからである。さらに、オブジェクト階層要素２６は合成オブジェクトを定
義する最も自然な方法であり、ＭＰＥＧ‐４オブジェクトは階層構造を使用する
ように構成されている。

【００５９】柔軟性と一般性を最大にするため、本発明の画像記述システムはオブジェクト
間の関連を記述する構造からオブジェクトの定義を切り離す。従って、同一のオ
ブジェクトは種々のオブジェクト階層２６と実体関係グラフ２８とに現れること
ができる。このことで、１つ以上のオブジェクト階層２６および／または実体関
係グラフ２８内に現れるオブジェクトに関する特徴の好ましくない重複は避けら
れる。さらに、オブジェクトはオブジェクト階層２６または実体関係グラフ２８
等のあらゆる関連構造内に含まれるべき必要性なしに定義することができるので
、オブジェクトとオブジェクト間の関係との抽出は種々のステージで実行され、
それによって画像コンテンツの分散処理を許可する。

【００６０】図１Ａ、図１Ｂ、図１Ｃ、図２を参照すると、画像オブジェクト３０は画像の
単数または複数の任意の領域を参照し、その結果空間内で連続または不連続のど
ちらかになることができる。図１Ａ、図１Ｂ、図１Ｃにおいて、Ｏ１２(“Perso
n A”)とＯ２６(“Person B”)とＯ０８（すなわち、写真）は、唯一の関連する
連続領域を伴うオブジェクトである。他方、Ｏ３４(“People”)は空間内の互い
から切り離された多重領域で構成されたオブジェクトの例である。大域的オブジ
ェクトは画像全体に共通する特徴を含むのに対して、局所的オブジェクトはこの
画像の特定部分の特徴のみを含む。従って、図１Ａ、図１Ｂ、図１Ｃにおいて、
Ｏ０８は図示画像全体を表現する大域的オブジェクトであり、それに対して、Ｏ
１２とＯ２４とＯ３４は画像全体内に含まれた１名または複数の人物を表現する
各局所的オブジェクトである。

【００６１】本発明と関連して使用することができるオブジェクトのさまざまな型は、色ま
たは表面模様等の視覚特徴によって定義されるオブジェクトである視覚オブジェ
クトと、記録媒体特徴と、意味特徴と、意味特徴と視覚特徴と記録媒体特徴との
組合せによって定義されるオブジェクトとを含む。従って、オブジェクトの型は
そのオブジェクトを記述するのに使用される特徴によって決定される。結果とし
て、オブジェクトの新しい型は必要に応じて加えられることができる。さらに、
オブジェクトの種々の型は、階層関連を利用することによってそれらの一般のオ
ブジェクトから導き出すことができＭＰＥＧ‐７標準によってサポートされる。

【００６２】図２に示したように、画像内に記述された全画像オブジェクト要素３０(<imag
e_object>)の集合は画像オブジェクト集合要素２４(<image_object_set>)内に含
まれる。各画像オブジェクト要素３０は画像記述内に一意名を有することができ
る。一意名とオブジェクト型（例えば、局所的または大域的）は、それぞれオブ
ジェクト要素ＩＤの属性とオブジェクト型の属性として表現される。図１Ａ、図
１Ｂ、図１Ｃに図示された画像を記述するオブジェクトの例示的集合の例示的実
施は、以下でＸＭＬで記載されて示される。以下に示す全ＸＭＬリストにおいて
、文字”<!_”and”_>”との間に現れるテキストは、ＸＭＬコードへのコメント
を示す。

【００６３】

【００６４】図２に表されたように、画像オブジェクト３０は、例えば３つの特徴によって
運ばれた情報に従って集められた群特徴である３つの特徴クラス要素を含むこと
ができる。そのような特徴クラス要素の例は、記録媒体特徴３６(<img_obj_medi
a_features>)と視覚特徴３８(<img_obj_visual_features>)と意味特徴４０(<img
_obj_media_features>)とを含む。表１は以下でそれら各特徴クラスのための例
示的特徴のリストを表す。

【００６５】表１：例示的特徴クラスおよび特徴特徴クラス特徴意味テキスト注釈、誰、如何なるオブジェクト、如何なる行動、何故、何時、何処視覚色、表面模様、位置、サイズ、形状、方位記録媒体ファイル形式、ファイルサイズ、色表現、解像度、データファイルロケーション、モダリティトランスコーディング、作成日

【００６６】画像オブジェクトエレメント３０内の特徴クラスに含まれた各特徴要素は、Ｍ
ＰＥＧ‐７標準に従った記述子を含む。表２は以下で表１に示した例示的視覚特
徴と幾つか関連することのある例示的記述子を表す。表２に示したような特定の
記述子は、外部抽出コード、類似度整合コードへのリンクも含むことができる。
表１、表２は例示的特徴と例示的記述子とを表しているが、本発明の画像記述シ
ステムは、拡張形式およびモジュラー形式で、各オブジェクト用のあらゆる数の
特徴と記述子とを含むことができる。

【００６７】表２：例示的視覚特徴および関連する記述子特徴記述子色色ヒストグラム、主色、色干渉ベクトル、ビジュアルスプライトカラー表面模様タムラ、ＭＳＡＲ、エッジディレクションヒストグラム、ＤＣＴ係数エネルギー、ビジュアルスプライトテクスチャ形状バウンディングボックス、２進マスク、クロマキー、多角形形状、フーリエ形状、境界、サイズ、対称、方位

【００６８】以下で示されるＸＭＬの例は、どのように特徴と記述子とが画像オブジェクト
３０内に含まれるように定義することができるかの例を示している。特に、以下
の例は図１Ａ、図１Ｂ、図１Ｃに示した大域的オブジェクトＯ０、すなわち２つ
の意味特徴(“where”と”when”)と１つの記録媒体特徴(“file format”)と１
つの視覚特徴(“color histogram”記述子を備えた”color”)とに関連された例
示的特徴１０を定義する。オブジェクトは、以下の例で示されたような意味カテ
ゴリの各々において、種々な概念(<concept>)によって記述することができる。

【００６９】

【００７０】図２に示したように、本発明の画像記述システムにおいて、オブジェクト階層
要素２６は画像オブジェクト集合２４内の画像オブジェクト３０を編成するのに
使用することができ、記録媒体特徴３６、視覚特徴３８、意味特徴４０またはそ
れらのあらゆる組合せ等の種々の規準を基にする。各オブジェクト階層要素２６
は、リンク３３を介して画像オブジェクト集合２４内の画像オブジェクト要素３
０を参照するオブジェクトノード３２の枝を組成する。

【００７１】オブジェクト階層２６は単数または複数の子ノードから親ノードへの閉じ込め
関係を含む。この閉じ込め関係は多数の種々の型となることができ、例えば記録
媒体特徴３６、視覚特徴３８および／または意味特徴４０等の利用されている特
定のオブジェクト特徴に依存することができる。例えば、図１Ｂに示した空間オ
ブジェクト階層は視覚閉じ込めを記述するが、何故ならそれは視覚特徴、すなわ
ち空間位置と関連して作成されるからである。図３Ａと図３Ｂは２つの付加的な
例示的オブジェクト階層を示す。特に図３Ａは、図１Ａに示した画像オブジェク
トのための例示的階層を示しており、表１に表したように”who”意味特徴を基
にしている。従って、図３Ａにおいて、Ｏ３４(“People”)はＯ１２(“Person
A”)とＯ２６(“Person B”)とを含むように示されている。図３Ｂは、表１に表
したような例示的色視覚特徴と例示的形状視覚特徴とを基にして例示的階層を示
している。図３Ｂにおいて、Ｏ７４６は例えば特定の指定された色および形状抑
制を満足するオブジェクトの対応する領域であると定義することができる。従っ
て、図３ＢはＯ４４８(“Face Region 1”)とＯ６５０(“Face Region 2”)とを
含むようにＯ７４６(“Skin Tone & Shape”)を示す。さまざまな特徴を組合せ
たオブジェクト階層２６もアプリケーションシステムのブロードレンジの要求を
満足するように構成することができる。

【００７２】図２にさらに示したように、各オブジェクト階層要素２６(<object_hierarchy
>)は、オブジェクトノード(ONｓ)３２の枝を含む。オブジェクト階層はまたオプ
ションの文字列属性型を含む。そのような文字列属性型が表れた場合、シソーラ
スはそれら文字列属性型の値を提供でき、アプリケーションは存在している階層
の型を決定できる。各オブジェクトノード３２(<object_node>)は、リンク３３
を介して画像オブジェクト集合２４内の画像オブジェクト３０を参照する。画像
オブジェクト３０はまたリンク３３を介してそれらを参照するオブジェクトノー
ド３２に戻って参照できる。この双方向リンキング機構は、画像オブジェクト集
合２４内の画像オブジェクト３０からオブジェクト階層２６内の対応するオブジ
ェクトノード３２への効果的な横断を許可し、逆もまた同様である。各オブジェ
クトノード３２は画像オブジェクトの一意名を使用することによって属性(objec
t_ref)を通って画像オブジェクト３０を参照する。各オブジェクトノード３２も
属性の形体で一意名を含むことができる。オブジェクトノード３２のためのそれ
らの一意名はオブジェクト３０がもう１つの属性(object_node_ref)を使用する
それらを参照するオブジェクトノードに戻って参照することを可能にする。図１
Ｂに示した例示的空間オブジェクト階層の例示的ＸＭＬ実行文が以下に表現され
る。

【００７３】

【００７４】オブジェクト階層２６はまたクラスタリング階層を構成し抽出の多重レベルを
生成するのに使用することもできる。例えば衛星写真等の比較的大きな画像を記
述することにおいて、そのような画像内に普通に含まれる多数のオブジェクトを
、効果的でスケーラブルな仕方で、記述し取り出すことにおいて問題が普通に生
じる。クラスタリング階層はこの問題の解決を提供するため本発明の画像記述シ
ステムに関連して使用することができる。

【００７５】図４Ａと図４Ｂはクラスタリング階層スキーマの例示的使用を示しており、オ
ブジェクトがそれらの各サイズ(<size>)に基づいて階層的にクラスタリングされ
る。特に図４Ａは、例えば衛星写真画像等の比較的大きな画像の表現を示してお
り、オブジェクトＯ１１５２、Ｏ１２５４、Ｏ１３５６、Ｏ１４５８、Ｏ１５６
０は大きな画像に含まれる例えば地表の湖等のサイズが変化する画像オブジェク
トを表現する。図４Ｂは図４Ａに示したオブジェクトに関して例示的サイズを基
にしたクラスタリング階層を表現しており、オブジェクトＯ１１５２、Ｏ１２５
４、Ｏ１３５６、Ｏ１４５８、Ｏ１５６０は図４Ａに示したオブジェクトを表現
し、付加的オブジェクトＯ１６６２、Ｏ１７６４、Ｏ１８５６は図４Ｂに示した
クラスタリング階層のためのサイズを基にした規準を指定するオブジェクトを表
現している。特にオブジェクトＯ１６６２、Ｏ１７６４、Ｏ１８５６は、例えば
オブジェクト階層２６の中間ノード３２を表現することができ、中間ノードは画
像オブジェクト３０として表現される。これらのオブジェクトは、図示したクラ
スタリング階層内でオブジェクトを互いにグループ化するために使用されるサイ
ズ特徴に関係した規準、条件および制約を含む。図４Ｂに示した特定例において
、オブジェクトＯ１６６２、Ｏ１７６４、Ｏ１８５６は、サイズを基にした３つ
の階層レベルを有するクラスタリング階層を形成するために使用される。オブジ
ェクトＯ１６６２はクラスタリング階層を形成するサイズ規準を表現する。オブ
ジェクトＯ１７６４は５０ユニット以下のサイズ規準の第２レベルを表現し、こ
のようなユニットが例えば画素を表現することができ、オブジェクトＯ１８５６
は１０ユニット以下のサイズ規準の第３レベルを表現する。従って、図４Ｂに示
したように、オブジェクトＯ１１５２、Ｏ１２５４、Ｏ１３５６、Ｏ１４５８、
Ｏ１５６０は、特定ユニット数の指定サイズを有するようにそれぞれ特徴付けら
れる。同様に、オブジェクトＯ１３５６、Ｏ１４５８、Ｏ１５６０は、５０ユニ
ット以下の指定サイズを有するようにそれぞれ特徴付けられ，オブジェクトＯ１
５６０は１０ユニット以下の指定サイズを有するように特徴付けられる。

【００７６】図４Ａと図４Ｂは規準、すなわちサイズ、の単一集合だけを基にした単一のク
ラスタリング階層の例を示しているが、多重特徴を含むさまざまなクラスタリン
グを使用する多重クラスタリング階層はまた、あらゆる画像用に使用することが
できる。例えば、このようなクラスタリング階層は記録媒体特徴、視覚特徴およ
び／または意味特徴のあらゆる組合せを基にしてオブジェクトを互いにグループ
化することができる。この手順は、画像を視覚情報検索エンジン内に互いにクラ
スタリングするのに使用される手順に類似している。大きな画像全体に含まれる
各オブジェクトはオブジェクト集合２４内の画像オブジェクト３０に割当てられ
、また記録媒体特徴３６、視覚特徴３８または意味特徴４０等の特定の関連した
特徴にも割当てることができる。オブジェクト階層２６の中間ノード３２は画像
オブジェクト３０として表現され、またオブジェクトをその特定レベルで互いに
グループ化するのに使用される単数または複数の特徴に関係した規準と条件と抑
制と含む。画像記述はあらゆる数のクラスタリング階層を含むことができる。図
４Ａと図４Ｂに示した例示的クラスタリング階層は以下の例示的ＸＭＬ実行文内
に表現される。

【００７７】

【００７８】図４Ａと図４Ｂの多重クラスタリング階層例に示したように、また以下の表３
に示すように、図示オブジェクトのサイズを基に定義された３つの抽出レベルが
存在する。この多重レベル抽出スキーマは、図４Ａに示した画像内のオブジェク
トを検索し見るためのスケーラブル方法を提供する。そのようなアプローチは、
例えばさまざまな意味クラス等の他の特徴を基に多重抽出レベルを表現するのに
利用することができる。

【００７９】表３：各抽出レベル内のオブジェクト抽出レベルオブジェクト１Ｏ１１、Ｏ１２２Ｏ１１、Ｏ１２、Ｏ１３、Ｏ１４３Ｏ１１、Ｏ１２、Ｏ１３、Ｏ１４、Ｏ１５

【００８０】このような階層構造は画像を検索するという目的に適しているが、オブジェク
ト間の特定の関連はそのような構造を使用することに十分に表現することができ
ない。従って、図１Ｃと図２に示したように、本発明の画像記述システムはまた
、オブジェクト間のさらに複雑な関連を指定するために実体関係(E-R)グラフ２
８も利用する。実体関係グラフ２８は単数または複数の実体ノード４２とそれら
の間の関連とのグラフである。表４は以下で各特定例と同様に、そのような関連
の幾つか異なる例示的型も示す。

【００８１】表４：関係型と関係の例関係型関係空間方向の上端、の下端、の右、の左、の左上、の右上、の左下、の右下位相に隣接、に近接、の近傍、の内部、に含有、意味に相関、に属す、の一部、に関係、と同一、である、を構成、

【００８２】実体関係グラフはあらゆる一般的構造とすることができ、さまざまな継承関連
を利用して、あらゆる特定アプリケーション用にカスタマイズもできる。図１Ｃ
に示した例示的実体関係グラフは、図１Ａに示したオブジェクト〇１２、〇２６
間の例示的空間関連、すなわち“の左”と、例示的意味関連、すなわち“と握手
している”とを記述している。

【００８３】図２に示したように、本発明の画像記述システムはゼロ以上の実体関係グラフ
２８(<entity_relation_graph>)を指定することを可能とする。実体関係グラフ
２８は実体関係要素３４(<entity_relation>)の１つ以上の集合を含み、また２
つの任意の属性、すなわち実体関係グラフ２８によって表現される統合を記述す
るための一意名IDと文字列型とをも含んでいる。そのような型の値は例えばシソ
ーラスによって提供することができる。各実体関係要素３４は１つの関係要素４
４(<relation>)を含み、さらに１つ以上の実体ノード要素４２(<entity_node>)
と１つ以上の実体関係要素３４とを含むこともできる。関係要素４４は記述され
る特定の関連を含む。各実体ノード要素４２は属性、すなわちobject_ref、を利
用してリンク４３を介して画像オブジェクト集合２４内の画像オブジェクト３０
を参照する。リンク４３を介して、画像オブジェクト３０は属性(<event_code_r
efs>)を利用して画像オブジェクト３０を参照する実体ノード４２に戻って参照
することもできる。

【００８４】図１Ｃの例示的実体関係グラフ２８に示したように、実体関係グラフ２８はオ
ブジェクト〇１２(“Person A”)とオブジェクト〇２６(“Person B”)との間の
２つの実体関係３４を含む。そのような第１実体関係３４はオブジェクト〇１２
がオブジェクト〇２６（すなわち“の左”へ）に関してどのように配置されてい
るかについての空間関係４４を記述する。図１Ｃに示したような第２実体関係３
４は如何にしてオブジェクト〇１２がオブジェクト〇２６”握手をしている“で
あるかの意味関係４４を記述する。図１Ｃに示した実体関係グラフ例の例示的Ｘ
ＭＬ実行文を以下に示す。

【００８５】

【００８６】効率アップのために、実体関係要素３４は図２に示したように１つ以上の他の
実体関係要素３４を含むこともできる。これによって同期化マルチ記録媒体統合
言語（ＳＭＩＬ）で利用されるような実体関連の効果的な入れ子型グラフを作成
することができ、それは入れ子型並行シーケンシャル関連の連続を使用すること
によってさまざまな記録媒体文書を同期させる。

【００８７】オブジェクト階層２６は実体関係グラフ２８の特定の型であり、従って実体関
係グラフ２８を使用して実行でき、実体は閉じ込め関連によって関係する。閉じ
込め関連は表４に表したような位相関連である。オブジェクト階層２６が実体関
係グラフ２８の特定の型であることを説明するために、図１Ｂで示した例示的オ
ブジェクト階層２６は実体関係グラフ２８としてＸＭＬの中で下記のように表現
される。

【００８８】

【００８９】図１Ｂで示した例示的階層は、オブジェクト〇０８（全体写真）がオブジェク
ト〇１２(“Person Ａ”)と〇２６(“Person B”)とをどのように空間的に含む
かを記述している。従って、このように特定の要求に基づき、アプリケーション
が、実体関係グラフ２８の広範囲の構造の利便性か、あるいはオブジェクト階層
２６の効率性を利用することのどちらかを利用する階層を実行することができる
。

【００９０】例えば記録媒体特徴３６、視覚特徴３８、意味特徴４０等の特徴のあらゆる型
と関連する画像記述子のため、本発明の画像記述システムは、以下のＸＭＬ例で
説明するように、コードダウンローディングを促進するため抽出コード、類似度
整合コードへのリンクを含むこともできる。これらのリンクは所有記述子を使用
する種々のソースからの画像コンテンツを効果的に探索しフィルタリングする機
構を提供する。本発明の画像記述システム内の各画像記述子は、記述子値とコー
ド要素とを含むことができ、これらはその特定の記述子用の抽出コード、類似度
整合コードに関する情報を含む。コード要素(<code>)は実行ファイル(<location
>)のポインターも、コードを実行するための入力パラメータ(<input_parameters
>)と出力パラメータ(<output_parameters>)の記述のポインターも含むこともで
きる。コード（すなわち、抽出コードまたは類似度整合コード）の型とコード言
語（例えばJavaまたはＣ等）とコードバージョンとについての情報はコード要素
の特定の属性として定義される。

【００９１】以下に述べる例示的ＸＭＬ実行文は、H. Tamura, S. Mori, T. Yamawaki, ”T
extual Features Corresponding to Visual Perception”, IEEE Transactions
on Systems, Ｍan and Cybernetics, Vol.８, Ｎo.6, June 1978で述べられてい
るように、いわゆるTamura表面模様特徴の記述を提供するが、その全内容は参照
することによって本願に組み入れられる。 Tamura表面模様特徴は特定の特徴値
（すなわち粗雑とコントラストと方向性）と、また特徴抽出・類似度整合用外部
コードへのリンクも提供する。下に示した特徴抽出例において、入力パラメータ
と出力パラメータについての付加的な情報も提供される。そのような記述は例え
ば、メタ探索エンジンからの表面模様質問に応じて探索エンジンによって生成さ
れる。メタ探索エンジンはつぎに、ユーザ用に結果の同種型リストを生成するた
めに、他の探索エンジンから受信した結果から同一の特徴記述子を抽出するコー
ドを使用することができた。他の場合では、特定の特徴値ではなく抽出コードと
類似度整合コードだけが含まれる。そのような場合に必要があれば、ファルタリ
ングエージェントは処理のための特徴値の抽出に使用できる。

【００９２】以下に示す例示的ＸＭＬ実行文はまた、ＸＭＬ言語が記述子のための外部で定
義された記述スキーマが輸入されて本発明の画像記述システム内へ組み合わされ
ることを可能にする方法を説明する。下の例において、クロマキー形状特徴のた
めの外部記述子はＸＭＬネーム空間を使用することによって画像記述内へ輸入さ
れる。このフレームワークを使用して、新しい特徴と特徴の型と画像記述子とは
、拡張形式およびモジュラー形式で便利に含むことができる。

【００９３】

【００９４】本発明の画像記述システムはモダリティトランスコーディングもサポートする
。コンテンツ放送局が様々なユーザへ画像コンテンツを伝送しなければならない
典型例において、ユーザの様々なターミナル要求と帯域幅制限とを調整するため
、放送局は画像コンテンツを種々の記録媒体モダリティと解像度とにトランスコ
ードしなければならない。本発明の画像記述システムは局所的オブジェクトと大
域的オブジェクトの両方に関連してモダリティトランスコーディングを提供する
。このモダリティトランスコーディングは、問題内の画像オブジェクトのトラン
スコードされたバージョンの記録媒体モダリティと解像度と位置とをトランスコ
ードするかあるいは、外部トランスコーディングコードへリンクする。問題内の
画像記述子はまた、画像オブジェクトを種々のモダリティと解像度とへトランス
コードするためのコードを指すこともでき、種々のユーザターミナルの要求を満
足させる。以下に示す例示的ＸＭＬ実行文は画像オブジェクトのためのオーディ
オのトランスコードされたバージョンを提供することを説明する。

【００９５】

【００９６】図５は本発明の画像記述システムを実動化するための例示的コンピュータシス
テムのブロック図を示している。図示したコンピュータシステムは例えば画像入
力インタフェース４０４を介して画像コンテンツを表現するディジタルデータを
受信するコンピュータプロセッサセクション４０２を含む。あるいは、ディジタ
ル画像データは双方向通信入力／出力（Ｉ／O）ポート４０６を介して遠隔ソー
スからプロセッサセクション４０２に転送できる。画像コンテンツも技術上周知
なあらゆる光学データ記憶装置または磁気記憶装置等の不揮発性コンピュータ記
録媒体４０８からプロセッサセクション４０２へ転送できる。プロセッサセクシ
ョン４０２は画像表示システム４１０へデータを提供するが、それは一般的に、
例えば従来のパーソナルコンピュータシステムとワークステーションとで普通用
いられる標準SVGAモニタおよびビデオカード等の適当なインタフェース回路と高
解像度モニタとを含む。キーボードおよびディジタル位置入力装置（例えば、マ
ウス、トラックボール、ライトペンまたはタッチスクリーン）等のユーザ入力装
置は、ユーザとコンピュータシステムとの相互作用をもたらすため、プロセッサ
セクション４０２へ接続されている。図５の例示的コンピュータシステムも揮発
性および不揮発性コンピュータメモリ４１４を普通含み、それは処理操作中にプ
ロセッサセクション４０２によってアクセスできる。

【００９７】図６は本発明の画像記述システムを実動化するために図５に図示したコンピュ
ータシステムによって行われる処理操作をさらに説明する流れ図を示す。ディジ
タル画像データ３１０はリンク３１１を介してコンピュータシステムへ適用され
る。コンピュータシステムは、適切なアプリケーションソフトウェアの制御下で
、ブロック３２０での画像オブジェクト抽出を実行し、そこで画像オブジェクト
３０と例えば記録媒体特徴３６、視覚特徴３８および意味特徴４０等の関連する
特徴とが生成される。画像オブジェクト抽出３２０は、オブジェクトが、例えば
ユーザ入力装置４１２を介するなどして、主としてユーザ相互作用を通して定義
される完全自動処理操作、半自動処理操作または実質的に手動の操作の形体をと
ることができる。

【００９８】好ましい実施形態において、画像オブジェクト抽出３２０は２つの補足的操作
、すなわちブロック３２５で示した画像分割とブロック３２６で示した特徴抽出
・注釈とからなる。画像分割３２５ステップには、ディジタル画像を単数または
複数の共通の特性を共有する領域に分割するあらゆる領域トラッキング技術が用
いられる。同様に、特徴抽出・注釈ステップ３２６には、分割された領域から特
徴を生成するあらゆる方法が用いられる。領域に基づくクラスタリング・探索サ
ブシステムは、自動化された画像分割と特徴抽出とに適している。画像オブジェ
クト分割システムは半自動化された画像分割・特徴抽出システムの一例である。
手動分割および特徴抽出は選択的に用いることができる。例示的システムでは、
画像分割３２５は例えば画像オブジェクト３０を生成でき、特徴抽出・注釈３２
６は例えば画像オブジェクト３０に関連した特徴、例えば記録媒体特徴３６、視
覚特徴３８および意味特徴４０等を生成できる。

【００９９】オブジェクト抽出処置３２０は画像オブジェクト集合２４を生成するが、これ
は単数または複数の画像オブジェクト３０を含む。画像オブジェクト集合２４の
画像オブジェクト３０は次に、ブロック３３０に示したようなオブジェクト階層
構成・抽出処理および／またはブロック３３６に示したような実体関係グラフ生
成処理の形体でさらに処理されるために、リンク３２１、３２２、３２４を介し
て提供される。好ましくはオブジェクト階層構成・抽出３３０と実体関係グラフ
生成３３６とはリンク３２７を介して並行して行われる。あるいは、画像オブジ
ェクト集合２４の画像オブジェクト３０は、リンク３２３を介してオブジェクト
階層構成・抽出３３０と実体関係グラフ生成３３６とを回避するように仕向ける
ことができる。このようにしてオブジェクト階層構成・抽出３３０は単数または
複数のオブジェクト階層２６を生成し、実体関係グラフ生成３３６は単数または
複数の実体関係グラフ２８を生成する。

【０１００】プロセッサセクション４０２は次に画像オブジェクト集合２４とオブジェクト
階層２６と実体関係グラフ２８とを問題内の画像コンテンツのための画像記述レ
コード内へマージする。画像記述レコードは次にデータベース記憶装置３４０へ
直接蓄積されるか、あるいは最初にリンク３４２とリンク３６１とを介して2進
エンコーダ３６０によって圧縮されるかまたはリンク３４１とリンク３５１とを
介してXMLエンコーダ３５０による（例えばXMLを使用した）記述定義言語符号化
によって符号化される。いったん画像記述レコードがデータベース記憶装置３４
０に蓄積されると、画像記述レコードは、双方向リンク３７１を介して他のアプ
リケーション３７０、例えば探索アプリケーション、フィルターアプリケーショ
ンおよびアーカイビングアプリケーション等よるアクセスおよび使用にとって便
利なフォーマットでの利用が可能なままである。

【０１０１】図７を参照すると、本発明の画像記述システムを実行できるクライアントサー
バコンピュータシステムの例示的実施形態が提供される。システム１００のアー
キテクチャはクライアントコンピュータ１１０とサーバコンピュータ１２０とを
含む。サーバコンピュータ１２０はディスプレイインタフェース１３０と、質問
ディスパッチャ１４０と、性能データベース１５０と、質問トランスレータ１６
０、１６１、１６５と、目的探索エンジン１７０、１７１、１７５と、マルチ記
録媒体コンテンツ記述システム２００、２０１、２０５とを含み、それらは下で
さらに詳細に記述される。

【０１０２】付随する開示がこの例示的クライアントサーバ実施形態を参照するのに対して
、当業者は、多数の周知の局所的アーキテクチャまたは分散アーキテクチャを含
むために特定のシステムアレンジメントが本発明の範囲内で修正されることを理
解すべきである。例えば、クライアントサーバーシステムの全機能性は、単一の
コンピュータ内に含めることができるか、または複数のサーバコンピュータは、
共有されるか分離される機能性を伴って利用できる。

【０１０３】商業的に利用可能なメタサーチエンジンは、ユーザを多重でテキストに基づく
探索エンジンへ自動的にユーザが気付くことなくリンクさせるゲートウェイとし
て活動する。図７のシステムはそのようなメタサーチエンジンのアーキテクチャ
において成長しており、ユーザの質問の種々のクラスに応じてそれらの性能をラ
ンキングすることによって、多重オンラインマルチ記録媒体探索エンジンを理知
的に選択しインタフェースをとるように設計されている。従って商業的に利用可
能なメタサーチエンジンの質問ディスパッチャ１４０と質問トランスレータ１６
０、１６１、１６５とディスプレイインタフェース１３０は、本発明で用いられ
る。

【０１０４】ディスパッチャ１４０はユーザ質問の受信において性能データベース１５０を
調べることによって質問されるべき目的探索エンジンを選択する。このデータベ
ース１５０は各サポートされた探索オプションのために過去の質問の成否につい
ての性能スコアを含む。質問ディスパッチャはユーザの質問を満足することので
きる探索エンジン１７０、１７１、１７５だけを選択し、例えば色情報を捜索す
る質問は色使用可能探索エンジンをトリガーする。探索エンジン１７０、１７１
、１７５は例えば、探索エンジン１７０と関連クライアント１７２等のクライア
ントサーバ関連内に配置できる。

【０１０５】質問トランスレータ１６０、１６１、１６５はユーザ質問を選択された探索エ
ンジンのインタフェースに一致する適当なスクリプトへ変換する。ディスプレイ
コンポーネント１３０は性能スコアを使用して各探索エンジンからの結果をマー
ジしそれらをユーザに提示する。

【０１０６】本発明に従って、ユーザがインターネットか広域ネットワークかローカルネッ
トワークで理知的に視覚コンテンツを探索することを許可するため、探索質問は
本発明か例またはスケッチによって生成されるマルチ記録媒体コンテンツの記述
によって形成できる。各探索エンジン１７０、１７１、１７５は、探索エンジン
によってアクセス可能なマルチ記録媒体情報のコンテンツを記述し探索を実行す
るため、記述スキーマ例えば下で記述される記述スキーマを用いる。

【０１０７】マルチ記録媒体情報のためのコンテンツに基づく探索質問を実行するために、
ディスパッチャ１４０は、質問内のユーザ参照の満足感を保証するためにマルチ
記録媒体コンテンツ記述システム２００を通して各探索エンジン１７０、１７１
、１７５によって用いられる質問記述をマッチさせる。次にそれは性能データベ
ース１５０を調べることによって質問されるべき目的探索エンジン１７０、１７
１、１７５を選択する。例えばユーザが色によって探索することを望み、ある探
索エンジンがいずれの色記述子もサポートしない場合、その特定の探索エンジン
は質問するのに便利にはならない。

【０１０８】次に、質問トランスレータ１６０、１６１、１６５は選択された各探索エンジ
ンに一致する記述へと質問記述を適合させる。このトランスレイションは各探索
エンジンから利用可能な記述スキーマに基づくことになる。このタスクは標準記
述子用の抽出コードまたは記述子を変換するために特定の探索エンジンからダウ
ンロードされる抽出コードを実行する必要があることがある。例えば、ユーザが
１６６ビンの色コヒーレンスを使用するオブジェクトの色特徴を指定する場合、
質問トランスレータはそれを各探索エンジンによって使用される特定の色記述子
、例えばｘビンの色コヒーレンスと色ヒストグラムに変換される。

【０１０９】結果をユーザに表示する前に、質問トランスレータはすべての結果記述を変換
することによって各探索オプションから生じる結果を比較とランキング用の同種
型物に変換する。再び、標準記述子用の類似度コードまたは探索エンジンからダ
ウンロードされる類似度コードは、実行する必要があることがある。ユーザ選択
は結果がどのようにユーザに表示されるかを決定することができる。

【０１１０】次に図８を参照すると、本発明に従って各探索エンジン１７０、１７１、１７
５によって採用される記述システム２００はいまや記述される。この中へ開示さ
れる好ましい実施形態において、ＸＭＬはマルチ記録媒体コンテンツを記述する
のに使用される。

【０１１１】記述システム２００はマルチ記録媒体項目２０５の収集のため大変に様々な記
述子を生成するため、幾つかのマルチ記録媒体処理、分析および注釈サブシステ
ム２１０、２２０、２３０、２４０、２５０、２６０、２７０、２８０を有利に
含む。拡幅システムは順に記述される。

【０１１２】第１サブシステム２１０は、映像シーケンスの自動的に分割された領域のため
の色、表面模様、動き、形状およびサイズ等の視覚特徴を抽出する領域を基にし
たクラスタリング・探索システムである。システム２１０は映像をシーン変化検
出によって分離されたショットに分解し、それは不意または推移（例えば、分解
、フェードイン／フェードアウト、ワイプ）のどちらかとすることができる。各
ショットに関して、システム２１０は大域的動き（すなわち、主背景の動き）と
カメラの動きの両方、そして分割、検出、および各領域に関するさまざまな視覚
特徴を算出するショット内のフレームを横断するトラック領域を評価する。各シ
ョットに関して、このシステムによって生成される記述は視覚および動き特徴と
カメラの動きとを備える領域の集合である。領域を基にしたクラスタリング・探
索システム２１０の完全な記述は1998年５月５日に出願された”An Algorithm a
nd System Architecture for Object-Oriented Content-Based Video Search”
を名称とするＰＣＴ同時係属出願第PCT/US98/09124号に含まれており、その内容
は参照することによって本願に組み入れられる。

【０１１３】この中で使用されるように、“映像クリップ”は、１例であり限定するもので
はないが、バットを振る野球選手、海を横断して移動するサーフボードまたは大
草原を横断して走る馬等の同一視できる属性を有する単数または複数の映像オブ
ジェクトを有する映像情報のフレームのシーケンスを参照すべきである。“映像
オブジェクト”はインタレスト、例えば、表面模様、動きまたは形状の単数また
は複数の特徴内で同種型である画素の隣接集合である。従って、映像オブジェク
トは少なくとも１つの特徴内の一貫性を提示する単数または複数の映像領域によ
って形成される。例えば歩行中の人物（人物がここでは”object”）のショット
は、形状、色および表面模様等の規準の点で異なる隣接領域のコレクションに分
割されるであろうが、全領域がそれらの動き属性内に一貫性を示すことができる
。

【０１１４】第２サブシステム２２０はＭＰＥＧドメインフェイス検出システムであり、そ
れはＭＰＥＧ圧縮ドメインの直接内部のフェイスを効果的におよび自動的に検出
する。ヒューマンフェイスは画像および映像内の重要なサブジェクトである。そ
れはニュース、ドキュメンタリ、映画等の至るところにあり、映像コンテンツの
理解のためにビューアにとって重要な情報を提供する。このシステムはフェイス
ラベルを備えた領域の集合を提供する。システム２２０の完全な記述は1997年11
月４日に出願された”A Highly Efficient System for Automatic Face Region
Detection in MPEG Video”を名称とするＰＣＴ出願第PCT/US97/20024号に含ま
れており、その内容は参照することによって本願に組み入れられる。

【０１１５】第３サブシステム２３０は映像シーケンス内の意味オブジェクトを追跡するた
め自動分割がユーザ入力と一体化した映像オブジェクト分割システムである。一
般映像ソースのために、システムは捜索インタフェースを使用することによって
ユーザがおおよそのオブジェクト境界を定義することを可能にする。おおよその
オブジェクト境界が与えられたと仮定すると、システムは自動的に境界を定義し
映像のその後のフレーム内のオブジェクトの運動を追跡する。システムは現行の
アプローチを使用するモデルには困難な多数の実環境状態を対処するのに十分に
ロバストであり、複雑なオブジェクト、早くて断続する動き、複雑な背景、多重
ムービングオブジェクトおよび部分閉鎖を含む。このシステムによって生成され
た記述は、手動でテキスト注釈を付けることができる関連した領域と特徴とを備
えた意味オブジェクトの集合である。システム２３０の完全な記述は、1998年９
月24日に出願された”An Active System and Algorithm for Semantic Video Ob
ject Segmentation”を名称とする米国特許出願第０９／４０５５５５号に含ま
れており、その内容は参照することによって本願に組み入れられる。

【０１１６】第４サブシステム２４０はショット境界とムービングオブジェクトとオブジェ
クト特徴とカメラの動きとを抽出するため圧縮ＭＰＥＧ映像ストリームを解析す
る階層映像ブラウジングシステムである。それはまた映像の直観的視覚化と編集
のため階層ショットベーストブラウジングインタフェースも生成する。システム
２４０の完全な記述は、1997年５月16日に出願された”Efficient Query and In
dexing Methods for Joint Spatial/Feature Based Image Search”を名称とす
るＰＣＴ出願第PCT/US97/08266号に含まれており、その内容は参照することによ
って本願に組み入れられる。

【０１１７】第５サブシステム２５０は手動テキスト注釈のエントリーである。シーン分類
のため視覚特徴とテキスト特徴とを統合することはしばしば望ましい。オンライ
ンの新しいソースからの映像、例えばクラリネットからの映像のため、各映像と
関連したキャプションまたはアーティクルの形体のテキスト情報がしばしば存在
する。このテキスト情報は記述内に含まれることができる。

【０１１８】第６サブシステム２６０は、低レベル視覚特徴を基にした画像と映像ショット
の高レベル意味分類と、のためのシステムである。システムのコアはルールイン
ダクション、クラスタリングおよび最も隣接した分類等の様々な機械学習技術か
らなる。システムは画像と映像シーンとを｛自然の景色｝、｛都市／郊外｝、｛
屋内｝および｛屋外｝等の高レベル意味シーンクラスへ分類するのに使用されて
いる。システムは機械学習技術に焦点を置いており、なぜなら１つのコーパスを
伴い良く働くであろうルールの固定された集合はもう１つのコーパスとは、意味
シーンクラスの同じ集合であっても、良く働かないであろうということを我々は
発見しているからである。システムのコアは機械学習技術を基にしているので、
システムは各コーパスからの例でシステムを訓練することによって種々のコーパ
スのためのハイパフォーマンスを成し遂げるように適合することができる。この
システムによって生成される記述は、映像シーケンスのショットと関連した各画
像またはキーフレームのためのシーンクラスを指し示すテキスト注釈の集合であ
る。システム２６０の完全な記述は、S.Paek etal., ”Integration of Visual
and Text based Approaches for the Content Labeling and Classification of
Photographs” ACM SIGIR’99 Workshop on Multimedia Indexing and Retriev
al. Berkeley, C A (1999)に含まれており、その内容は参照することによって本
願に組み入れられる。

【０１１９】第７サブシステム２７０はモデルベース画像分類システムである。多数の自動
画像分類システムは、クラス特定アルゴリズムが分類を実行するのに使用される
クラスの予め定義された集合を基にしている。システム２７０はユーザが彼ら自
身のクラスを定義し視覚モデルを自動的に学習するのに使用される例を提供する
ことを可能にする。視覚モデルは自動的に分割された領域と、それらの関連した
視覚特徴と、それらの空間関連とを基にしている。例えば、ユーザは青いシャツ
を着た１名の人物が茶色のソファーに座っており、第２の人物が着座人物の右に
立っているポートレイトの視覚モデルを構成することができる。システムは分類
の間怠惰な学習と決定樹と展開プログラムとの組合せを使用する。このシステム
によって生成される記述は各画像用のテキスト注釈、すなわちユーザ定義クラス
の集合である。システム２７０の完全な記述は、1997年５月16日に出願された”
A Method and Architecture for Indexing and Editing Compressed Video Over
the World Wide Web”を名称とするＰＣＴ出願第PCT/US97/08266号に含まれて
おり、その内容は参照することによって本願に組み入れられる。

【０１２０】その他のサブシステム２８０は、例えば記述または記述の一部を生成するのに
使用されるコラボレータからのサブシステム等の、マルチ記録媒体コンテンツ記
述子ステム２００に加えることができる。

【０１２１】操作において、画像および映像コンテンツ２０５は、静止画または動画、ブラ
ウザインタフェース２０６からコンテンツを受信するバッファ、または、ライブ
画像または映像送波用レセプタクルのデータベースとすることができる。サブシ
ステム２１０、２２０、２３０、２４０、２５０、２６０、２７０、２８０は、
上記のように、自動的に分割された領域と、ユーザ定義意味オブジェクトと、高
レベルシーン属性と、分類と、関連したテキスト情報とによる低レベルの視覚特
徴を含む記述２１１、２２１、２３１、２４１、２５１、２６１、２７１、２８
１を生成するため、画像および映像コンテンツ２０５上で作動する。いったん画
像または映像項目用の全記述が生成されブロック２９０内へ統合されると、記述
はデータベース２９５に入力され、そこへ探索エンジン１７０がアクセスする。

【０１２２】注目すべきは特定のサブシステム、すなわち領域を基にしたクラスタリング・
探索サブシステム２１０と映像オブジェクト分割システム２３０とが、記述生成
処理全体を実行することができるということであり、一方では、残ったサブシス
テムが処理の一部だけを実行し処理の間サブシステム２１０、２３０によって指
名することができる。類似した仕方において、サブシステム２１０および２３０
は処理内の特定のタスクのために互いに指名することができる。

【０１２３】図１〜図６において、画像コンテンツを記述するためのシステムおよび方法は
記述される。それらの技術は同様に映像コンテンツにまで容易に拡張可能である
。映像コンテンツ情報を探索し処理するためのシステムの性能は、そのような映
像コンテンツを十分に効果的に記述できる標準の作成および採用によって利益を
得る。この中で使用されるように、用語”video clip”は映像情報のフレームの
シーケンス等の映像コンテンツの任意の持続時間を参照する。用語記述スキーマ
は映像コンテンツを記述するのに使用されるデータ構造またはデータ組織を参照
する。用語記述レコードはデータ構造のデータフィールドが特定の映像クリップ
のコンテンツを記述するデータによって定義される記述スキーマを参照する。

【０１２４】図９を参照すると、本映像記述スキーマ（ＤＳ）の例示的実施形態は図式で説
明される。映像ＤＳは画像記述スキーマの全要素を所有し時間要素をそこに加え
るが、それは映像コンテンツ特有である。従って、映像記述を表現する映像要素
９２２は一般的に映像オブジェクト集合９２４とオブジェクト階層定義９２６と
実体関係グラフ９２８とを含み、それらのすべては図２と関連して記述されるそ
れらと類似している。例示的映像ＤＳ定義は以下で表５において説明される。

【０１２５】表５：映像記述スキーマ（ＤＳ）内の要素 ‘ 画像ＤＴＤ７内の定義

【０１２６】本映像記述スキーマ（ＤＳ）の基礎要素は映像オブジェクト(<video_object>)
９３０である。映像オブジェクト９３０は映像クリップの単数または複数のフレ
ーム内の単数または複数の任意の領域を参照する。例えば、限定するわけではな
いが、映像オブジェクトは局所的オブジェクト、セグメントオブジェクトおよび
大域的オブジェクトとして定義することができる。局所的オブジェクトは単数ま
たは複数のフレーム内に見られる画素の群を参照する。セグメントオブジェクト
は映像クリップの単数または複数の関連したフレームを参照する。大域的オブジ
ェクトは映像クリップ全体を参照する。

【０１２７】映像オブジェクト９３０は映像オブジェクト集合９２４の要素であり、図１〜
図６に関連して記述されるように同一の仕方でオブジェクト階層９２６と実体関
係グラフ９２８とによってオブジェクト集合９２４内のその他のオブジェクトと
関連することができる。その上、映像記述スキーマと予め述べられた画像記述ス
キーマとの間の基本的な違いは、記述スキーマ内の映像オブジェクトとそれらの
相互関係をさらに定義するであろう時間パラメータを含むことに存在する。

【０１２８】本映像記述スキーマを実行するためＸＭＬを使用することにおいて、映像オブ
ジェクトが関連する意味情報を有するかどうかを指し示すため、映像オブジェク
トは○か×か等の指示値を有することができる”semantic”属性を含むことがで
きる。オブジェクトが関連された物理的情報（色、形状、時間、動きおよび位置
等）を有するかどうか指し示すため、オブジェクトは○か×か等の指示値を有す
ることができる任意の”physical”属性を含むことができる。オブジェクトの領
域が互いに空間的に隣接している（空間内を連続する）かどうか指し示すため、
オブジェクトは○か×か等の値を想定できる任意の”spaceContinuous”属性を
含むことができる。特定のオブジェクトを含む映像フレームが互いに時間的に隣
接している（時間内を連続する）かどうか指し示すため、オブジェクトは任意の
”timeContinuous”属性をさらに含むことができ、この属性は○か×か等の指示
値を想定できる。オブジェクトが映像の選択フレーム内の領域か、映像のフレー
ム全体か、映像コモンリ（例えば、ショット、シーン，ストーリー）全体を参照
するかどうかを区別するため、オブジェクトはLOCAL、SEGMENT、GLOBAL等の多重
指示値をそれぞれ有することができる属性（型）を一般的に含むであろう。

【０１２９】図１０は多数の例示的オブジェクトが確認される映像クリップから映像クリッ
プを表す絵図である。オブジェクトＯ０は映像クリップ全体を参照する大域的オ
ブジェクトである。オブジェクトＯ１、ライブラリ、は映像のフレーム全体を参
照し、セグメントタイプオブジェクトとして分類されるであろう。オブジェクト
Ｏ２、Ｏ３はナレーターＡとナレーターＢとをそれぞれ参照する局所的オブジェ
クトであり、それらは時間および空間内で連続する人物オブジェクトである。オ
ブジェクトＯ４(“Narrators”)は空間内で不連続な局所的映像オブジェクト（
Ｏ２、Ｏ３）である。図１０はさらにオブジェクトが組み合わさることを説明し
ている。例えば、オブジェクトＯ１、ライブラリ、は局所的オブジェクトＯ２を
含み、それらのオブジェクトの両方は大域的オブジェクトＯ０内に含まれる。図
１０で定義されるオブジェクトのＸＭＬ記述は以下で述べられる。

【０１３０】

【０１３１】図１１はどのように２つまたは複数の映像オブジェクトがオブジェクト階層９
２６を通って関連するかを説明している。この場合、オブジェクトＯ２、Ｏ３は
ナレーターである”what object”の共通意味特徴を有する。従って、それらの
オブジェクトはオブジェクト階層定義を介して新しいオブジェクトＯ４、ナレー
ターの定義内に参照することができる。そのような階層定義の詳細は図３Ａと関
連して記述されたものに従う。

【０１３２】図１２はどのように映像記述スキーマ内の実体関係グラフが映像オブジェクト
と関連するかを説明している。この場合、２つの関連がオブジェクトＯ２、Ｏ３
間に示される。第１は意味関連”colleague of”であり、これは図１Ｃに関連し
て述べたように画像記述スキーマの場合に現れるであろう意味関連の型に等しい
。図１２はさらに、オブジェクトＯ２、Ｏ３間の時間関連を示す。この場合、オ
ブジェクトＯ２は映像クリップ内でやがてオブジェクトＯ３に先行し、従って、
時間関連”before”を適用することができる。画像記述スキーマと関連して述べ
られる例示的関連タイプと関連とに加えて、映像記述スキーマは以下で表で述べ
られる関連タイプと関連とを採用することができる。

【０１３３】関係型関係時間−方向以前、以後、直前、直後時間−位相共同開始、共同終了、並行、逐次、重複、内部、内包、近傍

【０１３４】映像オブジェクト９３０はオブジェクト特徴の点からさらに特徴付けることが
できる。特徴のあらゆる数とあらゆるタイプがモジュラー形式および拡張形式内
の映像オブジェクトを特徴付けるために定義することができるが、便利で例示的
特徴集合は意味特徴９４０と視覚特徴９３８と記録媒体特徴９３６と時間特徴９
３７とを含むことができる。各特徴は次に特徴パラメータまたは記述によってさ
らに定義することができる。そのような記述は一般的に画像記述スキーマと関連
して記述されることに従うであろうし、必須の時間情報の付加を伴う。例えば、
視覚特徴９３８は形状、色、表面模様および位置、同様に動きパラメータ等の記
述子の集合を含むことができる。時間特徴９３７は一般的に開始時間、終了時間
および持続時間等の記述子を含むであろう。表６は、画像記述スキーマと関連し
て述べられる記述子に加えて、特徴のそれらの例示的クラスの各々に属すること
ができる記述子の例を示している。

【０１３５】表６：特徴クラスと特徴特徴クラス特徴視覚的動き、編集効果、カメラの動き時間的開始時間、終了時間、持続時間

【０１３６】要約すれば、予め記述された画像記述スキーマと類似した仕方において、本映
像記述スキーマは映像オブジェクト集合９２４とオブジェクト階層９２６と実体
関係グラフ９２８とを含む。映像オブジェクト９３０はさらに特徴によって定義
される。オブジェクト集合９２４内のオブジェクト９３０は単数または複数のオ
ブジェクト階層ノード９３２と参照９３３とによって階層的に関連付けることが
できる。オブジェクト９３０間の関連は実体関係グラフ９２８内に表現されるこ
ともでき、それはさらに実体関連９３４と実体ノード９４２と参照９４３と関連
９４４とを含み、それらのすべては図２と関連して記述された仕方で実質的に一
致する。各オブジェクト９３０は好ましくは外部抽出コード、類似度整合コード
にリンクできる特徴を含む。

【０１３７】図１３は本映像記述システムおよび方法を実動化するための例示的コンピュー
タシステムのブロック図であり、このシステムは図５に関連して述べられたシス
テムに類似している。このシステムは、例えば映像入力インタフェース１３０４
を介して、映像コンテンツを表示するディジタルデータを受信するコンピュータ
プロセッサセクション１３０２を含む。選択的に、ディジタル映像データは双方
向通信入力／出力ポート１３０６を介して遠隔のソースからプロセッサに転送す
ることができる。映像コンテンツはまた、技術上周知である光学データ蓄積シス
テムまたは磁気蓄積システム等のコンピュータアクセッシブル記録媒体４０８か
らプロセッサセクション１３０２に転送することもできる。プロセッサセクショ
ン１３０２は映像表示システム１３１０にデータを供給し、それは従来のパーソ
ナルコンピュータシステムおよびワークステーションにおいて普通採用される標
準ＳＶＧＡモニタおよび映像カード等の適切なインタフェース回路と高解像度モ
ニタとを一般的に含む。キーボードや、マウスやとラックボールやライとペンや
タッチスクリーン等のディジタル位置入力装置等のユーザ入力装置１３１２は、
ユーザのシステムとの相互作用をもたらすため、プロセッサセクション１３０２
と作動的に接続されている。システムはまた処理操作の間プロセッサセクション
によってアクセスすることができる揮発性および非揮発性コンピュータメモリ１
３１４を一般的に含むこともできる。

【０１３８】図１４は図９〜図１２と関連して記述される映像ＤＳを確立することにおいて
プロセッサセクション１３０２によって請け負われる処理操作を一般的に説明す
る流れ図である。映像クリップを表示するディジタルデータはシステムに適用さ
れ、例えば映像入力インタフェース１３０４を介し、プロセッサセクション１３
０２に接続される。プロセッサセクション１３０２は、適したソフトウェアの制
御のもと、映像オブジェクト９３０と、特徴９３６、９３７、９３８、９４０と
、関連する記述子とが生成される映像オブジェクト抽出処理１４０２を実行する
。映像オブジェクト抽出処理１４０２は完全に自動化された処理操作、半自動化
処理操作または実質的に手動の操作の形体を取ることができ、オブジェクトはユ
ーザ入力装置１３１２を介したユーザ相互作用を通して大いに定義される。

【０１３９】オブジェクト抽出処理の結果はオブジェクト集合９２４の生成であり、それは
単数または複数の映像オブジェクト９３０と、関連したオブジェクト特徴９３６
、９３７、９３８、９４０とを含む。オブジェクト集合９２４の映像オブジェク
ト９３０はオブジェクト階層構成・抽出処理１４０４と実体関係グラフ生成処理
１４０６との形体におけるさらなる処理を受ける。好ましくは、それらの処理操
作は並行して行われる。オブジェクト階層構成・抽出処理１４０４の出力結果は
オブジェクト階層９２６である。実体関係グラフ生成処理５０６の出力結果は単
数または複数の実体関係グラフ９２８である。プロセッサセクション１３０２は
適用された映像コンテンツ用の本映像記述スキーマに従ってオブジェクト集合と
オブジェクト階層と実体関係グラフとを記述レコード内で組合せる。記述レコー
ドはデータベース蓄積１４１０内に蓄積されるか、（２進符号化等の）低レベル
符号化１４１２を受けるか、または記述言語符号化（例えば、ＸＭＬ）１４１４
を受けることができる。いったん記述レコードがデータベースの態様でリード／
ライト蓄積１３０８に蓄積されると、データは探索、フィルタ、アーカイビング
アプリケーション等のその他のアプリケーション１４１６による使用にとって便
利なフォーマットで使用できる。

【０１４０】映像記述スキーマの例示的文書型定義このセクションは、ＸＭＬが本映像記述スキーマの文書型定義（ＤＴＤ）を実
行するのに使用された実施形態を議論する。表１は、上で述べたように、本映像
ＤＳのＤＴＤを要約する。付録Ａは映像ＤＳのＤＴＤの完全リストを含む。一般
に、文書型定義（ＤＴＤ）は文書内に含まれる要素、タグ、属性および実体のリ
ストとそれら相互の関連とを備えている。言い換えるなら、ＤＴＤは文書の構造
に関するルールの集合を指定する。ＤＴＤは、それらが記述する文書を含むコン
ピュータデータファイル内に含まれることができ、または外部ユニバーサルリソ
ースロケーション（ＵＲＬ）にリンクしまたはそこからリンクされることができ
る。そのような外部ＤＴＤはさまざまな文書とウェブサイトによって共用するこ
とができる。ＤＴＤは一般に、ＸＭＬ宣言の後および実際の文書データの開始前
の文書序言に含まれている。

【０１４１】有効なＸＭＬ文書に使用される全タグは、要素型宣言を備えたＤＴＤ内に正確
に一度宣言されなければならない。ＤＴＤ内の第１要素はルートタグである。我
々の映像ＤＳにおいて、ルートタグは<video>タグとして設計することができる
。要素型宣言はタグの名前とタグの許可された子供達とタグが空かどうかとを指
定する。ルート<video>タグは以下のように、定義することができる。

【０１４２】 <!ELEMENTvideo(video_object_set,object_hierarchy*,entity_relation_graph*
)> アスタリスク（*）はゼロ以上の存在を指し示す。ＸＭＬ構文において、プラ
ス記号（+）は１以上の存在を指し示し、疑問符（?）はゼロまたは１の存在を指
し示す。

【０１４３】ＸＭＬにおいて、全要素型宣言は<!ELEMENT and end with>で始まる。それら
は宣言された映像であるタグの名前と許可されたコンテンツ(video_object_set,
object_hierarchy*, entity_relation_graph*)とを含む。この宣言は映像要素
が映像オブジェクト集合要素(<video_object_set>)と、ゼロ以上のオブジェクト
階層要素(<object_hierarchy>)と、ゼロ以上の実体関係グラフ要素(<entity_rel
ation_graph>)とを含まなければならないことを指し示す。

【０１４４】映像オブジェクト集合９２４は以下のように定義することができる。

【０１４５】

【０１４６】上の例において、第１宣言は映像オブジェクト集合要素(<video_object_set>)
９２４が１以上の映像オブジェクト(<video_object>)９３０を含むことを指し示
している。第２宣言は映像オブジェクト９３０が任意の映像オブジェクト記録媒
体特徴要素(<vid_obj_media_features>)９３６と、意味特徴要素(<vid_obj_sema
ntic_features>)９４０と、視覚特徴要素(<vid_obj_visual_features>)９３８と
、時間特徴要素(<vid_obj_temporal_features>)９３７とを含むことを指し示し
ている。さらに、映像オブジェクトタグは、３つの可能値(LOCAL, SEGMENT, GLO
BAL)だけを有することができる１つの要求された属性、型と、型ID, IDREFS, ID
REFSのぞれぞれの３つの任意の属性id, object_ref, object_node_refとを有す
るように定義されている。

【０１４７】幾つかのＸＭＬタグは属性を含む。属性は要素（ＩＤのような）と関連したエ
クストラ情報を対象としている。上で示された例の最後の第四宣言は映像オブジ
ェクト記録媒体特徴要素９３６と意味特徴要素９４０と視覚特徴要素９３８と時
間特徴要素９３７とに対応する。それらの要素はそれらが提供する情報に依存す
る特徴要素をグループ化する。例えば、記録媒体特徴要素(<vid_obj_media_feat
ures>)９３６は、記録媒体特徴９３６の記述を定義するため、任意のロケーショ
ン要素とfile_format要素とfile_size要素とresolution要素とmodality_transco
ding要素とbit_rate要素とを含む。意味特徴要素(<vid_obj_semantic_features>
)は意味特徴記述子９４０に対応する任意のtext_annotationと６‐Ｗ要素とを含
む。視覚特徴要素(<vid_obj_visual_features>)は、視覚特徴記述子用の任意のi
mage_scl, color, texture, shape, size, position, video_scl, visual_sprit
e, transition, camera_motio要素およびmultiple key_frame要素とを含む。時
間特徴要素(<vid_obj_temporal_features>)は、任意の時間要素を時間特徴記述
子として含む。

【０１４８】付録Ａにリストされた例示的ＤＴＤにおいて、明瞭さと柔軟性のために特徴要
素は実体を使用する外部ＤＴＤ内に宣言される。以下の記述はそれらの各要素用
の分離外部ＤＴＤを参照する好ましい方法を述べている。

【０１４９】最も単純な場合、ＤＴＤは文書内で使用される全タグを含む。この技術は長い
文章を伴い扱いにくくなる。さらに、多数の種々の場所でＤＴＤの種々の部分を
使用するのが望ましいことがある。外部ＤＴＤは大きなＤＴＤが小さいものから
構成されることを可能にする。つまり、あるＤＴＤはもう１つとリンクし、そう
することにおいて前者で宣言された要素と実体とに入り込むことができる。小さ
いＤＴＤは分析するのが容易である。ＤＴＤは以下の例で説明されるように外部
パラメータ参照と連結されている。

【０１５０】

【０１５１】オブジェクト階層は画像ＤＴＤ内に定義することができる。以下の例は本オブ
ジェクト階層要素に関する宣言の概要を提供する。

【０１５２】

【０１５３】オブジェクト階層要素(<object_hierarchy>)は好ましくは単一ルートオブジェ
クトノード要素(<object_node>)を含む。オブジェクトノード要素は一般的にゼ
ロ以上のオブジェクトノード要素を含む。各オブジェクトノード要素は関連した
一意名idを有することができる。名標は型ID、例えば<object_node id=”on1”
object_ref=”o1”>の要素の任意の属性として表現される。各オブジェクトノー
ド要素は各映像要素と関連した一意名を使用することによって映像オブジェクト
要素の参照を含むこともできる。映像オブジェクト要素の参照は型IDREF (objec
t_ref)の属性として与えられる。オブジェクト要素は型IDREFS (object_node_re
f)の属性を使用することによってそれらを指示するそれらオブジェクトノード要
素へリンクバックできる。

【０１５４】実体関係グラフ定義はオブジェクト階層の１つにきわめて類似している。例が
以下にリストされている。

【０１５５】

【０１５６】実体ノード要素の宣言は、カンマではなく垂直バーで子供要素を分離すること
によって１つまたは他の１つのどちらかを含むことができる。

【０１５７】上の記述は映像記述スキーマも、本映像記述スキーマに従って映像コンテンツ
を特徴付けするシステムおよび方法も述べる。勿論、本映像記述スキーマは図７
と図８とに関連して記述されるシステムに関連して有利に使用することができる
。

【０１５８】本発明は特定の例示的実施形態と関連して記述されているが、様々な変化と置
換と変更とが、追加請求項で述べられたように発明の真実の範囲と精神に反する
ことなく開示された実施形態と合うことができることが理解されるべきである。

【０１５９】付録Ａ：映像記述スキーマの文書型定義

【図面の簡単な説明】

【図１】本発明の画像記述システムを説明する図であり、図１Ａは本発明の画像
記述システム用の例示的画像、図１Ｂは本発明の画像記述システム用の例示的オ
ブジェクト階層、図１Ｃは本発明の画像記述システム用の例示的実体関係グラフ
である。

【図２】本発明の画像記述システム用の例示的ブロック図。

【図３】本発明の画像記述システムを説明する図であり、図３Ａは本発明の画像
記述システム用の例示的オブジェクト階層、図３Ｂは本発明の画像記述システム
用の別の例示的オブジェクト階層である。

【図４】本発明の画像記述システムを説明する図であり、図４Ａは本発明の画像
記述システム用の例示的画像の表現であり、図４Ｂは本発明の画像記述システム
用の例示的クラスタリング階層である。

【図５】本発明の画像記述システムの例示的ブロック図。

【図６】本発明の画像記述システム用の例示的プロセス流れ図。

【図７】本発明の画像記述システム用の例示的ブロック図。

【図８】本発明の画像記述システムの別の例示的ブロック図。

【図９】本発明による映像記述スキーマ（ＤＳ）の略線図。

【図１０】例示的映像クリップの絵図とそこに定義された多数のオブジェクト。

【図１１】図１０の映像クリップ内のオブジェクト間の例示的関連を説明する例
示的意味階層の図式表現。

【図１２】図１０の映像クリップ内のオブジェクト間の例示的関連を説明する実
体関係グラフの図式表現。

【図１３】本発明による映像コンテンツ記述を作成するためのシステムのブロッ
ク図。

【図１４】本発明による映像コンテンツ記述レコードの作成に含まれる処理操作
を説明する流れ図。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１１Ｂ 27/00 Ｇ１１Ｂ 27/00 Ｄ５Ｌ０９６Ｈ０４Ｎ 5/91 Ｈ０４Ｎ 5/91 Ｚ 5/92 5/92 Ｈ 7/08 7/08 Ｚ 7/081 (31)優先権主張番号６０／１１８，０２７ (32)優先日平成11年２月１日(1999．2．1) (33)優先権主張国米国（ＵＳ） (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (71)出願人アイビーエムアメリカ合衆国ニューヨーク州ホーソン，ティー．ジェイ．ワトソンリサーチセンター（番地なし) (72)発明者パイク，セウンユップアメリカ合衆国 10027 ニューヨーク州ニューヨーク，リバーサイドドライブ 530，アパートメント６ジェイ (72)発明者ベニテス，アナアメリカ合衆国 10027 ニューヨーク州ニューヨーク，ウエスト 119番ストリート 400，アパートメント９エフ (72)発明者チャン，シー−フアメリカ合衆国 10027 ニューヨーク州ニューヨーク，リバーサイドドライブ 560，アパートメント 18ケイ (72)発明者エレフテリアディス，アレクサンドロスアメリカ合衆国 10027 ニューヨーク州ニューヨーク，コロンビアユニバーシティー（番地なし) (72)発明者プリ，アトゥルアメリカ合衆国ニュージャージー州レッドバンク，エーティーアンドティーラボズ（番地なし) (72)発明者ファン，チァンアメリカ合衆国ニュージャージー州レッドバンク，エーティーアンドティーラボズ（番地なし) (72)発明者リ，チュン−シェンアメリカ合衆国ニューヨーク州ホーソン，ティー．ジェイ．ワトソンリサーチセンター，アイビーエム（番地なし) (72)発明者ジュディス，チャーリーアメリカ合衆国ニューヨーク州ロチェスター，イーストマンコダック（番地なし) Ｆターム(参考） 5B075 ND06 ND12 NK04 NK06 NK07 NK08 NK10 NK39 NK43 5C052 AA01 AB03 AB04 AB05 AC08 CC06 CC11 DD04 5C053 FA20 GA11 GB06 GB37 HA29 JA01 JA16 JA21 KA05 KA24 LA06 LA11 5C063 AA01 AB03 AB05 AC01 AC10 CA23 CA36 DA07 DA13 DB09 5D110 AA13 AA29 DA03 DA10 DA11 DA17 DB09 5L096 FA00 FA79 JA11

Claims

【特許請求の範囲】

【請求項１】映像情報から記述レコードを生成するためのシステムにおいて、前記映像情報を受信するための少なくとも１つの映像入力インタフェースと、前記少なくとも１つの映像入力インタフェースに接続されてそこから前記映像
情報を受信し、映像オブジェクト抽出処理を実行することによって前記映像情報
を処理して前記映像情報から映像オブジェクト記述を生成し、オブジェクト階層
構成・抽出処理によって前記生成された映像オブジェクト記述を処理して映像オ
ブジェクト階層記述を生成し、かつ実体関係グラフ生成処理によって前記生成さ
れた映像オブジェクト記述を処理して実体関係グラフ記述を生成し、前記映像オ
ブジェクト記述と前記映像オブジェクト階層記述と前記実体関係グラフ記述とを
含む少なくとも１つの記述レコードが、前記映像情報内に埋め込まれたコンテン
ツを表現するために生成されるコンピュータプロセッサと、前記プロセッサに作動的に接続された、前記少なくとも１つの記述レコードを
蓄積するためのデータ蓄積システムとを特徴とするシステム。
【請求項２】前記映像オブジェクト抽出処理と前記オブジェクト階層構成・抽
出処理が並行して実行される、請求項１記載のシステム。
【請求項３】前記映像オブジェクト抽出処理が、前記映像情報中の各映像を前記映像内の諸領域に分割する映像分割処理と、単数または複数の前記領域に関する単数または複数の特徴記述を生成する特徴
抽出・注釈処理とを含み、前記生成された映像オブジェクト記述が、単数または複数の前記領域に関する
前記単数または複数の特徴記述を含む、請求項１記載のシステム。
【請求項４】前記領域が局所的領域とセグメント領域と大域的領域とからなる
群から選択される、請求項３記載のシステム。
【請求項５】前記単数または複数の特徴記述が、記録媒体特徴と視覚特徴と時
間特徴と意味特徴とからなる群から選択される、請求項３記載のシステム。
【請求項６】前記意味特徴がさらに、誰、如何なるオブジェクト、如何なる行
動、何処、何時、何故およびテキスト注釈からなる群から選択される少なくとも
１つの特徴記述によって定義される、請求項５記載のシステム。
【請求項７】前記視覚特徴がさらに、色、表面模様、位置、サイズ、形状、動
き、カメラの動き、編集効果および方位からなる群から選択される少なくとも１
つの特徴記述によって定義される、請求項５記載のシステム。
【請求項８】前記記録媒体特徴がさらに、ファイル形式、ファイルサイズ、色
表現、解像度、データファイルロケーション、著者、作成、スケーラブルレイヤ
およびモダリティトランスコーディングからなる群から選択される少なくとも１
つの特徴記述によって定義される、請求項５記載のシステム。
【請求項９】前記時間特徴がさらに、開始時間と終了時間と持続時間とからな
る群から選択される少なくとも１つの特徴記述によって定義される、請求項５記
載のシステム。
【請求項１０】前記オブジェクト階層構成・抽出処理が、前記映像オブジェク
ト記述によって表現される映像オブジェクトの視覚特徴関連に基づいて前記映像
オブジェクト記述の映像オブジェクト階層記述を生成する、請求項１記載のシス
テム。
【請求項１１】前記オブジェクト階層構成・抽出処理が、前記映像オブジェク
ト記述によって表現される映像オブジェクトの意味特徴関連に基づいて前記映像
オブジェクト記述の映像オブジェクト階層記述を生成する、請求項１記載のシス
テム。
【請求項１２】前記オブジェクト階層構成・抽出処理が、前記映像オブジェク
ト記述によって表現される映像オブジェクトの記録媒体特徴関連に基づいて前記
映像オブジェクト記述の映像オブジェクト階層記述を生成する、請求項１記載の
システム。
【請求項１３】前記オブジェクト階層構成・抽出処理が、前記映像オブジェク
ト記述によって表現される映像オブジェクトの関連に基づいて前記映像オブジェ
クト記述の映像オブジェクト階層記述を生成し、前記関連が、視覚特徴関連と意
味特徴関連と時間特徴関連と記録媒体特徴関連とからなる群から選択される、請
求項１記載のシステム。
【請求項１４】前記オブジェクト階層構成・抽出処理が、前記映像オブジェク
ト記述によって表現される映像オブジェクトの関連に基づいて前記映像オブジェ
クト記述の映像オブジェクト階層記述を生成し、前記映像オブジェクト階層記述
が複数の階層レベルを有する、請求項１記載のシステム。
【請求項１５】複数の階層レベルを有する前記映像オブジェクト階層記述がク
ラスタリング階層を含む、請求項１４記載のシステム。
【請求項１６】前記クラスタリング階層が、前記映像オブジェクト記述によっ
て表現される映像オブジェクトの関連に基づいており、前記関連が、視覚特徴関
連と意味特徴関連と時間特徴関連と記録媒体特徴関連とからなる群から選択され
る、請求項１５記載のシステム。
【請求項１７】複数の階層レベルを有する前記映像オブジェクト階層記述が、
抽出階層の多重レベルを含むように構成される、請求項１５記載のシステム。
【請求項１８】前記抽出階層の多重レベルが、前記映像オブジェクト記述によ
って表現される映像オブジェクトの関連に基づくように構成され、前記関連が、
視覚特徴関連と意味特徴関連と時間特徴関連と記録媒体特徴関連とからなる群か
ら選択される、請求項１７記載の方法。
【請求項１９】前記実体関係グラフ生成処理が、前記映像オブジェクト記述に
よって表現される映像オブジェクトの関連に基づいて前記映像オブジェクト記述
の実体関係グラフ記述を生成し、前記関連が、視覚特徴関連と意味特徴関連と時
間特徴関連と記録媒体特徴関連とからなる群から選択される、請求項１記載のシ
ステム。
【請求項２０】さらに、前記映像オブジェクト記述を受信して符号化記述情報
に符号化するためのエンコーダを含み、前記データ蓄積システムが前記符号化記
述情報を前記少なくとも１つの記述レコードとして蓄積するように作動する、請
求項１記載のシステム。
【請求項２１】前記映像オブジェクト記述と前記映像オブジェクト階層記述と
前記実体関係グラフ記述が互いに組合わされて映像記述を形成し、さらに、前記
映像記述を受信して符号化記述情報に符号化するためのエンコーダを含み、前記
データ蓄積システムが前記符号化記述情報を前記少なくとも１つの記述レコード
として蓄積するように作動する、請求項１記載のシステム。
【請求項２２】前記エンコーダが２進エンコーダを含む、請求項２１記載のシ
ステム。
【請求項２３】前記エンコーダがＸＭＬエンコーダを含む、請求項２１記載の
システム。
【請求項２４】さらに、コンピュータプロセッサに作動的に接続された映像情
報を表示するための映像表示装置とコンピュータプロセッサに作動的に接続され
た少なくとも１つのユーザ入力装置とを含み、前記映像オブジェクト処理の少なくとも一部が、前記ユーザ入力装置の操作に
よるユーザ入力を受信することを含む、請求項１記載のシステム。
【請求項２５】映像情報から記述コードを生成するための方法において、前記映像情報を受信するステップと、映像オブジェクト抽出処理を実行することによって前記映像情報を処理して前
記映像情報から映像オブジェクト記述を生成するステップと、オブジェクト階層構成・抽出処理によって前記生成された映像オブジェクト記
述を処理して映像オブジェクト階層記述を生成するステップと、実体関係グラフ生成処理によって前記生成された映像オブジェクト記述を処理
して実体関係グラフ記述を生成し、前記映像オブジェクト記述と前記映像オブジ
ェクト階層記述と前記実体関係グラフ記述とを含む少なくとも１つの記述レコー
ドが、前記映像情報内に埋め込まれたコンテンツを表現するために生成されるス
テップと、前記少なくとも１つの記述レコードを蓄積するステップとを特徴とする方法。
【請求項２６】前記映像オブジェクト抽出処理ステップと前記オブジェクト階
層構成・抽出処理ステップが並行して実行される、請求項２５記載の方法。
【請求項２７】前記映像オブジェクト抽出処理ステップがさらに、前記映像情報中の各映像を前記映像内の諸領域に分割する映像分割処理ステッ
プと、単数または複数の前記領域に関する単数または複数の特徴記述を生成する特徴
抽出・注釈処理ステップとを含み、前記生成された映像オブジェクト記述が単数または複数の前記領域に関する前
記単数または複数の特徴記述を含む、請求項２５記載の方法。
【請求項２８】前記領域が局所的領域とセグメント領域と大域的領域とからな
る群から選択される、請求項２７記載の方法。
【請求項２９】さらに、記録媒体特徴と視覚特徴と時間特徴と意味特徴とから
なる群から前記単数または複数の特徴記述を選択するステップを含む、請求項２
７記載の方法。
【請求項３０】前記意味特徴がさらに、誰、如何なるオブジェクト、如何なる
行動、何処、何時、何故およびテキスト注釈からなる群から選択される少なくと
も１つの特徴記述によって定義される、請求項２９記載の方法。
【請求項３１】前記視覚特徴がさらに、色、表面模様、位置、サイズ、形状、
動き、編集効果、カメラの動きおよび方位からなる群から選択される少なくとも
１つの特徴記述によって定義される、請求項２９記載の方法。
【請求項３２】前記記録媒体特徴がさらに、ファイル形式、ファイルサイズ、
色表現、解像度、データファイルロケーション、著者、作成、スケーラブルレイ
ヤおよびモダリティトランスコーディングからなる群から選択される少なくとも
１つの特徴記述によって定義される、請求項２９記載の方法。
【請求項３３】前記時間特徴がさらに、開始時間と終了時間と持続時間とから
なる群から選択される少なくとも１つの特徴記述によって定義される、請求項２
９記載の方法。
【請求項３４】前記オブジェクト階層構成・抽出処理ステップが、前記映像オ
ブジェクト記述によって表現される映像オブジェクトの視覚特徴関連に基づいて
前記映像オブジェクト記述の映像オブジェクト階層記述を生成する、請求項２５
記載の方法。
【請求項３５】前記オブジェクト階層構成・抽出処理ステップが、前記映像オ
ブジェクト記述によって表現される映像オブジェクトの意味特徴関連に基づいて
前記映像オブジェクト記述の映像オブジェクト階層記述を生成する、請求項２５
記載の方法。
【請求項３６】前記オブジェクト階層構成・抽出処理ステップが、前記映像オ
ブジェクト記述によって表現される映像オブジェクトの記録媒体特徴関連に基づ
いて前記映像オブジェクト記述の映像オブジェクト階層記述を生成する、請求項
２５記載の方法。
【請求項３７】前記オブジェクト階層構成・抽出処理ステップが、前記映像オ
ブジェクト記述によって表現される映像オブジェクトの時間特徴関連に基づいて
前記映像オブジェクト記述の映像オブジェクト階層記述を生成する、請求項２５
記載の方法。
【請求項３８】前記オブジェクト階層構成・抽出処理ステップが、前記映像オ
ブジェクト記述によって表現される映像オブジェクトの関連に基づいて前記映像
オブジェクト記述の映像オブジェクト階層記述を生成し、前記関連が、視覚特徴
関連と意味特徴関連と時間特徴関連と記録媒体特徴関連とからなる群から選択さ
れる、請求項２５記載の方法。
【請求項３９】前記オブジェクト階層構成・抽出処理ステップが、前記映像オ
ブジェクト記述によって表現される映像オブジェクトの関連に基づいて前記映像
オブジェクト記述の映像オブジェクト階層記述を生成し、前記映像オブジェクト
階層記述が、複数の階層レベルを有するように構成される、請求項２５記載の方
法。
【請求項４０】複数の階層レベルを有する前記映像オブジェクト階層記述が、
クラスタリング階層を含むように構成される、請求項３９記載の方法。
【請求項４１】前記クラスタリング階層が、前記映像オブジェクト記述によっ
て表現される映像オブジェクトの関連に基づくように構成され、前記関連が、視
覚特徴関連と意味特徴関連と時間特徴関連と記録媒体特徴関連とからなる群から
選択される、請求項４０記載の方法。
【請求項４２】複数の階層レベルを有する前記映像オブジェクト階層記述が、
抽出階層の多重レベルを含むように構成される、請求項４０記載の方法。
【請求項４３】前記抽出階層の多重レベルが、前記映像オブジェクト記述によ
って表現される映像オブジェクトの関連に基づくように構成され、前記関連が、
視覚特徴関連と意味特徴関連と時間特徴関連と記録媒体特徴関連とからなる群か
ら選択される、請求項４０記載の方法。
【請求項４４】前記実体関係グラフ生成処理ステップが、前記映像オブジェク
ト記述によって表現される映像オブジェクトの関連に基づいて前記映像オブジェ
クト記述の実体関係グラフ記述を生成し、前記関連が、視覚特徴関連と意味特徴
関連と時間特徴関連と記録媒体特徴関連とからなる群から選択される、請求項２
５記載の方法。
【請求項４５】さらに、前記映像オブジェクト記述を受信して符号化記述情報
に符号化するステップと前記符号化記述情報を前記少なくとも１つの記述レコー
ドとして蓄積するステップとを含む、請求項２５記載の方法。
【請求項４６】さらに、前記映像オブジェクト記述と前記映像オブジェクト階
層記述と前記実体関係グラフ記述とを組合わせて映像記述を形成するステップと
、前記映像記述を受信して符号化記述情報に符号化するステップと、前記符号化
記述情報を前記少なくとも１つの記述レコードとして蓄積するステップとを含む
、請求項２５記載の方法。
【請求項４７】前記符号化ステップが２進符号化ステップを含む、請求項４６
記載の方法。
【請求項４８】前記符号化ステップがＸＭＬ符号化ステップを含む、請求項４
６記載の方法。
【請求項４９】対応する映像情報内に埋め込まれた映像コンテンツを表現する
少なくとも１つの記述レコードを備えたディジタル情報を含むコンピュータ可読
記録媒体において、少なくとも１つの記述レコードが、映像オブジェクト抽出処理を利用して前記映像情報から生成される単数または
複数の映像オブジェクト記述と、オブジェクト階層構成・抽出処理を利用して前記生成された映像オブジェクト
記述から生成される単数または複数の映像オブジェクト階層記述と、実体関係グラフ生成処理を利用して前記生成された映像オブジェクト記述から
生成される単数または複数の実体関係グラフ記述とを含むことを特徴とするコン
ピュータ可読記録媒体。
【請求項５０】前記映像オブジェクト記述と前記映像オブジェクト階層記述と
前記実体関係グラフ記述がさらに単数または複数の特徴記述を含む、請求項４９
記載のコンピュータ可読記録媒体。
【請求項５１】前記単数または複数の特徴記述が、記録媒体特徴と視覚特徴と
時間特徴と意味特徴とからなる群から選択される、請求項５０記載のコンピュー
タ可読記録媒体。
【請求項５２】前記意味特徴がさらに、誰、如何なるオブジェクト、如何なる
行動、何処、何時、何故およびテキスト注釈からなる群から選択される少なくと
も１つの特徴記述によって定義される、請求項５１記載のコンピュータ可読記録
媒体。
【請求項５３】前記視覚特徴がさらに、色、表面模様、位置、サイズ、形状、
動き、カメラの動き、編集効果および方位からなる群から選択される少なくとも
１つの特徴記述によって定義される、請求項５１記載のコンピュータ可読記録媒
体。
【請求項５４】前記記録媒体特徴がさらに、ファイル形式、ファイルサイズ、
色表現、解像度、データファイルロケーション、著者、作成、スケーラブルレイ
ヤおよびモダリティトランスコーディングからなる群から選択される少なくとも
１つの特徴記述によって定義される、請求項５１記載のコンピュータ可読記録媒
体。
【請求項５５】前記時間特徴がさらに、開始時間と終了時間と持続時間とから
なる群から選択される少なくとも１つの特徴記述によって定義される、請求項５
１記載のコンピュータ可読記録媒体。
【請求項５６】前記オブジェクト階層記述が、前記映像オブジェクト記述によ
って表現される映像オブジェクトの視覚特徴関連に基づいている、請求項４９記
載のコンピュータ可読記録媒体。
【請求項５７】前記映像オブジェクト階層記述が、前記映像オブジェクト記述
によって表現される映像オブジェクトの意味特徴関連に基づいている、請求項４
９記載のコンピュータ可読記録媒体。
【請求項５８】前記映像オブジェクト階層記述が、前記映像オブジェクト記述
によって表現される映像オブジェクトの記録媒体特徴関連に基づいている、請求
項４９記載のコンピュータ可読記録媒体。
【請求項５９】前記映像オブジェクト階層記述が、前記映像オブジェクト記述
によって表現される映像オブジェクトの時間特徴関連に基づいている、請求項４
９記載のコンピュータ可読記録媒体。
【請求項６０】前記映像オブジェクト階層記述が、前記映像オブジェクト記述
によって表現される映像オブジェクトの関連に基づいており、前記映像オブジェ
クト階層記述が複数の階層レベルを有する、請求項４９記載のコンピュータ可読
記録媒体。
【請求項６１】複数の階層レベルを有する前記映像オブジェクト階層記述がク
ラスタリング階層を含む、請求項６０記載のコンピュータ可読記録媒体。
【請求項６２】前記クラスタリング階層が、前記映像オブジェクト記述によっ
て表現される映像オブジェクトの関連に基づいており、前記関連が、視覚特徴関
連と意味特徴関連と時間特徴関連と記録媒体特徴関連とからなる群から選択され
る、請求項６１記載のコンピュータ可読記録媒体。
【請求項６３】複数の階層レベルを有する前記映像オブジェクト階層記述が、
抽出階層の多重レベルを含むように構成される、請求項６２記載のコンピュータ
可読記録媒体。
【請求項６４】前記抽出階層の多重レベルが、前記映像オブジェクト記述によ
って表現される映像オブジェクトの関連に基づくように構成され、前記関連が、
視覚特徴関連と意味特徴関連と時間特徴関連と記録媒体特徴関連とからなる群か
ら選択される、請求項６３記載のコンピュータ可読記録媒体。
【請求項６５】前記実体関係グラフ記述が、前記映像オブジェクト記述によっ
て表現される映像オブジェクトの関連に基づいており、前記関連が、視覚特徴関
連と意味特徴関連と時間特徴関連と記録媒体特徴関連とからなる群から選択され
る、請求項４９記載のコンピュータ可読記録媒体。
【請求項６６】前記映像オブジェクト記述が符号化記述情報の態様である、請
求項４９記載のコンピュータ可読記録媒体。
【請求項６７】前記映像オブジェクト記述と前記映像オブジェクト階層記述と
前記実体関係グラフが、符号化記述情報の態様に互いに組合わされる、請求項４
９記載のコンピュータ可読記録媒体。
【請求項６８】前記符号化記述情報が２進符号化情報の態様である、請求項６
７記載のコンピュータ可読記録媒体。
【請求項６９】前記符号化記述情報がＸＭＬ符号化情報の態様である、請求項
６７記載のコンピュータ可読記録媒体。
【請求項７０】特徴記述が、コードダウンローディングを促進するために抽出
コード、整合コードに対するポインタを含む、請求項１記載のシステム。
【請求項７１】特徴記述が、コードダウンローディングを促進するために抽出
コード、整合コードに対するポインタを含む、請求項５記載のシステム。
【請求項７２】特徴記述が、コードダウンローディングを促進するために抽出
コード、整合コードに対するポインタを含む、請求項２５記載の方法。
【請求項７３】特徴記述が、コードダウンローディングを促進するために抽出
コード、整合コードに対するポインタを含む、請求項２９記載の方法。
【請求項７４】特徴記述が、コードダウンローディングを促進するために抽出
コード、整合コードに対するポインタを含む、請求項４９記載のコンピュータ可
読記録媒体。
【請求項７５】特徴記述が、コードダウンローディングを促進するために抽出
コード、整合コードに対するポインタを含む、請求項５３記載のコンピュータ可
読記録媒体。