JP4643099B2

JP4643099B2 - 包括的オーディオ・ビジュアル・データ信号記述に対する基本的エンティティ−関係モデル

Info

Publication number: JP4643099B2
Application number: JP2001518680A
Authority: JP
Inventors: ベニテスアナ; ジェイムスアレハンドロ; シー−フチャン; アールスミスジョン; チュン−シェンリ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-07-03
Filing date: 2000-06-30
Publication date: 2011-03-02
Anticipated expiration: 2020-06-30
Also published as: AU6065400A; EP1194870A4; CN1312615C; KR100771574B1; JP2003507808A; EP1194870A1; KR20020050220A; CN1372669A; MXPA02000040A; WO2001003008A1

Description

【０００１】
関連出願の相互参照
本出願は合衆国仮特許出願第６０／１４２，３２５号（１９９９年７月３日出願）に基づいており、そこから優先権を主張している。
【０００２】
発明の背景
Ｉ．発明の分野
本発明はマルチメディア情報を記述する技術に関し、より詳細には、ビデオ及び画像の両情報或はオーディオ情報を、そうした情報のコンテンツと共に、記述する技術に関する。ここに開示される技術はディジタル・データ信号（例えば、マルチメディア信号）のコンテンツに感応する索引付け及び分類のためのものである。
【０００３】
ＩＩ．関連技術の説明
グローバル・インターネットの成熟や地域ネットワーク及びローカルネットワークの広範囲にわたる利用によって、ディジタル・マルチメディア情報は消費者及び事業家に対して益々近づきやすくなってきている。従って、ディジタル・マルチメディア情報を処理、フィルタリング、検索、そして、組織化するシステムを開発することは漸進的により重要となってきており、その結果、有用な情報が生情報のこの成長する大きな集合から選び取り可能である。
【０００４】
この出願の提出時において、消費者／及び事業家にテキスト情報を検索させることを可能とする解決策が存在している。実際上、ｙａｈｏｏ．ｃｏｍ、ｇｏｔｏ．ｃｏｍ、ｅｘｃｉｔｅ．ｃｏｍ等々によって提供される検索エンジン等の数多くのテキストに基づく検索（サーチ）エンジンがワールド・ワイド・ウェブ上に利用可能であり、最も頻繁に訪れるウェブサイトの内の１つであり、そうした情報検索の技術に対する需要の甚大さを示している。
【０００５】
残念ながら、同上のことはマルチメディアコンテンツに対して当てはまらず、この事柄の一般的に認識される記述は全く存在しないからである。
【０００６】
ディジタル画像及びビデオの最近の急増は、コンテンツを検索する際、大量のリソースを現在有するエンドユーザに新たな機会をもたらした。ビジュアル（視覚）情報は数多くの異なるソースから且つ数多くの異なるフォーマットで多様な主題について広範に利用可能である。これは利点であるが、それと同時に、そうしたコンテンツを検索する際に大量のデータを再吟味することができないので難題である。それ故に、コンテンツを効率的にブラウズするか或はそれらの特定ニーズに基づき問合せを実行することをユーザに可能とさせることが絶対必要である。しかしながらそうした機能をディジタル・ライブラリに提供するためには、データ、そして適合すれば索引（インデックス）を理解することが必須である。この索引付けは構造化させる必要があり、且つ、そうした情報にアクセスすることを欲しているのはどのユーザであるかに基づくことになる。
【０００７】
従来のアプローチにおいては、テキスト注釈が索引付けのために使用され、即ち、カタログ作製者が画像を記述すべく複数のキーワード或は表現の集合を手動で割り当てる。次いでユーザはテキストに基づく問合せ、或は、手動的に割り当てられた部類（カテゴリー）を通じてのブラウズ（閲覧）を為すことができる。テキストに基づくアプローチと対照的に、コンテンツに基づく検索における最近の技術はそれらのビジュアルコンテンツに基づく索引画像に焦点が合わせられている。ユーザは例（これと似た画像等）或はユーザ・スケッチ（このスケッチと似た画像等）をもって問合せを為すことができる。より最近の成果としては、コンテンツに基づく画像の自動分類を試みて、システムが各画像を分類し、それにラベル（例えば、屋内、屋外、顔を含む等々）を割り当てることである。
【０００８】
双方の論理的枠組みには、特にコンテンツに基づく検索の共通性においてしばしば見過ごされる分類の問題点がある。ビジュアル情報に適切に索引を付ける点に関しての主な課題は以下のように要約される。（１）単一画像には大量の情報がある（例えば、何に索引を付けるか？）、そして（２）記述の異なるレベルが可能である（例えば、どのようにして索引付けるか？）。例えば、スーツを着た男の写真を考える。その画像に用語「スーツ」或は「男」をラベル付けすることが可能となるであろう。次いで用語「男」は、中でも、概念的（例えば、辞書での男の定義）、物理的（サイズ、重量）、並びに、ビジュアル（髪の毛の色、衣服）等の多数レベルの情報を担うことができるであろう。次いで部類ラベルは、明白なもの（例えば、その画像における人物は男であり、女ではない）や、潜在的なもの又は未定義情報（例えば、その用語だけではその男が何を着用しているかを知ることができない）を暗示する。
【０００９】
この点に関しては、写真内に埋め込まれたビデオ・オブジェクトの色、質感、並びに、形状の情報等の特性を用いて、その写真のユーザによる検索を許容するマルチメディア・データベースを提供する試みが従来から為されてきている。しかしながら２０世紀の終わりにおいても、この種の広範に認識された記述が存在しないので、マルチメディアコンテンツをインターネット或は殆どの地域的ネットワーク或はローカルネットワークで一般検索することができない。更にはマルチメディアコンテンツの検索の必要性はデータベースに限定されずに、ディジタル放送テレビ及びマルチメディア電話等の他の用途にまで延びている。
【００１０】
マルチメディア記述フレームワーク等の規格を開発する１つの産業での広範な試みは、ＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ（“ＭＰＥＧ”「エムペグ」）ＭＰＥＧ-７規格の成果をもたらした。１９９６年１０月に開始されたＭＰＥＧ-７は、マルチメディアの検索、濾過、ブラウズ、並びに、要約の様なコンテンツに焦点が当てられた用途を促進補助するために、マルチメディア・データのコンテンツ記述を規格化することを目標としている。ＭＰＥＧ-７のオブジェクトのより完全な記述は、インターナショナル・オーガナイゼーション・フォ・スタンダード（ｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄ）の文書ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１Ｎ２４６０（１９９８年１０月）に含まれ、その内容は引用することでここに合体させる。
【００１１】
ＭＰＥＧ-７規格は、様々なタイプのマルチメディア情報を記述すべく、記述子及びそれらの関係に対する構造（「記述方式」と呼称される）構造と共に、それら記述子から成る規格集合を指定する対象を有する。またＭＰＥＧ-７は、記述子及びそれらの関係に対する「記述方式」と共に、他の記述子を規定するために方法を規格化することを提案している。この記述は、即ち記述子及び記述方式の組合せはコンテンツそれ自体と関連され、ユーザの関心の資料の高速且つ効率的な検索及び濾過を可能とする。またＭＰＥＧ-７は言語を規格化して、記述方式を指定するものであり、即ち、記述規定言語（ＤｅｓｃｒｉｐｔｉｏｎＤｅｆｉｎｉｔｉｏｎＬａｎｇｕａｇｅ）（“ＤＤＬ”）と、マルチメディアコンテンツの記述を二進コード化する方式とである。
【００１２】
この出願の提出時、ＭＰＥＧはＭＰＥＧ-７規格への将来の統合化に対して必要とされた方式を最適に具現化する技術のための勧誘的な提案である。そうした最適な記述方式を提供するために、３つの異なるマルチメディア用途構成が考えられ得る。それらは分配処理シナリオ、コンテンツ交換シナリオ、並びに、マルチメディアコンテンツの個人専用化視認を許容するフォーマットである。
【００１３】
分配処理に関して、記述方式はマルチメディア資料の記述を任意のプラットフォーム、任意のベンダー、並びに、任意のアプリケーションとは独立して交換する能力を提供しなければならず、それはマルチメディアコンテンツの分配処理を可能とすることになる。共同運転可能なコンテンツ記述の規格が意味することは、様々なソースからのデータが、マルチメディア・プロセッサ、エディタ、検索システム、濾過エージェント等々の様々な分配アプリケーションにプラグインされ得ることである。これらアプリケーションの幾つかは第三者によって提供され得て、マルチメディア・データの規格化記述と共に作動し得るマルチメディア・ツールのプロバイダである副産業を生ずる。
【００１４】
ユーザは様々なコンテンツプロバイダのウェブサイトにアクセスすることが許容され、コンテンツや、幾分低レベル或は高レベルの処理によって獲得される関連索引付けデータをダウンロードし、幾つかのツール・プロバイダのウェブサイトにアクセスすべく進んで、ユーザの個人的な興味に従って特定の方法で異質のデータ記述を操作するツール（例えばジャバアプレット）をダウンロードする。そうしたマルチメディア・ツールの一例はビデオ・エディタである。ＭＰＥＧ-７準拠ビデオ・エディタは、もし各ビデオに関連された記述がＭＰＥＧ-７準拠であれば、様々なソースからのビデオコンテンツを操作及び処理することができる。各ビデオは、カメラ運動（モーション）、シーン・カット、注釈、並びに、オブジェクト区分等の変動する度合いの記述細目が添えられている。
【００１５】
相互操作可能なコンテンツ記述規格から大きく利益を得る第２シナリオは、異質マルチメディア・データベースの間のマルチメディアコンテンツの交換である。ＭＰＥＧ-７はマルチメディア資料の現行記述の表現、交換、翻訳、並びに、再使用を為す手段を提供することを狙っている。
【００１６】
現行の、ＴＶ放送、ラジオ放送、並びに、他のコンテンツプロバイダは、莫大な量のマルチメディア資料を管理し記憶する。この資料は、現在、テキスト情報及び専有データベースを用いて手動で記載される。共同運動可能なコンテンツ記述なしに、コンテンツユーザは各放送局によって使用される記述をかれら自身の専有方式に手動で翻訳すべく人手を運用しなければならない。マルチメディアコンテンツ記述の交換は、もしコンテンツプロバイダの全てが同一方式及びコンテンツ記述方式を採用していれば可能である。これはＭＰＥＧ-７の目標の１つである。
【００１７】
最後に、そうした記述方式を採用するマルチメディア・プレイヤ及び視認者はユーザに、ユーザによって構成されたデータの多重ビュー等の革新的な能力を提供しなければならない。ユーザはコンテンツ放送局から異なるフォーマットでのデータを再びダウンロードさせる必要性なしにディスプレイ構成を変えることができる。
【００１８】
先行する例のみが、ＭＰＥＧ-７に基づく規格化された方法で配送された充分に組織化されたデータに対する可能性あるユーザにほのめかしている。残念ながら、現在利用可能な先行技術で分配処理、コンテンツ交換、或は、個人専用化視認のシナリオを全般的に満足することができるものはない。具体的には、包括的特性、或は、意味論的関係の何れかに基づいたマルチメディア情報に埋め込まれたコンテンツを取り込む技術を提供すること、或は、そうしたコンテンツを組織化する技術を提供することに失敗している。従って、当業界においては包括的なマルチメディア情報に対する効率的なコンテンツ記述方式に要望がある。
【００１９】
ＭＰＥＧソウル会議（１９９９年３月）中、包括的ビジュアル記述方式（ビデオ・グループ、「ＭＰＥＧ-７に対する包括的ビジュアル記述方式」、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ９９／Ｎ２６９４、韓国、ソウル、１９９９年３月）が、ＤＳ１（静止画像）、ＤＳ３＋＋（マルチメディア）、ＤＳ４（アプリケーション）、そして特に、ＭＰＥＧ-７評価ＡＨＧ（英国、ランカスター、１９９９年２月）（ＭＰＥＧ-７評価ロジスティックスについてのＡＨＧ、”ＲｅｐｏｒｔｏｆｔｈｅＡｄ-ｈｏｃＧｒｏｕｐｏｎＭｐｅｇ-７ＥｖａｌｕａｔｉｏｎＬｏｇｉｓｔｉｃｓ”，ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ９９／Ｎ４５２４，ＳｅｏｕｌＫｏｒｅａ，Ｍａｒｃｈ１９９９）のＤＳ２（ビデオ）からの推奨の内の幾つかに引き続いて創始された。包括的ビジュアルＤＳは記述方式についてのＡＨＧで包括的オーディオビジュアル記述方式（“ＡＤＤＳ”）（ＡＨＧｏｎＤｅｓｃｒｉｐｔｉｏｎＳｃｈｅｍｅ， “ＧｅｎｅｒｉｃＡｕｄｉｏＶｉｓｕａｌＤｅｓｃｒｉｐｔｉｏｎＳｃｈｅｍｅｆｏｒＭＰＥＧ-７（Ｖ０．３）”，ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ９９／Ｍ４６７７，Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，Ｊｕｌｙ１９９９）へ発展した。包括的なＡＶＤＳはビデオ・シーケンス或は画像のビジュアルコンテンツを記述すると共に、オーディオ・シーケンスのコンテンツを部分的に記述するが、それはマルチメディア或はアーカイブコンテンツに対応するものではない。
【００２０】
包括的ＡＶＤＳの基本的コンポーネントは構文論的構造ＤＳ、意味論的構造ＤＳ、構文論-意味論リンクＤＳ、並びに、分析／総合モデルＤＳである。構文論的構造ＤＳは、領域木、区分木、並びに、区分／領域関係グラフから構成されている。同様に、意味論的構造ＤＳは、オブジェクト木、イベント木、並びに、オブジェクト／イベント関係グラフから構成されている。構文論-意味論リンクＤＳは、構文論的要素（領域、区分、並びに、区分／領域関係）を意味論的要素（オブジェクト、イベント、並びに、イベント／オブジェクト関係）とリンク、そしてその逆の関係でリンクする機構を提供する。分析／総合モデルＤＳは、構文論的及び意味論的構造の間の射影／レジストレーション／概念の一致を指定する。当方では一般にコンテンツ要素と呼称する意味論的及び構文論的要素は関連された属性を有する。例えば、領域は色／質感、形状、２-Ｄ幾何形状、運動、並びに、変形の記述子によって記述される。オブジェクトはタイプ、オブジェクト-振る舞い、並びに、意味論的注釈のＤＳによって記述される。
【００２１】
我々は包括的ＡＶＤＳの現行仕様に可能性ある短所を認識している。包括的ＡＶＤＳはコンテンツ要素及びエンティティ-関係グラフを含む。コンテンツ要素は関連された特徴を有し、エンティティ-関係グラフはコンテンツ要素間における一般関係を記述する。これはエンティティ-関係（ＥＲ）モデリング技術（Ｐ．Ｐ-Ｓ．Ｃｈｅｎ， “ＴｈｅＥｎｔｉｔｙ-ＲｅｌａｔｉｏｎＭｏｄｅｌ-ＴｏｗａｒｄａＵｎｉｆｉｅｄＶｉｅｗｏｆＤａｔａ”，ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ，Ｖｏｌ．１，Ｎｏ．１，ｐｐ．９-３６，Ｍａｒｃｈ１９７６）に追随する。しかしながら包括的ＡＶＤＳのこれら要素の現行仕様は、オーディオ-ビジュアルコンテンツを記述すべく有用で且つ強力なツールとなるには余りにも包括的過ぎる。また包括的ＡＶＤＳは階層とそれら階層間のリンクを含み、物理的な階層モデルの典型である。結果として、包括的ＡＶＤＳは異なる概念的及び物理的モデルの混合である。このＤＳの他の制限は、意味論的及び構文論的構造の堅固な分離と、そのコンテンツ要素の明白で単一化された定義の欠如とであり得る。
【００２２】
包括的ＡＶＤＳは画像、ビデオ・シーケンス、そして部分的にはオーディオ・シーケンスを記述し、（１）文書の物理的或は構文論的構造の定義、コンテンツのテーブル、（２）意味論的構造の定義、索引、並びに、（３）意味論的認識が現れる場所の定義である書籍コンテンツ記述に対する古典的なアプローチに追随する。それは、（１）構文論的構造ＤＳ、（２）意味論的構造ＤＳ、（３）構文論-意味論リンクＤＳ、（４）分析／総合モデルＤＳ、（５）可視化ＤＳ、（６）メタ情報ＤＳ、並びに、（７）メディア情報ＤＳから構成される。
【００２３】
構文論的ＤＳは物理的構造と、文書のコンテンツのテーブルを定義する画像或はビデオ・シーケンスの信号特性とを指定すべく使用される。それは（１）区分ＤＳ、（２）領域ＤＳ、並びに、（３）区分／領域関係グラフＤＳから構成される。区分ＤＳは、ビデオ・プログラムの線形的な時間的構造を指定する複数区分から成る木を規定又は定義すべく使用され得る。区分は、時間ＤＳ、メタ情報ＤＳ、メディア情報ＤＳ等の関連された特徴を伴うビデオ・シーケンスにおける連続的なフレームから成るグループである。区分の特殊なタイプとしてのショットは、編集効果ＤＳ、キーフレームＤＳ、モザイクＤＳ、並びに、カメラ・モーションＤＳを含む。同様に、領域ＤＳは複数領域から成る木を規定すべく使用され得る。領域は、幾何形状ＤＳ、色／質感ＤＳ、モーション（運動）ＤＳ、変形ＤＳ、メディア情報ＤＳ、並びに、メタ情報ＤＳから成るグループとして規定される。区分／領域関係グラフＤＳは、区分及び領域の間の一般関係、例えば、「ＴｏＴｈｅＬｅｆｔＯｆ（左にある）」等の空間関係、「ＳｅｑｕｅｎｔｉａｌＴｏ（に続く）」等の時間的関係、並びに、「ＣｏｎｓｉｓｔＯｆ（から成る）」等の意味論的関係を指定する。
【００２４】
意味論的ＤＳは、意味論的オブジェクト及びイベントの点で画像或はビデオ・シーケンスの意味論的特徴を指定すべく使用される。それは索引の集合として見られる。それは、（１）イベントＤＳ、（２）オブジェクトＤＳ、並びに、（３）イベント／オブジェクト関係グラフＤＳから構成される。イベントＤＳは、区分ＤＳにおける各種区分に対する意味論的索引テーブルを規定する複数イベントから成る木を形成すべく使用され得る。イベントは注釈ＤＳを含有する。同様に、オブジェクトＤＳは、オブジェクトＤＳにおける各種オブジェクトに対する意味論的索引テーブルを規定する複数のオブジェクトから成る木を形成すべく使用され得る。イベント／オブジェクト関係グラフＤＳはイベント及びオブジェクトの間の一般関係を指定する。
【００２５】
構文論-意味論リンクＤＳは、構文論的要素（区分、領域、或は、区分／領域関係）及び意味論的要素（イベント、オブジェクト、或は、イベント／オブジェクト関係）の間で双方向性である。分析／総合モデルＤＳは、構文論的構造ＤＳ及び意味論的構造ＤＳの間の射影／レジストレーション／概念的な一致を指定する。メディア及びメタ情報ＤＳは、記憶メディア及び作成者-生成情報の記述子を含む。可視化ＤＳは、ビデオ・プログラムの効率的な可視化を可能とすべくビューＤＳ（ｖｉｅｗＤＳ）の集合を含む。それは以下のビューを含む。即ち、マルチ-解像度空間周波数サムネール、キーフレーム、ハイライト、イベント、並びに、代替ビューである。これらビューの各々は独立して規定される。
【００２６】
包括的ＡＶＤＳの短所包括的ＡＤＤＳは関連された特徴を伴うコンテンツ要素（即ち、領域、オブジェクト、区分、並びに、イベント）を含む。またそれはエンティティ-関係グラフをも含み、エンティティ-関係モデルに追随するコンテンツ要素間の一般的関係を記述する。現行ＤＳの欠点は、各種要素間の特徴及び関係が広範な値を有し得ることであり、それがそれらの有用性及び表現力を低減する。明確な例はオブジェクト要素における意味論的注釈特徴である。意味論的注釈の値は包括的（「男」）、具体的（又は特定的）（「ジョン・ドウ」）、或は、抽象的（「幸福」）な観念であり得る。
【００２７】
本発明に至る開発の初期目的は、この欠点に対処すべく、包括的ＡＶＤＳに対する明白なエンティティ-関係構造を規定することである。明白なエンティティ-関係構造は属性及び関係を関連する複数の分類に分類する。この処理中、特に具体例の生成中（図６乃至図９に示されるベースボール例を参照のこと）、我々は、今回、ＤＳグローバル設計と関連された現行の包括的ＡＶＤＳの他の短所を知ることになった。この節においてこれらを提示する。この出願において、我々はこれら争点に対処すために試みる完全に基本的なエンティティ-関係モデルを提案する。
【００２８】
先ず、包括的ＤＳの完全な仕様はエンティティ-関係モデルを用いて表現され得る。一例として、図６におけるベースボール例に対して図７乃至図９に提供されたエンティティ-関係モデルは、包括的ＡＶＤＳ（例えば、イベントＤＳ、区分ＤＳ、オブジェクトＤＳ、領域ＤＳ、構文論-意味論リンクＤＳ、区分／領域関係グラフＤＳ、並びに、イベント／オブジェクト関係グラフＤＳ）のコンポーネントの殆ど、そしてそれ以上によって対処された機能を含む。エンティティ-関係（Ｅ−Ｒ）モデルは一般的な高レベル概念データ・モデルであり、中でも階層的、関係的、或は、オブジェクト指向モデル等の実際の具現化とは独立している。包括的ＤＳの現行バージョンは、多数の概念的及び具現化データ・モデル、即ち、エンティティ-関係モデル（例えば、区分／領域関係グラフ）、階層モデル（例えば、領域ＤＳ、オブジェクトＤＳ、並びに、構文論-意味論リンクＤＳ）、並びに、オブジェクト指向モデル（例えば、区分ＤＳ、ビジュアル区分ＤＳ、並びに、オーディオ区分ＤＳ）の混合であると見られる。
【００２９】
第２として、現行の包括的ＤＳにおける構文論及び意味論の間の分離は余りにも融通がきかない。図６における例の場合、我々はバッティング（打撃）・イベント及びバッティング区分（図７参照）の記述を、現行の包括的ＡＶＤＳが提案するように分離した。しかしながらこの場合、両要素を意味論的及び構文論的特徴で単一のバッティング・イベントに併合又は合併することがより好都合である。ビデオ索引付けを作業する数多くのグループは構文論的構造（コンテンツのテーブル：区分及びショット）及び意味論的構造（意味論的索引：イベント）の分離を推薦した。しかしながら、ビデオ・シーケンスにおける複数画像或は動画化オブジェクトを記述するに当たって、これら構造を分離する値は明確さがより劣っている。「リアル・オブジェクト」は、通常、それらの構文論的特徴（例えば、色、質感、並びに、運動又はモーション）と共にそれらの意味論的特徴（例えば、意味論的分類−人、猫、等々）によって記述される。現行の包括的ＡＶＤＳは、領域ＤＳ及びオブジェクトＤＳにおける「リアル・オブジェクト」の定義又は規定を分離し、それは記述の非効率的取り扱いを生じ得ることになる。
【００３０】
最後に、コンテンツ要素、特にオブジェクト及びイベントは包括的ＤＳにおける明白で単一化された定義又は規定が欠如している。例えば、現行の包括的ＤＳはオブジェクトが幾つかの意味論的意味合いを有すると共に他のオブジェクトを含むものとして規定する。オブジェクトはオブジェクトＤＳで規定されているが、イベント／オブジェクト関係グラフは、オブジェクト及びイベント間の一般的関係を記述することができる。更にはオブジェクトは、構文論-意味論リンクＤＳによって、意味論的ＤＳ内の対応する領域とリンクされる。それ故に、オブジェクトは包括的ビジュアルＤＳの数多くのコンポーネントにわたる分配規定を有し、それは明確より劣る。イベントの規定は非常に類似し、曖昧である。
【００３１】
包括的ＡＶＤＳに対するエンティティ（実体）-関係モデルＰ．Ｐ-Ｓ．Ｃｈｅｎ， “ＴｈｅＥｎｔｉｔｙ-ＲｅｌａｔｉｏｎＭｏｄｅｌ-ＴｏｗａｒｄａＵｎｉｆｉｅｄＶｉｅｗｏｆＤａｔａ”，ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＤａｔａｂａｓｅＳｙｓｔｅｍｓ，Ｖｏｌ．１，Ｎｏ．１，ｐｐ．９-３６，（Ｍａｒｃｈ、１９７６年）に先ず提示されたエンティティ-関係（Ｅ−Ｒ）モデルは、エンティティ及びそれらの関係の点でデータを記述する。エンティティ及び関係の双方は属性によって記述され得る。エンティティ-関係モデルの基本コンポーネントは図１に示されている。エンティティ、エンティティ属性、関係、並びに、関係属性は、名詞（例えば、少年及びリンゴ）、形容詞（例えば、若い）、動詞（例えば、食べる）、動詞補語（例えば、ゆっくり）に非常に緊密に対応し、それらは包括的なデータを記述するための本質的なコンポーネントである。ビデオ・ショットの記述であり得る「若い少年がリンゴをゆっくり食べる」は、図２におけるエンティティ-関係モデルを用いて表現される。このモデル化技術は、写真及びそれらの特徴のコンテンツを画像検索のためにモデル化すべく使用された。
【００３２】
この節において我々は、先行して議論された短所に対処すべく、現行の包括的ＡＶＤＳに対する基本的なエンティティ-関係モデルを提案するものである。この基本的なエンティティ-関係モデルは、（１）コンテンツ要素の属性、（２）コンテンツ要素間の関係、並びに、（３）コンテンツ要素自体に索引付けする。これらモデルは図５に描かれている。当方の提案は、Ａ．ＪａｉｍｅｓａｎｄＳ． −Ｆ．Ｃｈａｎｇ， “ＡＣｏｎｃｅｐｔｕａｌＦｒａｍｅｗｏｒｋｆｏｒＩｎｄｅｘｉｎｇＶｉｓｕａｌＩｎｆｏｒｍａｔｉｏｎａｔＭｕｌｔｉｐｌｅＬｅｖｅｌｓ”，ＳｕｂｍｉｔｔｅｄｔｏＩｎｔｅｒｎｅｔＩｍａｇｉｎｇ２０００に提示されたビジュアル情報に索引を付けるための概念的フレームワークの上部に構築される。
【００３３】
発明の概要
本発明の目的は、包括的なマルチメディア情報に対するコンテンツ記述方式を提供することである。
【００３４】
本発明の別の目的は、規格化されたマルチメディアコンテンツ記述方式を具現化する技術を提供することである。
【００３５】
本発明の更なる目的は、マルチメディアコンテンツを求めて、インターネット或は地域ネットワーク若しくはローカルネットワーク上での改善されたコンテンツの感応性の一般的検索をユーザに実行させるアプローチを提供することである。
【００３６】
本発明の更に別の目的は、包括的特性或は意味論的関係の何れかに基づくマルチメディア情報に埋め込まれたコンテンツを取り込むシステム及び技術を提供することである。
【００３７】
本発明のまた更なる目的は、エンティティ属性の構文及び意味への区別に基づきマルチメディア情報に埋め込まれたコンテンツを組織化する技術を提供することである。構文論的属性は異なるレベル、即ち、タイプ／技術、グローバル分配（区分）、ローカル構造、並びに、グローバル組成に分類され得る。意味論的属性は異なるレベル、即ち、包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーンに分類され得る。
【００３８】
本発明のまた更なる目的はエンティティ関係の構文論的部類及び意味論的部類への分類である。構文論的関係は空間的、時間的、並びに、オーディオ部類に分類され得る。意味論的関係は語彙的及び述語的部類に分類され得る。空間的及び時間的関係は位相幾何学的且つ方向的であり得、オーディオ関係はグローバル、ローカル、或は、組成であり得、語彙的関係は同義語（ｓｙｎｏｎｙｍｙ）、反対語（ａｎｔｏｎｙｍｙ）、上下関係（ｈｙｐｏｎｙｍｙ）／ハイパーニミー（ｈｙｐｅｒｎｙｍｙ）、或は、メロニミー（ｍｅｒｏｎｙｍｙ）／ハローニミー（ｈｏｌｏｎｙｍｙ）であり得、述語的関係は活動（イベント）或は状態であり得る。
【００３９】
本発明の更なる目的は、ビデオ及びオーディオ信号分類という点で、各レベル、及びエンティティ関係を記述することである。
【００４０】
本発明の別の目的は基本的及び明白なエンティティ-関係モデルを提供して、コンテンツ要素属性、コンテンツ要素間の関係、並びに、コンテンツ要素自体に索引付けすることによってこれら争点に対処することである。
【００４１】
この仕事は、Ａ．ＪａｉｍｅｓａｎｄＳ． −Ｆ．Ｃｈａｎｇ， “ＡＣｏｎｃｅｐｔｕａｌＦｒａｍｅｗｏｒｋｆｏｒＩｎｄｅｘｉｎｇＶｉｓｕａｌＩｎｆｏｒｍａｔｉｏｎａｔＭｕｌｔｉｐｌｅＬｅｖｅｌｓ”，ＳｕｂｍｉｔｔｅｄｔｏＩｎｔｅｒｎｅｔＩｍａｇｉｎｇ２０００に提示されて、包括的ＡＶＤＳに対して拡張されたビジュアル情報に索引付けする概念的なフレームワークに基づいている。他の参照文献（例えば、Ｓ．Ｐａｅｋ，Ａ．Ｂ．Ｂｅｎｉｔｅｚ，Ｓ．-Ｆ．Ｃｈａｎｇ，Ｃ．-Ｓ．Ｌｉ，Ｊ．Ｒ．Ｓｍｉｔｈ，Ｌ．Ｄ．Ｂｅｒｇｍａｎ，Ａ．Ｐｕｒｉ，Ｃ．Ｓｗａｉｎ，ａｎｄＪ．Ｏｓｔｅｒｍａｎｎ， “ＰｒｏｐｏｓａｌｆｏｒＭＰＥＧ-７ｉｍａｇｅｄｅｓｃｒｉｐｔｉｏｎｓｃｈｅｍｅ”，ＰｒｏｐｏｓａｌｔｏＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ９９／Ｐ４８０，Ｌａｎｃａｓｔｅｒ，Ｕ．Ｋ．，Ｆｅｂ．１９９９）での仕事は関連しており、その理由はコンテンツ要素（特にエンティティ関係グラフにおけるエンティティ-関係グラフ及び階層を伴う）の間の関係におけるコンテンツ要素（オブジェクト）及び仕様の記述を分離するからである。そうすることにより、Ｅ−Ｒモデルを明らかに指定する。
【００４２】
我々はビジュアル情報に索引付けするための記述の多数レベルの問題に焦点を合わせている。我々は、認識心理学、ライブラリサイエンス、美術、並びに、より最近のコンテンツに基づく検索等の多様な分野における文献からの概念を単一化している新規の概念的フレームワークを提示する。我々はビジュアル情報及び非ビジュアル情報の間の区別を為すと共に適切な構造を提供する。提示された１０レベルのビジュアル構造は、構文（例えば、色、質感等々）及び意味（例えば、オブジェクト、イベント等々）に基づく画像に索引を付ける体系的な方法を提供すると共に、一般概念及びビジュアル概念の間の区別を含む。我々は異なるタイプの関係（例えば、構文、意味）を異なるレベルのビジュアル構造で規定する共に、意味論的情報テーブルをも用いて、（例えば、非ビジュアル構造に見える）画像に関連した重要な局面を要約する。
【００４３】
当方構造は、現時点での最高水準の技術であるコンテンツに基づく検索技術を正しい釣り合いに据えて、それらを現実のユーザの要望及び他分野における調査に関連させる。以上に提示されたような構造を用いることはユーザ及び彼等の興味を理解する点で有益であるばかりでなく、ビジュアル情報にアクセスすべく使用される記述のレベルに従ってコンテンツに基づく検索問題を特徴付ける。
【００４４】
本発明はＡ．ＪａｉｍｅｓａｎｄＳ． −Ｆ．Ｃｈａｎｇ， “ＡＣｏｎｃｅｐｔｕａｌＦｒａｍｅｗｏｒｋｆｏｒＩｎｄｅｘｉｎｇＶｉｓｕａｌＩｎｆｏｒｍａｔｉｏｎａｔＭｕｌｔｉｐｌｅＬｅｖｅｌｓ”，ＳｕｂｍｉｔｔｅｄｔｏＩｎｔｅｒｎｅｔＩｍａｇｉｎｇ２０００に提示された１０レベル概念構造に基づくコンテンツ要素の属性に索引を付けることを提案しており、それは図３に示されるような構文（例えば、色及び質感）及び意味（例えば、意味論的注釈）に基づく属性を区別する。ビジュアル構造の最初の４つのレベルは構文（シンタックス：ｓｙｎｔａｘ）と呼称し、残りの６つのレベルは意味（セマンティックス：ｓｅｍａｎｔｉｃｓ）と呼称する。構文論的レベルはタイプ／技術、グローバル分配、ローカル構造、並びに、グローバル組成（構成）である。意味論的レベルは包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーンである。
【００４５】
我々は包括的ＡＶＤＳのエンティティ-関係グラフにおけるコンテンツ要素間における明白なタイプの関係をも提案する。我々は図４に示されるような構文論的及び意味論的関係の間を区別する。構文論的関係は空間的、時間的、並びに、ビジュアル的に分割される。空間的及び時間的属性は位相幾何学的及び方向的な分類に分類される。意味論的属性関係は、グローバル、ローカル、並びに、組成に更に索引付けが為される。語彙的関係は同義語（ｓｙｎｏｎｙｍｙ）、反対語（ａｎｔｏｎｙｍｙ）、上下関係（ｈｙｐｏｎｙｍｙ）／ハイパーニミー（ｈｙｐｅｒｎｙｍｙ）、並びに、メロニミー（ｍｅｒｏｎｙｍｙ）／ハローニミー（ｈｏｌｏｎｙｍｙ）に分類される。述語的関係は活動（イベント）及びイベントに更に索引付けが為される。
【００４６】
コンテンツ要素のタイプの点で、我々はそれらを構文論的及び意味論的に分類することを提案する。構文論的要素は、領域、動画化領域、並びに、区分要素に分割され得、意味論的要素はオブジェクト、動画化オブジェクト、並びに、イベント要素に索引付けが為され得る。我々はそれらの属性と他の要素との関係の点で提案された基本的モデルに提示されているこれら要素の明白で単一化された規定を提供する。これら要素の幾つかの間の相続関係も指定される。
【００４７】
組み入れられてこの開示の一部を構成する添付図面は、本発明の好適実施例を図示すると共に、本発明の原理を説明する役割を果たす。
【００４８】
好適実施例の説明
我々は、エンティティ-関係モデルが最も広範に使用された概念的モデルであるので、ここで使用されるモデル化技術を選択する。それらは高度の抽象性を提供すると共に、ハードウェア及びソフトウェア独立型である。これらモデルをハードウェア及びソフトウェア従属型である具現化のために物理的モデルに変換する具体的な手続きが存在する。物理的モデルの例としては階層モデル、関係モデル、並びに、オブジェクト方向的モデルである。ＭＰＥＧ-７の前後関係におけるＥ−Ｒ概念フレームワークは、Ｊ．Ｒ．ＳｍｉｔｈａｎｄＣ．-Ｓ．Ｌｉ， “ＡｎＥ-ＲＣｏｎｃｅｐｔｕａｌＭｏｄｅｌｉｎｇＦｒａｍｅｗｏｒｋｆｏｒＭＰＥＧ-７”，ＣｏｎｔｒｉｂｕｔｉｏｎｔｏＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ９９，Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，Ｊｕｌｙ１９９９に議論されている。
【００４９】
図５に示されるように、我々は属性（或はＭＰＥＧ-７記述）、関係、並びに、コンテンツ要素に対する構文論及び意味論の間の区別を為す。構文論はコンテンツ要素がそうした配列の意味を考慮することなしに配列される方法を言及している。他方、意味論はそうした要素やそれらの配列の意味合いを処理する。この節の残りにおいて議論されるように、構文論的及び意味論的属性は幾つかのレベルを言及できる（構文論的レベルはタイプ、グローバル分配、ローカル構造、並びに、グローバル組成であり、意味論的レベルは包括的オブジェクト／シーン、具体的オブジェクト／シーン、並びに、抽象的オブジェクト／シーンであり、図３を参照されたい）。同様に、構文論的及び意味論的関係は異なるレベルを言及するサブタイプに更に分割され得る（構文論的関係は、包括的及び具体的レベルで、空間的、時間的、並びに、ビジュアル的な関係に分類され、意味論的関係は語彙的及び述語的に分類され、図４を参照されたい）。我々は属性及び他の要素のとの関係のそれらの関連されたタイプに基づき構文論的及び意味論的要素の小型で明確な定義を提供する。しかしながら、包括的ＡＶＤＳとの重要な相違は、当方の意味論的要素が意味論的属性だけを含むのではなく、構文論的属性をも含むことである。それ故に、もしアプリケーションが構文論的及び意味論的要素の間の区別を為さなければ、全ての要素を意味論的要素として具現化することによってそうすることができる。
【００５０】
基本的エンティティ-関係モデルの説明を明確するために、我々は図６乃至図９における例を使用することとする。図６は、バッティング・イベント及びバッティング区分（包括的ＡＶＤＳにおいて規定されたような区分及びイベント）として表しているベースボール・ゲームのビデオ・ショットを示している。図７は、フィールド・オブジェクト、ヒット・イベント、スロー（投球）・イベント、スロー及びヒットのイベント間の「前」である時間的関係、並びに、何等かのビジュアル属性で構成されたバッティング・イベントの可能性ある記述を含む。図８はスロー及びヒットのイベントとそれらの間の関係の記述を表している。スロー・イベントは、ピッチャー・オブジェクトがバッター・オブジェクトへ向けてのボール・オブジェクトに関する実行、即ち「スロー」である活動である。我々はピッチャー・オブジェクトに対するある種の意味論的属性を提供する。ヒット・イベントはバッター・オブジェクトが同一ボール・オブジェクトに関しての実行、「ヒット」である活動である。図９はフィールド・オブジェクトの３つの異なる領域への分解を示し、その内の１つが空間的関係”Ｏｎｔｏｐｏｆ”（の上に）によってピッチャー・オブジェクトに関係付けられている。これら領域の内の１つに対する幾つかのビジュアル属性が提供される。
【００５１】
属性のタイプ
我々は１０レベルの概念的構造を提案して、画像及びビデオ記述におけるビジュアルコンテンツ要素（例えば、領域、画像全体、並びに、イベント）に索引付けする。この構造は、実際の画像或はビデオ・シーケンスに明白に描かれた情報にだけ有効である（例えば、絵画の値段はビジュアルコンテンツの一部とならない）。
【００５２】
提案された構造は１０レベルを含むものであり、即ち、最初の４つの構文論を言及し、残りの６つは意味論を言及している。ビジュアル構造の総覧が図３に付与されている。このピラミッドにおいてレベルがより低ければ、より多くの知識及び情報が索引付けを実行するために必要とされる。各レベルの幅はそこで必要とされる知識量の指示である。属性の索引付けコストは属性の副属性として含ませることができる。構文論的レベルは、タイプ／技術、グローバル分配、ローカル構造、並びに、グローバル組成である。意味論的レベルは、包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーンである。これら分割の内のあるものは厳密ではないが、それはユーザが何を検索しているか、そして彼がそれをどのようにしてデータベース内に見出そうとしているかを理解する点で直接的な効果を有するので考慮されるべきである。それはまた必要とされている知識という点で異なる索引付け技術（手動及び自動）の制限を強調している。
【００５３】
図３において、索引付けビジュアル構造はピラミッドによって表現される。そのピラミッドにおいてレベルがより低ければ、より多くの知識及び情報がそこでの索引付けを実行するために必要とされることは明らかである。各レベルの幅は必要とされる知識量の指示であり、例えば、より多くの知識が同一シーン内における複数の具体的オブジェクトを名付けるために必要とされる。
【００５４】
図５において、構文論的属性（構文論的Ｄｓ）は列挙された属性のレベルを含み、その値はそれと対応するビジュアル構造（図３）における構文論的レベルであり、即ち、タイプ、グローバル分配、ローカル構造、或は、グローバル組成−或は「指定されず」である。また意味論的属性は列挙された属性のレベルを含み、その値はそれと対応する意味論的構造（図３）における意味論的レベルであり、即ち、包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーン−或は「指定されず」である。構文論的及び意味論的属性の異なるタイプをモデル化する別の可能性は、構文論的及び意味論的属性要素を下位に分類して、タイプ、グローバル分配、ローカル構造、並びに、グローバル組成構文論的属性、或は、包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、抽象的シーン属性（これらのタイプの幾つかは全てのオブジェクト、動画化オブジェクト、並びに、イベントに適用されない）をそれぞれ作り出す。
ビジュアル構造の各レベルは以下に説明される。レベル間の関係の議論は以降に現れる。このビジュアル構造及びレベル間の関係に基づき、我々は以下の節におけるコンテンツ要素のタイプを規定する。
【００５５】
最も基本的なレベルにおいて、我々は画像或はビデオ・シーケンスの包括的ビジュアル特性に興味がある。画像或はビデオ・シーケンス或はそれを作り出すべく使用される技術の記述は非常に一般的であるが、ビジュアル・データベースを組織化する際に非常に重要であることが証明されている。例えば画像は、絵画、黒白（ｂ＆ｗ）、カラー写真、並びに、図面等の部類に据えられ得る。このレベルでの関連された分類方式はＷｅｂＳＥＥｋで自動的に為された。例えば図６におけるタイプはカラー・ビデオ・シーケンスである。
【００５６】
グローバル分配先行するレベルでのタイプ／技術は画像或はビデオ・シーケンスのビジュアル特性についての一般情報を付与するが、ビジュアルコンテンツについての情報は殆ど付与しない。グローバル分配は画像或はビデオ・シーケンスをそれらのグローバルコンテンツに基づき分類することを狙っており、スペクトル（色）及び周波数感度（質感）等の低レベル知覚特徴に関して測定される。コンテンツの個々別々のコンポーネントはこのレベルで処理されず（即ち、「形態」が測定がグローバルに執り行われるシーンにおけるこれら分配に何等付与されない）、そこでグローバル分配特徴はグローバル色を含み得て（例えば、際立った色、平均、ヒストグラム）、グローバル質感（例えば、粗さ、方向的、コントラスト）、グローバル形状（例えば、アスペクト比）、グローバル運動（例えば、速度及び加速度）、カメラ運動、グローバル変形（例えば、成長速度）、並びに、時間的／空間的寸法（例えば、空間的領域及び時間的寸法）を含み得る。図６でのバッティング区分に対して、グローバル分配属性である色ヒストグラム及び持続時間は指定されている（図７参照）。
【００５７】
これら測定の幾つかは人間観測者が定量化することは難しいかもしれないが、これらグローバル低レベル特徴は様々なコンテンツに基づく検索システムにうまく使用されて、閲覧のためのデータベースのコンテンツを組織化し且つ例えば問合せを実行する。
【００５８】
ローカル構造
画像或はビデオ・シーケンスの情報の処理において、我々はグループ分けの異なるレベルを実行する。画像或はビデオ・シーケンスの個々別々の部分について任意の情報を提供しないグローバル構造とは対照的に、ローカル構造レベルはコンポーネントの抽出及び特徴付けに関する。最も基本的なレベルで、それらのコンポーネントは低レベル処理から生じて、点、線、トーン、色、並びに、質感等の要素を含む。一例として、２進法形状マスクは図６におけるバッティング区分を記述する（図７参照）。ローカル構造属性の他の例は、時間的／空間的位置（例えば、開始時及び重心）、ローカル色（例えば、ＭｘＮレイアウト）、ローカル運動、ローカル変形、ローカル形状／２Ｄ幾何形状（例えば閉ざされた箱）である。
【００５９】
そうした要素はコンテンツに基づく検索システムにも使用され、主にビジュアルＳＥＥｋ等のユーザ-スケッチ・インターフェースによる質問についてである。ここでの関心事はオブジェクトではなく、それらを表す基本的要素と、例えば４つの線によって形成される正方形等の要素の組合せとである。
【００６０】
グローバル組成
このレベルで、我々はローカル構造によって付与される基本的要素の具体的な構成或は組成に焦点を合わせている。言い換えれば、我々は画像を全体として分析するが、分析のために先行するレベルで記載された基本要素を使用するのみである（例えば、線及び円）。グローバル組成は画像における複数要素からの構成或は空間的レイアウトを言及している。当業界での従来の分析は、バランス、対称性、興味対象（注目或は焦点の中心）、先導線、並びに、視角等の組成概念を記述する。しかしながらこのレベルで、具体的オブジェクトの知識がなく、基本的要素（例えば、点、線、並びに、円）或は基本的要素のグループが考慮される。図６での砂１領域の２Ｄ幾何形状はグローバル組成属性である（図９参照）。
【００６１】
包括的オブジェクト
先行レベルまで、多量の知識は索引付けを実行するために必要とされず、それで自動的技術が使用され得て、これらレベルでの関連情報を抽出する。しかしながら幾つかの研究は、人間が主により高いレベル属性を使用して、ビジュアル資料のために、記述、分類、並びに、検索を為すことを実証した。Ｃ．Ｊｏｒｇｅｎｓｅｎの「ＩｍａｇｅＡｔｔｒｉｂｕｔｅｓｉｎＤｅｓｃｒｉｂｉｎｇＴａｓｋｓ；ａｎＩｎｖｅｓｔｉｇａｔｉｏｎ”，ＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ＆Ｍａｎａｇｅｍｅｎｔ，３４，（２／３），ｐｐ．１６１-１７４，１９９８と、Ｃ．Ｊｏｒｇｅｎｓｅｎの”ＲｅｔｒｉｅｖｉｎｇｔｈｅＵｎｒｅｔｒｉｅｖａｂｌｅ：Ａｒｔ，Ａｅｓｔｈｅｔｉｃｓ，ａｎｄＥｍｏｔｉｏｎｉｎＩｍａｇｅＲｅｔｒｉｅｖａｌＳｙｓｔｅｍｓ”，ＳＰＩＥＣｏｎｆｅｒｅｎｃｅｉｎＨｕｍａｎＶｉｓｉｏｎａｎｄＥｌｅｃｔｒｏｎｉｃＩｍａｇｉｎｇ，ＩＳ＆Ｔ／ＳＰＩＥ９９，Ｖｏｌ．３６４４，ＳａｎＪｏｓｅ，ＣＡ，Ｊａｎ．１９９９がある。オブジェクトは特に興味深いが、それも異なるレベルの部類に据えられ得る、即ち、リンゴはマッキントッシュ・アップルとしてか、フルーツとしてかに分類され得る。包括的オブジェクトを言及する際、我々は基本的レベル部類に興味を示し、それは通常の知識で認識され得る最も包括的なレベルのオブジェクト記述である。図６におけるピッチャー・オブジェクトに対して包括的なオブジェクト属性は注釈「男」であり得る（図８参照）。
【００６２】
包括的シーン
画像或はビデオ・シーケンスがそれの中に現れる個々のオブジェクトに従って索引付けされ得るのとちょうど同じように、ビジュアル資料を全体としてそれが含むオブジェクトの全ての集合とそれらの構成に基づいて索引付けることが可能である。シーン分類の例は、市、風景、屋内、屋外、静物、並びに、肖像画、を含む。このレベルに対するガイドラインは、一般的知識が要求されるだけである。それが市のシーンであることを決定するために具体的な通り或は建物の名前を知ることは必要ないか、その画像が肖像画であることを知るために個々の名前を知る必要がない。図６におけるバッティング・イベントに対して、値「バッティング」を具備する包括的シーン属性が指定される（図７参照）。
【００６３】
先行するレベルとは対照的に、具体的オブジェクトは識別されると共に名付けられたオブジェクトを言及している。画像或はビデオ・シーケンス内のオブジェクトの具体的な知識が必要とされ、そうした知識はそれが公知事実に依存するので通常は客観的である。例としては個々の人（例えば、図６において意味論的注釈「ヤンキースのプレイヤ＃３であるピーター」）或はオブジェクト（例えば、スタジアム名）を含む。
【００６４】
このレベルは、そのシーンについての具体的な知識があるという相違を伴って、包括的シーンと類似している。ビジュアル資料に異なるオブジェクトが描かれた具体的なシーンを決定する異なる方法に寄与し得る一方、単一のオブジェクトはしばしば充分なものである。ホワイトハウスを明確に示す写真は、例えば、そのオブジェクトにだけに基づくホワイトハウスのシーンとして分類され得る。図７におけるバッティング・イベントに対して、値「ヤンキースのプレイヤ＃３２によるバット」を伴う具体的シーン属性は指定される。
【００６５】
このレベルで、オブジェクトが表現するものについての特殊化された知識が使用される。この索引付けレベルはシーンにおける最も難しい１つであり、それは完全に主観的であり、異なるユーザ間の成績評価は大きく変動し得る。このレベルの重要性は実験において示され、ビューアが画像を記述すべく抽象的属性を使用した。例えば、写真内の女性は一方の観測者にとっては怒りを表現し得るが、他の観測者には憂いを表現し得る。図８におけるピッチャー・オブジェクトに対して、値「速度」を伴う抽象的シーンは指定される。
【００６６】
抽象的シーン・レベルは画像が全体して表現しているものを言及している。それは正に主観的であり得る。ユーザは画像を、オブジェクトに対するように、悲しみ、幸せ、力、天国、並びに、極楽等々の抽象的用語でしばしば記述する。図７におけるバッティングに対して、値「良好な戦略」を伴う抽象的シーンは指定される。
【００６７】
関係のタイプ
この節において、我々は包括的ＡＶＤＳに含まれることを提案するコンテンツ要素間の関係の明白なタイプを提示する。図４に示されるように、関係は先行して提示されたビジュアル構造の異なるレベルで規定される。コンテンツ要素間での関係を表現するために、我々はビジュアル構造における構文論及び意味論への分割を考える。我々が提案する関係タイプの間の制限の内の幾つかは、以下に議論されるビジュアル構造のレベルに対するように堅固ではない。
【００６８】
ビジュアル構造の構文論的レベルでの関係は２Ｄスペースにおいて生じ得るものであり、その理由は３Ｄ関係を決定すべくこれらレベルでのオブジェクトの知識が全くないからである。構文論的レベルでは、構文論的関係のみが可能であり、即ち、空間的（例えば、「近い」）、時間的（例えば、「同時に」）、並びに、ビジュアル（例えば、「より暗い」）の関係であり、それらは唯一構文論的知識に基づくものである。空間的及び時間的属性は位相幾何学的及び方向的な分類に分類される。ビジュアル関係は、グローバル、ローカル、並びに、組成に更に索引付け為される。
【００６９】
ビジュアル構造の意味論的レベルでは、コンテンツ要素間の関係は３Ｄで生じ得る。図４に示されるように、これらレベル内での要素は意味論的関係にだけ関連されるわけではなく、構文論的関係にも関連される（例えば、「一方の人が他方の人に近い」、及び、「一方の人が他方の人の友人である」）。我々は２つの異なるタイプの意味論的関係：同義語、反対語、上下関係（ｈｙｐｏｎｙｍｙ）／ハイパーニミー（ｈｙｐｅｒｎｙｍｙ）、或は、メロニミー（ｍｅｒｏｎｙｍｙ）／ハローニミー（ｈｏｌｏｎｙｍｙ）、活動（イベント）或は状態を言及する述語的関係等の等の語彙的関係の間を区別する。
【００７０】
図４において、関係はビジュアル構造の異なるレベルで提案されている。構文論レベル内での要素は関係：構文論の内の１つのタイプに従って関係付けられている。意味論的レベル内の要素は２つのタイプの関係：構文論及び意味論に従って関係付けられている。我々は、以下の節の例で、構文論的及び意味論的関係をより広範に説明する。テーブル１及び２は例を含む関係に対する索引付け構造を要約している。
【００７１】
構文論的関係我々は構文論的を３つの分類に分割するものであり、即ち、空間的、時間的、並びに、ビジュアル（視覚的）である。空間的及び時間的関係はビジュアル関係の正に特殊ケースであると議論し得る。我々は空間的及び時間的関係を特殊な方法で規定する。これら関係に対して、我々は要素をサイズ或は持続時間についての情報を何等伴うことがない空間或は時間における境界として考える。構文論的関係及び例の提案されたタイプの要約に対するテーブル１を参照のこと。
【００７２】
Ｄ．Ｈｅｒｎａｎｄｅｚ， “ＱｕａｌｉｔａｔｉｖｅＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆＳｐａｔｉａｌＫｎｏｗｌｅｄｇｅ”，ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，８０４，Ｓｐｒｉｎｇｅｒ-Ｖｅｒｌａｇ，Ｂｅｒｌｉｎ，１９９４．の研究に追随して、我々は空間的関係を以下の分類に分割するものであり、（１）位相幾何学、即ち、要素の境界はどのように関係するか、そして（２）配向的或は方向的、即ち、要素は互いに対して何処に配置されているかである（テーブル１参照）。位相幾何学的関係は「近くにあること」、「内にあること」、そして、「隣接していること」であり、方向的関係の例は「前にあること」、「左側にあること」、そして、「上部にあること」である。周知の空間的関係グラフは２Ｄストリング、Ｒ^２であり、属性関係グラフである。
【００７３】
同様に、我々は時間的関係を位相幾何学的及び方向的分類に分類する（テーブル１参照）。時間的位相幾何学的関係の例は、「同時に起こること」、「部分的に重なること」、そして、「内で起こること」であり、方向的時間的関係の例は、「前に起こること」及び「後に起こること」である。ＳＭＩＬの同時及び順次関係（ワールドワイドウェブ共同体、ＳＭＩＬウェブサイト、ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＡｕｄｉｏＶｉｄｅｏ／＃ＳＭＩＬ）は時間的位相幾何学的関係の例である。
【００７４】
ビジュアル関係はそれらのビジュアル属性或は特徴に基づく要素を関係付ける。これらの関係はグローバル、ローカル、並びに、組成の分類に索引付けが為され得る（テーブル１参照）。例えば、ビジュアル・グローバル関係は「より平滑化すること」（グローバル質感特徴に基づく）、ビジュアル・ローカル関係は「より高速に加速すること」（運動特徴に基づく）、そして、ビジュアル組成関係は「よりも対称的であること」（２Ｄ幾何形状特徴に基づく）である。ビジュアル関係は、ビジュアル特徴：色、質感、２Ｄ幾何形状、時間、運動、変形、並びに、カメラ運動の任意の組合せに基づくショット／キー・フレームにクラスタ化すべく使用され得る。
【００７５】
【表１】

【００７６】
ビジュアル構造の例が異なるレベル（包括的、具体的、並びに、抽象的）を有している同様な方法において、これらのタイプの構文論的関係（テーブル１参照９は包括的レベル（「近い」）或は具体的レベル（「から０．５フィート」）で規定され得る。例えば、「の結合であるべき：」、「の交差であること」、並びに、「の否認であること」等の操作的関係は位相幾何学的、空間的或は時間的の何れかの具体的関係である（テーブル１参照）。
【００７７】
ベースボール・ゲーム例を続けると、図７はバッティング・イベントがその構成要素（即ち、バッティング区分、フィールド・オブジェクト、ヒット・イベント、並びに、スロー・イベント）や、それらの間の関係（即ち、ヒット・イベントからスロー・イベントへの時間的関係「前」）によってどのように規定されるかを示している。バッティング・イベント及びその構成要素は空間的-時間的関係「から構成」によって関連されている。
【００７８】
意味論的関係は１０レベルの概念的構造の意味論的レベルでのコンテンツ要素間で生ずるのみである。我々は意味論的関係を語彙的意味論及び述語的関係に分割する。テーブル２は例を含む意味論的関係を要約している。
【０００７９】
【表２】

【００８０】
語彙意味論的関係はワールドネット（ＷｏｒｄＮｅｔ）で使用される名詞の間の意味論的関係と対応している。これらの関係は同義語である（パイプはチューブと同様である）、反対語（ａｎｔｏｎｙｍｙ）（幸せは悲しみと対立する）、上下関係（ｈｙｐｏｎｙｍｙ）（犬は動物である）、ハイパーニミー（ｈｙｐｅｒｎｙｍｙ）（動物及び犬）、メロニミー（ｍｅｒｏｎｙｍｙ）（ミュージシャンはミュージック・バンドの一員である）、並びに、ハローニミー（ｈｏｌｏｎｙｍｙ）（ミュージック・バンドはミュージシャンから構成される）である。
【００８１】
述語意味論的属性は２つ或はそれ以上の要素の間の活動（イベント）或は状態を言及している。活動関係の例は「スロー（投球）すること」及び「ヒットすること」である。状態関係の例は「属すること」及び「所有すること」である。図８は２つの活動関係：「スロー」及び「ヒット」を含む。述語意味論を活動或は状態にただ分割する代わりに、我々はワールドネットで使用される部分的関係意味論分解を用いることができる。ワールドネットは動詞を１５個の意味論的ドメインに分割する：身体上の世話及び機能の動詞、変化、認識、通信、競争、消費、接触、創造、情緒、運動、感覚、所持、社会的な相互作用、並びに、天気の動詞である。ビジュアル概念の記述に対して関連しているドメインだけが使用される。
【００８２】
ここに提示された１０レベルのビジュアル構造に関して、我々は異なるレベル：包括的、具体的、並びに、抽象的での意味論的関係を規定できる。例えば、包括的活動関係は「株式を所有すること」、具体的活動関係は「株式の８０％を所有すること」、そして最後に、抽象的意味論関係は「その会社を支配すること」である。
【００８３】
図６におけるスロー（投球）・イベント及びヒッティング・イベントに対して、図８は、ピッチャー・オブジェクトがバッター・オブジェクトにボール・オブジェクトを「スロー（投球）」し、バッター・オブジェクトがそのボール・オブジェクトを「ヒット」するの２つのオブジェクトの活動を記述すべく意味論的関係の使用を示している。
【００８４】
エンティティのタイプ
この時点まで、我々は属性の明白なタイプとコンテンツ要素間の関係を提案した。この節において、我々は新タイプのコンテンツ要素（基本的Ｅ−Ｒモデルのエンティティ）を提案すると共に、各コンテンツ要素タイプの明白で単一化された規定を提供する。
【００８５】
我々は、（１）コンテンツ要素を技術する属性と、（２）それらを他のコンテンツ要素に関連させる関係とに基づいて、それらコンテンツ要素のタイプを規定する。先行して我々は、１０レベルのビジュアル構造におけるコンテンツ要素の属性に索引付けする。ピラミッドにおける最初の４つのレベルは意味論に対応し、他の６つのレベルは意味論に対応している。更に、我々は関係を２つの分類に分割する、即ち、構文論及び意味論である。結果として、我々は２つの基本タイプのコンテンツ要素：構文論的及び意味論的要素を提案する（図５参照）。構文論的要素は構文論的属性及び関係のみを有することができ（例えば、色ヒストグラム属性及び空間的関係「の上に」）、意味論的要素は意味論的属性及び関係のみを有することができるばかりではなく、構文論的属性及び関係（例えば、オブジェクトは色ヒストグラム及び意味論的注釈記述子で記述され得る）をも有することができる。当方のアプローチは、当方の意味論的（或は高レベル）要素が構文論的及び意味論的構造の堅固な分離を解決する構文的及び意味論的情報を含むことで、現行包括的ＡＶＤＳとは異なる。
【００８６】
図５に示されるように、我々は構文論的要素を、領域、動画化領域、並びに、区分要素に更に分類する。同様に、意味論的要素は以下の意味論的分類に分類される、即ち、オブジェクト、動画化オブジェクト、並びに、イベントである。領域及びオブジェクトは空間的エンティティである。区分及びイベントは時間的エンティティである。最後に、動画化-領域及び動画化-オブジェクトはハイブリッドな空間的-時間的エンティティである。我々はこうして各節で各タイプを説明する。
【００８７】
構文論的エンティティ
構文論的要素は、構文論的属性によってだけ記述される画像或はビデオ・データにおけるコンテンツ要素であり、即ち、タイプ、グローバル分配、ローカル構造、或は、グローバル組成属性（図５参照）である。構文論的要素はビジュアル関係で他の要素と関係付けられ得る。我々はこれら構文論的要素を、領域、動画化-領域、並びに、区分要素に更に分類する。これら要素は相続関係を介して構文論的要素から誘導される。
【００８８】
領域要素は、画像或はビデオ・フレームの恣意的な連続的或は断続的セクションを言及する純粋な空間的エンティティである。領域は、構文論的属性の集合と、空間的及びビジュアル関係によって関係付けられる領域のグラフとによって規定される（図５参照）。組成関係が空間的、位相幾何学的タイプであることを指摘することが重要である。領域の可能性ある属性は、色、質感、並びに、２Ｄ幾何形状である。
【００８９】
区分要素はビデオ・シーケンスの隣接する或は隣接しないフレームの恣意的な集合を言及する純粋な時間的エンティティである。区分は、構文論的特徴と、区分、動画化領域、並びに、時間的及びビジュアル関係によって関係付けられる領域から成るグラフとの集合によって規定される（図５参照）。組成関係はタイプ時間的、位相幾何学的（トポロジカル）タイプである。区分の可能性ある属性は、カメラ運動及び構文論的特徴である。例えば図７におけるバッティング区分は、時間的持続時間（グローバル分配、構文論的）と、形状マスク（ローカル構造、構文論的）属性とによって記述される区分要素である。この区分は、バッティング・イベント（空間的-時間的関係、構文論的）との「から成る」関係を有する。
【００９０】
動画化-領域要素は、ビデオ・シーケンスの恣意的な集合フレームの恣意的なセクションを言及するハイブリッドな空間的-時間的エンティティである。動画化領域は、構文論的特徴、動画化領域と組成によって関係付けられる領域から成るグラフ、空間的-時間的関係、並びに、ビジュアル関係の集合によって規定される（図５参照）。動画化領域は領域及び区分要素からの任意の特徴を含み得る。動画化領域は同じ時間の区分及び領域である。例えば、図８におけるピッチャー領域は、アスペクト比（グローバル分配、構文論的）、形状マスク（ローカル構造、構文論的）、並びに、対称（グローバル組成、構文論的）属性によって記述される動画化領域である。この動画化領域は砂３領域（空間的-時間的関係、構文論的）「の上に」である。
【００９１】
意味論的エンティティ
意味論的要素は意味論的特徴によって記述されるばかりではなく、構文論的特徴によっても記述されるコンテンツ要素である。意味論的要素は意味論的及びビジュアル関係によって他の要素と関係付けられ得る（図５参照）。それ故に、我々は相続を用いて構文論的要素から意味論的要素を誘導する。我々は意味論的要素を、オブジェクト、動画化-オブジェクト、並びに、イベント要素に更に分類する。純粋意味論的属性は注釈であり、それらは通常テキスト・フォーマット形態である（例えば、６-Ｗ意味論的注釈、自由テキスト注釈）。
【００９２】
オブジェクト要素は意味論的及び空間的エンティティであり、それはビデオの画像或はフレームの恣意的なセクションを言及している。オブジェクトは、構文論的及び意味論的特徴と、オブジェクトと空間的（組成は空間的関係）、ビジュアル、並びに、意味論的関係によって関係付けられる領域のグラフとの集合によって規定される。オブジェクトは領域である。イベント要素は意味論的及び時間的エンティティであり、それはビデオ・シーケンスの恣意的セクションを言及している。イベントは、構文論的及び意味論的特徴と、イベント、区分、動画化領域、動画化オブジェクト、領域、並びに、時間的（組成は時間的関係である）、ビジュアル、並びに、意味論的関係によって関係付けられるオブジェクトから成るグラフとの集合によって規定される。イベントは意味論的属性及び関係を伴う区分である。例えば、図７におけるバッティング・イベントは、「バッティング」（包括的シーン、意味論的）、「ヤンキースのプレイヤ＃３２によるバット」（具体的シーン、意味論的）、並びに、「良好な戦略」（抽象的シーン、意味論的）の属性によって記述されるイベント要素である。バッティング区分の構文論的属性はバッティング・イベントに適用され得る（即ち、我々はバッティング・イベント及びバッティング区分の間を区別しせず、バッティング区分の構文論的属性をバッティング・イベントに割り当てる）。バッティング・イベントは、フィールド・オブジェクト、バッティング・イベントにおける二人の男の活動を表すスローイング及びヒッティングのイベントから構成される（即ち、ボールのスローイング及びヒッティング）。スローイング及びヒッティングのイベントは「前」関係によって関係付けられている（時間的関係、構文論的）。
【００９３】
最後に、動画化-オブジェクト要素は意味論的及び空間的-時間的エンティティであり、それはビデオ・シーケンスのフレームの恣意的な集合における恣意的なセクションを言及している。動画化オブジェクトは構文論的及び意味論的特徴と、動画化オブジェクト、動画化領域、領域、並びに、組成、空間的-時間的、ビジュアル、並びに、意味論的関係によって関係付けられるオブジェクトから成るグラフとの集合によって規定される（図５参照）。動画化オブジェクトは同じ時間のイベント及びオブジェクトである。例えば、図８におけるピッチャー・オブジェクトは、「男」（包括的オブジェクト、意味論的）、「ヤンキースのプレイヤ＃３」（具体的オブジェクト、意味論的）、並びに、「速度」（抽象的オブジェクト、意味論的）の属性によって記述される。この動画化オブジェクトは図９に示された砂３領域「の上に」である（空間的-時間的関係、構文論的）。ピッチャー領域の構文論的特徴はピッチャー・オブジェクトに適用され得る。我々はこの動画化オブジェクトの構文論的及び意味論的属性を包括的ＡＶＤＳで具体化されるように分離する。しかしながら我々は、そうすることにおいて柔軟性及び効率性を喪失し、その理由は異なる要素にわたって「現実」のオブジェクトの規定を分配するからである。
【００９４】
図５は、コンテンツ要素の各提案されたタイプの基本的モデルを提供している。属性、要素、並びに、関係は、構文論及び意味論の分類に分類される。意味論的及び構文論的属性は関連された属性、それらが言及するビジュアルのレベルに対応する値を有するレベルを有する。構文論的要素は、領域、区分、並びに、動画化領域に更に分類される。意味論的要素は、オブジェクト、動画化オブジェクト、並びに、イベントの分類に分類される。
【００９５】
図６は模範的なベースボール・バッティング・イベントを描いている。
【００９６】
図７は、本発明に従った図６におけるベースボール・ゲームに対するバッティング・イベントの概念的記述を提供している。
【００９７】
図８は、本発明に従った図６におけるバッティング・イベントに対するヒット及びスローのイベントの概念的記述を提供している。
【００９８】
図９は、本発明に従った図６におけるバッティング・イベントに対するフィールド・オブジェクトの概念的記述を提供している。
【００９９】
知覚対概念
また本発明は、画像の特性の分析及び分類における知覚及び概念の議論に関連して図示され得る。画像の索引付けに固有の難しさの１つは、それらが分析され得る方法の数である。単一画像は数多くのことを表現し得て、それが多くの情報を含むばかりか、我々が画像中に見る者が多数の抽象的概念へ写像され得るからである。そうした可能性ある抽象的記述と画像のビジュアル面だけに基づくより具体的な記述との間の違いは、索引付けにおける重要なステップに寄与する。
【０１００】
以下の節において、我々は知覚及び概念の間の識別を為す。次いで我々は構文論及び意味論に対する定義又は規定を提供し、最後に一般概念空間及びビジュアル概念空間を議論する。コンテンツに基づく検索に関連するこれら規定の重要性は、当方の索引付け構造を定義する際に明らかとなる。
【０１０１】
知覚対概念
画像は情報の多重次元表現であるが、最も基本的なレベルでそれは光に対する応答を単に生ずる（色調-光或は光の欠如）。しかしながら最も複雑なレベルでの画像は、個々の知識、経験、並びに、特定の気持ちにも大きく依存する抽象的な考えを表現している。我々は知覚及び概念の間の識別を為すことができる。
【０１０２】
知覚は我々の感覚が知覚するものを言及し、ビジュアル・システムにおいてそれは光である。光のこれらのパターンは、質感及び色等の異なる要素から成る知覚を作り出す。我々が知覚を言及する際に解釈プロセスは何等生ぜず、知識は何等必要とされない。
【０１０３】
他方、概念は特定の例から導き出される抽象的或は一般的な考えを言及している。そうしたわけで、それは背景知識と知覚されるものの固有の解釈との使用を暗示している。概念は、それらが個々の知識及び解釈に依存すると云う意味で非常に抽象的であり得て、これは非常に主観的でありがちである。
【０１０４】
構文論及び意味論
知覚が解釈を何等必要としないのと同様に、構文論はビジュアル要素がその配列の意味合いを考慮すること無しに配列される方法を言及している。他方、意味論はこれら要素とそれら配列の意味合い処理する。以下に続く議論で示されるように構文論は、単純なグローバル色及び質感から線及び円等のローカル幾何形状形態までの幾つかの知覚レベルを言及している。意味論も異なるレベルで処理され得る。
【０１０５】
一般概念対ビジュアル概念ここで我々は、一般概念とビジュアル概念とが異なり、且つ、それらが個人個人の間の変動し得ることを強調したい。
【０１０６】
一例としてボールを使用して、１つの可能性ある一般概念はボールが丸い塊であることを記述する一方で、異なる人々は異なる一般概念を有し得ることを我々は理解する。バレーボール・プレイヤはベースボール・プレイヤとはボールに関して異なる一般概念を有し得、それは先に記載したように、概念が背景知識及び解釈を暗示するからである。考え（或はこの場合、具体的なオブジェクト）の非常に異なる解釈を有することは異なる個人にとって当然である。ボールの一般及びビジュアルの概念に対して使用される属性が異なることは認識され得る（概念を記述するために規則が使用され得るが、我々はその説明を簡略化する代わりに属性を用いる）。
【０１０７】
これらの規定は、それらがコンテンツに基づく検索における非常に重要な争点を指摘しているので有用であり、即ち、異なるユーザが（正に単純なオブジェクトの）異なる概念を有し、そして正に単純なオブジェクトが異なる概念的レベルで見られる。詳細には、一般概念（即ち、援助者はその質問に答える：それは何？）及びビジュアル概念（即ち、援助者はその質問に答える：それは何に似ているか？）の間の重要な違いがあり、これは画像データベースを指定する際に考慮されなければならない。これらの考えを当方の索引付け構造の構成に適用する。概念的部類構造は知覚構造に基づき得る。
【０１０８】
先行する節で留意したように、画像には数多くのレベルの情報があり、それらの多重次元性はそれらをディジタル・ライブラリに組織化する際に考慮されなければならない。概念的索引付け構造を創作する際の第１ステップは、ビジュアル及び非ビジュアルのコンテンツの間の識別を為すことである。画像のビジュアルコンテンツはその画像が観測された際、直に知覚されるものと対応する（即ち、問題となっている画像或はビデオのビジュアルコンテンツによって直接的に刺激される記述子、線、形状、色、オブジェクト、等々）。非ビジュアルコンテンツはその画像に密に関係付けられる情報と対応するが、その外観によってはっきりと付与されていない。絵画において、例えば、価格、現行所有者等は非ビジュアル部類に属する。次に我々は画像のビジュアルコンテンツに対する索引付け構造を提示し、非ビジュアル情報に対する構造と共に追随する。
【０１０９】
ビジュアルコンテンツ
追随する分析のレベル各々は画像からだけ獲得される。ビューアの知識は常に役割を演ずるが、ここでの一般規則は、画像からはっきりとは獲得されない情報はこの部類に入らない（例えば、絵画の価格はビジュアルコンテンツの一部とはならない）。換言すれば、ビジュアルコンテンツに対して使用される任意の記述子は、問題となっている画像或はビデオのビジュアルコンテンツによって刺激される。
【０１１０】
当方のビジュアル構造は１０レベルを含み：最初の４つは構文論を言及し、残りの６つが意味論を言及している。加えて、レベル１から４は知覚に直に関係付けられ、レベル５から１０はビジュアル概念である。これらの分割の幾つかは厳格ではないが、それらはユーザが検索中のものであり且つ彼がデータベース内にそれをどのようにして見出そうとしているかを理解する点に関して直接的な衝撃を有するので、考慮されるべきである。またそれは、必要とされる知識の点で、異なる索引付け技術（手動及び自動）の制限を強調する。構造の総覧は図３に付与されている。この図面を隅々まで観測することで、ピラミッドのより低いレベルで、より多くの知識及び情報が索引付けを実行するために必要とされる。各レベルの幅はそこで必要とされる知識量の指示を付与し、例えば、より多くの情報がシーン内の特定オブジェクトを名付けるために必要とされる。各レベルは以下に説明され、レベル間の関係の議論はその後に現れる。
【０１１１】
この構造を観測することで、コンテンツに基づく検索における努力の殆どが構文論に焦点を合わせていることが明らかである（即ち、レベル１から４）。しかしながら、レベル５から１０で意味論的分類を実行する技術は大いに望ましい。我々が提示する構造は、援助者が、特定技術によって取り扱われるか、或は所与の記述によって提供される属性のレベルを識別することである（例えば、ＭＰＥＧ-７注釈）。
【０１１２】
タイプ／技術
最も基本的なレベルで、我々は画像或はビデオ・シーケンスの一般的ビジュアル特性に興味がある。画像或はビデオ・シーケンスのタイプ、或は、それを作り出すべく使用される技術の記述は非常に一般的であるが、非常に重要であることが証明されている。例えば画像は、絵画、黒及び白（Ｂ＆Ｗ）、カラー写真、並びに、図面等の部類に据えられ得る。このレベルでの関係付けられた分類方式は概念的に、そしてウェブシーク（ＷｅｂＳＥＥｋ）で自動的に行われる。
【０１１３】
ディジタル写真の場合、２つの男の部類はカラー及びグレイスケールであり得て、一般的なビジュアル特性に影響する付加的な部類／記述を伴う。これらは多数の色、圧縮方式、解像度等々を含み得る。我々は、これらの内の幾つかがここに記載された非ビジュアル索引付け局面と何等かの部分的重複し得ることを留意している。
【０１１４】
グローバル分配
先行するレベルでのタイプ／技術は、画像或はビデオ・シーケンスのビジュアル特性についての一般的情報を付与するが、そのビジュアルコンテンツについての情報を殆ど付与しない。グローバル分配は、それらのグローバルコンテンツに基づく画像或はビデオ・シーケンスを分類することを狙っており、スペクトル（色）、及び、周波数感度（質感）等の低レベルの知覚特徴という点で測定される。コンテンツの個別コンポーネントはこのレベルで処理されない（即ち、測定はグローバルに執り行われると云う意味で、これら分配に「形態」は何等付与されない）。それ故にグローバル分配特徴は、中でも、グローバル色（例えば、支配的な色、平均、ヒストグラム）、グローバル質感（例えば、粗さ、変化（加速度）、並びに、コントラスト）、グローバル形状（例えば、アスペクト比）、グローバル運動（例えば、速度、加速度、並びに、弾道）、カメラ運動、グローバル変形（例えば、成長速度）、並びに、時間的／空間的寸法（例えば、空間的領域及び時間的寸法）を含み得る。例えば、同様の質感／色を有する２つの画像を考える。この特定の場合、これら属性は非常に有用であるが、それはもしユーザがオブジェクトを検索中であれば有用ではないことに注目する。
【０１１５】
これら測定の幾つかは人間観測者にとって定量化することは難しいかもしれないが、これらのグローバル低レベル特徴は、例えば問合せを実行すべく（ＱＢＩＣ、ＷｅｂＳＥＥｋ、Ｖｉｒａｇｅ）且つブラウズイング（閲覧すること）に対するデータベースのコンテンツを組織化すべく、様々なコンテンツに基づく検索システムに上首尾の内に使用される。
【０１１６】
ローカル構造
画像或はビデオ・シーケンスの個々の部分についての任意の情報を提供しないグローバル構造とは対照的に、ローカル構造レベルは画像のコンポーネントの抽出及び特徴付けに関する。最も基本的なレベルで、これらコンポーネントは低レベル処理から生ずると共に、点、線、トーン、色、並びに、質感等の要素を含む。ビジュアル・リテラシー文学において、これらの幾つかはビジュアル通信から成る「基本要素」と呼称されると共に、基本的な構文論的シンボルと見なされる。ローカル構造属性の他の例は、時間的／空間的位置（例えば、開始時及び重心）、ローカル色（例えば、ＭｘＮレイアウト）、ローカル運動、ローカル変形、並びに、ローカル形状／２Ｄ幾何形状（例えば、閉ざされた箱）である。このタイプの属性が重要であり得る様々な画像がある。ｘ線及び顕微鏡画像には、しばしばローカル詳細に対して強力な関心事がある。そうした要素も、主にユーザ-スケッチ・インターフェースによる問合せに関する、コンテンツに基づく検索システムに使用される。ここでの関心事はオブジェクトに拘わらず、それらを表す基本的要素や、そうした要素の組合せであり、例えば正方形は４つの線によって形成される。その意味において、我々はここで、円、楕円、並びに、多角形等の幾つかの「基本的形状」を含むことができる。留意することは、これはビジュアル情報を知覚した際に人によって実行されるような非常に基本的なレベルの「グループ分け」であると考えられ得ることである。
【０１１７】
グローバル組成
このレベルで、我々はローカル構造によって付与される基本的な要素から成る具体的な構成に興味があるが、焦点はグローバル組成に合わせている。換言すれば、我々は画像を全体として分析するが、分析に対する先の記載された基本要素（線、円等々）を用いる。
【０１１８】
グローバル組成は画像における要素から成る構成或は空間的レイアウトを言及している。当業界での従来の分析は、バランス、対称性、興味の対象（例えば、注目或は焦点の中心）、先導線、並びに、視角等の組成概念を記述する。しかしながらこのレベルで、具体的オブジェクトの知識がなく、基本的要素（例えば、点、線等々）或は基本的要素のグループが考慮される。その意味で、画像の眺めは基本的構文論的シンボルのみを含む画像まで簡略化され、画像は線、円、正方形等々から成る構造化された集合によって表現される。
【０１１９】
包括的オブジェクト
先行するレベルまで、画像の知覚局面に対して強調が為された。ワールド知識は先のレベルの何れにおける索引付けを実行するためにも何等必要とされず、自動技術は低レベル処理にのみ依存する。これは自動索引付け及び分類に対する長所であるが、研究は人が主により高いレベルの属性を用いて、画像を記述し、分類し、そして検索することを論証している。オブジェクトは特に興味深いが、それも異なるレベルの部類に据えられ得る、即ち、リンゴはマッキントッシュ・アップルとしてか、リンゴとしてか、或はフルーツとしてかに分類され得る。包括的オブジェクトを言及する際、我々は基本的レベル部類に興味を示す、即ち、オブジェクト記述の最も一般的なレベルである。当業界での研究において、このレベルは事前図像と対応し、情報サイエンスにおいて人はレベルの一般としてそれを言及している。これら概念や包括的オブジェクトの当方の規定において共通の基礎を為す考えは、一般的な日常知識のみがオブジェクトを認識するために必要である。例えばマッキントッシュ・アップルはこのレベルでリンゴとして分類され、それはそのオブジェクトの記述の最も一般的なレベルである。
【０１２０】
当方の規定と当業界に先行して使用された規定との間の可能性ある違いは、我々が見ることができるエンティティとしてビジュアル・オブジェクトを規定すると云う事実に横たわっており、オブジェクトの従来の規定からしばしば異なる。空或は海洋のようなオブジェクトは、多分、従来の規定においてはオブジェクトと考えられないが、当方のビジュアル・オブジェクトと対応する（車、家等々のような従来のオブジェクトと共に）。
【０１２１】
包括的シーン
画像がその中に現れる個々のオブジェクトに従って索引付けされ得るように、画像を全体としてそれが含むオブジェクトの全て及びそれらの構成に基づいて索引付けすることが可能である。シーン分類の例としては、市、風景、屋内、屋外、静物、並びに、肖像画等々を含む。自動シーン分類のある種の作業は実行され、基本的なシーン部類における研究も存在している。
【０１２２】
このレベルに対するガイドラインは、一般的知識のみが必要とされることである。それが市のシーンであることを決定するために具体的な通り或は建物名を知る必要はないか、或は、それが肖像画であることを知るために個人の名前を知る必要がない。
【０１２３】
具体的オブジェクト
先行するレベルと対照的に、具体的オブジェクトは識別すること及び名付けることが可能なオブジェクトを言及している。シャットフォード（Ｓｈａｔｆｏｒｄ）は特定的な物としてこのレベルを言及している。画像におけるオブジェクトの具体的知識は必要とされ、そうした知識は、それが公知の事実に依存するので通常客観的である。例としては個々の人々及びオブジェクトを含む。
【０１２４】
具体的シーン
このレベルは、そのシーンについての具体的知識が存在する違いを伴って包括的シーンと類似している。画像における異なるオブジェクトが該画像が具体的シーンを描くことを決定すべく異なる方法で寄与し得るが、単一オブジェクトがしばしば充分である。例えばエッフェル塔を明確に示す写真は、そのオブジェクトだけに基づきパリのシーンとして分類され得る。
【０１２５】
抽象的オブジェクト
このレベルで、オブジェクトが表現するものについての特殊化されるか或は解釈的な知識は使用される。これは当業界において図像解釈学（解釈）或はおよそレベルと呼称される。この索引付けレベルはシーンにおける最も難しい１つであり、それは完全に主観的であり、異なるユーザ間の評価は大きく変動し得ると云う意味においてである。このレベルの重要性は実験において示され、ビューアが画像を記述すべく抽象的属性を使用した。例えば、写真内の女性は一方の観測者にとっては怒りを表現し得るが、他の観測者には、多分、憂いを表現し得る。
【０１２６】
抽象的シーン・レベルは画像が全体として表現するものを言及している。それは非常に主観的であり得る。ユーザは画像を感情的（例えば情緒）或は抽象的（例えば、雰囲気、テーマ）の用語でしばしば記述する。抽象的シーン・レベルでの他の例は、悲しみ、幸せ、力、天国、並びに、極楽を含む。
【０１２７】
複数レベルにわたる関係我々はピラミッド表現を選択したが、理由はそれが当方の構造に固有の幾つかの重要な争点を反映するからである。明らかであることは、ピラミッドのより低いレベルで、より多くの知識及び情報が索引付けを実行するために必要とされていることである。この知識は各レベルの幅によって表現される。しかしながら重要なことは、この仮定が幾つかの例外を有し得ることを指摘することである。例えば平均的な観測者は、絵画を作り出すべく使用された技術を決定することができない可能性があるが、当業界の専門家は何が使用されたかを正確に決定することができるであろう。この特殊な場合における索引付けは包括的オブジェクト・レベルよりもタイプ／技術レベルでより多くの知識を必要とすることになる（美術的な技術についての特殊な知識は必要とされるであろう）。しかしながら殆どの場合、索引付けに必要とされる知識は当方の構造の全てにおいて増大し、即ち、包括的なシーン・レベル（例えば公園）を決定するためによりも、より多くの知識が具体的なシーンを認識するために必要とされる（例えば、ニューヨーク市のセントラルパーク）。
【０１２８】
レベル相互の依存性が存在するが、各レベルは画像を観測する際に独立した遠近法或は寸法として見られることが可能であり、各レベルが処理される方法はデータベースの性質、ユーザ、並びに、目的に依存することになる。
【０１２９】
この節において、我々は画像要素間の関係に対する表現を簡単に提示している。この構造は異なるレベルでの関係を収容すると共に、先行して提示されたビジュアル構造に基づいている。我々が留意することは、幾つかのレベルでの関係がその構造が適用されるエンティティ間に適用される際に最も有用であることである（例えば、異なる画像からのシーンは比較され得る）。各レベル内の要素は、構文論及び意味論２つのタイプの関係に従って関係付けられる（レベル５乃至１０に対してだけ）。例えば、２つの円（ローカル構造）は空間的（例えば、の次に）、時間的（例えば、前）、並びに／或は、ビジュアル的（例えば、より暗い）に関係付けられ得る。意味論的レベルでの要素（例えば、オブジェクト）は構文論的及び意味論的関係を有することができる（例えば、二人の人が相互に隣接し、彼等が友人である）。加えて、各関係が異なるレベル（包括的、具体的、並びに、抽象的）で記述され得る。我々は留意することは、レベル１、６、８、並びに、１０の間の関係が構造によって表現されるエンティティ間で最も有用であり得ることである（たとえば、画像間、画像やシーンの部分間、等々）。
【０１３０】
ビジュアル構造は構文論／知覚とビジュアル概念／意味論とに分割され得る。関係を表現するために、我々はそうした分割を観測すると共に、以下のことを考慮する。即ち、（１）オブジェクトの知識はオブジェクトの空間的寸法の知識、即ち、その典型的な、可能性ある、或は、実際の、空間における延長の段階的な特性の知識を実施し、（２）空間の知識は、空間におけるオブジェクト間の特定寸法及び距離の指定を決定する複数の軸線から成るある種のシステムの利用可能性を暗示する。我々はこれは用いて、オブジェクトの知識が何等存在しないので、ビジュアル構造の構文論的レベルに生ずる関係が２Ｄ空間だけで生じ得ることを議論する（即ち、３Ｄ空間における関係は決定され得ない）。例えばローカル構造レベルで、ビジュアル・リテラシーの基本的要素だけが考慮され、それでそのレベルでの関係がそうした要素間で記述されだけである（即ち、それらは３Ｄ情報を含まない）。しかしながらレベル５乃至１０の要素間の関係は２或は３Ｄで記述され得る。
【０１３１】
同様にして、関係それ自体は分類である構文論（即ち、知覚に関係付けられ）と意味論（即ち、意味合いに関係付けられ）に分割される。構文論的関係は任意のレベルでの要素間を生じ得るが、意味論的関係はレベル５乃至１０の要素間だけで生ずる。例えば、絵画における異なる色の間での意味論的関係は決定され得るが（例えば、各種の色の組合せは暖色である）、我々は当方のモデルのそのレベルでのこれらを含まない。
【０１３２】
我々は空間的関係を以下の分類に分割する。即ち、（１）位相幾何学的（即ち、要素の境界はどのように関係するか）と、（２）配向的（即ち、要素は相互に対して何処に配置されるか）とである。位相幾何学的関係は、近い、遠い、接触状態、等々を含み、配向的関係は斜め、前方、等々を含む。
【０１３３】
時間的関係は要素を時間に対して連結するものを言及し（例えば、これらを含むビデオにおいて、前、後、間、等々）、ビジュアル関係はビジュアル特徴のみを言及している（例えば、より青い、より暗い、等々）。意味論的関係は意味合いと関連されている（たとえば、の所有者、の友達、等々）。
【０１３４】
ビジュアル構造の要素が異なるレベル（包括的、具体的、抽象的）を有しているのと同様に、関係は異なるレベルで規定される。構文論的関係は包括的（例えば、近い）或は具体的（例えば、数値的距離測定）、意味論的関係は包括的、具体的、或は、抽象的であり得る。
【０１３５】
一例として、空間的グローバル分配は、距離ヒストグラム、ローカル・コンポーネント間の関係によるローカル構造（例えば、ビジュアル・リテラシー要素間の距離）、並びに、ビジュアル・リテラシー要素間のグローバル関係によるグローバル組成によって表現され得ることになる。
【０１３６】
非ビジュアル情報この節のはじめで説明したように、非ビジュアル情報は画像の直接的な部分ではない情報であるが、むしろある種の方法でそれと関連された情報を言及している。属性を伝記的及び関係的属性に分割し得る。音、テキスト、ハイパーリンクされたテキスト等々から成る非ビジュアル情報に対して可能であるが、ここでの当方の目標は索引付けのための一般的なガイドラインを付与する単純な構造を提示することである。我々はテキスト情報のみに簡単に焦点を合わせる。図１０はこの構造の総覧を付与している。
【０１３７】
伝記的（人名）情報実際の画像のソースは直接的（例えば、自然シーンの写真）或は間接的（例えば、彫像の画像、絵画、建物、図面）であり得る。何れの場合にも、画像に関連された伝記的な情報が存在し得る。この情報はその画像における幾つかのオブジェクトに対してそれ自体を反復し得るか（例えば、システィナ礼拝堂の天井の画像は絵画及び礼拝堂自体についての情報を有し得る）、画像だけのために存在するか、或は、全く存在しない。伝記的情報は画像の主題に直接的に関係付けられていないが、むしろ画像全体に関係付けられている。例としては、著者、データ、タイトル、資料、技術等々を含む。
【０１３８】
関連づけられた情報
非ビジュアル情報の第２分類はある種の方法で画像に直接的にリンクされている。関連情報は解説、記事、音、記録等々を含み得る。多くの場合に議論されるように、この情報援助者はビジュアル構造におけるある種の索引付けを実行するが、理由としてはそれが画像内に描かれているものについての具体的情報を含み得るからである（即ち、主題）。この前後関係において、意味論的レベルでそれは通常非常に役立つものであり、理由はそれらが画像だけにしばしば存することがないより多くの知識を必要とするからである。しかしながら幾つかの場合、その情報は画像の主題に直接的に関係付けられないが、ある種の方法で画像と関連されている。例えば肖像が伴う音の記録は描かれた人に関係しない音を含み得て、それは画像と関連させているが、所望に応じて索引付け可能である。
【０１３９】
物理的属性
物理的属性は画像を物理的オブジェクトとして利用しなければならないものを言及している。これは画像の場所、オリジナル・ソースの場所、記憶（例えば、サイズ、圧縮）等々を含み得る。
【０１４０】
索引付け構造間の関係
我々は意味論的情報テーブルを規定して画像についての高いレベルの情報を集める（図１１参照）。このテーブルは個々のオブジェクト、複数オブジェクトのグループ、シーン全体、或は、画像の各種部分に対して使用され得る。殆ど場合、ビジュアル及び非ビジュアル情報はテーブル内への記入に寄与し、屋内／屋外等の単純なシーン分類はそのビジュアルコンテンツだけから容易に決定され得ず、場所はその画像等から明らかになり得ない。個々のオブジェクトは非ビジュアル情報に基づき分類されると共に名付けられ得て、ビジュアル・オブジェクト及び概念的オブジェクト間の写像に寄与する。
【０１４１】
図１１において、ビジュアル及び非ビジュアル情報は画像或はその部分を意味論的に特徴付けるべく使用可能である。意味論的テーブルにおける質問に答えるべくこれら２つの様式が寄与する方法はコンテンツに依存して変動し得る。テーブル援助者は以下のような質問に答える。即ち、主題（人／オブジェクト等々）は何か？、その主題が何をしているか？、その主題は何処か？、何時？、どのように？、なぜ？、である。テーブルは、個々のオブジェクト、複数オブジェクトのグループ、シーン全体、或は、画像の各種部分に適用され得る。
【０１４２】
この構造及びビジュアル構造の間の関係は、テーブルにレベル５で始まる各レベルで適用される際に明らかとなる。また我々が留意することは、テーブルが画像に関係付けられたある種の情報に対する小型（コンパクト）な表現を提供するが、それは提示された索引付け構造と置換されないことである。構造のグループは最も完全な記述を提供する。
【０１４３】
適切な索引付け構造を有するので、我々はディジタル・ライブラリのコンテンツがどのように組織化され得るかに焦点を合わせることができる。次の節において、我々は組織化及び画像の検索において決定的な役割を演ずる争点を分析する。
【０１４４】
特徴、類似、並びに、分類画像ディジタル・ライブラリの構築に成功するために、データを理解することだけが重要なわけではなく、分類に関係付けられた人争点をも理解することが重要である。この節において、我々はこの点に関する争点の需要性を議論すると共に、我々がその概念を当方の画像索引付けテストベッドの構築にどのように適用するかを説明する。先ず我々は部類を議論する。次いで、我々は分類におけるレベル及び構造を議論する。最後に我々は属性及び類似に関係付けら得た争点の幾つかを提示する。
【０１４５】
部類及び分類
分類は複数エンティティから成るグループを同等と処理するように規定され得る。部類はエンティティ或は概念が属する幾つかの基本的及び個別の分類の内の任意のものであり、部類内のエンティティはより類似して見え、そして、部類間のエンティティは類似性により欠けて見える。しかしながら分類が執り行われる前に、分類されるデータの性質を理解することが必須である。われわれは使用され得る部類のタイプに焦点を合わせることができる。分類の文献において、検索者は２種類の部類を識別する、即ち、（１）感覚知覚部類（例えば、質感、色、或は、話し声、／ｅ／）、（２）包括的知識（ＧＫ）部類（例えば、自然種類−鳥、人工物−車及びイベント−食べる）である。
【０１４６】
当方の構造において、我々は色及び質感等の感覚知覚部類を識別できる。ＧＫ部類は非常に重要な役割を演ずるが、その理由はユーザが画像に現れるオブジェクトや、それらオブジェクトが表現し得るものに主に興味を有するからである。知的心理学における幾つかの理論は、ＧＫ部類における分類が以下のように為されることを表している。
【０１４７】
規則：エンティティの属性値は使用される（例えば、規則：人々の分類における画像はその中に人を有するべきである）。
【０１４８】
原型：部類の原型はその部類の模範の特性的属性を含む。これらは部類メンバーにわたって大いに見込みがある属性であるが、部類メンバーシップに関して必要でないか或は不十分である。新しい画像はそれが部類原型にどの程度類似しているかに従って分類される（例えば、風景分類に対する原型は日没の単なるスケッチであり得る）。
【０１４９】
模範：例としてはその最も類似した模範の部類に従って分類される（例えば、人々部類に対する規則を有する代わりに、我々はその分類における例示画像の集合を有すると共に分類に対するそれらを使用する）。
【０１５０】
この印、即ち分類はデータベース内の画像を組織化する云う意味で役立ち、その理由は我々はこれらの技術を使用可能であって、分類を実行すると共に、ユーザにその結果を提示する。これら概念は当方の画像索引付けテストベッドの発展に使用されている。
【０１５１】
部類構造
部類構造はディジタル・ライブラリにおいて決定的な要因であり、われわれがここで簡単に議論する幾つかの争点をもたらす。以下の争点は考慮されるべきであり、即ち、部類間の関係（例えば、階層的或はエンティティ-関係）、分類が実行されるべき抽象のレベル（例えば、Ｒｏｓｃｈによる研究）は基本的レベルの存在を提案すると共に、レベル部類を従属させる／昇任する）、水平部類構造（即ち、各部類がどのように組織化されるべきか、そして各部類内の要素のメンバーシップ度合い−これらはファジー或はバイナリーであり得る）等々である。
【０１５２】
ビジュアル情報に索引を付ける際の分析の異なるレベルの考慮に加えて、類似性が測定される方法は非常に重要である。類似性の測定に関係付けられる争点は、考慮のレベル（例えば、部分対全体）、審査される属性、属性のタイプ（例えば、当方の構造のレベル）、寸法は分離可能であるか否か、等々を含む。
【０１５３】
画像索引付け（インデキシング）テストベッド我々は、本明細書で詳述された構造に基づく画像に索引を付けるべく異なる技術を用いて、ここに提示された概念を組み入れる画像索引付けテストベッドを開発している。特にタイプ／技術に対して、我々は判別式分析を用いている。グローバル分配に対して、我々はグローバル色ヒストグラム及びタムラ質感測定を用いる。ローカル構造レベルで我々は、自動区分と、コーヒレント・エッジ-マップのマルチ-スケール位相-曲率ヒストグラム及び投影ヒストグラムとを用いることによって、ビデオＱにおけるようにスケッチ問合せを可能とする。グローバル組成は、自動区分を実行して、生成された領域を併合して画像の肖像的表現を生み出すことによって獲得される。
【０１５４】
包括的オブジェクトはビジュアル徒弟を用いて自動的に検出される。ビジュアル徒弟において、ビジュアル・オブジェクト検出器はオブジェクト規定階層を規定し（即ち、オブジェクト及びその部分のモデルを指定する）、システムに例を提供することによってことによって構築される。多重分類はその階層の異なるレベルでのシステムによって自動的に学習され（領域、知覚、オブジェクト-部分、並びに、オブジェクト）、最善の分類器は自動分類を実行する際に自動的に選択されると共に組み合わせられる。我々もＡＭＯＳシステムを用いて、オブジェクト及びオブジェクト検索の手動注釈を実行する。
【０１５５】
包括的シーン・レベルで我々は、市対風景及び屋内対屋外の分類を実行する。これは、画像領域のクラスタリング及び分類がもし利用可能であれば質感特徴（例えば、画像説明から）と、特殊化されたオブジェクト検出器（例えば、顔或は空検出器）とに関連されて実行されるＯＦ＊ＩＩＦ技術を用いて自動的に為される。
【０１５６】
具体的なオブジェクト及びシーンについての情報は、人々の名前、場所等々を抽出するシステムを用いて関連情報から獲得される。抽象的レベルでの注釈は、実行の際、主導的に行われるものである。
【０１５７】
オーディオ
本発明の長所の別の例示的議論は、オーディオコンテンツを表現するディジタル信号と関連されたその使用の模範的記述を詳述することによって提供され得る。
【０１５８】
我々は画像のビジュアルコンテンツ要素（例えば、領域、全画像、イベント等々）に索引を付けるべく１０レベル概念構造を先に提案した。その作業における分類はビジュアルコンテンツの記述だけを言及している（即ち、「メタデータ」に対して意味されない、例えば、写真を撮る人の名前はビジュアル記述子ではない）。
【０１５９】
この文書において我々は、先に提示された１０レベル概念構造に基づき、（その規格のＭＰＥＧ-７オーディオ部分に含まれる）オーディオ記述子の分類を提案する。我々が提案するピラミッド構造は図３及び図４に関連されて先に記載されたビジュアル構造と同一レベルを正確に含む。しかしながら各レベルはビジュアル要素の代わりにオーディオ要素を言及している。オリジナル構造において、オブジェクトはビジュアル・エンティティと対応している。新構造において、オブジェクトはオーディオ・エンティティと対応している（例えば人の声）。
【０１６０】
構文論及び意味論の間の分離の重要性は、画像及びビデオ索引付けの領域における検索者によって広く認識されている。我々はオーディオコンテンツに対する同様の研究を知らないが、審査されたそれらの研究から生ずる結果はこの分離がオーディオ索引付けでも非常に有用であることを提案している。例えば、情報検索及び知的心理学における研究は、個人が異なるレベルを使用して画像／オブジェクトを記載（或は索引付け）することを示している。我々が提示する分割の幾つかは厳格ではあり得ないが、それが、オーディオコンテンツがどのように索引付けられるか、取り扱われるか、そしてそうしたコンテンツの（例えば、アプリケーション或は人ビューア）ユーザへ提示されるかについての直接的衝撃を有するために考慮されるべきである。
【０１６１】
画像索引付けに関係付けられた、異なるフィールドからの検索に頼る、ビジュアル属性に対する先に提示された構造は、オーディオに容易に適用され得る小型で組織化された分類を提供する。これらの構造は直感的で且つ非常に機能的であり、異なる索引付け技術（手動及び自動）のニーズ、要求、並びに、制限を強調する。例えば、オーディオ区分に対する索引付けコスト（計算或は人の労力と云う意味で）はピラミッドのより低いレベルで一般的により高く、コンテンツのタイプ（音楽対声）を自動的に決定、対、包括的オブジェクト（例えば、男の声）の認識、対、具体的オブジェクト（例えば、ビル・クリントンの声）の認識。これはまた、より多くの情報／知識がより低いレベルで必要とされることを暗示し、もしユーザ（例えば、アプリケーション）が別のユーザへ要求を為せば（例えば、アプリケーション）、追加的情報がどの程度必要となるか、或は、「サービス」のどのレベルをユーザが期待するか、例えばレベル５のオーディオ分類器に関して明瞭となる。加えて、属性及び関係のこの破損は人がしばしば属性に基づき比較を為すので以上に価値がある。提案された構造の有益性はビジュアルコンテンツに対する予備実験で示され、核となる実験を行う努力も為される。これら実験や、オーディオ索引付けに対する構造の使用を可能とする柔軟性は、この種の記述子分類をオーディオ及びビジュアルコンテンツに適用する有益性を提案する。
【０１６２】
この例において、我々はオーディオ属性の分類を記載する。また我々はオーディオ関係を記載する。
【０１６３】
記述子の分類
提案されたオーディオ構造は１０個のレベルを含む、最初の４つは構文論を言及し、残りの６つは意味論を言及している。オーディオ構造に対する総覧は図３から引き出され得る。必要とされる知識／情報の量の指示における各レベルの幅。構文論レベルはタイプ／技術、グローバル分配、ローカル構造、並びに、グローバル組成である。意味論的レベルは包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーンである。
【０１６４】
構文論的レベルは構文論的記述子、即ち、低レベル特徴の意味でコンテンツを記述する構文論的記述子を分類する。ビジュアル構造において、これらは画像に存する色及び質感を言及している。この文献のオーディオ構造において、それはオーディオ信号の低レベル特徴を言及している（それが音楽か、声か等々）。例としては基本的周波数、高調波ピーク等々を含む。
【０１６５】
ビジュアル構造の意味論的レベルは、オブジェクト及びシーンに関係付けられた属性を分類した。オーディオ構造における意味論レベルは、その分類がオーディオ信号自体から抽出された属性に基づいていることを除いて類似している。ビジュアルの場合のように、オーディオにおいてはオブジェクト（例えば、男の声、トランペットの音、等々）及びシーン（例えば、通りの騒音、オペラ、等々）を識別することが可能である。
【０１６６】
類似するビジュアル構造の各レベルは先に説明された。次に我々は各レベルを簡単に説明し、それがオーディオ記述子の分類にどのように使用され得るかを記載する。我々はワード属性及び記述子を相互交換可能に使用し、各レベルに対する直感的な例を付与して、説明を明瞭化を補助すべくビジュアル構造と類似させる。意味論的レベルに対して、典型的なラジオ・ニュース放送を考えることが有用であり、その中で異なるエンティティが相互交換可能に使用される、即ち、人、ノイズ、音楽、並びに、シーン（例えば、ジャーナリストの報告の間、前、並びに、後に、背景の騒音或は音楽を聴くことは現地報告において一般的である）。
【０１６７】
タイプ／技術オーディオ・シーケンスのタイプの一般的記述。例えば、音楽、騒音、声、或は、それらの任意の組合せ、ステレオ、チャンネル数、等々である。
【０１６８】
グローバル分配
低レベル特徴と云う意味で測定される、オーディオのグローバルコンテンツを記述する属性である。このレベルでの属性はグローバルであり、それはそれらが信号の個々のコンポーネントに関係せず、むしろグローバル記述に関係するからである。例えば、信号はガウス騒音であるとして記述され得る、即ち、そうした記述はグローバルであり、理由はそれがローカル・コンポーネントについて何も云わないからである（例えば、どの要素或は低レベル特徴が騒音信号を記述するか）。
【０１６９】
ローカル構造
オーディオ区分における個々の低レベル構文論的コンポーネントの抽出及び特徴付けに関する。先行するレベルと対照的に、ここでの属性は信号のローカル構造を記述することが意味されている。画像において、ローカル要素はその画像内に存する基本的な構文論的シンボルによって付与される（例えば、線、円、等々）。このレベルはオーディオにおける同一機能に役立ち、それで任意の低レベル（即ち、ワード、或は話されたコンテンツの文字等の意味論でない）・ローカル記述子はこのレベルで分類され得る。
【０１７０】
グローバル組成
基本的要素の具体的構成或は組成に基づくオーディオ区分のグローバル記述（即ち、ローカル構造記述子）。ローカル構造はオーディオの具体的ローカル特徴に焦点を合わせる一方、グローバル組成はローカル要素の構造に焦点を合わせる（即ち、それらがどのように構成されたか）。例えば、オーディオ・シーケンスはマルコフ・チェーン（Ｍａｒｋｏｖｃｈａｉｎ）によって、或は、低レベル・ローカル特徴を用いる任意の他の構造によって表現（或はモデル化）され得る。
【０１７１】
包括的オブジェクト
先行するレベルまで、世界知識は索引付けを実行するために何等必要とされない、即ち、量的特徴はオーディオ区分から自動的抽出され得て、記述された構文論的レベルに分類され得る。オーディオ区分が意味論の点で記述される際（例えば認識）、しかしながらオブジェクトは重要な役割を演ずる。しかしながらオブジェクトは異なるレベルでの部類に据えられ得る、即ち、リンゴはリンゴ或はフルーツとしてマッキントッシュ・アップルとして分類される。オブジェクトの認識はオーディオ区分に基づかせることができ、それ故に、我々は同様の分類を為すことができる。例えば我々は、オーディオ・エンティティ（例えば、声）が男に対応するか、或は、ビル・クリントンに対応すると云うことができる。包括的オブジェクトを言及すれば、我々は基本的なレベルの部類に興味を持つ、即ち、日常的な知識で認識され得るオブジェクト記述の最も一般的なレベル。それが意味することは、問題となっているオブジェクトの具体的な身元の知識が全くないことである（例えば、爆発、雨、たたく、男の声、女の声、等々）。オーディオ・エンティティ記述はこのレベルで分類され得る。
【０１７２】
包括的シーン
オーディオ区分が個々のオブジェクトに従って索引付けられるように、オーディオ区分を全体として、それが含むエンティティの全て、そしてそれらの構成の集合に基づいて索引付けが為され得る。オーディオ・シーンの例は、通りの騒音、スタジアム、オフィス、人々の話、コンサート、ニュース編集室、等々を含む。このレベルのガイドラインは、一般的な知識のみが必要とされていることである。このレベルでの記述子を獲得するために、具体的なオーディオ・エンティティ（例えば、それは誰の声か）、或は、具体的にオーディオ・シーン（例えば、それはどのコンサートか）を認識する必要はない。
【０１７３】
具体的オブジェクト
先行するレベルと対照的に、具体的オブジェクトは識別されると共に名付けられたオーディオ・エンティティを言及している。具体的知識は必要とされず、そうした知識はそれが公知の事実に依存しているので通常は客観的であり、即ち、このレベルで、騒音或は音は識別されると共に名付けられる。例としては個々の人の声（例えば、「ビル・クリントン」）、或は、特徴的な騒音（例えば、ニューヨーク株取引所のベル）、等々を含む。
【０１７４】
具体的シーン
このレベルは、オーディオ区分におけるシーンについての具体的な知識があるという違いを伴って包括的シーンと類似している。例えば、マーチン・ルーサー・キングの「私は夢を見る」演説、即ち、オーディオ・シーンは具体的に識別されると共に名付けられ得る。１９６８年に月が沈む、等々である。
【０１７５】
抽象的オブジェクト
このレベルで、オーディオ・エンティティが表現するものについての主観的な知識が使用される。この索引付けレベルは、それが完全に主観的であり、異なるユーザ間の評価が大きく変動し得るという意味で、最も難しい１つである。このレベルの重要性は画像に関して実験で示され、そこでビューアは中でも画像を記述するために抽象的属性を使用した。情緒的属性もオーディオ区分におけるオブジェクトに割り当てられ得る。例えば、音（例えば、映画や音楽における音）は恐ろしい、嬉しい、等々として記述され得る。
【０１７６】
抽象的シーン
抽象的シーン・レベルはオーディオ区分が全体として表現するものを言及している。それは以上に主観的であり得る。画像に対してそれは、例えば、ユーザがしばしば、感情を伴って画像（例えば、情緒）或は抽象的（例えば、雰囲気、テーマ）用語を記述することで示された。同様の記述はオーディオ区分に割り当てられ得て、例えば、オーディオ・シーンを記述する属性は、悲しみ（例えば、人々が泣いている）、よろこび（例えば、人々が笑っている、等々を含み得る。
【０１７７】
関係
関係のタイプ
この節では、我々が提案するコンテンツ要素間の関係の明白なタイプを提示する。これらの関係はビジュアルコンテンツに対して先に提示されたものと類似している。図１２に示されるように、関係は図３に関連して先に提示されたオーディオ構造の異なるレベルで規定されている。コンテンツ要素間の関係を表現するために、我々は構文論及び意味論への分割を考察する。
【０１７８】
構文論的レベルで、構文論的関係、即ち、空間的（例えば、「音Ａは音Ｂと近い」）、時間的（例えば、「同時に」）、並びに、オーディオ（例えば、「よりも音が大きい」）の関係があり得て、それは唯一構文論的知識に基づいている。空間的及び時間的属性は位相幾何学的及び方向的の分類に分類される。オーディオ関係はグローバル、ローカル、並びに、組成へ更に索引付けされることが可能である。図１２に示されるように、これらレベル内の要素は意味論的関係ばかりではなく、構文論的関係にも関連させられ得る（例えば、「トランペットはバイオリンの近くで鳴る」、そして、「トランペット音符はバイオリン音符を補足する」）。我々は意味論的関係の２つの異なるタイプを区別する、即ち、同義語（ｓｙｎｏｎｙｍｙ）、反対語（ａｎｔｏｎｙｍｙ）、上下関係（ｈｙｐｏｎｙｍｙ）／ハイパーニミー（ｈｙｐｅｒｎｙｍｙ）、或は、メロニミー（ｍｅｒｏｎｙｍｙ）／ハローニミー（ｈｏｌｏｎｙｍｙ）等の語彙関係と、活動（イベント）或は状態を言及する述語的関係とである。
【０１７９】
我々がここで提案する関係はビデオ信号に対して提案されたものと類似しており、それら２つの場合の唯一の違いは使用される属性に内在しているが、関係ではない。例えば、画像から要素Ａが要素Ｂよりも（音）が大きいと云うことは可能ではない。オーディオ区分から要素Ａが要素Ｂよりも暗いとすることは可能ではない（もしオーディオコンテンツ自体に明白に記述されていなければ）。しかしながら関係のタイプは同一である、即ち、一方がオーディオであり、他方がビジュアルであるが、それは双方ともにグローバル、包括的である（テーブル４参照）。
【０１８０】
我々は構文論的及び意味論的関係を例をもってより包括的に説明する。以下のテーブル３及び４は例示を含む関係に対する索引付け構造を要約している。
【０１８１】
構文論的関係
我々は構文論的関係を３つの分類に分割する、即ち、空間的、時間的、並びに、オーディオ的である。空間的及び時間的関係はオーディオ的関係の正に特殊な場合であると議論することができる。我々は空間的及び時間的関係を特別な方法で規定するが、その理由はそれら要素を、情報或は持続時間を伴わない空間或は時間における境界として考えるからである。構文論的関係の提案されたタイプ及び例示の要約のためのテーブル３を参照のこと。
【０１８２】
我々は空間的関係を以下の分類に分割する。（１）位相幾何学的、即ち各種要素の境界がどのように関係するか、そして、（２）配向的或は方向的、即ち、それら要素が相互に対して何処に配置されるか（テーブル３参照）である。留意することは、これらの関係がしばしばオーディオ区分から抽出され得ることであり、即ち、ニュースリポートのステレオ放送を聴く、例えば、構文論的属性をオーディオ・エンティティに割り当てることはしばしば容易である。例えば、一方の音が他方の近くである、或は、むしろ、異なるサウンド・ソース間の構文論的関係を評価することは可能である。この点に関して、信号内では明白ではない幾分詳細な位相幾何学的及び方向的関係を決定し得る。位相幾何学的関係の例は、「の近くであること」、「内であること」、そして、「隣接すること」であり、方向的関係の例は、「前方であること」、そして、「左側であること」である。留意することはこれら関係の間の主な相違や、ビジュアル情報から獲得されるものは、関係自体の抽出上に横たわっており、オーディオだけから何等かの空間的関係を決定することはより難しいが、構文論的オーディオ・モデルの創作において、これら関係は非常に需要な役割を演ずる。
【０１８３】
同様に、我々は時間的関係を位相幾何学的及び方向的分類へ分類する（テーブル３参照）。時間的位相幾何学的関係の例は、「同時に生ずること」、「部分重複すること」、そして、「内で生ずること」であり、方向的時間的関係の例は、「前に生ずること」、そして、「後で生ずること」である。ＳＭＩＬの同時及び順次関係は時間的位相幾何学的関係の例である。
【０１８４】
オーディオ関係はそれらのビジュアル属性或は特徴に基づきオーディオ・エンティティと関係する。これら関係は、グローバル、ローカル、並びに、組成の分類へ索引付けられ得る（テーブル３参照）。例えば、オーディオ・グローバル関係は「よりもより騒音が低いこと」（グローバル騒音特徴に基づく）であり得て、オーディオ・ローカル関係は「より音が大きいこと」であり得て、オーディオ組成関係はヒデン・マルコフ・モデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）の構造の比較に基づき得る。
【０１８５】
オーディオ構造の要素が異なるレベル（包括的、具体的、並びに、抽象的）を有する場合も同様に、これらのタイプの構文論的関係（テーブル３参照）は包括的レベル（「近い」）或は具体的レベル（「から１０メートル」）で規定され得る。例えば、「の結合であること」、「の否認であること」等の操作的関係は、空間的か時間的かの何れか一方の位相幾何学的、具体的関係である（テーブル３）。
【０１８６】
意味論的関係
意味論的関係は、１０レベル概念的構造の意味論的レベルでのコンテンツ要素間だけで生じ得る。我々は意味論的関係を語彙的及び述語的関係へ分割する。テーブル４は例を含んだ意味論的関係を要約している。留意することは、意味論的関係がコンテンツの理解に基づいているので、ビジュアルコンテンツから獲得された関係に対して、オーディオコンテンツから獲得された関係に対するのと同一の分類を為し得る。ここでの意味論的関係は、それ故に、ビデオ信号に関連して記載されたものと同等である。唯一の違いは意味論的コンテンツが抽出される方法にある（即ち、オーディオの理解、対、画像或はビデオの理解）。説明をより明確にするために、オーディオに関する例を用いたが、オリジナルの例示も適用される。例えば、そのリンゴはそのオレンジのようであるは包括的同義語例であり、リンゴ及びオレンジは話し手がそれらについて話せばオーディオから「認識」され得る。
【０１８７】
語彙的意味論的関係はワールドネット内で使用される名詞間の意味論的関係と対応している。これらの関係は、同義語（バイオリンはビオラと類似している）、反対語（フルートはドラムと相対する）、上下関係（ギターは弦楽器である）、ハイパーニミー（弦楽器及びギター）、メロニミー（ミュージシャンはミュージック・バンドの一員である）、並びに、ハローニミー（ミュージック・バンドはミュージシャンから構成される）。
【０１８８】
述語的意味論的属性は、２つの或はそれ以上の要素の間の活動（イベント）或は状態を言及している。活動関係の例は「怒鳴ること」及び「所有すること」である。述語的意味論を複数の活動或は状態にだけ分割する代わりに、我々はワールドネットで使用される部分的関係意味論的分解を用いることができる。ワールドネットは動詞を１５個の意味論的ドメインへ分割する、即ち、身体上の世話及び機能の動詞、変化、認識、通信、競争、消費、接触、創造、情緒、運動、感覚、所持、社会的な相互作用、並びに、天気動詞である。ビジュアル概念の記述に対して関連しているドメインだけが使用される。
【０１８９】
ここに提示された１０レベル・オーディオ構造に対するように、我々は異なるレベルでの意味論的関係を規定する、即ち、包括的、具体的、並びに、抽象的である。例えば、包括的活動関係は「株式を所有すること」であり、具体的活動関係は「株式の８０％を所有すること」であり、そして最後に、抽象的意味論関係は「会社を支配すること」である。
【０１９０】
【表３】

【０１９１】
【表４】

【０１９２】
本発明は、索引付け及び／或は分類の目的に対するディジタル信号（例えば、マルチメディア信号）の多重レベル分類のための方法だけではなく、コンピュータ具現化システムをも含む。以上に記載された方法は、それら方法がここに議論されたタイプのディジタル信号を処理するための任意のシステム内に適用可能であると云う事実に従った何等かの一般論のレベルで記載されており、例えば、ＭＰＥＧ-７規格の下でのディジタル・マルチメディア信号或はファイルの取り扱いと互換性あるアート-認識（将来発展型）の任意のシステムである。
【０１９３】
一般的に考えられるディジタル信号に対する規格の目的としては、伝送、大量記録保管、並びに、そうした信号の出力に対するクロス・プラットフォーム互換性を促進することであるので、本発明を具現化すべく構築され得るシステムに対するシステム固有仕様を付与することが必要ないか或は所望されない。むしろ、当業者であれば、当業界で公知の所望ハードウェア及びソフトウェアを用いてここでの包括的教示をどのようにして具現化するかを認識するであろう。
【０１９４】
広範な例を付与するために、（限定されるわけではないが、人知覚コンテンツを実施するビデオ、オーディオ、静物、並びに、他のディジタル信号を含む）ディジタル信号を処理、表示、記録保管、或は、伝送する、ペンティアム（登録商標）・マイクロプロセッサ、メモリ（例えば、ハードドライブ、及び、ランダムアクセスメモリ・キャパシティ）、ビデオプレイヤ、並びに、適切なマルチメディア付属装置等の任意のマルチメディア互換性装置と組み合わせて本発明を実施するシステムの模範的実施例を考えることができるであろう。
【０１９５】
概要
本発明は現行の包括的ＡＶＤＳに対する基本的なエンティティ-関係モデルを提案して、そのグローバル設計に関する短所に対処するものである。基本的エンティティ-関係モデルは、（１）コンテンツ要素の属性、（２）コンテンツ要素間の関係、そして、（３）コンテンツ要素自体に索引付けする。我々はこのモデル化技術を選択するものであり、その理由はエンティティ-関係モデルが最も広範に使用されている概念的モデルであるからである。それは高度の抽象性を提供すると共に、ハードウェア及びソフトウェア独立型である。
【０１９６】
我々は、属性（或はＭＰＥＧ-７記述子）、関係、並びに、コンテンツ要素に対する構文論及び意味論の間の区別を為す。構文論はコンテンツ要素が構成される方法を言及しており、しかもそうした構成の意味合いを考慮せずにである。他方、意味論はそうした要素とそれら構成との意味合いを処理する。構文論的及び意味論的属性は幾つかのレベルを言及し得る。同様に、構文論的及び意味論的関係は異なるレベルを言及するサブ・タイプへ更に分割され得る。我々は属性のそれらタイプと他の要素との関係とに基づき構文論的及び意味論的要素の小型で明確な規定又は定義を提供するものである。しかしながら包括的ＡＶＤＳとの重要な違いは、当方の意味論的要素が意味論的属性だけではなく、構文論的属性をも含むことである。それ故に、もしアプリケーションが構文論的要素及び意味論的要素の間でむしろ識別されなければ、意味論的要素だけを用いてそうすることになる。
【０１９７】
先行する例及び本発明の例示的実施例は例示目的で詳述された。当業者であれば、これらの教示例は特許請求の範囲によってだけ制限される本発明の精神或は範囲の制限を規定しない。
【図面の簡単な説明】
【図１】包括的エンティティ-関係（Ｅ−Ｒ）モデルである。
【図２】シナリオ「若い少年はリンゴを４分間で食べる。」に対するエンティティ-関係モデルの一例を提供している。
【図３】ピラミッドによって索引付けビジュアル構造を表している。
【図４】ビジュアル構造の異なるレベルで提案された関係を示している。
【図５】各提案タイプのビジュアル構造の基本的モデルを説明している。
【図６】ベースボールでのバッティング（打撃）・イベント画像を絵画的に表示している。
【図７】図６に表示されたベースボールでのバッティング・イベント画像に対するバッティング・イベントの概念的記述である。
【図８】図６のバッティング・イベントに対するヒット及びスロー（投球）のイベントの概念的記述である。
【図９】図６のバッティング・イベントに対するフィールド・オブジェクトの概念的記述である。
【図１０】非ビジュアル情報の分析を概念的に表している。
【図１１】ビジュアル及び非ビジュアルの情報が画像或はその一部をどのようにして特徴付けるべく意味論的に使用され得るかを図示している。
【図１２】オーディオ構造の異なるレベルでの関係を図示している。構文論的レベル内の要素は構文論的構造に従って関係付けられている。意味論的レベル内の要素は構文論的及び意味論的関係に従って関係付けられている。

Claims

マルチメディアコンテンツを管理するシステムを構成するモジュールによって、複数のディジタル情報信号として伝送される各コンテンツに対して索引付けを行った情報を処理する方法であって、
構文論的レベル（シンタックスレベル）及び意味論的レベル（セマンティックスレベル）を提示する複数レベルの索引付けを行った情報の管理を行う当該モジュールによって、各ディジタル情報信号を処理するステップを含み、
前記モジュールによる処理ステップは、
（ｉ）各ディジタル情報信号を受信し、各ディジタル情報信号のコンテンツについて、予め規定した複数の索引付けレベルに従う解析を行うステップと、
（ｉｉ）前記複数の索引付けレベルのうちの少なくとも１つについて、各索引付けレベルに関連付けられたコンテンツのディジタル情報信号から、コンテンツの記述要素、属性、及び記述要素間の関係に関連付けられているデータからなる、コンテンツに基づいたデータを抽出するステップと、
を行うことを特徴とする方法。
前記構文論的レベルが、
（ｉ）タイプ／技術、
（ｉｉ）グローバル分配、
（ｉｉｉ）ローカル構造、
（ｉｖ）グローバル組成、
からなるレベル・グループから選択された少なくとも１つのレベルを含む、請求項１に記載の方法。
前記意味論的レベルが、
（ｉ）包括的オブジェクト、
（ｉｉ）包括的シーン、
（ｉｉｉ）具体的オブジェクト、
（ｉｖ）具体的シーン、
（ｖ）抽象的オブジェクト、
（ｖｉ）抽象的シーン
からなるレベル・グループから選択された少なくとも１つのレベルを含む、請求項１に記載の方法。
前記記述要素が構文論的要素を含む、請求項１に記載の方法。
前記構文論的要素が
（ｉ）領域、
（ｉｉ）動画化領域、
（ｉｉｉ）区分、
からなる要素・グループから選ばれた少なくとも１つの要素を含む、請求項４に記載の方法。
前記記述要素が意味論的要素を含む、請求項１に記載の方法。
前記意味論的要素が、
（ｉ）オブジェクト、
（ｉｉ）動画化-オブジェクト、
（ｉｉｉ）イベント、
からなる要素・グループから選ばれた少なくとも１つの要素を含む、請求項６に記載の方法。
前記属性が、
（ｉ）構文論、
（ｉｉ）意味論、
からなるグループから選ばれた属性を含む、請求項１に記載の方法。
前記記述要素間の関係が構文論的関係を含む、請求項１に記載の方法。
前記構文論的関係が、
（ｉ）空間的関係、
（ｉｉ）時間的関係、
（ｉｉｉ）ビジュアル関係、
からなるグループから選択された関係を含む、請求項９に記載の方法。
前記記述要素間の関係が意味論的関係を含む、請求項１に記載の方法。
前記意味論的関係が、
（ｉ）語彙的関係、
（ｉｉ）述語的関係、
からなるグループから選択された少なくとも１つの関係を含む、請求項１１に記載の方法。
前記ディジタル情報信号のコンテンツがマルチメディア・データ・ファイルの一部分を含む、請求項１に記載の方法。
前記マルチメディア・データ・ファイルが、ビデオ・ファイルを含む、請求項１３に記載の方法。
前記マルチメディア・データ・ファイルが、オーディオ・ファイルを含む、請求項１３に記載の方法。
前記ディジタル情報信号のコンテンツがマルチメディア・データ・ファイルの一部分を含む、請求項１に記載の方法。