JP4643099B2 - 包括的オーディオ・ビジュアル・データ信号記述に対する基本的エンティティ−関係モデル - Google Patents

包括的オーディオ・ビジュアル・データ信号記述に対する基本的エンティティ−関係モデル Download PDF

Info

Publication number
JP4643099B2
JP4643099B2 JP2001518680A JP2001518680A JP4643099B2 JP 4643099 B2 JP4643099 B2 JP 4643099B2 JP 2001518680 A JP2001518680 A JP 2001518680A JP 2001518680 A JP2001518680 A JP 2001518680A JP 4643099 B2 JP4643099 B2 JP 4643099B2
Authority
JP
Japan
Prior art keywords
level
relationship
semantic
content
syntactic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001518680A
Other languages
English (en)
Other versions
JP2003507808A (ja
Inventor
ベニテス アナ
ジェイムス アレハンドロ
シー−フ チャン
アール スミス ジョン
チュン−シェン リ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2003507808A publication Critical patent/JP2003507808A/ja
Application granted granted Critical
Publication of JP4643099B2 publication Critical patent/JP4643099B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Description

【0001】
関連出願の相互参照
本出願は合衆国仮特許出願第60/142,325号(1999年7月3日出願)に基づいており、そこから優先権を主張している。
【0002】
発明の背景
I. 発明の分野
本発明はマルチメディア情報を記述する技術に関し、より詳細には、ビデオ及び画像の両情報或はオーディオ情報を、そうした情報のコンテンツと共に、記述する技術に関する。ここに開示される技術はディジタル・データ信号(例えば、マルチメディア信号)のコンテンツに感応する索引付け及び分類のためのものである。
【0003】
II.関連技術の説明
グローバル・インターネットの成熟や地域ネットワーク及びローカルネットワークの広範囲にわたる利用によって、ディジタル・マルチメディア情報は消費者及び事業家に対して益々近づきやすくなってきている。従って、ディジタル・マルチメディア情報を処理、フィルタリング、検索、そして、組織化するシステムを開発することは漸進的により重要となってきており、その結果、有用な情報が生情報のこの成長する大きな集合から選び取り可能である。
【0004】
この出願の提出時において、消費者/及び事業家にテキスト情報を検索させることを可能とする解決策が存在している。実際上、yahoo.com、goto.com、excite.com等々によって提供される検索エンジン等の数多くのテキストに基づく検索(サーチ)エンジンがワールド・ワイド・ウェブ上に利用可能であり、最も頻繁に訪れるウェブサイトの内の1つであり、そうした情報検索の技術に対する需要の甚大さを示している。
【0005】
残念ながら、同上のことはマルチメディアコンテンツに対して当てはまらず、この事柄の一般的に認識される記述は全く存在しないからである。
【0006】
ディジタル画像及びビデオの最近の急増は、コンテンツを検索する際、大量のリソースを現在有するエンドユーザに新たな機会をもたらした。ビジュアル(視覚)情報は数多くの異なるソースから且つ数多くの異なるフォーマットで多様な主題について広範に利用可能である。これは利点であるが、それと同時に、そうしたコンテンツを検索する際に大量のデータを再吟味することができないので難題である。それ故に、コンテンツを効率的にブラウズするか或はそれらの特定ニーズに基づき問合せを実行することをユーザに可能とさせることが絶対必要である。しかしながらそうした機能をディジタル・ライブラリに提供するためには、データ、そして適合すれば索引(インデックス)を理解することが必須である。この索引付けは構造化させる必要があり、且つ、そうした情報にアクセスすることを欲しているのはどのユーザであるかに基づくことになる。
【0007】
従来のアプローチにおいては、テキスト注釈が索引付けのために使用され、即ち、カタログ作製者が画像を記述すべく複数のキーワード或は表現の集合を手動で割り当てる。次いでユーザはテキストに基づく問合せ、或は、手動的に割り当てられた部類(カテゴリー)を通じてのブラウズ(閲覧)を為すことができる。テキストに基づくアプローチと対照的に、コンテンツに基づく検索における最近の技術はそれらのビジュアルコンテンツに基づく索引画像に焦点が合わせられている。ユーザは例(これと似た画像等)或はユーザ・スケッチ(このスケッチと似た画像等)をもって問合せを為すことができる。より最近の成果としては、コンテンツに基づく画像の自動分類を試みて、システムが各画像を分類し、それにラベル(例えば、屋内、屋外、顔を含む等々)を割り当てることである。
【0008】
双方の論理的枠組みには、特にコンテンツに基づく検索の共通性においてしばしば見過ごされる分類の問題点がある。ビジュアル情報に適切に索引を付ける点に関しての主な課題は以下のように要約される。(1)単一画像には大量の情報がある(例えば、何に索引を付けるか?)、そして(2)記述の異なるレベルが可能である(例えば、どのようにして索引付けるか?)。例えば、スーツを着た男の写真を考える。その画像に用語「スーツ」或は「男」をラベル付けすることが可能となるであろう。次いで用語「男」は、中でも、概念的(例えば、辞書での男の定義)、物理的(サイズ、重量)、並びに、ビジュアル(髪の毛の色、衣服)等の多数レベルの情報を担うことができるであろう。次いで部類ラベルは、明白なもの(例えば、その画像における人物は男であり、女ではない)や、潜在的なもの又は未定義情報(例えば、その用語だけではその男が何を着用しているかを知ることができない)を暗示する。
【0009】
この点に関しては、写真内に埋め込まれたビデオ・オブジェクトの色、質感、並びに、形状の情報等の特性を用いて、その写真のユーザによる検索を許容するマルチメディア・データベースを提供する試みが従来から為されてきている。しかしながら20世紀の終わりにおいても、この種の広範に認識された記述が存在しないので、マルチメディアコンテンツをインターネット或は殆どの地域的ネットワーク或はローカルネットワークで一般検索することができない。更にはマルチメディアコンテンツの検索の必要性はデータベースに限定されずに、ディジタル放送テレビ及びマルチメディア電話等の他の用途にまで延びている。
【0010】
マルチメディア記述フレームワーク等の規格を開発する1つの産業での広範な試みは、Motion Picture Expert Group(“MPEG”「エムペグ」)MPEG-7規格の成果をもたらした。1996年10月に開始されたMPEG-7は、マルチメディアの検索、濾過、ブラウズ、並びに、要約の様なコンテンツに焦点が当てられた用途を促進補助するために、マルチメディア・データのコンテンツ記述を規格化することを目標としている。MPEG-7のオブジェクトのより完全な記述は、インターナショナル・オーガナイゼーション・フォ・スタンダード(the International Organization for Standard)の文書ISO/IEC JTC1/SC29/WG11 N2460(1998年10月)に含まれ、その内容は引用することでここに合体させる。
【0011】
MPEG-7規格は、様々なタイプのマルチメディア情報を記述すべく、記述子及びそれらの関係に対する構造(「記述方式」と呼称される)構造と共に、それら記述子から成る規格集合を指定する対象を有する。またMPEG-7は、記述子及びそれらの関係に対する「記述方式」と共に、他の記述子を規定するために方法を規格化することを提案している。この記述は、即ち記述子及び記述方式の組合せはコンテンツそれ自体と関連され、ユーザの関心の資料の高速且つ効率的な検索及び濾過を可能とする。またMPEG-7は言語を規格化して、記述方式を指定するものであり、即ち、記述規定言語(Description Definition Language)(“DDL”)と、マルチメディアコンテンツの記述を二進コード化する方式とである。
【0012】
この出願の提出時、MPEGはMPEG-7規格への将来の統合化に対して必要とされた方式を最適に具現化する技術のための勧誘的な提案である。そうした最適な記述方式を提供するために、3つの異なるマルチメディア用途構成が考えられ得る。それらは分配処理シナリオ、コンテンツ交換シナリオ、並びに、マルチメディアコンテンツの個人専用化視認を許容するフォーマットである。
【0013】
分配処理に関して、記述方式はマルチメディア資料の記述を任意のプラットフォーム、任意のベンダー、並びに、任意のアプリケーションとは独立して交換する能力を提供しなければならず、それはマルチメディアコンテンツの分配処理を可能とすることになる。共同運転可能なコンテンツ記述の規格が意味することは、様々なソースからのデータが、マルチメディア・プロセッサ、エディタ、検索システム、濾過エージェント等々の様々な分配アプリケーションにプラグインされ得ることである。これらアプリケーションの幾つかは第三者によって提供され得て、マルチメディア・データの規格化記述と共に作動し得るマルチメディア・ツールのプロバイダである副産業を生ずる。
【0014】
ユーザは様々なコンテンツプロバイダのウェブサイトにアクセスすることが許容され、コンテンツや、幾分低レベル或は高レベルの処理によって獲得される関連索引付けデータをダウンロードし、幾つかのツール・プロバイダのウェブサイトにアクセスすべく進んで、ユーザの個人的な興味に従って特定の方法で異質のデータ記述を操作するツール(例えばジャバアプレット)をダウンロードする。そうしたマルチメディア・ツールの一例はビデオ・エディタである。MPEG-7準拠ビデオ・エディタは、もし各ビデオに関連された記述がMPEG-7準拠であれば、様々なソースからのビデオコンテンツを操作及び処理することができる。各ビデオは、カメラ運動(モーション)、シーン・カット、注釈、並びに、オブジェクト区分等の変動する度合いの記述細目が添えられている。
【0015】
相互操作可能なコンテンツ記述規格から大きく利益を得る第2シナリオは、異質マルチメディア・データベースの間のマルチメディアコンテンツの交換である。MPEG-7はマルチメディア資料の現行記述の表現、交換、翻訳、並びに、再使用を為す手段を提供することを狙っている。
【0016】
現行の、TV放送、ラジオ放送、並びに、他のコンテンツプロバイダは、莫大な量のマルチメディア資料を管理し記憶する。この資料は、現在、テキスト情報及び専有データベースを用いて手動で記載される。共同運動可能なコンテンツ記述なしに、コンテンツユーザは各放送局によって使用される記述をかれら自身の専有方式に手動で翻訳すべく人手を運用しなければならない。マルチメディアコンテンツ記述の交換は、もしコンテンツプロバイダの全てが同一方式及びコンテンツ記述方式を採用していれば可能である。これはMPEG-7の目標の1つである。
【0017】
最後に、そうした記述方式を採用するマルチメディア・プレイヤ及び視認者はユーザにユーザによって構成されたデータの多重ビュー等の革新的な能力を提供しなければならない。ユーザはコンテンツ放送局から異なるフォーマットでのデータを再びダウンロードさせる必要性なしにディスプレイ構成を変えることができる。
【0018】
先行する例のみが、MPEG-7に基づく規格化された方法で配送された充分に組織化されたデータに対する可能性あるユーザにほのめかしている。残念ながら、現在利用可能な先行技術で分配処理、コンテンツ交換、或は、個人専用化視認のシナリオを全般的に満足することができるものはない。具体的には、包括的特性、或は、意味論的関係の何れかに基づいたマルチメディア情報に埋め込まれたコンテンツを取り込む技術を提供すること、或は、そうしたコンテンツを組織化する技術を提供することに失敗している。従って、当業界においては包括的なマルチメディア情報に対する効率的なコンテンツ記述方式に要望がある。
【0019】
MPEGソウル会議(1999年3月)中、包括的ビジュアル記述方式(ビデオ・グループ、「MPEG-7に対する包括的ビジュアル記述方式」、ISO/IEC JTC1/SC29/WG11 MPEG99/N2694、韓国、ソウル、1999年3月)が、DS1(静止画像)、DS3++(マルチメディア)、DS4(アプリケーション)、そして特に、MPEG-7評価AHG(英国、ランカスター、1999年2月)(MPEG-7評価ロジスティックスについてのAHG、”Report of the Ad-hoc Group on Mpeg-7 Evaluation Logistics”, ISO/IEC JTC1/SC29/WG11 MPEG99/N4524, Seoul Korea, March 1999)のDS2(ビデオ)からの推奨の内の幾つかに引き続いて創始された。包括的ビジュアルDSは記述方式についてのAHGで包括的オーディオビジュアル記述方式(“AD DS”)(AHG on Description Scheme, “Generic Audio Visual Description Scheme for MPEG-7(V0.3)”, ISO/IEC JTC1/SC29/WG11 MPEG99/M4677, Vancouver, Canada, July 1999)へ発展した。包括的なAV DSはビデオ・シーケンス或は画像のビジュアルコンテンツを記述すると共に、オーディオ・シーケンスのコンテンツを部分的に記述するが、それはマルチメディア或はアーカイブコンテンツに対応するものではない。
【0020】
包括的AV DSの基本的コンポーネントは構文論的構造DS、意味論的構造DS、構文論-意味論リンクDS、並びに、分析/総合モデルDSである。構文論的構造DSは、領域木、区分木、並びに、区分/領域関係グラフから構成されている。同様に、意味論的構造DSは、オブジェクト木、イベント木、並びに、オブジェクト/イベント関係グラフから構成されている。構文論-意味論リンクDSは、構文論的要素(領域、区分、並びに、区分/領域関係)を意味論的要素(オブジェクト、イベント、並びに、イベント/オブジェクト関係)とリンク、そしてその逆の関係でリンクする機構を提供する。分析/総合モデルDSは、構文論的及び意味論的構造の間の射影/レジストレーション/概念の一致を指定する。当方では一般にコンテンツ要素と呼称する意味論的及び構文論的要素は関連された属性を有する。例えば、領域は色/質感、形状、2-D幾何形状、運動、並びに、変形の記述子によって記述される。オブジェクトはタイプ、オブジェクト-振る舞い、並びに、意味論的注釈のDSによって記述される。
【0021】
我々は包括的AV DSの現行仕様に可能性ある短所を認識している。包括的AV DSはコンテンツ要素及びエンティティ-関係グラフを含む。コンテンツ要素は関連された特徴を有し、エンティティ-関係グラフはコンテンツ要素間における一般関係を記述する。これはエンティティ-関係(ER)モデリング技術(P. P-S. Chen, “The Entity-Relation Model-Toward a Unified View of Data”, ACM Transactions on Database Systems, Vol.1, No.1, pp.9-36, March 1976)に追随する。しかしながら包括的AV DSのこれら要素の現行仕様は、オーディオ-ビジュアルコンテンツを記述すべく有用で且つ強力なツールとなるには余りにも包括的過ぎる。また包括的AV DSは階層とそれら階層間のリンクを含み、物理的な階層モデルの典型である。結果として、包括的AV DSは異なる概念的及び物理的モデルの混合である。このDSの他の制限は、意味論的及び構文論的構造の堅固な分離と、そのコンテンツ要素の明白で単一化された定義の欠如とであり得る。
【0022】
包括的AV DSは画像、ビデオ・シーケンス、そして部分的にはオーディオ・シーケンスを記述し、(1)文書の物理的或は構文論的構造の定義、コンテンツのテーブル、(2)意味論的構造の定義、索引、並びに、(3)意味論的認識が現れる場所の定義である書籍コンテンツ記述に対する古典的なアプローチに追随する。それは、(1)構文論的構造DS、(2)意味論的構造DS、(3)構文論-意味論リンクDS、(4)分析/総合モデルDS、(5)可視化DS、(6)メタ情報DS、並びに、(7)メディア情報DSから構成される。
【0023】
構文論的DSは物理的構造と、文書のコンテンツのテーブルを定義する画像或はビデオ・シーケンスの信号特性とを指定すべく使用される。それは(1)区分DS、(2)領域DS、並びに、(3)区分/領域関係グラフDSから構成される。区分DSは、ビデオ・プログラムの線形的な時間的構造を指定する複数区分から成る木を規定又は定義すべく使用され得る。区分は、時間DS、メタ情報DS、メディア情報DS等の関連された特徴を伴うビデオ・シーケンスにおける連続的なフレームから成るグループである。区分の特殊なタイプとしてのショットは、編集効果DS、キーフレームDS、モザイクDS、並びに、カメラ・モーションDSを含む。同様に、領域DSは複数領域から成る木を規定すべく使用され得る。領域は、幾何形状DS、色/質感DS、モーション(運動)DS、変形DS、メディア情報DS、並びに、メタ情報DSから成るグループとして規定される。区分/領域関係グラフDSは、区分及び領域の間の一般関係、例えば、「To The Left Of(左にある)」等の空間関係、「Sequential To(に続く)」等の時間的関係、並びに、「Consist Of(から成る)」等の意味論的関係を指定する。
【0024】
意味論的DSは、意味論的オブジェクト及びイベントの点で画像或はビデオ・シーケンスの意味論的特徴を指定すべく使用される。それは索引の集合として見られる。それは、(1)イベントDS、(2)オブジェクトDS、並びに、(3)イベント/オブジェクト関係グラフDSから構成される。イベントDSは、区分DSにおける各種区分に対する意味論的索引テーブルを規定する複数イベントから成る木を形成すべく使用され得る。イベントは注釈DSを含有する。同様に、オブジェクトDSは、オブジェクトDSにおける各種オブジェクトに対する意味論的索引テーブルを規定する複数のオブジェクトから成る木を形成すべく使用され得る。イベント/オブジェクト関係グラフDSはイベント及びオブジェクトの間の一般関係を指定する。
【0025】
構文論-意味論リンクDSは、構文論的要素(区分、領域、或は、区分/領域関係)及び意味論的要素(イベント、オブジェクト、或は、イベント/オブジェクト関係)の間で双方向性である。分析/総合モデルDSは、構文論的構造DS及び意味論的構造DSの間の射影/レジストレーション/概念的な一致を指定する。メディア及びメタ情報DSは、記憶メディア及び作成者-生成情報の記述子を含む。可視化DSは、ビデオ・プログラムの効率的な可視化を可能とすべくビューDS(view DS)の集合を含む。それは以下のビューを含む。即ち、マルチ-解像度空間周波数サムネール、キーフレーム、ハイライト、イベント、並びに、代替ビューである。これらビューの各々は独立して規定される。
【0026】
包括的AV DSの短所包括的AD DSは関連された特徴を伴うコンテンツ要素(即ち、領域、オブジェクト、区分、並びに、イベント)を含む。またそれはエンティティ-関係グラフをも含み、エンティティ-関係モデルに追随するコンテンツ要素間の一般的関係を記述する。現行DSの欠点は、各種要素間の特徴及び関係が広範な値を有し得ることであり、それがそれらの有用性及び表現力を低減する。明確な例はオブジェクト要素における意味論的注釈特徴である。意味論的注釈の値は包括的(「男」)、具体的(又は特定的)(「ジョン・ドウ」)、或は、抽象的(「幸福」)な観念であり得る。
【0027】
本発明に至る開発の初期目的は、この欠点に対処すべく、包括的AV DSに対する明白なエンティティ-関係構造を規定することである。明白なエンティティ-関係構造は属性及び関係を関連する複数の分類に分類する。この処理中、特に具体例の生成中(図6乃至図9に示されるベースボール例を参照のこと)、我々は、今回、DSグローバル設計と関連された現行の包括的AV DSの他の短所を知ることになった。この節においてこれらを提示する。この出願において、我々はこれら争点に対処すために試みる完全に基本的なエンティティ-関係モデルを提案する。
【0028】
先ず、包括的DSの完全な仕様はエンティティ-関係モデルを用いて表現され得る。一例として、図6におけるベースボール例に対して図7乃至図9に提供されたエンティティ-関係モデルは、包括的AV DS(例えば、イベントDS、区分DS、オブジェクトDS、領域DS、構文論-意味論リンクDS、区分/領域関係グラフDS、並びに、イベント/オブジェクト関係グラフDS)のコンポーネントの殆ど、そしてそれ以上によって対処された機能を含む。エンティティ-関係(E−R)モデルは一般的な高レベル概念データ・モデルであり、中でも階層的、関係的、或は、オブジェクト指向モデル等の実際の具現化とは独立している。包括的DSの現行バージョンは、多数の概念的及び具現化データ・モデル、即ち、エンティティ-関係モデル(例えば、区分/領域関係グラフ)、階層モデル(例えば、領域DS、オブジェクトDS、並びに、構文論-意味論リンクDS)、並びに、オブジェクト指向モデル(例えば、区分DS、ビジュアル区分DS、並びに、オーディオ区分DS)の混合であると見られる。
【0029】
第2として、現行の包括的DSにおける構文論及び意味論の間の分離は余りにも融通がきない。図6における例の場合、我々はバッティング(打撃)・イベント及びバッティング区分(図7参照)の記述を、現行の包括的AV DSが提案するように分離した。しかしながらこの場合、両要素を意味論的及び構文論的特徴で単一のバッティング・イベントに併合又は合併することがより好都合である。ビデオ索引付けを作業する数多くのグループは構文論的構造(コンテンツのテーブル:区分及びショット)及び意味論的構造(意味論的索引:イベント)の分離を推薦した。しかしながら、ビデオ・シーケンスにおける複数画像或は動画化オブジェクトを記述するに当たって、これら構造を分離する値は明確さがより劣っている。「リアル・オブジェクト」は、通常、それらの構文論的特徴(例えば、色、質感、並びに、運動又はモーション)と共にそれらの意味論的特徴(例えば、意味論的分類−人、猫、等々)によって記述される。現行の包括的AV DSは、領域DS及びオブジェクトDSにおける「リアル・オブジェクト」の定義又は規定を分離し、それは記述の非効率的取り扱いを生じ得ることになる。
【0030】
最後に、コンテンツ要素、特にオブジェクト及びイベントは包括的DSにおける明白で単一化された定義又は規定が欠如している。例えば、現行の包括的DSはオブジェクトが幾つかの意味論的意味合いを有すると共に他のオブジェクトを含むものとして規定する。オブジェクトはオブジェクトDSで規定されているが、イベント/オブジェクト関係グラフは、オブジェクト及びイベント間の一般的関係を記述することができる。更にはオブジェクトは、構文論-意味論リンクDSによって、意味論的DS内の対応する領域とリンクされる。それ故に、オブジェクトは包括的ビジュアルDSの数多くのコンポーネントにわたる分配規定を有し、それは明確より劣る。イベントの規定は非常に類似し、曖昧である。
【0031】
包括的AV DSに対するエンティティ(実体)-関係モデルP. P-S. Chen, “The Entity-Relation Model-Toward a Unified View of Data”, ACM Transactions on Database Systems, Vol.1, No.1, pp.9-36,(March、1976年)に先ず提示されたエンティティ-関係(E−R)モデルは、エンティティ及びそれらの関係の点でデータを記述する。エンティティ及び関係の双方は属性によって記述され得る。エンティティ-関係モデルの基本コンポーネントは図1に示されている。エンティティ、エンティティ属性、関係、並びに、関係属性は、名詞(例えば、少年及びリンゴ)、形容詞(例えば、若い)、動詞(例えば、食べる)、動詞補語(例えば、ゆっくり)に非常に緊密に対応し、それらは包括的なデータを記述するための本質的なコンポーネントである。ビデオ・ショットの記述であり得る「若い少年がリンゴをゆっくり食べる」は、図2におけるエンティティ-関係モデルを用いて表現される。このモデル化技術は、写真及びそれらの特徴のコンテンツを画像検索のためにモデル化すべく使用された。
【0032】
この節において我々は、先行して議論された短所に対処すべく、現行の包括的AV DSに対する基本的なエンティティ-関係モデルを提案するものである。この基本的なエンティティ-関係モデルは、(1)コンテンツ要素の属性、(2)コンテンツ要素間の関係、並びに、(3)コンテンツ要素自体に索引付けする。これらモデルは図5に描かれている。当方の提案は、A. Jaimes and S. −F. Chang, “A Conceptual Framework for Indexing Visual Information at Multiple Levels”, Submitted to Internet Imaging 2000に提示されたビジュアル情報に索引を付けるための概念的フレームワークの上部に構築される。
【0033】
発明の概要
本発明の目的は、包括的なマルチメディア情報に対するコンテンツ記述方式を提供することである。
【0034】
本発明の別の目的は、規格化されたマルチメディアコンテンツ記述方式を具現化する技術を提供することである。
【0035】
本発明の更なる目的は、マルチメディアコンテンツを求めて、インターネット或は地域ネットワーク若しくはローカルネットワーク上での改善されたコンテンツの感応性の一般的検索をユーザに実行させるアプローチを提供することである。
【0036】
本発明の更に別の目的は、包括的特性或は意味論的関係の何れかに基づくマルチメディア情報に埋め込まれたコンテンツを取り込むシステム及び技術を提供することである。
【0037】
本発明のまた更なる目的は、エンティティ属性の構文及び意味への区別に基づきマルチメディア情報に埋め込まれたコンテンツを組織化する技術を提供することである。構文論的属性は異なるレベル、即ち、タイプ/技術、グローバル分配(区分)、ローカル構造、並びに、グローバル組成に分類され得る。意味論的属性は異なるレベル、即ち、包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーンに分類され得る。
【0038】
本発明のまた更なる目的はエンティティ関係の構文論的部類及び意味論的部類への分類である。構文論的関係は空間的、時間的、並びに、オーディオ部類に分類され得る。意味論的関係は語彙的及び述語的部類に分類され得る。空間的及び時間的関係は位相幾何学的且つ方向的であり得、オーディオ関係はグローバル、ローカル、或は、組成であり得、語彙的関係は同義語(synonymy)、反対語(antonymy)、上下関係(hyponymy)/ハイパーニミー(hypernymy)、或は、メロニミー(meronymy)/ハローニミー(holonymy)であり得、述語的関係は活動(イベント)或は状態であり得る。
【0039】
本発明の更なる目的は、ビデオ及びオーディオ信号分類という点で、各レベル、及びエンティティ関係を記述することである。
【0040】
本発明の別の目的は基本的及び明白なエンティティ-関係モデルを提供して、コンテンツ要素属性、コンテンツ要素間の関係、並びに、コンテンツ要素自体に索引付けすることによってこれら争点に対処することである。
【0041】
この仕事は、A. Jaimes and S. −F. Chang, “A Conceptual Framework for Indexing Visual Information at Multiple Levels”, Submitted to Internet Imaging 2000に提示されて、包括的AV DSに対して拡張されたビジュアル情報に索引付けする概念的なフレームワークに基づいている。他の参照文献(例えば、S. Paek, A. B. Benitez, S.-F. Chang, C.-S. Li, J.R. Smith, L.D. Bergman, A. Puri, C. Swain, and J. Ostermann, “Proposal for MPEG-7 image description scheme”, Proposal to ISO/IEC JTC1/SC29/WG11 MPEG99/P480, Lancaster, U.K., Feb. 1999)での仕事は関連しており、その理由はコンテンツ要素(特にエンティティ関係グラフにおけるエンティティ-関係グラフ及び階層を伴う)の間の関係におけるコンテンツ要素(オブジェクト)及び仕様の記述を分離するからである。そうすることにより、E−Rモデルを明らかに指定する。
【0042】
我々はビジュアル情報に索引付けするための記述の多数レベルの問題に焦点を合わせている。我々は、認識心理学、ライブラリサイエンス、美術、並びに、より最近のコンテンツに基づく検索等の多様な分野における文献からの概念を単一化している新規の概念的フレームワークを提示する。我々はビジュアル情報及び非ビジュアル情報の間の区別を為すと共に適切な構造を提供する。提示された10レベルのビジュアル構造は、構文(例えば、色、質感等々)及び意味(例えば、オブジェクト、イベント等々)に基づく画像に索引を付ける体系的な方法を提供すると共に、一般概念及びビジュアル概念の間の区別を含む。我々は異なるタイプの関係(例えば、構文、意味)を異なるレベルのビジュアル構造で規定する共に、意味論的情報テーブルをも用いて、(例えば、非ビジュアル構造に見える)画像に関連した重要な局面を要約する。
【0043】
当方構造は、現時点での最高水準の技術であるコンテンツに基づく検索技術を正しい釣り合いに据えて、それらを現実のユーザの要望及び他分野における調査に関連させる。以上に提示されたような構造を用いることはユーザ及び彼等の興味を理解する点で有益であるばかりでなく、ビジュアル情報にアクセスすべく使用される記述のレベルに従ってコンテンツに基づく検索問題を特徴付ける。
【0044】
本発明はA. Jaimes and S. −F. Chang, “A Conceptual Framework for Indexing Visual Information at Multiple Levels”, Submitted to Internet Imaging 2000に提示された10レベル概念構造に基づくコンテンツ要素の属性に索引を付けることを提案しており、それは図3に示されるような構文(例えば、色及び質感)及び意味(例えば、意味論的注釈)に基づく属性を区別する。ビジュアル構造の最初の4つのレベルは構文(シンタックス: syntax)と呼称し、残りの6つのレベルは意味(セマンティックス: semantics)と呼称する。構文論的レベルはタイプ/技術、グローバル分配、ローカル構造、並びに、グローバル組成(構成)である。意味論的レベルは包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーンである。
【0045】
我々は包括的AV DSのエンティティ-関係グラフにおけるコンテンツ要素間における明白なタイプの関係をも提案する。我々は図4に示されるような構文論的及び意味論的関係の間を区別する。構文論的関係は空間的、時間的、並びに、ビジュアル的に分割される。空間的及び時間的属性は位相幾何学的及び方向的な分類に分類される。意味論的属性関係は、グローバル、ローカル、並びに、組成に更に索引付けが為される。語彙的関係は同義語(synonymy)、反対語(antonymy)、上下関係(hyponymy)/ハイパーニミー(hypernymy)、並びに、メロニミー(meronymy)/ハローニミー(holonymy)に分類される。述語的関係は活動(イベント)及びイベントに更に索引付けが為される。
【0046】
コンテンツ要素のタイプの点で、我々はそれらを構文論的及び意味論的に分類することを提案する。構文論的要素は、領域、動画化領域、並びに、区分要素に分割され得、意味論的要素はオブジェクト、動画化オブジェクト、並びに、イベント要素に索引付けが為され得る。我々はそれらの属性と他の要素との関係の点で提案された基本的モデルに提示されているこれら要素の明白で単一化された規定を提供する。これら要素の幾つかの間の相続関係も指定される。
【0047】
組み入れられてこの開示の一部を構成する添付図面は、本発明の好適実施例を図示すると共に、本発明の原理を説明する役割を果たす。
【0048】
好適実施例の説明
我々は、エンティティ-関係モデルが最も広範に使用された概念的モデルであるので、ここで使用されるモデル化技術を選択する。それらは高度の抽象性を提供すると共に、ハードウェア及びソフトウェア独立型である。これらモデルをハードウェア及びソフトウェア従属型である具現化のために物理的モデルに変換する具体的な手続きが存在する。物理的モデルの例としては階層モデル、関係モデル、並びに、オブジェクト方向的モデルである。MPEG-7の前後関係におけるE−R概念フレームワークは、J.R. Smith and C.-S. Li, “An E-R Conceptual Modeling Framework for MPEG-7”, Contribution to ISO/IEC JTC1/SC29/WG11 MPEG99, Vancouver, Canada, July 1999に議論されている。
【0049】
図5に示されるように、我々は属性(或はMPEG-7記述)、関係、並びに、コンテンツ要素に対する構文論及び意味論の間の区別を為す。構文論はコンテンツ要素がそうした配列の意味を考慮することなしに配列される方法を言及している。他方、意味論はそうした要素やそれらの配列の意味合いを処理する。この節の残りにおいて議論されるように、構文論的及び意味論的属性は幾つかのレベルを言及できる(構文論的レベルはタイプ、グローバル分配、ローカル構造、並びに、グローバル組成であり、意味論的レベルは包括的オブジェクト/シーン、具体的オブジェクト/シーン、並びに、抽象的オブジェクト/シーンであり、図3を参照されたい)。同様に、構文論的及び意味論的関係は異なるレベルを言及するサブタイプに更に分割され得る(構文論的関係は、包括的及び具体的レベルで、空間的、時間的、並びに、ビジュアル的な関係に分類され、意味論的関係は語彙的及び述語的に分類され、図4を参照されたい)。我々は属性及び他の要素のとの関係のそれらの関連されたタイプに基づき構文論的及び意味論的要素の小型で明確な定義を提供する。しかしながら、包括的AV DSとの重要な相違は、当方の意味論的要素が意味論的属性だけを含むのではなく、構文論的属性をも含むことである。それ故に、もしアプリケーションが構文論的及び意味論的要素の間の区別を為さなければ、全ての要素を意味論的要素として具現化することによってそうすることができる。
【0050】
基本的エンティティ-関係モデルの説明を明確するために、我々は図6乃至図9における例を使用することとする。図6は、バッティング・イベント及びバッティング区分(包括的AV DSにおいて規定されたような区分及びイベント)として表しているベースボール・ゲームのビデオ・ショットを示している。図7は、フィールド・オブジェクト、ヒット・イベント、スロー(投球)・イベント、スロー及びヒットのイベント間の「前」である時間的関係、並びに、何等かのビジュアル属性で構成されたバッティング・イベントの可能性ある記述を含む。図8はスロー及びヒットのイベントとそれらの間の関係の記述を表している。スロー・イベントは、ピッチャー・オブジェクトがバッター・オブジェクトへ向けてのボール・オブジェクトに関する実行、即ち「スロー」である活動である。我々はピッチャー・オブジェクトに対するある種の意味論的属性を提供する。ヒット・イベントはバッター・オブジェクトが同一ボール・オブジェクトに関しての実行、「ヒット」である活動である。図9はフィールド・オブジェクトの3つの異なる領域への分解を示し、その内の1つが空間的関係”On top of”(の上に)によってピッチャー・オブジェクトに関係付けられている。これら領域の内の1つに対する幾つかのビジュアル属性が提供される。
【0051】
属性のタイプ
我々は10レベルの概念的構造を提案して、画像及びビデオ記述におけるビジュアルコンテンツ要素(例えば、領域、画像全体、並びに、イベント)に索引付けする。この構造は、実際の画像或はビデオ・シーケンスに明白に描かれた情報にだけ有効である(例えば、絵画の値段はビジュアルコンテンツの一部とならない)。
【0052】
提案された構造は10レベルを含むものであり、即ち、最初の4つの構文論を言及し、残りの6つは意味論を言及している。ビジュアル構造の総覧が図3に付与されている。このピラミッドにおいてレベルがより低ければ、より多くの知識及び情報が索引付けを実行するために必要とされる。各レベルの幅はそこで必要とされる知識量の指示である。属性の索引付けコストは属性の副属性として含ませることができる。構文論的レベルは、タイプ/技術、グローバル分配、ローカル構造、並びに、グローバル組成である。意味論的レベルは、包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーンである。これら分割の内のあるものは厳密ではないが、それはユーザが何を検索しているか、そして彼がそれをどのようにしてデータベース内に見出そうとしているかを理解する点で直接的な効果を有するので考慮されるべきである。それはまた必要とされている知識という点で異なる索引付け技術(手動及び自動)の制限を強調している。
【0053】
図3において、索引付けビジュアル構造はピラミッドによって表現される。そのピラミッドにおいてレベルがより低ければ、より多くの知識及び情報がそこでの索引付けを実行するために必要とされることは明らかである。各レベルの幅は必要とされる知識量の指示であり、例えば、より多くの知識が同一シーン内における複数の具体的オブジェクトを名付けるために必要とされる。
【0054】
図5において、構文論的属性(構文論的Ds)は列挙された属性のレベルを含み、その値はそれと対応するビジュアル構造(図3)における構文論的レベルであり、即ち、タイプ、グローバル分配、ローカル構造、或は、グローバル組成−或は「指定されず」である。また意味論的属性は列挙された属性のレベルを含み、その値はそれと対応する意味論的構造(図3)における意味論的レベルであり、即ち、包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーン−或は「指定されず」である。構文論的及び意味論的属性の異なるタイプをモデル化する別の可能性は、構文論的及び意味論的属性要素を下位に分類して、タイプ、グローバル分配、ローカル構造、並びに、グローバル組成構文論的属性、或は、包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、抽象的シーン属性(これらのタイプの幾つかは全てのオブジェクト、動画化オブジェクト、並びに、イベントに適用されない)をそれぞれ作り出す。
ビジュアル構造の各レベルは以下に説明される。レベル間の関係の議論は以降に現れる。このビジュアル構造及びレベル間の関係に基づき、我々は以下の節におけるコンテンツ要素のタイプを規定する。
【0055】
最も基本的なレベルにおいて、我々は画像或はビデオ・シーケンスの包括的ビジュアル特性に興味がある。画像或はビデオ・シーケンス或はそれを作り出すべく使用される技術の記述は非常に一般的であるが、ビジュアル・データベースを組織化する際に非常に重要であることが証明されている。例えば画像は、絵画、黒白(b&w)、カラー写真、並びに、図面等の部類に据えられ得る。このレベルでの関連された分類方式はWebSEEkで自動的に為された。例えば図6におけるタイプはカラー・ビデオ・シーケンスである。
【0056】
グローバル分配 先行するレベルでのタイプ/技術は画像或はビデオ・シーケンスのビジュアル特性についての一般情報を付与するが、ビジュアルコンテンツについての情報は殆ど付与しない。グローバル分配は画像或はビデオ・シーケンスをそれらのグローバルコンテンツに基づき分類することを狙っており、スペクトル(色)及び周波数感度(質感)等の低レベル知覚特徴に関して測定される。コンテンツの個々別々のコンポーネントはこのレベルで処理されず(即ち、「形態」が測定がグローバルに執り行われるシーンにおけるこれら分配に何等付与されない)、そこでグローバル分配特徴はグローバル色を含み得て(例えば、際立った色、平均、ヒストグラム)、グローバル質感(例えば、粗さ、方向的、コントラスト)、グローバル形状(例えば、アスペクト比)、グローバル運動(例えば、速度及び加速度)、カメラ運動、グローバル変形(例えば、成長速度)、並びに、時間的/空間的寸法(例えば、空間的領域及び時間的寸法)を含み得る。図6でのバッティング区分に対して、グローバル分配属性である色ヒストグラム及び持続時間は指定されている(図7参照)。
【0057】
これら測定の幾つかは人間観測者が定量化することは難しいかもしれないが、これらグローバル低レベル特徴は様々なコンテンツに基づく検索システムにうまく使用されて、閲覧のためのデータベースのコンテンツを組織化し且つ例えば問合せを実行する。
【0058】
ローカル構造
画像或はビデオ・シーケンスの情報の処理において、我々はグループ分けの異なるレベルを実行する。画像或はビデオ・シーケンスの個々別々の部分について任意の情報を提供しないグローバル構造とは対照的に、ローカル構造レベルはコンポーネントの抽出及び特徴付けに関する。最も基本的なレベルで、それらのコンポーネントは低レベル処理から生じて、点、線、トーン、色、並びに、質感等の要素を含む。一例として、2進法形状マスクは図6におけるバッティング区分を記述する(図7参照)。ローカル構造属性の他の例は、時間的/空間的位置(例えば、開始時及び重心)、ローカル色(例えば、MxNレイアウト)、ローカル運動、ローカル変形、ローカル形状/2D幾何形状(例えば閉ざされた箱)である。
【0059】
そうした要素はコンテンツに基づく検索システムにも使用され、主にビジュアルSEEk等のユーザ-スケッチ・インターフェースによる質問についてである。ここでの関心事はオブジェクトではなく、それらを表す基本的要素と、例えば4つの線によって形成される正方形等の要素の組合せとである。
【0060】
グローバル組成
このレベルで、我々はローカル構造によって付与される基本的要素の具体的な構成或は組成に焦点を合わせている。言い換えれば、我々は画像を全体として分析するが、分析のために先行するレベルで記載された基本要素を使用するのみである(例えば、線及び円)。グローバル組成は画像における複数要素からの構成或は空間的レイアウトを言及している。当業界での従来の分析は、バランス、対称性、興味対象(注目或は焦点の中心)、先導線、並びに、視角等の組成概念を記述する。しかしながらこのレベルで、具体的オブジェクトの知識がなく、基本的要素(例えば、点、線、並びに、円)或は基本的要素のグループが考慮される。図6での砂1領域の2D幾何形状はグローバル組成属性である(図9参照)。
【0061】
包括的オブジェクト
先行レベルまで、多量の知識は索引付けを実行するために必要とされず、それで自動的技術が使用され得て、これらレベルでの関連情報を抽出する。しかしながら幾つかの研究は、人間が主により高いレベル属性を使用して、ビジュアル資料のために、記述、分類、並びに、検索を為すことを実証した。C. Jorgensenの「Image Attributes in Describing Tasks; an Investigation”, Information Processing & Management, 34, (2/3), pp.161-174, 1998と、C. Jorgensenの”Retrieving the Unretrievable: Art, Aesthetics, and Emotion in Image Retrieval Systems”, SPIE Conference in Human Vision and Electronic Imaging, IS&T/SPIE99, Vol.3644, San Jose, CA, Jan. 1999がある。オブジェクトは特に興味深いが、それも異なるレベルの部類に据えられ得る、即ち、リンゴはマッキントッシュ・アップルとしてか、フルーツとしてかに分類され得る。包括的オブジェクトを言及する際、我々は基本的レベル部類に興味を示し、それは通常の知識で認識され得る最も包括的なレベルのオブジェクト記述である。図6におけるピッチャー・オブジェクトに対して包括的なオブジェクト属性は注釈「男」であり得る(図8参照)。
【0062】
包括的シーン
画像或はビデオ・シーケンスがそれの中に現れる個々のオブジェクトに従って索引付けされ得るのとちょうど同じように、ビジュアル資料を全体としてそれが含むオブジェクトの全ての集合とそれらの構成に基づいて索引付けることが可能である。シーン分類の例は、市、風景、屋内、屋外、静物、並びに、肖像画、を含む。このレベルに対するガイドラインは、一般的知識が要求されるだけである。それが市のシーンであることを決定するために具体的な通り或は建物の名前を知ることは必要ないか、その画像が肖像画であることを知るために個々の名前を知る必要がない。図6におけるバッティング・イベントに対して、値「バッティング」を具備する包括的シーン属性が指定される(図7参照)。
【0063】
先行するレベルとは対照的に、具体的オブジェクトは識別されると共に名付けられたオブジェクトを言及している。画像或はビデオ・シーケンス内のオブジェクトの具体的な知識が必要とされ、そうした知識はそれが公知事実に依存するので通常は客観的である。例としては個々の人(例えば、図6において意味論的注釈「ヤンキースのプレイヤ#3であるピーター」)或はオブジェクト(例えば、スタジアム名)を含む。
【0064】
このレベルは、そのシーンについての具体的な知識があるという相違を伴って、包括的シーンと類似している。ビジュアル資料に異なるオブジェクトが描かれた具体的なシーンを決定する異なる方法に寄与し得る一方、単一のオブジェクトはしばしば充分なものである。ホワイトハウスを明確に示す写真は、例えば、そのオブジェクトにだけに基づくホワイトハウスのシーンとして分類され得る。図7におけるバッティング・イベントに対して、値「ヤンキースのプレイヤ#32によるバット」を伴う具体的シーン属性は指定される。
【0065】
このレベルで、オブジェクトが表現するものについての特殊化された知識が使用される。この索引付けレベルはシーンにおける最も難しい1つであり、それは完全に主観的であり、異なるユーザ間の成績評価は大きく変動し得る。このレベルの重要性は実験において示され、ビューアが画像を記述すべく抽象的属性を使用した。例えば、写真内の女性は一方の観測者にとっては怒りを表現し得るが、他の観測者には憂いを表現し得る。図8におけるピッチャー・オブジェクトに対して、値「速度」を伴う抽象的シーンは指定される。
【0066】
抽象的シーン・レベルは画像が全体して表現しているものを言及している。それは正に主観的であり得る。ユーザは画像を、オブジェクトに対するように、悲しみ、幸せ、力、天国、並びに、極楽等々の抽象的用語でしばしば記述する。図7におけるバッティングに対して、値「良好な戦略」を伴う抽象的シーンは指定される。
【0067】
関係のタイプ
この節において、我々は包括的AV DSに含まれることを提案するコンテンツ要素間の関係の明白なタイプを提示する。図4に示されるように、関係は先行して提示されたビジュアル構造の異なるレベルで規定される。コンテンツ要素間での関係を表現するために、我々はビジュアル構造における構文論及び意味論への分割を考える。我々が提案する関係タイプの間の制限の内の幾つかは、以下に議論されるビジュアル構造のレベルに対するように堅固ではない。
【0068】
ビジュアル構造の構文論的レベルでの関係は2Dスペースにおいて生じ得るものであり、その理由は3D関係を決定すべくこれらレベルでのオブジェクトの知識が全くないからである。構文論的レベルでは、構文論的関係のみが可能であり、即ち、空間的(例えば、「近い」)、時間的(例えば、「同時に」)、並びに、ビジュアル(例えば、「より暗い」)の関係であり、それらは唯一構文論的知識に基づくものである。空間的及び時間的属性は位相幾何学的及び方向的な分類に分類される。ビジュアル関係は、グローバル、ローカル、並びに、組成に更に索引付け為される。
【0069】
ビジュアル構造の意味論的レベルでは、コンテンツ要素間の関係は3Dで生じ得る。図4に示されるように、これらレベル内での要素は意味論的関係にだけ関連されるわけではなく、構文論的関係にも関連される(例えば、「一方の人が他方の人に近い」、及び、「一方の人が他方の人の友人である」)。我々は2つの異なるタイプの意味論的関係:同義語、反対語、上下関係(hyponymy)/ハイパーニミー(hypernymy)、或は、メロニミー(meronymy)/ハローニミー(holonymy)、活動(イベント)或は状態を言及する述語的関係等の等の語彙的関係の間を区別する。
【0070】
図4において、関係はビジュアル構造の異なるレベルで提案されている。構文論レベル内での要素は関係:構文論の内の1つのタイプに従って関係付けられている。意味論的レベル内の要素は2つのタイプの関係:構文論及び意味論に従って関係付けられている。我々は、以下の節の例で、構文論的及び意味論的関係をより広範に説明する。テーブル1及び2は例を含む関係に対する索引付け構造を要約している。
【0071】
構文論的関係 我々は構文論的を3つの分類に分割するものであり、即ち、空間的、時間的、並びに、ビジュアル(視覚的)である。空間的及び時間的関係はビジュアル関係の正に特殊ケースであると議論し得る。我々は空間的及び時間的関係を特殊な方法で規定する。これら関係に対して、我々は要素をサイズ或は持続時間についての情報を何等伴うことがない空間或は時間における境界として考える。構文論的関係及び例の提案されたタイプの要約に対するテーブル1を参照のこと。
【0072】
D. Hernandez, “Qualitative Representation of Spatial Knowledge”, Lecture Notes in Artificial Intelligence, 804, Springer-Verlag, Berlin, 1994.の研究に追随して、我々は空間的関係を以下の分類に分割するものであり、(1)位相幾何学、即ち、要素の境界はどのように関係するか、そして(2)配向的或は方向的、即ち、要素は互いに対して何処に配置されているかである(テーブル1参照)。位相幾何学的関係は「近くにあること」、「内にあること」、そして、「隣接していること」であり、方向的関係の例は「前にあること」、「左側にあること」、そして、「上部にあること」である。周知の空間的関係グラフは2Dストリング、Rであり、属性関係グラフである。
【0073】
同様に、我々は時間的関係を位相幾何学的及び方向的分類に分類する(テーブル1参照)。時間的位相幾何学的関係の例は、「同時に起こること」、「部分的に重なること」、そして、「内で起こること」であり、方向的時間的関係の例は、「前に起こること」及び「後に起こること」である。SMILの同時及び順次関係(ワールドワイドウェブ共同体、SMILウェブサイト、http://www.w3.org/AudioVideo/#SMIL)は時間的位相幾何学的関係の例である。
【0074】
ビジュアル関係はそれらのビジュアル属性或は特徴に基づく要素を関係付ける。これらの関係はグローバル、ローカル、並びに、組成の分類に索引付けが為され得る(テーブル1参照)。例えば、ビジュアル・グローバル関係は「より平滑化すること」(グローバル質感特徴に基づく)、ビジュアル・ローカル関係は「より高速に加速すること」(運動特徴に基づく)、そして、ビジュアル組成関係は「よりも対称的であること」(2D幾何形状特徴に基づく)である。ビジュアル関係は、ビジュアル特徴:色、質感、2D幾何形状、時間、運動、変形、並びに、カメラ運動の任意の組合せに基づくショット/キー・フレームにクラスタ化すべく使用され得る。
【0075】
【表1】
Figure 0004643099
【0076】
ビジュアル構造の例が異なるレベル(包括的、具体的、並びに、抽象的)を有している同様な方法において、これらのタイプの構文論的関係(テーブル1参照9は包括的レベル(「近い」)或は具体的レベル(「から0.5フィート」)で規定され得る。例えば、「の結合であるべき:」、「の交差であること」、並びに、「の否認であること」等の操作的関係は位相幾何学的、空間的或は時間的の何れかの具体的関係である(テーブル1参照)。
【0077】
ベースボール・ゲーム例を続けると、図7はバッティング・イベントがその構成要素(即ち、バッティング区分、フィールド・オブジェクト、ヒット・イベント、並びに、スロー・イベント)や、それらの間の関係(即ち、ヒット・イベントからスロー・イベントへの時間的関係「前」)によってどのように規定されるかを示している。バッティング・イベント及びその構成要素は空間的-時間的関係「から構成」によって関連されている。
【0078】
意味論的関係は10レベルの概念的構造の意味論的レベルでのコンテンツ要素間で生ずるのみである。我々は意味論的関係を語彙的意味論及び述語的関係に分割する。テーブル2は例を含む意味論的関係を要約している。
【00079】
【表2】
Figure 0004643099
【0080】
語彙意味論的関係はワールドネット(WordNet)で使用される名詞の間の意味論的関係と対応している。これらの関係は同義語である(パイプはチューブと同様である)、反対語(antonymy)(幸せは悲しみと対立する)、上下関係(hyponymy)(犬は動物である)、ハイパーニミー(hypernymy)(動物及び犬)、メロニミー(meronymy)(ミュージシャンはミュージック・バンドの一員である)、並びに、ハローニミー(holonymy)(ミュージック・バンドはミュージシャンから構成される)である。
【0081】
述語意味論的属性は2つ或はそれ以上の要素の間の活動(イベント)或は状態を言及している。活動関係の例は「スロー(投球)すること」及び「ヒットすること」である。状態関係の例は「属すること」及び「所有すること」である。図8は2つの活動関係:「スロー」及び「ヒット」を含む。述語意味論を活動或は状態にただ分割する代わりに、我々はワールドネットで使用される部分的関係意味論分解を用いることができる。ワールドネットは動詞を15個の意味論的ドメインに分割する:身体上の世話及び機能の動詞、変化、認識、通信、競争、消費、接触、創造、情緒、運動、感覚、所持、社会的な相互作用、並びに、天気の動詞である。ビジュアル概念の記述に対して関連しているドメインだけが使用される。
【0082】
ここに提示された10レベルのビジュアル構造に関して、我々は異なるレベル:包括的、具体的、並びに、抽象的での意味論的関係を規定できる。例えば、包括的活動関係は「株式を所有すること」、具体的活動関係は「株式の80%を所有すること」、そして最後に、抽象的意味論関係は「その会社を支配すること」である。
【0083】
図6におけるスロー(投球)・イベント及びヒッティング・イベントに対して、図8は、ピッチャー・オブジェクトがバッター・オブジェクトにボール・オブジェクトを「スロー(投球)」し、バッター・オブジェクトがそのボール・オブジェクトを「ヒット」するの2つのオブジェクトの活動を記述すべく意味論的関係の使用を示している。
【0084】
エンティティのタイプ
この時点まで、我々は属性の明白なタイプとコンテンツ要素間の関係を提案した。この節において、我々は新タイプのコンテンツ要素(基本的E−Rモデルのエンティティ)を提案すると共に、各コンテンツ要素タイプの明白で単一化された規定を提供する。
【0085】
我々は、(1)コンテンツ要素を技術する属性と、(2)それらを他のコンテンツ要素に関連させる関係とに基づいて、それらコンテンツ要素のタイプを規定する。先行して我々は、10レベルのビジュアル構造におけるコンテンツ要素の属性に索引付けする。ピラミッドにおける最初の4つのレベルは意味論に対応し、他の6つのレベルは意味論に対応している。更に、我々は関係を2つの分類に分割する、即ち、構文論及び意味論である。結果として、我々は2つの基本タイプのコンテンツ要素:構文論的及び意味論的要素を提案する(図5参照)。構文論的要素は構文論的属性及び関係のみを有することができ(例えば、色ヒストグラム属性及び空間的関係「の上に」)、意味論的要素は意味論的属性及び関係のみを有することができるばかりではなく、構文論的属性及び関係(例えば、オブジェクトは色ヒストグラム及び意味論的注釈記述子で記述され得る)をも有することができる。当方のアプローチは、当方の意味論的(或は高レベル)要素が構文論的及び意味論的構造の堅固な分離を解決する構文的及び意味論的情報を含むことで、現行包括的AV DSとは異なる。
【0086】
図5に示されるように、我々は構文論的要素を、領域、動画化領域、並びに、区分要素に更に分類する。同様に、意味論的要素は以下の意味論的分類に分類される、即ち、オブジェクト、動画化オブジェクト、並びに、イベントである。領域及びオブジェクトは空間的エンティティである。区分及びイベントは時間的エンティティである。最後に、動画化-領域及び動画化-オブジェクトはハイブリッドな空間的-時間的エンティティである。我々はこうして各節で各タイプを説明する。
【0087】
構文論的エンティティ
構文論的要素は、構文論的属性によってだけ記述される画像或はビデオ・データにおけるコンテンツ要素であり、即ち、タイプ、グローバル分配、ローカル構造、或は、グローバル組成属性(図5参照)である。構文論的要素はビジュアル関係で他の要素と関係付けられ得る。我々はこれら構文論的要素を、領域、動画化-領域、並びに、区分要素に更に分類する。これら要素は相続関係を介して構文論的要素から誘導される。
【0088】
領域要素は、画像或はビデオ・フレームの恣意的な連続的或は断続的セクションを言及する純粋な空間的エンティティである。領域は、構文論的属性の集合と、空間的及びビジュアル関係によって関係付けられる領域のグラフとによって規定される(図5参照)。組成関係が空間的、位相幾何学的タイプであることを指摘することが重要である。領域の可能性ある属性は、色、質感、並びに、2D幾何形状である。
【0089】
区分要素はビデオ・シーケンスの隣接する或は隣接しないフレームの恣意的な集合を言及する純粋な時間的エンティティである。区分は、構文論的特徴と、区分、動画化領域、並びに、時間的及びビジュアル関係によって関係付けられる領域から成るグラフとの集合によって規定される(図5参照)。組成関係はタイプ時間的、位相幾何学的(トポロジカル)タイプである。区分の可能性ある属性は、カメラ運動及び構文論的特徴である。例えば図7におけるバッティング区分は、時間的持続時間(グローバル分配、構文論的)と、形状マスク(ローカル構造、構文論的)属性とによって記述される区分要素である。この区分は、バッティング・イベント(空間的-時間的関係、構文論的)との「から成る」関係を有する。
【0090】
動画化-領域要素は、ビデオ・シーケンスの恣意的な集合フレームの恣意的なセクションを言及するハイブリッドな空間的-時間的エンティティである。動画化領域は、構文論的特徴、動画化領域と組成によって関係付けられる領域から成るグラフ、空間的-時間的関係、並びに、ビジュアル関係の集合によって規定される(図5参照)。動画化領域は領域及び区分要素からの任意の特徴を含み得る。動画化領域は同じ時間の区分及び領域である。例えば、図8におけるピッチャー領域は、アスペクト比(グローバル分配、構文論的)、形状マスク(ローカル構造、構文論的)、並びに、対称(グローバル組成、構文論的)属性によって記述される動画化領域である。この動画化領域は砂3領域(空間的-時間的関係、構文論的)「の上に」である。
【0091】
意味論的エンティティ
意味論的要素は意味論的特徴によって記述されるばかりではなく、構文論的特徴によっても記述されるコンテンツ要素である。意味論的要素は意味論的及びビジュアル関係によって他の要素と関係付けられ得る(図5参照)。それ故に、我々は相続を用いて構文論的要素から意味論的要素を誘導する。我々は意味論的要素を、オブジェクト、動画化-オブジェクト、並びに、イベント要素に更に分類する。純粋意味論的属性は注釈であり、それらは通常テキスト・フォーマット形態である(例えば、6-W意味論的注釈、自由テキスト注釈)。
【0092】
オブジェクト要素は意味論的及び空間的エンティティであり、それはビデオの画像或はフレームの恣意的なセクションを言及している。オブジェクトは、構文論的及び意味論的特徴と、オブジェクトと空間的(組成は空間的関係)、ビジュアル、並びに、意味論的関係によって関係付けられる領域のグラフとの集合によって規定される。オブジェクトは領域である。イベント要素は意味論的及び時間的エンティティであり、それはビデオ・シーケンスの恣意的セクションを言及している。イベントは、構文論的及び意味論的特徴と、イベント、区分、動画化領域、動画化オブジェクト、領域、並びに、時間的(組成は時間的関係である)、ビジュアル、並びに、意味論的関係によって関係付けられるオブジェクトから成るグラフとの集合によって規定される。イベントは意味論的属性及び関係を伴う区分である。例えば、図7におけるバッティング・イベントは、「バッティング」(包括的シーン、意味論的)、「ヤンキースのプレイヤ#32によるバット」(具体的シーン、意味論的)、並びに、「良好な戦略」(抽象的シーン、意味論的)の属性によって記述されるイベント要素である。バッティング区分の構文論的属性はバッティング・イベントに適用され得る(即ち、我々はバッティング・イベント及びバッティング区分の間を区別しせず、バッティング区分の構文論的属性をバッティング・イベントに割り当てる)。バッティング・イベントは、フィールド・オブジェクト、バッティング・イベントにおける二人の男の活動を表すスローイング及びヒッティングのイベントから構成される(即ち、ボールのスローイング及びヒッティング)。スローイング及びヒッティングのイベントは「前」関係によって関係付けられている(時間的関係、構文論的)。
【0093】
最後に、動画化-オブジェクト要素は意味論的及び空間的-時間的エンティティであり、それはビデオ・シーケンスのフレームの恣意的な集合における恣意的なセクションを言及している。動画化オブジェクトは構文論的及び意味論的特徴と、動画化オブジェクト、動画化領域、領域、並びに、組成、空間的-時間的、ビジュアル、並びに、意味論的関係によって関係付けられるオブジェクトから成るグラフとの集合によって規定される(図5参照)。動画化オブジェクトは同じ時間のイベント及びオブジェクトである。例えば、図8におけるピッチャー・オブジェクトは、「男」(包括的オブジェクト、意味論的)、「ヤンキースのプレイヤ#3」(具体的オブジェクト、意味論的)、並びに、「速度」(抽象的オブジェクト、意味論的)の属性によって記述される。この動画化オブジェクトは図9に示された砂3領域「の上に」である(空間的-時間的関係、構文論的)。ピッチャー領域の構文論的特徴はピッチャー・オブジェクトに適用され得る。我々はこの動画化オブジェクトの構文論的及び意味論的属性を包括的AV DSで具体化されるように分離する。しかしながら我々は、そうすることにおいて柔軟性及び効率性を喪失し、その理由は異なる要素にわたって「現実」のオブジェクトの規定を分配するからである。
【0094】
図5は、コンテンツ要素の各提案されたタイプの基本的モデルを提供している。属性、要素、並びに、関係は、構文論及び意味論の分類に分類される。意味論的及び構文論的属性は関連された属性、それらが言及するビジュアルのレベルに対応する値を有するレベルを有する。構文論的要素は、領域、区分、並びに、動画化領域に更に分類される。意味論的要素は、オブジェクト、動画化オブジェクト、並びに、イベントの分類に分類される。
【0095】
図6は模範的なベースボール・バッティング・イベントを描いている。
【0096】
図7は、本発明に従った図6におけるベースボール・ゲームに対するバッティング・イベントの概念的記述を提供している。
【0097】
図8は、本発明に従った図6におけるバッティング・イベントに対するヒット及びスローのイベントの概念的記述を提供している。
【0098】
図9は、本発明に従った図6におけるバッティング・イベントに対するフィールド・オブジェクトの概念的記述を提供している。
【0099】
知覚対概念
また本発明は、画像の特性の分析及び分類における知覚及び概念の議論に関連して図示され得る。画像の索引付けに固有の難しさの1つは、それらが分析され得る方法の数である。単一画像は数多くのことを表現し得て、それが多くの情報を含むばかりか、我々が画像中に見る者が多数の抽象的概念へ写像され得るからである。そうした可能性ある抽象的記述と画像のビジュアル面だけに基づくより具体的な記述との間の違いは、索引付けにおける重要なステップに寄与する。
【0100】
以下の節において、我々は知覚及び概念の間の識別を為す。次いで我々は構文論及び意味論に対する定義又は規定を提供し、最後に一般概念空間及びビジュアル概念空間を議論する。コンテンツに基づく検索に関連するこれら規定の重要性は、当方の索引付け構造を定義する際に明らかとなる。
【0101】
知覚対概念
画像は情報の多重次元表現であるが、最も基本的なレベルでそれは光に対する応答を単に生ずる(色調-光或は光の欠如)。しかしながら最も複雑なレベルでの画像は、個々の知識、経験、並びに、特定の気持ちにも大きく依存する抽象的な考えを表現している。我々は知覚及び概念の間の識別を為すことができる。
【0102】
知覚は我々の感覚が知覚するものを言及し、ビジュアル・システムにおいてそれは光である。光のこれらのパターンは、質感及び色等の異なる要素から成る知覚を作り出す。我々が知覚を言及する際に解釈プロセスは何等生ぜず、知識は何等必要とされない。
【0103】
他方、概念は特定の例から導き出される抽象的或は一般的な考えを言及している。そうしたわけで、それは背景知識と知覚されるものの固有の解釈との使用を暗示している。概念は、それらが個々の知識及び解釈に依存すると云う意味で非常に抽象的であり得て、これは非常に主観的でありがちである。
【0104】
構文論及び意味論
知覚が解釈を何等必要としないのと同様に、構文論はビジュアル要素がその配列の意味合いを考慮すること無しに配列される方法を言及している。他方、意味論はこれら要素とそれら配列の意味合い処理する。以下に続く議論で示されるように構文論は、単純なグローバル色及び質感から線及び円等のローカル幾何形状形態までの幾つかの知覚レベルを言及している。意味論も異なるレベルで処理され得る。
【0105】
一般概念対ビジュアル概念 ここで我々は、一般概念とビジュアル概念とが異なり、且つ、それらが個人個人の間の変動し得ることを強調したい。
【0106】
一例としてボールを使用して、1つの可能性ある一般概念はボールが丸い塊であることを記述する一方で、異なる人々は異なる一般概念を有し得ることを我々は理解する。バレーボール・プレイヤはベースボール・プレイヤとはボールに関して異なる一般概念を有し得、それは先に記載したように、概念が背景知識及び解釈を暗示するからである。考え(或はこの場合、具体的なオブジェクト)の非常に異なる解釈を有することは異なる個人にとって当然である。ボールの一般及びビジュアルの概念に対して使用される属性が異なることは認識され得る(概念を記述するために規則が使用され得るが、我々はその説明を簡略化する代わりに属性を用いる)。
【0107】
これらの規定は、それらがコンテンツに基づく検索における非常に重要な争点を指摘しているので有用であり、即ち、異なるユーザが(正に単純なオブジェクトの)異なる概念を有し、そして正に単純なオブジェクトが異なる概念的レベルで見られる。詳細には、一般概念(即ち、援助者はその質問に答える:それは何?)及びビジュアル概念(即ち、援助者はその質問に答える:それは何に似ているか?)の間の重要な違いがあり、これは画像データベースを指定する際に考慮されなければならない。これらの考えを当方の索引付け構造の構成に適用する。概念的部類構造は知覚構造に基づき得る。
【0108】
先行する節で留意したように、画像には数多くのレベルの情報があり、それらの多重次元性はそれらをディジタル・ライブラリに組織化する際に考慮されなければならない。概念的索引付け構造を創作する際の第1ステップは、ビジュアル及び非ビジュアルのコンテンツの間の識別を為すことである。画像のビジュアルコンテンツはその画像が観測された際、直に知覚されるものと対応する(即ち、問題となっている画像或はビデオのビジュアルコンテンツによって直接的に刺激される記述子、線、形状、色、オブジェクト、等々)。非ビジュアルコンテンツはその画像に密に関係付けられる情報と対応するが、その外観によってはっきりと付与されていない。絵画において、例えば、価格、現行所有者等は非ビジュアル部類に属する。次に我々は画像のビジュアルコンテンツに対する索引付け構造を提示し、非ビジュアル情報に対する構造と共に追随する。
【0109】
ビジュアルコンテンツ
追随する分析のレベル各々は画像からだけ獲得される。ビューアの知識は常に役割を演ずるが、ここでの一般規則は、画像からはっきりとは獲得されない情報はこの部類に入らない(例えば、絵画の価格はビジュアルコンテンツの一部とはならない)。換言すれば、ビジュアルコンテンツに対して使用される任意の記述子は、問題となっている画像或はビデオのビジュアルコンテンツによって刺激される。
【0110】
当方のビジュアル構造は10レベルを含み:最初の4つは構文論を言及し、残りの6つが意味論を言及している。加えて、レベル1から4は知覚に直に関係付けられ、レベル5から10はビジュアル概念である。これらの分割の幾つかは厳格ではないが、それらはユーザが検索中のものであり且つ彼がデータベース内にそれをどのようにして見出そうとしているかを理解する点に関して直接的な衝撃を有するので、考慮されるべきである。またそれは、必要とされる知識の点で、異なる索引付け技術(手動及び自動)の制限を強調する。構造の総覧は図3に付与されている。この図面を隅々まで観測することで、ピラミッドのより低いレベルで、より多くの知識及び情報が索引付けを実行するために必要とされる。各レベルの幅はそこで必要とされる知識量の指示を付与し、例えば、より多くの情報がシーン内の特定オブジェクトを名付けるために必要とされる。各レベルは以下に説明され、レベル間の関係の議論はその後に現れる。
【0111】
この構造を観測することで、コンテンツに基づく検索における努力の殆どが構文論に焦点を合わせていることが明らかである(即ち、レベル1から4)。しかしながら、レベル5から10で意味論的分類を実行する技術は大いに望ましい。我々が提示する構造は、援助者が、特定技術によって取り扱われるか、或は所与の記述によって提供される属性のレベルを識別することである(例えば、MPEG-7注釈)。
【0112】
タイプ/技術
最も基本的なレベルで、我々は画像或はビデオ・シーケンスの一般的ビジュアル特性に興味がある。画像或はビデオ・シーケンスのタイプ、或は、それを作り出すべく使用される技術の記述は非常に一般的であるが、非常に重要であることが証明されている。例えば画像は、絵画、黒及び白(B&W)、カラー写真、並びに、図面等の部類に据えられ得る。このレベルでの関係付けられた分類方式は概念的に、そしてウェブシーク(WebSEEk)で自動的に行われる。
【0113】
ディジタル写真の場合、2つの男の部類はカラー及びグレイスケールであり得て、一般的なビジュアル特性に影響する付加的な部類/記述を伴う。これらは多数の色、圧縮方式、解像度等々を含み得る。我々は、これらの内の幾つかがここに記載された非ビジュアル索引付け局面と何等かの部分的重複し得ることを留意している。
【0114】
グローバル分配
先行するレベルでのタイプ/技術は、画像或はビデオ・シーケンスのビジュアル特性についての一般的情報を付与するが、そのビジュアルコンテンツについての情報を殆ど付与しない。グローバル分配は、それらのグローバルコンテンツに基づく画像或はビデオ・シーケンスを分類することを狙っており、スペクトル(色)、及び、周波数感度(質感)等の低レベルの知覚特徴という点で測定される。コンテンツの個別コンポーネントはこのレベルで処理されない(即ち、測定はグローバルに執り行われると云う意味で、これら分配に「形態」は何等付与されない)。それ故にグローバル分配特徴は、中でも、グローバル色(例えば、支配的な色、平均、ヒストグラム)、グローバル質感(例えば、粗さ、変化(加速度)、並びに、コントラスト)、グローバル形状(例えば、アスペクト比)、グローバル運動(例えば、速度、加速度、並びに、弾道)、カメラ運動、グローバル変形(例えば、成長速度)、並びに、時間的/空間的寸法(例えば、空間的領域及び時間的寸法)を含み得る。例えば、同様の質感/色を有する2つの画像を考える。この特定の場合、これら属性は非常に有用であるが、それはもしユーザがオブジェクトを検索中であれば有用ではないことに注目する。
【0115】
これら測定の幾つかは人間観測者にとって定量化することは難しいかもしれないが、これらのグローバル低レベル特徴は、例えば問合せを実行すべく(QBIC、WebSEEk、Virage)且つブラウズイング(閲覧すること)に対するデータベースのコンテンツを組織化すべく、様々なコンテンツに基づく検索システムに上首尾の内に使用される。
【0116】
ローカル構造
画像或はビデオ・シーケンスの個々の部分についての任意の情報を提供しないグローバル構造とは対照的に、ローカル構造レベルは画像のコンポーネントの抽出及び特徴付けに関する。最も基本的なレベルで、これらコンポーネントは低レベル処理から生ずると共に、点、線、トーン、色、並びに、質感等の要素を含む。ビジュアル・リテラシー文学において、これらの幾つかはビジュアル通信から成る「基本要素」と呼称されると共に、基本的な構文論的シンボルと見なされる。ローカル構造属性の他の例は、時間的/空間的位置(例えば、開始時及び重心)、ローカル色(例えば、MxNレイアウト)、ローカル運動、ローカル変形、並びに、ローカル形状/2D幾何形状(例えば、閉ざされた箱)である。このタイプの属性が重要であり得る様々な画像がある。x線及び顕微鏡画像には、しばしばローカル詳細に対して強力な関心事がある。そうした要素も、主にユーザ-スケッチ・インターフェースによる問合せに関する、コンテンツに基づく検索システムに使用される。ここでの関心事はオブジェクトに拘わらず、それらを表す基本的要素や、そうした要素の組合せであり、例えば正方形は4つの線によって形成される。その意味において、我々はここで、円、楕円、並びに、多角形等の幾つかの「基本的形状」を含むことができる。留意することは、これはビジュアル情報を知覚した際に人によって実行されるような非常に基本的なレベルの「グループ分け」であると考えられ得ることである。
【0117】
グローバル組成
このレベルで、我々はローカル構造によって付与される基本的な要素から成る具体的な構成に興味があるが、焦点はグローバル組成に合わせている。換言すれば、我々は画像を全体として分析するが、分析に対する先の記載された基本要素(線、円等々)を用いる。
【0118】
グローバル組成は画像における要素から成る構成或は空間的レイアウトを言及している。当業界での従来の分析は、バランス、対称性、興味の対象(例えば、注目或は焦点の中心)、先導線、並びに、視角等の組成概念を記述する。しかしながらこのレベルで、具体的オブジェクトの知識がなく、基本的要素(例えば、点、線等々)或は基本的要素のグループが考慮される。その意味で、画像の眺めは基本的構文論的シンボルのみを含む画像まで簡略化され、画像は線、円、正方形等々から成る構造化された集合によって表現される。
【0119】
包括的オブジェクト
先行するレベルまで、画像の知覚局面に対して強調が為された。ワールド知識は先のレベルの何れにおける索引付けを実行するためにも何等必要とされず、自動技術は低レベル処理にのみ依存する。これは自動索引付け及び分類に対する長所であるが、研究は人が主により高いレベルの属性を用いて、画像を記述し、分類し、そして検索することを論証している。オブジェクトは特に興味深いが、それも異なるレベルの部類に据えられ得る、即ち、リンゴはマッキントッシュ・アップルとしてか、リンゴとしてか、或はフルーツとしてかに分類され得る。包括的オブジェクトを言及する際、我々は基本的レベル部類に興味を示す、即ち、オブジェクト記述の最も一般的なレベルである。当業界での研究において、このレベルは事前図像と対応し、情報サイエンスにおいて人はレベルの一般としてそれを言及している。これら概念や包括的オブジェクトの当方の規定において共通の基礎を為す考えは、一般的な日常知識のみがオブジェクトを認識するために必要である。例えばマッキントッシュ・アップルはこのレベルでリンゴとして分類され、それはそのオブジェクトの記述の最も一般的なレベルである。
【0120】
当方の規定と当業界に先行して使用された規定との間の可能性ある違いは、我々が見ることができるエンティティとしてビジュアル・オブジェクトを規定すると云う事実に横たわっており、オブジェクトの従来の規定からしばしば異なる。空或は海洋のようなオブジェクトは、多分、従来の規定においてはオブジェクトと考えられないが、当方のビジュアル・オブジェクトと対応する(車、家等々のような従来のオブジェクトと共に)。
【0121】
包括的シーン
画像がその中に現れる個々のオブジェクトに従って索引付けされ得るように、画像を全体としてそれが含むオブジェクトの全て及びそれらの構成に基づいて索引付けすることが可能である。シーン分類の例としては、市、風景、屋内、屋外、静物、並びに、肖像画等々を含む。自動シーン分類のある種の作業は実行され、基本的なシーン部類における研究も存在している。
【0122】
このレベルに対するガイドラインは、一般的知識のみが必要とされることである。それが市のシーンであることを決定するために具体的な通り或は建物名を知る必要はないか、或は、それが肖像であることを知るために個人の名前を知る必要がない。
【0123】
具体的オブジェクト
先行するレベルと対照的に、具体的オブジェクトは識別すること及び名付けることが可能なオブジェクトを言及している。シャットフォード(Shatford)は特定的な物としてこのレベルを言及している。画像におけるオブジェクトの具体的知識は必要とされ、そうした知識は、それが公知の事実に依存するので通常客観的である。例としては個々の人々及びオブジェクトを含む。
【0124】
具体的シーン
このレベルは、そのシーンについての具体的知識が存在する違いを伴って包括的シーンと類似している。画像における異なるオブジェクトが該画像が具体的シーンを描くことを決定すべく異なる方法で寄与し得るが、単一オブジェクトがしばしば充分である。例えばエッフェル塔を明確に示す写真は、そのオブジェクトだけに基づきパリのシーンとして分類され得る。
【0125】
抽象的オブジェクト
このレベルで、オブジェクトが表現するものについての特殊化されるか或は解釈的な知識は使用される。これは当業界において図像解釈学(解釈)或はおよそレベルと呼称される。この索引付けレベルはシーンにおける最も難しい1つであり、それは完全に主観的であり、異なるユーザ間の評価は大きく変動し得ると云う意味においてである。このレベルの重要性は実験において示され、ビューアが画像を記述すべく抽象的属性を使用した。例えば、写真内の女性は一方の観測者にとっては怒りを表現し得るが、他の観測者には、多分、憂いを表現し得る。
【0126】
抽象的シーン・レベルは画像が全体として表現するものを言及している。それは非常に主観的であり得る。ユーザは画像を感情的(例えば情緒)或は抽象的(例えば、雰囲気、テーマ)の用語でしばしば記述する。抽象的シーン・レベルでの他の例は、悲しみ、幸せ、力、天国、並びに、極楽を含む。
【0127】
複数レベルにわたる関係 我々はピラミッド表現を選択したが、理由はそれが当方の構造に固有の幾つかの重要な争点を反映するからである。明らかであることは、ピラミッドのより低いレベルで、より多くの知識及び情報が索引付けを実行するために必要とされていることである。この知識は各レベルの幅によって表現される。しかしながら重要なことは、この仮定が幾つかの例外を有し得ることを指摘することである。例えば平均的な観測者は、絵画を作り出すべく使用された技術を決定することができない可能性があるが、当業界の専門家は何が使用されたかを正確に決定することができるであろう。この特殊な場合における索引付けは包括的オブジェクト・レベルよりもタイプ/技術レベルでより多くの知識を必要とすることになる(美術的な技術についての特殊な知識は必要とされるであろう)。しかしながら殆どの場合、索引付けに必要とされる知識は当方の構造の全てにおいて増大し、即ち、包括的なシーン・レベル(例えば公園)を決定するためによりも、より多くの知識が具体的なシーンを認識するために必要とされる(例えば、ニューヨーク市のセントラルパーク)。
【0128】
レベル相互の依存性が存在するが、各レベルは画像を観測する際に独立した遠近法或は寸法として見られることが可能であり、各レベルが処理される方法はデータベースの性質、ユーザ、並びに、目的に依存することになる。
【0129】
この節において、我々は画像要素間の関係に対する表現を簡単に提示している。この構造は異なるレベルでの関係を収容すると共に、先行して提示されたビジュアル構造に基づいている。我々が留意することは、幾つかのレベルでの関係がその構造が適用されるエンティティ間に適用される際に最も有用であることである(例えば、異なる画像からのシーンは比較され得る)。各レベル内の要素は、構文論及び意味論2つのタイプの関係に従って関係付けられる(レベル5乃至10に対してだけ)。例えば、2つの円(ローカル構造)は空間的(例えば、の次に)、時間的(例えば、前)、並びに/或は、ビジュアル的(例えば、より暗い)に関係付けられ得る。意味論的レベルでの要素(例えば、オブジェクト)は構文論的及び意味論的関係を有することができる(例えば、二人の人が相互に隣接し、彼等が友人である)。加えて、各関係が異なるレベル(包括的、具体的、並びに、抽象的)で記述され得る。我々は留意することは、レベル1、6、8、並びに、10の間の関係が構造によって表現されるエンティティ間で最も有用であり得ることである(たとえば、画像間、画像やシーンの部分間、等々)。
【0130】
ビジュアル構造は構文論/知覚とビジュアル概念/意味論とに分割され得る。関係を表現するために、我々はそうした分割を観測すると共に、以下のことを考慮する。即ち、(1)オブジェクトの知識はオブジェクトの空間的寸法の知識、即ち、その典型的な、可能性ある、或は、実際の、空間における延長の段階的な特性の知識を実施し、(2)空間の知識は、空間におけるオブジェクト間の特定寸法及び距離の指定を決定する複数の軸線から成るある種のシステムの利用可能性を暗示する。我々はこれは用いて、オブジェクトの知識が何等存在しないので、ビジュアル構造の構文論的レベルに生ずる関係が2D空間だけで生じ得ることを議論する(即ち、3D空間における関係は決定され得ない)。例えばローカル構造レベルで、ビジュアル・リテラシーの基本的要素だけが考慮され、それでそのレベルでの関係がそうした要素間で記述されだけである(即ち、それらは3D情報を含まない)。しかしながらレベル5乃至10の要素間の関係は2或は3Dで記述され得る。
【0131】
同様にして、関係それ自体は分類である構文論(即ち、知覚に関係付けられ)と意味論(即ち、意味合いに関係付けられ)に分割される。構文論的関係は任意のレベルでの要素間を生じ得るが、意味論的関係はレベル5乃至10の要素間だけで生ずる。例えば、絵画における異なる色の間での意味論的関係は決定され得るが(例えば、各種の色の組合せは暖色である)、我々は当方のモデルのそのレベルでのこれらを含まない。
【0132】
我々は空間的関係を以下の分類に分割する。即ち、(1)位相幾何学的(即ち、要素の境界はどのように関係するか)と、(2)配向的(即ち、要素は相互に対して何処に配置されるか)とである。位相幾何学的関係は、近い、遠い、接触状態、等々を含み、配向的関係は斜め、前方、等々を含む。
【0133】
時間的関係は要素を時間に対して連結するものを言及し(例えば、これらを含むビデオにおいて、前、後、間、等々)、ビジュアル関係はビジュアル特徴のみを言及している(例えば、より青い、より暗い、等々)。意味論的関係は意味合いと関連されている(たとえば、の所有者、の友達、等々)。
【0134】
ビジュアル構造の要素が異なるレベル(包括的、具体的、抽象的)を有しているのと同様に、関係は異なるレベルで規定される。構文論的関係は包括的(例えば、近い)或は具体的(例えば、数値的距離測定)、意味論的関係は包括的、具体的、或は、抽象的であり得る。
【0135】
一例として、空間的グローバル分配は、距離ヒストグラム、ローカル・コンポーネント間の関係によるローカル構造(例えば、ビジュアル・リテラシー要素間の距離)、並びに、ビジュアル・リテラシー要素間のグローバル関係によるグローバル組成によって表現され得ることになる。
【0136】
非ビジュアル情報 この節のはじめで説明したように、非ビジュアル情報は画像の直接的な部分ではない情報であるが、むしろある種の方法でそれと関連された情報を言及している。属性を伝記的及び関係的属性に分割し得る。音、テキスト、ハイパーリンクされたテキスト等々から成る非ビジュアル情報に対して可能であるが、ここでの当方の目標は索引付けのための一般的なガイドラインを付与する単純な構造を提示することである。我々はテキスト情報のみに簡単に焦点を合わせる。図10はこの構造の総覧を付与している。
【0137】
伝記的(人名)情報 実際の画像のソースは直接的(例えば、自然シーンの写真)或は間接的(例えば、彫像の画像、絵画、建物、図面)であり得る。何れの場合にも、画像に関連された伝記的な情報が存在し得る。この情報はその画像における幾つかのオブジェクトに対してそれ自体を反復し得るか(例えば、システィナ礼拝堂の天井の画像は絵画及び礼拝堂自体についての情報を有し得る)、画像だけのために存在するか、或は、全く存在しない。伝記的情報は画像の主題に直接的に関係付けられていないが、むしろ画像全体に関係付けられている。例としては、著者、データ、タイトル、資料、技術等々を含む。
【0138】
関連づけられた情報
非ビジュアル情報の第2分類はある種の方法で画像に直接的にリンクされている。関連情報は解説、記事、音、記録等々を含み得る。多くの場合に議論されるように、この情報援助者はビジュアル構造におけるある種の索引付けを実行するが、理由としてはそれが画像内に描かれているものについての具体的情報を含み得るからである(即ち、主題)。この前後関係において、意味論的レベルでそれは通常非常に役立つものであり、理由はそれらが画像だけにしばしば存することがないより多くの知識を必要とするからである。しかしながら幾つかの場合、その情報は画像の主題に直接的に関係付けられないが、ある種の方法で画像と関連されている。例えば肖像が伴う音の記録は描かれた人に関係しない音を含み得て、それは画像と関連させているが、所望に応じて索引付け可能である。
【0139】
物理的属性
物理的属性は画像を物理的オブジェクトとして利用しなければならないものを言及している。これは画像の場所、オリジナル・ソースの場所、記憶(例えば、サイズ、圧縮)等々を含み得る。
【0140】
索引付け構造間の関係
我々は意味論的情報テーブルを規定して画像についての高いレベルの情報を集める(図11参照)。このテーブルは個々のオブジェクト、複数オブジェクトのグループ、シーン全体、或は、画像の各種部分に対して使用され得る。殆ど場合、ビジュアル及び非ビジュアル情報はテーブル内への記入に寄与し、屋内/屋外等の単純なシーン分類はそのビジュアルコンテンツだけから容易に決定され得ず、場所はその画像等から明らかになり得ない。個々のオブジェクトは非ビジュアル情報に基づき分類されると共に名付けられ得て、ビジュアル・オブジェクト及び概念的オブジェクト間の写像に寄与する。
【0141】
図11において、ビジュアル及び非ビジュアル情報は画像或はその部分を意味論的に特徴付けるべく使用可能である。意味論的テーブルにおける質問に答えるべくこれら2つの様式が寄与する方法はコンテンツに依存して変動し得る。テーブル援助者は以下のような質問に答える。即ち、主題(人/オブジェクト等々)は何か?、その主題が何をしているか?、その主題は何処か?、何時?、どのように?、なぜ?、である。テーブルは、個々のオブジェクト、複数オブジェクトのグループ、シーン全体、或は、画像の各種部分に適用され得る。
【0142】
この構造及びビジュアル構造の間の関係は、テーブルにレベル5で始まる各レベルで適用される際に明らかとなる。また我々が留意することは、テーブルが画像に関係付けられたある種の情報に対する小型(コンパクト)な表現を提供するが、それは提示された索引付け構造と置換されないことである。構造のグループは最も完全な記述を提供する。
【0143】
適切な索引付け構造を有するので、我々はディジタル・ライブラリのコンテンツがどのように組織化され得るかに焦点を合わせることができる。次の節において、我々は組織化及び画像の検索において決定的な役割を演ずる争点を分析する。
【0144】
特徴、類似、並びに、分類 画像ディジタル・ライブラリの構築に成功するために、データを理解することだけが重要なわけではなく、分類に関係付けられた人争点をも理解することが重要である。この節において、我々はこの点に関する争点の需要性を議論すると共に、我々がその概念を当方の画像索引付けテストベッドの構築にどのように適用するかを説明する。先ず我々は部類を議論する。次いで、我々は分類におけるレベル及び構造を議論する。最後に我々は属性及び類似に関係付けら得た争点の幾つかを提示する。
【0145】
部類及び分類
分類は複数エンティティから成るグループを同等と処理するように規定され得る。部類はエンティティ或は概念が属する幾つかの基本的及び個別の分類の内の任意のものであり、部類内のエンティティはより類似して見え、そして、部類間のエンティティは類似性により欠けて見える。しかしながら分類が執り行われる前に、分類されるデータの性質を理解することが必須である。われわれは使用され得る部類のタイプに焦点を合わせることができる。分類の文献において、検索者は2種類の部類を識別する、即ち、(1)感覚知覚部類(例えば、質感、色、或は、話し声、/e/)、(2)包括的知識(GK)部類(例えば、自然種類−鳥、人工物−車及びイベント−食べる)である。
【0146】
当方の構造において、我々は色及び質感等の感覚知覚部類を識別できる。GK部類は非常に重要な役割を演ずるが、その理由はユーザが画像に現れるオブジェクトや、それらオブジェクトが表現し得るものに主に興味を有するからである。知的心理学における幾つかの理論は、GK部類における分類が以下のように為されることを表している。
【0147】
規則:エンティティの属性値は使用される(例えば、規則:人々の分類における画像はその中に人を有するべきである)。
【0148】
原型:部類の原型はその部類の模範の特性的属性を含む。これらは部類メンバーにわたって大いに見込みがある属性であるが、部類メンバーシップに関して必要でないか或は不十分である。新しい画像はそれが部類原型にどの程度類似しているかに従って分類される(例えば、風景分類に対する原型は日没の単なるスケッチであり得る)。
【0149】
模範:例としてはその最も類似した模範の部類に従って分類される(例えば、人々部類に対する規則を有する代わりに、我々はその分類における例示画像の集合を有すると共に分類に対するそれらを使用する)。
【0150】
この印、即ち分類はデータベース内の画像を組織化する云う意味で役立ち、その理由は我々はこれらの技術を使用可能であって、分類を実行すると共に、ユーザにその結果を提示する。これら概念は当方の画像索引付けテストベッドの発展に使用されている。
【0151】
部類構造
部類構造はディジタル・ライブラリにおいて決定的な要因であり、われわれがここで簡単に議論する幾つかの争点をもたらす。以下の争点は考慮されるべきであり、即ち、部類間の関係(例えば、階層的或はエンティティ-関係)、分類が実行されるべき抽象のレベル(例えば、Roschによる研究)は基本的レベルの存在を提案すると共に、レベル部類を従属させる/昇任する)、水平部類構造(即ち、各部類がどのように組織化されるべきか、そして各部類内の要素のメンバーシップ度合い−これらはファジー或はバイナリーであり得る)等々である。
【0152】
ビジュアル情報に索引を付ける際の分析の異なるレベルの考慮に加えて、類似性が測定される方法は非常に重要である。類似性の測定に関係付けられる争点は、考慮のレベル(例えば、部分対全体)、審査される属性、属性のタイプ(例えば、当方の構造のレベル)、寸法は分離可能であるか否か、等々を含む。
【0153】
画像索引付け(インデキシング)テストベッド 我々は、本明細書で詳述された構造に基づく画像に索引を付けるべく異なる技術を用いて、ここに提示された概念を組み入れる画像索引付けテストベッドを開発している。特にタイプ/技術に対して、我々は判別式分析を用いている。グローバル分配に対して、我々はグローバル色ヒストグラム及びタムラ質感測定を用いる。ローカル構造レベルで我々は、自動区分と、コーヒレント・エッジ-マップのマルチ-スケール位相-曲率ヒストグラム及び投影ヒストグラムとを用いることによって、ビデオQにおけるようにスケッチ問合せを可能とする。グローバル組成は、自動区分を実行して、生成された領域を併合して画像の肖像的表現を生み出すことによって獲得される。
【0154】
包括的オブジェクトはビジュアル徒弟を用いて自動的に検出される。ビジュアル徒弟において、ビジュアル・オブジェクト検出器はオブジェクト規定階層を規定し(即ち、オブジェクト及びその部分のモデルを指定する)、システムに例を提供することによってことによって構築される。多重分類はその階層の異なるレベルでのシステムによって自動的に学習され(領域、知覚、オブジェクト-部分、並びに、オブジェクト)、最善の分類器は自動分類を実行する際に自動的に選択されると共に組み合わせられる。我々もAMOSシステムを用いて、オブジェクト及びオブジェクト検索の手動注釈を実行する。
【0155】
包括的シーン・レベルで我々は、市対風景及び屋内対屋外の分類を実行する。これは、画像領域のクラスタリング及び分類がもし利用可能であれば質感特徴(例えば、画像説明から)と、特殊化されたオブジェクト検出器(例えば、顔或は空検出器)とに関連されて実行されるOF*IIF技術を用いて自動的に為される。
【0156】
具体的なオブジェクト及びシーンについての情報は、人々の名前、場所等々を抽出するシステムを用いて関連情報から獲得される。抽象的レベルでの注釈は、実行の際、主導的に行われるものである。
【0157】
オーディオ
本発明の長所の別の例示的議論は、オーディオコンテンツを表現するディジタル信号と関連されたその使用の模範的記述を詳述することによって提供され得る。
【0158】
我々は画像のビジュアルコンテンツ要素(例えば、領域、全画像、イベント等々)に索引を付けるべく10レベル概念構造を先に提案した。その作業における分類はビジュアルコンテンツの記述だけを言及している(即ち、「メタデータ」に対して意味されない、例えば、写真を撮る人の名前はビジュアル記述子ではない)。
【0159】
この文書において我々は、先に提示された10レベル概念構造に基づき、(その規格のMPEG-7オーディオ部分に含まれる)オーディオ記述子の分類を提案する。我々が提案するピラミッド構造は図3及び図4に関連されて先に記載されたビジュアル構造と同一レベルを正確に含む。しかしながら各レベルはビジュアル要素の代わりにオーディオ要素を言及している。オリジナル構造において、オブジェクトはビジュアル・エンティティと対応している。新構造において、オブジェクトはオーディオ・エンティティと対応している(例えば人の声)。
【0160】
構文論及び意味論の間の分離の重要性は、画像及びビデオ索引付けの領域における検索者によって広く認識されている。我々はオーディオコンテンツに対する同様の研究を知らないが、審査されたそれらの研究から生ずる結果はこの分離がオーディオ索引付けでも非常に有用であることを提案している。例えば、情報検索及び知的心理学における研究は、個人が異なるレベルを使用して画像/オブジェクトを記載(或は索引付け)することを示している。我々が提示する分割の幾つかは厳格ではあり得ないが、それが、オーディオコンテンツがどのように索引付けられるか、取り扱われるか、そしてそうしたコンテンツの(例えば、アプリケーション或は人ビューア)ユーザへ提示されるかについての直接的衝撃を有するために考慮されるべきである。
【0161】
画像索引付けに関係付けられた、異なるフィールドからの検索に頼る、ビジュアル属性に対する先に提示された構造は、オーディオに容易に適用され得る小型で組織化された分類を提供する。これらの構造は直感的で且つ非常に機能的であり、異なる索引付け技術(手動及び自動)のニーズ、要求、並びに、制限を強調する。例えば、オーディオ区分に対する索引付けコスト(計算或は人の労力と云う意味で)はピラミッドのより低いレベルで一般的により高く、コンテンツのタイプ(音楽対声)を自動的に決定、対、包括的オブジェクト(例えば、男の声)の認識、対、具体的オブジェクト(例えば、ビル・クリントンの声)の認識。これはまた、より多くの情報/知識がより低いレベルで必要とされることを暗示し、もしユーザ(例えば、アプリケーション)が別のユーザへ要求を為せば(例えば、アプリケーション)、追加的情報がどの程度必要となるか、或は、「サービス」のどのレベルをユーザが期待するか、例えばレベル5のオーディオ分類器に関して明瞭となる。加えて、属性及び関係のこの破損は人がしばしば属性に基づき比較を為すので以上に価値がある。提案された構造の有益性はビジュアルコンテンツに対する予備実験で示され、核となる実験を行う努力も為される。これら実験や、オーディオ索引付けに対する構造の使用を可能とする柔軟性は、この種の記述子分類をオーディオ及びビジュアルコンテンツに適用する有益性を提案する。
【0162】
この例において、我々はオーディオ属性の分類を記載する。また我々はオーディオ関係を記載する。
【0163】
記述子の分類
提案されたオーディオ構造は10個のレベルを含む、最初の4つは構文論を言及し、残りの6つは意味論を言及している。オーディオ構造に対する総覧は図3から引き出され得る。必要とされる知識/情報の量の指示における各レベルの幅。構文論レベルはタイプ/技術、グローバル分配、ローカル構造、並びに、グローバル組成である。意味論的レベルは包括的オブジェクト、包括的シーン、具体的オブジェクト、具体的シーン、抽象的オブジェクト、並びに、抽象的シーンである。
【0164】
構文論的レベルは構文論的記述子、即ち、低レベル特徴の意味でコンテンツを記述する構文論的記述子を分類する。ビジュアル構造において、これらは画像に存する色及び質感を言及している。この文献のオーディオ構造において、それはオーディオ信号の低レベル特徴を言及している(それが音楽か、声か等々)。例としては基本的周波数、高調波ピーク等々を含む。
【0165】
ビジュアル構造の意味論的レベルは、オブジェクト及びシーンに関係付けられた属性を分類した。オーディオ構造における意味論レベルは、その分類がオーディオ信号自体から抽出された属性に基づいていることを除いて類似している。ビジュアルの場合のように、オーディオにおいてはオブジェクト(例えば、男の声、トランペットの音、等々)及びシーン(例えば、通りの騒音、オペラ、等々)を識別することが可能である。
【0166】
類似するビジュアル構造の各レベルは先に説明された。次に我々は各レベルを簡単に説明し、それがオーディオ記述子の分類にどのように使用され得るかを記載する。我々はワード属性及び記述子を相互交換可能に使用し、各レベルに対する直感的な例を付与して、説明を明瞭化を補助すべくビジュアル構造と類似させる。意味論的レベルに対して、典型的なラジオ・ニュース放送を考えることが有用であり、その中で異なるエンティティが相互交換可能に使用される、即ち、人、ノイズ、音楽、並びに、シーン(例えば、ジャーナリストの報告の間、前、並びに、後に、背景の騒音或は音楽を聴くことは現地報告において一般的である)。
【0167】
タイプ/技術 オーディオ・シーケンスのタイプの一般的記述。例えば、音楽、騒音、声、或は、それらの任意の組合せ、ステレオ、チャンネル数、等々である。
【0168】
グローバル分配
低レベル特徴と云う意味で測定される、オーディオのグローバルコンテンツを記述する属性である。このレベルでの属性はグローバルであり、それはそれらが信号の個々のコンポーネントに関係せず、むしろグローバル記述に関係するからである。例えば、信号はガウス騒音であるとして記述され得る、即ち、そうした記述はグローバルであり、理由はそれがローカル・コンポーネントについて何も云わないからである(例えば、どの要素或は低レベル特徴が騒音信号を記述するか)。
【0169】
ローカル構造
オーディオ区分における個々の低レベル構文論的コンポーネントの抽出及び特徴付けに関する。先行するレベルと対照的に、ここでの属性は信号のローカル構造を記述することが意味されている。画像において、ローカル要素はその画像内に存する基本的な構文論的シンボルによって付与される(例えば、線、円、等々)。このレベルはオーディオにおける同一機能に役立ち、それで任意の低レベル(即ち、ワード、或は話されたコンテンツの文字等の意味論でない)・ローカル記述子はこのレベルで分類され得る。
【0170】
グローバル組成
基本的要素の具体的構成或は組成に基づくオーディオ区分のグローバル記述(即ち、ローカル構造記述子)。ローカル構造はオーディオの具体的ローカル特徴に焦点を合わせる一方、グローバル組成はローカル要素の構造に焦点を合わせる(即ち、それらがどのように構成されたか)。例えば、オーディオ・シーケンスはマルコフ・チェーン(Markov chain)によって、或は、低レベル・ローカル特徴を用いる任意の他の構造によって表現(或はモデル化)され得る。
【0171】
包括的オブジェクト
先行するレベルまで、世界知識は索引付けを実行するために何等必要とされない、即ち、量的特徴はオーディオ区分から自動的抽出され得て、記述された構文論的レベルに分類され得る。オーディオ区分が意味論の点で記述される際(例えば認識)、しかしながらオブジェクトは重要な役割を演ずる。しかしながらオブジェクトは異なるレベルでの部類に据えられ得る、即ち、リンゴはリンゴ或はフルーツとしてマッキントッシュ・アップルとして分類される。オブジェクトの認識はオーディオ区分に基づかせることができ、それ故に、我々は同様の分類を為すことができる。例えば我々は、オーディオ・エンティティ(例えば、声)が男に対応するか、或は、ビル・クリントンに対応すると云うことができる。包括的オブジェクトを言及すれば、我々は基本的なレベルの部類に興味を持つ、即ち、日常的な知識で認識され得るオブジェクト記述の最も一般的なレベル。それが意味することは、問題となっているオブジェクトの具体的な身元の知識が全くないことである(例えば、爆発、雨、たたく、男の声、女の声、等々)。オーディオ・エンティティ記述はこのレベルで分類され得る。
【0172】
包括的シーン
オーディオ区分が個々のオブジェクトに従って索引付けられるように、オーディオ区分を全体として、それが含むエンティティの全て、そしてそれらの構成の集合に基づいて索引付けが為され得る。オーディオ・シーンの例は、通りの騒音、スタジアム、オフィス、人々の話、コンサート、ニュース編集室、等々を含む。このレベルのガイドラインは、一般的な知識のみが必要とされていることである。このレベルでの記述子を獲得するために、具体的なオーディオ・エンティティ(例えば、それは誰の声か)、或は、具体的にオーディオ・シーン(例えば、それはどのコンサートか)を認識する必要はない。
【0173】
具体的オブジェクト
先行するレベルと対照的に、具体的オブジェクトは識別されると共に名付けられたオーディオ・エンティティを言及している。具体的知識は必要とされず、そうした知識はそれが公知の事実に依存しているので通常は客観的であり、即ち、このレベルで、騒音或は音は識別されると共に名付けられる。例としては個々の人の声(例えば、「ビル・クリントン」)、或は、特徴的な騒音(例えば、ニューヨーク株取引所のベル)、等々を含む。
【0174】
具体的シーン
このレベルは、オーディオ区分におけるシーンについての具体的な知識があるという違いを伴って包括的シーンと類似している。例えば、マーチン・ルーサー・キングの「私は夢を見る」演説、即ち、オーディオ・シーンは具体的に識別されると共に名付けられ得る。1968年に月が沈む、等々である。
【0175】
抽象的オブジェクト
このレベルで、オーディオ・エンティティが表現するものについての主観的な知識が使用される。この索引付けレベルは、それが完全に主観的であり、異なるユーザ間の評価が大きく変動し得るという意味で、最も難しい1つである。このレベルの重要性は画像に関して実験で示され、そこでビューアは中でも画像を記述するために抽象的属性を使用した。情緒的属性もオーディオ区分におけるオブジェクトに割り当てられ得る。例えば、音(例えば、映画や音楽における音)は恐ろしい、嬉しい、等々として記述され得る。
【0176】
抽象的シーン
抽象的シーン・レベルはオーディオ区分が全体として表現するものを言及している。それは以上に主観的であり得る。画像に対してそれは、例えば、ユーザがしばしば、感情を伴って画像(例えば、情緒)或は抽象的(例えば、雰囲気、テーマ)用語を記述することで示された。同様の記述はオーディオ区分に割り当てられ得て、例えば、オーディオ・シーンを記述する属性は、悲しみ(例えば、人々が泣いている)、よろこび(例えば、人々が笑っている、等々を含み得る。
【0177】
関係
関係のタイプ
この節では、我々が提案するコンテンツ要素間の関係の明白なタイプを提示する。これらの関係はビジュアルコンテンツに対して先に提示されたものと類似している。図12に示されるように、関係は図3に関連して先に提示されたオーディオ構造の異なるレベルで規定されている。コンテンツ要素間の関係を表現するために、我々は構文論及び意味論への分割を考察する。
【0178】
構文論的レベルで、構文論的関係、即ち、空間的(例えば、「音Aは音Bと近い」)、時間的(例えば、「同時に」)、並びに、オーディオ(例えば、「よりも音が大きい」)の関係があり得て、それは唯一構文論的知識に基づいている。空間的及び時間的属性は位相幾何学的及び方向的の分類に分類される。オーディオ関係はグローバル、ローカル、並びに、組成へ更に索引付けされることが可能である。図12に示されるように、これらレベル内の要素は意味論的関係ばかりではなく、構文論的関係にも関連させられ得る(例えば、「トランペットはバイオリンの近くで鳴る」、そして、「トランペット音符はバイオリン音符を補足する」)。我々は意味論的関係の2つの異なるタイプを区別する、即ち、同義語(synonymy)、反対語(antonymy)、上下関係(hyponymy)/ハイパーニミー(hypernymy)、或は、メロニミー(meronymy)/ハローニミー(holonymy)等の語彙関係と、活動(イベント)或は状態を言及する述語的関係とである。
【0179】
我々がここで提案する関係はビデオ信号に対して提案されたものと類似しており、それら2つの場合の唯一の違いは使用される属性に内在しているが、関係ではない。例えば、画像から要素Aが要素Bよりも(音)が大きいと云うことは可能ではない。オーディオ区分から要素Aが要素Bよりも暗いとすることは可能ではない(もしオーディオコンテンツ自体に明白に記述されていなければ)。しかしながら関係のタイプは同一である、即ち、一方がオーディオであり、他方がビジュアルであるが、それは双方ともにグローバル、包括的である(テーブル4参照)。
【0180】
我々は構文論的及び意味論的関係を例をもってより包括的に説明する。以下のテーブル3及び4は例示を含む関係に対する索引付け構造を要約している。
【0181】
構文論的関係
我々は構文論的関係を3つの分類に分割する、即ち、空間的、時間的、並びに、オーディオ的である。空間的及び時間的関係はオーディオ的関係の正に特殊な場合であると議論することができる。我々は空間的及び時間的関係を特別な方法で規定するが、その理由はそれら要素を、情報或は持続時間を伴わない空間或は時間における境界として考えるからである。構文論的関係の提案されたタイプ及び例示の要約のためのテーブル3を参照のこと。
【0182】
我々は空間的関係を以下の分類に分割する。(1)位相幾何学的、即ち各種要素の境界がどのように関係するか、そして、(2)配向的或は方向的、即ち、それら要素が相互に対して何処に配置されるか(テーブル3参照)である。留意することは、これらの関係がしばしばオーディオ区分から抽出され得ることであり、即ち、ニュースリポートのステレオ放送を聴く、例えば、構文論的属性をオーディオ・エンティティに割り当てることはしばしば容易である。例えば、一方の音が他方の近くである、或は、むしろ、異なるサウンド・ソース間の構文論的関係を評価することは可能である。この点に関して、信号内では明白ではない幾分詳細な位相幾何学的及び方向的関係を決定し得る。位相幾何学的関係の例は、「の近くであること」、「内であること」、そして、「隣接すること」であり、方向的関係の例は、「前方であること」、そして、「左側であること」である。留意することはこれら関係の間の主な相違や、ビジュアル情報から獲得されるものは、関係自体の抽出上に横たわっており、オーディオだけから何等かの空間的関係を決定することはより難しいが、構文論的オーディオ・モデルの創作において、これら関係は非常に需要な役割を演ずる。
【0183】
同様に、我々は時間的関係を位相幾何学的及び方向的分類へ分類する(テーブル3参照)。時間的位相幾何学的関係の例は、「同時に生ずること」、「部分重複すること」、そして、「内で生ずること」であり、方向的時間的関係の例は、「前に生ずること」、そして、「後で生ずること」である。SMILの同時及び順次関係は時間的位相幾何学的関係の例である。
【0184】
オーディオ関係はそれらのビジュアル属性或は特徴に基づきオーディオ・エンティティと関係する。これら関係は、グローバル、ローカル、並びに、組成の分類へ索引付けられ得る(テーブル3参照)。例えば、オーディオ・グローバル関係は「よりもより騒音が低いこと」(グローバル騒音特徴に基づく)であり得て、オーディオ・ローカル関係は「より音が大きいこと」であり得て、オーディオ組成関係はヒデン・マルコフ・モデル(Hidden Markov Models)の構造の比較に基づき得る。
【0185】
オーディオ構造の要素が異なるレベル(包括的、具体的、並びに、抽象的)を有する場合も同様に、これらのタイプの構文論的関係(テーブル3参照)は包括的レベル(「近い」)或は具体的レベル(「から10メートル」)で規定され得る。例えば、「の結合であること」、「の否認であること」等の操作的関係は、空間的か時間的かの何れか一方の位相幾何学的、具体的関係である(テーブル3)。
【0186】
意味論的関係
意味論的関係は、10レベル概念的構造の意味論的レベルでのコンテンツ要素間だけで生じ得る。我々は意味論的関係を語彙的及び述語的関係へ分割する。テーブル4は例を含んだ意味論的関係を要約している。留意することは、意味論的関係がコンテンツの理解に基づいているので、ビジュアルコンテンツから獲得された関係に対して、オーディオコンテンツから獲得された関係に対するのと同一の分類を為し得る。ここでの意味論的関係は、それ故に、ビデオ信号に関連して記載されたものと同等である。唯一の違いは意味論的コンテンツが抽出される方法にある(即ち、オーディオの理解、対、画像或はビデオの理解)。説明をより明確にするために、オーディオに関する例を用いたが、オリジナルの例示も適用される。例えば、そのリンゴはそのオレンジのようであるは包括的同義語例であり、リンゴ及びオレンジは話し手がそれらについて話せばオーディオから「認識」され得る。
【0187】
語彙的意味論的関係はワールドネット内で使用される名詞間の意味論的関係と対応している。これらの関係は、同義語(バイオリンはビオラと類似している)、反対語(フルートはドラムと相対する)、上下関係(ギターは弦楽器である)、ハイパーニミー(弦楽器及びギター)、メロニミー(ミュージシャンはミュージック・バンドの一員である)、並びに、ハローニミー(ミュージック・バンドはミュージシャンから構成される)。
【0188】
述語的意味論的属性は、2つの或はそれ以上の要素の間の活動(イベント)或は状態を言及している。活動関係の例は「怒鳴ること」及び「所有すること」である。述語的意味論を複数の活動或は状態にだけ分割する代わりに、我々はワールドネットで使用される部分的関係意味論的分解を用いることができる。ワールドネットは動詞を15個の意味論的ドメインへ分割する、即ち、身体上の世話及び機能の動詞、変化、認識、通信、競争、消費、接触、創造、情緒、運動、感覚、所持、社会的な相互作用、並びに、天気動詞である。ビジュアル概念の記述に対して関連しているドメインだけが使用される。
【0189】
ここに提示された10レベル・オーディオ構造に対するように、我々は異なるレベルでの意味論的関係を規定する、即ち、包括的、具体的、並びに、抽象的である。例えば、包括的活動関係は「株式を所有すること」であり、具体的活動関係は「株式の80%を所有すること」であり、そして最後に、抽象的意味論関係は「会社を支配すること」である。
【0190】
【表3】
Figure 0004643099
【0191】
【表4】
Figure 0004643099
【0192】
本発明は、索引付け及び/或は分類の目的に対するディジタル信号(例えば、マルチメディア信号)の多重レベル分類のための方法だけではなく、コンピュータ具現化システムをも含む。以上に記載された方法は、それら方法がここに議論されたタイプのディジタル信号を処理するための任意のシステム内に適用可能であると云う事実に従った何等かの一般論のレベルで記載されており、例えば、MPEG-7規格の下でのディジタル・マルチメディア信号或はファイルの取り扱いと互換性あるアート-認識(将来発展型)の任意のシステムである。
【0193】
一般的に考えられるディジタル信号に対する規格の目的としては、伝送、大量記録保管、並びに、そうした信号の出力に対するクロス・プラットフォーム互換性を促進することであるので、本発明を具現化すべく構築され得るシステムに対するシステム固有仕様を付与することが必要ないか或は所望されない。むしろ、当業者であれば、当業界で公知の所望ハードウェア及びソフトウェアを用いてここでの包括的教示をどのようにして具現化するかを認識するであろう。
【0194】
広範な例を付与するために、(限定されるわけではないが、人知覚コンテンツを実施するビデオ、オーディオ、静物、並びに、他のディジタル信号を含む)ディジタル信号を処理、表示、記録保管、或は、伝送する、ペンティアム(登録商標)・マイクロプロセッサ、メモリ(例えば、ハードドライブ、及び、ランダムアクセスメモリ・キャパシティ)、ビデオプレイヤ、並びに、適切なマルチメディア付属装置等の任意のマルチメディア互換性装置と組み合わせて本発明を実施するシステムの模範的実施例を考えることができるであろう。
【0195】
概要
本発明は現行の包括的AV DSに対する基本的なエンティティ-関係モデルを提案して、そのグローバル設計に関する短所に対処するものである。基本的エンティティ-関係モデルは、(1)コンテンツ要素の属性、(2)コンテンツ要素間の関係、そして、(3)コンテンツ要素自体に索引付けする。我々はこのモデル化技術を選択するものであり、その理由はエンティティ-関係モデルが最も広範に使用されている概念的モデルであるからである。それは高度の抽象性を提供すると共に、ハードウェア及びソフトウェア独立型である。
【0196】
我々は、属性(或はMPEG-7記述子)、関係、並びに、コンテンツ要素に対する構文論及び意味論の間の区別を為す。構文論はコンテンツ要素が構成される方法を言及しており、しかもそうした構成の意味合いを考慮せずにである。他方、意味論はそうした要素とそれら構成との意味合いを処理する。構文論的及び意味論的属性は幾つかのレベルを言及し得る。同様に、構文論的及び意味論的関係は異なるレベルを言及するサブ・タイプへ更に分割され得る。我々は属性のそれらタイプと他の要素との関係とに基づき構文論的及び意味論的要素の小型で明確な規定又は定義を提供するものである。しかしながら包括的AV DSとの重要な違いは、当方の意味論的要素が意味論的属性だけではなく、構文論的属性をも含むことである。それ故に、もしアプリケーションが構文論的要素及び意味論的要素の間でむしろ識別されなければ、意味論的要素だけを用いてそうすることになる。
【0197】
先行する例及び本発明の例示的実施例は例示目的で詳述された。当業者であれば、これらの教示例は特許請求の範囲によってだけ制限される本発明の精神或は範囲の制限を規定しない。
【図面の簡単な説明】
【図1】包括的エンティティ-関係(E−R)モデルである。
【図2】シナリオ「若い少年はリンゴを4分間で食べる。」に対するエンティティ-関係モデルの一例を提供している。
【図3】ピラミッドによって索引付けビジュアル構造を表している。
【図4】ビジュアル構造の異なるレベルで提案された関係を示している。
【図5】各提案タイプのビジュアル構造の基本的モデルを説明している。
【図6】ベースボールでのバッティング(打撃)・イベント画像を絵画的に表示している。
【図7】図6に表示されたベースボールでのバッティング・イベント画像に対するバッティング・イベントの概念的記述である。
【図8】図6のバッティング・イベントに対するヒット及びスロー(投球)のイベントの概念的記述である。
【図9】図6のバッティング・イベントに対するフィールド・オブジェクトの概念的記述である。
【図10】非ビジュアル情報の分析を概念的に表している。
【図11】ビジュアル及び非ビジュアルの情報が画像或はその一部をどのようにして特徴付けるべく意味論的に使用され得るかを図示している。
【図12】オーディオ構造の異なるレベルでの関係を図示している。構文論的レベル内の要素は構文論的構造に従って関係付けられている。意味論的レベル内の要素は構文論的及び意味論的関係に従って関係付けられている。

Claims (16)

  1. マルチメディアコンテンツを管理するシステムを構成するモジュールによって、複数のディジタル情報信号として伝送される各コンテンツに対して索引付けを行った情報を処理する方法であって、
    構文論的レベル(シンタックスレベル)及び意味論的レベル(セマンティックスレベル)を提示する複数レベルの索引付けを行った情報の管理を行う当該モジュールによって、各ディジタル情報信号を処理するステップを含み、
    前記モジュールによる処理ステップは、
    (i)各ディジタル情報信号を受信し、各ディジタル情報信号のコンテンツについて、予め規定した複数の索引付けレベルに従う解析を行うステップと、
    (ii)前記複数の索引付けレベルのうちの少なくとも1つについて、各索引付けレベルに関連付けられたコンテンツのディジタル情報信号から、コンテンツの記述要素、属性、及び記述要素間の関係に関連付けられているデータらなる、コンテンツに基づいたデータを抽出するステップと、
    を行うことを特徴とする方法。
  2. 前記構文論的レベルが、
    (i)タイプ/技術、
    (ii)グローバル分配、
    (iii)ローカル構造、
    (iv)グローバル組成、
    からなるレベル・グループから選択された少なくとも1つのレベルを含む、請求項1に記載の方法。
  3. 前記意味論的レベルが、
    (i)包括的オブジェクト、
    (ii)包括的シーン、
    (iii)具体的オブジェクト、
    (iv)具体的シーン、
    (v)抽象的オブジェクト、
    (vi)抽象的シーン
    からなるレベル・グループから選択された少なくとも1つのレベルを含む、請求項1に記載の方法。
  4. 前記記述要素が構文論的要素を含む、請求項1に記載の方法。
  5. 前記構文論的要素が
    (i)領域、
    (ii)動画化領域、
    (iii)区分、
    からなる要素・グループから選ばれた少なくとも1つの要素を含む、請求項4に記載の方法。
  6. 前記記述要素が意味論的要素を含む、請求項1に記載の方法。
  7. 前記意味論的要素が、
    (i)オブジェクト、
    (ii)動画化-オブジェクト、
    (iii)イベント、
    からなる要素・グループから選ばれた少なくとも1つの要素を含む、請求項6に記載の方法。
  8. 前記属性が、
    (i)構文論、
    (ii)意味論、
    からなるグループから選ばれた属性を含む、請求項1に記載の方法。
  9. 前記記述要素間の関係が構文論的関係を含む、請求項1に記載の方法。
  10. 前記構文論的関係が、
    (i)空間的関係、
    (ii)時間的関係、
    (iii)ビジュアル関係、
    からなるグループから選択された関係を含む、請求項9に記載の方法。
  11. 前記記述要素間の関係が意味論的関係を含む、請求項1に記載の方法。
  12. 前記意味論的関係が、
    (i)語彙的関係、
    (ii)述語的関係、
    からなるグループから選択された少なくとも1つの関係を含む、請求項11に記載の方法。
  13. 前記ディジタル情報信号のコンテンツがマルチメディア・データ・ファイルの一部分を含む、請求項1に記載の方法。
  14. 前記マルチメディア・データ・ファイルが、ビデオ・ファイルを含む、請求項13に記載の方法。
  15. 前記マルチメディア・データ・ファイルが、オーディオ・ファイルを含む、請求項13に記載の方法。
  16. 前記ディジタル情報信号のコンテンツがマルチメディア・データ・ファイルの一部分を含む、請求項1に記載の方法。
JP2001518680A 1999-07-03 2000-06-30 包括的オーディオ・ビジュアル・データ信号記述に対する基本的エンティティ−関係モデル Expired - Fee Related JP4643099B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14232599P 1999-07-03 1999-07-03
US60/142,325 1999-07-03
PCT/US2000/018231 WO2001003008A1 (en) 1999-07-03 2000-06-30 Fundamental entity-relationship models for the generic audio visual data signal description

Publications (2)

Publication Number Publication Date
JP2003507808A JP2003507808A (ja) 2003-02-25
JP4643099B2 true JP4643099B2 (ja) 2011-03-02

Family

ID=22499415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001518680A Expired - Fee Related JP4643099B2 (ja) 1999-07-03 2000-06-30 包括的オーディオ・ビジュアル・データ信号記述に対する基本的エンティティ−関係モデル

Country Status (7)

Country Link
EP (1) EP1194870A4 (ja)
JP (1) JP4643099B2 (ja)
KR (1) KR100771574B1 (ja)
CN (1) CN1312615C (ja)
AU (1) AU6065400A (ja)
MX (1) MXPA02000040A (ja)
WO (1) WO2001003008A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2844079B1 (fr) 2002-08-30 2005-08-26 France Telecom Systeme associatif flou de description d'objets multimedia
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
US7478038B2 (en) * 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
JP2007265341A (ja) * 2006-03-30 2007-10-11 Sony Corp コンテンツ利用方法、コンテンツ利用装置、コンテンツ記録方法、コンテンツ記録装置、コンテンツ提供システム、コンテンツ受信方法、コンテンツ受信装置およびコンテンツデータフォーマット
BRPI0605994B1 (pt) * 2006-09-29 2019-08-06 Universidade Estadual De Campinas - Unicamp Processo de randomização progressiva para análise e raciocínio em multimídia
US8407241B2 (en) 2009-06-12 2013-03-26 Microsoft Corporation Content mesh searching
US10417263B2 (en) * 2011-06-03 2019-09-17 Robert Mack Method and apparatus for implementing a set of integrated data systems
US9244924B2 (en) * 2012-04-23 2016-01-26 Sri International Classification, search, and retrieval of complex video events
US8537983B1 (en) 2013-03-08 2013-09-17 Noble Systems Corporation Multi-component viewing tool for contact center agents
CN105102031B (zh) 2013-04-10 2019-01-18 赛诺菲 用于药物输送装置的驱动机构
KR101461183B1 (ko) * 2013-09-23 2014-11-28 장우용 디지털 콘텐트 생성 시스템 및 방법
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US10349093B2 (en) * 2014-03-10 2019-07-09 Cisco Technology, Inc. System and method for deriving timeline metadata for video content
US10206014B2 (en) 2014-06-20 2019-02-12 Google Llc Clarifying audible verbal information in video content
US9946769B2 (en) 2014-06-20 2018-04-17 Google Llc Displaying information related to spoken dialogue in content playing on a device
US9838759B2 (en) 2014-06-20 2017-12-05 Google Inc. Displaying information related to content playing on a device
US9805125B2 (en) 2014-06-20 2017-10-31 Google Inc. Displaying a summary of media content items
US10349141B2 (en) 2015-11-19 2019-07-09 Google Llc Reminders of media content referenced in other media content
US10034053B1 (en) 2016-01-25 2018-07-24 Google Llc Polls for media program moments
US10432987B2 (en) 2017-09-15 2019-10-01 Cisco Technology, Inc. Virtualized and automated real time video production system
CN111341319B (zh) * 2018-12-19 2023-05-16 中国科学院声学研究所 一种基于局部纹理特征的音频场景识别方法及系统
CN113673635B (zh) * 2020-05-15 2023-09-01 复旦大学 一种基于自监督学习任务的手绘草图理解深度学习方法
CN113221566B (zh) * 2021-05-08 2023-08-01 北京百度网讯科技有限公司 实体关系抽取方法、装置、电子设备和存储介质
CN116821692A (zh) * 2023-08-28 2023-09-29 北京化工大学 描述文本和空间场景样本集的构建方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3303543B2 (ja) * 1993-09-27 2002-07-22 インターナショナル・ビジネス・マシーンズ・コーポレーション マルチメディア・セグメントを構成してプレイする方法、および2つ以上のマルチメディア・ストーリーをハイパーストーリーとして構成してプレイする方法
US5821945A (en) * 1995-02-03 1998-10-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure

Also Published As

Publication number Publication date
AU6065400A (en) 2001-01-22
EP1194870A4 (en) 2008-03-26
CN1312615C (zh) 2007-04-25
KR100771574B1 (ko) 2007-10-30
JP2003507808A (ja) 2003-02-25
EP1194870A1 (en) 2002-04-10
KR20020050220A (ko) 2002-06-26
CN1372669A (zh) 2002-10-02
MXPA02000040A (es) 2003-07-21
WO2001003008A1 (en) 2001-01-11

Similar Documents

Publication Publication Date Title
JP4643099B2 (ja) 包括的オーディオ・ビジュアル・データ信号記述に対する基本的エンティティ−関係モデル
US6847980B1 (en) Fundamental entity-relationship models for the generic audio visual data signal description
Amato et al. AI in the media and creative industries
Jaimes et al. Conceptual framework for indexing visual information at multiple levels
Lew et al. Content-based multimedia information retrieval: State of the art and challenges
Xie et al. Event mining in multimedia streams
Benitez et al. MediaNet: A multimedia information network for knowledge representation
JP2006510114A (ja) 概念モデル空間におけるコンテンツの表現及びこれを検索するための方法及び装置
Troncy et al. Multimedia semantics: metadata, analysis and interaction
Petkovic et al. CONTENT-BASED VIDEO RETRIEVAL: A DatabllSe Perspective
Maybury Multimedia information extraction: Advances in video, audio, and imagery analysis for search, data mining, surveillance and authoring
Vassiliou Analysing film content: A text-based approach
Chang et al. Multimedia search and retrieval
Petkovic et al. A framework for video modelling
Shih Distributed multimedia databases: Techniques and Applications
Tseng et al. Hierarchical video summarization based on context clustering
Jaimes Conceptual structures and computational methods for indexing and organization of visual information
Snoek The authoring metaphor to machine understanding of multimedia
Liu et al. Semantic extraction and semantics-based annotation and retrieval for video databases
Salway Video Annotation: the role of specialist text
Luo et al. Integrating multi-modal content analysis and hyperbolic visualization for large-scale news video retrieval and exploration
Di Bono et al. WP9: A review of data and metadata standards and techniques for representation of multimedia content
Del Bimbo Issues and directions in visual information retrieval
Sabol et al. Visualisation techniques for analysis and exploration of multimedia data
Maybury Multimedia information extraction: History and state of the art

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070626

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070626

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100217

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100722

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100930

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20101022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101116

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101202

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees