JP2002529863A - 画像記述システムおよび方法 - Google Patents
画像記述システムおよび方法Info
- Publication number
- JP2002529863A JP2002529863A JP2000581582A JP2000581582A JP2002529863A JP 2002529863 A JP2002529863 A JP 2002529863A JP 2000581582 A JP2000581582 A JP 2000581582A JP 2000581582 A JP2000581582 A JP 2000581582A JP 2002529863 A JP2002529863 A JP 2002529863A
- Authority
- JP
- Japan
- Prior art keywords
- description
- image object
- image
- hierarchy
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/30—Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
Abstract
Description
号、1999年2月1日出願の米国仮特許出願第60/118027号、199
8年11月6日出願の米国仮特許出願第60/107463号を優先権として請
求する。
を記述する技術、およびそのような情報のコンテンツに関する。
ワークの広範囲の利用とに伴い、ディジタルマルチ記録媒体情報はますます消費
者およびビジネスに身近なものとなってきている。従って、増大する大量の生情
報から有用な情報を選ぶことができるように、ディジタルマルチ記録媒体情報を
処理しフィルタリングし探索し編成するシステムの開発がますます重要になって
きている。
る解決策は存在する。実際、yahoo.com、goto.com、excite.com等によって提供
されるような多数のテキストに基づく探索エンジンがワールド・ワイド・ウェブ
上で利用可能であり、それらは最もアクセスされるウェブサイトであり、そのよ
うな情報検索技術に対する需要を表している。
素材の一般に認知された記述は存在しない。この点に関して、画像内に埋め込ま
れた映像オブジェクトの色、表面模様、形状情報等の特性を利用してユーザが画
像を探索できるマルチ記録媒体データベースを提供することが過去に試みられた
。しかし、20世紀の終わりでは、インターネットもしくは大抵の広域ネットワ
ークまたはローカルネットワークのマルチ記録媒体コンテンツの一般的探索を実
行することはまだできず、この素材の広く認知された記述は存在しない。その上
、マルチ記録媒体コンテンツを探索する要求はデータベースに限られているので
なく、ディジタル放送テレビおよびマルチ記録媒体電話等のその他のアプリケー
ションにも及ぶ。
モーション・ピクチャーズ・エキスパート・グループス(“MPEG”)MPE
G‐7の標準化努力を続けている。1996年10月に始まるMPEG‐7は、
マルチ記録媒体サーチング、マルチ記録媒体フィルタリング、マルチ記録媒体ブ
ラウジングおよびマルチ記録媒体サマライゼイションのようなコンテンツに焦点
を当てたアプリケーションを促進するために、マルチ記録媒体データのコンテン
ツ記述の標準化を目指している。MPEG‐7標準の目的の一層完全な記述は国
際標準化機構の文書ISO/IEC JTC1/SC29/WG11 N2460(Oct.1998)に含まれており、
その内容は参照することによって本願に組み入れられる。
情報のさまざまな型を記述する記述子の関連とに関する(“記述スキーマ”と呼
ばれる)構造を指定することも目的とする。MPEG‐7はまた、その他の記述
子だけでなく、記述子とそれらの関連とに関する“記述スキーマ”も定義する方
法の標準化を提案する。この記述、すなわち記述子と記述スキーマとの組合せは
、ユーザの関心のある素材を迅速効果的に探索しフィルタリングできるようにす
るためにコンテンツ自体に関連付けられねばならない。MPEG−7はまた、記
述スキーマを指定する言語(“DDL”)と、マルチ記録媒体コンテンツの記述
を2進符号化するためのスキーマとの標準化も提案する。
な記述スキーマを最適に実行することになる技術の提案を求めている。そのよう
な最適化された記述スキーマを提供するために、3つの異なるマルチ記録媒体ア
プリケーションアレンジメントを検討することができる。これらは分散処理シナ
リオと、コンテンツ交換シナリオと、マルチ記録媒体コンテンツの個人的閲覧を
可能とするフォーマットである。
プリケーションとにかかわりなく、記述スキーマはマルチ記録媒体素材の記述を
交換する能力を提供しなければならず、それはマルチ記録媒体コンテンツの分散
処理を可能にするであろう。相互運用可能なコンテンツ記述の標準化は、さまざ
まなソースからのデータをマルチ記録媒体プロセッサ、マルチ記録媒体エディタ
、マルチ記録媒体検索システム、マルチ記録媒体フィルタリングエージェント等
のさまざまな分散アプリケーションにプラグインできることを意味することにな
る。それらのアプリケーションの幾つかは第三者によって提供され、マルチ記録
媒体データの標準化された記述と一緒に作動することのできるマルチ記録媒体ツ
ールのプロバイダの副産業を生み出すことができる。
および関連するインデクシングデータをダウンロードするためにさまざまなコン
テンツプロバイダのウェブサイトにアクセスすることを可能とされ、ユーザの個
人的関心にしたがって、ツール(例えばJava applets)をダウンロードして特別
な方法で異種型データ記述を操作するために、幾つかのツールのプロバイダのウ
ェブサイトにアクセスし続けることを可能とされるべきである。そのようなマル
チ記録媒体ツールの1例が映像エディタであろう。各映像に関連付けられた記述
がMPEG‐7に準拠している場合、MPEG‐7準拠映像エディタはさまざま
なソースからの映像コンテンツを操作し処理できるであろう。各映像は、カメラ
の動き、シーンカット、注釈およびオブジェクト分割等の記述の細部の度合いを
変化させるのがつきものである。
リオは、異種型マルチ記録媒体データベースの間でマルチ記録媒体コンテンツを
交換することにある。MPEG‐7はマルチ記録媒体素材の現行の記述を表現し
交換し変換し再利用する手段を提供することを目指している。
大な量のマルチ記録媒体素材を管理し蓄積している。この素材は、現在のところ
テキスト情報と所有権を主張できるデータベースとを利用して手操作で記述され
る。相互運用可能なコンテンツ記述なしに、コンテンツユーザは各放送局によっ
て使用される記述を手操作でユーザ自身の所有権を主張できるスキーマに変換す
る人員に投資する必要がある。マルチ記録媒体コンテンツ記述の交換は、すべて
のコンテンツプロバイダが同じコンテンツ記述スキーマを受け入れた場合に可能
となるであろう。これがMPEG‐7の目的の1つである。
ューアは、ユーザによって構成されるデータの多重ビュー等の革新的能力をユー
ザに提供しなければならない。ユーザは、データをコンテンツ放送局から異なる
フォーマットで再びダウンロードする必要なしに、ディスプレイの構成を変更で
きなければならない。
データを利用する可能性を示唆するものにすぎない。残念なことに、分散処理シ
ナリオ、コンテンツ交換シナリオまたは個人化された閲覧シナリオを全体的に満
足することができる現在利用可能な先行技術はない。特に、先行技術は包括的特
性または意味関連のどちらかを基にしたマルチ記録媒体情報内に埋め込まれたコ
ンテンツを捕らえるための技術を提供することができず、またはそのようなコン
テンツを編成するための技術を提供することができない。従って、包括的マルチ
記録媒体情報に関する効果的コンテンツ記述スキーマ技術に対する要求が存在す
る。
ことである。
提供することである。
標準の要求を満足する画像コンテンツ用の記述システムを提供することである。
。
することである。
提供することである。
標準の要求を満足する画像コンテンツを記述するための方法を提供することであ
る。
付図に関連した以下の詳細な説明から明らかとなる。
。
解的実施形態の特徴、要素、構成要素または部分等を表すのに使用される。さら
に、従属発明が図に関連して詳細に説明されるが、それは図解的実施形態に関連
してなされる。変更および変更態様は、追加請求項によって定義された従属発明
の真実の範囲と精神に反することなく、記述された実施形態とすることができる
。
用記述スキーマ(DS)を構成する。本発明の記述スキーマは画像コンテンツを
記述するあらゆる種類の標準で使用することができるが、本発明の好ましい実施
形態はMPEG‐7標準で使用される。本発明のDSを実行するためにあらゆる
記述定義言語(DDL)が使用されるであろうが、好ましい実施形態は、特にワ
ールド・ワイド・ウェブ・アプリケーション用に開発されたSGML(汎用マー
クアップ言語、ISO8879)の簡素化部分集合である拡張マークアップ言語(XM
L)を利用する。SGMLは、文書が文書内で使用されるタグ集合とそれらのタ
グを表現する構造関連とを指定することによって文書自体の文法を記述するとい
う意味で文書に自己記述することを可能にする。XMLは、習得し使用し実行す
ることが完全SGMLよりもごく容易となるように設計された言語において重要
なSGML利点を維持している。XMLの完全な記述はXMLによるワールド・
ワイド・ウェブ・コンソーシアムのウェブページhttp://www.w3.ore/XML/.で見
ることができ、その内容は参照することによって本願に組み入れられる。
クトと特徴分類とオブジェクト階層と実体関係グラフと抽出の多重レベルとコー
ドダウンローディングとモダリティトランスコーディングであり、それらはすべ
て以下で付加的に詳細に記述される。本発明の記述スキーマにおいて、画像文書
はオブジェクトとオブジェクト間の関連との集合によって表現される。各オブジ
ェクトは以下のカテゴリに一般的にグループ化される単数または複数の関連した
特徴を有することができる:記録媒体特徴、視覚特徴、意味特徴。各特徴は、外
部抽出コード、類似度整合コードを指示することによってコードダウンローディ
ングを促進することができる記述子を含むことができる。オブジェクト間の関連
はオブジェクト階層と実体関係グラフとによって記述することができる。オブジ
ェクト階層はまた抽出の多重レベルの概念を含むこともできる。モダリティトラ
ンスコーディングは、種々の能力を有するユーザターミナル(例えば、パームパ
イロット、携帯電話またはパーソナルコンピュータ(PC’s)の種々のタイプ等)
が同一の画像コンテンツを種々の解像度および/または種々のモダリティで受信
することを可能にする。
7標準で使用される。この標準と一致して、この好ましい実施形態はオブジェク
トを画像コンテンツのさまざまなレベルを記述するさいの基本実体として使用し
、それは種々のディメンションにそって定義される。例えば、オブジェクトは画
像領域または画像領域の郡を記述するのに使用することができる。高レベルオブ
ジェクトは順に意味特徴または視覚特徴を基にした最初のオブジェクトの群を記
述するのに使用することができる。さらに、特徴の種々の型はオブジェクトの種
々のレベルと関連して使用することができる。例えば、視覚特徴は画像コンテン
ツ内の物理的な構成要素に対応するオブジェクトに適用することができるのに対
して、意味特徴はオブジェクトのあらゆるレベルに適用することができる。
ーラビリティと利便性とを提供する。強化された柔軟性の利益において、本発明
は、画像記述システムの部分が例示されることを可能にし、クラスタリング階層
を介しての効率的特徴分類とオブジェクトのクラスタリングとを使用し、外部特
徴記述子と実行コードの効果的なリンキングと埋め込みとダウンローディングと
をサポートもする。本発明はまた記述スキーマ内に定義された要素がさまざまな
ドメイン用の新しい要素を導き出すことに使用されることを許可することによっ
て拡張性を提供する。スケーラビリティはオブジェクト階層を使用する規準のあ
らゆる任意の集合を基にした多重抽出レベルを定義する本発明の能力によって提
供される。それらの規準は、視覚特徴(例えば、サイズと色)、意味妥当性(例
えば、ユーザの利益差の妥当性)および/またはサービスクオリティ(例えば、
記録媒体特徴)の項で指定することができる。本発明は、構成要素、すなわちオ
ブジェクト、特徴クラス、オブジェクト階層および実体関係グラフの最小集合を
指定するので、利用するのに便利である。付加的オブジェクトと特徴はモジュラ
ー形式、フレキシブル形式で付け加えることができる。さらに、オブジェクト階
層および実体関係グラフのさまざまな型は、類似した仕方でそれぞれ定義するこ
とができる。
フとによって互いに関係する画像オブジェクトの集合として表現される。それら
のオブジェクトは外部抽出コード、類似度整合コードにリンクすることができる
多重特徴を有することができる。それらの特徴は、例えば、記録媒体特徴、視覚
特徴および意味特徴に分類される。画像オブジェクトは多重の種々のオブジェク
ト階層内に編成することができる。2つまたは複数のオブジェクト間の非階層関
連は、単数または複数の種々の実体関係グラフを使用して記述することができる
。大きな画像内に含まれるオブジェクトのために、そのようなオブジェクトをク
ラスタリングして見ることにおける抽出の多重レベルは、オブジェクト階層を使
用して実行することができる。そのような画像をクラスタリングして見ることに
おける抽出のそれらの多重レベルは、例えば、記録媒体特徴、視覚特徴および/
または意味特徴を基にすることができる。記録媒体特徴の1つの例は、モダリテ
ィトランスコーディングを含み、種々のターミナル仕様を有するユーザが十分な
モダリティと解像度とで同一の画像コンテンツへアクセスすることを許可する。
1A、図1B、図1Cは、本発明の画像記述システムに従った例示的画像の例示
的記述を示す。図1Aは、画像オブジェクトとこれらオブジェクトに関する例示
的対応するオブジェクト特徴との例示的集合を示す。より詳細には、図1Aは、
O08(すなわち例示的写真全体)に含まれた画像オブジェクト1(すなわち、
O1)2(“Person A”)、O26(“Person B”)、O34(“People”)も、図
示された例示的写真に関する例示的特徴10も示す。図1Bは図1Aに示した画
像オブジェクトに関する例示的空間オブジェクト階層を示しており、そこではO
08(写真全体)がO12(“Person A”)とO26(“Person B”)とを含むよ
うに示してある。図1Cは図1Aに示した画像オブジェクトに関する例示的実体
関係(E-R)を示しており、そこではO12(“Person A”)がO26(“Person B
”)の左に位置して握手をしていると特徴付けられている。
した本発明の画像記述システムの例示的図形表現を示す。特に、図2に示した菱
形記号は構成要素関連を表現する。各要素と関連する範囲はその構成要素関連内
の頻度を表現する。特に、用語”0…*”は“0以上”を示し、用語”1…*”は“
1以上”を示す。
で現れるXMLの好ましい実施形態内の参照される要素の特徴付けを示す。図2
に示すような本発明の画像記述システムにおいて、画像要素22(<image>)は、
画像記述を表現する画像オブジェクト集合要素24(<image_object_set>)を含み
、また単数または複数のオブジェクト階層要素26(<object_hierarchy>)と単数
または複数の実体関係グラフ28(<entity_relation_graph>)も含むことができ
る。各画像オブジェクト集合要素24は単数または複数の画像オブジェクト要素
30を含む。各画像オブジェクト要素30は、記録媒体特徴要素36、視覚特徴
要素38および/または意味特徴要素40等の単数または複数の特徴を含むこと
ができる。各オブジェクト階層要素26はオブジェクトノード要素32を含み、
各々が順に単数または複数の付加的なオブジェクトノード要素32を含むことが
できる。各実体関係グラフ28は単数または複数の実体関係要素34を含む。各
実体関係要素34は順に関係要素44を含み、また単数または複数の実体ノード
要素42も含むことができる。
閉じ込め関連によって関係される。本発明の画像記述システムの好ましい実施形
態は、実体関係グラフ28に加えてオブジェクト階層要素26を含む。なぜなら
ば、オブジェクト階層要素26は実体関係グラフ28よりも効果的な検索用構造
であるからである。さらに、オブジェクト階層要素26は合成オブジェクトを定
義する最も自然な方法であり、MPEG‐4オブジェクトは階層構造を使用する
ように構成されている。
間の関連を記述する構造からオブジェクトの定義を切り離す。従って、同一のオ
ブジェクトは種々のオブジェクト階層26と実体関係グラフ28とに現れること
ができる。このことで、1つ以上のオブジェクト階層26および/または実体関
係グラフ28内に現れるオブジェクトに関する特徴の好ましくない重複は避けら
れる。さらに、オブジェクトはオブジェクト階層26または実体関係グラフ28
等のあらゆる関連構造内に含まれるべき必要性なしに定義することができるので
、オブジェクトとオブジェクト間の関係との抽出は種々のステージで実行され、
それによって画像コンテンツの分散処理を許可する。
単数または複数の任意の領域を参照し、その結果空間内で連続または不連続のど
ちらかになることができる。図1A、図1B、図1Cにおいて、O12(“Perso
n A”)とO26(“Person B”)とO08(すなわち、写真)は、唯一の関連する
連続領域を伴うオブジェクトである。他方、O34(“People”)は空間内の互い
から切り離された多重領域で構成されたオブジェクトの例である。大域的オブジ
ェクトは画像全体に共通する特徴を含むのに対して、局所的オブジェクトはこの
画像の特定部分の特徴のみを含む。従って、図1A、図1B、図1Cにおいて、
O08は図示画像全体を表現する大域的オブジェクトであり、それに対して、O
12とO24とO34は画像全体内に含まれた1名または複数の人物を表現する
各局所的オブジェクトである。
たは表面模様等の視覚特徴によって定義されるオブジェクトである視覚オブジェ
クトと、記録媒体特徴と、意味特徴と、意味特徴と視覚特徴と記録媒体特徴との
組合せによって定義されるオブジェクトとを含む。従って、オブジェクトの型は
そのオブジェクトを記述するのに使用される特徴によって決定される。結果とし
て、オブジェクトの新しい型は必要に応じて加えられることができる。さらに、
オブジェクトの種々の型は、階層関連を利用することによってそれらの一般のオ
ブジェクトから導き出すことができMPEG‐7標準によってサポートされる。
e_object>)の集合は画像オブジェクト集合要素24(<image_object_set>)内に含
まれる。各画像オブジェクト要素30は画像記述内に一意名を有することができ
る。一意名とオブジェクト型(例えば、局所的または大域的)は、それぞれオブ
ジェクト要素IDの属性とオブジェクト型の属性として表現される。図1A、図
1B、図1Cに図示された画像を記述するオブジェクトの例示的集合の例示的実
施は、以下でXMLで記載されて示される。以下に示す全XMLリストにおいて
、文字”<!_”and”_>”との間に現れるテキストは、XMLコードへのコメント
を示す。
運ばれた情報に従って集められた群特徴である3つの特徴クラス要素を含むこと
ができる。そのような特徴クラス要素の例は、記録媒体特徴36(<img_obj_medi
a_features>)と視覚特徴38(<img_obj_visual_features>)と意味特徴40(<img
_obj_media_features>)とを含む。表1は以下でそれら各特徴クラスのための例
示的特徴のリストを表す。
故、何時、何処 視覚 色、表面模様、位置、サイズ、形状、方位 記録媒体 ファイル形式、ファイルサイズ、色表現、解像度、データファ イルロケーション、モダリティトランスコーディング、作成日
PEG‐7標準に従った記述子を含む。表2は以下で表1に示した例示的視覚特
徴と幾つか関連することのある例示的記述子を表す。表2に示したような特定の
記述子は、外部抽出コード、類似度整合コードへのリンクも含むことができる。
表1、表2は例示的特徴と例示的記述子とを表しているが、本発明の画像記述シ
ステムは、拡張形式およびモジュラー形式で、各オブジェクト用のあらゆる数の
特徴と記述子とを含むことができる。
30内に含まれるように定義することができるかの例を示している。特に、以下
の例は図1A、図1B、図1Cに示した大域的オブジェクトO0、すなわち2つ
の意味特徴(“where”と”when”)と1つの記録媒体特徴(“file format”)と1
つの視覚特徴(“color histogram”記述子を備えた”color”)とに関連された例
示的特徴10を定義する。オブジェクトは、以下の例で示されたような意味カテ
ゴリの各々において、種々な概念(<concept>)によって記述することができる。
要素26は画像オブジェクト集合24内の画像オブジェクト30を編成するのに
使用することができ、記録媒体特徴36、視覚特徴38、意味特徴40またはそ
れらのあらゆる組合せ等の種々の規準を基にする。各オブジェクト階層要素26
は、リンク33を介して画像オブジェクト集合24内の画像オブジェクト要素3
0を参照するオブジェクトノード32の枝を組成する。
関係を含む。この閉じ込め関係は多数の種々の型となることができ、例えば記録
媒体特徴36、視覚特徴38および/または意味特徴40等の利用されている特
定のオブジェクト特徴に依存することができる。例えば、図1Bに示した空間オ
ブジェクト階層は視覚閉じ込めを記述するが、何故ならそれは視覚特徴、すなわ
ち空間位置と関連して作成されるからである。図3Aと図3Bは2つの付加的な
例示的オブジェクト階層を示す。特に図3Aは、図1Aに示した画像オブジェク
トのための例示的階層を示しており、表1に表したように”who”意味特徴を基
にしている。従って、図3Aにおいて、O34(“People”)はO12(“Person
A”)とO26(“Person B”)とを含むように示されている。図3Bは、表1に表
したような例示的色視覚特徴と例示的形状視覚特徴とを基にして例示的階層を示
している。図3Bにおいて、O746は例えば特定の指定された色および形状抑
制を満足するオブジェクトの対応する領域であると定義することができる。従っ
て、図3BはO448(“Face Region 1”)とO650(“Face Region 2”)とを
含むようにO746(“Skin Tone & Shape”)を示す。さまざまな特徴を組合せ
たオブジェクト階層26もアプリケーションシステムのブロードレンジの要求を
満足するように構成することができる。
>)は、オブジェクトノード(ONs)32の枝を含む。オブジェクト階層はまたオプ
ションの文字列属性型を含む。そのような文字列属性型が表れた場合、シソーラ
スはそれら文字列属性型の値を提供でき、アプリケーションは存在している階層
の型を決定できる。各オブジェクトノード32(<object_node>)は、リンク33
を介して画像オブジェクト集合24内の画像オブジェクト30を参照する。画像
オブジェクト30はまたリンク33を介してそれらを参照するオブジェクトノー
ド32に戻って参照できる。この双方向リンキング機構は、画像オブジェクト集
合24内の画像オブジェクト30からオブジェクト階層26内の対応するオブジ
ェクトノード32への効果的な横断を許可し、逆もまた同様である。各オブジェ
クトノード32は画像オブジェクトの一意名を使用することによって属性(objec
t_ref)を通って画像オブジェクト30を参照する。各オブジェクトノード32も
属性の形体で一意名を含むことができる。オブジェクトノード32のためのそれ
らの一意名はオブジェクト30がもう1つの属性(object_node_ref)を使用する
それらを参照するオブジェクトノードに戻って参照することを可能にする。図1
Bに示した例示的空間オブジェクト階層の例示的XML実行文が以下に表現され
る。
生成するのに使用することもできる。例えば衛星写真等の比較的大きな画像を記
述することにおいて、そのような画像内に普通に含まれる多数のオブジェクトを
、効果的でスケーラブルな仕方で、記述し取り出すことにおいて問題が普通に生
じる。クラスタリング階層はこの問題の解決を提供するため本発明の画像記述シ
ステムに関連して使用することができる。
ブジェクトがそれらの各サイズ(<size>)に基づいて階層的にクラスタリングされ
る。特に図4Aは、例えば衛星写真画像等の比較的大きな画像の表現を示してお
り、オブジェクトO1152、O1254、O1356、O1458、O156
0は大きな画像に含まれる例えば地表の湖等のサイズが変化する画像オブジェク
トを表現する。図4Bは図4Aに示したオブジェクトに関して例示的サイズを基
にしたクラスタリング階層を表現しており、オブジェクトO1152、O125
4、O1356、O1458、O1560は図4Aに示したオブジェクトを表現
し、付加的オブジェクトO1662、O1764、O1856は図4Bに示した
クラスタリング階層のためのサイズを基にした規準を指定するオブジェクトを表
現している。特にオブジェクトO1662、O1764、O1856は、例えば
オブジェクト階層26の中間ノード32を表現することができ、中間ノードは画
像オブジェクト30として表現される。これらのオブジェクトは、図示したクラ
スタリング階層内でオブジェクトを互いにグループ化するために使用されるサイ
ズ特徴に関係した規準、条件および制約を含む。図4Bに示した特定例において
、オブジェクトO1662、O1764、O1856は、サイズを基にした3つ
の階層レベルを有するクラスタリング階層を形成するために使用される。オブジ
ェクトO1662はクラスタリング階層を形成するサイズ規準を表現する。オブ
ジェクトO1764は50ユニット以下のサイズ規準の第2レベルを表現し、こ
のようなユニットが例えば画素を表現することができ、オブジェクトO1856
は10ユニット以下のサイズ規準の第3レベルを表現する。従って、図4Bに示
したように、オブジェクトO1152、O1254、O1356、O1458、
O1560は、特定ユニット数の指定サイズを有するようにそれぞれ特徴付けら
れる。同様に、オブジェクトO1356、O1458、O1560は、50ユニ
ット以下の指定サイズを有するようにそれぞれ特徴付けられ,オブジェクトO1
560は10ユニット以下の指定サイズを有するように特徴付けられる。
ラスタリング階層の例を示しているが、多重特徴を含むさまざまなクラスタリン
グを使用する多重クラスタリング階層はまた、あらゆる画像用に使用することが
できる。例えば、このようなクラスタリング階層は記録媒体特徴、視覚特徴およ
び/または意味特徴のあらゆる組合せを基にしてオブジェクトを互いにグループ
化することができる。この手順は、画像を視覚情報検索エンジン内に互いにクラ
スタリングするのに使用される手順に類似している。大きな画像全体に含まれる
各オブジェクトはオブジェクト集合24内の画像オブジェクト30に割当てられ
、また記録媒体特徴36、視覚特徴38または意味特徴40等の特定の関連した
特徴にも割当てることができる。オブジェクト階層26の中間ノード32は画像
オブジェクト30として表現され、またオブジェクトをその特定レベルで互いに
グループ化するのに使用される単数または複数の特徴に関係した規準と条件と抑
制と含む。画像記述はあらゆる数のクラスタリング階層を含むことができる。図
4Aと図4Bに示した例示的クラスタリング階層は以下の例示的XML実行文内
に表現される。
に示すように、図示オブジェクトのサイズを基に定義された3つの抽出レベルが
存在する。この多重レベル抽出スキーマは、図4Aに示した画像内のオブジェク
トを検索し見るためのスケーラブル方法を提供する。そのようなアプローチは、
例えばさまざまな意味クラス等の他の特徴を基に多重抽出レベルを表現するのに
利用することができる。
的XML実施形態が付録Aに含まれる。
ト間の特定の関連はそのような構造を使用することに十分に表現することができ
ない。従って、図1Cと図2に示したように、本発明の画像記述システムはまた
、オブジェクト間のさらに複雑な関連を指定するために実体関係(E-R)グラフ2
8も利用する。実体関係グラフ28は単数または複数の実体ノード42とそれら
の間の関連とのグラフである。表4は以下で各特定例と同様に、そのような関連
の幾つか異なる例示的型も示す。
を利用して、あらゆる特定アプリケーション用にカスタマイズもできる。図1C
に示した例示的実体関係グラフは、図1Aに示したオブジェクト〇12、〇26
間の例示的空間関連、すなわち“の左”と、例示的意味関連、すなわち“と握手
している”とを記述している。
28(<entity_relation_graph>)を指定することを可能とする。実体関係グラフ
28は実体関係要素34(<entity_relation>)の1つ以上の集合を含み、また2
つの任意の属性、すなわち実体関係グラフ28によって表現される統合を記述す
るための一意名IDと文字列型とをも含んでいる。そのような型の値は例えばシソ
ーラスによって提供することができる。各実体関係要素34は1つの関係要素4
4(<relation>)を含み、さらに1つ以上の実体ノード要素42(<entity_node>)
と1つ以上の実体関係要素34とを含むこともできる。関係要素44は記述され
る特定の関連を含む。各実体ノード要素42は属性、すなわちobject_ref、を利
用してリンク43を介して画像オブジェクト集合24内の画像オブジェクト30
を参照する。リンク43を介して、画像オブジェクト30は属性(<event_code_r
efs>)を利用して画像オブジェクト30を参照する実体ノード42に戻って参照
することもできる 図1Cの例示的実体関係グラフ28に示したように、実体関係グラフ28はオ
ブジェクト〇12(“Person A”)とオブジェクト〇26(“Person B”)との間の
2つの実体関係34を含む。そのような第1実体関係34はオブジェクト〇12
がオブジェクト〇26(すなわち“の左”へ)に関してどのように配置されてい
るかについての空間関係44を記述する。図1Cに示したような第2実体関係3
4は如何にしてオブジェクト〇12がオブジェクト〇26”握手をしている“で
あるかの意味関係44を記述する。図1Cに示した実体関係グラフ例の例示的X
ML実行文を以下に示す。
実体関係要素34を含むこともできる。これによって同期化マルチ記録媒体統合
言語(SMIL)で利用されるような実体関連の効果的な入れ子型グラフを作成
することができ、それは入れ子型並行シーケンシャル関連の連続を使用すること
によってさまざまな記録媒体文書を同期させる。
係グラフ28を使用して実行でき、実体は閉じ込め関連によって関係する。閉じ
込め関連は表4に表したような位相関連である。オブジェクト階層26が実体関
係グラフ28の特定の型であることを説明するために、図1Bで示した例示的オ
ブジェクト階層26は実体関係グラフ28としてXMLの中で下記のように表現
される。
ト〇12(“Person A”)と〇26(“Person B”)とをどのように空間的に含む
かを記述している。従って、このように特定の要求に基づき、アプリケーション
が、実体関係グラフ28の広範囲の構造の利便性か、あるいはオブジェクト階層
26の効率性を利用することのどちらかを利用する階層を実行することができる
。
と関連する画像記述子のため、本発明の画像記述システムは、以下のXML例で
説明するように、コードダウンローディングを促進するため抽出コード、類似度
整合コードへのリンクを含むこともできる。これらのリンクは所有記述子を使用
する種々のソースからの画像コンテンツを効果的に探索しフィルタリングする機
構を提供する。本発明の画像記述システム内の各画像記述子は、記述子値とコー
ド要素とを含むことができ、これらはその特定の記述子用の抽出コード、類似度
整合コードに関する情報を含む。コード要素(<code>)は実行ファイル(<location
>)のポインターも、コードを実行するための入力パラメータ(<input_parameters
>)と出力パラメータ(<output_parameters>)の記述のポインターも含むこともで
きる。コード(すなわち、抽出コードまたは類似度整合コード)の型とコード言
語(例えばJavaまたはC等)とコードバージョンとについての情報はコード要素
の特定の属性として定義される。
extual Features Corresponding to Visual Perception”, IEEE Transactions
on Systems, Man and Cybernetics, Vol.8, No.6, June 1978で述べられてい
るように、いわゆるTamura表面模様特徴の記述を提供するが、その全内容は参照
することによって本願に組み入れられる。 Tamura表面模様特徴は特定の特徴値
(すなわち粗雑とコントラストと方向性)と、また特徴抽出・類似度整合用外部
コードへのリンクも提供する。下に示した特徴抽出例において、入力パラメータ
と出力パラメータについての付加的な情報も提供される。そのような記述は例え
ば、メタ探索エンジンからの表面模様質問に応じて探索エンジンによって生成さ
れる。メタ探索エンジンはつぎに、ユーザ用に結果の同種型リストを生成するた
めに、他の探索エンジンから受信した結果から同一の特徴記述子を抽出するコー
ドを使用することができた。他の場合では、特定の特徴値ではなく抽出コードと
類似度整合コードだけが含まれる。そのような場合に必要があれば、ファルタリ
ングエージェントは処理のための特徴値の抽出に使用できる。
義された記述スキーマが輸入されて本発明の画像記述システム内へ組み合わされ
ることを可能にする方法を説明する。下の例において、クロマキー形状特徴のた
めの外部記述子はXMLネーム空間を使用することによって画像記述内へ輸入さ
れる。このフレームワークを使用して、新しい特徴と特徴の型と画像記述子とは
、拡張形式およびモジュラー形式で便利に含むことができる。
。コンテンツ放送局が様々なユーザへ画像コンテンツを伝送しなければならない
典型例において、ユーザの様々なターミナル要求と帯域幅制限とを調整するため
、放送局は画像コンテンツを種々の記録媒体モダリティと解像度とにトランスコ
ードしなければならない。本発明の画像記述システムは局所的オブジェクトと大
域的オブジェクトの両方に関連してモダリティトランスコーディングを提供する
。このモダリティトランスコーディングは、問題内の画像オブジェクトのトラン
スコードされたバージョンの記録媒体モダリティと解像度と位置とをトランスコ
ードするかあるいは、外部トランスコーディングコードへリンクする。問題内の
画像記述子はまた、画像オブジェクトを種々のモダリティと解像度とへトランス
コードするためのコードを指すこともでき、種々のユーザターミナルの要求を満
足させる。以下に示す例示的XML実行文は画像オブジェクトのためのオーディ
オのトランスコードされたバージョンを提供することを説明する。
録Aに示してある。
テムのブロック図を示している。図示したコンピュータシステムは例えば画像入
力インタフェース404を介して画像コンテンツを表現するディジタルデータを
受信するコンピュータプロセッサセクション402を含む。あるいは、ディジタ
ル画像データは双方向通信入力/出力(I/O)ポート406を介して遠隔ソー
スからプロセッサセクション402に転送できる。画像コンテンツも技術上周知
なあらゆる光学データ記憶装置または磁気記憶装置等の不揮発性コンピュータ記
録媒体408からプロセッサセクション402へ転送できる。プロセッサセクシ
ョン402は画像表示システム410へデータを提供するが、それは一般的に、
例えば従来のパーソナルコンピュータシステムとワークステーションとで普通用
いられる標準SVGAモニタおよびビデオカード等の適当なインタフェース回路と高
解像度モニタとを含む。キーボードおよびディジタル位置入力装置(例えば、マ
ウス、トラックボール、ライトペンまたはタッチスクリーン)等のユーザ入力装
置は、ユーザとコンピュータシステムとの相互作用をもたらすため、プロセッサ
セクション402へ接続されている。図5の例示的コンピュータシステムも揮発
性および不揮発性コンピュータメモリ414を普通含み、それは処理操作中にプ
ロセッサセクション402によってアクセスできる。
ータシステムによって行われる処理操作をさらに説明する流れ図を示す。ディジ
タル画像データ310はリンク311を介してコンピュータシステムへ適用され
る。コンピュータシステムは、適切なアプリケーションソフトウェアの制御下で
、ブロック320での画像オブジェクト抽出を実行し、そこで画像オブジェクト
30と例えば記録媒体特徴36、視覚特徴38および意味特徴40等の関連する
特徴とが生成される。画像オブジェクト抽出320は、オブジェクトが、例えば
ユーザ入力装置412を介するなどして、主としてユーザ相互作用を通して定義
される完全自動処理操作、半自動処理操作または実質的に手動の操作の形体をと
ることができる。
、すなわちブロック325で示した画像分割とブロック326で示した特徴抽出
・注釈とからなる。画像分割325ステップには、ディジタル画像を単数または
複数の共通の特性を共有する領域に分割するあらゆる領域トラッキング技術が用
いられる。同様に、特徴抽出・注釈ステップ326には、分割された領域から特
徴を生成するあらゆる方法が用いられる。領域に基づくクラスタリング・探索サ
ブシステムは、自動化された画像分割と特徴抽出とに適している。画像オブジェ
クト分割システムは半自動化された画像分割・特徴抽出システムの一例である。
手動分割および特徴抽出は選択的に用いることができる。例示的システムでは、
画像分割325は例えば画像オブジェクト30を生成でき、特徴抽出・注釈32
6は例えば画像オブジェクト30に関連した特徴、例えば記録媒体特徴36、視
覚特徴38および意味特徴40等を生成できる。
は単数または複数の画像オブジェクト30を含む。画像オブジェクト集合24の
画像オブジェクト30は次に、ブロック330に示したようなオブジェクト階層
構成・抽出処理および/またはブロック336に示したような実体関係グラフ生
成処理の形体でさらに処理されるために、リンク321、322、324を介し
て提供される。好ましくはオブジェクト階層構成・抽出330と実体関係グラフ
生成336とはリンク327を介して並行して行われる。あるいは、画像オブジ
ェクト集合24の画像オブジェクト30は、リンク323を介してオブジェクト
階層構成・抽出330と実体関係グラフ生成336とを回避するように仕向ける
ことができる。このようにしてオブジェクト階層構成・抽出330は単数または
複数のオブジェクト階層26を生成し、実体関係グラフ生成336は単数または
複数の実体関係グラフ28を生成する。
階層26と実体関係グラフ28とを問題内の画像コンテンツのための画像記述レ
コード内へマージする。画像記述レコードは次にデータベース記憶装置340へ
直接蓄積されるか、あるいは最初にリンク342とリンク361とを介して2進
エンコーダ360によって圧縮されるかまたはリンク341とリンク351とを
介してXMLエンコーダ350による(例えばXMLを使用した)記述定義言語符号化
によって符号化される。いったん画像記述レコードがデータベース記憶装置34
0に蓄積されると、画像記述レコードは、双方向リンク371を介して他のアプ
リケーション370、例えば探索アプリケーション、フィルターアプリケーショ
ンおよびアーカイビングアプリケーション等よるアクセスおよび使用にとって便
利なフォーマットでの利用が可能なままである。
バコンピュータシステムの例示的実施形態が提供される。システム100のアー
キテクチャはクライアントコンピュータ110とサーバコンピュータ120とを
含む。サーバコンピュータ120はディスプレイインタフェース130と、質問
ディスパッチャ140と、性能データベース150と、質問トランスレータ16
0、161、165と、目的探索エンジン170、171、175と、マルチ記
録媒体コンテンツ記述システム200、201、205とを含み、それらは下で
さらに詳細に記述される。
、当業者は、多数の周知の局所的アーキテクチャまたは分散アーキテクチャを含
むために特定のシステムアレンジメントが本発明の範囲内で修正されることを理
解すべきである。例えば、クライアントサーバーシステムの全機能性は、単一の
コンピュータ内に含めることができるか、または複数のサーバコンピュータは、
共有されるか分離される機能性を伴って利用できる。
探索エンジンへ自動的にユーザが気付くことなくリンクさせるゲートウェイとし
て活動する。図7のシステムはそのようなメタサーチエンジンのアーキテクチャ
において成長しており、ユーザの質問の種々のクラスに応じてそれらの性能をラ
ンキングすることによって、多重オンラインマルチ記録媒体探索エンジンを理知
的に選択しインタフェースをとるように設計されている。従って商業的に利用可
能なメタサーチエンジンの質問ディスパッチャ140と質問トランスレータ16
0、161、165とディスプレイインタフェース130は、本発明で用いられ
る。
調べることによって質問されるべき目的探索エンジンを選択する。このデータベ
ース150は各サポートされた探索オプションのために過去の質問の成否につい
ての性能スコアを含む。質問ディスパッチャはユーザの質問を満足することので
きる探索エンジン170、171、175だけを選択し、例えば色情報を捜索す
る質問は色使用可能探索エンジンをトリガーする。探索エンジン170、171
、175は例えば、探索エンジン170と関連クライアント172等のクライア
ントサーバ関連内に配置できる。
ンジンのインタフェースに一致する適当なスクリプトへ変換する。ディスプレイ
コンポーネント130は性能スコアを使用して各探索エンジンからの結果をマー
ジしそれらをユーザに提示する。
トワークで理知的に視覚コンテンツを探索することを許可するため、探索質問は
本発明か例またはスケッチによって生成されるマルチ記録媒体コンテンツの記述
によって形成できる。各探索エンジン170、171、175は、探索エンジン
によってアクセス可能なマルチ記録媒体情報のコンテンツを記述し探索を実行す
るため、記述スキーマ例えば下で記述される記述スキーマを用いる。
ディスパッチャ140は、質問内のユーザ参照の満足感を保証するためにマルチ
記録媒体コンテンツ記述システム200を通して各探索エンジン170、171
、175によって用いられる質問記述をマッチさせる。次にそれは性能データベ
ース150を調べることによって質問されるべき目的探索エンジン170、17
1、175を選択する。例えばユーザが色によって探索することを望み、ある探
索エンジンがいずれの色記述子もサポートしない場合、その特定の探索エンジン
は質問するのに便利にはならない。
ンに一致する記述へと質問記述を適合させる。このトランスレイションは各探索
エンジンから利用可能な記述スキーマに基づくことになる。このタスクは標準記
述子用の抽出コードまたは記述子を変換するために特定の探索エンジンからダウ
ンロードされる抽出コードを実行する必要があることがある。例えば、ユーザが
166ビンの色コヒーレンスを使用するオブジェクトの色特徴を指定する場合、
質問トランスレータはそれを各探索エンジンによって使用される特定の色記述子
、例えばxビンの色コヒーレンスと色ヒストグラムに変換される。
することによって各探索オプションから生じる結果を比較とランキング用の同種
型物に変換する。再び、標準記述子用の類似度コードまたは探索エンジンからダ
ウンロードされる類似度コードは、実行する必要があることがある。ユーザ選択
は結果がどのようにユーザに表示されるかを決定することができる。
5によって採用される記述システム200はいまや記述される。この中へ開示さ
れる好ましい実施形態において、XMLはマルチ記録媒体コンテンツを記述する
のに使用される。
述子を生成するため、幾つかのマルチ記録媒体処理、分析および注釈サブシステ
ム210、220、230、240、250、260、270、280を有利に
含む。拡幅システムは順に記述される。
の色、表面模様、動き、形状およびサイズ等の視覚特徴を抽出する領域を基にし
たクラスタリング・探索システムである。システム210は映像をシーン変化検
出によって分離されたショットに分解し、それは不意または推移(例えば、分解
、フェードイン/フェードアウト、ワイプ)のどちらかとすることができる。各
ショットに関して、システム210は大域的動き(すなわち、主背景の動き)と
カメラの動きの両方、そして分割、検出、および各領域に関するさまざまな視覚
特徴を算出するショット内のフレームを横断するトラック領域を評価する。各シ
ョットに関して、このシステムによって生成される記述は視覚および動き特徴と
カメラの動きとを備える領域の集合である。領域を基にしたクラスタリング・探
索システム210の完全な記述は1998年5月5日に出願された”An Algorithm a
nd System Architecture for Object-Oriented Content-Based Video Search”
を名称とするPCT同時係属出願第PCT/US98/09124号に含まれており、その内容
は参照することによって本願に組み入れられる。
はないが、バットを振る野球選手、海を横断して移動するサーフボードまたは大
草原を横断して走る馬等の同一視できる属性を有する単数または複数の映像オブ
ジェクトを有する映像情報のフレームのシーケンスを参照すべきである。“映像
オブジェクト”はインタレスト、例えば、表面模様、動きまたは形状の単数また
は複数の特徴内で同種型である画素の隣接集合である。従って、映像オブジェク
トは少なくとも1つの特徴内の一貫性を提示する単数または複数の映像領域によ
って形成される。例えば歩行中の人物(人物がここでは”object”)のショット
は、形状、色および表面模様等の規準の点で異なる隣接領域のコレクションに分
割されるであろうが、全領域がそれらの動き属性内に一貫性を示すことができる
。
れはMPEG圧縮ドメインの直接内部のフェイスを効果的におよび自動的に検出
する。ヒューマンフェイスは画像および映像内の重要なサブジェクトである。そ
れはニュース、ドキュメンタリ、映画等の至るところにあり、映像コンテンツの
理解のためにビューアにとって重要な情報を提供する。このシステムはフェイス
ラベルを備えた領域の集合を提供する。システム220の完全な記述は1997年11
月4日に出願された”A Highly Efficient System for Automatic Face Region
Detection in MPEG Video”を名称とするPCT出願第PCT/US97/20024号に含ま
れており、その内容は参照することによって本願に組み入れられる。
め自動分割がユーザ入力と一体化した映像オブジェクト分割システムである。一
般映像ソースのために、システムは捜索インタフェースを使用することによって
ユーザがおおよそのオブジェクト境界を定義することを可能にする。おおよその
オブジェクト境界が与えられたと仮定すると、システムは自動的に境界を定義し
映像のその後のフレーム内のオブジェクトの運動を追跡する。システムは現行の
アプローチを使用するモデルには困難な多数の実環境状態を対処するのに十分に
ロバストであり、複雑なオブジェクト、早くて断続する動き、複雑な背景、多重
ムービングオブジェクトおよび部分閉鎖を含む。このシステムによって生成され
た記述は、手動でテキスト注釈を付けることができる関連した領域と特徴とを備
えた意味オブジェクトの集合である。システム230の完全な記述は、1998年9
月24日に出願された”An Active System and Algorithm for Semantic Video Ob
ject Segmentation”を名称とする米国特許出願第09/405555号に含ま
れており、その内容は参照することによって本願に組み入れられる。
クト特徴とカメラの動きとを抽出するため圧縮MPEG映像ストリームを解析す
る階層映像ブラウジングシステムである。それはまた映像の直観的視覚化と編集
のため階層ショットベーストブラウジングインタフェースも生成する。システム
240の完全な記述は、1997年5月16日に出願された”Efficient Query and In
dexing Methods for Joint Spatial/Feature Based Image Search”を名称とす
るPCT出願第PCT/US97/08266号に含まれており、その内容は参照することによ
って本願に組み入れられる。
のため視覚特徴とテキスト特徴とを統合することはしばしば望ましい。オンライ
ンの新しいソースからの映像、例えばクラリネットからの映像のため、各映像と
関連したキャプションまたはアーティクルの形体のテキスト情報がしばしば存在
する。このテキスト情報は記述内に含まれることができる。
の高レベル意味分類と、のためのシステムである。システムのコアはルールイン
ダクション、クラスタリングおよび最も隣接した分類等の様々な機械学習技術か
らなる。システムは画像と映像シーンとを{自然の景色}、{都市/郊外}、{
屋内}および{屋外}等の高レベル意味シーンクラスへ分類するのに使用されて
いる。システムは機械学習技術に焦点を置いており、なぜなら1つのコーパスを
伴い良く働くであろうルールの固定された集合はもう1つのコーパスとは、意味
シーンクラスの同じ集合であっても、良く働かないであろうということを我々は
発見しているからである。システムのコアは機械学習技術を基にしているので、
システムは各コーパスからの例でシステムを訓練することによって種々のコーパ
スのためのハイパフォーマンスを成し遂げるように適合することができる。この
システムによって生成される記述は、映像シーケンスのショットと関連した各画
像またはキーフレームのためのシーンクラスを指し示すテキスト注釈の集合であ
る。システム260の完全な記述は、S.Paek etal., ”Integration of Visual
and Text based Approaches for the Content Labeling and Classification of
Photographs” ACM SIGIR’99 Workshop on Multimedia Indexing and Retriev
al. Berkeley, C A (1999)に含まれており、その内容は参照することによって本
願に組み入れられる。
画像分類システムは、クラス特定アルゴリズムが分類を実行するのに使用される
クラスの予め定義された集合を基にしている。システム270はユーザが彼ら自
身のクラスを定義し視覚モデルを自動的に学習するのに使用される例を提供する
ことを可能にする。視覚モデルは自動的に分割された領域と、それらの関連した
視覚特徴と、それらの空間関連とを基にしている。例えば、ユーザは青いシャツ
を着た1名の人物が茶色のソファーに座っており、第2の人物が着座人物の右に
立っているポートレイトの視覚モデルを構成することができる。システムは分類
の間怠惰な学習と決定樹と展開プログラムとの組合せを使用する。このシステム
によって生成される記述は各画像用のテキスト注釈、すなわちユーザ定義クラス
の集合である。システム270の完全な記述は、A. James et al., “Model Bas
ed Classification of Visual Information for Content-Based Retrieval” Sy
mp. Elec. Imaging: Multimedia Proc. And App.-Storage Retrieval and for I
mage and Video Databases VII, IS & T/SPIE ’99 (1999)に含まれており、そ
の内容は参照することによって本願に組み入れられる。
使用されるコラボレータからのサブシステム等の、マルチ記録媒体コンテンツ記
述子ステム200に加えることができる。
ウザインタフェース206からコンテンツを受信するバッファ、または、ライブ
画像または映像送波用レセプタクルのデータベースとすることができる。サブシ
ステム210、220、230、240、250、260、270、280は、
上記のように、自動的に分割された領域と、ユーザ定義意味オブジェクトと、高
レベルシーン属性と、分類と、関連したテキスト情報とによる低レベルの視覚特
徴を含む記述211、221、231、241、251、261、271、28
1を生成するため、画像および映像コンテンツ205上で作動する。いったん画
像または映像項目用の全記述が生成されブロック290内へ統合されると、記述
はデータベース295に入力され、そこへ探索エンジン170がアクセスする。
探索サブシステム210と映像オブジェクト分割システム230とが、記述生成
処理全体を実行することができるということであり、一方では、残ったサブシス
テムが処理の一部だけを実行し処理の間サブシステム210、230によって指
名することができる。類似した仕方において、サブシステム210および230
は処理内の特定のタスクのために互いに指名することができる。
換と変更とが、追加請求項で述べられたように発明の真実の範囲と精神に反する
ことなく開示された実施形態と合うことができることが理解されるべきである。
記述システム用の例示的画像、図1Bは本発明の画像記述システム用の例示的オ
ブジェクト階層、図1Cは本発明の画像記述システム用の例示的実体関係グラフ
である。
記述システム用の例示的オブジェクト階層、図3Bは本発明の画像記述システム
用の別の例示的オブジェクト階層である。
記述システム用の例示的画像の表現、図4Bは本発明の画像記述システム用の例
示的クラスタリング階層である。
Claims (64)
- 【請求項1】 画像情報から記述レコードを生成するためのシステムにおいて、 前記画像情報を受信するための少なくとも1つの画像入力インタフェースと、 前記少なくとも1つの画像入力インタフェースに接続されてそこから前記画像
情報を受信し、画像オブジェクト抽出処理を実行することによって前記画像情報
を処理して前記画像情報から画像オブジェクト記述を生成し、オブジェクト階層
構成・抽出処理によって前記生成された画像オブジェクト記述を処理して画像オ
ブジェクト階層記述を生成し、かつ実体関係グラフ生成処理によって前記生成さ
れた画像オブジェクト記述を処理して実体関係グラフ記述を生成し、前記画像オ
ブジェクト記述と前記画像オブジェクト階層記述と前記実体関係グラフ記述とを
含む少なくとも1つの記述レコードが、前記画像情報内に埋め込まれたコンテン
ツを表現するために生成されるコンピュータプロセッサと、 前記プロセッサに作動的に接続された、前記少なくとも1つの記述レコードを
蓄積するためのデータ蓄積システムとを特徴とするシステム。 - 【請求項2】 前記画像オブジェクト抽出処理と前記オブジェクト階層構成・抽
出処理が並行して実行される、請求項1記載のシステム。 - 【請求項3】 前記画像オブジェクト抽出処理が、 前記画像情報中の各画像を前記画像内の諸領域に分割する画像分割処理と、 単数または複数の前記領域に関する単数または複数の特徴記述を生成する特徴
抽出注釈処理とを含み、 前記生成された画像オブジェクト記述が、単数または複数の前記領域に関する
前記単数または複数の特徴記述を含む、請求項1記載のシステム。 - 【請求項4】 前記単数または複数の特徴記述が、記録媒体特徴と視覚特徴と意
味特徴とからなる群から選択される、請求項3記載のシステム。 - 【請求項5】 前記意味特徴がさらに、誰、如何なるオブジェクト、如何なる行
動、何処、何時、何故、コードダウンローディングおよびテキスト注釈からなる
群から選択される少なくとも1つの特徴記述によって定義される、請求項4記載
のシステム。 - 【請求項6】 前記視覚特徴がさらに、色、表面模様、位置、サイズ、形状、動
き、コードダウンローディングおよび方位からなる群から選択される少なくとも
1つの特徴記述によって定義される、請求項4記載のシステム。 - 【請求項7】 前記記録媒体特徴がさらに、ファイル形式、ファイルサイズ、色
表現、解像度、データファイルロケーション、著者、作成、スケーラブルレイヤ
、コードダウンローディングおよびモダリティトランスコーディングからなる群
から選択される少なくとも1つの特徴記述によって定義される、請求項4記載の
システム。 - 【請求項8】 前記オブジェクト階層構成・抽出処理が、前記画像オブジェクト
記述によって表現される画像オブジェクトの視覚特徴関連に基づいて前記画像オ
ブジェクト記述の画像オブジェクト階層記述を生成する、請求項1記載のシステ
ム。 - 【請求項9】 前記オブジェクト階層構成・抽出処理が、前記画像オブジェクト
記述によって表現される画像オブジェクトの意味特徴関連に基づいて前記画像オ
ブジェクト記述の画像オブジェクト階層記述を生成する、請求項1記載のシステ
ム。 - 【請求項10】 前記オブジェクト階層構成・抽出処理が、前記画像オブジェク
ト記述によって表現される画像オブジェクトの記録媒体特徴関連に基づいて前記
画像オブジェクト記述の画像オブジェクト階層記述を生成する、請求項1記載の
システム。 - 【請求項11】 前記オブジェクト階層構成・抽出処理が、前記画像オブジェク
ト記述によって表現される画像オブジェクトの関連に基づいて前記画像オブジェ
クト記述の画像オブジェクト階層記述を生成し、前記関連が、視覚特徴関連と意
味特徴関連と記録媒体特徴関連とからなる群から選択される、請求項1記載のシ
ステム。 - 【請求項12】 前記オブジェクト階層構成・抽出処理が、前記画像オブジェク
ト記述によって表現される画像オブジェクトの関連に基づいて前記画像オブジェ
クト記述の画像オブジェクト階層記述を生成し、前記画像オブジェクト階層記述
が複数の階層レベルを有する、請求項1記載のシステム。 - 【請求項13】 複数の階層レベルを有する前記画像オブジェクト階層記述がク
ラスタリング階層を含む、請求項12記載のシステム。 - 【請求項14】 前記クラスタリング階層が、前記画像オブジェクト記述によっ
て表現される画像オブジェクトの関連に基づいており、前記関連が、視覚特徴関
連と意味特徴関連と記録媒体特徴関連とからなる群から選択される、請求項13
記載のシステム。 - 【請求項15】 前記実体関係グラフ生成処理が、前記画像オブジェクト記述に
よって表現される画像オブジェクトの関連に基づいて前記画像オブジェクト記述
の実体関係グラフ記述を生成し、前記関連が、視覚特徴関連と意味特徴関連と記
録媒体特徴関連とからなる群から選択される、請求項1記載のシステム。 - 【請求項16】 さらに、前記画像オブジェクト記述を受信して符号化記述情報
に符号化するためのエンコーダを含み、前記データ蓄積システムが前記符号化記
述情報を前記少なくとも1つの記述レコードとして蓄積するように作動する、請
求項1記載のシステム。 - 【請求項17】 前記画像オブジェクト記述と前記画像オブジェクト階層記述と
前記実体関係グラフ記述が互いに組合わされて画像記述を形成し、さらに、前記
画像記述を受信して符号化記述情報に符号化するためのエンコーダを含み、前記
データ蓄積システムが前記符号化記述情報を前記少なくとも1つの記述レコード
として蓄積するように作動する、請求項1記載のシステム。 - 【請求項18】 前記エンコーダが2進エンコーダを含む、請求項17記載のシ
ステム。 - 【請求項19】 前記エンコーダがXMLエンコーダを含む、請求項17記載の
システム。 - 【請求項20】 画像情報から記述コードを生成するための方法において、 前記画像情報を受信するステップと、 画像オブジェクト抽出処理を実行することによって前記画像情報を処理して前
記画像情報から画像オブジェクト記述を生成するステップと、 オブジェクト階層構成・抽出処理によって前記生成された画像オブジェクト記
述を処理して画像オブジェクト階層記述を生成するステップと、 実体関係グラフ生成処理によって前記生成された画像オブジェクト記述を処理
して実体関係グラフ記述を生成し、前記画像オブジェクト記述と前記画像オブジ
ェクト階層記述と前記実体関係グラフ記述とを含む少なくとも1つの記述レコー
ドが、前記画像情報内に埋め込まれたコンテンツを表現するために生成されるス
テップと、前記少なくとも1つの記述レコードを蓄積するステップとを特徴とす
る方法。 - 【請求項21】 前記画像オブジェクト抽出処理ステップと前記オブジェクト階
層構成・抽出処理ステップが並行して実行される、請求項20記載の方法。 - 【請求項22】 前記画像オブジェクト抽出処理ステップがさらに、 前記画像情報中の各画像を前記画像内の諸領域に分割する画像分割処理ステッ
プと、 単数または複数の前記領域に関する単数または複数の特徴記述を生成する特徴
抽出注釈処理ステップとを含み、 前記生成された画像オブジェクト記述が単数または複数の前記領域に関する前
記単数または複数の特徴記述を含む、請求項20記載の方法。 - 【請求項23】 さらに、記録媒体特徴と視覚特徴と意味特徴とからなる群から
前記単数または複数の特徴記述を選択するステップを含む、請求項22記載の方
法。 - 【請求項24】 前記意味特徴がさらに、誰、如何なるオブジェクト、如何なる
行動、何処、何時、何故、コードダウンローディングおよびテキスト注釈からな
る群から選択される少なくとも1つの特徴記述によって定義される、請求項23
記載の方法。 - 【請求項25】 前記視覚特徴がさらに、色、表面模様、位置、サイズ、形状、
動き、コードダウンローディングおよび方位からなる群から選択される少なくと
も1つの特徴記述によって定義される、請求項23記載の方法。 - 【請求項26】 前記記録媒体特徴がさらに、ファイル形式、ファイルサイズ、
色表現、解像度、データファイルロケーション、著者、作成、スケーラブルレイ
ヤ、コードダウンローディングおよびモダリティトランスコーディングからなる
群から選択される少なくとも1つの特徴記述によって定義される、請求項23記
載の方法。 - 【請求項27】 前記オブジェクト階層構成・抽出処理ステップが、前記画像オ
ブジェクト記述によって表現される画像オブジェクトの視覚特徴関連に基づいて
前記画像オブジェクト記述の画像オブジェクト階層記述を生成する、請求項20
記載の方法。 - 【請求項28】 前記オブジェクト階層構成・抽出処理ステップが、前記画像オ
ブジェクト記述によって表現される画像オブジェクトの意味特徴関連に基づいて
前記画像オブジェクト記述の画像オブジェクト階層記述を生成する、請求項20
記載の方法。 - 【請求項29】 前記オブジェクト階層構成・抽出処理ステップが、前記画像オ
ブジェクト記述によって表現される画像オブジェクトの記録媒体特徴関連に基づ
いて前記画像オブジェクト記述の画像オブジェクト階層記述を生成する、請求項
20記載の方法。 - 【請求項30】 前記オブジェクト階層構成・抽出処理ステップが、前記画像オ
ブジェクト記述によって表現される画像オブジェクトの関連に基づいて前記画像
オブジェクト記述の画像オブジェクト階層記述を生成し、前記関連が、視覚特徴
関連と意味特徴関連と記録媒体特徴関連とからなる群から選択される、請求項2
0記載の方法。 - 【請求項31】 前記オブジェクト階層構成・抽出処理ステップが、前記画像オ
ブジェクト記述によって表現される画像オブジェクトの関連に基づいて前記画像
オブジェクト記述の画像オブジェクト階層記述を生成し、前記画像オブジェクト
階層記述が、複数の階層レベルを有するように構成される、請求項20記載の方
法。 - 【請求項32】 複数の階層レベルを有する前記画像オブジェクト階層記述が、
クラスタリング階層を含むように構成される、請求項31記載の方法。 - 【請求項33】 前記クラスタリング階層が、前記画像オブジェクト記述によっ
て表現される画像オブジェクトの関連に基づくように構成され、前記関連が、視
覚特徴関連と意味特徴関連と記録媒体特徴関連とからなる群から選択される、請
求項32記載の方法。 - 【請求項34】 前記実体関係グラフ生成処理ステップが、前記画像オブジェク
ト記述によって表現される画像オブジェクトの関連に基づいて前記画像オブジェ
クト記述の実体関係グラフ記述を生成し、前記関連が、視覚特徴関連と意味特徴
関連と記録媒体特徴関連とからなる群から選択される、請求項20記載の方法。 - 【請求項35】 さらに、前記画像オブジェクト記述を受信して符号化記述情報
に符号化するステップと前記符号化記述情報を前記少なくとも1つの記述レコー
ドとして蓄積するステップとを含む、請求項20記載の方法。 - 【請求項36】 さらに、前記画像オブジェクト記述と前記画像オブジェクト階
層記述と前記実体関係グラフ記述とを組合わせて画像記述を形成するステップと
、前記画像記述を受信して符号化記述情報に符号化するステップと、前記符号化
記述情報を前記少なくとも1つの記述レコードとして蓄積するステップとを含む
、請求項20記載の方法。 - 【請求項37】 前記符号化ステップが2進符号化ステップを含む、請求項36
記載の方法。 - 【請求項38】 前記符号化ステップがXML符号化ステップを含む、請求項3
6記載の方法。 - 【請求項39】 対応する画像情報内に埋め込まれた画像コンテンツを表現する
少なくとも1つの記述レコードを備えたデジタル情報を含むコンピュータ可読記
録媒体において、少なくとも1つの記述レコードが、 画像オブジェクト抽出処理を利用して前記画像情報から生成される単数または
複数の画像オブジェクト記述と、 オブジェクト階層構成・抽出処理を利用して前記生成された画像オブジェクト
記述から生成される単数または複数の画像オブジェクト階層記述と、 実体関係グラフ生成処理を利用して前記生成された画像オブジェクト記述から
生成される単数または複数の実体関係グラフ記述とを含むことを特徴とするコン
ピュータ可読記録媒体。 - 【請求項40】 前記画像オブジェクト記述と前記画像オブジェクト階層記述と
前記実体関係グラフ記述がさらに単数または複数の特徴記述を含む、請求項39
記載のコンピュータ可読記録媒体。 - 【請求項41】 前記単数または複数の特徴記述が、記録媒体特徴と視覚特徴と
意味特徴とからなる群から選択される、請求項40記載のコンピュータ可読記録
媒体。 - 【請求項42】 前記意味特徴がさらに、誰、如何なるオブジェクト、如何なる
行動、何処、何時、何故、コードダウンローディングおよびテキスト注釈からな
る群から選択される少なくとも1つの特徴記述によって定義される、請求項41
記載のコンピュータ可読記録媒体。 - 【請求項43】 前記視覚特徴がさらに、色、表面模様、位置、サイズ、形状、
動き、コードダウンローディングおよび方位からなる群から選択される少なくと
も1つの特徴記述によって定義される、請求項41記載のコンピュータ可読記録
媒体。 - 【請求項44】 前記記録媒体特徴がさらに、ファイル形式、ファイルサイズ、
色表現、解像度、データファイルロケーション、著者、作成、スケーラブルレイ
ヤ、コードダウンローディングおよびモダリティトランスコーディングからなる
群から選択される少なくとも1つの特徴記述によって定義される、請求項41記
載のコンピュータ可読記録媒体。 - 【請求項45】 前記オブジェクト階層記述が、前記画像オブジェクト記述によ
って表現される画像オブジェクトの視覚特徴関連に基づいている、請求項39記
載のコンピュータ可読記録媒体。 - 【請求項46】 前記画像オブジェクト階層記述が、前記画像オブジェクト記述
によって表現される画像オブジェクトの意味特徴関連に基づいている、請求項3
9記載のコンピュータ可読記録媒体。 - 【請求項47】 前記画像オブジェクト階層記述が、前記画像オブジェクト記述
によって表現される画像オブジェクトの記録媒体特徴関連に基づいている、請求
項39記載のコンピュータ可読記録媒体。 - 【請求項48】 前記画像オブジェクト階層記述が、前記画像オブジェクト記述
によって表現される画像オブジェクトの関連に基づいており、前記画像オブジェ
クト階層記述が複数の階層レベルを有する、請求項39記載のコンピュータ可読
記録媒体。 - 【請求項49】 複数の階層レベルを有する前記画像オブジェクト階層記述がク
ラスタリング階層を含む、請求項48記載のコンピュータ可読記録媒体。 - 【請求項50】 前記クラスタリング階層が、前記画像オブジェクト記述によっ
て表現される画像オブジェクトの関連に基づいており、前記関連が、視覚特徴関
連と意味特徴関連と記録媒体特徴関連とからなる群から選択される、請求項49
記載のコンピュータ可読記録媒体。 - 【請求項51】 前記実体関係グラフ記述が、前記画像オブジェクト記述によっ
て表現される画像オブジェクトの関連に基づいており、前記関連が、視覚特徴関
連と意味特徴関連と記録媒体特徴関連とからなる群から選択される、請求項39
記載のコンピュータ可読記録媒体。 - 【請求項52】 前記画像オブジェクト記述が符号化記述情報の態様である、請
求項39記載のコンピュータ可読記録媒体。 - 【請求項53】 前記画像オブジェクト記述と前記画像オブジェクト階層記述と
前記実体関係グラフ記述が、符号化記述情報の態様に互いに組合わされる、請求
項39記載のコンピュータ可読記録媒体。 - 【請求項54】 前記符号化記述情報が2進符号化情報の態様である、請求項5
3記載のコンピュータ可読記録媒体。 - 【請求項55】 前記符号化記述情報がXML符号化情報の態様である、請求項
53記載のコンピュータ可読記録媒体。 - 【請求項56】 複数の階層レベルを有する前記画像オブジェクト階層記述が抽
出階層の多重レベルを含むように構成される、請求項12記載のシステム。 - 【請求項57】 抽出階層の前記多重レベルが、前記画像オブジェクト記述によ
って表現される画像オブジェクトの関連に基づくように構成され、前記関連が、
視覚特徴関連と意味特徴関連と記録媒体特徴関連とからなる群から選択される、
請求項56記載のシステム。 - 【請求項58】 複数の階層レベルを有する前記画像オブジェクト階層記述が、
抽出階層の多重レベルを含むように構成される、請求項31記載の方法。 - 【請求項59】 抽出階層の前記多重レベルが、前記画像オブジェクト記述によ
って表現される画像オブジェクトの関連に基づくように構成され、前記関連が、
視覚特徴関連と意味特徴関連と記録媒体特徴関連とからなる群から選択される、
請求項58記載の方法。 - 【請求項60】 複数の階層レベルを有する前記画像オブジェクト階層記述が、
抽出階層の多重レベルを含むように構成される、請求項48記載のコンピュータ
可読記録媒体。 - 【請求項61】 抽出階層の前記多重レベルが、前記画像オブジェクト記述によ
って表現される画像オブジェクトの関連に基づくように構成され、前記関連が、
視覚特徴関連と意味特徴関連と記録媒体特徴関連とからなる群から選択される、
請求項60記載のコンピュータ可読記録媒体。 - 【請求項62】 前記単数または複数の特徴記述が、コードダウンローディング
を促進するために抽出コード、整合コードに対するポインタを含む、請求項3ま
たは4のいずれかに記載のシステム。 - 【請求項63】 前記単数または複数の特徴記述が、コードダウンローディング
を促進するために抽出コード、整合コードに対するポインタを含む、請求項22
または23のいずれかに記載の方法。 - 【請求項64】 前記単数または複数の特徴記述が、コードダウンローディング
を促進するために抽出コード、整合コードに対するポインタを含む、請求項40
または41のいずれかに記載のコンピュータ可読記録媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10746398P | 1998-11-06 | 1998-11-06 | |
US60/107,463 | 1998-11-06 | ||
US11802099P | 1999-02-01 | 1999-02-01 | |
US11802799P | 1999-02-01 | 1999-02-01 | |
US60/118,020 | 1999-02-01 | ||
US60/118,027 | 1999-02-01 | ||
PCT/US1999/026127 WO2000028467A1 (en) | 1998-11-06 | 1999-11-05 | Image description system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002529863A true JP2002529863A (ja) | 2002-09-10 |
JP4382288B2 JP4382288B2 (ja) | 2009-12-09 |
Family
ID=27380312
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000581801A Pending JP2002532918A (ja) | 1998-11-06 | 1999-11-05 | 映像記述システムおよび方法 |
JP2000581582A Expired - Fee Related JP4382288B2 (ja) | 1998-11-06 | 1999-11-05 | 画像記述システムおよび方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000581801A Pending JP2002532918A (ja) | 1998-11-06 | 1999-11-05 | 映像記述システムおよび方法 |
Country Status (6)
Country | Link |
---|---|
EP (2) | EP1125245B1 (ja) |
JP (2) | JP2002532918A (ja) |
KR (2) | KR100697106B1 (ja) |
AT (2) | ATE540364T1 (ja) |
AU (2) | AU1243400A (ja) |
WO (2) | WO2000028467A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005135371A (ja) * | 2003-06-12 | 2005-05-26 | Microsoft Corp | 多重ブレンディングを利用して画像を表示するためのシステムおよび方法 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7185049B1 (en) | 1999-02-01 | 2007-02-27 | At&T Corp. | Multimedia integration description scheme, method and system for MPEG-7 |
US6546135B1 (en) * | 1999-08-30 | 2003-04-08 | Mitsubishi Electric Research Laboratories, Inc | Method for representing and comparing multimedia content |
MXPA02006077A (es) * | 2000-10-17 | 2002-12-13 | Koninkl Philips Electronics Nv | Formato binario para instancias mpg7. |
GB0107140D0 (en) * | 2001-03-21 | 2001-05-09 | Nokia Oyj | Management and distribution of electronic media |
US6904454B2 (en) | 2001-03-21 | 2005-06-07 | Nokia Corporation | Method and apparatus for content repository with versioning and data modeling |
US7353236B2 (en) | 2001-03-21 | 2008-04-01 | Nokia Corporation | Archive system and data maintenance method |
US7254570B2 (en) | 2001-03-21 | 2007-08-07 | Nokia Corporation | Query resolution system and service |
US7734997B2 (en) * | 2001-05-29 | 2010-06-08 | Sony Corporation | Transport hint table for synchronizing delivery time between multimedia content and multimedia content descriptions |
US6870956B2 (en) | 2001-06-14 | 2005-03-22 | Microsoft Corporation | Method and apparatus for shot detection |
US7231394B2 (en) * | 2001-07-17 | 2007-06-12 | Sony Corporation | Incremental bottom-up construction of data documents |
US7116716B2 (en) | 2002-11-01 | 2006-10-03 | Microsoft Corporation | Systems and methods for generating a motion attention model |
US7274741B2 (en) | 2002-11-01 | 2007-09-25 | Microsoft Corporation | Systems and methods for generating a comprehensive user attention model |
US7164798B2 (en) | 2003-02-18 | 2007-01-16 | Microsoft Corporation | Learning-based automatic commercial content detection |
KR20060020624A (ko) * | 2003-05-12 | 2006-03-06 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 미디어 오브젝트들의 검색 방법 |
KR100447299B1 (ko) * | 2003-07-03 | 2004-09-07 | 주식회사 휴맥스 | 디지털 방송 프로그램 정보 송신 및 수신방법 |
US7400761B2 (en) | 2003-09-30 | 2008-07-15 | Microsoft Corporation | Contrast-based image attention analysis framework |
US7471827B2 (en) | 2003-10-16 | 2008-12-30 | Microsoft Corporation | Automatic browsing path generation to present image areas with high attention value as a function of space and time |
US7600015B2 (en) * | 2004-06-28 | 2009-10-06 | Nokia Corporation | User confirmation in data downloading |
US9053754B2 (en) | 2004-07-28 | 2015-06-09 | Microsoft Technology Licensing, Llc | Thumbnail generation and presentation for recorded TV programs |
US7986372B2 (en) | 2004-08-02 | 2011-07-26 | Microsoft Corporation | Systems and methods for smart media content thumbnail extraction |
US8180826B2 (en) | 2005-10-31 | 2012-05-15 | Microsoft Corporation | Media sharing and authoring on the web |
US7773813B2 (en) | 2005-10-31 | 2010-08-10 | Microsoft Corporation | Capture-intention detection for video content analysis |
US8196032B2 (en) | 2005-11-01 | 2012-06-05 | Microsoft Corporation | Template-based multimedia authoring and sharing |
KR100641791B1 (ko) * | 2006-02-14 | 2006-11-02 | (주)올라웍스 | 디지털 데이터에 대한 태깅 방법 및 시스템 |
US7925105B2 (en) | 2006-03-14 | 2011-04-12 | Seiko Epson Corporation | Image transfer and motion picture clipping process using outline of image |
KR100961444B1 (ko) | 2007-04-23 | 2010-06-09 | 한국전자통신연구원 | 멀티미디어 콘텐츠를 검색하는 방법 및 장치 |
CN101286351B (zh) * | 2008-05-23 | 2011-02-23 | 广州视源电子科技有限公司 | 生成流媒体增值描述文件及插播多媒体信息的方法、系统 |
CN102609958A (zh) * | 2012-01-19 | 2012-07-25 | 北京三星通信技术研究有限公司 | 视频对象提取的方法及设备 |
EP3059734A1 (en) * | 2015-02-17 | 2016-08-24 | Alcatel Lucent | Encoder/decoder |
US10821992B2 (en) | 2015-06-03 | 2020-11-03 | Volvo Construction Equipment Ab | Method and system for predicting a risk for rollover of a working machine |
EP3239896B1 (en) | 2016-04-28 | 2018-11-28 | Joanneum Research Forschungsgesellschaft mbH | Data structure for describing an image sequence, and methods for extracting and matching these data structures |
CN109934852B (zh) * | 2019-04-01 | 2022-07-12 | 重庆理工大学 | 一种基于对象属性关系图的视频描述方法 |
US11182408B2 (en) | 2019-05-21 | 2021-11-23 | Microsoft Technology Licensing, Llc | Generating and applying an object-level relational index for images |
KR20210095291A (ko) * | 2020-01-22 | 2021-08-02 | 삼성전자주식회사 | 스토리를 생성하는 전자 장치 및 그의 동작 방법 |
CN113343982B (zh) * | 2021-06-16 | 2023-07-25 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN114238526B (zh) * | 2022-02-23 | 2022-06-07 | 浙江大华技术股份有限公司 | 图像聚档方法、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03206506A (ja) * | 1989-03-31 | 1991-09-09 | Honeywell Inc | 車両自動走行用陸標認識装置および陸標認識方法 |
JPH0449471A (ja) * | 1990-06-19 | 1992-02-18 | Fujitsu Ltd | 画像編集装置 |
JPH04220086A (ja) * | 1990-12-19 | 1992-08-11 | Ricoh Co Ltd | 画像データ管理方法および画像データ管理装置 |
JPH07282284A (ja) * | 1993-10-08 | 1995-10-27 | Xerox Corp | 電子的構造化画像ジェネレータ |
US5579444A (en) * | 1987-08-28 | 1996-11-26 | Axiom Bildverarbeitungssysteme Gmbh | Adaptive vision-based controller |
JPH09198456A (ja) * | 1996-01-11 | 1997-07-31 | Xerox Corp | グラフをベースとしたテーブル認識方法 |
JPH1097608A (ja) * | 1996-09-20 | 1998-04-14 | Matsushita Graphic Commun Syst Inc | イメージ情報の構造化文書作成装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05144685A (ja) * | 1991-11-21 | 1993-06-11 | Elna Co Ltd | 固体電解コンデンサ |
JPH05250241A (ja) * | 1992-03-06 | 1993-09-28 | Nippon Telegr & Teleph Corp <Ntt> | ファイル装置 |
US5555354A (en) * | 1993-03-23 | 1996-09-10 | Silicon Graphics Inc. | Method and apparatus for navigation within three-dimensional information landscape |
JP3303543B2 (ja) * | 1993-09-27 | 2002-07-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | マルチメディア・セグメントを構成してプレイする方法、および2つ以上のマルチメディア・ストーリーをハイパーストーリーとして構成してプレイする方法 |
CA2117846C (en) * | 1993-10-20 | 2001-02-20 | Allen Reiter | Computer method and storage structure for storing and accessing multidimensional data |
US5821945A (en) * | 1995-02-03 | 1998-10-13 | The Trustees Of Princeton University | Method and apparatus for video browsing based on content and structure |
JPH10187515A (ja) * | 1996-12-25 | 1998-07-21 | Nec Corp | ダウンロード装置 |
-
1999
- 1999-11-05 AT AT99971950T patent/ATE540364T1/de active
- 1999-11-05 AT AT99960214T patent/ATE528912T1/de not_active IP Right Cessation
- 1999-11-05 AU AU12434/00A patent/AU1243400A/en not_active Abandoned
- 1999-11-05 JP JP2000581801A patent/JP2002532918A/ja active Pending
- 1999-11-05 WO PCT/US1999/026127 patent/WO2000028467A1/en active IP Right Grant
- 1999-11-05 EP EP99971950A patent/EP1125245B1/en not_active Expired - Lifetime
- 1999-11-05 KR KR1020017005771A patent/KR100697106B1/ko not_active IP Right Cessation
- 1999-11-05 AU AU17135/00A patent/AU1713500A/en not_active Abandoned
- 1999-11-05 WO PCT/US1999/026126 patent/WO2000028725A2/en active Application Filing
- 1999-11-05 JP JP2000581582A patent/JP4382288B2/ja not_active Expired - Fee Related
- 1999-11-05 KR KR1020017005773A patent/KR100734964B1/ko not_active IP Right Cessation
- 1999-11-05 EP EP99960214A patent/EP1147655B1/en not_active Expired - Lifetime
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5579444A (en) * | 1987-08-28 | 1996-11-26 | Axiom Bildverarbeitungssysteme Gmbh | Adaptive vision-based controller |
JPH03206506A (ja) * | 1989-03-31 | 1991-09-09 | Honeywell Inc | 車両自動走行用陸標認識装置および陸標認識方法 |
JPH0449471A (ja) * | 1990-06-19 | 1992-02-18 | Fujitsu Ltd | 画像編集装置 |
JPH04220086A (ja) * | 1990-12-19 | 1992-08-11 | Ricoh Co Ltd | 画像データ管理方法および画像データ管理装置 |
JPH07282284A (ja) * | 1993-10-08 | 1995-10-27 | Xerox Corp | 電子的構造化画像ジェネレータ |
JPH09198456A (ja) * | 1996-01-11 | 1997-07-31 | Xerox Corp | グラフをベースとしたテーブル認識方法 |
JPH1097608A (ja) * | 1996-09-20 | 1998-04-14 | Matsushita Graphic Commun Syst Inc | イメージ情報の構造化文書作成装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005135371A (ja) * | 2003-06-12 | 2005-05-26 | Microsoft Corp | 多重ブレンディングを利用して画像を表示するためのシステムおよび方法 |
JP4554280B2 (ja) * | 2003-06-12 | 2010-09-29 | マイクロソフト コーポレーション | 多重ブレンディングを利用して画像を表示するためのシステムおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1125245A4 (en) | 2004-04-14 |
KR100697106B1 (ko) | 2007-03-21 |
JP2002532918A (ja) | 2002-10-02 |
AU1713500A (en) | 2000-05-29 |
EP1147655B1 (en) | 2011-10-12 |
EP1147655A2 (en) | 2001-10-24 |
WO2000028725A2 (en) | 2000-05-18 |
WO2000028467A1 (en) | 2000-05-18 |
KR20020006623A (ko) | 2002-01-23 |
ATE540364T1 (de) | 2012-01-15 |
KR100734964B1 (ko) | 2007-07-03 |
EP1125245B1 (en) | 2012-01-04 |
EP1147655A4 (en) | 2004-04-14 |
KR20020006624A (ko) | 2002-01-23 |
EP1125245A1 (en) | 2001-08-22 |
WO2000028725A3 (en) | 2000-07-13 |
JP4382288B2 (ja) | 2009-12-09 |
ATE528912T1 (de) | 2011-10-15 |
AU1243400A (en) | 2000-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4382288B2 (ja) | 画像記述システムおよび方法 | |
US7254285B1 (en) | Image description system and method | |
US8370869B2 (en) | Video description system and method | |
US9507779B2 (en) | Multimedia integration description scheme, method and system for MPEG-7 | |
KR100605463B1 (ko) | 상호 운용 멀티미디어 컨텐츠 설명 시스템 및 방법 | |
US10311094B2 (en) | Synthetic audiovisual description scheme, method and system for MPEG-7 | |
Li et al. | Multimedia content description in the InfoPyramid | |
Benitez et al. | Object-based multimedia content description schemes and applications for MPEG-7 | |
Vakali et al. | Mpeg-7 based description schemes for multi-level video content classification | |
Di Bono et al. | WP9: A review of data and metadata standards and techniques for representation of multimedia content | |
MXPA01004561A (en) | Systems and methods for interoperable multimediacontent descriptions | |
Kerhervé et al. | Functional Requirements for a Generic Distributed Multimedia Presentational Application | |
Paek et al. | Proposal Id: P480 Proposal for MPEG-7 Image Description Scheme Name | |
Drutskyy | Conceptual modeling of multimedia databases | |
Kodak | Object-Based Multimedia Content Description Schemes and Applications for MPEG-7 | |
Lindley et al. | The FRAMES Project: Reuse of Video Information using the World Wide Web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090120 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090414 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090825 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090917 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |