JP2001084381A - マルチメディア・コンテンツの表現を生成する方法 - Google Patents
マルチメディア・コンテンツの表現を生成する方法Info
- Publication number
- JP2001084381A JP2001084381A JP2000218868A JP2000218868A JP2001084381A JP 2001084381 A JP2001084381 A JP 2001084381A JP 2000218868 A JP2000218868 A JP 2000218868A JP 2000218868 A JP2000218868 A JP 2000218868A JP 2001084381 A JP2001084381 A JP 2001084381A
- Authority
- JP
- Japan
- Prior art keywords
- content
- multimedia content
- entities
- directed acyclic
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】
【課題】 データ構造の複雑さとそれらの構造を処理す
る方法とのバランスをとる、マルチメディア・コンテン
ツの統語論的および意味論的属性を表したいという要望
が存在する。 【解決手段】 マルチメディア・コンテンツの空間的に
および時間的セグメンティングをまず行ってオブジェク
トを抽出することによりマルチメディア・コンテンツの
表現を生成する方法。特徴抽出がオブジェクトに対して
適用され、意味論的および統語論的属性、関係、ならび
に、コンテンツ・エンティティ200の内包集合が生成
される。該コンテンツ・エンティティは符号化されてコ
ンテンツ・エンティティの有向非循環グラフが生成さ
れ、各有向非循環グラフによってマルチメディア・コン
テンツについてのある特定の解釈が表現される。 【効果】 エンティティの多くの構造的構成を内包要素
からなる構造的構成によって記述することが可能とな
る。
る方法とのバランスをとる、マルチメディア・コンテン
ツの統語論的および意味論的属性を表したいという要望
が存在する。 【解決手段】 マルチメディア・コンテンツの空間的に
および時間的セグメンティングをまず行ってオブジェク
トを抽出することによりマルチメディア・コンテンツの
表現を生成する方法。特徴抽出がオブジェクトに対して
適用され、意味論的および統語論的属性、関係、ならび
に、コンテンツ・エンティティ200の内包集合が生成
される。該コンテンツ・エンティティは符号化されてコ
ンテンツ・エンティティの有向非循環グラフが生成さ
れ、各有向非循環グラフによってマルチメディア・コン
テンツについてのある特定の解釈が表現される。 【効果】 エンティティの多くの構造的構成を内包要素
からなる構造的構成によって記述することが可能とな
る。
Description
【0001】
【発明の属する技術分野】この発明は、一般にマルチメ
ディア・コンテンツの処理に関し、具体的にはマルチメ
ディア・コンテンツを表現し比較する方法に関するもの
である。
ディア・コンテンツの処理に関し、具体的にはマルチメ
ディア・コンテンツを表現し比較する方法に関するもの
である。
【0002】
【従来の技術】マルチメディア・コンテンツの符号化お
よび復号化を行うための多くの規格が存在する。このコ
ンテンツには、1次元の音声信号、2次元空間を備えた
画像、3次元の時間を備えたビデオ・シーケンス、テキ
ストあるいはこれらの組合せを含むことができる。ま
た、オーディオおよびテキストの用の多数の規格が存在
する。
よび復号化を行うための多くの規格が存在する。このコ
ンテンツには、1次元の音声信号、2次元空間を備えた
画像、3次元の時間を備えたビデオ・シーケンス、テキ
ストあるいはこれらの組合せを含むことができる。ま
た、オーディオおよびテキストの用の多数の規格が存在
する。
【0003】画像については、もっとも良く知られてい
る規格はJPEGであり、ビデオ・シーケンスについて
は、最も広く用いられている規格としてMPEG-1、
MPEG-2およびH.263が含まれる。これらの規格
は比較的低いレベルの仕様であり、画像の場合の空間的
圧縮およびビデオ・シーケンスの空間的ならびに時間的
圧縮を主として処理する仕様である。一般的な特徴とし
て、これらの規格ではフレーム・ベースで圧縮が行われ
る。これらの規格によって高い圧縮比が達成され広く利
用することができる。
る規格はJPEGであり、ビデオ・シーケンスについて
は、最も広く用いられている規格としてMPEG-1、
MPEG-2およびH.263が含まれる。これらの規格
は比較的低いレベルの仕様であり、画像の場合の空間的
圧縮およびビデオ・シーケンスの空間的ならびに時間的
圧縮を主として処理する仕様である。一般的な特徴とし
て、これらの規格ではフレーム・ベースで圧縮が行われ
る。これらの規格によって高い圧縮比が達成され広く利
用することができる。
【0004】MPEG-4のようなより新しいビデオ符
号化規格("情報技術 -- オーディオ・ビジュアル・オブ
ジェクトの一般的符号化”(ISO/IEC FDIS1
4496-2(MPEG4ビジュアル)、1998年11
月)参照)によって、別個のビデオ・オブジェクト平面
(VOP)として任意の形状のオブジェクトの符号化およ
び復号化を行うことが可能である。この姿を現しつつあ
る規格は、双方向型ビデオのようなマルチメディア・ア
プリケーションを可能にすることを意図するものであ
る。そのようなビデオでは、自然の素材と人工的素材と
が統合され、世界中からアクセスを行うことができるよ
うになる。例えば、人々は、あるビデオから別のビデオ
へ動画を“カット・アンド・ペースト”したいと思うか
もしれない。このタイプのシナリオでは、マルチメディ
ア・コンテンツ中のオブジェクトは何らかのタイプのセ
グメンテーション・アルゴリズムによって特定されるも
のと仮定される(例えば、1999年6月4日にLin
他により出願された米国特許出願第09/326,750
号“オブジェクト表面を検索するための画像空間のソー
ティング方法”を参照されたい)。
号化規格("情報技術 -- オーディオ・ビジュアル・オブ
ジェクトの一般的符号化”(ISO/IEC FDIS1
4496-2(MPEG4ビジュアル)、1998年11
月)参照)によって、別個のビデオ・オブジェクト平面
(VOP)として任意の形状のオブジェクトの符号化およ
び復号化を行うことが可能である。この姿を現しつつあ
る規格は、双方向型ビデオのようなマルチメディア・ア
プリケーションを可能にすることを意図するものであ
る。そのようなビデオでは、自然の素材と人工的素材と
が統合され、世界中からアクセスを行うことができるよ
うになる。例えば、人々は、あるビデオから別のビデオ
へ動画を“カット・アンド・ペースト”したいと思うか
もしれない。このタイプのシナリオでは、マルチメディ
ア・コンテンツ中のオブジェクトは何らかのタイプのセ
グメンテーション・アルゴリズムによって特定されるも
のと仮定される(例えば、1999年6月4日にLin
他により出願された米国特許出願第09/326,750
号“オブジェクト表面を検索するための画像空間のソー
ティング方法”を参照されたい)。
【0005】MPEG委員会が取り組んでいる最も最近
の標準化のための努力はMPEG-7(正式名称“マルチ
メディア・コンテンツ記述用インターフェース”、("M
PEG-7コンテキスト、オブジェクティブおよび技術
ロードマップ”ISO/IEC N2729、1999
年3月)参照)を画定するための努力である。本質的に
は、この規格計画は、様々なタイプのマルチメディア・
コンテンツを記述するために使用可能な1組の記述子と
記述方式とを一体化することである。これらの記述子と
記述方式はコンテンツ自身と関連づけられ、関心のある
データの高速で効率的な検索処理が特定のユーザーに対
して行われる。この規格は、従来の符号化規格と取り替
えることを意図するものではなく、他の標準的データフ
ォーマット、特にMPEG-4上に構築されるものであ
ることに留意しなければならない。このような構築の理
由として、マルチメディア・コンテンツを分解して様々
なオブジェクトに変えることが可能であり、各オブジェ
クトをユニークな1組の記述子に割り当てることが可能
であるということが挙げられる。また、この規格はコン
テンツを保存するフォーマットに依存するものではな
い。MPEG-7記述子は圧縮データあるいは未圧縮デ
ータに拡張することができる。
の標準化のための努力はMPEG-7(正式名称“マルチ
メディア・コンテンツ記述用インターフェース”、("M
PEG-7コンテキスト、オブジェクティブおよび技術
ロードマップ”ISO/IEC N2729、1999
年3月)参照)を画定するための努力である。本質的に
は、この規格計画は、様々なタイプのマルチメディア・
コンテンツを記述するために使用可能な1組の記述子と
記述方式とを一体化することである。これらの記述子と
記述方式はコンテンツ自身と関連づけられ、関心のある
データの高速で効率的な検索処理が特定のユーザーに対
して行われる。この規格は、従来の符号化規格と取り替
えることを意図するものではなく、他の標準的データフ
ォーマット、特にMPEG-4上に構築されるものであ
ることに留意しなければならない。このような構築の理
由として、マルチメディア・コンテンツを分解して様々
なオブジェクトに変えることが可能であり、各オブジェ
クトをユニークな1組の記述子に割り当てることが可能
であるということが挙げられる。また、この規格はコン
テンツを保存するフォーマットに依存するものではな
い。MPEG-7記述子は圧縮データあるいは未圧縮デ
ータに拡張することができる。
【0006】マルチメディア・コンテンツの記述子はい
くつかの方法で使用可能である(例えば“MPEG-7ア
プリケーション”、ISO/IEC N2728、19
99年3月)参照)。最も関心を引くものは、以下の説明
の目的であるデータベース検索用アプリケーションおよ
び検索用アプリケーションである。単純な利用環境で
は、ユーザーはある特定のオブジェクトの何らかの属性
を指定することができる。これらの属性は、この低いレ
ベルの表現の中に、特定のオブジェクトのテクスチャ、
動きならびに形状について記述する記述子を含むことが
できる。1999年6月4日にLin他により出願され
た米国特許出願第09/326,759号“画像空間をソ
ートしてオブジェクト形状を表す方法”に、形状を表現
し比較する方法についての記載がある。このタイプの記
述子の欠点の1つとして、オブジェクトのこの特徴を他
の低いレベルの特徴と効率的に組み合わせることが簡単
ではないということが挙げられる。このような低いレベ
ルの記述子に関する別の問題点として、一般に、オブジ
ェクトまたはマルチメディア・コンテンツの高いレベル
の解釈を行うことが困難であるということがある。従っ
て表現のレベルに限界が存在する。
くつかの方法で使用可能である(例えば“MPEG-7ア
プリケーション”、ISO/IEC N2728、19
99年3月)参照)。最も関心を引くものは、以下の説明
の目的であるデータベース検索用アプリケーションおよ
び検索用アプリケーションである。単純な利用環境で
は、ユーザーはある特定のオブジェクトの何らかの属性
を指定することができる。これらの属性は、この低いレ
ベルの表現の中に、特定のオブジェクトのテクスチャ、
動きならびに形状について記述する記述子を含むことが
できる。1999年6月4日にLin他により出願され
た米国特許出願第09/326,759号“画像空間をソ
ートしてオブジェクト形状を表す方法”に、形状を表現
し比較する方法についての記載がある。このタイプの記
述子の欠点の1つとして、オブジェクトのこの特徴を他
の低いレベルの特徴と効率的に組み合わせることが簡単
ではないということが挙げられる。このような低いレベ
ルの記述子に関する別の問題点として、一般に、オブジ
ェクトまたはマルチメディア・コンテンツの高いレベル
の解釈を行うことが困難であるということがある。従っ
て表現のレベルに限界が存在する。
【0007】上述の欠点を解決してより高いレベルの表
現を得るために、いくつかの低いレベルの記述子を組み
合わせるもっと精巧な記述方式について考えることがで
きる。事実、これらの記述方式には他の記述方式が含ま
れる場合さえある("MPEG-7記述方式s(V0.5)"I
SO/IEC N2844、1999年7月)。
現を得るために、いくつかの低いレベルの記述子を組み
合わせるもっと精巧な記述方式について考えることがで
きる。事実、これらの記述方式には他の記述方式が含ま
れる場合さえある("MPEG-7記述方式s(V0.5)"I
SO/IEC N2844、1999年7月)。
【0008】図1(a)に図示のように、マルチメディ
ア・コンテンツを表す一般的記述方式(DS)が提案され
ている。この一般的オーディオ・ビジュアルDS100
には別個の統語論的DS101、別個の意味論的DS1
02が含まれる。統語論的構造とはコンテンツの物理的
および論理的信号面を指し、一方、意味論的構造とはコ
ンテンツの概念的意味を指す。ビデオ・シーケンスに対
して、特定のオブジェクトの色、形状および動きに統語
論的要素を関連づけることができる。一方、意味論的要
素は、マルチメディア・コンテンツ中のイベントの時や
場所または人名のような、低いレベルの記述子からは抽
出することのできない情報を指すことができる。別個の
統語論的および意味論的DSに加えて、統語論的DSと
意味論的DSをリンクする統語論的−意味論的関係グラ
フDS103が提案されている。
ア・コンテンツを表す一般的記述方式(DS)が提案され
ている。この一般的オーディオ・ビジュアルDS100
には別個の統語論的DS101、別個の意味論的DS1
02が含まれる。統語論的構造とはコンテンツの物理的
および論理的信号面を指し、一方、意味論的構造とはコ
ンテンツの概念的意味を指す。ビデオ・シーケンスに対
して、特定のオブジェクトの色、形状および動きに統語
論的要素を関連づけることができる。一方、意味論的要
素は、マルチメディア・コンテンツ中のイベントの時や
場所または人名のような、低いレベルの記述子からは抽
出することのできない情報を指すことができる。別個の
統語論的および意味論的DSに加えて、統語論的DSと
意味論的DSをリンクする統語論的−意味論的関係グラ
フDS103が提案されている。
【0009】このような方式に関する主要な問題点とし
て、統語論的DSと意味論的DSにより指定される関係
と属性とが独立しており、マルチメディア・コンテンツ
についての一貫したかつ意味のある解釈を生み出すこと
が関係グラフDSにとって負担になるということが挙げ
られる。さらに、上述のDSはツリーベースとグラフベ
ースのいずれかである。ツリーベースの表現は効率的検
索手段と比較手段とを与えるが、その表現能力に限定が
ある。独立した統語論的および意味論的DSはツリー・
ベースである。これと対照的に、グラフ・ベースの表現
は多量の表現能力を与えるが、非常に複雑で、検索およ
び比較を行うには誤りを犯し易い。
て、統語論的DSと意味論的DSにより指定される関係
と属性とが独立しており、マルチメディア・コンテンツ
についての一貫したかつ意味のある解釈を生み出すこと
が関係グラフDSにとって負担になるということが挙げ
られる。さらに、上述のDSはツリーベースとグラフベ
ースのいずれかである。ツリーベースの表現は効率的検
索手段と比較手段とを与えるが、その表現能力に限定が
ある。独立した統語論的および意味論的DSはツリー・
ベースである。これと対照的に、グラフ・ベースの表現
は多量の表現能力を与えるが、非常に複雑で、検索およ
び比較を行うには誤りを犯し易い。
【0010】本発明のタスクとして、表現方式が、マル
チメディア・コンテンツを解釈する方法に限定されない
ことがきわめて重要である。また、この表現方式によっ
て効率的比較手段が提供されることが望ましい。人間の
ものの見方によって、多くの方法でマルチメディア・コ
ンテンツについての解釈が許容される。したがって、ど
の表現方式でもマルチメディア・コンテンツについての
複数の解釈が生じなければならない。関係グラフDSと
の関連で独立した統語論的DSと意味論的DSによって
マルチメディア・コンテンツについての複数の解釈が許
容できるとはいえ、このDSは比較を行うには効率的で
はない。
チメディア・コンテンツを解釈する方法に限定されない
ことがきわめて重要である。また、この表現方式によっ
て効率的比較手段が提供されることが望ましい。人間の
ものの見方によって、多くの方法でマルチメディア・コ
ンテンツについての解釈が許容される。したがって、ど
の表現方式でもマルチメディア・コンテンツについての
複数の解釈が生じなければならない。関係グラフDSと
の関連で独立した統語論的DSと意味論的DSによって
マルチメディア・コンテンツについての複数の解釈が許
容できるとはいえ、このDSは比較を行うには効率的で
はない。
【0011】上述のように、DSが他のDSを含むこと
が可能である。同様に、一般的DSには、統語論的D
S、意味論的DSおよび統語論/意味論的関係グラフD
Sが含まれる。統語論的DS101が、セグメントDS
105、領域DS106およびセグメント/領域関係グ
ラフDS107を含むという提案がなされている。図1
(b)に図示のように、セグメントDSと領域DSを使
用してマルチメディア・コンテンツの時間的および空間
的ツリー構造をそれぞれ定義することができ、また、セ
グメント/領域関係グラフDSを用いてセグメントと領
域間の時空的関係について記述することができる。同様
に、図1(c)に図示のように意味論的DS102に
は、イベントDS108、オブジェクトDS109およ
びイベント/オブジェクト関係グラフDS110が含ま
れる。イベントDSとオブジェクトDSを用いて、イベ
ントツリーとオブジェクトツリーを定義することがで
き、これらのツリーによって時間的イベントと空間的オ
ブジェクトの意味論的インデックス・テーブルがそれぞ
れ定義される。イベント/オブジェクト関係グラフDS
を用いて、イベントとオブジェクト間のいずれのタイプ
の時空的関係についても記述することができる。より高
いレベルのDS、すなわち意味論的DSならびに統語論
的DSの場合と同じように、これらのより低いレベルの
DSは表現能力と計算上の複雑さに関して同じ問題に悩
まされる。
が可能である。同様に、一般的DSには、統語論的D
S、意味論的DSおよび統語論/意味論的関係グラフD
Sが含まれる。統語論的DS101が、セグメントDS
105、領域DS106およびセグメント/領域関係グ
ラフDS107を含むという提案がなされている。図1
(b)に図示のように、セグメントDSと領域DSを使
用してマルチメディア・コンテンツの時間的および空間
的ツリー構造をそれぞれ定義することができ、また、セ
グメント/領域関係グラフDSを用いてセグメントと領
域間の時空的関係について記述することができる。同様
に、図1(c)に図示のように意味論的DS102に
は、イベントDS108、オブジェクトDS109およ
びイベント/オブジェクト関係グラフDS110が含ま
れる。イベントDSとオブジェクトDSを用いて、イベ
ントツリーとオブジェクトツリーを定義することがで
き、これらのツリーによって時間的イベントと空間的オ
ブジェクトの意味論的インデックス・テーブルがそれぞ
れ定義される。イベント/オブジェクト関係グラフDS
を用いて、イベントとオブジェクト間のいずれのタイプ
の時空的関係についても記述することができる。より高
いレベルのDS、すなわち意味論的DSならびに統語論
的DSの場合と同じように、これらのより低いレベルの
DSは表現能力と計算上の複雑さに関して同じ問題に悩
まされる。
【0012】
【発明が解決しようとする課題】したがって、データ構
造の複雑さとそれらの構造を処理する方法とのバランス
をとる、マルチメディア・コンテンツの統語論的および
意味論的属性を表したいという要望が存在する。
造の複雑さとそれらの構造を処理する方法とのバランス
をとる、マルチメディア・コンテンツの統語論的および
意味論的属性を表したいという要望が存在する。
【0013】
【課題を解決するための手段】本発明はマルチメディア
・コンテンツの統語論的および意味論的属性を表す新し
い方法を提供するものである。本発明の1つの目的は、
要素の構造と表現能力に対する制約をそれらの要素を処
理する計算上の複雑さとのバランスをとる枠組みを用い
て、意味論的または統語論的記述方式に内包される既存
の属性を利用することである。
・コンテンツの統語論的および意味論的属性を表す新し
い方法を提供するものである。本発明の1つの目的は、
要素の構造と表現能力に対する制約をそれらの要素を処
理する計算上の複雑さとのバランスをとる枠組みを用い
て、意味論的または統語論的記述方式に内包される既存
の属性を利用することである。
【0014】本発明による方法は有向非循環グラフ(D
AG)に部分的に基づくものである。DAGがツリー・
ベースの表現とグラフ・ベースの表現との妥協(middle
ground)であることは周知である。さらに、DAGによ
って構成の新しい能力が与えられる。換言すれば、エン
ティティの多くの構造的構成を内包要素からなる構造的
構成によって記述することが可能となる。
AG)に部分的に基づくものである。DAGがツリー・
ベースの表現とグラフ・ベースの表現との妥協(middle
ground)であることは周知である。さらに、DAGによ
って構成の新しい能力が与えられる。換言すれば、エン
ティティの多くの構造的構成を内包要素からなる構造的
構成によって記述することが可能となる。
【0015】しかしながら最も重要なことは、これらの
構造的構成と、別のエンティティよって生み出される構
造的構成との間の類似度を容易に計算することができる
という点である。この構成の枠組みの範囲で、DAGに
よって、統語論的および意味論的要素の合成手段も提供
され、類似度の比較は、双方のタイプの記述間で切れ目
なく切り替えることができるようになされる。ある意味
では、これは、記述方式の統語論的部分と意味論的部分
との間の統合化と考えることができる。
構造的構成と、別のエンティティよって生み出される構
造的構成との間の類似度を容易に計算することができる
という点である。この構成の枠組みの範囲で、DAGに
よって、統語論的および意味論的要素の合成手段も提供
され、類似度の比較は、双方のタイプの記述間で切れ目
なく切り替えることができるようになされる。ある意味
では、これは、記述方式の統語論的部分と意味論的部分
との間の統合化と考えることができる。
【0016】統合的に意味論的要素と統語論的要素とを
表す方法によって、マルチメディア・コンテンツの空間
的および時間的要素を統合化する手段も与えられる。本
発明は、以上述べた構成が統語論的要素と意味論的要素
の双方を内包する時空的構成であるという事実に依拠す
るものである。留意すべき重要な点は、本発明による構
成がDAG表現であり、この表現によって複数の解釈と
複雑さの少ない比較を容易に行うことが可能であるとい
うこと、ならびに、統語論的および意味論的双方の、時
空的属性を定義する構成がそれぞれのコンテンツ・エン
ティティの範囲内に内包されるということである。
表す方法によって、マルチメディア・コンテンツの空間
的および時間的要素を統合化する手段も与えられる。本
発明は、以上述べた構成が統語論的要素と意味論的要素
の双方を内包する時空的構成であるという事実に依拠す
るものである。留意すべき重要な点は、本発明による構
成がDAG表現であり、この表現によって複数の解釈と
複雑さの少ない比較を容易に行うことが可能であるとい
うこと、ならびに、統語論的および意味論的双方の、時
空的属性を定義する構成がそれぞれのコンテンツ・エン
ティティの範囲内に内包されるということである。
【0017】具体的には、上記方法によって、空間的お
よび時間的にマルチメディア・コンテンツのセグメンテ
ィングを第1に行ってオブジェクトを抽出することによ
り、マルチメディア・コンテンツの表現が生成される。
特徴抽出はオブジェクトに対して適用され、コンテンツ
・エンティティの意味論的および統語論的属性、関係お
よび内包集合が生成される。これらのコンテンツ・エン
ティティは符号化されてコンテンツ・エンティティの有
向非循環グラフが生成される。有向非循環グラフのノー
ドによってコンテンツ・エンティティが表され、エッジ
はセグメンテーション時の区切り(breaks)を表す。各有
向非循環グラフによって、マルチメディア・コンテンツ
ついてのある特定の解釈が表現される。
よび時間的にマルチメディア・コンテンツのセグメンテ
ィングを第1に行ってオブジェクトを抽出することによ
り、マルチメディア・コンテンツの表現が生成される。
特徴抽出はオブジェクトに対して適用され、コンテンツ
・エンティティの意味論的および統語論的属性、関係お
よび内包集合が生成される。これらのコンテンツ・エン
ティティは符号化されてコンテンツ・エンティティの有
向非循環グラフが生成される。有向非循環グラフのノー
ドによってコンテンツ・エンティティが表され、エッジ
はセグメンテーション時の区切り(breaks)を表す。各有
向非循環グラフによって、マルチメディア・コンテンツ
ついてのある特定の解釈が表現される。
【0018】1つの態様では、マルチメディア・コンテ
ンツは2次元画像であり、別の態様ではマルチメディア
・コンテンツは3次元ビデオ・シーケンスである。
ンツは2次元画像であり、別の態様ではマルチメディア
・コンテンツは3次元ビデオ・シーケンスである。
【0019】本発明のさらなる態様では、様々なマルチ
メディア・コンテンツが有向非循環グラフについて得ら
れる類似度スコアに基づいて比較される。
メディア・コンテンツが有向非循環グラフについて得ら
れる類似度スコアに基づいて比較される。
【0020】
【発明の実施の形態】実施の形態1. 序論 マルチメディア・コンテンツを表現し比較する方法につ
いて説明を行う。これらの方法は新しい一般的データ構
造に基づくものであり、この構造には有向非循環グラフ
(DAG)表現が含まれる。以下、本発明の方式でのオブ
ジェクトおよびDAG表現の利点について説明する。本
方式がマルチメディア・コンテンツについての複数の解
釈を推論しながら、他のマルチメディア・コンテンツと
比較して依然として効率的なものであり得るのはまさに
このDAG表現のためである。実際、確率尤度関数に関
してスコアを出してみると、その計算が扱いやすいだけ
でなく最適である。
いて説明を行う。これらの方法は新しい一般的データ構
造に基づくものであり、この構造には有向非循環グラフ
(DAG)表現が含まれる。以下、本発明の方式でのオブ
ジェクトおよびDAG表現の利点について説明する。本
方式がマルチメディア・コンテンツについての複数の解
釈を推論しながら、他のマルチメディア・コンテンツと
比較して依然として効率的なものであり得るのはまさに
このDAG表現のためである。実際、確率尤度関数に関
してスコアを出してみると、その計算が扱いやすいだけ
でなく最適である。
【0021】一般的データ構造についての記述のほか
に、この効率的表現を実現し、比較を行うことを可能に
する2つの重要な関数について説明する。第1の関数を
DAG−Corder関数と呼ぶことにする。DAG−
Corder関数は、オブジェクト中に内包される個々
のコンテンツ・エンティティを入力として受けとり、D
AG構成を生成する役割を行う。第2の関数はObje
ct−Compare関数である。Object−Co
mpare関数は、類似度スコアを判定することにより
2つのコンテンツ・エンティティを効率的に比較する関
数である。
に、この効率的表現を実現し、比較を行うことを可能に
する2つの重要な関数について説明する。第1の関数を
DAG−Corder関数と呼ぶことにする。DAG−
Corder関数は、オブジェクト中に内包される個々
のコンテンツ・エンティティを入力として受けとり、D
AG構成を生成する役割を行う。第2の関数はObje
ct−Compare関数である。Object−Co
mpare関数は、類似度スコアを判定することにより
2つのコンテンツ・エンティティを効率的に比較する関
数である。
【0022】データ構造と上述の2つの関数について説
明した後、本発明の表現方式によって可能になる適用例
についてレビューを行い詳述する。最後に、特徴抽出、
データベース管理およびオブジェクト比較を行う統合化
したアプリケーション・システムについて説明を行う。
明した後、本発明の表現方式によって可能になる適用例
についてレビューを行い詳述する。最後に、特徴抽出、
データベース管理およびオブジェクト比較を行う統合化
したアプリケーション・システムについて説明を行う。
【0023】コンテンツ・エンティティの一般的記述方
式 コンテンツ・オブジェクトを表す本発明の方式を導入す
るために、一般的オブジェクト・タイプを定義し、次い
で、このような一般的オブジェクト・タイプのインスタ
ンス生成に対する制約について定義する。
式 コンテンツ・オブジェクトを表す本発明の方式を導入す
るために、一般的オブジェクト・タイプを定義し、次い
で、このような一般的オブジェクト・タイプのインスタ
ンス生成に対する制約について定義する。
【0024】図2に図示のように、コンテンツ・エンテ
ィティ(例えばビデオ・エンティティ200)は本発明の
方式の主要部である。コンテンツ・エンティティは、内
包オブジェクトをまとめて関連づけるデータ・オブジェ
クトである。コンテンツ・エンティティは、再帰データ
構造から成り、属性(特性)部201、関係部202、D
AG構成部203、内包集合部204の4つの部分に分
けられる。
ィティ(例えばビデオ・エンティティ200)は本発明の
方式の主要部である。コンテンツ・エンティティは、内
包オブジェクトをまとめて関連づけるデータ・オブジェ
クトである。コンテンツ・エンティティは、再帰データ
構造から成り、属性(特性)部201、関係部202、D
AG構成部203、内包集合部204の4つの部分に分
けられる。
【0025】属性部 属性部201は本発明の再帰記述方式の範囲内で基礎を
形成する部分である。属性とは、エンティティのいくつ
かの部分について詳細を与えたり、あるいは、全体とし
てエンティティの要約を与えることができる特性を内包
するソートされていない集合である。属性は、オブジェ
クトに対して包括的であり、色や動きのような統語論的
特性、あるいは、時や場所のようなオブジェクトの他の
意味論的特性を指す場合もある。これらの属性によっ
て、いかなる構造も持たない基本的、低いレベルの情報
が提供されるが、構造が追加された後、実際に類似度の
レベルに貢献するのはこれらの特性である。また、後程
説明するように、属性は、オブジェクト内に内包される
個々のエンティティを構成し解釈するのに役立つソーテ
ィング方法を定義することができる。これらの特性は、
これらの特性を内包するコンテンツ・エンティティ固有
の質であり、コンテンツ・エンティティ自身を通じてア
クセス可能/可視にすることが望ましいことに注意すべ
きである。
形成する部分である。属性とは、エンティティのいくつ
かの部分について詳細を与えたり、あるいは、全体とし
てエンティティの要約を与えることができる特性を内包
するソートされていない集合である。属性は、オブジェ
クトに対して包括的であり、色や動きのような統語論的
特性、あるいは、時や場所のようなオブジェクトの他の
意味論的特性を指す場合もある。これらの属性によっ
て、いかなる構造も持たない基本的、低いレベルの情報
が提供されるが、構造が追加された後、実際に類似度の
レベルに貢献するのはこれらの特性である。また、後程
説明するように、属性は、オブジェクト内に内包される
個々のエンティティを構成し解釈するのに役立つソーテ
ィング方法を定義することができる。これらの特性は、
これらの特性を内包するコンテンツ・エンティティ固有
の質であり、コンテンツ・エンティティ自身を通じてア
クセス可能/可視にすることが望ましいことに注意すべ
きである。
【0026】一例として、飛行機の滑走路への着陸を示
すビデオ・シーケンスが、表題“飛行機(767)の着
陸”と共に、場所、日付、時刻および温度からなる意味
論的属性を内包する例がある。このマルチメディア・コ
ンテンツに付けることができるいくつかの統語論的属性
として降下軌道がある。飛行機のオブジェクトに付ける
ことができるものとして飛行機自身の色と形状がある。
ここで、本発明ではマルチメディア・コンテンツの属性
とオブジェクトの属性との間に重要な区別を行う。軌道
をマルチメディア・コンテンツの属性とする理由は、軌
道が地面と関連するものであるという理由に因るもので
ある。したがって、色と形状を飛行機の属性とすること
は意味をなすのに対して、軌道を飛行機のみの属性とす
るのは意味をなさない。
すビデオ・シーケンスが、表題“飛行機(767)の着
陸”と共に、場所、日付、時刻および温度からなる意味
論的属性を内包する例がある。このマルチメディア・コ
ンテンツに付けることができるいくつかの統語論的属性
として降下軌道がある。飛行機のオブジェクトに付ける
ことができるものとして飛行機自身の色と形状がある。
ここで、本発明ではマルチメディア・コンテンツの属性
とオブジェクトの属性との間に重要な区別を行う。軌道
をマルチメディア・コンテンツの属性とする理由は、軌
道が地面と関連するものであるという理由に因るもので
ある。したがって、色と形状を飛行機の属性とすること
は意味をなすのに対して、軌道を飛行機のみの属性とす
るのは意味をなさない。
【0027】関係部 関係部(R)202はコンテンツ・エンティティ(VE)間
の関係を詳述するオブジェクトである。これらの関係の
コンテキストはコンテンツ・エンティティを内包するこ
とにより与えられるということに留意することが重要で
ある。この理由は、異なる方法でセグメント化されるマ
ルチメディア・コンテンツは異なる関係を生成するとい
うことにある。本質的に、この関係は内包オブジェクト
と他のもの(例えば別のコンテンツ・エンティティ)との
間のハイパーリンクと考えることができる。関係を示す
タイプは包括的であり、関係のインスタンス生成は、コ
ンテンツ・エンティティ自身の範囲内でアクセス可能で
あるにすぎない。関係を示す有用な機能の1つとして、
検索を導くのに役に立て得るという点がある。本発明の
飛行機の着陸の例に戻ると、いくつかの関係を特定する
ことができる:飛行機が滑走路に着陸していて、照明灯
が飛行機を誘導しつつあり、滑走路はある特定の方向
で、ある特定の空港に位置する。
の関係を詳述するオブジェクトである。これらの関係の
コンテキストはコンテンツ・エンティティを内包するこ
とにより与えられるということに留意することが重要で
ある。この理由は、異なる方法でセグメント化されるマ
ルチメディア・コンテンツは異なる関係を生成するとい
うことにある。本質的に、この関係は内包オブジェクト
と他のもの(例えば別のコンテンツ・エンティティ)との
間のハイパーリンクと考えることができる。関係を示す
タイプは包括的であり、関係のインスタンス生成は、コ
ンテンツ・エンティティ自身の範囲内でアクセス可能で
あるにすぎない。関係を示す有用な機能の1つとして、
検索を導くのに役に立て得るという点がある。本発明の
飛行機の着陸の例に戻ると、いくつかの関係を特定する
ことができる:飛行機が滑走路に着陸していて、照明灯
が飛行機を誘導しつつあり、滑走路はある特定の方向
で、ある特定の空港に位置する。
【0028】これらの関係づけは、関連するオブジェク
トが、コンテンツ・エンティティによって完全には内包
されない場合があり、したがって、このオブジェクトは
類似度比較において考慮されないという点で、以下に記
述する内包とは異なるものである。しかし、関係づけに
よって、当該コンテンツ・エンティティに対してユーザ
ーが他の関連オブジェクトを検索することが可能にな
る。コンテンツ・エンティティ中のすべての関係は、コ
ンテンツ・エンティティの範囲内に内包される1つの引
数を有していなければならない。
トが、コンテンツ・エンティティによって完全には内包
されない場合があり、したがって、このオブジェクトは
類似度比較において考慮されないという点で、以下に記
述する内包とは異なるものである。しかし、関係づけに
よって、当該コンテンツ・エンティティに対してユーザ
ーが他の関連オブジェクトを検索することが可能にな
る。コンテンツ・エンティティ中のすべての関係は、コ
ンテンツ・エンティティの範囲内に内包される1つの引
数を有していなければならない。
【0029】DAG構成部 一般に、DAG構成部203は有向非循環グラフ205
であり、該グラフにおいて、エッジ206はコンテンツ
・エンティティを表し、ノード207はセグメンテーシ
ョンにおける区切り点に対応する。このDAG構成によ
って、同じマルチメディア・コンテンツの複数の解釈の
推論を行うことが可能になる。DAGは1D空間を処理
するので、このコンテキストでのセグメンテーション
は、ある1D処理の境界の画定(delineation)を指す。
例えば、時空的マルチメディア・コンテンツについて考
える場合、時間的セグメンテーションは、いくつかの連
続イベントが始まり終了する時間的な点を画定する1D
処理となる。従って、本発明は、時間的アクションに対
応するDAG構成を有することができる。空間的領域で
は、画像にわたって左から右への処理の順序を定義する
ことができる。このようにして、左から右へのオブジェ
クト位置に対応するDAG構成を有することができる。
言うまでもなく、逆時計回りの空間的順序付けのような
他の順序付けを定義することもできる。このような順序
付けは全く異なる目的に役立てることができる。
であり、該グラフにおいて、エッジ206はコンテンツ
・エンティティを表し、ノード207はセグメンテーシ
ョンにおける区切り点に対応する。このDAG構成によ
って、同じマルチメディア・コンテンツの複数の解釈の
推論を行うことが可能になる。DAGは1D空間を処理
するので、このコンテキストでのセグメンテーション
は、ある1D処理の境界の画定(delineation)を指す。
例えば、時空的マルチメディア・コンテンツについて考
える場合、時間的セグメンテーションは、いくつかの連
続イベントが始まり終了する時間的な点を画定する1D
処理となる。従って、本発明は、時間的アクションに対
応するDAG構成を有することができる。空間的領域で
は、画像にわたって左から右への処理の順序を定義する
ことができる。このようにして、左から右へのオブジェ
クト位置に対応するDAG構成を有することができる。
言うまでもなく、逆時計回りの空間的順序付けのような
他の順序付けを定義することもできる。このような順序
付けは全く異なる目的に役立てることができる。
【0030】本明細書に参考文献として取り入れられて
いる米国特許出願第09/326,750号および第09
/326,759号において、Voronoiソーティン
グ関数が、オブジェクト境界に関して外部画像空間およ
び内部画像空間に対してそれぞれ定義されている。内部
空間に対するこのソーティングは、オブジェクト形状の
スケルトン様表現を取得し、次いで、DAG表現を利用
する半順序ツリー(POT)を形成するのに特に有用であ
った。
いる米国特許出願第09/326,750号および第09
/326,759号において、Voronoiソーティン
グ関数が、オブジェクト境界に関して外部画像空間およ
び内部画像空間に対してそれぞれ定義されている。内部
空間に対するこのソーティングは、オブジェクト形状の
スケルトン様表現を取得し、次いで、DAG表現を利用
する半順序ツリー(POT)を形成するのに特に有用であ
った。
【0031】しかしながら、DAG構成を達成するため
の、2D画像あるいは3Dビデオ・シーケンスのソーテ
ィング方法は本発明の中心主題ではなく、DAG構成を
利用して、特定のマルチメディア・コンテンツについて
のより高いレベルの解釈を推論する手法の方に本発明の
関心があることを強調したい。
の、2D画像あるいは3Dビデオ・シーケンスのソーテ
ィング方法は本発明の中心主題ではなく、DAG構成を
利用して、特定のマルチメディア・コンテンツについて
のより高いレベルの解釈を推論する手法の方に本発明の
関心があることを強調したい。
【0032】内包集合 内包集合部204には、コンテンツ・エンティティ部2
00内に時間的におよび/または空間的に厳密に内包さ
れる他のコンテンツ・エンティティを参照するポインタ
が含まれる。内包集合に対する制約として、1つのオブ
ジェクトは第1のオブジェクトを含む別のオブジェクト
を内包することができないという制約がある。すなわ
ち、内包の結果有向非循環グラフが生じる。コンテンツ
・エンティティは相互に排他的であることを必要としな
い。また、内包集合内には順序づけが存在しない。例え
ば、飛行機着陸のビデオ・シーケンスでは、内包集合に
は各コンテンツ・エンティティを参照するポインタが含
まれる。例えば、飛行機、滑走路、滑走路の照明灯、飛
行機の着地、無線通信などを参照するポインタが含まれ
る。
00内に時間的におよび/または空間的に厳密に内包さ
れる他のコンテンツ・エンティティを参照するポインタ
が含まれる。内包集合に対する制約として、1つのオブ
ジェクトは第1のオブジェクトを含む別のオブジェクト
を内包することができないという制約がある。すなわ
ち、内包の結果有向非循環グラフが生じる。コンテンツ
・エンティティは相互に排他的であることを必要としな
い。また、内包集合内には順序づけが存在しない。例え
ば、飛行機着陸のビデオ・シーケンスでは、内包集合に
は各コンテンツ・エンティティを参照するポインタが含
まれる。例えば、飛行機、滑走路、滑走路の照明灯、飛
行機の着地、無線通信などを参照するポインタが含まれ
る。
【0033】DAG−Coder関数 DAG構成は、コンテンツ・エンティティに対して適用
された様々なDAG−Coder関数の結果として生じ
たものである。言い換えれば、内包集合の中にコンテン
ツ・エンティティおよびそれらのエンティティの関係が
与えられれば、様々なDAG−Coder関数によっ
て、マルチメディア・コンテンツについての様々な解釈
が生成される。この関数について以下さらに説明する。
された様々なDAG−Coder関数の結果として生じ
たものである。言い換えれば、内包集合の中にコンテン
ツ・エンティティおよびそれらのエンティティの関係が
与えられれば、様々なDAG−Coder関数によっ
て、マルチメディア・コンテンツについての様々な解釈
が生成される。この関数について以下さらに説明する。
【0034】DAG−Coder関数は、順序づけられ
たコンテンツ・エンティティの構成要素を生み出すこと
により、所定のコンテンツ・エンティティをその構成要
素にセグメントする関数である。DAG−Coder関
数によってDAG構成部204が生成される。DAG−
Coder関数はデータベースに対して包括的であり、
いずれのコンテンツ・エンティティに対しても適用する
ことができる。DAG−Coder関数によって時空的
コンテンツ空間に対して異なる見方が与えられ、より扱
いやすいオブジェクト間の類似度計算が行われる。DA
G中のパスはコンテンツ・エンティティ200について
の解釈を表す。このDAG表現は、任意のレベルで統語
論的情報と意味論的情報を入れ替えることが可能な記述
方式の枠組みになる。さらに、記述方式の複雑さがユー
ザーから隠される。
たコンテンツ・エンティティの構成要素を生み出すこと
により、所定のコンテンツ・エンティティをその構成要
素にセグメントする関数である。DAG−Coder関
数によってDAG構成部204が生成される。DAG−
Coder関数はデータベースに対して包括的であり、
いずれのコンテンツ・エンティティに対しても適用する
ことができる。DAG−Coder関数によって時空的
コンテンツ空間に対して異なる見方が与えられ、より扱
いやすいオブジェクト間の類似度計算が行われる。DA
G中のパスはコンテンツ・エンティティ200について
の解釈を表す。このDAG表現は、任意のレベルで統語
論的情報と意味論的情報を入れ替えることが可能な記述
方式の枠組みになる。さらに、記述方式の複雑さがユー
ザーから隠される。
【0035】DAGの中を通る複数のパス DAG−Coder関数によって、このようなDAG構
成を介してマルチメディア・コンテンツについての複数
の解釈が生成される。この生成はDAGの複数のパス構
造を介して行われる。以下、これらの複数のパスがマル
チメディア・コンテンツという観点から何を意味するか
に焦点を合わせる。
成を介してマルチメディア・コンテンツについての複数
の解釈が生成される。この生成はDAGの複数のパス構
造を介して行われる。以下、これらの複数のパスがマル
チメディア・コンテンツという観点から何を意味するか
に焦点を合わせる。
【0036】図3〜図5は“野球ビデオ”エンティティ
300の例に関して複数のパスを例示する図である。図
3では、コンテンツ・エンティティ300には属性部3
01、関係部302、DAG構成部303、内包集合部
304が含まれる。図4では、コンテンツ・エンティテ
ィ310の中に属性部311、関係部312、DAG構
成部313、内包集合部314が含まれる。
300の例に関して複数のパスを例示する図である。図
3では、コンテンツ・エンティティ300には属性部3
01、関係部302、DAG構成部303、内包集合部
304が含まれる。図4では、コンテンツ・エンティテ
ィ310の中に属性部311、関係部312、DAG構
成部313、内包集合部314が含まれる。
【0037】例示のように、時間的DAGは同じイベン
トについて同値の解釈を表すことができる。例えば、図
3と図4に図示のように、野球ビデオでは、ピッチング
とヒッティングシーケンス、あるいはプレイが行われる
イニングを動き、色および/または活動のような統語論
的要素の観察を通じて認識可能にすることができる。し
かし、図5に図示のような表現に代替手段として、アナ
ウンサー320のコメントを示す属性321によってこ
のようなシーケンスまたはイベントを要約することが可
能である。この例から、マルチメディア・コンテンツに
ついての複数の時間的解釈が可能であることが明らかで
あり、また、そのような解釈が同時に生じることはあり
得ないということが明らかである。
トについて同値の解釈を表すことができる。例えば、図
3と図4に図示のように、野球ビデオでは、ピッチング
とヒッティングシーケンス、あるいはプレイが行われる
イニングを動き、色および/または活動のような統語論
的要素の観察を通じて認識可能にすることができる。し
かし、図5に図示のような表現に代替手段として、アナ
ウンサー320のコメントを示す属性321によってこ
のようなシーケンスまたはイベントを要約することが可
能である。この例から、マルチメディア・コンテンツに
ついての複数の時間的解釈が可能であることが明らかで
あり、また、そのような解釈が同時に生じることはあり
得ないということが明らかである。
【0038】空間的DAGの場合、複数のパスは同値の
解釈を表すこともできる。また、ある意味ではより高い
レベルの表現能力を追加することができる。この追加さ
れたレベルの表現能力は、別々のオブジェクトを1つの
合成オブジェクトにグループ化し、次いで、様々な意味
論的意味を用いてこの合成オブジェクトの解釈を行うこ
とができると理解することにより達成される。一般に、
この新しい意味論的解釈は、全体として情報が考察され
るので前のものより高いレベルの解釈となる。
解釈を表すこともできる。また、ある意味ではより高い
レベルの表現能力を追加することができる。この追加さ
れたレベルの表現能力は、別々のオブジェクトを1つの
合成オブジェクトにグループ化し、次いで、様々な意味
論的意味を用いてこの合成オブジェクトの解釈を行うこ
とができると理解することにより達成される。一般に、
この新しい意味論的解釈は、全体として情報が考察され
るので前のものより高いレベルの解釈となる。
【0039】一例として、ガソリンポンプ、給油所の接
客係ならびに自動車といういくつかのオブジェクトにつ
いて考察してみよう。個別には、これらのオブジェクト
は属性を示すそれ自身の設定値を有しており、その意味
論的意味は全く異なるものである。しかしながら、これ
らの個々のオブジェクトを一緒にまとめると、給油所と
解釈可能であることは明らかである。これらの複数のパ
スはDAG構造によって効率的に表現される。統語論的
側面では、例えばあるオブジェクトの形状についての様
々な解釈を同じ方法で演繹することができる。
客係ならびに自動車といういくつかのオブジェクトにつ
いて考察してみよう。個別には、これらのオブジェクト
は属性を示すそれ自身の設定値を有しており、その意味
論的意味は全く異なるものである。しかしながら、これ
らの個々のオブジェクトを一緒にまとめると、給油所と
解釈可能であることは明らかである。これらの複数のパ
スはDAG構造によって効率的に表現される。統語論的
側面では、例えばあるオブジェクトの形状についての様
々な解釈を同じ方法で演繹することができる。
【0040】マルチメディア・コンテンツ記述の生成 図6は、マルチメディア・コンテンツ401から記述方
式409を生成する方法400を例示する図である。マ
ルチメディア・コンテンツは2D画像または3Dビデオ
・シーケンスであってもよい。まず、空間的および時間
的セグメンテーション410がマルチメディア・コンテ
ンツに対して適用され、オブジェクト411が抽出され
る。次に、特徴抽出420がオブジェクトに対して適用
され、1組のすべてのコンテンツ・エンティティ429
が得られる。特徴抽出には属性抽出部421、内包抽出
部422、関係抽出部423が含まれる。ソーティング
431に従って、DAG−Corder関数430はエ
ンティティ429のDAG構成を生成し、本発明による
マルチメディア・コンテンツ記述409が形成される。
式409を生成する方法400を例示する図である。マ
ルチメディア・コンテンツは2D画像または3Dビデオ
・シーケンスであってもよい。まず、空間的および時間
的セグメンテーション410がマルチメディア・コンテ
ンツに対して適用され、オブジェクト411が抽出され
る。次に、特徴抽出420がオブジェクトに対して適用
され、1組のすべてのコンテンツ・エンティティ429
が得られる。特徴抽出には属性抽出部421、内包抽出
部422、関係抽出部423が含まれる。ソーティング
431に従って、DAG−Corder関数430はエ
ンティティ429のDAG構成を生成し、本発明による
マルチメディア・コンテンツ記述409が形成される。
【0041】異なるマルチメディア・コンテンツの比較 図7は、2つの異なるマルチメディア・コンテンツ、コ
ンテンツ1(501)とコンテンツ2(502)とを比較す
る方法を図示する。この方法によって、2つの記述方
式、DS1(503)とDS2(504)が生成される(4
00)。これらの記述は比較され(510)、類似度スコ
アが生成される(509)。2つのタイプのオブジェクト
が与えられれば、オブジェクト比較装置によって、2つ
のオブジェクトが同一である確率尤度という点から類似
度スコアが返されてくる。Object−Compar
e関数510は、別のObject−Compare関
数を再帰的に呼び出すことができる。Object−C
ompare関数は、本明細書に参考文献として取り入
れられている米国特許第09/326,759に記載され
ているような、部分的に順序づけられたツリー(POT)
を比較するために用いるアルゴリズムと非常に類似して
いる。キー・ポイントについて以下レビューする。
ンテンツ1(501)とコンテンツ2(502)とを比較す
る方法を図示する。この方法によって、2つの記述方
式、DS1(503)とDS2(504)が生成される(4
00)。これらの記述は比較され(510)、類似度スコ
アが生成される(509)。2つのタイプのオブジェクト
が与えられれば、オブジェクト比較装置によって、2つ
のオブジェクトが同一である確率尤度という点から類似
度スコアが返されてくる。Object−Compar
e関数510は、別のObject−Compare関
数を再帰的に呼び出すことができる。Object−C
ompare関数は、本明細書に参考文献として取り入
れられている米国特許第09/326,759に記載され
ているような、部分的に順序づけられたツリー(POT)
を比較するために用いるアルゴリズムと非常に類似して
いる。キー・ポイントについて以下レビューする。
【0042】順序づけられたツリーを比較するために用
いるマッチング・アルゴリズムについて考察する。ツリ
ーは再帰構造を有するので、再帰的に最適の比較を行う
ことが可能であり、比較は単一のノード・ツリーに基づ
く。0〜1の範囲で本発明のツリーのスコアを出してみ
よう。2つの単一のノード・ツリーがスコア1に割り当
てられ、一方、単一ノード・ツリーと2つ以上のノード
を持つ任意のツリーがスコア0に割り当てられる。
いるマッチング・アルゴリズムについて考察する。ツリ
ーは再帰構造を有するので、再帰的に最適の比較を行う
ことが可能であり、比較は単一のノード・ツリーに基づ
く。0〜1の範囲で本発明のツリーのスコアを出してみ
よう。2つの単一のノード・ツリーがスコア1に割り当
てられ、一方、単一ノード・ツリーと2つ以上のノード
を持つ任意のツリーがスコア0に割り当てられる。
【0043】本発明の帰納的ステップに対して、各ノー
ドは一続きのエッジおよびエッジのそれぞれの子に対応
することに留意されたい。ツリーを比較するためには、
シーケンスの対応する子を再帰的に比較しながらシーケ
ンス間の最適の対応を見つければよい。このステップの
ために最長共通部分列(LCS)を用いることができる。
Object−Compare関数による方法によっ
て、順序づけられたツリー比較の同じ複雑さで、効率的
で、ロバストで最適のオブジェクト比較を行うことが可
能になる。
ドは一続きのエッジおよびエッジのそれぞれの子に対応
することに留意されたい。ツリーを比較するためには、
シーケンスの対応する子を再帰的に比較しながらシーケ
ンス間の最適の対応を見つければよい。このステップの
ために最長共通部分列(LCS)を用いることができる。
Object−Compare関数による方法によっ
て、順序づけられたツリー比較の同じ複雑さで、効率的
で、ロバストで最適のオブジェクト比較を行うことが可
能になる。
【0044】DAGの表現能力の特別な自由度を処理す
るために、DAG−Compareアルゴリズムを利用
する(本明細書に参考文献として取り入れられている、
Lin他“オンライン手書き認識に適用した新しいニュ
ーラル構造としてのDAGの符号化ならびに比較”(I
EEE Trans信号処理、1996年)参照)。2つ
のDAGの間に2つの最適マッチングパスが得られる。
上記アルゴリズムが一般的なものであるのに対して、D
AG−CompareはLCS検索と同程度の複雑さを
持つものである。最後に、内包階層に対する制約(DA
G同様)によってPOT-Compareアルゴリズムを
用いることが可能になるが、POTは本発明の一般的コ
ンテンツ・エンティティのサブセットにすぎないという
ことを述べておくべきであろう。
るために、DAG−Compareアルゴリズムを利用
する(本明細書に参考文献として取り入れられている、
Lin他“オンライン手書き認識に適用した新しいニュ
ーラル構造としてのDAGの符号化ならびに比較”(I
EEE Trans信号処理、1996年)参照)。2つ
のDAGの間に2つの最適マッチングパスが得られる。
上記アルゴリズムが一般的なものであるのに対して、D
AG−CompareはLCS検索と同程度の複雑さを
持つものである。最後に、内包階層に対する制約(DA
G同様)によってPOT-Compareアルゴリズムを
用いることが可能になるが、POTは本発明の一般的コ
ンテンツ・エンティティのサブセットにすぎないという
ことを述べておくべきであろう。
【0045】アプリケーション 上述のコンテンツ記述方式は、コンテンツ・エンティテ
ィ記述の表現手段のみならず、計算を行う上で効率的な
ロバストな類似度測定を提供するものでもあり、意味論
的および統語論的双方の様々な記述を切れ目なく統合す
ることができる。本発明による記述方式の範囲内で、コ
ンテンツ・エンティティ、その属性およびその関係によ
って、HTTP規格で利用可能となるような基本的ハイ
パーリンク・ネットワークが形成される。
ィ記述の表現手段のみならず、計算を行う上で効率的な
ロバストな類似度測定を提供するものでもあり、意味論
的および統語論的双方の様々な記述を切れ目なく統合す
ることができる。本発明による記述方式の範囲内で、コ
ンテンツ・エンティティ、その属性およびその関係によ
って、HTTP規格で利用可能となるような基本的ハイ
パーリンク・ネットワークが形成される。
【0046】本発明のコンテンツ・エンティティの階層
とその記述に対して、本発明のグラフ構造を有向非循環
グラフに限定することにより、順序づけられたツリー比
較と同値であるコンテンツ・エンティティの間でロバス
トな比較を行うための計算上の複雑さ保持しながら、順
序づけられたツリーを介して特別の表現能力を与えるこ
とが可能となる。
とその記述に対して、本発明のグラフ構造を有向非循環
グラフに限定することにより、順序づけられたツリー比
較と同値であるコンテンツ・エンティティの間でロバス
トな比較を行うための計算上の複雑さ保持しながら、順
序づけられたツリーを介して特別の表現能力を与えるこ
とが可能となる。
【0047】表現能力の自由度 コンテンツ・エンティティの厳密な階層は存在しない。
すなわち、内包が矛盾しない限り、どのオブジェクトで
も別のオブジェクトを厳密に内包することができる。ツ
リー階層の代わりに、コンテンツ・エンティティにわた
る内包関係によって有向非循環グラフが誘起される。矛
盾する内包を禁じることにより非循環性が保持される。
サイクルに対する制約によって、比較の効率的な再帰的
定式化が可能になる。
すなわち、内包が矛盾しない限り、どのオブジェクトで
も別のオブジェクトを厳密に内包することができる。ツ
リー階層の代わりに、コンテンツ・エンティティにわた
る内包関係によって有向非循環グラフが誘起される。矛
盾する内包を禁じることにより非循環性が保持される。
サイクルに対する制約によって、比較の効率的な再帰的
定式化が可能になる。
【0048】DAG構造に焦点を移すと、DAG構成の
DAG構造は以下のように対応づけられる。エッジはコ
ンテンツ・エンティティを表し、ノードは区切り点セグ
メンテーションに対応する。定義済みのトポロジーによ
る順序に従って、DAGの範囲の内包コンテンツ・エン
ティティ構成としてオブジェクトを構造化することがで
きる。一般的グラフ構造と比較したDAGに対する制約
はそのトポロジーによる順序づけである。この順序は時
間的あるいは空間的なものであってもよいが1Dでなけ
ればならない。この順序に従い、連結性を遵守すること
により、DAG構造の部分グラフによって新しいコンセ
プトへ導かれる。すなわち、順序づけられたパスはマル
チメディア・コンテンツについての特定の解釈(すなわ
ちその内含エンティティの順序づけられた部分集合とし
て表されたコンテンツ・エンティティの表示)を表すと
いうコンセプトへ導かれる。
DAG構造は以下のように対応づけられる。エッジはコ
ンテンツ・エンティティを表し、ノードは区切り点セグ
メンテーションに対応する。定義済みのトポロジーによ
る順序に従って、DAGの範囲の内包コンテンツ・エン
ティティ構成としてオブジェクトを構造化することがで
きる。一般的グラフ構造と比較したDAGに対する制約
はそのトポロジーによる順序づけである。この順序は時
間的あるいは空間的なものであってもよいが1Dでなけ
ればならない。この順序に従い、連結性を遵守すること
により、DAG構造の部分グラフによって新しいコンセ
プトへ導かれる。すなわち、順序づけられたパスはマル
チメディア・コンテンツについての特定の解釈(すなわ
ちその内含エンティティの順序づけられた部分集合とし
て表されたコンテンツ・エンティティの表示)を表すと
いうコンセプトへ導かれる。
【0049】DAGは複数の順序づけられたパスを内包
することができるので、DAGはデータについての複数
の解釈のコンパクトな表現になる。DAGデータ構造は
並列パスというコンセプトを許容する。したがって、D
AGによって、この並列構造による意味論的要素ならび
に統語論的要素の双方の統合が可能となる。意味論的要
素および統語論的要素は必ずしも同値ではない。しか
し、これらの並列構成に基づいて要素を配置することに
よりDAG構造のコンテキストの範囲でこれらの要素は
交換可能である。
することができるので、DAGはデータについての複数
の解釈のコンパクトな表現になる。DAGデータ構造は
並列パスというコンセプトを許容する。したがって、D
AGによって、この並列構造による意味論的要素ならび
に統語論的要素の双方の統合が可能となる。意味論的要
素および統語論的要素は必ずしも同値ではない。しか
し、これらの並列構成に基づいて要素を配置することに
よりDAG構造のコンテキストの範囲でこれらの要素は
交換可能である。
【0050】上記能力は一般的グラフ構造のサブセット
である。しかし、ほとんどのグラフ一致問題はまだオー
プンにされているので、これらの制約によってこれらの
表現構造の比較を行うことが可能になる。この順序づけ
によってDAG構成の表現能力が制約を受けるものの、
この順序づけによって、コンテンツ・エンティティのロ
バストな比較の中で要素の整列を処理することが可能と
なる。
である。しかし、ほとんどのグラフ一致問題はまだオー
プンにされているので、これらの制約によってこれらの
表現構造の比較を行うことが可能になる。この順序づけ
によってDAG構成の表現能力が制約を受けるものの、
この順序づけによって、コンテンツ・エンティティのロ
バストな比較の中で要素の整列を処理することが可能と
なる。
【0051】ユニバーサル・マルチメディア・アクセス 本発明の記述方式は、マルチメディア・コンテンツにつ
いての複数の解釈を表現し比較することが可能なので、
ユニバーサル・マルチメディア・アクセス(UMA)のコ
ンセプトに最適である。図8に図示のようにUMAの基
本的着想は、限定された通信、処理、記憶および表示能
力しか持たないクライアントの装置601が、ネットワ
ーク602を介して、サーバー装置604によって保持
される豊富なマルチメディア・コンテンツ603にアク
セスすることを可能にすることである。
いての複数の解釈を表現し比較することが可能なので、
ユニバーサル・マルチメディア・アクセス(UMA)のコ
ンセプトに最適である。図8に図示のようにUMAの基
本的着想は、限定された通信、処理、記憶および表示能
力しか持たないクライアントの装置601が、ネットワ
ーク602を介して、サーバー装置604によって保持
される豊富なマルチメディア・コンテンツ603にアク
セスすることを可能にすることである。
【0052】最近、マルチメディア・コンテンツをクラ
イアント装置に適合させることに焦点を絞ったいくつか
の解決策が存在する。2つの基本的方法でUMAを提供
することができる。第1の方法は、マルチメディア・プ
レゼンテーションを有する様々なバージョンの媒体オブ
ジェクト(画像、ビデオ、オーディオ、グラフィックス
およびテキスト)の保存、処理、管理、選択および配信
による方法である。第2の方法は、テキストから音声へ
の変換、画像とビデオのコード変換(transcoding)、媒
体変換および要約を行う方法を利用する場合のように、
オンザフライで媒体オブジェクトを操作することによる
方法である。この方法によって、クライアント装置の通
信、処理、保存および表示能力の広い多様性に対するマ
ルチメディア・コンテンツの配信の適合が可能となる。
イアント装置に適合させることに焦点を絞ったいくつか
の解決策が存在する。2つの基本的方法でUMAを提供
することができる。第1の方法は、マルチメディア・プ
レゼンテーションを有する様々なバージョンの媒体オブ
ジェクト(画像、ビデオ、オーディオ、グラフィックス
およびテキスト)の保存、処理、管理、選択および配信
による方法である。第2の方法は、テキストから音声へ
の変換、画像とビデオのコード変換(transcoding)、媒
体変換および要約を行う方法を利用する場合のように、
オンザフライで媒体オブジェクトを操作することによる
方法である。この方法によって、クライアント装置の通
信、処理、保存および表示能力の広い多様性に対するマ
ルチメディア・コンテンツの配信の適合が可能となる。
【0053】本発明の記述方式は、上述の第1の項目に
よってUMAのサポートを行うことができる。すなわ
ち、クライアント側の能力に依存して、サーバー側は、
マルチメディア・コンテンツについてのより入念な解釈
を送るか、あるいは、マルチメディア・コンテンツの簡
単な概要を送るだけにするかの選択を行うことができ
る。このように、マルチメディア・コンテンツについて
のいずれの解釈がクライアント側の装置に最適であるか
を決定するのに役立つ処理構造として本発明の記述方式
は機能する。コンテンツ・エンティティの属性の一部と
して、これらの要件には、マルチメディア・コンテンツ
中の各画像やビデオ・フレームのサイズ、ビデオ・フレ
ーム数のような項目、ならびに、リソース要件に属する
他の分野が含まれる。
よってUMAのサポートを行うことができる。すなわ
ち、クライアント側の能力に依存して、サーバー側は、
マルチメディア・コンテンツについてのより入念な解釈
を送るか、あるいは、マルチメディア・コンテンツの簡
単な概要を送るだけにするかの選択を行うことができ
る。このように、マルチメディア・コンテンツについて
のいずれの解釈がクライアント側の装置に最適であるか
を決定するのに役立つ処理構造として本発明の記述方式
は機能する。コンテンツ・エンティティの属性の一部と
して、これらの要件には、マルチメディア・コンテンツ
中の各画像やビデオ・フレームのサイズ、ビデオ・フレ
ーム数のような項目、ならびに、リソース要件に属する
他の分野が含まれる。
【0054】以上推奨実施例の挙げて本発明について説
明したが、本発明の精神と範囲の中で様々な他の適合お
よび改変を行うことが可能である。したがって、本発明
の真の精神と範囲においてすべてのこのような変更例お
よび改変例をカバーすることが添付の請求項の目的であ
る。
明したが、本発明の精神と範囲の中で様々な他の適合お
よび改変を行うことが可能である。したがって、本発明
の真の精神と範囲においてすべてのこのような変更例お
よび改変例をカバーすることが添付の請求項の目的であ
る。
【図1】 従来技術による記述方式を示すブロック図で
ある。
ある。
【図2】 本発明による一般的コンテンツ・エンティテ
ィを表す記述方式のブロック図である。
ィを表す記述方式のブロック図である。
【図3】 コンテンツ・エンティティ例を表す記述方式
のブロック図である。
のブロック図である。
【図4】 コンテンツ・エンティティ例を表す記述方式
のブロック図である。
のブロック図である。
【図5】 コンテンツ・エンティティ例を表す記述方式
のブロック図である。
のブロック図である。
【図6】 本発明による記述方式を生成する方法を示す
流れ線図である。
流れ線図である。
【図7】 本発明による記述方式を比較する方法を示す
流れ線図である。
流れ線図である。
【図8】 本発明によるサーバー上でマルチメディアに
アクセスするクライアントのブロック図である。
アクセスするクライアントのブロック図である。
200 ビデオ・エンティティ(VE)、201 属性
(特性)部、202 関係部、203 DAG構成部、2
04 内包集合部。
(特性)部、202 関係部、203 DAG構成部、2
04 内包集合部。
───────────────────────────────────────────────────── フロントページの続き (71)出願人 597067574 201 BROADWAY, CAMBRI DGE, MASSACHUSETTS 02139, U.S.A. (72)発明者 イージョン・リン アメリカ合衆国、ニュージャージー州、プ リンストン、キング・ストリート 255エ イ (72)発明者 アンソニー・ヴェトロ アメリカ合衆国、ニューヨーク州、ステー トン・アイランド、レジス・ドライブ 113 (72)発明者 アジェイ・ディヴァカラン アメリカ合衆国、ニュージャージー州、ス コッチ・プレインズ、カントリー・クラ ブ・ブールバード 47 (72)発明者 スンユアン・クン アメリカ合衆国、ニュージャージー州、プ リンストン、ドッズ・レーン 257
Claims (20)
- 【請求項1】 マルチメディア・コンテンツの表現を生
成する方法であって、 前記マルチメディア・コンテンツのセグメンティングを
行ってオブジェクトを抽出するステップと、 前記オブジェクトの特徴を抽出し、関連づけて、コンテ
ンツ・エンティティを生成するステップと、 各有向非循環グラフが前記マルチメディア・コンテンツ
についての特定の解釈を表すものであって、前記コンテ
ンツ・エンティティの符号化を行って、前記コンテンツ
・エンティティの有向非循環グラフを生成するステップ
とを含むマルチメディア・コンテンツの表現を生成する
方法。 - 【請求項2】 前記マルチメディア・コンテンツが2次
元画像である請求項1記載の方法。 - 【請求項3】 前記マルチメディア・コンテンツが3次
元ビデオ・シーケンスである請求項1記載の方法。 - 【請求項4】 前記セグメンティングが空間的である請
求項1記載の方法。 - 【請求項5】 前記セグメンティングが時間的である請
求項1記載の方法。 - 【請求項6】 前記セグメンティングが空間的かつ時間
的である請求項1記載の方法。 - 【請求項7】 前記特徴がオブジェクトの属性と関係を
含む請求項1記載の方法。 - 【請求項8】 前記属性がオブジェクトの包括的な特性
からなる順序づけられていない集合である請求項7記載
の方法。 - 【請求項9】 前記特性が意味論的ならびに統語論的で
ある請求項8記載の方法。 - 【請求項10】 前記意味論的特性が、オブジェクト・
タイプとイベント・タイプとを含み、前記統語論的特性
が色と動きを含む請求項9記載の方法。 - 【請求項11】 有向非循環グラフのノードが前記コン
テンツ・エンティティを表し、エッジが前記セグメンテ
ーションにおける区切り点を表す請求項1記載の方法。 - 【請求項12】 前記有向非循環グラフが前記コンテン
ツ・エンティティの空間的順序づけを表す請求項1記載
の方法。 - 【請求項13】 前記有向非循環グラフが前記コンテン
ツ・エンティティの時間的順序づけを表す請求項1記載
の方法。 - 【請求項14】 前記コンテンツ・エンティティの内包
集合を生成するステップをさらに含む請求項1記載の方
法。 - 【請求項15】 前記内包集合が、ある特定のコンテン
ツ・エンティティの中に空間的にならびに時間的に内包
される他のコンテンツ・エンティティを参照するポイン
タを含む請求項14記載の方法。 - 【請求項16】 前記内包集合が順序づけられていない
請求項14記載の方法。 - 【請求項17】 第1のマルチメディア・コンテンツを
表す第1の有向非循環グラフを含む第1の表現と、第2
のマルチメディア・コンテンツを表す第2の有向非循環
グラフを含む第2の表現とを生成する方法であって、 前記第1の有向非循環グラフと前記第2の有向非循環グ
ラフとを比較して、前記第1のマルチメディア・コンテ
ンツと前記第2のマルチメディア・コンテンツとの類似
度スコアを判定するステップを含む請求項1記載の方
法。 - 【請求項18】 前記比較ステップが、最長共通部分列
を用いる請求項17記載の方法。 - 【請求項19】 前記比較ステップが、パス・マッチン
グを用いる請求項17記載の方法。 - 【請求項20】 前記マルチメディア・コンテンツがサ
ーバーコンピュータによって保持され、ネットワークに
よって前記サーバーコンピュータと接続したクライアン
ト側コンピュータによってアクセスされる請求項1記載
の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/385,169 US6546135B1 (en) | 1999-08-30 | 1999-08-30 | Method for representing and comparing multimedia content |
US09/385169 | 1999-08-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001084381A true JP2001084381A (ja) | 2001-03-30 |
Family
ID=23520310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000218868A Pending JP2001084381A (ja) | 1999-08-30 | 2000-07-19 | マルチメディア・コンテンツの表現を生成する方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6546135B1 (ja) |
EP (1) | EP1081604A3 (ja) |
JP (1) | JP2001084381A (ja) |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735253B1 (en) | 1997-05-16 | 2004-05-11 | The Trustees Of Columbia University In The City Of New York | Methods and architecture for indexing and editing compressed video over the world wide web |
US7143434B1 (en) * | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
US7028325B1 (en) * | 1999-09-13 | 2006-04-11 | Microsoft Corporation | Annotating programs for automatic summary generation |
KR100350792B1 (ko) * | 1999-09-22 | 2002-09-09 | 엘지전자 주식회사 | 사용자 선호도를 반영한 사용자 프로파일 생성방법과 멀티미디어 데이타 브라우징 방법 |
US7075591B1 (en) * | 1999-09-22 | 2006-07-11 | Lg Electronics Inc. | Method of constructing information on associate meanings between segments of multimedia stream and method of browsing video using the same |
EP1395948A2 (en) * | 1999-11-29 | 2004-03-10 | Koninklijke Philips Electronics N.V. | Method for coding and decoding multimedia data |
US20020024539A1 (en) * | 2000-05-08 | 2002-02-28 | Columbia University | System and method for content-specific graphical user interfaces |
US20040125877A1 (en) * | 2000-07-17 | 2004-07-01 | Shin-Fu Chang | Method and system for indexing and content-based adaptive streaming of digital video content |
US9892606B2 (en) | 2001-11-15 | 2018-02-13 | Avigilon Fortress Corporation | Video surveillance system employing video primitives |
US20050162515A1 (en) * | 2000-10-24 | 2005-07-28 | Objectvideo, Inc. | Video surveillance system |
US8711217B2 (en) | 2000-10-24 | 2014-04-29 | Objectvideo, Inc. | Video surveillance system employing video primitives |
US8564661B2 (en) * | 2000-10-24 | 2013-10-22 | Objectvideo, Inc. | Video analytic rule detection system and method |
US7593618B2 (en) | 2001-03-29 | 2009-09-22 | British Telecommunications Plc | Image processing for analyzing video content |
US7734997B2 (en) * | 2001-05-29 | 2010-06-08 | Sony Corporation | Transport hint table for synchronizing delivery time between multimedia content and multimedia content descriptions |
US20030088659A1 (en) * | 2001-11-08 | 2003-05-08 | Susarla Hanumantha Rao | System and method for distributed state management |
EP1311124A1 (en) * | 2001-11-13 | 2003-05-14 | Matsushita Electric Industrial Co., Ltd. | Selective protection method for images transmission |
US7339992B2 (en) * | 2001-12-06 | 2008-03-04 | The Trustees Of Columbia University In The City Of New York | System and method for extracting text captions from video and generating video summaries |
US7788346B2 (en) * | 2002-03-01 | 2010-08-31 | Oracle America, Inc. | System and method for state data back-up in a distributed data system |
US7085852B2 (en) * | 2002-03-01 | 2006-08-01 | Sun Microsystems, Inc. | Deterministic immutable access elimination for efficient distributed state saves |
US20030167285A1 (en) * | 2002-03-01 | 2003-09-04 | Sun Microsystems, Inc. | Incremental saves for efficient distributed state stores |
US7240058B2 (en) | 2002-03-01 | 2007-07-03 | Sun Microsystems, Inc. | Lock mechanism for a distributed data system |
US7320035B2 (en) * | 2002-03-01 | 2008-01-15 | Sun Microsystems, Inc. | Object mutation determination for incremental state saves |
US7370329B2 (en) * | 2002-03-01 | 2008-05-06 | Sun Microsystems, Inc. | System and method for state saves in a distributed data system |
WO2003091850A2 (en) * | 2002-04-26 | 2003-11-06 | The Trustees Of Columbia University In The City Of New York | Method and system for optimal video transcoding based on utility function descriptors |
AU2003237135A1 (en) * | 2002-04-30 | 2003-11-17 | Veridiem Inc. | Marketing optimization system |
US20050091279A1 (en) * | 2003-09-29 | 2005-04-28 | Rising Hawley K.Iii | Use of transform technology in construction of semantic descriptions |
US7831615B2 (en) * | 2003-10-17 | 2010-11-09 | Sas Institute Inc. | Computer-implemented multidimensional database processing method and system |
US20050215239A1 (en) * | 2004-03-26 | 2005-09-29 | Nokia Corporation | Feature extraction in a networked portable device |
US7660823B2 (en) | 2004-12-30 | 2010-02-09 | Sas Institute Inc. | Computer-implemented system and method for visualizing OLAP and multidimensional data in a calendar format |
EP1681645A1 (en) * | 2005-01-14 | 2006-07-19 | FatLens, Inc. | Method and system to compare data objects |
US20060190432A1 (en) * | 2005-02-22 | 2006-08-24 | Sas Institute Inc. | System and method for graphically distinguishing levels of a multidimensional database |
WO2006096612A2 (en) * | 2005-03-04 | 2006-09-14 | The Trustees Of Columbia University In The City Of New York | System and method for motion estimation and mode decision for low-complexity h.264 decoder |
US20070162761A1 (en) | 2005-12-23 | 2007-07-12 | Davis Bruce L | Methods and Systems to Help Detect Identity Fraud |
US7774288B2 (en) * | 2006-05-16 | 2010-08-10 | Sony Corporation | Clustering and classification of multimedia data |
US7961189B2 (en) * | 2006-05-16 | 2011-06-14 | Sony Corporation | Displaying artists related to an artist of interest |
US7920720B2 (en) * | 2006-06-26 | 2011-04-05 | Keystream Corporation | Computer-implemented method for object creation by partitioning of a temporal graph |
US8707459B2 (en) * | 2007-01-19 | 2014-04-22 | Digimarc Corporation | Determination of originality of content |
US20080059425A1 (en) * | 2006-08-29 | 2008-03-06 | Attributor Corporation | Compliance information retrieval |
US20080059211A1 (en) * | 2006-08-29 | 2008-03-06 | Attributor Corporation | Content monitoring and compliance |
US8010511B2 (en) * | 2006-08-29 | 2011-08-30 | Attributor Corporation | Content monitoring and compliance enforcement |
US20080059461A1 (en) * | 2006-08-29 | 2008-03-06 | Attributor Corporation | Content search using a provided interface |
US8738749B2 (en) * | 2006-08-29 | 2014-05-27 | Digimarc Corporation | Content monitoring and host compliance evaluation |
US10242415B2 (en) | 2006-12-20 | 2019-03-26 | Digimarc Corporation | Method and system for determining content treatment |
US20100153569A1 (en) * | 2007-03-09 | 2010-06-17 | Ghost, Inc. | System and Method for a Virtual Hosted Operating System |
US7465241B2 (en) * | 2007-03-23 | 2008-12-16 | Acushnet Company | Functionalized, crosslinked, rubber nanoparticles for use in golf ball castable thermoset layers |
US8000996B1 (en) | 2007-04-10 | 2011-08-16 | Sas Institute Inc. | System and method for markdown optimization |
US8160917B1 (en) | 2007-04-13 | 2012-04-17 | Sas Institute Inc. | Computer-implemented promotion optimization methods and systems |
US7930200B1 (en) | 2007-11-02 | 2011-04-19 | Sas Institute Inc. | Computer-implemented systems and methods for cross-price analysis |
US10216761B2 (en) * | 2008-03-04 | 2019-02-26 | Oath Inc. | Generating congruous metadata for multimedia |
WO2009126785A2 (en) * | 2008-04-10 | 2009-10-15 | The Trustees Of Columbia University In The City Of New York | Systems and methods for image archaeology |
US8812338B2 (en) | 2008-04-29 | 2014-08-19 | Sas Institute Inc. | Computer-implemented systems and methods for pack optimization |
WO2009155281A1 (en) * | 2008-06-17 | 2009-12-23 | The Trustees Of Columbia University In The City Of New York | System and method for dynamically and interactively searching media data |
US8296182B2 (en) * | 2008-08-20 | 2012-10-23 | Sas Institute Inc. | Computer-implemented marketing optimization systems and methods |
US8671069B2 (en) | 2008-12-22 | 2014-03-11 | The Trustees Of Columbia University, In The City Of New York | Rapid image annotation via brain state decoding and visual pattern mining |
US8271318B2 (en) * | 2009-03-26 | 2012-09-18 | Sas Institute Inc. | Systems and methods for markdown optimization when inventory pooling level is above pricing level |
US20110035257A1 (en) * | 2009-08-06 | 2011-02-10 | Rajendra Singh Solanki | Systems And Methods For Generating Planograms In The Presence Of Multiple Objectives |
WO2011080052A1 (en) | 2009-12-28 | 2011-07-07 | Thomson Licensing | Method for selection of a document shot using graphic paths and receiver implementing the method |
US8515835B2 (en) | 2010-08-30 | 2013-08-20 | Sas Institute Inc. | Systems and methods for multi-echelon inventory planning with lateral transshipment |
US20120102469A1 (en) * | 2010-10-22 | 2012-04-26 | International Business Machines Corporation | Deterministic application breakpoint halting by logically relating breakpoints in a graph |
US20120159326A1 (en) * | 2010-12-16 | 2012-06-21 | Microsoft Corporation | Rich interactive saga creation |
US8788315B2 (en) | 2011-01-10 | 2014-07-22 | Sas Institute Inc. | Systems and methods for determining pack allocations |
US8688497B2 (en) | 2011-01-10 | 2014-04-01 | Sas Institute Inc. | Systems and methods for determining pack allocations |
US8676801B2 (en) | 2011-08-29 | 2014-03-18 | Sas Institute Inc. | Computer-implemented systems and methods for processing a multi-dimensional data structure |
US9244924B2 (en) * | 2012-04-23 | 2016-01-26 | Sri International | Classification, search, and retrieval of complex video events |
CN111625692B (zh) * | 2020-05-27 | 2023-08-22 | 抖音视界有限公司 | 特征抽取方法、装置、电子设备和计算机可读介质 |
US11418848B2 (en) * | 2020-08-31 | 2022-08-16 | TCL Research America Inc. | Device and method for interactive video presentation |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04264972A (ja) * | 1991-02-20 | 1992-09-21 | Sharp Corp | 自然言語処理装置及びそれを利用した動画形成装置 |
JPH07114627A (ja) * | 1993-09-27 | 1995-05-02 | Internatl Business Mach Corp <Ibm> | 時間表示及び空間表示におけるマルチメディア・エピソードの構成 |
JPH08235198A (ja) * | 1995-02-23 | 1996-09-13 | Hitachi Ltd | マルチメディア情報管理システム |
JPH0962685A (ja) * | 1995-08-30 | 1997-03-07 | Oki Electric Ind Co Ltd | 単語間表記類似度の計算方法 |
JPH09245051A (ja) * | 1996-03-05 | 1997-09-19 | Mitsubishi Electric Corp | 自然言語事例検索装置及び自然言語事例検索方法 |
JP2000030057A (ja) * | 1998-05-07 | 2000-01-28 | Canon Inc | 自動映像解釈システム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5412774A (en) * | 1990-08-29 | 1995-05-02 | At&T Corp. | Apparatus for and method of displaying a data item of a database using the display function of a selected data item |
EP0550131A2 (en) * | 1991-12-31 | 1993-07-07 | AT&T Corp. | Graphical system for automated segmentation and recognition for image recognition systems |
US5821945A (en) * | 1995-02-03 | 1998-10-13 | The Trustees Of Princeton University | Method and apparatus for video browsing based on content and structure |
US6278446B1 (en) * | 1998-02-23 | 2001-08-21 | Siemens Corporate Research, Inc. | System for interactive organization and browsing of video |
US6266053B1 (en) * | 1998-04-03 | 2001-07-24 | Synapix, Inc. | Time inheritance scene graph for representation of media content |
KR100697106B1 (ko) * | 1998-11-06 | 2007-03-21 | 더 트러스티스 오브 콜롬비아 유니버시티 인 더 시티 오브 뉴욕 | 이미지 디스크립션 시스템 및 방법 |
-
1999
- 1999-08-30 US US09/385,169 patent/US6546135B1/en not_active Expired - Fee Related
-
2000
- 2000-07-12 EP EP00114884A patent/EP1081604A3/en not_active Withdrawn
- 2000-07-19 JP JP2000218868A patent/JP2001084381A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04264972A (ja) * | 1991-02-20 | 1992-09-21 | Sharp Corp | 自然言語処理装置及びそれを利用した動画形成装置 |
JPH07114627A (ja) * | 1993-09-27 | 1995-05-02 | Internatl Business Mach Corp <Ibm> | 時間表示及び空間表示におけるマルチメディア・エピソードの構成 |
JPH08235198A (ja) * | 1995-02-23 | 1996-09-13 | Hitachi Ltd | マルチメディア情報管理システム |
JPH0962685A (ja) * | 1995-08-30 | 1997-03-07 | Oki Electric Ind Co Ltd | 単語間表記類似度の計算方法 |
JPH09245051A (ja) * | 1996-03-05 | 1997-09-19 | Mitsubishi Electric Corp | 自然言語事例検索装置及び自然言語事例検索方法 |
JP2000030057A (ja) * | 1998-05-07 | 2000-01-28 | Canon Inc | 自動映像解釈システム |
Also Published As
Publication number | Publication date |
---|---|
US6546135B1 (en) | 2003-04-08 |
EP1081604A2 (en) | 2001-03-07 |
EP1081604A3 (en) | 2005-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2001084381A (ja) | マルチメディア・コンテンツの表現を生成する方法 | |
Salembier et al. | MPEG-7 multimedia description schemes | |
Kapadia et al. | Efficient motion retrieval in large motion databases | |
US7383504B1 (en) | Method for representing and comparing multimedia content according to rank | |
US8370869B2 (en) | Video description system and method | |
US7254285B1 (en) | Image description system and method | |
EP1147655B1 (en) | Video description system and method | |
US11914645B2 (en) | Systems and methods for generating improved content based on matching mappings | |
Simou et al. | A visual descriptor ontology for multimedia reasoning | |
CN111586466A (zh) | 一种视频数据处理方法、装置及存储介质 | |
Benitez et al. | MPEG-7 MDS content description tools and applications | |
Petkovic et al. | A framework for video modelling | |
Gupta et al. | A comprehensive study of automatic video summarization techniques | |
KR20150061390A (ko) | 영상 검색 시스템 및 영상 검색 방법 | |
JP2006099761A (ja) | マルチメディアのコンテンツ検索方法 | |
Shih | Distributed multimedia databases: Techniques and Applications | |
Priya et al. | A comprehensive review of significant researches on content based indexing and retrieval of visual information | |
JP2001307061A (ja) | マルチメディア・コンテンツの順序付け方法 | |
Ritter et al. | An extensible tool for the annotation of videos using segmentation and tracking | |
Mallik et al. | Multimedia ontology learning for automatic annotation and video browsing | |
JP2007519068A (ja) | 変換技術を用いて意味記述を生成するコンピュータによる計算方法及びコンピュータシステム | |
Del Bimbo | Issues and directions in visual information retrieval | |
Dönderler | Data modeling and querying for video databases | |
Benitez et al. | Extraction, description and application of multimedia using MPEG-7 | |
Khan | Natural language descriptions for video streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100126 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100622 |