JP2005505081A - マルチメディア文書のインデックスおよび比較方法 - Google Patents
マルチメディア文書のインデックスおよび比較方法 Download PDFInfo
- Publication number
- JP2005505081A JP2005505081A JP2003535093A JP2003535093A JP2005505081A JP 2005505081 A JP2005505081 A JP 2005505081A JP 2003535093 A JP2003535093 A JP 2003535093A JP 2003535093 A JP2003535093 A JP 2003535093A JP 2005505081 A JP2005505081 A JP 2005505081A
- Authority
- JP
- Japan
- Prior art keywords
- media
- meta
- hypergraph
- individual media
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本発明はそれぞれ少なくとも2つの基本的なメディア(イメージ、音声、ビデオ信号、動画化されたベクトルグラフィックおよびテキスト)を有する2つの複合マルチメディア文書を比較する方法に関し、以下のステップを含み、即ち、a)メタ識別子を各マルチメディア文書に割当て、前記メタ識別子はノードと、前記ノード間の関係との加重されたハイパーグラフの形態と、関係するマルチメディア文書を構成する基本的なメディアを明白に識別するメタセグメントを含んでおり、b)それぞれの文書の基本的なメディアのメディア間関係の二次ツリーで反復を実行し、c)第1の文書のそれぞれの基本的なメディアのハイパーグラフに対して、第2の文書の基本的なメディアのハイパーグラフとの識別の最大化プロセスを実行し、d)第1の文書のそれぞれの基本的なメディアのハイパーグラフに対して、第2の文書の基本的なメディアのハイパーグラフとの最大の識別を行う編集動作のコストを決定し、前記コストに基づいて基本的なメディア間の距離を表し、e)それぞれの文書の基本的なメディア間のメディア間関係を生成する主要なツリーで反復を実行し、f)第1の文書の基本的なメディアのセットのハイパーグラフに対して、第2の文書の基本的なメディアのセットのハイパーグラフとの識別の最大化プロセスを実行し、g)第1の文書の基本的なメディアのセットのハイパーグラフに対して、第2の文書の基本的なメディアのセットのハイパーグラフとの最大の識別を行う編集動作のコストを決定し、前記コストに基づいて第1と第2のマルチメディア文書間の距離を表す。
Description
【技術分野】
【0001】
本発明は、特に保存されたマルチメディア文書の検索における応用を行うマルチメディア文書のインデックス、記憶および比較方法に関する。
【背景技術】
【0002】
デジタル革命により、処理されるデータ量は先例にない程に急増しており、使用される文書はマルチメディアのタイプである頻度がさらに多くなっており、即ち、これらは同時におよび相互に情報を表すのに複数の異なるモードと、静止画像または動画、音声、テキスト、写真、ビデオ信号、動画のベクトルグラフィック等を使用する。
【0003】
データを圧縮する種々の方法が既に知られている。それにもかかわらず、マルチメディア文書に含まれる全ての情報が圧縮されるとき、処理が保存からなるときだけでなく、前記マルチメディア文書に含まれる特定の情報を見つけるために複数のマルチメディア文書の比較からなるとき、処理されるデータ量は顕著な量である。
【発明の開示】
【発明が解決しようとする課題】
【0004】
本発明はマルチメディア文書内の多量のデータを管理する問題およびデータが圧縮された形態であるときでさえ、比較されるマルチメディア文書に含まれる全てのデータを処理せずに、マルチメディア文書を比較することを可能にする問題を解決することを目的とする。
【課題を解決するための手段】
【0005】
本発明によれば、これらの目的は、それぞれイメージ、音響、ビデオ信号、動画化されたベクトルグラフィックおよびテキストを含むカテゴリから選択された少なくとも2つの個々のメディアを具備する第1および第2の複合マルチメディア文書を比較する方法により実現され、
この方法は以下のステップを含んでいることを特徴とし、
a)メタ識別子を各第1および第2の複合マルチメディア文書に割当て、メタ識別子はノードと、前記ノード間の関係の加重されたハイパーグラフの形態であり、関係するマルチメディア文書を構成する個々のマルチメディアを明白に識別するメタセグメントを含んでおり、
b)それぞれ第1および第2の複合マルチメディア文書の個々のメディアのメディア内関係の二次ツリーで反復を実行し、
c)第1のマルチメディア文書のそれぞれの個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の個々のメディアのハイパーグラフとの一致を最大にする動作を実行し、
d)第1のマルチメディア文書のそれぞれの個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の個々のメディアのハイパーグラフと最大または準最大の一致に導く編集動作のコストを決定し、前記コストの関数として個々のメディア間の距離を表し、
e)それぞれ第1および第2の複合マルチメディア文書の個々のメディア間のメディア間関係を生成する主要なツリーで反復を実行し、
f)第1のマルチメディア文書の全ての個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の全ての個々のメディアのハイパーグラフとの一致を最大にする動作を実行し、
g)第1のマルチメディア文書の全てのそれぞれの個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の全ての個々のメディアのハイパーグラフとの最大または準最大の一致を生む編集動作のコストを決定し、前記コストの関数として第1と第2の複合マルチメディア間の距離を表す。
【0006】
それぞれ個々のメディアはメディアの単一のカテゴリに属すモノメディア文書であってもよく、あるいはそれ自体がメディアの異なるカテゴリに属するサブエレメントを含んでいるマルチメディア文書であってもよい。
【0007】
本発明の方法の特別な構成では、ステップc)とd)はそれ自体が以下のステップを含み、
c1)第2のマルチメディア文書の個々のメディアと比較される第1のマルチメディア文書のそれぞれ個々のメディアに対して、類似性を探す関数として、ハイパーグラフ間の類似性の距離を参照するハイパーグラフを編集する原理に基づいてメディア内のコスト関数を規定し、
c2)第1のマルチメディア文書のそれぞれ個々のメディアのハイパーグラフが、第2のマルチメディア文書のそれぞれ個々のメディアのハイパーグラフへ可能な限り近いハイパーグラフに変換されることを可能にする全ての可能な変換を探索し、
d1)ステップc1)で規定されたルールの適用で各変換のコストを決定し、
d2)第1のマルチメディア文書のそれぞれ個々のメディアに対して、最低のコストの変換を選択する。
【0008】
同様に、ステップf)とg)はそれ自体が以下のステップを含んでおり、
f1)第2のマルチメディア文書の個々のメディアと比較される第1のマルチメディア文書の全ての個々のメディアに対して、類似性を探す関数として、ハイパーグラフ間の類似性の距離を参照してハイパーグラフを編集する原理に基づいてメディア間コスト関数を規定し、
f2)第1の複合マルチメディア文書のハイパーグラフが、第2の複合マルチメディア文書のハイパーグラフへ可能な限り近いハイパーグラフに変換されることを可能にする全ての可能な変換を探索し、
g1)ステップf1)で規定されたルールの適用で各変換のコストを決定し、
g2)最低のコストの変換を選択する。
【0009】
本発明の方法の別の特別な構成では、ステップc)とd)はニューラルネットワークまたはシミュレートされたアニ―リングにより処理される遺伝アルゴリズム等の次善の最適化方法を実行し、それによって使用される最適化方法のコンテキストでコストが最も低い変換を生成する。
【0010】
同様に、ステップf)とg)はニューラルネットワークまたはシミュレートされたアニーリングにより処理される遺伝アルゴリズム等の次善の最適化方法を実行し、それによって使用される最適化方法のコンテキストでコストが最も低い変換を生成する。
【0011】
本発明の特別な特徴では、メタ識別子が割当てられメタセグメントにセグメント化される第1の複合マルチメディア文書を比較するとき、地点間比較がユークリッド、パラメータLによるリーマン、Mahalanoisタイプの距離から選択されるベクトル距離によりベクトル類のメタセグメントについて行われ、それによってペアで比較されるメタセグメント間のペアリングのスコアを構成し、ハイパーグラフのメタセグメントを比較し、2つの文書のツリーのそれぞれ対応するブランチ間のペアリングの確率によってメタセグメントの地点間比較結果を加重することにより文書間の距離の合成されたスコアを生成する。
【0012】
本発明の方法はデータベース中にマルチメディア文書を記憶するために有効に適用され、この記憶動作は、共通、同一または準同一であるブランチの自動的な階層的分類により保存されるマルチメディア文書のメタ識別子を表すハイパーグラフを組織することを含んでいる。
【0013】
特に、データベースにマルチメディア文書を記憶する方法のコンテキストでは、メタ識別子のセットおよび容易に認識されるように設計されたメタ識別子の部分を表す中間オブジェクトのセットとを既に含んでいるデータベース中に保存するためにマルチメディア文書に対応する新しいメタ識別子の付加は、以下のステップを含んでおり、
i)保存されるようにマルチメディア文書に含まれる種々の個々のメディアを符号化する個々のメタ識別子へ新しいメタ識別子を分解し、
ii)個々のメディア間の関係を生成するためにツリーを構成し、
iii)それぞれ個々のメディア内に関係を生成するためにツリーを生成するように個々の各メタ識別子に対してステップi)とii)を反復して適用し、ツリーは独立して記憶されるが、包含関係が個々のメディアと、考察中の前記個々のメディア内の関係を生成するためのツリーの前記個々のメディアのコンポーネントとの間に関係を生成するためにツリーで記述された個々のメディア間にリンクをマークするために付加される。
【0014】
特に、新しいメタ識別子を分解するステップは、新しいメタ識別子に関連するハイパーグラフ全体を走査し、同一のメディアを有する隣接ノードのグループを選択することにより実行される。
【0015】
便宜的に、個々のメディア間の関係を生成するツリーを構成するステップは特に以下の動作を含んでおり、
−ノードをそれぞれの個々のメタ識別子に関連付け、個々のメディアのノードをそれぞれのメタ識別子へリンクする関係をコピーし、一方同じ2つのノードをリンクする同一種類の関係を除去することにより、簡単化されたハイパーグラフを構成し、
−ノード数を増加することにより、ハイパーグラフを接続されたサブハイパーグラフへ細分し、
−同一数のノードを有する類似のサブハイパーグラフをクラスに組織化し、
−クラスのエレメントに対する単一の代表的な保持平均特性により各クラスを特徴付け、
−それらの代表の部分間の類似性関係によって階層的方法で先に規定されたクラスを組織化する。
【0016】
本発明はまたデータベース中に記録されたマルチメディア文書の検索に適用される方法を提供し、これは以下のステップを含んでいることを特徴とする。
【0017】
−論理的演算子により共にリンクされたマルチメディア文書をそれ自体が含んでいる複合リクエストを提示し、
−メタ識別子をデータベースのそれぞれのマルチメディア文書に割当て、メタ識別子はノードと、ノード間の関係の加重されたハイパーグラフの形態であり、関係するマルチメディア文書を構成する個々のメディアを明白な方法で識別するメタセグメントを含み、
−メタ識別子を複合リクエストに割当て、メタ識別子はノードと、ノード間の関係の加重されたハイパーグラフの形態であり、複合リクエストを構成する個々のメディアを明白に識別するメタセグメントを含み、
−データベースのそれぞれのマルチメディア文書の個々のメディアのメディア内関係の二次ツリーで反復を実行し、
−複合リクエストの個々のメディアのメディア内関係の二次ツリーで反復を実行し、
−データベースのそれぞれのマルチメディア文書の個々のメディアのメディア間関係を生成するために主要なツリーで反復を実行し、
−複合リクエストの個々のメディア間のメディア間に関係を生成する主要なツリーで反復を実行し、
−前記論理的演算子によりリンクされている複合リクエストの全てのハイパーグラフを結合して全体的なハイパーグラフを生成し、
−前記全体的なハイパーグラフを以下のステップの適用でデータベースのマルチメディア文書のハイパーグラフと比較し、即ち、
−複合リクエストのそれぞれの個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の個々のメディアのハイパーグラフとの一致を最大にする動作と、
−複合リクエストのそれぞれの個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の個々のメディアのハイパーグラフとの最大またはほぼ最大の一致に導く編集動作のコストを決定し、前記コストの関数として個々のメディア間の距離を表し、
−複合リクエストの全ての個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の全ての個々のメディアのハイパーグラフとの一致を最大にする動作と、
−複合リクエストの全ての個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の全ての個々のメディアのハイパーグラフとの最大またはほぼ最大の一致に導く編集動作のコストを決定し、前記コストの関数として複合リクエストとそれぞれのマルチメディア文書との間の距離を表し、
−先に計算されたコストの減少順序でデータベースのマルチメディア文書のリストを組織する。
【0018】
異なる実施形態では、データベース中に保存されるマルチメディア文書の検索に適用される方法は、データベースのマルチメディア文書を個々に処理するステップは複合リクエストを示す前に実行され、前記個々に処理するステップの結果は異なる複合リクエストのセットを処理するために記憶され、データベースは共通に有している同一またはほぼ同一のブランチの自動的な階層的分類により保存されるマルチメディア文書のメタ識別子を表すハイパーグラフの配置を含み、複合リクエストのハイパーグラフ全体をデータベースの全てのマルチメディア文書のハイパーグラフと比較する代わりに、階層的検索はデータベースの全てのマルチメディア文書のハイパーグラフのクラスのツリー構造で実行され、比較は複合リクエストのハイパーグラフ全体と前記クラスの代表との間で実行されることを特徴とする。
【0019】
本発明はまたそれぞれイメージ、音声、ビデオ信号、動画化されたベクトルグラフィックおよびテキストを含むカテゴリから選択された少なくとも2つの個々のメディアを含んでいる複合マルチメディア文書をインデックスする方法を提供し、これは以下のステップを含んでいることを特徴とし、
a)メタ識別子を複合マルチメディア文書に割当て、メタ識別子はノードと、前記ノード間の関係の加重されたハイパーグラフの形態であり、複合リクエストマルチメディア文書を構成する個々のマルチメディアを明白に識別するメタセグメントを含んでおり、
b)複合マルチメディア文書の個々のメディアのメディア内の関係の二次ツリー構造で反復を実行し、
c)複合マルチメディア文書の個々のメディア間のメディア間関係を生成するために主要なツリー構造で反復を実行する。
【発明を実施するための最良の形態】
【0020】
本発明のその他の特徴および利点は例示として与えられている特定の構成についての以下の説明から明白であり、説明を添付図面を参照して行う。
任意の種類のマルチメディア文書から開始すると、本発明の方法は、比較されるマルチメディア文書の内容全体を処理する必要なく、文書の全てまたは一部或いは幾つかの他のマルチメディア文書内の文書の変形の使用または再使用を認識するために比較によって使用されることができる認識可能なトレースを得ることを可能にする。認識可能なトレースの獲得および保存は以下の説明では用語“登録”により示される動作を構成する。
【0021】
本発明の文書の比較方法は局部化された記憶媒体またはネットワークで分配されている記憶媒体で同等に良好に実行され、特にこの方法は文書の追跡に適用される。
【0022】
内容によりマルチメディア文書を登録する方法は、マルチメディア文書間で比較動作を行うために予め必要なことであり、基本的に3つの連続的なステップを有している。
【0023】
第1のステップは具体的または抽象的なモノメディアまたはマルチメディアエレメントを抽出するため、文書を全て解析することからなるメタセグメント化ステップである。
【0024】
第2のステップでは、結果的なメタセグメントはメタセグメントの内容をあいまい性がない明白に識別する情報のカテゴリの識別を行う特別なデジタルプロセスにより特徴付けされる。
【0025】
第3のステップでは、メタ識別子が生成され、これは明白な方法でメタセグメントの内容を識別する情報から構成される。メタ識別子は内容による一致を可能にする。
【0026】
例えば、デジタル値のセットは文書のイメージ中に含まれる色のヒストグラムまたは文書の部分のZernikeモーメントのような情報の具体的なアイテムを表す。抽象的情報も例えばイメージと図の説明文をリンクする関係を特定するリンクされたテキストフィールド、またはマルチメディア文書内で一方は音響文書、他方はテキスト文書である2つの文書の共通の意味論的スペースをカバーするワードの形態で記憶されてもよい。
【0027】
文書を追跡する方法は、多数のマルチメディア文書内で効率的にメタ識別子を比較することを可能にするメタ識別子の特定の構造を構成する。比較は(演繹的に描かれたリストから来るそれぞれのメディアに適応される乗法パラメータ手段による)特別な加重と、(直接に値を変更するか、ユーザのプロフィールに基づいてこれらをニュートラルタイプの訓練機構により変化させることにより)各ユーザによりこれらのリストの改良を行うことによって実行され、特別な加重はメタセグメント間の類似性を評価するためにアルゴリズムに与えられる。
【0028】
メタセグメント化プロセスはマルチメディア文書を構成するデジタルデータで複数のデジタル処理アルゴリズムを実行することからなる。アルゴリズムは同時に使用され、これらはそれぞれの加重が種々の方法の成功または失敗率の関数として、および与えられた自信レベルの関数として与えられる冗長情報を生成する。
【0029】
最初に図1を参照すると、ここでは、データベースへ付加されるマルチメディア文書をインデックスする主ステップ(モジュール100)と、リクエストをデータベースに記憶されているマルチメディア文書のトレースと比較するプロセスを使用してデータベース中のマルチメディア文書を検索する方法の主ステップ(モジュール200)が見られる。
【0030】
インデックスされるべきマルチメディア文書101をインデックスする方法は、問題の文書をデータベース170へ付加する最初のステップ110を含んでおり、ステップ110は個々のメディアをそこから抽出する方法でインデックスされる文書101を解析することからなり、メディアはメディアの単一のカテゴリにそれぞれ属すモノメディアエレメントであるか。これらはそれ自体がメディアの異なるカテゴリに属するサブエレメントを有するマルチメディアエレメントである。
【0031】
メタセグメント化プロセスは反復的に行われ、メディア内解析をメディア間解析と結合する。
【0032】
メタセグメント化ステップ110後、結果的なメタセグメントは、明白な方法でメタセグメントの内容を識別する情報の具体的および抽象的なカテゴリを識別するのに特別なデジタル処理手段を使用して、並行して処理されるステップ120を特徴とする。
【0033】
次のステップ130中に、メタ識別子が生成され、これはメタセグメントを特徴付けする情報のアイテムから構成されている。ステップ140と150はメタ識別子を構成し、文書を登録するステップ160で実行されるプロセスによりデータベース170で一体化される構造を規定するプロセスを実行する。
【0034】
ステップ180は文書101を特徴付けする構造Sを付加した後、データベース170の内部表示を改良するプロセスを表し、これは先に登録されたマルチメディア文書の構造と比較をすることにより行われる。
【0035】
モジュール200に示されているマルチメディア文書の検索方法は、発見されるマルチメディア文書に対する検索リクエスト201を示すことを含んでいる。
【0036】
リクエスト201はステップ100のように解析のステップと、複合リクエスト201から個々のメディアを抽出するためのメタセグメント化のステップからなる初期入力ステップ210に与えられる。複合リクエスト201のメタセグメントはステップ220で特徴付けられ、ステップ220はインデックス方法のステップ120に類似し、代わりにステップ130に類似の方法で、メタセグメントに基づいてメタ識別子を生成するステップ230が後続する。ステップ140と150のように、後続するステップ240と252はメタ識別子を構成し、新しい文書が付加される度に再度組織されるデータベース270に記憶されているマルチメディア文書の構造Sと比較するため構造Sを規定するプロセスを実行する。
【0037】
ステップ260は各メタセグメントの類似性を評価することにより、複合リクエスト201からの構造Sとデータベース270に記憶されている構造Sとを比較することからなる。
【0038】
ステップ280はメタ識別子の比較を加重することからなり、ステップ290はそれらのスコアと共に適切なマルチメディア文書のリストを示すことからなる。
【0039】
本発明の方法で実行されるメタ識別子機構はマルチメディア文書内に含まれる各メディアの特性と、また種々のエレメントに関連する複雑な関係の構造を表す役目を行う。この機構はマルチメディア文書の複雑性にしたがって変化する複数のネスティングレベルを有する階層である。その符号化は、ノードと、ノード間の関係との加重されたハイパーグラフの形態である。ノードと、アークの加重は浮動小数点または整数の方法で符号化される数字のテンソルの形態である。各ノードは階層でブレークダウンの対応するレベルで基本的であるとして考慮されることができる特性を表している。最低のレベルでは、これは例えば文書を解析する規準のセットを含み、イメージに対しては、これらは局部的に計算されたZernikeモーメント、カラーヒストグラム、対話式機能システム(IFS)、または以下の例の任意の他の局部的な特性である。高いレベルでは、これはノードにより記号化された解析されたメディア部分のハイパーグラフである。ノード間のアークは特性をリンクする構造的な関係を表す。これらは種々の種類、即ち論理的(例えばテキストを表すノードは図を表す別のノードの説明文である)、幾何学的(例えばセグメント化されたオブジェクト(ノードA)は別のオブジェクト(ノードB)の右へ50画素)、または抽象的(例えばテキストノードは意味論的に別のテキストノードに近い語彙を含んでいる)である。
【0040】
メタ識別子は、ノードと、ノード間の関係の加重されたハイパーグラフの形態で、個々のメディアを明白に識別するメタセグメントを含んでおり、マルチメディア文書を記述できる情報のコンパクトなアイテムを構成し、2つの文書が弁別されることを可能にするか、2つのマルチメディア文書間の潜在的な類似性がこれらが識別の役目を行う文書に含まれる全ての情報の圧縮を構成せずに測定されることを可能にすることにより一致されることを可能にするのに適している。メタ識別子はしたがってこれらが生成する文書のデータ量よりも非常に小さいデータ量を表す。
【0041】
図1に示されているインデックスおよび検索方法を図2、3で示されている特定の例を参照して一般用語により以下説明する。
【0042】
図2は、解析によってイメージにより構成されている第1の個々のメディア11と、それぞれ各テキスト部分により構成される2つの他の個々のメディア12と13を有することが発見されたマルチメディア文書10をインデックスするプロセスを示している。メタセグメント化プロセスに続いて、個々のメディア11乃至13はマルチメディア文書10から抽出され、問題とするメディアの各タイプ(テキストまたはイメージ)に適合する特別なデジタルプロセス手段とを特徴とするメタセグメントを構成する。メディア間関係21乃至25は個々のメディア11乃至13間で発見され、各個々のメディア内で、メディア内関係が識別される。例示により、イメージ11のセグメント化から生じ、メディア内関係41乃至43になる3つのコンポーネント31、32、33が示されている。
【0043】
図2に示されているシーケンスでは、第1にメディア間関係21乃至35のハイパーグラフと、その後イメージ11内のメディア内関係41乃至43の組込みと、最後にテキストブロック12と13内のメディア内関係4、45の組込みが示されている。
【0044】
図3は図2で示されているのと同一例に適用される、複合リクエストからマルチメディア文書を検索するプロセスを示している。
【0045】
複合リクエストは第1にテキストブロック52に関連するイメージ51と、第2に別のテキストブロック53に関連する同一イメージ51が存在するマルチメディア文書の検索を含んでいる。ANDオペレータによりリンクされた複合リクエストの各部分はメタセグメント51、52、または51、53のシグネチャにそれぞれ変換され、これらのメタセグメントはハイパーグラフでメディア内関係41乃至45とメディア間関係21、22で組織化される。複合リクエストの各部分に対応するハイパーグラフが一体化した後、ステップ60で、複合リクエストから生じるハイパーグラフとデータベースに記憶されているマルチメディア文書のハイパーグラフとの間で比較が実行され、最良のスコアは文書10に関連するハイパーグラフとの比較により生成される。ステップ70で生じた結果は文書10とペアリングスコア71を示している。
【0046】
文書間の比較方法により新しい文書を付加した後、データベースにマルチメディア文書を登録するプロセスと、データベースの内部表示を改良するプロセスを、図4乃至6を参照してさらに以下詳細に説明する。
【0047】
本発明にしたがってメタ識別子から開始してデータベースに含まれるマルチメディアデータへ迅速にアクセスを行うために、メタ識別子を適切に記憶することにより、“アレンジメント”と呼ばれるプロセスを開始し、比較がメタ識別子間で迅速に形成されることを可能にすることができる中間オブジェクトを構成することが必要である。
【0048】
データベースはもともと、メタ識別子のセットと、認識を容易にするためにメタ識別子の部分を表す中間オブジェクトのセットとから構成される。新しいメタ識別子がデータベースに付加されるとき、以下の挿入方式が行われる。
a)メタ識別子はオブジェクトに含まれる種々の異なるメディアを符号化するメタ識別子(即ちモノメディア識別子)へ分解される。この分解はハイパーグラフ全体を移動し、同一のメディアを有する隣接ノードのグループを選択することにより行われる。
b)メディア間の関係を生成するためにツリーを作成する。この動作はノードを各モノメディア識別子に関連付け、これらのモノメディアノードをそれぞれの識別子にリンクする関係をコピーすることにより行われる。2つの同じノードを共にリンクする同一種類の関係は消去される(冗長を減少する)。これは簡単にされたハイパーグラフおよび、完全なマルチメディア文書に存在する関係に対する近似を生成する。ハイパーグラフはその後、ノード数を増加することにより関連するサブハイパーグラフへ分割される。これはハイパーグラフに含まれる2つのノードのサブハイパーグラフを全て発生する。その後、地点間比較を行うことにより類似のサブハイパーグラフで検索が行われ、サブハイパーグラフは同一数のエレメントを有するサブハイパーグラフの全ての組合わせで別のサブハイパーグラフと比較される。類似のサブハイパーグラフはカテゴリにより分類され、これらはエントロピータイプの符号化に関連され、各クラスはクラス内の類似のサブハイパーグラフスに反比例する長さの表示に関連される。前もって固定された値よりも短い長さの表示を有するサブハイパーグラフのクラスだけが維持される。プロセスはこのようにして選択されたセットに属す2ノードサブハイパーグラフを有する全ての3ノードサブハイパーグラフに対して反復され、結合ランナウェイを防止するために前もって固定された限度まで、またはメタ識別子のハイパーグラフにもはや解析されるノードが存在しなくなるまで行われ、4ノードでも同様である。各メタ識別子に対しては、サブハイパーグラフのクラスはその後、メタ識別子の例示情報を含んでいる加重されたアークによって接続される。ベースの全てのクラス間のアークのセットはツリーを構成し、これはメディア間に関係を生成するツリーである。解析プロセスが固定した限度前に停止したならば(即ち処理されるノードがもはや存在しないためにプロセスが停止したならば)、以下の特性が得られ、即ちそのルートからリーフまでのツリー内のパスはメタ識別子を表す。そうでなければ、ツリーの残りの部分が再構成されることを可能にする情報を含んでいる加重を有するアーク手段によって最終値のサブハイパーグラフの全てを共に接続するためノードを付加することが必要である。
c)同一のプロセスは各メディアに対するツリーを生成するために各モノメディア識別子内で行われ、これはメディア内に関係を生成するツリーである。これらの種々のツリーは独立して記憶されるが、包含関係はメディア間の関係を生成するためにツリーで説明されているメディアと、メディア内に関係を生むため対応するツリーのメディアのコンポーネントとの間にリンクを示すために付加される。この関係はこの関係を表すメタ識別子のもとのアークをコピーすることにより得られる。
【0049】
このように考察される各ツリーはそのノードとして関係のハイパーグラフを所有することが観察される。
【0050】
データベースはその後、文書内のメディア間の関係を符号化する主ツリーと、各メディアを符号化する二次ツリーにより構成される。各メタ識別子(したがってその文書)は主ツリーを通過する1つのパスと、使用されるメディアの関数として必要とされる二次ツリーの1以上のパスとにより特有に表される。
【0051】
この構造はまたメタ識別子間(即ち文書間)の類似性を評価するときにも使用される。
【0052】
図4はマルチメディア文書を表すグラフを示し、例示によりこれは第1の関係301によりリンクされるエレメントAとB、同じ関係301によりリンクされるエレメントCとDを有し、一方エレメントAとCおよびBとDは関係301と異なる共通の関係302によりそれぞれのペアでリンクされている。エレメントDはそれ自体、第3の関係303により別のエレメントEにリンクされている。
【0053】
図5は図4のグラフが二進エレメントに分解されることができる態様を示している。関係301によりリンクされたエレメントはクラスB1に属している。関係302によりリンクされるエレメントはクラスB2に属している。関係303によりリンクされるエレメントはクラスB3に属している。
【0054】
図6は関係301と関係302の両者によりリンクされているエレメントのクラスC4と、関係301のみによりリンクされているエレメントのクラスB1と、関係302によりリンクされているエレメントのクラスB2との間のリンクの関係を生成するグラフを示している。
【0055】
メタ識別子を比較するプロセスを一般的用語により以下説明する。
【0056】
2つのメタ識別子間の類似性は各そのコンポーネント(加重を伴うノードおよびアーク)を比較し、関係がそれらをリンクし、最終的に合成された距離をそれら全てに関連することにより得られる。
【0057】
類似性の計算はメタ識別子のハイパーグラフのエレメントにおいて反復方法により行われる。ハイパーグラフ編集原理(ストリング編集またはグラフ編集)に基づくコスト機能は2つのメタ識別子の加重されたハイパーグラフ間の距離を決定するために適用される。編集動作は2つのハイパーグラフ間の最大の程度の一致を得るために計算される。この動作のコストは2つのメタ識別子間に類似性距離を構成する。
【0058】
さらに詳細な方法では、マルチメディア文書は以下のようにメタ識別子により比較される。
プロセスは2つのネストされた動作ループを含み、第1のループは複合文書内の各個々のメディア内で反復し、第2のループは複合文書の全ての個々のメディアで反復する。
【0059】
2つの複合文書AとB間の距離を決定するため、複合文書の部分間の最も強い可能な一致と、複合文書Aを複合文書Bに変換するため最低の可能なコストの変換を発見するために検索が行われる。
【0060】
文書Aから文書Bへ移ることを許可された変換は以下の編集動作であり、
リンク、ブランチまたは終端リーフを付加し、
リンク、ブランチまたは終端リーフを消去し、
ブランチまたは終端リーフの内容を変化する。
【0061】
これらの編集動作に関連するコストの概念は予め固定されているルール(ステップb)およびl)にしたがっており、例えば終端リーフの内容の変更はもとの内容と、係数(例1)により加重された最終内容との距離として測定されることができる。内容間の距離はメディアの特徴づけに適用される距離であり、例えばイメージのビジュアル類似性距離(Zernike+Mahalanobis)である。
【0062】
最終的に、複数の変換動作は文書Aから文書Bへ移ることを可能にし、例えばAとBがAのメディアuとBのメディアvを含んでいるブランチにより異なるならば、以下のことを適用することが可能である。
i)変換:“uをvへ変更”;
ii)または変換:“uを消去し”、その後変換“vを付加”を行う。
【0063】
演繹的に、これらの2つの動作のコストは必ずしも同一ではない。低いコストを有する変換が維持される。これを行うため、全ての非退化オプションの全体(長いが正確ではない)を使用することが可能であるか、または反対に、おおよその解と、したがっておおよその変換コスト、即ちおおよそであるが十分である(高速度であるが正確さがない)距離の値を与える通常の次善の最適化方法を使用することが可能である。
【0064】
詳細な比較プロセスを以下のとおりである。
a)個々のメディア(二次ツリー)にわたる反復、
b)類似性を探す関数としてメディア内コスト関数の規定、
c)各個々のメディアの一致を最大にする機構であり、2つのオプションを有している。即ち、
d)第1のオプション:最適な方法では、
e)メディアMのハイパーグラフがメディアLのハイパーグラフへ変換されることを可能にする全ての可能な変換を走査し、
f)b)で規定された規則の適用において各変換のコストを決定し、
g)最低のコストの変換を決定し、
h)第2のオプション:次善方法では、
i)特定の方法を適用するとき可能な最低のコストを有する変換を行うために、次善最適化アルゴリズム(一般アルゴリズム、ニューラルネットワーク、シミュレートされたアニール等)を使用し、
j)個々のメディア間の距離は発見される最適または次善の編集動作のコストであり、維持される変換動作はこの編集動作に対応する動作であり、
k)メディア(主ツリー)間の関係を生成するためにツリーについて反復を実行し、
l)類似性を探す関数としてメディア間コスト関数を規定し、
m)2つの個々のメディア間での一致を最大にする機構は、2つのオプションとして、
n)第1のオプション:最適な方法では、
o)複合文書Aのハイパーグラフが複合文書Bのハイパーグラフへ変換されることを可能にする全ての可能な変換を走査し、
p)l)で規定された規則の適用において各変換のコストを決定し、
q)最低のコストの変換を選択し、
r)第2のオプション:次善方法では、
s)方法が使用されるならば、可能な最低のコストを有する変換を行うために、次善最適化アルゴリズム(一般アルゴリズム、ニューラルネットワーク、シミュレートされたアニール等)を使用し、
t)複合文書間の距離は発見される最適または次善の編集動作のコストである。
【0065】
図7は2つの複合文書間の距離を決定する1つの可能な例を示している。
【0066】
文書1のグラフはエレメントCにリンクされるエレメントAとBを有している。
【0067】
文書2のグラフはエレメントCにリンクされたエレメントA’とBとCを含んでいる。
【0068】
文書1を文書2へ変換するため、エレメントCとBは文書1と2の両者で同一であるが、エレメントAは文書1から文書2へ移るときにエレメントA’に変化されることが分かる。さらに、文書2はエレメントCに接続される余分のエレメントDを有する。
【0069】
これらの変換のコスト、即ち、2つの複合文書1と2間の距離は以下のように表されることができる。
AをA’に変更するコスト:|A−A’|*2.0
Dを付加するコスト:val(D)*5.0
BからBへ移るコスト:0
CからCへ移るコスト:0
総変換コスト=2.0*|A−A’|+val(D)*5.0
それらを識別するメタセグメントまたはメタ識別子の比較によるマルチメディア文書の比較は、以下の3つの段階を基本的に含んでいる。
a)前述の方法の適用で比較される各文書のメタセグメント(シグネチャ)へのセグメント化を行い、
b)ベクトル距離を使用してベクトル類のメタセグメントのベクトル地点間比較、即ち、
i)ベクトル距離:以下のタイプの一方の距離が使用され、
【数1】
【0070】
j)規準マルチメディア文書ベースに関して評価された平均分布に関してこの距離を正規化し、幾つかのオプションが可能であり、
a)正規化なし、
b)平均値正規化:先行するステップで計算された各距離値はイメージペア対イメージペアを取る規準ベースの全てのイメージ間で計算されたベクトル距離手段により割算され、
k)結果は2つの比較されたメタセグメント間の“ペアリングスコア”と呼ばれ、
c)ハイパーグラフのメタセグメントを比較し、2つの文書のツリーの対応する各ブランチ間のペアリングの確率によりメタセグメントの地点間比較結果を加重することによって文書間の距離の合成されたスコアを生成する。これは以下のように行われる。
i)適用されるハイパーグラフ距離パラメータを選択し、
1)グラフ編集動作のコスト規則を規定ことによりハイパーグラフ距離を特徴付け:ノードを消去し、リンクを付加し、リンクを消去し、
2)これらの各動作のコストを割当て、幾つかのバライアントが可能であり、
a)均一:全ての編集動作において等しい価格、
b)ハイパー均一:このハイパーグラフレベルと同じハイパーグラフレベルで全ての編集動作に対して等しい価格、
c)変数:文書の特性に関する実験の関数としてマニュアルでパラメータ化されたコストがモデル化され、
ii)第1の文書のツリーを第2の文書のツリーへ変換するために適用されるコストの合計を計算する。複数の変換が適用されることができるならば、最低値の合計が選択される。この計算を簡単にするために、次善プロセスに基づいてコスト計算規則を適用することを選択し、その結果で満足することが可能であり、
iii)コストの最小または次に最小の合計は2つの文書のペアリングスコアを構成する。
【0071】
図11乃至14を参照すると、メタセグメントまたはメタ識別子をデータベース中の文書を検索するプロセスにおけるリクエストとの比較について以下説明する。
【0072】
( )で参照されるリクエスト言語で表されるリクエストは個々のリクエストのインデックスに対応する値のベクトルメタセグメントシグネチャに変換される。これらのメタセグメントは個々のリクエスト間の関係のハイパーグラフの形態でリクエストを記述し、リクエストの関係の演算子を以下のように変換することによりハイパーグラフへ組織化される。
演算子a AND b:はそこに付けられたベクトルメタセグメントノードaとbを有するペアレントハイパーグラフノードを生成し、
演算子a OR b:はノード(a OR b)に代わって、一方にa、他方にbの2つの異なるハイパーグラフを生成し、
演算子NOT a:はノードaを(局部的に)aが存在するサイン(sign)を表すフラグの付加で置換する。
【0073】
シグネチャはサインを符号化するフラグを比較する点を除いて、先行するステップと同じ方法で比較され、各ブランチの比較により生成されるスコアは次の関係(1−スコア/ノーム(スコア))を使用してノードのサインにより加重される。他の公式((スコア/ノーム(スコア)>しきい値)?(−1);(0)等)の形態の二進化式はそれにもかかわらず使用されることができる。
【0074】
このプロセスは典型的なケースによる図11乃至14で示されており、即ち3つの個々のメディアa、b、cが存在し、aとbは両者ともテキストであり、cはイメージである。テキストaまたはテキストbを含む説明文を有するcに似たイメージを示す全ての文書について検索が行われている。検索はしたがって行われ、次のように“(aまたはb)およびc”に公式化されるが、aまたはbをcに接続するリンク特性がタイプ“説明文である”リンクという条件をさらに有している。これは例示により図11のハイパーテキストの項で説明されている。
【0075】
図12はリクエストハイパーグラフの形態への変換を示している。
【0076】
これらのハイパーグラフはその後、文書データベースに存在するハイパーグラフと比較され、1例が図13および14に示されている。検索グラフの個々のサブハイパーグラフはデータベースの分類された個々のサブハイパーグラフと反復して比較され、個々のエレメント、即ちイメージとテキストで開始する。例示によると、それぞれ2つのオプションの一方のみを含んでいる2つの文書の計算を、第1にAとC、第2にCとBで行う。比較はそれが正しくリクエストされたものであるので、スコア1.00を有するリンクを生成する。
【0077】
イメージメディアのローカルメタ識別子を生成するコンテキストで、イメージメディアに適用されるメディア内解析の例を以下説明する。
【0078】
イメージメディアはそれが特徴付けされることを可能にするエレメントの幾つかのカテゴリを示している。このような文書を識別するときこれらの種々のカテゴリから抽出されたエレメント間に接続を設けることができることが有効である。
【0079】
イメージメディア(写真、図表、図面、図形等)内では、種々の特性がイメージメディアのローカルメタ識別子を構成するため階層的方法で使用される。メタ識別子はそれ自体、イメージメディアが含まれているマルチメディア文書のメタ識別子に含まれることができる。用語“イメージ”は一般的な方法でイメージメディアを示すために以下使用されている。
【0080】
イメージのメタ識別子を構成するプロセスは4つの部分を有する。これは問題のイメージの各部分に対して反復して適用される。
【0081】
1.解析の第1のレベルは独立して解析されることができるコンポーネントへメディアをセグメント化することからなる。複数のセグメント化は同時に使用される。
−テクスチャ(通常の方法)によるセグメント化、
−オブジェクトによるセグメント化、
−スケールによるセグメント化(ウエブレット方法)。
【0082】
2.第2の部分は各部分を別々に特徴付けることのできるローカル識別子を生成することからなる。
【0083】
3.第3の部分は部分をリンクする構造的な関係を抽出することからなる。
【0084】
4.最後に、第4の部分は各部分でこのようにして反復されて規定されているように解析プロセスを再度適用することからなる。各部分で構成されるメタ識別子は含まれる部分のメタ識別子のノードと、それに対応する先行するレベルのハイパーグラフの単一または複数のノードとの間の“オブジェクト包含”関係を符号化するアークを付加することによって含まれる。プロセスは前もって固定された最大レベルに到達するとき、またはセグメント化方法が新しい部分を生成しないときに停止する。
【0085】
イメージの部分は突出点により特徴付けされることができる。
【0086】
この技術の目的は、通常のデータベース管理技術が適用可能ではないメディアの効率的な保存を可能にするツールを提供することである。例えば、現在のデータベース中のイメージのインデックス化は各イメージが規定された表現のテキストコーパスを使用して自然言語で記述されることを必要とする。絵画の写真は“絵画に含まれるもの:頭骨、ルネッサンスの衣装をまとった2人の人物、背景はテーブル、コンパス、図があり、テープ録音の話を伴う”ようなキーワードを使用してインデックスされることができる。一般的には、同一の例を継続するため、絵画は、キャンバスの寸法、メディアのタイプ(キャンバス、木等)、ペイントの種類(油彩等)のようなその物理的特性を使用して説明される。データベースにこのような情報を有することが非常に有効であるが、例えば盗難された絵画を迅速に識別しようとするときには十分ではない。対照的に、テクスチャおよび概要に関する局部的および全体的な特性を使用して別のイメージから開始してイメージを識別できることがさらに有効である。イメージはイメージの内容を正確に使用するため局部的な特性(ZernikeモーメントまたはIFS)を使用して比較されることができる。イメージを発見するためのキーとしてデータベース中に記憶されている局部的特徴を生成するために(ステファン−ハリス検出器から抽出された)関係する点、突出点に基づいて適合可能なグリッドを使用することが可能である。
【0087】
図9および10は局部的情報が抽出されることを可能にする適合可能なグリッドの概念と利点を示している。図9はそれらのシグネチャが異なるように区画の各部分の内容が4つの異なる図で異なっていることを示している。対照的に、図10では、同一の4つの異なる図で、区画化と、各区画の内容が同一であり、したがってシグネチャは全て非常に類似している。
【0088】
このような技術は複合文書の構造的な組織が維持されるならば、イメージおよびテキストの両者を含む文書で使用されることができる。音響は同一の原理で解析されインデックスされることができる。ビデオ信号または他のマルチメディアオブジェクトもこれらが基本的なメディアからなる複合構造を示すならば(モザイク技術および表示のために)同一方法で処理されることができる。
【0089】
4つの部分を有するイメージのメタ識別子を構成する方法を以下詳細に説明する。
【0090】
1.解析の第1のレベルは独立して解析されることができるコンポーネントへメディアをセグメント化することからなり、これは“特徴的なコンポーネント”と呼ばれることができる。幾つかのタイプのセグメント化が使用され、この場合では、オーダーされたリストの原理が適用される。これらの方法はプロセス内で以下のように使用されるべきであり、即ち、解析されるマルチメディア文書の特性、および速度、利用可能なメモリ等に関する制約のような処理の外部特性の関数として使用され、優先順位のベースで使用される方法のオーダーされたリストは以下説明する方法のような方法のリストに基づいて描かれる。リストの最良の分類による方法は先に示された制約にしたがってしきい値に到達するまで適用される。
−テクスチャによるセグメント化:フィルタ、勾配、しきい値を使用して、セグメント化は領域へ実行される。
−同時発生のマトリックスおよびテクスチャインデックス、
−多桁のモーメント、
−局部的なヒストグラムを使用する相関方法、
−等、
−オブジェクトに関するセグメント化:
−ブロックによるセグメント化、
−細菌を形成または低レベルの領域を成長或いは高レベルの領域を成長する監視ではないマルコフ方法、
−半監視されたマルコフ方法、
−等
−スケールによるセグメント化:
−ウエブレット変換方法、
−ウエブレットパケット方法、
−近隣に基づいた形態的ピラミッド方法、
−外形によるセグメント化:
−Sobel 濾波、
−Prewitt濾波、
−Kirch方向濾波、
−Hueartas−Medioni演算子、
−Marr 演算子、
−Canny最適化濾波、
−Deriche濾波、
−Shen濾波、
−形態的勾配、
−“分水”方法、
−Haralick演算子、
−Hueckel演算子、
他の方法:このプロセスの後続する段階に与えられる信号を局部的に特徴付けする特徴が一度決定されると、データをグループ化する統計的な方法(k平均グループ化、主成分への縮小、特異値解析、N−シグマ解析)がセグメント化を実行または補正するために適用されることができる。
2.第2の部分は各部分を別々に特徴付けできる局部的な識別子を生成することからなる。これを行うため、1以上の方法が予め設定されたリストから使用され、依然としてオーダーされたリストの原理を使用する。これらの方法はプロセス内で以下の方法で使用されなければならない。即ち、解析されるマルチメディア文書の特性、および速度、利用可能なメモリ等に関する制約のような処理の外部特性の関数として使用され、優先順位ベースで使用される方法のオーダーされたリストは以下説明する方法のような方法のリストに基づいて描かれる。リスト中で最良に行われる方法は先に示された制約にしたがってしきい値まで適用される。
−全体的なnポイントヒストグラム:イメージのヒストグラムのn値(随意的等距離値)におけるサンプリングを表すベクトル、
−局部的なnポイントヒストグラム:これは任意の形状:ディスク、多角形、ベジエ曲線等、随意選択的に内容またはその他の特性コンポーネントにしたがって)ポイントの近傍に与えられ、
−内容またはその方向付けを示す局部的な統計的機能:(先の)近傍で計算されるZernike係数、Hough係数、モーメント等、
−マルチスケール機能:ウエブレット、イメージ全体または近傍で計算されるハール関数、
−イメージから抽出される特徴的な形状または形状の不変さを特徴付ける関数:例えば不変数がフーリエ−Meulinにより測定される曲線をスケルトン化し二進化することによる抽出。
【0091】
先行する段階中に生成される部分は同等に、
点、
線または外形線、
領域である。
【0092】
特徴はしたがってこれらの3つのカテゴリに関連され、
点の特徴化は、次のものによって行われる。
【0093】
−その座標、
−これらの点の近傍の局部的な特徴(種々の種類の近傍;三角形、方形と、種々のサイズの近傍;イメージの解像度、計算の複雑性、フィルタまたは多項式の範囲にしたがう)、
−多角形のモーメント(Zernike、Tchebichev等)、
−カラーモデル(HSVモデル、RGBモデル等)に基づくヒストグラムによるものである。
【0094】
線または外形線の特徴化は、次のものにより行われる。
−それらの点とそれらの座標、
−それらの形状:即ち共通の解析曲線(例えばb−スプライン、多項式)を使用する補間計算と曲線に特定のファクタが表される。
−これらの点の近傍で計算される局部的な特性:即ちその方法は前述のリストの方法と同一であり、対照的に、近傍はさらに複雑であり、先の近傍の構成として現われる。
【0095】
領域の特徴化は、次のものにより行われる。
−それらの点とその座標、
−それらの形状:即ち共通の解析曲線(例えば2D−b−スプライン、2D多項式)を使用する補間計算と表面の特定のファクタにより表される。
−これらの点の近傍で計算される局部的な特性:即ち方法は前述のリストの方法と同一であり、対照的に、近傍はさらに複雑であり、先の近傍の構成として現われるか、メディアのイメージの領域によりカバーされる表面としてさらに簡単に現われる。
【0096】
3.第3の部分は、エキストラメディア解析に関して以下説明するのと類似のプロセスを使用してその部分をリンクする構造的関係の抽出からなる。
【0097】
4.第4の部分は、各部分で反復して先に規定したように解析プロセスを再度適用することからなる。各部分で構成されたメタ識別子は含まれる部分のメタ識別子のノードと、前記部分に対応する先行するレベルのグラフのノードとの間に“オブジェクト包含”関係を符号化する部分を付加することにより含まれる。プロセスは前もって固定された最大レベルに到達するとき、またはセグメント化方法がもはや任意の新しい部分を生成しないときに停止する。
【0098】
以下、先行するシステムで使用される突出点によりメディアイメージの部分の特徴付けの1例を説明する。
【0099】
局部的または全体的な特徴付けの種々の方法は、メタ識別子の加重を生成するために使用されることができる。メディアイメージのインデックス化のコンテキストで抽出される特性は全般的な特性と局部的特性に分離されることができる。全般的特性はメディアイメージの組織の全体的な外観に対応する。例えば写真データベースの比色説明では、日没は多かれ少なかれオレンジ色の円形のアークが見られるメディアイメージの上部部分の赤色のメディアイメージにおける分布により表されることができる。したがって、このような記述は近似的であり、日没の全てのメディアイメージが発見されることを可能にせず(省略によるエラー)、日没ではないメディアイメージを選択する(雑音タイプのエラー)。局部的方法は不変特性が各メディアイメージから抽出されることを必要とし、それによってそれらを比較することができる。図9および10の例では、2つの方法が示されている。これらの一方は視点の変化に対しては頑強ではなく、絶対的なグリッド(図9)の使用に基づいており、一方図10で示されている他の方法は問題の点の検出と、それに続いて、局部的な特性が計算されるグリッドのメッシュを抽出するための三角測量により動作され、これらの特性は視点の変化(Zernikeモーメントまたは反復される機能システム、カラーヒストグラム)により通常の変換では頑丈である。
【0100】
以下の説明はマルチメディア文書内のメディア間解析(またはエキストラメディア解析)のプロセスに関する。
【0101】
マルチメディア文書の説明は全てのそのコンポーネントが特徴付けされることを必要とする。
【0102】
マルチメディアオブジェクトは独立して並列に解析されることのできるモノメディアエレメントから形成される。メタ識別子を生成するプロセスは、これらの種々のメディアをリンクする構造上の関係のトレースを維持しながら、このようにしてマルチメディア文書をさらに基本的なメディアへ分解し、その後各メディアで独立して同一の方法を再度適用し、これらをリンクする構造上の関係のトレースを保持することからなる。
【0103】
プロセスの第1の段階は元のマルチメディア文書をさらに基本的であるコンポーネントへセグメント化することからなる。これを行うため、3つのツールが連続して適用される。
【0104】
1.メディアによるセグメント化のためのツール:文書のフォーマットに含まれる情報は複数のメディア、即ちオーディオ、ビデオ、性質(プログラム、HTMLまたはXML記述等)へ分離される。
【0105】
2.時間によるセグメント化のためのツール:メディアが時間の拡張を示すならば、これは時間に関して均一なセクションに細分化される。これを行うため1以上の空間的な均一性関数がメディアに対して計算される。以下のものが計算されることができる。
−信号値のヒストグラム(例えばイメージ信号の輝度)、
−イメージ信号のX軸に沿った輝度の平均化された投影、
−イメージ信号のY軸に沿った輝度の平均化された投影、
−中間フィルタまたは平均フィルタの適用により異なるスケールにおける前記信号に対する種々の近似、
−ウエブレットフィルタによる前記信号に対する種々の概算、
−等。
【0106】
その後、時間にわたるこれらの均一性関数間で相関が決定される。変化しきい値を超える1以上のこれらの相関は、時間セグメントの変化に対応して信号の不連続性が存在することを示す。これらの種々のセグメントは時間の連続性を表すアークによってリンクされる対応する数のノードとしてメタ識別子の構造中に記録される。
【0107】
3.空間におけるセグメント化のためのツール:空間セグメント化フィルタはイメージシーンを作る種々のオブジェクトを決定するために使用される。これを行うために、種々の方法、即ち、
テクスチャセグメント化:即ちフィルタ、
カラーセグメント化:即ち色の分布を計算、
外形セグメント化:即ちアクチブ外形を並列して、共にまたは別々に使用される。
【0108】
これらの方法は各シーケンス内および一連のシーケンス内の種々のオブジェクトの抽出を可能にする。その後、同一のシーケンスまたは複数のシーケンスの複数のイメージの複数の連続的なオブジェクトが同一の概念的なオブジェクトを本当に構成するか否かを認識するために類似性(簡単な相関、先に示された均一性規準または類似性計算に基づいた相関)が決定される。このような状態下で、メタ識別子のノードの形態でシーケンス毎に単一の表示が生成され、このノードは包含関係を符号化するアークによりシーンを表すノードに接続される。2つの連続的なシーンの同一のオブジェクトの表示もまたアイデンティティ関係を符号化するアークにより接続される(図8参照)。
【0109】
4.アブストラクトのセグメント化:特別なオブジェクトが以下の特別な手段により識別される。
−抽出されることができるイメージデータ、テキストへOCRを適用することにより、
−音響トラック中の任意のスピーカによる発話内容を転記するテキストにスピーチ処理ツールを適用することにより、
−特別な検出器(フェイス検出器、動作検出器等)の適用により。
【0110】
各これらの特別なツールからの結果は、対応するノードの加重中に記憶されているその特性およびその内容と共に、メタ識別子中に記録される特別なオブジェクトを生成する。シーンに含まれるこのオブジェクトの関係またはシーンのその他のオブジェクトとの関係はノードを、他のオブジェクトに対応するノードに接続するアークによって記録される。
【0111】
セグメント化に後続する段階はオブジェクトの識別であり、メタ識別子で識別される各オブジェクトに対して、各オブジェクトに特定の識別情報を決定するために適切な方法が使用される。これを行うため、前述したイメージ方法が使用されるか、または音響方法が以下説明するように使用される。他の情報はテキスト方法で記憶され、例えば“時計回りの方向に90゜回転”のように、関係する情報の機能としてキーワードにより符号化される。
【0112】
これらのステップ期間中に実行される中間計算の結果はこれらがその後のアルゴリズムにより再使用されることを可能にするために計算を通して保存されることが観察されるべきである。
【0113】
以下は、オーディオビジュアル文書を特徴化するときに使用される方法の例である。
【0114】
データベースのオーディオビジュアルメディアのインデックス化は種々の異なる種類の情報への参照を必要とする。最初に、コンテキストから独立しているオーディオビジュアル文書での特別な外観の直ちに抽出可能な“原子”情報を弁別することが可能である。
【0115】
1.メディアイメージのテキスト:これはオーディオビジュアルシーケンスを構成するメディアイメージで作用するOCRソフトウェアにより認識される。メディアイメージ(シーケンスでオブジェクトに書かれたテキスト、トレードマーク、光サイン)に関する付加的な情報は恐らく関連されることができるが、意図的にイメージに重ねられているテキストから確実に弁別されることができなければならない。
【0116】
2.発話されたテキスト:これは音声追跡により認識される。音声解析ソフトウェアはテキストおよび注釈の形態で発話を文書の音声追跡で抽出することを可能にする。話者が話し中の状態で話者間の弁別および、恐らく話者の識別のような付加的な情報がそれに付加される。さらに複雑なツールがテキストの意味論をさらに微細にメディアイメージの意味論に関連付けるためこのような生の抽出に付加されることができる。例えば、用語頻度インバース文書頻度(TF−IDF)方法は基準コーパスに基づいてビデオ文書のワードの相対的な重要性を測定する。特に1ショットで頻繁であるがコーパスで稀なワードは恐らくシーケンスに対するキー情報に対応する。
【0117】
3.雑音および音楽:スピーチに加えて、音響追跡は音楽および音響効果を含んでおり、これらはある程度まで、例えばインデックスされるシーケンスを説明するために重大な情報を構成するアクション(ドアを閉める、電話が鳴る等)の特性である雑音を識別するために使用される。これは音楽の識別を考察することも可能である。
【0118】
4.ショットへの分割:あるリザーブにより、シーンの変化が識別され、ビデオシーケンスの構造全体についての情報を与える。一度識別されると、ショットは他の特性が“サマリーメディアイメージ”のように解析されることを可能にする。オーディオビジュアル文書のショットへのセグメント化はオーディオビジュアルインデックス化に使用されることができる方法の中で中心的な位置を占めている。いまだに、100%の確実性で転移効果の異なるタイプを検出する方法は存在しない。それにもかかわらず、さらに多くの方法が“カット”のようなあるタイプの転移の効率的な処理を行うために提案されている。
【0119】
5.“サマリーメディアイメージ”:サマリーはビデオシーケンス中の1ショットの主要な静的特性を表すメディアイメージである。これは例えばそのショットの最初または最後のメディアイメージを選択する等の非常に簡単な技術であるか、あるいはそのショットに含まれるシーンのモザイクメディアイメージを構成する等のより精巧な技術である。通常の静止メディアイメージのインデックス化技術はその後、解析されているシーケンスのビジュアル情報特性をインデックスするために適用されることができる。
【0120】
6.カメラの移動/オブジェクトの移動:撮影状態に応じて、イメージのストリームからカメラの変位または撮影されるオブジェクトの変位、ズーム、パン、集団移動、または単一のオブジェクトの移動を解析することが可能である。この情報はあるシーンの修飾、したがってインデックスされるショットの意味論に対するダイナミックな内容を与えることに使用されることができる。
【0121】
7.変位:良好な状態では、ビデオシーケンスの編集中に選択される転移のカテゴリを解析することが可能である。このような転移に対応する情報は例えばTVニューズの放送でトピックを変更するときに異なるコマーシャルを識別することによってショット間の構造的な関係を識別することができる。この解析はまたオーディオアスペクトにも同様にしたがう必要がある。
【0122】
8.ビデオオブジェクト:オブジェクトの存在はビデオシーケンス中に決定され、追跡される。これは、
−しばしば静的であり、単一のメディアイメージに適用される特別な方法、即ち
−フェイス認識、
−幾何学形状の認識、
−テクスチャ整合を使用するか、
−またはそうなければしばしばダイナミックで、シーケンスに適用されるさらに一般的な方法、即ち、
−その環境とは異なる運動するオブジェクト(テニスのボール、フットボールプレイヤ)の追跡、
−背景の識別と、それを斜視図へセグメント化を使用することからなる。
【0123】
この情報はその後、“サマリーメディアイメージ”のように直接的にインデックスされることができる一連のメディアイメージピースまたは複合メディアイメージ(おそらくそれ自身モザイクメディアイメージ)の形態でさらに具体的にされることができる。個々のオブジェクトへ分離する利点は、シーケンスの意味論的解釈またはオブジェクトのテーマに基づいた検索で重要である。
【0124】
以下、音響、人間の音声、音楽、叫びまたは雑音に関するか否かにかかわりなく、音響メディア、即ち任意の音響機構の1次元デジタル表示にしたがったメディアに適用されるメタ識別子に基づいた特徴付け機構を説明し、突出点は信号を局部的に特徴付けできるシグネチャを計算するために異なる解像度で計算される音響信号の1以上のエンベロープで決定される。このプロセスは以下の4段階で行われる。
【0125】
−第1段階は、ウエブレット符号化フィルタを連続して信号に適用することにより異なる解像度で信号エンベロープを計算することからなる。Mallat、Daubechies、Coifman、Coiflets、ウエブレットパケット等の種々のウエブレットが使用されることができる。フィルタは詳細な信号と近似的信号を発生するためにオリジナル信号に適用される。フィルタはこのようにして発生される信号に再度適用され、この動作はオリジナル信号のサンプリングの関数として数回再生される。このようにして生成されるとき中間および最終的な信号のセットはその後エンベロープを生成するために簡単にされる。この簡単化はフィルタ(中間フィルタ、平均フィルタ等)の適用により実行される。
【0126】
−第2の段階は突出点の決定からなる。これを行うために、信号の相対的な変化は第1および第2の次数で計算され、それによってこれらの変化が第1の段階により発生された簡単化された信号中で(共にまたは排他的に)最大である点を減少させる。
【0127】
−第3の段階は信号のベクトル化からなる。即ち、時間−エネルギ空間または周波数−エネルギ空間中のそれらの位置により先行段階で発見される突出点を表すことからなる。
【0128】
−第4の段階は、信号の変形を特徴付ける情報を計算することからなる。すなわち、この情報は突出点周辺と、最大の解像度の信号内の2つの連続的な突出点間で計算される。この第1の情報はその後対応するメタ識別子のノードの加重中に記憶される。この第2の情報は2つの対応するノードを接続するアークの加重中に記憶される。この特徴化情報は第1の2つの次数への信号の局部的な導関数の平均を含んでいる(幾何学的―数学的の種類の任意の他の情報も使用可能である)。プロセスは次に低いレベルの解像度で再生され、メタ識別子の階層的レベル中に包含関係を記憶し、プロセスはウエブレットにより計算される各解像度にわたって反復される。
【0129】
例により、再公式化とセンテンスのベクトル表示によりメタ識別子を作成する役目を行うテキストメディアへ与えられるテキストをインデックスする方法を以下説明する。それにもかかわらず、自然言語または他の言語でテキストをインデックスする他のシステムが使用されることができる。
【0130】
典型的な方法では、自然言語(NL)でテキストをインデックスするシステムは以下の通りであり、即ちテキストインデックス化システムは2つの部分からなり、第1の部分は(登録およびインデックスの目的または先に登録された文書を発見するためのリクエストの役目をする目的であっても)システムに導入される自然言語で書かれたセンテンスのワードを変換する。この変換は(NL辞書と呼ばれる)辞書を使用して行われそれら固有の意味を有するワードのグループを識別し、(連結するワード、事項等のような)“利用”ワードからそれらを別々にしようとする。これらのワードのグループは最初に最も純粋な類義語により置換され、その後、同一の意味論の近傍などに存在する概念により置換される。加重の減少は経験的な規準を使用して、オリジナルワードからの距離の関数としてこれらの各類義語に関連され、これは“類義語集加重”と呼ばれる。他のワードは無視される。文法上の解析は語形変化したワードを語形変化の簡単な形態に戻すために使用される(動詞の語形変化は不定形に置換され、複数名詞は単数名詞に置換される)。この書直しの段階が一度終了すると、テキストがリクエストであるかデータベースに付加されるためのテキストであるかにしたがって異なる第2の段階が開始する。テキストがデータベース中に付加されるためのものであるならば、名詞の反転されたテーブルは、これらのワードが生じた場合にテキストの位置と共に、NL辞書の各ワードまたはワードの各グループで種々のテキストを発見することを容易にするために生成される。このテーブルは文書へアクセスを行うテーブルを構成する。この反転テーブルはデータベース中に既に存在するテーブルと連結され、(処理される言語のタイプにしたがって)辞書式順序または逆辞書式順序で分類される。文書自体は例えばファイルの形態で、独立して記憶される。リクエストが処理されているとき、第1の段階により再度書かれたリクエストはこれらのワードが存在するテキストを発見するために逆テーブルによりワード毎に、またはワードグループ毎に比較される。ワードの各外観は第1の段階中に関連されたような類義語の加重と関連される。スコアが加重の合計により生成される。高いスコアを得るテキストを含んだ文書は最も関連性がある。関連性が減少する順序により分類された文書のリストが生成される。
【0131】
メタ識別子と、種々のモノメディアインデックス化エンジンから来る情報を接続する機構内に含まれることができる種々の構造的な関係を以下簡単に説明する。
【0132】
各モノメディアインデックス化エンジン(即ち1つのメディアのみで動作するエンジン)から得られるシグネチャは、各メディア中の突出点(イメージで関係する点、音響の音響エンベロープの限度等)に関連する局部的な特性を表すデジタルまたはテキスト値のベクトルにより加重されるハイパーグラフの形態である。これらのベクトルはそれ自体、関連して複数の方法を使用するモノメディアエンジンのハイパーグラフにより階層的に置換されることができる。この階層的方法は処理の各レベル(マルチメディア、モノメディア、所定のメディア内の方法等)に関連する数値のベクトルの種々のサブハイパーグラフをリンクする特性のシグネチャを表す単一のハイパーグラフを生成するために反復されることができる。これらのハイパーグラフのアークは(図とそのテキスト説明文とのリンクまたは関係する1つの点から別の点へ移動する幾何学的変形のような)マルチメディア文書内で発見されることができる異なる種類の構造的情報に対応する特別な関係を伝送する役目を行う。
【0133】
情報により加重されたノードおよびブランチを有するハイパーグラフにより表されるこのような構造内での検索は、フリーズされる方法(このような動作はこのような多数の点で価値がある)によるスコアに関連されるサブハイパーグラフを比較する方法(頂点またはアークを減少し、頂点およびアークを付加し、頂点またはアークを置換する)、または(ユーザからの情報のフィードバックを有する)訓練を含んだ方法により実行される。全ての状態下で、これらのスコアは(例えば簡単な乗算により)各モノメディアインデックス化エンジンに特定の方法の意味で決定されたブランチまたはノードの加重間の距離の相対的なコストを考慮しなければならない。
【図面の簡単な説明】
【0134】
【図1】マルチメディア文書がインデックスされることを可能にし、文書がデータベースに記憶され、リクエストがマルチメディア文書間の比較にしたがってデータベースに質問するために行われることを可能にする本発明の方法の1例における種々のステップを示す図。
【図2】本発明の方法にしたがって、データベース中に保存するためにマルチメディア文書のインデックスかにおける種々のステップの説明図。
【図3】データベースに記憶されているマルチメディア文書の検索プロセスの種々のステップを説明し、検索はリクエストに基づき、本発明にしたがって比較方法を実行する説明図。
【図4】マルチメディア文書を表すグラフの1例の図。
【図5】図4のグラフを二進エレメントに分解する方法の説明図。
【図6】関係を生成するグラフの1例の図。
【図7】2つのマルチメディア文書の代表的なグラフの2つの例の比較を示している図。
【図8】さらに基本的なコンポーネントにマルチメディア文書をセグメント化するプロセスを示す図。
【図9】4つのイメージの2つのシリーズで局部的な情報を抽出するための異なる方法の適用を示す図。
【図10】4つのイメージの2つのシリーズで局部的な情報を抽出するための異なる方法の適用を示す図。
【図11】本発明による比較方法にしたがうことによるマルチメディア文書の検索プロセスを示す図。
【図12】図11に類似しているが、リクエストハイパーグラフの形態の図。
【図13】個々のサブハイパーグラフがデータベース中で分類されている検索グラフ中の個々のサブハイパーグラフ間の比較例を示す図。
【図14】個々のサブハイパーグラフがデータベース中で分類されている検索グラフ中の個々のサブハイパーグラフ間の比較例を示す図。
【0001】
本発明は、特に保存されたマルチメディア文書の検索における応用を行うマルチメディア文書のインデックス、記憶および比較方法に関する。
【背景技術】
【0002】
デジタル革命により、処理されるデータ量は先例にない程に急増しており、使用される文書はマルチメディアのタイプである頻度がさらに多くなっており、即ち、これらは同時におよび相互に情報を表すのに複数の異なるモードと、静止画像または動画、音声、テキスト、写真、ビデオ信号、動画のベクトルグラフィック等を使用する。
【0003】
データを圧縮する種々の方法が既に知られている。それにもかかわらず、マルチメディア文書に含まれる全ての情報が圧縮されるとき、処理が保存からなるときだけでなく、前記マルチメディア文書に含まれる特定の情報を見つけるために複数のマルチメディア文書の比較からなるとき、処理されるデータ量は顕著な量である。
【発明の開示】
【発明が解決しようとする課題】
【0004】
本発明はマルチメディア文書内の多量のデータを管理する問題およびデータが圧縮された形態であるときでさえ、比較されるマルチメディア文書に含まれる全てのデータを処理せずに、マルチメディア文書を比較することを可能にする問題を解決することを目的とする。
【課題を解決するための手段】
【0005】
本発明によれば、これらの目的は、それぞれイメージ、音響、ビデオ信号、動画化されたベクトルグラフィックおよびテキストを含むカテゴリから選択された少なくとも2つの個々のメディアを具備する第1および第2の複合マルチメディア文書を比較する方法により実現され、
この方法は以下のステップを含んでいることを特徴とし、
a)メタ識別子を各第1および第2の複合マルチメディア文書に割当て、メタ識別子はノードと、前記ノード間の関係の加重されたハイパーグラフの形態であり、関係するマルチメディア文書を構成する個々のマルチメディアを明白に識別するメタセグメントを含んでおり、
b)それぞれ第1および第2の複合マルチメディア文書の個々のメディアのメディア内関係の二次ツリーで反復を実行し、
c)第1のマルチメディア文書のそれぞれの個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の個々のメディアのハイパーグラフとの一致を最大にする動作を実行し、
d)第1のマルチメディア文書のそれぞれの個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の個々のメディアのハイパーグラフと最大または準最大の一致に導く編集動作のコストを決定し、前記コストの関数として個々のメディア間の距離を表し、
e)それぞれ第1および第2の複合マルチメディア文書の個々のメディア間のメディア間関係を生成する主要なツリーで反復を実行し、
f)第1のマルチメディア文書の全ての個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の全ての個々のメディアのハイパーグラフとの一致を最大にする動作を実行し、
g)第1のマルチメディア文書の全てのそれぞれの個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の全ての個々のメディアのハイパーグラフとの最大または準最大の一致を生む編集動作のコストを決定し、前記コストの関数として第1と第2の複合マルチメディア間の距離を表す。
【0006】
それぞれ個々のメディアはメディアの単一のカテゴリに属すモノメディア文書であってもよく、あるいはそれ自体がメディアの異なるカテゴリに属するサブエレメントを含んでいるマルチメディア文書であってもよい。
【0007】
本発明の方法の特別な構成では、ステップc)とd)はそれ自体が以下のステップを含み、
c1)第2のマルチメディア文書の個々のメディアと比較される第1のマルチメディア文書のそれぞれ個々のメディアに対して、類似性を探す関数として、ハイパーグラフ間の類似性の距離を参照するハイパーグラフを編集する原理に基づいてメディア内のコスト関数を規定し、
c2)第1のマルチメディア文書のそれぞれ個々のメディアのハイパーグラフが、第2のマルチメディア文書のそれぞれ個々のメディアのハイパーグラフへ可能な限り近いハイパーグラフに変換されることを可能にする全ての可能な変換を探索し、
d1)ステップc1)で規定されたルールの適用で各変換のコストを決定し、
d2)第1のマルチメディア文書のそれぞれ個々のメディアに対して、最低のコストの変換を選択する。
【0008】
同様に、ステップf)とg)はそれ自体が以下のステップを含んでおり、
f1)第2のマルチメディア文書の個々のメディアと比較される第1のマルチメディア文書の全ての個々のメディアに対して、類似性を探す関数として、ハイパーグラフ間の類似性の距離を参照してハイパーグラフを編集する原理に基づいてメディア間コスト関数を規定し、
f2)第1の複合マルチメディア文書のハイパーグラフが、第2の複合マルチメディア文書のハイパーグラフへ可能な限り近いハイパーグラフに変換されることを可能にする全ての可能な変換を探索し、
g1)ステップf1)で規定されたルールの適用で各変換のコストを決定し、
g2)最低のコストの変換を選択する。
【0009】
本発明の方法の別の特別な構成では、ステップc)とd)はニューラルネットワークまたはシミュレートされたアニ―リングにより処理される遺伝アルゴリズム等の次善の最適化方法を実行し、それによって使用される最適化方法のコンテキストでコストが最も低い変換を生成する。
【0010】
同様に、ステップf)とg)はニューラルネットワークまたはシミュレートされたアニーリングにより処理される遺伝アルゴリズム等の次善の最適化方法を実行し、それによって使用される最適化方法のコンテキストでコストが最も低い変換を生成する。
【0011】
本発明の特別な特徴では、メタ識別子が割当てられメタセグメントにセグメント化される第1の複合マルチメディア文書を比較するとき、地点間比較がユークリッド、パラメータLによるリーマン、Mahalanoisタイプの距離から選択されるベクトル距離によりベクトル類のメタセグメントについて行われ、それによってペアで比較されるメタセグメント間のペアリングのスコアを構成し、ハイパーグラフのメタセグメントを比較し、2つの文書のツリーのそれぞれ対応するブランチ間のペアリングの確率によってメタセグメントの地点間比較結果を加重することにより文書間の距離の合成されたスコアを生成する。
【0012】
本発明の方法はデータベース中にマルチメディア文書を記憶するために有効に適用され、この記憶動作は、共通、同一または準同一であるブランチの自動的な階層的分類により保存されるマルチメディア文書のメタ識別子を表すハイパーグラフを組織することを含んでいる。
【0013】
特に、データベースにマルチメディア文書を記憶する方法のコンテキストでは、メタ識別子のセットおよび容易に認識されるように設計されたメタ識別子の部分を表す中間オブジェクトのセットとを既に含んでいるデータベース中に保存するためにマルチメディア文書に対応する新しいメタ識別子の付加は、以下のステップを含んでおり、
i)保存されるようにマルチメディア文書に含まれる種々の個々のメディアを符号化する個々のメタ識別子へ新しいメタ識別子を分解し、
ii)個々のメディア間の関係を生成するためにツリーを構成し、
iii)それぞれ個々のメディア内に関係を生成するためにツリーを生成するように個々の各メタ識別子に対してステップi)とii)を反復して適用し、ツリーは独立して記憶されるが、包含関係が個々のメディアと、考察中の前記個々のメディア内の関係を生成するためのツリーの前記個々のメディアのコンポーネントとの間に関係を生成するためにツリーで記述された個々のメディア間にリンクをマークするために付加される。
【0014】
特に、新しいメタ識別子を分解するステップは、新しいメタ識別子に関連するハイパーグラフ全体を走査し、同一のメディアを有する隣接ノードのグループを選択することにより実行される。
【0015】
便宜的に、個々のメディア間の関係を生成するツリーを構成するステップは特に以下の動作を含んでおり、
−ノードをそれぞれの個々のメタ識別子に関連付け、個々のメディアのノードをそれぞれのメタ識別子へリンクする関係をコピーし、一方同じ2つのノードをリンクする同一種類の関係を除去することにより、簡単化されたハイパーグラフを構成し、
−ノード数を増加することにより、ハイパーグラフを接続されたサブハイパーグラフへ細分し、
−同一数のノードを有する類似のサブハイパーグラフをクラスに組織化し、
−クラスのエレメントに対する単一の代表的な保持平均特性により各クラスを特徴付け、
−それらの代表の部分間の類似性関係によって階層的方法で先に規定されたクラスを組織化する。
【0016】
本発明はまたデータベース中に記録されたマルチメディア文書の検索に適用される方法を提供し、これは以下のステップを含んでいることを特徴とする。
【0017】
−論理的演算子により共にリンクされたマルチメディア文書をそれ自体が含んでいる複合リクエストを提示し、
−メタ識別子をデータベースのそれぞれのマルチメディア文書に割当て、メタ識別子はノードと、ノード間の関係の加重されたハイパーグラフの形態であり、関係するマルチメディア文書を構成する個々のメディアを明白な方法で識別するメタセグメントを含み、
−メタ識別子を複合リクエストに割当て、メタ識別子はノードと、ノード間の関係の加重されたハイパーグラフの形態であり、複合リクエストを構成する個々のメディアを明白に識別するメタセグメントを含み、
−データベースのそれぞれのマルチメディア文書の個々のメディアのメディア内関係の二次ツリーで反復を実行し、
−複合リクエストの個々のメディアのメディア内関係の二次ツリーで反復を実行し、
−データベースのそれぞれのマルチメディア文書の個々のメディアのメディア間関係を生成するために主要なツリーで反復を実行し、
−複合リクエストの個々のメディア間のメディア間に関係を生成する主要なツリーで反復を実行し、
−前記論理的演算子によりリンクされている複合リクエストの全てのハイパーグラフを結合して全体的なハイパーグラフを生成し、
−前記全体的なハイパーグラフを以下のステップの適用でデータベースのマルチメディア文書のハイパーグラフと比較し、即ち、
−複合リクエストのそれぞれの個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の個々のメディアのハイパーグラフとの一致を最大にする動作と、
−複合リクエストのそれぞれの個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の個々のメディアのハイパーグラフとの最大またはほぼ最大の一致に導く編集動作のコストを決定し、前記コストの関数として個々のメディア間の距離を表し、
−複合リクエストの全ての個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の全ての個々のメディアのハイパーグラフとの一致を最大にする動作と、
−複合リクエストの全ての個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の全ての個々のメディアのハイパーグラフとの最大またはほぼ最大の一致に導く編集動作のコストを決定し、前記コストの関数として複合リクエストとそれぞれのマルチメディア文書との間の距離を表し、
−先に計算されたコストの減少順序でデータベースのマルチメディア文書のリストを組織する。
【0018】
異なる実施形態では、データベース中に保存されるマルチメディア文書の検索に適用される方法は、データベースのマルチメディア文書を個々に処理するステップは複合リクエストを示す前に実行され、前記個々に処理するステップの結果は異なる複合リクエストのセットを処理するために記憶され、データベースは共通に有している同一またはほぼ同一のブランチの自動的な階層的分類により保存されるマルチメディア文書のメタ識別子を表すハイパーグラフの配置を含み、複合リクエストのハイパーグラフ全体をデータベースの全てのマルチメディア文書のハイパーグラフと比較する代わりに、階層的検索はデータベースの全てのマルチメディア文書のハイパーグラフのクラスのツリー構造で実行され、比較は複合リクエストのハイパーグラフ全体と前記クラスの代表との間で実行されることを特徴とする。
【0019】
本発明はまたそれぞれイメージ、音声、ビデオ信号、動画化されたベクトルグラフィックおよびテキストを含むカテゴリから選択された少なくとも2つの個々のメディアを含んでいる複合マルチメディア文書をインデックスする方法を提供し、これは以下のステップを含んでいることを特徴とし、
a)メタ識別子を複合マルチメディア文書に割当て、メタ識別子はノードと、前記ノード間の関係の加重されたハイパーグラフの形態であり、複合リクエストマルチメディア文書を構成する個々のマルチメディアを明白に識別するメタセグメントを含んでおり、
b)複合マルチメディア文書の個々のメディアのメディア内の関係の二次ツリー構造で反復を実行し、
c)複合マルチメディア文書の個々のメディア間のメディア間関係を生成するために主要なツリー構造で反復を実行する。
【発明を実施するための最良の形態】
【0020】
本発明のその他の特徴および利点は例示として与えられている特定の構成についての以下の説明から明白であり、説明を添付図面を参照して行う。
任意の種類のマルチメディア文書から開始すると、本発明の方法は、比較されるマルチメディア文書の内容全体を処理する必要なく、文書の全てまたは一部或いは幾つかの他のマルチメディア文書内の文書の変形の使用または再使用を認識するために比較によって使用されることができる認識可能なトレースを得ることを可能にする。認識可能なトレースの獲得および保存は以下の説明では用語“登録”により示される動作を構成する。
【0021】
本発明の文書の比較方法は局部化された記憶媒体またはネットワークで分配されている記憶媒体で同等に良好に実行され、特にこの方法は文書の追跡に適用される。
【0022】
内容によりマルチメディア文書を登録する方法は、マルチメディア文書間で比較動作を行うために予め必要なことであり、基本的に3つの連続的なステップを有している。
【0023】
第1のステップは具体的または抽象的なモノメディアまたはマルチメディアエレメントを抽出するため、文書を全て解析することからなるメタセグメント化ステップである。
【0024】
第2のステップでは、結果的なメタセグメントはメタセグメントの内容をあいまい性がない明白に識別する情報のカテゴリの識別を行う特別なデジタルプロセスにより特徴付けされる。
【0025】
第3のステップでは、メタ識別子が生成され、これは明白な方法でメタセグメントの内容を識別する情報から構成される。メタ識別子は内容による一致を可能にする。
【0026】
例えば、デジタル値のセットは文書のイメージ中に含まれる色のヒストグラムまたは文書の部分のZernikeモーメントのような情報の具体的なアイテムを表す。抽象的情報も例えばイメージと図の説明文をリンクする関係を特定するリンクされたテキストフィールド、またはマルチメディア文書内で一方は音響文書、他方はテキスト文書である2つの文書の共通の意味論的スペースをカバーするワードの形態で記憶されてもよい。
【0027】
文書を追跡する方法は、多数のマルチメディア文書内で効率的にメタ識別子を比較することを可能にするメタ識別子の特定の構造を構成する。比較は(演繹的に描かれたリストから来るそれぞれのメディアに適応される乗法パラメータ手段による)特別な加重と、(直接に値を変更するか、ユーザのプロフィールに基づいてこれらをニュートラルタイプの訓練機構により変化させることにより)各ユーザによりこれらのリストの改良を行うことによって実行され、特別な加重はメタセグメント間の類似性を評価するためにアルゴリズムに与えられる。
【0028】
メタセグメント化プロセスはマルチメディア文書を構成するデジタルデータで複数のデジタル処理アルゴリズムを実行することからなる。アルゴリズムは同時に使用され、これらはそれぞれの加重が種々の方法の成功または失敗率の関数として、および与えられた自信レベルの関数として与えられる冗長情報を生成する。
【0029】
最初に図1を参照すると、ここでは、データベースへ付加されるマルチメディア文書をインデックスする主ステップ(モジュール100)と、リクエストをデータベースに記憶されているマルチメディア文書のトレースと比較するプロセスを使用してデータベース中のマルチメディア文書を検索する方法の主ステップ(モジュール200)が見られる。
【0030】
インデックスされるべきマルチメディア文書101をインデックスする方法は、問題の文書をデータベース170へ付加する最初のステップ110を含んでおり、ステップ110は個々のメディアをそこから抽出する方法でインデックスされる文書101を解析することからなり、メディアはメディアの単一のカテゴリにそれぞれ属すモノメディアエレメントであるか。これらはそれ自体がメディアの異なるカテゴリに属するサブエレメントを有するマルチメディアエレメントである。
【0031】
メタセグメント化プロセスは反復的に行われ、メディア内解析をメディア間解析と結合する。
【0032】
メタセグメント化ステップ110後、結果的なメタセグメントは、明白な方法でメタセグメントの内容を識別する情報の具体的および抽象的なカテゴリを識別するのに特別なデジタル処理手段を使用して、並行して処理されるステップ120を特徴とする。
【0033】
次のステップ130中に、メタ識別子が生成され、これはメタセグメントを特徴付けする情報のアイテムから構成されている。ステップ140と150はメタ識別子を構成し、文書を登録するステップ160で実行されるプロセスによりデータベース170で一体化される構造を規定するプロセスを実行する。
【0034】
ステップ180は文書101を特徴付けする構造Sを付加した後、データベース170の内部表示を改良するプロセスを表し、これは先に登録されたマルチメディア文書の構造と比較をすることにより行われる。
【0035】
モジュール200に示されているマルチメディア文書の検索方法は、発見されるマルチメディア文書に対する検索リクエスト201を示すことを含んでいる。
【0036】
リクエスト201はステップ100のように解析のステップと、複合リクエスト201から個々のメディアを抽出するためのメタセグメント化のステップからなる初期入力ステップ210に与えられる。複合リクエスト201のメタセグメントはステップ220で特徴付けられ、ステップ220はインデックス方法のステップ120に類似し、代わりにステップ130に類似の方法で、メタセグメントに基づいてメタ識別子を生成するステップ230が後続する。ステップ140と150のように、後続するステップ240と252はメタ識別子を構成し、新しい文書が付加される度に再度組織されるデータベース270に記憶されているマルチメディア文書の構造Sと比較するため構造Sを規定するプロセスを実行する。
【0037】
ステップ260は各メタセグメントの類似性を評価することにより、複合リクエスト201からの構造Sとデータベース270に記憶されている構造Sとを比較することからなる。
【0038】
ステップ280はメタ識別子の比較を加重することからなり、ステップ290はそれらのスコアと共に適切なマルチメディア文書のリストを示すことからなる。
【0039】
本発明の方法で実行されるメタ識別子機構はマルチメディア文書内に含まれる各メディアの特性と、また種々のエレメントに関連する複雑な関係の構造を表す役目を行う。この機構はマルチメディア文書の複雑性にしたがって変化する複数のネスティングレベルを有する階層である。その符号化は、ノードと、ノード間の関係との加重されたハイパーグラフの形態である。ノードと、アークの加重は浮動小数点または整数の方法で符号化される数字のテンソルの形態である。各ノードは階層でブレークダウンの対応するレベルで基本的であるとして考慮されることができる特性を表している。最低のレベルでは、これは例えば文書を解析する規準のセットを含み、イメージに対しては、これらは局部的に計算されたZernikeモーメント、カラーヒストグラム、対話式機能システム(IFS)、または以下の例の任意の他の局部的な特性である。高いレベルでは、これはノードにより記号化された解析されたメディア部分のハイパーグラフである。ノード間のアークは特性をリンクする構造的な関係を表す。これらは種々の種類、即ち論理的(例えばテキストを表すノードは図を表す別のノードの説明文である)、幾何学的(例えばセグメント化されたオブジェクト(ノードA)は別のオブジェクト(ノードB)の右へ50画素)、または抽象的(例えばテキストノードは意味論的に別のテキストノードに近い語彙を含んでいる)である。
【0040】
メタ識別子は、ノードと、ノード間の関係の加重されたハイパーグラフの形態で、個々のメディアを明白に識別するメタセグメントを含んでおり、マルチメディア文書を記述できる情報のコンパクトなアイテムを構成し、2つの文書が弁別されることを可能にするか、2つのマルチメディア文書間の潜在的な類似性がこれらが識別の役目を行う文書に含まれる全ての情報の圧縮を構成せずに測定されることを可能にすることにより一致されることを可能にするのに適している。メタ識別子はしたがってこれらが生成する文書のデータ量よりも非常に小さいデータ量を表す。
【0041】
図1に示されているインデックスおよび検索方法を図2、3で示されている特定の例を参照して一般用語により以下説明する。
【0042】
図2は、解析によってイメージにより構成されている第1の個々のメディア11と、それぞれ各テキスト部分により構成される2つの他の個々のメディア12と13を有することが発見されたマルチメディア文書10をインデックスするプロセスを示している。メタセグメント化プロセスに続いて、個々のメディア11乃至13はマルチメディア文書10から抽出され、問題とするメディアの各タイプ(テキストまたはイメージ)に適合する特別なデジタルプロセス手段とを特徴とするメタセグメントを構成する。メディア間関係21乃至25は個々のメディア11乃至13間で発見され、各個々のメディア内で、メディア内関係が識別される。例示により、イメージ11のセグメント化から生じ、メディア内関係41乃至43になる3つのコンポーネント31、32、33が示されている。
【0043】
図2に示されているシーケンスでは、第1にメディア間関係21乃至35のハイパーグラフと、その後イメージ11内のメディア内関係41乃至43の組込みと、最後にテキストブロック12と13内のメディア内関係4、45の組込みが示されている。
【0044】
図3は図2で示されているのと同一例に適用される、複合リクエストからマルチメディア文書を検索するプロセスを示している。
【0045】
複合リクエストは第1にテキストブロック52に関連するイメージ51と、第2に別のテキストブロック53に関連する同一イメージ51が存在するマルチメディア文書の検索を含んでいる。ANDオペレータによりリンクされた複合リクエストの各部分はメタセグメント51、52、または51、53のシグネチャにそれぞれ変換され、これらのメタセグメントはハイパーグラフでメディア内関係41乃至45とメディア間関係21、22で組織化される。複合リクエストの各部分に対応するハイパーグラフが一体化した後、ステップ60で、複合リクエストから生じるハイパーグラフとデータベースに記憶されているマルチメディア文書のハイパーグラフとの間で比較が実行され、最良のスコアは文書10に関連するハイパーグラフとの比較により生成される。ステップ70で生じた結果は文書10とペアリングスコア71を示している。
【0046】
文書間の比較方法により新しい文書を付加した後、データベースにマルチメディア文書を登録するプロセスと、データベースの内部表示を改良するプロセスを、図4乃至6を参照してさらに以下詳細に説明する。
【0047】
本発明にしたがってメタ識別子から開始してデータベースに含まれるマルチメディアデータへ迅速にアクセスを行うために、メタ識別子を適切に記憶することにより、“アレンジメント”と呼ばれるプロセスを開始し、比較がメタ識別子間で迅速に形成されることを可能にすることができる中間オブジェクトを構成することが必要である。
【0048】
データベースはもともと、メタ識別子のセットと、認識を容易にするためにメタ識別子の部分を表す中間オブジェクトのセットとから構成される。新しいメタ識別子がデータベースに付加されるとき、以下の挿入方式が行われる。
a)メタ識別子はオブジェクトに含まれる種々の異なるメディアを符号化するメタ識別子(即ちモノメディア識別子)へ分解される。この分解はハイパーグラフ全体を移動し、同一のメディアを有する隣接ノードのグループを選択することにより行われる。
b)メディア間の関係を生成するためにツリーを作成する。この動作はノードを各モノメディア識別子に関連付け、これらのモノメディアノードをそれぞれの識別子にリンクする関係をコピーすることにより行われる。2つの同じノードを共にリンクする同一種類の関係は消去される(冗長を減少する)。これは簡単にされたハイパーグラフおよび、完全なマルチメディア文書に存在する関係に対する近似を生成する。ハイパーグラフはその後、ノード数を増加することにより関連するサブハイパーグラフへ分割される。これはハイパーグラフに含まれる2つのノードのサブハイパーグラフを全て発生する。その後、地点間比較を行うことにより類似のサブハイパーグラフで検索が行われ、サブハイパーグラフは同一数のエレメントを有するサブハイパーグラフの全ての組合わせで別のサブハイパーグラフと比較される。類似のサブハイパーグラフはカテゴリにより分類され、これらはエントロピータイプの符号化に関連され、各クラスはクラス内の類似のサブハイパーグラフスに反比例する長さの表示に関連される。前もって固定された値よりも短い長さの表示を有するサブハイパーグラフのクラスだけが維持される。プロセスはこのようにして選択されたセットに属す2ノードサブハイパーグラフを有する全ての3ノードサブハイパーグラフに対して反復され、結合ランナウェイを防止するために前もって固定された限度まで、またはメタ識別子のハイパーグラフにもはや解析されるノードが存在しなくなるまで行われ、4ノードでも同様である。各メタ識別子に対しては、サブハイパーグラフのクラスはその後、メタ識別子の例示情報を含んでいる加重されたアークによって接続される。ベースの全てのクラス間のアークのセットはツリーを構成し、これはメディア間に関係を生成するツリーである。解析プロセスが固定した限度前に停止したならば(即ち処理されるノードがもはや存在しないためにプロセスが停止したならば)、以下の特性が得られ、即ちそのルートからリーフまでのツリー内のパスはメタ識別子を表す。そうでなければ、ツリーの残りの部分が再構成されることを可能にする情報を含んでいる加重を有するアーク手段によって最終値のサブハイパーグラフの全てを共に接続するためノードを付加することが必要である。
c)同一のプロセスは各メディアに対するツリーを生成するために各モノメディア識別子内で行われ、これはメディア内に関係を生成するツリーである。これらの種々のツリーは独立して記憶されるが、包含関係はメディア間の関係を生成するためにツリーで説明されているメディアと、メディア内に関係を生むため対応するツリーのメディアのコンポーネントとの間にリンクを示すために付加される。この関係はこの関係を表すメタ識別子のもとのアークをコピーすることにより得られる。
【0049】
このように考察される各ツリーはそのノードとして関係のハイパーグラフを所有することが観察される。
【0050】
データベースはその後、文書内のメディア間の関係を符号化する主ツリーと、各メディアを符号化する二次ツリーにより構成される。各メタ識別子(したがってその文書)は主ツリーを通過する1つのパスと、使用されるメディアの関数として必要とされる二次ツリーの1以上のパスとにより特有に表される。
【0051】
この構造はまたメタ識別子間(即ち文書間)の類似性を評価するときにも使用される。
【0052】
図4はマルチメディア文書を表すグラフを示し、例示によりこれは第1の関係301によりリンクされるエレメントAとB、同じ関係301によりリンクされるエレメントCとDを有し、一方エレメントAとCおよびBとDは関係301と異なる共通の関係302によりそれぞれのペアでリンクされている。エレメントDはそれ自体、第3の関係303により別のエレメントEにリンクされている。
【0053】
図5は図4のグラフが二進エレメントに分解されることができる態様を示している。関係301によりリンクされたエレメントはクラスB1に属している。関係302によりリンクされるエレメントはクラスB2に属している。関係303によりリンクされるエレメントはクラスB3に属している。
【0054】
図6は関係301と関係302の両者によりリンクされているエレメントのクラスC4と、関係301のみによりリンクされているエレメントのクラスB1と、関係302によりリンクされているエレメントのクラスB2との間のリンクの関係を生成するグラフを示している。
【0055】
メタ識別子を比較するプロセスを一般的用語により以下説明する。
【0056】
2つのメタ識別子間の類似性は各そのコンポーネント(加重を伴うノードおよびアーク)を比較し、関係がそれらをリンクし、最終的に合成された距離をそれら全てに関連することにより得られる。
【0057】
類似性の計算はメタ識別子のハイパーグラフのエレメントにおいて反復方法により行われる。ハイパーグラフ編集原理(ストリング編集またはグラフ編集)に基づくコスト機能は2つのメタ識別子の加重されたハイパーグラフ間の距離を決定するために適用される。編集動作は2つのハイパーグラフ間の最大の程度の一致を得るために計算される。この動作のコストは2つのメタ識別子間に類似性距離を構成する。
【0058】
さらに詳細な方法では、マルチメディア文書は以下のようにメタ識別子により比較される。
プロセスは2つのネストされた動作ループを含み、第1のループは複合文書内の各個々のメディア内で反復し、第2のループは複合文書の全ての個々のメディアで反復する。
【0059】
2つの複合文書AとB間の距離を決定するため、複合文書の部分間の最も強い可能な一致と、複合文書Aを複合文書Bに変換するため最低の可能なコストの変換を発見するために検索が行われる。
【0060】
文書Aから文書Bへ移ることを許可された変換は以下の編集動作であり、
リンク、ブランチまたは終端リーフを付加し、
リンク、ブランチまたは終端リーフを消去し、
ブランチまたは終端リーフの内容を変化する。
【0061】
これらの編集動作に関連するコストの概念は予め固定されているルール(ステップb)およびl)にしたがっており、例えば終端リーフの内容の変更はもとの内容と、係数(例1)により加重された最終内容との距離として測定されることができる。内容間の距離はメディアの特徴づけに適用される距離であり、例えばイメージのビジュアル類似性距離(Zernike+Mahalanobis)である。
【0062】
最終的に、複数の変換動作は文書Aから文書Bへ移ることを可能にし、例えばAとBがAのメディアuとBのメディアvを含んでいるブランチにより異なるならば、以下のことを適用することが可能である。
i)変換:“uをvへ変更”;
ii)または変換:“uを消去し”、その後変換“vを付加”を行う。
【0063】
演繹的に、これらの2つの動作のコストは必ずしも同一ではない。低いコストを有する変換が維持される。これを行うため、全ての非退化オプションの全体(長いが正確ではない)を使用することが可能であるか、または反対に、おおよその解と、したがっておおよその変換コスト、即ちおおよそであるが十分である(高速度であるが正確さがない)距離の値を与える通常の次善の最適化方法を使用することが可能である。
【0064】
詳細な比較プロセスを以下のとおりである。
a)個々のメディア(二次ツリー)にわたる反復、
b)類似性を探す関数としてメディア内コスト関数の規定、
c)各個々のメディアの一致を最大にする機構であり、2つのオプションを有している。即ち、
d)第1のオプション:最適な方法では、
e)メディアMのハイパーグラフがメディアLのハイパーグラフへ変換されることを可能にする全ての可能な変換を走査し、
f)b)で規定された規則の適用において各変換のコストを決定し、
g)最低のコストの変換を決定し、
h)第2のオプション:次善方法では、
i)特定の方法を適用するとき可能な最低のコストを有する変換を行うために、次善最適化アルゴリズム(一般アルゴリズム、ニューラルネットワーク、シミュレートされたアニール等)を使用し、
j)個々のメディア間の距離は発見される最適または次善の編集動作のコストであり、維持される変換動作はこの編集動作に対応する動作であり、
k)メディア(主ツリー)間の関係を生成するためにツリーについて反復を実行し、
l)類似性を探す関数としてメディア間コスト関数を規定し、
m)2つの個々のメディア間での一致を最大にする機構は、2つのオプションとして、
n)第1のオプション:最適な方法では、
o)複合文書Aのハイパーグラフが複合文書Bのハイパーグラフへ変換されることを可能にする全ての可能な変換を走査し、
p)l)で規定された規則の適用において各変換のコストを決定し、
q)最低のコストの変換を選択し、
r)第2のオプション:次善方法では、
s)方法が使用されるならば、可能な最低のコストを有する変換を行うために、次善最適化アルゴリズム(一般アルゴリズム、ニューラルネットワーク、シミュレートされたアニール等)を使用し、
t)複合文書間の距離は発見される最適または次善の編集動作のコストである。
【0065】
図7は2つの複合文書間の距離を決定する1つの可能な例を示している。
【0066】
文書1のグラフはエレメントCにリンクされるエレメントAとBを有している。
【0067】
文書2のグラフはエレメントCにリンクされたエレメントA’とBとCを含んでいる。
【0068】
文書1を文書2へ変換するため、エレメントCとBは文書1と2の両者で同一であるが、エレメントAは文書1から文書2へ移るときにエレメントA’に変化されることが分かる。さらに、文書2はエレメントCに接続される余分のエレメントDを有する。
【0069】
これらの変換のコスト、即ち、2つの複合文書1と2間の距離は以下のように表されることができる。
AをA’に変更するコスト:|A−A’|*2.0
Dを付加するコスト:val(D)*5.0
BからBへ移るコスト:0
CからCへ移るコスト:0
総変換コスト=2.0*|A−A’|+val(D)*5.0
それらを識別するメタセグメントまたはメタ識別子の比較によるマルチメディア文書の比較は、以下の3つの段階を基本的に含んでいる。
a)前述の方法の適用で比較される各文書のメタセグメント(シグネチャ)へのセグメント化を行い、
b)ベクトル距離を使用してベクトル類のメタセグメントのベクトル地点間比較、即ち、
i)ベクトル距離:以下のタイプの一方の距離が使用され、
【数1】
【0070】
j)規準マルチメディア文書ベースに関して評価された平均分布に関してこの距離を正規化し、幾つかのオプションが可能であり、
a)正規化なし、
b)平均値正規化:先行するステップで計算された各距離値はイメージペア対イメージペアを取る規準ベースの全てのイメージ間で計算されたベクトル距離手段により割算され、
k)結果は2つの比較されたメタセグメント間の“ペアリングスコア”と呼ばれ、
c)ハイパーグラフのメタセグメントを比較し、2つの文書のツリーの対応する各ブランチ間のペアリングの確率によりメタセグメントの地点間比較結果を加重することによって文書間の距離の合成されたスコアを生成する。これは以下のように行われる。
i)適用されるハイパーグラフ距離パラメータを選択し、
1)グラフ編集動作のコスト規則を規定ことによりハイパーグラフ距離を特徴付け:ノードを消去し、リンクを付加し、リンクを消去し、
2)これらの各動作のコストを割当て、幾つかのバライアントが可能であり、
a)均一:全ての編集動作において等しい価格、
b)ハイパー均一:このハイパーグラフレベルと同じハイパーグラフレベルで全ての編集動作に対して等しい価格、
c)変数:文書の特性に関する実験の関数としてマニュアルでパラメータ化されたコストがモデル化され、
ii)第1の文書のツリーを第2の文書のツリーへ変換するために適用されるコストの合計を計算する。複数の変換が適用されることができるならば、最低値の合計が選択される。この計算を簡単にするために、次善プロセスに基づいてコスト計算規則を適用することを選択し、その結果で満足することが可能であり、
iii)コストの最小または次に最小の合計は2つの文書のペアリングスコアを構成する。
【0071】
図11乃至14を参照すると、メタセグメントまたはメタ識別子をデータベース中の文書を検索するプロセスにおけるリクエストとの比較について以下説明する。
【0072】
( )で参照されるリクエスト言語で表されるリクエストは個々のリクエストのインデックスに対応する値のベクトルメタセグメントシグネチャに変換される。これらのメタセグメントは個々のリクエスト間の関係のハイパーグラフの形態でリクエストを記述し、リクエストの関係の演算子を以下のように変換することによりハイパーグラフへ組織化される。
演算子a AND b:はそこに付けられたベクトルメタセグメントノードaとbを有するペアレントハイパーグラフノードを生成し、
演算子a OR b:はノード(a OR b)に代わって、一方にa、他方にbの2つの異なるハイパーグラフを生成し、
演算子NOT a:はノードaを(局部的に)aが存在するサイン(sign)を表すフラグの付加で置換する。
【0073】
シグネチャはサインを符号化するフラグを比較する点を除いて、先行するステップと同じ方法で比較され、各ブランチの比較により生成されるスコアは次の関係(1−スコア/ノーム(スコア))を使用してノードのサインにより加重される。他の公式((スコア/ノーム(スコア)>しきい値)?(−1);(0)等)の形態の二進化式はそれにもかかわらず使用されることができる。
【0074】
このプロセスは典型的なケースによる図11乃至14で示されており、即ち3つの個々のメディアa、b、cが存在し、aとbは両者ともテキストであり、cはイメージである。テキストaまたはテキストbを含む説明文を有するcに似たイメージを示す全ての文書について検索が行われている。検索はしたがって行われ、次のように“(aまたはb)およびc”に公式化されるが、aまたはbをcに接続するリンク特性がタイプ“説明文である”リンクという条件をさらに有している。これは例示により図11のハイパーテキストの項で説明されている。
【0075】
図12はリクエストハイパーグラフの形態への変換を示している。
【0076】
これらのハイパーグラフはその後、文書データベースに存在するハイパーグラフと比較され、1例が図13および14に示されている。検索グラフの個々のサブハイパーグラフはデータベースの分類された個々のサブハイパーグラフと反復して比較され、個々のエレメント、即ちイメージとテキストで開始する。例示によると、それぞれ2つのオプションの一方のみを含んでいる2つの文書の計算を、第1にAとC、第2にCとBで行う。比較はそれが正しくリクエストされたものであるので、スコア1.00を有するリンクを生成する。
【0077】
イメージメディアのローカルメタ識別子を生成するコンテキストで、イメージメディアに適用されるメディア内解析の例を以下説明する。
【0078】
イメージメディアはそれが特徴付けされることを可能にするエレメントの幾つかのカテゴリを示している。このような文書を識別するときこれらの種々のカテゴリから抽出されたエレメント間に接続を設けることができることが有効である。
【0079】
イメージメディア(写真、図表、図面、図形等)内では、種々の特性がイメージメディアのローカルメタ識別子を構成するため階層的方法で使用される。メタ識別子はそれ自体、イメージメディアが含まれているマルチメディア文書のメタ識別子に含まれることができる。用語“イメージ”は一般的な方法でイメージメディアを示すために以下使用されている。
【0080】
イメージのメタ識別子を構成するプロセスは4つの部分を有する。これは問題のイメージの各部分に対して反復して適用される。
【0081】
1.解析の第1のレベルは独立して解析されることができるコンポーネントへメディアをセグメント化することからなる。複数のセグメント化は同時に使用される。
−テクスチャ(通常の方法)によるセグメント化、
−オブジェクトによるセグメント化、
−スケールによるセグメント化(ウエブレット方法)。
【0082】
2.第2の部分は各部分を別々に特徴付けることのできるローカル識別子を生成することからなる。
【0083】
3.第3の部分は部分をリンクする構造的な関係を抽出することからなる。
【0084】
4.最後に、第4の部分は各部分でこのようにして反復されて規定されているように解析プロセスを再度適用することからなる。各部分で構成されるメタ識別子は含まれる部分のメタ識別子のノードと、それに対応する先行するレベルのハイパーグラフの単一または複数のノードとの間の“オブジェクト包含”関係を符号化するアークを付加することによって含まれる。プロセスは前もって固定された最大レベルに到達するとき、またはセグメント化方法が新しい部分を生成しないときに停止する。
【0085】
イメージの部分は突出点により特徴付けされることができる。
【0086】
この技術の目的は、通常のデータベース管理技術が適用可能ではないメディアの効率的な保存を可能にするツールを提供することである。例えば、現在のデータベース中のイメージのインデックス化は各イメージが規定された表現のテキストコーパスを使用して自然言語で記述されることを必要とする。絵画の写真は“絵画に含まれるもの:頭骨、ルネッサンスの衣装をまとった2人の人物、背景はテーブル、コンパス、図があり、テープ録音の話を伴う”ようなキーワードを使用してインデックスされることができる。一般的には、同一の例を継続するため、絵画は、キャンバスの寸法、メディアのタイプ(キャンバス、木等)、ペイントの種類(油彩等)のようなその物理的特性を使用して説明される。データベースにこのような情報を有することが非常に有効であるが、例えば盗難された絵画を迅速に識別しようとするときには十分ではない。対照的に、テクスチャおよび概要に関する局部的および全体的な特性を使用して別のイメージから開始してイメージを識別できることがさらに有効である。イメージはイメージの内容を正確に使用するため局部的な特性(ZernikeモーメントまたはIFS)を使用して比較されることができる。イメージを発見するためのキーとしてデータベース中に記憶されている局部的特徴を生成するために(ステファン−ハリス検出器から抽出された)関係する点、突出点に基づいて適合可能なグリッドを使用することが可能である。
【0087】
図9および10は局部的情報が抽出されることを可能にする適合可能なグリッドの概念と利点を示している。図9はそれらのシグネチャが異なるように区画の各部分の内容が4つの異なる図で異なっていることを示している。対照的に、図10では、同一の4つの異なる図で、区画化と、各区画の内容が同一であり、したがってシグネチャは全て非常に類似している。
【0088】
このような技術は複合文書の構造的な組織が維持されるならば、イメージおよびテキストの両者を含む文書で使用されることができる。音響は同一の原理で解析されインデックスされることができる。ビデオ信号または他のマルチメディアオブジェクトもこれらが基本的なメディアからなる複合構造を示すならば(モザイク技術および表示のために)同一方法で処理されることができる。
【0089】
4つの部分を有するイメージのメタ識別子を構成する方法を以下詳細に説明する。
【0090】
1.解析の第1のレベルは独立して解析されることができるコンポーネントへメディアをセグメント化することからなり、これは“特徴的なコンポーネント”と呼ばれることができる。幾つかのタイプのセグメント化が使用され、この場合では、オーダーされたリストの原理が適用される。これらの方法はプロセス内で以下のように使用されるべきであり、即ち、解析されるマルチメディア文書の特性、および速度、利用可能なメモリ等に関する制約のような処理の外部特性の関数として使用され、優先順位のベースで使用される方法のオーダーされたリストは以下説明する方法のような方法のリストに基づいて描かれる。リストの最良の分類による方法は先に示された制約にしたがってしきい値に到達するまで適用される。
−テクスチャによるセグメント化:フィルタ、勾配、しきい値を使用して、セグメント化は領域へ実行される。
−同時発生のマトリックスおよびテクスチャインデックス、
−多桁のモーメント、
−局部的なヒストグラムを使用する相関方法、
−等、
−オブジェクトに関するセグメント化:
−ブロックによるセグメント化、
−細菌を形成または低レベルの領域を成長或いは高レベルの領域を成長する監視ではないマルコフ方法、
−半監視されたマルコフ方法、
−等
−スケールによるセグメント化:
−ウエブレット変換方法、
−ウエブレットパケット方法、
−近隣に基づいた形態的ピラミッド方法、
−外形によるセグメント化:
−Sobel 濾波、
−Prewitt濾波、
−Kirch方向濾波、
−Hueartas−Medioni演算子、
−Marr 演算子、
−Canny最適化濾波、
−Deriche濾波、
−Shen濾波、
−形態的勾配、
−“分水”方法、
−Haralick演算子、
−Hueckel演算子、
他の方法:このプロセスの後続する段階に与えられる信号を局部的に特徴付けする特徴が一度決定されると、データをグループ化する統計的な方法(k平均グループ化、主成分への縮小、特異値解析、N−シグマ解析)がセグメント化を実行または補正するために適用されることができる。
2.第2の部分は各部分を別々に特徴付けできる局部的な識別子を生成することからなる。これを行うため、1以上の方法が予め設定されたリストから使用され、依然としてオーダーされたリストの原理を使用する。これらの方法はプロセス内で以下の方法で使用されなければならない。即ち、解析されるマルチメディア文書の特性、および速度、利用可能なメモリ等に関する制約のような処理の外部特性の関数として使用され、優先順位ベースで使用される方法のオーダーされたリストは以下説明する方法のような方法のリストに基づいて描かれる。リスト中で最良に行われる方法は先に示された制約にしたがってしきい値まで適用される。
−全体的なnポイントヒストグラム:イメージのヒストグラムのn値(随意的等距離値)におけるサンプリングを表すベクトル、
−局部的なnポイントヒストグラム:これは任意の形状:ディスク、多角形、ベジエ曲線等、随意選択的に内容またはその他の特性コンポーネントにしたがって)ポイントの近傍に与えられ、
−内容またはその方向付けを示す局部的な統計的機能:(先の)近傍で計算されるZernike係数、Hough係数、モーメント等、
−マルチスケール機能:ウエブレット、イメージ全体または近傍で計算されるハール関数、
−イメージから抽出される特徴的な形状または形状の不変さを特徴付ける関数:例えば不変数がフーリエ−Meulinにより測定される曲線をスケルトン化し二進化することによる抽出。
【0091】
先行する段階中に生成される部分は同等に、
点、
線または外形線、
領域である。
【0092】
特徴はしたがってこれらの3つのカテゴリに関連され、
点の特徴化は、次のものによって行われる。
【0093】
−その座標、
−これらの点の近傍の局部的な特徴(種々の種類の近傍;三角形、方形と、種々のサイズの近傍;イメージの解像度、計算の複雑性、フィルタまたは多項式の範囲にしたがう)、
−多角形のモーメント(Zernike、Tchebichev等)、
−カラーモデル(HSVモデル、RGBモデル等)に基づくヒストグラムによるものである。
【0094】
線または外形線の特徴化は、次のものにより行われる。
−それらの点とそれらの座標、
−それらの形状:即ち共通の解析曲線(例えばb−スプライン、多項式)を使用する補間計算と曲線に特定のファクタが表される。
−これらの点の近傍で計算される局部的な特性:即ちその方法は前述のリストの方法と同一であり、対照的に、近傍はさらに複雑であり、先の近傍の構成として現われる。
【0095】
領域の特徴化は、次のものにより行われる。
−それらの点とその座標、
−それらの形状:即ち共通の解析曲線(例えば2D−b−スプライン、2D多項式)を使用する補間計算と表面の特定のファクタにより表される。
−これらの点の近傍で計算される局部的な特性:即ち方法は前述のリストの方法と同一であり、対照的に、近傍はさらに複雑であり、先の近傍の構成として現われるか、メディアのイメージの領域によりカバーされる表面としてさらに簡単に現われる。
【0096】
3.第3の部分は、エキストラメディア解析に関して以下説明するのと類似のプロセスを使用してその部分をリンクする構造的関係の抽出からなる。
【0097】
4.第4の部分は、各部分で反復して先に規定したように解析プロセスを再度適用することからなる。各部分で構成されたメタ識別子は含まれる部分のメタ識別子のノードと、前記部分に対応する先行するレベルのグラフのノードとの間に“オブジェクト包含”関係を符号化する部分を付加することにより含まれる。プロセスは前もって固定された最大レベルに到達するとき、またはセグメント化方法がもはや任意の新しい部分を生成しないときに停止する。
【0098】
以下、先行するシステムで使用される突出点によりメディアイメージの部分の特徴付けの1例を説明する。
【0099】
局部的または全体的な特徴付けの種々の方法は、メタ識別子の加重を生成するために使用されることができる。メディアイメージのインデックス化のコンテキストで抽出される特性は全般的な特性と局部的特性に分離されることができる。全般的特性はメディアイメージの組織の全体的な外観に対応する。例えば写真データベースの比色説明では、日没は多かれ少なかれオレンジ色の円形のアークが見られるメディアイメージの上部部分の赤色のメディアイメージにおける分布により表されることができる。したがって、このような記述は近似的であり、日没の全てのメディアイメージが発見されることを可能にせず(省略によるエラー)、日没ではないメディアイメージを選択する(雑音タイプのエラー)。局部的方法は不変特性が各メディアイメージから抽出されることを必要とし、それによってそれらを比較することができる。図9および10の例では、2つの方法が示されている。これらの一方は視点の変化に対しては頑強ではなく、絶対的なグリッド(図9)の使用に基づいており、一方図10で示されている他の方法は問題の点の検出と、それに続いて、局部的な特性が計算されるグリッドのメッシュを抽出するための三角測量により動作され、これらの特性は視点の変化(Zernikeモーメントまたは反復される機能システム、カラーヒストグラム)により通常の変換では頑丈である。
【0100】
以下の説明はマルチメディア文書内のメディア間解析(またはエキストラメディア解析)のプロセスに関する。
【0101】
マルチメディア文書の説明は全てのそのコンポーネントが特徴付けされることを必要とする。
【0102】
マルチメディアオブジェクトは独立して並列に解析されることのできるモノメディアエレメントから形成される。メタ識別子を生成するプロセスは、これらの種々のメディアをリンクする構造上の関係のトレースを維持しながら、このようにしてマルチメディア文書をさらに基本的なメディアへ分解し、その後各メディアで独立して同一の方法を再度適用し、これらをリンクする構造上の関係のトレースを保持することからなる。
【0103】
プロセスの第1の段階は元のマルチメディア文書をさらに基本的であるコンポーネントへセグメント化することからなる。これを行うため、3つのツールが連続して適用される。
【0104】
1.メディアによるセグメント化のためのツール:文書のフォーマットに含まれる情報は複数のメディア、即ちオーディオ、ビデオ、性質(プログラム、HTMLまたはXML記述等)へ分離される。
【0105】
2.時間によるセグメント化のためのツール:メディアが時間の拡張を示すならば、これは時間に関して均一なセクションに細分化される。これを行うため1以上の空間的な均一性関数がメディアに対して計算される。以下のものが計算されることができる。
−信号値のヒストグラム(例えばイメージ信号の輝度)、
−イメージ信号のX軸に沿った輝度の平均化された投影、
−イメージ信号のY軸に沿った輝度の平均化された投影、
−中間フィルタまたは平均フィルタの適用により異なるスケールにおける前記信号に対する種々の近似、
−ウエブレットフィルタによる前記信号に対する種々の概算、
−等。
【0106】
その後、時間にわたるこれらの均一性関数間で相関が決定される。変化しきい値を超える1以上のこれらの相関は、時間セグメントの変化に対応して信号の不連続性が存在することを示す。これらの種々のセグメントは時間の連続性を表すアークによってリンクされる対応する数のノードとしてメタ識別子の構造中に記録される。
【0107】
3.空間におけるセグメント化のためのツール:空間セグメント化フィルタはイメージシーンを作る種々のオブジェクトを決定するために使用される。これを行うために、種々の方法、即ち、
テクスチャセグメント化:即ちフィルタ、
カラーセグメント化:即ち色の分布を計算、
外形セグメント化:即ちアクチブ外形を並列して、共にまたは別々に使用される。
【0108】
これらの方法は各シーケンス内および一連のシーケンス内の種々のオブジェクトの抽出を可能にする。その後、同一のシーケンスまたは複数のシーケンスの複数のイメージの複数の連続的なオブジェクトが同一の概念的なオブジェクトを本当に構成するか否かを認識するために類似性(簡単な相関、先に示された均一性規準または類似性計算に基づいた相関)が決定される。このような状態下で、メタ識別子のノードの形態でシーケンス毎に単一の表示が生成され、このノードは包含関係を符号化するアークによりシーンを表すノードに接続される。2つの連続的なシーンの同一のオブジェクトの表示もまたアイデンティティ関係を符号化するアークにより接続される(図8参照)。
【0109】
4.アブストラクトのセグメント化:特別なオブジェクトが以下の特別な手段により識別される。
−抽出されることができるイメージデータ、テキストへOCRを適用することにより、
−音響トラック中の任意のスピーカによる発話内容を転記するテキストにスピーチ処理ツールを適用することにより、
−特別な検出器(フェイス検出器、動作検出器等)の適用により。
【0110】
各これらの特別なツールからの結果は、対応するノードの加重中に記憶されているその特性およびその内容と共に、メタ識別子中に記録される特別なオブジェクトを生成する。シーンに含まれるこのオブジェクトの関係またはシーンのその他のオブジェクトとの関係はノードを、他のオブジェクトに対応するノードに接続するアークによって記録される。
【0111】
セグメント化に後続する段階はオブジェクトの識別であり、メタ識別子で識別される各オブジェクトに対して、各オブジェクトに特定の識別情報を決定するために適切な方法が使用される。これを行うため、前述したイメージ方法が使用されるか、または音響方法が以下説明するように使用される。他の情報はテキスト方法で記憶され、例えば“時計回りの方向に90゜回転”のように、関係する情報の機能としてキーワードにより符号化される。
【0112】
これらのステップ期間中に実行される中間計算の結果はこれらがその後のアルゴリズムにより再使用されることを可能にするために計算を通して保存されることが観察されるべきである。
【0113】
以下は、オーディオビジュアル文書を特徴化するときに使用される方法の例である。
【0114】
データベースのオーディオビジュアルメディアのインデックス化は種々の異なる種類の情報への参照を必要とする。最初に、コンテキストから独立しているオーディオビジュアル文書での特別な外観の直ちに抽出可能な“原子”情報を弁別することが可能である。
【0115】
1.メディアイメージのテキスト:これはオーディオビジュアルシーケンスを構成するメディアイメージで作用するOCRソフトウェアにより認識される。メディアイメージ(シーケンスでオブジェクトに書かれたテキスト、トレードマーク、光サイン)に関する付加的な情報は恐らく関連されることができるが、意図的にイメージに重ねられているテキストから確実に弁別されることができなければならない。
【0116】
2.発話されたテキスト:これは音声追跡により認識される。音声解析ソフトウェアはテキストおよび注釈の形態で発話を文書の音声追跡で抽出することを可能にする。話者が話し中の状態で話者間の弁別および、恐らく話者の識別のような付加的な情報がそれに付加される。さらに複雑なツールがテキストの意味論をさらに微細にメディアイメージの意味論に関連付けるためこのような生の抽出に付加されることができる。例えば、用語頻度インバース文書頻度(TF−IDF)方法は基準コーパスに基づいてビデオ文書のワードの相対的な重要性を測定する。特に1ショットで頻繁であるがコーパスで稀なワードは恐らくシーケンスに対するキー情報に対応する。
【0117】
3.雑音および音楽:スピーチに加えて、音響追跡は音楽および音響効果を含んでおり、これらはある程度まで、例えばインデックスされるシーケンスを説明するために重大な情報を構成するアクション(ドアを閉める、電話が鳴る等)の特性である雑音を識別するために使用される。これは音楽の識別を考察することも可能である。
【0118】
4.ショットへの分割:あるリザーブにより、シーンの変化が識別され、ビデオシーケンスの構造全体についての情報を与える。一度識別されると、ショットは他の特性が“サマリーメディアイメージ”のように解析されることを可能にする。オーディオビジュアル文書のショットへのセグメント化はオーディオビジュアルインデックス化に使用されることができる方法の中で中心的な位置を占めている。いまだに、100%の確実性で転移効果の異なるタイプを検出する方法は存在しない。それにもかかわらず、さらに多くの方法が“カット”のようなあるタイプの転移の効率的な処理を行うために提案されている。
【0119】
5.“サマリーメディアイメージ”:サマリーはビデオシーケンス中の1ショットの主要な静的特性を表すメディアイメージである。これは例えばそのショットの最初または最後のメディアイメージを選択する等の非常に簡単な技術であるか、あるいはそのショットに含まれるシーンのモザイクメディアイメージを構成する等のより精巧な技術である。通常の静止メディアイメージのインデックス化技術はその後、解析されているシーケンスのビジュアル情報特性をインデックスするために適用されることができる。
【0120】
6.カメラの移動/オブジェクトの移動:撮影状態に応じて、イメージのストリームからカメラの変位または撮影されるオブジェクトの変位、ズーム、パン、集団移動、または単一のオブジェクトの移動を解析することが可能である。この情報はあるシーンの修飾、したがってインデックスされるショットの意味論に対するダイナミックな内容を与えることに使用されることができる。
【0121】
7.変位:良好な状態では、ビデオシーケンスの編集中に選択される転移のカテゴリを解析することが可能である。このような転移に対応する情報は例えばTVニューズの放送でトピックを変更するときに異なるコマーシャルを識別することによってショット間の構造的な関係を識別することができる。この解析はまたオーディオアスペクトにも同様にしたがう必要がある。
【0122】
8.ビデオオブジェクト:オブジェクトの存在はビデオシーケンス中に決定され、追跡される。これは、
−しばしば静的であり、単一のメディアイメージに適用される特別な方法、即ち
−フェイス認識、
−幾何学形状の認識、
−テクスチャ整合を使用するか、
−またはそうなければしばしばダイナミックで、シーケンスに適用されるさらに一般的な方法、即ち、
−その環境とは異なる運動するオブジェクト(テニスのボール、フットボールプレイヤ)の追跡、
−背景の識別と、それを斜視図へセグメント化を使用することからなる。
【0123】
この情報はその後、“サマリーメディアイメージ”のように直接的にインデックスされることができる一連のメディアイメージピースまたは複合メディアイメージ(おそらくそれ自身モザイクメディアイメージ)の形態でさらに具体的にされることができる。個々のオブジェクトへ分離する利点は、シーケンスの意味論的解釈またはオブジェクトのテーマに基づいた検索で重要である。
【0124】
以下、音響、人間の音声、音楽、叫びまたは雑音に関するか否かにかかわりなく、音響メディア、即ち任意の音響機構の1次元デジタル表示にしたがったメディアに適用されるメタ識別子に基づいた特徴付け機構を説明し、突出点は信号を局部的に特徴付けできるシグネチャを計算するために異なる解像度で計算される音響信号の1以上のエンベロープで決定される。このプロセスは以下の4段階で行われる。
【0125】
−第1段階は、ウエブレット符号化フィルタを連続して信号に適用することにより異なる解像度で信号エンベロープを計算することからなる。Mallat、Daubechies、Coifman、Coiflets、ウエブレットパケット等の種々のウエブレットが使用されることができる。フィルタは詳細な信号と近似的信号を発生するためにオリジナル信号に適用される。フィルタはこのようにして発生される信号に再度適用され、この動作はオリジナル信号のサンプリングの関数として数回再生される。このようにして生成されるとき中間および最終的な信号のセットはその後エンベロープを生成するために簡単にされる。この簡単化はフィルタ(中間フィルタ、平均フィルタ等)の適用により実行される。
【0126】
−第2の段階は突出点の決定からなる。これを行うために、信号の相対的な変化は第1および第2の次数で計算され、それによってこれらの変化が第1の段階により発生された簡単化された信号中で(共にまたは排他的に)最大である点を減少させる。
【0127】
−第3の段階は信号のベクトル化からなる。即ち、時間−エネルギ空間または周波数−エネルギ空間中のそれらの位置により先行段階で発見される突出点を表すことからなる。
【0128】
−第4の段階は、信号の変形を特徴付ける情報を計算することからなる。すなわち、この情報は突出点周辺と、最大の解像度の信号内の2つの連続的な突出点間で計算される。この第1の情報はその後対応するメタ識別子のノードの加重中に記憶される。この第2の情報は2つの対応するノードを接続するアークの加重中に記憶される。この特徴化情報は第1の2つの次数への信号の局部的な導関数の平均を含んでいる(幾何学的―数学的の種類の任意の他の情報も使用可能である)。プロセスは次に低いレベルの解像度で再生され、メタ識別子の階層的レベル中に包含関係を記憶し、プロセスはウエブレットにより計算される各解像度にわたって反復される。
【0129】
例により、再公式化とセンテンスのベクトル表示によりメタ識別子を作成する役目を行うテキストメディアへ与えられるテキストをインデックスする方法を以下説明する。それにもかかわらず、自然言語または他の言語でテキストをインデックスする他のシステムが使用されることができる。
【0130】
典型的な方法では、自然言語(NL)でテキストをインデックスするシステムは以下の通りであり、即ちテキストインデックス化システムは2つの部分からなり、第1の部分は(登録およびインデックスの目的または先に登録された文書を発見するためのリクエストの役目をする目的であっても)システムに導入される自然言語で書かれたセンテンスのワードを変換する。この変換は(NL辞書と呼ばれる)辞書を使用して行われそれら固有の意味を有するワードのグループを識別し、(連結するワード、事項等のような)“利用”ワードからそれらを別々にしようとする。これらのワードのグループは最初に最も純粋な類義語により置換され、その後、同一の意味論の近傍などに存在する概念により置換される。加重の減少は経験的な規準を使用して、オリジナルワードからの距離の関数としてこれらの各類義語に関連され、これは“類義語集加重”と呼ばれる。他のワードは無視される。文法上の解析は語形変化したワードを語形変化の簡単な形態に戻すために使用される(動詞の語形変化は不定形に置換され、複数名詞は単数名詞に置換される)。この書直しの段階が一度終了すると、テキストがリクエストであるかデータベースに付加されるためのテキストであるかにしたがって異なる第2の段階が開始する。テキストがデータベース中に付加されるためのものであるならば、名詞の反転されたテーブルは、これらのワードが生じた場合にテキストの位置と共に、NL辞書の各ワードまたはワードの各グループで種々のテキストを発見することを容易にするために生成される。このテーブルは文書へアクセスを行うテーブルを構成する。この反転テーブルはデータベース中に既に存在するテーブルと連結され、(処理される言語のタイプにしたがって)辞書式順序または逆辞書式順序で分類される。文書自体は例えばファイルの形態で、独立して記憶される。リクエストが処理されているとき、第1の段階により再度書かれたリクエストはこれらのワードが存在するテキストを発見するために逆テーブルによりワード毎に、またはワードグループ毎に比較される。ワードの各外観は第1の段階中に関連されたような類義語の加重と関連される。スコアが加重の合計により生成される。高いスコアを得るテキストを含んだ文書は最も関連性がある。関連性が減少する順序により分類された文書のリストが生成される。
【0131】
メタ識別子と、種々のモノメディアインデックス化エンジンから来る情報を接続する機構内に含まれることができる種々の構造的な関係を以下簡単に説明する。
【0132】
各モノメディアインデックス化エンジン(即ち1つのメディアのみで動作するエンジン)から得られるシグネチャは、各メディア中の突出点(イメージで関係する点、音響の音響エンベロープの限度等)に関連する局部的な特性を表すデジタルまたはテキスト値のベクトルにより加重されるハイパーグラフの形態である。これらのベクトルはそれ自体、関連して複数の方法を使用するモノメディアエンジンのハイパーグラフにより階層的に置換されることができる。この階層的方法は処理の各レベル(マルチメディア、モノメディア、所定のメディア内の方法等)に関連する数値のベクトルの種々のサブハイパーグラフをリンクする特性のシグネチャを表す単一のハイパーグラフを生成するために反復されることができる。これらのハイパーグラフのアークは(図とそのテキスト説明文とのリンクまたは関係する1つの点から別の点へ移動する幾何学的変形のような)マルチメディア文書内で発見されることができる異なる種類の構造的情報に対応する特別な関係を伝送する役目を行う。
【0133】
情報により加重されたノードおよびブランチを有するハイパーグラフにより表されるこのような構造内での検索は、フリーズされる方法(このような動作はこのような多数の点で価値がある)によるスコアに関連されるサブハイパーグラフを比較する方法(頂点またはアークを減少し、頂点およびアークを付加し、頂点またはアークを置換する)、または(ユーザからの情報のフィードバックを有する)訓練を含んだ方法により実行される。全ての状態下で、これらのスコアは(例えば簡単な乗算により)各モノメディアインデックス化エンジンに特定の方法の意味で決定されたブランチまたはノードの加重間の距離の相対的なコストを考慮しなければならない。
【図面の簡単な説明】
【0134】
【図1】マルチメディア文書がインデックスされることを可能にし、文書がデータベースに記憶され、リクエストがマルチメディア文書間の比較にしたがってデータベースに質問するために行われることを可能にする本発明の方法の1例における種々のステップを示す図。
【図2】本発明の方法にしたがって、データベース中に保存するためにマルチメディア文書のインデックスかにおける種々のステップの説明図。
【図3】データベースに記憶されているマルチメディア文書の検索プロセスの種々のステップを説明し、検索はリクエストに基づき、本発明にしたがって比較方法を実行する説明図。
【図4】マルチメディア文書を表すグラフの1例の図。
【図5】図4のグラフを二進エレメントに分解する方法の説明図。
【図6】関係を生成するグラフの1例の図。
【図7】2つのマルチメディア文書の代表的なグラフの2つの例の比較を示している図。
【図8】さらに基本的なコンポーネントにマルチメディア文書をセグメント化するプロセスを示す図。
【図9】4つのイメージの2つのシリーズで局部的な情報を抽出するための異なる方法の適用を示す図。
【図10】4つのイメージの2つのシリーズで局部的な情報を抽出するための異なる方法の適用を示す図。
【図11】本発明による比較方法にしたがうことによるマルチメディア文書の検索プロセスを示す図。
【図12】図11に類似しているが、リクエストハイパーグラフの形態の図。
【図13】個々のサブハイパーグラフがデータベース中で分類されている検索グラフ中の個々のサブハイパーグラフ間の比較例を示す図。
【図14】個々のサブハイパーグラフがデータベース中で分類されている検索グラフ中の個々のサブハイパーグラフ間の比較例を示す図。
Claims (19)
- それぞれイメージ、音響、ビデオ信号、動画化されたベクトルグラフィックおよびテキストを含むカテゴリから選択された少なくとも2つの個々のメディアを具備する第1および第2の複合マルチメディア文書を比較する方法において、
a)メタ識別子を各第1および第2の複合マルチメディア文書に割当て、メタ識別子はノードと、前記ノード間の関係の加重されたハイパーグラフの形態であり、関係するマルチメディア文書を構成する個々のマルチメディアを明白に識別するメタセグメントを含んでおり、
b)それぞれ第1および第2の複合マルチメディア文書の個々のメディアのメディア内関係の二次ツリーで反復を実行し、
c)第1のマルチメディア文書のそれぞれの個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の個々のメディアのハイパーグラフとの一致を最大にする動作を実行し、
d)第1のマルチメディア文書のそれぞれの個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の個々のメディアのハイパーグラフと最大または準最大の一致に導く編集動作のコストを決定し、前記コストの関数として個々のメディア間の距離を表し、
e)それぞれ第1および第2の複合マルチメディア文書の個々のメディア間のメディア間関係を生成する主要なツリーで反復を実行し、
f)第1のマルチメディア文書の全ての個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の全ての個々のメディアのハイパーグラフとの一致を最大にする動作を実行し、
g)第1のマルチメディア文書の全てのそれぞれの個々のメディアのハイパーグラフに対して、第2のマルチメディア文書の全ての個々のメディアのハイパーグラフとの最大または準最大の一致を生む編集動作のコストを決定し、前記コストの関数として第1と第2の複合マルチメディア間の距離を表すステップを含んでいることを特徴とする方法。 - ステップc)とd)はそれ自体が、
c1)第2のマルチメディア文書の個々のメディアと比較される第1のマルチメディア文書のそれぞれ個々のメディアに対して、類似性を探す関数として、ハイパーグラフ間の類似性の距離を参照するハイパーグラフを編集する原理に基づいてメディア内のコスト関数を規定し、
c2)第1のマルチメディア文書のそれぞれ個々のメディアのハイパーグラフが、第2のマルチメディア文書のそれぞれ個々のメディアのハイパーグラフへ可能な限り近いハイパーグラフに変換されることを可能にする全ての可能な変換を探索し、
d1)ステップc1)で規定されたルールの適用で各変換のコストを決定し、
d2)第1のマルチメディア文書のそれぞれ個々のメディアに対して、最低のコストの変換を選択するステップを含んでいることを特徴とする請求項1記載の方法。 - ステップf)とg)はそれ自体が、
f1)第2のマルチメディア文書の個々のメディアと比較される第1のマルチメディア文書の全ての個々のメディアに対して、類似性を探す関数として、ハイパーグラフ間の類似性の距離を参照してハイパーグラフを編集する原理に基づいてメディア間コスト関数を規定し、
f2)第1の複合マルチメディア文書のハイパーグラフが、第2の複合マルチメディア文書のハイパーグラフへ可能な限り近いハイパーグラフに変換されることを可能にする全ての可能な変換を探索し、
g1)ステップf1)で規定されたルールの適用で各変換のコストを決定し、
g2)最低のコストの変換を選択するステップを含んでいる請求項1マタハ2記載の方法。 - ステップc)とd)においてニューラルネットワークまたはシミュレートされたアニ―リングにより処理される遺伝アルゴリズム等の次善の最適化方法を実行し、それによって使用される最適化方法のコンテキストでコストが最も低い変換を生成することを特徴とする請求項1記載の方法。
- ステップf)とg)においてニューラルネットワークまたはシミュレートされたアニ―リングにより処理される遺伝アルゴリズム等の次善の最適化方法を実行し、それによって使用される最適化方法のコンテキストでコストが最も低い変換を生成することを特徴とする請求項1乃至4のいずれか1項記載の方法。
- メタ識別子が割当てられメタセグメントにセグメント化される第1の複合マルチメディア文書を比較するとき、地点間比較がユークリッド、パラメータLによるリーマン、Mahalanoisタイプの距離から選択されるベクトル距離によりベクトル類のメタセグメントについて行われ、それによってペアで比較されるメタセグメント間のペアリングのスコアを構成し、ハイパーグラフのメタセグメントを比較し、2つの文書のツリーのそれぞれ対応するブランチ間のペアリングの確率によってメタセグメントの地点間比較結果を加重することにより文書間の距離の合成されたスコアを生成することを特徴とする請求項1乃至5のいずれか1項記載の方法。
- データベース中にマルチメディア文書を記憶するために適用され、この記憶動作は、共通、同一または準同一であるブランチの自動的な階層的分類により保存されるマルチメディア文書のメタ識別子を表すハイパーグラフを組織することを含んでいることを特徴とする請求項7記載の方法。
- メタ識別子のセットおよび容易に認識されるように設計されたメタ識別子の部分を表す中間オブジェクトのセットとを既に含んでいるデータベース中に保存するためにマルチメディア文書に対応する新しいメタ識別子の付加において、
i)保存されるようにマルチメディア文書に含まれる種々の個々のメディアを符号化する個々のメタ識別子へ新しいメタ識別子を分解し、
ii)個々のメディア間の関係を生成するためにツリーを構成し、
iii)それぞれ個々のメディア内に関係を生成するためにツリーを生成するように個々の各メタ識別子に対してステップi)とii)を反復して適用し、ツリーは独立して記憶されるが、包含関係が個々のメディアと、考察中の前記個々のメディア内の関係を生成するためのツリー中の前記個々のメディアのコンポーネントとの間に関係を生成するためにツリーで記述された個々のメディア間にリンクをマークするために付加されるステップを含んでいることを特徴とする請求項7記載の方法。 - 新しいメタ識別子を分解するステップは、新しいメタ識別子に関連するハイパーグラフ全体を走査し、同一のメディアを有する隣接ノードのグループを選択することにより実行されることを特徴とする請求項8記載の方法。
- 個々のメディア間の関係を生成するツリーを構成するステップにおいて、
−ノードをそれぞれの個々のメタ識別子に関連付け、個々のメディアのノードをそれぞれのメタ識別子へリンクする関係をコピーし、一方同じ2つのノードをリンクする同一種類の関係を除去することにより、簡単化されたハイパーグラフを構成し、
−ノード数を増加することにより、ハイパーグラフを接続されたサブハイパーグラフへ細分し、
−同一数のノードを有する類似のサブハイパーグラフをクラスに組織化し、
−クラスのエレメントに対する単一の代表的な保持平均特性により各クラスを特徴付け、
−それらの代表の部分間の類似性関係によって階層的方法で先に規定されたクラスを組織化する動作を含んでいることを特徴とする請求項8または9記載の方法。 - データベース中に記録されたマルチメディア文書の検索に適用される方法において、
−論理的演算子により共にリンクされたマルチメディア文書をそれ自体が含んでいる複合リクエストを提示し、
−メタ識別子をデータベースのそれぞれのマルチメディア文書に割当て、メタ識別子はノードと、ノード間の関係の加重されたハイパーグラフの形態であり、関係するマルチメディア文書を構成する個々のメディアを明白な方法で識別するメタセグメントを含み、
−メタ識別子を複合リクエストに割当て、メタ識別子はノードと、ノード間の関係の加重されたハイパーグラフの形態であり、複合リクエストを構成する個々のメディアを明白に識別するメタセグメントを含み、
−データベースのそれぞれのマルチメディア文書の個々のメディアのメディア内関係の二次ツリーで反復を実行し、
−複合リクエストの個々のメディアのメディア内関係の二次ツリーで反復を実行し、
−データベースのそれぞれのマルチメディア文書の個々のメディア間のメディア間関係を生成するために主要なツリーで反復を実行し、
−複合リクエストの個々のメディア間のメディア間関係を生成する主要なツリーで反復を実行し、
―前記論理的演算子によりリンクされている複合リクエストの全てのハイパーグラフを結合して全体的なハイパーグラフを生成し、
−前記全体的なハイパーグラフを以下のステップの適用でデータベースのマルチメディア文書のハイパーグラフと比較し、そのステップは、
−複合リクエストのそれぞれの個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の個々のメディアのハイパーグラフとの一致を最大にする動作と、
−複合リクエストのそれぞれの個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の個々のメディアのハイパーグラフとの最大またはほぼ最大の一致に導く編集動作のコストを決定し、前記コストの関数として個々のメディア間の距離を表し、
−複合リクエストの全ての個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の全ての個々のメディアのハイパーグラフとの一致を最大にする動作と、
−複合リクエストの全ての個々のメディアのハイパーグラフに対して、データベースのそれぞれのマルチメディア文書の全ての個々のメディアのハイパーグラフとの最大またはほぼ最大の一致に導く編集動作のコストを決定し、前記コストの関数として複合リクエストとそれぞれのマルチメディア文書との間の距離を表し、
−先に計算されたコストの減少順序でデータベースのマルチメディア文書のリストを組織するステップを含んでいることを特徴とする請求項1乃至10のいずれか1項記載の方法。 - データベースのマルチメディア文書を個々に処理するステップは、複合リクエストを提示する前に実行され、前記個々に処理するステップの結果は異なる複合リクエストのセットを処理するために記憶され、データベースは共通に有している同一またはほぼ同一のブランチの自動的な階層的分類により保存されるマルチメディア文書のメタ識別子を表すハイパーグラフの配置を含み、複合リクエストのハイパーグラフ全体をデータベースの全てのマルチメディア文書のハイパーグラフと比較する代わりに、階層的検索はデータベースの全てのマルチメディア文書のハイパーグラフのクラスのツリー構造で実行され、比較は複合リクエストのハイパーグラフ全体と前記クラスの代表との間で実行されることを特徴とする請求項11記載の方法。
- イメージ、音声、ビデオ信号、動画化されたベクトルグラフィックおよびテキストを含むカテゴリから選択された少なくとも2つの個々のメディアを含んでいる複合マルチメディア文書をインデックスする方法において、
a)メタ識別子を複合マルチメディア文書に割当て、メタ識別子はノードと、前記ノード間の関係の加重されたハイパーグラフの形態であり、複合リクエストマルチメディア文書を構成する個々のマルチメディアを明白に識別するメタセグメントを含んでおり、
b)複合マルチメディア文書の個々のメディアのメディア内の関係の二次ツリー構造で反復を実行し、
c)複合マルチメディア文書の個々のメディア間のメディア間関係を生成するために主要なツリー構造で反復を実行するステップを含んでいることを特徴とする方法。 - データベースにマルチメディア文書を記憶するために適用され、この記憶動作は共通、同一または準同一であるブランチの自動的な階層的分類により保存されるマルチメディア文書のメタ識別子を表すハイパーグラフを組織化するステップを含んでいることを特徴とする請求項13記載の方法。
- メタ識別子のセットおよび容易に認識されるように設計されたメタ識別子の部分を表す中間オブジェクトのセットとを既に含んでいるデータベース中に保存するためにマルチメディア文書に対応する新しいメタ識別子の付加において、
i)保存されるようにマルチメディア文書に含まれる種々の個々のメディアを符号化する個々のメタ識別子へ新しいメタ識別子を分解し、
ii)個々のメディア間の関係を生成するためにツリーを構成し、
iii)それぞれ個々のメディア内の関係を生成するためにツリーを生成するようにそれぞれ個々のメタ識別子へステップi)とii)を反復して適用し、ツリーは独立して記憶されるが、包含関係が個々のメディアと、考察中の前記個々のメディア内の関係を生成するためのツリー中の前記個々のメディアのコンポーネントとの間に関係を生成するためにツリーで記述されている個々のメディア間にリンクをマークするために付加されるステップを含んでいることを特徴とする請求項14記載の方法。 - 新しいメタ識別子を分解するステップは、新しいメタ識別子に関係するハイパーグラフ全体を走査し、同一のメディアを有する隣接ノードのグループを選択することにより実行されることを特徴とする請求項15記載の方法。
- 個々のメディア間に関係を生成するツリーを構成するステップにおいて、
−ノードをそれぞれの個々のメタ識別子に関連付け、個々のメディアのノードをそれぞれのメタ識別子へリンクする関係をコピーしながら、同じ2つのノードをリンクする同一種類の関係を消去することにより、簡単化されたハイパーグラフを構成し、
−ノード数を増加することにより、ハイパーグラフを接続されたサブハイパーグラフへ細分し、
−同一数のノードを有する類似のサブハイパーグラフをクラスに組織化し、
−クラスのエレメントに対する単一の代表的な保持平均特性によって各クラスを特徴付け、
−それらの代表部分間の類似性関係によって階層的な方法で先に規定されたクラスを組織化する動作を含んでいることを特徴とする請求項14または15記載の方法。 - 少なくとも1つの個々のメディアはメディアの単一のカテゴリに属すモノメディア文書であることを特徴とする請求項1乃至17のいずれか1項記載の方法。
- 少なくとも1つの個々のメディアはそれ自体がメディアの異なるカテゴリに属するサブエレメントを含むマルチメディア文書である請求項1乃至17のいずれか1項記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0113223A FR2830958B1 (fr) | 2001-10-12 | 2001-10-12 | Procede d'indexation, de stockage et de comparaison de documents multimedia |
PCT/FR2002/003470 WO2003032196A2 (fr) | 2001-10-12 | 2002-10-11 | Procede d'indexation et de comparaison de documents multimedia |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005505081A true JP2005505081A (ja) | 2005-02-17 |
Family
ID=8868268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003535093A Pending JP2005505081A (ja) | 2001-10-12 | 2002-10-11 | マルチメディア文書のインデックスおよび比較方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1435054A2 (ja) |
JP (1) | JP2005505081A (ja) |
FR (1) | FR2830958B1 (ja) |
WO (1) | WO2003032196A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116419A (ja) * | 2007-11-02 | 2009-05-28 | Nidec Tosok Corp | 輪郭検出方法及び輪郭検出装置 |
KR101380605B1 (ko) * | 2012-03-30 | 2014-04-04 | 서울대학교산학협력단 | 하이퍼 그래프 기반 rdf 버전 관리 방법 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136066B (zh) * | 2019-05-23 | 2023-02-24 | 北京百度网讯科技有限公司 | 面向视频的超分辨率方法、装置、设备和存储介质 |
CN115329169B (zh) * | 2022-06-27 | 2023-10-20 | 海南电网有限责任公司信息通信分公司 | 一种基于深度神经模型的档案归档计算方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6243713B1 (en) * | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
-
2001
- 2001-10-12 FR FR0113223A patent/FR2830958B1/fr not_active Expired - Fee Related
-
2002
- 2002-10-11 JP JP2003535093A patent/JP2005505081A/ja active Pending
- 2002-10-11 WO PCT/FR2002/003470 patent/WO2003032196A2/fr active Application Filing
- 2002-10-11 EP EP02790506A patent/EP1435054A2/fr not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116419A (ja) * | 2007-11-02 | 2009-05-28 | Nidec Tosok Corp | 輪郭検出方法及び輪郭検出装置 |
KR101380605B1 (ko) * | 2012-03-30 | 2014-04-04 | 서울대학교산학협력단 | 하이퍼 그래프 기반 rdf 버전 관리 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP1435054A2 (fr) | 2004-07-07 |
WO2003032196A2 (fr) | 2003-04-17 |
FR2830958A1 (fr) | 2003-04-18 |
WO2003032196A3 (fr) | 2003-10-09 |
FR2830958B1 (fr) | 2004-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6988093B2 (en) | Process for indexing, storage and comparison of multimedia documents | |
US7124149B2 (en) | Method and apparatus for content representation and retrieval in concept model space | |
Zhu et al. | Theory of keyblock-based image retrieval | |
US8908997B2 (en) | Methods and apparatus for automated true object-based image analysis and retrieval | |
US20080168070A1 (en) | Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification | |
JP4643099B2 (ja) | 包括的オーディオ・ビジュアル・データ信号記述に対する基本的エンティティ−関係モデル | |
KR100471927B1 (ko) | 웹 기반 영상 데이터 검색 시스템 및 그 방법 | |
CN111353055B (zh) | 基于智能标签扩展元数据的编目方法及系统 | |
CN105678244B (zh) | 一种基于改进编辑距离的近似视频检索方法 | |
CN115617956A (zh) | 一种基于多模态注意力图谱的专利检索方法及系统 | |
CN116501875A (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
Wang et al. | Relevance feedback technique for content-based image retrieval using neural network learning | |
Marinai et al. | Tree clustering for layout-based document image retrieval | |
CN111475607A (zh) | 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法 | |
JP2005505081A (ja) | マルチメディア文書のインデックスおよび比較方法 | |
Mejdoub et al. | Fast algorithm for image database indexing based on lattice | |
Sebastine et al. | Semantic web for content based video retrieval | |
El-Qawasmeh | A quadtree-based representation technique for indexing and retrieval of image databases | |
Natsev et al. | CAMEL: concept annotated image libraries | |
Nayef et al. | Efficient symbol retrieval by building a symbol index from a collection of line drawings | |
Doulamis et al. | Efficient content-based image retrieval using fuzzy organization and optimal relevance feedback | |
Souvannavong et al. | Latent semantic indexing for semantic content detection of video shots | |
Gagnon et al. | MPEG-7 audio-visual indexing test-bed for video retrieval | |
Mustafa et al. | Creating agents for locating images of specific categories | |
Adjeroh et al. | Video sequence similarity matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080916 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090303 |