JP2006506731A

JP2006506731A - 意味的関連性に基づくコンテンツ抽出

Info

Publication number: JP2006506731A
Application number: JP2004552977A
Authority: JP
Inventors: リ，ドンジ; ディミトロワ，ネヴェンカ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-11-15
Filing date: 2003-11-07
Publication date: 2006-02-23
Also published as: US7120626B2; US20040098376A1; KR20050074991A; WO2004046965A2; WO2004046965A3; CN1723455A; KR101160597B1; AU2003274613A1; EP1563410A2; CN1723455B

Abstract

データ構造を介しデータアイテムを手動により関連付けする必要なく、ユーザによる１つのメディアモダリティによるマルチメディアアーカイブのクエリと他のメディアモダリティによる相関するデータの自動抽出を可能にする方法及びシステム。相関方法は、各モダリティの部分空間でのデータ分布に影響されることなく、データアイテム間の最大相関を求める。相関方向が明らかになると、抽出された特徴が１つの部分空間から他の部分空間に転送することができる。

Description

本発明は、マルチメディアデータ抽出の技術分野に関する。より詳細には、本発明は、データ構造を介しデータアイテムを相互に関連付ける必要なく、ユーザが１つのメディアモダリティにおいてマルチメディアアーカイブをクエリし、他のメディアモダリティにおける相関データを自動的に抽出することを可能にする方法及びシステムに関する。

本出願は、２００２年２月１４日に出願されたＭ．Ｌｉ、Ｄ．Ｌｉ及びＮ．Ｄｉｍｉｔｒｏｖａの発明による譲受人の米国特許出願第１０/０７６，１９４号「ＳｐｅａｋｉｎｇＦａｃｅＤｅｔｅｃｔｉｏｎｉｎＴＶＤｏｍａｉｎ」を参照することにより含む。このＬｉの出願は、本発明の背景を与えるものである。

過去１０年間に、マルチメディアアプリケーションの数は指数的に増大し、マルチメディアコンテンツのボリュームは、急激に増え続けている。計算パワーの向上、ワールドワイドウェブの拡大及びよりコンパクトかつ安価な記憶媒体の利用可能性が、このような拡大を促してきた。当然のことながら、マルチメディアコンテンツベースの抽出に対する関心もまた、これらの現象を反映して増大している。

しかしながら、マルチメディアコンテンツを抽出するための既存のアプローチは、限られている。例えば、画像を抽出するのにマルチメディアデータベースをクエリするため、このクエリは画像形式をとる必要がある。例えば、クエリとして滝の音を用いて滝の画像を抽出することはできない。キーワードによる基本的なメディア間の抽出を除いて、抽出は１つのマルチメディア領域に限定され続ける。

米国特許出願第１０/０７６，１９４号は、顔認識の必要なく顔画像と発話を関連付けするシステム及び方法を開示している。オブジェクト検出モジュールが、映像顔データから複数のオブジェクト特徴を提供し、音声セグメント化モジュールが、映像に関係する複数の音声発話特徴を提供する。ＬＳＩ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）技術は、これらのオブジェクト特徴を相互に関連付けし、映像において発話を行っている顔を決定するのに利用される。当該出願は、データ抽出を開示するものでなく、また音声と映像モダリティのみを扱っている。

Ｈｓｅらによる米国特許第６，１５４，７５４号「ＡｕｔｏｍａｔｉｃＳｙｎｔｈｅｓｉｓｏｆＳｅｍａｎｔｉｃＩｎｆｏｒｍａｔｉｏｎＦｒｏｍＭｕｌｔｉｍｅｄｉａＤｏｃｕｍｅｎｔｓ」は、非テキスト媒体の階層的情報構造を構築するシステムを開示している。テキスト及び非テキスト媒体から抽出される情報は、ＡＩＵ（ＡｎｃｈｏｒａｂｌｅＩｎｆｏｒｍａｔｉｏｎＵｎｉｔ）と呼ばれ、同様の方法により処理できるように、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）により共に表現される。ＡＩＵオブジェクトは、１以上の構文解析可能な文字列またはＡＳＣＩＩ文字列のシーケンスである。当該特許は、テキスト変換に基づくテキスト及び非テキスト媒体ドキュメントのリンク付けに関するものであり、例えば、映像セグメントの抽出を解決するものでない。

Ｂａｌｌらによる欧州特許出願ＥＰ１１２０７２０Ａ２「ＵｓｅｒＩｎｔｅｒｆａｃｅｆｏｒＤａｔａＰｒｅｓｅｎｔａｔｉｏｎＳｙｓｔｅｍｓ」は、ユーザインタフェースを向上させる方法を開示する。ユーザは、テキストや発話などの自然言語形式あるいはポイント指定やクリックなどによりユーザのクエリを与えると、当該方法によりこのクエリがテキスト抽出のための標準的なデータベースクエリに変換される。自然言語クエリが効果的に変換できない場合、ユーザに追加的情報が与えられ、ユーザにクエリを促し続ける。本出願は、情報のモダリティ間の抽出を解決するものでない。

国際特許出願ＷＯ００/４５３０７Ａ１「ＭｕｌｔｉｍｅｄｉａＡｒｃｈｉｖｅＤｅｓｃｒｉｐｔｉｏｎＳｃｈｅｍｅ」は、マルチメディアレコード群に対する記述方式を開示している。この手法は、クラスタと呼ばれるデータ構造を利用したレコードに関連するものである。クラスタは、類似性に関するレコード記述の属性を評価することにより形成される。クラスタは、他のクラスタを形成するようグループ化することができる。クラスタの例としては、「芸術」、「歴史」、「表現派」、「印象派」などがあげられる。各レコードに対しクラスタ情報が格納されることが求められ、レコードを抽出できるクエリのタイプが制限される。

米国特許出願公報ＵＳ２００１/００２８７３１Ａ１「ＣａｎｏｎｉｃａｌＣｏｒｒｅｌａｔｉｏｎＡｎａｌｙｓｉｓｏｆＩｍａｇｅ/Ｃｏｎｔｒｏｌ−ＰｏｉｎｔＬｏｃａｔｉｏｎＣｏｕｐｌｉｎｇｆｏｒｔｈｅＡｕｔｏｍａｔｉｃＬｏｃａｔｉｏｎｏｆＣｏｎｔｒｏｌＰｏｉｎｔｓ」は、観察可能なデータに基づき隠されたデータ（制御ポイント）を導出する方法を開示している。制御ポイントのグループは、口などの関心特徴を位置決定するのに利用され、口の端、唇の内部及び外部の縁及び中心に配置される。当該システムは、マークされていない画像上にこれらの制御ポイントを配置するモデルの生成方法を開示している。このシステムは、単一メディアモダリティシステムであり、データを抽出するものでない。

Ｓａｖｃｈｅｎｋｏらによる米国特許第６，３４３，２９８Ｂ１号「ＳｅａｍｌｅｓｓＭｕｌｔｉｍｅｄｉａＢｒａｎｃｈｉｎｇ」は、マルチメディアタイトルの著者決定及びマルチメディアコンテンツの格納を行う方法を開示し、これにより、高いシーク遅延及び当該遅延に関する固定的上限によるデジタルメディア上のシームレスなブランチ処理を実現する。連続的なメディアコンテンツは、記憶媒体上に個々のクリップとして構成され、クリップ間のシームレスなブランチが著者により特定される。シームレスを保証し、メモリの使用とシームレスなジャンプの利用性を最適化するため、個々のクリップはキャリアクリップまたは非キャリアクリップとして特定される。対象となるメディアクリップのブリッジデータは、インタリーブされるか、あるいはこの対象となるメディアクリップの上流にあるキャリアクリップと記憶媒体上で関連付けされ、上流のメディアクリップと共に送出される。これは、自動システムではなく、統計的方法を利用するものでない。

以上より、オブジェクト間の関連付けを格納することなく、第２のモダリティで他のメディアオブジェクトと関連するメディアオブジェクトを第１のモダリティにより自動抽出することが可能なモダリティ間システムが必要とされる。異なるメディアソースをそれらの意味的関連付けに基づき統合する能力と共に、異質なマルチメディアコンテンツをシームレスにブラウジングする手段が必要とされる。

本発明は、あるタイプのメディアからその他のメディアへのブラウジングがスムースに行われるように、異なるタイプのマルチメディアコンテンツ間の関連付けを構築するためのシステム（すなわち、方法、装置及びコンピュータ実行可能プロセスステップ）を提供することにより上記要請を解決する。この関連付けは、当該技術分野では周知な正準相関統計技術を利用して、意味的関連付け（相関）に基づく２次元空間における視覚的特徴などの１つのモダリティの低レベルの特徴を音声的特徴などの他のモダリティの低レベルの特徴にマッピングすることにより構築される。本発明はまた、同じモダリティでのクエリ及び抽出を行うのに利用されてもよい。

まず、本システムには、特徴が抽出されるマルチメディアサンプルが与えられる。例えば、テクスチャ、カラーやエッジなどの視覚的特徴が爆発の映像クリップから抽出され、帯域幅、ピッチやＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）などの特徴が爆発音の音声クリップから抽出される。抽出対象の特徴及び抽出方法は、当該技術分野では周知である。

これら２つの特徴集合の間の相関は一見したところでは自明ではないようであるかもしれないが、詳細な調査により、実際には相関があることが示される。例えば、一例として爆発を用いると、赤の拡大などのカラーが映像から抽出され、ピッチパターンや振幅変化により特徴付けされる音声が音声から抽出される。統計的解析により、これらの特徴の間の相関が示され、音声と映像をリンク付けするための関連付けのパターンが与えられる。

正準相関の統計的技術により、特徴集合Ｘを有する候補となる画像Ａと特徴集合Ｙを有する音声クリップＢとの相関を決定するのに利用される最適化された行列ＡとＢが生成される。これらの行列は、Ｙ（またはＸ）を用いてＸ（またはＹ）を評価するのに利用可能である。言い換えると、相関は双方向的なものであり、この結果、関連する映像を抽出するのに音声クリップが利用可能であり、関連する映像が音声クリップを抽出するのに利用可能である。あるいは、当該技術分野では周知なＬＳＩ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）技術が、上記行列を構成するのに利用可能である。

本発明は、ユーザによる帯域幅を最小化するような異なるモダリティのマルチメディアコンテンツのブラウズ及びサーチを可能にするという効果を有する。例えば、インターネットなどのネットワークを介し画像形式によりクエリをわたす代わりに、音声クエリのみが画像を抽出するのに送信される必要がある。

本発明はまた、画像を含むマルチメディアデータベースをクエリするのに必要な装置のコストを低下させる効果を有する。クエリは、グラフィック入力装置を要することなく、例えば、マイクのみを用いて構成することが可能である。

本発明はまた、不良な入力を補償する効果を有する。例えば、音声が背景の雑音により不良となっている場合、代わりに関連する視覚的特徴がクエリの基礎として利用できる。

本発明はまた、ユーザにマルチメディアデータベースをブラウズするより広範な選択を提供する。これは、ユーザにより選好され、最も精通したモダリティの選択が可能となるためである。例えば、子供は、ディズニーのキャラクタのシンバの音声（叫び）を発声し、キャラクタの名前を綴る文字をタイプの仕方を知る必要なく、シンバの画像を抽出することが可能となる。

本発明は、音声及び画像検索に限定されるものでなく、味覚、痙攣的な皮膚反応あるいは触覚的特徴などの他のモダリティを利用することができる。例えば、あるワインの香りは、上述の特徴抽出及び相関と同様の技術を用いて、ぶどう、ぶどう園や原産地などのワインに関する特定のための情報を抽出するのに、クエリとして利用可能である。香りの場合には、化学的特徴が抽出され、デジタル表示される。同様に、本発明による技術は、個人の画像などの個人に関する情報と網膜像などの生体データを関連付けするのに利用可能である。これにより、クエリの基礎としてモダリティを利用し、他の任意のモダリティにより情報を抽出することにより、ユーザは異なるモダリティにより個人の特徴のマルチメディアデータベースをクエリすることができるようになる。

相関処理を介し構成された関連付けはまた、アバタ（ａｖａｔａｒ）を実際に動作させるのに利用可能である。例えば、アバタが「ストップ」という言葉を発すると、アバタの顔がこの単語に関連付けされた方法に従って動作する。本発明はまた、ＴｈｅＯｆｆｉｃｉａｌＳｍｉｌｅｙＤｉｃｔｉｏｎａｒｙ（付録を参照せよ）に描かれたものなどの感情を検索するのに利用可能である。この例では、抽出は「怒った」音声や「幸せな顔」などであり、クエリは関連する単語やフレーズである。

本発明のさらなる特徴及び様々な効果は、添付した図面と好適な実施例に関する以下の詳細な説明からより明らかとなるであろう。

図１は、本発明の実現が可能なシステムを示す。好適な実施例では、本システムは、データ処理装置により実行されるコンピュータ読み出し可能なコードにより実現される。このコードは、データ処理装置内のメモリに格納されてもよいし、あるいはＤＶＤ/ＣＤ−ＲＯＭやフロッピー（登録商標）ディスクなどの記憶媒体から読み出し/ダウンロードされてもよい。他の実施例では、本発明を実現するソフトウェア命令の代わりに、あるいはそれらと共にハードウェア回路が利用されてもよい。例えば、本発明は、処理のためのＴｒｉｍｅｄｉａプロセッサを用いたデジタルテレビプラットフォームまたはセットトップボックスと表示のためのテレビモニタ上で実現されてもよい。

図１に示されるように、コンピュータ１００は、可変帯域幅ネットワークやインターネットなどのデータネットワークとのインタフェースをとるためのネットワーク接続１０１、及び/またはビデオまたはデジタルカメラ（図示せず）などの他のリモートソース１０２とインタフェースをとるためのファックス/モデム接続を有する。本システムはまた、スタンドアローンモードで動作するようにしてもよい。コンピュータ１００はまた、ユーザに情報（映像データを含む）を表示するためのディスプレイ１０３と、クエリや他のコマンドを入力するためのキーボード、マイクやグラフィックタブレットなどの入力装置１０４と、ディスプレイ１０３上のカーソルを位置決定し、ユーザコマンドを入力するためのマウス１０５と、インストールされたフロッピー（登録商標）ディスクの読み出し及び書き込みを行うためのディスクドライブ１０６と、ＣＤ−ＲＯＭやＤＶＤに格納されている情報にアクセスするためのＣＤ−ＲＯＭ/ＤＶＤドライブ１０７とを有する。コンピュータ１００はまた、画像などを入力するためのテレビ会議カメラのペアや画像、テキストなどを出力するプリンタ１０８などの付属の１以上の周辺装置を有するようにしてもよい。

他の実施例は、ハードウェアとソフトウェアの両方による各種手段により実現されてもよい。例えば、ラップトップまたはパームトップコンピュータ、テレビ会議システム、携帯情報端末（ＰＤＡ）、ディスプレイを備えた電話、テレビ、セットトップボックスあるいは他の任意のタイプの類似する装置がまた利用されてもよい。

図２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）及びハードディスクなどのコンピュータ読み出し可能な媒体を有するメモリ１１０を有するコンピュータ１００の内部構成を示す。メモリ１１０に格納されているアイテムには、オペレーティングシステム、各種データ及びアプリケーションが含まれる。メモリ１１０に格納されているアプリケーションには、映像符号化装置、映像復号化装置及びフレーム抽出装置が含まれる。映像符号化装置は、従来方法により映像データを符号化し、映像復号化装置は、従来方法により符号化された映像データを復号する。フレーム抽出装置は、映像信号ストリームからのフレームのキャプチャ及び処理を行うことを可能にする。

また、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１２０と、通信インタフェース１２１と、メモリインタフェース１２２と、ＣＤ−ＲＯＭ/ＤＶＤドライブインタフェース１２３と、映像インタフェース１２４と、バス１２５が、コンピュータ１００に含まれる。ＣＰＵ１２０は、メモリ１１０からの上述のアプリケーションアドのコンピュータ読み出し可能コードを実行するためのマイクロプロセッサなどを有する。このようなアプリケーションは、メモリ１１０に格納されてもよいし（上述のように）、あるいはディスクドライブ１０６のフロッピー（登録商標）ディスクやＣＤ−ＲＯＭドライブ１０７のＣＤ−ＲＯＭに格納されてもよい。ＣＰＵ１２０は、メモリインタフェース１２２を介しフロッピー（登録商標）ディスクに格納されているアプリケーション（または他のデータ）にアクセスするとともに、ＣＤ−ＲＯＭドライブインタフェース１２３を介しＣＲ−ＲＯＭ上に格納されているアプリケーション（または他のデータ）にアクセスする。

ＣＰＵ１２０は、例えば、マイクロプロセッサ、ＣＰＵ，コンピュータ、回路カード、デジタル信号プロセッサあるいはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ−ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）を表すものであってもよい。メモリ１１０は、例えば、ディスクベースの光または磁気記憶ユニット、電子メモリ、上記または他の記憶装置の一部または組み合わせを表すものであってもよい。

システム１０に関する各種機能動作は、メモリ１１０に格納され、ＣＰＵ１２０により実行される１以上のソフトウェアプログラムにおいてすべてまたは部分的に実現されてもよい。このタイプの計算及びメディア処理装置は、先進的なセットトップボックスの一部であってもよい。

図３と３ａは、本発明の動作を示す。図３において、映像１４０は、図２の映像インタフェース１２４を介し図２のＣＰＵ１２０に入力される。映像１４０は、音声と視覚要素である視覚１４２と音声１４４に分離される。画像特徴抽出ステップ１４６により、視覚１４２から視覚的特徴が抽出され、音声特徴抽出ステップ１４８により、音声１４４から音声的特徴が抽出される。このプロセスは、Ｍ．Ｌｉ、Ｄ．Ｌｉ及びＮ．Ｄｉｍｉｔｒｏｖａの発明による２００２年２月１４日に出願された米国特許出願第１０/０７６，１９４号「ＳｐｅａｋｉｎｇＦａｃｅＤｅｔｅｃｔｉｏｎｉｎＴＶＤｏｍａｉｎ」の１０〜１１ページに十分に記載されている。

ステップ１５０において、本システムは、マルチメディアデータベースに格納される情報のタイプを表すサンプル入力に関してトレーニングされる。ステップ１５２において、ＸとＹにより表される音声及び視覚情報の共分散が計算される。ステップ１５４において、特異値分解が共分散行列に実行され、中間的な積ＵＳＶ^Ｔが生成される。ステップ１５６において、例えば、映像を音声とより良好に相関する空間に変換する行列ＡとＢが導出される。

ステップ１５２〜１５６は、以下のように数学的に説明することができる。

ＡＸとＢＹとの相関が最大となるようにＡ＝Ｃ_ｘｘ ^−１/２ＵとＢ＝Ｃ_ｙｙ ^−１/２Ｖが求められる。ＡとＢは直交行列であり、ｄｅｔ（Ａ）＝ｄｅｔ（Ｂ）＝１となる。ここで、

である。

ＸとＹは、異なるモダリティからの特徴集合である。Ｃ_ｘｘ、Ｃ_ｙｙ及びＣ_ｘｙは、共分散行列である。Ｍ_ｘとＭ_ｙは、平均ベクトルである。Ｕ、Ｓ及びＶは、特異値分解から得られる。

上記数学的操作の効果は、各特徴集合の分布に関係なく最適な相関を求めることができるということである。以下の図では、正準相関（ｃａｎｏｎｉｃａｌｃｏｒｒｅｌａｔｉｏｎ）手順により開示される相関方向は、ａ１と
（外１）

部分空間との間にある。開示されている相関方向は、ｖ１とｖ２の部分空間上の分布による影響を受けない。

相関方向が求められると、上記の式を用いて、音声から映像などのある部分空間から他の部分空間への特徴の移転を行うことができる。

図３ａに戻って、ステップ１５８において、Ａ及びＢ行列が格納される。ステップ１６０において、映像（Ｘ）と音声（Ｙ）を用いたクエリが、マルチメディアデータベースに対し初期化される。ステップ１６２において、Ａ及びＢ行列がＸとＹを関連付けるのに用いられる。モダリティＸからのクエリがあるとき、抽出されたＸの特徴を利用してＡＸを計算することができる。その後、モダリティＢに対するデータベースのすべてのアイテムに対して、ＢＹを計算することができる。モダリティＹからのクエリがあるとき、Ｙの抽出された特徴を利用して、ＢＹを計算することができる。その後、モダリティＡに対するデータベースのすべてのアイテムに対して、ＡＸを計算することができる。

ＡＸとＢＹを計算した後、データベースからＡＸとＢＹとの間の相関が最大となるＸまたはＹが検索される。従って、例えば、クエリアイテムが「シンバの叫び」であった場合、検索アイテムは、例えば、シンバの画像となりうる。この例に対し、ステップ１６４において、シンバのいくつかの画像が抽出され、ステップ１６６において表示される。

本発明が、特定の例示的な実施例に関して説明された。本発明は、上記実施例及び改良に限定されるものでなく、添付された請求項の趣旨及び範囲を逸脱することなく、当業者により様々な変更及び改良が可能である。

図１は、本発明の実現が可能なシステムを示す。図２は、上記システムの概念図である。図３は、上記システムの動作を示すフローチャートである。図３ａは、上記システムの動作を示すフローチャートである。

Claims

複数のメディアモダリティのクエリを生成可能なクエリモジュールと、
複数のメディアモダリティを表すデータを格納可能なデータベースと、
前記クエリから複数の第１オブジェクト特徴と前記データベースから複数の第２オブジェクト特徴を抽出可能なオブジェクト検出モジュールと、
前記オブジェクト検出モジュールに結合されるプロセッサと、
を有するマルチメディアシステムであって、
前記複数の第１及び第２オブジェクト特徴は、異なるモダリティを表すメディアから抽出され、
前記プロセッサは、前記複数の第１オブジェクト特徴と前記複数の第２オブジェクト特徴との間の相関を決定し、所定の最大相関度に少なくとも等しい相関を有するアイテムを前記データベースから抽出するよう構成される、
ことを特徴とするシステム。
請求項１記載のマルチメディアシステムであって、
該システムは、抽出前にサンプルデータを用いてモダリティ間メディアを相関させるようトレーニングされることを特徴とするシステム。
請求項１記載のマルチメディアシステムであって、
前記相関は、正準相関法を利用して計算されることを特徴とするシステム。
請求項１記載のマルチメディアシステムであって、
前記相関は、ＬＳＩ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）法を利用して計算されることを特徴とするシステム。
請求項２記載のマルチメディアシステムであって、
前記トレーニングは、直交行列Ａ＝Ｃ_ｘｘ ^−１/２ＵとＢ＝Ｃ_ｙｙ ^−１/２Ｖを生成し（ここで、ｄｅｔ（Ａ）＝ｄｅｔ（Ｂ）＝１かつ

である）、
第１モダリティの第１特徴集合を表すＡＸと第２モダリティの第２特徴集合を表すＢＹとの間の相関は最大となり、これにより、前記第１モダリティから前記第２モダリティへの特徴の移転が可能となる、
ことを特徴とするシステム。
請求項５記載のマルチメディアシステムであって、
前記第１特徴集合を表すＡＸのクエリは、前記第２特徴集合を表すＢＹの前記クエリの結果のみが与えられると、ＢＹはＡＸと最大の相関を有することから特定可能であることを特徴とするシステム。
ユーザが関心を有する少なくとも１つのアイテムをマルチメディアアーカイブから抽出する方法であって、
クエリを生成するステップと、
第１モダリティを表す複数の第１オブジェクト特徴を前記クエリから抽出するステップと、
第２モダリティを表す複数の第２オブジェクト特徴を前記マルチメディアアーカイブのアイテムから抽出するステップと、
前記複数の第１オブジェクト特徴と前記複数の第２オブジェクト特徴との間の相関を決定するステップと、
前記クエリの所定の最大相関度に少なくとも等しいオブジェクト特徴と相関を有するオブジェクト特徴を有するアイテムを前記アーカイブから抽出するステップと、
を有することを特徴とする方法。
請求項７記載の方法であって、さらに、
モダリティ間メディアと相関させるのに用いられる相関行列を生成するため、サンプルデータを利用するステップを有することを特徴とする方法。
請求項７記載の方法であって、
前記相関方法は、正準相関であることを特徴とする方法。
請求項７記載の方法であって、
前記相関方法は、ＬＳＩ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）であることを特徴とする方法。
請求項７記載の方法であって、
前記生成される行列は、直交行列Ａ＝Ｃ_ｘｘ ^−１/２ＵとＢ＝Ｃ_ｙｙ ^−１/２Ｖにより表され（ここで、ｄｅｔ（Ａ）＝ｄｅｔ（Ｂ）＝１かつ

である）、
第１モダリティの第１特徴集合を表すＡＸと第２モダリティの第２特徴集合を表すＢＹとの間の相関は最大となり、これにより、前記第１モダリティから前記第２モダリティへの特徴の移転が可能となる、
ことを特徴とする方法。
請求項１１記載の方法であって、
前記第１特徴集合を表すＡＸのクエリは、前記第２特徴集合を表すＢＹの前記クエリの結果のみが与えられると、ＢＹはＡＸと最大の相関を有することから特定可能であることを特徴とする方法。
ユーザによるマルチメディアのデータベースからの関心のあるメディアの抽出を可能にするコンピュータ読み出し可能媒体に格納されているコンピュータ実行可能処理ステップであって、
前記ユーザから第１メディアモダリティのクエリを取得するクエリ生成ステップと、
前記クエリから複数の第１オブジェクト特徴を抽出する第１抽出ステップと、
マルチメディアアーカイブのアイテムから第２メディアモダリティを表す複数の第２オブジェクト特徴を抽出する第２抽出ステップと、
前記複数の第１オブジェクト特徴と前記複数の第２オブジェクト特徴との間の相関を決定する相関計算ステップと、
前記クエリの所定の最大相関度に少なくとも等しいオブジェクト特徴と相関を有するオブジェクト特徴を有するアイテムを前記アーカイブから抽出する抽出ステップと、
を有することを特徴とするステップ。
マルチメディアアーカイブからユーザに関心のある少なくとも１つのアイテムを抽出する手段であって、
第１メディアモダリティのクエリを生成する手段と、
前記クエリから複数の第１オブジェクト特徴を抽出する手段と、
前記マルチメディアアーカイブのアイテムから複数の第２オブジェクト特徴を抽出する手段と、
前記複数の第１オブジェクト特徴と第２メディアモダリティから抽出される前記複数の第２オブジェクト特徴との間の相関を決定する手段と、
前記クエリの所定の最大相関度に少なくとも等しいオブジェクト特徴と相関を有するオブジェクト特徴を有するアイテムを前記アーカイブから抽出する手段と、
を有することを特徴とする手段。
マルチメディアアーカイブからキャラクタの少なくとも１つの映像クリップを抽出する方法であって、
前記キャラクタの声の音声クリップを有するクエリを生成するステップと、
前記クエリから複数の音声特徴を抽出するステップと、
前記マルチメディアアーカイブの各映像クリップから複数の映像特徴を抽出するステップと、
前記複数の音声特徴と前記複数の映像特徴との間の相関を計算するステップと、
前記音声と前記映像との間の相関度を最大化することに基づき、前記キャラクタが発話する少なくとも１つの映像クリップを抽出するステップと、
を有することを特徴とする方法。
マルチメディアアーカイブ内に格納されている人物の少なくとも１つの画像を抽出する方法であって、
前記人物の生体的特徴を有するクエリを生成するステップと、
前記クエリから複数の視覚的特徴を抽出するステップと、
前記マルチメディアアーカイブの各画像から複数の視覚的特徴を抽出するステップと、
前記アーカイブからの複数の視覚的特徴と前記クエリからの複数の視覚的特徴との間の相関を計算するステップと、
前記アーカイブからの複数の視覚的特徴と前記クエリからの複数の視覚的特徴との間の相関度を最大化することに基づき、前記人物の少なくとも１つの画像を抽出するステップと、
を有することを特徴とする方法。
請求項１６記載の方法であって、
前記生体的特徴は、網膜像であることを特徴とする方法。
マルチメディアアーカイブ内に格納されている未知の液体を特定する少なくとも１つの情報アイテムを抽出する方法であって、
香りを有するクエリを生成するステップと、
前記クエリからデジタル表示される複数の化学的特徴を抽出するステップと、
前記マルチメディアアーカイブの各テキストアイテムから複数のテキスト特徴を抽出するステップと、
前記クエリから抽出された複数の化学的特徴と前記マルチメディアアーカイブから抽出された複数のテキスト特徴との間の相関を計算するステップと、
前記クエリから抽出された複数の化学的特徴と前記マルチメディアアーカイブから抽出された複数のテキスト特徴との間の相関度を最大化することに基づき、前記未知の液体を特定する少なくとも１つの情報アイテムを抽出するステップと、
を有することを特徴とする方法。
請求項１８記載の方法であって、
前記未知の液体は、飲料であることを特徴とする方法。
マルチメディアアーカイブから標準的な感情リストから選ばれた感情に関連する音声を抽出する方法であって、
前記感情に対する単語を有するクエリを生成するステップと、
前記クエリから複数のテキスト特徴を抽出するステップと、
前記マルチメディアアーカイブの各音声に対する複数の音声特徴を抽出するステップと、
前記クエリから抽出された複数のテキスト特徴と前記マルチメディアアーカイブから抽出された複数の音声特徴との間の相関を計算するステップと、
前記クエリから抽出された複数のテキスト特徴と前記マルチメディアアーカイブから抽出された複数の音声特徴との間の相関度を最大化することに基づき、少なくとも１つの音声を抽出するステップと、
を有することを特徴とする方法。
第１メディアモダリティのクエリを、第２メディアモダリティの前記クエリの結果のみが初期的にわかっているときに抽出する方法であって、
前記第２モダリティの特徴を前記第１モダリティに相関する特徴空間に変換するため格納され、前記第１モダリティＡのアイテムと前記第２モダリティのアイテムを相関させるためのトレーニング処理中に、Ａ＝Ｃ_ｘｘ ^−１/２ＵとＢ＝Ｃ_ｙｙ ^−１/２Ｖとなり（ここで、ｄｅｔ（Ａ）＝ｄｅｔ（Ｂ）＝１かつ

となる)、前記第１モダリティの第１特徴集合を表すＡＸと前記第２モダリティの第２特徴集合を表すＢＹとの間の相関が最大となるように行列Ｂを抽出するステップと、
前記第２モダリティのアイテムからオブジェクト特徴を抽出するステップと、
前記第２モダリティに対するＡＹを計算するステップと、
マルチメディアデータベースに格納されている前記第１モダリティのアイテムからオブジェクト特徴を抽出するステップと、
前記各アイテムに対するＡＸを計算するステップと、
ＡＸとＡＹを相関させるステップと、
ＡＸとＢＹとの間の最大相関を有するＸを抽出するステップと、
を有することを特徴とする方法。