JP2006506731A - 意味的関連性に基づくコンテンツ抽出 - Google Patents

意味的関連性に基づくコンテンツ抽出 Download PDF

Info

Publication number
JP2006506731A
JP2006506731A JP2004552977A JP2004552977A JP2006506731A JP 2006506731 A JP2006506731 A JP 2006506731A JP 2004552977 A JP2004552977 A JP 2004552977A JP 2004552977 A JP2004552977 A JP 2004552977A JP 2006506731 A JP2006506731 A JP 2006506731A
Authority
JP
Japan
Prior art keywords
query
features
extracting
correlation
modality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004552977A
Other languages
English (en)
Inventor
リ,ドンジ
ディミトロワ,ネヴェンカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2006506731A publication Critical patent/JP2006506731A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/437Administration of user profiles, e.g. generation, initialisation, adaptation, distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

データ構造を介しデータアイテムを手動により関連付けする必要なく、ユーザによる1つのメディアモダリティによるマルチメディアアーカイブのクエリと他のメディアモダリティによる相関するデータの自動抽出を可能にする方法及びシステム。相関方法は、各モダリティの部分空間でのデータ分布に影響されることなく、データアイテム間の最大相関を求める。相関方向が明らかになると、抽出された特徴が1つの部分空間から他の部分空間に転送することができる。

Description

本発明は、マルチメディアデータ抽出の技術分野に関する。より詳細には、本発明は、データ構造を介しデータアイテムを相互に関連付ける必要なく、ユーザが1つのメディアモダリティにおいてマルチメディアアーカイブをクエリし、他のメディアモダリティにおける相関データを自動的に抽出することを可能にする方法及びシステムに関する。
本出願は、2002年2月14日に出願されたM.Li、D.Li及びN.Dimitrovaの発明による譲受人の米国特許出願第10/076,194号「Speaking Face Detection in TV Domain」を参照することにより含む。このLiの出願は、本発明の背景を与えるものである。
過去10年間に、マルチメディアアプリケーションの数は指数的に増大し、マルチメディアコンテンツのボリュームは、急激に増え続けている。計算パワーの向上、ワールドワイドウェブの拡大及びよりコンパクトかつ安価な記憶媒体の利用可能性が、このような拡大を促してきた。当然のことながら、マルチメディアコンテンツベースの抽出に対する関心もまた、これらの現象を反映して増大している。
しかしながら、マルチメディアコンテンツを抽出するための既存のアプローチは、限られている。例えば、画像を抽出するのにマルチメディアデータベースをクエリするため、このクエリは画像形式をとる必要がある。例えば、クエリとして滝の音を用いて滝の画像を抽出することはできない。キーワードによる基本的なメディア間の抽出を除いて、抽出は1つのマルチメディア領域に限定され続ける。
米国特許出願第10/076,194号は、顔認識の必要なく顔画像と発話を関連付けするシステム及び方法を開示している。オブジェクト検出モジュールが、映像顔データから複数のオブジェクト特徴を提供し、音声セグメント化モジュールが、映像に関係する複数の音声発話特徴を提供する。LSI(Latent Semantic Indexing)技術は、これらのオブジェクト特徴を相互に関連付けし、映像において発話を行っている顔を決定するのに利用される。当該出願は、データ抽出を開示するものでなく、また音声と映像モダリティのみを扱っている。
Hseらによる米国特許第6,154,754号「Automatic Synthesis of Semantic Information From Multimedia Documents」は、非テキスト媒体の階層的情報構造を構築するシステムを開示している。テキスト及び非テキスト媒体から抽出される情報は、AIU(Anchorable Information Unit)と呼ばれ、同様の方法により処理できるように、SGML(Standard Generalized Markup Language)により共に表現される。AIUオブジェクトは、1以上の構文解析可能な文字列またはASCII文字列のシーケンスである。当該特許は、テキスト変換に基づくテキスト及び非テキスト媒体ドキュメントのリンク付けに関するものであり、例えば、映像セグメントの抽出を解決するものでない。
Ballらによる欧州特許出願EP1120720A2「User Interface for Data Presentation Systems」は、ユーザインタフェースを向上させる方法を開示する。ユーザは、テキストや発話などの自然言語形式あるいはポイント指定やクリックなどによりユーザのクエリを与えると、当該方法によりこのクエリがテキスト抽出のための標準的なデータベースクエリに変換される。自然言語クエリが効果的に変換できない場合、ユーザに追加的情報が与えられ、ユーザにクエリを促し続ける。本出願は、情報のモダリティ間の抽出を解決するものでない。
国際特許出願WO00/45307A1「Multimedia Archive Description Scheme」は、マルチメディアレコード群に対する記述方式を開示している。この手法は、クラスタと呼ばれるデータ構造を利用したレコードに関連するものである。クラスタは、類似性に関するレコード記述の属性を評価することにより形成される。クラスタは、他のクラスタを形成するようグループ化することができる。クラスタの例としては、「芸術」、「歴史」、「表現派」、「印象派」などがあげられる。各レコードに対しクラスタ情報が格納されることが求められ、レコードを抽出できるクエリのタイプが制限される。
米国特許出願公報US2001/0028731A1「Canonical Correlation Analysis of Image/Control−Point Location Coupling for the Automatic Location of Control Points」は、観察可能なデータに基づき隠されたデータ(制御ポイント)を導出する方法を開示している。制御ポイントのグループは、口などの関心特徴を位置決定するのに利用され、口の端、唇の内部及び外部の縁及び中心に配置される。当該システムは、マークされていない画像上にこれらの制御ポイントを配置するモデルの生成方法を開示している。このシステムは、単一メディアモダリティシステムであり、データを抽出するものでない。
Savchenkoらによる米国特許第6,343,298B1号「Seamless Multimedia Branching」は、マルチメディアタイトルの著者決定及びマルチメディアコンテンツの格納を行う方法を開示し、これにより、高いシーク遅延及び当該遅延に関する固定的上限によるデジタルメディア上のシームレスなブランチ処理を実現する。連続的なメディアコンテンツは、記憶媒体上に個々のクリップとして構成され、クリップ間のシームレスなブランチが著者により特定される。シームレスを保証し、メモリの使用とシームレスなジャンプの利用性を最適化するため、個々のクリップはキャリアクリップまたは非キャリアクリップとして特定される。対象となるメディアクリップのブリッジデータは、インタリーブされるか、あるいはこの対象となるメディアクリップの上流にあるキャリアクリップと記憶媒体上で関連付けされ、上流のメディアクリップと共に送出される。これは、自動システムではなく、統計的方法を利用するものでない。
以上より、オブジェクト間の関連付けを格納することなく、第2のモダリティで他のメディアオブジェクトと関連するメディアオブジェクトを第1のモダリティにより自動抽出することが可能なモダリティ間システムが必要とされる。異なるメディアソースをそれらの意味的関連付けに基づき統合する能力と共に、異質なマルチメディアコンテンツをシームレスにブラウジングする手段が必要とされる。
本発明は、あるタイプのメディアからその他のメディアへのブラウジングがスムースに行われるように、異なるタイプのマルチメディアコンテンツ間の関連付けを構築するためのシステム(すなわち、方法、装置及びコンピュータ実行可能プロセスステップ)を提供することにより上記要請を解決する。この関連付けは、当該技術分野では周知な正準相関統計技術を利用して、意味的関連付け(相関)に基づく2次元空間における視覚的特徴などの1つのモダリティの低レベルの特徴を音声的特徴などの他のモダリティの低レベルの特徴にマッピングすることにより構築される。本発明はまた、同じモダリティでのクエリ及び抽出を行うのに利用されてもよい。
まず、本システムには、特徴が抽出されるマルチメディアサンプルが与えられる。例えば、テクスチャ、カラーやエッジなどの視覚的特徴が爆発の映像クリップから抽出され、帯域幅、ピッチやMFCC(Mel−Frequecy Cepstral Coefficient)などの特徴が爆発音の音声クリップから抽出される。抽出対象の特徴及び抽出方法は、当該技術分野では周知である。
これら2つの特徴集合の間の相関は一見したところでは自明ではないようであるかもしれないが、詳細な調査により、実際には相関があることが示される。例えば、一例として爆発を用いると、赤の拡大などのカラーが映像から抽出され、ピッチパターンや振幅変化により特徴付けされる音声が音声から抽出される。統計的解析により、これらの特徴の間の相関が示され、音声と映像をリンク付けするための関連付けのパターンが与えられる。
正準相関の統計的技術により、特徴集合Xを有する候補となる画像Aと特徴集合Yを有する音声クリップBとの相関を決定するのに利用される最適化された行列AとBが生成される。これらの行列は、Y(またはX)を用いてX(またはY)を評価するのに利用可能である。言い換えると、相関は双方向的なものであり、この結果、関連する映像を抽出するのに音声クリップが利用可能であり、関連する映像が音声クリップを抽出するのに利用可能である。あるいは、当該技術分野では周知なLSI(Latent Semantic Indexing)技術が、上記行列を構成するのに利用可能である。
本発明は、ユーザによる帯域幅を最小化するような異なるモダリティのマルチメディアコンテンツのブラウズ及びサーチを可能にするという効果を有する。例えば、インターネットなどのネットワークを介し画像形式によりクエリをわたす代わりに、音声クエリのみが画像を抽出するのに送信される必要がある。
本発明はまた、画像を含むマルチメディアデータベースをクエリするのに必要な装置のコストを低下させる効果を有する。クエリは、グラフィック入力装置を要することなく、例えば、マイクのみを用いて構成することが可能である。
本発明はまた、不良な入力を補償する効果を有する。例えば、音声が背景の雑音により不良となっている場合、代わりに関連する視覚的特徴がクエリの基礎として利用できる。
本発明はまた、ユーザにマルチメディアデータベースをブラウズするより広範な選択を提供する。これは、ユーザにより選好され、最も精通したモダリティの選択が可能となるためである。例えば、子供は、ディズニーのキャラクタのシンバの音声(叫び)を発声し、キャラクタの名前を綴る文字をタイプの仕方を知る必要なく、シンバの画像を抽出することが可能となる。
本発明は、音声及び画像検索に限定されるものでなく、味覚、痙攣的な皮膚反応あるいは触覚的特徴などの他のモダリティを利用することができる。例えば、あるワインの香りは、上述の特徴抽出及び相関と同様の技術を用いて、ぶどう、ぶどう園や原産地などのワインに関する特定のための情報を抽出するのに、クエリとして利用可能である。香りの場合には、化学的特徴が抽出され、デジタル表示される。同様に、本発明による技術は、個人の画像などの個人に関する情報と網膜像などの生体データを関連付けするのに利用可能である。これにより、クエリの基礎としてモダリティを利用し、他の任意のモダリティにより情報を抽出することにより、ユーザは異なるモダリティにより個人の特徴のマルチメディアデータベースをクエリすることができるようになる。
相関処理を介し構成された関連付けはまた、アバタ(avatar)を実際に動作させるのに利用可能である。例えば、アバタが「ストップ」という言葉を発すると、アバタの顔がこの単語に関連付けされた方法に従って動作する。本発明はまた、The Official Smiley Dictionary(付録を参照せよ)に描かれたものなどの感情を検索するのに利用可能である。この例では、抽出は「怒った」音声や「幸せな顔」などであり、クエリは関連する単語やフレーズである。
本発明のさらなる特徴及び様々な効果は、添付した図面と好適な実施例に関する以下の詳細な説明からより明らかとなるであろう。
図1は、本発明の実現が可能なシステムを示す。好適な実施例では、本システムは、データ処理装置により実行されるコンピュータ読み出し可能なコードにより実現される。このコードは、データ処理装置内のメモリに格納されてもよいし、あるいはDVD/CD−ROMやフロッピー(登録商標)ディスクなどの記憶媒体から読み出し/ダウンロードされてもよい。他の実施例では、本発明を実現するソフトウェア命令の代わりに、あるいはそれらと共にハードウェア回路が利用されてもよい。例えば、本発明は、処理のためのTrimediaプロセッサを用いたデジタルテレビプラットフォームまたはセットトップボックスと表示のためのテレビモニタ上で実現されてもよい。
図1に示されるように、コンピュータ100は、可変帯域幅ネットワークやインターネットなどのデータネットワークとのインタフェースをとるためのネットワーク接続101、及び/またはビデオまたはデジタルカメラ(図示せず)などの他のリモートソース102とインタフェースをとるためのファックス/モデム接続を有する。本システムはまた、スタンドアローンモードで動作するようにしてもよい。コンピュータ100はまた、ユーザに情報(映像データを含む)を表示するためのディスプレイ103と、クエリや他のコマンドを入力するためのキーボード、マイクやグラフィックタブレットなどの入力装置104と、ディスプレイ103上のカーソルを位置決定し、ユーザコマンドを入力するためのマウス105と、インストールされたフロッピー(登録商標)ディスクの読み出し及び書き込みを行うためのディスクドライブ106と、CD−ROMやDVDに格納されている情報にアクセスするためのCD−ROM/DVDドライブ107とを有する。コンピュータ100はまた、画像などを入力するためのテレビ会議カメラのペアや画像、テキストなどを出力するプリンタ108などの付属の1以上の周辺装置を有するようにしてもよい。
他の実施例は、ハードウェアとソフトウェアの両方による各種手段により実現されてもよい。例えば、ラップトップまたはパームトップコンピュータ、テレビ会議システム、携帯情報端末(PDA)、ディスプレイを備えた電話、テレビ、セットトップボックスあるいは他の任意のタイプの類似する装置がまた利用されてもよい。
図2は、RAM(Random Access Memory)、ROM(Read−Only Memory)及びハードディスクなどのコンピュータ読み出し可能な媒体を有するメモリ110を有するコンピュータ100の内部構成を示す。メモリ110に格納されているアイテムには、オペレーティングシステム、各種データ及びアプリケーションが含まれる。メモリ110に格納されているアプリケーションには、映像符号化装置、映像復号化装置及びフレーム抽出装置が含まれる。映像符号化装置は、従来方法により映像データを符号化し、映像復号化装置は、従来方法により符号化された映像データを復号する。フレーム抽出装置は、映像信号ストリームからのフレームのキャプチャ及び処理を行うことを可能にする。
また、CPU(Central Processing Unit)120と、通信インタフェース121と、メモリインタフェース122と、CD−ROM/DVDドライブインタフェース123と、映像インタフェース124と、バス125が、コンピュータ100に含まれる。CPU120は、メモリ110からの上述のアプリケーションアドのコンピュータ読み出し可能コードを実行するためのマイクロプロセッサなどを有する。このようなアプリケーションは、メモリ110に格納されてもよいし(上述のように)、あるいはディスクドライブ106のフロッピー(登録商標)ディスクやCD−ROMドライブ107のCD−ROMに格納されてもよい。CPU120は、メモリインタフェース122を介しフロッピー(登録商標)ディスクに格納されているアプリケーション(または他のデータ)にアクセスするとともに、CD−ROMドライブインタフェース123を介しCR−ROM上に格納されているアプリケーション(または他のデータ)にアクセスする。
CPU120は、例えば、マイクロプロセッサ、CPU,コンピュータ、回路カード、デジタル信号プロセッサあるいはASIC(Application−Specific Integrated Circuit)を表すものであってもよい。メモリ110は、例えば、ディスクベースの光または磁気記憶ユニット、電子メモリ、上記または他の記憶装置の一部または組み合わせを表すものであってもよい。
システム10に関する各種機能動作は、メモリ110に格納され、CPU120により実行される1以上のソフトウェアプログラムにおいてすべてまたは部分的に実現されてもよい。このタイプの計算及びメディア処理装置は、先進的なセットトップボックスの一部であってもよい。
図3と3aは、本発明の動作を示す。図3において、映像140は、図2の映像インタフェース124を介し図2のCPU120に入力される。映像140は、音声と視覚要素である視覚142と音声144に分離される。画像特徴抽出ステップ146により、視覚142から視覚的特徴が抽出され、音声特徴抽出ステップ148により、音声144から音声的特徴が抽出される。このプロセスは、M.Li、D.Li及びN.Dimitrovaの発明による2002年2月14日に出願された米国特許出願第10/076,194号「Speaking Face Detection in TV Domain」の10〜11ページに十分に記載されている。
ステップ150において、本システムは、マルチメディアデータベースに格納される情報のタイプを表すサンプル入力に関してトレーニングされる。ステップ152において、XとYにより表される音声及び視覚情報の共分散が計算される。ステップ154において、特異値分解が共分散行列に実行され、中間的な積USVが生成される。ステップ156において、例えば、映像を音声とより良好に相関する空間に変換する行列AとBが導出される。
ステップ152〜156は、以下のように数学的に説明することができる。
AXとBYとの相関が最大となるようにA=Cxx −1/2UとB=Cyy −1/2Vが求められる。AとBは直交行列であり、det(A)=det(B)=1となる。ここで、
Figure 2006506731
である。
XとYは、異なるモダリティからの特徴集合である。Cxx、Cyy及びCxyは、共分散行列である。MとMは、平均ベクトルである。U、S及びVは、特異値分解から得られる。
上記数学的操作の効果は、各特徴集合の分布に関係なく最適な相関を求めることができるということである。以下の図では、正準相関(canonical correlation)手順により開示される相関方向は、a1と
(外1)
Figure 2006506731
部分空間との間にある。開示されている相関方向は、v1とv2の部分空間上の分布による影響を受けない。
Figure 2006506731
相関方向が求められると、上記の式を用いて、音声から映像などのある部分空間から他の部分空間への特徴の移転を行うことができる。
図3aに戻って、ステップ158において、A及びB行列が格納される。ステップ160において、映像(X)と音声(Y)を用いたクエリが、マルチメディアデータベースに対し初期化される。ステップ162において、A及びB行列がXとYを関連付けるのに用いられる。モダリティXからのクエリがあるとき、抽出されたXの特徴を利用してAXを計算することができる。その後、モダリティBに対するデータベースのすべてのアイテムに対して、BYを計算することができる。モダリティYからのクエリがあるとき、Yの抽出された特徴を利用して、BYを計算することができる。その後、モダリティAに対するデータベースのすべてのアイテムに対して、AXを計算することができる。
AXとBYを計算した後、データベースからAXとBYとの間の相関が最大となるXまたはYが検索される。従って、例えば、クエリアイテムが「シンバの叫び」であった場合、検索アイテムは、例えば、シンバの画像となりうる。この例に対し、ステップ164において、シンバのいくつかの画像が抽出され、ステップ166において表示される。
本発明が、特定の例示的な実施例に関して説明された。本発明は、上記実施例及び改良に限定されるものでなく、添付された請求項の趣旨及び範囲を逸脱することなく、当業者により様々な変更及び改良が可能である。
図1は、本発明の実現が可能なシステムを示す。 図2は、上記システムの概念図である。 図3は、上記システムの動作を示すフローチャートである。 図3aは、上記システムの動作を示すフローチャートである。

Claims (21)

  1. 複数のメディアモダリティのクエリを生成可能なクエリモジュールと、
    複数のメディアモダリティを表すデータを格納可能なデータベースと、
    前記クエリから複数の第1オブジェクト特徴と前記データベースから複数の第2オブジェクト特徴を抽出可能なオブジェクト検出モジュールと、
    前記オブジェクト検出モジュールに結合されるプロセッサと、
    を有するマルチメディアシステムであって、
    前記複数の第1及び第2オブジェクト特徴は、異なるモダリティを表すメディアから抽出され、
    前記プロセッサは、前記複数の第1オブジェクト特徴と前記複数の第2オブジェクト特徴との間の相関を決定し、所定の最大相関度に少なくとも等しい相関を有するアイテムを前記データベースから抽出するよう構成される、
    ことを特徴とするシステム。
  2. 請求項1記載のマルチメディアシステムであって、
    該システムは、抽出前にサンプルデータを用いてモダリティ間メディアを相関させるようトレーニングされることを特徴とするシステム。
  3. 請求項1記載のマルチメディアシステムであって、
    前記相関は、正準相関法を利用して計算されることを特徴とするシステム。
  4. 請求項1記載のマルチメディアシステムであって、
    前記相関は、LSI(Latent Semantic Indexing)法を利用して計算されることを特徴とするシステム。
  5. 請求項2記載のマルチメディアシステムであって、
    前記トレーニングは、直交行列A=Cxx −1/2UとB=Cyy −1/2Vを生成し(ここで、det(A)=det(B)=1かつ
    Figure 2006506731
    である)、
    第1モダリティの第1特徴集合を表すAXと第2モダリティの第2特徴集合を表すBYとの間の相関は最大となり、これにより、前記第1モダリティから前記第2モダリティへの特徴の移転が可能となる、
    ことを特徴とするシステム。
  6. 請求項5記載のマルチメディアシステムであって、
    前記第1特徴集合を表すAXのクエリは、前記第2特徴集合を表すBYの前記クエリの結果のみが与えられると、BYはAXと最大の相関を有することから特定可能であることを特徴とするシステム。
  7. ユーザが関心を有する少なくとも1つのアイテムをマルチメディアアーカイブから抽出する方法であって、
    クエリを生成するステップと、
    第1モダリティを表す複数の第1オブジェクト特徴を前記クエリから抽出するステップと、
    第2モダリティを表す複数の第2オブジェクト特徴を前記マルチメディアアーカイブのアイテムから抽出するステップと、
    前記複数の第1オブジェクト特徴と前記複数の第2オブジェクト特徴との間の相関を決定するステップと、
    前記クエリの所定の最大相関度に少なくとも等しいオブジェクト特徴と相関を有するオブジェクト特徴を有するアイテムを前記アーカイブから抽出するステップと、
    を有することを特徴とする方法。
  8. 請求項7記載の方法であって、さらに、
    モダリティ間メディアと相関させるのに用いられる相関行列を生成するため、サンプルデータを利用するステップを有することを特徴とする方法。
  9. 請求項7記載の方法であって、
    前記相関方法は、正準相関であることを特徴とする方法。
  10. 請求項7記載の方法であって、
    前記相関方法は、LSI(Latent Semantic Indexing)であることを特徴とする方法。
  11. 請求項7記載の方法であって、
    前記生成される行列は、直交行列A=Cxx −1/2UとB=Cyy −1/2Vにより表され(ここで、det(A)=det(B)=1かつ
    Figure 2006506731
    である)、
    第1モダリティの第1特徴集合を表すAXと第2モダリティの第2特徴集合を表すBYとの間の相関は最大となり、これにより、前記第1モダリティから前記第2モダリティへの特徴の移転が可能となる、
    ことを特徴とする方法。
  12. 請求項11記載の方法であって、
    前記第1特徴集合を表すAXのクエリは、前記第2特徴集合を表すBYの前記クエリの結果のみが与えられると、BYはAXと最大の相関を有することから特定可能であることを特徴とする方法。
  13. ユーザによるマルチメディアのデータベースからの関心のあるメディアの抽出を可能にするコンピュータ読み出し可能媒体に格納されているコンピュータ実行可能処理ステップであって、
    前記ユーザから第1メディアモダリティのクエリを取得するクエリ生成ステップと、
    前記クエリから複数の第1オブジェクト特徴を抽出する第1抽出ステップと、
    マルチメディアアーカイブのアイテムから第2メディアモダリティを表す複数の第2オブジェクト特徴を抽出する第2抽出ステップと、
    前記複数の第1オブジェクト特徴と前記複数の第2オブジェクト特徴との間の相関を決定する相関計算ステップと、
    前記クエリの所定の最大相関度に少なくとも等しいオブジェクト特徴と相関を有するオブジェクト特徴を有するアイテムを前記アーカイブから抽出する抽出ステップと、
    を有することを特徴とするステップ。
  14. マルチメディアアーカイブからユーザに関心のある少なくとも1つのアイテムを抽出する手段であって、
    第1メディアモダリティのクエリを生成する手段と、
    前記クエリから複数の第1オブジェクト特徴を抽出する手段と、
    前記マルチメディアアーカイブのアイテムから複数の第2オブジェクト特徴を抽出する手段と、
    前記複数の第1オブジェクト特徴と第2メディアモダリティから抽出される前記複数の第2オブジェクト特徴との間の相関を決定する手段と、
    前記クエリの所定の最大相関度に少なくとも等しいオブジェクト特徴と相関を有するオブジェクト特徴を有するアイテムを前記アーカイブから抽出する手段と、
    を有することを特徴とする手段。
  15. マルチメディアアーカイブからキャラクタの少なくとも1つの映像クリップを抽出する方法であって、
    前記キャラクタの声の音声クリップを有するクエリを生成するステップと、
    前記クエリから複数の音声特徴を抽出するステップと、
    前記マルチメディアアーカイブの各映像クリップから複数の映像特徴を抽出するステップと、
    前記複数の音声特徴と前記複数の映像特徴との間の相関を計算するステップと、
    前記音声と前記映像との間の相関度を最大化することに基づき、前記キャラクタが発話する少なくとも1つの映像クリップを抽出するステップと、
    を有することを特徴とする方法。
  16. マルチメディアアーカイブ内に格納されている人物の少なくとも1つの画像を抽出する方法であって、
    前記人物の生体的特徴を有するクエリを生成するステップと、
    前記クエリから複数の視覚的特徴を抽出するステップと、
    前記マルチメディアアーカイブの各画像から複数の視覚的特徴を抽出するステップと、
    前記アーカイブからの複数の視覚的特徴と前記クエリからの複数の視覚的特徴との間の相関を計算するステップと、
    前記アーカイブからの複数の視覚的特徴と前記クエリからの複数の視覚的特徴との間の相関度を最大化することに基づき、前記人物の少なくとも1つの画像を抽出するステップと、
    を有することを特徴とする方法。
  17. 請求項16記載の方法であって、
    前記生体的特徴は、網膜像であることを特徴とする方法。
  18. マルチメディアアーカイブ内に格納されている未知の液体を特定する少なくとも1つの情報アイテムを抽出する方法であって、
    香りを有するクエリを生成するステップと、
    前記クエリからデジタル表示される複数の化学的特徴を抽出するステップと、
    前記マルチメディアアーカイブの各テキストアイテムから複数のテキスト特徴を抽出するステップと、
    前記クエリから抽出された複数の化学的特徴と前記マルチメディアアーカイブから抽出された複数のテキスト特徴との間の相関を計算するステップと、
    前記クエリから抽出された複数の化学的特徴と前記マルチメディアアーカイブから抽出された複数のテキスト特徴との間の相関度を最大化することに基づき、前記未知の液体を特定する少なくとも1つの情報アイテムを抽出するステップと、
    を有することを特徴とする方法。
  19. 請求項18記載の方法であって、
    前記未知の液体は、飲料であることを特徴とする方法。
  20. マルチメディアアーカイブから標準的な感情リストから選ばれた感情に関連する音声を抽出する方法であって、
    前記感情に対する単語を有するクエリを生成するステップと、
    前記クエリから複数のテキスト特徴を抽出するステップと、
    前記マルチメディアアーカイブの各音声に対する複数の音声特徴を抽出するステップと、
    前記クエリから抽出された複数のテキスト特徴と前記マルチメディアアーカイブから抽出された複数の音声特徴との間の相関を計算するステップと、
    前記クエリから抽出された複数のテキスト特徴と前記マルチメディアアーカイブから抽出された複数の音声特徴との間の相関度を最大化することに基づき、少なくとも1つの音声を抽出するステップと、
    を有することを特徴とする方法。
  21. 第1メディアモダリティのクエリを、第2メディアモダリティの前記クエリの結果のみが初期的にわかっているときに抽出する方法であって、
    前記第2モダリティの特徴を前記第1モダリティに相関する特徴空間に変換するため格納され、前記第1モダリティAのアイテムと前記第2モダリティのアイテムを相関させるためのトレーニング処理中に、A=Cxx −1/2UとB=Cyy −1/2Vとなり(ここで、det(A)=det(B)=1かつ
    Figure 2006506731
    となる)、前記第1モダリティの第1特徴集合を表すAXと前記第2モダリティの第2特徴集合を表すBYとの間の相関が最大となるように行列Bを抽出するステップと、
    前記第2モダリティのアイテムからオブジェクト特徴を抽出するステップと、
    前記第2モダリティに対するAYを計算するステップと、
    マルチメディアデータベースに格納されている前記第1モダリティのアイテムからオブジェクト特徴を抽出するステップと、
    前記各アイテムに対するAXを計算するステップと、
    AXとAYを相関させるステップと、
    AXとBYとの間の最大相関を有するXを抽出するステップと、
    を有することを特徴とする方法。
JP2004552977A 2002-11-15 2003-11-07 意味的関連性に基づくコンテンツ抽出 Pending JP2006506731A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/295,668 US7120626B2 (en) 2002-11-15 2002-11-15 Content retrieval based on semantic association
PCT/IB2003/005012 WO2004046965A2 (en) 2002-11-15 2003-11-07 Content retrieval based on semantic association

Publications (1)

Publication Number Publication Date
JP2006506731A true JP2006506731A (ja) 2006-02-23

Family

ID=32297271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004552977A Pending JP2006506731A (ja) 2002-11-15 2003-11-07 意味的関連性に基づくコンテンツ抽出

Country Status (7)

Country Link
US (1) US7120626B2 (ja)
EP (1) EP1563410A2 (ja)
JP (1) JP2006506731A (ja)
KR (1) KR101160597B1 (ja)
CN (1) CN1723455B (ja)
AU (1) AU2003274613A1 (ja)
WO (1) WO2004046965A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014522532A (ja) * 2011-06-06 2014-09-04 コーニンクレッカ フィリップス エヌ ヴェ 表現型を示す組み合わせサインのクロスモーダル適用

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2409916A (en) * 2003-07-04 2005-07-13 Intellidos Ltd Joining query templates to query collated data
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
US20050177358A1 (en) * 2004-02-10 2005-08-11 Edward Melomed Multilingual database interaction system and method
US7415675B2 (en) * 2004-09-01 2008-08-19 Sap Ag Software training method and apparatus
US20080140406A1 (en) * 2004-10-18 2008-06-12 Koninklijke Philips Electronics, N.V. Data-Processing Device and Method for Informing a User About a Category of a Media Content Item
JP4621909B2 (ja) * 2004-11-26 2011-02-02 学校法人東京電機大学 マルチメディア情報検索システム及びプログラム
US7766231B2 (en) * 2005-06-24 2010-08-03 Schneider Electric USA, Inc. Devices and methods for determining the amount of individual usage of a shared commodity
JP2009514086A (ja) * 2005-10-27 2009-04-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 電子日記帳に内容を入力し、内容を検索する方法およびシステム
CN104182459B (zh) * 2005-12-01 2019-03-08 皇家飞利浦电子股份有限公司 用于将内容呈现给用户的系统和方法
US20070156667A1 (en) * 2006-01-04 2007-07-05 Dongge Li Method and apparatus for identifying related media across playback platforms
EP1994478A2 (en) * 2006-02-10 2008-11-26 Metacarta, Inc. Systems and methods for spatial thumbnails and companion maps for media objects
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
JP5341755B2 (ja) * 2006-07-17 2013-11-13 コーニンクレッカ フィリップス エヌ ヴェ 環境パラメータセットの決定
JP4972358B2 (ja) * 2006-07-19 2012-07-11 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
KR100868187B1 (ko) 2006-11-02 2008-11-10 주식회사 케이티 사진 기반 통합 컨텐츠 생성 및 제공 시스템 그리고 그방법.
CA2676023C (en) * 2007-01-23 2015-11-17 Euclid Discoveries, Llc Systems and methods for providing personal video services
CN101251841B (zh) * 2007-05-17 2011-06-29 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
US8612643B2 (en) * 2007-06-30 2013-12-17 Microsoft Corporation Interfaces for digital media processing
JP5234469B2 (ja) * 2007-09-14 2013-07-10 国立大学法人 東京大学 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム
KR20090035989A (ko) 2007-10-08 2009-04-13 삼성전자주식회사 컨텐츠 획득 시스템 및 그 방법
US20090172106A1 (en) * 2007-12-27 2009-07-02 Motorola, Inc. Method and Apparatus to Facilitate Provision and Use of a Media Source Bundle
US20100169933A1 (en) * 2008-12-31 2010-07-01 Motorola, Inc. Accessing an event-based media bundle
US8321422B1 (en) * 2009-04-23 2012-11-27 Google Inc. Fast covariance matrix generation
US8611695B1 (en) * 2009-04-27 2013-12-17 Google Inc. Large scale patch search
US8396325B1 (en) * 2009-04-27 2013-03-12 Google Inc. Image enhancement through discrete patch optimization
US8391634B1 (en) 2009-04-28 2013-03-05 Google Inc. Illumination estimation for images
US8385662B1 (en) 2009-04-30 2013-02-26 Google Inc. Principal component analysis based seed generation for clustering analysis
KR100963885B1 (ko) * 2010-03-30 2010-06-17 한국과학기술정보연구원 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법
US10734115B1 (en) 2012-08-09 2020-08-04 Cerner Innovation, Inc Clinical decision support for sepsis
US10431336B1 (en) 2010-10-01 2019-10-01 Cerner Innovation, Inc. Computerized systems and methods for facilitating clinical decision making
US11398310B1 (en) 2010-10-01 2022-07-26 Cerner Innovation, Inc. Clinical decision support for sepsis
US11348667B2 (en) 2010-10-08 2022-05-31 Cerner Innovation, Inc. Multi-site clinical decision support
US8798393B2 (en) 2010-12-01 2014-08-05 Google Inc. Removing illumination variation from images
US8756169B2 (en) 2010-12-03 2014-06-17 Microsoft Corporation Feature specification via semantic queries
CN102231149A (zh) * 2010-12-22 2011-11-02 辜进荣 基于局部特征的手机视觉信息搜索方法
US10628553B1 (en) 2010-12-30 2020-04-21 Cerner Innovation, Inc. Health information transformation system
CN102253982B (zh) * 2011-06-24 2013-03-20 北京理工大学 一种基于查询语义和点击流数据的查询建议方法
CN102929887A (zh) * 2011-08-11 2013-02-13 天津市亚安科技股份有限公司 一种基于声音特征识别的快速录像检索方法及系统
US8856156B1 (en) 2011-10-07 2014-10-07 Cerner Innovation, Inc. Ontology mapper
US8938119B1 (en) 2012-05-01 2015-01-20 Google Inc. Facade illumination removal
US10249385B1 (en) 2012-05-01 2019-04-02 Cerner Innovation, Inc. System and method for record linkage
US11894117B1 (en) 2013-02-07 2024-02-06 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US10769241B1 (en) 2013-02-07 2020-09-08 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US10946311B1 (en) 2013-02-07 2021-03-16 Cerner Innovation, Inc. Discovering context-specific serial health trajectories
US10483003B1 (en) 2013-08-12 2019-11-19 Cerner Innovation, Inc. Dynamically determining risk of clinical condition
US10854334B1 (en) 2013-08-12 2020-12-01 Cerner Innovation, Inc. Enhanced natural language processing
KR20150087034A (ko) 2014-01-21 2015-07-29 한국전자통신연구원 객체-콘텐츠 부가정보 상관관계를 이용한 객체 인식장치 및 그 방법
US9852188B2 (en) * 2014-06-23 2017-12-26 Google Llc Contextual search on multimedia content
CN105898667A (zh) 2014-12-22 2016-08-24 杜比实验室特许公司 从音频内容基于投影提取音频对象
US10277834B2 (en) 2017-01-10 2019-04-30 International Business Machines Corporation Suggestion of visual effects based on detected sound patterns
US10719552B2 (en) 2017-03-02 2020-07-21 Ricoh Co., Ltd. Focalized summarizations of a video stream
US10713391B2 (en) 2017-03-02 2020-07-14 Ricoh Co., Ltd. Tamper protection and video source identification for video processing pipeline
US10943122B2 (en) 2017-03-02 2021-03-09 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10720182B2 (en) 2017-03-02 2020-07-21 Ricoh Company, Ltd. Decomposition of a video stream into salient fragments
US10949463B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10956494B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10956495B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
US10949705B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10929707B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10956773B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10929685B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
US10708635B2 (en) 2017-03-02 2020-07-07 Ricoh Company, Ltd. Subsumption architecture for processing fragments of a video stream
US11995556B2 (en) 2018-05-18 2024-05-28 Cambricon Technologies Corporation Limited Video retrieval method, and method and apparatus for generating video retrieval mapping relationship
US11730420B2 (en) 2019-12-17 2023-08-22 Cerner Innovation, Inc. Maternal-fetal sepsis indicator
CN111651577B (zh) * 2020-06-01 2023-04-21 全球能源互联网研究院有限公司 跨媒体数据关联分析模型训练、数据关联分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03291752A (ja) * 1990-04-10 1991-12-20 Matsushita Electric Ind Co Ltd データ検索装置
JPH1139342A (ja) * 1997-07-16 1999-02-12 Nippon Telegr & Teleph Corp <Ntt> データ処理方法およびその装置
JPH1166283A (ja) * 1997-08-13 1999-03-09 Matsushita Electric Ind Co Ltd 画像特徴量の相関抽出方法及び画像検索装置
JP2001184367A (ja) * 1999-12-27 2001-07-06 Matsushita Electric Ind Co Ltd データ分類用統計情報抽出装置
JP2001184357A (ja) * 1999-12-24 2001-07-06 Victor Co Of Japan Ltd マルチメディア素材検索装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188776B1 (en) 1996-05-21 2001-02-13 Interval Research Corporation Principle component analysis of images for the automatic location of control points
US6111567A (en) * 1997-04-03 2000-08-29 Microsoft Corporation Seamless multimedia branching
US6154754A (en) * 1997-09-25 2000-11-28 Siemens Corporate Research, Inc. Automatic synthesis of semantic information from multimedia documents
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
AU3694300A (en) 1999-02-01 2000-08-18 Ibm Multimedia archive description scheme
US6411724B1 (en) * 1999-07-02 2002-06-25 Koninklijke Philips Electronics N.V. Using meta-descriptors to represent multimedia information
US6701294B1 (en) 2000-01-19 2004-03-02 Lucent Technologies, Inc. User interface for translating natural language inquiries into database queries and data presentations
WO2002019147A1 (en) * 2000-08-28 2002-03-07 Emotion, Inc. Method and apparatus for digital media management, retrieval, and collaboration
US7113943B2 (en) * 2000-12-06 2006-09-26 Content Analyst Company, Llc Method for document comparison and selection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03291752A (ja) * 1990-04-10 1991-12-20 Matsushita Electric Ind Co Ltd データ検索装置
JPH1139342A (ja) * 1997-07-16 1999-02-12 Nippon Telegr & Teleph Corp <Ntt> データ処理方法およびその装置
JPH1166283A (ja) * 1997-08-13 1999-03-09 Matsushita Electric Ind Co Ltd 画像特徴量の相関抽出方法及び画像検索装置
JP2001184357A (ja) * 1999-12-24 2001-07-06 Victor Co Of Japan Ltd マルチメディア素材検索装置
JP2001184367A (ja) * 1999-12-27 2001-07-06 Matsushita Electric Ind Co Ltd データ分類用統計情報抽出装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FISHER III, J.W., ET AL.: "Learning Joint Statistical Models for Audio-Visual Fusion and Segregation", ADVANCES IN NEURAL INFROMATION PROCESSING SYSTEMS 13, JPN6010064606, 2000, US, pages 772 - 778, XP002282822, ISSN: 0001775109 *
早川 和宏、鈴木 亮、向井 利春、大西 昇: "物理法則に基づく視聴覚情報の対応付け", 映像情報メディア学会技術報告, vol. 23, no. 8, JPN6009037764, 2 February 1999 (1999-02-02), JP, pages 13 - 18, ISSN: 0001380154 *
柳井 晴夫, 多変量解析ハンドブック, vol. 第1版, JPN6009066696, 20 April 1986 (1986-04-20), JP, pages 98 - 117, ISSN: 0001498769 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014522532A (ja) * 2011-06-06 2014-09-04 コーニンクレッカ フィリップス エヌ ヴェ 表現型を示す組み合わせサインのクロスモーダル適用

Also Published As

Publication number Publication date
US7120626B2 (en) 2006-10-10
KR20050074991A (ko) 2005-07-19
KR101160597B1 (ko) 2012-06-28
AU2003274613A1 (en) 2004-06-15
WO2004046965A2 (en) 2004-06-03
US20040098376A1 (en) 2004-05-20
EP1563410A2 (en) 2005-08-17
WO2004046965A3 (en) 2004-08-19
CN1723455B (zh) 2010-09-08
CN1723455A (zh) 2006-01-18

Similar Documents

Publication Publication Date Title
US7120626B2 (en) Content retrieval based on semantic association
Bragg et al. Sign language recognition, generation, and translation: An interdisciplinary perspective
Li et al. CHEAVD: a Chinese natural emotional audio–visual database
US7853582B2 (en) Method and system for providing information services related to multimodal inputs
JP3848319B2 (ja) 情報処理方法及び情報処理装置
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
EP3405912A1 (en) Analyzing textual data
CN1965319A (zh) 信息检索装置、输入辅助装置、方法及程序
CN101309327A (zh) 语音聊天系统、信息处理装置、话语识别和关键字检测
WO2007043679A1 (ja) 情報処理装置およびプログラム
CN110263340B (zh) 评论生成方法、装置、服务器及存储介质
CN113380271B (zh) 情绪识别方法、系统、设备及介质
US9639633B2 (en) Providing information services related to multimodal inputs
Xia et al. Audiovisual speech recognition: A review and forecast
CN113392265A (zh) 多媒体处理方法、装置及设备
Knight et al. HeadTalk, HandTalk and the corpus: Towards a framework for multi-modal, multi-media corpus development
Law Creativity and television drama: A corpus-based multimodal analysis of pattern-reforming creativity in House MD
Hernandez et al. Multimodal corpus analysis of autoblog 2020: lecture videos in machine learning
Ghosh et al. Multimodal indexing of multilingual news video
US20240106776A1 (en) Sign Language Translation Method And System Thereof
EP4379598A1 (en) A sign language translation method and system thereof
Alibagon et al. On the Use of Multilingual Approach for a Cloud-based Transcription System for the’Ilonggoish’Dialect
Papageorgiou et al. Multimedia Indexing and Retrieval Using Natural Language, Speech and Image Processing Methods
Yamakawa et al. Visualization of Various Speech Corpora by Multidimensional Scaling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100405

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100910

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20101018

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20101112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120517

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120522