JP4699954B2 - マルチメディアデータ管理方法とその装置 - Google Patents

マルチメディアデータ管理方法とその装置 Download PDF

Info

Publication number
JP4699954B2
JP4699954B2 JP2006195626A JP2006195626A JP4699954B2 JP 4699954 B2 JP4699954 B2 JP 4699954B2 JP 2006195626 A JP2006195626 A JP 2006195626A JP 2006195626 A JP2006195626 A JP 2006195626A JP 4699954 B2 JP4699954 B2 JP 4699954B2
Authority
JP
Japan
Prior art keywords
multimedia data
video
index
matrix
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006195626A
Other languages
English (en)
Other versions
JP2007328311A (ja
Inventor
宗憲 呉
育昇 頼
建霖 黄
家豪 康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of JP2007328311A publication Critical patent/JP2007328311A/ja
Application granted granted Critical
Publication of JP4699954B2 publication Critical patent/JP4699954B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明はマルチメディアデータ(multimedia data)の音声注釈(speech annotation)および検索(retrieval)、特に一種のマルチメディアデータ管理方法とその装置により、音節変換画像(syllable transformed image)をマルチメディアデータの音声注釈および検索の利用に関わるものである。
インターネットの爆発的な成長に伴い、デジタル・ビデオカメラ(degital video camera)、デジタルカメラ(degital camera)およびデジタルビデオレコーダー(digitalvideo recorder)などデジタル映像捕捉装置の普及により、利用者たちはマルチメディアデータの入手方法もますます多くなるほか、簡単に入手できる。当然ながら、利用者たちが所有するマルチメディアデータの増加も加速化している。一方、マルチメディアデータの管理は難しくなり、長時間に掛かる。
すでに、一部のマルチメディアデータ管理システムまたは方法が開発されているが、その多くは、テキスト(text)または言語テキスト変換(language to text)方式により、マルチメディアデータの記述、索引(i ndex)および検索(retrieval)を行う。今日のマルチメディアデータの注釈(annotation)または検索技術は主に以下の四種類に分ける。テキストによる注釈および検索、言語テキスト変換(speech to text)による注釈および検索、図形による分析および検索、並びに音声テキスト変換(speech to text)および検索。
そのうち、テキスト注釈および検索方式は、特殊な装備は必要ない。ただし、テキスト入力が長いに関する悩み、および注釈検索はシステムより提供されたキーワードのみに制限される。文字注釈方式に関する文献は、特許文献1がある。該特許文献において、一種のデジタル映像捕捉装置に埋め込み式メタ情報エンジン(embedded metadata engines in digital capture devices)を埋め込む。デジタル映像捕捉装置に映像内容の分析機能を導入し、該映像の内容分析により、内容が関連する余分な情報を自動に生成し、原始の映像データと合せて保存する。この特許文献はデジタル映像に対し、動的注釈を生成できる。しかしながら、映像の検索におよばない。
音声テキスト変換の注釈および検索の方式は、音声認識器が必要である。この点は言語関連付けの制限となっている。音声テキスト変換による注釈および検索方式は、特許文献2で開示されている。この特許文献はマルチメディアデータの注釈および検索方法と装置(method and apparatus for voice annotation and retrieval ofmultimedia data)に関わるものである。それは、注釈するときに音声入力方式を使用し、音声認識技術を利用し、音声内容をテキストに変換した上、文字注釈により、逆方向索引テーブル(reverseindex table)を生成する。検索のとき、音声入力方式を使用し、音声認識技術により、検索キーワードを生成した上、逆方向索引テーブルを介して、一致のマルチメディアデータを検索する。
さらに、特許文献3において、音声ベースの指令言語による映像の自動保存および表示(automatically storing and pressenting digital images using a speech based command language)方法が開示されている。この特許文献は、注釈するときに音声テキスト変換の方法を使用し、検索のとき、文字で検索する。利用者は撮影するとき、その場でデジタルカメラにより、注釈情報を録音する。複数の指令(command)に記述(statement)された音声入力により、映像に場所、時間などの内容を追加記述した上、利用者は、この映像と注釈情報をサーバーに導入し、サーバーより音声情報を認識し、音声をテキストに変換して保存する。テキスト注釈に基づいて、利用者はキーワードで命令し、様々なアルバムを動的に生成し、閲覧に備える。
なお、特許文献4において、一種のデジタルアルバムより関連の映像素材を検索するシステムとその方法(system and method for acqusition of related graphical material in a digital graphics album)が開示されている。この特許において、テキストに対する注釈により、映像でもって映像を検索する目的を図る。利用者はインターネットより、指定映像に関連づけされた映像を見つけることができる。
映像分析による検索方式は、システムに映像分析能力を持たなければならない。利用者はすべての映像に注釈付ける必要ない。ただし、映像の検索に限られるほか、検索条件の映像をまず見つけなければならない。さらに、映像の内容を精密に分析することが難しい。映像分析に関する文献は、" An active leaning framework for content based in formation retrieval" ,Mutimedia,IEEE Transsaction Vol.4,Issue 2,July 2002,pp260−268などがある。この論文はコンテンツをベースとした情報検索(content based informationretrieval)でもって、属性ツリー(attribute tree)を構築し、映像のマーカーとする。
また、音声検索の方法は、検索条件と注釈の原始音声データ、または音声信号を認識し、その認識結果をNgramの組合せにより、検索ベクトルを構築した上、言語検索を行うなど多くの種類が存在する。前者はデータの量が多く存在するとき、逐一の比較にかなりの時間を必要となる。後者は言語関連性の制限を受ける。
前記した四種類のマルチメディアデータに関わる注釈および検索技術を存在している。しかしながら、これらの技術は前記したそれぞれの問題点が発生するほか、言語依存型(languagedependent)のことから、利用者は目的言語または音声を自由自在に使用することができない。
よって、利用者は単純な管理手順により、必要なマルチメディアデータを素早く検索し、音声を使用し言語非依存(languageindependent)の方式による索引および検索を提供することは、本発明の主な動機である。
米国特許第6833865号明細書 米国特許第6397181号明細書 米国特許第6499016号明細書 米国特許第6813618号明細書
本発明は前記し公知技術の欠点を解決するものであり、一種のマルチメディアデータ管理方法とその装置の提供を主な目的とする。
本発明は主に、音節変換画像(syllable−transformedpattern)および特徴映像分析(eigenimageanalysys)により、音声注釈の映像を検索する。音声注釈を含まれたデジタル映像(digitalphotowithspeech annotation)は、認識された音節候補(recognizedsyllablecandidate)より変換された模擬映像パターン(image−likepattern)に対して、斬新な索引および検索技術を提供する。本発明の技術において、音声をコード変換するとき、根拠とする手段を提供し、言語非依存型の検索を提供する。
本発明によるマルチメディアデータ管理方法は、主に三つの手順を含まれる。捕捉および注釈された音声特徴は、自動音声認識器(speechrecognizer)により、識別結果を生成し、模擬映像データに変換する。そして、映像特徴処理方法により、索引データベースを構築する。検索のとき、自然口調の音声で該マルチメディアデータの検索を行う。
本発明によるマルチメディアデータ管理装置は、マルチメディアデータ索引製作モジュールおよびマルチメディアデータ検索モジュールを設ける。マルチメディアデータ索引製作モジュールは、捕捉および注釈された音声特徴を模擬映像データに変換した上、該模擬映像データの特徴パラメータを抽出して、索引データベースの構築を完了する。マルチメディアデータ索引製作モジュールは、自然口調の音声により、該マルチメディアデータを検索する。
本発明を1055枚の音声注釈を備えたデジタル映像を従来の音節、キャラクター(character)およびワード(word)による索引方法と比較したところ、本発明による検索はより良い検索効率のほか、検索時間も短い。
請求項1の発明は、自動音声認識器により音声注釈特徴の認識結果を生成し、
該認識結果から該音声注釈特徴のnベスト候補列を得て、そのうち該nは自然数であり、
nベスト候補列に関する混マトリックス(confusion matrix)を構築し、該混マトリックスは近似点数マトリックスを包含し、各近似点数は各音節候補の該nベスト候補列の一つに対する近似性を測定し、
該混マトリックスを一枚の映像に変換し、該映像の各画素は対応する近似点数により測定された近似度を代表する階調を有し、
該映像より特徴映像処理方法を用いて映像特徴を捕捉することにより索引データベースを構築し、
自然言語の入力により、マルチメディアデータの検索を行う、マルチメディアデータ管理方法としている。
請求項2の発明は、該索引データベースの構築において、該映像の一つ以上の特徴パラメータを抽出し、該特徴パラメータの数値化した上、該索引の構築を完成することを特徴とする請求項1記載のマルチメディアデータ管理方法としている。
請求項3の発明は、該自然口調の音声による該マルチメディアデータの検索は、音声により検索条件を入力し、該検索条件を索引データに変換し、
引き続き、索引データと索引データベースの索引情報との比較を行い、
該検索条件に対応するマルチメディアデータの検索を行うことを特徴とする請求項1記載のマルチメディアデータ管理方法としている。
請求項4の発明は、該パラメータの数値化および該索引データの構築はさらに、該特徴映像処理方法により捕捉された各特徴映像を数値化して多次元ベクトルとなし、および多次元ベクトルをクラスタリングして符号語行列となし、全ての符号語行列をコードブックに集合することを特徴とする請求項3記載のマルチメディアデータ管理方法としている。
請求項5の発明は、該自動音声認識器は、発音音節をベースとする音声認識器であることを特徴とする請求項1記載のマルチメディアデータ管理方法としている。
請求項6の発明は、該映像特徴処理方法は、該映像に対して成分分析することを特徴とする請求項1記載のマルチメディアデータ管理方法としている。
請求項7の発明は、マルチメディアデータ管理装置において、
マルチメディアデータ製作索引モジュールを包含し、
該マルチメディアデータ製作索引モジュールは、
自動音声認識器であって、
音声注釈特徴の認識結果を生成し、
該認識結果から該音声注釈特徴のnベスト候補列を得て、そのうち該nは自然数である、該自動音声認識器と、
映像模擬モジュールであって、該nベスト候補列に関する混マトリックス(confusion matrix)を構築し、該混マトリックスを一枚の映像に変換し、該混マトリックスは近似点数マトリックスを包含し、各近似点数は各音節候補の該nベスト候補列の一つに対する近似性を測定し、該映像の各画素は対応する近似点数により測定された近似度を代表する階調を有する、上記映像模擬モジュールと、
特徴捕捉および索引製作モジュールであって、該映像より特徴映像を捕捉し特徴映像処理方法を使用して索引データベースを構築する、該特徴捕捉および索引製作モジュールと、
マルチメディアデータモジュールであって、該索引データベースを使用して自然口調の入力音声により、該マルチメディアデータの検索を行う、該マルチメディアデータモジュールと、
を包含したことを特徴とする、マルチメディアデータ管理装置としている。
請求項8の発明は、該索引データベースに設けるすべての索引は、符号語行列より構築されることを特徴とする請求項7記載のマルチメディアデータ管理装置としている。
請求項9の発明は、該自動音声認識器は、発音音節をベースとした音声認識器であることを特徴とする請求項7記載のマルチメディアデータ管理装置としている。
本発明はマルチメディアデータ管理方法とその装置、音節変換画像および特徴映像分析により、音声注釈の映像を検索する。音声注釈を含まれたデジタル映像は、認識された音節候補より変換された模擬映像パターン)に対して、斬新な索引および検索技術を提供する。本発明の技術において、音声をコード変換するとき、根拠とする手段を提供し、言語非依存型の検索を提供する。
本発明によるマルチメディアデータ管理方法とその装置は、本発明によるマルチメディアデータ管理装置の説明に当り、モジュール(module)により、その主要素子を説明する。モジュールを設け、特にその機能性(functionally)は、ハードウエア(hardware)、またはソフトウエア(software)、もしくはハードウエアとソフトウエア2種のモジュールを組み合わせて構成する。
図1Aと図1Bに示すものは、本発明によるマルチメディアデータ管理装置およびその操作フローである。該マルチメディアデータ管理装置は、図1Aのマルチメディアデータ索引製作モジュールおよび図1Bのマルチメディアデータ索引モジュールをそれぞれ設ける。図1Aに示すとおり、該マルチメディアデータ索引製作モジュールは、捕捉および注釈付けた音声特徴101は自動音声認識器103により、音節マトリックス(syllablematrix)113などの認識結果を生成する。その後、該認識結果を模擬映像データ105に変換し、映像特徴処理方法により、索引データベースを構築する。図1Bに示すものは、検索のとき、該マルチメディアデータ検索モジュールは、自然口調の音声により、該マルチメディアデータの検索を行う。
図2に示すものは、マルチメディアデータの索引製作モジュールの詳細ブロック図である。該マルチメディアデータ索引製作モジュールは、自動音声認識器103、映像模擬モジュール201、および特徴捕捉および索引製作モジュール205を含まれる。自動音声認識器103により、捕捉および注釈付けた音声特徴101を認識した上、認識結果を生成する。映像模擬モジュール201は、認識結果の近似度点数を算出した後、この近似度点数をもとに、模擬映像データに変換する。特徴捕捉および索引製作モジュール205により、該模擬映像データ特徴のパラメータを捕捉し、この特徴パラメータを数値化処理し、索引データベースの構築を完了する。この索引データベースの構築により、膨大な模擬映像データを逐一に比較するために、長い時間が掛かる問題を解決できる。
図3は自然口調の音声によるマルチメディアデータ検索の手順フロー図である。図3に示すとおり、マルチメディアデータ検索モジュールは、音声により検索条件を入力した上、この検索条件を索引データに変換する。引き続き、索引データと索引データベースの索引情報との比較を行う。この検索条件に対応するマルチメディアデータを検索する。自動音声認識の主な目的は、自然口調の音声をコンピュータによって識別した上、コンピュータにその関連タスクを実行させる。音声信号をアナログからデジタルに変換して入力し、数値化してコンピュータに保存した後、音声認識器は入力したテスト音声サンプルとあらかじめに構築された音声認識パターンとの比較を行い、その音声サンプルにもっとも類似する認識結果を見つけ出す。これにより、入力された自然口調の音声が代表する意味を知ることができる。
自動音声認識を使用する前、確率と統計手法を捕捉された音声とテキストコーパスと合せて、言語パターンと音声学パターンを含めた、認識に必要な識別パターンを構築する。
図4に示すものは、自動音声認識方法の説明図である。自動音声認識器は音声信号を入手したとき、手順401に従い、この音声信号より、常用のメールケプストラム係数(Mel−frequency cspstral coefficients, MFCC)などによるパラメータ抽出を行う。引き続き、動的検索方法をあらかじめに構築された言語パターンと音声学パターンに合せて、手順403に示す自動音声認識を行い、認識結果を生成する。
この音声認識結果により、映像の音声注釈内容を知ることができる。しかしながら、時下の音声認識技術に音声認識エラー(speechrecognitionerror)が存在している。その誤差の発生は、統計手法の偏差により、識別パターンに混を引き起こす。さらに、通常の人間発声に混する音声がすでに存在する。たとえば、BOとPO、YIとCHIの発声の混など。
よって、本発明は発音音節ベース音声認識器(syllable−basedrecognizer)により、すべての発音音節を効率よく定義し、索引データベースを構築する。さらに、音声認識器によって定義されたすべての発音音節に基づいて、混マトリックス(confusionmatrix)を構築し、音節に対応する音節発音点数に変換し、それぞれの発音と他の発音の混性を測定する。誤差の発生を避けるため、本発明は前からn名の最良認識結果を候補に選び、これをnベスト候補列(n−bestsyllablecandidate)とし、nは自然数とする。
それぞれの音節を映像の一つの映像と見なしたとき、現れた結果は1枚の映像のように、色調に深さ、近似度の遠近関係として現れる。しかし、音節同士の距離は線形関係でないため、本発明は図5に示す通り、多次元尺度構成法(multidimensionalscaling,MDS)により、データ同士の距離マトリックスを構築した上、認識した音節結果を多次元空間従い、距離を記述する。マトリックス空間の座標転換により、線形の距離関係を形成し、近似度(距離関係)を映像の階調(gray level)で表示した上、模擬映像データに変換する。
図6に示すものは、一つの実例の概略図である。変換後の模擬映像の視覚プロパティ(vitual property)を示す。図6において、音声注釈ファイル(speech−annotatedfile)において、音節gengのうち、認識済みn−最良音節候補の模擬映像は、音節geのうち、認識済みn−最良音節候補の模擬映像に対して、より照合音節(querysyllable)gengの認識済みnベスト候補列の模擬映像に近似することが分かる。図6において、音節gengは音声注釈ファイルに音声認識エラーを発生するが、本発明による音節を模擬映像変換による検索技術は、照合および音声注釈ファイルから、照合音節を正確に検索できる。つまり、本発明の検索技術を利用することにより、音声注釈ファイルの音節gengは照合音節gengへ正確に組合せることができる。
図7において、事例により本発明の認識結果(図7Aの発音音節)より索引を構築する手順を説明する。図7Bに示すとおり、選択されたnベスト候補列を模擬映像データに変換した後、一つの音節候補を1枚の映像に対応し、図示のように映像をカットする。カットされた後の映像データは映像特徴(eigen−image)の分析を行って、得られた音節を模擬映像特徴値は、図7Dに示す、多次元のベクトルデータ節模擬映像特徴値となる。最後に、図7E特徴値が近似する音節を模擬映像クラスター(Cluster)と同じ符号語(codeword)行列にする。すべての符号語行列は、コードブックに(codebook)仕上げる。
音声注釈および音声入力の検索条件は、前記した手順により、符号語行列に変換される。本発明の情報検索方法により、語頻度及び反転語頻度(term frequency and doverse document frequency, tf x idf)を統計し、ベクトル式索引を構築する。このベクトル次元の索引は、各注釈内容の情報を意味する。利用者は音声入力条件により、同じ手順でベクトル次元(dimension)に変換されたデータは、検索するとき、この音声ベクトルとデータベース索引のベクトルを、二つずつのベクトル内積比較の演算を行った後、検索条件に合致したマルチメディアデータを利用者に戻す。
映像特徴値分析は、映像データに対し、主成分解析(principalcomponentanalysys,PCA)を行う。その長所は、音節変換後の模擬映像データは、代表的特徴(extractsignificantfeature)を有するほか、ノイズ情報データによる干渉を軽減できる。なお、主成分分析の実現方法は他種類を存在している。一般性を失わない。以下の事例において、映像データを主成分分析の二つの主な手順は、共分散マトリックス見積(convariancematrixestimation)と特異値分解分析(singularvaluedecomposition,SVD)を説明する。
特異値分解分析の主な目的は、映像ベクトルに含まれたすべての次元を単一潜在性情報スペース(single latent informationspace)に投射(project )するともに、データ次元を有意義に軽減(significantlyreduced dimensionality)する。
図8に示すとおり、共分散マトリックス見積の演算において、映像の基準化(imagenormalization)、映像平均値(takingimagemean)の取得、映像差平均値(botaininingdifferential image)の取得、映像マトリックス構築次元(dimension by image matrix construction)Wの構築、および共分散マトリックス構築(convariance matrix construction)を行う。特異値分解分析の演算において、Wの自己相関マトリックス(auto correlation matrix computaion)、次元とデータノイズ(reducing dimensionality and data noice)の軽減、特徴映像変換ベース(transform basis constuction of eigen−image)Uの構築、ベースUにより、特徴映像変換(eigen−imagetransformatio n)を行う。
実験の結果、本発明による保存は、より少ないデータ次元とより多くの検索速度が得られるほか、検索精度は16. 26%の向上が得られた。
前記した説明のとおり、本発明はマルチメディアデータに付加された音声注釈およびマルチメディアデータの音節変換画像特徴の分析処理と検索を含めた、一種のマルチメディアデータ管理方法とその装置を提供する。捕捉された音声データの特徴は、音声認識器により、音節マトリックスを認識した上、音節近似度の計算方法により、音節発音点数の見積を行い、認識結果の音節マトリックスは、音節発音点数の参照および模擬映像データに変換する。最後は映像特徴処理方法により索引を構築し、注釈と検索音声の索引により、目的のマルチメディアデータをより高い確率で検索できる。
マルチメディアデータの音声注釈の索引を構築するとき、注釈音声の特徴を捕捉した上、自動音声認識器により、nベスト候補列を生成する。そして、音節模擬映像データの変換により、このnベスト候補列を模擬映像の画素データに変換する。さらに、映像特徴値分析を行い、映像に含まれた代表的特徴を捕捉した上、ノイズ干渉を除去する。
続いて、クラスタ分析により、音節の映像特徴値の種別を集合し、符号語(codeword)およびコードブック(codebook)を構築する。最後に、すべての入力音声信号は、前記した手順に従い、一連のコードに変換し、情報検索に良く使用されるtfx idf統計方式により、索引を構築する。
検索するとき、入力された音声照合は、同じ処理手順を経て、ベクトル索引を構築した後、データベースに構築された索引情報との近似度比較を行い、検索条件に合致した音声注釈ならびにその対応のマルチメディアデータ内容を検索する。
本発明によるマルチメディアデータ管理方法とその手順のフロー図である。 マルチメディアデータの索引製作モジュールの詳細ブロック図である。 図1Bの自然口調の音声によるマルチメディアデータ検索手順のフロー図である。 自動音声認識方法の説明図である。 音声認識器により定義された発音音節の事例である。 本発明による多次元尺度構成法を用いて、音節データ二つずつの距離マトリックスは非線形関係のとき、線形分離可能な次元への投影図である。 本発明による認識結果から索引の構築手順の事例図である。 共分散マトリックス見積もりと特異値分解分析の演算の詳細説明図である。
101 音声特徴
103 自動音声認識器
105 音節変換画像データ
113 音節マトリックス
201 映像模擬モジュール
205 特徴の捕捉および索引構築モジュール
401 パラメータの捕捉
403 認識段階(言語学復号化)

Claims (9)

  1. 自動音声認識器により音声注釈特徴の認識結果を生成し、
    該認識結果から該音声注釈特徴のnベスト候補列(n−bestsyllablecandidate)を得て、そのうち該nは自然数であり、
    nベスト候補列に関する混マトリックス(confusion matrix)を構築し、該混マトリックスは近似点数マトリックスを包含し、各近似点数は各音節候補の該nベスト候補列の一つに対する近似性を測定し、
    該混マトリックスを一枚の映像に変換し、該映像の各画素は対応する近似点数により測定された近似度を代表する階調を有し、
    該映像より特徴映像処理方法を用いて映像特徴を捕捉することにより索引データベースを構築し、
    自然言語の入力により、マルチメディアデータの検索を行う、マルチメディアデータ管理方法。
  2. 該索引データベースの構築において、該映像の一つ以上の特徴パラメータを抽出し、該特徴パラメータの数値化した上、該索引の構築を完成することを特徴とする請求項1記載のマルチメディアデータ管理方法。
  3. 該自然口調の音声による該マルチメディアデータの検索は、音声により検索条件を入力し、該検索条件を索引データに変換し、
    引き続き、索引データと索引データベースの索引情報との比較を行い、
    該検索条件に対応するマルチメディアデータの検索を行うことを特徴とする請求項1記載のマルチメディアデータ管理方法。
  4. 該パラメータの数値化および該索引データの構築はさらに、該特徴映像処理方法により捕捉された各特徴映像を数値化して多次元ベクトルとなし、および多次元ベクトルをクラスタリングして符号語行列となし、全ての符号語行列をコードブックに集合することを特徴とする請求項3記載のマルチメディアデータ管理方法。
  5. 該自動音声認識器は、発音音節をベースとする音声認識器であることを特徴とする請求項1記載のマルチメディアデータ管理方法。
  6. 該映像特徴処理方法は、該映像に対して成分分析することを特徴とする請求項1記載のマルチメディアデータ管理方法。
  7. マルチメディアデータ管理装置において、
    マルチメディアデータ製作索引モジュールを包含し、
    該マルチメディアデータ製作索引モジュールは、
    自動音声認識器であって、
    音声注釈特徴の認識結果を生成し、
    該認識結果から該音声注釈特徴のnベスト候補列を得て、そのうち該nは自然数である、該自動音声認識器と、
    映像模擬モジュールであって、該nベスト候補列に関する混マトリックス(confusion matrix)を構築し、該混マトリックスを一枚の映像に変換し、該混マトリックスは近似点数マトリックスを包含し、各近似点数は各音節候補の該nベスト候補列の一つに対する近似性を測定し、該映像の各画素は対応する近似点数により測定された近似度を代表する階調を有する、上記映像模擬モジュールと、
    特徴捕捉および索引製作モジュールであって、該映像より特徴映像を捕捉し特徴映像処理方法を使用して索引データベースを構築する、該特徴捕捉および索引製作モジュールと、
    マルチメディアデータモジュールであって、該索引データベースを使用して自然口調の入力音声により、該マルチメディアデータの検索を行う、該マルチメディアデータモジュールと、
    を包含したことを特徴とする、マルチメディアデータ管理装置。
  8. 該索引データベースに設けるすべての索引は、符号語行列より構築されることを特徴とする請求項7記載のマルチメディアデータ管理装置。
  9. 該自動音声認識器は、発音音節をベースとした音声認識器であることを特徴とする請求項7記載のマルチメディアデータ管理装置。
JP2006195626A 2006-06-07 2006-07-18 マルチメディアデータ管理方法とその装置 Expired - Fee Related JP4699954B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW095120209 2006-06-07
TW095120209A TWI312945B (en) 2006-06-07 2006-06-07 Method and apparatus for multimedia data management

Publications (2)

Publication Number Publication Date
JP2007328311A JP2007328311A (ja) 2007-12-20
JP4699954B2 true JP4699954B2 (ja) 2011-06-15

Family

ID=38895783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006195626A Expired - Fee Related JP4699954B2 (ja) 2006-06-07 2006-07-18 マルチメディアデータ管理方法とその装置

Country Status (3)

Country Link
US (1) US7739110B2 (ja)
JP (1) JP4699954B2 (ja)
TW (1) TWI312945B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688674B2 (en) 2008-02-14 2014-04-01 Beats Music, Llc Fast search in a music sharing environment
US20090265165A1 (en) * 2008-04-21 2009-10-22 Sony Ericsson Mobile Communications Ab Automatic meta-data tagging pictures and video records
US8086611B2 (en) * 2008-11-18 2011-12-27 At&T Intellectual Property I, L.P. Parametric analysis of media metadata
US8290780B2 (en) * 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US9489577B2 (en) * 2009-07-27 2016-11-08 Cxense Asa Visual similarity for video content
US20110257972A1 (en) * 2010-04-15 2011-10-20 Markus Agevik System and method for location tracking using audio input
WO2011156719A1 (en) * 2010-06-10 2011-12-15 Logoscope, Llc System and method for conversion of speech to displayed media data
EP2466872B1 (en) * 2010-12-14 2018-06-06 Axis AB Method and digital video camera for improving the image quality of images in a video image stream
CN103021403A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
US10019514B2 (en) * 2015-03-19 2018-07-10 Nice Ltd. System and method for phonetic search over speech recordings
CN110347866B (zh) * 2019-07-05 2023-06-23 联想(北京)有限公司 信息处理方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049559A (ja) * 2000-04-07 2002-02-15 Internatl Business Mach Corp <Ibm> 会話ブラウズおよびマルチメディア・ブロードキャスト・オン・デマンドを提供する会話ポータル
WO2004090752A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
JP2005331940A (ja) * 2004-05-07 2005-12-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2006058874A (ja) * 2004-08-20 2006-03-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2006084966A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 発話音声の自動評定装置およびコンピュータプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS59121098A (ja) * 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JPS6391699A (ja) * 1986-10-03 1988-04-22 株式会社リコー 音声認識方式
US5532936A (en) * 1992-10-21 1996-07-02 Perry; John W. Transform method and spectrograph for displaying characteristics of speech
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
KR100324988B1 (ko) * 1994-06-13 2002-08-27 마츠시타 덴끼 산교 가부시키가이샤 신호해석장치
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
JP4236815B2 (ja) * 1998-03-11 2009-03-11 マイクロソフト コーポレーション 顔合成装置および顔合成方法
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6833865B1 (en) * 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
WO2000045375A1 (en) * 1999-01-27 2000-08-03 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
US6499016B1 (en) * 2000-02-28 2002-12-24 Flashpoint Technology, Inc. Automatically storing and presenting digital images using a speech-based command language
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US7054850B2 (en) * 2000-06-16 2006-05-30 Canon Kabushiki Kaisha Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements
US6813618B1 (en) * 2000-08-18 2004-11-02 Alexander C. Loui System and method for acquisition of related graphical material in a digital graphics album
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
ATE335195T1 (de) * 2001-05-10 2006-08-15 Koninkl Philips Electronics Nv Hintergrundlernen von sprecherstimmen
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US7366656B2 (en) * 2003-02-20 2008-04-29 Ramot At Tel Aviv University Ltd. Method apparatus and system for processing acoustic signals
TWI258731B (en) * 2004-11-04 2006-07-21 Univ Nat Cheng Kung Chinese speech synthesis unit selection module and method
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049559A (ja) * 2000-04-07 2002-02-15 Internatl Business Mach Corp <Ibm> 会話ブラウズおよびマルチメディア・ブロードキャスト・オン・デマンドを提供する会話ポータル
WO2004090752A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
JP2006525537A (ja) * 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
JP2005331940A (ja) * 2004-05-07 2005-12-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2006058874A (ja) * 2004-08-20 2006-03-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2006084966A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 発話音声の自動評定装置およびコンピュータプログラム

Also Published As

Publication number Publication date
TWI312945B (en) 2009-08-01
US7739110B2 (en) 2010-06-15
JP2007328311A (ja) 2007-12-20
US20070288237A1 (en) 2007-12-13
TW200745880A (en) 2007-12-16

Similar Documents

Publication Publication Date Title
JP4699954B2 (ja) マルチメディアデータ管理方法とその装置
KR101160597B1 (ko) 의미 연관성에 기초한 콘텐츠 검색
JP5346279B2 (ja) 検索による注釈付与
US7124149B2 (en) Method and apparatus for content representation and retrieval in concept model space
US7853582B2 (en) Method and system for providing information services related to multimodal inputs
US7092870B1 (en) System and method for managing a textual archive using semantic units
Mao et al. Deep cross-modal retrieval for remote sensing image and audio
US10515292B2 (en) Joint acoustic and visual processing
JP3848319B2 (ja) 情報処理方法及び情報処理装置
EP1349145B1 (en) System and method for providing information using spoken dialogue interface
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
US20030191645A1 (en) Statistical pronunciation model for text to speech
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
US20090234854A1 (en) Search system and search method for speech database
WO2003010754A1 (fr) Systeme de recherche a entree vocale
CN1270361A (zh) 使用内容和扬声器信息进行音频信息检索的方法和装置
KR20090130028A (ko) 분산 음성 검색을 위한 방법 및 장치
KR101763407B1 (ko) 음성 대화 시스템 및 그 시스템에서의 음성 대화 방법
US8370323B2 (en) Providing information services related to multimodal inputs
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116450883A (zh) 基于视频内容细粒度信息的视频时刻检索方法
CN116562270A (zh) 一种支持多模态输入的自然语言处理系统及其方法
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
Vinciarelli et al. Application of information retrieval technologies to presentation slides

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100208

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110303

R150 Certificate of patent or registration of utility model

Ref document number: 4699954

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees