JP2004133880A - インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 - Google Patents
インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 Download PDFInfo
- Publication number
- JP2004133880A JP2004133880A JP2003114703A JP2003114703A JP2004133880A JP 2004133880 A JP2004133880 A JP 2004133880A JP 2003114703 A JP2003114703 A JP 2003114703A JP 2003114703 A JP2003114703 A JP 2003114703A JP 2004133880 A JP2004133880 A JP 2004133880A
- Authority
- JP
- Japan
- Prior art keywords
- document
- vocabulary
- lattice
- words
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 abstract description 44
- 230000003068 static effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】インデックス付き文書のデータベースで使用される音声認識器のための動的語彙を構成する方法を提供する。
【解決手段】インデックス付けされる各文書ごとに文書特徴ベクトルを抽出し、各特徴ベクトルを低次元文書特徴ベクトルに射影し、低次元特徴ベクトルに従って文書をインデックス付けする。認識器は、音声による問い合わせを、問い合わせにおける単語のあり得る連続的な組合せを示すラティスとして表現する。ラティスを問い合わせ確実ベクトルに変換し、更に低次元問い合わせ確実ベクトルに射影する。検索エンジンが、低次元特徴ベクトルを低次元問い合わせ確実ベクトルの各々と比較することにより文書の一致する結果セットを検索する。
【選択図】 図1
【解決手段】インデックス付けされる各文書ごとに文書特徴ベクトルを抽出し、各特徴ベクトルを低次元文書特徴ベクトルに射影し、低次元特徴ベクトルに従って文書をインデックス付けする。認識器は、音声による問い合わせを、問い合わせにおける単語のあり得る連続的な組合せを示すラティスとして表現する。ラティスを問い合わせ確実ベクトルに変換し、更に低次元問い合わせ確実ベクトルに射影する。検索エンジンが、低次元特徴ベクトルを低次元問い合わせ確実ベクトルの各々と比較することにより文書の一致する結果セットを検索する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、概して音声認識器に関し、特にキーワードによる動的語彙を備えた音声認識器に関する。
【0002】
【従来の技術】
情報検索
インターネットは、利用可能なマルチメディアコンテンツおよび文書を公的に格納する莫大な数のデータベースへの、世界規模のアクセスを提供する。一般に、デスクトップシステムで実行するブラウザおよび検索エンジンを使用して、ユーザにテキストによる問合せを指定させるかまたはリンクを辿ることにより、格納された文書が検索される。一般に、タイプ入力された問合せは、キーワードまたはフレーズを含む。専門の情報検索(IR)システムの数は、列挙することができないほど多い。
【0003】
また、携帯電話および個人デジタルアシスタント(PDA)等の携帯通信機器を使用して、インターネットにアクセスすることも可能である。しかしながら、かかる機器は、テキスト入力および出力機能が制限されている。たとえば、携帯電話のキーパッドは、入力問合せをタイプ入力するために特に適しておらず、多くのPDAは、文字キーをまったく有していない。また、これらの機器の表示画面は、サイズが制限されており読み取ることが困難でもある。これらのタイプの機器は、音声入力および出力の方が適している。同様の状況は、車等の自動車からインターネットにアクセスするために使用される移動体通信機器にもある。この場合、機器を手動で操作することと表示画面を見ることとが困難かつ危険であり、よりよい入力および出力の様式は音声である。したがって、音声による問合せは、かかる移動体機器における情報検索に対しより適切なユーザインタフェースを提供する。
【0004】
音声によるIR
音声による問合せのための従来技術による文書検索システムは、一般に、何らかの従来の音声認識エンジンを使用して、音声による問合せを問合せのテキストトランスクリプトに変換する。そして、問合せはテキストとして処理され、従来の情報検索プロセスを使用して問合せに一致する適切な文書が検索される。しかしながら、この手法は、検索システムの性能を向上させるために使用することができる貴重な情報を破棄する。最も重要なことには、音声による問合せである音響スペクトル信号全体が破棄され、残っているのは、認識器によって推論された生のテキストコンテンツでありしばしば誤りがある。
【0005】
文書か問合せのいずれかが音声によって指定される際に、システムの性能を最適化するために新たな技術を使用しなければならない。テキスト問合せを使用して文書を検索する従来の情報検索システムで使用される技術は、音声認識エンジンのテキスト出力がしばしば誤りを含むため、音声による問合せおよび音声による文書に対し十分に機能しない。音声による問合せは、しばしば、認識器により多くの異なる意味で解釈することができるあいまいさを含む。その結果、変換されたテキストは、音声による問合せのコンテキスト内で完全に矛盾する単語と、いかなる聴取者にも明らかである間違いとさえも含む場合がある。音声認識エンジンからの単純なテキスト出力は、他の発話された可能性のある単語、または問合せがどのように聞こえたか等の多くの貴重な情報を廃棄する。音響信号は、通常豊富であり、音量および音程の変動等の多くの特徴とアクセントまたは強勢等のより識別が困難な特徴とを含む。この情報がすべて喪失される。
【0006】
このように、基本的な従来技術の音声によるIRシステムは、音声信号に対して音声認識器を適用する。そして、認識されたテキストは、単純に、GoogleまたはAlta Vista等の簡単なテキストベースの問合せシステムに提供される。
【0007】
音声認識
上述したように、単純に音声認識システムを音声・テキスト翻訳機として使用する最新技術の音声による問合せベースのIRシステムには、多くの問題がある。さらに、他のおそらくより重大な問題がある。大抵の音声認識システムは、事前定義された語彙および文法で作動する。語彙が多いほどシステムは低速であり、メモリおよび処理等の資源がより多く必要である。また、語彙が多いことにより、認識器の精度が低下する。このため、認識器の語彙をあり得る最小サイズで維持することが有用である。一般に、これは、所与のアプリケーションに対して最も有用な単語のセットを識別し、その語彙に認識器を制限することによって達成される。しかしながら、小さい静的な語彙は、IRシステムの有用性を制限する。
【0008】
【発明が解決しようとする課題】
Alta Vista等、インターネット上で見つけるすべての文書のすべての単語をインデックス付けする大型の文書インデックスは、多くの言語で数億もの単語を含む。Alta Vista用に完全語彙を構成することは極めて困難である。他の従来のIRシステムは、「and」および「it」等の「ストップ」ワード(不要語)をインデックス付けしない場合がある。それでもなお、それらの語彙においてインデックス付けされる単語の総数は、適度にサイズが決められたインデックスに対してでさえ数十万となる可能性がある。音声による問合せベースのIRシステムを有効にするために、これらの単語はすべて認識器の語彙になければならない。追加の文書がインデックスに追加される際、その文書の単語を同様に認識器の語彙に入力しなければならない。そうでなければ、認識器は、インデックスの文書に関連する単語の多くを認識することができなくなる。明らかに、静的語彙を有する従来の認識器は、このジョブを行うことができない。
【0009】
上述したあらゆる問題を考慮すると、音声による問合せを使用する情報検索システムを改良することが望ましい。認識器による誤った認識に起因する問題を軽減するために、音声による問合せに一致する可能性のある文書を探索する間に音声による問合せの確実性情報を保持することが望ましい。特に、マルチメディアデータベースを探索している間に、言ったことまたは言わなかったことの確率が既知となれば、文書検索は改良される。さらに、制限された静的な認識語彙からもたらされる問題を排除するために、音声認識器の語彙を文書インデックスの語彙に動的に一致させることが望ましい。
【0010】
本発明は、インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法を提供する。
【0011】
【課題を解決するための手段】
インデックス付けされる各文書ごとに文書特徴ベクトルを抽出する。各特徴ベクトルを低次元文書特徴ベクトルに射影し、低次元文書特徴ベクトルに従って文書インデックスにおいて文書をインデックス付けする。
【0012】
認識器は、音声による問合せを、音声による問合せにおける単語のあり得る連続的な組合せを示すラティスとして表現する。ラティスを、問合せ確実ベクトルに変換し、それを低次元問合せ確実ベクトルに射影する。検索エンジンが、低次元問合せベクトルを低次元文書特徴ベクトルの各々と比較することによって、文書の一致する結果セットを検索する。
【0013】
さらに、文書がインデックス付けされる際に、文書から自動的に抽出されるキーワードおよびキーフレーズによって音声認識器または検索エンジンのアクティブな語彙および文法を動的に更新する。言換えれば、文書インデックスからの情報を、認識器または検索エンジン自体に戻す。しかしながら、認識器の語彙を最小に維持するために、語彙には文書のすべての単語を含める訳ではない。代わりに、文書における「キーワード」および「キーフレーズ」を識別し、これらのみをアクティブな語彙に含める。代替的に、語彙を、問合せベクトルを構成する目的のために検索エンジンにアクセス可能とすることができる。
【0014】
【発明の実施の形態】
本発明は、音声による問合せを使用してマルチメディアデータベースから文書を検索するシステムおよび方法を提供する。さらに、本発明は、音声認識プロセスにおいて文書インデックス情報を利用し、データベースにおいて一致する文書を探索している間に認識結果に関する確実性情報を利用する。確実性情報は、あり得る問合せ単語の確率を表す。この情報を、2つの方法のうちの1つで取得することができる。また、本発明は、インデックス付き文書のキーワードの辞書を動的に維持することができる。
【0015】
第1の方法では、問合せに対し音声認識を実行することにより、単語レベルのラティスが取得される。そして、ラティスから、単語事後確率を直接求めることができる。たとえば、Evermann等の著「Large vocabulary decoding and confidence estimation using word posterior probabilities」,Proceedings of theIEEE international conference on acoustics speech and signal processing,2000を参照のこと。
【0016】
代替的に、ガウス混合分類器またはブースティングベース分類器等の追加の分類器を使用して、単語信頼得点を求めることができる。たとえば、Moreno等の著「A boosting approach to confidence scoring」,Proceedings of Eurospeech,2001を参照のこと。分類器は、ラティスにおける、単語ラティスおよび追加の外部情報によって表される情報を含む単語の特徴表現に基づく。
【0017】
単語ラティスから導出される情報は、単語の事後確率、単語に近接するラティス密度等の特徴を含むことができる。使用される外部情報は、ラティスにおける単語の固有の混乱しやすさ等の語彙的情報と、音響信号のスペクトル特性、音量、音程の変化等の信号レベル情報とを含んでよい。また、音程および音量等の外部特徴を使用して、他の単語より重要な単語があるか否かを判断し、検索に対するこれらの単語の寄与を適当に増大させることができる。
【0018】
第2の方法では、音声認識は、音素レベルラティスを取得する。そして、キーワードまたはキーフレーズエントリの確率を、音素レベルラティスから取得することができる。この場合もまた、音程および音量等の外部音響情報を使用して、単語確率の推定において音素の寄与を重視するかまたは重視しないようにすることができる。音素が使用される場合、同じように聞こえるが異なる意味を有する単語を処理することが可能である。
【0019】
データベースに格納されるマルチメディア文書もまた、インデックス付けされる文書における単語の確実性を保持するモデルに従ってインデックス付けされる。
【0020】
本発明によるシステムおよび方法は、音声またはテキストから生成される特徴ベクトルを確定し比較する。特徴ベクトルを比較することにより、特定の音声による問合せが与えられた場合の文書の適切性(pertinence)を求める基準が提供される。記録された音声またはテキストの問合せが与えられると、基準を使用して、記録された音声およびテキストの適切な文書が検索される。
【0021】
低次元特徴ベクトルを使用する文書のインデックス付け
図1は、本発明による文書インデックス付けおよび検索システム100を示す。システムへの入力は、文書101である。各文書ごとに文書特徴ベクトル102が確定される(110)。文書特徴ベクトル102は、文書内のすべての単語の重み付きリストである。各単語の重みは、文書におけるその単語出現の頻度に等しい。頻度の高い単語ほど重要であるとみなすことができる。
【0022】
インデックス付けされている文書が音響信号であるか、またはコンテンツの明示的な記述が入手可能である他のマルチメディア文書であり、コンテンツが音声認識等の方法により推論される場合、文書特徴ベクトルにおける単語の重みは、上述した方法のいずれかを使用して測定される、その単語の確実性を表す。
【0023】
次に、各文書特徴ベクトルがより低い次元に射影される(120)ことにより、低次元(LD)文書特徴ベクトル103が生成される。射影は、特異値分解(SVD)を使用して従来のベクトル空間表現を低次元射影に変換することができる。SVD技法は、既知である。代替的に、潜在意味論的解析(latent semantic analysis(LSA))射影を使用することも可能である。LSA射影は、単語の逆文書頻度(inverse document frequency)と、文書のエントロピとを組込む。
【0024】
他の射影表現も可能である。これらの技法のすべてに共通することは、すべての文書が、文書に出現する特徴の低次元ベクトルによって表されるということである。単語に関連する値は、文書に対するその単語の推定された相対重要度の測度である。また、フィルタを適用することにより、たとえば「the」、「a」、「and」、および「in」等の冠詞、接続詞、および前置詞等の一般的な単語を無視することも可能である。これらは、通常、「ストップ」ワードと呼ばれる。フィルタリングされ無視される単語を、おそらくはユーザによって編集可能な別個のリストとして維持することが可能である。
【0025】
また、単語に「語幹処理する」ことも可能である。語幹処理は、単語をその基本形態にするプロセスであり、たとえば複数名詞は単数形にされる。動詞の様々な時制および格に対しても同様に語幹処理をすることができる。語幹語もまた、ユーザ編集可能リストに保持することができる。
【0026】
そして、低次元文書特徴ベクトル103を使用して、検索エンジン190のデータベース140において文書がインデックス付けされる(130)。なお、文書自体をデータベース140に格納することも可能であり、あるいはデータベースが文書に対するポインタを格納することも可能である。この説明の目的のために、これらを、等価な表現であると考える。
【0027】
いずれの場合も、インデックス付けされる文書を使用して、後により詳細に説明するように、音声認識器150によって使用される動的語彙151を構成するために使用することができるキーワードを検出する(200)ことも可能である。キーワードは、キーフレーズにおける一続きの単語の形態であってよい。語彙151もまた検索エンジン190の一部とすることができ、それによって問合せベクトル107が構成される。
【0028】
音声による問合せからの低次元確実性ベクトルを求める
データベース140を検索する(180)ための音声による問合せ105は、以下のように検索エンジン190によって処理される。音声による問合せは、音声認識エンジン150に提供される。しかしながら、従来技術のように音声による問合せを直接テキストに変換する代りに、本発明によるシステムは、ラティス106を生成する。ラティス106では、ノードは音声による単語を表し、単語を接続する有向エッジは、単語が発話された可能性のある順序を表す。確実性情報は、ノードおよびエッジと共に保持される。概して、確実性情報は、統計的尤度または確率を含む。そのため、ラティスは、音声による問合せにおけるあいまいさに起因する確実性を保持する。
【0029】
ラティス106は、発話された可能性のある単語の可能性のある連続的な組合せのすべてを、関連する確率スコアと共に表す。ラティスは、通常、問合せにおいて実際に発話された単語の殆どまたはすべてを含むが、それらはラティス内の最高スコアリングパスには出現しない可能性がある。典型的な従来技術による音声認識エンジンの出力は、通常、ラティス内の単一の最高スコアリングパスに対応するテキストである。音声認識エンジンは、しばしば誤りをもたらすため、仮定されたトランスクリプトにおける単語のすべてが常に正しいとは限らない。これにより、トランスクリプトが、検索に非常に重要である単語を含まないことになる可能性がある。一方、テキストは、偽の単語か、または誤った検索をもたらす、完全に文脈から外れて変換された単語を含む可能性がある。
【0030】
これらの誤りを補償するために、本発明は、低次元確実性ベクトル107をすべての音声による問合せに関連付ける。このベクトルの各要素は、発話された可能性のある単語を表し、その値は、単語が実際に発話された確実性または確率を、その単語が発話された順序と共に表す。
【0031】
LD問合せ確実ベクトル107を求める(170)いくつかの方法がある。図3aおよび図3bは、好ましいプロセスを示す。図3aは、ラティスにおけるあり得るすべてのパスを示す。図3bは、特定ノード300を通るあり得るパスのすべてを太線で示す。ラティス内の特定のノードを通過するすべてのパスのスコアを、ラティス内のすべてのパスの総尤度スコアによって除算することにより、ラティス内のすべての単語ノードの確率を求めることができる。これにより、関連する確率を有する、発話された可能性のあるすべての単語のリストがもたらされる。
【0032】
上述したもの等の頻度スコアを含む、ラティスにおけるノードのあらゆる特性を考慮する外部分類器は、ノードに関連する信頼度をもたらすことができる。分類器方法には、ガウス分類、ブースティングベース分類、ラティスの特性に基づくルールベースヒューリスティックスが含まれる。実施例は、ラティス内の様々なポイントにおけるラティス密度を含む。上述したように、確率は、音響信号の他の特徴を考慮することにより、発話においていくつかの単語が強調されているか否かを判断することができる。文脈情報も使用することができる。たとえば、文脈を外れているように見える認識された単語に、低い確実性スコアを与えることができる。
【0033】
いかなる単語の最終的な確実性の値も、ラティス106におけるあり得る単語のすべての例に対し上記方法によってもたらされた信頼度か確実性の組合せである。
【0034】
確実性ベクトルのすべての要素は、文書または問合せにおける対応する単語の例の数の推定値に比例する。この確実性ベクトルは、文書101のベクトル空間102表現の類似物であり、そのため、文書特徴ベクトル102に適用されたものと同じ射影(SVD、LSA等)が行われることにより、低次元問合せ確実ベクトル107がもたらされる。低次元問合せ確実ベクトルを使用して、データベース140において、音声による問合せ105を満足する文書109の結果セットが検索される(180)。
【0035】
音声による問合せを使用する適切な文書の検索
音声による問合せが与えられると、データベースからの適切な文書109の検索は、通常は検索エンジン190を使用して、以下のように進行する。ステップは、音声認識器を使用して音声による問合せをラティスにマッピングすること、関連する重みを有する、発話されたあり得る単語のセットを求めること、関連する重みを有するあり得る単語のセットから確実性ベクトルを生成すること、音声による問合せの確実性ベクトルを、データベースインデックスの最適化された低次元空間に変換することと、マッピングされた確実性ベクトルをマッピングされた文書特徴ベクトルの各々と比較することによりパーチネンシー得点を取得することとである。そして、結果セット109における文書を、それらのパーチネンシー得点の順にユーザに提供することができる。所定閾値より低いスコアを有する文書を破棄することができる。
【0036】
動的認識器語彙の構成
キーワードの検出
認識プロセスにおいて利用される文書インデックス情報は、インデックス付けされる文書から動的に抽出されるキーワードの形態とすることができる。特別な場合、一続きのキーワードはキーフレーズである。この情報は、認識器の語彙および文法に組込まれる。キーワード抽出を、多くの方法のうちの1つで実行することができる。たとえば、Tunneyの著「Learning to Extract Key phrases fromText」,NRC Technical Report ERB−1057,National Research Council,Canada,1999を参照のこと。
【0037】
多くのテキストベースの文書は、すでにマークされているキーワードまたはフレーズを備える。HTMLでは、特定の単語がキーワードであることを示すためにタグ<mata>KEYWD</meta>の使用が可能である。他のマークアップ言語も同様に、同様の機能を提供する。キーワードがこのようにマークされると、文書からそれらを直接抽出し、認識器150または検索エンジン190によって使用される動的語彙151に格納し直す。
【0038】
しかしながら、キーワードがマークされていない場合、それらは図2に示すように自動的に検出される(200)。まず、入力文書140の単語に語幹処理が施され(210)、あり得るキーワードおよびキーフレーズのすべてが識別される(220)。候補キーフレーズは、いずれも不要語でない約2〜5単語長の一続きの単語である。そして、これらの各々は、上述したように特徴のベクトルによって表現される。特徴は、文書における発生の頻度、文書における最初の例の位置等のような値を含む。
【0039】
そして、候補単語またはフレーズの各々は、キーであるか否かとして分類される(230)。最上位N、たとえばNは3〜10の範囲であり、その後に最高スコアリング候補が選択される(240)。この時点で、単語はすべて語幹処理されている。そのため、選択されたキーワードまたはフレーズもまた語幹処理されている。この時、それらはそれらの最も高頻度な語幹処理されていない形態251に拡張される(250)。
【0040】
たとえば、文書において「speech recognition」と「speech recognizer」とがともに発生した場合、それらはともに「speech recog」に語幹処理され、その後それがキーフレーズとして分類される。文書において「speech recognition」が100回発生し、「speech recognizer」が50回しか発生していない場合、「speech recog」は「speech recognition」に拡張され戻されるが「speech recognizer」には拡張されない。言換えれば、それは、その最も頻度の高い語幹処理されていない形態に拡張される。
【0041】
分類器230を、文書のタグ付きコーパスから訓練することができる。分類器は、多くの形態、たとえば、ルールベース、統計的、決定木ベースなどの形態を有することができる。かかる方法に対する典型的な参考文献は、Tunneyの著「Learning to Extract Keyphrases from Text」,1999である。
【0042】
キーワードの認識器への組込み
キーワードを、2つの方法で認識器150に組込むことができる。第一に、キーワードを、認識器150に直接組込むことができる。この解決法は、認識器が適度なまたは大量のメモリおよびCPU資源を有するコンピュータで実行する状況に有用である。ここで、キーワードは、語彙151に戻される。
【0043】
したがって、新たな文書がインデックス140に導入される度に、認識器の語彙は、文書において検出される新たなキーワードの数だけ動的に増大する。フレーズの個々の単語を正確に認識しその後適当なフレーズを形成するより、フレーズを単位として認識する方が通常容易であるため、認識器にはキーフレーズが含まれる。フレーズを、全エントリとしてではなく、語彙のエントリに基づく「文法」における有効なパスとして組込むことにより、語彙のサイズを低減することができる。
【0044】
代替的に、資源が制限された機器、たとえば携帯電話およびハンドヘルドデジタル機器に対し、上述したように音素ラティスを使用することも可能である。この実施態様の場合、認識器は、単語の単一仮説またはラティスではなく、音素のラティスを出力することができる。認識器が、入力装置、たとえば携帯電話の一部である場合、ラティスを検索エンジン190に転送することができる。検索エンジン190は、語彙における単語またはフレーズのすべてに対し受取った音素ラティスをスキャンし、識別した単語の各々に対し、ラティスにおける構成音素の確率から単語の確率を求める。計算された確率は、他の情報、たとえば利用可能であれば音程、アクセント等と結合されることにより、問合せベクトル107が構成される。
【0045】
本発明を、好ましい実施の形態として説明したが、本発明の精神および範囲内であらゆる他の適応および変更を行うことができるということが理解されなければならない。したがって、かかる変形および変更のすべてを本発明の真の精神および範囲内にあるものとして包含することが、併記の特許請求の範囲の目的である。
【図面の簡単な説明】
【図1】本発明による、音声による問合せを使用する情報検索システムの流れ図である。
【図2】本発明による情報検索システムのために動的音声認識器語彙を構成する方法の流れ図である。
【図3a】本発明が使用するラティスの図である。
【図3b】本発明が使用するラティスの図である。
【発明の属する技術分野】
本発明は、概して音声認識器に関し、特にキーワードによる動的語彙を備えた音声認識器に関する。
【0002】
【従来の技術】
情報検索
インターネットは、利用可能なマルチメディアコンテンツおよび文書を公的に格納する莫大な数のデータベースへの、世界規模のアクセスを提供する。一般に、デスクトップシステムで実行するブラウザおよび検索エンジンを使用して、ユーザにテキストによる問合せを指定させるかまたはリンクを辿ることにより、格納された文書が検索される。一般に、タイプ入力された問合せは、キーワードまたはフレーズを含む。専門の情報検索(IR)システムの数は、列挙することができないほど多い。
【0003】
また、携帯電話および個人デジタルアシスタント(PDA)等の携帯通信機器を使用して、インターネットにアクセスすることも可能である。しかしながら、かかる機器は、テキスト入力および出力機能が制限されている。たとえば、携帯電話のキーパッドは、入力問合せをタイプ入力するために特に適しておらず、多くのPDAは、文字キーをまったく有していない。また、これらの機器の表示画面は、サイズが制限されており読み取ることが困難でもある。これらのタイプの機器は、音声入力および出力の方が適している。同様の状況は、車等の自動車からインターネットにアクセスするために使用される移動体通信機器にもある。この場合、機器を手動で操作することと表示画面を見ることとが困難かつ危険であり、よりよい入力および出力の様式は音声である。したがって、音声による問合せは、かかる移動体機器における情報検索に対しより適切なユーザインタフェースを提供する。
【0004】
音声によるIR
音声による問合せのための従来技術による文書検索システムは、一般に、何らかの従来の音声認識エンジンを使用して、音声による問合せを問合せのテキストトランスクリプトに変換する。そして、問合せはテキストとして処理され、従来の情報検索プロセスを使用して問合せに一致する適切な文書が検索される。しかしながら、この手法は、検索システムの性能を向上させるために使用することができる貴重な情報を破棄する。最も重要なことには、音声による問合せである音響スペクトル信号全体が破棄され、残っているのは、認識器によって推論された生のテキストコンテンツでありしばしば誤りがある。
【0005】
文書か問合せのいずれかが音声によって指定される際に、システムの性能を最適化するために新たな技術を使用しなければならない。テキスト問合せを使用して文書を検索する従来の情報検索システムで使用される技術は、音声認識エンジンのテキスト出力がしばしば誤りを含むため、音声による問合せおよび音声による文書に対し十分に機能しない。音声による問合せは、しばしば、認識器により多くの異なる意味で解釈することができるあいまいさを含む。その結果、変換されたテキストは、音声による問合せのコンテキスト内で完全に矛盾する単語と、いかなる聴取者にも明らかである間違いとさえも含む場合がある。音声認識エンジンからの単純なテキスト出力は、他の発話された可能性のある単語、または問合せがどのように聞こえたか等の多くの貴重な情報を廃棄する。音響信号は、通常豊富であり、音量および音程の変動等の多くの特徴とアクセントまたは強勢等のより識別が困難な特徴とを含む。この情報がすべて喪失される。
【0006】
このように、基本的な従来技術の音声によるIRシステムは、音声信号に対して音声認識器を適用する。そして、認識されたテキストは、単純に、GoogleまたはAlta Vista等の簡単なテキストベースの問合せシステムに提供される。
【0007】
音声認識
上述したように、単純に音声認識システムを音声・テキスト翻訳機として使用する最新技術の音声による問合せベースのIRシステムには、多くの問題がある。さらに、他のおそらくより重大な問題がある。大抵の音声認識システムは、事前定義された語彙および文法で作動する。語彙が多いほどシステムは低速であり、メモリおよび処理等の資源がより多く必要である。また、語彙が多いことにより、認識器の精度が低下する。このため、認識器の語彙をあり得る最小サイズで維持することが有用である。一般に、これは、所与のアプリケーションに対して最も有用な単語のセットを識別し、その語彙に認識器を制限することによって達成される。しかしながら、小さい静的な語彙は、IRシステムの有用性を制限する。
【0008】
【発明が解決しようとする課題】
Alta Vista等、インターネット上で見つけるすべての文書のすべての単語をインデックス付けする大型の文書インデックスは、多くの言語で数億もの単語を含む。Alta Vista用に完全語彙を構成することは極めて困難である。他の従来のIRシステムは、「and」および「it」等の「ストップ」ワード(不要語)をインデックス付けしない場合がある。それでもなお、それらの語彙においてインデックス付けされる単語の総数は、適度にサイズが決められたインデックスに対してでさえ数十万となる可能性がある。音声による問合せベースのIRシステムを有効にするために、これらの単語はすべて認識器の語彙になければならない。追加の文書がインデックスに追加される際、その文書の単語を同様に認識器の語彙に入力しなければならない。そうでなければ、認識器は、インデックスの文書に関連する単語の多くを認識することができなくなる。明らかに、静的語彙を有する従来の認識器は、このジョブを行うことができない。
【0009】
上述したあらゆる問題を考慮すると、音声による問合せを使用する情報検索システムを改良することが望ましい。認識器による誤った認識に起因する問題を軽減するために、音声による問合せに一致する可能性のある文書を探索する間に音声による問合せの確実性情報を保持することが望ましい。特に、マルチメディアデータベースを探索している間に、言ったことまたは言わなかったことの確率が既知となれば、文書検索は改良される。さらに、制限された静的な認識語彙からもたらされる問題を排除するために、音声認識器の語彙を文書インデックスの語彙に動的に一致させることが望ましい。
【0010】
本発明は、インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法を提供する。
【0011】
【課題を解決するための手段】
インデックス付けされる各文書ごとに文書特徴ベクトルを抽出する。各特徴ベクトルを低次元文書特徴ベクトルに射影し、低次元文書特徴ベクトルに従って文書インデックスにおいて文書をインデックス付けする。
【0012】
認識器は、音声による問合せを、音声による問合せにおける単語のあり得る連続的な組合せを示すラティスとして表現する。ラティスを、問合せ確実ベクトルに変換し、それを低次元問合せ確実ベクトルに射影する。検索エンジンが、低次元問合せベクトルを低次元文書特徴ベクトルの各々と比較することによって、文書の一致する結果セットを検索する。
【0013】
さらに、文書がインデックス付けされる際に、文書から自動的に抽出されるキーワードおよびキーフレーズによって音声認識器または検索エンジンのアクティブな語彙および文法を動的に更新する。言換えれば、文書インデックスからの情報を、認識器または検索エンジン自体に戻す。しかしながら、認識器の語彙を最小に維持するために、語彙には文書のすべての単語を含める訳ではない。代わりに、文書における「キーワード」および「キーフレーズ」を識別し、これらのみをアクティブな語彙に含める。代替的に、語彙を、問合せベクトルを構成する目的のために検索エンジンにアクセス可能とすることができる。
【0014】
【発明の実施の形態】
本発明は、音声による問合せを使用してマルチメディアデータベースから文書を検索するシステムおよび方法を提供する。さらに、本発明は、音声認識プロセスにおいて文書インデックス情報を利用し、データベースにおいて一致する文書を探索している間に認識結果に関する確実性情報を利用する。確実性情報は、あり得る問合せ単語の確率を表す。この情報を、2つの方法のうちの1つで取得することができる。また、本発明は、インデックス付き文書のキーワードの辞書を動的に維持することができる。
【0015】
第1の方法では、問合せに対し音声認識を実行することにより、単語レベルのラティスが取得される。そして、ラティスから、単語事後確率を直接求めることができる。たとえば、Evermann等の著「Large vocabulary decoding and confidence estimation using word posterior probabilities」,Proceedings of theIEEE international conference on acoustics speech and signal processing,2000を参照のこと。
【0016】
代替的に、ガウス混合分類器またはブースティングベース分類器等の追加の分類器を使用して、単語信頼得点を求めることができる。たとえば、Moreno等の著「A boosting approach to confidence scoring」,Proceedings of Eurospeech,2001を参照のこと。分類器は、ラティスにおける、単語ラティスおよび追加の外部情報によって表される情報を含む単語の特徴表現に基づく。
【0017】
単語ラティスから導出される情報は、単語の事後確率、単語に近接するラティス密度等の特徴を含むことができる。使用される外部情報は、ラティスにおける単語の固有の混乱しやすさ等の語彙的情報と、音響信号のスペクトル特性、音量、音程の変化等の信号レベル情報とを含んでよい。また、音程および音量等の外部特徴を使用して、他の単語より重要な単語があるか否かを判断し、検索に対するこれらの単語の寄与を適当に増大させることができる。
【0018】
第2の方法では、音声認識は、音素レベルラティスを取得する。そして、キーワードまたはキーフレーズエントリの確率を、音素レベルラティスから取得することができる。この場合もまた、音程および音量等の外部音響情報を使用して、単語確率の推定において音素の寄与を重視するかまたは重視しないようにすることができる。音素が使用される場合、同じように聞こえるが異なる意味を有する単語を処理することが可能である。
【0019】
データベースに格納されるマルチメディア文書もまた、インデックス付けされる文書における単語の確実性を保持するモデルに従ってインデックス付けされる。
【0020】
本発明によるシステムおよび方法は、音声またはテキストから生成される特徴ベクトルを確定し比較する。特徴ベクトルを比較することにより、特定の音声による問合せが与えられた場合の文書の適切性(pertinence)を求める基準が提供される。記録された音声またはテキストの問合せが与えられると、基準を使用して、記録された音声およびテキストの適切な文書が検索される。
【0021】
低次元特徴ベクトルを使用する文書のインデックス付け
図1は、本発明による文書インデックス付けおよび検索システム100を示す。システムへの入力は、文書101である。各文書ごとに文書特徴ベクトル102が確定される(110)。文書特徴ベクトル102は、文書内のすべての単語の重み付きリストである。各単語の重みは、文書におけるその単語出現の頻度に等しい。頻度の高い単語ほど重要であるとみなすことができる。
【0022】
インデックス付けされている文書が音響信号であるか、またはコンテンツの明示的な記述が入手可能である他のマルチメディア文書であり、コンテンツが音声認識等の方法により推論される場合、文書特徴ベクトルにおける単語の重みは、上述した方法のいずれかを使用して測定される、その単語の確実性を表す。
【0023】
次に、各文書特徴ベクトルがより低い次元に射影される(120)ことにより、低次元(LD)文書特徴ベクトル103が生成される。射影は、特異値分解(SVD)を使用して従来のベクトル空間表現を低次元射影に変換することができる。SVD技法は、既知である。代替的に、潜在意味論的解析(latent semantic analysis(LSA))射影を使用することも可能である。LSA射影は、単語の逆文書頻度(inverse document frequency)と、文書のエントロピとを組込む。
【0024】
他の射影表現も可能である。これらの技法のすべてに共通することは、すべての文書が、文書に出現する特徴の低次元ベクトルによって表されるということである。単語に関連する値は、文書に対するその単語の推定された相対重要度の測度である。また、フィルタを適用することにより、たとえば「the」、「a」、「and」、および「in」等の冠詞、接続詞、および前置詞等の一般的な単語を無視することも可能である。これらは、通常、「ストップ」ワードと呼ばれる。フィルタリングされ無視される単語を、おそらくはユーザによって編集可能な別個のリストとして維持することが可能である。
【0025】
また、単語に「語幹処理する」ことも可能である。語幹処理は、単語をその基本形態にするプロセスであり、たとえば複数名詞は単数形にされる。動詞の様々な時制および格に対しても同様に語幹処理をすることができる。語幹語もまた、ユーザ編集可能リストに保持することができる。
【0026】
そして、低次元文書特徴ベクトル103を使用して、検索エンジン190のデータベース140において文書がインデックス付けされる(130)。なお、文書自体をデータベース140に格納することも可能であり、あるいはデータベースが文書に対するポインタを格納することも可能である。この説明の目的のために、これらを、等価な表現であると考える。
【0027】
いずれの場合も、インデックス付けされる文書を使用して、後により詳細に説明するように、音声認識器150によって使用される動的語彙151を構成するために使用することができるキーワードを検出する(200)ことも可能である。キーワードは、キーフレーズにおける一続きの単語の形態であってよい。語彙151もまた検索エンジン190の一部とすることができ、それによって問合せベクトル107が構成される。
【0028】
音声による問合せからの低次元確実性ベクトルを求める
データベース140を検索する(180)ための音声による問合せ105は、以下のように検索エンジン190によって処理される。音声による問合せは、音声認識エンジン150に提供される。しかしながら、従来技術のように音声による問合せを直接テキストに変換する代りに、本発明によるシステムは、ラティス106を生成する。ラティス106では、ノードは音声による単語を表し、単語を接続する有向エッジは、単語が発話された可能性のある順序を表す。確実性情報は、ノードおよびエッジと共に保持される。概して、確実性情報は、統計的尤度または確率を含む。そのため、ラティスは、音声による問合せにおけるあいまいさに起因する確実性を保持する。
【0029】
ラティス106は、発話された可能性のある単語の可能性のある連続的な組合せのすべてを、関連する確率スコアと共に表す。ラティスは、通常、問合せにおいて実際に発話された単語の殆どまたはすべてを含むが、それらはラティス内の最高スコアリングパスには出現しない可能性がある。典型的な従来技術による音声認識エンジンの出力は、通常、ラティス内の単一の最高スコアリングパスに対応するテキストである。音声認識エンジンは、しばしば誤りをもたらすため、仮定されたトランスクリプトにおける単語のすべてが常に正しいとは限らない。これにより、トランスクリプトが、検索に非常に重要である単語を含まないことになる可能性がある。一方、テキストは、偽の単語か、または誤った検索をもたらす、完全に文脈から外れて変換された単語を含む可能性がある。
【0030】
これらの誤りを補償するために、本発明は、低次元確実性ベクトル107をすべての音声による問合せに関連付ける。このベクトルの各要素は、発話された可能性のある単語を表し、その値は、単語が実際に発話された確実性または確率を、その単語が発話された順序と共に表す。
【0031】
LD問合せ確実ベクトル107を求める(170)いくつかの方法がある。図3aおよび図3bは、好ましいプロセスを示す。図3aは、ラティスにおけるあり得るすべてのパスを示す。図3bは、特定ノード300を通るあり得るパスのすべてを太線で示す。ラティス内の特定のノードを通過するすべてのパスのスコアを、ラティス内のすべてのパスの総尤度スコアによって除算することにより、ラティス内のすべての単語ノードの確率を求めることができる。これにより、関連する確率を有する、発話された可能性のあるすべての単語のリストがもたらされる。
【0032】
上述したもの等の頻度スコアを含む、ラティスにおけるノードのあらゆる特性を考慮する外部分類器は、ノードに関連する信頼度をもたらすことができる。分類器方法には、ガウス分類、ブースティングベース分類、ラティスの特性に基づくルールベースヒューリスティックスが含まれる。実施例は、ラティス内の様々なポイントにおけるラティス密度を含む。上述したように、確率は、音響信号の他の特徴を考慮することにより、発話においていくつかの単語が強調されているか否かを判断することができる。文脈情報も使用することができる。たとえば、文脈を外れているように見える認識された単語に、低い確実性スコアを与えることができる。
【0033】
いかなる単語の最終的な確実性の値も、ラティス106におけるあり得る単語のすべての例に対し上記方法によってもたらされた信頼度か確実性の組合せである。
【0034】
確実性ベクトルのすべての要素は、文書または問合せにおける対応する単語の例の数の推定値に比例する。この確実性ベクトルは、文書101のベクトル空間102表現の類似物であり、そのため、文書特徴ベクトル102に適用されたものと同じ射影(SVD、LSA等)が行われることにより、低次元問合せ確実ベクトル107がもたらされる。低次元問合せ確実ベクトルを使用して、データベース140において、音声による問合せ105を満足する文書109の結果セットが検索される(180)。
【0035】
音声による問合せを使用する適切な文書の検索
音声による問合せが与えられると、データベースからの適切な文書109の検索は、通常は検索エンジン190を使用して、以下のように進行する。ステップは、音声認識器を使用して音声による問合せをラティスにマッピングすること、関連する重みを有する、発話されたあり得る単語のセットを求めること、関連する重みを有するあり得る単語のセットから確実性ベクトルを生成すること、音声による問合せの確実性ベクトルを、データベースインデックスの最適化された低次元空間に変換することと、マッピングされた確実性ベクトルをマッピングされた文書特徴ベクトルの各々と比較することによりパーチネンシー得点を取得することとである。そして、結果セット109における文書を、それらのパーチネンシー得点の順にユーザに提供することができる。所定閾値より低いスコアを有する文書を破棄することができる。
【0036】
動的認識器語彙の構成
キーワードの検出
認識プロセスにおいて利用される文書インデックス情報は、インデックス付けされる文書から動的に抽出されるキーワードの形態とすることができる。特別な場合、一続きのキーワードはキーフレーズである。この情報は、認識器の語彙および文法に組込まれる。キーワード抽出を、多くの方法のうちの1つで実行することができる。たとえば、Tunneyの著「Learning to Extract Key phrases fromText」,NRC Technical Report ERB−1057,National Research Council,Canada,1999を参照のこと。
【0037】
多くのテキストベースの文書は、すでにマークされているキーワードまたはフレーズを備える。HTMLでは、特定の単語がキーワードであることを示すためにタグ<mata>KEYWD</meta>の使用が可能である。他のマークアップ言語も同様に、同様の機能を提供する。キーワードがこのようにマークされると、文書からそれらを直接抽出し、認識器150または検索エンジン190によって使用される動的語彙151に格納し直す。
【0038】
しかしながら、キーワードがマークされていない場合、それらは図2に示すように自動的に検出される(200)。まず、入力文書140の単語に語幹処理が施され(210)、あり得るキーワードおよびキーフレーズのすべてが識別される(220)。候補キーフレーズは、いずれも不要語でない約2〜5単語長の一続きの単語である。そして、これらの各々は、上述したように特徴のベクトルによって表現される。特徴は、文書における発生の頻度、文書における最初の例の位置等のような値を含む。
【0039】
そして、候補単語またはフレーズの各々は、キーであるか否かとして分類される(230)。最上位N、たとえばNは3〜10の範囲であり、その後に最高スコアリング候補が選択される(240)。この時点で、単語はすべて語幹処理されている。そのため、選択されたキーワードまたはフレーズもまた語幹処理されている。この時、それらはそれらの最も高頻度な語幹処理されていない形態251に拡張される(250)。
【0040】
たとえば、文書において「speech recognition」と「speech recognizer」とがともに発生した場合、それらはともに「speech recog」に語幹処理され、その後それがキーフレーズとして分類される。文書において「speech recognition」が100回発生し、「speech recognizer」が50回しか発生していない場合、「speech recog」は「speech recognition」に拡張され戻されるが「speech recognizer」には拡張されない。言換えれば、それは、その最も頻度の高い語幹処理されていない形態に拡張される。
【0041】
分類器230を、文書のタグ付きコーパスから訓練することができる。分類器は、多くの形態、たとえば、ルールベース、統計的、決定木ベースなどの形態を有することができる。かかる方法に対する典型的な参考文献は、Tunneyの著「Learning to Extract Keyphrases from Text」,1999である。
【0042】
キーワードの認識器への組込み
キーワードを、2つの方法で認識器150に組込むことができる。第一に、キーワードを、認識器150に直接組込むことができる。この解決法は、認識器が適度なまたは大量のメモリおよびCPU資源を有するコンピュータで実行する状況に有用である。ここで、キーワードは、語彙151に戻される。
【0043】
したがって、新たな文書がインデックス140に導入される度に、認識器の語彙は、文書において検出される新たなキーワードの数だけ動的に増大する。フレーズの個々の単語を正確に認識しその後適当なフレーズを形成するより、フレーズを単位として認識する方が通常容易であるため、認識器にはキーフレーズが含まれる。フレーズを、全エントリとしてではなく、語彙のエントリに基づく「文法」における有効なパスとして組込むことにより、語彙のサイズを低減することができる。
【0044】
代替的に、資源が制限された機器、たとえば携帯電話およびハンドヘルドデジタル機器に対し、上述したように音素ラティスを使用することも可能である。この実施態様の場合、認識器は、単語の単一仮説またはラティスではなく、音素のラティスを出力することができる。認識器が、入力装置、たとえば携帯電話の一部である場合、ラティスを検索エンジン190に転送することができる。検索エンジン190は、語彙における単語またはフレーズのすべてに対し受取った音素ラティスをスキャンし、識別した単語の各々に対し、ラティスにおける構成音素の確率から単語の確率を求める。計算された確率は、他の情報、たとえば利用可能であれば音程、アクセント等と結合されることにより、問合せベクトル107が構成される。
【0045】
本発明を、好ましい実施の形態として説明したが、本発明の精神および範囲内であらゆる他の適応および変更を行うことができるということが理解されなければならない。したがって、かかる変形および変更のすべてを本発明の真の精神および範囲内にあるものとして包含することが、併記の特許請求の範囲の目的である。
【図面の簡単な説明】
【図1】本発明による、音声による問合せを使用する情報検索システムの流れ図である。
【図2】本発明による情報検索システムのために動的音声認識器語彙を構成する方法の流れ図である。
【図3a】本発明が使用するラティスの図である。
【図3b】本発明が使用するラティスの図である。
Claims (10)
- インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法であって、
前記データベースの複数の文書の各々をインデックス付けすることと、
各インデックス付き文書からキーワードを抽出することと、
前記音声認識器の前記語彙のエントリとして前記キーワードを格納することとを含む方法。 - 前記キーワードは、連続してキーフレーズを形成する請求項1記載の方法。
- 前記キーワードは、前記インデックス付き文書においてタグ付けされる請求項1記載の方法。
- 前記抽出されたキーワードを語幹処理すること
をさらに含む請求項1記載の方法。 - 各文書のすべての単語の重み付きリストを形成することをさらに含み、各単語の重みは、前記文書における単語の出現の頻度に等しく、前記キーワードは、所定閾値より大きい頻度を有する請求項1記載の方法。
- 前記キーフレーズは、前記語彙のエントリのすべてに基づいて文法の有効パスとして前記語彙に格納される請求項2記載の方法。
- 前記キーワードを、該キーワードの可能性のある連続的な組合せを表すラティスとして表現すること
をさらに含む請求項1記載の方法。 - 前記ラティスは、インデックス付き文書の前記データベースを検索する検索エンジンに転送される請求項7記載の方法。
- 前記キーワードは、前記ラティスにおいて音素によって表現される請求項7記載の方法。
- 前記キーワードは、検索エンジンの語彙に含められる請求項1記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/132,550 US20030204399A1 (en) | 2002-04-25 | 2002-04-25 | Key word and key phrase based speech recognizer for information retrieval systems |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004133880A true JP2004133880A (ja) | 2004-04-30 |
Family
ID=29248799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003114703A Pending JP2004133880A (ja) | 2002-04-25 | 2003-04-18 | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20030204399A1 (ja) |
JP (1) | JP2004133880A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008134502A (ja) * | 2006-11-29 | 2008-06-12 | Nissan Motor Co Ltd | 音声認識装置、および音声認識方法 |
JP2011505027A (ja) * | 2008-02-25 | 2011-02-17 | ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム |
JP2014219984A (ja) * | 2013-05-09 | 2014-11-20 | 鴻海精密工業股▲ふん▼有限公司 | ファイル分類システム及びその分類方法 |
US9269356B2 (en) | 2009-07-31 | 2016-02-23 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech according to dynamic display |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7542966B2 (en) * | 2002-04-25 | 2009-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
US6877001B2 (en) * | 2002-04-25 | 2005-04-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
US7725319B2 (en) * | 2003-07-07 | 2010-05-25 | Dialogic Corporation | Phoneme lattice construction and its application to speech recognition and keyword spotting |
US7904296B2 (en) * | 2003-07-23 | 2011-03-08 | Nexidia Inc. | Spoken word spotting queries |
JP4074564B2 (ja) * | 2003-07-30 | 2008-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置 |
US7899671B2 (en) * | 2004-02-05 | 2011-03-01 | Avaya, Inc. | Recognition results postprocessor for use in voice recognition systems |
US7634407B2 (en) * | 2005-05-20 | 2009-12-15 | Microsoft Corporation | Method and apparatus for indexing speech |
US7809568B2 (en) * | 2005-11-08 | 2010-10-05 | Microsoft Corporation | Indexing and searching speech with text meta-data |
US7831428B2 (en) * | 2005-11-09 | 2010-11-09 | Microsoft Corporation | Speech index pruning |
US7831425B2 (en) * | 2005-12-15 | 2010-11-09 | Microsoft Corporation | Time-anchored posterior indexing of speech |
KR100760301B1 (ko) * | 2006-02-23 | 2007-09-19 | 삼성전자주식회사 | 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치 |
KR100856407B1 (ko) * | 2006-07-06 | 2008-09-04 | 삼성전자주식회사 | 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법 |
US8032374B2 (en) * | 2006-12-05 | 2011-10-04 | Electronics And Telecommunications Research Institute | Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition |
US7844460B2 (en) * | 2007-02-15 | 2010-11-30 | Motorola, Inc. | Automatic creation of an interactive log based on real-time content |
US8145482B2 (en) * | 2008-05-25 | 2012-03-27 | Ezra Daya | Enhancing analysis of test key phrases from acoustic sources with key phrase training models |
US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
US8670983B2 (en) * | 2010-09-02 | 2014-03-11 | Nexidia Inc. | Speech signal similarity |
US10002608B2 (en) * | 2010-09-17 | 2018-06-19 | Nuance Communications, Inc. | System and method for using prosody for voice-enabled search |
US8401853B2 (en) | 2010-09-22 | 2013-03-19 | At&T Intellectual Property I, L.P. | System and method for enhancing voice-enabled search based on automated demographic identification |
US20120101873A1 (en) * | 2010-10-26 | 2012-04-26 | Cisco Technology, Inc. | Method and apparatus for dynamic communication-based agent skill assessment |
US10963584B2 (en) | 2011-06-08 | 2021-03-30 | Workshare Ltd. | Method and system for collaborative editing of a remotely stored document |
US9443518B1 (en) | 2011-08-31 | 2016-09-13 | Google Inc. | Text transcript generation from a communication session |
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
US9311914B2 (en) * | 2012-09-03 | 2016-04-12 | Nice-Systems Ltd | Method and apparatus for enhanced phonetic indexing and search |
US8612211B1 (en) | 2012-09-10 | 2013-12-17 | Google Inc. | Speech recognition and summarization |
US9971967B2 (en) * | 2013-12-12 | 2018-05-15 | International Business Machines Corporation | Generating a superset of question/answer action paths based on dynamically generated type sets |
US10147424B1 (en) * | 2016-10-26 | 2018-12-04 | Intuit Inc. | Generating self-support metrics based on paralinguistic information |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5903867A (en) * | 1993-11-30 | 1999-05-11 | Sony Corporation | Information access system and recording system |
US6603921B1 (en) * | 1998-07-01 | 2003-08-05 | International Business Machines Corporation | Audio/video archive system and method for automatic indexing and searching |
US6643620B1 (en) * | 1999-03-15 | 2003-11-04 | Matsushita Electric Industrial Co., Ltd. | Voice activated controller for recording and retrieving audio/video programs |
US6345253B1 (en) * | 1999-04-09 | 2002-02-05 | International Business Machines Corporation | Method and apparatus for retrieving audio information using primary and supplemental indexes |
US6601026B2 (en) * | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
GB0015233D0 (en) * | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
US6658414B2 (en) * | 2001-03-06 | 2003-12-02 | Topic Radio, Inc. | Methods, systems, and computer program products for generating and providing access to end-user-definable voice portals |
US6662190B2 (en) * | 2001-03-20 | 2003-12-09 | Ispheres Corporation | Learning automatic data extraction system |
US6877001B2 (en) * | 2002-04-25 | 2005-04-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
-
2002
- 2002-04-25 US US10/132,550 patent/US20030204399A1/en not_active Abandoned
-
2003
- 2003-04-18 JP JP2003114703A patent/JP2004133880A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008134502A (ja) * | 2006-11-29 | 2008-06-12 | Nissan Motor Co Ltd | 音声認識装置、および音声認識方法 |
US8108215B2 (en) | 2006-11-29 | 2012-01-31 | Nissan Motor Co., Ltd. | Speech recognition apparatus and method |
JP2011505027A (ja) * | 2008-02-25 | 2011-02-17 | ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム |
US9269356B2 (en) | 2009-07-31 | 2016-02-23 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech according to dynamic display |
JP2014219984A (ja) * | 2013-05-09 | 2014-11-20 | 鴻海精密工業股▲ふん▼有限公司 | ファイル分類システム及びその分類方法 |
Also Published As
Publication number | Publication date |
---|---|
US20030204399A1 (en) | 2003-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6877001B2 (en) | Method and system for retrieving documents with spoken queries | |
JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
US7542966B2 (en) | Method and system for retrieving documents with spoken queries | |
US7089188B2 (en) | Method to expand inputs for word or document searching | |
JP3488174B2 (ja) | 内容情報と話者情報を使用して音声情報を検索するための方法および装置 | |
JP5241840B2 (ja) | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム | |
US6681206B1 (en) | Method for generating morphemes | |
US9361879B2 (en) | Word spotting false alarm phrases | |
US20070179784A1 (en) | Dynamic match lattice spotting for indexing speech content | |
US20080177544A1 (en) | Method and system for automatic detecting morphemes in a task classification system using lattices | |
KR20080069990A (ko) | 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체 | |
JP2003036093A (ja) | 音声入力検索システム | |
JP2004318889A (ja) | 音声を含んだ音声およびマルチメディアファイルから情報を取り出す双方向機構 | |
JP2011070192A (ja) | 音声検索装置及び音声検索方法 | |
US20100153366A1 (en) | Assigning an indexing weight to a search term | |
Hakkinen et al. | N-gram and decision tree based language identification for written words | |
JP5360414B2 (ja) | キーワード抽出モデル学習システム、方法およびプログラム | |
JP4115723B2 (ja) | 音声入力によるテキスト検索装置 | |
US8055693B2 (en) | Method for retrieving items represented by particles from an information database | |
Shao et al. | A fast fuzzy keyword spotting algorithm based on syllable confusion network | |
Wang et al. | Confidence measures for voice search applications. | |
Ishikawa et al. | Speech-activated text retrieval system for multimodal cellular phones | |
Gouvêa et al. | Word particles applied to information retrieval | |
Wang | 5HWULHYDO RI 0DQGDULQ 6SRNHQ'RFXPHQWV% DVHG RQ 6\OODEOH/DWWLFH 0DWFKLQJ | |
Iqbal et al. | An Unsupervised Spoken Term Detection System for Urdu |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090415 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090721 |