JP2004005600A

JP2004005600A - データベースに格納された文書をインデックス付け及び検索する方法及びシステム

Info

Publication number: JP2004005600A
Application number: JP2003114702A
Authority: JP
Inventors: Peter P Wolf; ピーター・ピー・ウルフ; Bhiksha Ramakrishnan; ビクシャ・ラマクリシュナン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2002-04-25
Filing date: 2003-04-18
Publication date: 2004-01-08
Also published as: US20030204492A1; US6877001B2

Abstract

【課題】マルチメディアコンテンツを携帯電話等から音声によって検索する。
【解決手段】データベースに格納された文書をインデックス付け及び検索する。インデックス付けされる各文書ごとに文書特徴ベクトルが抽出される。特徴ベクトルは、低次元文書特徴ベクトルに射影され、文書はその低次元文書特徴ベクトルに従ってインデックス付けされる。音声による問合せが、音声による問合せにおける単語のあり得る連続的な組合せを示すラティスとして表現される。ラティスは、問合せ確実ベクトルに変換され、それもまた低次元問合せ確実ベクトルに射影される。低次元問合せベクトルが低次元文書特徴ベクトルの各々と比較されることにより、文書の一致する結果セットが検索される。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、概してマルチメディアコンテンツをインデックス付け及び検索することに関し、特に、音声による問合せを使用してデータベースからマルチメディア文書を検索することに関する。
【０００２】
【従来の技術】
情報検索
インターネットは、利用可能なマルチメディアコンテンツおよび文書を公的に格納する莫大な数のデータベースへの、世界規模のアクセスを提供する。一般に、デスクトップシステムで実行するブラウザおよび検索エンジンを使用して、ユーザにテキストによる問合せを指定させるかまたはリンクを辿ることにより、格納された文書が検索される。一般に、タイプ入力された問合せは、キーワードまたはフレーズを含む。専門の情報検索（ＩＲ）システムの数は、列挙することができないほど多い。
【０００３】
また、携帯電話および個人デジタルアシスタント（ＰＤＡ）等の携帯通信機器を使用して、インターネットにアクセスすることも可能である。しかしながら、かかる機器は、テキスト入力および出力機能が制限されている。たとえば、携帯電話のキーパッドは、入力問合せをタイプ入力するために特に適しておらず、多くのＰＤＡは、文字キーをまったく有していない。また、これらの機器の表示画面は、サイズが制限されており読み取ることが困難でもある。これらのタイプの機器は、音声入力および出力の方が適している。同様の状況は、車等の自動車からインターネットにアクセスするために使用される移動体通信機器にもある。この場合、機器を手動で操作することと表示画面を見ることとが困難かつ危険であり、よりよい入力および出力の様式は音声である。したがって、音声による問合せは、かかる移動体機器における情報検索に対しより適切なユーザインタフェースを提供する。
【０００４】
音声によるＩＲ
音声による問合せのための従来技術による文書検索システムは、一般に、何らかの従来の音声認識エンジンを使用して、音声による問合せを問合せのテキストトランスクリプトに変換する。そして、問合せはテキストとして処理され、従来の情報検索プロセスを使用して問合せに一致する適切な文書が検索される。しかしながら、この手法は、検索システムの性能を向上させるために使用することができる貴重な情報を破棄する。最も重要なことには、音声による問合せである音響スペクトル信号全体が破棄され、残っているのは、認識器によって推論された生のテキストコンテンツでありしばしば誤りがある。
【０００５】
文書か問合せのいずれかが音声によって指定される際に、システムの性能を最適化するために新たな技術を使用しなければならない。テキスト問合せを使用して文書を検索する従来の情報検索システムで使用される技術は、音声認識エンジンのテキスト出力がしばしば誤りを含むため、音声による問合せおよび音声による文書に対し十分に機能しない。音声による問合せは、しばしば、認識器により多くの異なる意味で解釈することができるあいまいさを含む。その結果、変換されたテキストは、音声による問合せのコンテキスト内で完全に矛盾する単語と、いかなる聴取者にも明らかである間違いとさえも含む場合がある。音声認識エンジンからの単純なテキスト出力は、他の発話された可能性のある単語、または問合せがどのように聞こえたか等の多くの貴重な情報を廃棄する。音響信号は、通常豊富であり、音量および音程の変動等の多くの特徴とアクセントまたは強勢等のより識別が困難な特徴とを含む。この情報がすべて喪失される。
【０００６】
このように、基本的な従来技術の音声によるＩＲシステムは、音声信号に対して音声認識器を適用する。そして、認識されたテキストは、単純に、ＧｏｏｇｌｅまたはＡｌｔａ　Ｖｉｓｔａ等の簡単なテキストベースの問合せシステムに提供される。
【０００７】
音声認識
上述したように、単純に音声認識システムを音声・テキスト翻訳機として使用する最新技術の音声による問合せベースのＩＲシステムには、多くの問題がある。さらに、他のおそらくより重大な問題がある。大抵の音声認識システムは、事前定義された語彙および文法で作動する。語彙が多いほどシステムは低速であり、メモリおよび処理等の資源がより多く必要である。また、語彙が多いことにより、認識器の精度が低下する。このため、認識器の語彙をあり得る最小サイズで維持することが有用である。一般に、これは、所与のアプリケーションに対して最も有用な単語のセットを識別し、その語彙に認識器を制限することによって達成される。しかしながら、小さい静的な語彙は、ＩＲシステムの有用性を制限する。
【０００８】
【発明が解決しようとする課題】
Ａｌｔａ　Ｖｉｓｔａ等、インターネット上で見つけるすべての文書のすべての単語をインデックス付けする大型の文書インデックスは、多くの言語で数億もの単語を含む。Ａｌｔａ　Ｖｉｓｔａ用に完全語彙を構成することは極めて困難である。他の従来のＩＲシステムは、「ａｎｄ」および「ｉｔ」等の「ストップ」ワード（不要語）をインデックス付けしない場合がある。それでもなお、それらの語彙においてインデックス付けされる単語の総数は、適度にサイズが決められたインデックスに対してでさえ数十万となる可能性がある。音声による問合せベースのＩＲシステムを有効にするために、これらの単語はすべて認識器の語彙になければならない。追加の文書がインデックスに追加される際、その文書の単語を同様に認識器の語彙に入力しなければならない。そうでなければ、認識器は、インデックスの文書に関連する単語の多くを認識することができなくなる。明らかに、静的語彙を有する従来の認識器は、このジョブを行うことができない。
【０００９】
上述したあらゆる問題を考慮すると、音声による問合せを使用する情報検索システムを改良することが望ましい。認識器による誤った認識に起因する問題を軽減するために、音声による問合せに一致する可能性のある文書を探索する間に音声による問合せの確実性情報を保持することが望ましい。特に、マルチメディアデータベースを探索している間に、言ったことまたは言わなかったことの確率が既知となれば、文書検索は改良される。さらに、制限された静的な認識語彙からもたらされる問題を排除するために、音声認識器の語彙を文書インデックスの語彙に動的に一致させることが望ましい。
【００１０】
本発明は、音声による問合せを使用して、データベースに格納された文書をインデックス付け及び検索するシステムおよび方法を提供する。
【００１１】
【課題を解決するための手段】
インデックス付けされる各文書ごとに文書特徴ベクトルを抽出する。各特徴ベクトルを低次元文書特徴ベクトルに射影し、低次元文書特徴ベクトルに従って文書インデックスにおいて文書をインデックス付けする。
【００１２】
認識器は、音声による問合せを、音声による問合せにおける単語のあり得る連続的な組合せを示すラティスとして表現する。ラティスを、問合せ確実ベクトルに変換し、それを低次元問合せ確実ベクトルに射影する。検索エンジンが、低次元問合せベクトルを低次元文書特徴ベクトルの各々と比較することによって、文書の一致する結果セットを検索する。
【００１３】
さらに、文書がインデックス付けされる際に、文書から自動的に抽出されるキーワードおよびキーフレーズによって音声認識器または検索エンジンのアクティブな語彙および文法を動的に更新する。言換えれば、文書インデックスからの情報を、認識器または検索エンジン自体に戻す。しかしながら、認識器の語彙を最小に維持するために、語彙には文書のすべての単語を含める訳ではない。代わりに、文書における「キーワード」および「キーフレーズ」を識別し、これらのみをアクティブな語彙に含める。代替的に、語彙を、問合せベクトルを構成する目的のために検索エンジンにアクセス可能とすることができる。
【００１４】
【発明の実施の形態】
本発明は、音声による問合せを使用してマルチメディアデータベースから文書を検索するシステムおよび方法を提供する。さらに、本発明は、音声認識プロセスにおいて文書インデックス情報を利用し、データベースにおいて一致する文書を探索している間に認識結果に関する確実性情報を利用する。確実性情報は、あり得る問合せ単語の確率を表す。この情報を、２つの方法のうちの１つで取得することができる。また、本発明は、インデックス付き文書のキーワードの辞書を動的に維持することができる。
【００１５】
第１の方法では、問合せに対し音声認識を実行することにより、単語レベルのラティスが取得される。そして、ラティスから、単語事後確率を直接求めることができる。たとえば、Ｅｖｅｒｍａｎｎ等の著「Ｌａｒｇｅ　ｖｏｃａｂｕｌａｒｙ　ｄｅｃｏｄｉｎｇ　ａｎｄ　ｃｏｎｆｉｄｅｎｃｅ　ｅｓｔｉｍａｔｉｏｎ　ｕｓｉｎｇ　ｗｏｒｄ　ｐｏｓｔｅｒｉｏｒ　ｐｒｏｂａｂｉｌｉｔｉｅｓ」，Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅＩＥＥＥ　ｉｎｔｅｒｎａｔｉｏｎａｌ　ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　ａｃｏｕｓｔｉｃｓ　ｓｐｅｅｃｈ　ａｎｄ　ｓｉｇｎａｌ　ｐｒｏｃｅｓｓｉｎｇ，２０００を参照のこと。
【００１６】
代替的に、ガウス混合分類器またはブースティングベース分類器等の追加の分類器を使用して、単語信頼得点を求めることができる。たとえば、Ｍｏｒｅｎｏ等の著「Ａ　ｂｏｏｓｔｉｎｇ　ａｐｐｒｏａｃｈ　ｔｏ　ｃｏｎｆｉｄｅｎｃｅ　ｓｃｏｒｉｎｇ」，Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　Ｅｕｒｏｓｐｅｅｃｈ，２００１を参照のこと。分類器は、ラティスにおける、単語ラティスおよび追加の外部情報によって表される情報を含む単語の特徴表現に基づく。
【００１７】
単語ラティスから導出される情報は、単語の事後確率、単語に近接するラティス密度等の特徴を含むことができる。使用される外部情報は、ラティスにおける単語の固有の混乱しやすさ等の語彙的情報と、音響信号のスペクトル特性、音量、音程の変化等の信号レベル情報とを含んでよい。また、音程および音量等の外部特徴を使用して、他の単語より重要な単語があるか否かを判断し、検索に対するこれらの単語の寄与を適当に増大させることができる。
【００１８】
第２の方法では、音声認識は、音素レベルラティスを取得する。そして、キーワードまたはキーフレーズエントリの確率を、音素レベルラティスから取得することができる。この場合もまた、音程および音量等の外部音響情報を使用して、単語確率の推定において音素の寄与を重視するかまたは重視しないようにすることができる。音素が使用される場合、同じように聞こえるが異なる意味を有する単語を処理することが可能である。
【００１９】
データベースに格納されるマルチメディア文書もまた、インデックス付けされる文書における単語の確実性を保持するモデルに従ってインデックス付けされる。
【００２０】
本発明によるシステムおよび方法は、音声またはテキストから生成される特徴ベクトルを確定し比較する。特徴ベクトルを比較することにより、特定の音声による問合せが与えられた場合の文書の適切性（ｐｅｒｔｉｎｅｎｃｅ）を求める基準が提供される。記録された音声またはテキストの問合せが与えられると、基準を使用して、記録された音声およびテキストの適切な文書が検索される。
【００２１】
低次元特徴ベクトルを使用する文書のインデックス付け
図１は、本発明による文書インデックス付けおよび検索システム１００を示す。システムへの入力は、文書１０１である。各文書ごとに文書特徴ベクトル１０２が確定される（１１０）。文書特徴ベクトル１０２は、文書内のすべての単語の重み付きリストである。各単語の重みは、文書におけるその単語出現の頻度に等しい。頻度の高い単語ほど重要であるとみなすことができる。
【００２２】
インデックス付けされている文書が音響信号であるか、またはコンテンツの明示的な記述が入手可能である他のマルチメディア文書であり、コンテンツが音声認識等の方法により推論される場合、文書特徴ベクトルにおける単語の重みは、上述した方法のいずれかを使用して測定される、その単語の確実性を表す。
【００２３】
次に、各文書特徴ベクトルがより低い次元に射影される（１２０）ことにより、低次元（ＬＤ）文書特徴ベクトル１０３が生成される。射影は、特異値分解（ＳＶＤ）を使用して従来のベクトル空間表現を低次元射影に変換することができる。ＳＶＤ技法は、既知である。代替的に、潜在意味論的解析（ｌａｔｅｎｔ　ｓｅｍａｎｔｉｃ　ａｎａｌｙｓｉｓ（ＬＳＡ））射影を使用することも可能である。ＬＳＡ射影は、単語の逆文書頻度（ｉｎｖｅｒｓｅ　ｄｏｃｕｍｅｎｔ　ｆｒｅｑｕｅｎｃｙ）と、文書のエントロピとを組込む。
【００２４】
他の射影表現も可能である。これらの技法のすべてに共通することは、すべての文書が、文書に出現する特徴の低次元ベクトルによって表されるということである。単語に関連する値は、文書に対するその単語の推定された相対重要度の測度である。また、フィルタを適用することにより、たとえば「ｔｈｅ」、「ａ」、「ａｎｄ」、および「ｉｎ」等の冠詞、接続詞、および前置詞等の一般的な単語を無視することも可能である。これらは、通常、「ストップ」ワードと呼ばれる。フィルタリングされ無視される単語を、おそらくはユーザによって編集可能な別個のリストとして維持することが可能である。
【００２５】
また、単語に「語幹処理する」ことも可能である。語幹処理は、単語をその基本形態にするプロセスであり、たとえば複数名詞は単数形にされる。動詞の様々な時制および格に対しても同様に語幹処理をすることができる。語幹語もまた、ユーザ編集可能リストに保持することができる。
【００２６】
そして、低次元文書特徴ベクトル１０３を使用して、検索エンジン１９０のデータベース１４０において文書がインデックス付けされる（１３０）。なお、文書自体をデータベース１４０に格納することも可能であり、あるいはデータベースが文書に対するポインタを格納することも可能である。この説明の目的のために、これらを、等価な表現であると考える。
【００２７】
いずれの場合も、インデックス付けされる文書を使用して、後により詳細に説明するように、音声認識器１５０によって使用される動的語彙１５１を構成するために使用することができるキーワードを検出する（２００）ことも可能である。キーワードは、キーフレーズにおける一続きの単語の形態であってよい。語彙１５１もまた検索エンジン１９０の一部とすることができ、それによって問合せベクトル１０７が構成される。
【００２８】
音声による問合せからの低次元確実性ベクトルを求める
データベース１４０を検索する（１８０）ための音声による問合せ１０５は、以下のように検索エンジン１９０によって処理される。音声による問合せは、音声認識エンジン１５０に提供される。しかしながら、従来技術のように音声による問合せを直接テキストに変換する代りに、本発明によるシステムは、ラティス１０６を生成する。ラティス１０６では、ノードは音声による単語を表し、単語を接続する有向エッジは、単語が発話された可能性のある順序を表す。確実性情報は、ノードおよびエッジと共に保持される。概して、確実性情報は、統計的尤度または確率を含む。そのため、ラティスは、音声による問合せにおけるあいまいさに起因する確実性を保持する。
【００２９】
ラティス１０６は、発話された可能性のある単語の可能性のある連続的な組合せのすべてを、関連する確率スコアと共に表す。ラティスは、通常、問合せにおいて実際に発話された単語の殆どまたはすべてを含むが、それらはラティス内の最高スコアリングパスには出現しない可能性がある。典型的な従来技術による音声認識エンジンの出力は、通常、ラティス内の単一の最高スコアリングパスに対応するテキストである。音声認識エンジンは、しばしば誤りをもたらすため、仮定されたトランスクリプトにおける単語のすべてが常に正しいとは限らない。これにより、トランスクリプトが、検索に非常に重要である単語を含まないことになる可能性がある。一方、テキストは、偽の単語か、または誤った検索をもたらす、完全に文脈から外れて変換された単語を含む可能性がある。
【００３０】
これらの誤りを補償するために、本発明は、低次元確実性ベクトル１０７をすべての音声による問合せに関連付ける。このベクトルの各要素は、発話された可能性のある単語を表し、その値は、単語が実際に発話された確実性または確率を、その単語が発話された順序と共に表す。
【００３１】
ＬＤ問合せ確実ベクトル１０７を求める（１７０）いくつかの方法がある。図３ａおよび図３ｂは、好ましいプロセスを示す。図３ａは、ラティスにおけるあり得るすべてのパスを示す。図３ｂは、特定ノード３００を通るあり得るパスのすべてを太線で示す。ラティス内の特定のノードを通過するすべてのパスのスコアを、ラティス内のすべてのパスの総尤度スコアによって除算することにより、ラティス内のすべての単語ノードの確率を求めることができる。これにより、関連する確率を有する、発話された可能性のあるすべての単語のリストがもたらされる。
【００３２】
上述したもの等の頻度スコアを含む、ラティスにおけるノードのあらゆる特性を考慮する外部分類器は、ノードに関連する信頼度をもたらすことができる。分類器方法には、ガウス分類、ブースティングベース分類、ラティスの特性に基づくルールベースヒューリスティックスが含まれる。実施例は、ラティス内の様々なポイントにおけるラティス密度を含む。上述したように、確率は、音響信号の他の特徴を考慮することにより、発話においていくつかの単語が強調されているか否かを判断することができる。文脈情報も使用することができる。たとえば、文脈を外れているように見える認識された単語に、低い確実性スコアを与えることができる。
【００３３】
いかなる単語の最終的な確実性の値も、ラティス１０６におけるあり得る単語のすべての例に対し上記方法によってもたらされた信頼度か確実性の組合せである。
【００３４】
確実性ベクトルのすべての要素は、文書または問合せにおける対応する単語の例の数の推定値に比例する。この確実性ベクトルは、文書１０１のベクトル空間１０２表現の類似物であり、そのため、文書特徴ベクトル１０２に適用されたものと同じ射影（ＳＶＤ、ＬＳＡ等）が行われることにより、低次元問合せ確実ベクトル１０７がもたらされる。低次元問合せ確実ベクトルを使用して、データベース１４０において、音声による問合せ１０５を満足する文書１０９の結果セットが検索される（１８０）。
【００３５】
音声による問合せを使用する適切な文書の検索
音声による問合せが与えられると、データベースからの適切な文書１０９の検索は、通常は検索エンジン１９０を使用して、以下のように進行する。ステップは、音声認識器を使用して音声による問合せをラティスにマッピングすること、関連する重みを有する、発話されたあり得る単語のセットを求めること、関連する重みを有するあり得る単語のセットから確実性ベクトルを生成すること、音声による問合せの確実性ベクトルを、データベースインデックスの最適化された低次元空間に変換することと、マッピングされた確実性ベクトルをマッピングされた文書特徴ベクトルの各々と比較することによりパーチネンシー得点を取得することとである。そして、結果セット１０９における文書を、それらのパーチネンシー得点の順にユーザに提供することができる。所定閾値より低いスコアを有する文書を破棄することができる。
【００３６】
動的認識器語彙の構成
キーワードの検出
認識プロセスにおいて利用される文書インデックス情報は、インデックス付けされる文書から動的に抽出されるキーワードの形態とすることができる。特別な場合、一続きのキーワードはキーフレーズである。この情報は、認識器の語彙および文法に組込まれる。キーワード抽出を、多くの方法のうちの１つで実行することができる。たとえば、Ｔｕｎｎｅｙの著「Ｌｅａｒｎｉｎｇ　ｔｏ　Ｅｘｔｒａｃｔ　Ｋｅｙ　ｐｈｒａｓｅｓ　ｆｒｏｍＴｅｘｔ」，ＮＲＣ　Ｔｅｃｈｎｉｃａｌ　Ｒｅｐｏｒｔ　ＥＲＢ−１０５７，Ｎａｔｉｏｎａｌ　Ｒｅｓｅａｒｃｈ　Ｃｏｕｎｃｉｌ，Ｃａｎａｄａ，１９９９を参照のこと。
【００３７】
多くのテキストベースの文書は、すでにマークされているキーワードまたはフレーズを備える。ＨＴＭＬでは、特定の単語がキーワードであることを示すためにタグ＜ｍａｔａ＞ＫＥＹＷＤ＜／ｍｅｔａ＞の使用が可能である。他のマークアップ言語も同様に、同様の機能を提供する。キーワードがこのようにマークされると、文書からそれらを直接抽出し、認識器１５０または検索エンジン１９０によって使用される動的語彙１５１に格納し直す。
【００３８】
しかしながら、キーワードがマークされていない場合、それらは図２に示すように自動的に検出される（２００）。まず、入力文書１４０の単語に語幹処理が施され（２１０）、あり得るキーワードおよびキーフレーズのすべてが識別される（２２０）。候補キーフレーズは、いずれも不要語でない約２〜５単語長の一続きの単語である。そして、これらの各々は、上述したように特徴のベクトルによって表現される。特徴は、文書における発生の頻度、文書における最初の例の位置等のような値を含む。
【００３９】
そして、候補単語またはフレーズの各々は、キーであるか否かとして分類される（２３０）。最上位Ｎ、たとえばＮは３〜１０の範囲であり、その後に最高スコアリング候補が選択される（２４０）。この時点で、単語はすべて語幹処理されている。そのため、選択されたキーワードまたはフレーズもまた語幹処理されている。この時、それらはそれらの最も高頻度な語幹処理されていない形態２５１に拡張される（２５０）。
【００４０】
たとえば、文書において「ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ」と「ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｚｅｒ」とがともに発生した場合、それらはともに「ｓｐｅｅｃｈ　ｒｅｃｏｇ」に語幹処理され、その後それがキーフレーズとして分類される。文書において「ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ」が１００回発生し、「ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｚｅｒ」が５０回しか発生していない場合、「ｓｐｅｅｃｈ　ｒｅｃｏｇ」は「ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ」に拡張され戻されるが「ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｚｅｒ」には拡張されない。言換えれば、それは、その最も頻度の高い語幹処理されていない形態に拡張される。
【００４１】
分類器２３０を、文書のタグ付きコーパスから訓練することができる。分類器は、多くの形態、たとえば、ルールベース、統計的、決定木ベースなどの形態を有することができる。かかる方法に対する典型的な参考文献は、Ｔｕｎｎｅｙの著「Ｌｅａｒｎｉｎｇ　ｔｏ　Ｅｘｔｒａｃｔ　Ｋｅｙｐｈｒａｓｅｓ　ｆｒｏｍ　Ｔｅｘｔ」，１９９９である。
【００４２】
キーワードの認識器への組込み
キーワードを、２つの方法で認識器１５０に組込むことができる。第一に、キーワードを、認識器１５０に直接組込むことができる。この解決法は、認識器が適度なまたは大量のメモリおよびＣＰＵ資源を有するコンピュータで実行する状況に有用である。ここで、キーワードは、語彙１５１に戻される。
【００４３】
したがって、新たな文書がインデックス１４０に導入される度に、認識器の語彙は、文書において検出される新たなキーワードの数だけ動的に増大する。フレーズの個々の単語を正確に認識しその後適当なフレーズを形成するより、フレーズを単位として認識する方が通常容易であるため、認識器にはキーフレーズが含まれる。フレーズを、全エントリとしてではなく、語彙のエントリに基づく「文法」における有効なパスとして組込むことにより、語彙のサイズを低減することができる。
【００４４】
代替的に、資源が制限された機器、たとえば携帯電話およびハンドヘルドデジタル機器に対し、上述したように音素ラティスを使用することも可能である。この実施態様の場合、認識器は、単語の単一仮説またはラティスではなく、音素のラティスを出力することができる。認識器が、入力装置、たとえば携帯電話の一部である場合、ラティスを検索エンジン１９０に転送することができる。検索エンジン１９０は、語彙における単語またはフレーズのすべてに対し受取った音素ラティスをスキャンし、識別した単語の各々に対し、ラティスにおける構成音素の確率から単語の確率を求める。計算された確率は、他の情報、たとえば利用可能であれば音程、アクセント等と結合されることにより、問合せベクトル１０７が構成される。
【００４５】
本発明を、好ましい実施の形態として説明したが、本発明の精神および範囲内であらゆる他の適応および変更を行うことができるということが理解されなければならない。したがって、かかる変形および変更のすべてを本発明の真の精神および範囲内にあるものとして包含することが、併記の特許請求の範囲の目的である。
【図面の簡単な説明】
【図１】本発明による、音声による問合せを使用する情報検索システムの流れ図である。
【図２】本発明による情報検索システムのために動的音声認識器語彙を構成する方法の流れ図である。
【図３ａ】本発明が使用するラティスの図である。
【図３ｂ】本発明が使用するラティスの図である。

Claims

データベースに格納された文書をインデックス付け及び検索する方法であって、
複数の文書の各々から文書特徴ベクトルを抽出することと、
各文書特徴ベクトルを低次元文書特徴ベクトルに射影することと、
前記データベースの関連する低次元文書特徴ベクトルに従って前記複数の文書の各々をインデックス付けすることと、
音声による問合せを、該音声による問合せにおける単語の可能性のある連続的な組合せを表すラティスとして表現することと、
前記ラティスを問合せ確実ベクトルに変換することと、
前記問合せ確実ベクトルを関連する低次元問合せ確実ベクトルに射影することと、
前記低次元問合せベクトルを前記低次元文書特徴ベクトルの各々と比較することと、
前記データベースから、前記低次元問合せ確実ベクトルに一致する低次元文書特徴ベクトルを有する文書の結果セットを検索することと
を含む方法。
前記文書特徴ベクトルは、各文書におけるすべての単語の重み付きリストである請求項１記載の方法。
各単語の重みは、前記文書における単語の出現の頻度に等しい請求項２記載の方法。
前記射影することは、特異値分解を使用する請求項１記載の方法。
前記射影することは、潜在意味論的解析（ｌａｔｅｎｔ　ｓｅｍａｎｔｉｃ　ａｎａｌｙｓｉｓ）を使用する請求項１記載の方法。
前記文書特徴ベクトルから共通の単語をフィルタリングすることをさらに含む請求項１記載の方法。
前記ラティスは、ノードと有向エッジとを含み、前記ノードは音声による単語を表し、前記有向エッジは、該ノードを接続し、前記単語が発話された可能性のあるあり得る順序を表す請求項１記載の方法。
信頼得点を前記ノードおよび前記有向ノードに関連付けることをさらに含む請求項７記載の方法。
前記信頼得点を決めるためにガウス分類器を使用する請求項８記載の方法。
前記信頼得点を決めるためにブースティングベース分類器を使用する請求項８記載の方法。
前記信頼得点は、ルールベースヒューリスティックスから導出される請求項８記載の方法。
前記信頼得点は、前記音声による問合せの音響信号の特徴に基づく請求項８記載の方法。
前記音響の特徴には、音量および音程が含まれる請求項１２記載の方法。
前記結果セットの前記文書は、文書のパーチネンシー得点の順序にある請求項１記載の方法。
前記文書は、マルチメディアコンテンツを含む請求項１記載の方法。
前記ラティスは、ノードと有向エッジとを含み、該ノードは音素を表し、該有向エッジは、該ノードを接続し、該音素が発話された可能性のある順序を表す請求項１記載の方法。
前記単語を語幹処理すること（ｓｔｅｍｍｉｎｇ）をさらに含む請求項７記載の方法。
音声認識器のために、各文書から抽出されたキーワードから前記音声による問合せを認識するために使用される語彙を動的に構成することをさらに含む請求項１記載の方法。
データベースの文書をインデックス付け及び検索するシステムであって、
複数の文書の各々から文書特徴ベクトルを抽出する手段と、
各文書特徴ベクトルを低次元文書特徴ベクトルに射影する手段と、
前記関連する低次元文書特徴ベクトルに従って前記複数の文書の各々をインデックス付けするデータベースと、
音声による問合せを、該音声による問合せにおける単語の可能性のある連続的な組合せを表すラティスとして表現する手段と、
該ラティスを問合せ確実ベクトルに変換する手段と、
各問合せ確実ベクトルを関連する低次元問合せ確実ベクトルに射影する手段と、
前記低次元問合せベクトルを前記低次元文書特徴ベクトルの各々と比較する手段と、
前記データベースから、前記低次元問合せ確実ベクトルに一致する低次元文書特徴ベクトルを有する文書の結果セットを検索するように構成された検索エンジンと
を具備するシステム。