JP4494632B2

JP4494632B2 - 言語モデルに基づく情報検索および音声認識

Info

Publication number: JP4494632B2
Application number: JP2000541667A
Authority: JP
Inventors: ミリント゛ヴィ．マハジャン; シュドンディー．ファン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1998-03-30
Filing date: 1999-02-09
Publication date: 2010-06-30
Anticipated expiration: 2019-02-09
Also published as: WO1999050830A1; CA2321112A1; KR100609253B1; JP4664423B2; DE69932044D1; JP2002510076A; DE69932044T2; US6418431B1; CA2321112C; CN1295705A; CN1171199C; KR20010042377A; CN1253821C; EP1066625B1; EP1066625A1; JP2009238235A; CN1474378A

Description

【０００１】
（発明の背景）
本発明は、音声認識および情報検索を扱う。より詳細には、本発明は、情報検索技術を採用して言語モデルを適合させる音声認識システムと、適合性のある文書を検索するために音声認識言語モデルを採用する情報検索技術を扱う。
【０００２】
一般に、情報検索は、ユーザが大規模な情報記憶装置からユーザに関係する情報を見つけて取り出すためのプロセスである。情報検索を行う際には、ユーザが必要とするすべての情報を検索することが重要であり（すなわち完全（ｃｏｍｐｌｅｔｅ）であることが重要であり）、同時に、ユーザに対して検索される無関係の情報を制限することが重要である（すなわち選択的（ｓｅｌｅｃｔｉｖｅ）であることが重要である）。これらの側面はしばしば、再現度（完全性）および精度（選択性）という語で呼ばれる。多くの情報検索システムでは、再現度と精度の両面にわたって優れた性能を達成することが必要である。
【０００３】
現在のいくつかの検索システムでは、質問し探索できる情報量は非常に多い。例えば、いくつかの情報検索システムは、インターネット、ディジタルビデオディスク、およびその他一般のコンピュータデータベース上で情報を探索するようにセットアップされる。これらの情報検索システムは通常、例えばインターネットサーチエンジンやライブラリカタログサーチエンジンとして組み入れられる。
【０００４】
多くの情報検索技術が知られている。そのような技術におけるユーザ入力質問は通常、ユーザによって生成される明示的な質問として、あるいはユーザが、ある既存の文書セットに類似する文書または情報を要求するときなどの暗黙的な質問として呈示される。次いで通常の情報検索システムは、大規模なデータ記憶装置中で、単一の単語レベルまたはタームレベルで文書を探索する。各文書には適合性（または類似性）スコアが割り当てられ、情報検索システムは、探索された、所与のしきい値を超えた適合性スコアを通常有するある文書サブセットをユーザに呈示する。
【０００５】
現在知られているいくつかの情報検索技術または方法には、全文走査、シグネチャファイルの使用、転置、ベクトルモデリングおよびクラスタリング、ｔｆ＊ｉｄｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ＊ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）が含まれる。全文走査では、質問中でブール関数を使用して、探索される文書が、ある文字列を含んでいるかどうかが判定される。このような走査技術では、文書の各文字を探索して、それが探索列（すなわち質問）を満たすかどうかを調べ、次いで、ミスマッチが見つかると探索を右に１ポジション移動させるのが普通である。このシステムは、ミスマッチが見つかると右に１ポジションより多く移動させるなど、質問に前処理をする他の方式を使用するように適合されてきた。
【０００６】
シグネチャファイルの使用は、探索される文書からありふれた語を廃棄し、ありふれていない語を語幹に切り詰めることを含む。探索される各文書は、ビット列（シグネチャ）を生じる。様々な文書に対するシグネチャは、文書自体とは別のファイルに連続して記憶される。
【０００７】
転置技術は、各文書を表すキーワードのリストを構築することを含む。キーワードは索引ファイルに記憶される。各キーワードに、適格な文書を明らかにするポインタのリストが維持される。次いで、質問は索引に向かって進められ、ポインタを使用して適合性のある適格な文書が識別される。
【０００８】
ベクトルモデリングおよびクラスタリングは、類似の文書をクラスタと呼ばれるグループに分類することを含む（この技術はまた、文書ではなくターム（ｔｅｒｍ）に適用することもできる）。クラスタを生成するために、ありふれた単語を除去して残りの単語を語幹に切り詰めること（これは接頭辞および接尾辞の除去を含む）によって索引が形成される。類義語もまた、そのタームを頻度、特異性、適合性などによって重み付けすることのできる概念クラス中に一般に配置される。索引は、文書をｔ次元空間中の点として表すのに使用される。次いでそれらの点は、反復プロセスを通して通常開発される類似性行列でグループに分割される。クラスタを探索するために、質問はｔ次元ベクトルとして表され、クラスタ中心（ｃｌｕｓｔｅｒｃｅｎｔｒｏｉｄ）と比較される。クラスタ対質問の類似性関数が生成され、適合性のある文書を抜き取るのに使用される。抜き取られる（または検索される）文書は通常、所定のしきい値を超える類似値を有する。
【０００９】
いくつかの情報検索技術では、よりよい性能を達成するために、意味情報が使用されて、情報記憶装置内の、各文書に関するより多くの情報が取り込まれる。このようなシステムの１つでは、自然言語処理が使用されて、質問の意味内容が、探索される文書の意味内容に照合される。探索される文書に索引を付けるためのタームとして、文または句を使用することができる。潜在意味インデクシング（ＬａｔｅｎｔＳｅｍａｎｔｉｃｉｎｄｅｘｉｎｇ）は、特定の文書におけるタームの発生回数が行列上に表される、ターム／文書行列を形成することを含む。通常、小さい特異値は除去され、残りのターム頻度ベクトルがマッピングされる。質問もまた、ターム頻度ベクトルで形成され、文書のターム頻度ベクトルを含む行列に対してマッピングされる。文書は、余弦類似度を得るために、正規化線形積を使用してランクされる。
【００１０】
意味情報を使用するもう１つのタイプの情報検索技術は、ニューラルネットワークである。本質的に、シソーラス（ｔｈｅｓａｕｒｕｓ）が構築され、シソーラス中の各概念に対応するように隠れ層中のノードが生成される。次いで、活性化拡散方法を使用して探索が行われる。
【００１１】
ｔｆ＊ｉｄｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ＊ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）は、文書の適合性を決定するのに使用されるもう１つの技術である。まず、質問中で使用されるタームが文書に対して測定されて、文書中のそのタームの頻度が決定される。文書とタームが関係する度合いは、文書中のタームの頻度が増加するにつれて増加すると考えられる。また、文書間を区別する際のタームの有用性は、そのタームが現れる文書の数が増加するにつれて低下すると考えられる。したがって、データ記憶装置全体に対する特定のタームの頻度もまた測定されて、すべての文書におけるそのタームの頻度レベルが決定される。この２つの測定は、探索されるデータ記憶装置中のいずれか所与の文書の適合性を決定するのに使用される。
【００１２】
探索する際にアクセス可能なデータベースがより一層多数になるにつれて、かつ、これらのデータベースがより大規模になるにつれて、情報検索に関連する問題もまた大きくなる。言い換えれば、探索中のデータベースが大規模かつ多数であるほど、再現度および精度の面にわたって許容できる性能を得るのは難しいことが多い。
【００１３】
音声認識システムは、発話の意味の写しを生成するために、発話に含まれる音響情報と言語学（または言語）情報の組合せを使用する。音声認識システム中の認識装置によって使用される言語情報は、集合的に言語モデルと呼ばれる。
【００１４】
現在の音声認識システムの多くは、本質的に統計的な言語モデルを使用する。このような言語モデルは通常、言語モデルジェネレータに呈示される多量のテキスト訓練データに基づいて周知の技術を使用して生成される。Ｎ−ｇｒａｍ言語モデルは、例えば、Ｋａｔｚの技術のような周知の統計技術や、二項事後分布バックオフ技術を使用する。こうした技術を使用する際、言語モデルは、単語ｗ（ｎ）が単語の連続ｗ１、ｗ２、．．．ｗ（ｎ−１）に続く確率を推定する。これらの確率値は、集合的にＮ−ｇｒａｍ言語モデルを形成する。
【００１５】
言語モデルジェネレータに呈示される大きなテキストコーパスからこれらの確率値を推定するのに使用できる周知の方法は多くあり、これを行うための正確な方法は、本発明にとって重要ではない。言語モデルが、言語における単語の連続の見込み、許容性、または有意味度に関する情報を認識装置が使用できるようにすることにより、認識プロセスの正確さおよび速度の向上に重要な役割を果たしていると言うだけで十分である。さらに、言語に関する情報を多く取り込む言語モデルほど、より速くより正確な音声認識システムをもたらす。
【００１６】
通常、言語モデルを訓練するのに使用される大きな訓練テキストコーパス（ｔｅｘｔｃｏｒｐｕｓ）は、その特定の目的のために特に収集されて、言語モデルジェネレータに呈示される。したがって、言語モデルは通常、いくつかの広範な使用クラスのために生成される。使用クラスのいくつかは、一般英語、事務通信文、スポーツなどである場合がある。
【００１７】
しかし、いずれかの特定ユーザの関心は、したがってその特定ユーザによって使用される言語は、通常、これらの広い言語モデル範疇よりもずっと具体的である可能性がある。したがって、このような言語モデルによって生成された確率推定は、ユーザによって使用される実際の言語を正確にモデリングしない可能性がある。さらに、ユーザ間の様々な関心はほぼ無限であるため、各ユーザに高度に特化させた言語モデルを生成することは非常に難しい。
【００１８】
従来のいくつかのシステムは、使用とともに言語モデルを適合させることによってこの問題を扱うことを試みてきた。適合の間、言語モデルによって単語の連続に割り当てられる確率推定は、ユーザの実際の言語をより厳密に反映するように調節される。適合に使用されるテキストデータはユーザ特有である。このテキストデータは、例えば、ユーザによって口述されたテキストや、ユーザによって生成され、読まれ、または記憶された文書中のテキストで構成することができる。しかし、言語モデルが正確に適合されるためには、それに大量のデータが供給されなければならない。言語モデルを迅速に適合させるには、あるいは有意義なユーザ特有の言語モデルを生成するには、通常、利用可能なユーザ特有データでは乏しすぎる。
【００１９】
（発明の概要）
より小さい第１のデータ記憶装置およびより大きい第２のデータ記憶装置にアクセスできる音声認識システム中で、言語モデルが使用される。言語モデルは、第１のデータ記憶装置に含まれる情報に基づいて情報検索質問を案出して第２のデータ記憶装置に質問することによって適合される。第２のデータ記憶装置から検索された情報は、言語モデルを適合させる、あるいは構築する際に使用される。
【００２０】
好ましい一実施形態では、第１の記憶装置は一般により小さく、音声認識システムのユーザによって目下使用されている言語をよりよく表すと考えられる。第２の記憶装置は一般により大きく、パーセント値からみてユーザの言語を表す率がより低い見込みが非常にある。
【００２１】
また、言語モデルは、第２のデータ記憶装置から情報を検索するのにも使用される。言語モデルは、第１のデータ記憶装置中の情報に基づいて、かつ第２のデータ記憶装置中の情報に基づいて構築される。第１の言語モデルが与えられ、第２の言語モデルが与えられれば、第２のデータ記憶装置中の文書のパープレキシティが決定される。文書の適合性は、第１および第２のパープレキシティに基づいて決定される。しきい値レベルを超える適合度を有する文書が検索される。
【００２２】
一実施形態では、第１のデータ記憶装置はユーザによる質問または要求を表し、第２のデータ記憶装置は探索されるライブラリを表す。
【００２３】
（好ましい実施形態の詳細な説明）
（概要）
図１および関連の考察は、本発明を実施できる適したコンピューティング環境の簡潔かつ一般的な記述を提供することを目的としている。必要ではないが本発明は、少なくとも部分的に、パーソナルコンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明する。一般にプログラムモジュールは、ルーチンプログラム、オブジェクト、コンポーネント、データ構造などを含み、これらは特定のタスクを実行する、あるいは特定の抽象データ型を実装する。さらに本発明が、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースのまたはプログラム可能な消費者電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータなどを含めた他のコンピュータシステム構成でも実施できることを、当業者なら理解するであろう。本発明はまた、通信ネットワークでリンクされた遠隔処理装置によってタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールは、ローカルメモリ記憶装置とリモートメモリ記憶装置の両方に配置することができる。
【００２４】
図１を参照すると、本発明を実施するための例示的なシステムは、従来のパーソナルコンピュータの形をとる汎用コンピューティング装置２０を含み、この汎用コンピューティング装置２０は、プロセッシングユニット２１（これは１つまたは複数のプロセッサを含むことができる）と、システムメモリ２２と、システムメモリを含む様々なシステムコンポーネントをプロセッシングユニット２１に結合するシステムバス２３とを含む。システムバス２３は、メモリバスまたはメモリコントローラ、周辺バス、様々なバス構造のいずれかを使用するローカルバスを含めた、いくつかのタイプのバス構造のいずれでもよい。システムメモリは、読取専用メモリ（ＲＯＭ）２４およびランダムアクセスメモリ（ＲＡＭ）２５を含む。ＲＯＭ２４には、起動中などにパーソナルコンピュータ２０内の要素間で情報を転送するのを助ける基本ルーチンを含むＢＩＯＳ（ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔ）２６が記憶される。パーソナルコンピュータ２０はさらに、ハードディスク（図示せず）から読み取り、かつ、それに書き込むためのハードディスクドライブ２７と、取外し可能磁気ディスク２９から読み取る、またはそれに書き込むための磁気ディスクドライブ２８と、ＣＤＲＯＭやその他の光学媒体などの光学ディスク３１から読み取る、またはそれに書き込むための光学ディスクドライブ３０とを含む。ハードディスクドライブ２７、磁気ディスクドライブ２８、光学ディスクドライブ３０は、それぞれハードディスクドライブインタフェース３２、磁気ディスクドライブインタフェース３３、光学ドライブインタフェース３４によってシステムバス２３に接続される。ドライブおよび関連するコンピュータ読取可能媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、およびその他のデータの不揮発性記憶装置をパーソナルコンピュータ２０に提供する。
【００２５】
本明細書で述べる例示的な環境は、ハードディスク、取外し可能磁気ディスク２９、および取外し可能光学ディスク３１を採用しているが、磁気カセット、フラッシュメモリカード、ディジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）など、コンピュータからアクセス可能であるデータを記憶できる他のタイプのコンピュータ読取可能媒体もこの例示的な動作環境で使用できることを、当業者は理解されたい。
【００２６】
ハードディスク、磁気ディスク２９、光学ディスク３１、ＲＯＭ２４、またはＲＡＭ２５には、オペレーティングシステム３５、１つまたは複数のアプリケーションプログラム３６、その他のプログラムモジュール３７、およびプログラムデータ３８を含めたいくつかのプログラムモジュールを記憶することができる。ユーザは、キーボード４０やポインティングデバイス４２などの入力装置を介してパーソナルコンピュータ２０にコマンドおよび情報を入力することができる。その他の入力装置（図示せず）には、マイクロホン、ジョイスティック、ゲームパッド、衛星放送用パラボラアンテナ、スキャナなどを含めることができる。これらおよび他の入力装置は、システムバスに結合されたシリアルポートインタフェース４６を介してプロセッシングユニット２１に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス（ＵＳＢ）などの他のインタフェースによって接続されてもよい。モニタ４７または他のタイプの表示装置もまた、ビデオアダプタ４８などのインタフェースを介してシステムバス２３に接続される。モニタ４７に加え、パーソナルコンピュータは通常、スピーカやプリンタなどの他の周辺出力装置（図示せず）も含むことができる。
【００２７】
パーソナルコンピュータ２０は、リモートコンピュータ４９などの１つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク化環境で動作することもできる。リモートコンピュータ４９は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピア装置、または他のネットワークノードとすることができ、図１にはメモリ記憶装置５０しか示していないが、通常、パーソナルコンピュータ２０に関して上に述べた多くのまたはすべての要素を含む。図１に示す論理接続は、ローカルエリアネットワーク（ＬＡＮ）５１およびワイドエリアネットワーク（ＷＡＮ）５２を含む。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワークイントラネット、およびインターネットで普通に見られる。
【００２８】
ＬＡＮネットワーキング環境で使用されるとき、パーソナルコンピュータ２０は、ネットワークインタフェースまたはアダプタ５３を介してローカルエリアネットワーク５１に接続される。ＷＡＮネットワーキング環境で使用されるとき、パーソナルコンピュータ２０は通常、インターネットなどのワイドエリアネットワーク５２を介して通信を確立するためのモデム５４または他の手段を含む。モデム５４は、内蔵でも外付けでもよく、シリアルポートインタフェース４６を介してシステムバス２３に接続される。ネットワーク環境では、パーソナルコンピュータ２０に関して示したプログラムモジュールまたはそれらの一部は、リモートメモリ記憶装置に記憶することもできる。図示のネットワーク接続が例示的なものであり、コンピュータ間の通信リンクを確立する他の手段も使用できることは理解されるであろう。
【００２９】
図２に、本発明の一態様による音声認識／情報検索（ＳＲ／ＩＲ）システム６０のブロック図を示す。ＳＲ／ＩＲシステム６０は、マイクロホン６２、アナログディジタル（Ａ／Ｄ）変換器６４、ユーザ入力装置６６、ＳＲ／ＩＲプロセッサモジュール６８、言語モデル（ＬＭ）記憶モジュール７０、トピックデータ記憶装置７２、一般データ記憶装置７４、およびユーザ出力装置７６を含む。
【００３０】
システム６０全体またはシステム６０の一部が、図１に示した環境で実施できることに留意されたい。例えば、マイクロホン６２は、適切なインタフェースを介して、かつＡ／Ｄ変換器６４を介してパーソナルコンピュータ２０への入力装置として提供されるのが好ましい。ユーザ入力装置６６は、キーボード４０、マウス４２、またはいずれか他の適した入力装置として実装されるのが好ましい。言語モデル記憶モジュール７０は、図１に示したいずれかの適した記憶装置に記憶される、あるいは図１に関して述べたデータ入力機構のいずれかによってＳＲ／ＩＲモジュール６８に提供されるのが好ましい。ＳＲ／ＩＲモジュール６８は、コンピュータ２０中のハードウェアモジュール（ＣＰＵ２１とは別個の、またはＣＰＵ２１中に実装された、専用の音声認識または情報検索プロセッサなど）であること、あるいは図１に開示した情報記憶装置のいずれかに記憶され、ＣＰＵ２１またはいずれか他の適したプロセッサからアクセス可能なソフトウェアモジュールであることが好ましい。
【００３１】
トピックデータ記憶装置７２もまた、図１に示したいずれかの適した記憶装置に記憶されること、あるいは図１によって示したシステムからアクセス可能であることが好ましい。また、トピックデータ記憶装置７２は、コンピュータ２０に対してローカルである必要はなく、コンピュータ２０からアクセス可能であるだけでよい。例えば、トピックデータ記憶装置７２は、部分的にまたは全体的にメモリ５０に記憶することができる。生成されつつある特定の文書、ならびにユーザによって生成された他の文書は、トピックデータ記憶装置７２に記憶される。もちろん、トピックデータ記憶装置７２に含まれるデータが、主題、文書のタイプ（例えば手紙、メモ、電子メール転送、ファクシミリ、他）など、任意の数の基準またはいずれか他の適した基準に従って構成できることは理解されるであろう。
【００３２】
一般データ記憶装置７４は、より大きな、トピックデータ記憶装置７２よりも大きなデータベースであることが好ましく、図１に示したシステムからアクセス可能である。一般データ記憶装置は、例えば、ワイドエリアネットワーク５２を介して、またはローカルエリアネットワーク５１を介してアクセス可能などんなデータベースまたはデータベースの集合でもよい。
【００３３】
さらに、出力装置７６は、好ましい一実施形態では、モニタ４７またはプリンタとして、あるいはいずれか他の適した出力装置として実装することができる。
【００３４】
いずれの場合でも、当面の記述のために、システム６０は、音声認識と情報検索の両方を行うのに適したシステムを例示する。しかし、以下に述べる本発明の様々な機能および態様に合うように、システム６０を音声認識のみ、または情報検索のみを行うように構成することもできることに留意されたい。
【００３５】
（言語モデルの適合）
ここで、音声認識に関してシステム６０を述べる。音声認識では、システム６０は、周知の方式で音響情報を利用して訓練される。システム６０はこの情報を、後でマイクロホン６２を介してシステム６０に入力された発話を認識する際に利用する。簡潔に言えば、音声は、ユーザからマイクロホン６２を介して提供される可聴音声信号の形でシステム６０に入力される。マイクロホン６２は可聴音声信号をアナログ電子信号に変換し、これはＡ／Ｄ変換器６４に提供される。Ａ／Ｄ変換器６４はアナログ音声信号を一連のディジタル信号に変換し、これはＳＲ／ＩＲモジュール６８に提供される。
【００３６】
好ましい一実施形態では、ＳＲ／ＩＲモジュール６８は、ディジタル信号上で分光分析を行って周波数スペクトルの各周波数帯の振幅値を計算する従来のアレイプロセッサである特徴抽出モジュールを含む。特徴抽出モジュールはディジタル信号を、複数のディジタルサンプルを含むフレームに分割し、これらのディジタルサンプルは、複数の周波数帯の確率値を含む出力確率分布の列に変換される。出力確率分布は周知の方式で処理されて、マイクロホン６２によって受信された音声を表す、見込まれる音声ユニット（音素、単語、または単語の連続など）が得られる。
【００３７】
好ましい一実施形態では、ＳＲ／ＩＲモジュール６８は、表されたＮ個のもっとも見込まれる単語または単語の連続を示すＮ個の見込まれる単語仮説を識別する。次いでＳＲ／ＩＲモジュール６８は、ＬＭ記憶モジュール７０にアクセスする。ＬＭ記憶モジュール７０に記憶された言語モデルを使用して、単語ｗ（ｎ）が単語の連続ｗ１、ｗ２、．．．ｗ（ｎ−１）に続く確率が推定される。次いで、これらの確率を使用して、発話によって表されるもっとも見込まれる単語または単語の連続を得るためにＮ個の最良仮説からの選択がなされる。このもっとも見込まれる仮説は、ユーザ出力装置７６で出力される。
【００３８】
ＬＭ記憶モジュール７０に記憶される言語モデルは、最初にＳＲ／ＩＲモジュール６８によって構築することもでき、あるいは図１で考察したようなデータ入力機構を使用して（例えばフロッピーディスクを使用して）ＬＭ記憶モジュール７０にロードすることもできる。ＳＲ／ＩＲモジュール６８が言語モジュールを構築する実施形態では、大きな訓練テキストコーパスがＳＲ／ＩＲモジュール６８に提供される。ＳＲ／ＩＲモジュール６８は、その訓練テキストコーパスを使用して、周知の方式で言語モデルを構築し、それをＬＭ記憶モジュール７０に記憶する。
【００３９】
さらに、複数の言語モデルをＬＭ記憶モジュール７０に記憶することができることにも留意されたい。例えば、いくつかのトピック依存言語モデルをＬＭ記憶モジュール７０に記憶し、音声認識システムによって生成されつつある特定の文書の主題に関するユーザからの入力に基づいてＳＲ／ＩＲモジュール６８によって取り出すことができる。
【００４０】
いずれの場合でも、ＬＭ記憶モジュール７０に記憶される特定の言語モデル（ただし最初に得られた）は、ユーザによって使用される実際の言語を正確にモデリングするより速くより正確なモデルを得るために、システム６０のユーザによる実際の言語の使用に基づいて適合されることが望ましい。
【００４１】
図３に、本発明の一態様による、ＬＭ記憶モジュール７０に記憶された言語モデルの適合を達成するための一技術を示す。まず、言語モデルがシステム６０によって受け取られる。言語モデルは、主題特有、ユーザ特有、アプリケーション特有のいずれでも、あるいは単に一般言語モデルでもよい。先に考察したように、言語モデルは、システム６０によって構築してＬＭ記憶モジュール７０に記憶することもでき、単に適切な入力機構を介してＬＭ記憶モジュール７０にロードすることもできる。言語モデルを受け取るステップを、図３のブロック７８で示す。
【００４２】
言語モデルを適合させるために、システム６０は、モジュール７０に記憶された言語モデルを適合させるのに使用されるテキストコーパスの一部としてトピックデータ記憶装置７２に記憶された情報を使用することが好ましい。トピックデータ記憶装置７２は、作成されつつある現在の文書、現在のユーザによって作成された他の文書、あるいは現在のユーザによって読まれた、または現在のユーザによって記憶された、または現在のユーザによって現行のタスクに関係すると識別された他の文書を含むことが好ましい。
【００４３】
通常、モジュール７０に記憶された言語モデルを迅速に適合させるには、あるいはよりユーザ／タスク特有の言語モデルを生成するには、これだけの量のユーザ特有または現行のトピックあるいはタスク特有のデータでは不十分である。したがってシステム６０は、トピックデータ記憶装置７２に記憶されたユーザ／タスク特有の情報を利用して、一般データ記憶装置７４に対する質問を生成する。一般データ記憶装置７４は、インターネットを介して（例えばＷＡＮ５２を介して）アクセス可能な１つまたは複数のデータベース、ライブラリデータベース、またはシステム６０から（ＬＡＮ５１などを介して）アクセス可能な別の適した大規模データベースを含むことができることを想起されたい。一般データ記憶装置７４に対する質問を、図３のブロック８０で示す。
【００４４】
一般データ記憶装置７４に対する質問の生成および実行に使用される特定の情報検索技術は、本発明のこの機能にクリティカルではない。むしろ、適した質問開発および情報検索の技術はどれでも使用することができる。目下の技術による適合が情報検索技術によりよく作用し、それにより、より適合性のある文書が得られることに、ただ留意されたい。
【００４５】
次に、情報検索質問によって識別された文書が検索される。これをブロック８２によって示す。好ましい一実施形態では、図３の破線８４で示すように、処理は単にブロック８６で継続する。この好ましい実施形態では、モジュール７０に記憶されたトピック言語モデルは、トピックデータ記憶装置７２に記憶された情報に基づいて、かつ、一般データ記憶装置７４に対して実行された質問の結果として一般データ記憶装置７４から検索された情報に基づいて、調節または適合される。したがって、言語モデルによって生成された確率推定は、トピックデータ記憶装置７２中の情報と一般データ記憶装置７４から検索された情報の両方を含むテキストコーパスに基づいて調節される。これは、トピックデータ記憶装置７２に記憶された情報を使用するだけの場合よりもずっと大きな、モジュール７０に記憶された言語モデルを適合させるためのテキストコーパスを提供する。適合テキストコーパスがずっと大きいため、言語モデルによって生成される確率はよりよく推定され、得られる言語モデルは、ユーザによる実際の使用をモデリングするためのよりよい（すなわちより速くより正確な）機構をもたらす。この適合をブロック８６によって示す。
【００４６】
言語モデルが適合される方式は、いくつかの形のどれを取ってもよい。好ましい一実施形態では、一般データ記憶装置７４に対する質問によって検索された文書のサブセットだけが、モジュール７０に記憶された言語モデルを適合させるのに使用される。また、一般データ記憶装置７４に対する質問に基づいて検索された文書は、すでにトピックデータ記憶装置７２に含まれている文書に対して相対的に重み付けすることもできる。検索された文書は、すでにデータ記憶装置７２に記憶されている文書よりも低く重み付けされることが好ましい。したがって、検索された文書に基づく、モジュール７０に記憶された言語モデルへの影響は、すでに記憶されている（かつ、おそらくユーザに適合性があると分かっている）文書に基づくそれよりも小さい。
【００４７】
さらに、言語モデルは別の方式で適合させることもできる。質問の結果を使用して、すでにモジュール７０に記憶された言語モデルに結合される言語モデルを構築することができる。この結合は、補間や削除補間など、いずれかの周知の平滑化技術、またはいずれか他の適した技術を使用して行うことができる。モジュール７０に記憶されたトピック言語モデルを適合させるために削除補間を使用する実施形態では、一般データ記憶装置７４から検索された文書およびすでにトピックデータ記憶装置７２に記憶されている文書は、次のように重み付けされる。
【００４８】
λＰ_r＋（１−λ）Ｐ_t
【００４９】
上式で、Ｐ_rは検索された文書に基づく言語モデルによって生成された確率値であり、
Ｐ_tは、すでにトピックデータ記憶装置７２にある文書に基づく言語モデルによって生成された確率値であり、
λは、実験に基づいて決定されることが好ましい値を有する削除補間パラメータである。情報検索技術が非常に正確であると考えられる場合、λは、より高い値（０．８または０．９など）を有することになる。しかし、情報検索技術が正確であると考えられない場合、λは、より低い値（０．４または０．５など）を有する可能性がある。しかし、０．１〜０．９などの、どんな値のλも適する。
【００５０】
他の実施形態では、λの値は、質問の数が増加するにつれてインクリメンタルに増加される。言い換えれば、実行された質問の数が増加するにつれて、言語モデルを適合させるのに使用されるテキストコーパスはより大きくなるか、またはより正確になる見込みがある。というのは、トピックデータ記憶装置７２に記憶される情報の量がより多くなる見込みがあるからである。したがって、情報検索技術を使用して検索される文書は、最初に検索されたものよりも適合性がある見込みがある。したがって、λの値は、質問の数が増加するにつれてインクリメンタルに増加し得る。
【００５１】
さらに、検索されたデータからいくつかの言語モデルを構築できることにも留意されたい。例えば、ある言語モデルを、最も適合性のある１００個の文書を使用して構築し、第２の言語モデルを、最も適合性のある２００個の文書を使用して構築することなどができる。次いで、検索された文書を使用して構築した複数の言語モデルを、トピックデータ記憶装置７２からの適合性のある既知のデータから生成されて、かつ一般言語モデルからも生成された言語モデルと結合することができる。削除補間を使用した言語モデルの結合は、次のように表すことができる。
【００５２】
Σλ_iＰ_i
【００５３】
上式で、Ｐ_iはｉ番目の言語モデルであり、０≦λ_i≦１はｉ番目の言語モデルに対する補間重みであり、Σλ_i＝１である。
【００５４】
言語モデルが適合されると、次いで、適合されたまたは調節された言語モデルは、音声認識で使用される。これをブロック８８で示す。
【００５５】
本発明の好ましい一態様によれば、システム６０は、トピック特有の質問を自動的かつ断続的に再生成して、それを一般データ記憶装置７４に記憶された情報に向けるように構成される。例えば、好ましい一実施形態では、モジュール７０に記憶された言語モデルは、実行中に（例えばユーザがシステム６０を使用しているときに）適合される。したがって、システム６０は、システム６０が起動されるとすぐに、かつ、次いで新しい文書が作成される度に、最初に質問を実行して言語モデルを適合させるように構成することができる。しかし、システム６０は、文書が生成されている間にも、新しい質問を作成して言語モデルを断続的に適合させることがより好ましい。したがって、システム６０は、所定の単語数ごとに、所定の時間間隔ごとに、またはいずれか他の適した基準に基づいて、質問を繰り返すように構成することができる。
【００５６】
どんな基準であれ、それは、質問しきい値を設定するのに使用される。したがって、システム６０は、質問しきい値が達せられたかどうかを判定する。達せられた場合、システム６０は、ブロック８０で示すように、別の質問を生成してそれを一般データ記憶装置に対して実行する。質問しきい値が達せられていない場合、システム６０は、単に通常通りに音声認識を継続するだけである。これを図３のブロック９０および９２で示す。
【００５７】
本発明の他の好ましい機能によれば、モジュール７０に記憶された言語モデルを適合させるのに他の情報を使用することもできる。これらの機能を図３のブロック９４、９６、９８で表す。例えば、好ましい一実施形態では、一般データ記憶装置７４中の情報に対して質問を実行した後で、質問から返された各文書の適合度が決定される。次いで、文書は適合度に従ってランクされる。これはブロック９４で示す。次いで、返された文書のサブセット（適合性しきい値より高い適合度を有するもの）が、言語モデルの適合に使用される。さらに、返された文書は、ブロック９６で示すように、適合度に従って重み付けすることもできる。次いで文書は、モジュール７０に記憶された言語モデルを適合させるために、重み付けされたように使用することができる。
【００５８】
本発明の他の好ましい実施形態では、言語モデルを調節するのに他の情報を使用することもできる。例えば、システム６０は、特定のアプリケーションを識別するように構成し、次いで、文書を作成するためにユーザが使用することができる。例えば、ユーザがワードプロセッサアプリケーションにある場合、そのユーザは、そのユーザが電子メールアプリケーションにある場合よりも正式な文書を生成している可能性がある。システム６０は、アプリケーションを認識し、一般データ記憶装置７２に含まれる情報に対する質問を生成する際にその情報を使用して、より正式な文書（すなわちより正式な単語の使用および単語の連続）を探すか、あるいは単に、質問によって検索されたより正式な文書を、検索されたより正式でない文書より高く重み付けするように構成することができる。さらに、ユーザがメモテンプレートを立ち上げ、したがって内部メモを生成している場合、システム６０は、一般データ記憶装置７４に記憶された情報に対する質問を生成する際にトピックデータ記憶装置７２から類似のメモだけしか検索しないように構成することができる。
【００５９】
他の多くのパラメータも、本発明によって使用することができる。例えば、ユーザは勤務時間中に、会社の手紙やメモなどのより正式な文書を口述するが、その後、昼間または夜に、私的な手紙などのより正式でない文書を生成する傾向がある。したがって、システム６０は、ユーザによって文書が作成される時刻に基づいて、同じ時刻に作成された文書をトピックデータ記憶装置７２から検索することによって質問を生成するように構成することができる。システム６０はまた、単に、質問に基づいて取り出された同様の文書を他の文書よりも重く重み付けするように構成することもできる。
【００６０】
また、モジュール７０に記憶された言語モデルの適合は、ユーザがシステム６０の音声認識機能を利用しているかどうかに関わらず断続的に行うことができることにも留意されたい。システム６０に電源が投入されている限り、これは、一般データ記憶装置７４に記憶された情報に対する質問を繰り返し、モジュール７０に記憶された言語モデルをいずれかの所与の基準によって適合させるように構成することができる。
【００６１】
したがって、本発明の言語モデル適合機能を使用して、モジュール７０に記憶される言語モデルを生成し向上させるのに利用可能なユーザ特有のデータの量を速く効率的に拡大することができることが分かる。利用可能なユーザ特有のデータはまず、ユーザ特有の文書に類似するテキストまたは文書を識別するために、大規模な情報記憶装置に対する質問として使用される。その場合、モジュール７０に記憶されるユーザ特有の言語モデルを生成する、または適合させるのに使用されるテキストコーパスは、普通ならそうなるよりもずっと大きな集合となり、言語モデルによって提供される確率は、よりよく推定される。この場合にやはり、言語モデルが構築および適合される特定の方式、および情報検索を行う特定の技術が本発明のこの態様にクリティカルなものではなく、適したどんな技術も使用できることに留意されたい。
【００６２】
（情報検索を向上させるための言語モデルの使用）
図４は、システム６０が情報検索を向上させることのできる技術を示す流れ図である。前述のように、統計的ｎ−ｇｒａｍ言語モデルは、その単語までの単語の連続が与えられれば（すなわち単語履歴Ｈが与えられれば）、単語の確率推定を生成する。ｎ−ｇｒａｍ言語モデルは、履歴Ｈ中の先行する（ｎ−１）個の単語しか、次の単語の確率に影響するものと見なさない。例えば、ｂｉ−ｇｒａｍ（２−ｇｒａｍ）言語モデルは、前の単語を次の単語に影響するものと見なす。したがって、ｎ−ｇｒａｍ言語モデルでは、単語発生の確率は次のように表される。
【００６３】
式１：
Ｐ（ｗ／Ｈ）＝Ｐ（ｗ／ｗ１，ｗ２，．．．ｗ（ｎ−１））
【００６４】
ｗは対象の単語であり、
ｗ１は、連続の中で単語ｗに先行する最初の単語であり、
ｗ２は、単語ｗに先行する２番目の単語であり、
ｗ（ｎ−１）は、単語ｗに先行する、ｎ−１の位置にある単語である。
【００６５】
また、単語の連続の確率は、その履歴が与えられれば、各単語の確率の乗算に基づいて決定される。したがって、単語の連続ｗ１．．．ｗｍの確率は、次のように表される。
【００６６】
式２：
【００６７】
【数１】

【００６８】
言語モデルを考察する際、単語の連続のパープレキシティの概念もまた知られる。パープレキシティは、言語モデルの平均的な分岐ファクタの統計的測定値である。言い換えれば、パープレキシティは、対象の単語または単語の連続が与えらた場合に言語モデルによって予測されることになる可能な単語の平均数の統計的測定値である。したがって、その履歴が与えられた場合、単語の連続ｗ１．．．ｗｍのパープレキシティは、次のように表される。
【００６９】
式３
【００７０】
【数２】

【００７１】
さらに、所与の言語モデルＬＭに関する単語の連続の
【数３】

【００７２】
パープレキシティは、次のように表されることになる。
【００７３】
式４
【００７４】
【数４】

【００７５】
したがって、言語モデルが与えられた場合、単語の連続のパープレキシティは、その単語の連続およびその履歴が与えられた場合にその言語モデルによって予測されることになる単語の平均数にほぼ等しい。この値は、使用されている特定の言語モデルの予測能力によって変化する。言語モデルが構築される特定の方式、および使用される特定の言語モデルは、本発明にクリティカルなものではない。
【００７６】
本発明の一態様は、システム６０によって実行される情報検索の正確さを向上させるために、パープレキシティの概念を言語モデルに関する限り利用する。これを行うために、システム６０はまず、図４のブロック１００で示すように、一般言語モデルを受け取るかまたは生成する。したがってシステム６０は、言語モデルジェネレータで構成することができる。そうした例では、大きな訓練データのテキストコーパスが言語モデルジェネレータに提供されて、言語モデルジェネレータが、周知の適した方式により、この大きなテキストコーパスに基づいて一般言語モデルを生成することが好ましい。訓練データは、一般データ記憶装置７４に記憶された情報（または情報のサブセット）であることが好ましい。次いで、その言語モデルはモジュール７０に記憶される。しかし、別法として、従来の市販の一般言語モデルをシステム６０に提供し、これを単にモジュール７０にロードすることもできる。別の代替例では、システム６０は、一般データ記憶装置７４中のデータとは異なるテキストデータの別の大きなセットから一般言語モデルを生成する。好ましい実施形態では、システム６０は、ｔｒｉｇｒａｍ言語モデルを生成する、あるいは提供される。
【００７７】
次に、システム６０は、ユーザが関心を持つ特定のトピックに適合性のあるトピック言語モデルを受け取るかまたは生成する。この場合にやはり、システム６０は、市販のトピック言語モデルを備えるか、あるいはトピック言語モデルそのものを生成して訓練することができる。
【００７８】
トピック言語モデルを生成するために、ユーザは、対象となる具体的なトピックに適合性のある訓練データをシステム６０に提供することが好ましい。例えば、ユーザはいくつかの記事を有し、一般データ記憶装置７４に記憶されている情報から他の類似する記事を検索したいと思う場合がある。あるいは、ユーザは単に探索質問またはシステムへの要求を供給する可能性がある。トピック言語モデルは適合性のある記事を使用してシステム６０によって生成されるか、あるいは、適合性のあるこれらの記事のテキストの一部を使用して、一般データ記憶装置７４に記憶された情報に対する質問を表し、その質問に基づいて検索された情報を使用して、ユーザから供給された情報と組み合わせてトピック言語モデルが生成される。別の好ましい実施形態では、トピック言語モデルを生成するのに使用される訓練データが乏しいとき、その乏しいデータを使用してトピック言語モデルが生成され、次いで、一般言語モデルと結合されて新しいトピックモデルが得られる。結合の技術は本発明にクリティカルなものではなく、補間や削除補間などの平滑化技術、またはいずれか他の適した技術を使用して達成することができる。トピック言語モデルの受領または生成のプロセスを、図４のブロック１０２で示す。
【００７９】
一般言語モデルおよびトピック言語モデルがシステム６０によって生成または受領された後、システム６０は、情報検索プロセス中で考察されることになる一般データ記憶装置７４中の各文書（または文書の一部）に類似度を割り当てることに取りかかる。これを行うために、システム６０はまず、一般データ記憶装置７４から文書を選択する。これをブロック１０４で示す。
【００８０】
次に、システム６０は、ブロック１０６で示すように、一般言語モデルについてその文書のパープレキシティを決定する。これは、次のように表される。
【００８１】
式５
Ｐｅｒｐ（ｄｏｃ_i／ＧＬＭ）
【００８２】
上式で、ＧＬＭは一般言語モデルを表し、
ｄｏｃ_iは選択された文書を表す。
【００８３】
次いでシステム６０は、ブロック１０８で示すように、トピック言語モデルについてその文書のパープレキシティを決定する。これは、次のように表される。
【００８４】
式６
Ｐｅｒｐ（ｄｏｃ_i／ＴＬＭ）
ＴＬＭはトピック言語モデルを表す。
【００８５】
次いでシステム６０は、ブロック１０６および１０８で決定されたパープレキシティに基づいて、選択された文書の適合度を決定する。適合度は、次のように、２つのパープレキシティの比率のタームで表されることが好ましい。
７３
式７
【００８６】
【数５】

【００８７】
特定の言語モデルが与えられれば、（単語の連続としての）文書のパープレキシティが、その文書が与えられた場合にその言語モデルによって予測できる単語のほぼ平均数を表すことを想起されたい。したがって、パープレキシティ数が相対的に高い場合、その言語モデルを開発するのに使用された訓練データは、その文書に使用されるタームについてその言語モデルをまだあまり訓練していない。したがって、考察中の文書は、言語モデルを開発するのに使用された訓練データに類似しない傾向がある。しかし、その文書のパープレキシティが低い場合、その言語モデルを開発するのに使用された訓練データは、その文書中に現れるタームについてその言語モデルをよく訓練していると見込まれ、その文書は、その言語モデルを訓練するのに使用された訓練データに類似すると見込まれる。
【００８８】
したがって、好ましい一実施形態では、類似度は、トピック言語モデルだけを使用して返すことができる。しかし、より好ましい一実施形態では、トピック言語モデルも一般言語モデルも両方とも使用される。これは、文書中のいくつかの言語構造が、考察中の文書が適合性を有するかどうかに関わらず、多かれ少なかれ現れる見込みがある場合があるからである。トピック言語モデルのパープレキシティを適用することによって得られた生の適合性スコアが非常に高くても、情報検索システムは、これらの類似する文書を差別しないことが望まれる。そのような場合、かつ、対象の文書中で使用される言語構造が全くありそうでない場合、一般言語モデルについて返されるパープレキシティ値もまた高くなることになる。一般言語モデルとトピック言語モデルとに決定されたパープレキシティの比率を使用することにより、システムは本質的に、基準（一般言語モデル）に対して決定された数を、したがって単にトピック言語モデルに関する文書のパープレキシティを提供することによって返されることになる生の数よりも意義のある数を返す。したがって、２つのパープレキシティの比率として適合度を提供することにより、より正確な適合度がもたらされると考えられる。
【００８９】
同様に、対象のトピックに関わらず、対象の文書中で使用される言語構造が非常にありふれたものである場合は、文書が特に適合性を有しない可能性があっても、トピック言語モデルによって返されるパープレキシティ値は相対的に低くなる。しかし、一般言語モデルによって返されるパープレキシティ値もまた、非常に低くなることが見込まれる。したがって、２つのパープレキシティの比率として適合度を提供することにより、情報検索技術はより適合性のある文書を検索すると考えられる。
【００９０】
選択された文書の適合性をパープレキシティに基づいて決定するステップを、ブロック１１０で示す。２つのパープレキシティの割合としての適合性ファクタの表現は、次のように拡張することができる。
【００９１】
式８
【００９２】
【数６】

【００９３】
上式で、Ｐ_T＝その履歴が与えられた場合の、トピック言語モデルに関する単語の連続の確率であり、
Ｐ_G＝その履歴が与えられた場合の、一般言語モデルに関する単語の連続の確率である。
【００９４】
適合度が決定されれば、システム６０は、適合度が適合性しきい値を満たすかどうかを判定する。適合性しきい値は、事前に決定しても、ユーザが入力しても、システム６０によって検索される文書の数に基づいて調節してもよく、あるいは他の基準に基づいてもよい。システム６０はただ、ユーザに提供されるのに十分な高い適合度を文書が有するかどうかを判定するだけである。これをブロック１１２で示す。
【００９５】
文書が適合性しきい値を満たさない場合、それはユーザに提供されず、処理はブロック１１６に関して継続する。しかし、文書が適合性しきい値を満たす場合、それは検索され、トピックデータ記憶装置７２に記憶されるか、あるいは出力装置７６でユーザに提供される。これをブロック１１４で示す。
【００９６】
次いでシステム６０は、一般データ記憶装置７４中の追加の文書を検査すべきかどうかを判定する。そうすべきである場合、処理はブロック１０４に戻り、そこで別の文書が選択されて、その文書の適合性が決定される。もう検査すべき文書がない場合、処理はオプションのブロック１１８に関して継続する。これをブロック１１６で示す。
【００９７】
すべての文書（または文書のサブセット）が検査されれば、システム６０は、単にユーザに文書を提供するか、文書を記憶するか、文書を適合性に従ってランクすることができる。文書が適合性に従ってランクされる実施形態では、システム６０は単に、各文書に対して決定された適合度に従って文書をランクする。次いでシステム６０は、適合性に従ってランクされた文書をユーザに提供するか、または単にランキングに基づいて検索された文書のサブセットを提供することができる。これをブロック１１８で示す。
【００９８】
この技術を使用すると、一般言語モデルは、一般データ記憶装置７４に記憶された情報またはその情報を表すいくつかのサンプルに基づいて一度生成される必要があるだけであることが分かる。別法として、一般言語モデルは、一般データ記憶装置７４中の情報が変わるときに断続的に更新することもできる。トピック言語モデルは、ユーザから提供された質問ごとに１度生成することが好ましい。
【００９９】
（結論）
本発明の一態様は、情報検索を使用して、音声認識の間に使用される言語モデルを向上および適合させる技術を提供する。このシステムは、ユーザによってすでに生成されたテキストの既知の履歴を使用して言語モデルを直接に開発し、適合させるが、また、類似の文書を見つけて言語モデルの生成および適合に使用される訓練データを拡大するために、一般データ記憶装置に対してトピック特有の質問を向ける。これにより、過去に使用された、広範かつあらかじめ考えられたトピック依存言語モデルよりもずっと正確な言語モデルが実現する。大規模なデータ記憶装置に対する質問はまた、定期的または断続的に繰り返されて、動的に適合された、正確さの向上した言語モデルが得られることが好ましい。
【０１００】
本発明の別の態様は、言語モデルを使用して情報検索技術を向上させる。このシステムは、（前述の技術か別の周知の技術を使用して）一般言語モデルおよびトピック言語モデルを得ることが好ましい。次いでこのシステムは、得られた言語モデルによって返されたパープレキシティ値に基づいて、探索された文書の適合度を計算する。言語モデルが文脈依存モデルであるため、これにより、システムは、単語自体だけでなく単語が現れる文脈も考慮して文書の適合性を決定することが可能になる。これにより、情報検索技術の再現度と精度の両方が向上し、検索されている文書中に適合性のある情報が現れる見込み（または確率）がよりよく推定され、したがって、情報検索システムのよりよい性能がもたらされる。
【０１０１】
本発明を好ましい実施形態を参照しながら述べたが、本発明の趣旨および範囲を逸脱することなく形式および細部に変更を加えることができることを、当業者なら理解するであろう。
【図面の簡単な説明】
【図１】本発明によるシステムを実施するための例示的な環境のブロック図である。
【図２】本発明によるシステムのより詳細なブロック図である。
【図３】本発明の好ましい一実施形態による文書検索技術を示す流れ図である。
【図４】本発明の別の好ましい実施形態による、言語モデルを適合させるための技術を示す流れ図である。

Claims

ユーザの情報を記憶した第１のデータ記憶装置と、前記第１のデータ記憶装置に対して相対的に大きなテキストコーパスである第２のデータ記憶装置とにアクセスできる音声認識システム中で使用される言語モデルをユーザに適合させる方法であって、
前記第１のデータ記憶装置に含まれた情報に基づいて情報検索質問を案出すること、
前記案出した質問に基づいて前記第２のデータ記憶装置に質問すること、
前記質問に基づいて前記第２のデータ記憶装置から情報を検索すること、および、
前記検索した情報および前記第１のデータ記憶装置中の前記情報に基づいて前記言語モデルを前記ユーザに適合させること
を備え、
前記言語モデルを適合させることは、
前記ユーザの情報および前記第２のデータ記憶装置から検索された情報を重み付けし、前記第２のデータ記憶装置から検索された情報に対する重みを、前記第２のデータ記憶装置が質問される回数が増加するにつれて増加させること、および、
前記重みに従って前記言語モデルを適合させること
を含むことを特徴とする方法。
ユーザが前記音声認識システムを使用している間に、前記案出、質問、検索、適合のステップを繰り返すことをさらに備えることを特徴とする、請求項１に記載の方法。
ユーザが前記音声認識システムを使用している間に、前記案出、質問、検索、適合のステップが断続的に行われることを特徴とする請求項２に記載の方法。
前記ユーザの情報は、ユーザによって事前に作成された文書を含むことを特徴とする請求項１に記載の方法。
前記ユーザの情報は、ユーザによって作成されている文書を含むことを特徴とする請求項１に記載の方法。
前記ユーザの情報は、ユーザによって作成されている文書のタイプに関係する情報を含むことを特徴とする請求項１に記載の方法。
前記ユーザの情報は、ユーザによって文書を作成するのに使用されているテンプレートを含むことを特徴とする請求項１に記載の方法。
前記ユーザの情報は、ユーザによって文書を作成するのに使用されているアプリケーションプログラムを含むことを特徴とする請求項１に記載の方法。
前記ユーザの情報は、ユーザが文書を作成している時刻を含むことを特徴とする請求項１に記載の方法。
前記第２のデータ記憶装置に質問することが、
グローバルコンピュータネットワークを介して情報を質問することを備えることを特徴とする請求項１に記載の方法。