JP4494632B2 - 言語モデルに基づく情報検索および音声認識 - Google Patents
言語モデルに基づく情報検索および音声認識 Download PDFInfo
- Publication number
- JP4494632B2 JP4494632B2 JP2000541667A JP2000541667A JP4494632B2 JP 4494632 B2 JP4494632 B2 JP 4494632B2 JP 2000541667 A JP2000541667 A JP 2000541667A JP 2000541667 A JP2000541667 A JP 2000541667A JP 4494632 B2 JP4494632 B2 JP 4494632B2
- Authority
- JP
- Japan
- Prior art keywords
- language model
- user
- information
- document
- storage device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 42
- 238000013500 data storage Methods 0.000 claims description 39
- 238000013549 information retrieval technique Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
(発明の背景)
本発明は、音声認識および情報検索を扱う。より詳細には、本発明は、情報検索技術を採用して言語モデルを適合させる音声認識システムと、適合性のある文書を検索するために音声認識言語モデルを採用する情報検索技術を扱う。
【0002】
一般に、情報検索は、ユーザが大規模な情報記憶装置からユーザに関係する情報を見つけて取り出すためのプロセスである。情報検索を行う際には、ユーザが必要とするすべての情報を検索することが重要であり(すなわち完全(complete)であることが重要であり)、同時に、ユーザに対して検索される無関係の情報を制限することが重要である(すなわち選択的(selective)であることが重要である)。これらの側面はしばしば、再現度(完全性)および精度(選択性)という語で呼ばれる。多くの情報検索システムでは、再現度と精度の両面にわたって優れた性能を達成することが必要である。
【0003】
現在のいくつかの検索システムでは、質問し探索できる情報量は非常に多い。例えば、いくつかの情報検索システムは、インターネット、ディジタルビデオディスク、およびその他一般のコンピュータデータベース上で情報を探索するようにセットアップされる。これらの情報検索システムは通常、例えばインターネットサーチエンジンやライブラリカタログサーチエンジンとして組み入れられる。
【0004】
多くの情報検索技術が知られている。そのような技術におけるユーザ入力質問は通常、ユーザによって生成される明示的な質問として、あるいはユーザが、ある既存の文書セットに類似する文書または情報を要求するときなどの暗黙的な質問として呈示される。次いで通常の情報検索システムは、大規模なデータ記憶装置中で、単一の単語レベルまたはタームレベルで文書を探索する。各文書には適合性(または類似性)スコアが割り当てられ、情報検索システムは、探索された、所与のしきい値を超えた適合性スコアを通常有するある文書サブセットをユーザに呈示する。
【0005】
現在知られているいくつかの情報検索技術または方法には、全文走査、シグネチャファイルの使用、転置、ベクトルモデリングおよびクラスタリング、tf*idf(term frequency*inverse document frequency)が含まれる。全文走査では、質問中でブール関数を使用して、探索される文書が、ある文字列を含んでいるかどうかが判定される。このような走査技術では、文書の各文字を探索して、それが探索列(すなわち質問)を満たすかどうかを調べ、次いで、ミスマッチが見つかると探索を右に1ポジション移動させるのが普通である。このシステムは、ミスマッチが見つかると右に1ポジションより多く移動させるなど、質問に前処理をする他の方式を使用するように適合されてきた。
【0006】
シグネチャファイルの使用は、探索される文書からありふれた語を廃棄し、ありふれていない語を語幹に切り詰めることを含む。探索される各文書は、ビット列(シグネチャ)を生じる。様々な文書に対するシグネチャは、文書自体とは別のファイルに連続して記憶される。
【0007】
転置技術は、各文書を表すキーワードのリストを構築することを含む。キーワードは索引ファイルに記憶される。各キーワードに、適格な文書を明らかにするポインタのリストが維持される。次いで、質問は索引に向かって進められ、ポインタを使用して適合性のある適格な文書が識別される。
【0008】
ベクトルモデリングおよびクラスタリングは、類似の文書をクラスタと呼ばれるグループに分類することを含む(この技術はまた、文書ではなくターム(term)に適用することもできる)。クラスタを生成するために、ありふれた単語を除去して残りの単語を語幹に切り詰めること(これは接頭辞および接尾辞の除去を含む)によって索引が形成される。類義語もまた、そのタームを頻度、特異性、適合性などによって重み付けすることのできる概念クラス中に一般に配置される。索引は、文書をt次元空間中の点として表すのに使用される。次いでそれらの点は、反復プロセスを通して通常開発される類似性行列でグループに分割される。クラスタを探索するために、質問はt次元ベクトルとして表され、クラスタ中心(cluster centroid)と比較される。クラスタ対質問の類似性関数が生成され、適合性のある文書を抜き取るのに使用される。抜き取られる(または検索される)文書は通常、所定のしきい値を超える類似値を有する。
【0009】
いくつかの情報検索技術では、よりよい性能を達成するために、意味情報が使用されて、情報記憶装置内の、各文書に関するより多くの情報が取り込まれる。このようなシステムの1つでは、自然言語処理が使用されて、質問の意味内容が、探索される文書の意味内容に照合される。探索される文書に索引を付けるためのタームとして、文または句を使用することができる。潜在意味インデクシング(Latent Semantic indexing)は、特定の文書におけるタームの発生回数が行列上に表される、ターム/文書行列を形成することを含む。通常、小さい特異値は除去され、残りのターム頻度ベクトルがマッピングされる。質問もまた、ターム頻度ベクトルで形成され、文書のターム頻度ベクトルを含む行列に対してマッピングされる。文書は、余弦類似度を得るために、正規化線形積を使用してランクされる。
【0010】
意味情報を使用するもう1つのタイプの情報検索技術は、ニューラルネットワークである。本質的に、シソーラス(thesaurus)が構築され、シソーラス中の各概念に対応するように隠れ層中のノードが生成される。次いで、活性化拡散方法を使用して探索が行われる。
【0011】
tf*idf(term frequency*inverse document frequency)は、文書の適合性を決定するのに使用されるもう1つの技術である。まず、質問中で使用されるタームが文書に対して測定されて、文書中のそのタームの頻度が決定される。文書とタームが関係する度合いは、文書中のタームの頻度が増加するにつれて増加すると考えられる。また、文書間を区別する際のタームの有用性は、そのタームが現れる文書の数が増加するにつれて低下すると考えられる。したがって、データ記憶装置全体に対する特定のタームの頻度もまた測定されて、すべての文書におけるそのタームの頻度レベルが決定される。この2つの測定は、探索されるデータ記憶装置中のいずれか所与の文書の適合性を決定するのに使用される。
【0012】
探索する際にアクセス可能なデータベースがより一層多数になるにつれて、かつ、これらのデータベースがより大規模になるにつれて、情報検索に関連する問題もまた大きくなる。言い換えれば、探索中のデータベースが大規模かつ多数であるほど、再現度および精度の面にわたって許容できる性能を得るのは難しいことが多い。
【0013】
音声認識システムは、発話の意味の写しを生成するために、発話に含まれる音響情報と言語学(または言語)情報の組合せを使用する。音声認識システム中の認識装置によって使用される言語情報は、集合的に言語モデルと呼ばれる。
【0014】
現在の音声認識システムの多くは、本質的に統計的な言語モデルを使用する。このような言語モデルは通常、言語モデルジェネレータに呈示される多量のテキスト訓練データに基づいて周知の技術を使用して生成される。N−gram言語モデルは、例えば、Katzの技術のような周知の統計技術や、二項事後分布バックオフ技術を使用する。こうした技術を使用する際、言語モデルは、単語w(n)が単語の連続w1、w2、...w(n−1)に続く確率を推定する。これらの確率値は、集合的にN−gram言語モデルを形成する。
【0015】
言語モデルジェネレータに呈示される大きなテキストコーパスからこれらの確率値を推定するのに使用できる周知の方法は多くあり、これを行うための正確な方法は、本発明にとって重要ではない。言語モデルが、言語における単語の連続の見込み、許容性、または有意味度に関する情報を認識装置が使用できるようにすることにより、認識プロセスの正確さおよび速度の向上に重要な役割を果たしていると言うだけで十分である。さらに、言語に関する情報を多く取り込む言語モデルほど、より速くより正確な音声認識システムをもたらす。
【0016】
通常、言語モデルを訓練するのに使用される大きな訓練テキストコーパス(text corpus)は、その特定の目的のために特に収集されて、言語モデルジェネレータに呈示される。したがって、言語モデルは通常、いくつかの広範な使用クラスのために生成される。使用クラスのいくつかは、一般英語、事務通信文、スポーツなどである場合がある。
【0017】
しかし、いずれかの特定ユーザの関心は、したがってその特定ユーザによって使用される言語は、通常、これらの広い言語モデル範疇よりもずっと具体的である可能性がある。したがって、このような言語モデルによって生成された確率推定は、ユーザによって使用される実際の言語を正確にモデリングしない可能性がある。さらに、ユーザ間の様々な関心はほぼ無限であるため、各ユーザに高度に特化させた言語モデルを生成することは非常に難しい。
【0018】
従来のいくつかのシステムは、使用とともに言語モデルを適合させることによってこの問題を扱うことを試みてきた。適合の間、言語モデルによって単語の連続に割り当てられる確率推定は、ユーザの実際の言語をより厳密に反映するように調節される。適合に使用されるテキストデータはユーザ特有である。このテキストデータは、例えば、ユーザによって口述されたテキストや、ユーザによって生成され、読まれ、または記憶された文書中のテキストで構成することができる。しかし、言語モデルが正確に適合されるためには、それに大量のデータが供給されなければならない。言語モデルを迅速に適合させるには、あるいは有意義なユーザ特有の言語モデルを生成するには、通常、利用可能なユーザ特有データでは乏しすぎる。
【0019】
(発明の概要)
より小さい第1のデータ記憶装置およびより大きい第2のデータ記憶装置にアクセスできる音声認識システム中で、言語モデルが使用される。言語モデルは、第1のデータ記憶装置に含まれる情報に基づいて情報検索質問を案出して第2のデータ記憶装置に質問することによって適合される。第2のデータ記憶装置から検索された情報は、言語モデルを適合させる、あるいは構築する際に使用される。
【0020】
好ましい一実施形態では、第1の記憶装置は一般により小さく、音声認識システムのユーザによって目下使用されている言語をよりよく表すと考えられる。第2の記憶装置は一般により大きく、パーセント値からみてユーザの言語を表す率がより低い見込みが非常にある。
【0021】
また、言語モデルは、第2のデータ記憶装置から情報を検索するのにも使用される。言語モデルは、第1のデータ記憶装置中の情報に基づいて、かつ第2のデータ記憶装置中の情報に基づいて構築される。第1の言語モデルが与えられ、第2の言語モデルが与えられれば、第2のデータ記憶装置中の文書のパープレキシティが決定される。文書の適合性は、第1および第2のパープレキシティに基づいて決定される。しきい値レベルを超える適合度を有する文書が検索される。
【0022】
一実施形態では、第1のデータ記憶装置はユーザによる質問または要求を表し、第2のデータ記憶装置は探索されるライブラリを表す。
【0023】
(好ましい実施形態の詳細な説明)
(概要)
図1および関連の考察は、本発明を実施できる適したコンピューティング環境の簡潔かつ一般的な記述を提供することを目的としている。必要ではないが本発明は、少なくとも部分的に、パーソナルコンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明する。一般にプログラムモジュールは、ルーチンプログラム、オブジェクト、コンポーネント、データ構造などを含み、これらは特定のタスクを実行する、あるいは特定の抽象データ型を実装する。さらに本発明が、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースのまたはプログラム可能な消費者電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどを含めた他のコンピュータシステム構成でも実施できることを、当業者なら理解するであろう。本発明はまた、通信ネットワークでリンクされた遠隔処理装置によってタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールは、ローカルメモリ記憶装置とリモートメモリ記憶装置の両方に配置することができる。
【0024】
図1を参照すると、本発明を実施するための例示的なシステムは、従来のパーソナルコンピュータの形をとる汎用コンピューティング装置20を含み、この汎用コンピューティング装置20は、プロセッシングユニット21(これは1つまたは複数のプロセッサを含むことができる)と、システムメモリ22と、システムメモリを含む様々なシステムコンポーネントをプロセッシングユニット21に結合するシステムバス23とを含む。システムバス23は、メモリバスまたはメモリコントローラ、周辺バス、様々なバス構造のいずれかを使用するローカルバスを含めた、いくつかのタイプのバス構造のいずれでもよい。システムメモリは、読取専用メモリ(ROM)24およびランダムアクセスメモリ(RAM)25を含む。ROM24には、起動中などにパーソナルコンピュータ20内の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(basic input/output)26が記憶される。パーソナルコンピュータ20はさらに、ハードディスク(図示せず)から読み取り、かつ、それに書き込むためのハードディスクドライブ27と、取外し可能磁気ディスク29から読み取る、またはそれに書き込むための磁気ディスクドライブ28と、CD ROMやその他の光学媒体などの光学ディスク31から読み取る、またはそれに書き込むための光学ディスクドライブ30とを含む。ハードディスクドライブ27、磁気ディスクドライブ28、光学ディスクドライブ30は、それぞれハードディスクドライブインタフェース32、磁気ディスクドライブインタフェース33、光学ドライブインタフェース34によってシステムバス23に接続される。ドライブおよび関連するコンピュータ読取可能媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、およびその他のデータの不揮発性記憶装置をパーソナルコンピュータ20に提供する。
【0025】
本明細書で述べる例示的な環境は、ハードディスク、取外し可能磁気ディスク29、および取外し可能光学ディスク31を採用しているが、磁気カセット、フラッシュメモリカード、ディジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)など、コンピュータからアクセス可能であるデータを記憶できる他のタイプのコンピュータ読取可能媒体もこの例示的な動作環境で使用できることを、当業者は理解されたい。
【0026】
ハードディスク、磁気ディスク29、光学ディスク31、ROM24、またはRAM25には、オペレーティングシステム35、1つまたは複数のアプリケーションプログラム36、その他のプログラムモジュール37、およびプログラムデータ38を含めたいくつかのプログラムモジュールを記憶することができる。ユーザは、キーボード40やポインティングデバイス42などの入力装置を介してパーソナルコンピュータ20にコマンドおよび情報を入力することができる。その他の入力装置(図示せず)には、マイクロホン、ジョイスティック、ゲームパッド、衛星放送用パラボラアンテナ、スキャナなどを含めることができる。これらおよび他の入力装置は、システムバスに結合されたシリアルポートインタフェース46を介してプロセッシングユニット21に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)などの他のインタフェースによって接続されてもよい。モニタ47または他のタイプの表示装置もまた、ビデオアダプタ48などのインタフェースを介してシステムバス23に接続される。モニタ47に加え、パーソナルコンピュータは通常、スピーカやプリンタなどの他の周辺出力装置(図示せず)も含むことができる。
【0027】
パーソナルコンピュータ20は、リモートコンピュータ49などの1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク化環境で動作することもできる。リモートコンピュータ49は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピア装置、または他のネットワークノードとすることができ、図1にはメモリ記憶装置50しか示していないが、通常、パーソナルコンピュータ20に関して上に述べた多くのまたはすべての要素を含む。図1に示す論理接続は、ローカルエリアネットワーク(LAN)51およびワイドエリアネットワーク(WAN)52を含む。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワークイントラネット、およびインターネットで普通に見られる。
【0028】
LANネットワーキング環境で使用されるとき、パーソナルコンピュータ20は、ネットワークインタフェースまたはアダプタ53を介してローカルエリアネットワーク51に接続される。WANネットワーキング環境で使用されるとき、パーソナルコンピュータ20は通常、インターネットなどのワイドエリアネットワーク52を介して通信を確立するためのモデム54または他の手段を含む。モデム54は、内蔵でも外付けでもよく、シリアルポートインタフェース46を介してシステムバス23に接続される。ネットワーク環境では、パーソナルコンピュータ20に関して示したプログラムモジュールまたはそれらの一部は、リモートメモリ記憶装置に記憶することもできる。図示のネットワーク接続が例示的なものであり、コンピュータ間の通信リンクを確立する他の手段も使用できることは理解されるであろう。
【0029】
図2に、本発明の一態様による音声認識/情報検索(SR/IR)システム60のブロック図を示す。SR/IRシステム60は、マイクロホン62、アナログディジタル(A/D)変換器64、ユーザ入力装置66、SR/IRプロセッサモジュール68、言語モデル(LM)記憶モジュール70、トピックデータ記憶装置72、一般データ記憶装置74、およびユーザ出力装置76を含む。
【0030】
システム60全体またはシステム60の一部が、図1に示した環境で実施できることに留意されたい。例えば、マイクロホン62は、適切なインタフェースを介して、かつA/D変換器64を介してパーソナルコンピュータ20への入力装置として提供されるのが好ましい。ユーザ入力装置66は、キーボード40、マウス42、またはいずれか他の適した入力装置として実装されるのが好ましい。言語モデル記憶モジュール70は、図1に示したいずれかの適した記憶装置に記憶される、あるいは図1に関して述べたデータ入力機構のいずれかによってSR/IRモジュール68に提供されるのが好ましい。SR/IRモジュール68は、コンピュータ20中のハードウェアモジュール(CPU21とは別個の、またはCPU21中に実装された、専用の音声認識または情報検索プロセッサなど)であること、あるいは図1に開示した情報記憶装置のいずれかに記憶され、CPU21またはいずれか他の適したプロセッサからアクセス可能なソフトウェアモジュールであることが好ましい。
【0031】
トピックデータ記憶装置72もまた、図1に示したいずれかの適した記憶装置に記憶されること、あるいは図1によって示したシステムからアクセス可能であることが好ましい。また、トピックデータ記憶装置72は、コンピュータ20に対してローカルである必要はなく、コンピュータ20からアクセス可能であるだけでよい。例えば、トピックデータ記憶装置72は、部分的にまたは全体的にメモリ50に記憶することができる。生成されつつある特定の文書、ならびにユーザによって生成された他の文書は、トピックデータ記憶装置72に記憶される。もちろん、トピックデータ記憶装置72に含まれるデータが、主題、文書のタイプ(例えば手紙、メモ、電子メール転送、ファクシミリ、他)など、任意の数の基準またはいずれか他の適した基準に従って構成できることは理解されるであろう。
【0032】
一般データ記憶装置74は、より大きな、トピックデータ記憶装置72よりも大きなデータベースであることが好ましく、図1に示したシステムからアクセス可能である。一般データ記憶装置は、例えば、ワイドエリアネットワーク52を介して、またはローカルエリアネットワーク51を介してアクセス可能などんなデータベースまたはデータベースの集合でもよい。
【0033】
さらに、出力装置76は、好ましい一実施形態では、モニタ47またはプリンタとして、あるいはいずれか他の適した出力装置として実装することができる。
【0034】
いずれの場合でも、当面の記述のために、システム60は、音声認識と情報検索の両方を行うのに適したシステムを例示する。しかし、以下に述べる本発明の様々な機能および態様に合うように、システム60を音声認識のみ、または情報検索のみを行うように構成することもできることに留意されたい。
【0035】
(言語モデルの適合)
ここで、音声認識に関してシステム60を述べる。音声認識では、システム60は、周知の方式で音響情報を利用して訓練される。システム60はこの情報を、後でマイクロホン62を介してシステム60に入力された発話を認識する際に利用する。簡潔に言えば、音声は、ユーザからマイクロホン62を介して提供される可聴音声信号の形でシステム60に入力される。マイクロホン62は可聴音声信号をアナログ電子信号に変換し、これはA/D変換器64に提供される。A/D変換器64はアナログ音声信号を一連のディジタル信号に変換し、これはSR/IRモジュール68に提供される。
【0036】
好ましい一実施形態では、SR/IRモジュール68は、ディジタル信号上で分光分析を行って周波数スペクトルの各周波数帯の振幅値を計算する従来のアレイプロセッサである特徴抽出モジュールを含む。特徴抽出モジュールはディジタル信号を、複数のディジタルサンプルを含むフレームに分割し、これらのディジタルサンプルは、複数の周波数帯の確率値を含む出力確率分布の列に変換される。出力確率分布は周知の方式で処理されて、マイクロホン62によって受信された音声を表す、見込まれる音声ユニット(音素、単語、または単語の連続など)が得られる。
【0037】
好ましい一実施形態では、SR/IRモジュール68は、表されたN個のもっとも見込まれる単語または単語の連続を示すN個の見込まれる単語仮説を識別する。次いでSR/IRモジュール68は、LM記憶モジュール70にアクセスする。LM記憶モジュール70に記憶された言語モデルを使用して、単語w(n)が単語の連続w1、w2、...w(n−1)に続く確率が推定される。次いで、これらの確率を使用して、発話によって表されるもっとも見込まれる単語または単語の連続を得るためにN個の最良仮説からの選択がなされる。このもっとも見込まれる仮説は、ユーザ出力装置76で出力される。
【0038】
LM記憶モジュール70に記憶される言語モデルは、最初にSR/IRモジュール68によって構築することもでき、あるいは図1で考察したようなデータ入力機構を使用して(例えばフロッピーディスクを使用して)LM記憶モジュール70にロードすることもできる。SR/IRモジュール68が言語モジュールを構築する実施形態では、大きな訓練テキストコーパスがSR/IRモジュール68に提供される。SR/IRモジュール68は、その訓練テキストコーパスを使用して、周知の方式で言語モデルを構築し、それをLM記憶モジュール70に記憶する。
【0039】
さらに、複数の言語モデルをLM記憶モジュール70に記憶することができることにも留意されたい。例えば、いくつかのトピック依存言語モデルをLM記憶モジュール70に記憶し、音声認識システムによって生成されつつある特定の文書の主題に関するユーザからの入力に基づいてSR/IRモジュール68によって取り出すことができる。
【0040】
いずれの場合でも、LM記憶モジュール70に記憶される特定の言語モデル(ただし最初に得られた)は、ユーザによって使用される実際の言語を正確にモデリングするより速くより正確なモデルを得るために、システム60のユーザによる実際の言語の使用に基づいて適合されることが望ましい。
【0041】
図3に、本発明の一態様による、LM記憶モジュール70に記憶された言語モデルの適合を達成するための一技術を示す。まず、言語モデルがシステム60によって受け取られる。言語モデルは、主題特有、ユーザ特有、アプリケーション特有のいずれでも、あるいは単に一般言語モデルでもよい。先に考察したように、言語モデルは、システム60によって構築してLM記憶モジュール70に記憶することもでき、単に適切な入力機構を介してLM記憶モジュール70にロードすることもできる。言語モデルを受け取るステップを、図3のブロック78で示す。
【0042】
言語モデルを適合させるために、システム60は、モジュール70に記憶された言語モデルを適合させるのに使用されるテキストコーパスの一部としてトピックデータ記憶装置72に記憶された情報を使用することが好ましい。トピックデータ記憶装置72は、作成されつつある現在の文書、現在のユーザによって作成された他の文書、あるいは現在のユーザによって読まれた、または現在のユーザによって記憶された、または現在のユーザによって現行のタスクに関係すると識別された他の文書を含むことが好ましい。
【0043】
通常、モジュール70に記憶された言語モデルを迅速に適合させるには、あるいはよりユーザ/タスク特有の言語モデルを生成するには、これだけの量のユーザ特有または現行のトピックあるいはタスク特有のデータでは不十分である。したがってシステム60は、トピックデータ記憶装置72に記憶されたユーザ/タスク特有の情報を利用して、一般データ記憶装置74に対する質問を生成する。一般データ記憶装置74は、インターネットを介して(例えばWAN52を介して)アクセス可能な1つまたは複数のデータベース、ライブラリデータベース、またはシステム60から(LAN51などを介して)アクセス可能な別の適した大規模データベースを含むことができることを想起されたい。一般データ記憶装置74に対する質問を、図3のブロック80で示す。
【0044】
一般データ記憶装置74に対する質問の生成および実行に使用される特定の情報検索技術は、本発明のこの機能にクリティカルではない。むしろ、適した質問開発および情報検索の技術はどれでも使用することができる。目下の技術による適合が情報検索技術によりよく作用し、それにより、より適合性のある文書が得られることに、ただ留意されたい。
【0045】
次に、情報検索質問によって識別された文書が検索される。これをブロック82によって示す。好ましい一実施形態では、図3の破線84で示すように、処理は単にブロック86で継続する。この好ましい実施形態では、モジュール70に記憶されたトピック言語モデルは、トピックデータ記憶装置72に記憶された情報に基づいて、かつ、一般データ記憶装置74に対して実行された質問の結果として一般データ記憶装置74から検索された情報に基づいて、調節または適合される。したがって、言語モデルによって生成された確率推定は、トピックデータ記憶装置72中の情報と一般データ記憶装置74から検索された情報の両方を含むテキストコーパスに基づいて調節される。これは、トピックデータ記憶装置72に記憶された情報を使用するだけの場合よりもずっと大きな、モジュール70に記憶された言語モデルを適合させるためのテキストコーパスを提供する。適合テキストコーパスがずっと大きいため、言語モデルによって生成される確率はよりよく推定され、得られる言語モデルは、ユーザによる実際の使用をモデリングするためのよりよい(すなわちより速くより正確な)機構をもたらす。この適合をブロック86によって示す。
【0046】
言語モデルが適合される方式は、いくつかの形のどれを取ってもよい。好ましい一実施形態では、一般データ記憶装置74に対する質問によって検索された文書のサブセットだけが、モジュール70に記憶された言語モデルを適合させるのに使用される。また、一般データ記憶装置74に対する質問に基づいて検索された文書は、すでにトピックデータ記憶装置72に含まれている文書に対して相対的に重み付けすることもできる。検索された文書は、すでにデータ記憶装置72に記憶されている文書よりも低く重み付けされることが好ましい。したがって、検索された文書に基づく、モジュール70に記憶された言語モデルへの影響は、すでに記憶されている(かつ、おそらくユーザに適合性があると分かっている)文書に基づくそれよりも小さい。
【0047】
さらに、言語モデルは別の方式で適合させることもできる。質問の結果を使用して、すでにモジュール70に記憶された言語モデルに結合される言語モデルを構築することができる。この結合は、補間や削除補間など、いずれかの周知の平滑化技術、またはいずれか他の適した技術を使用して行うことができる。モジュール70に記憶されたトピック言語モデルを適合させるために削除補間を使用する実施形態では、一般データ記憶装置74から検索された文書およびすでにトピックデータ記憶装置72に記憶されている文書は、次のように重み付けされる。
【0048】
λPr+(1−λ)Pt
【0049】
上式で、Prは検索された文書に基づく言語モデルによって生成された確率値であり、
Ptは、すでにトピックデータ記憶装置72にある文書に基づく言語モデルによって生成された確率値であり、
λは、実験に基づいて決定されることが好ましい値を有する削除補間パラメータである。情報検索技術が非常に正確であると考えられる場合、λは、より高い値(0.8または0.9など)を有することになる。しかし、情報検索技術が正確であると考えられない場合、λは、より低い値(0.4または0.5など)を有する可能性がある。しかし、0.1〜0.9などの、どんな値のλも適する。
【0050】
他の実施形態では、λの値は、質問の数が増加するにつれてインクリメンタルに増加される。言い換えれば、実行された質問の数が増加するにつれて、言語モデルを適合させるのに使用されるテキストコーパスはより大きくなるか、またはより正確になる見込みがある。というのは、トピックデータ記憶装置72に記憶される情報の量がより多くなる見込みがあるからである。したがって、情報検索技術を使用して検索される文書は、最初に検索されたものよりも適合性がある見込みがある。したがって、λの値は、質問の数が増加するにつれてインクリメンタルに増加し得る。
【0051】
さらに、検索されたデータからいくつかの言語モデルを構築できることにも留意されたい。例えば、ある言語モデルを、最も適合性のある100個の文書を使用して構築し、第2の言語モデルを、最も適合性のある200個の文書を使用して構築することなどができる。次いで、検索された文書を使用して構築した複数の言語モデルを、トピックデータ記憶装置72からの適合性のある既知のデータから生成されて、かつ一般言語モデルからも生成された言語モデルと結合することができる。削除補間を使用した言語モデルの結合は、次のように表すことができる。
【0052】
ΣλiPi
【0053】
上式で、Piはi番目の言語モデルであり、0≦λi≦1はi番目の言語モデルに対する補間重みであり、Σλi=1である。
【0054】
言語モデルが適合されると、次いで、適合されたまたは調節された言語モデルは、音声認識で使用される。これをブロック88で示す。
【0055】
本発明の好ましい一態様によれば、システム60は、トピック特有の質問を自動的かつ断続的に再生成して、それを一般データ記憶装置74に記憶された情報に向けるように構成される。例えば、好ましい一実施形態では、モジュール70に記憶された言語モデルは、実行中に(例えばユーザがシステム60を使用しているときに)適合される。したがって、システム60は、システム60が起動されるとすぐに、かつ、次いで新しい文書が作成される度に、最初に質問を実行して言語モデルを適合させるように構成することができる。しかし、システム60は、文書が生成されている間にも、新しい質問を作成して言語モデルを断続的に適合させることがより好ましい。したがって、システム60は、所定の単語数ごとに、所定の時間間隔ごとに、またはいずれか他の適した基準に基づいて、質問を繰り返すように構成することができる。
【0056】
どんな基準であれ、それは、質問しきい値を設定するのに使用される。したがって、システム60は、質問しきい値が達せられたかどうかを判定する。達せられた場合、システム60は、ブロック80で示すように、別の質問を生成してそれを一般データ記憶装置に対して実行する。質問しきい値が達せられていない場合、システム60は、単に通常通りに音声認識を継続するだけである。これを図3のブロック90および92で示す。
【0057】
本発明の他の好ましい機能によれば、モジュール70に記憶された言語モデルを適合させるのに他の情報を使用することもできる。これらの機能を図3のブロック94、96、98で表す。例えば、好ましい一実施形態では、一般データ記憶装置74中の情報に対して質問を実行した後で、質問から返された各文書の適合度が決定される。次いで、文書は適合度に従ってランクされる。これはブロック94で示す。次いで、返された文書のサブセット(適合性しきい値より高い適合度を有するもの)が、言語モデルの適合に使用される。さらに、返された文書は、ブロック96で示すように、適合度に従って重み付けすることもできる。次いで文書は、モジュール70に記憶された言語モデルを適合させるために、重み付けされたように使用することができる。
【0058】
本発明の他の好ましい実施形態では、言語モデルを調節するのに他の情報を使用することもできる。例えば、システム60は、特定のアプリケーションを識別するように構成し、次いで、文書を作成するためにユーザが使用することができる。例えば、ユーザがワードプロセッサアプリケーションにある場合、そのユーザは、そのユーザが電子メールアプリケーションにある場合よりも正式な文書を生成している可能性がある。システム60は、アプリケーションを認識し、一般データ記憶装置72に含まれる情報に対する質問を生成する際にその情報を使用して、より正式な文書(すなわちより正式な単語の使用および単語の連続)を探すか、あるいは単に、質問によって検索されたより正式な文書を、検索されたより正式でない文書より高く重み付けするように構成することができる。さらに、ユーザがメモテンプレートを立ち上げ、したがって内部メモを生成している場合、システム60は、一般データ記憶装置74に記憶された情報に対する質問を生成する際にトピックデータ記憶装置72から類似のメモだけしか検索しないように構成することができる。
【0059】
他の多くのパラメータも、本発明によって使用することができる。例えば、ユーザは勤務時間中に、会社の手紙やメモなどのより正式な文書を口述するが、その後、昼間または夜に、私的な手紙などのより正式でない文書を生成する傾向がある。したがって、システム60は、ユーザによって文書が作成される時刻に基づいて、同じ時刻に作成された文書をトピックデータ記憶装置72から検索することによって質問を生成するように構成することができる。システム60はまた、単に、質問に基づいて取り出された同様の文書を他の文書よりも重く重み付けするように構成することもできる。
【0060】
また、モジュール70に記憶された言語モデルの適合は、ユーザがシステム60の音声認識機能を利用しているかどうかに関わらず断続的に行うことができることにも留意されたい。システム60に電源が投入されている限り、これは、一般データ記憶装置74に記憶された情報に対する質問を繰り返し、モジュール70に記憶された言語モデルをいずれかの所与の基準によって適合させるように構成することができる。
【0061】
したがって、本発明の言語モデル適合機能を使用して、モジュール70に記憶される言語モデルを生成し向上させるのに利用可能なユーザ特有のデータの量を速く効率的に拡大することができることが分かる。利用可能なユーザ特有のデータはまず、ユーザ特有の文書に類似するテキストまたは文書を識別するために、大規模な情報記憶装置に対する質問として使用される。その場合、モジュール70に記憶されるユーザ特有の言語モデルを生成する、または適合させるのに使用されるテキストコーパスは、普通ならそうなるよりもずっと大きな集合となり、言語モデルによって提供される確率は、よりよく推定される。この場合にやはり、言語モデルが構築および適合される特定の方式、および情報検索を行う特定の技術が本発明のこの態様にクリティカルなものではなく、適したどんな技術も使用できることに留意されたい。
【0062】
(情報検索を向上させるための言語モデルの使用)
図4は、システム60が情報検索を向上させることのできる技術を示す流れ図である。前述のように、統計的n−gram言語モデルは、その単語までの単語の連続が与えられれば(すなわち単語履歴Hが与えられれば)、単語の確率推定を生成する。n−gram言語モデルは、履歴H中の先行する(n−1)個の単語しか、次の単語の確率に影響するものと見なさない。例えば、bi−gram(2−gram)言語モデルは、前の単語を次の単語に影響するものと見なす。したがって、n−gram言語モデルでは、単語発生の確率は次のように表される。
【0063】
式1:
P(w/H)=P(w/w1,w2,...w(n−1))
【0064】
wは対象の単語であり、
w1は、連続の中で単語wに先行する最初の単語であり、
w2は、単語wに先行する2番目の単語であり、
w(n−1)は、単語wに先行する、n−1の位置にある単語である。
【0065】
また、単語の連続の確率は、その履歴が与えられれば、各単語の確率の乗算に基づいて決定される。したがって、単語の連続w1...wmの確率は、次のように表される。
【0066】
式2:
【0067】
【数1】
【0068】
言語モデルを考察する際、単語の連続のパープレキシティの概念もまた知られる。パープレキシティは、言語モデルの平均的な分岐ファクタの統計的測定値である。言い換えれば、パープレキシティは、対象の単語または単語の連続が与えらた場合に言語モデルによって予測されることになる可能な単語の平均数の統計的測定値である。したがって、その履歴が与えられた場合、単語の連続w1...wmのパープレキシティは、次のように表される。
【0069】
式3
【0070】
【数2】
【0071】
さらに、所与の言語モデルLMに関する単語の連続の
【数3】
【0072】
パープレキシティは、次のように表されることになる。
【0073】
式4
【0074】
【数4】
【0075】
したがって、言語モデルが与えられた場合、単語の連続のパープレキシティは、その単語の連続およびその履歴が与えられた場合にその言語モデルによって予測されることになる単語の平均数にほぼ等しい。この値は、使用されている特定の言語モデルの予測能力によって変化する。言語モデルが構築される特定の方式、および使用される特定の言語モデルは、本発明にクリティカルなものではない。
【0076】
本発明の一態様は、システム60によって実行される情報検索の正確さを向上させるために、パープレキシティの概念を言語モデルに関する限り利用する。これを行うために、システム60はまず、図4のブロック100で示すように、一般言語モデルを受け取るかまたは生成する。したがってシステム60は、言語モデルジェネレータで構成することができる。そうした例では、大きな訓練データのテキストコーパスが言語モデルジェネレータに提供されて、言語モデルジェネレータが、周知の適した方式により、この大きなテキストコーパスに基づいて一般言語モデルを生成することが好ましい。訓練データは、一般データ記憶装置74に記憶された情報(または情報のサブセット)であることが好ましい。次いで、その言語モデルはモジュール70に記憶される。しかし、別法として、従来の市販の一般言語モデルをシステム60に提供し、これを単にモジュール70にロードすることもできる。別の代替例では、システム60は、一般データ記憶装置74中のデータとは異なるテキストデータの別の大きなセットから一般言語モデルを生成する。好ましい実施形態では、システム60は、trigram言語モデルを生成する、あるいは提供される。
【0077】
次に、システム60は、ユーザが関心を持つ特定のトピックに適合性のあるトピック言語モデルを受け取るかまたは生成する。この場合にやはり、システム60は、市販のトピック言語モデルを備えるか、あるいはトピック言語モデルそのものを生成して訓練することができる。
【0078】
トピック言語モデルを生成するために、ユーザは、対象となる具体的なトピックに適合性のある訓練データをシステム60に提供することが好ましい。例えば、ユーザはいくつかの記事を有し、一般データ記憶装置74に記憶されている情報から他の類似する記事を検索したいと思う場合がある。あるいは、ユーザは単に探索質問またはシステムへの要求を供給する可能性がある。トピック言語モデルは適合性のある記事を使用してシステム60によって生成されるか、あるいは、適合性のあるこれらの記事のテキストの一部を使用して、一般データ記憶装置74に記憶された情報に対する質問を表し、その質問に基づいて検索された情報を使用して、ユーザから供給された情報と組み合わせてトピック言語モデルが生成される。別の好ましい実施形態では、トピック言語モデルを生成するのに使用される訓練データが乏しいとき、その乏しいデータを使用してトピック言語モデルが生成され、次いで、一般言語モデルと結合されて新しいトピックモデルが得られる。結合の技術は本発明にクリティカルなものではなく、補間や削除補間などの平滑化技術、またはいずれか他の適した技術を使用して達成することができる。トピック言語モデルの受領または生成のプロセスを、図4のブロック102で示す。
【0079】
一般言語モデルおよびトピック言語モデルがシステム60によって生成または受領された後、システム60は、情報検索プロセス中で考察されることになる一般データ記憶装置74中の各文書(または文書の一部)に類似度を割り当てることに取りかかる。これを行うために、システム60はまず、一般データ記憶装置74から文書を選択する。これをブロック104で示す。
【0080】
次に、システム60は、ブロック106で示すように、一般言語モデルについてその文書のパープレキシティを決定する。これは、次のように表される。
【0081】
式5
Perp(doci/GLM)
【0082】
上式で、GLMは一般言語モデルを表し、
dociは選択された文書を表す。
【0083】
次いでシステム60は、ブロック108で示すように、トピック言語モデルについてその文書のパープレキシティを決定する。これは、次のように表される。
【0084】
式6
Perp(doci/TLM)
TLMはトピック言語モデルを表す。
【0085】
次いでシステム60は、ブロック106および108で決定されたパープレキシティに基づいて、選択された文書の適合度を決定する。適合度は、次のように、2つのパープレキシティの比率のタームで表されることが好ましい。
73
式7
【0086】
【数5】
【0087】
特定の言語モデルが与えられれば、(単語の連続としての)文書のパープレキシティが、その文書が与えられた場合にその言語モデルによって予測できる単語のほぼ平均数を表すことを想起されたい。したがって、パープレキシティ数が相対的に高い場合、その言語モデルを開発するのに使用された訓練データは、その文書に使用されるタームについてその言語モデルをまだあまり訓練していない。したがって、考察中の文書は、言語モデルを開発するのに使用された訓練データに類似しない傾向がある。しかし、その文書のパープレキシティが低い場合、その言語モデルを開発するのに使用された訓練データは、その文書中に現れるタームについてその言語モデルをよく訓練していると見込まれ、その文書は、その言語モデルを訓練するのに使用された訓練データに類似すると見込まれる。
【0088】
したがって、好ましい一実施形態では、類似度は、トピック言語モデルだけを使用して返すことができる。しかし、より好ましい一実施形態では、トピック言語モデルも一般言語モデルも両方とも使用される。これは、文書中のいくつかの言語構造が、考察中の文書が適合性を有するかどうかに関わらず、多かれ少なかれ現れる見込みがある場合があるからである。トピック言語モデルのパープレキシティを適用することによって得られた生の適合性スコアが非常に高くても、情報検索システムは、これらの類似する文書を差別しないことが望まれる。そのような場合、かつ、対象の文書中で使用される言語構造が全くありそうでない場合、一般言語モデルについて返されるパープレキシティ値もまた高くなることになる。一般言語モデルとトピック言語モデルとに決定されたパープレキシティの比率を使用することにより、システムは本質的に、基準(一般言語モデル)に対して決定された数を、したがって単にトピック言語モデルに関する文書のパープレキシティを提供することによって返されることになる生の数よりも意義のある数を返す。したがって、2つのパープレキシティの比率として適合度を提供することにより、より正確な適合度がもたらされると考えられる。
【0089】
同様に、対象のトピックに関わらず、対象の文書中で使用される言語構造が非常にありふれたものである場合は、文書が特に適合性を有しない可能性があっても、トピック言語モデルによって返されるパープレキシティ値は相対的に低くなる。しかし、一般言語モデルによって返されるパープレキシティ値もまた、非常に低くなることが見込まれる。したがって、2つのパープレキシティの比率として適合度を提供することにより、情報検索技術はより適合性のある文書を検索すると考えられる。
【0090】
選択された文書の適合性をパープレキシティに基づいて決定するステップを、ブロック110で示す。2つのパープレキシティの割合としての適合性ファクタの表現は、次のように拡張することができる。
【0091】
式8
【0092】
【数6】
【0093】
上式で、PT=その履歴が与えられた場合の、トピック言語モデルに関する単語の連続の確率であり、
PG=その履歴が与えられた場合の、一般言語モデルに関する単語の連続の確率である。
【0094】
適合度が決定されれば、システム60は、適合度が適合性しきい値を満たすかどうかを判定する。適合性しきい値は、事前に決定しても、ユーザが入力しても、システム60によって検索される文書の数に基づいて調節してもよく、あるいは他の基準に基づいてもよい。システム60はただ、ユーザに提供されるのに十分な高い適合度を文書が有するかどうかを判定するだけである。これをブロック112で示す。
【0095】
文書が適合性しきい値を満たさない場合、それはユーザに提供されず、処理はブロック116に関して継続する。しかし、文書が適合性しきい値を満たす場合、それは検索され、トピックデータ記憶装置72に記憶されるか、あるいは出力装置76でユーザに提供される。これをブロック114で示す。
【0096】
次いでシステム60は、一般データ記憶装置74中の追加の文書を検査すべきかどうかを判定する。そうすべきである場合、処理はブロック104に戻り、そこで別の文書が選択されて、その文書の適合性が決定される。もう検査すべき文書がない場合、処理はオプションのブロック118に関して継続する。これをブロック116で示す。
【0097】
すべての文書(または文書のサブセット)が検査されれば、システム60は、単にユーザに文書を提供するか、文書を記憶するか、文書を適合性に従ってランクすることができる。文書が適合性に従ってランクされる実施形態では、システム60は単に、各文書に対して決定された適合度に従って文書をランクする。次いでシステム60は、適合性に従ってランクされた文書をユーザに提供するか、または単にランキングに基づいて検索された文書のサブセットを提供することができる。これをブロック118で示す。
【0098】
この技術を使用すると、一般言語モデルは、一般データ記憶装置74に記憶された情報またはその情報を表すいくつかのサンプルに基づいて一度生成される必要があるだけであることが分かる。別法として、一般言語モデルは、一般データ記憶装置74中の情報が変わるときに断続的に更新することもできる。トピック言語モデルは、ユーザから提供された質問ごとに1度生成することが好ましい。
【0099】
(結論)
本発明の一態様は、情報検索を使用して、音声認識の間に使用される言語モデルを向上および適合させる技術を提供する。このシステムは、ユーザによってすでに生成されたテキストの既知の履歴を使用して言語モデルを直接に開発し、適合させるが、また、類似の文書を見つけて言語モデルの生成および適合に使用される訓練データを拡大するために、一般データ記憶装置に対してトピック特有の質問を向ける。これにより、過去に使用された、広範かつあらかじめ考えられたトピック依存言語モデルよりもずっと正確な言語モデルが実現する。大規模なデータ記憶装置に対する質問はまた、定期的または断続的に繰り返されて、動的に適合された、正確さの向上した言語モデルが得られることが好ましい。
【0100】
本発明の別の態様は、言語モデルを使用して情報検索技術を向上させる。このシステムは、(前述の技術か別の周知の技術を使用して)一般言語モデルおよびトピック言語モデルを得ることが好ましい。次いでこのシステムは、得られた言語モデルによって返されたパープレキシティ値に基づいて、探索された文書の適合度を計算する。言語モデルが文脈依存モデルであるため、これにより、システムは、単語自体だけでなく単語が現れる文脈も考慮して文書の適合性を決定することが可能になる。これにより、情報検索技術の再現度と精度の両方が向上し、検索されている文書中に適合性のある情報が現れる見込み(または確率)がよりよく推定され、したがって、情報検索システムのよりよい性能がもたらされる。
【0101】
本発明を好ましい実施形態を参照しながら述べたが、本発明の趣旨および範囲を逸脱することなく形式および細部に変更を加えることができることを、当業者なら理解するであろう。
【図面の簡単な説明】
【図1】 本発明によるシステムを実施するための例示的な環境のブロック図である。
【図2】 本発明によるシステムのより詳細なブロック図である。
【図3】 本発明の好ましい一実施形態による文書検索技術を示す流れ図である。
【図4】 本発明の別の好ましい実施形態による、言語モデルを適合させるための技術を示す流れ図である。
Claims (10)
- ユーザの情報を記憶した第1のデータ記憶装置と、前記第1のデータ記憶装置に対して相対的に大きなテキストコーパスである第2のデータ記憶装置とにアクセスできる音声認識システム中で使用される言語モデルをユーザに適合させる方法であって、
前記第1のデータ記憶装置に含まれた情報に基づいて情報検索質問を案出すること、
前記案出した質問に基づいて前記第2のデータ記憶装置に質問すること、
前記質問に基づいて前記第2のデータ記憶装置から情報を検索すること、および、
前記検索した情報および前記第1のデータ記憶装置中の前記情報に基づいて前記言語モデルを前記ユーザに適合させること
を備え、
前記言語モデルを適合させることは、
前記ユーザの情報および前記第2のデータ記憶装置から検索された情報を重み付けし、前記第2のデータ記憶装置から検索された情報に対する重みを、前記第2のデータ記憶装置が質問される回数が増加するにつれて増加させること、および、
前記重みに従って前記言語モデルを適合させること
を含むことを特徴とする方法。 - ユーザが前記音声認識システムを使用している間に、前記案出、質問、検索、適合のステップを繰り返すことをさらに備えることを特徴とする、請求項1に記載の方法。
- ユーザが前記音声認識システムを使用している間に、前記案出、質問、検索、適合のステップが断続的に行われることを特徴とする請求項2に記載の方法。
- 前記ユーザの情報は、ユーザによって事前に作成された文書を含むことを特徴とする請求項1に記載の方法。
- 前記ユーザの情報は、ユーザによって作成されている文書を含むことを特徴とする請求項1に記載の方法。
- 前記ユーザの情報は、ユーザによって作成されている文書のタイプに関係する情報を含むことを特徴とする請求項1に記載の方法。
- 前記ユーザの情報は、ユーザによって文書を作成するのに使用されているテンプレートを含むことを特徴とする請求項1に記載の方法。
- 前記ユーザの情報は、ユーザによって文書を作成するのに使用されているアプリケーションプログラムを含むことを特徴とする請求項1に記載の方法。
- 前記ユーザの情報は、ユーザが文書を作成している時刻を含むことを特徴とする請求項1に記載の方法。
- 前記第2のデータ記憶装置に質問することが、
グローバルコンピュータネットワークを介して情報を質問することを備えることを特徴とする請求項1に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/050,286 | 1998-03-30 | ||
US09/050,286 US6418431B1 (en) | 1998-03-30 | 1998-03-30 | Information retrieval and speech recognition based on language models |
PCT/US1999/002806 WO1999050830A1 (en) | 1998-03-30 | 1999-02-09 | Information retrieval and speech recognition based on language models |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009133928A Division JP4664423B2 (ja) | 1998-03-30 | 2009-06-03 | 適合性のある情報を検索する方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002510076A JP2002510076A (ja) | 2002-04-02 |
JP4494632B2 true JP4494632B2 (ja) | 2010-06-30 |
Family
ID=21964405
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000541667A Expired - Fee Related JP4494632B2 (ja) | 1998-03-30 | 1999-02-09 | 言語モデルに基づく情報検索および音声認識 |
JP2009133928A Expired - Fee Related JP4664423B2 (ja) | 1998-03-30 | 2009-06-03 | 適合性のある情報を検索する方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009133928A Expired - Fee Related JP4664423B2 (ja) | 1998-03-30 | 2009-06-03 | 適合性のある情報を検索する方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6418431B1 (ja) |
EP (1) | EP1066625B1 (ja) |
JP (2) | JP4494632B2 (ja) |
KR (1) | KR100609253B1 (ja) |
CN (2) | CN1171199C (ja) |
CA (1) | CA2321112C (ja) |
DE (1) | DE69932044T2 (ja) |
WO (1) | WO1999050830A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220027673A1 (en) * | 2018-09-19 | 2022-01-27 | Nippon Telegraph And Telephone Corporation | Selecting device and selecting method |
Families Citing this family (174)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3628528B2 (ja) * | 1998-10-26 | 2005-03-16 | 富士通株式会社 | 検索支援装置及び方法並びにその装置での処理をコンピュータにて行なわせるためのプログラムを格納した記録媒体 |
US6990628B1 (en) * | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
CA2387079C (en) | 1999-10-19 | 2011-10-18 | Sony Electronics Inc. | Natural language interface control system |
US7275029B1 (en) * | 1999-11-05 | 2007-09-25 | Microsoft Corporation | System and method for joint optimization of language model performance and size |
US6904402B1 (en) * | 1999-11-05 | 2005-06-07 | Microsoft Corporation | System and iterative method for lexicon, segmentation and language model joint optimization |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
EP1157373A1 (en) * | 1999-11-25 | 2001-11-28 | Koninklijke Philips Electronics N.V. | Referencing web pages by categories for voice navigation |
US7113910B1 (en) * | 2000-02-18 | 2006-09-26 | At&T Corp. | Document expansion in speech retrieval |
US6957172B2 (en) | 2000-03-09 | 2005-10-18 | Smartsignal Corporation | Complex signal decomposition and modeling |
EP1279104B1 (en) * | 2000-03-09 | 2008-12-24 | Smartsignal Corporation | Generalized lensing angular similarity operator |
DE10014337A1 (de) * | 2000-03-24 | 2001-09-27 | Philips Corp Intellectual Pty | Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem |
US7031908B1 (en) | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
US7411108B2 (en) * | 2000-06-30 | 2008-08-12 | Chevron Phillips Chemical Company Lp | Process for the removal of conjugated olefins from a monoolefin stream |
US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
US6618722B1 (en) * | 2000-07-24 | 2003-09-09 | International Business Machines Corporation | Session-history-based recency-biased natural language document search |
US6735587B2 (en) * | 2000-07-28 | 2004-05-11 | International Business Machines Corporation | Maintaining pre-computed aggregate views incrementally in the presence of non-minimal changes |
US6606597B1 (en) | 2000-09-08 | 2003-08-12 | Microsoft Corporation | Augmented-word language model |
US20020087315A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented multi-scanning language method and system |
US20020087309A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented speech expectation-based probability method and system |
US20020087311A1 (en) * | 2000-12-29 | 2002-07-04 | Leung Lee Victor Wai | Computer-implemented dynamic language model generation method and system |
DE10100725C1 (de) * | 2001-01-10 | 2002-01-24 | Philips Corp Intellectual Pty | Automatisches Dialogsystem mit Datenbanksprachmodell |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US6856957B1 (en) * | 2001-02-07 | 2005-02-15 | Nuance Communications | Query expansion and weighting based on results of automatic speech recognition |
US7072838B1 (en) * | 2001-03-20 | 2006-07-04 | Nuance Communications, Inc. | Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data |
US20030004996A1 (en) * | 2001-06-29 | 2003-01-02 | International Business Machines Corporation | Method and system for spatial information retrieval for hyperlinked documents |
US7146358B1 (en) | 2001-08-28 | 2006-12-05 | Google Inc. | Systems and methods for using anchor text as parallel corpora for cross-language information retrieval |
US6888548B1 (en) * | 2001-08-31 | 2005-05-03 | Attenex Corporation | System and method for generating a visualized data representation preserving independent variable geometric relationships |
US6778995B1 (en) * | 2001-08-31 | 2004-08-17 | Attenex Corporation | System and method for efficiently generating cluster groupings in a multi-dimensional concept space |
US6978274B1 (en) * | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
US20030110023A1 (en) * | 2001-12-07 | 2003-06-12 | Srinivas Bangalore | Systems and methods for translating languages |
JP2003177786A (ja) * | 2001-12-11 | 2003-06-27 | Matsushita Electric Ind Co Ltd | 言語モデル作成装置及びそれを利用した音声認識装置 |
DE10204924A1 (de) * | 2002-02-07 | 2003-08-21 | Philips Intellectual Property | Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen |
US20030158725A1 (en) * | 2002-02-15 | 2003-08-21 | Sun Microsystems, Inc. | Method and apparatus for identifying words with common stems |
US7769592B2 (en) * | 2002-02-22 | 2010-08-03 | Nuance Communications, Inc. | Automatic selection of a disambiguation data field for a speech interface |
US7271804B2 (en) * | 2002-02-25 | 2007-09-18 | Attenex Corporation | System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area |
US7584102B2 (en) * | 2002-11-15 | 2009-09-01 | Scansoft, Inc. | Language model for use in speech recognition |
US6947933B2 (en) * | 2003-01-23 | 2005-09-20 | Verdasys, Inc. | Identifying similarities within large collections of unstructured data |
US7720680B2 (en) * | 2004-06-17 | 2010-05-18 | Robert Bosch Gmbh | Interactive manual, system and method for vehicles and other complex equipment |
US7610313B2 (en) | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
US7293019B2 (en) * | 2004-03-02 | 2007-11-06 | Microsoft Corporation | Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics |
US7392186B2 (en) * | 2004-03-30 | 2008-06-24 | Sony Corporation | System and method for effectively implementing an optimized language model for speech recognition |
JP3923513B2 (ja) * | 2004-06-08 | 2007-06-06 | 松下電器産業株式会社 | 音声認識装置および音声認識方法 |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
KR100651940B1 (ko) * | 2004-08-31 | 2006-12-06 | 엘지전자 주식회사 | 음성 인식 장치 및 방법 |
KR100695127B1 (ko) | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
CN100421153C (zh) * | 2004-10-22 | 2008-09-24 | 顾稚敏 | 一种预存式语言识别系统及其方法 |
US7356777B2 (en) | 2005-01-26 | 2008-04-08 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US7404151B2 (en) * | 2005-01-26 | 2008-07-22 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US7606708B2 (en) * | 2005-02-01 | 2009-10-20 | Samsung Electronics Co., Ltd. | Apparatus, method, and medium for generating grammar network for use in speech recognition and dialogue speech recognition |
WO2006099621A2 (en) * | 2005-03-17 | 2006-09-21 | University Of Southern California | Topic specific language models built from large numbers of documents |
US7630976B2 (en) * | 2005-05-10 | 2009-12-08 | Microsoft Corporation | Method and system for adapting search results to personal information needs |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070118873A1 (en) * | 2005-11-09 | 2007-05-24 | Bbnt Solutions Llc | Methods and apparatus for merging media content |
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
US9697231B2 (en) * | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for providing virtual media channels based on media search |
US7801910B2 (en) * | 2005-11-09 | 2010-09-21 | Ramp Holdings, Inc. | Method and apparatus for timed tagging of media content |
US9697230B2 (en) | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications |
US20070106646A1 (en) * | 2005-11-09 | 2007-05-10 | Bbnt Solutions Llc | User-directed navigation of multimedia search results |
ES2330758T3 (es) * | 2005-11-25 | 2009-12-15 | Swisscom Ag | Procedimiento para personalizar un servicio. |
US7835911B2 (en) * | 2005-12-30 | 2010-11-16 | Nuance Communications, Inc. | Method and system for automatically building natural language understanding models |
US7756708B2 (en) | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US9299345B1 (en) * | 2006-06-20 | 2016-03-29 | At&T Intellectual Property Ii, L.P. | Bootstrapping language models for spoken dialog systems using the world wide web |
US8069032B2 (en) * | 2006-07-27 | 2011-11-29 | Microsoft Corporation | Lightweight windowing method for screening harvested data for novelty |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8275577B2 (en) * | 2006-09-19 | 2012-09-25 | Smartsignal Corporation | Kernel-based method for detecting boiler tube leaks |
US7272558B1 (en) | 2006-12-01 | 2007-09-18 | Coveo Solutions Inc. | Speech recognition training method for audio and video file indexing on a search engine |
US8311774B2 (en) | 2006-12-15 | 2012-11-13 | Smartsignal Corporation | Robust distance measures for on-line monitoring |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
US20080319733A1 (en) * | 2007-06-20 | 2008-12-25 | At&T Corp. | System and method to dynamically manipulate and disambiguate confusable speech input using a table |
JP5327054B2 (ja) * | 2007-12-18 | 2013-10-30 | 日本電気株式会社 | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
WO2009102885A1 (en) * | 2008-02-12 | 2009-08-20 | Phone Through, Inc. | Systems and methods for enabling interactivity among a plurality of devices |
US8312022B2 (en) | 2008-03-21 | 2012-11-13 | Ramp Holdings, Inc. | Search engine optimization |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8166049B2 (en) * | 2008-05-29 | 2012-04-24 | Accenture Global Services Limited | Techniques for computing similarity measurements between segments representative of documents |
US8219397B2 (en) * | 2008-06-10 | 2012-07-10 | Nuance Communications, Inc. | Data processing system for autonomously building speech identification and tagging data |
KR101537078B1 (ko) * | 2008-11-05 | 2015-07-15 | 구글 인코포레이티드 | 사용자 정의 언어 모델들 |
US8255412B2 (en) * | 2008-12-17 | 2012-08-28 | Microsoft Corporation | Boosting algorithm for ranking model adaptation |
US9442933B2 (en) * | 2008-12-24 | 2016-09-13 | Comcast Interactive Media, Llc | Identification of segments within audio, video, and multimedia items |
US8713016B2 (en) * | 2008-12-24 | 2014-04-29 | Comcast Interactive Media, Llc | Method and apparatus for organizing segments of media assets and determining relevance of segments to a query |
US11531668B2 (en) * | 2008-12-29 | 2022-12-20 | Comcast Interactive Media, Llc | Merging of multiple data sets |
US8176043B2 (en) | 2009-03-12 | 2012-05-08 | Comcast Interactive Media, Llc | Ranking search results |
US20100250614A1 (en) * | 2009-03-31 | 2010-09-30 | Comcast Cable Holdings, Llc | Storing and searching encoded data |
WO2010119233A1 (en) * | 2009-04-16 | 2010-10-21 | Kabushiki Kaisha Toshiba | A data retrieval and indexing method and apparatus |
US8533223B2 (en) * | 2009-05-12 | 2013-09-10 | Comcast Interactive Media, LLC. | Disambiguation and tagging of entities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9892730B2 (en) * | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
US8635223B2 (en) | 2009-07-28 | 2014-01-21 | Fti Consulting, Inc. | System and method for providing a classification suggestion for electronically stored information |
CA2772082C (en) * | 2009-08-24 | 2019-01-15 | William C. Knight | Generating a reference set for use during document review |
US8589163B2 (en) * | 2009-12-04 | 2013-11-19 | At&T Intellectual Property I, L.P. | Adapting language models with a bit mask for a subset of related words |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP2339576B1 (en) | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US8577670B2 (en) * | 2010-01-08 | 2013-11-05 | Microsoft Corporation | Adaptive construction of a statistical language model |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
US8527534B2 (en) * | 2010-03-18 | 2013-09-03 | Microsoft Corporation | Bootstrap and adapt a document search engine |
JP5790646B2 (ja) * | 2010-05-20 | 2015-10-07 | 日本電気株式会社 | パープレキシティ算出装置 |
KR101196935B1 (ko) * | 2010-07-05 | 2012-11-05 | 엔에이치엔(주) | 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템 |
US8527270B2 (en) * | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
US9576570B2 (en) | 2010-07-30 | 2017-02-21 | Sri International | Method and apparatus for adding new vocabulary to interactive translation and dialogue systems |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
US9805022B2 (en) * | 2010-12-09 | 2017-10-31 | Apple Inc. | Generation of topic-based language models for an app search engine |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) * | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9081760B2 (en) | 2011-03-08 | 2015-07-14 | At&T Intellectual Property I, L.P. | System and method for building diverse language models |
US8983995B2 (en) * | 2011-04-15 | 2015-03-17 | Microsoft Corporation | Interactive semantic query suggestion for content search |
US8533195B2 (en) * | 2011-06-27 | 2013-09-10 | Microsoft Corporation | Regularized latent semantic indexing for topic modeling |
US9176941B2 (en) * | 2011-07-14 | 2015-11-03 | Tencent Technology (Shenzhen) Company Limited | Text inputting method, apparatus and system based on a cache-based language model and a universal language model |
US8620853B2 (en) | 2011-07-19 | 2013-12-31 | Smartsignal Corporation | Monitoring method using kernel regression modeling with pattern sequences |
US9256224B2 (en) | 2011-07-19 | 2016-02-09 | GE Intelligent Platforms, Inc | Method of sequential kernel regression modeling for forecasting and prognostics |
US8660980B2 (en) | 2011-07-19 | 2014-02-25 | Smartsignal Corporation | Monitoring system using kernel regression modeling with pattern sequences |
US9250625B2 (en) | 2011-07-19 | 2016-02-02 | Ge Intelligent Platforms, Inc. | System of sequential kernel regression modeling for forecasting and prognostics |
JP5700566B2 (ja) * | 2012-02-07 | 2015-04-15 | 日本電信電話株式会社 | スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム |
US9224383B2 (en) * | 2012-03-29 | 2015-12-29 | Educational Testing Service | Unsupervised language model adaptation for automated speech scoring |
US8719025B2 (en) * | 2012-05-14 | 2014-05-06 | International Business Machines Corporation | Contextual voice query dilation to improve spoken web searching |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9043205B2 (en) * | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8494853B1 (en) * | 2013-01-04 | 2013-07-23 | Google Inc. | Methods and systems for providing speech recognition systems based on speech recordings logs |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9251135B2 (en) * | 2013-08-13 | 2016-02-02 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
US10109273B1 (en) * | 2013-08-29 | 2018-10-23 | Amazon Technologies, Inc. | Efficient generation of personalized spoken language understanding models |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9564122B2 (en) | 2014-03-25 | 2017-02-07 | Nice Ltd. | Language model adaptation based on filtered data |
US9251139B2 (en) * | 2014-04-08 | 2016-02-02 | TitleFlow LLC | Natural language processing for extracting conveyance graphs |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9886432B2 (en) * | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10042845B2 (en) * | 2014-10-31 | 2018-08-07 | Microsoft Technology Licensing, Llc | Transfer learning for bilingual content classification |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) * | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10140983B2 (en) * | 2015-08-28 | 2018-11-27 | International Business Machines Corporation | Building of n-gram language model for automatic speech recognition (ASR) |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049666B2 (en) | 2016-01-06 | 2018-08-14 | Google Llc | Voice recognition system |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
WO2017210618A1 (en) | 2016-06-02 | 2017-12-07 | Fti Consulting, Inc. | Analyzing clusters of coded documents |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN108694939B (zh) * | 2018-05-23 | 2020-11-03 | 广州视源电子科技股份有限公司 | 语音搜索优化方法、装置和系统 |
US11151324B2 (en) * | 2019-02-03 | 2021-10-19 | International Business Machines Corporation | Generating completed responses via primal networks trained with dual networks |
US11281867B2 (en) * | 2019-02-03 | 2022-03-22 | International Business Machines Corporation | Performing multi-objective tasks via primal networks trained with dual networks |
US11410644B2 (en) * | 2019-10-18 | 2022-08-09 | Invoca, Inc. | Generating training datasets for a supervised learning topic model from outputs of a discovery topic model |
DE102020200499A1 (de) * | 2019-12-23 | 2021-06-24 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, unter Verwendung ungelabelter, partitionierter Stichproben |
US20230046851A1 (en) * | 2021-08-13 | 2023-02-16 | Avanade Holdings Llc | Multi-model approach to natural language processing and recommendation generation |
CN113722447B (zh) * | 2021-11-03 | 2022-02-08 | 南京云问网络技术有限公司 | 一种基于多策略匹配的语音搜索方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4831550A (en) * | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
DE3723078A1 (de) * | 1987-07-11 | 1989-01-19 | Philips Patentverwaltung | Verfahren zur erkennung von zusammenhaengend gesprochenen woertern |
DE3739681A1 (de) * | 1987-11-24 | 1989-06-08 | Philips Patentverwaltung | Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens |
US5263117A (en) * | 1989-10-26 | 1993-11-16 | International Business Machines Corporation | Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer |
JPH04291399A (ja) * | 1991-03-20 | 1992-10-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
JPH0713598A (ja) * | 1993-06-24 | 1995-01-17 | Osaka Gas Co Ltd | 特定タスク音声データベース生成装置 |
EP0645757B1 (en) | 1993-09-23 | 2000-04-05 | Xerox Corporation | Semantic co-occurrence filtering for speech recognition and signal transcription applications |
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5675819A (en) | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5668928A (en) * | 1995-01-31 | 1997-09-16 | Kor Team International, Inc. | Speech recognition system and method with automatic syntax generation |
US5689617A (en) * | 1995-03-14 | 1997-11-18 | Apple Computer, Inc. | Speech recognition system which returns recognition results as a reconstructed language model with attached data values |
IT1279171B1 (it) * | 1995-03-17 | 1997-12-04 | Ist Trentino Di Cultura | Sistema di riconoscimento di parlato continuo |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5680511A (en) | 1995-06-07 | 1997-10-21 | Dragon Systems, Inc. | Systems and methods for word recognition |
US5899973A (en) * | 1995-11-04 | 1999-05-04 | International Business Machines Corporation | Method and apparatus for adapting the language model's size in a speech recognition system |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
US5937384A (en) * | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
US5905972A (en) * | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US5819220A (en) * | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
GB9701866D0 (en) | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
DE19708183A1 (de) * | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
DE19708184A1 (de) * | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
US6073091A (en) * | 1997-08-06 | 2000-06-06 | International Business Machines Corporation | Apparatus and method for forming a filtered inflected language model for automatic speech recognition |
US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6141641A (en) * | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
-
1998
- 1998-03-30 US US09/050,286 patent/US6418431B1/en not_active Expired - Lifetime
-
1999
- 1999-02-09 CA CA002321112A patent/CA2321112C/en not_active Expired - Fee Related
- 1999-02-09 DE DE69932044T patent/DE69932044T2/de not_active Expired - Lifetime
- 1999-02-09 CN CNB998045551A patent/CN1171199C/zh not_active Expired - Fee Related
- 1999-02-09 WO PCT/US1999/002806 patent/WO1999050830A1/en active IP Right Grant
- 1999-02-09 EP EP99905904A patent/EP1066625B1/en not_active Expired - Lifetime
- 1999-02-09 JP JP2000541667A patent/JP4494632B2/ja not_active Expired - Fee Related
- 1999-02-09 KR KR1020007010945A patent/KR100609253B1/ko not_active IP Right Cessation
- 1999-02-09 CN CNB031084869A patent/CN1253821C/zh not_active Expired - Fee Related
-
2009
- 2009-06-03 JP JP2009133928A patent/JP4664423B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220027673A1 (en) * | 2018-09-19 | 2022-01-27 | Nippon Telegraph And Telephone Corporation | Selecting device and selecting method |
Also Published As
Publication number | Publication date |
---|---|
WO1999050830A1 (en) | 1999-10-07 |
CA2321112A1 (en) | 1999-10-07 |
KR100609253B1 (ko) | 2006-08-04 |
JP4664423B2 (ja) | 2011-04-06 |
DE69932044D1 (de) | 2006-08-03 |
JP2002510076A (ja) | 2002-04-02 |
DE69932044T2 (de) | 2006-11-23 |
US6418431B1 (en) | 2002-07-09 |
CA2321112C (en) | 2005-01-11 |
CN1295705A (zh) | 2001-05-16 |
CN1171199C (zh) | 2004-10-13 |
KR20010042377A (ko) | 2001-05-25 |
CN1253821C (zh) | 2006-04-26 |
EP1066625B1 (en) | 2006-06-21 |
EP1066625A1 (en) | 2001-01-10 |
JP2009238235A (ja) | 2009-10-15 |
CN1474378A (zh) | 2004-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4494632B2 (ja) | 言語モデルに基づく情報検索および音声認識 | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
US9330661B2 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
US5950189A (en) | Retrieval system and method | |
US6345253B1 (en) | Method and apparatus for retrieving audio information using primary and supplemental indexes | |
KR101201037B1 (ko) | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 | |
JP5241840B2 (ja) | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム | |
JP5541035B2 (ja) | 音声検索装置及び音声検索方法 | |
JP2004005600A (ja) | データベースに格納された文書をインデックス付け及び検索する方法及びシステム | |
JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
US20100153366A1 (en) | Assigning an indexing weight to a search term | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
KR20080069990A (ko) | 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체 | |
WO2011037753A1 (en) | Method and apparatus for ordering results of a query | |
CN115544225A (zh) | 基于语义的数字档案信息关联检索方法 | |
CN114661862A (zh) | 基于语音数据的搜索方法、装置、计算机设备及存储介质 | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 | |
CA2473172C (en) | Information retrieval and speech recognition based on language models | |
JPH09319766A (ja) | 文書検索システム | |
KR100817432B1 (ko) | 문서 확장에 의한 음성 자료의 고속 검색 방법 및 시스템 | |
RU2266560C1 (ru) | Способ поиска информации в политематических массивах неструктурированных текстов | |
KR20240034572A (ko) | 음성인식모델 성능 평가 방법 및 그 장치 | |
Liu et al. | Integrate Document Ranking Information into Confidence Measure Calculation for Spoken Term Detection | |
Wang | 5HWULHYDO RI 0DQGDULQ 6SRNHQ'RFXPHQWV% DVHG RQ 6\OODEOH/DWWLFH 0DWFKLQJ | |
Chien et al. | Networked Information Retrieval Using Unconstrained Mandarin Speech Queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060112 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090603 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100402 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100408 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130416 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130416 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140416 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |