JP5099953B2 - 情報検索手法による統一化されたタスク依存の言語モデルの生成 - Google Patents

情報検索手法による統一化されたタスク依存の言語モデルの生成 Download PDF

Info

Publication number
JP5099953B2
JP5099953B2 JP2002500373A JP2002500373A JP5099953B2 JP 5099953 B2 JP5099953 B2 JP 5099953B2 JP 2002500373 A JP2002500373 A JP 2002500373A JP 2002500373 A JP2002500373 A JP 2002500373A JP 5099953 B2 JP5099953 B2 JP 5099953B2
Authority
JP
Japan
Prior art keywords
context
task
word
free grammars
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002500373A
Other languages
English (en)
Other versions
JP2003535410A5 (ja
JP2003535410A (ja
Inventor
ディー.ハン シュエドン
ヴィ.マハジャン ミリンド
ワン イエ−イ
モウ シャオロン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2003535410A publication Critical patent/JP2003535410A/ja
Publication of JP2003535410A5 publication Critical patent/JP2003535410A5/ja
Application granted granted Critical
Publication of JP5099953B2 publication Critical patent/JP5099953B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Devices For Executing Special Programs (AREA)

Description

【0001】
発明の背景
本発明は、言語のモデル化に関し、特に言語処理システムのための言語モデルの生成に関する。
【0002】
正確な音声認識には、単にユーザが発する正確な単語を選択する音響モデル以上のものが要求される。言い換えれば、音声認識装置はいずれの単語が発声されたかを選択あるいは決定しなければならず、全ての単語について発声された可能性が同じであれば、その音声認識装置は、通常、不満足な性能しか示さないであろう。言語モデルは、その語彙の中のいずれが一連の単語である可能性があるのかを特定する方法または手段を提供し、また、一般的には種々の一連の単語である可能性についての情報を提供する。
【0003】
音声認識は、しばしばトップダウン型の言語処理であると考えられる。言語処理には、通常、2つの型、トップダウン型とボトムアップ型がある。トップダウン型言語処理では、認識するための最大の単位、例えば文からはじめ、それをより小さな単位、例えばフレーズに区分けする処理を行い、次に、さらにより小さい単位、例えば単語に区分けする。これに対し、ボトムアップ型言語処理は、単語から始まり、それからフレーズ及び/又は文を組み立てるように処理する。両方の型の言語処理とも、言語モデルとしての利点がある。
【0004】
区分けのために通常用いられる手法のひとつは、形式文法(formal grammar)を使用することである。形式文法は、アプリケーションが許容する単語のシーケンスを定義する。よく知られた文法のタイプのひとつに、「文脈自由文法(context−free grammar)」(CFG)があり、これは、文構造に基づき、または意味的に文を特定する。CFGは、発声された言語(口語)においてほとんどの構造を表現するに十分な能力を有するだけでなく、十分に制限的でもあるので、効果的なパーザ(parsers)をも持つことができる。これにもかかわらず、CFGではより深い構造を得られる一方、その文法がほとんど依然として不完全であるため、強力な口語処理には未だ不適切である。CFGベースのシステムは、ユーザが話す文章が何かを知る場合だけならばよいが、これは、そのシステムの価値や有用性を減じることとなる。実際のほとんどのアプリケーションにおいて、CFGの欠点がカバーされないため、したがって、CFGの構造化された解析手法の有利な点は、無に帰すこととなる。アプリケーション開発者にとっても、CFGは、開発に高い労働集約性を要求する。
【0005】
第2の型の言語モデルは、Nグラム(N−gram)モデルである。Nグラムは大量のデータでトレーニングされるため、nワード(n−word)従属性により、多くの場合、構文上のおよび意味上の浅い構造にシームレスに適用させることができる。しかし、この手法の前提条件として、十分な量のトレーニングデータが必要となる。Nグラムモデルの問題は、多くのデータが必要とされることであり、所望のアプリケーションに対し、そのモデルを十分に特定しないかもしれない。単語ベースのNグラムモデルは、nワード従属性に制限されるため、CFGに比べると言語における、より長いコンストレイント(constraint)を含むことができない。
【0006】
(NグラムとCFGの組み合わせで構成される)統一化された言語(unified language)モデルもまた、進展した。統一化された言語モデルは、Nグラム及びCFGの言語モデル双方の弱点を克服する可能性を潜在的に持っている。しかし、ドメインを特定したアプリケーションに対して、ドメインに依存しないトレーニングコーパス(corpus)すなわち、統一化された言語モデルを含めドメインに依存しない言語モデルを改善するための明確な方法はない。
【0007】
したがって、引き続き、言語モデルを生成するための新たな方法の開発が必要となる。技術が進歩し、より多くのアプリケーションにおいて音声認識や手書き認識が提供されるため、所定のアプリケーションに対し適切な言語モデルを生成することができる効果的な方法を、アプリケーション開発者に提供しなければならない。
【0008】
発明の概要
タスク独立のコーパス(corpus)から、言語を生成する方法が提供される。第1の形態においては、選択されたアプリケーションのためのタスク依存の統一化された言語モデルは、タスク独立のコーパスから生成される。タスク依存の統一化された言語モデルは、Nグラムモデルにおける組み込み型文脈自由文法のノンターミナルトークンを含む。この方法には、アプリケーションの意味上または構文上の概念を表すノンターミナルトークンを備える複数の文脈自由文法を取得する処理が含まれる。各々の文脈自由文法は、意味上または構文上の概念を形成するため、タスク独立のコーパスにおいて表された単語またはターミナルを含む。意味上又は構文上の概念及びフレーズの各々のワードオカレンスを特定するために、複数の文脈自由文法をもつタスク独立のコーパスが分析される。各々の特定されたワードオカレンスは、対応するノンターミナルトークンに置き換えられる。Nグラムモデルは、ノンターミナルトークンをもって組み立てられる。意味上又は構文上同一の概念を表す同一のノンターミナルの少なくともいくつかに対して、第2の複数の文脈自由文法が得られる。しかし、選択されたアプリケーションでは、第2の複数の文脈自由文法の各々を用いることがより適切である。
【0009】
第2の形態は、タスク独立のコーパスから選択されたアプリケーションのためのタスク依存の統一化された言語モデルを生成するための方法である。タスク依存の統一化された言語モデルには、Nグラムモデルにおける組み込み型文脈自由文法のノンターミナルトークンを含む。この方法には、タスク依存の意味上又は構文上の概念を表すノンターミナルトークンを持つ文脈自由文法のセット及び所望のタスク依存の意味上又は構文上の概念のひとつと、誤りを許容するフレーズのためのノンターミナルトークンを持つ少なくともひとつの文脈自由文法とを有する複数の文脈自由文法を取得する処理が含まれる。複数の文脈自由文法を持つタスク独立のコーパスは分析され、ワードオカレンスが意味上又は構文上の概念及びフレーズの各々に対し特定される。各々の特定されたワードオカレンスは、対応するノンターミナルトークンに置き換えられる。Nグラムモデルは、次いでノンターミナルトークンをもって組み立てられる。
【0010】
第3の形態は、タスク依存のコーパスから選択されたアプリケーションのための言語モデルを生成するための方法である。この方法には、選択されたアプリケーションの意味上又は構文上の概念を表すノンターミナルトークンを備える複数の文脈自由文保を取得する処理が含まれる。単語フレーズは、複数の文脈自由文法から生成される。文脈自由文法が用いられて、単語フレーズの少なくとも一つから情報検索クエリが定式化される。このタスク独立のコーパスは、定式化されたクエリに基づき照会され、タスク独立のコーパスにおけるテキストはそのクエリに基づき特定される。特定されたテキストを用いて言語モデルが構築される。
【0011】
第4の形態は、タスク独立のコーパスから、選択されたアプリケーションのための言語モデルを生成するための方法である。この方法には、選択されたアプリケーションの意味上又は構文上の概念を表しているノンターミナルトークンを備える複数の文脈自由文法を取得する処理が含まれる。単語フレーズは、複数の文脈自由文法から生成される。第1と第2のNグラム言語モデルは、それぞれ単語フレーズとタスク独立のコーパスから構築される。第1のNグラム言語モデルと第2のNグラム言語モデルは、組み合わされ、第3のNグラム言語モデルを形成する。
【0012】
第5の形態は、あるコーパスから、選択されたアプリケーションのための統一化された言語モデルを生成するための方法である。この方法には、選択されたアプリケーションの意味上又は構文上の概念を表しているノンターミナルトークンを備える複数の文脈自由文法を取得する処理が含まれる。単語の言語モデルは、そのコーパスから構築される。文脈自由文法の少なくともいくつかが終了する確率は、単語の言語モデルから同一のターミナルを得るための対応する確率の関数として正規化され、割り当てられる。
【0013】
例示された実施形態の詳細な説明
図1は、言語入力12を受信して、処理し、出力14を得る言語処理システム10を一般的に示したものである。例えば、言語処理システム10は、言語入力12として、ユーザが発声した又は録音した言葉を受信する音声認識システム又はモジュールのような形態で実施することができる。言語処理システム10では、口語を処理し、出力として、通常は、認識された単語がテキストの形態で得られる。
【0014】
処理中、音声認識システム又はモジュール10は、言語モデル16にアクセスして、どの言葉が発声されたかを決定することができる。言語モデル16は、例えば英語のような、特定の言語を符号化する。例示の実施例では、言語モデル16は、ノンターミナルで意味上又は構文上の概念を指定する文脈自由文法を備えたNグラム言語モデル、又は統一化された言語モデルおよび組み込まれたノンターミナルを有しているハイブリッドNグラムモデルとすることができる。本発明を広範に示した形態は、入手がしばしば困難であるタスク依存のコーパスからよりも、むしろ、数個が既に準備されているタスク独立のコーパスから言語モデル16を生成又は構築する方法である。
【0015】
上述した音声認識システムに加え、他の言語処理システムにおいても言語モデル16を使用することができることが、本技術分野の当業者には理解されるであろう。例えば、上述のタイプの言語処理システムは、手書き認識、光学式文字認識(OCR)、スペルチェッカー、翻訳、標準PCキーボードを用いた中国文字又は日本文字の入力またはテレフォンキーボードを用いた英単語の入力においても使用することができる。音声認識を特に参照して口述するが、本発明は、言語処理システムのこれらの及び他の形式で、人工言語や自然言語のモデルを構築する際に有用である。
【0016】
本発明の詳細を説明する前に、実行環境を概観することが有用であろう。図2およびこれに関連した説明で、本発明を実施可能な好都合のコンピュータ環境について簡単に、一般的な説明を行う。必ずしも必要とはされないが、本発明は少なくとも一部では、例えばプログラムモジュールのようなパーソナルコンピュータで実行されるような、コンピュータ実行可能な命令の一般的コンテクストにおいて記述されるであろう。一般的に、プログラムモジュールは、ルーチンプログラム、オブジェクト、コンポーネント、データ構造などを含み、これらは、特定のタスクを実行したり、又は特定の抽象データタイプを実装する。プログラム及びモジュールによって実行されるタスクについては、ブロック図とフローチャートを用いて後述する。本技術分野の当業者は、プロセッサ実行可能な命令を、記述、ブロック図およびフローチャートから実現することができ、コンピュータ読み取り可能な任意の形式で記述することができるであろう。加えて、本発明はハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースあるいはプログラマブルなコンシューマ向け機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステムの構成で実施することができることが当業者には理解されるであろう。本発明はまた、分散コンピューティング環境でも実施することができ、そこでは、タスクは、通信ネットワークを介して接続された遠隔処理装置により実行される。分散コンピューティング環境では、プログラムモジュールは、ローカル及びリモートの双方のメモリ格納装置に置くことができる。図2に関連して、本発明を実施するための例示のシステムは、従来のパーソナルコンピュータ50の形態の汎用コンピューティングデバイスを含む。これは、プロセッシングユニット51、システムメモリ52及びプロセッシングユニット51とシステムメモリとの連結を含む種々のシステムコンポーネントを連結するシステムバス53を有する。システムバス53は、任意の種々のバス構造を用いたメモリバスまたはメモリコントローラ、ペリフェラルバス、およびローカルバスを含む任意の数タイプのバス構造とすることができる。このシステムメモリは、読取専用メモリ(ROM)54およびランダムアクセスメモリ(RAM)55を含む。基本入出力システム56(BIOS)はROM54に格納され、例えばスタートアップ時にパーソナルコンピュータ50内の部品間の情報転送を補助する基本ルーチンを含む。パーソナルコンピュータ50は、ハードディスク(図示せず)との読み取り、書き込みのためのハードディスクドライブ57、取外し可能な磁気ディスク59との読み取りまたは書き込みのための磁気ディスクドライブ58及びCD ROMその他光媒体のような取外し可能な光ディスクの読み取りまたは書き込みのための光ディスクドライブ60をさらに含む。ハードディスクドライブ57、磁気ディスクドライブ58および光ディスクドライブ60は、それぞれハードディスクドライブインタフェース62、磁気ディスクドライブインタフェース63および光ディスクドライブインタフェース64によってシステムバス53に接続されている。駆動装置および関連するコンピュータ読み取り可能な媒体により、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、その他パーソナルコンピュータ50のためのデータの不揮発性記憶装置を提供する。
【0017】
例示の環境ではハードディスク、取外し可能な磁気ディスク59および取外し可能な光ディスク61が利用されているが、コンピュータによりアクセスするデータを記憶することができる他の種類のコンピュータ読み取り可能な媒体もまた、例示の動作環境で使用可能であることが当業者に理解されるであろう。ここで、コンピュータ読み取り可能な媒体とは、例えば磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイ(bernoulli)カートリッジ、ランダムアクセスメモリ(RAMs)、読取専用メモリ(ROM)その他である。
【0018】
複数のプログラムモジュールは、オペレーティングシステム65、1つまたは2つ以上のアプリケーションモジュール66、その他のプログラムモジュール67およびプログラムデータ68を含み、ハードディスク、磁気ディスク59、光ディスク61、ROM54またはRAM55上に記憶される。ユーザは、入力デバイス、例えばキーボード70、手書きタブレット71、ポインティングデバイス72およびマイクロホン92を介して、コマンドと情報をパーソナルコンピュータ50に入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、サテライトディッシュ(satellite dish)、スキャナその他が含まれる。以上の入力デバイスおよびその他の入力デバイスは、システムバス53に連結しているシリアルポートインタフェース76を介して、プロセッシングユニット51に接続されることが多いが、他のインタフェース、例えば、サウンドカード、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)に接続することもできる。モニタ77またはその他のタイプの表示デバイスもまた、ビデオアダプタ78といったインタフェースを介してシステムバス53に接続される。モニタ77に加えて、パーソナルコンピュータは、通常その他の周辺出力デバイス、例えばスピーカ83およびプリンタ(図示せず)を含む。
【0019】
パーソナルコンピュータ50は、リモートコンピュータ79のような1つまたは2つ以上のリモートコンピュータとの論理接続を用いて、ネットワーク化された環境で動作することができる。リモートコンピュータ79は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピア(peer)デバイスまたはその他のネットワークノードとすることが可能であり、図2にはメモリ記憶デバイス80のみ示されているが、パーソナルコンピュータ50に関連する上述の要素の多くまたは全部を、通常、含む。図2に示された論理接続は、ローカルエリアネットワーク(LAN)81、および広域ネットワーク(WAN)を含む。このようなネットワーク環境はオフィスではありふれたものであり、例えば企業内(enterprise−wide)コンピュータネットワークであるイントラネットおよびインターネットである。
【0020】
LANネットワーク環境で用いられる場合、パーソナルコンピュータ50は、ネットワークインタフェースまたはアダプタ83を介して、ローカルエリアネットワーク81に接続される。WANネットワーク環境で用いられる場合、パーソナルコンピュータ50は、通常、インターネットのような広域ネットワーク82にわたって通信を行うためのモデム84またはその他の方法を含む。モデム84は、内部または外部に置くことができ、シリアルポート76を介してシステムバス53に接続される。プログラムモジュールは、パーソナルコンピュータ50に関連して、あるいはその一部として描かれたが、ネットワーク環境においては、リモートのメモリ記憶装置に記憶することができる。示されたネットワーク接続は例示であり、その他のコンピュータ間の通信リンクを図る方法を使用することができるということが当業者に理解されるであろう。
【0021】
図3は、音声認識システム100の例示の実施形態を示す。音声認識システム100には、マイクロホン92、アナログデジタル(A/D)変換器、トレーニングモジュール105、特徴抽出モジュール106、語彙記憶モジュール110、セノン(senon)ツリーを含む音響モデル112、ツリーサーチエンジン114および言語モデル16が含まれる。全体のシステム100あるいは音声認識システム100の一部は、図2に示す環境において実行することができる点が留意されるべきである。例えば、マイクロホン92は、入力デバイスとして、適切なインタフェースおよびA/Dコンバータ104を介して、コンピュータ50に接続できるのが望ましい。トレーニングモジュール105および特徴抽出モジュール106はコンピュータ50内のハードウェアとするか、または図2に開示された任意の情報記憶装置に記憶され、プロセシングユニット51またはその他の適合したプロセッサからアクセス可能なソフトウェアモジュールのいずれかとすることができる。加えて、語彙記憶モジュール110、音響モデル112および言語モデル16もまた、図2に示される、いずれかのメモリデバイスに記憶されるのが望ましい。さらに、ツリーサーチエンジン114は、(1つまたは2つ以上のプロセッサを含む)プロセッシングユニット51内で実行されるか、または専用の音声認識プロセッサにより実行され、パーソナルコンピュータが利用することもできる。
【0022】
図示された実施形態においては、音声認識中に、ユーザがマイクロホン92に対して発生した音声は、可聴音声信号の形式でシステム100にインプットされる。マイクロホン92は、可聴音声信号をアナログ電気信号に変換し、A/Dコンバータ104に送られる。A/Dコンバータ104は、アナログ音声信号をデジタル信号のシーケンスに変換し、特徴抽出モジュール106に送られる。ある実施形態では、特徴抽出モジュール106は、従来のアレイプロセッサであり、デジタル信号に関しスペクトル分析を実行し、周波数スペクトルの各周波数域に対する出力値を計算する。この信号は、ある例示の実施形態では、およそ16kHzのサンプルレートでA/Dコンバータ104により、特徴抽出モジュール106に与えられる。
【0023】
特徴抽出モジュール106は、A/Dコンバータ104から受け取ったデジタル信号を、複数のデジタル信号を含むフレームに分割する。各フレームはおよそ10msの長さである。次に、このフレームは、特徴抽出モジュール106によって、複数の周波数帯に対するスペクトル特性を反映した特徴ベクトルに符号化される。ディスクリートで半連続な隠れマルコフモデリングの場合、特徴抽出モジュール106はまた、ベクトルの量子化手法とトレーニングデータから導かれたコード表を用いて、特徴ベクトルを1つまたは2つ以上のコードのワードに符号化する。したがって、特徴抽出モジュール106は、発声された音声の各々に対する特徴ベクトル(またはコードのワード)をその出力として与える。特徴出力モジュール106は、ある特徴ベクトル(またはコードのワード)のレートまたは概ね全て10msのレートで、特徴ベクトル(またはコードのワード)を送る。
【0024】
出力である確率配分(probability distributions)は、分析されているそのフレームの特徴ベクトル(またはコードのワード)を用いて、隠れマルコフモデルに対して計算される。これらの確率配分は、その後ビタビ(Viterbi)アルゴリズム又はこれに類似の処理手法を実行する際用いられる。
【0025】
特徴抽出モジュール106からコードのワードを受信する際、ツリーサーチエンジン114は、音響モデル112に記憶された情報にアクセスする。モデル112は、音響モデル、例えば音声認識システム100で検出されるための音声ユニットを表現している隠れマルコフモデルを格納する。一実施例において、音響モデル112には、隠れマルコフモデルにおける各マルコフ状態のセノンツリーが含まれる。隠れマルコフモデルは、例示の一実施例においては、音素を表す。音響モデル112におけるセノンに基づき、ツリーサーチエンジン114は、特徴抽出モジュール106から受信した特徴ベクトル(またはコードのワード)によって表された最も確実な音素、したがってシステムがユーザか受け取った音声を代表的に表現したものを決定する。
【0026】
ツリーサーチエンジン114は、モジュール110に格納された語彙にもアクセスする。音響モデル112へのアクセスに基づいてツリーサーチエンジン114が受信した情報は、語彙格納モジュール110のサーチの際用いられ、特徴抽出モデル106から受信したコードのワードまたは特徴ベクトルを最も確実に表す単語を決定する。また、サーチエンジン114は、言語モデル16にもアクセスする。言語モデル16は、統一化された言語モデルあるいは一単語のNグラムまたは文脈自由文法であり、入力された音声によって表された、最も確実な単語を特定する際使用される。最も確実な単語はテキスト出力で得られる。
【0027】
音声認識システム100において、HMMモデリングおよびセノンツリーが用いられる場合について述べたが、これはほんの一実施例であることが理解されるはずである。音声認識システム100は多くの形態をとることができ、それらが必要とされるのは、言語モデル16を用いること、およびユーザが発声したテキストを出力として提供することだけであることが当業者には理解されるであろう。
【0028】
統計的なNグラム言語モデルによって、ある単語までの所与の単語シーケンス(すなわち、所与の単語履歴H)をもつ単語についての確率が計算されることがよく知られている。Nグラム言語モデルでは、次の単語の確率に影響を与えるものとして、履歴Hにおいては(N−1)個前の単語までしか考慮しない。例えば、バイグラム(すなわち2−グラム)言語モデルでは、次の単語に影響するものとしては、その直前の単語を考慮する。したがって、Nグラム言語モデルにおいては、単語が見出される確率は以下のように表される。
【0029】
【数1】
Figure 0005099953
【0030】
ここで、wは対象とする単語:
w1は、このシーケンス中において単語wのn−1個前に位置する単語;
w2は、単語wのn−2個前に位置する単語;
w(n−1)は、単語wの1個前に位置する単語;
また、単語シーケンスの確率は、その履歴を与えられた各単語の確率の乗法演算に基づいて定められる。したがって、単語シーケンス(w1・・wm)の確率は、以下のように表される。
【0031】
【数2】
Figure 0005099953
【0032】
Nグラムモデルは、原文のままのトレーニングデータのコーパス(フレーズ、文、文章の一部分、段落などの収集物)にNグラムアルゴリズムを適用することによって得られる。Nグラムアルゴリズムは、例えば、カッツの手法(Katz’s technique)のようによく知られた統計手法を使用することもできるし、またバイノミアル ポステリア ディストリビューション バックオフ テクニック(binomial posterior distribution backoff technique)を使用することもできる。これらの手法を用いて、アルゴリズムによって、ある単語w(n)が単語w1、w2・・、w(n−1)の次に来る確率が計算される。この確率の値は、集合してNグラム言語モデルを形成する。標準的統計的なNグラムモデルを構築するために、本発明の後述のいくつかの実施形態を利用することができる。言語モデルはまた、文脈自由文法を備えることが、本技術分野でもよく知られている。文脈自由文法では、ルールベースモデルが提供され文構造や口語の意味上または構文上の概念をキャプチャーすることができる。例えば、例示の目的で、会議の予定を組みまたは電子メールを送信することに関するソフトウェアアプリケーションまたはタスクのためのより多くの文脈自由文法のうちの文脈自由文法のセットの1つは、
【0033】
【表1】
Figure 0005099953
【0034】
を備えることができる。
【0035】
この例では、“< >”は、意味上または構文上の概念を区分けするためのノンターミナルを示し、各ノンターミナルはターミナル(例えば、単語またはフレーズ)および、いくつかの例では階層構造におけるノンターミナルトークンを用いて定義される。
【0036】
この種の文法では、正式な文構造や言語学の錦密な知識は要求されず、むしろ、特定のアプリケーションまたはタスクではどのような単語、フレーズ、文または文章の一部分が用いられるかという知識が要求される。
【0037】
統一化された言語モデルもまた、本技術分野ではよく知られている。図4を参照すると、統一化された言語モデル140には、Nグラム言語モデル142と複数の文脈自由文法144との組み合わせが含まれる。さらに、Nグラム言語モデル142には、組み込まれた複数の文脈自由文法144の同一のノンターミナルのうちの少なくといくつかが含まれので、Nグラム言語モデル142は、単語を予測することに加え、ノンターミナルもまた予測することができる。一般的に、ノンターミナルについての確率は、以下に表すことができる。
【0038】
【数3】
Figure 0005099953
【0039】
ここで、(h1,h2, ... hn)は先行する単語またはノンターミナルとすることができる。基本的に、統一化された言語モデル140のNグラム言語モデル142(ハイブリッドNグラムモデルとしても知られている)には、単語と少なくともいくつかのノンターミナルを有するオーグメント(augment)された語彙が含まれる。
【0040】
使用にあたって、音声認識システムまたはモジュール100は、言語モデル16(本実施形態では、統一化された言語モデル140)にアクセスし、どの単語が話されたかを決定するであろう。Nグラム言語モデル142は、最初に単語とノンターミナルを予測するために用いられる。ノンターミナルが予測されると、複数の文脈自由文法144が用いられ、ノンターミナルの関数としてターミナルが予測される。しかし、特定の方法で統一化された言語モデル140が使用されるということは、本発明では重要なことではないことが理解されるはずである。
【0041】
発明の背景で述べたように、アプリケーション開発者は、選択されたアプリケーションを適正な言語モデル16が生成することを可能する効率的な方法を与えられるはずである。あるアプリケーションにおいては、標準的なNグラム言語モデルは有効に働き、このモデルを開発する際の改良は有益であろう。一方その他のアプリケーションでは、統一化された言語モデル140が最も有効に働き、そのため、このようなモデルを構築する際の改良もまた有益であろう。
【0042】
言語処理のために異なるアプリケーションが開発されるなら、タスク依存(ドメイン依存)の言語モデルは、その具体性が高くなることから、より大きな汎用的言語モデルに比べより正確な言語モデルを創作することができるため、より適切なものとなることができる。しかし、タスク依存の言語モデルは、容易に汎用的言語モデルを生成することができない。Nグラム言語モデルのような汎用的言語モデルを生成するために、トレーニングデータのタスク独立のコーパスを用いて、上述のようにNグラムアルゴリズムに適用することができる。タスク独立のコーパスは既に準備されており、雑誌や新聞などの編集を備えて、ほんの少し命名することができる。タスク独立のコーパスは、いずれかのアプリケーション向けにはなっておらず、というよりむしろある言語において単語がどのように用いられているかについての多くの例示を与えてくれる。一方、タスク依存のコーパスは、通常、利用可能ではない。コーパスは苦労して収集しなければならず、しかも、それでも完全ではないかもしれない。
【0043】
本発明を広範に示す実施形態には、タスク独立のコーパスから選択されたアプリケーションのためのタスクまたはドメイン依存の統一化された言語モデルを生成するための方法が含まれる。タスク依存の統一化された言語モデルには、Nグラム言語モデルにおける組み込み型文脈自由文法のノンターミナルトークンが含まれる。以上検討したように、タスク独立のコーパスは、文やフレーズなどを編集したものであり、いずれかの特定のアプリケーション向けのもではなく、むしろ一般的に非常に多様な例を通して、ある言語で単語がどのようにともされるかを示している。後述の種々の手法が開発され、タスク依存のアプリケーションに適した言語モデルを生成するためのタスク独立のコーパスが用いられている。
【0044】
図5は、言語モデルを生成しまたは構築するための第1のメソッド160を示している。メソッド160は、意味上または構文上の概念を表現するノンターミナルトークンを備える複数の文脈自由文法を取得するためのステップ162を含む。ここで、意味上または構文上の概念には、種々のコマンド、オブジェクト、動作などに特定の単語が使われることを表現する単語または単語フレーズが含まれる。例えば、タスク独立のコーパスには、固有名を使用する方法についての種々の例証が含まれる。例えば、タスク独立のコーパスは、文:「ビル クリントンは会議に出席した」および「ジョン スミスは会議でランチに行った」などを含む。タスク独立のコーパスにおいて意味上または構文上の概念を形成するために用いられる単語は、タスク依存のアプリケーションのために用いられるものではないかもしれないが、タスク独立のコーパスは、意味上または構文上の概念のためのコンテクストを明らかにする使用に適した例を与える。ステップ162は、タスク独立のコーパスにおける意味上または構文上の概念を表すためのノンターミナルトークンをもつ文脈自由文法を取得することを表し、ターミナルを持つノンターミナルトークンは、タスク独立のコーパス中で表される。例として、上記の例の固有名を用いると、CFGは以下のようにすることができる。
【0045】
【表2】
Figure 0005099953
【0046】
通常、種々の意味上または構文上の概念を表現するノンターミナルトークンを備えた複数の文脈自由文法が用いられる。例えば、その他の意味上または構文上の概念としては、少し命名すると、地理上の場所、地域、タイトル、日付、時間、通貨量、パーセントの量がある。しかし、これらの意味上または構文上の概念は単なる例示に過ぎず、本発明を実施するために必要とされることもないし、このリストが、所望のアプリケーションに極めて依存する意味上または構文上の概念の全てのタイプを尽くしているというわけでもない。
【0047】
ステップ164においては、タスク独立のコーパスは、意味上または構文上の概念のタスク独立の各コーパスにおいてワードオカレンスを特定するために、ステップ162で得られた複数の文脈自由文法によって分析される。
【0048】
ステップ166において、特定されたワードオカレンスの各々は、対応するノンターミナルトークンと置き換えられる。Nグラムモデルは、次いでNグラムアルゴリズムを用いてステップ168において構築され、Nグラムモデルにはノンターミナルトークンが組み込まれている。
【0049】
ステップ170において、第2の複数の文脈自由文法は、選択されたアプリケーションにあわせて取得される。特に、第2の複数の文脈自由文法には、ステップ162の同一の意味上または構文上の概念を表すノンターミナルのうちの少なくともいくつかが含まれる。しかし、第2の複数の文脈自由文法の各々は、選択されたアプリケーションにより適合する。上述の例示の固有名に戻って参照すると、第2の複数の文脈自由文法はCFGを含むであろう。:
【0050】
【表3】
Figure 0005099953
【0051】
メソッド160は、コンピュータ50で実施され、文脈自由文法の各々およびタスク独立のコーパスはローカルまたはリモートの記憶デバイスのいずれかに記憶することができる。ノンターミナルトークンをもつNグラムモデルおよびタスク依存の意味上または構文上の概念を表すノンターミナルトークンをもつ第2の複数の文脈自由文法は、音声認識部によってアクセスされるコンピュータ読み取り可能な媒体に記憶される。
【0052】
図6は、タスク独立のコーパスから選択されたアプリケーションに対する統一化された言語モデルを生成するためのメソッド180を示しており、コーパスには、異なるコンテクストである可能性のある大量のフレーズが含まれる。タスク依存のアプリケーションのために文脈自由文法によってタスク独立の言語使用を簡易に分析すると、エラーが発生する可能性があり、Nグラムアルゴリズムのアプリケーションに関するNグラムモデルまで広がるであろう。分析中のエラーの発生を抑えるために、本発明の本実施形態では、所望のタスク依存の意味上または構文上の概念の一つに対して誤りを許容する(that can be mistaken)フレーズ(単語または複数の単語)のためのノンターミナルトークンを持つ少なくとも一つの文脈自由文法を用いる。特に、ステップ182においては、複数の文脈自由文法が得られる。複数の文脈自由文法には、タスク依存の意味上または構文上の概念(すなわち、選択されたアプリケーションに直接、関連する意味上または構文上の概念)を表すノンターミナルトークンを有する文脈自由文法のセット、および所望のタスク依存の意味上または構文上の概念の一つに対し誤りを許容するフレーズのためのノンターミナルトークンを有する少なくとも一の文脈自由文法が含まれる。例えば、タスク依存のアプリケーションは、Nグラムモデルにおける意味上の概念として週のうちの曜日をモデリングすることが要求されるかもしれない。以下の形態の文脈自由文法が、タスク独立のコーパスの分析(パージング)中使用することができる。
【0053】
【表4】
Figure 0005099953
【0054】
しかし、タスク独立のコーパスには、「ジョー フライデイ」と呼ばれる人への参照が含まれるかもしれない。この例で「フライデイ」を姓とし、かつ曜日と分析されるというNグラムモデルにおいてエラーを招くであろう事態を避けるため、複数の文脈自由文法は以下の形態
【0055】
【表5】
Figure 0005099953
【0056】
の文脈自由文法を含むことができる。
【0057】
この方法では、週のうちの曜日というインスタンスは、「フライデイ」が個別の姓である場合のインスタンスから区別されて特定されるであろう。
【0058】
ステップ184は、複数の文脈自由文法によってタスク独立のコーパスを分析し、各々の意味上または構文上の概念に対し、ワードオカレンスを特定することを示している。目的のアプリケーションに関する概念を表すノンターミナルに対し特定されたワードオカレンスの各々は、ステップ186において、対応する文脈自由文法によって定められた対応するノンターミナルトークンに置き換えられる。換言すれば、分析中のエラー(例えば、上記の例では<Person With Last Name Friday>)を回避するため導入された異質なノンターミナルで特定された単語シーケンスは対応するノンターミナルとは置き換えられない。Nグラムモデルは、ステップ188に示すように組み込まれたノンターミナルトークンをもって、構築することができる。ステップ190は、ステップ170に類似しており、選択されたアプリケーションに適した文脈自由文法の第2のセットを取得することを含む。
【0059】
言語処理、例えば音声認識中に使用された場合、ノンターミナルトークンをもつNグラムモデルおよびタスク依存のプリケーションに関連した複数の文脈自由文法は音声認識モジュール100がアクセスすることができるコンピュータ読み取り可能な媒体上に格納される。しかし、以上の文脈自由文法は、タスク独立のコーパスを正式に分析するためにのみ使用されることから、所望のタスク依存の意味上または構文上の概念の一つに対し誤る可能性のあるフレーズに関連した文脈自由文法を含む必要はない。これらの文法に関連したフレーズが、選択されたアプリケーションにおいて話されることは普通ない。したがって、複数の文脈自由文法の範囲またはサイズは、音声認識中ではより小さくなり、これに対応して、コンピュータ50で必要とされる記憶空間はタスク独立のコーパスを分析するために使用されるよりも小さくなる。
【0060】
一実施形態では、Nグラムモデルを構築するステップ188には、所望であるタスク依存の意味上または構文上の概念の一つについて誤りを許容する、少なくともいくつかの関連するテキストをノンターミナルトークンのためのタスク独立のコーパスから除去することが含まれる。この方法では、タスク独立のコーパスのサイズをパージングされる前に縮小させ、メソッド180がより早く実行することができるようにする。
【0061】
メソッド180には、所望であるタスク依存の意味上または構文上の概念の一つについてなされたフレーズ(単語または複数の単語)のための誤りを確認するため、パージングされたタスク独立のコーパスまたは結果得られたNグラムモデルを検査する追加のステップが含まれることにも留意すべきである。次いで、正式な文脈自由文法が決定され、ステップ182における複数の文脈自由文法に含まれる。パージングされたタスク独立のコーパスまたはNグラムモデルを再検査するために必要なものとして、184から188までのステップを実施し、誤りが訂正されたか否かを確かめることができる。必要であれば誤りが訂正され、適切なNグラムモデルが得られるまで、このインタラクティブなプロセスを繰り返すことができる。
【0062】
上記で検討したように、タスク独立のコーパスは汎用的なコーパスであり、事実、ほとんどのコーパスは、開発者が注目するタスクやアプリケーションには無関係であると思われる。それにもかかわらず、タスク独立のコーパスには、タスクまたはアプリケーションに関連するテキストが含まれるかもしれない。一般的に、本発明の他の形態には、情報検索システムにおいてクエリとして使用することができるフレーズ、文章または文章の一部分を形成するため、タスク依存の文脈自由文法を用いることが含まれる。情報検索システムは、タスク独立のコーパスを調べ、このクエリに類似する部分を特定する。タスク独立のコーパスのうちの特定されたテキストは、選択されたタスクまたはアプリケーションにより密接に関連する;したがって、特定されたテキストから導き出された言語モデルは、完全なタスク独立のコーパスに基づいた言語モデルよりも明確でありえる。加えて、たとえ明確なタスクまたはアプリケーションを知るものが文脈自由文法を記述しても、そのタスク又はアプリケーションために使用することができる種々の単語シーケンスの全ては知らないかもしれない。この手法は、タスク独立のコーパスの範囲を限定するが、タスクを特定した文章やフレーズなどのさらに多くの例を特定することができる。
【0063】
図7は、上で検討した仕方でタスク独立のコーパスから言語モデルを生成するための方法200を示している。ステップ202には、選択されたアプリケーションの意味上または構文上の概念を表しているノンターミナルトークンを備えた複数の文脈自由文法を取得することが含まれる。上述のように、普通、文脈自由文法は、意味上または構文上の概念の各々に対し選択されたアプリケーションの中では、どんなフレーズが使用されるかという知識を少なくともいくつかは持っている開発者により記述されるが、このようなフレーズについての知識量は申し分ないものではない。ステップ204において、単語フレーズは複数の文脈自由文法から生成される。単語フレーズには、ノンターミナルトークンが複数の単語を含む、関連する文脈自由文法によって定められた種々の組み合わせまたは置き換えのいくつかまたは全部が含まれる。
【0064】
ステップ206において、少なくとも一つのクエリが、生成された単語フレーズのうちの少なくとも一つを用いて、情報検索システムのために公式化される。このクエリは、TF−IDFベクトルを使用する統計的「単語の集合」(“bag of words”)手法を用いて生成することができる。クエリとタスク独立のコーパスのセグメントとの類似性は、コサインシミラリティメジャー(cosine similarity measure)を用いて、計算することができる。一般に、これらは、情報検索の分野でよく知られた手法である。これに替えて、クエリは、単語フレーズを組み合わせるために必要とされる(“and”や“or”などの)ブール論理を含むことができる。しかし、本技術分野の精通者に理解されるように、各クエリは、単に、分離した単語フレーズとすることができる。
【0065】
ステップ208において、タスク独立のコーパスは、公式化されたクエリに基づいて照会される。タスク独立のコーパスに対してクエリを生成し実行するための特定の情報検索手法は、本発明の本実施形態では重要ではない。むしろ、任意の適切なクエリ開発と情報検索手法を用いることができる。本発明の手法にしたがって、特定されたテキストから生成された言語モデルは、タスク独立のコーパスのより密接に関連したテキストを特定する情報検索手法によって、さらにうまく動作することを簡単に指摘しておくべきである。
【0066】
タスク独立のコーパスにおいて特定されるテキストが、ステップ210に示される。言語モデルは、ステップ212に示すように特定されたテキストを用いて組み立てることができる。
【0067】
ここで、図7に示された方法は、統一化された言語モデルにも、あるいはNグラムにさえ限定されないが、というよりもむしろ、そのモデルがタスク独立のコーパスに基づいている言語処理システムにおいて用いられる、いかなるタイプの言語モデルを形成するときにも役立ち得るということに留意すべきである。とはいっても、方法200は、Nグラムモデルを構築する際には特に有用である。Nグラム言語モデルまたはハイブリッドNグラム言語モデルの場合には、ステップ212は、通常Nグラムアルゴリズムを使用する必要があるであろう。
【0068】
図8は、図7の方法200に類似する方法220を示し、同様のステップを識別するために同じ符号を付した。しかし、方法220は、文脈自由文法のノンターミナルトークンをもって、Nグラム言語モデルを生成するために使用することができる。上述のステップに加えて、方法220にはまた、ステップ222に示すように、各意味上または構文上の概念に対しワードオカレンスを特定するため、複数の文脈自由文法を持つタスク独立のコーパスの特定されたテキストをパージングすることが含まれる。次に、ステップ224には、特定されたワードオカレンスの各々を選択されたノンターミナルに対応するノンターミナルトークンで置き換えることが含まれる(すなわち、パージング中の誤りを回避するために導入されたノンターミナルを除去する)。ステップ212には、ノンターミナルトークンをもって、Nグラムモデルを組み立てることが含まれる。方法200および220の双方において、関連するテキストがタスク独立のコーパスの中で特定される。必要ならば、特定されたテキストは、関連するテキストを分離し、より容易な処理を提供する際の補助として、抽出され、コピーされ、さもなければタスク独立のコーパスとは別に記憶することができる。
【0069】
図9は、本発明の他の実施形態を示すブロック図である。一般に、本実施形態には、文脈自由文法より得られた単語フレーズからNグラム言語モデルを形成し、このNグラム言語モデルを、タスク独立のコーパスに基づいた他のNグラム言語モデルに組み合わせることが含まれる。図9に示された実施例において、ブロック240は、選択されたタスクまたはアプリケーションについて取得された(例えば、開発者により著された)文脈自由文法を表している。文脈自由文法は、方法200または220のステップ204と類似する仕方で、合成されたデータまたは単語フレーズ242を生成するため用いられる。次に、単語フレーズ242は、Nグラムアルゴリズム244に提供され、第1のNグラム言語モデル244が構築される。
【0070】
図9はまた、ブロック図の形式でステップ206、208および210を示しており、ここで、文脈自由文法は、少なくとも一つのフレーズから情報検索クエリを公式化するために使用され、公式化されたクエリに基づいてタスク独立のコーパスを検索し、クエリに基づきタスク独立のコーパスの中で関連するテキストを特定し、および特定されたテキストから第2のNグラム言語モデルを構築する。ブロック248は、第2のNグラム言語モデル250を得るためのNグラムアルゴリズムのアプリケーションを示している。
【0071】
第3のNグラム言語モデル252は、第1のNグラム言語モデル246と第2のNグラム言語モデルを組み合わせて形成される。この組み合わせは、任意の既知のスムージング手法、例えば内挿法、削除補間法または任意の他の適当な手法を用いて実施される。必要であれば、第2の言語モデルは、特定されたテキストが正確であると信じるに足るか否かに基づいて重み付けすることができる。重み付けは、タスク独立のコーパスの中で特定されたテキストの量や使用されたクエリの数などに基づくことができる。
【0072】
他の実施例では、意味上または構文上の概念を表現するノンターミナルトークンは、特定されたテキストまたはタスク独立のコーパスに挿入し、第2のNグラム言語モデルにノンターミナルトークンを含めることができる。このオプションは、ブロック264への断続線と矢印266および268で示される。もちろん、このオプションが選ばれた場合、特定されたテキスト210は、直接Nグラムアルゴリズム248にではなく、むしろブロック264に提供されるであろう。特定されたテキストあるいはタスク独立のコーパスに挿入されたノンターミナルトークンは、ブロック240において取得された文脈自由文法、またはこれと替えて、上で検討した理由で他の文脈自由文法を含む文脈自由文法の別のセット270に基づくことができる。第3のNグラム言語モデルがノンターミナルを持って構築されたとき、一般に、ブロック242における単語フレーズまたは合成データにはまた、同様にノンターミナルも含まれる。
【0073】
文脈自由文法が合成データを生成するため用いられた場合、単語フレーズがノンターミナルおよびノンターミナルのターミナルによって形成される確率は、必要に応じ選択される;例えば、各々を等しい確率とすることができる。
【0074】
タスク独立の統一化された言語モデルには、Nグラムにおける組み込み型文脈自由文法のノンターミナルトークンに加えて、ノンターミナルトークンを定める複数の文脈自由文法が含まれる。各文脈自由文法内では、標準の確率文脈自由文法が使用される。しかし、特定のタスクまたはアプリケーションに関連する実データなければ、簡単に各ターミナルの確率の見積もりを決定することはできない。換言すると、開発者は、複数の文脈自由文法を著すか、さもなければ取得することができる;しかし、各ターミナルの確率の見積もりは、容易には分からないかもしれない。たとえ、一様な確率の配分が用いられても、本発明の別の形態には、少なくともいくつかの文脈自由文法のターミナルに確率を、対応するタスク独立のコーパスにより構築されたNグラム言語モデルから同じターミナルに対し取得された確率の関数として割り当てることが含まれる。文脈自由文法のターミナルへの確率の割当には、各文脈自由文法におけるNグラム言語モデルからのターミナルの確率を、対応する文脈自由文法におけるターミナルの関数として正規化することが含まれるのが望ましい。換言すれば、文脈自由文法は、Nグラム言語モデルからのターミナルの認められるセットを拘束しまたは定める。したがって、Nグラム言語モデルからのターミナルの確率は、対応する文脈自由文法においてあらわされたターミナルと同じ確率空間において、適切に正規化される必要がある。
【0075】
【外1】
Figure 0005099953
【0076】
【数4】
Figure 0005099953
【0077】
である。
【0078】
【外2】
Figure 0005099953
【0079】
【数5】
Figure 0005099953
【0080】
ここで、</s>は、専用の文末の単語を表している。文脈自由文法のノンターミナル内で履歴を付与された単語の可能性を計算するため、3つの異なった方法が用いられる。
【0081】
【外3】
Figure 0005099953
【0082】
【数6】
Figure 0005099953
【0083】
一様なモデルでは、文脈自由文法のノンターミナルの下での経験上の単語の配分は獲得されない。既存のドメイン独立の単語の3−グラム確率を継承することがよりよい代替手段である。これらの確率は、同一の確率空間に適切に正規化されなければならない。本手法を示すため単語の3−グラムモデルを使用したとしても、いかなる単語ベースの言語モデルを、異なるNによる単語レベルのNグラムを含め、ここでは使用することができることに留意すべきである。また、本手法は単語の言語モデルがどのようにトレーニングされるか(特に、タスク独立のコーパスまたはタスク依存のコーパスのいずれを用いるか)にかかわらず適用することができる。これによって、得られる:
【0084】
【数7】
Figure 0005099953
【0085】
特定のCFGのノンターミナルによってカバーされる単語シーケンスのモデル化を改善する別の方法は、各ノンターミナルtに対し特定の単語の3−グラム言語モデルP(wn|wn-2,wn-1)を用いることである。式(7)におけると同一のものが正規化を実施される。
【0086】
自然言語があいまいであるため、Wに対して複数のセグメンテーションが可能となるかも知れない。したがって,Wの可能性は、全てのセグメンテーションに渡る合計値S(W)である:
【0087】
【数8】
Figure 0005099953
【0088】
本発明は、好ましい実施例に関して記述してきたが、本発明の精神と範囲内から出発することなく形式的、詳細な部分に変更を加えることができることが、本技術分野に精通した者には理解されるであろう。
【図面の簡単な説明】
【図1】 言語処理システムのブロック図である。
【図2】 例示のコンピュータ環境のブロック図である。
【図3】 例示の音声認識システムのブロック図である。
【図4】 統一化された言語モデルを模式的に示す図である。
【図5】 本発明の異なる形態についてのフローチャートである。
【図6】 本発明の異なる形態についてのフローチャートである。
【図7】 本発明の異なる形態についてのフローチャートである。
【図8】 本発明の異なる形態についてのフローチャートである。
【図9】 本発明の他の形態のブロック図である。

Claims (4)

  1. 選択されたアプリケーションのためのタスク依存の統一化された言語モデルを、タスク独立のコーパスから生成し、該タスク依存の統一化された言語モデルは、言語処理システムにおいて使用するために存在し、Nグラムモデル中の組み込み型の文脈自由文法のノンターミナルトークンを有している方法であって、プロセッサに、
    前記選択されたアプリケーションの意味上または構文上の概念を表すノンターミナルトークンを含む第1の複数の文脈自由文法を取得するステップであって、該複数の文脈自由文法の各々は、意味上または構文上の概念を形成するために、前記タスク独立のコーパス中に現存する単語を有する、ステップと、
    前記第1の複数の文脈自由文法によって前記タスク独立のコーパスをパージングして前記意味上または構文上の概念の各々の単語と一致する単語を特定するステップと、
    当該特定された単語の各々を、前記特定された単語に対応するノンターミナルトークンで置き換えるステップと、
    当該置き換えられたノンターミナルトークンを有するNグラムモデルを構築するステップと、
    当該構築されたNグラムモデルのノンターミナルトークンを用いて、前記第1の複数の文脈自由文法とは異なる複数の文脈自由文法を格納した記憶部を検索することにより、前記第1の複数の文脈自由文法に含まれるノンターミナルトークンと同一の意味上または構文上の概念を表すノンターミナルトークンの少なくとも1つを備えた第2の複数の文脈自由文法を取得するステップと
    を実行させることを特徴とする方法。
  2. 前記ノンターミナルトークンを有する前記Nグラムモデルと、タスク依存の意味上または構文上の概念を表すノンターミナルトークンを有する前記第2の複数の文脈自由文法とをコンピュータ読み取り可能な媒体上に記憶するステップを前記プロセッサにさらに実行させることを特徴とする請求項1に記載の方法。
  3. 言語処理システムのためのタスク依存の統一化された言語モデルを構築するための方法を実行するためのコンピュータ読み取り可能な命令を格納したコンピュータ読み取り可能な媒体において、前記方法は、
    前記選択されたアプリケーションの意味上または構文上の概念を表すノンターミナルトークンを含む第1の複数の文脈自由文法にアクセスするステップであって、該複数の文脈自由文法の各々は、前記タスク独立のコーパスに現存する単語を有し、意味上または構文上の概念を形成するステップと、
    前記第1の複数の文脈自由文法によって前記タスク独立のコーパスをパージングして、意味上または構文上の概念の各々の単語と一致する単語を特定するステップと、
    当該特定された単語の各々を、前記特定された単語に対応するノンターミナルトークンで置き換えるステップと、
    当該置き換えられたノンターミナルトークンを有するNグラムモデルを構築するステップと、
    当該構築されたNグラムモデルと、前記第1の複数の文脈自由文法に含まれるノンターミナルトークンと同一の意味上または構文上の概念を表すノンターミナルトークンの少なくとも1つを備えた第2の複数の文脈自由文法とを記憶するステップであって、前記第2の複数の文脈自由文法は、当該構築されたNグラムモデルのノンターミナルトークンを用いて、前記第1の複数の文脈自由文法とは異なる複数の文脈自由文法を格納した記憶部を検索することにより取得される、ステップ
    を備えることを特徴とするコンピュータ読み取り可能な媒体。
  4. 前記方法は、前記ノンターミナルトークンを有する前記Nグラムモデルと、タスク依存の意味上または構文上の概念を表すノンターミナルトークンを有する前記第2の複数の文脈自由文法とをコンピュータ読み取り可能な媒体上に記憶するステップをさらに含むことを特徴とする請求項3に記載のコンピュータ読み取り可能な媒体。
JP2002500373A 2000-06-01 2001-05-23 情報検索手法による統一化されたタスク依存の言語モデルの生成 Expired - Fee Related JP5099953B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/585,298 US7031908B1 (en) 2000-06-01 2000-06-01 Creating a language model for a language processing system
US09/585,298 2000-06-01
PCT/US2001/016851 WO2001093246A2 (en) 2000-06-01 2001-05-23 Creating a unified task dependent language models with information retrieval techniques

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011203218A Division JP5162697B2 (ja) 2000-06-01 2011-09-16 情報検索手法による統一化されたタスク依存の言語モデルの生成

Publications (3)

Publication Number Publication Date
JP2003535410A JP2003535410A (ja) 2003-11-25
JP2003535410A5 JP2003535410A5 (ja) 2008-07-17
JP5099953B2 true JP5099953B2 (ja) 2012-12-19

Family

ID=24340846

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002500373A Expired - Fee Related JP5099953B2 (ja) 2000-06-01 2001-05-23 情報検索手法による統一化されたタスク依存の言語モデルの生成
JP2011203218A Expired - Fee Related JP5162697B2 (ja) 2000-06-01 2011-09-16 情報検索手法による統一化されたタスク依存の言語モデルの生成

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011203218A Expired - Fee Related JP5162697B2 (ja) 2000-06-01 2011-09-16 情報検索手法による統一化されたタスク依存の言語モデルの生成

Country Status (7)

Country Link
US (2) US7031908B1 (ja)
EP (1) EP1290676B1 (ja)
JP (2) JP5099953B2 (ja)
AT (1) ATE343198T1 (ja)
AU (1) AU2001274936A1 (ja)
DE (1) DE60123952T2 (ja)
WO (1) WO2001093246A2 (ja)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US8793160B2 (en) 1999-12-07 2014-07-29 Steve Sorem System and method for processing transactions
US7243069B2 (en) * 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
US7275033B1 (en) * 2000-09-30 2007-09-25 Intel Corporation Method and system for using rule-based knowledge to build a class-based domain specific statistical language model
US7346495B1 (en) * 2000-09-30 2008-03-18 Intel Corporation Method and system for building a domain specific statistical language model from rule based grammar specifications
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US8020754B2 (en) 2001-08-13 2011-09-20 Jpmorgan Chase Bank, N.A. System and method for funding a collective account by use of an electronic tag
US7716207B2 (en) * 2002-02-26 2010-05-11 Odom Paul S Search engine methods and systems for displaying relevant topics
US7340466B2 (en) * 2002-02-26 2008-03-04 Kang Jo Mgmt. Limited Liability Company Topic identification and use thereof in information retrieval systems
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
FR2841355B1 (fr) 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
US20040122736A1 (en) 2002-10-11 2004-06-24 Bank One, Delaware, N.A. System and method for granting promotional rewards to credit account holders
WO2004049192A2 (en) * 2002-11-28 2004-06-10 Koninklijke Philips Electronics N.V. Method to assign word class information
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US7328147B2 (en) 2003-04-03 2008-02-05 Microsoft Corporation Automatic resolution of segmentation ambiguities in grammar authoring
AU2003902020A0 (en) * 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
US7197457B2 (en) * 2003-04-30 2007-03-27 Robert Bosch Gmbh Method for statistical language modeling in speech recognition
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
JP2004334193A (ja) * 2003-05-01 2004-11-25 Microsoft Corp 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US8306907B2 (en) 2003-05-30 2012-11-06 Jpmorgan Chase Bank N.A. System and method for offering risk-based interest rates in a credit instrument
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US20060253273A1 (en) * 2004-11-08 2006-11-09 Ronen Feldman Information extraction using a trainable grammar
US8229737B2 (en) * 2004-11-23 2012-07-24 International Business Machines Corporation Name classifier technique
US20070005597A1 (en) * 2004-11-23 2007-01-04 Williams Charles K Name classifier algorithm
US7242751B2 (en) * 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7401731B1 (en) 2005-05-27 2008-07-22 Jpmorgan Chase Bank, Na Method and system for implementing a card product with multiple customized relationships
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
WO2007064639A2 (en) * 2005-11-29 2007-06-07 Scientigo, Inc. Methods and systems for providing personalized contextual search results
US8442828B2 (en) * 2005-12-02 2013-05-14 Microsoft Corporation Conditional model for natural language understanding
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
EP2013791A4 (en) * 2006-05-04 2011-04-20 Jpmorgan Chase Bank Na SYSTEM AND METHOD FOR RESOLUTION AND FILTERING SERVICES OF LIMITED PARTICIPANTS
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US20070299665A1 (en) 2006-06-22 2007-12-27 Detlef Koll Automatic Decision Support
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US8401841B2 (en) * 2006-08-31 2013-03-19 Orcatec Llc Retrieval of documents using language models
KR100822670B1 (ko) 2006-09-27 2008-04-17 한국전자통신연구원 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8204738B2 (en) * 2006-11-03 2012-06-19 Nuance Communications, Inc. Removing bias from features containing overlapping embedded grammars in a natural language understanding system
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7809719B2 (en) * 2007-02-08 2010-10-05 Microsoft Corporation Predicting textual candidates
US7912700B2 (en) * 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
US8135578B2 (en) 2007-08-24 2012-03-13 Nuance Communications, Inc. Creation and use of application-generic class-based statistical language models for automatic speech recognition
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9129601B2 (en) 2008-11-26 2015-09-08 At&T Intellectual Property I, L.P. System and method for dialog modeling
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8515734B2 (en) * 2010-02-08 2013-08-20 Adacel Systems, Inc. Integrated language model, related systems and methods
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8655647B2 (en) * 2010-03-11 2014-02-18 Microsoft Corporation N-gram selection for practical-sized language models
US8725766B2 (en) * 2010-03-25 2014-05-13 Rovi Technologies Corporation Searching text and other types of content by using a frequency domain
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
US8990070B2 (en) * 2011-11-18 2015-03-24 International Business Machines Corporation Computer-based construction of arbitrarily complex formal grammar expressions
US9002772B2 (en) 2011-11-18 2015-04-07 International Business Machines Corporation Scalable rule-based processing system with trigger rules and rule evaluator
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9361363B2 (en) * 2012-12-31 2016-06-07 Facebook, Inc. Modifying structured search queries on online social networks
US10235358B2 (en) 2013-02-21 2019-03-19 Microsoft Technology Licensing, Llc Exploiting structured content for unsupervised natural language semantic parsing
WO2014189399A1 (en) 2013-05-22 2014-11-27 Axon Doo A mixed-structure n-gram language model
US9251135B2 (en) * 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information
US9400783B2 (en) * 2013-11-26 2016-07-26 Xerox Corporation Procedure for building a max-ARPA table in order to compute optimistic back-offs in a language model
US10073840B2 (en) 2013-12-20 2018-09-11 Microsoft Technology Licensing, Llc Unsupervised relation detection model training
US9286892B2 (en) 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
US9665560B2 (en) * 2014-04-15 2017-05-30 Oracle International Corporation Information retrieval system based on a unified language model
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
US9898459B2 (en) * 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9864741B2 (en) * 2014-09-23 2018-01-09 Prysm, Inc. Automated collective term and phrase index
US9767091B2 (en) * 2015-01-23 2017-09-19 Microsoft Technology Licensing, Llc Methods for understanding incomplete natural language query
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US11262909B2 (en) 2016-06-02 2022-03-01 Myscript System and method for input recognition linguistic resource management
US10120861B2 (en) * 2016-08-17 2018-11-06 Oath Inc. Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US10949620B2 (en) * 2016-10-06 2021-03-16 University Of Massachusetts Methods for automated controversy detection of content
US11138506B2 (en) 2017-10-10 2021-10-05 International Business Machines Corporation Abstraction and portability to intent recognition
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11521098B2 (en) 2018-03-28 2022-12-06 University Of Massachusetts Modeling controversy within populations
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN110046350B (zh) * 2019-04-12 2023-04-07 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US641431A (en) * 1899-07-22 1900-01-16 George Smith Bowers Acetylene-generator.
US4831550A (en) 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
DE3723078A1 (de) 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3739681A1 (de) 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US4984178A (en) * 1989-02-21 1991-01-08 Texas Instruments Incorporated Chart parser for stochastic unification grammar
US5263117A (en) 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
US5477451A (en) 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5502774A (en) 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
US5384892A (en) 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5615296A (en) 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5752052A (en) 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
US5689617A (en) 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
IT1279171B1 (it) 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5710866A (en) 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5899973A (en) 1995-11-04 1999-05-04 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
US5913193A (en) 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5835888A (en) 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US5963903A (en) 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5905972A (en) 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5829000A (en) 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
JP3027543B2 (ja) * 1996-12-11 2000-04-04 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置
EP0849723A3 (en) * 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
DE19708183A1 (de) 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6032111A (en) * 1997-06-23 2000-02-29 At&T Corp. Method and apparatus for compiling context-dependent rewrite rules and input strings
US6073091A (en) 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US6154722A (en) 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6418431B1 (en) 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6141641A (en) 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6188976B1 (en) 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6081799A (en) 1999-05-05 2000-06-27 International Business Machines Corporation Executing complex SQL queries using index screening for conjunct or disjunct index operations

Also Published As

Publication number Publication date
JP2012014189A (ja) 2012-01-19
ATE343198T1 (de) 2006-11-15
EP1290676A2 (en) 2003-03-12
US7286978B2 (en) 2007-10-23
DE60123952T2 (de) 2007-02-01
DE60123952D1 (de) 2006-11-30
WO2001093246A2 (en) 2001-12-06
AU2001274936A1 (en) 2001-12-11
EP1290676B1 (en) 2006-10-18
JP2003535410A (ja) 2003-11-25
WO2001093246A3 (en) 2002-09-12
US7031908B1 (en) 2006-04-18
US20060184354A1 (en) 2006-08-17
JP5162697B2 (ja) 2013-03-13

Similar Documents

Publication Publication Date Title
JP5099953B2 (ja) 情報検索手法による統一化されたタスク依存の言語モデルの生成
US7451089B1 (en) System and method of spoken language understanding in a spoken dialog service
US6865528B1 (en) Use of a unified language model
US8645122B1 (en) Method of handling frequently asked questions in a natural language dialog service
US7869998B1 (en) Voice-enabled dialog system
US7634406B2 (en) System and method for identifying semantic intent from acoustic information
US7529657B2 (en) Configurable parameters for grammar authoring for speech recognition and natural language understanding
US7617093B2 (en) Authoring speech grammars
US5930746A (en) Parsing and translating natural language sentences automatically
US6374224B1 (en) Method and apparatus for style control in natural language generation
US7630892B2 (en) Method and apparatus for transducer-based text normalization and inverse text normalization
US11776533B2 (en) Building a natural language understanding application using a received electronic record containing programming code including an interpret-block, an interpret-statement, a pattern expression and an action statement
US20020123877A1 (en) Method and apparatus for performing machine translation using a unified language model and translation model
EP1475778A1 (en) Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
JPH09505173A (ja) ルールに基づく自然言語パーザへの統計学的な処理をブートストラップする方法及びシステム
JP2003505778A (ja) 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
JP2006085160A (ja) アルファニューメリック概念のための音声認識文法の作成
WO2019169722A1 (zh) 快捷键识别方法、装置、设备以及计算机可读存储介质
US7328147B2 (en) Automatic resolution of segmentation ambiguities in grammar authoring
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
Di Fabbrizio et al. AT&t help desk.
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
JP2005031255A (ja) 辞書作成装置及び音声認識装置
Collins Head-driven probabilistic parsing for word lattices
Husain et al. Speech and Language Modeling

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080523

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080523

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110817

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120323

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20120621

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120625

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120621

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120723

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120918

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5099953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees