JP2002287787A

JP2002287787A - 明確化言語モデル

Info

Publication number: JP2002287787A
Application number: JP2002024740A
Authority: JP
Inventors: Yun-Cheng Ju; ユンチェンジュ; Fileno A Alleva; エー．アレーバフィレノ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2001-01-31
Filing date: 2002-01-31
Publication date: 2002-10-04
Also published as: US20020128831A1; US7251600B2; US20050171761A1; TW546631B; US6934683B2

Abstract

(57)【要約】【課題】音声認識システムなどの言語処理システム用
の言語モデルを提供すること。【解決手段】音声認識システムなどの言語処理システ
ム用の言語モデルは、関連付けられた文字、語句、およ
び文脈キューの関数として形成される。言語モデルをト
レーニングする際に使用されるトレーニングコーパスを
生成するための方法および装置、並びにこうした言語モ
デルを使用するシステムまたはモジュールを開示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は言語モデリングに関
する。さらに詳細には、入力された音声を文字認識する
際などに不明確さを最小限にするための言語モデルの作
成および使用に関する。

【０００２】

【従来の技術】音声（speech）を正確に認識するには、
ユーザが発声した正しいワードを選択するために、単な
る音響モデル以上のものが必要である。すなわち、どの
ワードが発声されたかを音声認識装置によって選択また
は判定しなければならない場合、すべてのワードの発声
される可能性が同じなら、音声認識装置は典型的には十
分な機能を果たさないことになる。言語モデルは、語彙
中のどのワードシーケンスが起こり得るかを指定する方
法または手段を提供するか、または一般に、様々なワー
ドシーケンスの可能性に関する情報を提供する。

【０００３】言語認識は、トップダウンの言語処理形態
を採ると考えられることが多い。一般的な言語処理は、
「トップダウン」と「ボトムアップ」の２つの形態を含
む。トップダウン言語処理は、文（a sentence）などの
最も大きな言語単位の認識から始まり、これを句（phra
ses）などのより小さな単位に分類し、次にこれをワー
ドなどのさらに小さな単位に分類していくものである。
これに対して、ボトムアップ言語処理はワードから始ま
り、これをさらに大きな句および／または文に組み立て
ていくものである。どちらの言語処理も、言語モデルの
恩恵を受けることができる。

【０００４】分類の一般的な手法の一つが、Ｎ−ｇｒａ
ｍ言語モデルを使用することである。Ｎ−ｇｒａｍは大
量のデータを使ってトレーニングすることができるた
め、ｎワード依存性は、構文と意味の両方の表層の構造
に継ぎ目なく適応できる場合が多い。Ｎ−ｇｒａｍ言語
モデルは、一般的なディクテーションにはかなりの成果
を挙げることができるが、同音異義語は重大なエラーを
引き起こす可能性がある。同音異義語とは、文字や音節
などの言語の一要素であり、発音はよく似ているが綴り
（spelling）の異なる２つまたはそれ以上の要素の一つ
である。例えば、ユーザが文字の綴りを言っているとき
に、一部の文字の発音が同じであるために音声認識モジ
ュールが間違った文字を出力してしまうことがある。同
様に、音声認識モジュールは、単に発声するときに互い
のサウンドが似ているだけの異なる文字（例えば「ｍ」
と「ｎ」）について、間違った文字を出力してしまうこ
とがある。

【０００５】不明確さの問題は、特に、漢字体系で書か
れることが多い日本語や中国語などの言語に関連してい
る。これらの言語の文字は、サウンドと意味とを表す多
くの複雑な表意文字である。限られた音節を形成する文
字が、今度は、ディクテーションによって文書を作成す
るのに必要な時間をかなり長引かせる多くの同音異義語
を作り出す。具体的に言えば、文書中で間違った同音異
義文字を識別し、次いで正しい同音異義文字を挿入しな
ければならない。

【０００６】

【発明が解決しようとする課題】したがって、異なる意
味を持ちサウンドが似ている音声が発声されるときに不
明確さを最小限にするための新しい方法を継続的に開発
していく必要がある。技術が進歩し、より多くの適用分
野で音声認識が実現されていくにしたがって、より正確
な言語モデルが入手可能でなければならない。

【０００７】

【課題を解決するための手段】音声認識装置は一般に、
正確さを向上させるＮ−ｇｒａｍ言語モデルなどの言語
モデルを使用する。本発明の第一の態様は、ワードの綴
りを言うときなどに、話し手が一つまたはいくつかの文
字（例えば音節）を識別する際に特に役立つ、言語モデ
ルの生成を含む。言語モデルは、同音異義語を明確化す
る場合、および異なる文字が互いに類似のサウンドであ
る場合に助けとなる。言語モデルは、文字列（単一の文
字の場合もある）、文字列を有する語句（単一の語の場
合もある）、および文脈キュー（a context cue）とい
う関連する要素を含むトレーニングコーパス（training
corpus）から構築される。トレーニングコーパスは、
ワードのリストまたは辞書を使用し、語句、文脈キュ
ー、および語句の文字列を含むそれぞれの語句につい
て、部分的な文（a partial sentence）または句を形成
することによって自動的に生成することができる。他の
実施形態では、語句のそれぞれの文字について句が作成
される。

【０００８】本発明の他の態様は、発声された文字を認
識する際に前述の言語モデルを使用するシステムまたは
モジュールである。関連付けられた語句における文脈キ
ューに関連して文字列が発声されると、音声認識モジュ
ールは、ユーザが綴りを言っているか、またはそうでな
ければ文字を識別していることを確認する。次いで音声
認識モジュールは、識別された文字だけを出力し、文脈
キューまたは関連付けられた語句は出力しない。他の実
施形態では、音声認識モジュールは、認識された文字と
認識された語句とを比較して正しい文字が識別されたこ
とを検証する。認識された文字が認識された語句の中に
ない場合、出力される文字は認識された語句の文字とな
る。

【０００９】

【発明の実施の形態】図１は、言語入力１２を受け取
り、言語入力１２を処理して言語出力１４を提供する言
語処理システム１０の概略を示す図である。例えば、言
語処理システム１０は、ユーザによって発声されたかま
たは記録された言語を言語入力１２として受け取る音声
認識システムまたはモジュール（a speech recognition
systemor module）として実施することができる。言語
処理システム１０は発声された言語を処理し、出力とし
て、典型的にはテキスト出力形式の認識されたワードお
よび／または文字として提供する。

【００１０】処理中に音声認識システムまたはモジュー
ル１０は、どのワードが、および具体的に言えば言語の
どの同音異義語または他の類似のサウンドの要素が発声
されたのかを判定するため、言語モデル１６にアクセス
することができる。言語モデル１６は、英語、中国語、
日本語などの特定の言語を符号化する。図示された実施
形態では、言語モデル１６は、Ｎ−ｇｒａｍ言語モデル
などの統計的言語モデル、文脈自由文法（context-free
-grammar）、または同様の混成であってよく、それらは
すべて当技術分野においてよく知られている。本発明の
幅広い態様の一つが、言語モデル１６を作成または構築
する方法である。他の幅広い態様は、同様のものを音声
認識において使用することである。

【００１１】本発明について詳細に論じる前に、動作環
境の概要について説明した方がよいであろう。図２およ
びこれに関する考察は、本発明を実施可能な好適なコン
ピュータシステム環境２０について、その概要を簡単に
説明したものである。コンピュータシステム環境２０
は、好適なコンピュータシステム環境の一例にすぎず、
本発明の使用または機能性の範囲を限定することを意図
するものではない。さらに、コンピューティング動作環
境２０は、例示的なコンピューティング動作環境２０に
図示された構成要素のいずれか一つ、またはいずれかの
組み合わせに関して、如何なる依存関係または要件も持
たないものと解釈しなければならない。

【００１２】本発明は、多くの他の汎用または特殊用途
向けコンピュータシステム環境または構成を用いて動作
可能である。本発明で使用するのに好適なよく知られた
コンピュータシステム、環境、および／または構成の例
には、パーソナルコンピュータ、サーバコンピュータ、
ハンドヘルドまたはラップトップ装置、マルチプロセッ
サシステム、マイクロプロセッサベースシステム、セッ
トトップボックス、プログラマブルな民生用電子製品、
ネットワークＰＣ、ミニコンピュータ、メインフレーム
コンピュータ、上記システムまたは装置のいずれかを含
む分散型コンピュータ環境などが含まれるが、これらに
限定されるものではない。さらに本発明は、電話システ
ムでも使用可能である。

【００１３】本発明は、コンピュータによって実行され
るプログラムモジュールなどの、コンピュータ実行可能
命令の一般的な文脈（context）おいて説明することが
できる。一般に、プログラムモジュールは、特定のタス
クを実行するかまたは特定の抽象データタイプ（abstra
ct data types）を実施するルーチン、プログラム、オ
ブジェクト、構成要素、データ構造などを含む。本発明
は、通信ネットワークを介してリンクされたリモート処
理装置によってタスクが実行される、分散型コンピュー
ティング環境において実施されてもよい。分散型コンピ
ューティング環境では、メモリストレージ装置を含むロ
ーカルおよびリモートの両方のコンピュータ記憶媒体に
プログラムモジュールが位置することができる。プログ
ラムおよびモジュールによって実行されるタスクについ
ては、図面を参照して下記で説明する。当業者であれ
ば、この説明および図面を、どのような形態のコンピュ
ータ可読媒体上にも書き込むことができるプロセッサ実
行可能命令として実施することができる。

【００１４】図２を参照すると、本発明を実施するため
の例示的なシステムは、コンピュータ３０の形態の汎用
コンピューティングデバイスを含む。コンピュータ３０
の構成要素は、処理ユニット４０と、システムメモリ５
０と、システムメモリを含む様々なシステム構成要素を
処理ユニット４０に結合させるシステムバス４１を含ん
でいるが、これらに限定されるものではない。システム
バス４１は、様々なバスアーキテクチャのうちのいずれ
かを使用するメモリバスまたはメモリ制御装置と、周辺
バスと、ローカルバスとを含む、いくつかのタイプのバ
ス構造のうちいずれかであってよい。例を挙げると、こ
うしたアーキテクチャは、ＩｎｄｕｓｔｒｙＳｔａｎ
ｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ（ＩＳＡ）バス、
ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒ
ｅ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、Ｖｉ
ｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓ
Ａｓｓｏｃｉａｔｉｏｎ（ＶＥＳＡ）ローカルバス、お
よびＭｅｚｚａｎｉｎｅ（メザニン）バスとも呼ばれる
ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅ
ｒｃｏｎｎｅｃｔ（ＰＣＩ）バスを含むが、これらに限
定されるものではない。

【００１５】コンピュータ３０は、典型的には様々なコ
ンピュータ可読媒体を含んでいる。コンピュータ可読媒
体はコンピュータ３０がアクセス可能な任意の使用可能
媒体であってよく、揮発性および不揮発性媒体、取り外
し可能および取り外し不可能媒体の両方が含まれる。例
を挙げると、コンピュータ可読媒体はコンピュータ記憶
媒体および通信媒体を含むが、これらに限定されるもの
ではない。コンピュータ記憶媒体は、コンピュータ可読
命令、データ構造、プログラムモジュール、または他の
データなどの情報を記憶するための任意の方法または技
術において実施される揮発性および不揮発性、取り外し
可能および取り外し不可能の両方の媒体を含む。コンピ
ュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フ
ラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、
デジタル汎用ディスク（ＤＶＤ）または他の光ディスク
ストレージ、磁気カセット、磁気テープ、磁気ディスク
ストレージまたは他の磁気ストレージ装置、あるいは、
所望の情報をストアするのに使用可能であって、コンピ
ュータシステム環境２０がアクセス可能な任意の他の媒
体を含むが、これらに限定されるものではない。通信媒
体は、典型的にはコンピュータ可読命令、データ構造、
プログラムモジュール、または他のデータを、搬送波ま
たは他の転送メカニズムなどの変調データ信号として具
体化するものであって、任意の情報送達媒体を含む。
「変調データ信号」という用語は、その１つ以上の特徴
を信号中で情報を符号化するように設定または変更した
信号を意味する。例を挙げると、通信媒体は、有線ネッ
トワークまたは直接有線接続などの有線媒体、並びに音
響、ＦＲ、赤外線、および他の無線媒体などの無線媒体
を含むが、これらに限定されるものではない。前述のい
ずれの組み合わせも、コンピュータ可読媒体の範囲内に
含まれるものでなければならない。

【００１６】システムメモリ５０は、読み取り専用メモ
リ（ＲＯＭ）５１およびランダムアクセスメモリ（ＲＡ
Ｍ）５２などの、揮発性および／または不揮発性のメモ
リ形態のコンピュータ記憶媒体を含む。起動時などにコ
ンピュータ３０内の要素間で情報を転送するのに役立つ
基本ルーチンを含む基本入出力システム（ＢＩＯＳ）５
３は、典型的にはＲＯＭ５１にストアされる。ＲＡＭ５
２は、典型的には即時アクセスが可能であり、並びに／
あるいは処理ユニット４０によって現在動作中のデータ
および／またはプログラムモジュールを含む。図２に
は、オペレーティングシステム５４、アプリケーション
プログラム５５、他のプログラムモジュール５６、およ
びプログラムデータ５７が例示的に示されているが、こ
れらに限定されるものではない。

【００１７】コンピュータ３０には、他の取り外し可能
／取り外し不可能の揮発性／不揮発性コンピュータ記憶
媒体を含めることもできる。図２には、取り外し不可能
な不揮発性磁気媒体からの読取り、またはこれへの書込
みを行うハードディスクドライブ６１と、取り外し可能
な不揮発性磁気ディスク７２からの読取り、またはこれ
への書込みを行う磁気ディスクドライブ７１と、ＣＤ−
ＲＯＭまたは他の光媒体などの取り外し可能な不揮発性
光ディスク７６からの読取り、またはこれへの書込みを
行う光ディスクドライブ７５とが例示的に示されてい
る。例示的な動作環境で使用可能な他の取り外し可能／
取り外し不可能な揮発性／不揮発性コンピュータ記憶媒
体には、磁気テープカセット、フラッシュメモリカー
ド、デジタル汎用ディスク、デジタルビデオテープ、ソ
リッドステートＲＡＭ、ソリッドステートＲＯＭなどを
含むが、これらに限定されるものではない。ハードディ
スクドライブ６１は、典型的にはインターフェース６０
などの取り外し不可能メモリインターフェースを介して
システムバス４１に接続され、磁気ディスクドライブ７
１および光ディスクドライブ７５は、典型的にはインタ
ーフェース７０などの取り外し可能メモリインターフェ
ースによってシステムバス４１に接続される。

【００１８】上述し、図２に図示されたドライブおよび
それに関連付けられたコンピュータ記憶媒体は、コンピ
ュータ３０に関するコンピュータ読取り可能命令、デー
タ構造、プログラムモジュール、および他のデータの記
憶領域（storage）を提供する。例えば図２では、ハー
ドディスクドライブ６１は、オペレーティングシステム
６４、アプリケーションプログラム６５、他のプログラ
ムモジュール６６、およびプログラムデータ６７をスト
アしているように図示されている。これらの構成要素
は、オペレーティングシステム５４、アプリケーション
プログラム５５、他のプログラムモジュール５６、およ
びプログラムデータ５７と同じであるか異なるかのいず
れでもよいことに留意されたい。オペレーティングシス
テム６４、アプリケーションプログラム６５、他のプロ
グラムモジュール６６、およびプログラムデータ６７に
は、少なくとも異なる複製物であることを示すために、
ここでは異なる番号が与えられている。

【００１９】ユーザは、キーボード８２やマイクロフォ
ン８３、マウス、トラックボール、またはタッチパッド
などのポインティングデバイス８１などといった入力装
置を介して、コマンドおよび情報をコンピュータ３０に
入力することができる。他の入力装置（図示せず）に
は、ジョイスティック、ゲームパッド、衛星放送用パラ
ボラアンテナ、スキャナなどが含まれる。これらおよび
その他の入力装置は、システムバスに結合されたユーザ
入力インターフェース８０を介して処理ユニット４０に
接続されることが多いが、他のインターフェースおよび
パラレルポート、ゲームポート、またはＵｎｉｖｅｒｓ
ａｌＳｅｒｉａｌＢｕｓ（ＵＳＢ）などのバス構造
によって接続することも可能である。モニタ８４または
他のタイプのディスプレイ装置も、ビデオインターフェ
ース８５などのインターフェースを介してシステムバス
４１に接続される。コンピュータは、モニタに加え、出
力周辺インターフェース８８を介して接続可能なスピー
カ８７およびプリンタ８６などの他の周辺出力装置を含
むこともできる。

【００２０】コンピュータ３０は、リモートコンピュー
タ９４などの１つ以上のリモートコンピュータへの論理
接続を使用するネットワーク化された環境で動作するこ
とができる。リモートコンピュータ９４は、パーソナル
コンピュータ、ハンドヘルドデバイス、サーバ、ルー
タ、ネットワークＰＣ、ピアデバイス、または他の共通
ネットワークノードであってよく、典型的には、コンピ
ュータ３０に関して上記で述べた多くの、またはすべて
の要素を含む。図２に示された論理接続は、ローカルエ
リアネットワーク（ＬＡＮ）９１およびワイドエリアネ
ットワーク（ＷＡＮ）９３を含んでいるが、他のネット
ワークを含むことも可能である。こうしたネットワーク
環境は、会社、企業規模のコンピュータネットワーク、
イントラネット、およびインターネットによく見られる
ものである。

【００２１】ＬＡＮネットワーク環境で使用される場
合、コンピュータ３０はネットワークインターフェー
ス、すなわちアダプタ９０を介してＬＡＮ９１に接続さ
れる。ＷＡＮネットワーク環境で使用される場合、コン
ピュータ３０は典型的には、モデム９２、またはインタ
ーネットなどのＷＡＮ９３を介して通信を確立するため
の他の手段を含む。モデム９２は内蔵または外付けのい
ずれでもよく、ユーザ入力インターフェース８０または
他の適切なメカニズムを介してシステムバス４１に接続
することができる。ネットワーク環境では、コンピュー
タ３０に関して示されたプログラムモジュールまたはそ
の一部を、リモートメモリストレージ装置にストアする
ことができる。図２では、リモートコンピュータ９４に
リモートアプリケーションプログラム９５が常駐してい
るように示されているが、これは例示的であって限定的
なものではない。図示されたネットワーク接続は例示的
なものであって、コンピュータ間に通信リンクを確立す
る他の手段が使用可能であることを理解されよう。

【００２２】音声認識システム１００の実施例を図３に
示す。音声認識システム１００は、マイクロフォン８
３、アナログ／デジタル（Ａ／Ｄ）変換器１０４、トレ
ーニングモジュール１０５、特徴抽出モジュール１０
６、語彙目録記憶モジュール１１０、音響モデルおよび
ｓｅｎｏｎｅツリー１１２、ツリー検索エンジン１１
４、言語モデル１６、および汎用言語モデル１１１を含
む。音声認識システム１００の全体または一部が図２に
示された環境で実施可能であることに留意されたい。例
えば、マイクロフォン８３は、適切なインターフェース
およびＡ／Ｄ変換器１０４を介したコンピュータ３０へ
の入力装置として提供可能なことが好ましい。トレーニ
ングモジュール１０５および特徴抽出モジュール１０６
は、コンピュータ３０内のハードウェアモジュールまた
は図２に開示されたいずれかの情報ストレージ装置にス
トアされたソフトウェアモジュールのいずれかであって
よく、処理ユニット４０または他の好適なプロセッサに
よりアクセス可能である。さらに、語彙目録記憶モジュ
ール１１０、音響モデル１１２、並びに言語モデル１６
および１１１も、図２に示されたいずれかのメモリ装置
にストアされることが好ましい。さらに、ツリー検索エ
ンジン１１４は、処理ユニット４０（１つ以上のプロセ
ッサを含むことが可能）内で実施されるか、またはコン
ピュータ３０が使用する専用の音声認識プロセッサによ
って実施可能である。

【００２３】例示された実施形態によれば、音声認識時
に、音声はユーザによるマイクロフォン８３への可聴音
声信号の形で、音声認識システム１００への入力として
提供される。マイクロフォン８３は可聴音声信号をアナ
ログ電気信号に変換し、これがＡ／Ｄ変換器１０４に送
られる。Ａ／Ｄ変換器１０４は、アナログ音声信号をデ
ジタル信号シーケンスに変換し、これが特徴抽出モジュ
ール１０６に送られる。一実施形態では、特徴抽出モジ
ュール１０６は、デジタル信号のスペクトル分析を実行
して周波数スペクトルの各周波数帯の値を計算する従来
のアレイプロセッサである。例示的な一実施形態では、
信号は、Ａ／Ｄ変換器１０４によって略１６ｋＨｚのサ
ンプリングレートで特徴抽出モジュール１０６に送られ
る。

【００２４】特徴抽出モジュール１０６は、Ａ／Ｄ変換
器１０４から受け取ったデジタル信号を複数のデジタル
サンプルを含むフレームに分割する。それぞれのフレー
ムの持続時間はおよそ１０ミリ秒である。その後フレー
ムは、特徴抽出モジュール１０６によって、複数の周波
数帯のスペクトル特性を表す特徴ベクトルに符号化され
る。離散的で半連続的な隠れＭａｒｋｏｖモデリングの
場合、特徴抽出モジュール１０６は、ベクトル量子化手
法およびトレーニングデータから導出されたコードブッ
クを使用して、特徴ベクトルを１つ以上の符号語にも符
号化する。したがって、特徴抽出モジュール１０６はそ
の出力に、発声されたそれぞれの言葉について特徴ベク
トル（または符号語）を提供する。特徴抽出モジュール
１０６は、１特徴ベクトル（または符号語）レートで、
あるいはおよそ１０ミリ秒ごとに、特徴ベクトル（また
は符号語）を提供する。

【００２５】その後、分析される特定フレームの特徴ベ
クトル（または符号語）を使用して隠れＭａｒｋｏｖモ
デルに対する出力確率分布が計算される。これらの確率
分布は、その後、Ｖｉｔｅｒｂｉ復号化プロセスまたは
同様の種類の処理手法を実行する際に使用される。

【００２６】特徴抽出モジュール１０６から符号語を受
け取ると、ツリー検索エンジン１１４は音響モデル１１
２にストアされた情報にアクセスする。音響モデル１１
２は、音声認識システム１００によって検出される音声
単位を表す隠れＭａｒｋｏｖモデルなどの音響モデルを
ストアする。一実施形態では、音響モデル１１２は、隠
れＭａｒｋｏｖモデルでの各Ｍａｒｋｏｖ状態に関連付
けられたｓｅｎｏｎｅツリーを含む。例示的な一実施形
態では、隠れＭａｒｋｏｖモデルは音素を表す。音響モ
デル１１２のｓｅｎｏｎｅに基づいて、ツリー検索エン
ジン１１４は、特徴抽出モジュール１０６から受け取っ
た、したがってシステムのユーザから受け取った言葉を
代表する特徴ベクトル（または符号語）によって最もよ
く表される音素を決定する。

【００２７】ツリー検索エンジン１１４は、語彙目録記
憶モジュール１１０にストアされた語彙目録（lexico
n）にもアクセスする。音響モデル１１２へのアクセス
に基づいてツリー検索エンジン１１４が受け取った情報
は、語彙目録記憶モジュール１１０をサーチして特徴抽
出モジュール１０６から受け取った符号語または特徴ベ
クトルを最もよく表すワードを決定する際に使用され
る。また、ツリー検索エンジン１１４は、言語モデル１
６と１１１にもアクセスする。一実施形態において、言
語モデル１６は入力音声によって最もよく表される文字
を識別する際に使用されるワードＮ−ｇｒａｍであり、
これは、文字、文脈キュー、および文字を識別するため
の語句（a word phrase）を含んでいる。例えば、入力
音声が「ＮａｓｉｎＮａｎｃｙ」である場合、ここ
で「Ｎ」（小文字の場合もある）が所望の文字であり、
「ａｓｉｎ」は文脈キュー、「Ｎａｎｃｙ」は所望の
文字を明らかにするかまたは識別するように文字「Ｎ」
に関連付けられた語句である。「ＮａｓｉｎＮａ
ｎｃｙ」という句に関して、音声認識システム１００の
出力は文字「Ｎ」だけとなる可能性がある。言い換えれ
ば、音声認識システム１００は「ＮａｓｉｎＮａ
ｎｃｙ」の句に関する入力音声データを分析する際に、
ユーザが文字の綴りを言うことを選択したことを確認す
る。したがって、文脈キューおよび関連付けられた語句
が出力テキストから省略される。ツリー検索エンジン１
１４は、必要であれば文脈キューおよび関連付けられた
語句を除去することができる。

【００２８】この実施形態で留意されたいことは、汎用
言語モデル１１１が、一般的なディクテーションのため
の入力音声によって最もよく表されるワードを識別する
際に使用されるワードＮ−ｇｒａｍであることである。
例えば、音声認識システムがディクテーションシステム
として具体化される場合、汎用言語モデル１１１は一般
的なディクテーションについて最もよく表されるワード
を指し示すが、ユーザが文脈キューのある句を使用して
いる場合、同じ句に関する汎用言語モデル１１１の値よ
りも言語モデル１６からの出力の方が高い値を有する可
能性がある。言語モデル１６からの高い値は、ユーザが
文脈キューおよび語句を使用して文字を識別する音声認
識システム１００において目安（indication）として使
用することができる。したがって、文脈キューを有する
入力句の場合、ツリー検索エンジン１１４または音声認
識システム１００の他の処理要素は、文脈キューおよび
語句を省略し、所望の文字だけを出力することができ
る。言語モデル１６の使用法に関して、以下でさらに論
じる。

【００２９】以上、音声認識システム１００がＨＭＭモ
デリングおよびｓｅｎｏｎｅツリーを使用する場合につ
いて述べてきたが、これは実施形態の一例に過ぎないこ
とを理解されたい。当業者であればわかるように、音声
認識システム１００には多くの形態が可能であり、必要
なことは、言語モデル１６の機能を使用して、ユーザが
発声したテキストを出力として提供することだけであ
る。

【００３０】よく知られているように、統計的なＮ−ｇ
ｒａｍ言語モデルでは、そのワードまでのワードシーケ
ンスが与えられた（すなわちワード履歴Ｈが与えられ
た）ワードの確率推定値を作成する。Ｎ−ｇｒａｍ言語
モデルは、履歴Ｈにおける以前のワード（ｎ−１）のみ
が、次のワードの確率に与える影響を有するものとみな
す。例えば、ｂｉ−ｇｒａｍ（すなわち２−ｇｒａｍ）
言語モデルは、前のワードが次のワードに与える影響を
有するとみなす。したがって、Ｎ−ｇｒａｍ言語モデル
では、ワードの発生する確率は以下の式で表される。

【００３１】Ｐ（ｗ／Ｈ）＝Ｐ（ｗ／ｗ１，ｗ２，．．．ｗ（ｎ−１））（１）

【００３２】上式で、ｗは興味のあるワード、ｗ１はワ
ードｗより前のｎ−１位置に位置するワード、ｗ２はワ
ードｗより前のｎ−２位置に位置するワード、ｗ（ｎ−
１）はシーケンス内でワードｗより前の最初のワードで
ある。

【００３３】また、ワードシーケンスの確率は、履歴
（history）が与えられたそれぞれのワードの確率を乗
算することに基づいても決定される。したがって、ワー
ドシーケンス（ｗ１．．．ｗｍ）の確率は以下の式で表
される。

【００３４】

【数１】

【００３５】Ｎ−ｇｒａｍモデルは、Ｎ−ｇｒａｍアル
ゴリズムをテキストトレーニングデータのコーパス
（句、文、文の断片、段落などの集まり）に適用するこ
とで得られる。Ｎ−ｇｒａｍアルゴリズムは、例えば、
Ｋａｔｚの手法または２項事後分布（binominal poster
ior distribution）バックオフ手法などの知られた統計
的手法を使用することができる。これらの手法を使用す
る場合、アルゴリズムは、ワードｗ（ｎ）がｗ１、ｗ
２、．．．ｗ（ｎ−１）であるワードシーケンスに従っ
た確率を推定する。これらの確率値は、集合的にＮ−ｇ
ｒａｍ言語モデルを形成する。以下で説明する本発明の
態様中には、標準的な統計的Ｎ−ｇｒａｍモデルの構築
に適用可能なものもある。

【００３６】本発明の第１の幅広い態様が、文字を示す
ための言語処理システム用に言語モデルを作成する方法
１４０として図４に示されている。図５も参照すると、
システムまたは装置１４２は、方法１４０を実施するた
めの命令を備えたモジュールを含む。一般に方法１４０
は、ステップ１４４において、語句リストのそれぞれの
語句について、語句の文字列および語句を文字列の識別
を示す文脈キューに関連付けることを含む。文字列には
単一の文字を含めることができることに留意されたい。
同様に、語句には単一の語句を含めることができる。例
えば、１文字に等しい文字列および１ワードに等しい語
句の場合、ステップ１４４では、ワードリスト１４１に
あるそれぞれのワードについて、ワードの文字を文脈キ
ューに関連付ける。文脈キューとは、一般に、語句内の
言語要素を識別するために話し手が使用する特定言語の
ワードまたは語句である。英語の文脈キューの例とし
て、「ａｓｉｎ」、「ｆｏｒｅｘａｍｐｌｅ」、
「ａｓｆｏｕｎｄｉｎ」、「ｌｉｋｅ」、「ｓｕｃ
ｈａｓ」などを含む。他の言語についても、日本語の
「の」および中国語の「的」など、類似のワードまたは
語句が見られる。一実施形態では、ステップ１４４は、
語句のコーパス１４３を構築することを含む。それぞれ
の語句は、文字列、語句、および文脈キューを含む。単
一の文字がワードに関連付けられている場合、典型的に
は、そのワードの他の文字も使用可能であるが、最初の
文字が使用される。こうした語句の例は、「Ｎａｓ
ｉｎＮａｎｃｙ」、「ＰａｓｉｎＰａｕｌ」、
および「Ｚａｓｉｎｚｅｂｒａ」を含む。

【００３７】他の実施形態では、ワードの他の文字がワ
ードおよび文脈キューに関連付けられており、さらに、
１文字、２文字、または３文字しか含まないワードが多
い中国語などの一部の言語では、ワードの各文字を文脈
キュー中のワードに関連付けることが有用な場合があ
る。前述のように、所望の文字を対応するワードおよび
文脈キューに関連付けるための簡単な方法は、同じ語句
を形成することである。したがって、ワードリスト１４
１が与えられると、言語モデルをトレーニングするため
の語句のコーパス１４３を、すべての所望の文脈キュー
について容易に生成することができる。

【００３８】コーパス１４３に基づいて、言語モデル１
６は、言語モデル１６を構築するためのよく知られた手
法を実施するＮ−ｇｒａｍ構築モジュールなどの従来の
構築モジュール１４６を使用して構築される。ブロック
１４８は、方法１４０における言語モデル１６の構築を
表しており、言語モデル１６はＮ−ｇｒａｍ言語モデ
ル、文脈自由文法、または同様の混成を含むことができ
るが、これらに限定されるものではない。

【００３９】生成された句には、言語モデルの形成時に
適切な確率値をもたらすことになる好適な数値を割り当
てることができる。上記の例では、「Ｎａｓｉｎ
Ｎａｎｃｙ」は「Ｎａｓｉｎｎｏｔｃｈ」の句よ
りも発声されることが多い可能性がある。したがって、
本発明の他の機能は、言語モデル中の関連付けられた文
字列および語句のそれぞれに対する確率スコアの調整を
含むことができる。確率スコアは、言語モデル１６の作
成時にマニュアルで調整することができる。他の実施形
態では、十分な数の全く同一の語句をコーパス１４３に
含め、言語モデル中で関連付けられた文字および語句に
関する適切な確率スコアを引き出すことによって、確率
スコアを調整することができる。確率スコアは、語句を
使用する可能性の関数の場合もある。一般に、文字を識
別する際に他のものよりも使用されることの多い語句が
存在する。こうした語句には、言語モデル中でより高い
確率スコアが割り当てられるか、そうでなければ与えら
れる。

【００４０】図６は、一般的な音声認識モジュール１８
０および言語モデル１６を示す図である。音声認識モジ
ュール１８０は前述のタイプであってよいが、音声認識
モジュール１８０が多くの形式を採ることができるとい
う点で、音声認識モジュール１８０はその実施形態に限
定されるものではないことを理解されたい。前述のよう
に、音声認識モジュール１８０は入力音声を示すデータ
を受け取り、入力音声が文脈キューを有する句を含んで
いるかどうかを確かめるために言語モデル１６にアクセ
スする。文脈キューを有する語句が検出された場合、音
声認識モジュール１８０は、文脈キューまたは語句では
なく、文脈キューおよび語句に関連付けられた文字のみ
を出力として提供することができる。換言すれば、音声
認識モジュールは「ＮａｓｉｎＮａｎｃｙ」の完
全な句を検出してはいるが、出力としては「Ｎ」だけを
提供することになる。この出力は、話し手が所望の文字
を個別に示すように選択しているディクテーションシス
テムにおいて特に有用である。

【００４１】ここで、前述の言語モデル１６が本質的
に、関連付けられた文字列、語句、および文脈キューか
らなるものであることから、言語モデル１６は、この形
態の入力音声には特に敏感であることに留意されたい。
図３の実施形態では、文字列、語句、および文脈キュー
の特有の形態を有することのない入力音声に対して、汎
用言語モデル１１１を使用することができる。ただし、
代替実施形態では、所望であれば言語モデル１６と１１
１を組み合わせることができることも理解されたい。

【００４２】入力音声を受け取り、言語モデル１６にア
クセスすると、音声認識モジュール１８０は入力音声に
関して認識された文字列と認識された語句を決定する。
多くの場合、認識された文字列は、言語モデル１６を使
用することによって正しいものとなる。ただし、他の実
施形態では、音声認識モジュール１８０によって発生し
たエラーの少なくとも一部を修正するために、文字検証
モジュール１８２を含めることができる。文字検証モジ
ュール１８２は、音声認識モジュール１８０によって確
認された認識された文字列と認識された語句へのアクセ
スを有し、認識された文字列を認識された語句と比較す
るものであり、具体的には、認識された文字列が認識さ
れた語句中に存在することを検証する。認識された語句
中に認識された文字列が存在しない場合、エラーは、話
し手が「ＭａｓｉｎＮａｎｃｙ」などの正しくな
い句をディクテーションすることによって発生したか、
または音声認識モジュール１８０が認識された文字列ま
たは認識された語句を間違って理解したことによるもの
であるが、エラーが発生したことは明らかである。一実
施形態において文字検証モジュール１８２は、認識され
た文字列内でエラーが発生する可能性が最も高いと想定
して、それによって認識された文字列に関する認識され
た語句に存在する文字を置換することができる。認識さ
れた文字列を認識された語句の文字と置き換える際に
は、認識された文字列と認識された語句の文字の間の音
響的な類似性を比較し、これに基づいて実行することが
できる。したがって、文字検証モジュール１８２は、個
々の文字が発声されたときのサウンドに直接関係するス
トアされたデータへのアクセスを有することができる。
文字検証モジュール１８２は、認識された語句中に在る
文字を使用して、認識された語句中のそれぞれの文字の
ストアされた音響データを認識された文字列と比較す
る。その後、最も近い文字が出力として提供される。当
業者ならば理解されるように、文字検証モジュール１８
２は音声認識モジュール１８０内に含めることができる
が、説明が容易なように別個に図示してある。

【００４３】以上、本発明について好ましい実施形態を
参照しながら説明してきたが、当業者であれば、本発明
の精神および範囲を逸脱しない形態および内容での変更
が可能なことを理解されよう。

【図面の簡単な説明】

【図１】言語処理システムの構成図である。

【図２】例示的なコンピュータシステム環境を示す構成
図である。

【図３】例示的に音声認識システムを示す構成図であ
る。

【図４】本発明の方法を示す流れ図である。

【図５】図４の方法を実施するためのモジュールを示す
構成図である。

【図６】音声認識モジュールおよびオプションの文字検
証モジュールを示す構成図である。

【符号の説明】

１０言語処理システム（モジュール）１２言語入力１４言語出力１６言語モデル２０コンピュータシステム環境（コンピューティング
動作環境）３０コンピュータ４０処理ユニット４１システムバス５０システムメモリ５３基本入出力システム（ＢＩＯＳ）５４，６４オペレーティングシステム（ＯＳ）５５，６５アプリケーションプログラム５６，６６プログラムモジュール５７，６７プログラムデータ６０，７０インターフェース６１ハードディスクドライブ７１磁気ディスクドライブ７２不揮発性磁気ディスク７５光ディスクドライブ７６不揮発性光ディスク８０ユーザ入力インターフェース８１ポインティングデバイス８２キーボード８３マイクロフォン８４モニタ８５ビデオインターフェース８６プリンタ８７スピーカ８８出力周辺インターフェース９０ネットワークインターフェース（アダプタ）９１ローカルエリアネットワーク９２モデム９３ワイドエリアネットワーク９４リモートコンピュータ９５リモートアプリケーションプログラム１００音声認識システム１０４Ａ／Ｄ変換器１０５トレーニングモジュール１０６特徴抽出モジュール１１０語彙目録記憶モジュール１１１汎用言語モデル１１２音響モデル（Ｓｅｎｏｎｅツリー）１１４ツリー検索エンジン１４０方法１４１ワードリスト１４２装置１４３コーパス１４６構築モジュール１４８ブロック１８０音声認識モジュール１８２文字検証モジュール

───────────────────────────────────────────────────── フロントページの続き (72)発明者フィレノエー．アレーバアメリカ合衆国 98052 ワシントン州レッドモンドノースイースト 48 ストリート 16516 Ｆターム(参考） 5D015 GG00 HH00

Claims

【特許請求の範囲】

【請求項１】文字を表示する音声認識システム用の言
語モデルを作成する方法であって、語句リストのそれぞれの語句について、語句の文字列お
よび語句を文字列の識別を示す文脈キューに関連付ける
ステップと、関連付けられた語句および文字列の関数として言語モデ
ルを構築するステップとを含むことを特徴とする方法。
【請求項２】言語モデルは統計的言語モデルを含むこ
とを特徴とする請求項１に記載の方法。
【請求項３】言語モデルはＮ−ｇｒａｍ言語モデルを
含むことを特徴とする請求項２に記載の方法。
【請求項４】言語モデルは文脈自由文法を含むことを
特徴とする請求項２に記載の方法。
【請求項５】関連付けるステップは、関連付けられた
文字列および語句のコーパス、および文脈キューを構築
することを含み、言語モデルを構築するステップはコーパスへアクセスす
ることを含むことを特徴とする請求項１に記載の方法。
【請求項６】関連付けるステップは、各語句の最初の
文字を語句に関連付けることを含むことを特徴とする請
求項１に記載の方法。
【請求項７】関連付けるステップは、少なくとも一部
の語句の最初の文字以外の他の文字を対応する語句に関
連付けることを含むことを特徴とする請求項６に記載の
方法。
【請求項８】関連付けるステップは、少なくとも一部
の語句の各文字を対応する語句に関連付けることを含む
ことを特徴とする請求項７に記載の方法。
【請求項９】関連付けるステップは、各語句の各文字
を対応する語句に関連付けることを含むことを特徴とす
る請求項７に記載の方法。
【請求項１０】言語モデル中の関連付けられた文字列
および語句のそれぞれについて、確率スコアを調整する
ステップをさらに含むことを特徴とする請求項１に記載
の方法。
【請求項１１】関連付けるステップは、語句の文字
列、語句、および文脈キューを含む句を語句リストの各
語句について形成することを含むことを特徴とする請求
項１に記載の方法。
【請求項１２】文脈キューは英語の「ａｓｉｎ」と
類似であることを特徴とする請求項１１に記載の方法。
【請求項１３】文脈キューは中国語の「的」を含むこ
とを特徴とする請求項１１に記載の方法。
【請求項１４】文脈キューは日本語の「の」を含むこ
とを特徴とする請求項１１に記載の方法。
【請求項１５】各語句は単一のワードであることを特
徴とする請求項１に記載の方法。
【請求項１６】各文字列は単一の文字であることを特
徴とする請求項１５に記載の方法。
【請求項１７】各文字列は単一の文字であることを特
徴とする請求項１に記載の方法。
【請求項１８】プロセッサによって実行されたとき
に、発声された文字を認識する方法を実行する命令を有
するコンピュータ可読媒体であって、前記方法は、文字列と、文字列を有する語句と、文脈キューとを有す
る入力音声を受け取るステップと、文字列を語句および文脈キューのないテキストとして出
力するステップとを含むことを特徴とするコンピュータ
可読媒体。
【請求項１９】複数の句を示す言語モデルにアクセス
するための命令をさらに含み、各句が文字列と、文字列を有する語句と、文脈キューと
を有することを特徴とする請求項１８に記載のコンピュ
ータ可読媒体。
【請求項２０】言語モデルは、本質的に、関連付けら
れた文字列と、文字列を有する語句と、文脈キューとか
らなる句を示すことを特徴とする請求項１９に記載のコ
ンピュータ可読媒体。
【請求項２１】文字列を出力するステップは、言語モ
デルを使用して文字列を認識することの関数として文字
列を出力することを含むことを特徴とする請求項１９に
記載のコンピュータ可読媒体。
【請求項２２】言語モデルは統計的言語モデルを含む
ことを特徴とする請求項２１のコンピュータ可読媒体。
【請求項２３】言語モデルはＮ−ｇｒａｍ言語モデル
を含むことを特徴とする請求項２２に記載のコンピュー
タ可読媒体。
【請求項２４】文字列を出力するステップは、受け取
った入力音声のＮ−ｇｒａｍの関数としてのみ、文字列
を出力することを含むことを特徴とする請求項２１に記
載のコンピュータ可読媒体。
【請求項２５】文字列を出力するステップは、認識さ
れた文字列と認識された語句との比較結果の関数として
文字列を出力することを含むことを特徴とする請求項２
１に記載のコンピュータ可読媒体。
【請求項２６】認識された文字列が認識された語句中
に存在しない場合、出力される文字列は認識された語句
の文字列であることを特徴とする請求項２５に記載のコ
ンピュータ可読媒体。
【請求項２７】言語モデルは文脈自由文法を含むこと
を特徴とする請求項２１に記載のコンピュータ可読媒
体。
【請求項２８】各語句は単一のワードであることを特
徴とする請求項１８に記載のコンピュータ可読媒体。
【請求項２９】各文字列は単一の文字であることを特
徴とする請求項２８に記載のコンピュータ可読媒体。
【請求項３０】各文字列は単一の文字であることを特
徴とする請求項１８に記載のコンピュータ可読媒体。
【請求項３１】プロセッサによって実行されたとき
に、発声された文字列を認識するための命令を有するコ
ンピュータ可読媒体であって、前記命令は、本質的に、関連付けられた文字列と、文字列を有する語
句と、文脈キューとからなる句を示す言語モデルと、入力音声を示すデータを受け取り、言語モデルにアクセ
スし、ユーザによって発声された文字列を出力するため
の認識モジュールであって、入力音声が文字列を有する
語句と文脈キューとを含むものとを含むことを特徴とす
るコンピュータ可読媒体。
【請求項３２】認識モジュールは文字列のみを出力す
ることを特徴とする請求項３１に記載のコンピュータ可
読媒体。
【請求項３３】言語モデルは統計的言語モデルを含む
ことを特徴とする請求項３１に記載のコンピュータ可読
媒体。
【請求項３４】言語モデルはＮ−ｇｒａｍ言語モデル
を含むことを特徴とする請求項３１に記載のコンピュー
タ可読媒体。
【請求項３５】言語モデルは文脈自由文法を含むこと
を特徴とする請求項３１に記載のコンピュータ可読媒
体。
【請求項３６】認識モジュールは、認識された文字列
と認識された語句との比較結果の関数として文字列を出
力することを特徴とする請求項３１に記載のコンピュー
タ可読媒体。
【請求項３７】認識された文字列が認識された語句中
に存在しない場合、出力される文字列は認識された語句
の文字列であることを特徴とする請求項３６に記載のコ
ンピュータ可読媒体。
【請求項３８】各語句は単一のワードであることを特
徴とする請求項３１に記載のコンピュータ可読媒体。
【請求項３９】各文字列は単一の文字であることを特
徴とする請求項３８に記載のコンピュータ可読媒体。
【請求項４０】各文字列は単一の文字であることを特
徴とする請求項３１に記載のコンピュータ可読媒体。