JP2003195889A

JP2003195889A - 言語モデルと共に使用されるクラスエンティティディクショナリを適応させるための方法および装置

Info

Publication number: JP2003195889A
Application number: JP2002327348A
Authority: JP
Inventors: Zheng Chen; ゼンチェン; Jianfeng Gao; ジャンフェンガオ; Mingjing Li; ミンジンリ; Feng Zhang; フェンザン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2001-11-13
Filing date: 2002-11-11
Publication date: 2003-07-09
Also published as: US7124080B2; CN100389381C; CN1419184A; US20030093263A1

Abstract

(57)【要約】【課題】クラスエンティティディクショナリ（４１
２）を備えた言語モデル（４１０）を、ユーザが行った
訂正に基づいて補強するための方法と装置が提供されて
いる。【解決手段】この方法と装置によれば、ユーザは、そ
の一部が言語モデル（４１０）に基づいている出力を、
出力セグメントを正しいセグメントに置き換えることに
よって訂正する。正しいセグメントは、クラスエンティ
ティディクショナリ（４１２）の中の、あるクラスのセ
グメントに追加され、そのクラスが与えられたときの、
正しいセグメントが現れる確率は、出力セグメントに関
するｎグラム(n-gram)確率と、そのクラスに関連するｎ
グラム確率に基づいて見積もられる。このように見積も
られた確率は、別の出力を生成するときに使用される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は言語モデルに関し、
具体的には、言語モデルをユーザの入力に基づいて適応
させることに関する。

【０００２】

【従来の技術】言語モデル(language model)は、一連の
単語がテキストストリングの中に、どの程度の可能性で
現れるかを知る手がかりを提供する。このようなモデル
は、音声認識(speech recognition)、中国語の単語セグ
メント化、および中国語における音声から文字への変
換、例えばピンイン(pinyin)から簡体字(hanzi)への変
換において用いられ、起こり得るシーケンスのラチス(l
attice)が与えられると、最も出現可能性のある単語の
シーケンスが特定される。例えば、音声認識において、
言語モデルによって、"go to bed"というフレーズが、
音声的に似ている"gotoo bed"というフレーズよりも出
現する可能性が高いものとして特定される。

【０００３】

【発明が解決しようとする課題】いくつかのシステムで
は、言語モデルが犯した誤りをユーザが訂正できるよう
になっている。しかし、訂正したことをシステムに知ら
せた後でさえ、その訂正によって作られた単語のシーケ
ンスが出現する確率を推定する方法がないために、シス
テムは、いずれの方法によっても、その訂正に基づいて
言語モデルを調整することができない。このような理由
から、システムは、一般的に、将来同じ入力に出くわし
たときも、同じ誤りを犯すであろう。

【０００４】従って、言語モデルとダイナミックディク
ショナリを、ユーザが行った訂正に基づいて修正できる
ようにするシステムが要望されている。

【０００５】

【課題を解決するための手段】本発明によれば、クラス
エンティティディクショナリ(class entity dictionar
y)を備えた言語モデルを、ユーザが行った訂正に基づい
て補強するための方法と装置が提供される。この方法と
装置によれば、ユーザは、出力セグメントを正しいセグ
メントに置き換えることによって、言語モデルに一部基
づく出力を訂正する。正しいセグメントは、クラスエン
ティティディクショナリの中の、あるクラスのセグメン
トに追加され、そのクラスが与えられたとき正しいセグ
メントが現れる確率は、出力セグメントに関するｎグラ
ム(n-gram)確率と、そのクラスに関連するｎグラム確率
に基づいて推定される。このように推定された確率は、
さらに別の出力を生成する際に使用される。

【０００６】

【発明の実施の形態】通常、言語モデルは、センテンス
のコーパス(corpus)に基づいてトレーニングされる。こ
のようなコーパスは、一般的な単語を処理するよう言語
モデルをトレーニングするには効果的であるが、人や企
業の名前のような、固有名詞を処理するため言語モデル
をトレーニングするのには余り効果的ではない。その理
由は、固有名詞がコーパスの中に現れる頻度が、正確に
モデリングするのに十分のものではないからである。

【０００７】図１は、本発明を実現するのに適したコン
ピューティングシステム環境１００の例を示す図であ
る。このコンピューティングシステム環境１００は、適
したコンピューティング環境の単なる一例であり、本発
明の使用範囲または機能が制限されることを意味するも
のではない。また、このコンピューティング環境１００
は、例示の動作環境１００に示すコンポーネントまたは
組み合わせのいずれにも依存し、または要求されると解
釈されるべきではない。

【０００８】本発明は、多数の、他の汎用または専用目
的のコンピューティングシステム環境または構成で動作
することが可能である。本発明で使用するのに適した周
知のコンピューティングシステム、環境、および/また
は構成の例としては、パーソナルコンピュータ、サーバ
コンピュータ、ハンドヘルドまたはラップトップデバイ
ス、マルチプロセッサシステム、マイクロプロセッサベ
ースのシステム、セットトップボックス(set top bo
x)、プログラマブルコンシューマエレクトロニクス、ネ
ットワークPC、ミニコンピュータ、メインフレームコン
ピュータ、テレホニシステム、上記に挙げたシステムま
たはデバイスのいずれかを含んでいる分散型コンピュー
ティング環境などがあるが、これらに限定されるもので
はない。

【０００９】本発明は、プログラムモジュールのよう
に、コンピュータによって実行されるコンピュータ実行
可能命令の一般的なコンテクストで説明することができ
る。一般的に、プログラムモジュールの中には、特定の
タスクを実行する、あるいは特定の抽象データ型を実装
しているルーチン、プログラム、オブジェクト、コンポ
ーネント、データ構造などが含まれている。本発明は、
通信ネットワークを通してリンクされたリモート処理デ
バイスによってタスクが実行されるような、分散型コン
ピューティング環境で実施することも可能である。分散
型コンピューティング環境では、プログラムモジュール
は、メモリストレージデバイスを含む、ローカルとリモ
ートの双方のコンピュータ格納媒体に置くことができ
る。

【００１０】図１を参照して説明すると、本発明を実現
するための例示システムは、コンピュータ１１０の形態
をした汎用コンピューティングデバイスを含んでいる。
コンピュータ１１０のコンポーネントとしては、処理ユ
ニット１２０、システムメモリ１３０、およびシステム
メモリを含む種々システムコンポーネントを処理ユニッ
ト１２０に結合しているシステムバス１２１があるが、
これに限定されない。システムバス１２１は、任意の数
種類のバス構造にすることが可能であり、その中には、
種々のバスアーキテクチャのいずれかを用いたメモリバ
スまたはメモリコントローラ、ペリフェラル（周辺）バ
ス、およびローカルバスが含まれている。そのようなア
ーキテクチャの例としては、業界標準アーキテクチャ(I
ndustryStandard Architecture ISA)バス、マイクロチ
ャネルアーキテクチャ(Micro Channel Architecture M
CA)バス、拡張ISA (Enhanced ISA - EISA)バス、ビデオ
エレクトロニクス標準協会(Video Electronics Standar
ds Association VESA)ローカルバス、およびメザニン
(Mezzanine)バスとも呼ばれているペリフェラルコンポ
ーネント相互接続(Peripheral Component Interconnect
PCI)バスがあるが、これらに限定されない。

【００１１】コンピュータ１１０は、種々のコンピュー
タ読取可能媒体を装備しているのが代表的である。コン
ピュータ読取可能媒体は、媒体として利用可能で、コン
ピュータ１００によってアクセス可能なものならば、い
ずれの媒体とすることも可能であり、その中には、揮発
性媒体と不揮発性媒体、取り外し可能媒体と固定媒体が
含まれている。コンピュータ読取可能媒体の例を挙げる
と、コンピュータ格納媒体と通信媒体があるが、これら
に限定されない。コンピュータ格納媒体の中には、コン
ピュータ読取可能命令、データ構造、プログラムモジュ
ール、あるいは他のデータなどの情報を格納しておくた
めの方法やテクノロジで実現されている揮発性媒体と不
揮発性媒体、取り外し可能媒体と固定媒体が含まれてい
る。コンピュータ格納媒体の例を挙げると、RAM、ROM、
EEPROM、フラッシュメモリまたは他のメモリテクノロ
ジ、CD-ROM、デジタルバーサタイルディスク(digital v
ersatile disk- DVD)または他の光ディスクストレー
ジ、磁気カセット、磁気テープ、磁気ディスクストレー
ジまたは他の磁気ストレージデバイス、あるいは必要と
する情報を格納しておくために使用でき、コンピュータ
１１０によってアクセス可能な他の媒体も含まれるが、
これらに限定されない。通信媒体は、通常コンピュータ
読取可能命令、データ構造、プログラムモジュールまた
は他のデータを、搬送波や他のトランスポートメカニズ
ムなどの変調データ信号の形で具現化しており、あらゆ
る情報配信媒体が含まれている。ここで、用語「変調デ
ータ信号 (modulated data signal)」とは、その特性の
１つまたは２つ以上が、信号の中の情報を符号化(encod
e)するような形で設定または変更されている信号を意味
している。通信媒体の例を挙げると、有線（wired）ネ
ットワークや直接有線(direct-wired)コネクションなど
の有線媒体、および音響、RF、赤外線、他のワイヤレス
媒体などのワイヤレス媒体があるが、これらに限定され
ない。上記に挙げたものを任意に組み合わせたものも、
当然コンピュータ読取可能媒体の範囲に含まれる。

【００１２】システムメモリ１３０には、リードオンリ
メモリ(read only memory ROM)１３１やランダムアク
セスメモリ(random access memory RAM)１３２のよう
な、揮発性および不揮発性メモリといった形態のコンピ
ュータ格納媒体が含まれている。コンピュータ１１０内
のエレメント間で、例えばスタートアップ時に情報の転
送を支援する基本ルーチンで構成された基本入出力シス
テム(basic input/output system BIOS)１３３は、通
常、ROM１３１に格納されている。RAM１３２には、通常
データおよび/またはプログラムモジュールが置かれて
いるが、これらは処理ユニット１２０より即時にアクセ
スされ、および/または現時点における操作の対象とな
っている。一例を挙げると、図１には、オペレーティン
グシステム１３４、アプリケーションプログラム１３
５、他のプログラムモジュール１３６、およびプログラ
ムデータが示されているが、これらに限定されない。

【００１３】コンピュータ１１０は、他の取り外し可能
/固定で、揮発性/不揮発性のコンピュータ格納媒体を装
備することも可能である。例を挙げると、図１には、固
定の不揮発性磁気媒体との間で読み書きを行うハードデ
ィスクドライブ１４１、取り外し可能な不揮発性磁気デ
ィスク１５２との間で読み書きを行う磁気ディスクドラ
イブ１５１、およびCD-ROMや他の光媒体などの取り外し
可能な不揮発性光ディスク１５６との間で読み書きを行
う光ディスクドライブ１５５が示されているが、これら
に限定されない。例示の動作環境で使用できる、その他
の取り外し可能/固定の揮発性/不揮発性コンピュータ格
納媒体としては、磁気テープカセット、フラッシュメモ
リカード、デジタルバーサタイルディスク、デジタルビ
デオテープ、ソリッドステートRAM、ソリッドステートR
OMなどがあるが、これらに限定されない。ハードディス
クドライブ１４１は、インタフェース１４０のような、
固定のメモリのインタフェースを通してシステムバス１
２１に接続されるのが代表的であり、磁気ディスクドラ
イブ１５１と光ディスクドライブ１５５は、インタフェ
ース１５０のような、取り外し可能なメモリのインタフ
ェースを通してシステムバス１２１に接続されるのが代
表的である。

【００１４】上記で検討し、図１に示すドライブとそれ
ぞれに関連するコンピュータ格納媒体は、コンピュータ
読取可能命令、データ構造、プログラムモジュール、そ
の他のデータをコンピュータ１１０のために格納してい
る。例えば、図１では、ハードディスクドライブ１４１
は、オペレーティングシステム１４４、アプリケーショ
ンプログラム１４５、その他のプログラムモジュール１
４６、およびプログラムデータ１４７を格納するものと
して示されている。なお、以上のコンポーネントは、オ
ペレーティングシステム１３４、アプリケーションプロ
グラム１３５、その他のプログラムモジュール１３６、
およびプログラムデータ１３７と同じであってもよい
し、別であってもよいことに留意されたい。ここで、オ
ペレーティングシステム１４４、アプリケーションプロ
グラム１４５、その他のプログラムモジュール１４６、
およびプログラムデータ１４７に別の番号が付されてい
るのは、少なくとも、これらが単なるコピーとは異なる
ことを示すためである。

【００１５】ユーザは、キーボード１６２、マイクロホ
ン１６３、およびマウスやトラックボール、タッチパッ
ドなどの入力デバイスを通して、コマンドおよび情報を
コンピュータ１１０に入力することができる。その他の
入力デバイス（図示せず）としては、ジョイスティッ
ク、ゲームパッド、サテライトディッシュ、スキャナな
どがある。これらの入力デバイスと他の入力デバイス
は、システムバスに結合されたユーザ入力インタフェー
ス１６０を通して処理ユニット１２０に接続されている
ことが多いが、パラレルポートやゲームポート、ユニバ
ーサルシリアルバス(universal serial bus USB)など
の、他のインタフェースやバス構造を介して接続するこ
とも可能である。モニタ１９１や他のタイプのディスプ
レイデバイスも、ビデオインタフェース１９０のような
インタフェースを介してシステムバス１２１に接続され
ている。モニタのほかに、コンピュータは、スピーカ１
９７やプリンタ１９６などの、他のペリフェラル出力デ
バイスを装備することも可能であり、これらは出力ペリ
フェラルインタフェース１９０を介して接続可能になっ
ている。

【００１６】コンピュータ１１０は、リモートコンピュ
ータ１８０のような、１つまたは２つ以上のリモートコ
ンピュータとの論理的コネクションを使用するネットワ
ーキング環境で動作させることが可能である。リモート
コンピュータ１８０は、パーソナルコンピュータ、ハン
ドヘルドデバイス、サーバ、ルータ、ネットワークPC、
ピアデバイスまたは他の一般的なネットワークノード(c
ommon network node)とすることができ、通常コンピュ
ータ１１０に関連して上述したエレメントの多くまたは
全部を装備している。図１に示す論理的コネクションと
しては、ローカルエリアネットワーク(local area netw
ork LAN)１７１と広域ネットワーク(wide area networ
k WAN)１７３があるが、他のネットワークを含めるこ
とも可能である。このようなネットワーキング環境は、
オフィス、企業内(enterprise-wide)コンピュータネッ
トワーク、イントラネットおよびインターネット(the I
nternet)で普及している。

【００１７】LANネットワーキング環境で使用されると
き、コンピュータ１１０は、ネットワークインタフェー
スまたはアダプタ１７０を通してLAN１７１に接続され
ている。WANネットワーキング環境で使用されるとき
は、コンピュータ１１０は、通常インターネットなど
の、WAN１７３上のコミュニケーションを確立するため
のモデム１７２や他の手段を装備している。モデム１７
２は内蔵型と外付け型があり、どちらも、ユーザ入力イ
ンタフェース１６０または他の適当なメカニズムを介し
てシステムバス１６０に接続することができる。ネット
ワーキング環境では、コンピュータ１１０に関連して上
述したプログラムモジュールまたはその一部は、リモー
トのメモリストレージデバイスに格納しておくことがで
きる。一例を挙げると、図１は、リモートのアプリケー
ションプログラム１８５がリモートコンピュータ１８０
に置かれていることを示しているが、これに限定されな
い。図示のネットワークコネクションは例示であり、コ
ンピュータ間の通信リンクを確立する他の手段を使用す
ることも可能であることが、理解されるであろう。

【００１８】図２は、別の例示のコンピューティング環
境である、モバイルデバイス２００を示すブロック図で
ある。モバイルデバイス２００は、マイクロプロセッサ
２０２、メモリ２０４、入出力(I/O)コンポーネント２
０６、およびリモートコンピュータや他のモバイルデバ
イスと通信するための通信インタフェースを装備してい
る。一実施形態では、前記のコンポーネントは、適当な
バス２１０を利用して相互に通信するように結合されて
いる。

【００１９】メモリ２０４は、ランダムアクセスメモリ
(RAM)などの不揮発性エレクトロニックメモリとして実
現され、モバイルデバイス２００への商用電源が遮断さ
れたとき、メモリ２０４に格納された情報が失われない
ようにするバッテリバックアップモジュール（図示せ
ず）を備えている。メモリ２０４の一部は、プログラム
を実行するのためのアドレス可能メモリとして割り振ら
れ、一方、メモリ２０４の別の部分は、ディスクドライ
ブ上にストレージをシミュレートするような、ストレー
ジとして使用されるのが望ましい。

【００２０】メモリ２０４には、オペレーティングシス
テム２１２、アプリケーションプログラム２１４が、オ
ブジェクトストア２１６と共に置かれている。動作時に
は、オペレーティングシステム２１２は、メモリ２０４
からプロセッサ２０２によって実行されるのが望まし
い。オペレーティングシステム２１２は、好ましい一実
施形態では、マイクロソフト（登録商標）コーポレイシ
ョンから商用化されているWINDOWS（登録商標）CEブラ
ンドのオペレーティングシステムになっている。オペレ
ーティングシステム２１２は、モバイルデバイス用に設
計され、公表されているアプリケーションプログラミン
グインタフェースとメソッドを通して、アプリケーショ
ン２１４によって利用できるデータベースフィーチャ(f
eature)を実装しているのが望ましい。オブジェクトス
トア２１６に置かれているオブジェクトは、少なくとも
部分的には、公表されたアプリケーションプログラミン
グインタフェースとメソッドへのコールに応答して、ア
プリケーション２１４とオペレーティングシステム２１
２によって維持管理されている。

【００２１】通信インタフェース２０８は、モバイルデ
バイス２００が情報を送受信できるようにする多数のデ
バイスとテクノロジを表している。デバイスのいくつか
を挙げると、有線(wired)モデムとワイヤレスモデム、
衛星受信機および放送チューナなどがある。モバイルデ
バイス２００は、コンピュータに直接接続して、コンピ
ュータとデータをやりとりするようにすることもでき
る。そのような場合、通信インタフェース２０８は、ス
トリーミング情報を伝送する機能を備えている赤外線ト
ランシーバやシリアルまたはパラレル通信コネクション
にすることができる。

【００２２】入出力コンポーネント２０６には、タッチ
センシティブスクリーン、ボタン、ローラ、マイクロホ
ンなどの種々の入力デバイスとともに、オーディオジェ
ネレータ、振動デバイス、ディスプレイなどの種々の出
力デバイスが含まれる。上に挙げたデバイスは例示であ
り、またすべてがモバイルデバイス２００に存在する必
要もない。さらに、本発明の範囲を逸脱しない限り、他
の入力デバイスをモバイルデバイス２００に接続するこ
とも、モバイルデバイス２００に装備させることも可能
である。

【００２３】本発明は、統計的言語モデル(statistical
language model)とクラスベースのディクショナリ(cla
ss-based dictionary)を、種々のアプリケーションで使
用し、適応させるための手段を提供している。統計的言
語モデルによると、ある単語のシーケンスが言語の中に
現れる可能性を知ることができる。一般的に、ｎグラム
(n-gram)言語モデルは、単語のシーケンスが現れる確率
を次のように定義している。

【００２４】

【数１】

【００２５】上記において、Ｈは、単語のシーケンス
w₁, w₂, ..., w_tであり、ｔはそのシーケンスの中の単
語の数であり、n-1は、次の単語を予測するために使用
される先行単語の数であり、P_r(w_i|w_i-(n-1), ..., w
_i-1) は、n-1個の先行単語が与えられているときのi番
目の単語が現れる確率である。従って、２グラム (bigr
am)言語モデルでは、n = ２、３グラム(trigram) 言語
モデルでは、n = 3である。

【００２６】統計的言語モデルの１つの問題は、固有名
詞のように、未知の単語やまれにしか使用されない単語
が現れる正確な確率が得られないことである。この問題
を解消するために、本発明によれば、クラスベースの言
語モデルが利用されている。

【００２７】本発明のクラスベースの言語モデルでは、
クラスに属する単語と個々の単語のシーケンスが現れる
確率が予測される。このために、式１は、１つまたは２
つ以上の単語の個所にクラスが使用されるように修正さ
れている。例えば、３グラム(trigram)言語モデルで
は、クラストークンNに関連して計算される確率は次の
ようになっている。

【００２８】

【数２】

【００２９】上記において、式２には、単純化のためク
ラス確率に近い確率だけが示されており、N_iは、シーケ
ンスの中のｉ番目の位置にあるクラスであり、T_iは、ク
ラスNに属するエンティティであり、Pr(T_i|N_i)は、クラ
スNが与えられたときの、エンティティTの確率が得られ
る内側確率(inside probabilities)である。一実施形態
によれば、内側確率は、各クラスに現れる単語を定義し
ているクラスエンティティディクショナリによって得ら
れる。一実施形態では、クラスエンティティディクショ
ナリには、特定のクラスに現れる既知の単語を定義す
る、文法ルールのセットが与えられる。例えば、クラス
[NAME]の文脈自由文法(context-free grammar)には、"H
ank Hanson"ルールを含めることができる。外側確率(ou
tside probabilities)（先行単語が与えられたときの、
クラスの確率）は、クラスベースの言語モデルによって
得られる。

【００３０】クラスベースの言語モデルによると、ある
種のクラスの単語、例えば固有名詞に起こる、低頻度(s
parseness)問題を解消することができる。この種の単語
は、トレーニングデータ(training data)中に現れる頻
度が低いために、クラスを使用しない言語モデルでは、
常に、使用頻度の低い単語よりも、一般的単語の方が優
先されている。クラスを使用すると、本発明の言語モデ
ルによれば、あるクラスの単語がトレーニングデータの
中に現れる頻度が、そのクラスの個別の単語よりも高く
なるので、クラスが特定される可能性が大きくなる。

【００３１】クラスベースの言語モデルまたはクラスエ
ンティティディクショナリを使用できるようにするに
は、その前にそれらをトレーニングしておかなければな
らない。一実施形態によれば、初期時には、クラスベー
スの言語モデルとクラスエンティティディクショナリ
は、最初に、ヒューリスティック(heuristics)のセット
に基づいてトレーニングコーパスにタグを付けることに
よって、クラスに属する単語を特定するようにトレーニ
ングされる。ヒューリスティックのセットには、あるク
ラスの単語が置かれている個所を、入力の中の他の単語
に基づいて予測するルールセットが用意されている。例
えば、"call"という動詞が入力の中に現れる可能性のあ
る単語である場合、ヒューリスティックのルールによる
と、"call"の後の次の単語または次の２単語が、[NAME]
クラスの一部であることを知ることができる（例え
ば、"Call Jack Jones"）。

【００３２】ヒューリスティックを使用して特定された
単語は、そのクラスで置き換えられ、次にクラスベース
の言語モデルは、コーパスの中の単語とクラスに基づ
き、標準的なトレーニング手法を用いてトレーニングさ
れる。

【００３３】クラスエンティティディクショナリは、初
めに、クラス別に特定された単語をサブコンポーネント
に分割することによってトレーニングされる。そのあ
と、これらのサブコンポーネントは、クラスが与えられ
たときの、単語が現れる確率を特定するために標準的ｎ
グラムトレーニング手法で使用される。これらの確率
が、クラスの内側確率を形成する。

【００３４】本発明の別の態様によって、クラスエンテ
ィティディクショナリとクラスベースの言語モデルは、
ユーザに与えられた入力に基づいて更新し、拡張され
る。具体的には、ユーザが復号化された単語シーケンス
を変更したとき、クラスエンティティディクショナリは
拡張され、クラスエンティティディクショナリに存在し
ない単語が、その修正シーケンスに含められる。例え
ば、クラスベースの言語モデルとクラスエンティティデ
ィクショナリが、"write a letter to Phil"という単語
シーケンスを復号化していて、ユーザがそのシーケンス
を "write a letterto Bill"に変更したときは、"Bill"
がまだクラスエンティティディクショナリに存在してい
なければ、"Bill"がクラスエンティティディクショナリ
に追加される。

【００３５】あるエンティティをクラスエンティティデ
ィクショナリに追加するためには、そのエンティティの
内側確率が決定されなければならない。上述したよう
に、内側確率によると、クラスが与えられたときの、エ
ンティティの確率を得ることができる。この確率は、所
与のクラスについてのエンティティが出現する可能性を
明確化するには、データが十分ではないため、正確に計
算することができない。これに対して、本発明の実施形
態によれば、この内側確率は、エンティティに対する内
側確率とクラスに対する言語モデル確率の積が、少なく
とも、デコーダ(decoder)によって不正確に特定された
単語に対する言語モデル確率に等しくなるはずであると
想定することによって見積もられる。

【００３６】３グラム言語モデルを式で表したとき、上
記想定は次式で表される。

【００３７】

【数３】

【００３８】上記において、Pr(T_i|N_i) は、クラスN_iが
与えられたときの、修正エンティティT_iの内側確率であ
り、Pr(N_i|w_i-2, w_i-1) は、２先行単語がシーケンスの
中にあるときの、クラスN_iの言語モデル確率であり、Pr
(P_i|w_i-2, w_i-1) は、復号化された正しくないエンティ
ティP_iであって、そのあとで修正エンティティT_iを作る
ように修正されたエンティティの言語モデル確率であ
る。

【００３９】上記想定を使用すると、内側確率は次式の
ように見積もられる。

【００４０】

【数４】

【００４１】しかし、この見積もりは、シーケンスの中
の先行単語に依存する度合いが高くなっている。この依
存度を低くし、見積もりをより一般化するために、確率
は次式のように書き直されている。

【００４２】

【数５】

【００４３】上記において、Pr(P_i|<unknown>_i-2,<unkn
own>_i-1は、任意の2先行単語が与えられているときの、
P_iの確率を表し、Pr(N_i|<unknown>_i-2,<unknown>
_i-1は、任意の２先行単語が与えられているときの、ク
ラスN_iの確率を表している。なお、Pr(P_i|<unknown
>_i-2,<unknown>_i-1と Pr(P_i|<unknown>_i-2,<unknown>
_i-1は、先行単語を<unknown>トークンに置き換え、<unk
nown>トークンが与えられているときの、P_iとN_iの確率
を判断することによって、トレーニング期間に言語モデ
ルにストアされる。

【００４４】確率が修正エンティティについて推定され
ると、次に、修正エンティティと推定された内側確率
は、該当するクラスの個所でクラスエンティティディク
ショナリに追加される。

【００４５】復号化された単語シーケンスに対するユー
ザの修正には、クラスエンティティディクショナリに存
在しなかった単語が常に係わっているとは限らない。そ
の代わりに、もともと復号化された単語または修正され
た単語のどちらかが、クラスエンティティディクショナ
リに存在していたかもしれない。図３は、クラスエンテ
ィティディクショナリを、ユーザの修正に基づいてどの
ように変更すべきかを判断するとき使用されるステップ
を示すフロー図である。

【００４６】概要を説明すると、図３のプロセスは、内
側確率を3通りの方法で調整することができる。クラス
エンティティディクショナリにすでに存在していた修正
された単語については、その単語が復号化されなかった
ことは、その内側確率が低すぎることを示している。そ
のため、その確率は大きくしなければならない。クラス
エンティティディクショナリに存在する復号化された単
語については、ユーザがその単語を修正したことは、復
号化された単語の内側確率が高すぎることを示してい
る。そのため、その確率は小さくしなければならない。
ディクショナリにない修正された単語については、その
修正された単語をディクショナリに追加し、その初期確
率を、上記式５を使用して計算しなければならない。

【００４７】どの調整を行うかを決定するため、図３の
プロセスはステップ300から開始され、そこで、ユーザ
の修正によって得られた単語シーケンスが検査され、修
正された単語がクラスエンティティディクショナリにあ
るかどうかが決定される。修正された単語がクラスエン
ティティディクショナリにあれば、ステップ３２０でそ
の修正された単語が単一のクラスだけに見つかったかど
うかを決定される。

【００４８】修正された単語が2つ以上のクラスに見つ
かった場合は、クラスベースの言語モデルは、別々のシ
ーケンスの中で起こり得るクラスの各々を使用し、出現
可能性が最も高いシーケンスを特定することによって、
最も出現可能性のあるクラスを選択するために使用され
る。これは、図３にステップ３２２として示されてい
る。

【００４９】修正された単語がステップ３２０で単一の
クラスだけに見つかった場合や単一のクラスがステップ
３２２で特定されたあとでは、修正文字の内側確率を調
整する必要が起こる。なぜなら、修正された単語がたと
えクラスエンティティディクショナリにあったとして
も、内側確率が低すぎたためデコーダが修正された単語
を入力から特定しなかったからである。これを訂正する
ために、クラスエンティティディクショナリにストアさ
れている、修正された文字の内側確率は、ステップ３２
４で大きくされる。いくつかの実施形態では、内側確率
は係数1.5倍まで大きくされる。

【００５０】修正文字がステップ３００でクラスエンテ
ィティディクショナリになかった場合は、ヒューリステ
ィックのセットがステップ３０２で使用され、修正文字
の起こり得るクラスが決定される。次に、これらのクラ
スの各々は、別々のシーケンスまたは単語を他の復号化
された単語とともに構築するために使用される。そのあ
と、クラスベースの言語モデルは、最も出現可能性のあ
るシーケンス、従って修正された単語の最も出現可能性
のあるクラスを特定するために使用される。

【００５１】修正された単語のクラスがステップ３０４
で特定できる場合は、修正された単語の内側確率は、ス
テップ３０８で上記の式5を使用して決定され、修正さ
れた単語と確率は、ステップ３１０でクラスエンティテ
ィディクショナリに追加される。

【００５２】修正された単語のクラスがステップ３０４
で特定できない場合は、復号化され、ユーザによって修
正された単語はステップ３１２で検査され、その復号化
された単語がクラスエンティティディクショナリにある
かどうかが判断される。復号化された単語がステップ３
１２でディクショナリに見つかった場合、修正された単
語ではなく、復号化された単語が特定されたことは、復
号化された単語の内側確率が余りに高く設定されている
ことを意味する。これを訂正するために、復号化された
単語の内側確率はステップ３１４で小さくされる。いく
つかの実施形態では、内側確率は係数1.5だけ小さくさ
れる（換言すれば、内側確率は1.5で除算され、新しい
確率が得られる）。

【００５３】復号化された単語がステップ３１２でクラ
スエンティティディクショナリに見つからなかったとき
は、復号化された単語と修正された単語のどちらも、ク
ラスに属していないので、クラスエンティティディクシ
ョナリに対する変更は行わないで済むことになる。その
ため、クラスエンティティディクショナリは、ステップ
３１８で未変更のままにされる。

【００５４】

【実施例】本発明によるクラスベースの言語モデルとク
ラスエンティティディクショナリを更新する方法は、多
くのシステムで使用することができる。例えば、図４
は、図１と図２の環境内で実現することが可能な、本発
明の実施形態を利用する音声から文字への変換システム
４００を示すブロック図である。このシステムのオペレ
ーションは、図５のフロー図に示されている。

【００５５】図５のステップ５００では、音声入力４０
２、つまり、中国語、日本語、または韓国語（朝鮮語）
などの文字ベースの言語に見られる、文字を音声で表し
たものが、デコーダ(decoder)４０４に入力される。中
国語では、音声入力の一実施形態は、ピンイン入力にな
っている。ステップ５０２で、デコーダ４０４は、最初
に、語彙(lexicon)４０６を使用して音声入力で表現可
能な、起こり得る単語のラチス (lattice)を構築する。
次に、クラスエンティティディクショナリ４１２とヒュ
ーリスティックのルール４１６を使用してラチス内の単
語からクラスエンティティを特定することによって、ス
テップ５０４で、このラチスは拡張される。特定された
クラスは、ラチス内の別々のノードとして追加される。

【００５６】ステップ５０６では、デコーダ４０４は、
ラチス内を通る各パス(path)の確率を決定する。パス上
の各単語が音声セグメントを表している確率を用意して
いる音声モデル４０８、クラスの内側確率を用意してい
るクラスエンティティディクショナリ、単語のシーケン
スおよび/またはクラスが言語に現れる確率を用意して
いる言語モデル３１０、および上記の式２を使用して、
この決定が行われる。パス上の単語シーケンスのうち、
出現可能性が最も高い単語シーケンスが、ステップ５０
８で復号化された単語のストリングとして出力される。

【００５７】復号化シーケンスがユーザに与えられたあ
と、システムは、ステップ５１０でユーザによる修正を
受け取ることができる。この修正は、ユーザがその入力
で意図していた正しい単語を示している。ステップ５１
２では、このユーザ修正が検査され、クラスエンティテ
ィディクショナリを変更するために修正をどのように使
用したらよいかが、図３のプロセスを使用して判断され
る。具体的に説明すると、クラス抽出ユニット(class e
xtraction unit)４２２は、ヒューリスティックス４１
６とクラスエンティティディクショナリ４１２を使用し
て、修正された単語のクラスを特定するとともに、クラ
スエンティティディクショナリにあるのは復号化された
単語であるか、修正された単語であるかを判断する。次
に、確率決定ユニット(probability determination uni
t)４２４は、修正された単語がディクショナリに存在し
ていなければ、修正された単語の確率を計算するか、あ
るいは修正された単語または復号化された単語の新しい
確率を決定して、図３で上述したようにデコーダのパフ
ォーマンスを向上させる。

【００５８】第２の実施形態では、本発明のクラスベー
スの言語モデルは、図６にあるような、音声認識システ
ムで使用されている。図６において、スピーカ６００か
らの入力音声信号と付加的ノイズ６０２は、アナログ−
デジタル(A-to-D: A/D)コンバータ６０６に接続されて
いるマイクロホン６０４によって電気信号に変換され
る。

【００５９】A/Dコンバータ６０６は、マイクロホン６
０４からのアナログ信号を一連のデジタル値に変換す
る。いくつかの実施形態では、A/Dコンバータ６０６
は、16 kHzおよびサンプル当たり16ビットでアナログ信
号をサンプリングし、これによって、毎秒32キロバイト
の音声データが作成される。

【００６０】A/Dコンバータ６０６から得られたデジタ
ルデータは、オプションのノイズ低減モジュール(noise
reduction module)６０８に送られ、そこで１つまたは
２つ以上のノイズ低減手法を使用して、デジタル信号に
含まれるノイズの一部が除去される。

【００６１】ノイズ低減モジュール６０８の出力は、フ
ィーチャエクストラクタ(feature extractor)６１０に
送られ、そこでデジタル音声信号から特徴が抽出され
る。特徴抽出モジュールの例としては、線形予測符号化
(Linear Predictive Coding LPC)、LPC派生ケプストラ
ム(LPC derived cepstrum)、知覚線形予測(PerceptiveL
inear Prediction PLP)、聴覚モデルの特徴抽出(Audit
ory model feature extraction)、およびメル周波数ケ
プストラム係数(Mel-Frequency Cepstrum Coefficients
MFCC)の特徴抽出を実行するモジュールがある。な
お、本発明は、これらの特徴抽出モジュールに限定され
るものではなく、本発明の範囲を逸脱しない限り、他の
モジュールを使用することも可能である。

【００６２】特徴抽出モジュールは、ノイズ低減モジュ
ール６０８からデジタル値のストリームを受け取り、各
々が音声信号のフレームと関連付けられている特徴ベク
トル(feature vector)のストリームを出力する。多くの
実施形態では、フレームの中心は、10ミリ秒だけ離され
ている。

【００６３】なお、ノイズ低減モジュール６０８は、図
６の実施形態ではフィーチャエクストラクタ６１０の前
に置かれているが、他の実施形態では、フィーチャエク
ストラクタ６１０の後に置かれている。

【００６４】抽出モジュールによって出力された特徴ベ
クトルのストリームは、デコーダ６１２に送られ、そこ
で最も出現可能性のある単語シーケンスが、特徴ベクト
ルのストリーム、語彙６１４、言語モデル６１６、音響
モデル６１８、ヒューリスティックのルール６２２およ
びクラスエンティティディクショナリ６２０に基づいて
特定される。

【００６５】音響モデル６１８からは、入力特徴ベクト
ルが、セノン(senone)、音素(phoneme)、ダイホン(diph
one)、またはトライホン(triphone) などの言語単位の
発音によって作成される可能性が与えられる。

【００６６】言語モデル６１６、クラスエンティティデ
ィクショナリ６２０およびヒューリスティックのルール
６２２は、デコーダ４０４が言語モデル４１０、クラス
エンティティディクショナリ４１２およびヒューリステ
ィックルール４１６を使用するのと同じ方法でデコーダ
６１２によって使用される。

【００６７】音響モデル、言語モデル、語彙、クラスエ
ンティティディクショナリ、およびヒューリスティック
のルールに基づいて、デコーダ６１２は、起こり得る、
すべての単語シーケンスから最も出現する可能性のある
単語シーケンスを特定する。具体的には、デコーダ６１
２は、図５のステップ５００、５０２、５０４、５０
６、および５０８を使用して、最も出現する可能性のあ
る単語シーケンスを特定する。

【００６８】最も出現する可能性のある単語シーケンス
は、起こり得るユーザの修正６３０を受けることにな
る。ユーザが復号化シーケンスの中の単語を修正した場
合は、その修正された単語は、クラス抽出ユニット６３
４と確率決定ユニット６３４に送られ、これらは、図４
のクラス抽出ユニット４２２と確率決定ユニット４２４
と同じように動作する。図３のプロセスを使用して、ク
ラスエンティティディクショナリ６２０は、復号化され
た単語のユーザ修正に基づいて修正される。

【００６９】以上、特定の実施形態を参照して本発明を
説明してきたが、この分野の精通者ならば理解されるよ
うに、本発明の精神と範囲から逸脱しない限り、種々の
態様にその形態と細部を変更することが可能である。

【図面の簡単な説明】

【図１】本発明を実施することができるコンピューティ
ング環境を示すブロック図である。

【図２】本発明を実施することができる、別のコンピュ
ーティング環境を示すブロック図である。

【図３】本発明の一実施形態のクラスエンティティディ
クショナリを更新するためのフローを示す図である。

【図４】本発明の実施形態のピンニンから文字への変換
を示すブロック図である。

【図５】本発明の一実施形態のクラスエンティティディ
クショナリを利用するためのフローを示す図である。

【図６】本発明の実施形態のパターン認識システムを示
すブロック図である。

【符号の説明】

１００コンピューティングシステム環境１１０コンピュータ１２０処理ユニット１２１システムバス１３０システムメモリ１３１ＲＯＭ１３２ＲＡＭ１３３ＢＩＯＳ１３４、１４４オペレーティングシステム１３５、１４５アプリケーションプログラム１３６、１４６他のプログラムモジュール１３７、１４７プログラムデータ１４０インタフェース１４１ハードディスクドライブ１５０取り外し可能不揮発性メモリインタフェース１５１磁気ディスクドライブ１５２取り外し可能な不揮発性磁気ディスク１５５光ディスクドライブ１５６取り外し可能な不揮発性光ディスク１６０ユーザ入力インタフェース１６１ポインティングデバイス１６２キーボード１６３、６０４マイクロホン１７０ネットワークインタフェース１７１ローカルエリアネットワーク１７２モデム１７３広域ネットワーク１８０広域ネットワーク１８５リモートのアプリケーションプログラム１９０ビデオインタフェース１９１モニタ１９５他のペリフェラルインタフェース１９６プリンタ１９７スピーカ２００モバイルデバイス２０２マイクロプロセッサ２０４メモリ２０６入出力コンポーネント２０８通信インタフェース２１２ＯＳ２１４アプリケーション２１６オブジェクトストア４０２音声入力４０４、６１２デコーダ４０６、６１４語彙４０８ピンインモデル４１０、６１６言語モデル４１２、６２０クラスエンティティディクショナリ４１６、６２２ヒューリスティックルール４２０、６３０ユーザ修正４２２、６３２クラス抽出４２４、６３４確率のクラス決定６００スピーカ６０２付加的ノイズ６０６Ａ／Ｄコンバータ６０８ノイズ低減６１０フィーチャエクストラクタ６１８音響モデル

───────────────────────────────────────────────────── フロントページの続き (72)発明者チェンゼン中華人民共和国ペキンハイディアンディストリクトジチュンドンリ９ナンバー−1801 (72)発明者ガオジャンフェン中華人民共和国 100039 ペキンペキンラバーインダストリアルインスティテュートビルディング 10 ルーム 13 (72)発明者リミンジン中華人民共和国 100081 ペキンハイディアンディストリクトゾジュンミォ 14 ビルディング８ルーム 1101 (72)発明者ザンフェンアメリカ合衆国 24060 バージニア州ブラックスバーグマクドナルドストリート 300 アパートメント 34シーＦターム(参考） 5B091 AA15 BA19 CB12 CC16 EA01 5D015 AA05 EE05 LL11

Claims

【特許請求の範囲】

【請求項１】入力を復号化する方法であって、該入力から可能な単語のシーケンスを特定し、クラスベースの言語モデルとクラスエンティティディク
ショナリを用いて、前記可能な単語シーケンスの１つを
出力シーケンスとして選択し、出力シーケンスに対して行われた修正を受け取り、およ
び前記修正を用いてクラスエンティティディクショナリ
を変更することを特徴とする方法。
【請求項２】コンピュータ実行可能命令を格納してい
るコンピュータ読取可能な媒体であって、前記コンピュ
ータ実行可能命令は、少なくとも１つのクラスに属するエンティティの確率を
与えるクラスエンティティディクショナリに部分的に基
づいて、単語シーケンスを生成するステップと、該単語シーケンスの中の復号化されたエンティティを修
正されたエンティティに修正することにより、前記単語
シーケンスに対しなされた修正を受け取るステップとを
有し、復号化されたエンティティと修正されたエンティティの
少なくとも１つに、少なくとも部分的に基づいて、クラ
スエンティティディクショナリの中にあるエンティティ
の確率を設定することを特徴とするコンピュータ読取可
能媒体。
【請求項３】請求項１に記載の方法において、前記修
正を用いてクラスエンティティディクショナリを変更す
る処理は、前記修正を用いてエンティティを前記クラス
エンティティディクショナリに追加する処理を備えたこ
とを特徴とする方法。
【請求項４】請求項３に記載の方法において、前記修
正を用いてエンティティを追加する処理は、該エンティ
ティを追加するクラスが与えられた追加されたエンティ
ティの確率を見積もることを、さらに備えたことを特徴
とする方法。
【請求項５】請求項４に記載の方法において、前記エ
ンティティの確率を見積もることは、前記出力シーケン
スの中の復号化されたエンティティに関連する確率に、
部分的に基づいて確率を見積もることを備えたことを特
徴とする方法。
【請求項６】請求項５に記載の方法において、前記エ
ンティティの確率を見積もることは、前記復号化された
エンティティに関連するｎグラム確率と、前記修正中の
修正されたエンティティが追加されるクラスに関連する
ｎグラム確率とに基づいて確率を見積もることを備えた
ことを特徴とする方法。
【請求項７】請求項１に記載の方法において、前記修
正を用いてクラスエンティティディクショナリを変更す
る処理は、該クラスエンティティディクショナリ中のエ
ンティティに関連する確率を大きくする処理を備えたこ
とを特徴とする方法。
【請求項８】請求項１に記載の方法において、前記修
正を用いてクラスエンティティディクショナリを変更す
る処理は、該クラスエンティティディクショナリ中のエ
ンティティに関連する確率を小さくする処理を備えたこ
とを特徴とする方法。
【請求項９】請求項２に記載のコンピュータ読取可能
媒体において、クラスエンティティディクショナリ中に
あるエンティティの確率を設定する処理は、前記修正さ
れたエンティティを前記クラスエンティティディクショ
ナリに追加し、前記修正されたエンティティの確率を選
択する処理を備えたことを特徴とするコンピュータ読取
可能媒体。
【請求項１０】請求項９に記載のコンピュータ読取可
能媒体において、前記修正されたエンティティの確率を
選択する処理は、前記復号化されたエンティティに関連
する確率に基づいて確率を見積もることを備えたことを
特徴とするコンピュータ読取可能媒体。
【請求項１１】請求項１０に記載のコンピュータ読取
可能媒体において、前記確率を見積もることは、復号化
されたエンティティに関連するｎグラム確率と、前記修
正中の修正されたエンティティが追加されるクラスに関
連するｎグラム確率とに基づいて、確率を見積もること
を備えたことを特徴とするコンピュータ読取可能媒体。
【請求項１２】請求項２に記載のコンピュータ読取可
能媒体において、前記エンティティの確率を設定する処
理は、前記エンティティの確率を大きくする処理を備え
たことを特徴とするコンピュータ読取可能媒体。
【請求項１３】請求項２に記載のコンピュータ読取可
能媒体において、前記エンティティの確率を設定する処
理は、前記エンティティの確率を小さくする処理を備え
たことを特徴とするコンピュータ読取可能媒体。