JP2005258439A

JP2005258439A - 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成

Info

Publication number: JP2005258439A
Application number: JP2005063646A
Authority: JP
Inventors: Li Yan; ヤンリ; Mei-Yuh Hwang; ウォンメイ−ユウ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-03-10
Filing date: 2005-03-08
Publication date: 2005-09-22
Also published as: DE602005027770D1; EP1575029B1; EP1575029A2; CN1667699B; US20050203739A1; ATE508453T1; CN1667699A; KR20060043825A; KR100996817B1; EP1575029A3; US7693715B2

Abstract

【課題】単語を構成部分に区分する方法および装置を提供すること。
【解決手段】本発明では、単語のセットにある文字音素単位の対の相互情報量スコアが求められる。各文字音素単位は、少なくとも１つの文字を含む。相互情報量スコアに基づいて、１つの文字音素単位の対の文字音素単位が組み合わせられる。それにより、新しい文字音素単位が形成される。本発明の一態様では、相互情報量を使用して音節に区分された単語に基づいて、音節のｎグラムモデルがトレーニングされる。音節のｎグラムモデルを使用して、新しい単語の音声表現を音節に区分する。同様に、相互情報量を使用して形態素の一覧が形成され、形態素のｎグラムがトレーニングされ、そのｎグラムを使用して新しい単語を形態素の連続に区分することができる。
【選択図】図４

Description

本発明は、文字から音声への変換システムに関する。詳細には、本発明は、文字から音声への変換で使用される文字音素（ｇｒａｐｈｏｎｅｍｅ）の生成に関する。

文字から音声への変換では、文字の連続が、その文字の連続の発音を表す音（オン：ｐｈｏｎｅ）の連続に変換される。

近年は、ｎグラム（ｎ−ｇｒａｍ）を利用したシステムが文字から音声への変換に使用されている。ｎグラムシステムでは、文字とその文字の音声発音の両方を表す結合単位である「文字音素」を利用する。各文字音素で、文字音素の文字部分にはゼロ個または１つ以上の文字があり、文字音素の音素部分にはゼロ個または１つ以上の音がある可能性がある。一般に、文字音素は、ｌ^＊：ｐ^＊と表記され、ｌ^＊は、ゼロ個または１つ以上の文字を意味し、ｐ^＊は、ゼロ個または１つ以上の音を意味する。例えば、「ｔｉｏｎ：ｓｈ＆ａｘ＆ｎ」は、４つの文字（ｔｉｏｎ）と３つの音（ｓｈ、ａｘ、ｎ）を有する文字音素を表す。音の名前は２文字以上である場合があるので、区切り記号「＆」が音と音の間に加えられる。

文字音素のｎグラムモデルは、単語の綴りの項目と各単語の音素の発音とを有する辞書に基づいてトレーニングされる。この辞書は、トレーニング辞書と呼ばれる。トレーニング辞書中に文字と音との対応付けが与えられると、トレーニング辞書を、文字音素発音の辞書に変換することができる。例えば、
音ｐｈ：ｆｏ：ｏｗｎ：ｎｅ：＃
が何らかの形で与えられると仮定する。そして、各単語の文字音素定義を使用して、「ｎ」個の文字音素が連続する尤度を推定する。例えば、文字音素のトライグラム（ｔｒｉｇｒａｍ）では、３つの文字音素が連続する確率Ｐｒ（ｇ_３｜ｇ_１ｇ_２）が、文字音素発音を有するトレーニング辞書から推定される。

文字音素を用いる従来技術のシステムの多くでは、文字から音声への変換システムに新しい単語が提供されると、最良優先探索アルゴリズムを使用して、ｎグラムのスコアに基づいて最良の発音または上からｎ個の最良の発音を見つける。この探索を行うには、通例は＜ｓ＞と表される、文字音素のｎグラムモデルの始まりの記号を含んだルートノードから開始する。＜ｓ＞は、一続きの文字音素の始まりを表す。ルートノードに関連付けられたスコア（ｌｏｇ確率）は、ｌｏｇ（（Ｐｒ（＜ｓ＞）＝１）＝０）になる。また、探索木の各ノードは、入力された単語中における文字の位置を常に把握している。これを「入力位置」と呼ぶことにする。入力単語中の文字はまだ１つも使用されていないので、＜ｓ＞の入力位置は０になる。要約すると、探索木中のノードは、最良優先探索については次の情報を含んでいる。

一方でヒープ構造が維持され、このヒープの一番上に探索ノードの最も高いスコア付けが見つかる。初めに、ヒープには１つの要素しかない。この要素は、探索木のルートノードをポイントする。探索が反復されると、ヒープのこの一番上にある要素が取り除かれ、それにより、探索木中でその時点で最良のノードが得られる。次いで、文字部分が、最良ノードの入力位置から開始する、入力単語の残りの文字の最初の文字である文字音素を文字音素の一覧で探索することにより、その最良のノードから子ノードを拡張する。そのような文字音素はそれぞれ、現在の最良ノードの子ノードを生成する。子ノードのスコアは、親ノード（すなわち現在の最良ノード）のスコアと、当該子ノードに対するｎグラムの文字音素スコアの合計になる。親ノードの入力位置に、当該子ノードの関連付けられた文字音素の文字部分の長さを足した位置になるように、子ノードの入力位置を前進させる。最後に、ヒープに子ノードが挿入される。

すべての入力文字が消費される際には特に注意を払わなければならない。現在の最良ノードの入力位置が入力単語の最後に達すると、探索木とヒープに、ｎグラムモデルの終了の記号＜／ｓ＞への遷移が加えられる。

ヒープから取り除かれた最良ノードがその文字音素ＩＤとして＜／ｓ＞を含む場合は、入力単語の完全な綴りに対応する音声発音が得られたことになる。発音を特定するには、最後の最良ノード＜／ｓ＞からルートノード＜ｓ＞に戻るまでの全経路を遡り、その経路にある文字音素単位の音素部分を出力する。

探索ノードの残りは、そのスコアよりすでに悪いスコアを有し、また、探索ノードの残りのどのノードから＜／ｓ＞に至る以降の経路もそのスコアをさらに悪くするだけなので（ｌｏｇ（確率）＜０であるため）、＜／ｓ＞を含む最初の最良ノードが文字音素のｎグラムモデルによる最良の発音になる。ヒープから引き続き要素が取り除かれていくと、ヒープにそれ以上要素がなくなるか、または、ｎ番目によい発音が一番よい発音より閾値分だけ悪くなるまでに、２番目によい発音、３番目によい発音などの発音が識別されることができる。そしてｎ−ｂｅｓｔ探索は終了する。

最大尤度法、最大エントロピー法など、ｎグラムの文字音素モデルをトレーニングする方式はいくつかある。文字音素自体も様々な方式で生成することができる。例えば、従来技術の一部では、隠れマルコフモデルを使用して、トレーニング辞書の文字と音との最初の位置合わせ（ａｌｉｇｎｍｅｎｔ）を生成し、その後、それらｌ：ｐの文字音素の頻繁に出現するペアを併合してより大きな文字音素単位とする。あるいは、特定の文字の連続を特定の音の連続に関連付ける言語学者によって文字音素の一覧を生成することもできる。これは、相当量の時間がかかり、また、言語学者は文字と音を文字音素にまとめる際に厳密な手法を用いないため、エラーを生じやすく、やや恣意的である。

単語および音声発音を文字音素の連続に区分する方法および装置が提供される。本発明では、小さな文字音素単位の対の相互情報量（ｍｕｔｕａｌｉｎｆｏｍａｔｉｏｎ）が求められる。各文字音素単位は、少なくとも１つの文字を含む。反復のたびに、最大の相互情報量を有する最良の対を組み合わせて、より長い新しい文字音素単位を形成する。併合アルゴリズムが停止した時に単語の辞書が得られ、この辞書では、各単語が、最終的な文字音素単位のセット中の文字音素の連続に区分されている。

これと同じ相互情報量に基づく貪欲法（ｇｒｅｅｄｙａｌｇｏｒｉｔｈｍ）を、文字を考慮せずに使用して、音声発音を音節（ｓｙｌｌａｂｌｅ）の発音に区分することができる。同様に、単語の「発音」が綴りとなるように割り当て、この場合も文字音素単位の文字部分を無視することにより、単語を形態素（ｍｏｒｐｈｅｍｅ）に分割することもできる。

図１に、本発明を実施することが可能な適切なコンピューティングシステム環境１００の例を示す。コンピューティングシステム環境１００は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能性の範囲について限定を示唆するものではない。また、コンピューティング環境１００は、例示的動作環境１００に示す構成要素の１つまたは組合せに関する依存性または必要性を有するものとも解釈すべきでない。

本発明は、多数の他の汎用または特殊目的のコンピューティングシステム環境または構成で動作する。本発明に使用するのに適する可能性があるよく知られるコンピューティングシステム、環境、および／または構成には、これらに限定しないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサを利用したシステム、セットトップボックス、プログラム可能な家電製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記のシステムまたはデバイスを含む分散コンピューティング環境などがある。

本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令との一般的関連で説明することができる。一般に、プログラムモジュールには、特定のタスクを行うか、特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、通信ネットワークを通じてリンクされた遠隔の処理デバイスによってタスクが行われる分散コンピューティング環境で実施されるように設計される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモート両方のコンピュータ記憶媒体に置くことができる。

図１を参照すると、本発明を実施する例示的システムは、コンピュータ１１０の形の汎用コンピューティングデバイスを含む。コンピュータ１１０の構成要素は、これらに限定しないが、処理装置１２０、システムメモリ１３０、およびシステムメモリを含む各種のシステム構成要素を処理装置１２０に結合するシステムバス１２１を含むことができる。システムバス１２１は、各種のバスアーキテクチャのいずれかを使用した、メモリバスまたはメモリコントローラ、ペリフェラルバス、およびローカルバスを含む数種のバス構造のいずれでもよい。限定ではなく例として、そのようなアーキテクチャには、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、および、メザニンバスとも称されるＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バスがある。

コンピュータ１１０は、通例、各種のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によるアクセスが可能な任意の利用可能媒体でよく、揮発性および不揮発性の媒体、取り外し可能および取り外し不能の媒体を含む。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体を含むことができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための方法または技術として実施された、揮発性および不揮発性、取り外し可能および取り外し不能の媒体が含まれる。コンピュータ記憶媒体には、これらに限定しないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、または他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、または他の磁気記憶装置、または所望の情報の記憶に使用することができ、コンピュータ１１０によるアクセスが可能な他の媒体が含まれる。通信媒体は、通例、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波や他のトランスポート機構などの変調データ信号として実施し、情報伝達媒体を含む。用語「変調データ信号」とは、信号中に情報を符号化するような方式でその特性の１つまたは複数を変化または設定した信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接配線接続などの有線媒体と、音波、ＲＦ、赤外線、および他の無線媒体などの無線媒体が含まれる。上記の媒体の組合せもコンピュータ可読媒体の範囲に含まれる。

システムメモリ１３０は、読み取り専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性メモリおよび／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などにコンピュータ１１０中の要素間の情報転送を助ける基本ルーチンを含んだ基本入出力システム１３３（ＢＩＯＳ）は、通例、ＲＯＭ１３１に記憶される。ＲＡＭ１３２は通例、処理装置１２０から即座にアクセス可能な、かつ／または現在処理装置１２０によって操作されているデータおよび／またはプログラムモジュールを保持する。限定ではなく例として、図１には、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を示す。

コンピュータ１１０は、他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータ記憶媒体も含むことができる。単なる例として、図１には、取り外し不能、不揮発性の磁気媒体の読み書きを行うハードディスクドライブ１４１、取り外し可能、不揮発性の磁気ディスク１５２の読み書きを行う磁気ディスクドライブ１５１、および、ＣＤ−ＲＯＭなどの取り外し可能、不揮発性の光ディスク１５６または他の光学媒体の読み書きを行う光ディスクドライブ１５５を示す。例示的動作環境で使用することができるこの他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータ記憶媒体には、これらに限定しないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体素子ＲＡＭ、固体素子ＲＯＭなどがある。ハードディスクドライブ１４１は通例、インターフェース１４０などの取り外し不能メモリインターフェースを通じてシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は通例、インターフェース１５０などの取り外し可能メモリインターフェースによりシステムバス１２１に接続される。

上記で説明し、図１に示す、これらのドライブとそれに関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの記憶をコンピュータ１１０に提供する。図１では、例えば、ハードディスクドライブ１４１に、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７が記憶されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同じであっても異なってもよいことに留意されたい。ここでは、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７には、それらが少なくとも異なるコピーであることを表すために異なる参照符号を付している。

ユーザは、キーボード１６２、マイクロフォン１６３、およびマウス、トラックボール、タッチパッドなどのポインティングデバイス１６１などの入力装置を通じてコンピュータ１１０にコマンドと情報を入力することができる。他の入力装置（図示せず）には、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナなどがある。これらおよび他の入力装置は、多くの場合、システムバスに結合されたユーザ入力インターフェース１６０を通じて処理装置１２０に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス（ＵＳＢ）などの他のインターフェースおよびバス構造で接続してよい。モニタ１９１または他の種の表示装置も、ビデオインターフェース１９０などのインターフェースを介してシステムバス１２１に接続される。モニタ以外に、コンピュータは、スピーカ１９７やプリンタ１９６などの他の周辺出力装置も含むことができ、それらの出力装置は、出力周辺インターフェース１９５を通じて接続することができる。

コンピュータ１１０は、リモートコンピュータ１８０などの１つまたは複数のリモートコンピュータとの論理接続を使用するネットワーク環境で操作される。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他の一般的なネットワークノードであり、通例は、コンピュータ１１０との関連で上述した要素の多くまたはすべてを含む。図１に示す論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１とワイドエリアネットワーク（ＷＡＮ）１７３を含むが、この他のネットワークを含んでもよい。このようなネットワーキング環境は、オフィス、企業内のコンピュータネットワーク、イントラネット、およびインターネットに一般的に見られる。

ＬＡＮネットワーキング環境で使用される場合、コンピュータ１１０は、ネットワークインターフェースあるいはアダプタ１７０を通じてＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用される場合、コンピュータ１１０は通例、インターネットなどのＷＡＮ１７３を通じて通信を確立するためのモデム１７２または他の手段を含む。モデム１７２は、内蔵型でも外付け型でもよく、ユーザ入力インターフェース１６０または他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク環境では、コンピュータ１１０との関連で図示するプログラムモジュールまたはその一部は、遠隔のメモリ記憶装置に記憶することができる。限定ではなく例として、図１では、リモートアプリケーションプログラム１８５がリモートコンピュータ１８０にある。図のネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立する他の手段を使用してよいことは理解されよう。

本発明の一実施形態では、文字から音声への変換で使用することができる文字音素が、相互情報量の基準を使用して形成される。図２に、本発明の一実施形態における、そのような文字音素を形成する流れ図を提供する。

図２のステップ２００で辞書の単語が個々の文字に分割され、個々の文字それぞれが、その単語に関連付けられた音の連続の中の１つの音と位置が合わせられる（ａｌｉｇｎ）。一実施形態では、この位置合わせは、単語の左から右へと進行し、１番目の文字が１番目の音と合わせられ、２番目の文字が２番目の音と合わせられる。音より文字が多い場合は、残りの文字は無音に対応し、無音は「＃」で表される。文字より音が多い場合は、最後の文字が複数の音に対応する。例えば、単語「ｐｈｏｎｅ」と「ｂｏｘ」は、初めに次のように対応付けられる。
ｐｈｏｎｅ：ｐ：ｆｈ：ｏｗｏ：ｎｎ：＃ｅ：＃
ｂｏｘ：ｂ：ｄｏ：ａａｘ：ｋ＆ｓ
このように、初めの文字音素単位はそれぞれ、正確に１つの文字とゼロ個または１つ以上の音を有する。これらの最初の単位は、包括的にｌ：ｐ^＊と表記することができる。

最初の位置合わせの後、図２の方法では、ステップ２０２で各文字の位置が一致する確率を判定する。位置が一致する確率は次のように計算することができる。

ｐ（ｐ^＊｜ｌ）は、音の連続ｐ^＊が文字ｌと一致する確率であり、ｃ（ｐ^＊｜ｌ）は、辞書中で音の連続ｐ^＊が文字ｌと一致した回数であり、ｃ（ｓ^＊｜ｌ）は、音の連続ｓ^＊が文字ｌと一致した回数であり、辞書中で文字ｌと位置が一致したすべての可能な音の連続ｓ^＊にわたって分母の合計をとる。

位置が合う確率を求めると、ステップ２０４で新しい位置合わせが形成され、ここでも、１つの文字音素につき１つの文字に、各文字音素に関連付けられたゼロ個または１つ以上の音が割り当てられる。この新しい位置合わせは、ステップ２０２で求められた位置合わせの確率に基づく。特定の一実施形態ではビタビ復号システムが用いられ、このシステムでは、図３の例示的トレリスなどのビタビトレリスを通る経路が位置合わせの確率から特定される。

図３のトレリスは、音の連続「ｆ＆ｏｗ＆ｎ」を有する単語「ｐｈｏｎｅ」の場合である。このトレリスは、文字ごとの別個の状態インデックスと、最初の無音状態のインデックスを含む。各状態インデックスには、音の連続を通じた進行に対して独立した状態がある。例えば、文字「ｐ」の状態インデックスには、無音の状態３００、／ｆ／の状態３０２、／ｆ＆ｏｗ／の状態３０４、および、／ｆ＆ｏｗ＆ｎ／の状態３０６がある。２つの状態間の遷移はそれぞれ、可能な文字音素を表す。

各状態インデックスの各状態には、その状態に至る完全な各経路の確率を求めることにより、その状態に至る単一の経路が選択される。例えば、状態３０８の場合、ビタビ復号では経路３１０または経路３１２が選択される。経路３１０のスコアは、経路３１４のｐ：＃が一致する確率と、経路３１０のｈ：ｆが一致する確率とを含む。同様に、経路３１２のスコアは、経路３１６のｐ：ｆが一致する確率と、経路３１２のｈ：＃が一致する確率とを含む。最も高い確率を有する各状態への経路が選択され、もう一方の経路はその後の検討から排除される。この復号プロセスを通じて、辞書中の各単語が文字音素の連続に区分される。例えば図３では、文字音素の連続
ｐ：ｆｈ：＃ｏ：ｏｗｎ：ｎｅ：＃
が、最も有望な位置合わせとして選択されることができる。

ステップ２０６で、本発明の方法では、さらに位置合わせの反復を行うべきかどうかを判定する。さらに多くの位置合わせの反復を行うべき場合は、プロセスはステップ２０２に戻って、ステップ２０４で形成された新しい位置合わせに基づいて位置合わせの確率を求める。ステップ２０２、２０４、および２０６は、必要な回数の反復が行われるまで繰り返される。

ステップ２０２、２０４、および２０６を反復した結果、辞書中の各単語が、一続きの文字音素単位に区分される。各文字音素単位は、綴り部分に正確に１つの文字と、音部分にゼロ個または１つ以上の音素を有する。

ステップ２１０で、位置合わせのステップ２０４の後に辞書に見つかる文字音素単位の連続した各対の相互情報量を求める。一実施形態では、２つの連続した文字音素単位の相互情報量は、次のように計算される。

ＭＩ（ｕ_１，ｕ_２）は、文字音素単位の対ｕ_１とｕ_２の相互情報量である。Ｐｒ（ｕ_１，ｕ_２）は、文字音素単位ｕ_２が文字音素単位ｕ_１のすぐ後に出現する同時確率である。Ｐｒ（ｕ_１）は、文字音素単位ｕ_１のユニグラムの確率であり、Ｐｒ（ｕ_２）は、文字音素単位ｕ_２のユニグラムの確率である。式２の確率は次のように計算される。

ｃｏｕｎｔ（ｕ_１）は、文字音素単位ｕ_１が辞書に出現する回数であり、ｃｏｕｎｔ（ｕ_２）は、文字音素単位ｕ_２が辞書に出現する回数であり、ｃｏｕｎｔ（ｕ_１ｕ_２）は、文字音素単位ｕ_２が辞書中で文字音素単位ｕ_１のすぐ後にある回数であり、ｃｏｕｎｔ（^＊）は、辞書中の全文字音素単位のインスタンスの数である。

厳密に言うと、式２は、２つの分布間の相互情報量ではなく、したがって、非負（ｎｏｎ−ｎｅｇａｔｉｖｅ）になることが保証されない。しかし、式２の公式は、相互情報量の公式に似ており、そのため当該文献では誤って相互情報量と称されている。したがって、本出願に関しては、式２の計算を引き続き相互情報量の計算と称する。

ステップ２１０で辞書中で隣接する文字音素単位の対ごとに相互情報量を計算すると、ステップ２１２で新しい可能な文字音素単位ｕ_３それぞれの強さを求める。２つの既存の小さな文字音素単位を併合することにより、新しい可能な文字音素単位が得られる。しかし、２つの異なる文字音素単位の対から、同じ新しい文字音素単位が得られる場合がある。例えば、文字音素の対（ｐ：ｆ，ｈ：＃）と文字音素の対（ｐ：＃，ｈ：ｆ）は両方とも、ともに併合されると、より大きな同じ文字音素単位（ｐｈ：ｆ）を形成する。そのため、同じ新しい単位ｕ_３を形成する異なる文字音素単位の対を併合することによって形成されるすべての相互情報量の合計になるように、新しい可能な文字音素単位ｕ_３の強さを定義する。

ｓｔｒｅｎｇｔｈ（ｕ_３）は、新しい可能な単位ｕ_３の強さであり、ｕ_１ｕ_２＝ｕ_３は、ｕ_１とｕ_２を併合するとｕ_３になることを意味する。したがって、式６の合計は、ｕ_３を形成するそのような対の単位ｕ_１およびｕ_２すべてに行われる。

ステップ２１４で、最大の強さを有する新しい単位が作成される。次いで、より小さい単位の対を新しく形成された単位に置き換えることにより、選択された新しい単位を形成する構成要素となる対を含む辞書項目が更新される。

ステップ２１８で、この方法は、より大きな文字音素単位を作成すべきかどうかを判定する。作成すべき場合、プロセスはステップ２１０に戻り、文字音素単位の対の相互情報量を再度計算する。前回の併合の後、古い単位には辞書にそれ以上必要とされない（すなわちｃｏｕｎｔ（ｕ_１）＝０）ものがある場合があることに留意されたい。ステップ２１０、２１２、２１４、２１６、および２１８は、十分に大きな文字音素単位のセットが構成されるまで反復される。その結果、辞書は、文字音素の発音に区分された状態となる。

次いでステップ２２２で、区分された辞書を使用して文字音素のｎグラムをトレーニングする。ｎグラムを構築する方法としては、特に、最大エントロピーを利用したトレーニングと最大尤度を利用したトレーニングが挙げられる。ｎグラム構築の分野の当業者は、ｎグラムの言語モデルを構築する適切な方法を本発明に使用することができることを理解されよう。

相互情報量を使用してより大きな文字音素単位を構築することにより、本発明は、どのような綴り言語に対しても大きな文字音素単位を生成する自動的な手法を提供し、文字音素単位を手作業で特定する際に、言語学者による作業を必要としない。

図２のステップ２２２で文字音素のｎグラムが生成されると、文字音素の一覧とｎグラムを使用して所与の綴りの発音を求めることができる。また、それらを使用して、音声発音を有する綴りを、一覧中の文字音素の連続に区分することもできる。これは、文字音素の文字および音と、探索木の各ノードにある残った文字および音との冒頭部の一致を要求する強制的な位置合わせを適用することによって達成される。すると、ｎグラムで最高の確率を提供し、文字および音の両方と一致する文字音素の連続が、所与の綴り／発音の文字音素区分として特定される。

同じアルゴリズムで、音節の一覧を生成し、音声のｎグラムをトレーニングし、そして単語の発音に強制的な位置合わせを行うことにより、音声発音を音節の発音に区分することもできる。図４に、音節のｎグラムを生成し、それを使用して単語の音節を識別する方法の流れ図を提供する。一実施形態では、文字音素がこのアルゴリズムへの入力として使用されるが、このアルゴリズムでは、各文字音素の文字側を無視し、各文字音素の音のみを使用する。

図４のステップ４００で、辞書中の音の各対の相互情報量スコアを求める。ステップ４０２で、最も高い相互情報量スコアを有する音の対が選択され、その２つの音からなる新しい「音節」単位が生成される。ステップ４０４で、その音の対を含む辞書項目が更新され、その結果、辞書項目中でその音の対が１つの音節単位として扱われるようになる。

ステップ４０６で、この方法は、さらに行う反復があるかどうかを判定する。さらに反復がある場合、プロセスはステップ４００に戻り、辞書中の音の対ごとに相互情報量スコアが生成される。ステップ４００、４０２、４０４、および４０６は、適切な音節単位のセットが形成されるまで反復される。

ステップ４０８で、この時点で音節単位に分割されている辞書を使用して音節のｎグラムを生成する。音節のｎグラムモデルは、辞書にある音節が連続する確率を提供する。ステップ４１０で、音節のｎグラムを使用して、その発音を考慮して新しい単語の音節を識別する。詳細には、強制的な位置合わせが用いられ、この位置合わせでは、音節のｎグラムに基づいて、発音の音が、最も可能性の高い音節の連続にまとめられる。ステップ４１０の結果、単語の音が音節単位に分けられる。

これと同じアルゴリズムを使用して単語を形態素に分割することができる。単語の音を使用する代わりに、単語の個々の文字をその単語の「発音」として使用する。上記で説明した貪欲法（ｇｒｅｅｄｙａｌｇｏｒｉｔｈｍ）を直接使用するには、文字音素の音の代わりに個々の文字を使用し、各文字音素の文字側を無視する。そのため、ステップ４００で、トレーニング辞書中の文字の対の相互情報量を特定し、相互情報量が最も高い対をステップ４０２で選択する。そして、その対に新しい形態素単位が形成される。ステップ４０４で、新しい形態素単位で辞書項目を更新する。適切な数の形態素が作成されると、辞書中に見つかる形態素単位を使用してｎグラムの形態素モデルをトレーニングし、後にそのモデルを使用して、上記の強制的な位置合わせアルゴリズムで単語の綴りからその単語の形態素を識別することができる。この手法を使用すると、「ｔｒａｎｓｉｔｉｏｎ」のような単語は、「ｔｒａｎｓｉｔｉｏｎ」という形態素単位に分割することができる。

本発明について特定の実施形態を参照して説明したが、当業者は、本発明の主旨および範囲から逸脱することなく形態と詳細に変更を加えてよいことを理解されよう。

本発明の一実施形態を実施することが可能な一般的コンピューティング環境のブロック図である。本発明の一実施形態における文字音素の大きな単位を生成する方法の流れ図である。単語「ｐｈｏｎｅ」を文字音素の連続に区分する復号トレリスの例の図である。相互情報量に基づいて音節のｎグラムをトレーニングし、そのｎグラムを使用する方法の流れ図である。

符号の説明

１２０処理装置
１３０システムメモリ
１３４、１４４オペレーティングシステム
１３５、１４５アプリケーションプログラム
１３６、１４６他のプログラムモジュール
１３７、１４７プログラムデータ
１４０取り外し不能、不揮発性メモリインターフェース
１５０取り外し可能、不揮発性メモリインターフェース
１６０ユーザ入力インターフェース
１６１ポインティングデバイス
１６２キーボード
１６３マイクロフォン
１７０ネットワークインターフェース
１７１ローカルエリアネットワーク
１７３ワイドエリアネットワーク
１７２モデム
１８０リモートコンピュータ
１８５リモートアプリケーションプログラム
１９０ビデオインターフェース
１９１モニタ
１９５出力周辺インターフェース
１９６プリンタ
１９７スピーカ

Claims

単語を構成部分に区分する方法であって、
文字音素単位の相互情報量スコアを求めるステップであって、各文字音素単位は、単語の綴りに少なくとも１つの文字を備えるステップと、
前記相互情報量スコアを使用して、文字音素単位を組み合わせてより大きな文字音素単位にするステップと、
単語を構成部分に区分して文字音素の連続を形成するステップと
を備えることを特徴とする方法。
文字音素を組み合わせるステップは、各文字音素の文字を組み合わせて、前記より大きな文字音素単位の文字の連続を生成し、各文字音素の音を組み合わせて、前記より大きな文字音素単位の音の連続を生成するステップを備えることを特徴とする請求項１に記載の方法。
前記区分された単語を使用してモデルを生成するステップをさらに備えることを特徴とする請求項１に記載の方法。
前記モデルは、単語中での前後関係を考慮して文字音素単位の確率を記述することを特徴とする請求項３に記載の方法。
前記モデルを使用して、単語の綴りを考慮して前記単語の発音を判定するステップをさらに備えることを特徴とする請求項４に記載の方法。
前記相互情報量スコアを使用するステップは、より大きな１つの文字音素単位について求められた少なくとも２つの相互情報量スコアを合計して強さを形成するステップを備えることを特徴とする請求項１に記載の方法。
単語のセットにある文字音素単位の対の相互情報量スコアを求めるステップであって、各文字音素単位は、少なくとも１つの文字を備えるステップと、
前記相互情報量スコアに基づいて、１つの文字音素単位の対の文字音素単位を組み合わせて新しい文字音素単位を形成するステップと、
部分的に前記新しい文字音素単位に基づいて、単語の文字音素単位のセットを特定するステップと
を行うコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
前記文字音素単位を組み合わせるステップは、前記文字音素単位の文字を組み合わせて、前記新しい文字音素単位の文字の連続を形成するステップを備えることを特徴とする請求項７に記載のコンピュータ可読媒体。
前記文字音素単位を組み合わせるステップはさらに、前記文字音素単位の音を組み合わせて、前記新しい文字音素単位の音の連続を形成するステップを備えることを特徴とする請求項８に記載のコンピュータ可読媒体。
辞書中で各単語の文字音素のセットを特定するステップをさらに備えることを特徴とする請求項７に記載のコンピュータ可読媒体。
前記辞書中で前記単語について特定された文字音素のセットを使用してモデルをトレーニングするステップをさらに備えることを特徴とする請求項１０に記載のコンピュータ可読媒体。
前記モデルは、文字音素単位が単語中に出現する確率を記述することを特徴とする請求項１１に記載のコンピュータ可読媒体。
前記確率は、前記単語中の少なくとも１つの他の文字音素に基づくことを特徴とする請求項１２に記載のコンピュータ可読媒体。
前記モデルを使用して、単語の綴りを考慮して前記単語の発音を判定するステップをさらに備えることを特徴とする請求項１１に記載のコンピュータ可読媒体。
前記相互情報量スコアに基づいて文字音素単位を組み合わせるステップは、新しい文字音素単位に関連付けられた少なくとも２つの相互情報量スコアを合計するステップを備えることを特徴とする請求項７に記載のコンピュータ可読媒体。
単語を音節に区分する方法であって、
相互情報量スコアを使用して単語のセットを音声音節に区分するステップと、
前記区分された単語のセットを使用して、音節のｎグラムモデルをトレーニングするステップと、
前記音節のｎグラムモデルを使用して、強制的な位置合わせを介して単語の音声表現を音節に区分するステップと
を備えることを特徴とする方法。
単語を形態素に区分する方法であって、
相互情報量スコアを使用して単語のセットを形態素に区分するステップと、
前記区分された単語のセットを使用して、形態素のｎグラムモデルをトレーニングするステップと、
前記形態素のｎグラムモデルを使用して、強制的な位置合わせを介して単語を形態素に区分するステップと
を備えることを特徴とする方法。