JPH08292792A

JPH08292792A - 重み付き有限状態変換機能を用いた書記素−音素変換

Info

Publication number: JPH08292792A
Application number: JP8065574A
Authority: JP
Inventors: Fernando Carlos Neves Pereira; カルロスネイヴスペレイラフェルナンド; Michael Dennis Riley; デニスリレイマイケル; Richard William Sproat; ウィリアムスプロートリチャード
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-03-24
Filing date: 1996-03-22
Publication date: 1996-11-05
Also published as: CA2170669A1; EP0736856A2; US5781884A

Abstract

(57)【要約】【課題】特別なルールにより数字の列を単語群に変換
したり、中国語などの単語間の境界が欠落した言語の文
書中の単語間にスペース等を挿入できるようにし、関係
する重みまたは確率によって複数の解析をコード化でき
る書記素−音素モジュールを提供することである。【解決手段】本発明は、一つ以上のアラビア数字を展
開し、その数字に相当する言葉を形成する方法を供給す
る。その相当する言葉の形成に対する述部として、数字
の文法の言語学的な記述が与えられる。この記述は、一
つ以上の重み付き有限状態変換機能にコンパイルされ
る。一つ以上のアラビア数字のシーケンスに相当する言
葉は、その後一つ以上の重み付き有限状態変換機能を用
いて合成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストからの音
声合成システムのためのテキスト解析システムに関す
る。

【０００２】

【従来の技術】テキスト解析が重要な役割を果たす領域
は、テキストからの音声合成（ＴＴＳ）システムであ
る。ＴＴＳシステムが直面する最初の問題の１つは、入
力テキストから構文上の基本単位となる文字列を切り出
して（トークン化して）単語に分割すること、および、
その後それらの単語を品詞割り当て（part-of-speech a
ssignment ）アルゴリズムや書記素−音素変換アルゴリ
ズムなどを用いて解析することである。トークン化およ
びテキスト解析システムを設計するのは、テキスト中に
単語の境界に印のない中国語や日本語、単語の境界に印
のあるヨーロッパの言語を含む広範囲の言語を処理でき
る多言語システムを構築したいときには特に困難とな
る。本明細書は、広範囲の言語に適用できるテキスト解
析のためのアーキテクチャを記述するものである。な
お、ＴＴＳシステムはさらに自動音声認識（ＡＴＲ）シ
ステムのための発音を生成するために使用されるので、
ここで記述された種類のテキスト解析モジュールは単な
るＴＴＳよりも広い適用範囲を有する。

【０００３】すべてのＴＴＳシステムは、入力を発音す
る目的のため、書記素列(graphemicstring)を音素表現
(phonological representation) に変換できなければな
らない。ルールのほとんどをハードウエアに組み込んだ
比較的アドホックな処理系（すなわち［１］）から、形
態論的な解析ルーチンと音形規則コンパイラを取り入れ
たより理に適ったアプローチ（すなわち［２、３］）、
さらに（その他）すべてのアプローチにわたる現在の書
記素−音素変換のためのシステムは、それらの問題を抱
えている。

【０００４】言語情報のほとんどをハードウエアに組み
込んだシステムでは、明らかに新たな言語は移植しにく
い。より一般的なアプローチでは、大体完全な形態論的
な解析を行い、そして形態素の根源的な音声表示から外
面音声形式を生成するのが良いとされてきた。しかし、
そのようなシステムに取り入れられてきた言語的前提に
よれば、このアプローチはある程度適切であるというだ
けである。特定の例をあげると、ロシア語の単語кос
тра／ｋａｓｔｒａ／（焚き火＋所有格．単数）の形
態素での形式はкост｛Ё｝раであるとして論じる
ことができる。ここで｛Ё｝は、この例では削除するが
（所有格を表す印としての−ａのため）主音素（archip
honeme）であり、他の例（すなわち、単数主格形のко
стёр／ｋａｓｔｊｏｒ／）ではёとして表面に出
る。これらの選択は、一般的な音声規則により決定され
るので、表面文字列を解析してその形態論的な要素に
し、それらの形態素の音声表示から正しい発音を生成す
ることが可能だろう。しかしながら、このアプローチは
冗長さを含んでいる。問題での母音の削除はつづり字の
中で既に表現されており、今ここで説明したアプローチ
は、要するに、既にわかっていることを再計算する必要
があるというだけで根源的形式を再構成するのである。
また一方、いくつかのロシア語の母音はアクセントを置
く位置に依存し、これが今度は形態論的な解析によって
決められるため、形態素情報が全くなしでは実現できな
い。この例では、アクセントが最後にあるので最初の<
о>の発音は／ａ／である。

【０００５】さらに、２つの欠点が最近のアプローチに
よって確認できる。まず最初に、書記素−音素変換は概
して、通常の言葉を音素列に変換する問題として見られ
ているが、一般的な書き言葉には、数字や略語を含む別
の種類の入力がある。前に述べたとおり、中国語のよう
ないくつかの言語は、単語と単語を分ける情報が文書か
ら欠落しており、トークン化機能を用いて再構成しなけ
ればならない。我々が知っているすべてのＴＴＳシステ
ムでは、これらの後者の問題点は、文書処理の問題とし
扱われている。それゆえ、特別なルールにより数列を単
語群に変換したり、中国語の文書中の単語と単語の間に
スペースを挿入したりする。これら別の問題は、より一
般的な書記素−音素変換の問題の単に特別な例とは思わ
れていない。

【０００６】

【外１】

【０００７】

【課題を解決するための手段】本発明は、一つ以上のア
ラビア数字を展開し、相当する言葉を形成する方法を供
給する。本発明によれば、数字の文法の言語学的な記述
が与えられる。この記述は、一つ以上の重み付き有限状
態変換機能にコンパイルされる。一つ以上のアラビア数
字のシーケンスに相当する言葉は一つ以上の重み付き有
限状態変換機能を用いて合成される。

【０００８】

【発明の実施の形態】

〈図１の詳細な説明〉１．書記素−音素変換の説明言語記述システムはすべて−中国語［４］であっても−
基本的に音素的である。書かれた記号に加えて、種々の
言語は、程度の差はあるが入力文字列の適切な音声表示
を生成するために辞書情報を必要とする。要求される辞
書情報の量は、明らかに正書法のシステムが音声を表す
とみなせる度合と正に逆の関係を持っており、この意味
においては音声を完全に表す記述システムを持つ言語が
おそらくないということは指摘するに値する。上記の前
提は、正書法、音韻体系および、形態を媒介するには、
第４レベルの表現が必要であることを示唆する。この表
現は、私達が「最小形態論的注釈（minimal morphologi
cal annotation）」またはＭＭＡと呼ぼうとするもので
あり、正しい発音を考慮した十分な辞書情報を含むが、
形態の完全な形態論的な解析までには（一般に）達しな
い。これらのレベルは、図７に示されるように、変換機
能により、より詳しくは有限状態変換機能（ＦＳＴ）に
関係し、より一般的には重み付きＦＳＴ（ＷＦＳＴ）
［５］に関係し、これはレベル−レベルを関係させる言
語ルールを実行するものである。本システムにおいて
は、（Ｗ）ＦＳＴはカプラン−ケイ（Kaplan-Kay）
［６］ルール翻訳アルゴリズムを含む辞書ツールキット
を使用する言語記述から、重み付けされたルールを考慮
に入れる展開をして、派生したものである。

【０００９】システムは、表面からＭＭＡへの（Ｗ）Ｆ
ＳＴで重み付けの無い有限状態アクセプタ（ＦＳＡ）と
いわれる表面形式をまず組み立て、その後可能なＭＭＡ
の束を表すＦＳＡを生成するため出力を創出することに
より動作する。第２に、ＭＭＡのＦＳＡを形態からＭＭ
Ａへのマッピングによって組み立てる。形態からＭＭＡ
へのマッピングは、入力形式の可能な限りの（深い）形
態論的な解析のみを作り出し、形態論的な解析に対応可
能なすべてのＭＭＡ形式のみにＭＭＡのＦＳＡを限定す
る組み込まれた効果を有するものである。システムの更
なる変形には、形態論的な解析は、言語モデル（以下参
照）を用いてさらに制限されるであろう。最後に、ＭＭ
Ａから音素へのＦＳＴは、入力形式の可能な音韻論的翻
訳のひとセットを作り出すようにＭＭＡからなる。

【００１０】具体例として、従来の説明のところで述べ
られたロシア語の例костра（焚き火＋所有格．単
数）に戻る。上述したように、ロシア語の単語を発音す
るために必要な重大な情報は、語彙のアクセントの場所
である。これは、表面形式からは一般に予測できるもの
ではなく、形態の認識によるものである。２、３の形態
的シンタクティクスの特徴もまた必要である。たとえ
ば、音声学上の前後関係によって／ｇ／または／ｋ／が
一般的に発音される＜г＞は、形容詞の男性／中性の所
有格の語尾−（о／е）гоでは通常／ｖ／が発音され
る。従って、形容詞については少なくとも特徴＋所有格
は、ＭＭＡ内に存在しなければならない。特定の例で
は、アクセントが第２音節にある情報を有するкост
ра、すなわちкостр’аの表面上のスペルについ
て論じよう。これは、次のように成し遂げられる。ＭＭ
Ａから表面正書法表現へマッピングするＦＳＴにより、
単語のアクセントが削除され、（教授法のテキスト外で
は、ロシア語の表面正書法においてアクセントは表され
ない）、結局、この関係の逆によって、あらゆる場所の
アクセントの挿入が可能になる。これは、あらゆる可能
な箇所におけるアクセントを伴った格子状の解析（ラチ
ス）を提供するであろう。そしてこれらの解析のうちの
ひとつが正しいものである。意識的なロシア語の形態に
は、костёр「焚き火」はアクセントがその語尾に
あり、あるいは一カ所の場合、語幹に戻る、この場合
は、語幹の最後の音節である格変化に属する名詞である
という知識を含んでいる。

【００１１】

【外２】

【００１２】２．テキストの単語へのトークン化上述の説明では、われわれは書記素−音素システムへの
入力がすでに単語にセグメント化されているものとして
無条件に仮定してきたが、実はこの仮定にはなんら根拠
はない。われわれは単に入力センテンスが通常の表現に
よって表されるものと容易に仮定することができる。

【００１３】

【数１】よって、入力センテンスは単一のＦＳＡとして表され、
また入力は辞書の推移的仕切りによって交差され、入力
のすべての単語のすべての可能な形態論的な解析を含む
ラチスを作り出すことができる。これは、次の２つの理
由により望ましい。第１に、さらに（有限状態）言語モ
デルで語彙的解析を抑制する目的で、センテンスレベル
の抑制を実行する（有限状態）言語モデルを伴う単に語
彙的な抑制から派生するラチスを交差することができ、
またこれは、単に、センテンス内のすべての単語のすべ
ての可能な語彙的解析が単一表現に存在する場合にあり
うることである。

【００１４】

【外３】

【００１５】

【外４】

【００１６】３．数字の展開自然に発生するテキストにおける表現の重要な問題のひ
とつは、数字である。あいまいでない数字のシーケンス
（とりわけ日付や電話番号などを示すものなどの特別な
場合）の問題については置いておいて、いかにしてアラ
ビア数字のシーケンスからそのシーケンスが示す数字の
適切な発音へ変換するかという問題に焦点を当ててみま
しょう。最近のライティングシステムは少なくともいく
つかの異なったアラビア数字のシステムを許容するの
で、ここでは数字の表現の取り扱いに焦点を当てる。注
目すべき第１の点は、実際にはどんな風に数字が言語上
発音されてもアラビア数字の表現は、つまり３００５
は、同じ数字的な「概念」を常に表現しているといえ
る。数字を単語にさらにその単語の発音へ変換する問題
を分かり易くするために、アラビア数字の文字列から数
字の概念へマッピングする普遍的な問題とこれらの数字
的概念を調音する言語特有の問題とにこの問題をブレー
クダウンする。

【００１７】第１の問題は、通常の数字的表現から十の
総累乗値（sum of powers of ten）〔十の累乗は限定さ
れた語彙を構築しないので、明らかにこれは一般的には
有限関係として表現されない。しかし、実際は、言語に
は「数字の名称」は数少なく、またいずれにしてもアラ
ビア数字の連続する長さには事実上の制限が存在するの
で、現実にひとつの数として読まれ、有限状態モデルを
用いてこの問題は処理できる。〕へ変換するＦＳＴを設
計することにより処理される。すなわち、３，００５
は、｛３｝｛１０００｝｛０｝｛１００｝｛０｝｛１
０｝｛５｝のような「展開」形式に表現される。

【００１８】言語特有の語彙的な情報は、次の通り、中
国語を例にとって実行される。中国語の辞書は、次のよ
うな登録（エントリー）を含む。

【数２】辞書内に登録の推移的仕切りを形成し（これによりどの
数の名称も他のものに続けることができる）、すべての
中国語の文字を削減するＦＳＴでこれを組み立てる。展
開された形式｛３｝｛１０００｝｛０｝｛１００｝
｛０｝｛１０｝｛５｝で交差された場合の結果として生
じたＦＳＴは、Ｔ₁ と称され、それを｛３｝三｛１００
０｝千｛０｝零｛１００｝百｛０｝零｛１０｝十｛５｝
五にマッピングする。展開された表現における数字上の
要素を削り、「零」のあとの「百」や「十」のような記
号を削り、シーケンスにおける零以外のすべてを削るも
のが書かれる。これらのルールは、ＦＳＴにコンパイル
され、表面からＭＭＡへマッピングするＦＳＴを形成
し、これは３００５をＭＭＡ三千零五（ｓａｎの第１
声、ｑｉａｎの第１声、ｌｉｎｇの第２声、ｗｕの第３
声）にマッピングする。ロシア語のアラビア数字の文字
列の変換機能は、この場合単一の翻訳ではなく、異なっ
たケースや性によって印づけられる複数の翻訳が生成さ
れる以外は、中国語の場合と同様に機能する。これは曖
昧さをなくすために構文上の前後関係によって生成され
る。

【００１９】図２は、言語的記述から図１における表現
の２つのレベルに関連する重み付き有限状態変換機能を
組み立てる行程を示している。図の「Ａ」とラベル付け
されたセクションに示されたように、さまざまな解析問
題の言語的記述から開始する。これらの言語的記述は、
曖昧な場合において異なる解析の見込みを記号化する重
みを含んでいる。たとえば、われわれは、通常の言葉に
ついての形態論的な記述および略語のリスト、可能な展
開や数の標準語法を供給する。これらの記述は語彙的な
ツールキット（［６］参照）を用いてＦＳＴにコンパイ
ルされる。これは図中「Ｂ」でラベル付けされたところ
に示されている。その後、ＦＳＴはそれぞれ、結合（ま
たは、合計）操作（［５］などを参照）を用いて結合さ
れ、図中「Ｃ」でラベル付けされたところに示されてお
り、また、最小化の操作（［５］などを参照）によって
小型化される。この結果、ＦＳＴでは、いかなる単一の
単語も解析することができる。センテンス全体を解析す
ることのできるＦＳＴを組み立てるためには、言語は単
語間の境界を定めるためにスペースを用いるため、これ
まで組み立てられたＦＳＴに（単語間の境界を定める）
できる限りの句読点およびスペースを挿入し（「Ｄ」で
ラベル付けされたところを参照）、機械の推移的仕切り
を算出する必要がある（［５］などを参照）。

【００２０】〈他の問題〉われわれは、多言語のテキス
ト解析システムについて述べてきた。その機能は、正し
いつづりの文字列をトークン化することおよび発音する
ことを含んでいる。システムの基本的な作動機能は重み
付き有限状態変換機能であり、ここで述べたもの以上に
さらに有用な情報の組合せは、本発明の主旨および範囲
を逸脱しない限り実行されても良い。

【００２１】

【外５】

【００２２】形態素の有限状態モデルの使用はまた、形
態論的情報とシンタックスの有限状態モデルとのインタ
ーフェースを容易にすることができる（たとえば、
［９］）。ある明らかな有限状態シンタクティクスモデ
ルは、品詞のシーケンスのｎグラムのモデルである［１
０］。センテンスにおけるすべての単語のすべての可能
な形態論的解析のラチス（格子）を有するとし、ＷＦＳ
Ａとして実行されるｎグラムの品詞モデルを有すると仮
定すると、言語モデルを形態素のラチスと交差すること
により解析のもっとも適切なシーケンスを推測すること
ができる。

【００２３】（引用文献） [1] C. Coker, K. Church, and M. Liberman, "Morphol
ogy and rhyming: Two powerful alternatives to lett
er-to-sound rules for speech synthesis," inProceed
ings of the ESCA Workshop on Speech Synthesis (G.
Bailly and C. Benoit, eds.), ８３〜８６ページ、１
９９０年 [2] A Nunn and V. van Heuven, "MORPHON: Lexicon-ba
sed text-to phoneme conversion and phonological ru
les," in Analysis and Synthesis of Speech: Strateg
ic Research towards High-Quality Text-to-Speech Ge
neration (V. vanHeuven and L. Pols, eds.), ８７〜
９９ページ、ベルリン: Mouton de Gruyter, １９９３
年 [3] A. Lindstr嗄 and M. Ljungqvist, "Text processi
ng within a speech synthesis systems", in Proceedi
ngs of the International Conference on Spoken Lang
uage Processing, (Yokohama), ICSLP, １９９４年９月 [4] J. DeFrancis, The Chinese Language. ホノルル:
University of Hawaii Press, １９８４年 [5] F. Pereira, M. Riley, and R. Sproat, "Weighted
rational transductions and their application to h
uman language processing," in ARPA Workshopon Huma
n Language Technology, pp. 249-254, Advanced Resea
rch Projects Agency, １９９４年３月８〜１１日 [6] R. Kaplan and M. Kay, "Regular models of phono
logical rule systems,"Computational Linguistics,
第２０巻、３３１〜３７８ページ、１９９４年 [7] R. Sproat, C. Shih, W. Gale, and N. Chang, "A
stochastic finite-state word-segmentation algorith
m for Chinese," in Association for Computational L
inguistics, Proceedings of 32nd Annual Meeting, ６
６〜７３ページ１９９４年 [8] M. Riley, "A statistical model for generating
pronunciation networks," in Proceedings of the Spe
ech and Natural Language Workshop, p. S11.1., DARP
A, Morgan Kaufmann, １９９１年１０月 [9] M. Mohri, Analyse et repr市entation par automa
tes de structures syntaxiques compos仔s. PhD thesi
s, University of Paris 7, パリ、１９９３年 [10] K. Church, "A stochastic parts program and no
un phrase parser for unrestricted text," in Procee
dings of the Second Conference on Applied Natural
Language Processing, (Morristown, NJ), １３６〜１
４３ページ、Association for Computational Linguist
ics, １９８８年

【図面の簡単な説明】

【図１】ロシア語костра／ｋａｓｔｒａ／（焚き
火＋所有格．単数）の表現の様々なレベルを表す本発明
の書記素／音素システムの構築を示す。発明の実施の形
態の第１項にて詳細に説明されている。

【図２】図２における表現の２つのレベルに関するＦＳ
Ｔを構築するためのプロセスを図示する。発明の実施の
形態の第２項にて詳細に説明される。本発明システムの
更なる説明は付表に示されている。

【表１】

【表２】

【表３】

【表４】

【表５】

【表６】

【表７】

【表８】

【表９】

【表１０】

【表１１】

【表１２】

【表１３】

【表１４】

【表１５】

【表１６】

【表１７】

【表１８】

【表１９】

【表２０】

【表２１】

【表２２】

【表２３】

【表２４】

【表２５】

【表２６】

【表２７】

【表２８】

【表２９】

【表３０】

【表３１】

【表３２】

【表３３】

【表３４】

───────────────────────────────────────────────────── フロントページの続き (72)発明者マイケルデニスリレイアメリカ合衆国 10011 ニューヨーク, ニューヨーク，アパートメントナンバー２ジー，シックスアヴェニュー 450 (72)発明者リチャードウィリアムスプロートアメリカ合衆国 07922 ニュージャーシィ，バークレイハイツ，マックマーンアヴェニュー 150

Claims

【特許請求の範囲】

【請求項１】ひとつ以上のアラビア数字を展開し相当
する言葉を形成する方法において、（ａ）数字の文法の言語学的な記述を供給する工程と、（ｂ）ひとつ以上の重み付き有限状態変換機能へ前記記
述をコンパイルする工程と、（ｃ）前記ひとつ以上の重み付き有限状態変換機能を用
いて前記相当する言葉を合成する工程とから構成される
ことを特徴とする方法。