JP3836502B2

JP3836502B2 - テキスト・波形変換

Info

Publication number: JP3836502B2
Application number: JP52141094A
Authority: JP
Inventors: ガベッド、マーガレット; ハウキー、ジェイムズ
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1993-03-26
Filing date: 1994-03-07
Publication date: 2006-10-25
Anticipated expiration: 2021-10-25
Also published as: CA2158850C; CA2158850A1; EP0691023B1; SG47774A1; US6094633A; DE69420955D1; ES2139066T3; EP0691023A1; JPH08508346A; DE69420955T2; WO1994023423A1

Description

本発明は、テキストを波形に変換する方法および装置に関する。特に、通常のテキストを表わす信号の形態の出力からの音波の形態の出力の生成、すなわち合成スピーチの生成に関する。
この全体的な変換は、非常に複雑であり、あるモジュールの出力が次のものの入力を構成する、いくつかのモジュールでしばしば実行される。最初のモジュールは通常のテキストを表す信号を受信し、最後のモジュールはその出力として合成スピーチを生成する。この合成スピーチは、可聴音響出力を生成するために通常のデジタル・アナログ変換がそれに続いて行われる波形のデジタル表示であってもよい。多くの場合、電話システムに対して可聴出力を供給することが所望される。この場合、伝送がデジタル形態で行われるように、伝送後にデジタル・アナログ変換を行うことが便利である。
モジューラ構造には、各モジュールが別々に設計され、フレキシビリティを与え、改良を行い、或は環境の変化に対処するためにモジュールの任意の１個を置換または変更することができる等の利点がある。
いくつかの過程において、３個の一連のモジュール、すなわち
（Ａ）予備編集、
（Ｂ）書記素の音素への変換、および
（Ｃ）音素の（デジタル）波形への変換が使用される。
以下、これらのモジュールを簡単に説明する。
モジュール（Ａ）は、例えば本明細書のテキスト等の通常のテキストを表す信号を受信し、選択された特徴を変形する。このようにして、モジュール（Ａ）は番号が処理される方法を具体的に示す。例えば、それは数字例“１３４５”が
１，３，４，５、
１３，４５、或は
１３４５になるのかを決定する。異なる形態の出力を生じさせるように、後に続くモジュールとそれぞれ適合した異なる形態のモジュール（Ａ）を提供することは比較的容易であることは明らかであろう。
モジュール（Ｂ）は、書記素を音素に変換する。“書記素”とは、通常の方法で使用される通常のアルファベットのシンボルに対応したデータ表示を意味する。本明細書のテキストが“書記素”のよい例である。合成スピーチの問題は、書記素が、特に英語のような言語においてワードが発音される方法とほとんど関係ないことである。したがって、波形を生成するために、ワードの音と非常に密接な相関関係を有し、本明細書において音素と呼んでいる、異なるアルファベットに書記素を変換することが適切である。換言すると、モジュール（Ｂ）の目的は、通常のアルファベットが音声を表わさないという問題に対処することである。
モジュール（Ｃ）は、上述のようにアナログフォーマットに、したがって可聴音波形に変換されることができるるデジタル波形に音素を変換する。
本発明はモジュール（Ｂ）において使用される方法および装置に関するものであり、以下このモジュールをさらに詳細に説明する。
モジュール（Ｂ）は、非常に多数の独立エントリィから成る結合されたデータベースを使用する。各エントリィは、例えば一連の書記素のバイト等の表示の形態のアクセスデータと、アクセス部分に含まれている書記素と等価の音素のバイト等の表示を含む出力ストリングとを含む。書記素／音素変換の主要な問題は、言語を処理するために必要なデータベースの寸法に帰する。理論的には理想的である１つの簡単な解決方法は、言語の中の可能性のある全ワードの可能性のある全ての抑揚を含む、言語の中の可能性のある全ワードに対して個別のエントリィを有する程大きいデータベースを提供することである。明らかに、完全なデータベースを与えられた場合には、入力テキストの中のあらゆるワードが個別に認識され、すぐれた等価な音素が出力される。このような完全なデータベースを提供することは不可能なことが明らかである。第１に、言語の中のあらゆるワードを列挙することは不可能であり、このようなリストが入手できたとしても、それは処理するには膨大過ぎる。
完全なデータベースは可能ではないが、例えば共通のワードや、発音が単に綴りに関連していないワードを含む使用に適した寸法のデータベースを提供することができる。このようなデータベースは、そこに含まれたワードのすぐれた書記素／音素変換を実行するが、それは抜けているワードに対しては失敗する。すなわち、出力を全く供給しない。実際の構造において、これは許容できないほど高い比率の失敗を意味する。
別の可能性は、音素の等価なストリングにそれぞれ結合された書記素の短いストリングにアクセスデータが対応したデータベースを使用することである。この方法において、管理できる寸法のデータベースが使用されるが、それはそこに含まれているストリングをデータベース中のアクセスデータと一致させるための入力テキストの解析に依存する。この種のシステムでは、すぐれた発音が高い比率で提供され、ごく少数の深刻な誤発音が発生する。解析できなかったために、或は必要な書記素のストリングがデータベースのアクセス部分から欠落しているために、出力が全く行われない失敗がやはり発生する。
最後の可能性は、好ましい技術が使用できない場合にのみ使用されるために“省略”過程としてよく知られている。“省略”過程は、入力テキストのシンボルを“発音する”形態を取る。入力シンボルの範囲は知られてるだけでなく、制限されている（通常100より少なく、多くの場合に50より少ない）ため、データベースを生成できないだけでなく、最近のデータ記憶システムの容量との関連で、その寸法も非常に小さい。したがって、この省略過程は、その出力が最も適切な解ではない可能性があっても出力することを保証する。この例は、イニシャルの使用された名前、身分および敬称、並びにいくつかのユニットの省略形を含む。これらの状況では文字を“発音”するのが普通であり、これらの場合に省略過程が最も良い結果を出すことが理解されるであろう。
以上、書記素を音素に変換する３つの異なる方法が確認され、これらの方法は互いに相いれないことを認識することが重要である。事実、厳密な優先順序にしたがって３つの方法を全て使用することが望ましい。したがって、最初に“全体的ワード”のデータベースが使用され、それが出力を発生した場合、その出力はすぐれている。それが失敗した場合、少ないが許容可能な数の誤発音を伴う“解析”技術が使用される。最終的に、“解析”できない場合、“文字”を発音する省略オプションが使用され、これは確実に出力を生じさせることができる。これは完全に満足できるものではないかもしれないが、上述されたような場合には最も適切な結果を提供する。
本発明は上記の概説したシーケンスの中間オプションに関する。すなわち、本発明は入力テキストの対応した音素であるデータ表示の出力セットを生成するために入力テキスト書記素に対応したデータ表示の解析に関する。本発明の動作環境は、上記に詳細に説明されている完全なテキスト・波形変換であることが強調される。すなわち、本発明はシステム全体のうちの特定の素子に関する。
本発明によると、例えば書記素のような第１の文字セットから選択された文字のストリングを表すデータ表示等のバイトの入力シーケンスは、例えば音素のような第２の文字セットから選択された文字のストリングを表すデータ表示等のバイトの出力シーケンスへの変換のためにサブストリングに細分され、この方法は、
(i)第１の記憶領域が、第１の文字セットから選択された文字をそれぞれ表している複数のバイトを含み、
(ii)第２の記憶領域が、第１の文字セットから選択された文字をそれぞれ表している複数のバイトを含み、前記第２の記憶領域の内容全体が前記第１の記憶領域の内容全体と異なっており、
(iii)第３の記憶領域が、第１の文字セットの文字を表す１以上のバイトからなるストリングを含み、各ストリングの第１のバイトが第１の記憶領域に含まれており、
(iv)第４の記憶領域が、第２の記憶領域にそれぞれ含まれている１以上のバイトのストリングを含んでいる第１、第２、第３および第４の記憶領域を含む信号記憶手段と共に行われる逆行解析を含む。
第１の領域に記憶されたバイトは母音を表わしていることが好ましく、一方第２の領域のものは子音を表わしていることが好ましい。例えば文字“ｙ”等は重複の可能性がある。第３の領域のストリングは韻を表わしていることが好ましく、一方第４の領域のものは語頭子音を表わしていることが好ましい。以下、母音、子音、韻および語頭子音の概念を詳細に説明する。
分割は、第３および第４の記憶領域に含まれているストリングと入力信号のサブストリングを整合することを含んでいる。比較用のサブストリングは、第１および第２の記憶領域を使用して形成される。
逆行解析には、遅く発生したサブストリングが早く発生したサブストリングの前に選択されることが必要である。サブストリングが選択されると、そこに含まれているバイトは、早く発生したサブストリングを形成するように選択または再選択に利用できない。この利用不可能性は、早いサブストリングを形成するための選択を制限し、したがって前の選択は少なくとも部分的に早いサブストリングの遅い選択を制限する。
本発明の方法は、特に例えばワードに対応したブロック等のブロックに分割された入力ストリングの処理に適している。ブロックは終りから始まって、始めの部分まで動作するセグメントに解析され、セグメントは残りの処理されていないストリングの終りから選択される。
請求の範囲に規定されている本発明は、この方法を実行する方法および装置を含んでいる。
本発明による方法において使用される例えばバイトのようなデータ表示は、計算回路における使用に適した任意の信号形態を取る。すなわち、データ表示は電流（アンペア）、電位（ボルト）、磁界、電界または電磁放射線の形態の信号であってもよい。さらに、データ表示は、処理の一部として過渡状態の記憶を含み、例えば磁気媒体における磁化の程度および、または方向として適切な記憶媒体に記憶されてもよい。
以下、理論的な根拠およびいくつかの好ましい実施例を説明する。好ましい実施例において、入力信号はテキストの個別のワードに対応したブロックに分割され、本発明が各ブロックに対して個別に作用する。したがって、プロセスは“ワード単位”の処理と考えることができる。
上述されたように、全体的システムがこのような失敗を処理するモジュールを含んでいるため、各ブロック全てに対して出力を生成することが不要であるという条件を便宜上再度述べておく。
前置きとして、英語のワードの構造を考慮し、数個の特定のワードについて説明することによって本発明の理論的な根拠を示す。この解析は、通常“母音”および“子音”として区別される違いを使用する。機械的な処理のためには、文字の２つのリストを記憶することが必要である。これらのリストの一方は“母音”と呼ばれる文字を含み、他方のリストは“子音”と呼ばれる文字を含む。全ての文字は、一方または他方のリストに含まれることが好ましいが、好ましい実施例において“Ｙ”に対応したデータ表示は両リストに含まれている。これは通常の英語の綴りが時には文字“Ｙ”を母音として、また時には子音として使用するためである。したがって、第１のリスト（母音の）はａ，ｅ，ｉ，ｏ，ｕおよびｙを含み、一方第２の子音のリストはｂ，ｃ，ｄ，ｆ，ｇ，ｈ，ｊ，ｋ，ｌ，ｍ，ｎ，ｐ，ｑ，ｒ，ｓ，ｔ，ｖ，ｗ，ｘ，ｙおよびｚを含む。“Ｙ”が両リストにおいて認められるということは、“非母音”という状態が“子音”という状態と異なることを意味する。
解析の主要な目的は、データ表示のブロック、すなわちワードを“韻”と“語頭子音群”に分割することである。解析は、それらの等価な音素に結合された韻および語頭子音群の等価な書記素を含む結合データベースを使用することを認識することが重要である。解析の目的は、韻および語頭子音群を表す任意のシーケンスだけでなく、データベースに含まれるシーケンスにデータを分割することである。
韻は、母音のリストにそれぞれ含まれる１以上の文字のストリング、または母音のリストに含まれない文字の第２のストリングが後続するこのようなストリングを示す。この要求を換言すると、韻は第２のストリングによって後続された第１のストリングから成り、第１のストリングに含まれる全ての文字は母音のリストに含まれ、第１のストリングは空であってはならず、完全に第２のストリングが空であってもよいという条件で第２のストリングは母音のリストの中に見出だされない文字から成る。
語頭子音群は、全てが子音のリストに含まれる文字のストリングである。
解析には、ワードの最後が韻を踏むものであることが必要である。ワードが隣接した韻を含むことは許されているが、それが隣接した語頭子音を含むことは許されていない。ワードの最後は韻でなければならないことが述べられているが、ワードの始めは韻または語頭子音のいずれかであることができることに留意しなければならない。例えば、“ｏｒａｎｇｅ”は韻で始まり、一方“ｐｅａｒ”は語頭子音で始まる。
本発明の基本的な理論を示すために、英語から随意に選択された４つの見本ワードが表示され、それらの韻および語頭子音に解析される。
［第１の見本］
ＣＡＴＳ
韻“ａｔｓ”
語頭子音“ｃ”
“ａｔｓ”は韻としてリストに入れられ、“ｃ”は語頭子音としてリストに入れられると考えられる。したがって、その等価な音素によるそれぞれの置換は、“ｃａｔｓ”を音素に変換する。
韻“ａｔｓ”は、単一の母音“ａ”からなる第１のストリングおよび２つの非母音すなわち“ｔ”および“ｓ”からなる第２のストリングを有することに注意しなければならない。
［第２の見本］
ＳＴＲＥＥＴ
韻“ｅｅｔ”
語頭子音“ｓｔｒ”
この場合、韻の第１のストリングは２つの文字すなわち“ｅｅ”を含み、第２のストリングは第一の非母音“ｔ”を含む。語頭子音は、３つの子音のストリングから成る。
語頭子音“ｓｔｒ”および韻“ｅｅｔ”は、等価な音素が与えられるように共にデータベースに含まれていなければならない。
［第３の見本］
ＨＩＧＨ
韻“ｉｇｈ”
語頭子音“ｈ”
この例において、韻“ｉｇｈ”は英語の音の任意の１つであるが、データベースは正しい音素への変換を行うことができる。
［第４の見本］
ＨＩＧＨＳＴＲＥＥＴ
第２の韻“ｅｅｔ”
第２の語頭子音“ｓｔｒ”
第１の韻“ｉｇｈ”
第１の語頭子音“ｈ”
明らかに、ワード“ｈｉｇｈｓｔｒｅｅｔ”は前の２つの例の複合であり、その解析はこれら２つの例と非常に類似している。しかしながら、“ｈｉｇｈ”と“ｓｔｒｅｅｔ”にワードを分割するために第４と第５の文字との間に休止が存在していることを認識する必要があるという重要な特別の要求がある。この分割は、データベースの内容のために認識される。したがって、子音ストリング“ｇｈｓｔｒ”は、英語の語頭子音ではなく、それ故それはデータベースには存在しないため、認識されることができない。さらに、ストリング“ｈｓｔｒ”はベース中に存在しない。しかしながら、“ｓｔｒは英語の共通の”語頭子音であり、データベース中に存在しなければならない。したがって、“ｓｔｒ”は語頭子音として認識されることができ、“ｓｔｒ”はストリング“ｇｈｓｔｒ”の後半部分である。ストリングの末尾が語頭子音として認識されると、それより前の部分は先行する韻の部分として識別され、ワード“ｈｉｇｈ”は上記に説明されたように分割されることができる。この例の目的は、子音の内部ストリングの分割がしばしば重要であり、分割がデータベースの使用によって達成されることを示すことである。
以下、本発明の技術の基本をなす理論を説明するが、添付された概略図に示されている自動計算装置を使用してどのようにしてこれが実行されるかを示すことが適切である。
自動計算装置は、信号のストリング例えば電気パルスで動作する。最も小さい計算の単位は、オリジナルのテキストの単一の書記素に対応した信号のストリングである。便宜上、それがどれだけ多数のビットを“バイト”中に含んでいても、このような信号のストリングを“バイト”と呼ぶ。元来、“バイト”という用語は８ビットのシーケンスを示した。このような８ビットは、255のカウントを供給するため、これはほとんどのアルファベットに適合させるのに十分である。しかしながら、“バイト”は必ずしも８ビットを含む必要はない。
以下説明する処理はブロック単位で実行され、各ブロックは１以上のバイトのストリングである。データは、翻訳が可能でなく、変換に失敗するブロックを含んでいる可能性があるため、各ブロックが個々のワード（すなわち潜在的なワード）に対応する。この方法の目的は、バイトが書記素を表す入力ブロックをバイトが音素を表す出力ブロックに変換することである。この方法は、サブストリングに入力ブロックを分割し、検索表に各サブストリングを変換して、出力ブロックを生成するように連結することによって行われる。
計算装置の動作モードは、２つの動作過程を有する。すなわち、それは２つのフェイズを含む第１の過程を有し、第１の過程は韻に対応したバイトストリングを識別するために使用される。第２の過程は、１つのフェイズしか持たず、それは語頭子音に対応したバイトストリングを識別するために使用される。
図面に示されているように、計算装置は、前の処理装置からのブロックが処理される準備ができるまでそれらを保持する入力バッファ10を含んでいる。入力バッファ10はデータ記憶装置11に接続され、それは要求時にデータ記憶装置11に個々のブロックを供給する。
計算装置の重要な部分は記憶手段12である。これは、プログラミング命令と、処理を実行するために必要とされるデータベースおよびリストを含む。以下、さらに詳細に説明するように、記憶手段12は種々の機能領域に分割される。
データ処理装置はまた、記憶装置12に含まれたデータベースに保持されたバイトストリングとの比較および処理のために、データ記憶装置11から得られたバイトのサブセットを保持するために必要な動作記憶装置14を含んでいる。単一のバイトすなわち個々の書記素に対応した信号ストリングは、チェック記憶装置13を介して入力バッファ10から動作記憶装置14に転送され、チェック記憶装置13は１バイトの容量を有している。チェック記憶装置13中のバイトは、動作記憶装置14へ転送する前にデータ記憶装置12に含まれたリストに対してチェックされる。
動作記憶装置12に含まれた項目との整合に成功した後、ストリングは動作記憶装置14から出力記憶装置15に転送される。整合ができない場合の使用のために、装置は動作記憶装置14からデータ記憶装置11にバイトを戻す手段を含んでいる。
例えばプログラム命令用の別の領域に加えて、記憶手段12は４つの主要な記憶領域を有している。これらの領域は、次のように区別される。
最初に、記憶手段は２つの異なるバイトのリストのための領域を有している。これらは、母音に対応したバイトのリストを含む第１の記憶領域12.1および子音に対応したバイトのリストを含む第２の記憶領域12.2である。（母音および子音は、この明細書において前に区別が説明されている。）
記憶手段12はまた２つの異なった、実質的な結合されたデータベースを構成する２つの記憶領域を含んでいる。まず、12.31，12.32，12.33等で示された領域にさらに分割される韻データベース12.3が存在する。各領域は、図面に示されているように書記素中の“韻”に対応したバイトストリグを含む入力部分を有し、これは“ＡＴＳ”を含む12.31、“ＥＥＴ”を含む12.32、“ＩＧＨ”を含む12.33、および図面には示されていないさらに多数の部分を有している。
記憶手段12はまた第２の主要な領域12.4を含み、それは語頭子音に等しい含むバイトストリングを有している。韻の場合のように、語頭子音データベースもまた多数の領域に分割される。例えば、それは“Ｃ”を含む12.41、“ＳＴＲ”を含む12.42、および“Ｈ”を含む12.43を有する。
各入力部分（12.3および12.4）は、その入力部分の内容に対応したバイトのストリングを含む出力部分に結合される。
動作方法が２つの異なる過程を含んでいることは既に述べた。第１の過程は記憶領域12.1および12.3を利用し、一方第２の過程は記憶領域12.2および12.4を利用する。実際に使用されるデータベースの領域は、動作の過程によって全体的に限定されることが強調される。過程は交互に使用され、過程番号１が最初に使用される。
［特定の例］
［ワード“ＨＩＧＨＳＴＲＥＥＴ”の解析］
この特定の例は、上記の説明の第４の見本として選択されたワードに関連していることが認められるであろう。したがって、その韻および語頭子音は既に定められ、特定の例はこれらが機械的な計算によってどのように行われるかを説明する。
入力バッファ10がワード“ＨＩＧＨＳＴＲＥＥＴ”に対応したバイトストリングをデータ記憶装置12に転送したときに、解析が始まる。したがって、この過程のスタート時に、重要な記憶装置は次のような内容を有する：
記憶装置内容
１１ＨＩＧＨＳＴＲＥＥＴ
１３ −−
１４ −−
１５ −−
（シンボル“−−”は、相当する記憶装置が空であることを示す。）
解析は常にそうであるように第１の過程で始まる。上述のように、第１の過程は記憶領域12.1および12.3を使用する。第１の過程は、その基間中にバイトがチェック記憶装置13を介してデータ記憶装置11から動作記憶装置14に転送される２つのフェイズを有する。第１のフェイズは、バイトが記憶領域12.1において見出だされない限り連続する。
過程は逆行(retrograde)であり、それはワードの後部から動作することを意味し、したがって第１の転送は領域12.1に含まれない“Ｔ”である。第２の転送は、領域12.1に含まれる“Ｅ”であり、それ故第１の過程の第２のフェイズが開始される。これは、動作記憶装置14中のバイトが領域12.1において整合される限り連続し、したがって第２の“Ｅ”は転送されるが、次のバイト“Ｒ”が送られた場合にはチェックができない。この段階において、種々の記憶装置の状態は次のとおりである：
記憶装置内容
１１ＨＩＧＨＳＴ
１３Ｒ
１４ＥＥＴ
１５ −−
動作記憶装置14の内容は、記憶領域12.3にアクセスするために使用され、整合が領域12.32において見出だされる。したがって、整合は成功しており、動作記憶装置14の内容すなわち“ＥＥＴ”は、出力記憶装置15の領域に転送され、種々の記憶装置の状態は次の通りである。
記憶装置内容
１１ＨＩＧＨＳＴ
１３Ｒ
１４ −−
１５ＥＥＴ
第１の韻は、機械的に見出だされていることが認識されるであろう。
上述のように、チェック記憶装置13における“Ｒ”の非整合は、第１の過程の第１のパフォーマンスを終了させた。解析は続くが、２つの過程は常に交互に行われるため、第２の過程が使用される。第２の過程は、記憶領域12.2および12.4を使用する。チェック記憶装置13における“Ｒ”に対応したバイトは、領域12.2が現在使用され、またこのバイトがそこに含まれているためここで整合する。したがって、“Ｒ”は動作記憶装置14に転送され、第２の過程はチェック記憶装置13中のバイトが整合する限り連続する。したがって、文字“Ｔ”、“Ｓ”、“Ｈ”および“Ｇ”は全てチェック記憶装置13を介して転送される。この時点で、“Ｉ”に対応したバイトがチェック記憶装置13に到着し、“Ｉ”に対応したバイトは記憶領域12.2に含まれないため、チェックが失敗する。チェックができないため、第２の過程のこのパフォーマンスは終了する。種々の記憶装置の内容は：
記憶装置内容
１１ “Ｈ”
１３ “Ｉ”
１４ “ＧＨＳＴＲ”
１５ “ＥＥＴ”
第２の過程は、領域12.4に含まれたデータベースと動作記憶装置14の内容を整合させることを試みるが、整合は得られない。したがって、第２の過程は、バイトがチェック記憶装置13を介してデータ記憶装置11に転送して戻される補修部分に移行する。各転送時に、記憶領域12.4において動作記憶装置14の内容を配置することが試みられる。整合は、“ＳＴＲ”に等しいストリングが領域12.42に含まれているため、文字ＧおよびＨが戻されたときに達成される。整合が達成されると、動作記憶装置の内容は、出力記憶装置15の領域に出力される。この時点の種々の記憶装置の内容は次の通りである：
記憶装置内容
１１ “ＨＩＧ”
１３ “Ｈ”
１４ −−
１５ “ＳＴＲ”および“ＥＥＴ”
第２の過程は、整合を見出だすことによって終了されたので、解析は第１の過程、特に第１の過程の第１のフェイズに戻る。この方法において、文字“Ｈ”および“Ｇ”は動作記憶装置14に転送され、第１のフェイズが終了する。第２のフェイズは“Ｉ”を送り、“Ｈ”がチェック記憶装置13に転送されたときに終了する。この段階で、種々の記憶装置は次の内容を有している：
記憶装置内容
１１ −−
１３ “Ｈ”
１４ “ＩＧＨ”
１５ “ＳＴＲ”および“ＥＥＴ”
第１の過程は、記憶領域12.3中のデータベースと動作記憶装置14の内容を整合することを試み、整合が領域12.33において見出だされる。したがって、動作記憶装置14の内容は出力記憶装置15の領域に転送される。
解析は第２の過程により連続し、文字“Ｈ”（チェック記憶装置13中の）は記憶領域12.2において配置される（この領域は、解析が第２の過程に戻っているので、使用状態であることに留意されたい）。解析は、データ記憶装置11が転送すべきバイトを持たないため終了することができ、動作記憶装置の内容すなわち“Ｈ”が出力記憶装置15に転送され、この出力記憶装置15が機械的な解析によって見出だされた正しい４つのストリングを含んでいる。
必要な出力ストリングが配置されており、記憶領域12.3および12.4が結合されたデータベースであることを使用してそれらを変換することだけが必要である。各領域は出力記憶装置に含まれたストリングだけでなく、適切な音素に対応したストリングを含む結合された出力領域もまた有している。したがって、出力記憶装置中の各ストリングは、その適切な領域にアクセスし、したがって必要な出力を生成するために使用される。最後のステップは検索表だけを使用し、これは重要な解析が終了しているため可能である。
上記のように、識別されたストリングは、結合されたデータベースへのアクセスとして機能し、簡単なシステムでは各アクセスストリングに対して出力ストリングが１つづつ存在している。しかしながら、発音は時には内容に依存し、改良された変換はアクセスストリングの少なくともいくつかに複数の出力を供給することによって達成されることができる。適切な出力流の選択は、例えばワード中の位置、或は後続するものまたは先行するものを考慮するためにアクセス流の内容の解析に依存する。この別の複雑さは本発明に影響を与えず、適切な部分への分割だけに関連している。それは検索プロセスを複雑にするに過ぎない。
上記に説明されたように、失敗の場合に例えば各書記素に等しい音素を供給する完全なシステムが省略技術を含んでいるため、本発明は出力を生成することを必ずしも必要とされない。本発明の説明を完全にするために、この失敗が発生して、省略技術の使用が必要とされる状況を簡単に示すことが望ましいと考えられる。
［失敗モード１］
第１の失敗モードは、データ記憶装置の内容が母音を含まず、それがワードでないことを意味した場合に発生する。通常のように、解析は第１の過程、特に第１の過程の第１のフェイズを使用することによってスタートし、これは第１のリスト12.1との整合がない限り連続する。ストリングおよびデータ記憶装置11は整合を含まないため、第１のフェイズは、ワードの始めまで連続し、これは失敗が存在することを示す。
［第２の失敗モード］
この失敗は次の場合に発生する：
(i)第２の過程が使用状態である；
(ii)ワードの始めに到達している；
(iii)データベース12.4において動作記憶装置14の内容に関する整合が存在しない。
これは、母音がチェック記憶装置13に含まれることを意味する、ワードの中間において整合できないことと対照的である。この段階の失敗は、第１の過程による後の時期の解析のためにバイトが戻ることを可能にし、少なくとも解析のこの時点で失敗は生じていない。ワードの始めに到達している場合、さらに解析する可能性はなく、したがって解析はできない。
［第３の失敗モード］
第３の失敗モードは、第１の過程が使用状態のときに発生し、データベース12.3に含まれたストリングと動作記憶装置14の内容を整合することは不可能である。これらの状況下において、第１の過程はチェック記憶装置13およびデータ記憶装置11にバイトを転送して戻し、この転送は、動作記憶装置14が空になり、また解析ができなくなるまで連続することができる。
第２の失敗モードにおいて、第２の過程は、第２の過程のよる以後の解析のために入力にバイトを戻すことが可能であることが説明された。しかしながら、転送されたバイトは、幾度か整合されなければならず、これは第１の過程の次のパフォーマンス期間中を意味する。第３の失敗モードは、以降の整合を行うことができない場合に対応する。
このように、本発明の方法は、検索表を使用して変換されることができるセグメントへのデータストリングの解析を行う。解析はあらゆるケースで成功する必要はないが、良好なデータベースが提供されたならば、この方法は非常に頻繁に作用し、テキストのスピーチ変換に必要なその他のモジュールを含む完全なシステムの特性を高める。

Claims

書記素のテキストに相当するデジタル信号から合成スピーチを生成するためのスピーチエンジンにおいて使用するための装置であって、
書記素のテキストに相当するデータ表示を音素の同じテキストに相当するデータ表示へ変換するための第１のモジュールと、
前記第１のモジュールによる音素の出力を、合成スピーチを生成するために前記スピーチエンジンによって使用されるデジタル信号へ変換するための第２のモジュールとを具備し、
前記第１のモジュールは、書記素の語頭子音およびその語頭子音に等価な音素と、書記素の韻およびその韻に等価な音素とを記憶するためのメモリと、
ワードを書記素の語頭子音および韻へ分割し、その語頭子音および韻に等価な記憶された音素を使用して、その語頭子音および韻を音素に変換することで、書記素のテキストのワードを処理するための制御回路とを備え、
前記語頭子音のそれぞれは1つ以上の子音のストリングからなり、前記韻のそれぞれは1つ以上の母音のストリングか、1つ以上の子音のストリングが後続する1つ以上の母音のストリング、のいずれかからなり、
前記制御回路は、ワードのそれぞれの最後が韻であるように、書記素のテキストのワードを処理するように構成され、
書記素の語頭子音および韻への書記素のテキストのワードの前記分割は、ワードの最後から始まる逆行動作である装置。
前記メモリは書記素の完全なワードおよびそれに等価な音素をさらに記憶し、前記制御回路は、前記メモリに記憶されていない書記素のテキストの完全なワードを書記素の語頭子音および韻へ分割する、請求項１にしたがった装置。
合成スピーチを生成するための方法であって、
書記素の語頭子音およびそれに等価な音素と、書記素の韻およびそれに等価な音素とをメモリに記憶し、
前記語頭子音のそれぞれは1つ以上の子音のストリングからなり、前記韻のそれぞれは1つ以上の母音のストリングか、1つ以上の子音のストリングが後続する1つ以上の母音のストリング、のいずれかからなり、
書記素のテキストのワードを書記素の語頭子音および韻へ分割し、
前記ワードはワードのそれぞれの最後が韻であるように分割され、
前記素の語頭子音および韻への書記素のテキストのワードの前記分割は、ワードの最後から始まる逆行動作であり、
前記語頭子音および韻に等価な記憶された音素を使用して、前記語頭子音および韻を音素へ変換し、
前記音素を可聴音波形に変換して合成スピーチを生成することを備えた方法。
書記素の完全なワードおよびそれに等価な音素を前記メモリに記憶することをさらに備え、前記メモリに記憶されていない書記素のテキストの完全なワードだけが書記素の語頭子音および韻へ分割される、請求項３にしたがった方法。
書記素のテキストに相当するデジタル信号から合成スピーチを生成するためのスピーチエンジンにおいて使用するための装置であって、
書記素のテキストに相当するデータ表示を音素の同じテキストに相当するデータ表示へ変換するための第１のモジュールと、
前記第１のモジュールによる音素の出力を、合成スピーチを生成するために前記スピーチエンジンによって使用されるデジタル信号へ変換するための第２のモジュールとを具備し、
前記第１のモジュールは、書記素の語頭子音およびその語頭子音に等価な音素と、書記素の韻およびその韻に等価な音素とを記憶するためのメモリと、
ワードを書記素の語頭子音および韻へ分割することで、書記素のテキストのワードを処理するための制御回路とを備え、
前記語頭子音のそれぞれは1つ以上の子音のストリングからなり、前記韻のそれぞれは1つ以上の母音のストリングか、1つ以上の子音のストリングが後続する1つ以上の母音のストリング、のいずれかからなり、
前記制御回路は、ワードにおける韻と語頭子音を識別するための交互の第１および第２の過程を使用して、逆行の方法でワードを処理するように構成されており、
前記交互の第１および第２の過程はそれぞれのワードの最後が韻であるように動作可能であり、
前記制御回路は、識別された語頭子音および韻を、その語頭子音および韻に等価な記憶された音素を使用して、音素へ変換するようにさらに構成される装置。
前記交互の第１および第２の過程は、ワードが隣接する韻を含み、隣接する語頭子音を含まないように動作可能である、請求項５にしたがった装置。
前記交互の第１および第２の過程は、ワードが語頭子音か韻のいずれかで始まるように動作可能である、請求項５にしたがった装置。
書記素のテキストに相当するデータ表示を音素の同じテキストに相当するデータ表示へ変換するためのコンピュータ化された装置であって、
前記テキストはワードを含み、
前記装置は、書記素の韻および語頭子音と、前記韻および語頭子音に等価な音素とを記憶するためのメモリと、書記素のテキストのワードを書記素の語頭子音および書記素の韻へ分割し、前記語頭子音および韻を音素へ変換するための制御回路とを含み、
前記語頭子音のそれぞれは1つ以上の子音のストリングからなり、前記韻のそれぞれは1つ以上の母音のストリングか、1つ以上の子音のストリングが後続する1つ以上の母音のストリングのいずれかからなり、
語頭子音および韻への前記分割は、ワードの最後から始まる逆行動作であり、子音の内部ストリングから、後続の韻と関連する語頭子音である前記内部ストリングの後ろの部分を分割し、これにより、１つ以上の先行する母音と組み合さって韻を形成する前記内部ストリングの前の部分を識別することを含む装置。
前記コンピュータ化された装置は、書記素の完全なワードおよび音素へのそれらの変換を含むデータベースを備え、データベースに含まれるワードは前記データベースを使用して変換され、前記データベースに含まれていないその他のワードは韻および語頭子音への分割によって変換される、請求項８にしたがったコンピュータ化された装置。
前記音素に相当するデータ表示をデジタル波形にも変換する、請求項８にしたがったコンピュータ化された装置。