JPH09504117A - Speech synthesis method by converting phonemes into digital waveforms - Google Patents

Speech synthesis method by converting phonemes into digital waveforms

Info

Publication number
JPH09504117A
JPH09504117A JP7506281A JP50628195A JPH09504117A JP H09504117 A JPH09504117 A JP H09504117A JP 7506281 A JP7506281 A JP 7506281A JP 50628195 A JP50628195 A JP 50628195A JP H09504117 A JPH09504117 A JP H09504117A
Authority
JP
Japan
Prior art keywords
phonemes
phoneme
database
window
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7506281A
Other languages
Japanese (ja)
Inventor
ブリーン、アンドリュウ・ポール
Original Assignee
ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー filed Critical ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Publication of JPH09504117A publication Critical patent/JPH09504117A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 本発明は合成スピーチの発生、特に音素のテキストからのデジタル波形の発生に関する。音素の延長されたテキストと、デジタル波形の形態の等価物とを具備する連結したデータベースを使用する。データベースの2つの部分は音素テキストとデジタル波形との両者の等価点を設けるパラメータにより連結される。(音素)の入力テキストはデータベースの音素部分に整合部分を位置付けするために分析される。この整合はこれが可能な音素の正確な等価を利用する。そうでなければ音素間の関係が利用される。選択処理は前後関係の入力音素を弁別し、従って改良された会話が得られる。入力テキストをデータベースの入力形態の整合ストリングに分析すると、部分の開始および終了パラメータが設けられる。出力テキストはデジタル波形の接触部分により発生され、開始および終了パラメータにより限定される。   (57) [Summary] The present invention relates to the generation of synthetic speech, and in particular to the generation of digital waveforms from phoneme text. A concatenated database with phoneme-extended text and equivalents in the form of digital waveforms is used. The two parts of the database are linked by parameters that establish the equivalence points of both the phoneme text and the digital waveform. The (phoneme) input text is parsed to locate matching parts to phoneme parts of the database. This matching makes use of the exact equivalent of phonemes for which this is possible. Otherwise the relationship between phonemes is used. The selection process discriminates contextual input phonemes, thus resulting in improved speech. Parsing the input text into a matching string of input forms in the database provides the start and end parameters for the part. The output text is generated by the touch portion of the digital waveform and is limited by the start and end parameters.

Description

【発明の詳細な説明】 音素をデジタル波形へ変換することによる スピーチの合成方法 本発明は合成スピーチ、特に音素を表わす信号からのデジタル波形を合成する 方法に関する。 例えば合成スピーチの使用が便利である電話システムのような多数の状況が存 在する。ある応用では、開始点はワードプロセッサにより生成されるディスク等 の一般的な印刷の電子表示である。処理の多数の段階はこのような開始点から合 成スピーチを発生することを必要とするが、処理の予備部分として、一般的なテ キストを音声テキストに変換することが通常である。この応用では、このような 音声テキストを表わす信号は“音素”と呼ばれる。従って本発明は音素を表わす 信号をデジタル波形に変換する問題をアドレスする。デジタル波形はオージオ技 術で普通のものであり、デジタルアナログコンバータとスピーカはデジタル波形 を音響波形に変換することを可能にするよく知られた装置であることが認められ よう。 音素をデジタル波形に変換する多数の処理が提案されており、これは通常多数 のエントリーを有する連結したデータベースにより行われ、エントリーはそれぞ れ音素で限定されたアクセス部分と、アクセス音素に対応するデジタル波形を含 んだ出力部分を有する。明白に、全ての音素はアクセス部分で表示されるべきで あるが、付加的に音素のストリングを有 することも知られている。しかしながら、既存のシステムはアクセス部分に含ま れる音素のストリングのみを考慮し、さらにストリングの前後関係を考慮しない 。 本発明は特許請求の範囲で限定されているように、音素のストリングをデジタ ル波形に変換するため連結したデータベースを使用するが、選択された音素のス トリングの前後関係を考慮する。本発明はまた前後関係の考慮を容易にする新し い形態のデータベースを含み、また好ましいデータベースのストリングがそこに 記憶されている選択肢から選択される方法を含む。 本発明の好ましい実施例を例示により説明する。一般例の説明 この一般的な説明は、本発明の好ましい実施例の幾つかの重要な完全なものを 弁別する。これらの完全なもののそれぞれはこの一般的な説明後に詳細に説明す る。 本発明の方法は音素で表現されているテキストを表わす入力信号を、最終的に 音響波に変換されるデジタル波形に変換する。変換前に、最初のデジタル波形は さらに当業者に知られている方法に応じて処理されてもよい。 好ましい実施例で使用される音素セットはSAMP−PA(Speech Assessmen t Methologies - Phonetic Alphabet )の簡単なセット番号6に準じる。本発明 の方法は電子装置で実行され、音素が信号形態で与えられ、従ってその方法は入 力波形の出力波形への変換に対応することが理解されよう。 本発明の好ましい実施例は1、2または3の音素のストリ ングを表わす波形をデジタル波形に変換するが、常に少なくとも1つの先行する 音素と少なくとも1つの後続する音素が考慮されるように5つの音素のストリン グで動作する。これは5の音素のストリングの選択肢が利用可能であるとき、“ 最良”の前後関係が選択される効果を有する。 本発明は特に5の音素のストリングを使用し、このストリングは以下の説明に おいて“前後関係窓”と呼ばれ、“前後関係窓”を構成する5つの音素は連続し てP1、P2、P3、P4、P5として示される。 入力信号からの5つの連続的な音素である“データ前後関係窓”は、データベ ースに含まれる5つの連続音素の連続である“アクセス前後関係窓”に一致され ることが本発明の重要な特徴である。 従来技術は可変の長さのストリングがデジタル波形に変換される技術を含んで いる。しかしながら、選択されたストリングの前後関係は考慮されない。選択さ れたストリングを構成している各音素は勿論ストリングの他の全ての音素との前 後関係にあるが、ストリングの前後関係は全体としては考慮されない。本発明は 選択されたストリング内の前後関係を考慮するだけでなくデータベースで有効な ストリングから最良の整合のストリングを選択する。この明細書は以下の好まし い実施例の重要な事項を説明する。 i)選択で使用されるときの“最良”の定義 ii)対応するデジタル波形を伴ったデータ前後関係窓の信号表示を記憶するデ ータベース構成 iii )(i)を使用した(ii)の選択方法 iv)(iii )により与えられる種々の選択肢の1つの採用“最良”の定義 本発明は入力前後関係窓と種々の記憶された前後関係窓との“最良”の整合に 基いて選択肢の前後関係窓から選択する。例えば108または1010の多数の可能な 前後関係窓(それぞれ5音素)が存在するから、これらを全て記憶することはで きず、即ちデータベースには可能な前後関係窓が幾分か不足している。全ての可 能な前後関係窓が記憶されるならば、正確な対応が常に得られるので“最良”の 整合を決定する必要はない。しかしながら、各個々の音素はデータベースに含ま れるべきであり、常に少なくとも1つの音素に対して正確な整合を達成でき、好 ましい実施例では、データ前後関係窓のP3を記憶された前後関係窓のP3に正 確に整合することが常に可能であるが、通常、さらに正確に整合することは可能 ではない。 本発明は後述するように2つの音素の間の相関パラメータを定める。ここで各 音素に対応して、係数の定められたリストからなるタイプベクトルが存在する。 これらの各係数は音素の特徴を表し、例えばその音素は音声または非音声である か、音素がシリバント(silibant)、破裂音、唇音であるか否かである。例えば 音素が強勢または強勢のない音節にあるか否かの位置的な特徴を含むことも望ま しい。従ってタイプベクトルは特有にその音素を特徴づけ、2つの音素は例えば 排他的オアゲート(等価ゲートと呼ばれることもある)を使 用することによってこれらのタイプベクトル係数を比較することにより比較され ることができる。多数の整合は相関パラメータを決定する1方法である。所望な らば、これはパラメータの最大の可能な値により除算し、100を乗算すること により、パーセンテージに変換されることができる。 代りの例として、不整合パラメータは例えば2つのタイプのベクトルの相違数 を数えることにより定められることができる。“最良”の整合を選択することは 最低の不整合を選択することに等しいことが理解されよう。 主要な決定は1対の音素の相関パラメータに関する。ストリングの相関パラメ ータは2つのストリングの対応する対のパラメータを合計または平均することに より得られる。加重された平均は適切な場合に利用されることができる。データベース 好ましい実施例では、(文節の情報内容は重要ではないが)データベースは例 えば英語等の選択言語の延長された文節に基づく。適切な文節は2または3分間 継続し、約1000乃至1500の音素を含んでいる。あらゆる音素を含まなけ ればならず、種々の前後関係のあらゆる音素を含むべきであるが、延長した文節 の正確な特性は特に重要ではない。 延長された文節は2つの異なったフォーマットで記憶されることができる。第 1に、延長した文節は連結したデータベースのアクセス部分を提供するために音 素で表されることができる。特に、延長した文節を表す音素はそれぞれ5音素を 含んだ前後関係窓に分離される。本発明の方法はデータの前 後関係窓を丁度弁別された記憶された前後関係窓に対して最良に整合することを 得ることからなる。 延長した文節はまたデジタル化波形の形態で与えられることもできる。予測さ れるように、これは設定された技術を使用してデジタル記録を行うため読者また は暗唱者がマイクロホンに向って延長した文節を発することにより達成される。 デジタル記録のあらゆる点は例えば開始からの時間等のパラメータにより定めら れることができる。記録の分析は等価テキストの各対の音素の間の中断に対応す る時間パラメータに対する値を設定する。この装置は、ストリングの第1の音素 に対応する時間パラメータの開始値とストリングの最後の音素に対応する時間パ ラメータの値の終了値とを設定し、データベースの等価部分即ち特定のデジタル 波形を検索することにより含まれているストリングに対して音素と波形との変換 を許容する。特に、1、2または3の音素のストリングの変換が達成されること ができる。 重要な必要条件は変換用の延長されたテキストの最良部分を選択することであ る。 延長したテキストの音素部分はそれぞれ5の音素の前後関係窓形態で記憶され ることを既に前述した。これは3階級レベルを有するツリーで音素を記憶するこ とにより最も適切に達成される。 第1のレベルの階級は各窓の音素P3により限定される。この効果として、あ らゆる音素が前後関係窓のサブセットに直接アクセスを与え、即ち前後関係窓全 体はサブセットに分 割され、それぞれのサブセットは同一値のP3を有する。 ツリーの次のレベルは音素P2、P4により限定され、この選択は前述のよう に定められたサブセットから行われるので、前後関係窓全体がさらに小さいサブ セットに分割される効果が生じサブセットはそれぞれ音素P2、P3、P4を共 通して有することにより限定される。(約50万のサブセットが存在するが、妥 当なシーケンスP2、P3、P4は延長したテキストでは生じないので、そのほ とんどは空白である)。空白のサブセットは全く記録されず、従ってデータベー スは管理可能な大きさに留る。延長したテキストで生じる各3つのシーケンスP 2、P3、P4下に対して、P2、P4下のデータベースの第2のレベルで記録 されるサブセットが存在することが真であるにもかかわらず、このレベルはP3 下の第1のレベルで指数化されている。 正確な整合として、第2のレベルはP2、P3、P4を有するサブセットを含 んだ第3のレベルへアクセスを与え、これはこれらの3つに対応してP1とP5 の全ての値を含む。データP1とP5の最良の整合が選択される。この選択は延 長したテキストに含まれている前後関係窓の1つを完全に弁別し、前記窓の時間 パラメータにアクセスを提供する。特に、以下のように、4つの異なったストリ ングまでの開始および終了時間パラメータを与える。 (a)P3自体; (b)P2+P3の音素対; (c)P3+P4の音素対; (d)P2+P3+P4の音素からなる3つの音素 第1の場合では、データベースは選択されたストリング(a)乃至(d)のそ れぞれ1つに対応している時間パラメータの開始値および終了値を提供する。前 述したように、時間パラメータは等価波形が選択されるようにデジタル波形の関 連部分を限定する。 データベースに含まれるならば、項目(d)が提供され、この場合項目(a) 、(b)、(c)は全て選択された(d)に組込まれ、それ故これらは選択肢と して有効であることに留意すべきである。項目(d)がデータベースに含まれて いないならば、明白にこの選択は与えられることができない。 項目(d)がデータベースになくても、項目(b)および/または(c)はデ ータベースに存在する可能性がある。これらの両者の選択が提供されるとき、項 目(d)がないのでこれらはデータベースの異なった部分から生じる。それ故、 データベースの内容に基づいて、選択は(b)のみをまたは(c)のみまたはそ の両者を与える。従って選択は選択肢を与え、いかなる場合でも項目(a)は対 で組込まれるために利用可能である。 最後に、(b)、(c)、(d)が全てデータベースになくても、項目(a) は常に存在し、従って“最良の整合”は単一の音素に対して提供され、これは提 供される唯一の可能性である。 項目(b)、(c)、(d)はストリングの重複を示唆していることが明白で あろう。従って項目(c)がいかなる音 素用に対して選択されるときでも、項目(b)は次の音素に対して利用できなけ ればならない。より良好なものが提供されない場合に、データベースの同一部分 は初期の音素で(c)の要求を満たし、後の音素で(b)の必要条件を満たすが 、異なった相関が含まれるために、より良好な選択が選択されてもよい。項目( d)が有効であるときには、項目(c)が前の音素で有効であり、さらに項目( b)は後の音素で有効であることが明白である。換言すると、幾つかのストリン グは重複し、即ち同一の音素が異なったストリングの異なった位置で生じるよう にいくつかの音素に対する選択肢が存在する。本発明のこの観点についてより詳 細に後述する。 好ましい実施例は5音素の長さである前後関係窓に基づいていることが強調さ れた。しかしながら、5音素の十分なストリングが選択されることはない。幸い 、入力テキストがデータベースで発見される5つのストリングを含んでいる場合 に、3つのストリング、P2、P3、P4のみが使用される。このことは本発明 の重要な特徴が前後関係からのストリングの選択であり、それ故、本発明は5つ の音素の“最良”の前後関係窓を選択し、全ての選択されたストリングが前後関 係に基づくことを確実にするためにその一部だけを使用する。“最良”窓の選択 データベースに含まれる音素へのテキストの分析は音素により実行されるが、 それぞれの音素はその前後関係窓で利用される。次の部分の説明はデータ音素の 1つの選択処理に基づいているが、同一の処理が各データ音素で使用されるもの と理解される。 選択されたデータ音素は別々ではなく前後関係窓の一部分として利用される。 より正確には、選択されたデータ音素は、関連する前後関係窓の5つの音素を与 えるために選択された2つの先行音素と2つの後続音素を有するデータ窓の音素 P3になる。前述のデータベースはこの前後関係窓で検索される。正確な窓が位 置付けられることはほとんどないので、検索は記憶された前後関係窓の最良の適 合のために行われる。 検索の第1のステップは指数化素子として音素P3を使用して前述のツリーを アクセスすることを含む。前述したように、これは記憶された前後関係窓のサブ セットに直接的なアクセスを与える。より詳しく説明すると、音素P3によるア クセスレベルはデータ前後関係窓の可能な値P2とP4に対応する音素対のリス トに対するアクセスを与える。最良の対は以下の4つの基準に従って選択される 。第1の基準 幸にも、サブセットの1つの対がデータP2とP4に対して正確な整合を与え ることが生じる可能性がある。これが生じたとき、その対は選択され、検索は直 ちにレベル3に進行する。詳細に前述したようにストリングP2、P3、P4は 延長した文節に含まれないのでこの結果は起こりそうもない。 第2の基準。3つの整合がない場合、これが生じた時、左対が選択される。P 2に対する正確な整合が発見されたとき左側の整合が選択され、選択肢が提供さ れたならば、最高の相関パラメータを有するP4はツリーのレベル3にアクセス を与えるように選択される。 第3の基準はこれがP4に対して発見された正確な整合に基づく右側の対であ る点を除いて第2の基準に類似している。この場合、レベル3へのアクセスは最 高の相関パラメータを与えるP2の値により与えられる。 最高の平均相関パラメータを有する対P2、P4がレベル3へのアクセスの基 礎として選択される場合にP2、P3の一方に整合が存在しないとき基準4が生 じる。 基準1が成功したならば、選択肢として基準2、3、4に応じて、左側の対と 右側の対と単一値を取ることが可能であることが留意されよう。 基準1が失敗しても、左側の対は基準2により発見され、同時に右側の対は基 準3により発見されることができる。しかしながら、基準1が失敗したため、こ れらはデータベースの異なった部分から選択され、これらはアクセスをレベル3 のツリーの異なった部分に与える。 最後に、基準4は基準1、2、3が全て失敗した時のみ、受けられ、その結果 、他の前後関係窓で使用されるとき、音素P3は3つの音素または対で発見され ることができない。 従って、基準1または4が利用されるとき、第3のレベルでツリーの一部分の みにアクセスされ、基準2、3が使用されるとき、第3のレベルの2つの異なっ た部分にアクセスされる。 前後関係窓の選択がツリーの第3のレベルの1または2の領域に対して行われ る態様について説明する。それぞれの場 合に、第3のレベルはデータ前後関係窓の音素1および5に対する幾つかの対を 含んでもよい。最良の平均相関パラメータを有する対がデータベースのアクセス 部分の前後関係窓として選択される。前述したように、この前後関係窓は時間パ ラメータを用いてデジタル波形形態に変換される。 再度強調するが、基準1が使用されると、1つの前後関係窓だけが選択される が、4つの可能性、即ち以下の時間パラメータ範囲を生じる。 (i)3つの音素P2+P3+P4; (ii)左側の対P2+P3; (iii )右側の対P3+P4; (iv)単一のP3自体 基準2が作用するとき、これは左側の対P2+P3と単一のP3自体のみに対 する時間パラメータ範囲を与える。基準3が作用するとき、類似の考察が適用さ れるが、パラメータ範囲は右側の対P2+P3と単一のP4である。両者の基準 が作用すると、これは単一のP3に対して2つの選択肢を提供し、P1+P5に 対するより高い相関パラメータを有する単一のものが選択される。 最後に、基準4が作用するとき、1つのみの可能性、即ち音素P3自体が存在 する。 前述の説明は変換が入力テキストの各音素に対してどのように与えられるかを 説明した。時には、この方法は単一の音素のみの変換を与えるが、この場合、選 択肢は提供されない。ある場合には、その方法は2または3の隣接音素のストリ ン グに対する変換を提供するが、これらの状況では、変換は少なくとも1つの音素 に対する選択肢を提供する。選択を終了するため、選択肢の数を1つに減らすこ とが必要である。この減少を達成する好ましい方法を以下説明する。 減少を行う好ましい方法は、入力テキストの短いセグメント、例えばサイレン スで開始し終了するセグメント等を処理することにより実行される。それ程長く ないならば、センテンスは適切なセグメントを構成する。例えば30ワード以上 のようにセンテンスが非常に長いならば、例えば節と他のサブユニットの間に1 以上の組込まれたサイレンスを含む。長いセンテンスの場合、このようなサブユ ニットはセグメントとしての使用に適している。 各選択肢のセットを1つに減少するためのセグメントの処理を以下説明する。 前述したように、いくつかの音素には選択肢は提供されず、それ故、これらの音 素には選択は必要とされない。選択肢は他の音素で有効であり、全体的にセグメ ントに“最良”の結果を生じるような選択が行われる。これはセグメントの他の 場所で“より良好な”選択を得るためセグメントの1点で局部的に“よくない” 選択を行うことを含んでいる。“より良好な”基準は以下のことを含んでいる。 (i)短いストリングよりも長いストリングを採用し、 (ii)単に接触しているストリングよりも重複するストリングから選択する。 不所望な選択肢の排除によって各音素が1つおよび1つのみの変換を有する位 置が発生する。換言すると、入力テキス トはデータベースに整合する1、2または3の音素のサブストリングに分割され 、それ故選択されたストリームの開始値および終了値が設定される。データベー スの出力部分はデジタル波形の形態を取り、設定されたパラメータはこの波形の セグメントを決定する。それ故、入力テキストに対応するデジタル波形を発生す るように指定されたセグメントが選択され、接触される。これは本発明の要求が 完了する。 デジタル波形が得られると、これは通常のデジタルアナログ変換技術と一般的 なスピーカを使用して音響出力として与えられることができる。所望ならば一次 的デジタル波形は当業者に知られている技術を使用して強化されることができる 。 本発明を添付図面を参照して例示によりさらに説明する。 図1は本発明によるスピーチエンジンを概略的に示している。 図2は電話回路網に取付けられた図1で示されているスピーチエンジンを示し ている。 図1で示されているように、本発明によるスピーチエンジンは文字素でテキス トを受け、それから音素で等価テキストを発生するように構成された1次プロセ ッサ11を具備している。このテキストは、本発明によりデータベース13と動作上 関連しているコンバータ12へ送られる。コンバータ12は、音素テキストのセグメ ントとデータベース13のアクセス部分に記憶されたセグメントとを整合させる。 従ってデジタル波形のセグメントは検索され、これらはもとの入力の延長された 部分に対応しているデジタル波形の延長部分に組立てられる。 デジタル波形のこれらの延長された部分は波形プロセッサ14に送られ、ここで これらはスムースな出力を発生するためにさらに処理を受ける。最後に、デジタ ル出力はさらに伝送するために出力ポート15で与えられるアナログ波形に変換さ れる。 図1で示されているように、スピーチエンジンはテキストを一般的な正字法で テキストを保持する外部データベース16から入力を受信するように接続されてい る。外部データベース16はそこに記憶されたテキストを選択するためにキーボー ド17により動作されると便利である。このテキストは1次コンバータ11に与えら れ、アナログ波形として出力ポート15に現れる。 図2は公共アクセス電話回路網に取付けられた図1で示されているスピーチエ ンジンを示している。図2で示されているように一般的な音声電話20は切換えア クセス回路網21を経てステーション22に接続されている。ステーション22は図1 で示されているようにスピーチエンジンを含んでおり、出力ポート15は、外部デ ータベース16中で利用可能な情報がアナログ音響波形として電話20に与えられる ように回路網に接続されている。 所望ならば、電話20の(ダイヤル用に使用される)キーパッドは外部データベ ース16のキーパッド17として使用されることができる(この場合、外部データベ ース16は好ましくはスピーチエンジンにより読取られることができる指令を含ん でいる)。より簡単な技術の装置ではステーション20で人間 のオペレータが配置され、人間のオペレータは回路網21に通って受信される指令 に応じてキーボード17を付勢する。オペレータがテキストの一部を選択したとき 、これはスピーチエンジンにより読取られ、さらにオペレータの関与する必要は ない。従って、オペレータは自由に問い合わせを補助し、スピーチエンジンの使 用は動作の効率を強化する。 例えば公共アドレスシステムへの接続に適切である等、本発明によるスピーチ エンジンに対する多数の他の応用が存在することが認められよう。TECHNICAL FIELD The present invention relates to synthetic speech, and more particularly to a method of synthesizing a digital waveform from a signal representing a phoneme. There are numerous situations, such as telephone systems, where the use of synthetic speech is convenient. In some applications, the starting point is a typical printed electronic representation of a disk, such as a disk produced by a word processor. Many stages of the processing require generating synthetic speech from such a starting point, but it is common to convert general text into spoken text as a preliminary part of the processing. In this application, the signal representing such phonetic text is called a "phoneme". The present invention thus addresses the problem of converting a signal representing a phoneme into a digital waveform. It will be appreciated that digital waveforms are commonplace in audio technology, and digital-to-analog converters and speakers are well-known devices that enable the conversion of digital waveforms into acoustic waveforms. A number of processes for converting phonemes into digital waveforms have been proposed, which is usually done by a concatenated database with many entries, each entry being a phoneme-limited access part and a digital waveform corresponding to the access phoneme. Has an output part including. Obviously, all phonemes should be displayed in the access part, but it is also known to additionally have strings of phonemes. However, the existing system considers only the string of phonemes included in the access part and does not consider the context of the string. The present invention uses concatenated databases to convert strings of phonemes into digital waveforms, as limited by the claims, but considers the context of the selected strings of phonemes. The present invention also includes a new form of database that facilitates contextual considerations, and also a method by which a preferred database string is selected from the choices stored therein. A preferred embodiment of the invention will now be described by way of example. Description of the General Examples This general description distinguishes some important completeness of the preferred embodiments of the present invention. Each of these perfections will be described in detail after this general description. The method of the present invention transforms an input signal representing text represented in a phoneme into a digital waveform that is ultimately transformed into an acoustic wave. Prior to conversion, the initial digital waveform may be further processed according to methods known to those skilled in the art. The phoneme set used in the preferred embodiment conforms to the simple set number 6 of SAMP-PA (Speech Assessment Methologies-Phonetic Alphabet). It will be appreciated that the method of the present invention is implemented on an electronic device and phonemes are provided in signal form, thus the method corresponds to the conversion of an input waveform into an output waveform. The preferred embodiment of the present invention transforms a waveform representing a string of 1, 2 or 3 phonemes into a digital waveform, but always 5 phonemes such that at least one preceding phoneme and at least one subsequent phoneme are considered. Works with the string. This has the effect that the "best" context is selected when 5 phoneme string choices are available. The present invention particularly uses a string of 5 phonemes, which is referred to in the following description as a "text window", and the five phonemes making up the "text window" are consecutive P1, P2, P3, Shown as P4, P5. An important feature of the present invention is that the "data context window" that is five consecutive phonemes from the input signal is matched with the "access context window" that is a sequence of five consecutive phonemes contained in the database. Is. The prior art includes techniques in which variable length strings are converted into digital waveforms. However, the context of the selected string is not considered. Each phoneme making up the selected string is of course in the context of all other phonemes of the string, but the context of the string is not considered as a whole. The present invention not only considers the context within the selected string, but also selects the best matching string from the valid strings in the database. This specification illustrates the important aspects of the following preferred embodiments. i) Definition of “best” when used in selection ii) Database configuration for storing signal representations of data context windows with corresponding digital waveforms iii) Selection method of (ii) using (i) iv ) (Iii) One of the various choices given by (iii) Definition of "best" The present invention is based on the "best" match of the input context window with the various stored context windows of choices. Select from. For example, there are 10 8 or 10 10 many possible context windows (5 phonemes each), so it is not possible to store them all, ie the database is somewhat lacking in possible context windows. There is. If all possible context windows are stored, there is no need to determine the "best" match, as an exact correspondence will always be obtained. However, each individual phoneme should be included in the database so that an exact match can always be achieved for at least one phoneme, and in the preferred embodiment the data context window P3 is the stored context window P3. It is always possible to match exactly, but usually not even more exactly. The present invention defines a correlation parameter between two phonemes as described below. Here, for each phoneme, there is a type vector consisting of a list of coefficients. Each of these coefficients represents a feature of a phoneme, such as whether the phoneme is a voice or a non-voice, or whether the phoneme is a silibant, plosive, or lip sound. It is also desirable to include a positional feature, for example, whether the phoneme is in stressed or unstressed syllables. Thus, a type vector uniquely characterizes its phoneme, and two phonemes can be compared by comparing their type vector coefficients, for example by using an exclusive OR gate (sometimes called an equivalent gate). . Multiple matching is one way to determine the correlation parameter. If desired, this can be converted to a percentage by dividing by the maximum possible value of the parameter and multiplying by 100. As an alternative example, the mismatch parameter can be determined, for example, by counting the number of differences between the two types of vectors. It will be appreciated that selecting the "best" match is equivalent to selecting the lowest mismatch. The main decision concerns the correlation parameters of a pair of phonemes. The correlation parameter of a string is obtained by summing or averaging the parameters of the corresponding pair of two strings. Weighted averages can be used where appropriate. Database In the preferred embodiment, the database (although the information content of the clause is not important) is based on extended clauses in the selected language, eg English. A suitable phrase lasts 2 or 3 minutes and contains approximately 1000 to 1500 phonemes. All phonemes must be included and should be included in various contexts, but the exact nature of the extended clause is not particularly important. Extended clauses can be stored in two different formats. First, extended clauses can be phonemeized to provide an access portion of the concatenated database. In particular, phonemes representing extended phrases are separated into context windows each containing five phonemes. The method of the invention consists in obtaining the best match of the context window of the data to the just discriminated stored context window. Extended clauses can also be provided in the form of digitized waveforms. As expected, this is accomplished by the reader or reciter issuing an extended phrase toward the microphone to make a digital recording using the set technique. Every point of the digital record can be defined by parameters such as time from start. Analysis of the recording sets values for the temporal parameters corresponding to the breaks between each pair of phonemes of the equivalent text. This apparatus sets the starting value of the time parameter corresponding to the first phoneme of the string and the ending value of the value of the time parameter corresponding to the last phoneme of the string, and searches the equivalent part of the database, that is, a specific digital waveform. By doing so, conversion of phonemes and waveforms is allowed for the included strings. In particular, conversion of strings of 1, 2 or 3 phonemes can be achieved. An important requirement is to choose the best part of the extended text for conversion. It has already been mentioned above that the phoneme parts of the extended text are stored in the context window form of 5 phonemes each. This is best achieved by storing the phonemes in a tree with 3 levels. The class of the first level is limited by the phoneme P3 of each window. The effect is that every phoneme gives direct access to a subset of the context window, ie the entire context window is divided into subsets, each subset having the same value of P3. The next level of the tree is bounded by the phonemes P2, P4, and this selection is made from the subsets defined as described above, which has the effect of dividing the entire context window into smaller subsets, each of which is a phoneme P2. , P3, P4 in common. (Although there are about half a million subsets, most of them are blank because valid sequences P2, P3, P4 do not occur in extended text). No blank subset is recorded, so the database remains manageable. For each three sequences P 2, P 3, P 4 under the extended text, it is true that there is a subset recorded at the second level of the database under P 2, P 4 despite this being true. Levels are indexed at the first level below P3. As an exact match, the second level gives access to a third level containing a subset with P2, P3, P4, which correspondingly includes all three values of P1 and P5. The best match of data P1 and P5 is selected. This selection completely discriminates one of the context windows contained in the extended text and provides access to the temporal parameters of said window. In particular, we give start and end time parameters up to four different strings as follows: (A) P3 itself; (b) P2 + P3 phoneme pair; (c) P3 + P4 phoneme pair; (d) Three phonemes consisting of P2 + P3 + P4 phonemes. In the first case, the database is the selected strings (a) to (a). Providing a start value and an end value for the time parameter corresponding to each one of d). As mentioned above, the time parameter limits the relevant part of the digital waveform so that the equivalent waveform is selected. If included in the database, item (d) is provided, in which case items (a), (b), (c) are all incorporated into the selected (d), so they are valid choices. It should be noted that Explicitly this choice cannot be given if item (d) is not included in the database. Item (b) and / or (c) may be present in the database even if item (d) is not in the database. When both of these choices are provided, they come from different parts of the database because item (d) is missing. Therefore, based on the contents of the database, the selection gives only (b) or (c) or both. The choice thus gives an option and in any case item (a) is available to be incorporated in pairs. Finally, item (a) is always present, even if (b), (c), (d) are not all in the database, so the "best match" is provided for a single phoneme, which is It is the only possibility offered. It will be apparent that items (b), (c) and (d) suggest string duplication. Therefore, when item (c) is selected for any phoneme, item (b) must be available for the next phoneme. If a better one is not provided, the same part of the database satisfies the requirement of (c) in the initial phoneme and the requirement of (b) in the later phoneme, but because of the different correlations involved, A better choice may be selected. When item (d) is valid, it is clear that item (c) is valid for the previous phoneme and item (b) is valid for the subsequent phoneme. In other words, some strings overlap, that is, there are options for some phonemes so that the same phoneme occurs at different positions in different strings. This aspect of the invention is described in more detail below. It was emphasized that the preferred embodiment is based on a context window that is 5 phonemes long. However, not enough strings of five phonemes are selected. Fortunately, if the input text contains 5 strings found in the database, only 3 strings, P2, P3, P4 are used. This is an important feature of the present invention is the selection of strings from the context, therefore the present invention selects the "best" context window of five phonemes, and all selected strings are in context. Use only part of it to ensure that it is based on. Selection of the "best" window The analysis of the text into phonemes contained in the database is performed by the phonemes, each phoneme being used in its context window. Although the description of the next part is based on one data phoneme selection process, it is understood that the same process is used for each data phoneme. The selected data phonemes are used as part of the context window rather than separately. More precisely, the selected data phoneme becomes the phoneme P3 of the data window with the two preceding phonemes and the two following phonemes selected to give the five phonemes of the relevant context window. The aforementioned database is searched in this context window. Since the exact window is rarely located, the search is done for the best fit of the stored context windows. The first step of the search involves accessing said tree using phoneme P3 as the indexing element. As mentioned above, this gives direct access to a subset of the stored context windows. More specifically, the access level by phoneme P3 gives access to a list of phoneme pairs corresponding to the possible values P2 and P4 of the data context window. The best pair is selected according to the following four criteria. First Criteria Fortunately, it is possible that one pair of subsets will give an exact match to the data P2 and P4. When this happens, the pair is selected and the search immediately proceeds to level 3. This result is unlikely to occur because the strings P2, P3, P4 are not included in the extended clause as detailed above. Second criterion. If there are no three matches, the left pair is selected when this happens. The left-hand match is selected when an exact match is found for P2, and if an option is provided, P4 with the highest correlation parameter is selected to give access to level 3 of the tree. The third criterion is similar to the second criterion except that it is the right pair based on the exact match found for P4. In this case, access to level 3 is given by the value of P2 which gives the highest correlation parameter. Criterion 4 occurs when there is no match in one of P2, P3 when the pair P2, P4 with the highest average correlation parameter is selected as the basis for access to level 3. It should be noted that if criterion 1 is successful, it is possible to take a left pair and a right pair and a single value, depending on criteria 2, 3 and 4. Even if criterion 1 fails, the left pair can be found by criterion 2 while the right pair can be found by criterion 3. However, because Criterion 1 failed, they are selected from different parts of the database, which gives access to different parts of the level 3 tree. Finally, Criterion 4 is accepted only when Criteria 1, 2, and 3 all fail, so that when used in other context windows, phoneme P3 is found in three phonemes or pairs. Can not. Thus, when criteria 1 or 4 is utilized, only a portion of the tree is accessed at the third level, and when criteria 2 and 3 are utilized, two different portions of the third level are accessed. The manner in which the context window selection is performed for the third level 1 or 2 region of the tree is described. In each case, the third level may include several pairs for phonemes 1 and 5 of the data context window. The pair with the best mean correlation parameter is selected as the context window for the access portion of the database. As described above, this context window is converted into a digital waveform form using the time parameter. Again, if Criterion 1 is used, only one context window is selected, but four possibilities arise, namely the following time parameter range. (I) Three phonemes P2 + P3 + P4; (ii) Left pair P2 + P3; (iii) Right pair P3 + P4; (iv) Single P3 itself When criterion 2 acts, this is the left pair P2 + P3 and single P3. Gives a time parameter range for itself only. Similar considerations apply when criterion 3 works, but the parameter range is the right pair P2 + P3 and a single P4. When both criteria work, this provides two options for a single P3, and the single with the higher correlation parameter for P1 + P5 is selected. Finally, when criterion 4 works, there is only one possibility, the phoneme P3 itself. The above description explained how the transformation is applied to each phoneme of the input text. Sometimes this method gives a conversion of only a single phoneme, but in this case no choice is provided. In some cases, the method provides a transform for a string of 2 or 3 adjacent phonemes, but in these situations the transform provides a choice for at least one phoneme. To finish the selection, it is necessary to reduce the number of choices to one. A preferred method of achieving this reduction is described below. The preferred method of performing the reduction is by processing short segments of the input text, such as segments that start and end at silence. If not so long, the sentence constitutes the appropriate segment. If the sentence is very long, for example 30 words or more, it will contain one or more embedded silences between the clause and the other subunits, for example. In the case of long sentences, such subunits are suitable for use as segments. The processing of the segments to reduce each set of options to one is described below. As mentioned above, no choices are provided for some phonemes and thus no choices are required for these phonemes. The choices are valid for other phonemes, and selections are made that yield the "best" results for the segment overall. This involves making a local "bad" selection at one point in the segment to get a "better" selection elsewhere in the segment. The "better" criteria include: (I) adopt longer strings than short strings, and (ii) select from overlapping strings over simply touching strings. The elimination of undesired options results in positions where each phoneme has one and only one transformation. In other words, the input text is divided into substrings of 1, 2 or 3 phonemes that match the database, thus setting the start and end values of the selected stream. The output part of the database takes the form of a digital waveform and the set parameters determine the segment of this waveform. Therefore, the segment designated to generate the digital waveform corresponding to the input text is selected and touched. This completes the requirements of the present invention. Once the digital waveform is obtained, it can be provided as an acoustic output using conventional digital-to-analog conversion techniques and conventional speakers. If desired, the primary digital waveform can be enhanced using techniques known to those skilled in the art. The invention will be further described by way of example with reference to the accompanying drawings. FIG. 1 schematically shows a speech engine according to the invention. FIG. 2 shows the speech engine shown in FIG. 1 mounted in a telephone network. As shown in FIG. 1, a speech engine according to the present invention comprises a primary processor 11 configured to receive text in a glyme and then generate an equivalent text in a phoneme. This text is sent to the converter 12 which is operatively associated with the database 13 according to the present invention. The converter 12 matches the segment of phoneme text with the segment stored in the access portion of the database 13. Therefore, the segments of the digital waveform are retrieved and these are assembled into an extension of the digital waveform corresponding to the extended portion of the original input. These extended portions of the digital waveform are passed to the waveform processor 14, where they are further processed to produce a smooth output. Finally, the digital output is converted to an analog waveform provided at output port 15 for further transmission. As shown in FIG. 1, the speech engine is connected to receive input from an external database 16 which holds the text in a conventional orthographic manner. The external database 16 is conveniently operated by the keyboard 17 to select the text stored therein. This text is provided to the primary converter 11 and appears at output port 15 as an analog waveform. 2 shows the speech engine shown in FIG. 1 mounted in a public access telephone network. As shown in FIG. 2, a typical voice telephone 20 is connected to a station 22 via a switched access network 21. Station 22 contains a speech engine as shown in FIG. 1 and output port 15 is connected to circuitry so that the information available in external database 16 is provided to telephone 20 as an analog acoustic waveform. ing. If desired, the keypad (used for dialing) of the telephone 20 can be used as the keypad 17 of the external database 16 (in which case the external database 16 can preferably be read by the speech engine). Including directives). In a simpler device, a human operator is located at station 20, which activates keyboard 17 in response to commands received through network 21. When the operator selects part of the text, it is read by the speech engine and no further operator intervention is required. Therefore, the operator is free to assist in queries and the use of the speech engine enhances the efficiency of operation. It will be appreciated that there are numerous other applications for the speech engine according to the invention, for example suitable for connection to public address systems.

【手続補正書】特許法第184条の8 【提出日】1995年7月12日 【補正内容】 デジタル波形のこれらの延長された部分は波形プロセッサ14に送られ、ここで これらはスムースな出力を発生するためにさらに処理を受ける。最後に、デジタ ル出力はさらに伝送するために出力ポート15で与えられるアナログ波形に変換さ れる。 図1で示されているように、スピーチエンジンはテキストを一般的な正字法で テキストを保持する外部データベース16から入力を受信するように接続されてい る。外部データベース16はそこに記憶されたテキストを選択するためにキーボー ド17により動作されると便利である。このテキストは1次プロセッサ11に与えら れ、アナログ波形として出力ポート15に現れる。 図2は公共アクセス電話回路網に取付けられた図1で示されているスピーチエ ンジンを示している。図2で示されているように一般的な音声電話20は切換えア クセス回路網21を経てステーション22に接続されている。ステーション22は図1 で示されているようにスピーチエンジンを含んでおり、出力ポート15は、外部デ ータベース16中で利用可能な情報がアナログ音響波形として電話20に与えられる ように回路網に接続されている。 所望ならば、電話20の(ダイヤル用に使用される)キーパッドは外部データベ ース16のキーパッド17として使用されることができる(この場合、外部データベ ース16は好ましくはスピーチエンジンにより読取られることができる指令を含ん でいる)。より簡単な技術の装置ではステーション20で人間 請求の範囲 (1)入力信号は音素でテキストを表わし、出力信号は前記テキストに対応する 音響波形に変換可能なデジタル波形であり、出力部分に連結するアクセス部分を 有する2部分のデータベースを使用する入力信号を出力信号に変換する方法にお いて、 前記アクセス部分はアクセス窓を限定し、これはそれぞれ音素のストリングに 対応し、前記出力部分はアクセス窓に対応するデジタル波形を含み、前記方法は 前記入力信号の窓とアクセス信号の窓とを比較し、それぞれの場合に、少なくと も1つの内部音素に対する正確な整合を含み、前記入力信号の一部に対する正確 な整合である音素のより短いストリングを弁別するように少なくとも最良の整合 の最初と最後の音素を破棄する最良の整合を与えるアクセス窓を選択し、選択さ れた正確な整合に対応するデジタル波形を出力部分から検索し、その後出力信号 を発生するようにデジタル波形の選択部分と共に連結することを含んでいること を特徴とする方法。 (2)アクセス部分は音素における延長されたテキストに基づき、各アクセス窓 は前記延長されたテキストに含まれている音素のストリングに対応し、出力部分 はアクセス部分の延長された音素テキストに対応する延長されたデジタル波形を 含み、出力部分から検索された部分は正確な整合に対応する延長されたデジタル 波形のセグメントである請求項1記載の方法。 (3)前記入力信号の5個の音素の窓に対して最良の整合を 形成し、1個、2個または3個の音素のストリングに対する正確な整合を弁別す るため前記最良の整合の少なくとも最初と最後の音素を破棄することを含む請求 項1または2記載の方法。 (4)データベースの入力部分は、 (i)窓の中央の音素に対応する単一の音素を含んだ最高レベルと、 (ii)窓の第2および第4の音素の等価物を含んだ第2のレベルと、 (iii )窓の第1および第5の音素の等価物を含んだ最低レベルの3つの階級 レベルに組織され、 整合は、第1のレベルの階級から入力窓の中央の音素に対する正確な整合を選 択し、最高レベルの階級の選択された部分に対応する第2のレベルの階級から第 2および第4の音素に対する最良の整合を選択し、第2のレベルの階級の選択に 対応する最低レベルの部分からの第1および5の音素に対する最良の整合を最低 レベルの階級から選択することからなる請求項3記載の方法。 (5)デジタル出力がアナログ信号に変換される請求項1乃至4のいずれか1項 記載の方法。 (6)スピーチエンジンの構成要素として使用され、デジタル波形を含んでいる 出力部分に連結される音素を表す信号を含んだアクセス部分を有するデータベー スにおいて、 前記アクセス部分はそれぞれ5個の音素を含んでいるアクセス窓に分割される 延長されたテキストに基づいており、前 記出力部分はアクセス部分の延長された音素のテキストに対応する延長されたデ ジタル波形を含んでおり、アクセス部分は、 (i)アクセス窓の中央の音素に対応する単一の音素を含んだ最高レベルと、 (ii)最高レベルで弁別されたアクセス窓の第2および第4の音素の等価物を 含んだ第2のレベルと、 (iii )第2のレベルで弁別されたアクセス窓の第1および第5の音素の等価 物を含んだ最低レベルの3つの階級レベルに組織され、 アクセス部分と出力部分の間の連結は、レベル(i)、(ii)、(iii )から のアクセス窓の弁別がデジタル波形の対応する窓を弁別することを特徴とするデ ータベース。 (7)文字素のテキストを音素の等価テキストに変換する1次プロセッサ(11) と、音素の前記テキストをデジタル波形に変換するコンバータ(12)とを具備す るスピーチエンジンにおいて、コンバータ(12)が請求項6記載のデータベース (13)を含んでいることを特徴とするスピーチエンジン。 (8)スピーチエンジンの出力を遠隔位置に伝送するために回路網に接続される 請求項7記載のスピーチエンジンを含んでいる電話回路網。[Procedure Amendment] Patent Law Article 184-8 [Submission date] July 12, 1995 [Amendment content] These extended portions of the digital waveform are sent to the waveform processor 14, where they are output smoothly. Undergo further processing to generate. Finally, the digital output is converted to an analog waveform provided at output port 15 for further transmission. As shown in FIG. 1, the speech engine is connected to receive input from an external database 16 which holds the text in a conventional orthographic manner. The external database 16 is conveniently operated by the keyboard 17 to select the text stored therein. This text is provided to the primary processor 11 and appears at output port 15 as an analog waveform. 2 shows the speech engine shown in FIG. 1 mounted in a public access telephone network. As shown in FIG. 2, a typical voice telephone 20 is connected to a station 22 via a switched access network 21. Station 22 contains a speech engine as shown in FIG. 1 and output port 15 is connected to circuitry so that the information available in external database 16 is provided to telephone 20 as an analog acoustic waveform. ing. If desired, the keypad (used for dialing) of the telephone 20 can be used as the keypad 17 of the external database 16 (in which case the external database 16 can preferably be read by the speech engine). Including directives). In the device of the simpler technique, at the station 20, the human claim (1) The input signal represents a text with phonemes, and the output signal is a digital waveform convertible into an acoustic waveform corresponding to said text, and is connected to the output part. In a method of converting an input signal into an output signal using a two-part database having an access part, the access part defining an access window, each corresponding to a string of phonemes, and the output part corresponding to the access window. The input signal window and the access signal window, and in each case including an exact match to at least one internal phoneme, an accurate match to a portion of the input signal. Best to discard at least the best matching first and last phonemes so as to distinguish shorter strings of phonemes that are consistent Selecting the access window that provides the match, retrieving the digital waveform corresponding to the selected exact match from the output portion, and then concatenating with the selected portion of the digital waveform to produce the output signal. How to characterize. (2) The access portion is based on the extended text in the phoneme, each access window corresponds to a string of phonemes contained in the extended text, and the output portion corresponds to the extended phoneme text of the access portion. The method of claim 1 including an extended digital waveform, the portion retrieved from the output portion being a segment of the extended digital waveform that corresponds to an exact match. (3) At least the first of the best matches to form a best match for the window of 5 phonemes of the input signal and to distinguish an exact match for a string of 1, 2 or 3 phonemes. And discarding the last phoneme. (4) The input part of the database is (i) the highest level containing a single phoneme corresponding to the central phoneme of the window, and (ii) the second level containing the equivalent of the second and fourth phonemes of the window. 2 levels, and (iii) the lowest three level levels including the equivalents of the first and fifth phonemes of the window, the match is from the first level class to the middle phoneme of the input window. To select the best match for the second and fourth phonemes from the second level class corresponding to the selected part of the highest level class, and select the second level class 4. The method of claim 3 comprising selecting the best match for the first and fifth phonemes from the lowest level portion corresponding to the lowest level class. (5) The method according to any one of claims 1 to 4, wherein the digital output is converted into an analog signal. (6) A database used as a component of a speech engine and having an access part containing a signal representing a phoneme connected to an output part containing a digital waveform, wherein the access parts each include five phonemes. Based on the extended text divided into an access window, the output portion comprising an extended digital waveform corresponding to the extended phoneme text of the access portion, the access portion comprising: (i) access A highest level containing a single phoneme corresponding to the middle phoneme of the window, and (ii) a second level containing the equivalent of the second and fourth phonemes of the access window discriminated at the highest level, (Iii) organized into the lowest three rank levels including the equivalent of the first and fifth phonemes of the access window discriminated at the second level, and accessing Connection between the minute and the output portion, the level (i), (ii), a database, characterized in that to distinguish the corresponding window of the discrimination is the digital waveform of the access windows (iii). (7) In a speech engine comprising a primary processor (11) for converting a text of a phoneme into an equivalent text of a phoneme and a converter (12) for converting the text of a phoneme into a digital waveform, the converter (12) is Speech engine, characterized in that it comprises a database (13) according to claim 6. (8) A telephone network including a speech engine according to claim 7, which is connected to the network for transmitting the output of the speech engine to a remote location.

Claims (1)

【特許請求の範囲】 (1)入力信号は音素でテキストを表わし、出力信号は入力テキストに対応する 音響波形に変換可能なデジタル波形である入力信号を出力信号に変換する方法に おいて、 (a)前記入力信号をそれぞれ連結したデータベースのアクセス部分に記憶さ れている接触セグメントに分割し、 (b)ステップ(a)で弁別された各セグメントにおいて、データベースの出 力部分からデジタル波形のセグメントを検索し、前記出力セグメントは入力セグ メントに連結されており、 (c)ステップ(b)で検索されたデジタルセグメントを連結し、前記セグメ ントは等価入力セグメントとして同一の順序で維持されるステップからなり、 連結したデジタル信号は入力信号に対応する波形であり、データベースの出力 部分はあらゆる点を弁別する位置パラメータを有する延長されたデジタル波形を 含んでおり、開始点と終了点の位置パラメータの設定は延長されたデジタル波形 部分を限定し、ステップ(a)は入力信号のセグメントの開始および終了位置パ ラメータを設定し、ステップ(c)は記録されたデジタル波形部分を検索するた め(a)で設定されたパラメータを利用することからなることを特徴とする方法 。 (2)ステップ(a)は入力信号の緊密な整合を設定するため入力信号の窓とデ ータベースの入力部分の窓とを比較することからなる請求項1記載の方法。 (3)各窓が5音素に等しい長さを有する請求項2記載の方 法。 (4)データベースの入力部分は、 (i)窓の中央の音素に対応する単一の音素を含んだ最高レベルと、 (ii)窓の第2および第4の音素の等価物を含んだ第2のレベルと、 (iii )窓の第1および第5の音素の等価物を含んだ最低レベルの3つの階級 レベルに組織され、最低レベルの部分の弁別は音素の記録された窓を弁別し、 整合は、第1のレベルの階級から入力窓の中央の音素に対する正確な整合を選 択し、最高レベルの階級の選択された部分に対応する第2のレベルの階級から第 2および第4の音素に対する最良の整合を選択し、第2のレベルの階級の選択に 対応する最低レベルの部分からの第1および5の音素に対する最良の整合を最低 レベルの階級から選択することからなる請求項3記載の方法。 (5)スピーチエンジンの構成要素として使用されるデータベースにおいて、前 記データベースは音素の前記延長されたデジタル波形を表す信号を含んだ延長さ れた部分およびアクセス部分を含んでいる出力部分を有し、前記データベースは 両部分の共通の点を弁別する共通のアドレスパラメータを有し、アクセス部分の セグメントの弁別はパラメータの開始値および終了値を設定し、デジタル波形の 対応するセグメントを弁別するデータベース。 (6)アクセス部分は5音素の長さの窓と、窓の第2、第4 の音素を弁別するため窓の中央の音素によりアクセスされるより高いレベルの階 級を有し、より高いレベルの階級のエントリーは3音素のストリングに等価であ り、前記アクセス部分はまた第1と第5の音素を弁別するため3音素のストリン グによりアクセスされるより低いレベルの階級を具備しており、より低いレベル の階級のエントリーは5音素のストリングに等価である請求項5記載のデータベ ース。 (7)文字素のテキストを音素の等価テキストに変換する1次プロセッサ(11) と、音素の前記テキストをデジタル波形に変換するコンバータ(12)とを具備す るスピーチエンジンにおいて、コンバータ(12)が請求項5または6記載のデー タベース(13)を含んでいることを特徴とするスピーチエンジン。 (8)スピーチエンジンの出力を遠隔位置に伝送するために回路網に接続される 請求項7記載のスピーチエンジンを含んでいる電話回路網。[Claims] (1) The input signal represents text with phonemes, and the output signal corresponds to the input text A method for converting an input signal that is a digital waveform that can be converted into an acoustic waveform into an output signal Be careful   (A) The input signals are stored in the access part of the connected database. Divided into contact segments,   (B) For each segment discriminated in step (a), the database output The segment of the digital waveform from the input section and the output segment is the input segment Is connected to   (C) The digital segments searched in step (b) are connected, and the segment , The steps consist of steps that are maintained in the same order as equivalent input segments,   The combined digital signal is the waveform corresponding to the input signal, and the output of the database The part has an extended digital waveform with position parameters that discriminate every point. Included, extended start and end position parameter settings digital waveform Limiting the part, step (a) includes the start and end position patterns of the segment of the input signal. Parameter and step (c) is to search the recorded digital waveform portion. (A) using the parameter set in step (a) . (2) Step (a) is for setting the input signal window and data to set the close matching of the input signal. The method of claim 1, comprising comparing the window of the input portion of the database. (3) The method according to claim 2, wherein each window has a length equal to five phonemes. Law. (4) The input part of the database is   (I) the highest level containing a single phoneme corresponding to the phoneme in the center of the window,   (Ii) a second level containing equivalents of the second and fourth phonemes of the window;   (Iii) The lowest level of the three classes including the equivalents of the first and fifth phonemes of the window Organized into levels, the lowest level part of the discrimination is the window of recorded phonemes,   Matching selects an exact match for the phoneme in the center of the input window from the first level class. The second level class corresponding to the selected part of the highest level class Select the best match for the second and fourth phonemes, and select the second level class The best match for the first and fifth phonemes from the corresponding lowest level parts is the lowest The method of claim 3 comprising selecting from a rank of levels. (5) In the database used as a component of the speech engine, The database is an extension containing a signal representing the extended digital waveform of the phoneme. An output part including an access part and an access part, the database being It has a common address parameter that distinguishes the common points of both parts, For segment discrimination, set the start value and end value of the parameter, and A database that distinguishes the corresponding segments. (6) The access part has a window with a length of 5 phonemes, and the second and fourth windows. Higher level floor accessed by the phoneme in the center of the window to discriminate between phonemes Having a class, the entry of a higher level class is equivalent to a string of three phonemes The access part also has a string of three phonemes to distinguish the first and fifth phonemes. Have a lower level of class that is accessed by 6. A database according to claim 5, wherein the entries of the class are equivalent to a string of 5 phonemes. Source. (7) A primary processor that converts text of a phoneme into phoneme equivalent text (11) And a converter (12) for converting the text of the phoneme into a digital waveform The speech engine according to claim 5 or 6, wherein the converter (12) is a speech engine. Speech engine characterized by including a database (13). (8) Connected to the network to transmit the output of the speech engine to a remote location A telephone network including the speech engine of claim 7.
JP7506281A 1993-08-04 1994-08-01 Speech synthesis method by converting phonemes into digital waveforms Pending JPH09504117A (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP93306219 1993-08-04
GB93306219.2 1993-08-04
US16699893A 1993-12-16 1993-12-16
PCT/GB1994/001688 WO1995004988A1 (en) 1993-08-04 1994-08-01 Synthesising speech by converting phonemes to digital waveforms

Publications (1)

Publication Number Publication Date
JPH09504117A true JPH09504117A (en) 1997-04-22

Family

ID=26134418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7506281A Pending JPH09504117A (en) 1993-08-04 1994-08-01 Speech synthesis method by converting phonemes into digital waveforms

Country Status (10)

Country Link
EP (1) EP0712529B1 (en)
JP (1) JPH09504117A (en)
AU (1) AU674246B2 (en)
CA (1) CA2166883C (en)
DE (1) DE69411275T2 (en)
DK (1) DK0712529T3 (en)
ES (1) ES2118424T3 (en)
HK (1) HK1014431A1 (en)
SG (1) SG52347A1 (en)
WO (1) WO1995004988A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3884856B2 (en) 1998-03-09 2007-02-21 キヤノン株式会社 Data generation apparatus for speech synthesis, speech synthesis apparatus and method thereof, and computer-readable memory
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR890702176A (en) * 1987-10-09 1989-12-23 에드워드 엠, 칸데퍼 Method and apparatus for generating language from intersegment language segment stored in digital manner
AU632867B2 (en) * 1989-11-20 1993-01-14 Digital Equipment Corporation Text-to-speech system having a lexicon residing on the host processor
SE516521C2 (en) * 1993-11-25 2002-01-22 Telia Ab Device and method of speech synthesis

Also Published As

Publication number Publication date
DK0712529T3 (en) 1999-04-06
EP0712529A1 (en) 1996-05-22
WO1995004988A1 (en) 1995-02-16
DE69411275D1 (en) 1998-07-30
DE69411275T2 (en) 1998-11-05
CA2166883C (en) 1999-09-21
AU674246B2 (en) 1996-12-12
SG52347A1 (en) 1998-09-28
HK1014431A1 (en) 1999-09-24
EP0712529B1 (en) 1998-06-24
ES2118424T3 (en) 1998-09-16
AU7270194A (en) 1995-02-28

Similar Documents

Publication Publication Date Title
US5832428A (en) Search engine for phrase recognition based on prefix/body/suffix architecture
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
CA2351988C (en) Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US20020173956A1 (en) Method and system for speech recognition using phonetically similar word alternatives
KR20080069990A (en) Speech index pruning
WO2005034082A1 (en) Method for synthesizing speech
JP2006058899A (en) System and method of lattice-based search for spoken utterance retrieval
US6990445B2 (en) System and method for speech recognition and transcription
US7177800B2 (en) Method and device for the processing of speech information
US20240144933A1 (en) Voice-controlled communication requests and responses
KR100379994B1 (en) Verbal utterance rejection using a labeller with grammatical constraints
US5970454A (en) Synthesizing speech by converting phonemes to digital waveforms
US5987412A (en) Synthesising speech by converting phonemes to digital waveforms
US20030220788A1 (en) System and method for speech recognition and transcription
JPH09504117A (en) Speech synthesis method by converting phonemes into digital waveforms
JP3576066B2 (en) Speech synthesis system and speech synthesis method
US6502074B1 (en) Synthesising speech by converting phonemes to digital waveforms
JP3626398B2 (en) Text-to-speech synthesizer, text-to-speech synthesis method, and recording medium recording the method
JP2002532763A (en) Automatic inquiry system operated by voice
JPH119847A (en) Talkative parrot sounding device
JPH11275205A (en) Voice command system for automatic dial
JPH10105190A (en) Method performing inquiry to data base
JP2001249678A (en) Device and method for outputting voice, and recording medium with program for outputting voice
JP2003323191A (en) Access system to internet homepage adaptive to voice

Legal Events

Date Code Title Description
A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040517

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041005