JPH03501896A

JPH03501896A - 波形の加算重畳による音声合成のための処理装置

Info

Publication number: JPH03501896A
Application number: JP1509621A
Authority: JP
Inventors: アモン，クリスチャン
Original assignee: フランス共和国
Priority date: 1988-09-02
Filing date: 1989-09-01
Publication date: 1991-04-25
Anticipated expiration: 2017-06-24
Also published as: ES2065406T3; DE68919637T2; US5327498A; FR2636163B1; DK107390A; EP0363233A1; US5524172A; FR2636163A1; DK107390D0; JP3294604B2; EP0363233B1; CA1324670C; WO1990003027A1; DK175374B1; DE68919637D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】波形の加算重畳による音声合成のための処理装置この発明は音声合成（ｓｐｅｅｃｈ　５ｙｆ１ｔｈｅｓｉＳ）の方法および装置に関する、より特定的には合成されるべきテキストを対応する音エレメントの順位数および韻律素のパラメータ（音エレメントの始まりと終りでの応答の高さおよび音エレメントの持続時間に関する情報）により各々識別されるマイクロフレームへ細分化し、それから重畳手順による音エレメントの適合および連結による音エレメントの辞書からの合成に関する。

辞書に記憶された音エレメントまたは原形はしばしばシフオン（ｄ　ｉ　ｐｈｏｎｅ）　、すなわち音素の間の遷移であり、それはフランス語では約１３００の音エレメントの辞書にすることが可能である、しかしながら、たとえば音節または単語といった異なる音エレメントが使用され得る。

韻律素のパラメータは文脈に関する標準の関数として決定され得る、イントネーションに対応する音声の高さは単語および文章における音エレメントの位置に依存しかつ音エレメントに与えられる持続時間は文章のリズムに依存する。

音声合成の方法は２つのグループに分けられることに留意されたい。音声管〔線形予測合成（ｌｉｎｅａｒ　ｐｒｅｄｉｃｔｉｏｎ　５ｙｎｔｈｅｓｉｓ）、フォルマント合成および高速フーリエ変換合成〕の数学的モデルを使用するものは音声のデコンボルーション（ｄｅｃｏｎｖｏｌｕｔｉｏｎ）および音声管の伝達関数のデコンボルーションに依存しかつ一般的にはディジタル・アナログ変換および復元の前に音声のディジタルサンプルごとに約５０の算術動作を必要とする。

音声源管（ｓｏｕｒｃｅ−ｖｏｃａｌ　ｄｕｃｔ）のデコンボルーションにより有声音の基本周波数の値を修正することが可能で、すなわちそれら音声は調波構造を有しかつ声帯の振動および音声信号を表わすデータの圧縮により引起こされる。

第２のグループの方法に属するものは波形の連結による時間領域合成を使用する。この解決は使用における融通性の利点とサンプル当りの算術動作の数をかなり減らす可能性とを有する。他方、数学的モデルに基づく方法の場合と同じだけの伝送に必要とされるフローレートを減じることは不可能である。しかしながら良好な復元品質が本質的であり、かつ狭いチャネルごしにデータを伝送する必要がない場合はこの欠点は存在しない。

この発明に従う音声合成は第２のグループに属する。それは綴字法の連鎖（たとえばプリンタにより伝達されるテキストにより形成される）をたとえば復元され、直接伝達され、または通常の電話線ごしに伝送される音声信号へ変換する分野での特に重要な応用を発見する。

短期間信号加算重畳技術を使用する音エレメントからの音声合成方法は既知である（音声波形連結のための重畳加算技術を使用するシフオン合成、シャルパンティエ（Ｃｈａｒｐｅｎｔｉｅｒ）他による、ＩＣＡＳＳＰ１９８６年、音響音声および信号処理に関するＩ　ＥＥＥ−Ｉ　ＥＣＥＪ　−ＡＳＪ国際会議、２０１５頁−２０１８頁参照）。しかしながらそれは大変複雑な手順により得られる、合成ウィンドウの重畳の標準化を伴う短期間合成信号に関する、−有声化の同期ウィンドウィングによる元の信号の分析、−短期間信号のフーリエ変換、一エンベロープ検知、２源のスペクトル上の周波数軸のホモセティック（ｈ。

ｍｏｔｈｅｔｉｃ）な偏移、一元の信号のエンベロープによる修正された源スペクトルの重みづけ、一フーリエ変換の逆転。

この発明の主要な目的は音声の許容できる再生を可能にする比較的単純な方法を提供することである。それは有声音がディラック（Ｄ　ｉ　ｒ　ａ　ｃ）連続、すなわち、スペクトルフィールドに調波スペクトル、すなわち基本周波数から離れてスペース決めされかつ音声管の伝達関数に依存する最大呼出フォルマントを有するエンベロープによって重みづけされる調波を引起こす、音源の基本周波数、すなわち声帯の周波数を同期的に伴う「パルス　コームＪ（ｐｕｌｓ　ｅ　ｃ　ｏｍｂ）により励起された、（音声管に対応して）数ミリセカンドの間静止する、フィルタのインパルス応答の総和ととして考慮され得るという仮定から始まる。

韻律素のデータに応じるためにそれが必要とされるとき、有声音の基本周波数の低減が、０の挿入、またはＯの挿入により同様に基本周波数を低減しかつ各周期の大きさを低減することによりそれを増大するための復元されるべき音声の最大の可能な高さまたはその他（米国特許第４６９２９４１号）に義務的に応答しなければならない記憶されたマイクロ音素の挿入により実行される音声合成を実行することは既に提案されている〔ラックスウィック（Ｌａｃｓｚｅｗｉｃ）他による、音声合成のマイクロ音素法、１ＣＡＳＳＰ１９８７年、ＩＥＥＥ１４２６頁−１４２９頁参照〕。これら２つの方法は基本周波数の修正の間に少なくない歪みを音声信号に導入する。

この発明の目的は上記の制限を伴わずかつ良品質の音声を供給することが可能で、かつわずかな量の算術計算しか必要としない波形の連結を有する合成の方法と装置を提供することである。

このために、この発明は下記のとおり特徴づけられる方法を特に提案する、２少なくとも音エレメントの有声音に関して、声帯の励起に対する音声管の各パルスの応答の始まりを中心にしてウィンドウィングが実行され（この始まりは恐らくは辞書内に記憶される）、ウィンドウは前記始まりのために最大値を有しかつ振幅はウィンドウの端縁でＯにまで減少する、−各音エレメントに対応するウィンドウ化された信号が、基本周波数の韻律素の高さの情報に依存して元の基本周期よりも小さいまたは大きい、得られるべき基本合成周期に等しい時間シフトと置換えられかつ信号が総和される。

これらの動作は音声信号のウィンドウィングにより得られる基本波形に適用される重畳とそれに続く加算手順を形成する。

一般的には、シフオンで構成される音エレメントが使用される。

ウィンドウの幅は本来の周期の２倍より小さいまたは大きい値の間で変化し得る。以下に記載される実施例では、ウィンドウの幅は基本周期を増大させる場合には元の周期の約２倍に等しくまたは基本周波数を増大させる場合には最終の合成周期の約２倍に等しく有利に選択され、したがって合成ディジタル信号のサンプルの振幅への各ウィンドウの貢献を考慮する可能なエネルギの標準化によって補われない、基本周波数の変化によるエネルギの修正を部分的に補償する。基本周期の低減の場合には、ウィンドウの幅はしたがって元の基本周期の２倍より小さくなる。この値を下回ることは好ましくない。

どちらの方向にも基本周波数の値を修正することは可能なので、シフオンはスピーカの自然な基本周波数で記憶される。

「有声」の場合、２つの連続的な基本周期に等しい持続時間を有するウィンドウではそのスペクトルが音声信号スペクトルまたは広域短期間スペクトルのエンベローフヲ表わす基本波形が得られる、−というのはこのスペクトル１ま音声信号の調波スペクトルおよびウィンドウの周波数応答のコンポルージョンにより得られ、それはこの場合には調波の間の距離より大きい帯域を有するー、これら基本的波形の時間再分布は調波距離の間の修正された距離ではなく元の信号と同じエンベロープを実質的に有する信号を与える。

窓が２つの基本周期より大きい持続時間を有する場合、そのスペクトルが依然として調波または狭域短期間スペクトルである基本波形が得られる。−というのはその場合はウィンドウの周波数応答は調波の距離よりも狭いからであるー、これら基本波形の時間再分布は先述の合成信号のように、残響期間が導入される場合を除いては、元の信号と実質的に同じエンベロープを有する信号（そのスペクトルがより低い振幅で異なる位相のしかしながら元の信号の振幅スペクトルと同じ形を有する信号）を与え、その効果は約３つの周期のウィンドウ幅を超える場合にのみ可聴で、この再反響の効果はその振幅が低いときには合成信号の品質を劣化させない。

典型的にはハニング（Ｈａｎｎｉｎｇ）ウィンドウが使用され得るが、他のウィンドウの形式もまた許容される。

上記に定義される処理はまたその形式が白色雑音の形式に関連し、しかしながらウィンドウ化された信号の同期化を伴わない信号により表わされ得る、いわゆる「無声音の」または非有声（ｎｏｎ−ｖｏｉｃｅｄ　５ｏｕｎｄ）の音にも適用され得る、これは、一方では音エレメント（シフオン）の間ならびに無声および有声の音素の間を滑らかにしかつ他方ではリズムの修正を可能にする、無声音と有声音の処理を均質化するためである。シフオンの間の接合において問題が生じる。この困難を克服する解決はシフオンの間の２つの近接する基本的遷移周期からの基本波形の抽出を省くことにある（無声音の場合には、有声化マークは任意に配置されたマークにより置換えられる）、シフオンの各側で抽出された２つの基本的波動関数の手段を計算することにより第３の基本的波動関数を規定することまたはこれら２つの基本的波動関数に直接加算重畳手続きを使用することのいずれかが可能になる。

この発明は非制限的な例により提示される、この発明の特定の実施例の以下の記載によりより良く理解されるであろう。記述は添付の図面を参照する、 −第１図はこの発明に従う、時間領域でのシフオンの連結および韻律素のパラメータの修正による音声合成を示すグラフである。

２第２図はホストコンピュータに組込まれる合成装置の可能な構成を示すブロック図である。

−第３図は特定の音素の事例において、自然な信号の韻律素のパラメータがいかに修正されるかを例により示す。

−第４Ａ図、第４Ｂ図および第４Ｃ図は有声合成信号に対しなされるスペクトルの修正を示し、第４Ａ図は元のスペクトルを示し、第４Ｂ図は基本周波数の低減を伴うスペクトルを示しかつ第４Ｃ図はこの周波数の増大を伴うスペクトルを示す、２第５図はシフオンの間の不連続を低減する原則を示すグラフである。

２第６図は２つの周期を上回る周期にわたってのウィンドウィングを示す図である。

音素の合成は辞書に記憶される２つのシフオンから果たされ、各音素は２つの半シフオンから形成される。、たとえばｒｐｃ＋１ｏｄｅ　ｌの中の音声ｒｅＪはｒｐａｉＪの第２の半シフオンから、およびｒａｉｒＪの第１の半シフオンから得られるであろう。

韻律素の綴字性音声翻訳および計算のためのモジュール（それはこの発明の一部を形成しない）は、所与の時間に次のもの、すなわち順序Ｐの復元される音素順序Ｐ−１の先行する音素順序Ｐ＋１の次の音素を識別し、初めおよび終りの周期と同じ（音素Ｐに割当てられる持続時間を与えるデータを伝える（第１図）。

この発明により修正されない第１の分析動作は、使用される音素に選択される２つのシフオンを決めること、および音素の名前および韻律素の表示をデコードすることにより、有声化することにある。

すべての使用可能な音素（たとえば数で１３００）は、記述子１２を形成しかつ各シフオンの初めのアドレス（２５６バイトのブロックの数で）、シフオンおよびシフオンの中間の長さく最後の２つのパラメータは初めからのサンプルの数として表現される）、および有声音の場合の声帯の興奮への音声管の反応の初めを示す有声化マーク（たとえば数で３５）を含む表を有する辞書１０に記憶される。

シフオン辞書はたとえば国立テレコミュニケーション研究センター（Ｃｐｎｌ＋ｅ　Ｎａｔｉｏｎａｌ　ｄ’Ｅｔｕｄｅｓ　ｄｅｔ　Ｔｅｌｐｃｏｍｍｕｎｉｃａｊｉｏｎ）から入手可能であるような標準に従う。

シフオンはその後第１図に概略的に図示される分析および合成処理で使用される。このプロセスは、それがたとえばパーソナルコンピュータの中央処理装置のようなホストコンピュータに接続されるように意図される、第２図に図示される構成を有する合成装置において使用されるということを仮定して記述されるであろう。シフオンの表現を与えるサンプリング周波数は１６ｋＨｚであるとまた仮定されるであろう。

合成装置（第２図）はその時計算マイクロプログラム、記述子のアドレスの順序で記憶されるシフオン辞書１０（すなわちサンプルにより表わされる波形）、辞書記述子を形成する表１２、およびたとえば５００点以上でサンプリンフサれるハニング（）Ｉｎｎｉｎｇ　）ウィンドウを含むメインランダムアクセスメモリ１６を含む。ランダムアクセスメモリ１６はまたマイクロフレームメモリおよびワーキングメモリを形成する。それはデータバス１８およびアドレスバス２０によりホストコンピュータのボート２２に接続される。

音素を復元するために発せられる各マイクロフレーム（第２図）は、干渉しあう２つの音素ＰおよびＰ＋１の各々について、音素の連続番号、音素の初めの周期の値、音素の終りの周期の値、および第２の音素についてシフオンの持続時間により置換され得る音素の合計の持続時間から成る。

装置はさらにバス１８および２０に接続される、ローカル計算ユニット２４および経路選択回路２６を含む。後者は出力バッフ７として役立つランダムアクセスメモリ２８をコンピュータか、または出力ディジタルアナログコンバータ３２の制御器３０へ接続することを可能にする。後者は概して８ｋＨｚに制限される低域フィルタ３４を駆動し、それは音声増幅器３６を駆動する。

装置の動作は次のとおりである。

ホストコンピュータ（図示されない）はボート２２およびバス１８および２０を介してメモリ１６に予約される表の中のマイクロフレームをロードし、その後それは計算ユニット２４により合成の初めを順序づける。この計算ユニットは、１に初期設定される、ワーキングメモリに記憶されるインデックスを使用して、マイクロフレーム表の中の現在の音素Ｐの、後続する音素Ｐ＋１の、および先行する音素Ｐ−１の数をサーチする。第１の音素の場合には、計算ユニットは現在の音素の、および後続する音素の数だけをサーチする。最後の音素の場合には、それは先行する音素の数、および現在の音素のそれをサーチする。

一般的な場合には、音素は２つの半シフオンから形成され、各シフオンのアドレスは次の公式により辞書の記述子のマトリクスアドレス指定によりサーチされ、すなわちシフオン記述子の数＝第１の音素の数＋シフオンの（第２の音素−１の数）１数有声音計算ユニットはワーキングメモリ１６に、シフオンのアドレス、それの長さ、３５の有声化マークと同じくそれの中間をロードする。それはその後音素の記述子表に、シフオンの第２の部分に対応する有声化マークをロードする。

その後それは波形辞書でシフオンの第２の部分をサーチし、それはそれを分析音素の信号を表わす表に置く。音素記述子表に記憶されるマークはシフオンの中間の値だけダウンカウントされる。

この動作は第２のシフオンの第１の部分により形成される音素の第２の部分について反復される。第２のシフオンの第１の部分の有声化マークは音素の有声化マークに追加され、音素の中間の値だけ増分される。

有声音の場合に、計算ユニットは韻律素のパラメータ（持続時間、音素の初めの周期および終りの周期）を形成し、その後音素の持続時間に要求される周期の数を公式、すなわち周期の数＝音素の２８持続時間／（初め周期＋終り周期）から判断する。

計算ユニットは有声化マークの数と等しい自然の音素のマークの数を記憶し、その後合成周期の数と分析周期の数との間の差を計算することにより、除去される、または追加される周期の数を判断し、その差は辞書に対応するそれから導入される調整の修正により判断される。

選択される各合成周期について、計算ユニットはその後、次の考慮すべき事柄、持続時間の修正は分析信号のｎ有声化マークと合成信号のｐマークとの間の合成信号の時間軸の変形により対応を生じるように考えられてもよく、ｎおよびｐは所定の整数であり、合成信号のｐマークの各々と分析信号の一番近いマークは関連するはずである、から音素の周期間の選択される分析周期を判断する。

全体の音素にわたって規則的に拡がった周期の複製、または逆に削除は後者の持続時間を修正する。

シフオン間の２つの隣合った遷移周期から基本の波形を抽出する必要はまったくなく、第５図に図示されるように、第１のシフオンの最後の２つの周期から、および第２のシフオンの最初の２つの周期から抽出される基本関数の加算重畳演算はこれらのシフオン間の平坦化を可能にする。

各合成周期について、計算ユニットは後者と合成周期との間の差を計算することにより分析周期から、追加されるまたは省かれる点の数を判断する。

上に記述されたように、第３図に図示される次の方法で分析ウィンドウの幅を選択することは有利であり、もし合成周期が分析周期より小さいならば（第３図におけるラインＡおよびＢ）、ウィンドウ３８の大きさは合成周期の２倍であり、逆の場合、ウィンドウ４ｏの大きさは現在の分析周期の、および先行する分析周期の最小のものに２で乗算することにより得られる（ラインＣおよびＤ）。

計算ユニットはたとえば５００以上の点で表にされるウィンドウの値を読ａす前進ステップを規定し、ステップはそのとき前に計算されたウィンドウの大きさにより除算される５００に等しい。それは分析音素信号バッファメモリ２８を読出し、先行する周期の、および現在の周期のサンプルは表にされたウィンドウにおける前進ステップにより乗算される現在のサンプルの数により指標づけされるハニングウィンドウ３８または４０の値だけそれらに重みをっケ、現在の出力サンプルの、および分析音素のサンプルのサーチインデックスのカウンタの和により指標づけされた、出力信号のノゞツファメモリへ計算された値を漸進的に加える。現在の出力カウンタはその後合成周期の値だけ増分される。

無声音（有声化されない）無声音音素について、擬似周期の値（２つの有声化マーク間の距離）は決して修正されず、音素の中央における擬似周期の除去は単に後者の持続時間を低減するということ以外に、処理は先行するものと同様である。

「サイレンス」音素の中間で０を加えること以外に、無声音素の持続時間は増加されない。

ウィンドウィングは信号に印加されるウィンドウの値の和を標準化するための各周期について果たせられ、先行する周期の初めから先行する周期の終りまで、表にされたウィンドウを読出すときの前進ステップが（５００点以上のタビュレーションの場合に）先行する周期の持続時間の２倍により除算される５００に等しく、現在の周期の初めから現在の周期の終りまで、表にされたウィンドウの前進ステップは現在の周期の持続時間の２倍により除算される５００プラス２５０点の２定シフトに等しい。

合成音素の信号の計算が終わると、計算ユニットはバッファメモリ２８における分析および合成音素の最後の周期を記憶し、それは音素間の可能な遷移をなす。

現在の出力サンプルカウンタは最後の合成周期の値だけ減分される。

そのように発生された信号は、２０４８のサンプルのブロックにより、計算ユニットとＤ／Ａコンバータ３２の制御器３０との間の通信に予約された２つのメモリスペースの１つに送られる。第１のブロックが第１のバッファゾーンにロードされるとすぐ、制御器３０は計算ユニットにより可能化され、この第１のバッファゾーンを空にする。その間に計算ユニットは第２のバッファゾーンを２０４８のサンプルで充填する。計算ユニットはその後代替的に、音素の合成の各シーケンスの終りでディジタル合成信号をそれにロードするためのフラグによって、これら２つのバッファゾーンをテストする。各バッファゾーンを読出す最後で制御器３０は対応するフラグを設定する。合成の終りで、制御器は最後のバッファゾーンを空にし、通信ボート２２を介してホストコンピュータが読出すかもしれない合成の終りフラグを設定する。

第４八図ないし第４Ｃ図に図解される有声の音声信号スペクトルの分析および合成の例は、ディジタル音声信号の時間における変形は合成信号のエンベロープに影響せず、同時に調波、すなわち音声信号の基本周波数間の距離を修正するということを示す。

計算の複雑さは低いままであり、サンプル当りの演算の数は平均して分析により供給される基本関数に重みをっけ合計するための２つの乗算および２つの加算である。

この発明の多数の修正された実施例が可能であり、特に上に述べられたように、第６図に図示されたように、恐らく固定された大きさの、２つの周期より大きい幅のウィンドウは満足な結果を与えるかもしれない。

シフオンによる合成へのそれの応用以外にディジタル音声信号に関する基本周波数を修正するプロセスを使用することはまた可能である。

浄書（内容に変更なし） ′１−基座用液牧。瓜゛父　ゾ手続補正書坊式）

Claims

【特許請求の範囲】

１．音エレメント（ワード、音節、ジフォン、…）からの音声合成のプロセスであって、ウィンドウの端縁で０まで減少する振幅を有するウィンドウをフィルタリングすることにより声帯の興奮への声帯の各パルス応答の初めで実質上センタリングされたウインドウィングにより、少なくとも音エレメントの有声音について分析が実行され、それの幅は最初の基本周期の２倍または基本の合成周期の２倍に少なくとも等しく、各音エレメントに対応するウインドウィングから結果として生じる信号は基本合成周期に等しいそれの時間シフトと置換され、それは基本合成周波数に関連する韻律素の情報に応答する最初の基本周期より小さく、または大きく、そのようにシフトされた信号を合計することにより合成が実行されることを特徴とするプロセス。
２．たとえばジフォンである音エレメントの辞書が形成され、合成されるテキストはマイクロフレームに細分され各々が対応する音エレメント（ジフォン）の連続番号およびエレメントの初めの、および終りの基本周波数の値により、およびエレメントの持続時間により少なくとも形成される少なくとも１つの韻律素情報により識別されることを特徴とする、請求項１に記載の音声合成プロセス。
３．ウィンドウの幅が基本周波数の減少の場合の最初の周期の２倍または基本周波数の増加の場合の最終の合成周期の２倍に等しいことを特徴とする、請求項１または請求項２の１つに記載の音声合成プロセス。
４．ウィンドウがハニングウィンドウであることを特徴とする、請求項１ないし請求項３の１つに記載の音声合成プロセス。
５．それがバス（１８、２０）に接続された、計算マイクロプログラム、辞書記述子（１２）のアドレスの順序に記憶されたサンプルにより表わされる波形から形成されるジフォンの辞書（１０）、およびサンプリングされたハニングウィンドウを含むメインランダムアクセスメモリ（１６）を含み、前記ランダムアクセスメモリ（１６）はまたマイクロフレームメモリおよびワーキングメモリを形成し、ローカル計算ユニット（２４）および経路選択回路（２６）は出力バッファとして役立つランダムアクセスメモリ（２８）を計算ユニットか、または音声増幅器（３６）を駆動する低域フィルタ（３４）を駆動する出力ディジタル／アナログコンバータ（３２）の制御器（３０）へ接続するのを可能にすることを特徴とする、請求項１に記載のプロセスを実施するための音声合成装置。