JP4112613B2

JP4112613B2 - 波形言語合成

Info

Publication number: JP4112613B2
Application number: JP53079896A
Authority: JP
Inventors: アンドリューロウリー、
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-04-12
Filing date: 1996-04-03
Publication date: 2008-07-02
Anticipated expiration: 2016-04-03
Also published as: HK1008599A1; DE69615832T2; JPH11503535A; MX9707759A; AU707489B2; DE69615832D1; NO974701L; US6067519A; CA2189666C; NZ304418A; CN1145926C; AU5159696A; CA2189666A1; CN1181149A; NO974701D0; EP0820626B1; WO1996032711A1; EP0820626A1

Description

この発明は言語合成（スピーチ・シンセシス）に係り、とくにディジタイズされた波形の記憶されたセグメントが検索されて組合されるようにする言語合成に関する。
言語合成器でディジタイズした波形の記憶したセグメントを検索して組合せるものの例は、Tomohisa Hirokawa他の文献（“High Quality Speech Synthesis System Based on Waveform Concatenation of Phoneme Segment”、IEICE Transactions on Fundamentals of Electronics、Communications and Computer Sciences 76a、1993年11月、No.11）の論文に記述されている。
この発明によると、言語合成方法が提供され、その構成は：第１の所望言語波形に対応するディジタルサンプルの第１のシーケンスとその波形の励起瞬間を定義する第１のピッチデータとを検索する段階と；
第２の所望言語波形に対応するディジタルサンプルの第２のシーケンスとこの第２の波形の励起瞬間を定義する第２のピッチデータとを検索する段階と；
少くとも１つのシーケンスから拡張シーケンスを合成することによってオーバーラップを形成して、拡張シーケンスがそれぞれの他のシーケンスの励起瞬間が同期するようにする調整されるようにする段階と；
もとのシーケンスのサンプルと拡張シーケンスのサンプルとの重み付け和をオーバーラップ領域のために形成する段階；とから成る。
この発明を別な観点からとらえると、言語合成用装置が提供され、その構成は：
言語波形の部分に対応するディジタルサンプルのシーケンスとこれら波形の励起瞬間とを定義するピッチデータとを記憶する手段と；
この記憶手段１から言語波形の所望部分に対応するディジタルサンプルのシーケンスとこの波形の励起瞬間を定義する対応するピッチデータとを検索するために制御可能な制御手段と；
検索されたシーケンスを結合するための手段であって、この結合用手段は動作時に、（ａ）１対の検索されたシーケンスの少くとも第１のものからその対の他のシーケンスとともにオーバーラップ範囲にまで、そのシーケンスを拡張するために拡張シーケンスを合成して、この拡張シーケンスが他のシーケンスの励起瞬間と同期するようにピッチ調整がされ、かつ（ｂ）このオーバーラップ範囲に対してもとのシーケンスのサンプルと拡張シーケンスのサンプルとの重み付け和を形成するように、されている結合用手段とから成る。
この発明の他の特徴は従属する請求項で規定されている。
この発明の若干の実施態様を添付の図面を参照して例として記述していく。
図１はこの発明による言語合成器の一形式の構成図である。
図２は図１の装置の結合部５の動作を示す流れ図である。
図３ないし９は結合部５の動作を示す波形図である。
図１の言語合成器では、メモリ１は言語のディジタイズした一節から生成された言語波形部を含んでいて、この言語の一節は人間の話者があらゆる可能性をもつ異なる音を含むか、少くとも異なる音の幅広い選択を含むように選んだ（おそらくは２００の文章の）一節を読んだものからもともとは記録されたものである。こうして波形メモリ１内への各エントリイは１又は複数の音素に対応する言語の一部のディジタルサンプルと、音素間の境界を示すマーカー情報とを備えている。各部分に付随して、“ピッチマーク”を定義するデータが記憶されており、これは信号内の声門閉鎖(glottal closure）の点を表わしており、もとの記録の際に普通のやり方で生成されるものである。
合成すべき言語を表わす入力信号は、音声学上の表現形式で入力２へ送られる。この入力は望むならば通常の手段（図示せず）によるテキスト（文書）入力から生成されてもよい。この入力は選択部３によって既知の方法で処理され、そこで入力の各ユニットに対してそのユニットによって表わされる音に対応する記憶された波形部分のメモリ１内のアドレスを決める。このユニットは、上述のように、音素でも、ジフォーン（２音）、トライフォーン（３音）でも、あるいは他のサブワード(sub-word)ユニットでもよく、また一般的にはユニットの長さは対応する波形部分の波形メモリ内での利用可能性に従って変えられる。可能な場合には、１つの音素によって先行するユニットが重なる（オーバーラップする）ようなユニットを選ぶのが好ましい。これを達成する手段は出願人が出願中の国際出願番号ＰＣＴ／ＧＢ／９４０１６８８と米合衆国特許出願番号１６６,９８８、１９９３年１２月１６日付に記述されている。
これらのユニットは一度読出されると、各々が個々に振幅正規化処理を振幅調節部４で受けることになり、ここでの動作はわれわれの未決欧州特許出願番号９５３０１４７８．４に記述されている。
これらユニットは次に５で一緒に結合させる。この装置の動作のための流れ図が図２に示されている。この記述では、ユニットとそれに続くユニットとがそれぞれ左ユニットと右ユニットと呼ばれている。ユニットがオーバーラップするとき、すなわち、左ユニットの最後の音素と右ユニットの最初の音素とが同じ音を表わし、かつ最終出力で一個の音素だけを形成するときは、余分な情報を削除してから“併合(merge）”式結合を作り；そうでなければ“隣接(abut)”式結合が適当となる。
図２の段階１０では、ユニットが受けられて、併合の型式に従って（段階１１）切落し（トランケーション）が必要か不必要かになる。段階１２では、対応するピッチアレイが切落される；左ユニットに対応するアレイでは、そのアレイは第１のピッチマークの後に最終の音素の中間点の右まで切られて、中間点後のピッチマークは１つを残してすべてが削除され、また右ユニットに対するアレイでは最終ピッチマークの前の第１の音素の中間点の左まで切られて、中間点前のピッチマークが１つを残して削除される。これが図３に示されている。
先に進む前に、結合の各側部にある音素は各音素のピッチマークの存在と位置とに基づいて、有声か無声かに分類されることを要する。これは“ピッチ切断（カッテング）”段階後に行なわれるので（段階１３）、有声の判断は何がしかのピッチマークの可能な除去後の各音素の状態を反映していることに留意したい。音素は次の場合に有声に分類される：
１．ピッチアレイの対応する部分が２以上のピッチマークを含む場合、
２．結合に一番近い２つのピッチマーク間の時間差がしきい値より小さい場合、
３ａ．併合式結合に対しては、結合に一番近いピッチマークとその音素の中間点との時間差がしきい値より小さい場合、または、
３ｂ．隣接式結合に対しては、結合に一番近いピッチマークと左ユニットの終り（又は右ユニットの始め）との間の時間差がしきい値より小さい場合である。その他の場合は無声と分類される。
３ａと３ｂの規則は次の段階での言語サンプルの過剰な損失を回避するように設計されている。
併合式結合の場合には（段階１４）、言語サンプルは有声音素から削除され（段階１５）、次のようにされる：
左ユニット、最終の音素―最終ピッチマークに続くすべてのサンプルを削除する；
右ユニット、最初の音素―第１のピッチマークの前のすべてのサンプルを削除する；
また、無声音素からは音素の中間点の右又は左までのすべてのサンプルを削除することによる（それぞれ左と右のユニットに対して）。
隣接式結合の場合には（段階１６、１５）、無声音素は除去されるサンプルはなく、他方で有声サンプルは普通は併合式の場合と同じように取扱われるが、何もピッチマークが全く削除されないときにより僅かなサンプルが失なわれる。これがサンプルの過剰な数（例えば２０ｍｓを超えて）の損失を生じさせることになる場合には、サンプルは一切除去されれず、音素は別な処理では無声として取扱われるようにマークが付けられる。
図４は有声音素からのサンプル除去を示している。ピッチマーク位置は矢印で示されている。図示された波形は単なる例であって、実際の言語波形の典型でないことに留意すべきである。
２つの音素を結合するために用いられる手順はオーバーラップ−アド（重ねて加える）プロセスである。しかし、両方の音素が有声である（有声結合）か、一方または両方が無声である（無声結合）か（段階１７）によって別の手順を使用する。
有声結合（段階１８）を先ず記述する。これは次のような基本的な段階を含んでいる：既存の波形の部分をコピーすることによって音素の拡張を合成すること、ただし結合されることになる相手の他の音素に対応するピッチ期間を用いる。しかしながら、これは整合用ピッチマークをもつオーバーラップ領域を生成する（あるいは、併合式結合の場合には再び生成される）。サンプルは次に重み付け加算を受けて（段階１９）、結合全体で滑らかな遷移（トランジション）を生成する。オーバーラップは左音素又は右音素の拡張によって生成できるが、好ましい方法は左と右の音素が両方とも拡張することであり、次のようにされる。もっと詳細は：
１．ハニング(Hanning）窓を用いて、合成のために既存波形の１セグメントが選ばれる。この窓の長さは左ユニットの最後の２ピッチ期間と右ユニットの最初の２ピッチ期間とを眺めて、これら４つの値の最小のものを見つけることにより選ばれる。結合の両側で使用する窓の幅はこの値の２倍に設定される。
２．窓期間に対するソースサンプルで、左ユニットの終りから２番目のピッチマーク又は右ユニットの第２のものに中心を置くものは、図５に示すように、抽出されてハニング窓関数により乗算される。他の音素ピッチマークと同期した位置における、シフトしたバージョンが加えられて合成した波形拡張が作られる。これが図７に示されている。左ユニットの最終ピッチ期間は窓関数の半分で乗算され、シフトされ、窓がけをしたセグメントが最終のもとのピッチマーク位置また右ユニットの継続するピッチマーク位置で重ね加算がされる。同様のプロセスが右ユニットに対しても行なわれる。
３．結果として生じたオーバーラップした音素が次に併合される；各々は図７に示すように２つの合成した部分の全長に等しい長さをもつハニング窓の半分で乗算され、その２つが一緒に加算される（左ユニットの最後のピッチマークは右の最初のピッチマークと整列している）；結果として生じた波形は、図８で示すように左音素の波形から右の波形への滑らかな遷移を示すようにしなければならない。
４．合成と併合プロセスのためのオーバーラップ（重なり）のピッチ期間の数は次のように決まる。オーバーラップは次の条件の１つが発生するまで他の音素の時間内に延長される。
（ａ）音素の境界に到達する、
（ｂ）ピッチ期間が所定の最大値を超える、
（ｃ）オーバーラップが所定の最大値に到達する（例えば５ピッチ期間）。
しかしもし条件（ａ）が所定の最小値（例えば３）未満となるピッチ期間数内で生じるときは、さらに１つの追加ピッチ期間を許容するように緩めてもよい。
無声結合は、段階２０で単に２つのユニットを時間的にシフトして、オーバーラップ領域を生成し、段階２１では図９に示されているようにハニング重み付け重ね加算を用いることによって行われる。オーバーラップしている継続時間として選ばれたものは、もし音素の１つが有声であれば、結合での有声ピッチ期間の継続時間であり、あるいはいずれもが無声であれば、固定値（典型例は５ｍｓ）である。しかしながら（隣接に対する）オーバーラップは２つの音素の短い方の長さの半分を超えてはならない。オーバーラップ領域のピッチマークは削除する。併合のために切落しされていれば残った長さの半分を超えてはならない。隣接式結合に対しては、２つの音素間の境界が後の処理のために考慮して、オーバーラップ範囲（領域）の中間点に来るようにする。
無論、オーバーラップを生成するこのシフト方法は言語の継続時間を短縮する。これは、併合結合の場合には、サンプルを削除するときに、中間点ではなく僅かに片側によったところで“切落し”て、音素がその（もとの）中間点として整列したものをもっているときにオーバーラップが生ずるようにすると短縮を回避できる。
記述した方法は好結果を生ずる；しかし、ピッチマークと記憶した言語波形との間の位相は、ピッチマークがどのように生成されたかに依って変えることができる。したがって、ピッチマークが結合で同期しているとしても、これは結合をまたいでの連続波形を保証していない。それだから、右ユニットのサンプルは（もし必要であれば）そのピッチマークに対して選ばれた量だけシフトされていて、オーバーラップ範囲内で２つのユニット間の相互相関が最大となるようにするのが好ましい。これはオーバーラップ範囲内で２つの波形間の相互相関を異なる試行シフト（例えば１２５μｓの段階で±３ｍｓ）で計算することにより実施できる。一度これがされると、右ユニットの拡張に対する合成が繰返されることになる。
結合後には、全体のピッチ調節が通常の方法でされることが図１の６に示されている。
結合部５は実際には、ディジタル処理部と上述の段階を実施する一連のプログラム命令を含むメモリとによって実現できる。

Claims

言語合成の方法であって、
第１の所望言語波形に対応するディジタルサンプルの第１のシーケンスとその波形の励起瞬間を定義する第１のピッチデータとを記憶装置から検索する段階と、
第２の所望言語波形に対応するディジタルサンプルの第２のシーケンスとその波形の励起瞬間を定義する第２のピッチデータとを記憶装置から検索する段階と、
前記検索された第1のシーケンスの終わりを前記検索された第２のシーケンスの始めに結合する段階とを含み、前記結合する段階は、
前記第１のシーケンスの終わりの波形と同じ波形を前記第１のシーケンスの終わりに付加してなる拡張シーケンスを、前記第２のシーケンスの始めの波形にオーバーラップするか、
または前記第２のシーケンスの始めの波形と同じ波形を前記第２のシーケンスの始めに付加してなる拡張シーケンスを、前記第１のシーケンスの終わりの波形にオーバーラップするか、
あるいは、前記第１のシーケンスの終わりの波形と同じ波形を前記第１のシーケンスの終わりに付加してなる拡張シーケンスを、前記第２のシーケンスの始めの波形と同じ波形を前記第２のシーケンスの始めに付加してなる拡張シーケンスとオーバーラップするかのいずれかを行うことと、
前記オーバーラップされたシーケンスの各励起瞬間が互いに同期するように調整することと、
前記オーバーラップされたシーケンスの各サンプルの重み付け和を形成することとを含む方法。
言語合成の方法であって、
第１の所望言語波形に対応するディジタルサンプルの第１のシーケンスとその波形の励起瞬間を定義する第１のピッチデータとを記憶装置から検索する段階と、
第２の所望言語波形に対応するディジタルサンプルの第２のシーケンスとその波形の励起瞬間を定義する第２のピッチデータとを記憶装置から検索する段階と、
前記検索された第1のシーケンスの終わりを前記検索された第２のシーケンスの始めに結合する段階とを含み、前記結合する段階は、
前記第１のシーケンスの終わりの波形と同じ波形を前記第１のシーケンスの終わりに付加してなる第１の拡張シーケンスを、前記第２のシーケンスの始めの波形にオーバーラップして、オーバーラップされた両シーケンスの各励起瞬間が互いに同期するように調整することと、
前記第２のシーケンスの始めの波形と同じ波形を前記第２のシーケンスの始めに付加してなる第２の拡張シーケンスを、前記第１のシーケンスの終わりの波形にオーバーラップし、オーバーラップされた両シーケンスの各励起瞬間が互いに同期するように調整することと、
オーバーラップされた前記第１の拡張シーケンスおよび第２のシーケンスの各サンプルの重み付け和と、オーバーラップされた前記第２の拡張シーケンスおよび第１のシーケンスの各サンプルの重み付け和とを形成こととを含む方法。
前記第１のシーケンスはその終りに特定の音に対応する部分を有し、また前記第２のシーケンスはその始めに同じ音に対応する部分を有し、かつ結合前には、前記第１のシーケンスの前記終りの部分と前記第２のシーケンスの前記始めの部分から幾つかのサンプルを除去する段階を含む請求項２記載の方法。
前記オーバーラップすることは、オーバーラップされる前記シーケンスの一方からサンプルのサブシーケンスを抽出し、窓関数によってサブシーケンスを乗算し、乗算されたサブシーケンスに前記オーバーラップされる他方のシーケンスの励起瞬間に対応するシフトを繰返し加えることを含む請求項１、２、又は３の何れか１項記載の方法。
言語合成用装置であって、
言語波形の部分に対応するディジタルサンプルのシーケンスとこれら波形の励起瞬間を定義するピッチデータとを記憶する記憶手段（１）と、
言語波形の所望部分に対応するディジタルサンプルと該波形の励起瞬間を定義する対応するピッチデータとを該記憶手段（１）から検索するように制御できる制御手段（２）と、
検索したシーケンスを結合するための結合用手段（５）とで成り、該結合用手段が動作時に、
（ａ）前記記憶手段から第１のシーケンスおよび第２のシーケンスを検索し、
（ｂ）第１のシーケンスの終わりの波形と同じ波形を前記第１のシーケンスの終わりに付加してなる拡張シーケンスを、前記第２のシーケンスの始めの波形にオーバーラップするか、
または前記第２のシーケンスの始めの波形と同じ波形を前記第２のシーケンスの始めに付加してなる拡張シーケンスを、前記第１のシーケンスの終わりの波形にオーバーラップするか、
あるいは、前記第１のシーケンスの終わりの波形と同じ波形を前記第１のシーケンスの終わりに付加してなる拡張シーケンスを、前記第２のシーケンスの始めの波形と同じ波形を前記第２のシーケンスの始めに付加してなる拡張シーケンスとオーバーラップするかのいずれかを行い、
（ｃ）前記オーバーラップされたシーケンスの各励起瞬間が互いに同期するように調整し、
（ｄ）前記オーバーラップされたシーケンスの各サンプルの重み付け和を形成するようにされている言語合成用装置。