JP4214842B2

JP4214842B2 - 音声合成装置及び音声合成方法

Info

Publication number: JP4214842B2
Application number: JP2003169988A
Authority: JP
Inventors: 信英山崎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-06-13
Filing date: 2003-06-13
Publication date: 2009-01-28
Anticipated expiration: 2023-06-13
Also published as: US20050010414A1; US7596497B2; JP2005004103A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば文字列又は音素記号列から音声を合成する音声合成装置及び音声合成に関し、特にピッチ波形を重畳して音声を合成する音声合成装置及び音声合成方法に関する。
【０００２】
【従来の技術】
従来、パラメータ型の音声合成装置においては、合成する音声のスペクトル包絡特性を、自然音声のスペクトル包絡特性にどの程度似せて表現できるかが音声の品質に大きな影響を与えることが知られている。従来、このようなパラメータ型の音声合成方式がいくつか提案されており、例えば下記非特許文献１に、音声のフォルマントを２次程度の全極フィルタで表現し、これらのフィルタを直列又は並列に接続することでスペクトル全体の包絡特性を表現するフォルマント合成方式が記載されている。
【０００３】
また、線形予測モデルに基づいたパラメータを使用する線形予測分析法（linear predictive cording：ＬＰＣ）、ＬＳＰ（線スペクトル対：line spectrum pair）、及びＰＡＲＣＯＲ（部分自己相関又は偏自己相関：partial auto-correlation coefficient）等の各種の線形予測型のフィルタを用いたパラメータ合成方式があり、ＬＳＰパラメータを使った方式が例えば下記非特許文献２に記載されている。
【０００４】
【非特許文献１】
クラット，Ｄ.Ｈ.，「カスケード／パラレルフォーマットシンセサイザのソフトウェア」（Klatt,D.H.“Software for a cascade/parallel formant synthesizer”），ジャーナル・オブ・ザ・アコウスティカル・ソサエティ・オブ・アメリカ（Journal of the Acoustical Society of America），１９８０年３月，第６７巻，３号，ｐ．９７１−９９５
【非特許文献２】
古井貞おき著，「ディジタル音声処理」，東海大学出版，ｐ８９−９８
【０００５】
【発明が解決しようとする課題】
しかしながら、これらのフォルマント合成及び線形予測系の合成方式は、基本的に全極モデルであり、通常、Ｚ平面上でみると、１つのフォルマントは１つのゼロ点で表現されているにすぎない。図９（ａ）及び（ｂ）は、縦軸に振幅をとり、横軸に周波数をとって、２次の全極型フィルタの特性を示すグラフ図である。Ｙ_ｉ＝ａＸ_ｉ＋ｂＹ_ｉ−１＋ｃＹ_ｉ−２（Ｘ：入力信号、Ｙ：出力信号）に示されるような全極型フィルタの周波数特性の特徴としては、図９（ａ）に示すようなフォルマントの帯域幅ｗや、中心周波数ｆｃをそれぞれ独立に制御することができないという点がある。即ち、帯域幅ｗ又は中心周波数ｆｃの個々の変更により、スペクトル特性の形状自体も大きく変化してしまう。例えば図９（ｂ）に示すように、帯域を狭くすると、ピーク付近の形状が鋭角状に変化する。従って、フォルマントの帯域幅を狭くしようとすると、フォルマント周波数のごく一部分が特に強調された音になってしまう。このように全極型フィルタを用いた方法ではパラメータの調整が非常にクリティカルで所望の周波数特性を得ることが難しいという問題点がある。
【０００６】
また、サイドローブがなだらかであるために、１つのフォルマントを表現するパラメータを変更すると、当該フォルマントの前後に存在する他のフォルマントの周波数領域の形状にも影響を与えてしまうなどの個々のパラメータが個々のフォルマントを独立に制御できないという問題があった。
【０００７】
本発明は、このような従来の実情に鑑みて提案されたものであり、所望のフォルマント形状とした波形を少ない計算量で生成することができる音声合成装置及び方法を提供することを目的とする。
【０００８】
【課題を解決するための手段】
本発明に係る音声合成装置は、各フォルマントに対応した１ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成手段と、上記各フォルマント対応ピッチ波形を加算して１ピッチ波形を生成する１ピッチ波形生成手段と、上記１ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳手段とを有し、上記波形生成手段は、帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段と、上記バンド特性波形記憶手段に記憶された上記バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出手段と、正弦波を出力する正弦波出力手段と、上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算手段と、上記乗算手段により乗算された波形のゲインを上記バンド特性波形の帯域幅と上記対応するフォルマントの帯域幅との比に基づき調整するゲイン調整手段とを有することを特徴とする。
【０００９】
本発明においては、波形生成手段により、上記バンド特性波形を、例えばバンド特性波形の帯域幅と、対応するフォルマントの帯域幅とに基づく読み出し間隔等、所望の読み出し間隔で読み出し、１ピッチ分の波形となるよう時間伸張したバンド特性読み出し波形を少ない計算量で容易に生成することができ、このバンド特性読み出し波形と正弦波とを乗算することにより各フォルマントに対応して生成されたフォルマント対応ピッチ波形を乗算して１ピッチ波形を生成し、これを重畳することで音声を合成することができる。
【００１０】
また、上記正弦波出力手段は、正弦波が記憶された正弦波記憶手段と、該正弦波記憶手段に記憶された該正弦波を所望の周波数の正弦波として読み出す正弦波読出手段とを有することにより、処理を高速化する。
【００１１】
更に、上記１ピッチ波形生成手段は、上記フォルマント対応ピッチ波形の中心で位相を揃えて加算することができる。
【００１３】
また、上記バンド特性読み出し波形のピークと上記正弦波のピークとを重ねて乗算するか、上記バンド特性読波形が奇関数である場合、当該バンド特性読み出し波形の中心点と上記正弦波のゼロクロス点とを重ねて乗算する等、上記乗算手段は、上記バンド特性読み出し波形と上記正弦波との同期をとって乗算することができ、これにより、低い周波数の正弦波との乗算をする場合、ゲインの低下を防止することができる。
【００１４】
本発明に係る音声合成方法は、各フォルマントに対応した１ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成工程と、上記各フォルマント対応ピッチ波形を加算して１ピッチ波形を生成する１ピッチ波形生成工程と、上記１ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳工程とを有し、上記波形生成工程は、帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段から該バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出工程と、正弦波を出力する正弦波出力工程と、上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算工程と、上記乗算工程にて乗算された波形のゲインを上記バンド特性波形の帯域幅と上記対応するフォルマントの帯域幅との比に基づき調整するゲイン調整工程とを有することを特徴とする。
【００１５】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、フォルマントパラメータ（各フォルマントの帯域幅、中心周波数、ゲイン）から１ピッチ波形を生成し、これを重畳して音声を合成する規則音声合成装置に適用したものである。
【００１６】
図１は、本発明の実施の形態における規則音声合成装置の全体構成を示すブロック図である。図１に示すように、規則音声合成装置１は、音素列及び韻律情報を含んだ音声記号列Ｄが与えられる素片選択部２及び韻律生成部３と、素片選択部２に選択され出力された素片パラメータと韻律生成部３からの音韻時間長とに応じてパラメータの時系列を生成するパラメータ時系列生成部４と、このパラメータの時系列と韻律生成部３からのピッチ周期Ｐｆとにより合成音声波形を生成する波形生成部５とから構成される。
【００１７】
素片選択部２は、例えば比較的大量の合成単位を含んだ音声データベースの中から、統計的に接続歪みが少なくなるような比較的少ない数の音声素片のセットを選択する等して得られた音素系列（例えばＣＶＣ、ＶＣＶ、ＣＶ、ＶＣ等（Ｃ：子音、Ｖ：母音））と音響特徴パラメータとが対になったデータ（単位素片セット）が複数記憶されたメモリ６と接続され、音素列及び韻律情報を含んだ音声記号列Ｄに基づき、メモリ６に記憶された単位素片セットの中から適切な素片のパラメータを順次選択して出力する。
【００１８】
この素片選択部２の入力としての音素列は、例えばテキスト音声合成の形態素解析及び発音記号列生成処理を経て得られた発声を行う音素系列を示したデータである。そして、素片選択部２は、入力される音素列に基づいて単位素片セットを参照して、上記音素列に含まれる音素列を選択して、選択した音素列に対応する音響特徴パラメータ（例えばケプストラム係数等）を単位素片セットから読み出す。
【００１９】
韻律生成部３は、音声記号列Ｄから各音韻の時間長Ｔ及びピッチ周期Ｐｆを生成し、夫々パラメータ時系列生成部４及び波形生成部５に出力する。
【００２０】
パラメータ時系列生成部４では、韻律生成部３から音韻時間長Ｔを受取り、この音韻時間長Ｔに応じて素片選択部２から受取ったパラメータを伸縮しながらパラメータ時系列Ｄｔを生成して出力する。
【００２１】
波形生成部５では、パラメータ時系列生成部４から出力される刻々と変化するパラメータ時系列Ｄｔと韻律生成部３からのピッチ周期Ｐｆとに基づいて合成音声を生成し、スピーカ７に出力する。この波形生成部５には、各種の音声波形を生成するため、摩擦信号生成部、破裂音生成部及び有声音生成部等、複数種の音声波形の生成部が備えられ、これらの各種の信号を合成して合成波形が生成される。
【００２２】
以上の音声合成装置全体のブロック構成は一般的なものであり、ほかの既存の音声合成装置の構成をとることも可能である。また、波形生成部をのぞいたブロックの構成及び動作も一般的な音声合成装置のものを使用することができる。
【００２３】
次に、合成波形を生成する際、使用される各種の音声のうち、本発明の特徴となる波形生成部の内部構成について説明する。図２は、有声音の波形を生成する装置を示すブロック図である。図２に示すように、図１に示すような波形生成部に好適に使用される有声音生成部５ａは、ｎ個の単一フォルマント生成部１０_ｎと、これらの出力を加算して１ピッチ波形とする加算器１１と、この１ピッチ波形をバッファリングする１ピッチ波形バッファ部１２と、図１に示す韻律生成部３から供給されるピッチ周期Ｐｆに基づき波形を重畳する波形重畳部１３とから構成される。
【００２４】
各単一フォルマント生成部１０_ｎは、ある単一のフォルマントに対応する波形を生成するものであり、フォルマントの位置を示すフォルマントの中心周波数ｆｃｎ、フォルマントの帯域幅ｗｎ、フォルマントの大きさ（ゲイン）Ｇｎを示す３つのパラメータ（ｎは整数）を入力とし、１つのフォルマントの特性を表現する１ピッチの波形（フォルマント対応ピッチ波形）を出力する。例えば単一フォルマント生成部１０_１、１０_２及び１０_ｎにより、夫々図３（ａ）乃至（ｃ）に示すような１ピッチ分の波形となるフォルマント対応ピッチ波形ｐ１、ｐ２、ｐｎが出力される。
【００２５】
加算器１１では、それぞれの単一フォルマント生成部１０_ｎの出力であるフォルマント対応ピッチ波形を重ね合わせ複数のフォルマント特性を表現する例えば図３（ｄ）に示すような１ピッチ波形ＰＷを生成し、１ピッチ波形バッファ部１２に記憶させる。なお、図３（ａ）乃至（ｃ）に示すフォルマント対応ピッチ波形の長さＬ_１〜Ｌ_ｎは、１ピッチ波形の長さと等しくなくてもよく、各フォルマント対応ピッチ波形Ｌ_１〜Ｌ_ｎの長さが互いに同一でなくてもよいが、フォルマント対応ピッチ波形を加算して１ピッチ波形を生成する際は、各フォルマント対応ピッチ波形の中心位置で位相を合わせて加算する。また、生成された１ピッチ波形ＰＷの長さは、実際のピッチ（ピッチ周期間隔）Ｐより長いものとなっている。
【００２６】
波形重畳部１３では、指定されるピッチ周期Ｐｆだけずらしながら、上述のようにして生成された１ピッチ波形ＰＷを重畳し、各フォルマントの各パラメータで指定される周波数特性及びピッチ周期Ｐｆで指定される声の高さを有する合成音を出力する。
【００２７】
また、単一フォルマント生成部１０_ｎは、フォルマントのバンド特性が付与されたバンド特性波形が記憶されたバンド特性波形記憶部２１と、外部から指定される、対応するフォルマントの帯域幅ｗｎに応じた読み出し間隔で、バンド特性波形記憶部２１からバンド特性波形を読み出すバンド特性波形読出部２２と、外部から指定される対応するフォルマントの中心周波数ｆｃｎの正弦波を生成して出力する正弦波生成部２３と、バンド特性波形読出部２２から読み出されたバンド特性読み出し波形と周波数ｆｃｎの正弦波とを乗算する乗算器２４と、生成された波形のゲインを調整するゲイン調整部２５とにより構成される。
【００２８】
バンド特性波形記憶部２１は、所望のバンドパスの周波数特性としてフォルマントのバンド特性が付与され、周波数を低域のみに限定した時間領域の波形を、後述の方法等に従って作成された波形データとして記憶している。このテーブルのデータサイズ（サンプル数）は波形の始端及び終端の信号レベルが十分に減衰する長さが必要である。
【００２９】
バンド特性波形の長さＬ_０は、バンド特性波形の形状にもよるが、例えばサンプリング周波数を２２ＫＨｚとして、後述するバンド特性波形の帯域幅である基本帯域幅ｗ_０を１２Ｈｚとした場合、４０９６サンプル程度あればよい。上述の図３（ａ）乃至（ｃ）に示す各単一フォルマント生成部１０_ｎにおいて、バンド特性波形が時間伸張されて読み出されたバンド特性読み出し波形の長さＬ_ｎは、Ｌ_０×ｗｎ/ｗ_０の長さとなっている。
【００３０】
バンド特性波形読出部２２は、対応するフォルマントの帯域幅として外部から供給される帯域幅ｗｎに応じた間隔で、バンド特性波形記憶部２１から記憶されているバンド特性波形の値を逐次読み出す。そしてバンド特性波形が帯域幅ｗｎに応じた読み出し間隔で読み出されたバンド特性読み出し波形を出力する。正弦波生成部２３は、対応するフォルマントの中心周波数ｆｃｎとして外部から指定される周波数ｆｃｎの正弦波を出力する。乗算器２４は、バンド特性波形読出部２２の出力と正弦波生成部２３の出力との積算を行い出力する。ゲイン調整部２５は、対応するフォルマントに応じた値として外部から指定される信号強度（ゲイン）Ｇｎと帯域幅ｗｎとにより、各フォルマントに応じて入力信号の音量を調整して出力する。
【００３１】
次に、図２に示す有声音生成部５ａの動作について説明する。バンド特性波形読出部２２には、読み出し位置（メモリのアドレス）と読み出し間隔とが保存されている。読み出し間隔は、バンド特性波形を作成したときの帯域幅［Ｈｚ］をｗ_０、外部から指定される帯域幅［Ｈｚ］をｗｎとすると、ｗｎ／ｗ_０に設定することができる。この値は通常小数となるため、読み出し間隔及び読み出し位置も小数で保存しておき、バンド特性波形記憶部２１から読み出す読み出し位置は小数を切り捨てた読み出し位置の値を読み出せばよい。例えば基本帯域幅ｗ_０を１５Ｈｚ、外部から指定される帯域幅ｗｎを２００Ｈｚとすると、読み出し間隔は、１３．３３となり、バンド特性波形記憶部２１から１３．３３個おきの読み出し位置から読み出すことになる。
【００３２】
これにより、バンド特性波形の長さＬ_０が１ピッチ分の時間長に応じて時間伸縮されたバンド特性読み出し波形が出力される。ここで、図３（ａ）乃至（ｃ）に示すように、バンド特性読み出し波形の長さＬ_ｎは、１ピッチ波形の時間長に等しくなくてもよい。
【００３３】
正弦波生成部２３は、対応するフォルマントの中心周波数ｆｃｎに等しい周波数の正弦波を逐次出力する。中心周波数ｆｃｎを可変とする場合は、外部から指定される周波数ｆｃｎに等しい周波数の正弦波を生成して出力すればよい。
【００３４】
そして、バンド特性波形読出部２２と、正弦波生成部２３との出力が乗算器２４によって乗算され、ゲイン調整部２５に与えられる。
【００３５】
ゲイン調整部２５では、乗算器２４の出力である入力信号をＧｎ×ｗｎ／ｗ_０倍して出力する。ここで、Ｇｎは外部から与えられる信号の強度であり、ｗｎ／ｗ_０は帯域幅を可変とするときのゲインの補正値を示す。
【００３６】
単一フォルマント生成部１０_ｎの出力は、バンド特性波形の形状を維持しており、従ってフォルマントの形状となるようなバンドパスの周波数特性を有し、対応するフォルマントの中心周波数ｆｃｎ、帯域幅ｗｎ、及びゲインＧｎに応じた１ピッチ分の波形であるフォルマント対応ピッチ波形となる。
【００３７】
このようにして生成された１ピッチ分の波形が、ピッチ波形生成部としての加算器１１にて加算されることで、各フォルマントに対応した特性が付与された１ピッチ波形が生成され、１ピッチ波形バッファ部１２にてバッファリングされる。この１ピッチ波形は、波形重畳部１３へ供給され、波形重畳部１３では、供給されるピッチ周期Ｐｆの間隔ずらしながら波形重畳法を用いて重畳されて出力される。
【００３８】
次に、バンド特性波形記憶部２１に記憶するバンド特性波形の生成方法について説明する。図４は、バンド特性波形の生成方法を示すフローチャートである。また、図５（ａ）乃至（ｃ）は、各工程における信号を示すグラフ図である。
【００３９】
先ず、対数スペクトル領域にフォルマントの形状の周波数特性を付与した信号を作成する（ステップＳＰ１）。但し、図５（ａ）に示すように、中心周波数が０Ｈｚとなるような周波数特性が得られるように高域成分を除去する必要がある。従って、ローパスフィルタのような特性になる。なお、この時の帯域幅がバンド特性波形の基本帯域幅ｗ_０である。
【００４０】
次に、この信号の位相を揃える。例えば図５（ｂ）に示すように、位相項を全て０にしてゼロ位相にすればよい（ステップＳＰ２）。
【００４１】
その後、指数化及び逆ＤＦＴ（discrete Fourier transform）（ＦＦＴ（fast Fourier transform））処理により、図５（ｃ）に示すように、周波数領域の信号を時間領域の波形に変換する（ステップＳＰ３）。こうして得られた波形をバンド特性波形としてバンド特性波形記憶部２１に記憶させる。
【００４２】
次に、単一フォルマント生成部の変形例について説明する。図２に示す単一フォルマント生成部１０_ｎは、図６に示す単一フォルマント生成部４０_ｎのように構成することもできる。即ち、単一フォルマント生成部１０_ｎにおける正弦波生成部２３は、正弦波記憶部３１及び正弦波読出部３２に置き換えることができる。この場合、フォルマントの中心周波数ｆｃｎは、正弦波読出部３２に供給される。正弦波記憶部３１にて予め作成された正弦波をテーブルに記憶しておき、正弦波読出部３２によって外部から指定される周波数ｆｃｎに応じた間隔で正弦波記憶部３２から正弦波の値を読み出す。
【００４３】
ここで、図２及び図６に示すバンド特性波形記憶部２１、並びに図６に示す正弦波記憶部３１は、波形生成部５の音声音生成部５ａにおいて、それぞれ１つずつ用意すればよく、各単一フォルマント生成部１０_ｎ又は単一フォルマント生成部４０_ｎとに共通とすることができる。
【００４４】
また、読み出し間隔ｗｎ／ｗ_０で読み出されたバンド特性読み出し波形と、正弦波とを乗算する際、同期をとる必要がある場合がある。図７（ａ）及び（ｂ）は、バンド特性読み出し波形と正弦波とを乗算する方法を説明するための図である。
【００４５】
バンド特性波形の位相をゼロにして作成すると、バンド特性波形の形状は、中心位置ｔ_０をピークにした対称波形となる。このようなバンド特性波形をバンド特性波形読出部により読み出すと、指定された帯域幅ｗｎに応じて時間伸縮されたバンド特性読み出し波形が出力され、バンド特性読み出し波形の長さは上述したようにＬ_ｎとなる。このようなバンド特性読み出し波形と、周波数ｆｃｎの正弦波とを乗算する際、正弦波の周波数として与えられる中心周波数ｆｃｎが低く、その周期がバンド特性読み出し波形の長さＬ_ｎに近くなると、乗算して出力される１ピッチ分の波形のエネルギが正弦波の位相によって大きく変化してしまう。
【００４６】
例えば、図７（ａ）に示すように、バンド特性波形のピーク位置と、正弦波のゼロクロスの位置とが重なったときには、乗算後の１ピッチ分の波形のエネルギが低くなってしまう。そこで、図７（ｂ）に示すように、これを防ぐために常に正弦波のピーク位置（位相がπ／２の位置）とバンド特性波形のピーク位置とが重なるようして乗算する。なお、中心周波数ｆｃｎが高く正弦波の周期が短い場合には影響はほとんどなく、同期をとる必要はない。
【００４７】
また、上述の実施の形態においては、バンド特性波形を生成する際、位相を全て０にして生成するものとしたが、バンド特性波形を作成するときに、例えば位相の値を全てπ／２に設定しておいてもよい。図８（ａ）乃至（ｃ）は、バンド特性波形の生成方法の他の例を示すグラフ図である。図５（ａ）と同様にバンド特性を付与した後、図８（ｂ）に示すように位相をπ／２にする。そして逆フーリエ変換して時間領域の信号に変換すると、図８（ｃ）に示すような奇関数の波形が生成される。これをバンド特性波形として、バンド特性波形記憶部２１に記憶させておいてもよい。
【００４８】
この場合、バンド特性読み出し波形と正弦波とを同期をとって乗算するときは、読み出し間隔ｗｎ／ｗ_０で読み出したバンド特性波形の中心位置ｔ_０と正弦波のゼロクロスの位置とが一致する位置で乗算するようにすればよい。
【００４９】
このように構成された本実施の形態における音声合成装置においては、各単一のフォルマントに対応した１ピッチ分の波形を生成する各フォルマントに対応するフォルマント生成部１０_ｎを有している。このフォルマント生成部１０_ｎは、所望のフォルマントの形状とされた時間波形であるバンド特性波形を予め記憶しており、記憶したバンド特性波形を対応するフォルマントの帯域幅ｗｎに応じた読み出し間隔で読み出す。そして、このバンド特性読み出し波形と、フォルマントの中心周波数ｆｃｎに等しい正弦波とを乗算することで、単一のフォルマントの１ピッチ分のフォルマント対応ピッチ波形を生成し、フォルマントの個数分、このフォルマント対応ピッチ波形を重ね合わせることにより、フォルマントパラメータ（ｗｎ、ｆｃｎ、Ｇｎ）から１ピッチ波形を生成することができる。このように、バンド特性波形の読み出し間隔を可変にすることでバンド特性を維持したまま所望の時間長のバンド特性読み出し波形を容易に生成することができる。また単一のフォルマントに対応する１ピッチ分の波形を生成するため、周波数ｆｃｎ、帯域幅ｗｎ等を変更しても他のフォルマントに影響することなく１ピッチ分の波形を生成することができる。これらのことにより、極めて少ない処理量で、各フォルマントを独立に制御し、所望のフォルマントの特性としたピッチ波形を重畳して音声を合成することができる。
【００５０】
また、バンド特性読み出し波形と乗算する正弦波のデータを、予めテーブル化して記憶しておくことで、処理の高速化を図ることができる。
【００５１】
更に、バンド特性読み出し波形と正弦波とを乗算するときに同期をとることによって、フォルマント周波数が低くなったときのゲインの低下を防ぐことができ、パラメータに忠実な特性の音声を合成することができる。
【００５２】
【発明の効果】
以上詳細に説明したように本発明に係る音声合成装置は、各フォルマントに対応した１ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成手段と、上記各フォルマント対応ピッチ波形を加算して１ピッチ波形を生成する１ピッチ波形生成手段と、上記１ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳手段とを有し、上記波形生成手段は、帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段と、上記バンド特性波形記憶手段に記憶された上記バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出手段と、正弦波を出力する正弦波出力手段と、上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算手段とを有するのでバンド特性波形の読み出し間隔を異ならせることで、１ピッチ分の波形となるよう時間伸張したバンド特性読み出し波形を少ない計算量で容易に生成することができ、従って、少ない処理量で所望のフォルマント形状を有する１ピッチ波形を生成して音声を合成することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態における規則音声合成装置の全体構成を示すブロック図である。
【図２】本発明の実施の形態における規則音声合成装置の有声音の波形を生成する有声音生成部を示すブロック図である。
【図３】（ａ）乃至（ｃ）は、各フォルマント生成部にて生成された波形を示すグラフ図、（ｄ）は、ピッチ波形生成部としての加算器により加算されて生成された１ピッチ波形を示すグラフ図である。
【図４】図２に示す有声音生成部にて使用されるバンド特性波形の生成方法を示すフローチャートである。
【図５】（ａ）乃至（ｃ）は、バンド特性波形の生成工程にて生成される信号を示すグラフ図である。
【図６】本発明の実施の形態における単一フォルマント生成部の変形例を示すブロック図である。
【図７】（ａ）及び（ｂ）は、バンド特性波形と正弦波とを乗算するときの同期を説明するための図である。
【図８】（ａ）乃至（ｃ）は、バンド特性波形の他の生成工程にて生成される信号を示すグラフ図である。
【図９】（ａ）及び（ｂ）は、縦軸に振幅をとり、横軸に周波数をとって、従来の２次の全極型フィルタの特性を示すグラフ図である。
【符号の説明】
１規則音声合成装置、２素片選択部、３韻律生成部、４パラメータ時系生成部、５波形生成部、６メモリ、７マイク、５ａ有声音生成部、１０_ｎ，４０_ｎフォルマント生成部、１１加算器、１２１ピッチ波形バッファ部、１３波形重畳部、２１バンド特性波形記憶部、２２バンド特性波形読出部、２３正弦波生成部、２４乗算器、２５ゲイン調整部、３１正弦波記憶部、３２正弦波読出部

Claims

各フォルマントに対応した１ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成手段と、
上記各フォルマント対応ピッチ波形を加算して１ピッチ波形を生成する１ピッチ波形生成手段と、
上記１ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳手段とを有し、
上記波形生成手段は、
帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段と、
上記バンド特性波形記憶手段に記憶された上記バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出手段と、
正弦波を出力する正弦波出力手段と、
上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算手段と、
上記乗算手段により乗算された波形のゲインを上記バンド特性波形の帯域幅と上記対応するフォルマントの帯域幅との比に基づき調整するゲイン調整手段と
を有することを特徴とする音声合成装置。
上記正弦波出力手段は、正弦波が記憶された正弦波記憶手段と、該正弦波記憶手段に記憶された該正弦波を所望の周波数の正弦波として読み出す正弦波読出手段とを有することを特徴とする請求項１記載の音声合成装置。
上記１ピッチ波形生成手段は、上記フォルマント対応ピッチ波形の中心で位相を揃えて加算することを特徴とする請求項１記載の音声合成装置。
上記バンド特性波形記憶手段は、所望のバンドパスの周波数特性としてフォルマントのバンド特性が付与され、周波数を低域のみに限定した時間領域の波形を波形データとしてテーブルに記憶しており、このテーブルのデータサイズは波形の始端及び終端の信号レベルが十分に減衰する長さであることを特徴とする請求項１記載の音声合成装置。
上記乗算手段は、上記バンド特性読み出し波形と上記正弦波との同期をとって乗算することを特徴とする請求項１記載の音声合成装置。
上記バンド特性読み出し波形のピークと上記正弦波のピークとを重ねて乗算することを特徴とする請求項５記載の音声合成装置。
上記バンド特性波形が奇関数である場合、そのバンド特性読み出し波形の中心点と上記正弦波のゼロクロス点とを重ねて乗算することを特徴とする請求項５記載の音声合成装置。
各フォルマントに対応した１ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成工程と、
上記各フォルマント対応ピッチ波形を加算して１ピッチ波形を生成する１ピッチ波形生成工程と、
上記１ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳工程とを有し、
上記波形生成工程は、
帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段から該バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出工程と、
正弦波を出力する正弦波出力工程と、
上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算工程と、
上記乗算工程にて乗算された波形のゲインを上記バンド特性波形の帯域幅と上記対応するフォルマントの帯域幅との比に基づき調整するゲイン調整工程と
を有することを特徴とする音声合成方法。
上記正弦波出力工程は、正弦波が記憶された正弦波記憶手段から該正弦波を所望の周波数の正弦波として読み出す正弦波読出工程を有することを特徴とする請求項８記載の音声合成方法。
上記１ピッチ波形生成工程では、上記フォルマント対応ピッチ波形の中心で位相を揃えて加算することを特徴とする請求項８記載の音声合成方法。
上記バンド特性波形記憶手段は、所望のバンドパスの周波数特性としてフォルマントのバンド特性が付与され、周波数を低域のみに限定した時間領域の波形を波形データとしてテーブルに記憶しており、このテーブルのデータサイズは波形の始端及び終端の信号レベルが十分に減衰する長さであることを特徴とする請求項８記載の音声合成方法。
上記乗算工程では、上記バンド特性読み出し波形と上記正弦波との同期をとって乗算することを特徴とする請求項８記載の音声合成方法。