JP4214842B2 - 音声合成装置及び音声合成方法 - Google Patents
音声合成装置及び音声合成方法 Download PDFInfo
- Publication number
- JP4214842B2 JP4214842B2 JP2003169988A JP2003169988A JP4214842B2 JP 4214842 B2 JP4214842 B2 JP 4214842B2 JP 2003169988 A JP2003169988 A JP 2003169988A JP 2003169988 A JP2003169988 A JP 2003169988A JP 4214842 B2 JP4214842 B2 JP 4214842B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- band characteristic
- sine wave
- pitch
- formant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001308 synthesis method Methods 0.000 title claims description 12
- 230000015572 biosynthetic process Effects 0.000 title description 4
- 238000003786 synthesis reaction Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 239000000872 buffer Substances 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L2013/021—Overlap-add techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Description
【発明の属する技術分野】
本発明は、例えば文字列又は音素記号列から音声を合成する音声合成装置及び音声合成に関し、特にピッチ波形を重畳して音声を合成する音声合成装置及び音声合成方法に関する。
【0002】
【従来の技術】
従来、パラメータ型の音声合成装置においては、合成する音声のスペクトル包絡特性を、自然音声のスペクトル包絡特性にどの程度似せて表現できるかが音声の品質に大きな影響を与えることが知られている。従来、このようなパラメータ型の音声合成方式がいくつか提案されており、例えば下記非特許文献1に、音声のフォルマントを2次程度の全極フィルタで表現し、これらのフィルタを直列又は並列に接続することでスペクトル全体の包絡特性を表現するフォルマント合成方式が記載されている。
【0003】
また、線形予測モデルに基づいたパラメータを使用する線形予測分析法(linear predictive cording:LPC)、LSP(線スペクトル対:line spectrum pair)、及びPARCOR(部分自己相関又は偏自己相関:partial auto-correlation coefficient)等の各種の線形予測型のフィルタを用いたパラメータ合成方式があり、LSPパラメータを使った方式が例えば下記非特許文献2に記載されている。
【0004】
【非特許文献1】
クラット,D.H.,「カスケード/パラレルフォーマットシンセサイザのソフトウェア」(Klatt,D.H.“Software for a cascade/parallel formant synthesizer”),ジャーナル・オブ・ザ・アコウスティカル・ソサエティ・オブ・アメリカ(Journal of the Acoustical Society of America),1980年3月,第67巻,3号,p.971−995
【非特許文献2】
古井貞おき著,「ディジタル音声処理」,東海大学出版,p89−98
【0005】
【発明が解決しようとする課題】
しかしながら、これらのフォルマント合成及び線形予測系の合成方式は、基本的に全極モデルであり、通常、Z平面上でみると、1つのフォルマントは1つのゼロ点で表現されているにすぎない。図9(a)及び(b)は、縦軸に振幅をとり、横軸に周波数をとって、2次の全極型フィルタの特性を示すグラフ図である。Yi=aXi+bYi−1+cYi−2(X:入力信号、Y:出力信号)に示されるような全極型フィルタの周波数特性の特徴としては、図9(a)に示すようなフォルマントの帯域幅wや、中心周波数fcをそれぞれ独立に制御することができないという点がある。即ち、帯域幅w又は中心周波数fcの個々の変更により、スペクトル特性の形状自体も大きく変化してしまう。例えば図9(b)に示すように、帯域を狭くすると、ピーク付近の形状が鋭角状に変化する。従って、フォルマントの帯域幅を狭くしようとすると、フォルマント周波数のごく一部分が特に強調された音になってしまう。このように全極型フィルタを用いた方法ではパラメータの調整が非常にクリティカルで所望の周波数特性を得ることが難しいという問題点がある。
【0006】
また、サイドローブがなだらかであるために、1つのフォルマントを表現するパラメータを変更すると、当該フォルマントの前後に存在する他のフォルマントの周波数領域の形状にも影響を与えてしまうなどの個々のパラメータが個々のフォルマントを独立に制御できないという問題があった。
【0007】
本発明は、このような従来の実情に鑑みて提案されたものであり、所望のフォルマント形状とした波形を少ない計算量で生成することができる音声合成装置及び方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明に係る音声合成装置は、各フォルマントに対応した1ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成手段と、上記各フォルマント対応ピッチ波形を加算して1ピッチ波形を生成する1ピッチ波形生成手段と、上記1ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳手段とを有し、上記波形生成手段は、帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段と、上記バンド特性波形記憶手段に記憶された上記バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出手段と、正弦波を出力する正弦波出力手段と、上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算手段と、上記乗算手段により乗算された波形のゲインを上記バンド特性波形の帯域幅と上記対応するフォルマントの帯域幅との比に基づき調整するゲイン調整手段とを有することを特徴とする。
【0009】
本発明においては、波形生成手段により、上記バンド特性波形を、例えばバンド特性波形の帯域幅と、対応するフォルマントの帯域幅とに基づく読み出し間隔等、所望の読み出し間隔で読み出し、1ピッチ分の波形となるよう時間伸張したバンド特性読み出し波形を少ない計算量で容易に生成することができ、このバンド特性読み出し波形と正弦波とを乗算することにより各フォルマントに対応して生成されたフォルマント対応ピッチ波形を乗算して1ピッチ波形を生成し、これを重畳することで音声を合成することができる。
【0010】
また、上記正弦波出力手段は、正弦波が記憶された正弦波記憶手段と、該正弦波記憶手段に記憶された該正弦波を所望の周波数の正弦波として読み出す正弦波読出手段とを有することにより、処理を高速化する。
【0011】
更に、上記1ピッチ波形生成手段は、上記フォルマント対応ピッチ波形の中心で位相を揃えて加算することができる。
【0013】
また、上記バンド特性読み出し波形のピークと上記正弦波のピークとを重ねて乗算するか、上記バンド特性読波形が奇関数である場合、当該バンド特性読み出し波形の中心点と上記正弦波のゼロクロス点とを重ねて乗算する等、上記乗算手段は、上記バンド特性読み出し波形と上記正弦波との同期をとって乗算することができ、これにより、低い周波数の正弦波との乗算をする場合、ゲインの低下を防止することができる。
【0014】
本発明に係る音声合成方法は、各フォルマントに対応した1ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成工程と、上記各フォルマント対応ピッチ波形を加算して1ピッチ波形を生成する1ピッチ波形生成工程と、上記1ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳工程とを有し、上記波形生成工程は、帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段から該バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出工程と、正弦波を出力する正弦波出力工程と、上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算工程と、上記乗算工程にて乗算された波形のゲインを上記バンド特性波形の帯域幅と上記対応するフォルマントの帯域幅との比に基づき調整するゲイン調整工程とを有することを特徴とする。
【0015】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、フォルマントパラメータ(各フォルマントの帯域幅、中心周波数、ゲイン)から1ピッチ波形を生成し、これを重畳して音声を合成する規則音声合成装置に適用したものである。
【0016】
図1は、本発明の実施の形態における規則音声合成装置の全体構成を示すブロック図である。図1に示すように、規則音声合成装置1は、音素列及び韻律情報を含んだ音声記号列Dが与えられる素片選択部2及び韻律生成部3と、素片選択部2に選択され出力された素片パラメータと韻律生成部3からの音韻時間長とに応じてパラメータの時系列を生成するパラメータ時系列生成部4と、このパラメータの時系列と韻律生成部3からのピッチ周期Pfとにより合成音声波形を生成する波形生成部5とから構成される。
【0017】
素片選択部2は、例えば比較的大量の合成単位を含んだ音声データベースの中から、統計的に接続歪みが少なくなるような比較的少ない数の音声素片のセットを選択する等して得られた音素系列(例えばCVC、VCV、CV、VC等(C:子音、V:母音))と音響特徴パラメータとが対になったデータ(単位素片セット)が複数記憶されたメモリ6と接続され、音素列及び韻律情報を含んだ音声記号列Dに基づき、メモリ6に記憶された単位素片セットの中から適切な素片のパラメータを順次選択して出力する。
【0018】
この素片選択部2の入力としての音素列は、例えばテキスト音声合成の形態素解析及び発音記号列生成処理を経て得られた発声を行う音素系列を示したデータである。そして、素片選択部2は、入力される音素列に基づいて単位素片セットを参照して、上記音素列に含まれる音素列を選択して、選択した音素列に対応する音響特徴パラメータ(例えばケプストラム係数等)を単位素片セットから読み出す。
【0019】
韻律生成部3は、音声記号列Dから各音韻の時間長T及びピッチ周期Pfを生成し、夫々パラメータ時系列生成部4及び波形生成部5に出力する。
【0020】
パラメータ時系列生成部4では、韻律生成部3から音韻時間長Tを受取り、この音韻時間長Tに応じて素片選択部2から受取ったパラメータを伸縮しながらパラメータ時系列Dtを生成して出力する。
【0021】
波形生成部5では、パラメータ時系列生成部4から出力される刻々と変化するパラメータ時系列Dtと韻律生成部3からのピッチ周期Pfとに基づいて合成音声を生成し、スピーカ7に出力する。この波形生成部5には、各種の音声波形を生成するため、摩擦信号生成部、破裂音生成部及び有声音生成部等、複数種の音声波形の生成部が備えられ、これらの各種の信号を合成して合成波形が生成される。
【0022】
以上の音声合成装置全体のブロック構成は一般的なものであり、ほかの既存の音声合成装置の構成をとることも可能である。また、波形生成部をのぞいたブロックの構成及び動作も一般的な音声合成装置のものを使用することができる。
【0023】
次に、合成波形を生成する際、使用される各種の音声のうち、本発明の特徴となる波形生成部の内部構成について説明する。図2は、有声音の波形を生成する装置を示すブロック図である。図2に示すように、図1に示すような波形生成部に好適に使用される有声音生成部5aは、n個の単一フォルマント生成部10nと、これらの出力を加算して1ピッチ波形とする加算器11と、この1ピッチ波形をバッファリングする1ピッチ波形バッファ部12と、図1に示す韻律生成部3から供給されるピッチ周期Pfに基づき波形を重畳する波形重畳部13とから構成される。
【0024】
各単一フォルマント生成部10nは、ある単一のフォルマントに対応する波形を生成するものであり、フォルマントの位置を示すフォルマントの中心周波数fcn、フォルマントの帯域幅wn、フォルマントの大きさ(ゲイン)Gnを示す3つのパラメータ(nは整数)を入力とし、1つのフォルマントの特性を表現する1ピッチの波形(フォルマント対応ピッチ波形)を出力する。例えば単一フォルマント生成部101、102及び10nにより、夫々図3(a)乃至(c)に示すような1ピッチ分の波形となるフォルマント対応ピッチ波形p1、p2、pnが出力される。
【0025】
加算器11では、それぞれの単一フォルマント生成部10nの出力であるフォルマント対応ピッチ波形を重ね合わせ複数のフォルマント特性を表現する例えば図3(d)に示すような1ピッチ波形PWを生成し、1ピッチ波形バッファ部12に記憶させる。なお、図3(a)乃至(c)に示すフォルマント対応ピッチ波形の長さL1〜Lnは、1ピッチ波形の長さと等しくなくてもよく、各フォルマント対応ピッチ波形L1〜Lnの長さが互いに同一でなくてもよいが、フォルマント対応ピッチ波形を加算して1ピッチ波形を生成する際は、各フォルマント対応ピッチ波形の中心位置で位相を合わせて加算する。また、生成された1ピッチ波形PWの長さは、実際のピッチ(ピッチ周期間隔)Pより長いものとなっている。
【0026】
波形重畳部13では、指定されるピッチ周期Pfだけずらしながら、上述のようにして生成された1ピッチ波形PWを重畳し、各フォルマントの各パラメータで指定される周波数特性及びピッチ周期Pfで指定される声の高さを有する合成音を出力する。
【0027】
また、単一フォルマント生成部10nは、フォルマントのバンド特性が付与されたバンド特性波形が記憶されたバンド特性波形記憶部21と、外部から指定される、対応するフォルマントの帯域幅wnに応じた読み出し間隔で、バンド特性波形記憶部21からバンド特性波形を読み出すバンド特性波形読出部22と、外部から指定される対応するフォルマントの中心周波数fcnの正弦波を生成して出力する正弦波生成部23と、バンド特性波形読出部22から読み出されたバンド特性読み出し波形と周波数fcnの正弦波とを乗算する乗算器24と、生成された波形のゲインを調整するゲイン調整部25とにより構成される。
【0028】
バンド特性波形記憶部21は、所望のバンドパスの周波数特性としてフォルマントのバンド特性が付与され、周波数を低域のみに限定した時間領域の波形を、後述の方法等に従って作成された波形データとして記憶している。このテーブルのデータサイズ(サンプル数)は波形の始端及び終端の信号レベルが十分に減衰する長さが必要である。
【0029】
バンド特性波形の長さL0は、バンド特性波形の形状にもよるが、例えばサンプリング周波数を22KHzとして、後述するバンド特性波形の帯域幅である基本帯域幅w0を12Hzとした場合、4096サンプル程度あればよい。上述の図3(a)乃至(c)に示す各単一フォルマント生成部10nにおいて、バンド特性波形が時間伸張されて読み出されたバンド特性読み出し波形の長さLnは、L0×wn/w0の長さとなっている。
【0030】
バンド特性波形読出部22は、対応するフォルマントの帯域幅として外部から供給される帯域幅wnに応じた間隔で、バンド特性波形記憶部21から記憶されているバンド特性波形の値を逐次読み出す。そしてバンド特性波形が帯域幅wnに応じた読み出し間隔で読み出されたバンド特性読み出し波形を出力する。正弦波生成部23は、対応するフォルマントの中心周波数fcnとして外部から指定される周波数fcnの正弦波を出力する。乗算器24は、バンド特性波形読出部22の出力と正弦波生成部23の出力との積算を行い出力する。ゲイン調整部25は、対応するフォルマントに応じた値として外部から指定される信号強度(ゲイン)Gnと帯域幅wnとにより、各フォルマントに応じて入力信号の音量を調整して出力する。
【0031】
次に、図2に示す有声音生成部5aの動作について説明する。バンド特性波形読出部22には、読み出し位置(メモリのアドレス)と読み出し間隔とが保存されている。読み出し間隔は、バンド特性波形を作成したときの帯域幅[Hz]をw0、外部から指定される帯域幅[Hz]をwnとすると、wn/w0に設定することができる。この値は通常小数となるため、読み出し間隔及び読み出し位置も小数で保存しておき、バンド特性波形記憶部21から読み出す読み出し位置は小数を切り捨てた読み出し位置の値を読み出せばよい。例えば基本帯域幅w0を15Hz、外部から指定される帯域幅wnを200Hzとすると、読み出し間隔は、13.33となり、バンド特性波形記憶部21から13.33個おきの読み出し位置から読み出すことになる。
【0032】
これにより、バンド特性波形の長さL0が1ピッチ分の時間長に応じて時間伸縮されたバンド特性読み出し波形が出力される。ここで、図3(a)乃至(c)に示すように、バンド特性読み出し波形の長さLnは、1ピッチ波形の時間長に等しくなくてもよい。
【0033】
正弦波生成部23は、対応するフォルマントの中心周波数fcnに等しい周波数の正弦波を逐次出力する。中心周波数fcnを可変とする場合は、外部から指定される周波数fcnに等しい周波数の正弦波を生成して出力すればよい。
【0034】
そして、バンド特性波形読出部22と、正弦波生成部23との出力が乗算器24によって乗算され、ゲイン調整部25に与えられる。
【0035】
ゲイン調整部25では、乗算器24の出力である入力信号をGn×wn/w0倍して出力する。ここで、Gnは外部から与えられる信号の強度であり、wn/w0は帯域幅を可変とするときのゲインの補正値を示す。
【0036】
単一フォルマント生成部10nの出力は、バンド特性波形の形状を維持しており、従ってフォルマントの形状となるようなバンドパスの周波数特性を有し、対応するフォルマントの中心周波数fcn、帯域幅wn、及びゲインGnに応じた1ピッチ分の波形であるフォルマント対応ピッチ波形となる。
【0037】
このようにして生成された1ピッチ分の波形が、ピッチ波形生成部としての加算器11にて加算されることで、各フォルマントに対応した特性が付与された1ピッチ波形が生成され、1ピッチ波形バッファ部12にてバッファリングされる。この1ピッチ波形は、波形重畳部13へ供給され、波形重畳部13では、供給されるピッチ周期Pfの間隔ずらしながら波形重畳法を用いて重畳されて出力される。
【0038】
次に、バンド特性波形記憶部21に記憶するバンド特性波形の生成方法について説明する。図4は、バンド特性波形の生成方法を示すフローチャートである。また、図5(a)乃至(c)は、各工程における信号を示すグラフ図である。
【0039】
先ず、対数スペクトル領域にフォルマントの形状の周波数特性を付与した信号を作成する(ステップSP1)。但し、図5(a)に示すように、中心周波数が0Hzとなるような周波数特性が得られるように高域成分を除去する必要がある。従って、ローパスフィルタのような特性になる。なお、この時の帯域幅がバンド特性波形の基本帯域幅w0である。
【0040】
次に、この信号の位相を揃える。例えば図5(b)に示すように、位相項を全て0にしてゼロ位相にすればよい(ステップSP2)。
【0041】
その後、指数化及び逆DFT(discrete Fourier transform)(FFT(fast Fourier transform))処理により、図5(c)に示すように、周波数領域の信号を時間領域の波形に変換する(ステップSP3)。こうして得られた波形をバンド特性波形としてバンド特性波形記憶部21に記憶させる。
【0042】
次に、単一フォルマント生成部の変形例について説明する。図2に示す単一フォルマント生成部10nは、図6に示す単一フォルマント生成部40nのように構成することもできる。即ち、単一フォルマント生成部10nにおける正弦波生成部23は、正弦波記憶部31及び正弦波読出部32に置き換えることができる。この場合、フォルマントの中心周波数fcnは、正弦波読出部32に供給される。正弦波記憶部31にて予め作成された正弦波をテーブルに記憶しておき、正弦波読出部32によって外部から指定される周波数fcnに応じた間隔で正弦波記憶部32から正弦波の値を読み出す。
【0043】
ここで、図2及び図6に示すバンド特性波形記憶部21、並びに図6に示す正弦波記憶部31は、波形生成部5の音声音生成部5aにおいて、それぞれ1つずつ用意すればよく、各単一フォルマント生成部10n又は単一フォルマント生成部40nとに共通とすることができる。
【0044】
また、読み出し間隔wn/w0で読み出されたバンド特性読み出し波形と、正弦波とを乗算する際、同期をとる必要がある場合がある。図7(a)及び(b)は、バンド特性読み出し波形と正弦波とを乗算する方法を説明するための図である。
【0045】
バンド特性波形の位相をゼロにして作成すると、バンド特性波形の形状は、中心位置t0をピークにした対称波形となる。このようなバンド特性波形をバンド特性波形読出部により読み出すと、指定された帯域幅wnに応じて時間伸縮されたバンド特性読み出し波形が出力され、バンド特性読み出し波形の長さは上述したようにLnとなる。このようなバンド特性読み出し波形と、周波数fcnの正弦波とを乗算する際、正弦波の周波数として与えられる中心周波数fcnが低く、その周期がバンド特性読み出し波形の長さLnに近くなると、乗算して出力される1ピッチ分の波形のエネルギが正弦波の位相によって大きく変化してしまう。
【0046】
例えば、図7(a)に示すように、バンド特性波形のピーク位置と、正弦波のゼロクロスの位置とが重なったときには、乗算後の1ピッチ分の波形のエネルギが低くなってしまう。そこで、図7(b)に示すように、これを防ぐために常に正弦波のピーク位置(位相がπ/2の位置)とバンド特性波形のピーク位置とが重なるようして乗算する。なお、中心周波数fcnが高く正弦波の周期が短い場合には影響はほとんどなく、同期をとる必要はない。
【0047】
また、上述の実施の形態においては、バンド特性波形を生成する際、位相を全て0にして生成するものとしたが、バンド特性波形を作成するときに、例えば位相の値を全てπ/2に設定しておいてもよい。図8(a)乃至(c)は、バンド特性波形の生成方法の他の例を示すグラフ図である。図5(a)と同様にバンド特性を付与した後、図8(b)に示すように位相をπ/2にする。そして逆フーリエ変換して時間領域の信号に変換すると、図8(c)に示すような奇関数の波形が生成される。これをバンド特性波形として、バンド特性波形記憶部21に記憶させておいてもよい。
【0048】
この場合、バンド特性読み出し波形と正弦波とを同期をとって乗算するときは、読み出し間隔wn/w0で読み出したバンド特性波形の中心位置t0と正弦波のゼロクロスの位置とが一致する位置で乗算するようにすればよい。
【0049】
このように構成された本実施の形態における音声合成装置においては、各単一のフォルマントに対応した1ピッチ分の波形を生成する各フォルマントに対応するフォルマント生成部10nを有している。このフォルマント生成部10nは、所望のフォルマントの形状とされた時間波形であるバンド特性波形を予め記憶しており、記憶したバンド特性波形を対応するフォルマントの帯域幅wnに応じた読み出し間隔で読み出す。そして、このバンド特性読み出し波形と、フォルマントの中心周波数fcnに等しい正弦波とを乗算することで、単一のフォルマントの1ピッチ分のフォルマント対応ピッチ波形を生成し、フォルマントの個数分、このフォルマント対応ピッチ波形を重ね合わせることにより、フォルマントパラメータ(wn、fcn、Gn)から1ピッチ波形を生成することができる。このように、バンド特性波形の読み出し間隔を可変にすることでバンド特性を維持したまま所望の時間長のバンド特性読み出し波形を容易に生成することができる。また単一のフォルマントに対応する1ピッチ分の波形を生成するため、周波数fcn、帯域幅wn等を変更しても他のフォルマントに影響することなく1ピッチ分の波形を生成することができる。これらのことにより、極めて少ない処理量で、各フォルマントを独立に制御し、所望のフォルマントの特性としたピッチ波形を重畳して音声を合成することができる。
【0050】
また、バンド特性読み出し波形と乗算する正弦波のデータを、予めテーブル化して記憶しておくことで、処理の高速化を図ることができる。
【0051】
更に、バンド特性読み出し波形と正弦波とを乗算するときに同期をとることによって、フォルマント周波数が低くなったときのゲインの低下を防ぐことができ、パラメータに忠実な特性の音声を合成することができる。
【0052】
【発明の効果】
以上詳細に説明したように本発明に係る音声合成装置は、各フォルマントに対応した1ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成手段と、上記各フォルマント対応ピッチ波形を加算して1ピッチ波形を生成する1ピッチ波形生成手段と、上記1ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳手段とを有し、上記波形生成手段は、帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段と、上記バンド特性波形記憶手段に記憶された上記バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出手段と、正弦波を出力する正弦波出力手段と、上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算手段とを有するのでバンド特性波形の読み出し間隔を異ならせることで、1ピッチ分の波形となるよう時間伸張したバンド特性読み出し波形を少ない計算量で容易に生成することができ、従って、少ない処理量で所望のフォルマント形状を有する1ピッチ波形を生成して音声を合成することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態における規則音声合成装置の全体構成を示すブロック図である。
【図2】本発明の実施の形態における規則音声合成装置の有声音の波形を生成する有声音生成部を示すブロック図である。
【図3】(a)乃至(c)は、各フォルマント生成部にて生成された波形を示すグラフ図、(d)は、ピッチ波形生成部としての加算器により加算されて生成された1ピッチ波形を示すグラフ図である。
【図4】図2に示す有声音生成部にて使用されるバンド特性波形の生成方法を示すフローチャートである。
【図5】(a)乃至(c)は、バンド特性波形の生成工程にて生成される信号を示すグラフ図である。
【図6】本発明の実施の形態における単一フォルマント生成部の変形例を示すブロック図である。
【図7】(a)及び(b)は、バンド特性波形と正弦波とを乗算するときの同期を説明するための図である。
【図8】(a)乃至(c)は、バンド特性波形の他の生成工程にて生成される信号を示すグラフ図である。
【図9】(a)及び(b)は、縦軸に振幅をとり、横軸に周波数をとって、従来の2次の全極型フィルタの特性を示すグラフ図である。
【符号の説明】
1 規則音声合成装置、2 素片選択部、3 韻律生成部、4 パラメータ時系生成部、5 波形生成部、6 メモリ、7 マイク、5a 有声音生成部、10n,40n フォルマント生成部、11 加算器、12 1ピッチ波形バッファ部、13 波形重畳部、21 バンド特性波形記憶部、22 バンド特性波形読出部、23 正弦波生成部、24 乗算器、25 ゲイン調整部、31 正弦波記憶部、32 正弦波読出部
Claims (12)
- 各フォルマントに対応した1ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成手段と、
上記各フォルマント対応ピッチ波形を加算して1ピッチ波形を生成する1ピッチ波形生成手段と、
上記1ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳手段とを有し、
上記波形生成手段は、
帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段と、
上記バンド特性波形記憶手段に記憶された上記バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出手段と、
正弦波を出力する正弦波出力手段と、
上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算手段と、
上記乗算手段により乗算された波形のゲインを上記バンド特性波形の帯域幅と上記対応するフォルマントの帯域幅との比に基づき調整するゲイン調整手段と
を有することを特徴とする音声合成装置。 - 上記正弦波出力手段は、正弦波が記憶された正弦波記憶手段と、該正弦波記憶手段に記憶された該正弦波を所望の周波数の正弦波として読み出す正弦波読出手段とを有することを特徴とする請求項1記載の音声合成装置。
- 上記1ピッチ波形生成手段は、上記フォルマント対応ピッチ波形の中心で位相を揃えて加算することを特徴とする請求項1記載の音声合成装置。
- 上記バンド特性波形記憶手段は、所望のバンドパスの周波数特性としてフォルマントのバンド特性が付与され、周波数を低域のみに限定した時間領域の波形を波形データとしてテーブルに記憶しており、このテーブルのデータサイズは波形の始端及び終端の信号レベルが十分に減衰する長さであることを特徴とする請求項1記載の音声合成装置。
- 上記乗算手段は、上記バンド特性読み出し波形と上記正弦波との同期をとって乗算することを特徴とする請求項1記載の音声合成装置。
- 上記バンド特性読み出し波形のピークと上記正弦波のピークとを重ねて乗算することを特徴とする請求項5記載の音声合成装置。
- 上記バンド特性波形が奇関数である場合、そのバンド特性読み出し波形の中心点と上記正弦波のゼロクロス点とを重ねて乗算することを特徴とする請求項5記載の音声合成装置。
- 各フォルマントに対応した1ピッチ分の波形としてフォルマント対応ピッチ波形を生成する波形生成工程と、
上記各フォルマント対応ピッチ波形を加算して1ピッチ波形を生成する1ピッチ波形生成工程と、
上記1ピッチ波形をピッチ周期間隔で重畳して音声を合成する重畳工程とを有し、
上記波形生成工程は、
帯域を所定の周波数以下に制限した時間領域のバンド特性波形が記憶されたバンド特性波形記憶手段から該バンド特性波形を所望の読み出し間隔で読み出し、時間伸縮したバンド特性読出し波形を出力するバンド特性波形読出工程と、
正弦波を出力する正弦波出力工程と、
上記バンド特性読出し波形と上記正弦波とを乗算して出力する乗算工程と、
上記乗算工程にて乗算された波形のゲインを上記バンド特性波形の帯域幅と上記対応するフォルマントの帯域幅との比に基づき調整するゲイン調整工程と
を有することを特徴とする音声合成方法。 - 上記正弦波出力工程は、正弦波が記憶された正弦波記憶手段から該正弦波を所望の周波数の正弦波として読み出す正弦波読出工程を有することを特徴とする請求項8記載の音声合成方法。
- 上記1ピッチ波形生成工程では、上記フォルマント対応ピッチ波形の中心で位相を揃えて加算することを特徴とする請求項8記載の音声合成方法。
- 上記バンド特性波形記憶手段は、所望のバンドパスの周波数特性としてフォルマントのバンド特性が付与され、周波数を低域のみに限定した時間領域の波形を波形データとしてテーブルに記憶しており、このテーブルのデータサイズは波形の始端及び終端の信号レベルが十分に減衰する長さであることを特徴とする請求項8記載の音声合成方法。
- 上記乗算工程では、上記バンド特性読み出し波形と上記正弦波との同期をとって乗算することを特徴とする請求項8記載の音声合成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003169988A JP4214842B2 (ja) | 2003-06-13 | 2003-06-13 | 音声合成装置及び音声合成方法 |
US10/862,656 US7596497B2 (en) | 2003-06-13 | 2004-06-07 | Speech synthesis apparatus and speech synthesis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003169988A JP4214842B2 (ja) | 2003-06-13 | 2003-06-13 | 音声合成装置及び音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005004103A JP2005004103A (ja) | 2005-01-06 |
JP4214842B2 true JP4214842B2 (ja) | 2009-01-28 |
Family
ID=33562221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003169988A Expired - Fee Related JP4214842B2 (ja) | 2003-06-13 | 2003-06-13 | 音声合成装置及び音声合成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7596497B2 (ja) |
JP (1) | JP4214842B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005004105A (ja) * | 2003-06-13 | 2005-01-06 | Sony Corp | 信号生成装置及び信号生成方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
JP2006065105A (ja) * | 2004-08-27 | 2006-03-09 | Canon Inc | 音声処理装置および方法 |
US20080119710A1 (en) * | 2006-10-31 | 2008-05-22 | Abbott Diabetes Care, Inc. | Medical devices and methods of using the same |
US20100195490A1 (en) * | 2007-07-09 | 2010-08-05 | Tatsuya Nakazawa | Audio packet receiver, audio packet receiving method and program |
US20150200639A1 (en) * | 2007-08-02 | 2015-07-16 | J. Todd Orler | Methods and apparatus for layered waveform amplitude view of multiple audio channels |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
CN104704560B (zh) * | 2012-09-04 | 2018-06-05 | 纽昂斯通讯公司 | 共振峰依赖的语音信号增强 |
EP2833340A1 (en) * | 2013-08-01 | 2015-02-04 | The Provost, Fellows, Foundation Scholars, and The Other Members of Board, of The College of The Holy and Undivided Trinity of Queen Elizabeth | Method and system for measuring communication skills of team members |
TW202039026A (zh) | 2019-03-08 | 2020-11-01 | 美商美威高能離子醫療系統公司 | 藉由管柱之輻射遞送及自其產生治療計劃 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2504172B2 (ja) | 1989-03-29 | 1996-06-05 | ヤマハ株式会社 | フォルマント音発生装置 |
JP3576800B2 (ja) | 1997-04-09 | 2004-10-13 | 松下電器産業株式会社 | 音声分析方法、及びプログラム記録媒体 |
US7251601B2 (en) * | 2001-03-26 | 2007-07-31 | Kabushiki Kaisha Toshiba | Speech synthesis method and speech synthesizer |
JP3732793B2 (ja) | 2001-03-26 | 2006-01-11 | 株式会社東芝 | 音声合成方法、音声合成装置及び記録媒体 |
-
2003
- 2003-06-13 JP JP2003169988A patent/JP4214842B2/ja not_active Expired - Fee Related
-
2004
- 2004-06-07 US US10/862,656 patent/US7596497B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005004105A (ja) * | 2003-06-13 | 2005-01-06 | Sony Corp | 信号生成装置及び信号生成方法 |
Also Published As
Publication number | Publication date |
---|---|
US20050010414A1 (en) | 2005-01-13 |
US7596497B2 (en) | 2009-09-29 |
JP2005004103A (ja) | 2005-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7016841B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method | |
US8706496B2 (en) | Audio signal transforming by utilizing a computational cost function | |
JP6024191B2 (ja) | 音声合成装置および音声合成方法 | |
JP4214842B2 (ja) | 音声合成装置及び音声合成方法 | |
Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
KR100457414B1 (ko) | 음성합성방법, 음성합성장치 및 기록매체 | |
JP3278863B2 (ja) | 音声合成装置 | |
JP4490818B2 (ja) | 定常音響信号のための合成方法 | |
US7822599B2 (en) | Method for synthesizing speech | |
JP3197975B2 (ja) | ピッチ制御方法及び装置 | |
EP2634769B1 (en) | Sound synthesizing apparatus and sound synthesizing method | |
EP1505570B1 (en) | Singing voice synthesizing method | |
JP3394281B2 (ja) | 音声合成方式および規則合成装置 | |
JP2000259164A (ja) | 音声データ作成装置および声質変換方法 | |
JP2002244693A (ja) | 音声合成装置および音声合成方法 | |
JP2005004105A (ja) | 信号生成装置及び信号生成方法 | |
JP5915264B2 (ja) | 音声合成装置 | |
JP2001312300A (ja) | 音声合成装置 | |
JPH07152396A (ja) | 音声合成装置 | |
JPH01304500A (ja) | 音声合成方式とその装置 | |
JPH0962295A (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JPH01304499A (ja) | 音声合成方法とその装置 | |
JPH0572599B2 (ja) | ||
JPH08152900A (ja) | 音声合成方法及び音声合成装置 | |
KHAN | Acquisition of Duration Modification of Speech Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050303 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081014 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081027 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111114 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121114 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131114 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |