JP3732793B2 - 音声合成方法、音声合成装置及び記録媒体 - Google Patents

音声合成方法、音声合成装置及び記録媒体 Download PDF

Info

Publication number
JP3732793B2
JP3732793B2 JP2002077096A JP2002077096A JP3732793B2 JP 3732793 B2 JP3732793 B2 JP 3732793B2 JP 2002077096 A JP2002077096 A JP 2002077096A JP 2002077096 A JP2002077096 A JP 2002077096A JP 3732793 B2 JP3732793 B2 JP 3732793B2
Authority
JP
Japan
Prior art keywords
formant
window function
pitch
waveform
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002077096A
Other languages
English (en)
Other versions
JP2002358090A (ja
Inventor
岳彦 籠嶋
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002077096A priority Critical patent/JP3732793B2/ja
Priority to KR10-2002-0016033A priority patent/KR100457414B1/ko
Priority to EP02252159A priority patent/EP1246163B1/en
Priority to CNB021080496A priority patent/CN1185619C/zh
Priority to DE60205421T priority patent/DE60205421T2/de
Publication of JP2002358090A publication Critical patent/JP2002358090A/ja
Application granted granted Critical
Publication of JP3732793B2 publication Critical patent/JP3732793B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はテキスト音声合成に関し、特に音韻記号列、ピッチ、音韻継続時間長などの情報から音声信号を生成する音声合成に関する。
【0002】
【従来の技術】
任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。通常このテキスト音声合成システムは、言語処理部、音韻処理部、音声信号生成部の3つの段階から構成される。
【0003】
入力されたテキストはまず言語処理部において形態素解析や構文解析などが行われ、次に音韻処理部においてアクセントやイントネーションの処理が行われて音韻記号列、ピッチパターン(声の高さの変化パターン)、音韻継続時間長などの情報が出力される。最後に、音声信号生成部すなわち音声合成器では音韻記号列、ピッチパターン、音韻継続時間長などの情報から音声信号を合成する。
【0004】
このような任意の音韻記号列を合成することができる合成器の原理は、母音をV、子音をCで表すと、CV、CVC、VCVなどの基本となる小さな単位の特徴パラメータ(音声素片)を記憶し、ピッチや継続時間長を制御して接続することにより音声を合成するものである。
【0005】
このような音声合成器において音声素片の情報から所望のピッチパターンや継続時間長の音声信号を生成する方法として、PSOLA法(Pitch-Synchronous Overlap-add)が良く知られている。例えば、音声素片として記憶されている音声波形のピッチ周期をPSOLA法を用いて所望のピッチ周期に変換する方法が特開平8−202395「ピッチ変換方法およびその装置」に開示されている。
【0006】
図18はPSOLA法を用いて入力音声信号101のピッチ周期を変更し、出力音声信号104を生成する原理を表している。まず、入力音声信号101にピッチ分析を行ってピッチ周期を求める。そして、ピッチ周期の2倍程度の窓長をもつ窓関数をピッチに同期した位置で入力音声信号101にかけることによってピッチ波形103を生成する。次に、所望のピッチ周期間隔でピッチ波形103を重ね合わせることによってピッチ周期が変更された出力音声信号104を生成する。
【0007】
このPSOLA法を音声合成器に応用する場合、入力音声信号101があらかじめ記憶されている音声素片に相当し、出力音声信号104が合成音声信号に相当する。PSOLA法による合成音声はピッチ周期の変更の度合いが小さい場合、ピッチ周期の変更による音質劣化が小さく音質がよいことが知られている。
【0008】
また、音声合成器の別の方式としてホルマント合成方式がある。ホルマント合成方式は人間の発声機構を模擬するモデルであり、声帯から発生する信号をモデル化した音源信号で声道の特性をモデル化するフィルタを駆動することにより音声信号を生成する。一例として特開平7−152396「音声合成装置」に、ホルマント合成方式を用いた音声合成器が開示されている。
【0009】
図19は、ホルマント合成方式によって音声信号を生成する原理を表している。共振器21、22、23の縦続接続によって構成される声道フィルタを所望のピッチ周期間隔で配置されたパルス列207で駆動して合成音声208を生成する。共振器21の周波数特性204はホルマント周波数Flとホルマント帯域幅Blによって決定される。同様に、共振器22の周波数特性205はホルマント周波数F2とホルマント帯域幅B2によって、共振器23の周波数特性206はホルマント周波数F3とホルマント帯域幅B3によって決定される。
【0010】
このように、ホルマント合成方式ではホルマント周波数と帯域幅の組み合わせによって、合成音声の音韻(/a/,/i/,/u/など)や声質(男声、女声など)が決定される。そのため、音声素片の情報は波形ではなくホルマント周数と帯域幅の値の組み合となっている。ホルマント合成方式は、音韻や声質と直接関係するパラメータを制御することができるため、声質を変化させるなど柔軟な制御が可能であるという利点がある。
【0011】
【発明が解決しようとする課題】
上述したように、PSOLA法はピッチ周期の変更量が小さい範囲では、比較的音質が良いものの変更の範囲が大きくなると音質が劣化するという問題がある。
【0012】
人間が発声する音声は同じ音韻でもピッチ周期が変化するとそのスペクトル包絡が変化するのに対して、PSOLA法ではこの変化をモデル化できないことが劣化の原因となっている。また、音声素片の接続部でスペクトルの不連続が生じた場合に、平滑化処理を行うことによってスペクトルに歪みが生じて音質が劣化するという問題がある。さらに、波形そのものを音声素片としているため声質を変化させることが難しく柔軟性に欠ける。
【0013】
一方、ホルマント合成方式は柔軟性はあるものの、モデルの精度が悪いという問題がある。つまり、ホルマント周波数と帯域幅だけでは実際の音声信号のスペクトルの微細な構造を表現することができず、音質が悪く肉声感(人間らしさ)に欠ける。
【0014】
本発明は以上の事情を考慮してなされたものであり、音質が良いと同時に声質などを柔軟に変化させることができる音声合成器を提供することを目的とする。
【0015】
【課題を解決するための手段】
そこで上記課題を解決するために本発明の音声合成方法では、ピッチ周期の情報に従ってピッチ波形を重畳することにより音声信号を生成する音声合成方法において、ホルマント周波数の正弦波に窓関数をかけることによって複数のホルマント波形を生成し、これら複数のホルマント波形の和によって前記ピッチ波形を生成することことを特徴とするものである。
【0016】
また、本発明の音声合成装置では、ピッチパターン、音韻継続時間長及び音韻記号列が入力され、ピッチ周期の情報にしたがって生成されるピッチマークに、ピッチ波形生成部により形成されたピッチ波形を重畳することにより音声信号を生成する音声合成装置において、前記ピッチ波形生成部は音声素片の単位毎にホルマントパラメータが記憶されている記憶部と、前記ピッチパターン、前記音韻継続時間長及び前記音韻記号列を参照として、前記ピッチマークに対応する1フレーム分の前記ホルマントパラメータを前記記憶部より選択して読み出すパラメータ選択部と、前記読み出されたホルマント周波数の正弦波を生成する正弦波生成部と、この生成された正弦波に前記選択された窓関数をかけることによりホルマント波形を生成する掛け算器と、これらホルマントをそれぞれ加算する加算器とを具備することをすることを特徴とするものである。
【0017】
また、本発明の記録媒体では、ピッチ周期の情報に従ってピッチ波形を重畳することにより音声信号を生成する音声合成方法を実現するプログラムを記録した記録媒体において、ホルマント周波数の正弦波に窓関数をかけることによって複数のホルマント波形を生成し、これら複数のホルマント波形の和によって前記ピッチ波形を生成する音声合成方法を実現するプログラムを記録したことを特徴とする音声合成方法を記録することを特徴とするものである。
【0018】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態を説明する。図1は本発明の一実施形態に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。音声合成装置にはピッチパターン306、音韻継続時間長307、音韻記号列308が入力され、合成音声信号305が出力される。本実施形態の音声合成装置は無声音合成部32と有声音合成部31より構成され、それぞれが出力する無声音声信号304と有声音声信号303とを加算することによって合成音声信号305を生成する。
【0019】
無声音合成部32は、音韻継続時間長307と音韻記号列308を参照して主に当該音素が無声子音や有声摩擦音である場合に無声音声信号304を生成する。無声音合成部32は、LPC合成フィルタを白色雑音で駆動する方法など、公知の技術で実現することが可能である。
【0020】
また、有声音合成部31はピッチマーク生成部33、ピッチ波形生成部34、波形重畳部35から構成される。ピッチマーク生成部33はピッチパターン306と音韻継続時間長307を参照して、図2に示されるようなピッチマーク302を生成する。ピッチマーク302はピッチ波形301を重畳する位置を表すものであり、ピッチマークの間隔がピッチ周期に対応する。ピッチ波形生成部はピッチパターン306、音韻継続時間長307、音韻記号列308を参照して、図2に示されるようにピッチマーク302のそれぞれに対応するピッチ波形301を生成する。波形重畳部35はピッチマーク302で示される位置に、対応するピッチ波形301を重畳することによって有声音声信号303を生成する。
【0021】
次に、図1のピッチ波形生成部の構成について詳しく説明する。
【0022】
図3はピッチ波形生成部34の一実施形態の構成を示すブロック図である。ピッチ波形生成部34は、ホルマントパラメータ記憶部41、パラメータ選択部42、正弦波生成部(43、44、45)より構成される。ホルマントパラメータ記憶部41には音声素片の単位毎にホルマントパラメータが記憶されている。
【0023】
図4は音韻/a/の素片のホルマントパラメータの例を表している。この例では、/a/の素片は3フレームから構成され、各フレームは3つのホルマントから構成されている。各ホルマントの特徴を表すパラメータとしてホルマント周波数、ホルマント位相、窓関数が記憶されている。
【0024】
ホルマントパラメータ選択部42はピッチ波形生成部34に入力されるピッチパターン306、音韻継続時間長307、音韻記号列308を参照して、ピッチマーク302に対応する1フレーム分のホルマントパラメータ401をホルマントパラメータ記憶部41より選択して読み出す。
【0025】
ホルマントパラメータ401はホルマント番号1に対応するパラメータがホルマント周波数402、ホルマント位相403、窓関数411として出力され、同様に、ホルマント番号2に対応するパラメータがホルマント周波数404、ホルマント位相405、窓関数412として、さらにホルマント番号3に対応するパラメータがホルマント周波数406、ホルマント位相407、窓関数413として出力される。
【0026】
正弦波生成部43はホルマント周波数402とホルマント位相403に従って正弦波408を出力する。正弦波408は窓関数411によって窓掛け処理が行われホルマント波形414が生成される。ホルマント周波数402をω、ホルマント位相403をφ、窓関数411をw(t)で表すと、ホルマント波形y(t)は次の式で表される。
【0027】
y(t):\V(t)・sin(ωt+φ)
同様に、正弦波生成部44はホルマント周波数404とホルマント位相405に従って正弦波409を出力し、窓関数412による窓掛け処理を経てホルマント波形415が生成される。正弦波生成部45はホルマント周波数406とホルマント位相407に従って正弦波410を出力し、窓関数413による窓掛け処理を経てホルマント波形416が生成される。
【0028】
さらに、ピッチ波形301はホルマント波形(414、415、416)をそれぞれ加算することによって生成される。
【0029】
正弦波、窓関数、ホルマント波形、ピッチ波形の例を図6に示す。また、これらの波形のパワースペクトルを図7に示す。図6では横軸が時間、縦軸が振幅を、図7では横軸が周波数、縦軸が振幅を表している。
【0030】
正弦波は鋭いピークを持つ線スペクトルとなり、窓関数は低域に集中したスペクトルとなっている。時間領域での窓掛け(掛け算)は周波数領域では畳み込みに相当するため、ホルマント波形のスペクトルは窓関数のスペクトルを正弦波の周波数の位置に平行移動した形状となっている。そのため、正弦波の周波数や位相を制御することによってピッチ波形のホルマントの中心周波数や位相を変化させることができ、窓関数の形状を制御することによってピッチ波形のホルマントのスペクトル形状を変化させることができる。
【0031】
このように、ホルマント毎にその中心周波数や位相、スペクトル形状を独立に制御することが可能であるため柔軟性の高いモデルであると言える。また同時に、窓関数の形状によってスペクトルの微細な構造を表現することが可能であるため、肉声のスペクトル構造を高精度に近似することができ肉声感のある音声を合成することが可能である。
【0032】
次に、本発明のピッチ波形生成部34の第2の実施形態を図8を参照して説明する。図3と相対応する部分に同一の参照符号を付して相違点を中心に説明すると、本実施形態では窓関数が基底関数展開されており、ホルマントパラメータとして窓関数を記憶する代わりに重み係数の組が記憶されている。そして、新たに付加された窓関数生成部56において重み係数の組から窓関数を生成する。
【0033】
ホルマントパラメータ記憶部51に記憶されているホルマントパラメータの例を図5に示す。この例では3つの基底関数の重み和に窓関数が展開されており、窓関数重み係数のセットとして3つの係数の組が記憶されている。パラメータ選択部42は選択されたホルマントパラメータ(ホルマント周波数、ホルマント位相、窓関数重み係数)501の中でホルマント周波数(4()2,404,406)、ホルマント位相(403,405,407)が正弦波生成部(43,44,45)へ、窓関数重み係数セット(517、518、519)が窓関数生成部56へ出力される。
【0034】
窓関数生成部56は、重み係数セット(517、518、519)にしたがって、窓関数(511、512、513)をそれぞれ生成する。重み係数セットをそれぞれa1,a2,a3とし、基底関数をb1(t),b2(t),b3(t)とすると、窓関数W(t)は次式で表される。
【0035】
w(t)=a1・b1(t)十a2・b2(t)十a3・b3(t)
なお、基底関数としてはDCT基底などを用いても良いし、窓関数をKL展開することによって生成された基底関数を用いても良い。本実施形態では、基底の次数を3としたが、次数はいくつでも良い。窓関数を基底関数展開することによって、ホルマントパラメータ記憶部の記憶容量が削減されるという利点がある。
【0036】
次に、本発明のピッチ波形生成部34の第3の実施形態を図9を参照して説明する。図3と相対応する部分に同一の参照符号を付して相違点を中心に説明すると、本実施形態ではパラメータ変形部67が新たに付加されており、ピッチパタ一ン306に従ってホルマントパラメータが変化する点が異なっている。
【0037】
パラメータ変形部67は、ホルマント周波数402、ホルマント位相403、窓関数411、ホルマント周波数404、ホルマント位相405、窓関数412、ホルマント周波数406、ホルマント位相407、窓関数413を、ピッチパターン306に従って変化させて、ホルマント周波数720、ホルマント位相721、窓関数717、ホルマント周波数722、ホルマント位相723、窓関数718、ホルマント周波数724、ホルマント位相725、窓関数719をそれぞれ出力する。全てのパラメータを変化させるようにしても良いし、一部のパラメータのみを変化させるようにしてもよい。
【0038】
図10はピッチ周期に応じてホルマント周波数を制御する場合の制御関数の例を示している。このような制御関数は音韻ごとに設定しても良いし、あるいはフレーム毎、ホルマント番号毎に設定して使い分けるようにしても良い。
【0039】
また、ホルマント周波数そのものではなく入カホルマント周波数と出カホルマント周波数の差分値や比の値を制御する制御関数を用いても良い。
【0040】
図11はピッチ周期に応じたゲインを窓関数に乗じてホルマントのパワーを制御するための制御関数を表している。このように、ピッチ周期に応じてパラメータを変化させることによりピッチ周期の変化による音声のスペクトルの変化をモデル化することが可能となり、声の高さによらず高音質な合成音声を生成することができる。
【0041】
また、パラメータ変形部67に音韻記号列308を入力するようにして、先行あるいは後続の音韻の種類に従ってホルマントパラメータを変化させるようにしても良い。これにより、音韻環境による音声のスペクトルの変化をモデル化することが可能となり、音質を向上させることができる。
【0042】
さらに、パラメータ変形部67に外部から入力される声質情報309に従ってパラメータを変化させるようにしても良い。これにより、様々な声質の合成音声を生成することが可能となる。
【0043】
図12はホルマント周波数を変化させることによって声の太さを変える場合の制御関数の例を示している。(a)の制御関数を用いて全てのホルマント周波数を変換すれば、ホルマントが高域にシフトすることにより細い声が生成され、(b)の場合はやや細い声となる。反対に、(d)の制御関数を用いると、ホルマント周波数が低域にシフトすることにより、太い声が生成され、(c)の場合はやや太い声となる。
【0044】
次に、本発明のピッチ波形生成部34の第4の実施形態を図13を参照して説明する。図3と相対応する部分に同一の参照符号を付して相違点を中心に説明すると、本実施形態ではパラメータ平滑化部77が新たに付加されており、各ホルマントパラメータの時間的な変化がなめらかになるようにパラメータを平滑化する点が異なっている。
【0045】
パラメータ平滑化部77は、ホルマント周波数402、ホルマント位相403、窓関数411、ホルマント周波数404、ホルマント位相405、窓関数412、ホルマント周波数406、ホルマント位相407、窓関数413を、それぞれ平滑化して、ホルマント周波数820、ホルマント位相821、窓関数817、ホルマント周波数822、ホルマント位相823、窓関数818、ホルマント周波数824、ホルマント位相825、窓関数819をそれぞれ出力する。全てのパラメータを平滑化するようにしても良いし、一部のパラメータのみを平滑化するようにしても良い。
【0046】
図14はホルマントの平滑化の例を示している。×で表されるのが平滑化前のホルマント周波数402、404、406であり、先行あるいは後続のフレームの対応するホルマント周波数との変化がなめらかになるように平滑化を行って○で表される平滑化されたホルマント周波数820、822、824がそれぞれ生成される。
【0047】
また、音声素片の接続部において、ホルマントの対応がとれないような場合に、図15(a)の×で表されるようにホルマント周波数404に対応するホルマントが消滅してしまうことが起りうる。この場合、スペクトルに大きな不連続が生じて音質が劣化するため○で表されるように、ホルマントを付加してホルマント周波数822を生成する。この際、図15(b)に表されるようにホルマント周波数822に対応する窓関数818のパワーを減衰させるようにしてホルマントのパワーの不連続が生じないようにする。
【0048】
図16は窓関数位置の平滑化の例を示している。窓関数411のピーク位置がフレーム間でなめらかに変化するように窓関数位置の平滑化を行って、窓関数817を生成している。この他にも、窓関数の形状や、窓関数のパワーの平滑化を行っても良い。
【0049】
上述した本発明の実施形態ではホルマント数3の場合について説明したが、ホルマント数はいくつであっても良く、フレーム毎にホルマント数が変化しても良い。
【0050】
また、本発明の実施形態の正弦波生成部は正弦波を出力するものとして説明したが、線スペクトルに近いパワースペクトルを持つ波形であれば完全な正弦波でなくとも良い。例えば、計算量を削減する目的で計算精度を落としたり、テーブル化した場合は誤差のために完全な正弦波とはならない場合がある。
【0051】
また、ホルマント波形のスペクトルは、必ずしも音声信号のスペクトルの山の部分を表現するとは限らず、複数のホルマント波形の和であるピッチ波形のスペクトルが音声のスペクトルを表現するものである。
【0052】
本発明の実施形態としてテキスト音声合成における合成器について説明したが、本発明の他の実施形態として音声符号化における復号化器がある。すなわち、符号化器では音声信号からホルマント周波数、ホルマント位相、窓関数などのホルマントパラメータとピッチ周期などを分析によって求め、それらを符号化して伝送あるいは蓄積し、復号化器では、ホルマントパラメータとピッチ周期を復号化して上述した合成器と同様に音声信号を再生することが可能である。
【0053】
上述した音声合成は、記録媒体に格納されたプログラムに従ってコンピュータをプログラム制御することにより行うことができる。このプログラム制御を図17を参照して説明する。
【0054】
図17(a)は音声合成処理のフローチャートを示しており、図17(b)は音声合成処理の内の有声音声生成処理のフローチャートを示しており、図17(c)は図17(b)の有声音声生成処理のピッチ波形生成処理のフローチャートを示している。
【0055】
図17(a)における音声合成処理においては、ピッチパターン306、音韻継続時間長307および音韻記号列308を入力する(S11)。ピッチパターン306、音韻継続時間長307および音韻記号列308に基づいて有声音声信号303を生成する(S12)。音韻継続時間長307および音韻記号列308を参照して無声音声信号304を生成する(S13)。有声音声信号と無声音声信号とを加算して合成音声信号305を生成する(S14)。
【0056】
図17(b)における有声音声生成処理では、ピッチパターン306と音韻継続時間長307とを参照してピッチマーク302を生成する(S21)。ピッチパターン306、音韻継続時間長307および音韻記号列308を参照してピッチマーク302にそれぞれ対応するピッチ波形301を生成する(S22)。ピッチマーク302で示される位置に対応するピッチ波形301を重畳し、有声音声を生成する(S23)。
【0057】
図17(c)におけるピッチ波形生成処理においては、ピッチパターン306、音韻継続時間長307および音韻記号列308を参照してピッチマーク302に対応する1フレーム分のホルマントパラメータ401をホルマントパラメータ記憶部41より選択する(S31)。選択したホルマントパラメータ401のホルマント番号に対応するホルマント周波数とホルマント位相に従って複数の正弦波が生成される(S32)。複数の正弦波を窓関数により窓掛けを行ってホルマント波形414,415,416を生成する(S33)。これらホルマント波形を加算してピッチ波形を生成する(S34)。
【0058】
【発明の効果】
以上説明したように本発明によれば、ホルマント毎にホルマント周波数、ホルマント形状を独立に制御するため、ピッチ周期や声質の違いによる音声のスペクトル変化を表現することが可能となり、高い柔軟性を実現することができる。あるいは、窓関数の形状によってホルマントのスペクトルの微細な構造を表現するため、肉声感のある高音質な合成音を生成することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声合成器のブロック図。
【図2】ピッチ波形の重畳による有声音声の生成を示す模式図。
【図3】本発明の一実施形態に係るピッチ波形生成部のブロック図。
【図4】ホルマントパラメータの例を示す模式図。
【図5】ホルマントパラメータの例を示す模式図。
【図6】正弦波、窓関数、ホルマント波形、ピッチ波形の例を示す模式図。
【図7】正弦波、窓関数、ホルマント波形、ピッチ波形のパワースペクトルの例を示す模式図。
【図8】本発明の一実施形態に係るピッチ波形生成部のブロック図。
【図9】本発明の一実施形態に係るピッチ波形生成部のブロック図。
【図10】ホルマント周波数の制御関数の例を示す模式図。
【図11】ホルマントゲインの制御関数の例を示す模式図。
【図12】声質変換のためのホルマント周波数マッピング関数の例を示す模式図
【図13】本発明の一実施形態に係るピッチ波形生成部のブロック図。
【図14】ホルマント周波数の平滑化の例を示す模式図。
【図15】ホルマント周波数の平滑化の例を示す模式図。
【図16】窓関数位置の平滑化の例を示す模式図。
【図17】本発明の音声合成器の処理を示すフローチャートである。
【図18】従来のPSOLA法による音声合成を示す模式図。
【図19】従来のホルマント合成器のブロック図。
【符号の説明】
31…有声音合成部
32…無声音合成部
33…ピッチマーク生成部
34…ピッチ波形生成部
35…波形重畳部
41、51…ホルマントパラメータ記憶部
42…パラメータ選択部
43、44、45…正弦波生成部
56…窓関数生成部
67…パラメータ変形部
77…パラメータ平滑化部

Claims (16)

  1. ピッチ周期の情報に従ってピッチ波形を重畳することにより音声信号を生成する音声合成方法において、
    各群がホルマント周波数とホルマント位相と窓関数とにより構成される複数のホルマントパラメータ群を準備するステップと、
    前記ホルマントパラメータ群単位でホルマント周波数及びホルマント位相に従ってそれぞれ複数の正弦波を生成するステップと、
    前記複数の正弦波に窓関数に従って窓掛け処理を行い複数のホルマント波形を生成するステップと、
    これら複数のホルマント波形の和によってピッチ波形を生成するステップとを含むことを特徴とする音声合成方法。
  2. 前記窓関数は複数の基底関数の重み付き加算によって生成されることを特徴とする請求項1記載の音声合成方法。
  3. 前記ホルマント波形のパワー、前記窓関数の形状、前記窓関数の位置、前記ホルマント周波数のうち少なくとも1つがピッチ周期に応じて変化することを特徴とする請求項1記載の音声合成方法。
  4. 前記ホルマント波形のパワー、前記窓関数の形状、前記窓関数の位置、前記ホルマント周波数のうち少なくとも1つが少なくとも先行または後続の音韻の種類に応じて変化することを特徴とする請求項1記載の音声合成方法。
  5. 前記ホルマント波形のパワー、前記窓関数の形状、前記窓関数の位置、前記ホルマント周波数のうち少なくとも1つが与えられた声質の情報に応じて変化することを特徴とする請求項1記載の音声合成方法。
  6. 前記ホルマント周波数、前記ホルマント波形のパワー、前記窓関数の形状、前記ホルマント位相、前記窓関数の位置のうち少なくとも1つが少なくとも先行または後続のピッチ波形の、ホルマント周波数、ホルマント波形のパワー、窓関数の形状、正弦波の位相、窓関数の位置のうち少なくとも1つに応じて変化することを特徴とする請求項1記載の音声合成方法。
  7. 前記ホルマント周波数、前記ホルマント波形のパワー、前記窓関数の形状、前記ホルマント位相、前記窓関数の位置のうち少なくとも1つが少なくとも先行または後続のピッチ波形の対応するホルマントの有無に応じて変化することを特徴とする請求項1記載の音声合成方法。
  8. ピッチ周期の情報に従ってピッチ波形を重畳することにより音声信号を生成する音声合成装置において、
    各群がホルマント周波数とホルマント位相と窓関数とにより構成される複数のホルマントパラメータ群を格納する記憶部と、
    前記ホルマントパラメータ群単位でホルマント周波数及びホルマント位相に従ってそれぞれ複数の正弦波を生成する正弦波生成部と、
    前記複数の正弦波に窓関数に従って窓掛け処理を行い複数のホルマント波形を生成するホルマント波形生成部と、
    ピッチ波形を生成するため複数のホルマント波形を加算する加算部とを備えることを特徴とする音声合成装置。
  9. 前記記憶部に窓関数の重み係数が記憶されており、この重み係数が導入され基底関数の重み付け加算によって前記窓関数を生成する窓関数生成部とを具備することを特徴とする請求項8記載の音声合成装置。
  10. 前記ホルマントパラメータ群単位でホルマントパラメータを前記ピッチ周期に応じて変化させるパラメータ変形部を設けたことを特徴とする請求項8記載の音声合成装置。
  11. 前記ホルマントパラメータ群単位でホルマントパラメータを先行または後続の音韻の情報に応じて変化させるパラメータ変形部を設けたことを特徴とする請求項8記載の音声合成装置。
  12. 前記ホルマントパラメータ群単位でホルマントパラメータを与えられた声質に応じて変化させるパラメータ変形部を設けたことを特徴とする請求項8記載の音声合成装置。
  13. 前記ホルマントパラメータ群単位でホルマントパラメータを時間的な変化を滑らかにするパラメータ平滑化部を設けたことを特徴とする請求項8記載の音声合成装置。
  14. ピッチ周期の情報に従ってピッチ波形を重畳することにより音声信号を生成する音声合成処理をコンピュータに実行させるプログラムを記憶した記録媒体において、
    各群がホルマント周波数とホルマント位相と窓関数とにより構成される複数のホルマントパラメータ群単位でホルマント周波数及びホルマント位相に従ってそれぞれ複数の正弦波を生成する処理と、
    前記複数の正弦波に窓関数に従って窓掛け処理を行い複数のホルマント波形を生成する処理と、
    これら複数のホルマント波形の和によってピッチ波形を生成する処理とを含むプログラムを記憶したことを特徴とする記録媒体。
  15. ピッチ周期の情報に従ってピッチ波形を重畳することにより音声信号を生成する音声合成処理をコンピュータに実行させるプログラムにおいて、
    各群がホルマント周波数とホルマント位相と窓関数とにより構成される複数のホルマントパラメータ群単位でホルマント周波数及びホルマント位相に従ってそれぞれ複数の正弦波を生成する処理と、
    前記複数の正弦波に窓関数に従って窓掛け処理を行い複数のホルマント波形を生成する処理と、
    これら複数のホルマント波形の和によってピッチ波形を生成する処理とをコンピュータに実行させるプログラム。
  16. 前記窓関数を生成するために重み係数によって重み付けされた規定関数を加算させる処理を含む請求項15記載のプログラム。
JP2002077096A 2001-03-26 2002-03-19 音声合成方法、音声合成装置及び記録媒体 Expired - Fee Related JP3732793B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2002077096A JP3732793B2 (ja) 2001-03-26 2002-03-19 音声合成方法、音声合成装置及び記録媒体
KR10-2002-0016033A KR100457414B1 (ko) 2001-03-26 2002-03-25 음성합성방법, 음성합성장치 및 기록매체
EP02252159A EP1246163B1 (en) 2001-03-26 2002-03-26 Speech synthesis method and speech synthesizer
CNB021080496A CN1185619C (zh) 2001-03-26 2002-03-26 语音合成方法和语音合成装置
DE60205421T DE60205421T2 (de) 2001-03-26 2002-03-26 Verfahren und Vorrichtung zur Sprachsynthese

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001087041 2001-03-26
JP2001-87041 2001-03-26
JP2002077096A JP3732793B2 (ja) 2001-03-26 2002-03-19 音声合成方法、音声合成装置及び記録媒体

Publications (2)

Publication Number Publication Date
JP2002358090A JP2002358090A (ja) 2002-12-13
JP3732793B2 true JP3732793B2 (ja) 2006-01-11

Family

ID=26612017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002077096A Expired - Fee Related JP3732793B2 (ja) 2001-03-26 2002-03-19 音声合成方法、音声合成装置及び記録媒体

Country Status (5)

Country Link
EP (1) EP1246163B1 (ja)
JP (1) JP3732793B2 (ja)
KR (1) KR100457414B1 (ja)
CN (1) CN1185619C (ja)
DE (1) DE60205421T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010110095A1 (ja) * 2009-03-25 2010-09-30 株式会社 東芝 音声合成装置及び音声合成方法
US9110887B2 (en) 2012-03-29 2015-08-18 Kabushiki Kaisha Toshiba Speech synthesis apparatus, speech synthesis method, speech synthesis program product, and learning apparatus

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
WO2004025626A1 (en) * 2002-09-10 2004-03-25 Leslie Doherty Phoneme to speech converter
JP2004294816A (ja) * 2003-03-27 2004-10-21 Yamaha Corp 携帯端末装置
JP2005004105A (ja) * 2003-06-13 2005-01-06 Sony Corp 信号生成装置及び信号生成方法
JP4214842B2 (ja) 2003-06-13 2009-01-28 ソニー株式会社 音声合成装置及び音声合成方法
JP2005234337A (ja) * 2004-02-20 2005-09-02 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP4469883B2 (ja) 2007-08-17 2010-06-02 株式会社東芝 音声合成方法及びその装置
JP6499305B2 (ja) * 2015-09-16 2019-04-10 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
JP6728843B2 (ja) * 2016-03-24 2020-07-22 カシオ計算機株式会社 電子楽器、楽音発生装置、楽音発生方法及びプログラム
CN108257613B (zh) * 2017-12-05 2021-12-10 北京小唱科技有限公司 修正音频内容音高偏差的方法及装置
CN108597527B (zh) * 2018-04-19 2020-01-24 北京微播视界科技有限公司 多声道音频处理方法、装置、计算机可读存储介质和终端
CN110189743B (zh) * 2019-05-06 2024-03-08 平安科技(深圳)有限公司 波形拼接中的拼接点平滑方法、装置及存储介质
CN114648974B (zh) * 2020-12-17 2025-02-18 南京理工大学 基于语音雷达和深度学习的语音合成方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010110095A1 (ja) * 2009-03-25 2010-09-30 株式会社 東芝 音声合成装置及び音声合成方法
JP2010224498A (ja) * 2009-03-25 2010-10-07 Toshiba Corp 音声合成装置及び音声合成方法
US9002711B2 (en) 2009-03-25 2015-04-07 Kabushiki Kaisha Toshiba Speech synthesis apparatus and method
US9110887B2 (en) 2012-03-29 2015-08-18 Kabushiki Kaisha Toshiba Speech synthesis apparatus, speech synthesis method, speech synthesis program product, and learning apparatus

Also Published As

Publication number Publication date
DE60205421T2 (de) 2006-04-20
EP1246163B1 (en) 2005-08-10
CN1185619C (zh) 2005-01-19
JP2002358090A (ja) 2002-12-13
EP1246163A3 (en) 2003-08-13
KR20020076144A (ko) 2002-10-09
DE60205421D1 (de) 2005-09-15
KR100457414B1 (ko) 2004-11-16
CN1378199A (zh) 2002-11-06
EP1246163A2 (en) 2002-10-02

Similar Documents

Publication Publication Date Title
JP4469883B2 (ja) 音声合成方法及びその装置
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
KR940002854B1 (ko) 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
JP3563772B2 (ja) 音声合成方法及び装置並びに音声合成制御方法及び装置
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JPH031200A (ja) 規則型音声合成装置
WO2018084305A1 (ja) 音声合成方法
US7251601B2 (en) Speech synthesis method and speech synthesizer
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP2002268658A (ja) 音声分析及び合成装置、方法、プログラム
US20090326951A1 (en) Speech synthesizing apparatus and method thereof
JP2018077283A (ja) 音声合成方法
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
CN100508025C (zh) 合成语音的方法和设备及分析语音的方法和设备
JP2612867B2 (ja) 音声ピッチ変換方法
JP6834370B2 (ja) 音声合成方法
JP3394281B2 (ja) 音声合成方式および規則合成装置
JPS5880699A (ja) 音声合成方式
JP3284634B2 (ja) 規則音声合成装置
JP6822075B2 (ja) 音声合成方法
JP2018077280A (ja) 音声合成方法
JP3967571B2 (ja) 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム
JPH0553595A (ja) 音声合成装置
JP2001312300A (ja) 音声合成装置
JPH01304500A (ja) 音声合成方式とその装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051013

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081021

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091021

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101021

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees