JP5958866B2

JP5958866B2 - 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム

Info

Publication number: JP5958866B2
Application number: JP2014528171A
Authority: JP
Inventors: 倫靖中野; 後藤　真孝; 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2012-08-01
Filing date: 2013-07-30
Publication date: 2016-08-02
Anticipated expiration: 2033-07-30
Also published as: WO2014021318A1; US9368103B2; EP2881947A4; EP2881947B1; EP2881947A1; US20150302845A1; JPWO2014021318A1

Description

本発明は、音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び方法、音声信号の合成システム及び方法に関するものである。

従来、スペクトル包絡推定に関する研究は数多くなされてきたが、適切な包絡の推定は依然困難な課題である。また群遅延を合成に活用する研究があったが、ピッチマークと呼ばれる時刻情報が必要であった。

例えば、ソースフィルタ分析（非特許文献１）は、音声（歌声及び話声）や楽器音を扱う上で重要な信号処理の一つである。音声信号（観測信号）から適切なスペクトル包絡を得ることができれば、高性能な分析や高品質な合成、音の変形等の幅広い応用が考えられる。またスペクトル包絡に加えて位相情報（群遅延）まで適切に推定することができれば、合成音の自然性向上が期待できる。

従来、音の分析においては、スペクトルの振幅情報が重要視されていて、位相情報（群遅延）が考慮されることは少なかった。しかし、音の合成においては、位相が自然性の知覚に重要な役割を果たす。例えば、正弦波合成においては、初期位相が自然発話からπ／８よりも大きくずれると、ずれの大きさに応じて知覚的自然性が単調に減少することが知られている（非特許文献２）。また、分析合成系では、スペクトル包絡からインパルス応答を求めて単位波形（一周期分の波形）とする際に、最小位相応答が零位相応答よりも自然性が高いことが知られている（非特許文献３）。さらに、自然性向上を目的とした単位波形の位相制御を行う研究（非特許文献４）もある。

また従来、音声信号などの高品質な合成や変形操作のために、信号モデリングに関する数多くの研究がなされてきた。それらの研究では、補足情報を用いない場合、補足情報としてＦ0推定を伴う場合、音素ラベルを必要とする場合がある。代表的な手法として、入力信号を時間周波数平面でのパワースペクトログラムに展開して扱うPhase Vocoder（非特許文献５及び６）がある。周期信号の時間伸縮等が可能だが、非周期性やＦ0の変動等が原因で、品質が劣化してしまう問題がある。

また、古くから知られたスペクトル包絡推定法として、ＬＰＣ分析（非特許文献７及び８）やケプストラム等があり、様々な拡張や組み合わせがなされてきた（非特許文献９乃至１３）。しかし、包絡概形がＬＰＣやケプストラムの分析次数によって決定されるため、次数によっては包絡を適切に表現できない可能性がある。

さらに、補足情報としてＦ0推定を伴う分析もある。すなわち時間領域の波形をピッチマークに基づいて単位波形として切り出し、それを基本周期で重畳加算するPitch Synchronized Overlap-Add（PSOLA）（非特許文献１及び１４）が、Ｆ0に適応した分析として古くから知られている手法である。Ｆ0の変化にも対応可能であり、位相情報が保存されていることから合成品質が高い。しかし、ピッチマーク付与の難しさや、Ｆ0の変更や非定常部における品質劣化に関する問題がある。

音声・音楽信号における正弦波モデル（非特許文献１５及び１６）も、調波構造をモデル化するためにＦ0推定を伴う。従来、調波成分と広帯域成分（ノイズ等）のモデル化（非特許文献１７及び１８）、スペクトログラムからの推定（非特許文献１９）、パラメータの反復推定（非特許文献２０及び２１）、２次補間に基づく推定（非特許文献２２）、時間分解能の向上（非特許文献２３）、非定常音声での推定（非特許文献２４及び２５）、重畳音声での推定（非特許文献２６）等の数多くの拡張がなされてきた。これら正弦波モデルの多くは、位相を含めて推定することから高品質な合成が可能であり、高い時間分解能も実現されている（非特許文献２３及び２４）。

一方、ソースフィルタ分析に基づいたシステム（VOCODER）に、Ｆ0適応分析の考え方を取り入れたSTRAIGHT（非特許文献２７）は、その分析合成品質の高さから世界中の研究コミュニティで使用されている。STRAIGHTでは、Ｆ0適応した平滑化等の処理によって入力音声信号から周期性を除去したスペクトル包絡を得るが、品質の高さに加えて、高い時間分解能も持つ。また、TANDEM窓によって時間方向の変動を除去するTANDEM-STRAIGHT（非特許文献２８）や、スペクトルピークの強調（非特許文献２９）、高速計算法（非特許文献３０）等への拡張がある。これらの研究では、位相を陽に推定せず、非周期成分（「調波成分の和あるいは周期的パルス列により駆動された応答により記述することのできない成分」と定義されている。）をガウスノイズで畳み込む混合励振による合成方式や、高域の位相（群遅延）を乱数を用いて拡散させる方式、などで合成品質の自然性向上を図っている。しかし、位相の操作に関する基準は明確になっていない。その他、元の音声信号と推定包絡のインパルス応答波形との逆畳込みによって、励起信号を抽出して利用する方法もある（非特許文献３１）が、位相を効率的に表現しているとはいえず、補間や変換操作への応用が困難である。また、群遅延を推定・平滑化して分析合成する研究がある（非特許文献３２及び３３）が、ピッチマークが必要であった。

以上の研究に加え、スペクトル包絡を混合ガウス分布（GMM）によってモデル化する研究もあり、STRAIGHTスペクトルをモデリングする研究（非特許文献３４）や、Ｆ0と包絡の同時最適化による推定を定式化した研究（非特許文献３５）がある。

これらの研究に共通する問題としては、局所的な観測からの分析である以上、調波構造（Ｆ0の整数倍の周波数に位置する成分）のみがモデル化され、調波構造間の伝達関数は補間によってしか得られないという問題がある。

さらに補足情報として音素ラベルを活用する研究もある。すなわち観測できない調波構造間の包絡成分を推定するために、分析時刻と同一の音素で、異なるＦ0（異なるフレーム）のスペクトルを統合することで、真の包絡を推定しようとする研究がある（非特許文献３６乃至３８）。単一音のみではなく、音楽音響信号中のボーカルを対象とした研究も存在し（非特許文献３９）、同一の音素であれば、類似した声道形状を持つという仮定に基づく。しかし、正確な音素ラベルが必要であり、また歌声のようにコンテキストの違いによる変動が大きい場合には、過剰な平滑化につながる可能性がある。

また特開平１０−９７２８７号公報（特許文献１）には、位相調整成分を、周波数軸上で、乱数と帯域制限関数を畳み込み、帯域制限された乱数を求めるステップと、帯域制限された乱数と遅延時間の変動の目標値とを掛け合わせて、群遅延特性を求めるステップと、群遅延特性を周波数で積分することにより、位相特性を求めるステップと、位相特性と虚数単位とを掛け合わせて、指数関数の指数とすることにより、位相調整成分を得るステップとにより得る発明が開示されている。

特開平１０−９７２８７号公報

Zolzer, U. and Amatriain, X.: DAFX - Digital Audio Effects, Wiley (2002). 伊藤仁，矢野雅文：話速変換音声の知覚的自然性に関する検討，電子情報通信学会技術研究報告EA，pp. 13-18 (2008). 松原貴司，森勢将雅，西浦敬信：高品質音声合成における有声音の位相特性が知覚に与える影響，日本音響学会聴覚研究会資料，Vol. 40, No. 8, pp. 653-658 (2010). 濱上知樹：音源波形形状を高調波位相により制御する音声合成方式，日本音響学会誌，Vol. 54, No. 9, pp. 623-631 (1998). Flanagan, J. and Golden, R.: Phase Vocoder, Bell System Technical Journal, Vol. 45, pp. 1493-1509 (1966). Griffin, D. W.: Multi-Band Excitation Vocoder, Technical report (Massachusetts Institute of Technology. Research Laboratory of Electronics) (1987). Itakura, F. and Saito, S.: Analysis Synthesis Telephony based on the Maximum Likelihood Method, Reports of the 6th Int. Cong. on Acoust., vol. 2, no. C-5-5, pp. C17-20 (1968). Atal, B. S. and Hanauer, S.: Speech Analysis and Synthesis by Linear Prediction of the Speech Wave, J. Acoust. Soc. Am., Vol. 50, No. 4, pp. 637-655 (1971). Tokuda, K., Kobayashi, T., Masuko, T. and Imai, S.: Melgeneralized Cepstral Analysis - A Unified Approach to Speech Spectral Estimation, Proc. ICSLP1994, pp. 1043-1045 (1994). 今井聖，阿部芳春：改良ケプストラム法によるスペクトル包絡の抽出，電子通信学会論文誌，Vol. J62-A, No. 4, pp.217-223 (1979). Robel, A. and Rodet, X.: Efficient Spectral Envelope Estimation and Its Application to Pitch Shifting and Envelope Preservation, Proc. DAFx2005, pp. 30-35 (2005). Villavicencio, F., Robel, A. and Rodet, X.: Extending Efficient Spectral Envelope Modeling to Mel-frequency Based Representation, Proc. ICASSP2008, pp. 1625-1628 (2008). Villavicencio, F., Robel, A. and Rodet, X.: Improving LPC Spectral Envelope Extraction of Voiced Speech by True-Envelope Estimation, Proc. ICASSP2006, pp. 869-872 (2006). Moulines, E. and Charpentier, F.: Pitch-synchronous Waveform Processing Techniques for Text-to-speech Synthesis Using Diphones, Speech Communication, Vol. 9, No. 5-6, pp. 453-467 (1990). McAulay, R. and T.Quatieri: Speech Analysis/Synthesis Based on A Sinusoidal Representation, IEEE Trans. ASSP, Vol. 34, No. 4, pp. 744-755 (1986). Smith, J. and Serra, X.: PARSHL: An Analysis/Synthesis Program for Non-harmonic Sounds Based on A Sinusoidal Representation, Proc. ICMC 1987, pp. 290-297 (1987). Serra, X. and Smith, J.: Spectral Modeling Synthesis: A Sound Analysis/Synthesis Based on A Deterministic Plus Stochastic Decomposition, Computer Music Journal, Vol. 14, No. 4, pp. 12-24 (1990). Stylianou, Y.: Harmonic plus Noise Models for Speech, combined with Statistical Methods, for Speech and Speaker Modification. Depalle, P. and H´elie, T.: Extraction of Spectral Peak Parameters Using a Short-time Fourier Transform Modeling and No Sidelobe Windows, Proc. WASPAA1997 (1997). George, E. and Smith, M.: Analysis-by-Synthesis/Overlap-Add Sinusoidal Modeling Applied to The Analysis and Synthesis of Musical Tones, Journal of the Audio Engineering Society, Vol. 40, No. 6, pp. 497-515 (1992). Pantazis, Y., Rosec, O. and Stylianou, Y.: Iterative Estimation of Sinusoidal Signal Parameters, IEEE Signal Processing Letters, Vol. 17, No. 5, pp. 461-464 (2010). Abe, M. and Smith III, J. O.: Design Criteria for Simple Sinusoidal Parameter Estimation based on Quadratic Interpolation of FFT Magnitude Peaks, Proc. AES 117th Convention (2004). Bonada, J.: Wide-Band Harmonic Sinusoidal Modeling, Proc. DAFx-08, pp. 265-272 (2008). Ito, M. and Yano, M.: Sinusoidal Modeling for Nonstationary Voiced Speech based on a Local Vector Transform, J. Acoust. Soc. Am., Vol. 121, No. 3, pp. 1717-1727 (2007). Pavlovets, A. and Petrovsky, A.: Robust HNR-based Closed-loop Pitch and Harmonic Parameters Estimation, Proc. INTERSPEECH2011, pp. 1981-1984 (2011). Kameoka, H., Ono, N. and Sagayama, S.: Auxiliary Function Approach to Parameter Estimation of Constrained Sinusoidal Model for Monaural Speech Separation, Proc. ICASSP 2008, pp. 29-32 (2008). Kawahara, H., Masuda-Katsuse, I. and de Cheveigne, A.: Restructuring Speech Representations Using a Pitch Adaptive Time-frequency Smoothing and an Instantaneous Frequency Based on F0 Extraction: Possible Role of a Repetitive Structure in Sounds, Speech Communication, Vol. 27, pp. 187-207 (1999). Kawahara, H., Morise, M., Takahashi, T., Nisimura, R., Irino, T. and Banno, H.: Tandem-STRAIGHT: A Temporally Stable Power Spectral Representation for Periodic Signals and Applications to Interference-free Spectrum, F0, and Aperiodicity Estimation, Proc. of ICASSP 2008, pp. 3933-3936 (2008). 赤桐隼人，森勢将雅，入野俊夫，河原英紀：スペクトルピークを強調したＦ0適応型スペクトル包絡抽出法の最適化と評価，電子情報通信学会論文誌，Vol. J94-A, No. 8, pp. 557-567 (2011). 森勢将雅，松原貴司，中野皓太，西浦敬信：高品質音声合成を目的とした母音の高速スペクトル包絡推定法，電子情報通信学会論文誌，Vol. J94-D, No. 7, pp. 1079-1087 (2011). Morise, M.: PLATINUM: A Method to Extract Excitation Signals for Voice Synthesis System, Acoust. Sci. & Tech., Vol. 33, No. 2, pp. 123-125 (2012). 坂野秀樹，陸金林，中村哲，鹿野清宏，河原英紀：時間領域平滑化群遅延を用いた短時間位相の効率的表現方法，電子情報通信学会論文誌，Vol. J84-D-II, No. 4, pp. 621-628 (2001). 坂野秀樹，陸金林，中村哲，鹿野清宏，河原英紀：時間領域平滑化群遅延による位相制御を用いた声質制御方式，電子情報通信学会論文誌，Vol. J83-D-II, No. 11, pp. 2276-2282 (2000). Zolfaghari, P., Watanabe, S., Nakamura, A. and Katagiri, S.: Modelling of the Speech Spectrum Using Mixture of Gaussians, Proc. ICASSP 2004, pp. 553-556 (2004). Kameoka, H., Ono, N. and Sagayama, S.: Speech Spectrum Modeling for Joint Estimation of Spectral Envelope and Fundamental Frequency, Vol. 18, No. 6, pp. 2502-2505 (2006). Akamine, M. and Kagoshima, T.: Analytic Generation of Synthesis Units by Closed Loop Training for Totally Speaker Driven Text to Tpeech System (TOS Drive TTS), Proc. ICSLP1998, pp. 1927-1930 (1998). Shiga, Y. and King, S.: Estimating the Spectral Envelope of Voiced Speech Using Multi-frame Analysis, Proc. EUROSPEECH2003, pp. 1737-1740 (2003). Toda, T. and Tokuda, K.: Statistical Approach to Vocal Tract Transfer Function Estimation Based on Factor Analyzed Trajectory HMM, Proc. ICASSP2008, pp. 3925-3928 (2008). Fujihara, H., Goto, M. and Okuno, H. G.: A Novel Framework for Recognizing Phonemes of Singing Voice in Polyphonic Music, Proc. WASPAA2009, pp. 17-20 (2009).

従来は、スペクトル包絡及び群遅延の推定に、ピッチマーク［基本周波数に同期した分析を行う際の、波形の駆動点（かつ分析時刻）を示す時刻情報。声門音源の励起時刻、もしくは基本周期中で振幅が大きい時刻が用いられる］、音素情報（音素ラベル）等の付随情報を前提とするため、分析に必要な情報量が多く、しかも推定したスペクトル包絡及び群遅延の応用可能性を高めることに限界があった。

本発明の目的は、音声（歌声及び話声）の高性能な分析と高品質な合成のために、音声信号からそのスペクトル包絡と群遅延を高い精度と時間分解能で推定する音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び方法を提供することにある。

本発明の他の目的は、従来よりも合成性能の高い音声信号の合成システム及び方法を提供することにある。

本発明の更に他の目的は、音声分析合成のためのスペクトル包絡及び群遅延の推定用プログラム及び音声信号合成用プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することにある。

本発明の音声分析合成のためのスペクトル包絡及び群遅延の推定システムは、少なくとも１つのプロセッサを用いて実現された基本周波数推定部と、振幅スペクトル取得部と、群遅延抽出部と、スペクトル包絡統合部と、群遅延統合部とから構成される。基本周波数推定部は、音声信号から全時刻または全サンプリング点において基本周波数Ｆ0を推定する。振幅スペクトル取得部は、全時刻または全サンプリング点における基本周波数Ｆ0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音響信号を複数のフレームに分割し、複数のフレーム中の音声信号についてＤＦＴ（離散フーリエ変換）分析を行うことにより、複数のフレームそれぞれにおける振幅スペクトルを取得する。群遅延抽出部は、複数のフレーム中の音声信号についてＤＦＴ（離散フーリエ変換）分析を伴う群遅延抽出アルゴリズムを実施して複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する。スペクトル包絡統合部は、所定の時間間隔で、基本周波数Ｆ0の基本周期に基づいて定められた所定の期間内に含まれる複数のフレームに対応する複数の振幅スペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求める。群遅延統合部は、所定の時間間隔で、複数の群遅延からスペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める。本発明によれば、複数のフレームのそれぞれについて求めた振幅スペクトルから求めた重合スペクトルから音声合成のためのスペクトル包絡を順次求め、複数の群遅延からスペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択して、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める。このようにして求めた音声合成のためのスペクトル包絡の推定性能は高く、また推定した音声合成のための群遅延は、従来の技術以上の詳細さで推定できる。

基本周波数推定部では、基本周波数Ｆ0の推定と併せて有声区間及び無声区間の判定を行い、無声区間における基本周波数Ｆ0を有声区間における値で補間するかまたは無声区間に予め定めた値を付与する。このようにすると無声区間においても、スペクトル包絡及び群遅延が有声区間と同様の枠組みで推定することができる。

またスペクトル包絡統合部では、重合スペクトルを平均化して音声合成のためのスペクトル包絡を求める方法は任意である。例えば、重合スペクトルの最大包絡と最小包絡の平均として音声合成のためのスペクトル包絡を求めることができる。また重合スペクトルの最大包絡と最小包絡の中間値を平均として、音声合成のためのスペクトル包絡を求めてもよい。このようにしてスペクトル包絡を求めると、重合スペクトルの変動幅が大きい場合でも、より適切なスペクトル包絡を求めることができる。

また平均を求める際の最小包絡として、最小包絡の谷を埋めるように最大包絡を変形して得た変形最小包絡を用いるのが好ましい。このような最小包絡を用いると、合成した音声の聴取印象がより自然なものとなる。

またスペクトル包絡統合部では、Ｆ0に対応する周波数ｂｉｎ以下の帯域のスペクトル包絡の値をＦ0に対応する周波数ｂｉｎのスペクトル包絡の値で置換したものを音声合成のためのスペクトル包絡として求めるのが好ましい。これはＦ0に対応する周波数ｂｉｎ以下の帯域におけるスペクトル包絡が不安定だからである。したがってこのようにすると、Ｆ0に対応する周波数ｂｉｎ以下の帯域におけるスペクトル包絡を安定したものとして、合成した音声の聴取印象をより自然なものとすることができる。

なお二次元ローパスフィルタにより、置換したスペクトル包絡をフィルタ処理するようにしてもよい。フィルタ処理をすると、置換したスペクトル包絡からノイズを除去することができるので、合成した音声の聴取印象を更に自然なものとすることができる。

また群遅延統合部では、重合スペクトルの周波数成分ごとの最大包絡に対応するフレームにおける群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正し、保存した群遅延を正規化し、正規化した群遅延を音声合成のための群遅延とするように構成するのが好ましい。これは群遅延が、基本周波数Ｆ0に対応する基本周期に応じた時間軸方向の広がり（間隔）を持つためである。このように、群遅延を時間軸方向に正規化することにより、基本周波数Ｆ0の影響を取り除くことができ、再合成時のＦ0に応じて変形可能な群遅延を得ることができる。

また群遅延統合部でも、Ｆ0に対応する周波数ｂｉｎ以下の帯域の前記群遅延の値をＦ0に対応する周波数ｂｉｎの群遅延の値で置換したものを音声合成のための群遅延とするのが好ましい。これはＦ0に対応する周波数ｂｉｎ以下の帯域における群遅延が不安定であることに基づいている。したがってこのようにすると、Ｆ0に対応する周波数ｂｉｎ以下の帯域における群遅延を安定したものとして、合成した音声の聴取印象をより自然なものとすることができる。

また群遅延統合部では、置換した群遅延を平滑化したものを音声合成のための群遅延とするのが好ましい。これは分析合成系として扱うためには、連続的に変化した値となっていると都合が良いためである。

なお平滑化では、例えば、置換した前記群遅延をｓｉｎ関数及びｃｏｓ関数で変換して基本周期に起因する不連続を除去する。その後二次元ローパスフィルタによりフィルタ処理した後にｓｉｎ関数及びｃｏｓ関数をｔａｎ^-1関数により元の状態に戻したものを音声合成のための群遅延とするのが好ましい。群遅延のｓｉｎ関数及びｃｏｓ関数への変換は、二次元ローパスフィルタでのフィルタ処理の便宜のためである。

本発明の音声信号の合成システムは、少なくとも１つのプロセッサにより実現された読み出し部と、変換部と、単位波形生成部と、合成部とか構成される。読み出し部は、本発明の音声分析合成のためのスペクトル包絡及び群遅延の推定システムにより推定した音声分析合成のためのスペクトル包絡及び群遅延を所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、合成のためのスペクトル包絡及び群遅延を読み出す。そして変換部は、読み出した群遅延を位相スペクトルに変換する。単位波形生成部は、読み出したスペクトル包絡と位相スペクトルとから単位波形を生成する。そして合成部は、生成した複数の単位波形を合成のための基本周期で重畳加算して合成された音声信号を出力する。本発明の合成システムによれば、全体的に群遅延を再現して合成することができ、合成品質も自然なものが得られる。

なお変換部による変換の前に、読み出した群遅延の低域における時間方向の不連続状態の発生を抑制する不連続状態抑制部を更に備えてもよい。不連続状態抑制部を設けると、合成品質が更に自然なものとなる。

なお不連続状態抑制部は、有声区間ごとに群遅延へ最適なオフセットを加算して再度正規化した後、低周波数領域の群遅延を平滑化するように構成するのが好ましい。このように平滑化すると、群遅延の低周波数領域の不安定さを無くすことができる。平滑化では、読み出したフレームの群遅延をｓｉｎ関数及びｃｏｓ関数で変換して、その後二次元ローパスフィルタによりフィルタ処理した後にｓｉｎ関数及びｃｏｓ関数をｔａｎ^-1関数により元の状態に戻したものを音声合成のための群遅延とするのが好ましい。このようにすれば二次元ローパスフィルタによりフィルタ処理が可能になり、平滑化を容易に実施することができる。

また変換部による変換の前または不連続状態抑制部の後に、群遅延に合成のための基本周期を係数として乗ずる補正を実施する補正部を更に備えるのが好ましい。このようにすると、基本周波数Ｆ0に対応する基本周期に応じた時間軸方向の広がり（間隔）を持つ群遅延を時間軸方向に正規化することができ、より精度の位相スペクトルを得ることができる。

また合成部は、分析窓を合成窓に変換し、合成窓を単位波形に掛けた補正単位波形を基本周期で重畳加算するように構成するのが好ましい。このよう合成窓で補正した補正単位波形を用いると、より自然な合成音声を聴取することができる。

本発明のスペクトル包絡及び群遅延の推定方法は、少なくとも１つのプロセッサを用いて実行する基本周波数推定ステップと、振幅スペクトル取得ステップと、群遅延抽出ステップと、スペクトル包絡統合ステップと、群遅延統合ステップとを実行する。基本周波数推定ステップは、音声信号から全時刻または全サンプリング点において基本周波数Ｆ0を推定する。振幅スペクトル取得ステップは、全時刻または全サンプリング点における基本周波数Ｆ0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音声信号を複数のフレームに分割し、複数のフレーム中の音声信号についてＤＦＴ分析を行うことにより、複数のフレームそれぞれにおける振幅スペクトルを取得する。群遅延抽出ステップは、複数のフレーム中の音声信号についてＤＦＴ分析を伴う群遅延抽出アルゴリズムを実施して複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する。スペクトル包絡統合ステップは、所定の時間間隔で、基本周波数Ｆ0の基本周期に基づいて定められた所定の期間内に含まれる複数のフレームに対応する複数の振幅スペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求める。群遅延統合ステップは、所定の時間間隔で、複数の群遅延からスペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める。

上記方法をコンピュータで実施することを可能にするように構成された音声分析合成のためのスペクトル包絡及び群遅延の推定用プログラムは、非一時的なコンピュータ読み取り可能な記録媒体に記録される。

本発明の音声信号の合成方法では、少なくとも１つのプロセッサを用いて、読み出しステップと、変換ステップと、単位波形生成ステップと、合成ステップとを実行する。読み出しステップでは、本発明のスペクトル包絡及び群遅延の推定方法により推定した音声分析合成のためのスペクトル包絡及び群遅延を所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、合成のためのスペクトル包絡及び群遅延を読み出す。変換ステップは、読み出した群遅延を位相スペクトルに変換する。単位波形生成ステップは、読み出したスペクトル包絡と位相スペクトルとから単位波形を生成する。そして合成ステップは、生成した複数の単位波形を合成のための基本周期で重畳加算して合成された音声信号を出力する。

上記音声信号の合成方法をコンピュータで実施することを可能にするように構成された音声信号の合成用プログラムは、コンピュータ読み取り可能な記録媒体に記録される。

本発明の音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声合成システムの実施の形態の一例の基本構成を示すブロック図である。（Ａ）は歌声信号の波形、（Ｂ）はそのスペクトル包絡、（Ｃ）は（正規化された）群遅延の関係を示す図である。本実施の形態をコンピュータを用いて実施する場合に用いるコンピュータプログラムの基本アルゴリズムを示すフローチャートである。音声合成のためのスペクトル包絡の推定工程を説明するために用いる図である。音声合成のための群遅延の推定工程を説明するために用いる図である。Ｆ0に応じた時定数を持つガウス窓を掛けた複数フレームの重畳表示（上図）と、それらに対応するスペクトル（中図）と群遅延（下図）を示す図である。Ｆ0適応多重フレーム統合分析によるスペクトル包絡と存在範囲の推定結果を示す図である。歌声波形とそのＦ0適応スペクトル（上図）とその拡大図（中図）、周波数645:9961 Hz における時間方向の軌跡（下図）を示す図である。図３の多重フレーム統合分析ＳＴ５においてスペクトル包絡ＳＥを得るためのステップＳＴ５０乃至ＳＴ５７を示す図である。統合の工程を説明するために用いる図である。（Ａ）乃至（Ｃ）は、最大包絡と最小包絡の平均として推定されたスペクトル包絡を説明するために用いる図である。多重フレーム統合分析によるスペクトルとその２次元ローパスフィルタをかけた時間方向の軌跡を示す図である。（Ａ）は最大包絡を示し、（Ｂ）は最大包絡に対応する群遅延を示す図である。（Ａ）は歌声波形、（Ｂ）はそのＦ0適応スペクトル及び最大包絡に対応する群遅延を示す図である。複数の基本周波数適応群遅延から音声合成のための群遅延ＧＤをコンピュータを利用して求める際に用いるプログラムのアルゴリズムの一例を示すフローチャートである。正規化を実施するためのアルゴリズムを示す図である。（Ａ）乃至（Ｄ）は、正規化処理のステップにおける群遅延の状態を示す図である。平滑化を実施するためのアルゴリズムを示す図である。合成システムをコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。音声信号の合成の過程を説明するために用いる波形図の一部である。音声信号の合成の過程を説明するために用いる波形図の残部である。低域の時間方向の不連続状態の発生を抑制するプログラムのアルゴリズムを示す図である。群遅延の更新を行うために用いるプログラムのアルゴリズムを示す図である。群遅延の更新の説明に用いる図である。群遅延の更新の説明に用いる図である。低周波数領域の平滑化についてのアルゴリズムの一例のフローチャートである。（Ａ）乃至（Ｃ）は、ステップＳＴ１０２Ｂの平滑化の状況の一例の一部を示す図である。（Ｄ）乃至（Ｆ）は、ステップＳＴ１０２Ｂの平滑化の状況の一例の残部を示す図である。ステップＳＴ１０４の詳細なアルゴリズムを示すフローチャートである。スペクトログラムの比較を示すための図であり、本実施の形態のスペクトログラム（上図）、STRAIGHTスペクトログラム（中図）、そして０．４秒におけるそれぞれのスペクトル包絡（下図）を示す。 cascade-type Klatt 合成器によって生成した包絡と、それに基づいて合成した音声から、本手法及び従来手法によって推定されたスペクトル包絡との比較を示す図である。本実施の形態によって再合成された音の分析結果を示す図である。（Ａ）は歌声波形、（Ｂ）はそのＦ0適応スペクトル及び最大包絡のピークに対応する群遅延の関係を示す図である。

以下図面を参照して本発明の実施の形態を詳細に説明する。図１は、本発明の音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声合成システムの実施の形態の一例の基本構成を示すブロック図である。本実施の形態のスペクトル包絡及び群遅延の推定システム１は、少なくとも１つのプロセッサを備えたコンピュータにプログラムをインストールして実現した基本周波数推定部３と、振幅スペクトル取得部５と、群遅延抽出部７と、スペクトル包絡統合部９と、群遅延統合部１１と、メモリ１３から構成される。音声信号の合成システム２は、少なくとも１つのプロセッサを備えたコンピュータに音声信号の合成用プログラムをインストールして実現した読み出し部１５と、変換部１７と、単位波形生成部１９と、合成部２１と、不連続状態抑制部２３と、補正部２５から構成される。

スペクトル包絡及び群遅延の推定システム１は、図２（Ａ）に示すような音声信号（歌声波形）から図２（Ｂ）に示すような合成のためのスペクトル包絡と図２（Ｃ）に示すような位相情報としての合成のための群遅延を推定する。図２（Ｂ）及び図２（Ｃ）は横軸が時間で、縦軸が周波数であり、ある時刻の有る周波数におけるスペクトル包絡の振幅の大きさと群遅延の相対的な大きさは色やグレースケールの相違により表示している。図３には、本実施の形態をコンピュータを用いて実施する場合に用いるコンピュータプログラムの基本アルゴリズムを示すフローチャートである。図４は、音声合成のためのスペクトル包絡の推定工程を説明するために用いる図である。図５は、音声合成のための群遅延の推定工程を説明するために用いる図である。

［スペクトル包絡と群遅延の推定］
まず本実施の形態において、音声合成のためのスペクトル包絡と群遅延を求める方法を簡単に説明する。図６に複数フレームの波形とそれに対応する短時間フーリエ変換（STFT）によるスペクトルと群遅延を示す。図６に示すように、それぞれのスペクトルには谷があり、別のフレームではその谷が埋まっているため、これらを統合することで定常なスペクトル包絡が得られる可能性がある。ここで、群遅延のピーク（分析時刻から離れていることを意味する）とスペクトルの谷が対応付いていることから、単一の窓を使っただけでは、滑らかな包絡が得られないことが分かる。そこで本実施の形態では、全時刻または全サンプリング点における基本周波数Ｆ0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音声信号を複数のフレームに分割する。そして本実施の形態において、推定すべき音声合成のためのスペクトル包絡は、後述する重合スペクトルの最大包絡と最小包絡の間にあると考え、まず最大値（最大包絡）と最小値（最小包絡）を計算する。ただし、最大・最小の操作では、時間方向に滑らかな包絡を得られず、基本周波数Ｆ0に応じたステップ状の軌跡を描くため、それを平滑化して滑らかにする。最後に、最大包絡と最小包絡の平均として音声合成のためのスペクトル包絡を得る。同時に、最大から最小の範囲をスペクトル包絡の存在範囲として保存する（図７）。また、推定すべき群遅延としては、最も共振する時刻を表現するために、最大包絡に対応する値を用いる。

本発明の方法を実施する本実施の形態のスペクトル包絡及び群遅延の推定システム１（図１）において、基本周波数推定部３は、音声信号（伴奏や大きなノイズを含まない歌声及び話声の音響信号）を入力として（図３のステップＳＴ１）、音声信号から全時刻または全サンプリング点において音高（基本周波数Ｆ0）を推定する。本実施の形態では、この推定を１／４４１００秒の時間単位で実施する。推定と同時に、有声区間と無声区間の判定を行う（図３のステップＳＴ２）。この判定では、例えば有声らしい閾値を設定し、その閾値より音高が大きい区間を有声区間として、有声区間と無声区間とを判定する。そして無声区間については、適宜の音高の値を付与するか、隣り合う有声区間をつなぐように線形補間を行って、基本周波数が不連続にならないようにしている。なお、例えば音高の推定は［非特許文献２７］等に記載されているような方法を用いることができる。基本周波数Ｆ0の推定精度はできるだけ高いことが好ましい。

振幅スペクトル取得部５は、図３のステップＳＴ３で示したＦ0適応分析を行い且つ図３のステップＳＴ４のＦ0適応スペクトル（振幅スペクトル）の取得を行う。振幅スペクトル取得部５は、全時刻または全サンプリング点における基本周波数Ｆ0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音声信号を複数のフレームに分割する。

具体的に、本実施の形態では、図４に示すように基本周波数Ｆ0に応じて窓幅を変えた下記の式（１）で示されるガウス窓ω(τ)を用いて窓掛けを行って、時間単位毎に音声信号の波形を分割したフレームＸ1〜Ｘnを作成する。ここで、σ(t)は分析時刻ｔにおける基本周波数Ｆ0(t)によって決まる標準偏差であり、ガウス窓はＦＦＴ長をＮとしてＲＭＳ値で正規化する。

ガウス窓のσ(t)＝１／（３×Ｆ0(t)）は分析窓長が基本周期の２倍の長さに相当することを意味する（２×３σ(t)＝２／Ｆ0(t））。この窓長はPSOLA分析などでも用いられ、局所的なスペクトル包絡を近似するための適切な長さであることが知られている（非特許文献１）。

次に振幅スペクトル取得部５は、複数のフレームＸ1〜Ｘn中の分割した音声信号についてＦＦＴ（高速フーリエ変換）分析を含むＤＦＴ（離散フーリエ変換）を行うことにより、複数のフレームそれぞれにおける振幅スペクトルＹ1〜Ｙnを取得する。図８にＦ0適応分析の結果例を示す。このようにして得られた振幅スペクトルは、Ｆ0に起因する時間方向の変動を含み、周波数帯域に応じてピークが時間方向に少しずつずれて出現する。本明細書中では、これをＦ0適応スペクトルと呼ぶ。なお図８の上から一番上の図は歌声波形であり、２番目の図がＦ0適応スペクトルであり、３番目乃至５番目の図がその上の図の一部の拡大図、周波数６４５．９９６１Hzにおける時間方向の軌跡である。

基本周波数推定部３は、図３のステップＳＴ３で示したＦ0適応分析を行い且つ図３のステップＳＴ４のＦ0適応スペクトル（振幅スペクトル）の取得を行う。振幅スペクトル取得部５は、全時刻または全サンプリング点における基本周波数Ｆ0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音声信号を複数のフレームに分割する。本実施の形態では、図４及び図５に示すように基本周波数Ｆ0に応じて窓幅を変えたガウス窓を用いて窓掛けを行って、時間単位毎に音声信号の波形を分割したフレームＸ1〜Ｘnを作成する。なお振幅スペクトル取得部５と群遅延抽出部７におけるＦ0適応分析は、共通に実施されていてもよいのは勿論である。群遅延抽出部７は、複数のフレームＸ1〜Ｘn中の音声信号についてＤＦＴ（離散フーリエ変換）分析を伴う群遅延抽出アルゴリズムを実施して複数のフレームＸ1〜Ｘnのそれぞれにおける位相の周波数微分としての群遅延Ｚ1〜Ｚnを抽出する。群遅延抽出アルゴリズムの一例については、非特許文献３２及び３３に詳しく説明されている。

スペクトル包絡統合部９は、所定の時間間隔すなわちスペクトル包絡の離散時間（本実施の形態では１ｍｓ間隔）で、基本周波数Ｆ0の基本周期（１／Ｆ0）に基づいて定められた所定の期間内に含まれる複数のフレームに対応する複数の振幅スペクトルを重合して重合スペクトルを求める。そして重合スペクトルを平均化して音声合成のためのスペクトル包絡ＳＥを順次求める。図９は、図３の多重フレーム統合分析ステップＳＴ５においてスペクトル包絡ＳＥを得るためのステップＳＴ５０乃至ＳＴ５７を示している。ステップＳＴ５０に含まれるステップＳＴ５１乃至ＳＴ５６は１ｍｓごとに実施される。なおステップＳＴ５２は、後述する音声合成のための群遅延ＧＤを求めるために実施されるステップである。ステップＳＴ５１では、分析時刻ｔ前後の−１／（２×Ｆ0）〜１／（２×Ｆ0）の範囲の複数フレーム分の振幅スペクトル（Ｆ0適応スペクトル）を重合して得た重合スペクトルから最大包絡を選定する。図１０には、−１／（２×Ｆ0）〜１／（２×Ｆ0）の範囲の複数フレーム分の振幅スペクトルを重合して得た重合スペクトルから最大包絡を得るために、分析時刻ｔ前後の−１／（２×Ｆ0）〜１／（２×Ｆ0）の範囲内の複数フレームにおける振幅スペクトルの各周波数において、最大となる振幅部分を濃い色で示している。最大包絡とは、各周波数ごとの最大となる振幅部分をつなげたものである。そしてステップＳＴ５２では、ステップＳＴ５２で取得した最大包絡として選定された振幅スペクトルを得たフレームに対応する群遅延を周波数ごとに保存する。すなわち図１０に示すように、最大となる振幅値を取得した振幅スペクトルに対応する群遅延から、最大となる振幅値を得た周波数に対応する群遅延の値（時間）を、その周波数に対応する群遅延として保存する。次にステップＳＴ５３では、分析時刻ｔ前後の−１／（２×Ｆ0）〜１／（２×Ｆ0）の範囲の複数フレーム分の振幅スペクトル（Ｆ0適応スペクトル）を重合して得た重合スペクトルから最小包絡を選定する。すなわち−１／（２×Ｆ0）〜１／（２×Ｆ0）の範囲の複数フレーム分の振幅スペクトルを重合して得た重合スペクトルとし、最小包絡を得るということは、分析時刻ｔ前後の−１／（２×Ｆ0）〜１／（２×Ｆ0）の範囲の複数フレーム分の振幅スペクトルの各周波数成分において、最小となる振幅部分をつなげたものが重合スペクトルの最小包絡である。

重合スペクトルを平均化して「音声合成のためのスペクトル包絡」を求める方法は任意である。本実施の形態では、重合スペクトルの最大包絡と最小包絡の平均として音声合成のためのスペクトル包絡を求める（ステップＳＴ５５）。なお重合スペクトルの最大包絡と最小包絡の中間値を平均として、音声合成のためのスペクトル包絡を求めてもよい。このようにしてスペクトル包絡を求めると、重合スペクトルの変動幅が大きい場合でも、より適切なスペクトル包絡を求めることができる。

なお本実施の形態では、ステップＳＴ５４で、平均を求める際の最小包絡として、最小包絡の谷を埋めるように最大包絡を変形して得た変形最小包絡を用いている。このような最小包絡を用いると、合成した音声の聴取印象がより自然なものとなる。

またスペクトル包絡統合部９では、ステップＳＴ５６で、基本周波数Ｆ0に対応する周波数ｂｉｎ以下の帯域のスペクトル包絡の値を基本周波数Ｆ0に対応する周波数ｂｉｎのスペクトル包絡の値で置換したものを音声合成のためのスペクトル包絡としてを求めている。これは基本周波数Ｆ0に対応する周波数ｂｉｎ以下の帯域におけるスペクトル包絡が不安定だからである。したがってこのようにすると、基本周波数Ｆ0に対応する周波数ｂｉｎ以下の帯域におけるスペクトル包絡を安定したものとして、合成した音声の聴取印象をより自然なものとすることができる。

前述のように、上記ステップＳＴ５０（ステップＳＴ５１〜ＳＴ５６）は、所定の時間単位（１ｍｓ）ごとに実施され、時間単位（１ｍｓ）ごとのスペクトル包絡が推定される。そして本実施の形態では、ステップＳＴ５７で、二次元ローパスフィルタにより、置換したスペクトル包絡をフィルタ処理する。フィルタ処理をすると、置換したスペクトル包絡からノイズを除去することができるので、合成した音声の聴取印象を更に自然なものとすることができる。

本実施の形態では、スペクトル包絡を、統合範囲のスペクトルにおける最大値（最大包絡）と最小値（最小包絡）の平均として定義する（ステップＳＴ５５）。スペクトル包絡として、単に最大包絡を用いないのは、分析窓のサイドローブの影響等が含まれている可能性を考慮するためである。ここで、最小包絡にはＦ0に起因する多数の谷が残っており、スペクトル包絡として扱いづらい。そこで本実施の形態では、最大包絡を最小包絡にかぶせるように変形することで、包絡概形を保持しながらこれらの谷を除去する（ステップＳＴ５４）。図１１にこれらの例と、算出の流れを示す。具体的には、ステップＳＴ５４を実施するため、図１１（Ａ）に示すように、まず最小包絡のピーク（○印）を算出し、その周波数における最小包絡と最大包絡の振幅の比率を計算する（↓印）。次に図１１（Ｂ）に示すように、この変換比率を周波数軸上で線形補間する（↓印）ことで、全帯域の変換比率を得る。新しい最小包絡は、最大包絡にこの変換比率を乗じた後、古い最小包絡以上となるように変形して求める。図１１（Ｃ）に示すように、基本周波数Ｆ0以下の成分が、多くの場合に安定して推定できないため、基本周波数Ｆ0幅の窓による平滑化に相当する処理として基本周波数Ｆ0以下の包絡をＦ0における振幅値で置き換える（ステップＳＴ５６）。また、最大・最小操作によって得られた包絡は、時間方向のステップ状の不連続性が残るため、時間−周波数軸上の２次元ローパスフィルタによってこれを除去して（ステップＳＴ５７）、時間方向に滑らかなスペクトル包絡を得る（図１２）。

図１に示した群遅延統合部１１は、所定の時間間隔で、複数の群遅延からスペクトル包絡ＳＥの周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延ＧＤを順次求める。すなわち複数のフレームのそれぞれについて求めた振幅スペクトルから求めた重合スペクトルから音声合成のためのスペクトル包絡を順次求め、複数の群遅延からスペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択して、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める。ここで音声合成のための群遅延とは、統合範囲の中で最も共振する時刻を表現するために、最大包絡［図１３（Ａ）］に対応する群遅延の値として定義される［図１３（Ｂ）］。このようにして求めた群遅延ＧＤを、図９（Ａ）に示した歌声波形に関して、推定時刻に対応付けてＦ0適応スペクトル（振幅スペクトル）上に重ねて描画した図を図９（Ｂ）に示す。図９（Ｂ）から分かるように、最大包絡に対応する群遅延は、Ｆ0適応スペクトルのピーク時刻にほぼ相当する。

このようにして得られた群遅延は、基本周波数Ｆ0に対応する基本周期に応じた時間軸方向の広がり（間隔）を持つため、時間軸方向に正規化して扱う。時刻ｔ、周波数ｆにおける最大包絡に対応する群遅延を

とすると、基本周期（１／Ｆ0(t)）と、ｎ×Ｆ0(t)に対応する周波数ｂｉｎの値

を用いて、正規化された群遅延ｇ（ｆ，ｔ）を得る。

ここでｍｏｄ（ｘ，ｙ）は、ｘをｙで割った剰余を意味する。

また、

は、分析時刻の違いにおけるオフセットを除去する操作であり、ｎ＝１もしくはｎ＝１．５とした。（ｎ＝１付近では不安定になる場合があり、その場合、調波構造の間の値を基準とした方が、安定した結果を得ることができる。）
以上の操作によって、群遅延ｇ（ｆ，ｔ）は（０，１）の範囲で正規化された値となる。しかし、基本周期による剰余処理と、基本周期を範囲として統合していることが原因で、次の問題が残る。

（問題１）周波数方向に不連続性が発生する。

（問題２）時間方向にステップ状の不連続性が発生する。

以下、それぞれの解決法を述べる。

まず問題１は、図１２のＦ0＝３１８．６２８４Hz付近、１．２５kHz付近、１．７kHz付近等に見られるような基本周期に起因する不連続の存在である。この群遅延情報を変形するなど、柔軟に扱いたい場合に、このままでは都合が悪い。そこで、群遅延の値を（−π，π）の範囲に正規化しなおし、ｓｉｎとｃｏｓで展開すると、この不連続性が連続的に扱える。具体的には、次のように計算する。

続いて問題２は、スペクトル包絡の推定と同様の問題であり、そもそも波形の駆動が基本周期毎に起こることが原因である。ここで、分析合成系として扱うためには、周期間も連続的に変化した値となっていると都合が良いため、ｇ_x（ｆ，ｔ）とｇ_y（ｆ，ｔ）をそれぞれ平滑化しておく。

最後に、スペクトル包絡同様、基本周波数Ｆ0以下の成分が多くの場合に安定して推定できないため、基本周波数Ｆ0以下の正規化群遅延を基本周波数Ｆ0における値で置き換える。

上記動作を行う群遅延統合部１１を、コンピュータにインストールしたプログラムを用いて実現する場合について説明する。図１５は、複数の基本周波数適応群遅延（図６のＺ1〜Ｚnで示す群遅延）から音声合成のための群遅延ＧＤをコンピュータを利用して求める際に用いるプログラムのアルゴリズムの一例を示すフローチャートである。このアルゴリズムでは、１ｍｓごとに実施されるステップＳＴ１５０に図９のステップＳＴ５２を含んでいる。すなわちステップＳＴ５２では、最大包絡として選定された重合スペクトルに対応する群遅延を周波数ごとに保存する。そしてステップＳＴ５２１で、分析時刻のずれを補正する（図５参照）。すなわち群遅延統合部１１では、重合スペクトルの周波数成分ごとの最大包絡に対応するフレームにおける群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正する。これは群遅延が、基本周波数Ｆ0に対応する基本周期に応じた時間軸方向の広がり（間隔）を持つためである。次にステップＳＴ５２２で、分析時刻のずれを補正した群遅延を０〜１の範囲に正規化する。この正規化は、図１６に詳細を示すステップで実施される。なお図１７には、正規化処理のステップにおける群遅延の状態を示してある。まずｎ×Ｆ0に対応する周波数ｂｉｎの群遅延の値を保存する［ステップＳＴ５２２Ａ及び図１７（Ａ）］。次に群遅延から上記保存した値を引く［ステップＳＴ５２２Ｂ及び図１７（Ｂ）］。そして群遅延から上記保存した値を引いた値から群遅延の基本周期での剰余を算出する［ステップＳＴ５２２Ｃ及び図１７（Ｃ）］。次に上記値（剰余の算出結果）を基本周期で正規化して（割って）正規化された群遅延を得る［ステップＳＴ５２２Ｄ及び図１７（Ｄ）］。このように、群遅延を時間軸方向に正規化することにより、基本周波数Ｆ0の影響を取り除くことができ、再合成時のＦ0に応じて変形可能な群遅延を得ることができる。正規化した群遅延については、図１５のステップＳＴ５２３において、Ｆ0に対応する周波数ｂｉｎ以下の帯域の群遅延の値をＦ0に対応する周波数ｂｉｎの群遅延の値で置換したものを音声合成のための群遅延の基礎とする。これはＦ0に対応する周波数ｂｉｎ以下の帯域における群遅延が不安定であることに基づいている。したがってこのようにすると、Ｆ0に対応する周波数ｂｉｎ以下の帯域における群遅延を安定したものとして、合成した音声の聴取印象をより自然なものとすることができる。置換した群遅延をそのまま音声合成のための群遅延としてもよいが、本実施の形態では、ステップＳＴ５２４で、１ｍｓごとに求めた置換した群遅延を平滑化する。これは分析合成系として扱うためには、群遅延が連続的に変化した値となっていると都合が良いためである。

なお平滑化では、図１８に示すように、ステップＳＴ５２４Ａで、フレームごとに置換した群遅延をｓｉｎ関数及びｃｏｓ関数で変換して、基本周期に起因する不連続を除去する。次にステップＳＴ５２４Ｂで、全フレームに対して、二次元ローパスフィルタによりフィルタ処理した後に、ステップＳＴ５２４Ｃで群遅延のｓｉｎ関数及びｃｏｓ関数をｔａｎ^-1関数により元の状態に戻したものを音声合成のための群遅延とする。群遅延のｓｉｎ関数及びｃｏｓ関数への変換は、二次元ローパスフィルタでのフィルタ処理の便宜のためである。なおこの演算に用いる式は、後に説明する合成の際に使用する式と同じである。

上記のようにして推定された音声合成のためのスペクトル包絡及び群遅延は、図１のメモリ１３に保存される。

［スペクトル包絡と群遅延からの音声合成］
上述のようにして得られたスペクトル包絡と、正規化された群遅延を用いて合成するためには、従来の分析合成システムと同様、時間軸伸縮や振幅の制御を行い、合成のための基本周波数Ｆ0を指定する。そして指定した合成のための基本周波数Ｆ0とスペクトル包絡と、正規化された群遅延とに基づいて単位波形を順次生成し、生成した複数の単位波形を重畳加算することで音声を合成する。図１に示した音声信号の合成システム２は、読み出し部１５と、変換部１７と、単位波形生成部１９と、合成部２１とを基本構成要素とし、不連続状態抑制部２３および補正部２５を付随要素として構成される。図１９は、合成システムをコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。また図２０及び図２１は、音声信号の合成の過程を説明するために用いる波形図である。

読み出し部１５は、図２０に示すように、音声分析合成のためのスペクトル包絡及び群遅延の推定システム１により推定した音声合成のためのスペクトル包絡及び群遅延を所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数Ｆ0の逆数からなる合成のための基本周期１／Ｆ0で、合成のためのスペクトル包絡及び群遅延をメモリ１３から読み出す。そして変換部１７は、図２０に示すように読み出した群遅延を位相スペクトルに変換する。単位波形生成部１９は、図２０に示すように読み出したスペクトル包絡と位相スペクトルとから単位波形を生成する。そして合成部２１は、図２１に示すように生成した複数の単位波形を合成のための基本周期で重畳加算して合成された音声信号を出力する。この合成システムによれば、全体的に群遅延を再現して合成することができ、合成品質も自然なものが得られる。

なお図１の例では、変換部１７による変換の前に、読み出した群遅延の低域における時間方向の不連続状態の発生を抑制する不連続状態抑制部２３と補正部２５とを備えている。不連続状態抑制部２３は図１９のステップＳＴ１０２により実現される。ステップ１０２では、図２２に示すようにステップＳＴ１０２Ａにおいて有声区間ごとに最適なオフセットを探索して群遅延を更新した後、ステップＳＴ１０２Ｂにおいて低域群遅延の平滑化を実施する。ステップＳＴ１０２Ａにおける群遅延の更新は、図２３に示すステップにより実行される。図２４及び２５は、群遅延の更新の説明に用いる図である。まず不連続状態抑制部２３は、有声区間ごとに群遅延へ最適なオフセットを加算して再度正規化する更新を行った後（図２３のステップＳＴ１０２Ａ）、低周波数領域の群遅延を平滑化する（図２３のステップＳＴ１０２Ｂ）。最初のステップＳＴ１０２Ａでは、図２３に示すように、合成のための基本周波数Ｆ0に対応する周波数ｂｉｎの値を抽出する［ステップＳＴ１０２ａ及び図２３］。次に周期性を考慮した混合ガウス関数において中央のガウス関数の平均を０から１まで変化させ、それぞれとのフィッティング（適合）を計算する（ステップＳＴ１０２ｂ及び図２３］。ここで周期性を考慮したガウス関数は、平均が０．９で標準偏差が０．１／３のガウス関数である。フィッティングの結果は、図２４に示すように基本周波数Ｆ0に対応する周波数ｂｉｎの群遅延を考慮した分布で表すことができる。そしてこの分布の中心（最終値）が０．５となるように群遅延のオフセットを決定する（図２３のステップＳＴ１０２ｃ）。次に群遅延にオフセットを足して１で剰余を取る（図２３のステップＳＴ１０２ｄ）。図２５は、群遅延にオフセットを足して１で剰余を取ったときの群遅延の例を示している。このようにするとオフセットを反映した基本周波数Ｆ0に対応する周波数ｂｉｎの群遅延は図２４に示すようになる。

このようにして不連続状態抑制部２３は、有声区間ごとに群遅延へ最適なオフセットを加算して再度正規化する。そしてそのステップＳＴ１０２Ｂで、低周波数領域の群遅延を平滑化する。図２６は、低周波数領域の平滑化についてのアルゴリズムの一例のフローチャートを示している。図２７（Ａ）乃至（Ｃ）及び図２８（Ｄ）乃至（Ｆ）は、ステップＳＴ１０２Ｂの平滑化の状況の一例を順番に示している。平滑化では、図２６のステップＳＴ１０２ｅにおいて、読み出した後不連続状態を抑制したフレームの群遅延をｓｉｎ関数及びｃｏｓ関数で変換する［図２７（Ｂ）及び（Ｃ）］。その後図２６のステップＳＴ１０２ｆにおいて、全フレームの１〜４３００Hz以下の周波数帯域に対して二次元ローパスフィルタによりフィルタ処理を実施する。例えば、二次元ローパスフィルタとしては、時間方向０．６ｍｓ、周波数方向４８．４４９７Hzの二次元三角窓フィルタを用いることができる。フィルタ処理を終了したらステップＳＴ１０２ｇで、ｓｉｎ関数及びｃｏｓ関数をｔａｎ^-1関数により元の状態に戻す［図２８（Ｄ）乃至（Ｆ）及び式（９）参照］。この動作によって、急峻な時間方向の不連続が発生している場合でも、急峻な不連続が解消される。本実施の形態のように、不連続状態抑制部２３で平滑化すると、群遅延の低周波数領域の不安定さを無くすことができる。

また本実施の形態では、図１に示す変換部１７による変換の前または不連続状態抑制部２３の後に、群遅延に合成のための基本周期を係数として乗ずる補正を実施する補正部２５を更に備えている。この補正部２５を設けると、基本周波数Ｆ0に対応する基本周期に応じた時間軸方向の広がり（間隔）を持つ群遅延を時間軸方向に正規化することができ、変換部１７からはより精度の高い位相スペクトルを得ることができる。

本実施の形態の単位波形生成部１９は、分析窓を合成窓に変換し、合成窓を単位波形に掛けて補正単位波形を生成する。そして合成部２１は補正単位波形を基本周期で重畳加算する。図２９は、図１９のステップＳＴ１０４の詳細なアルゴリズムを示すフローチャートである。まずステップ１０４Ａにおいて、上記平滑化を実施した群遅延とスペクトル包絡を基本周期（合成のための基本周波数Ｆ0）で取り出す。次にステップ１０４Ｂで、群遅延に基本周期を係数として乗ずる。このステップ１０４Ｂにより、補正部２５が実現されている。次にステップＳＴ１０４Ｃで、群遅延を位相スペクトルに変換する。このステップＳＴ１０４Ｃにより変換部１７が構成されている。次にステップＳＴ１０４Ｄにおいてスペクトル包絡（振幅スペクトル）と位相スペクトルとから、単位波形（インパルス応答）を生成する。そしてステップ１０４Ｅで、ガウス窓（分析窓）を足して振幅が１になる窓であるハニング窓（合成窓）に変換するための「窓」を単位波形に掛けて、合成窓を単位波形に掛けた状態として、補正単位波形を生成する。具体的には、基本周期の長さのハニング窓（合成窓）から分析に用いたガウス窓（分析窓）を割って、変換するための「窓」を生成する。但し、この「窓」はガウス窓の値が０でない時刻にのみ値を持つものとする。ステップ１０４Ｆでは、基本周期（基本周波数Ｆ0の逆数）で、複数の補正単位波形を重畳加算して合成の音声信号を作成する。なおステップＳＴ１０４Ｆでは、無声音の場合、ガウスノイズを畳み込んでから重畳を実施するのが好ましい。なお分析窓としてハニング窓を用いる場合、窓掛けの影響で原音声が変形されることはないが、時間・周波数分解能の向上と、サイドローブの影響（ハニング窓は低次のサイドローブの減衰が少ない）を減らすために、本実施の形態では分析にガウス窓を用いている。

このよう合成窓で補正した補正単位波形を用いると、より自然な合成音声を聴取することができる
ここで上述のステップＳＴ１０２Ｂにおける演算について詳しく説明する。ｓｉｎとｃｏｓで展開された群遅延ｇ_x（ｆ，ｔ）とｇ_y（ｆ，ｔ）から、最終的に以下の計算によって群遅延ｇ（ｆ，ｔ）に戻してから扱う。

ただし、フォルマント周波数が変動する箇所などで、推定された群遅延の形状が急に変わり、特に低域でパワーが大きい場合に合成品質に多大な影響を及ぼすことがある。これは、前述したＦ0に起因する変動（図８）が、ある周波数帯域において、Ｆ0以上の速さで変動することが原因と考えられる。例えば図１４（Ｂ）において、５００Hz付近の方が１５００Hz付近よりも変動が速い。これによって、図１４（Ｂ）の中央の前後で、群遅延の形が変わってしまい、単位波形の形も変わる。そこで本実施の形態では、前述のように同一の有声区間中では、群遅延ｇ（ｆ，ｔ）の低域で時間方向の不連続がなるべく発生しないように、新たな共通のオフセットを足して１で剰余（正規化されているため）を取った。そして群遅延の低域に長い時定数の二次元ローパスフィルタをかけて、このような瞬間的な変動を除去した。

［試験］
上記実施の形態によるスペクトル包絡の推定精度は、従来、特に性能が高いSTRAIGHT（非特許文献２７）、TANDEM-STRAIGHT（非特許文献２８）と比較する。実験には男性の無伴奏歌唱（ソロ）をRWC研究用音楽データベース（後藤真孝，橋口博樹，西村拓一，岡隆一：RWC 研究用音楽データベース:研究目的で利用可能な著作権処理済み楽曲・楽器音データベース，情報処理学会論文誌，Vol. 45, No. 3, pp.728-738 (2004).）（音楽ジャンル：RWC-MDB-G-2001 No.91）から、女性の話声をAISTハミングデータベース（E008）（後藤真孝，西村拓一：AIST ハミングデータベース：歌声研究用音楽データベース，情報処理学会研究報告，2005-MUS-61,pp. 7-12 (2005).）から、楽器音としてピアノとバイオリンの音を前術のRWC研究用音楽データベース［楽器音：ピアノ（RWC-MDB-I-2001，No.01，011PFNOM）とバイオリン（RWC-MDB-I-2001，No.16，161VLGLM）］からそれぞれ用いた。スペクトル包絡の推定精度の比較では、周波数ｂｉｎ数を、STRAIGHTで良く用いられる値である２０４９bins（ＦＦＴ長が４０９６）、分析の時間単位を１msとした。上記実施の形態においては、多重フレーム統合分析における統合処理を１msごとに実行する時間単位を意味する。

また、群遅延の推定に関しては、自然音声の分析結果と、群遅延を反映させた合成結果を更に分析した結果を比較する。ここで、群遅延の推定精度を確保するために、スペクトル包絡の推定実験とは異なり、周波数ｂｉｎ数を４０９７bins（ＦＦＴ長が８１９２）と設定して試験をした。

［試験Ａ：スペクトル包絡の比較］
本試験では、自然音声を対象としてSTRAIGHTスペクトルと分析結果を比較する。

図３０にSTRAIGHTスペクトログラムと提案スペクトログラムを並べて表示し、０．４秒におけるスペクトル包絡を重ねて表示している。提案した最大・最小包絡の間にSTRAIGHTスペクトルがあり、それは提案スペクトル包絡とほぼ類似していた。さらに、STRAIGHTによって推定した非周期成分を用いて、提案スペクトログラムから音をSTRAIGHTで合成した聴取印象は、STRAIGHTスペクトログラムからの再合成と比べて劣るものではなかった。

［試験Ｂ：スペクトル包絡の再現］
本試験では、スペクトル包絡とＦ0が既知である合成音を用いて、その推定精度を評価する。具体的には、前述した自然音声及び楽器音をSTRAIGHTで分析再合成した音と、cascade-type Klatt 合成器（Klatt, D. H.: Software for A Cascade/parallel Formant Synthesizer, J. Acoust. Soc. Am., Vol. 67, pp. 971-995 (1980).）によってスペクトル包絡をパラメータ制御した合成音を用いた。

Klatt 合成器に与えたパラメータ一覧を表１に示す。

ここで、第１，第２フォルマント周波数（Ｆ１とＦ２）の値を、表２に示すように設定してスペクトル包絡を生成し、これらのスペクトル包絡からＦ0を１２５Hzとして正弦波を重畳して、６種類の音を合成した。

推定精度の評価には以下に示す対数スペクトル距離ＬＳＤを用いた。ここでＴは有声フレーム数、Ｆは周波数ｂｉｎ数（＝Ｆ_H−Ｆ_L＋１）、（Ｆ_L，Ｆ_H）は評価における周波数範囲であり、Ｓ_g（ｔ，ｆ）とＳ_e（ｔ，ｆ）がそれぞれ正解のスペクトル包絡と推定されたスペクトル包絡である。対数スペクトル距離を計算する際には、その形状を評価するために正規化係数α(t)をＳ_g（ｔ，ｆ）とα(t)Ｓ_e（ｔ，ｆ）の二乗誤差ε² が最小になるように算出した。

表３に評価結果を、図３１に推定の一例を示す。上記実施の形態によって推定されたスペクトル包絡の対数スペクトル距離は、１４サンプル中１３サンプルにおいてSTRAIGHTとTANDEM-STRAIGHTのいずれかよりも低く、どちらよりも低かったのは８サンプルで最も多かった。この結果から、本実施の形態によれば、高品質な合成と高精度な分析に活用できる可能性があることが確認できた。

［試験Ｃ：群遅延の再現］
男性の無伴奏歌唱を入力として、本実施の形態によってスペクトル包絡と群遅延を推定し、それを再合成した結果を図３２に示す。再合成音における群遅延では、低域や全体にかけたローパスフィルタの結果が見られるが、全体的に群遅延を再現して合成できており、合成品質も自然であった。

［その他］
上記実施の形態で推定したスペクトル包絡は存在可能範囲を同時に推定しており、声質変換やスペクトル形状の変形、素片接続合成等において活用できる可能性がある。

また、上記実施の形態では、群遅延を保存して合成できる可能性もある。さらに従来の群遅延を用いた技術（非特許文献３２及び３３）では、群遅延を平滑化しても（谷を削っても）合成品質に影響がない。それに対して、上記実施の形態によれば、複数フレームを統合することで谷を適切に埋めることができる。また本実施の形態によれば、群遅延が周波数帯域毎に、異なる時刻で共振していること（図１４）から、単一のピッチマーキングによる分析を超えて、より詳細に分析できる。また上記実施の形態によれば、図３３に示すようなＦ0適応スペクトルと最大包絡のピークに対応する群遅延との関係が得られる。図３３と前述の図１４とを比較すると判るように、上記実施の形態によれば、最大包絡の算出時にピーク検出を行うことで、フォルマント周波数の変動等が原因で発生する余分なノイズ（誤り）を除去できることが判る。

本発明の上記実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲にいて変形または変更された実施の形態も本発明に含まれる。

本発明によれば、音声や楽器音からスペクトル包絡と位相情報を高い精度と時間分解能で分析し、それを保存したままの高品質な合成を実現することができる。また本発明によれば、ピッチマーク［基本周波数に同期した分析を行う際の、波形の駆動点（かつ分析時刻）を示す時刻情報、声門音源の励起時刻、もしくは基本周期中で振幅が大きい時刻が用いられる］や音素情報等の付随情報を前提とせずに、音の種類の違いによらず安定して音声信号を分析できる。

１推定システム
２合成システム
３基本周波数推定部
５振幅スペクトル取得部
７群遅延抽出部
９スペクトル包絡統合部
１１群遅延統合部
１３メモリ
１５読み出し部
１７変換部
１９単位波形生成部
２１合成部
２３不連続状態抑制部
２５補正部

Claims

音声信号から全時刻または全サンプリング点において基本周波数Ｆ0を推定する基本周波数推定部と、
前記全時刻または全サンプリング点における前記基本周波数Ｆ0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として前記音声信号を複数のフレームに分割し、前記複数のフレーム中の音声信号についてＤＦＴ分析を行うことにより、前記複数のフレームそれぞれにおける振幅スペクトルを取得する振幅スペクトル取得部と、
前記複数のフレーム中の音声信号についてＤＦＴ分析を伴う群遅延抽出アルゴリズムを実施して前記複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する群遅延抽出部と、
所定の時間間隔で、前記基本周波数Ｆ0の基本周期に基づいて定められた所定の期間内に含まれる前記複数のフレームに対応する前記複数の振幅スペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求めるスペクトル包絡統合部と、
所定の時間間隔で、前記複数の群遅延から前記スペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める群遅延統合部とを少なくとも１つのプロセッサを用いて実現し、
前記スペクトル包絡統合部では、前記重合スペクトルの前記最大包絡と最小包絡の平均として前記音声合成のためのスペクトル包絡を求め、
前記群遅延統合部では、前記重合スペクトルの周波数成分ごとの前記最大包絡に対応する前記フレームにおける前記群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正し、前記保存した群遅延を正規化し、正規化した群遅延を前記音声合成のための群遅延とすることを特徴とすることを音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
前記基本周波数推定部では、基本周波数Ｆ0の推定と併せて有声区間及び無声区間の判定を行い、前記無声区間における基本周波数Ｆ0を前記有声区間における値で補間するかまたは前記無声区間に予め定めた値を付与する請求項１に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
前記スペクトル包絡統合部では、前記重合スペクトルの前記最大包絡と最小包絡の中間値を平均として前記音声合成のためのスペクトル包絡を求める請求項１に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
平均を求める際の最小包絡として、前記最小包絡の谷を埋めるように前記最大包絡を変形して得た変形最小包絡を用いる請求項１または３に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
前記スペクトル包絡統合部では、Ｆ0に対応する周波数ｂｉｎ以下の帯域のスペクトル包絡の値をＦ0に対応する周波数ｂｉｎのスペクトル包絡の値で置換したものを前記音声合成のためのスペクトル包絡として求める請求項１に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
置換した前記スペクトル包絡をフィルタ処理する二次元ローパスフィルタを更に備えている請求項５に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
前記群遅延統合部では、Ｆ0に対応する周波数ｂｉｎ以下の帯域の前記群遅延の値をＦ0に対応する周波数ｂｉｎの群遅延の値で置換したものを前記音声合成のための群遅延とする請求項１に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
前記群遅延統合部では、置換した前記群遅延を平滑化したものを前記音声合成のための群遅延とする請求項７に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
前記平滑化では、置換した前記群遅延をｓｉｎ関数及びｃｏｓ関数で変換して基本周期に起因する不連続を除去し、その後二次元ローパスフィルタによりフィルタ処理した後に前記ｓｉｎ関数及びｃｏｓ関数をｔａｎ_-1関数により元の状態に戻したものを前記音声合成のための群遅延とする請求項８に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
請求項１乃至９の各部をコンピュータを用いて実現することを特徴とする音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
請求項１乃至９のいずれか１項に記載のシステムにより推定した前記音声分析合成のためのスペクトル包絡及び群遅延を前記所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、前記合成のためのスペクトル包絡及び群遅延を読み出す読み出し部と、
読み出した前記群遅延を位相スペクトルに変換する変換部と、
読み出した前記スペクトル包絡と前記位相スペクトルとから単位波形を生成する単位波形生成部と、
生成した複数の前記単位波形を前記合成のための基本周期で重畳加算して合成された音声信号を出力する合成部とを少なくとも１つのプロセッサを用いて実現してなる音声信号の合成システム。
前記変換部による変換の前に、前記読み出した群遅延の低域における時間方向の不連続状態の発生を抑制する不連続状態抑制部を更に備えた請求項１１に記載の音声信号の合成システム。
前記不連続状態抑制部では、有声区間ごとに最適なオフセットを加算した後、低周波数領域の群遅延を平滑化する請求項１２に記載の音声信号の合成システム。
前記平滑化では、読み出したフレームの前記群遅延をｓｉｎ関数及びｃｏｓ関数で変換して前記合成のための基本周期に起因する不連続を除去し、その後二次元ローパスフィルタによりフィルタ処理した後に前記ｓｉｎ関数及びｃｏｓ関数をｔａｎ_-1関数により元の状態に戻したものを前記音声合成のための群遅延とする請求項１３に記載の音声信号の合成システム。
前記変換部による変換の前または前記不連続状態抑制部の後に、前記群遅延に前記合成のための基本周期を係数として乗ずる補正を実施する補正部を更に備える請求項１２または１３に記載の音声信号の合成システム。
前記合成部は、分析窓を合成窓に変換し、前記合成窓を前記単位波形に掛けた補正単位波形を基本周期で重畳加算することを特徴とする請求項１１に記載の音声信号の合成システム。
音声信号から全時刻または全サンプリング点において基本周波数Ｆ0を推定する基本周波数推定ステップと、
前記全時刻または全サンプリング点における前記基本周波数Ｆ0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として前記音声信号を複数のフレームに分割し、前記複数のフレーム中の音声信号についてＤＦＴ分析を行うことにより、前記複数のフレームそれぞれにおける振幅スペクトルを取得する振幅スペクトル取得ステップと、
前記複数のフレーム中の音声信号についてＤＦＴ分析を伴う群遅延抽出アルゴリズムを実施して前記複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する群遅延抽出ステップと、
所定の時間間隔で、前記基本周波数Ｆ0の基本周期に基づいて定められた所定の期間内に含まれる前記複数のフレームに対応する前記複数の振幅スペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求めるスペクトル包絡統合ステップと、
所定の時間間隔で、前記複数の群遅延から前記スペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める群遅延統合ステップとを少なくとも１つのプロセッサを用いて実行し、
前記スペクトル包絡統合ステップでは、前記重合スペクトルの前記最大包絡と最小包絡の平均として前記音声合成のためのスペクトル包絡を求め、
前記群遅延統合ステップでは、前記重合スペクトルの周波数成分ごとの前記最大包絡に対応する前記フレームにおける前記群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正し、前記保存した群遅延を正規化し、正規化した群遅延を前記音声合成のための群遅延とすることを特徴とする音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
前記基本周波数推定ステップでは、基本周波数Ｆ0の推定と併せて有声区間及び無声区間の判定を行い、前記無声区間における基本周波数Ｆ0を前記有声区間における値で補間するかまたは前記無声区間に予め定めた値を付与する請求項１７に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
前記スペクトル包絡統合ステップでは、前記重合スペクトルの前記最大包絡と最小包絡の中間値を平均として前記音声合成のためのスペクトル包絡を求める請求項１７に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
平均を求める際の最小包絡として、前記最小包絡の谷を埋めるように前記最大包絡を変形して得た変形最小包絡を用いる請求項１７または１９に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
Ｆ0に対応する周波数ｂｉｎ以下の帯域のスペクトル包絡の値をＦ0に対応する周波数ｂｉｎのスペクトル包絡の値で置換したものを前記音声合成のためのスペクトル包絡を求める請求項１７に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
置換した前記スペクトル包絡を二次元ローパスフィルタによりフィルタ処理する請求項２１に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
前記群遅延統合ステップでは、Ｆ0に対応する周波数ｂｉｎ以下の帯域の前記群遅延の値をＦ0に対応する周波数ｂｉｎの群遅延の値で置換したものを前記音声合成のための群遅延とする請求項１８に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
前記群遅延統合ステップでは、置換した前記群遅延を平滑化したものを前記音声合成のための群遅延とする請求項２３に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
前記平滑化では、置換した前記群遅延をｓｉｎ関数及びｃｏｓ関数で変換して基本周期に起因する不連続を除去し、その後二次元ローパスフィルタによりフィルタ処理した後に前記ｓｉｎ関数及びｃｏｓ関数をｔａｎ_-1関数により元の状態に戻したものを前記音声合成のための群遅延とする請求項２４に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
請求項１７乃至２５のいずれか１項に記載の方法により推定した前記音声分析合成のためのスペクトル包絡及び群遅延を前記所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、前記合成のためのスペクトル包絡及び群遅延を読み出す読み出しステップと、
読み出した前記群遅延を位相スペクトルに変換する変換ステップと、
読み出した前記スペクトル包絡と前記位相スペクトルとから単位波形を生成する単位波形生成ステップと、
生成した複数の前記単位波形を前記合成のための基本周期で重畳加算して合成された音声信号を出力する合成ステップとを少なくとも１つのプロセッサを用いて実行する音声信号の合成方法。
前記変換ステップの前に、前記読み出した群遅延の低域における時間方向の不連続状態の発生を抑制する不連続状態抑制ステップを実施する請求項２６に記載の音声信号の合成方法。
前記不連続状態抑制ステップでは、有声区間ごとに最適なオフセットを加算した後、低周波数領域の群遅延を平滑化する請求項２７に記載の音声信号の合成方法。
前記平滑化では、読み出したフレームの前記群遅延をｓｉｎ関数及びｃｏｓ関数で変換して前記合成のための基本周期に起因する不連続を除去し、その後二次元ローパスフィルタによりフィルタ処理した後に前記ｓｉｎ関数及びｃｏｓ関数をｔａｎ_-1関数により元の状態に戻したものを前記音声合成のための群遅延とする請求項２８に記載の音声信号の合成方法。
前記変換ステップの前または前記平滑化の後に、前記群遅延に前記合成のための基本周期を係数として乗ずる補正ステップを実施する請求項２６または２８に記載の音声信号の合成方法。
前記合成ステップでは、分析窓を合成窓に変換し、前記合成窓を前記単位波形に掛けた補正単位波形を基本周期で重畳加算することを特徴とする請求項２６に記載の音声信号の合成方法。
音声信号から全時刻または全サンプリング点において基本周波数Ｆ0を推定する基本周波数推定ステップと、
前記全時刻または全サンプリング点における前記基本周波数Ｆ0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として前記音声信号を複数のフレームに分割し、前記複数のフレーム中の音声信号についてＤＦＴ分析を行うことにより、前記複数のフレームにそれぞれにおける振幅スペクトルを取得する振幅スペクトル取得ステップと、
前記複数のフレーム中の音声信号についてＤＦＴ分析を伴う群遅延抽出アルゴリズムを実施して前記複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する群遅延抽出ステップと、
所定の時間間隔で、前記基本周波数Ｆ0の基本周期に基づいて定められた所定の期間内に含まれる前記複数のフレームに対応する前記複数のスペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求めるスペクトル包絡統合ステップと、
所定の時間間隔で、前記複数の群遅延から前記スペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める群遅延統合ステップとをコンピュータで実施することを可能にするように構成された音声分析合成のためのスペクトル包絡及び群遅延の推定用プログラムを記録してなる非一時的なコンピュータ読み取り可能な記録媒体であって、
前記スペクトル包絡統合ステップでは、前記重合スペクトルの前記最大包絡と最小包絡の平均として前記音声合成のためのスペクトル包絡を求め、
前記群遅延統合ステップでは、前記重合スペクトルの周波数成分ごとの前記最大包絡に対応する前記フレームにおける前記群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正し、前記保存した群遅延を正規化し、正規化した群遅延を前記音声合成のための群遅延とすることを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１７乃至２５のいずれか１項に記載の方法により推定した前記音声分析合成のためのスペクトル包絡及び群遅延を前記所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、前記合成のためのスペクトル包絡及び群遅延を読み出す読み出しステップと、
読み出した前記群遅延を位相スペクトルに変換する変換ステップと、
読み出した前記スペクトル包絡と前記位相スペクトルとから単位波形を生成する単位波形生成ステップと、
生成した複数の前記単位波形を前記合成のための基本周期で重畳加算して合成された音声信号を出力する合成ステップとをコンピュータで実施することを可能にするように構成された音声信号の合成用プログラムを記録してなる非一時的なコンピュータ読み取り可能な記録媒体。