JP2005523478A - How to synthesize speech - Google Patents
How to synthesize speech Download PDFInfo
- Publication number
- JP2005523478A JP2005523478A JP2003586870A JP2003586870A JP2005523478A JP 2005523478 A JP2005523478 A JP 2005523478A JP 2003586870 A JP2003586870 A JP 2003586870A JP 2003586870 A JP2003586870 A JP 2003586870A JP 2005523478 A JP2005523478 A JP 2005523478A
- Authority
- JP
- Japan
- Prior art keywords
- diphone
- speech
- signal
- pitch
- windowed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Abstract
Description
本発明は、音声の分析及び合成の分野、特に限定はしないが、テキスト音声合成の分野に関する。 The present invention relates to the field of speech analysis and synthesis, and without limitation, the field of text-to-speech synthesis.
テキスト音声(TTS)合成システムの機能は、所与の言語の一般的なテキストから音声を合成することである。今日では、TTSシステムは、多くの用途(例えば、電話網を通じたデータベースへのアクセス又はハンディキャップを負う人々への援助)に実現化されている。音声を合成する1つの方法は、半音節又は多音字のような録音された音声の副単位の集合の要素を連結することによる。成功した商用システムの大部分は多音字の連結を使用している。多音字は、2つ(ダイフォン)、3つ(トライフォン)又はそれ以上の音のグループを有し、所望のひとまとまりの音を安定したスペクトル領域においてセグメントに分けることによって、無意味な単語から決定することができる。連結に基づいた合成では、2つの隣り合う音の間の移行の会話は、合成された音声の品質を保証するために重要である。基本的な副単位としての多音字の選択では、2つの隣り合う音の間の移行は記録された副単位に保存され、連結は同じような音の間で実行される。 The function of a text-to-speech (TTS) synthesis system is to synthesize speech from common text in a given language. Today, TTS systems are implemented for many applications (eg, access to databases over the telephone network or assistance to people with handicaps). One method of synthesizing speech is by concatenating elements of a set of recorded speech subunits, such as semi-syllables or polyphonic characters. Most successful commercial systems use polyphonic concatenation. A polyphonic character has a group of two (diphones), three (triphones) or more sounds from meaningless words by segmenting the desired chunk of sound into a stable spectral region. Can be determined. In synthesis based on concatenation, the transition conversation between two adjacent sounds is important to guarantee the quality of the synthesized speech. In the selection of a polyphonic character as the basic subunit, the transition between two adjacent sounds is preserved in the recorded subunit, and concatenation is performed between similar sounds.
しかしながら、合成の前に、音は、その音を含む新たな語の韻律的制約を満たす目的で、その継続時間及びピッチが修正されなければならない。この処理は、単調な響きの合成音声の生成を回避するために必要である。TTSシステムでは、この機能は韻律的モジュールにより実行される。記録された副単位における継続時間及びピッチの修正を可能とするために、TTSシステムを基礎とした多くの連結は時間領域ピッチ同期波形重畳(TD−PSOLA)(Speech Commun., vol. 9, pp. 453-467, 1990 E. Moulines及びF. Charpentierによる「ダイフォンを用いたテキスト音声合成のためのピッチ同期波形処理技術」)合成のモデルを使用する。 However, before synthesis, the sound must be modified in duration and pitch in order to satisfy the prosodic constraints of the new word that contains the sound. This processing is necessary to avoid the generation of a monotonous sounding synthesized speech. In the TTS system, this function is performed by the prosodic module. To allow modification of duration and pitch in recorded subunits, many connections based on TTS systems are time domain pitch-synchronized waveform superposition (TD-PSOLA) (Speech Commun., Vol. 9, pp 453-467, 1990 “Pitch-synchronized waveform processing technology for text-to-speech synthesis using diphones” by E. Moulines and F. Charpentier)).
TD−PSOLAモデルでは、音声信号は先ずピッチマーキングアルゴリズムに従う。このアルゴリズムは、有声セグメントの信号のピークにおいてマークを割り当て、無声セグメントでは10ms離れたマークを割り当てている。合成は、ピッチマークにおいて中心合わせされ且つ前のピッチマークから次のピッチマークまで広がるハニング窓掛けされたセグメントの重ね合わせによって行われる。継続時間の修正は、窓掛けされたセグメントの幾つかを削除又は繰り返すことによって与えられる。一方、ピッチ周期の修正は、窓掛けされたセグメント間の重ね合わせを増加又は減少することによって与えられる。 In the TD-PSOLA model, the audio signal first follows a pitch marking algorithm. This algorithm assigns marks at the peak of the signal of the voiced segment, and assigns marks 10 ms apart in the unvoiced segment. Compositing is done by superposition of Hanning windowed segments centered at the pitch mark and extending from the previous pitch mark to the next pitch mark. The duration correction is given by deleting or repeating some of the windowed segments. On the other hand, pitch period correction is provided by increasing or decreasing the overlap between windowed segments.
多くの商用TTSシステムにおいて成功しているにもかかわらず、合成のTD−PSOLAモデルを使用することによって作り出される合成音声は、主に韻律的な変化が大きい条件下で、以下に概説されるような幾つかの欠点を表す。
1. ピッチの修正は、適切に補償される必要がある継続時間の修正を持ち込む。
2. 継続時間の修正は、1つのピッチ周期解像度(α= ... ,1/2,2/3,3/4,... ,4/3,3/2,2/1,...)を用いて、量子化方法でのみ実行することができる。
3. 無声部分の継続時間を長くすると、セグメントの繰返しは「金属的」アーティファクト(合成された音声が金属的に聞こえる)を持ち込む場合がある。
Despite success in many commercial TTS systems, synthesized speech produced by using a synthetic TD-PSOLA model, as outlined below, mainly under conditions of large prosodic changes Represents several shortcomings.
1. Pitch correction introduces duration corrections that need to be properly compensated.
2. Correction of duration is one pitch period resolution (α = ..., 1 / 2,2 / 3,3 / 4, ..., 4 / 3,3 / 2,2 / 1, ...) Can be performed only with the quantization method.
3. Increasing the duration of the unvoiced portion may cause segment repetition to introduce “metallic” artifacts (synthesized speech sounds metallic).
スピーチ及びオーディオの処理に関するIEEE会報、第6巻、No.5、1998年9月のFabio Violaro及びOlivier Boeffardによる「テキスト音声合成のためのハイブリッドモデル」に、連結に基づいたテキスト音声合成のハイブリッドモデルが記載されている。 IEEE Bulletin on Speech and Audio Processing, Vol. 5, “Hybrid model for text-to-speech synthesis” by Fabio Violaro and Olivier Boeffard in September 1998 describes a hybrid model of text-to-speech synthesis based on concatenation.
音声信号はピッチ同期分析に従い、ノイズ成分に加えて、可変最大周波数を伴なう高調波成分に分解される。高調波成分は、ピッチの倍数の周波数を伴なうシヌソイドの和としてモデル化される。ノイズ成分は、LPCフィルタに印加されるランダム刺激としてモデル化される。無声セグメントでは、高調波成分はゼロに等しくなる。ピッチの修正が存在する場合、新たな高調波パラメータの集合は、新たな高調波周波数においてスペクトル包絡を再度サンプリングすることによって評価される。継続時間及び/又はピッチの修正が存在する高調波成分の合成に対して、高調波パラメータに位相補正が導入される。 The audio signal is decomposed into a harmonic component with a variable maximum frequency in addition to the noise component according to the pitch synchronization analysis. The harmonic components are modeled as a sum of sinusoids with a frequency that is a multiple of the pitch. The noise component is modeled as a random stimulus applied to the LPC filter. In the unvoiced segment, the harmonic component is equal to zero. If pitch correction is present, a new set of harmonic parameters is evaluated by re-sampling the spectral envelope at the new harmonic frequency. For harmonic component synthesis where there is a duration and / or pitch correction, phase correction is introduced into the harmonic parameters.
他の種々のいわゆる「重畳及び加算」方法は、例えばPIOLA(Pitch Inflected OverLap and Add)[P. Meyer, H. W. Ruhl, R. Kruger, M. Kugler L.L.M.Vogten, A. Dirksen,及びK. Belhoula.によるPHRITTS:ドイツ語のためのテキスト音声合成器,1993年ベルリンでのEurospeech'93の877−890ページ]、又はPICOLA(Pointer Interval Controlled OverLap and Add)[森田:音声の時間軸での圧縮・伸長に関する研究,日本の名古屋大学修士学位論文(1987)]から既知である。
これらの方法は、ピッチ周期位置をマークする方法が互いに異なる。
Various other so-called “superposition and addition” methods are described, for example, by PIOLA (Pitch Inflected OverLap and Add) [P. Meyer, HW Ruhl, R. Kruger, M. Kugler LLMVogten, A. Dirksen, and K. Belhoula. By PHRITTS: Text-to-speech synthesizer for German, pages 877-890 of Eurospeech '93 in Berlin, 1993], or PICOLA (Pointer Interval Controlled OverLap and Add) [Morita: compression / decompression of speech over time Research in Japan, Nagoya University Master's Thesis (1987)].
These methods differ from each other in the method of marking the pitch period position.
これらの方法は、2つの異なる波形のためのミキサとして利用されるとき、どれも満足な結果を与えない。問題は位相の不整合である。高調波の位相は、記録装置、室内音響、マイクロホンまでの距離、母音色、同時調音効果などによる影響を受ける。それらの要因のいくつかはレコーディング環境のように不変に維持できるが、同時調音効果のような他の要因は、制御することは(不可能ではないにしても)非常に難しい。その結果、ピッチ周期位置が位相情報を考慮せずにマークされたとき、合成品質は位相の不整合で損なわれる。 None of these methods give satisfactory results when utilized as a mixer for two different waveforms. The problem is phase mismatch. The phase of the harmonic is affected by the recording device, room acoustics, distance to the microphone, vowel color, simultaneous articulation effect, and the like. Some of those factors can be kept unchanged as in the recording environment, while other factors such as simultaneous articulation effects are very difficult (if not impossible) to control. As a result, when the pitch period position is marked without considering the phase information, the synthesis quality is compromised by phase mismatch.
MBR−PSOLAのような他の方法(マルチバンド再合成ピッチ同期波形重畳合成)[T.Dutoit及びH.Leich. MBR−PSOLA:セグメントデータベースのMBE再合成に基づいたテキスト音声合成。1993年のSpeech Communication]は位相の不整合を避けるために位相情報を再発生する。しかし、これは、発生した音声の自然さを低減する特別な分析−合成作動を含む。この合成はしばしば機械的な音に聞こえる。 Other methods such as MBR-PSOLA (multiband resynthesis pitch-synchronized waveform superposition synthesis) [T.Dutoit and H.Leich. MBR-PSOLA: Text-to-speech synthesis based on MBE resynthesis of segment database. 1993 Speech Communication] regenerates phase information to avoid phase mismatch. However, this involves special analysis-synthesis operations that reduce the naturalness of the generated speech. This composition often sounds like a mechanical sound.
米国特許第5,787,398号は、ピッチを変えることによって音声を合成するための装置を示す。この方法の不利な点の1つは、ピッチマークが励起ピーク(excitation peak)上に中心合わせされ、測定された励起ピークが必ずしも同期位相を有する必要がないので、位相歪みが生じることである。 U.S. Pat. No. 5,787,398 shows an apparatus for synthesizing speech by changing the pitch. One disadvantage of this method is that phase distortion occurs because the pitch mark is centered on the excitation peak and the measured excitation peak does not necessarily have to have a synchronous phase.
合成音声信号のピッチは、音声信号をスペクトル成分及び励起成分に分けることによって変わる。後者は、有声音の場合、少なくともほぼ声の刺激の瞬間に対応するピッチタイミングマーク情報と同期する一連のオーバーラップする窓関数で乗算され、それを制御可能な時間シフトの適用後に加算される窓掛けされた音声セグメントに分離する。次に、スペクトル及び励起の成分が再結合される。乗算はピッチ周期につき少なくとも2つの窓を使用し、各々は1ピッチ周期よりも短い継続時間を有する。 The pitch of the synthesized speech signal is changed by dividing the speech signal into a spectral component and an excitation component. The latter is a voiced sound that is multiplied by a series of overlapping window functions that are synchronized with pitch timing mark information corresponding at least approximately to the moment of voice stimulation, and is added after application of a controllable time shift. Separate into multiplied audio segments. The spectral and excitation components are then recombined. The multiplication uses at least two windows per pitch period, each having a duration shorter than one pitch period.
米国特許第5,081,681号は、有声音の基本周波数から各高調波の位相を求めるいくつかの方法及び関連する技術を示す。アプリケーションは、音声符号化、音声エンハンスメント、及び音声の時間スケール修正を含む。基本的方法は、基本周波数及び有声/無声情報から位相信号を再現し、及び合成音声の質を向上するために再現された位相信号にランダム成分を加算することを含む。 US Pat. No. 5,081,681 shows several methods and related techniques for determining the phase of each harmonic from the fundamental frequency of voiced sound. Applications include speech coding, speech enhancement, and speech time scale modification. The basic method involves reproducing the phase signal from the fundamental frequency and voiced / unvoiced information and adding a random component to the reproduced phase signal to improve the quality of the synthesized speech.
米国特許第5,081,681号は、音声処理のための位相合成の方法を記載している。位相を合成するので、合成の結果は人間の声の多くの面で自然に聞こえず、サラウンドの音響が合成によって無視される。 US Pat. No. 5,081,681 describes a method of phase synthesis for speech processing. As the phase is synthesized, the result of the synthesis does not sound natural in many aspects of the human voice, and the surround sound is ignored by the synthesis.
本発明は、音声、特に自然音声の分析のための方法を提供する。本発明による音声の合成のための方法は、音声信号(特にダイフォン音声信号)と音声信号の第1倍音との間の位相差が、異なるダイフォンに対して基本的に一定の話者依存パラメータであるという発見に基づく。 The present invention provides a method for analysis of speech, particularly natural speech. The method for speech synthesis according to the invention is such that the phase difference between the speech signal (especially the diphone speech signal) and the first harmonic of the speech signal is essentially a constant speaker dependent parameter for different diphones. Based on the discovery that there is.
本発明の好適実施例では、この位相差は、音声信号の最大値を求め、位相ゼロ、即ち第1倍音のポジティブゼロ交差を求めることによって得られる。その最大値の位相と位相ゼロとの間の差は、話者依存位相差パラメータである。 In the preferred embodiment of the invention, this phase difference is obtained by determining the maximum value of the audio signal and determining the phase zero, ie the positive zero crossing of the first harmonic. The difference between the maximum phase and phase zero is a speaker dependent phase difference parameter.
1つのアプリケーションでは、このパラメータは、窓関数(例えば、レイズドコサイン又は三角窓)を求めるための基礎としての役割をなす。好ましくは、窓関数は、第1倍音のゼロ位相に位相差を加えたものによって与えられる位相角に中心合わせされる。好ましくは、窓関数は、その位相角において最大値を有する。例えば、窓関数は、その位相角に対して対称に選択される。 In one application, this parameter serves as the basis for determining the window function (eg, raised cosine or triangular window). Preferably, the window function is centered on the phase angle given by the zero phase of the first overtone plus the phase difference. Preferably, the window function has a maximum at that phase angle. For example, the window function is selected symmetrically with respect to its phase angle.
音声合成に対しては、ダイフォンサンプルが窓関数によって窓掛けされ、ここで、窓関数及び窓掛けされるダイフォンサンプルは、位相差だけオフセットされる。 For speech synthesis, diphone samples are windowed by a window function, where the window function and the windowed diphone sample are offset by a phase difference.
このように窓掛けされるダイフォンサンプルは、連結される。このようにして、音声合成の結果が擬似的に自然に聞こえるように、自然位相情報が保存される。 The diphone samples that are windowed in this way are concatenated. In this way, the natural phase information is stored so that the result of speech synthesis can be heard in a pseudo-natural manner.
本発明の好適実施例によれば、ダイフォン及びピッチ輪郭(Pitch contour)を示す制御情報が提供される。例えば、斯かる制御情報は、テキスト音声システムの言語処理モジュールによって提供することができる。 According to a preferred embodiment of the present invention, control information indicating a diphone and a pitch contour is provided. For example, such control information can be provided by a language processing module of a text speech system.
他の時間領域重畳法と比較して本発明の特に有利な点は、ピッチ周期(又はピッチパルス)位置が第1倍音の位相によって同期がとられることである。 A particular advantage of the present invention compared to other time domain superposition methods is that the pitch period (or pitch pulse) position is synchronized by the phase of the first overtone.
ピッチ情報は、オリジナルの音声信号の第1倍音をローパスフィルタリングし、ゼロ位相の指標としてポジティブゼロ交差を用いることによって取得することができる。このようにして、オリジナルの位相情報を変化させずに、位相不連続アーチファクトが回避される。 The pitch information can be obtained by low pass filtering the first harmonic of the original audio signal and using a positive zero crossing as a zero phase indicator. In this way, phase discontinuity artifacts are avoided without changing the original phase information.
本発明の音声合成方法及び音声合成装置の応用例として、電気通信サービス、言語教育、身体障害者への補助、トーキングブック及びトイ、音声モニタリング、マルチメディア、マンマシンコミュニケーションがある。 Application examples of the speech synthesis method and speech synthesizer of the present invention include telecommunications services, language education, assistance for disabled persons, talking books and toys, voice monitoring, multimedia, and man-machine communication.
本発明の以下の好適実施例は、図面を参照しながらより詳細に記載される。 The following preferred embodiments of the invention will be described in more detail with reference to the drawings.
図1のフローチャートは、本発明による音声分析のための方法の例示である。ステップ101において、自然音声が入力される。自然音声の入力のために、無意味な単語の既知のトレーニングシーケンスを利用することができる。ステップ102では、自然音声からダイフォンが抽出される。ダイフォンは自然音声から切り出され、1つの音素から他の音素への遷移からなる。
The flowchart of FIG. 1 is an illustration of a method for speech analysis according to the present invention. In
次のステップ103では、ダイフォンのうちの少なくとも1つは、ダイフォンの第1倍音を得るためにローパスフィルタにかけられる。この第1倍音は、録音の間一定に保つことができる話者依存特性である。
In the
ステップ104では、第1倍音とダイフォンとの間の位相差が求められる。この位相差は、話者特有の音声パラメータである。このパラメータは、図3乃至図10を基準にしてより詳細に説明されるように、音声合成のために有用である。
In
図2は、第1倍音とダイフォンとの間の位相差を求める(図1のステップ4参照)1つの方法の例示である。自然音声から得られる音波201は、分析のための基本を形成する。音波201は、音波201の第1倍音202を得る目的で、約150Hzのカットオフ周波数のローパスフィルタにかけられる。第1倍音202のポジティブゼロ交差は、位相角ゼロを規定する。図2に示されているように、第1倍音202は、19の数の連続する完全な周期に及んでいる。ここで考察された例では、期間の継続時間は、期間1から期間19に向かってわずかに増加する。期間の1つに対して、当該期間内の音の波形201の局所的最大値が決定される。
FIG. 2 is an illustration of one method for determining the phase difference between the first overtone and the diphone (see step 4 in FIG. 1). The
例えば、期間1内の音波201の局所的最大値は、最大値203である。図2に、期間1内の最大値203の位相がjmaxで示されている。期間1のjmaxとゼロ位相j0との間の差Δjは、話者依存音声パラメータである。ここで考察された例では、この位相差は約0.3πである。この位相差は、この位相差を求めるためにどの最大値が利用されるかに関わらず、ほぼ一定であることに注意されたい。しかし、この測定に対しては、特徴的な最大エネルギー位置によって期間を選択することが好ましい。例えば、期間9内の最大値204がこの分析を実行するために利用される場合、結果として生じる位相差は期間1とほぼ同じである。
For example, the local maximum value of the
図3は、本発明の音声合成方法のアプリケーションの例示である。ステップ301では、自然音声から得られたダイフォンがj0+Δjにおいてその最大値を有する窓関数によって窓掛けがなされ、例えば位相j0+Δjに対して中心合わせされるレイズドコサインを選択することができる。
FIG. 3 is an example of an application of the speech synthesis method of the present invention. In
このように、ステップ302において、ダイフォンのピッチベルが与えられる。ステップ303では、音声情報が入力される。これは、自然音声から又はテキスト音声システム(例えば、斯かるテキスト音声システムの言語処理モジュール)から得られた情報とすることができる。
Thus, at
音声情報に従い、ピッチベルが選択される。例えば、音声情報は、ダイフォンの情報及び合成されるべきピッチ輪郭の情報を含む。この場合、ステップ305におけるピッチベルの連結がステップ306において所望の音声出力となるように、ステップ304においてピッチベルがそれに応じて選択される。
A pitch bell is selected according to the audio information. For example, the audio information includes diphone information and pitch contour information to be synthesized. In this case, the pitch bell is selected accordingly at
図3の方法の応用例が、図4に例として示されている。図4は、幾つかのダイフォンから成る音波401を示す。ピッチ間隔の各々に対するゼロ位相j0を得るために、上の図1及び図2を基準として説明したような分析が音波401に適用される。図2の例のように、ゼロ位相j0は、ピッチ間隔内の最大の位相jmaxから、ほぼ一定のΔjの位相角だけずれている。
An application of the method of FIG. 3 is shown as an example in FIG. FIG. 4 shows a
レイズドコサイン402は音波401を窓掛けするために用いられる。レイズドコサイン402は、位相j0+Δjに対して中心合わせされる。レイズドコサイン402による音波401の窓掛けは、連続したピッチベル403を与える。このように、音波401のダイフォン波形は、斯かる連続したピッチベル403に分割される。ピッチベル403は、位相j0+Δjに中心合わせされるレイズドコサインによって、隣接する2つの期間から得られる。矩形関数よりもレイズドコサインを利用する利点は、エッジがこのように滑らかなことである。この動作は、同じ順序でピッチベル403の全てをオーバーラップさせて加えることにより可逆的なものであることに注意されたい。これはオリジナルの音波401を作り出す。
Raised
ピッチベル403を繰り返す又はスキップすることによって、及び/又はピッチを変えるためにピッチベル403を互いに近づけたり遠ざけたりすることによって、音波401の継続時間を変えることができる。音波401のオリジナルのピッチを大きくするために同じピッチベル403をオリジナルのピッチよりも大きいピッチで繰り返すことによって、このように音波404が合成される。特性位相差Δjを考慮して実行された先の窓掛け動作によって、この重ね合わせ動作の結果として位相はそのまま残ることに注意すべきである。このように、ピッチベル403は、準自然音声を合成するためにビルディングブロックとして利用することができる。
The duration of the
図5は、自然音声の処理のための1つのアプリケーションを示す。ステップ501では、既知の話者の自然音声が入力される。これは、図4に示されるように、音波401の入力に対応する。この自然音声は、レイズドコサイン402(図4参照)によって、又はゼロ位相j0+Δjを基準にして中心合わせされた別の適切な窓関数によって窓掛けされる。
FIG. 5 shows one application for processing natural speech. In
このように、自然音声は、ステップ503において提供されるピッチベル(図4のピッチベル403参照)に分解される。
In this way, the natural sound is broken down into pitch bells provided in step 503 (see
ステップ504では、ステップ503において提供されるピッチベルが、音声合成のための「ビルディングブロック」として利用される。処理の1つの方法は、ピッチベル自体を変えないが特定のピッチベルを省く又は特定のピッチベルを繰り返すことである。例えば、ピッチベルを4番目毎に省くと、これは、音声の音を異なるように変えること無く音声の速度を25%速くする。同様に、音声速度は、特定のピッチベルを繰り返すことによって減少することができる。
In
あるいは又は加えて、ピッチベルの距離は、ピッチを増減するために修正される。 Alternatively or additionally, the pitch bell distance is modified to increase or decrease the pitch.
ステップ505において、処理されたピッチベルは、擬似的に自然に聞こえる合成音声波形を生成するために重ねられる。
In
図6は、本発明の別のアプリケーションの例である。ステップ601において音声情報が提供される。音声情報は、音素、音素の継続時間及びピッチ情報を有する。斯かる音声情報は、最新のテキスト音声処理システムによって、テキストから生成することができる。
FIG. 6 is an example of another application of the present invention. In
ステップ602では、ステップ601において提供されるこの音声情報から、ダイフォンが抽出される。ステップ603では、ステップ601において提供された情報に基づいて、必要なダイフォンの時間軸上の位置及びピッチ輪郭が求められる。
In
ステップ604では、ステップ603で求められたようなタイミング及びピッチ条件に従って、ピッチベルが選択される。ステップ605では、擬似的に自然な音声出力を提供するために、選択されたピッチベルが連結される。
In
この手続きは、図7乃至図9に示されるような例によって更に示されている。 This procedure is further illustrated by an example as shown in FIGS.
図7は、文「HELLO WORLD!」の音声表記を示す。表記の第1の列701は、SAMPA標準表記における音素を含む。第2の列702は、個々の音素の継続時間をm秒で示す。第3の列はピッチ情報を有する。ピッチの動きは2つの数字、つまり、音素の継続時間のパーセンテージとしての位置、及びピッチ周波数(Hz)によって示される。
FIG. 7 shows a phonetic notation for the sentence “HELLO WORD!”. The
合成は、先に生成したダイフォンのデーターベースの中での検索から始まる。ダイフォンは、実際の音声から切り出され、或る音素から別の音素への遷移からなる。特定の言語のための全ての可能な音素の組合せが、音素境界のようないくつかの別途の情報とともに、このデータベースに記憶されなければならない。異なる話者の複数のデータベースがある場合、特定の話者の選択を合成装置への別途の入力とすることができる。 Compositing begins with a search in the previously generated diphone database. A diphone is cut out from actual speech and consists of a transition from one phoneme to another. All possible phoneme combinations for a particular language must be stored in this database, along with some extra information such as phoneme boundaries. If there are multiple databases of different speakers, the selection of a specific speaker can be a separate input to the synthesizer.
図8は、文「HELLO WORLD!」のためのダイフォン、即ち図7の列701の全ての音素の遷移を示す。
FIG. 8 shows the transition of all phonemes in the diphone for the sentence “HELLO WORLD!”,
図9は、音素境界の位置、ダイフォン境界及び合成されるべきピッチ周期位置の計算結果を示す。音素境界は、音素の継続時間を加えることによって計算される。例えば、音素「h」は、100msの沈黙の後に始まる。音素「シュワー(schwa)」は、155ms=100ms+55ms後に始まる、等である。 FIG. 9 shows the calculation results of the position of the phone boundary, the diphone boundary, and the pitch period position to be synthesized. Phoneme boundaries are calculated by adding the phoneme duration. For example, the phoneme “h” begins after 100 ms of silence. The phoneme “schwa” starts after 155 ms = 100 ms + 55 ms, and so on.
ダイフォン境界は、データーベースから、音素の継続時間のパーセンテージとして取り出される。個々の音素位置とダイフォン境界との両方が図9の上の図面901に示されており、ダイフォンの開始点が示されている。この開始点は、列702によって与えられる音素の継続時間及び列703に与えられる音素の継続時間のパーセンテージに基づいて計算される。
The diphone boundary is retrieved from the database as a percentage of the phoneme duration. Both the individual phoneme locations and the diphone boundaries are shown in the
図9の図面902は、「HELLO WORLD!」のピッチ輪郭を示す。ピッチ輪郭は、列703(図7参照)に含まれるピッチ情報に基づいて決定される。例えば、現在のピッチ位置が0,25秒の場合、ピッチ周期は最初の’|’の音素の50%だろう。対応するピッチは133Hzと139Hzとの間に存在する。それは、以下の一次線形の式で計算することができる。
次のピッチ位置は、0.2500+1/135.5=0.2574秒である。この計算のために(ERB−レートスケールのような)非線形関数を使用することも可能である。ERB(等価矩形帯域幅)は、心理音響測定値(Glasberg及びMooore(1990))から得られる尺度であり、人間の耳のマスク特性を考慮することによってより良好な表現を与える。周波数からERBへの変換のための公式は、以下の通りである
たとえ無声部分がピッチを有しないとしても、無声領域もピッチ周期位置でマークされることに注意されたい。 Note that the unvoiced area is also marked with the pitch period position, even if the unvoiced part has no pitch.
変化するピッチが図面902のピッチ輪郭によって与えられ、図面901内にも、変化する間隔を有する縦のライン903によって示されている。2つのライン903の間の間隔が大きくなればなるほど、ピッチは小さくなる。図面901及び902に与えられる音素、ダイフォン、及びピッチ情報は、合成されるべき音声のための基準となるものである。ダイフォンサンプル、即ちピッチベル(図4のピッチベル403参照)がダイフォンデータベースから取り出される。ダイフォンの各々に対して、そのダイフォンのための斯かる多数のピッチベルが連結され、多数のピッチベルはダイフォンの継続時間に対応し、ピッチベル間の間隔は、902の図面のピッチ輪郭によって与えられるような必要なピッチ周波数に対応する。
The changing pitch is given by the pitch profile in drawing 902 and is also shown in drawing 901 by
全てのピッチベルの連結の結果は、準自然的な合成音声である。これは、ダイフォン境界において位相に関連した不連続性が本発明によって防止されるからである。これは、ピッチ周期の位相不整合により斯かる不連続性が避けられない従来技術と対照的である。 The result of all pitch bell connections is a quasi-natural synthesized speech. This is because the present invention prevents phase related discontinuities at the diphone boundary. This is in contrast to the prior art where such discontinuities are unavoidable due to phase mismatch of the pitch period.
また、各ダイフォンの両側の継続時間が適切に調整されたので、韻律(ピッチ/継続時間)は適正である。ピッチも所望のピッチ輪郭関数と整合している。 In addition, since the duration time of both sides of each diphone is appropriately adjusted, the prosody (pitch / duration time) is appropriate. The pitch is also consistent with the desired pitch contour function.
図10は、本発明を実現するために、プログラムされた装置950(例えばパソコン)を示す。装置950は、特性位相差Δjを求める役割をなす音声分析モジュール951を有する。この目的のため、1つのダイフォン音声波を記憶するために音声分析モジュール951は記憶部952を有する。一定の位相差Δjを得るには、1つのダイフォンで十分である。
FIG. 10 shows a device 950 (eg, a personal computer) programmed to implement the present invention. The
更に、音声分析モジュール951はローパスフィルタモジュール953を有する。ローパスフィルタモジュール953は、記憶部952に記憶されたダイフォンの第1倍音を取り出す目的で、およそ150Hzのカットオフ周波数、又は別の適切なカットオフ周波数を有する。
Further, the
装置950のモジュール954は、ダイフォンの特定の期間内の最大エネルギー位置とその第1倍音のゼロ位相位置との間の距離を求める役割をなす(この距離は、位相差Δjに変換される)。これは、図2の例に示されているように、第1倍音のポジティブゼロ交差によって与えられるゼロ位相と倍音の期間内のダイフォンの最大値との間の位相差を求めることによって行うことができる。
音声分析の結果、音声分析モジュール951は、特性位相差Δj、従ってデータベースの全てのダイフォンに対して期間位置(そこにおいて、例えばレイズドコサイン窓がピッチベルを得るために中心合わせされている)を提供する。位相差Δjは記憶部955に記憶される。
As a result of the speech analysis,
装置950は、更に音声合成モジュール956を有する。音声合成モジュール956は、図2にも示すように、ピッチベル、即ち、窓関数によって窓掛けされたダイフォンサンプルの記憶のための記憶部957を有する。記憶部957は必ずしもピッチベルでなければならない必要はないことに注意されたい。全部のダイフォンを期間位置情報とともに記憶することができ、又はダイフォンは一定のピッチに単調化することができる。このようにして、合成モジュールの窓関数を使用することによってデータベースからピッチベルを取り出すことが可能である。
The
モジュール958はピッチベルを選択し、ピッチベルを必要なピッチに適合させる役割をなす。これは、モジュール958に供給される制御情報に基づいて行われる。
モジュール959は、モジュール960による音声出力を提供するために、モジュール958で選択されるピッチベルを連結する役割をなす。
音波 201
第1倍音 202
最大値 203
最大値 204
音波 401
レイズドコサイン 402
ピッチベル 403
音波 404
列 701
列 702
列 703
図面 901
図面 902
装置 950
音声分析モジュール 951
記憶部 952
ローパスフィルタモジュール 953
モジュール 954
記憶部 955
音声合成モジュール 956
記憶部 957
モジュール 958
モジュール 959
モジュール 960
Raised
Drawing 901
Drawing 902
Low
Claims (20)
− 音声信号の入力のためのステップ、
− 前記音声信号の第1倍音を得るためのステップ、
− 前記音声信号と前記第1倍音との間の位相差を求めるためのステップ、
を有する方法。 A method for speech analysis, the method comprising:
-Steps for the input of audio signals;
-Obtaining a first overtone of said audio signal;
-Determining a phase difference between the audio signal and the first overtone;
Having a method.
− 前記音声信号の最大値の位置を求めるためのステップ、
− 前記最大値と前記音声信号の前記第1倍音の位相ゼロとの間の前記位相差を求めるためのステップを有する請求項1の方法。 Obtaining the phase difference comprises:
-A step for determining the position of the maximum value of the audio signal;
The method of claim 1, comprising determining the phase difference between the maximum value and a phase zero of the first overtone of the audio signal.
− 音声信号と前記音声信号の前記第1倍音との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって窓掛けされたダイフォンサンプルを選択するためのステップ、
− 前記窓掛けされ選択されたダイフォンサンプルを連結するためのステップ、
を有する方法。 A method of synthesizing speech, the method comprising:
-Selecting a diphone sample windowed by a window function centered on a phase angle determined by the phase difference between the speech signal and the first harmonic of the speech signal;
-Concatenating the windowed and selected diphone samples;
Having a method.
− 窓掛けされたダイフォンサンプルを得るために前記窓関数によって前記音声を窓掛けするするステップ、
を更に有する請求項4乃至8のうちのいずれか1項の方法。 -Voice input step,
-Windowing the sound with the window function to obtain a windowed diphone sample;
The method of any one of claims 4 to 8, further comprising:
− 音声信号の第1倍音を得るための手段、
− 前記音声信号と前記第1倍音との間の位相差を求めるための手段、
を有する音声分析装置。 -Means for input of audio signals;
-Means for obtaining the first harmonic of the audio signal;
-Means for determining a phase difference between the audio signal and the first overtone;
A voice analysis apparatus having
− 前記窓掛けされ選択されたダイフォン信号を連結するための手段、
を有する音声合成装置。 Means for selecting a diphone sample windowed by a window function centered on a phase angle determined by a phase difference between an audio signal and the first harmonic of the audio signal;
-Means for concatenating the windowed and selected diphone signals;
A speech synthesizer.
前記窓掛けされたダイフォンを選択するための手段が、前記情報に基づいて選択を行う請求項14、15又は16のうちのいずれか1項の音声合成装置。 Means for inputting information representing the diphone and pitch contour;
17. The speech synthesizer according to claim 14, 15 or 16, wherein the means for selecting the windowed diphone selects based on the information.
− 音声信号と前記音声信号の第1倍音との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって窓掛けされたダイフォンサンプルを前記情報に基づいて選択するための手段と、前記窓掛けされ選択されたダイフォンサンプルを連結するための手段とを有する音声合成手段、
を有するテキスト音声システム。 -Language processing means for providing information representing the diphone and pitch contour;
Means for selecting, based on the information, diphone samples windowed by a window function centered on a phase angle determined by a phase difference between the speech signal and the first harmonic of the speech signal Speech synthesis means comprising: and means for connecting the windowed and selected diphone samples;
A text voice system.
− 窓掛けされたダイフォンサンプルを提供するために、音声信号と前記音声信号の第1倍音との間の位相差によって求められる位相角に対して中心合わせされる窓関数によって前記自然音声信号を窓掛けするための手段、
− 前記窓掛けされたダイフォンサンプルの処理のための手段、
− 前記窓掛けされ選択されたダイフォン信号を連結するための手段、
を有する音声処理システム。
-Means for input of a signal having a natural speech signal;
-To provide a windowed diphone sample, the natural speech signal is filtered by a window function centered on the phase angle determined by the phase difference between the speech signal and the first harmonic of the speech signal. Means for windowing,
-Means for processing said windowed diphone samples;
-Means for concatenating the windowed and selected diphone signals;
A voice processing system.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02076542 | 2002-04-19 | ||
PCT/IB2003/001249 WO2003090205A1 (en) | 2002-04-19 | 2003-04-01 | Method for synthesizing speech |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005523478A true JP2005523478A (en) | 2005-08-04 |
JP4451665B2 JP4451665B2 (en) | 2010-04-14 |
Family
ID=29225687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003586870A Expired - Lifetime JP4451665B2 (en) | 2002-04-19 | 2003-04-01 | How to synthesize speech |
Country Status (8)
Country | Link |
---|---|
US (1) | US7822599B2 (en) |
EP (1) | EP1500080B1 (en) |
JP (1) | JP4451665B2 (en) |
CN (1) | CN100508025C (en) |
AT (1) | ATE374990T1 (en) |
AU (1) | AU2003215851A1 (en) |
DE (1) | DE60316678T2 (en) |
WO (1) | WO2003090205A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006084859A (en) * | 2004-09-16 | 2006-03-30 | Advanced Telecommunication Research Institute International | Method and program for speech synthesis |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2374008B1 (en) | 2009-12-21 | 2012-12-28 | Telefónica, S.A. | CODING, MODIFICATION AND SYNTHESIS OF VOICE SEGMENTS. |
KR101475894B1 (en) * | 2013-06-21 | 2014-12-23 | 서울대학교산학협력단 | Method and apparatus for improving disordered voice |
US9905218B2 (en) * | 2014-04-18 | 2018-02-27 | Speech Morphing Systems, Inc. | Method and apparatus for exemplary diphone synthesizer |
CN108053821B (en) * | 2017-12-12 | 2022-09-06 | 腾讯科技(深圳)有限公司 | Method and apparatus for generating audio data |
CN109065068B (en) * | 2018-08-17 | 2021-03-30 | 广州酷狗计算机科技有限公司 | Audio processing method, device and storage medium |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
US5189701A (en) * | 1991-10-25 | 1993-02-23 | Micom Communications Corp. | Voice coder/decoder and methods of coding/decoding |
US5787398A (en) * | 1994-03-18 | 1998-07-28 | British Telecommunications Plc | Apparatus for synthesizing speech by varying pitch |
JPH11224099A (en) * | 1998-02-06 | 1999-08-17 | Sony Corp | Device and method for phase quantization |
JP2002515610A (en) * | 1998-05-11 | 2002-05-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Speech coding based on determination of noise contribution from phase change |
US6067511A (en) * | 1998-07-13 | 2000-05-23 | Lockheed Martin Corp. | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech |
KR100297832B1 (en) * | 1999-05-15 | 2001-09-26 | 윤종용 | Device for processing phase information of acoustic signal and method thereof |
-
2003
- 2003-04-01 AU AU2003215851A patent/AU2003215851A1/en not_active Abandoned
- 2003-04-01 US US10/511,369 patent/US7822599B2/en active Active
- 2003-04-01 DE DE60316678T patent/DE60316678T2/en not_active Expired - Lifetime
- 2003-04-01 EP EP03746870A patent/EP1500080B1/en not_active Expired - Lifetime
- 2003-04-01 CN CN03808627.1A patent/CN100508025C/en not_active Expired - Lifetime
- 2003-04-01 AT AT03746870T patent/ATE374990T1/en not_active IP Right Cessation
- 2003-04-01 JP JP2003586870A patent/JP4451665B2/en not_active Expired - Lifetime
- 2003-04-01 WO PCT/IB2003/001249 patent/WO2003090205A1/en active IP Right Grant
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006084859A (en) * | 2004-09-16 | 2006-03-30 | Advanced Telecommunication Research Institute International | Method and program for speech synthesis |
Also Published As
Publication number | Publication date |
---|---|
US20050131679A1 (en) | 2005-06-16 |
EP1500080A1 (en) | 2005-01-26 |
JP4451665B2 (en) | 2010-04-14 |
DE60316678D1 (en) | 2007-11-15 |
CN100508025C (en) | 2009-07-01 |
AU2003215851A1 (en) | 2003-11-03 |
DE60316678T2 (en) | 2008-07-24 |
ATE374990T1 (en) | 2007-10-15 |
EP1500080B1 (en) | 2007-10-03 |
CN1647152A (en) | 2005-07-27 |
WO2003090205A1 (en) | 2003-10-30 |
US7822599B2 (en) | 2010-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8326613B2 (en) | Method of synthesizing of an unvoiced speech signal | |
US8195464B2 (en) | Speech processing apparatus and program | |
JPH031200A (en) | Regulation type voice synthesizing device | |
JP3732793B2 (en) | Speech synthesis method, speech synthesis apparatus, and recording medium | |
JP4451665B2 (en) | How to synthesize speech | |
JP2904279B2 (en) | Voice synthesis method and apparatus | |
EP1543497B1 (en) | Method of synthesis for a steady sound signal | |
JP5175422B2 (en) | Method for controlling time width in speech synthesis | |
US7130799B1 (en) | Speech synthesis method | |
JPH09179576A (en) | Voice synthesizing method | |
JP3241582B2 (en) | Prosody control device and method | |
JP3532064B2 (en) | Speech synthesis method and speech synthesis device | |
Lehana et al. | Improving quality of speech synthesis in Indian Languages | |
JPH06250685A (en) | Voice synthesis system and rule synthesis device | |
Kim et al. | On the Implementation of Gentle Phone’s Function Based on PSOLA Algorithm | |
Vasilopoulos et al. | Implementation and evaluation of a Greek Text to Speech System based on an Harmonic plus Noise Model | |
JPH02153398A (en) | Voice recording device | |
JPH03198098A (en) | Device and method for synthesizing speech | |
JPH10254495A (en) | Method for synthesizing speech and device therefor | |
JPS63210898A (en) | Voice synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090501 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100105 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4451665 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140205 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |